Tokopedia如何简化事件管理
在Tokopedia,印度尼西亚最大的独角兽之一,数字转型不仅仅是数字化手工过程和拥抱新的技术。毕竟,电子商务巨头于2009年出生数字,自增添了数字物流和金融服务,以至于其产品数量。
随着其产品组合和客户群的增长,很明显,有必要重新汇集其技术堆栈以跟上服务于920多万商家和企业家的业务。
出于一开始,它远离单片应用程序,以更可扩展的基于微服务的架构,可提供集装箱应用程序。它的工程团队在雅加达遍布雅加达,新加坡和印度也建立了一个事件管理工具,以解决它们的问题。
但维护内部管理工具将工程资源远离其专注于开发应用程序来解决客户问题并提高客户体验。那是它决定寻找外面的解决方案。
据托克德副总裁Rajesh Gopala Krishnan称,它遇到了一种基于云的事件响应平台,发现它“以顺利的方式实现事故管理”。
克里希南说,在概念验证项目中推出了五个托克戴亚州服务的PageRduty,该公司看到了服务性能指标的戏剧性改善,如平均修复(MTTR),并决定扩大超过300种服务的部署。
与此同时,克里希南的团队能够自定义PageDuty到Tokopedia的事件管理工作流程,这进一步简化以确保与工程师使用的其他工具集成。
如今,Tokopedia的工程师配备了PageRduty应用程序,将与单一事件进行相关警报,减轻了有必要了解警报之海。“而不是处理分散的噪音,我们只是去一个地方获得事件的细节,”克里希南说。
此外,PageRduty还可以将事件升级到合适的人,以根据Tokopedia的升级政策解决。凭借其内部事件管理系统,托克戴亚工程师不得不手动查找该人在达到他或她之前是谁。
事件已解决后,该工具将整理有关事件的所有信息,包括其发生的时间和地点,该服务受到影响,何处受到影响,并且第一次看其的人员。
克里希南说:“所有这些都必须手动捕获,但现在自动推进到我们的票务系统中。”“所以,当我们在后期阶段尝试进行根本原因分析时,这是一个仰望机票的问题。”
为了降低假阳性率,基于一周的可观察性指标,克里希南的团队将警报的公差水平调整为每周四到五次,以及服务之间的依赖。
克里希南表示,工程团队的生产力提升,因为他们现在可以避免反复上运作相同的问题。通过引发事件的根本原因分析,Tokopedia能够提高其产品的质量。
Krishnan表示,PageRduty也用于监测正在向一小组用户推出的新功能的性能,并补充说,这将有助于在将功能部署到Tokopedia的整个中需要修复的身份异常和问题用户群。