去哪儿网监控报警平台的设计和演化

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

嘉宾 : 郑松宽 | 去哪儿网 高级运维开发工程师

讲师介绍

演讲嘉宾:郑松宽

去哪儿网 高级运维开发工程师

郑松宽,2013年加入去哪儿网平台事业部运维保障中心,主要负责监控报警平台(Watcher)和应用运维自动化平台(Portal)的设计、开发和运维。5年时间里经历了2个平台的多次演化过程,遇到过许多困难,踩到过大大小小的坑,找到了众多问题的解决方案,积累了宝贵的实战经验。

议题介绍

演讲:去哪儿网监控报警平台的设计和演化

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

 

监控报警平台是大多数互联网公司最重要的基础设施之一,可以帮助开发工程师有效预警可能发生的故障,准确定位故障发生的原因和影响范围,及时发现代码中潜在的BUG,提高应用系统的健壮性,等等。
Watcher平台是基于多个开源的监控和报警项目来(graphite和icinga等)开发的去哪儿网统一监控报警平台,目前承担了去哪儿网大部分的报警和监控。
本次分享主要讲述Watcher平台产生的背景和原因,架构的设计和演化,以及我们在开发和运维过程中遇到的问题及解决方案,分享过程我会主要侧重实战经验和最佳实践的讲述和总结。

主要内容:

  1. 为什么要做Watcher平台;
  2. 监控系统的设计和演化、问题和经验;
  3. 报警系统的设计和演化、问题和经验;
  4. 经验和最佳实践总结。

听众受益:

  1. 理解去哪儿监控报警平台(Watcher)的架构和实现;
  2. Watcher基于多个开源项目开发,在开发成本和性能方面寻求到了一个平衡,这对中小型互联网公司监控报警系统的开发具有借鉴意义;
  3. 学习到graphite和icinga等开源项目的使用经验和最佳实践。
本网站图片存储由七牛云独家支持