15年加入百度智能云事业部,目前负责百度云Noah监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。
15年加入百度智能云事业部,目前负责百度云Noah监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。
如何快速发现产品故障是运维领域的重要课题,而监控系统是故障发现中的重要一环。Noah监控系统是百度智能云自主研发的监控平台,该平台提供海量指标采集、分析计算、存储、报警通告等功能,为提升百度各业务的可用性和用户体验做出了重要的贡献。
本次演讲将重点剖析百度云Noah监控系统的重要一环 ——报警通告系统。
报警通告系统包括异常判断、事件管理、报警发送三个部分。
在报警通告部分,我们将介绍报警通告系统如何轻松应对每秒千万级别指标的异常判断?如何支撑智能异常检测和多维度数据分析等最前沿的AIOps算法的落地。
在事件管理部分,我们将介绍如何建立报警的逐级通告机制,防止运维人员遗漏核心报警。
在报警发送部分,我们将介绍如何挖掘异常事件之间的潜在关联并动态合并,以及如何应对报警风暴对系统架构的冲击。
最后,我们会总结百度云监控的工程实践经验 。
主要内容:
听众受益: