高效智能故障处理中的系统工程

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

嘉宾 : 王亚雷 | 云兴维智 CEO

会议室 : 宴会厅

讲师介绍

演讲嘉宾:王亚雷

云兴维智 CEO

清华本科,美国德州大学奥斯汀分校硕士。十多年从事互联网服务平台,分布式 计算和数据存储的开发和管理工作。先后任职微软总部、eBay和Twitter总部, 拥有超过二十年的企业运维管理和研发工作经验。

2016年回国创立云兴维智(北京)科技有限公司,并担任CEO。公司提供面向企业云平台和在线应用的运维大数据平台服务,致力于多维度运维数据的收集、 整合、呈现、报警和智能分析,打通现有的运维数据孤岛, 运用人工智能解决企业运维运营的困境,帮助企业进行高效和精准的运维。

议题介绍

演讲:高效智能故障处理中的系统工程

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

复杂IT系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助AIOps能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。

主要内容:

  1. 报警的类型、报警压缩的困难和目标;
  2. 压缩算法和实践;
  3. 异常发现;
  4. RCA和知识库方案推荐。

听众受益:

  1. 如何做好落地的AIOps在故障分析中的实践,算法和平台工程;
  2. 探讨把算法落地的路径。
本网站图片存储由七牛云独家支持