百度变更发布检查从人工到智能进阶

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

嘉宾 : 陈云 | 百度 智能云事业部资深研发工程师

会议室 : 宴会厅

讲师介绍

演讲嘉宾:陈云

百度 智能云事业部资深研发工程师

陈云,毕业于中国科学院,2015年加入百度,目前在百度云从事智能运维AIOps相关领域的工作,前后参与负责了时序指标的异常检测,发布智能检查,报警收敛等工作,期间共发表5篇专利。设计研发的智能参数配置平台为百度百万监控指标自动配置算法、参数;发布智能检查平台成功拦截数百次异常变更,减少业务损失。

议题介绍

演讲:百度变更发布检查从人工到智能进阶

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

互联网产品迭代速度非常之快,百度每年有数以万计的程序变更。但变化伴随着风险,据统计54%的服务故障来源于发布。为了减少变更发布故障带来的损失,更好的管理海量规模的发布变更过程,百度智能变更(BID)产品应运而生。BID提供了包含自动化部署、分级发布和变更检查的完整解决方案。

 

本次演讲将重点讲述如何对变更进行检查。随着模块监控逐渐完善,很多模块都有数以十万计监控数据,依靠人工配置检查指标列表是不可完成的任务。为了应对海量指标检查的需求,我们利用AIOps相关技术,设计出了一套可根据历史变更及对照组情况自动判断指标状态的智能检测算法。该算法不需要人工配置参数,通过自动训练参数并准确地判断异常,并且具备较好的普适性。最后,我们将展示智能发布检查在百度的具体实践效果。

主要内容:

  1. 故障来源及分布;
  2. 分级发布机制;
  3. 智能发布检查算法(异常定义、算法流程、基于T检验的指标变化度量、基于历史变更的异常变化检测、基于对照组的异常变化检测);
  4. 百度变更发布智能检查实践。

听众收益:

  1. 学习尽可能限制变更过程中异常影响范围的机制;
  2. 理解变更检查在变更过程中的重要地位和作用;
  3. 学习如果利用AIOps相关技术对变更过程中指标状态进行智能判断的方法。
本网站图片存储由七牛云独家支持