AIOps实践与探索

会议室:宴会厅
出品人:岳洪达

近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。... 展开 >

专题出品人:岳洪达

百度 智能云事业部智能运维经理

岳洪达,"AIOps实践与探索"专场出品人,百度智能云事业部智能运维经理。毕业于哈尔滨工业大学,先后从事DevOps落地、PaaS平台研发、AIOps方向研发和管理工作,目前主要负责智能运维平台架构团队管理工作。带领团队在AIOps领域持续探索,积累了丰富的AIOps研发、落地实践经验,多次在国内外行业会议交流与分享。

专题出品人:岳洪达

百度 智能云事业部智能运维经理

岳洪达,"AIOps实践与探索"专场出品人,百度智能云事业部智能运维经理。毕业于哈尔滨工业大学,先后从事DevOps落地、PaaS平台研发、AIOps方向研发和管理工作,目前主要负责智能运维平台架构团队管理工作。带领团队在AIOps领域持续探索,积累了丰富的AIOps研发、落地实践经验,多次在国内外行业会议交流与分享。

地点:宴会厅

专题:AIOps实践与探索

近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。本专题将重点探讨如何将大数据和机器学习的方法引入运维,以提升运维的能力和效率,并辅助业务生产。

by 陈云

百度 智能云事业部资深研发工程师
百度变更发布检查从人工到智能进阶

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

互联网产品迭代速度非常之快,百度每年有数以万计的程序变更。但变化伴随着风险,据统计54%的服务故障来源于发布。为了减少变更发布故障带来的损失,更好的管理海量规模的发布变更过程,百度智能变更(BID)产品应运而生。BID提供了包含自动化部署、分级发布和变更检查的完整解决方案。

 

本次演讲将重点讲述如何对变更进行检查。随着模块监控逐渐完善,很多模块都有数以十万计监控数据,依靠人工配置检查指标列表是不可完成的任务。为了应对海量指标检查的需求,我们利用AIOps相关技术,设计出了一套可根据历史变更及对照组情况自动判断指标状态的智能检测算法。该算法不需要人工配置参数,通过自动训练参数并准确地判断异常,并且具备较好的普适性。最后,我们将展示智能发布检查在百度的具体实践效果。

主要内容:

  1. 故障来源及分布;
  2. 分级发布机制;
  3. 智能发布检查算法(异常定义、算法流程、基于T检验的指标变化度量、基于历史变更的异常变化检测、基于对照组的异常变化检测);
  4. 百度变更发布智能检查实践。

听众收益:

  1. 学习尽可能限制变更过程中异常影响范围的机制;
  2. 理解变更检查在变更过程中的重要地位和作用;
  3. 学习如果利用AIOps相关技术对变更过程中指标状态进行智能判断的方法。

by 刘伟

腾讯互娱 技术运营部高级工程师
智能运维助力游戏故障定位

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star01

随着游戏业务监控建设不断完善,海量业务故障时产生成百上千条告警,如何智能进行告警收敛、定位故障根源、实时统计业务影响是现阶段游戏运营面临的一个难题。本次分享以覆盖上百款游戏的智能故障定位平台出发,介绍腾讯游戏在智能异常检测、故障关联分析、故障知识图谱等方面的技术探索。

主要内容:

  1. 利用动态阈值方法进行KPI曲线异常检测;
  2. 基于自然语音处理的实时舆情检测; 
  3. 故障定位领域关联分析及知识图谱技术。

听众收益:

  1. 学习智能监控全流程系统架构设计;
  2. 学习腾讯游戏在故障定位领域探索的经验;
  3. 掌握海量数据下动态阈值监控方法、实时舆情检测模型;
  4. 掌握构建专业知识图谱方法及知识图谱在故障领域应用。

by 不畏

阿里云 视频云运维专家
智能的大脑——谈阿里视频云智能调度系统的演进

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

调度系统作为CDN的核心模块,对业务的质量、成本和稳定性等各方面起决定性作用。随着业务类型的快速变化,从传统的图片等小文件,到点播流媒体、直播、动态加速,调度系统也随之在不停的迭代更新以更加适应业务形态的调度模型,在业务和系统快速变化之下的稳定性、效率、智能运营是摆在运维面前的难题。希望这次可以深入浅出地介绍多次负责护航阿里“双十一”和2018俄罗斯世界杯的视频云智能调度系统,以及智能化运维在业务发展中的演进及其背后的思考。

主要内容:

  1. 阿里云视频云调度系统的演进之路;
  2. 在调度演进中的智能化运维思考和实践;
  3. 调度系统全盘智能化之下的运维价值;

听众受益:

  1. 了解阿里视频云调度系统在业务变化下的演进实践;
  2. 了解在系统快速变化下的智能化运维思考模式。

by 王亚雷

云兴维智 CEO
高效智能故障处理中的系统工程

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

复杂IT系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助AIOps能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。

主要内容:

  1. 报警的类型、报警压缩的困难和目标;
  2. 压缩算法和实践;
  3. 异常发现;
  4. RCA和知识库方案推荐。

听众受益:

  1. 如何做好落地的AIOps在故障分析中的实践,算法和平台工程;
  2. 探讨把算法落地的路径。
本网站图片存储由七牛云独家支持