近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。... 展开 >
岳洪达,"AIOps实践与探索"专场出品人,百度智能云事业部智能运维经理。毕业于哈尔滨工业大学,先后从事DevOps落地、PaaS平台研发、AIOps方向研发和管理工作,目前主要负责智能运维平台架构团队管理工作。带领团队在AIOps领域持续探索,积累了丰富的AIOps研发、落地实践经验,多次在国内外行业会议交流与分享。
岳洪达,"AIOps实践与探索"专场出品人,百度智能云事业部智能运维经理。毕业于哈尔滨工业大学,先后从事DevOps落地、PaaS平台研发、AIOps方向研发和管理工作,目前主要负责智能运维平台架构团队管理工作。带领团队在AIOps领域持续探索,积累了丰富的AIOps研发、落地实践经验,多次在国内外行业会议交流与分享。
近年来,随着大数据、机器学习和AI技术的飞速发展,智能化运维成为运维的热点领域。本专题将重点探讨如何将大数据和机器学习的方法引入运维,以提升运维的能力和效率,并辅助业务生产。
互联网产品迭代速度非常之快,百度每年有数以万计的程序变更。但变化伴随着风险,据统计54%的服务故障来源于发布。为了减少变更发布故障带来的损失,更好的管理海量规模的发布变更过程,百度智能变更(BID)产品应运而生。BID提供了包含自动化部署、分级发布和变更检查的完整解决方案。
本次演讲将重点讲述如何对变更进行检查。随着模块监控逐渐完善,很多模块都有数以十万计监控数据,依靠人工配置检查指标列表是不可完成的任务。为了应对海量指标检查的需求,我们利用AIOps相关技术,设计出了一套可根据历史变更及对照组情况自动判断指标状态的智能检测算法。该算法不需要人工配置参数,通过自动训练参数并准确地判断异常,并且具备较好的普适性。最后,我们将展示智能发布检查在百度的具体实践效果。
主要内容:
听众收益:
随着游戏业务监控建设不断完善,海量业务故障时产生成百上千条告警,如何智能进行告警收敛、定位故障根源、实时统计业务影响是现阶段游戏运营面临的一个难题。本次分享以覆盖上百款游戏的智能故障定位平台出发,介绍腾讯游戏在智能异常检测、故障关联分析、故障知识图谱等方面的技术探索。
主要内容:
听众收益:
调度系统作为CDN的核心模块,对业务的质量、成本和稳定性等各方面起决定性作用。随着业务类型的快速变化,从传统的图片等小文件,到点播流媒体、直播、动态加速,调度系统也随之在不停的迭代更新以更加适应业务形态的调度模型,在业务和系统快速变化之下的稳定性、效率、智能运营是摆在运维面前的难题。希望这次可以深入浅出地介绍多次负责护航阿里“双十一”和2018俄罗斯世界杯的视频云智能调度系统,以及智能化运维在业务发展中的演进及其背后的思考。
主要内容:
听众受益:
复杂IT系统中故障的高效发现和排除问题的解决是一个复杂的系统工程,不能仅仅依赖一个单一的功能或算法。我们在实践中总结出一套帮助AIOps能够在企业中落地的算法、功能和支撑平台。报警压缩能够帮助我们在众多的重复和无效报警中减少报警数量,发现重复报警中的最重要的报警条,这个类似使用根因分析发现众多指标中造成突变的根源指标。报警压缩存在一个重要的检验因素:即不能错误压缩而造成漏报,我们在实践中作出了很多努力防止这种情况。异常的自动发现帮助我们从固定阈值报警中解放出来,异常算法需要根据强周期和弱周期分开计算。在高效发现问题的基础上,通过指标的关联分析和日志、事件的关联,帮助操作人员定位故障,使用知识库推荐故障的根源和解决方案。
主要内容:
听众受益: