监控与分析(APM)

会议室:宴会厅
出品人:尤勇

监控是IT系统运维中保障核心业务稳定可用的重要环节,随着应用规模迅速扩大及Dev... 展开 >

专题出品人:尤勇

美团点评 高级技术专家

尤勇,“监控与分析(APM)”专场出品人,美团点评高级技术专家,2011年正式加入美团点评,一直从事基础架构相关工作,目前负责公司统一监控平台CAT、移动底层长连接Shark。

专题出品人:尤勇

美团点评 高级技术专家

尤勇,“监控与分析(APM)”专场出品人,美团点评高级技术专家,2011年正式加入美团点评,一直从事基础架构相关工作,目前负责公司统一监控平台CAT、移动底层长连接Shark。

地点:宴会厅

专题:监控与分析(APM)

监控是IT系统运维中保障核心业务稳定可用的重要环节,随着应用规模迅速扩大及DevOps、微服务、容器等技术的快速发展,企业如何通过监测和诊断复杂应用程序的性能问题,来保证软件应用程序的良好运行(预期的服务),本专题将进行重点讨论。

by 彭勇升

永辉云计算 合伙人
Apache SkyWalking V6.0可定制开源APM

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star01

微服务的盛行推动了链路追踪和应用性能监控系统的发展,在国外几款优秀的商业应用性能监控系统面前,开源社区所提供系统相对还不够完善。而开源系统的生命力来源于社区的贡献,Apache SkyWalking自2015年的V1发展到现在的V6版本,一直致力于吸收来自开源社区的力量来进一步完善系统。
V3版本探针组件的的插件化在我们看来是成功的,V3版本发布后社区贡献了大量的插件,同时辅助测试和完善了大量的插件。后台分析模型经历V3-V5的逐步完善和经验积累后,决定升级到V6,完善的设计文档,不同深度且清晰的可扩展点,敞开怀抱迎接来自社区的贡献。

主要内容:

  1. 预提供的指标修改,基于已有函数的指标扩展,基础函数的新增;
  2. 集群管理模块插件的开发;
  3. 数据源适配器插件的开发;
  4. 不同数据库实现的开发;
  5. 预警模块的增强。

听众受益:

  1. 了解SkyWalking V6的特性和实现;
  2. 应用性能系统和开源社区爱好者了解如何参与进来;
  3. 商业公司了解该如何基于开源版本构建商业化的应用性能监控系统。

by 闫鹏

阿里云 ARMS技术负责人
全链路监控系统(鹰眼)在阿里巴巴的技术实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star01

在微服务时代,如何针对大规模分布式应用进行有效监控的挑战也越来越大,阿里内部在发展过程中也曾面临同样的问题,全链路监控系统(鹰眼)自2010年诞生以来,一直在经历着不断的升级,演进与创新;最新一代的全链路监控系统,在与阿里中间件产品无缝集成的基础之上,更广泛的支持十余种通用的第三方中间件产品,最大限度做到监控的广度;同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,通过时序检测、根因分析、全息排查等自动化诊断技术,解决海量实时监控的痛点,提升应用及系统运维效率。

听众受益:

  1. 了解搭建全链路监控系统的全栈技术架构体系,过程踩到的“那些坑”,以及解决方案;
  2. 了解分布式系统中快速问题发现及诊断的方法论及最佳实践;
  3. 基于自发现的应用拓扑,异常检测及智能诊断,了解阿里监控体系的技术创新与探索。

by 郑松宽

去哪儿网 高级运维开发工程师
去哪儿网监控报警平台的设计和演化

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

 

监控报警平台是大多数互联网公司最重要的基础设施之一,可以帮助开发工程师有效预警可能发生的故障,准确定位故障发生的原因和影响范围,及时发现代码中潜在的BUG,提高应用系统的健壮性,等等。
Watcher平台是基于多个开源的监控和报警项目来(graphite和icinga等)开发的去哪儿网统一监控报警平台,目前承担了去哪儿网大部分的报警和监控。
本次分享主要讲述Watcher平台产生的背景和原因,架构的设计和演化,以及我们在开发和运维过程中遇到的问题及解决方案,分享过程我会主要侧重实战经验和最佳实践的讲述和总结。

主要内容:

  1. 为什么要做Watcher平台;
  2. 监控系统的设计和演化、问题和经验;
  3. 报警系统的设计和演化、问题和经验;
  4. 经验和最佳实践总结。

听众受益:

  1. 理解去哪儿监控报警平台(Watcher)的架构和实现;
  2. Watcher基于多个开源项目开发,在开发成本和性能方面寻求到了一个平衡,这对中小型互联网公司监控报警系统的开发具有借鉴意义;
  3. 学习到graphite和icinga等开源项目的使用经验和最佳实践。

by 周伟

百度 智能云事业部资深研发工程师
百度云报警通告系统的下一幕

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

如何快速发现产品故障是运维领域的重要课题,而监控系统是故障发现中的重要一环。Noah监控系统是百度智能云自主研发的监控平台,该平台提供海量指标采集、分析计算、存储、报警通告等功能,为提升百度各业务的可用性和用户体验做出了重要的贡献。


本次演讲将重点剖析百度云Noah监控系统的重要一环 ——报警通告系统。

报警通告系统包括异常判断、事件管理、报警发送三个部分。

在报警通告部分,我们将介绍报警通告系统如何轻松应对每秒千万级别指标的异常判断?如何支撑智能异常检测和多维度数据分析等最前沿的AIOps算法的落地。

在事件管理部分,我们将介绍如何建立报警的逐级通告机制,防止运维人员遗漏核心报警。

在报警发送部分,我们将介绍如何挖掘异常事件之间的潜在关联并动态合并,以及如何应对报警风暴对系统架构的冲击。
最后,我们会总结百度云监控的工程实践经验 。

主要内容:

  1. 报警通告系统存在的挑战;
  2. 方案介绍(AIOps算法的落地、逐级通告、报警合并);
  3. 报警通告系统的架构;
  4. 工程实践经验。

听众受益:

  1. 学习AIOps监控相关算法的落地方案;
  2. 学习逐级通告和报警合并的设计方案;
  3. 学习百度云监控的工程实践经验。
本网站图片存储由七牛云独家支持