监控是IT系统运维中保障核心业务稳定可用的重要环节,随着应用规模迅速扩大及Dev... 展开 >
尤勇,“监控与分析(APM)”专场出品人,美团点评高级技术专家,2011年正式加入美团点评,一直从事基础架构相关工作,目前负责公司统一监控平台CAT、移动底层长连接Shark。
尤勇,“监控与分析(APM)”专场出品人,美团点评高级技术专家,2011年正式加入美团点评,一直从事基础架构相关工作,目前负责公司统一监控平台CAT、移动底层长连接Shark。
监控是IT系统运维中保障核心业务稳定可用的重要环节,随着应用规模迅速扩大及DevOps、微服务、容器等技术的快速发展,企业如何通过监测和诊断复杂应用程序的性能问题,来保证软件应用程序的良好运行(预期的服务),本专题将进行重点讨论。
微服务的盛行推动了链路追踪和应用性能监控系统的发展,在国外几款优秀的商业应用性能监控系统面前,开源社区所提供系统相对还不够完善。而开源系统的生命力来源于社区的贡献,Apache SkyWalking自2015年的V1发展到现在的V6版本,一直致力于吸收来自开源社区的力量来进一步完善系统。
V3版本探针组件的的插件化在我们看来是成功的,V3版本发布后社区贡献了大量的插件,同时辅助测试和完善了大量的插件。后台分析模型经历V3-V5的逐步完善和经验积累后,决定升级到V6,完善的设计文档,不同深度且清晰的可扩展点,敞开怀抱迎接来自社区的贡献。
主要内容:
听众受益:
在微服务时代,如何针对大规模分布式应用进行有效监控的挑战也越来越大,阿里内部在发展过程中也曾面临同样的问题,全链路监控系统(鹰眼)自2010年诞生以来,一直在经历着不断的升级,演进与创新;最新一代的全链路监控系统,在与阿里中间件产品无缝集成的基础之上,更广泛的支持十余种通用的第三方中间件产品,最大限度做到监控的广度;同时将基础设施层、分布式应用层、业务逻辑层与客户端层进行了全链路跟踪;技术层面,通过时序检测、根因分析、全息排查等自动化诊断技术,解决海量实时监控的痛点,提升应用及系统运维效率。
听众受益:
监控报警平台是大多数互联网公司最重要的基础设施之一,可以帮助开发工程师有效预警可能发生的故障,准确定位故障发生的原因和影响范围,及时发现代码中潜在的BUG,提高应用系统的健壮性,等等。
Watcher平台是基于多个开源的监控和报警项目来(graphite和icinga等)开发的去哪儿网统一监控报警平台,目前承担了去哪儿网大部分的报警和监控。
本次分享主要讲述Watcher平台产生的背景和原因,架构的设计和演化,以及我们在开发和运维过程中遇到的问题及解决方案,分享过程我会主要侧重实战经验和最佳实践的讲述和总结。
主要内容:
听众受益:
如何快速发现产品故障是运维领域的重要课题,而监控系统是故障发现中的重要一环。Noah监控系统是百度智能云自主研发的监控平台,该平台提供海量指标采集、分析计算、存储、报警通告等功能,为提升百度各业务的可用性和用户体验做出了重要的贡献。
本次演讲将重点剖析百度云Noah监控系统的重要一环 ——报警通告系统。
报警通告系统包括异常判断、事件管理、报警发送三个部分。
在报警通告部分,我们将介绍报警通告系统如何轻松应对每秒千万级别指标的异常判断?如何支撑智能异常检测和多维度数据分析等最前沿的AIOps算法的落地。
在事件管理部分,我们将介绍如何建立报警的逐级通告机制,防止运维人员遗漏核心报警。
在报警发送部分,我们将介绍如何挖掘异常事件之间的潜在关联并动态合并,以及如何应对报警风暴对系统架构的冲击。
最后,我们会总结百度云监控的工程实践经验 。
主要内容:
听众受益: