SRE是谷歌提出的实践,旨在保障互联网服务的稳定性和性能,本专题将重点探讨企业在... 展开 >
李文韬,“SRE实践与思考”专场出品人,Manager of Site Reliability Engineering in eBay,目前在 eBay 带领团队负责全球网站的可靠性工程实践。在SRE和基础架构运维上,有十年以上的工作经验。所负责的运维项目和平台,支持了 eBay 内部好几代产品和架构的更替。两年前,开始主导在中国卓越中心组建团队,在全球范围内实践网站可靠性工程。侧重于结合传统决策系统和人工智能,深入挖掘应用特性来构建平台,预防和解决大型复杂分布式系统的可靠性问题。
李文韬,“SRE实践与思考”专场出品人,Manager of Site Reliability Engineering in eBay,目前在 eBay 带领团队负责全球网站的可靠性工程实践。在SRE和基础架构运维上,有十年以上的工作经验。所负责的运维项目和平台,支持了 eBay 内部好几代产品和架构的更替。两年前,开始主导在中国卓越中心组建团队,在全球范围内实践网站可靠性工程。侧重于结合传统决策系统和人工智能,深入挖掘应用特性来构建平台,预防和解决大型复杂分布式系统的可靠性问题。
SRE是谷歌提出的实践,旨在保障互联网服务的稳定性和性能,本专题将重点探讨企业在提高系统部署规模、改进可靠性和资源利用效率方面的指导思想与具体实践。
随着微博广告业务的迅速发展,相关的监控报警、自动化运维等基数设施也越来越重要。无论是代码的快速迭代,还是故障的迅速定位,我们都需要通过运维体系的建设去不断提高我们的效率,去优化我们的系统,而带给我们的就是系统可用性的提高以及服务质量的保证,从而避免广告收入的损失。
本次分享将为大家带来微博广告SRE体系的建设之路,以及在微博广告复杂的业务场景下,我们在监控报警、自动化、服务治理等方面遇到的困难以及解决方案。
主要内容:
1. 运维在广告体系中的价值
- 运维体系发展阶段
- SRE在微博广告中的价值
2. 海量指标监控平台Oops实践
- 自动化采集
- 配置化清洗
- 实时指标仓库
- 指标可视化
3. 复杂业务场景下的SRE建设之路
- 服务治理
- 有效的报警
- 全链路Trace系统
- 自动化运维平台Kunkka揭秘
听众收益
1. 如何在我们的业务中体现SRE的价值;
2. 复杂业务场景下如何提高系统可用性,减少收入损失;
2. 海量监控指标下,如何基于开源组件快速构建一个监控平台。
eBay作为电商先驱,2017年总商品交易额达884亿美元, 付款系统的可靠性和高可用至关重要,eBay目前支持信用卡借记卡支付和第三方的Paypal支付,将来还会支持Adyen,这些外部服务的可靠性也直接或间接影响eBay用户的付款体验,另外硬件基础设施,操作系统,JVM以及应用本身架构和代码质量等都会影响整个付款系统的可靠性。
本演讲从客户的角度出发,使用FCI(失败的用户交互数)这个指标来衡量系统的可靠性,围绕如何FCI的定义,如何收集FCI数据,如何可视化FCI,以及如何减少FCI,最终达到减少损失等话题来探讨和展开。
主要内容:
听众受益:
主要内容:
听众受益: