七牛存储运维实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

嘉宾 : 林天智 | 七牛存储&直播运维 负责人

讲师介绍

演讲嘉宾:林天智

七牛存储&直播运维 负责人

在七牛曾经做过存储研发,转到数据处理,后面参与到直播调度相关的设计以及研发,再后来转到技术保障部作为存储&直播运维的负责人,有5年的golang编程经验,对分布式有一定经验,对k8s有一定了解,运维方面有大规模运维改造的实践经验。

议题介绍

演讲:七牛存储运维实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00
  1. 七牛原本的告警系统是通过zabbix来触发,然后有一个人工告警通知的团队来通知各个业务线告警,再由各自的运维团队处理告警。这个在规模小的时候没有问题,但是在机器规模变大的时候会遇到很多问题,告警数量爆增,信息流单项无法确认,缺乏历史记录等。需要针对这个来做改造,但是过程中会遇到大量告警如何迁移,如何保证不影响当前的正常工作等,中间运用到一些开源服务比如prometheus,pushgateway,node_exporter等,以及一些自己开发的系统。最终存储运维相关的故障减少80%以上,以及不需要人工告警团队再继续通知。
  2. 资源利用以及集群复制。当前存储的部署是基于物理机部署,对于资源利用很不充分,也不利于集群的复制(私有云),会从这些角度讲如何从物理集群迁移到容器集群。

主要内容:

  1. 监控数据搜集;
  2. 告警收敛;
  3. 告警后续处理;
  4. 容器化方案。

听众受益:

  1. 灵活运用开源组件;
  2. 如何自动化的思路,避免无意义的工作;
  3. 容器化的思路。
本网站图片存储由七牛云独家支持