百度深度学习平台Kubernetes实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

嘉宾 : 杨金锋 | 百度 资深研发工程师

会议室 : 光大9

讲师介绍

演讲嘉宾:杨金锋

百度 资深研发工程师

华中科技大学本硕,2014年加入百度。先后在广告业务线负责测试平台化建设,容器化微服务持续交付系统建设,现专注于基于Kubernetes的深度学习/机器学习平台化建设,支撑深度学习/机器学习在公司内部统一平台化、云上产品化、对外技术输出的实践与落地。

议题介绍

演讲:百度深度学习平台Kubernetes实践

难度系数:

困难等级star01困难等级star01困难等级star01困难等级star01困难等级star00

PaddlePaddle(PArallel Distributed Deep Learning)是百度于2016年9月开源的一款深度学习框架,具有易用,高效,灵活和可伸缩等特点,为百度内部多项产品提供深度学习算法支持。但是目前没有一个统一的平台来对Paddle进行运营,各自业务线各自搭建使得资源使用不够合理,接入使用成本也比较高。因此迫切需要在公司内搭建一个统一的Paddle深度学习平台,为公司内外各业务线使用Paddle提供一整套的服务,其中包括模型训练、模型评估、模型预测,对资源进行统一调度,提高资源利用率、提高服务的易用性,安全性等。
本次演讲将重点讲述基于Kubernetes构建PaddlePaddle深度学习平台(PaddleCloud)的实践,主要包括Paddle计算模型在Kubernetes中的建模、容器Runtime适配、容错与弹性伸缩、性能优化与调度等。

主要内容:

  1. PaddleCloud介绍;
  2. 为什么需要把PaddleCloud运行在Kubernetes上;
  3. PaddleCloud技术细节;
  4. PaddleCloud在百度的混合云实战;
  5. PaddleCloud后续Roadmap。

听众受益:

  1. 学习在Kubernetes之上构建深度学习平台的实践;
  2. 学习分布式深度学习与容器化平台结合的技术实践与落地。
本网站图片存储由七牛云独家支持