背景
在AI训练过程中,传统算法落地流程从申请机器、配置环境、拉取数据、处理数据、算法训练、调试、模型测试、服务化上线全流程,算法工程师在每个环境中都浪费了很多时间,而不是主要集中在算法模型的构建上:
- 申请算力
- 环境开发
- 代码开发
- 任务流编排
- 任务调式
- 任务流调式
- 定时调度
因此,需要提供一站式的AI训练平台,从平台架构上解决问题: - 资源算力
- 工作内容定时重复
- 框架多样,版本多样
- 训练耗时
- 超参搜索
- 模型服务化
产品功能
AI训练平台是云原生一站式机器学习/深度学习AI平台,提供如下功能:
- sso/oauth2认证
- 多租户/多项目组
- 拖拉拽任务流pipeline编排
- 多机多卡分布式算法训练
- 超参搜索
- 推理服务VGPU
- 标注平台自动化标注
- 大模型微调
- 私有知识库
- AI大模型商店
产品架构
完整的平台包含如下:
基础设施
- 1、k8s集群:统筹平台cpu/gpu等算力,提供划分多资源组
- 2、分布式存储:提供多机分布式下文件处理,外部存储挂载,项目组挂载绑定,个人存储空间/组空间等多种形式,平台内存储空间不需要迁移
- 3、监控体系OAP:p8s、elk、istio
基础服务
- 1、分布式:tf/pytorch/mxnet/valcano/ray等
- 2、超参搜索:nni/katib
平台Portal部分
- 1、用户管理、权限管理、项目组管理or租户管理
- 2、在线构建镜像
- 3、在线开发
- 4、pipeline拖拉拽
- 5、超参搜索
- 6、推理服务管理












网友评论