美文网首页人工智能
AI训练平台架构设计

AI训练平台架构设计

作者: sknfie | 来源:发表于2024-09-26 22:49 被阅读0次

背景

在AI训练过程中,传统算法落地流程从申请机器、配置环境、拉取数据、处理数据、算法训练、调试、模型测试、服务化上线全流程,算法工程师在每个环境中都浪费了很多时间,而不是主要集中在算法模型的构建上:

  • 申请算力
  • 环境开发
  • 代码开发
  • 任务流编排
  • 任务调式
  • 任务流调式
  • 定时调度
    因此,需要提供一站式的AI训练平台,从平台架构上解决问题:
  • 资源算力
  • 工作内容定时重复
  • 框架多样,版本多样
  • 训练耗时
  • 超参搜索
  • 模型服务化

产品功能

AI训练平台是云原生一站式机器学习/深度学习AI平台,提供如下功能:

  • sso/oauth2认证
  • 多租户/多项目组
  • 拖拉拽任务流pipeline编排
  • 多机多卡分布式算法训练
  • 超参搜索
  • 推理服务VGPU
  • 标注平台自动化标注
  • 大模型微调
  • 私有知识库
  • AI大模型商店

产品架构

完整的平台包含如下:

基础设施

  • 1、k8s集群:统筹平台cpu/gpu等算力,提供划分多资源组
  • 2、分布式存储:提供多机分布式下文件处理,外部存储挂载,项目组挂载绑定,个人存储空间/组空间等多种形式,平台内存储空间不需要迁移
  • 3、监控体系OAP:p8s、elk、istio

基础服务

  • 1、分布式:tf/pytorch/mxnet/valcano/ray等
  • 2、超参搜索:nni/katib

平台Portal部分

  • 1、用户管理、权限管理、项目组管理or租户管理
  • 2、在线构建镜像
  • 3、在线开发
  • 4、pipeline拖拉拽
  • 5、超参搜索
  • 6、推理服务管理

相关文章

网友评论

    本文标题:AI训练平台架构设计

    本文链接:https://www.haomeiwen.com/subject/wonhrjtx.html