美文网首页
AI算力平台基础设施架构设计

AI算力平台基础设施架构设计

作者: sknfie | 来源:发表于2024-09-27 11:46 被阅读0次

概述

AI算力平台基础设施采用k8s及OAP相关技术,实现云原生的AI最佳实践。

背景

AI训练使用过程中需要面临的问题:

  • gpu资源利用率不足
  • 异构算力环境,区分cpu/gpu等类型
  • 超大数据量必须使用分布式
  • 个人代码和环境都依赖了固定的机器,机器的回收,损坏,裁撤,磁盘不足等事件频繁,花费很大的代价
  • gpu训练中,优先考虑通过扩容提升效率,而忽视利用率的优化

因此,需要提供如下解决方案:

  • 统一管理底层算力,最大程度上提高资源的利用率
  • 租户间算力自动均衡,任务等待时长不超过5分钟
  • 支持边缘集群模式,利用边缘设备资源,避免数据同步消耗大量资源
  • 自动配置任务的启动资源,避免不合理的资源需求

AI算力平台的优势

  • 环境隔离
  • 集群化自动化管理
  • 计算资源(CPU/GPU)自动调度
  • 成熟的生态体系
  • crd/operator便捷的api方式管理

k8s

crd

使用crd来管理Kubeflow、p8s、Argo、istio、volcano等资源。

scheduler

k8s的调度包含很多方面:节点选择,亲密度,污点,还有其他过滤打分的优选和预选机制。
主要使用场景是在不同pipeline的任务同时发起时,希望每台机器都能被均匀的使用,而不是过度集中在其中数台服务器上。

coredns

CoreDNS是Kubernetes集群中负责DNS解析的组件,能够支持解析集群内部自定义服务域名和集群外部域名。CoreDNS具备丰富的插件集,在集群层面支持自建DNS、自定义hosts、CNAME、rewrite等需求。
因此在内网部署,需要在pod中会有内网域名的使用,往往需要在pod配置内网的dns解析服务器。

分布式存储

为了减少不必要的数据传输,避免用户在AI训练时,数据文件在不同系统中间传输。因此,提供如下解决方案:

  • 数据隔离:pvc挂载会自动添加用户目录
  • 组目录模式:支持共用分布式存储,满足团队协作
  • 多存储挂载:每个项目可以挂载多个pvc,应用不同的数据处理训练场景,如低性能cfs和高性能ssd ceph
  • 解耦分布式存储:通过pvc绑定到pv,或者挂载到主机(/data/k8s/)
  • 磁盘爆炸:平台有存储的监控功能,不再使用的大文件目录会告警删除;
  • 磁盘不足:存储的扩缩容是弹性的
  • 其他类型的挂载:比如hostpath,configmap等:
pvc挂载:会自动将pvc下的$username子目录,挂载到容器目录的$username子目录下面
hostpath挂载: 会将主机目录挂载到容器目录,一般用于多人共享编辑同一个目录使用
configmap挂载:会将configmap挂载到容器目录,一般用于将特殊配置文件挂载到容器
内存挂载: 会将内存挂载到容器,一般用于处理k8s 共享内存的问题

相关文章

  • 什么是基础设施建设?

    算力基础设施建设 【知识点】 发展数字经济,算力是重要支撑.加快算力基础设施建设,优化算力资源布局、提升算力应用强...

  • 深脑链与AGI宣布合作,剑指千亿美金人工智能市场

    深脑链与AGI达成合作,降低AI企业算力成本 近日,主打分布式人工智能计算平台的深脑链(DBC)宣布与开源AI平台...

  • 学习计划

    处理器Soc,服务器架构,云平台架构,虚拟化 存储网络,算力网络,NFV,OVS,RDMA,Nvmf DPDK,S...

  • 联发科技将在13日举办P90新品发布会

    12月4日,联发科技在北京举办超强AI算力技术沟通会,主要对旗下即将在13日发布的AI平台NeuroPilot v...

  • AI系统架构之算法平台设计

    明确需求之后,算法平台的设计就比较明确了,业界可以参考的例子包括facebook的fblearner和Uber的M...

  • 如何在 Kubernetes 集群中玩转 Fluid + Jui

    作者简介:吕冬冬,云知声超算平台架构师, 负责大规模分布式机器学习平台架构设计与功能研发,负责深度学习算法应用的优...

  • 云算力平台和挖矿的区别吗?

    很多人最近都知道比特币和区块链的区别,那么你知道云算力平台和挖矿的区别吗? 什么是云算力平台: 以算力多云算力平台...

  • 区块链主要板块

    区块链主要5大板块: 硬件、基础设施:为各种区块链提供、整合硬件和算力支持。 区块链底层平台:为各种区块链应用提供...

  • Java基础架构技术专家,Base北京

    主要职责: 1.负责系统基础架构平台建设 2.为业务发展提供研发框架、中间件、通用服务等基础设施 3.设计合理的业...

  • 算力多平台简介

    算力多云算力交易平台成立于2018年7月,是全球领先的比特币云挖矿算力投资平台之一。属于一站式综合性云算力交易平台...

网友评论

      本文标题:AI算力平台基础设施架构设计

      本文链接:https://www.haomeiwen.com/subject/stdkrjtx.html