源码分析 启动参数 参数名称对应环境变量类型参数说明默认值mig-strategyMIG_STRATEGYstri...[作者空间]
背景 在早期的GPU监控中我们会使用一些NVML工具来对GPU卡的基本信息进行采集,并持久化到监控系统的数据存储层...[作者空间]
简介 cAdvisor是Google开源的一款用于展示和分析容器运行状态的可视化工具。通过在主机上运行CAdvis...[作者空间]
Device Plugin介绍 从 Kubernetes 1.8版本开始,提供了 Device Plugin 框架...[作者空间]
介绍 Argo Workflows 是一个开源容器原生工作流引擎,用于在 Kubernetes 上编排并行作业。A...[作者空间]
介绍 Argo Workflows 是一个开源容器原生工作流引擎,用于在 Kubernetes 上编排并行作业。A...[作者空间]
直观上看,用户可以使用kubectl、客户端库或者REST请求来访问K8S API。而实际上,无论是kubectl...[作者空间]
启动参数 参考:draino 入门[https://www.jianshu.com/p/cc6a45cf3208]...[作者空间]
1. 简介 Draino 基于标签和 node conditions 自动排干 Kubernetes 节点。匹配了...[作者空间]
背景 在早期的GPU监控中我们会使用一些NVML工具来对GPU卡的基本信息进行采集,并持久化到监控系统的数据存储层...[作者空间]
cgroups简介 cgroups(是control groups的简写)是Linux内核的一个功能,用来限制、控...[作者空间]
容器 GC 退出的容器也会继续占用系统资源,比如还会在文件系统存储很多数据、Docker 应用也要占用 CPU 和...[作者空间]
PLEG执行原理 在 NewMainKubelet() 方法中调用 NewGenericPLEG() 方法创建 G...[作者空间]
并发控制 并发控制指的是当多个用户同时更新运行时,用于保护数据库完整性的各种技术。并发机制不正确可能导致脏读、幻读...[作者空间]
什么是节点驱逐? 节点压力驱逐是 kubelet 主动终止 Pod 以回收节点上资源的过程。 kubelet 监控...[作者空间]
Kubernetes 简介 Kubernetes 是什么? Kubernetes 是一个可移植的、可扩展的开源平台...[作者空间]
NPD 入门 简介 节点问题检测器(Node Problem Detector) 是一个守护程序,用于监视和报告节...[作者空间]
背景 什么是 Informer 机制 Informer 是 client-go 中的核心工具包,已经被 kuber...[作者空间]
使用 kubeadm 安装 kubernetes 集群非常方便,但是也有一个比较烦人的问题就是默认的证书有效期只有...[作者空间]
背景 算法同学经常要在我们的Alpha机器学习平台(以下简称Alpha)上启停实验,但由于机器学习任务耗费资源较多...[作者空间]