image.png
如图,NVIDIA Docker 整体工作架构包含几部分:
- 硬件,服务器上安装了英伟达 GPU
- 宿主机,安装了操作系统和 Cuda Driver,以及 Docker 引擎
- 容器,包含容器 OS 用户空间,Cuda Toolkit,以及用户应用程序
最重要的是,宿主机上需要安装 cuda driver,容器内需要安装 cuda toolkit。容器内无需安装 cuda driver。
NVIDIA 提供了一些官方镜像,其中已经安装好了 cuda toolkit,但还是需要在宿主机安装 cuda driver。
个人理解:
- 驱动的版本一定要能满足Cuda Toolkit,否则带不动
- 宿主机上需要安装cuda驱动和nvidia-docker引擎,可以不安装cuda Toolkit
- 升级驱动时,直接安装新驱动就行,覆盖旧的驱动
- nvidia-smi和nvcc -V可以使用,但是torch.cuda.is_available()=False,这种情况可能是因为驱动版本较低
参考文献:









网友评论