2024-09-26
Linux运维
00

目录

如何在 Ubuntu 22.04 上卸载并重新安装 NVIDIA Docker
1. 卸载现有的 NVIDIA Docker 版本
1.1 停止并删除容器
1.2 卸载 NVIDIA Docker
2. 安装 Docker
3. 安装 NVIDIA Docker
3.1 设置 NVIDIA Docker 仓库
3.2 安装 NVIDIA Docker
3.3 重启 Docker
3.4 验证 NVIDIA Docker 安装
4. 解决常见问题
总结

如何在 Ubuntu 22.04 上卸载并重新安装 NVIDIA Docker

在 Ubuntu 22.04 上配置 NVIDIA Docker 以运行使用 GPU 的容器可以显著提升深度学习、AI 等计算密集型任务的效率。本文将介绍如何卸载现有的 NVIDIA Docker 版本并重新安装。

1. 卸载现有的 NVIDIA Docker 版本

首先,我们需要删除系统中可能已安装的 NVIDIA Docker 版本。

1.1 停止并删除容器

如果系统中有正在运行的 Docker 容器,请先将它们停止并删除:

bash
docker stop $(docker ps -aq) docker rm $(docker ps -aq)
1.2 卸载 NVIDIA Docker

使用以下命令卸载现有的 NVIDIA Docker 版本:

bash
sudo apt-get purge -y nvidia-docker sudo apt-get autoremove -y

注意:purge会删除docker的镜像。

使用 apt remove 而不是 purge 来卸载 Docker,保留配置文件:

bash
sudo apt-get remove -y docker-ce docker-ce-cli containerd.io

这样仅卸载 Docker 软件,而不会删除镜像、容器等数据。

2. 安装 Docker

如果尚未安装 Docker,首先需要安装它。在 Ubuntu 上安装 Docker 可以通过以下步骤完成。

更新包索引

bash
sudo apt-get update

安装软件包以允许 apt 通过 HTTPS 使用存储库。安装必要的依赖

bash
sudo apt-get install -y \ ca-certificates \ curl \ gnupg \ lsb-release

为 Docker apt 密钥环创建一个目录:

bash
sudo install -m 0755 -d /etc/apt/keyrings

添加 Docker 的官方 GPG 密钥

bash
sudo curl -fsSL https://download.docker.com/linux/ubuntu/gpg -o /etc/apt/keyrings/docker.asc sudo chmod a+r /etc/apt/keyrings/docker.asc

将 Docker 存储库添加到 Apt 源:

bash
echo \ "deb [arch=$(dpkg --print-architecture) signed-by=/etc/apt/keyrings/docker.asc] https://download.docker.com/linux/ubuntu \ $(. /etc/os-release && echo "$VERSION_CODENAME") stable" | \ sudo tee /etc/apt/sources.list.d/docker.list > /dev/null

安装 Docker 引擎

bash
sudo apt-get update sudo apt-get install -y docker-ce docker-ce-cli containerd.io docker-buildx-plugin docker-compose-plugin

启动 Docker 并设置为开机启动

bash
sudo systemctl start docker sudo systemctl enable docker

验证 Docker 安装

bash
sudo docker run hello-world

如果看到“Hello from Docker!”的提示信息,则说明 Docker 安装成功。

3. 安装 NVIDIA Docker

3.1 设置 NVIDIA Docker 仓库

首先需要为 NVIDIA Docker 设置包仓库。

bash
distribution=$(. /etc/os-release;echo $ID$VERSION_ID) \ && curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add - \ && curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
3.2 安装 NVIDIA Docker

更新软件包索引并安装 NVIDIA Docker。

bash
sudo apt-get update sudo apt-get install -y nvidia-docker2
3.3 重启 Docker
bash
sudo systemctl restart docker
3.4 验证 NVIDIA Docker 安装

运行以下命令,验证 NVIDIA Docker 是否能够正常识别 GPU:

bash
sudo docker run --rm --gpus all nvidia/cuda:11.0-base nvidia-smi

如果一切正常,你应该会看到类似以下的输出,显示 GPU 设备信息:

+-----------------------------------------------------------------------------+ | NVIDIA-SMI 460.32.03 Driver Version: 460.32.03 CUDA Version: 11.2 | |-------------------------------+----------------------+----------------------+

4. 解决常见问题

  • Docker 运行权限问题:如果你希望非 root 用户也能够运行 Docker 容器,可以将用户添加到 Docker 组。
bash
sudo usermod -aG docker $USER

然后退出并重新登录以使更改生效。

  • NVIDIA 驱动问题:确保已安装最新版本的 NVIDIA 驱动。可以通过 nvidia-smi 命令检查驱动安装情况。

总结

通过本文,你应该能够顺利地在 Ubuntu 22.04 上卸载旧版 NVIDIA Docker 并重新安装最新版本。重新安装过程中,请确保系统的 Docker 和 NVIDIA 驱动都正确配置,以保证 GPU 容器能够正常运行。

如果对你有用的话,可以打赏哦
打赏
ali pay
wechat pay

本文作者:Dong

本文链接:

版权声明:本博客所有文章除特别声明外,均采用 CC BY-NC。本作品采用《知识共享署名-非商业性使用 4.0 国际许可协议》进行许可。您可以在非商业用途下自由转载和修改,但必须注明出处并提供原作者链接。 许可协议。转载请注明出处!