You need to enable JavaScript to run this app.
导航

在GPU实例中部署NGC环境

最近更新时间2023.12.26 11:15:12

首次发布时间2023.07.18 19:38:43

本文将介绍在GPU实例上部署NGC环境。

实验介绍:

本教程向大家介绍,如何在GPU实例上部署NGC环境。NGC(NVIDIA GPU CLOUD)是NVIDIA开发的一套深度学习生态系统,可以使开发者免费访问深度学习软件堆栈,建立合适深度学习的开发环境。
在实验正式开始之前,请先完成以下准备工作:

  • 购买Linux GPU实例。具体操作步骤可参考购买云服务器

  • 确保您已经为您的Linux实例绑定了公网IP,若暂未绑定,可参考绑定公网IP

  • 在实例安全组入方向添加规则并放行端口443或5000;

  • 登录NGC网站,注册NGC账号并获取NGC API key保存到本地。

关于实验:

预计部署时间:60分钟
级别:中级
相关产品:GPU云服务器
受众:通用

操作步骤:

本示例操作系统版本为:Ubuntu 18.04

步骤一:查看实例驱动版本信息

  • 执行nvidia-smi命令,查看实例驱动版本信息,若出现如下回显,表明驱动信息正常,可进行后续操作。

步骤二:安装nvidia-docker

  1. 依次执行以下命令安装docker-ce;
apt install -y apt-transport-https ca-certificates curl gnupg-agent software-properties-common
curl -fsSL https://download.docker.com/linux/ubuntu/gpg | sudo apt-key add -
add-apt-repository "deb [arch=amd64] https://download.docker.com/linux/ubuntu $(lsb_release -cs) stable"
apt update
apt install -y docker-ce docker-ce-cli containerd.io
docker version //查看docker容器版本信息,出现如下回显,表明安装成功

  1. 依次执行以下命令安装nvidia-docker。
curl -s -L https://nvidia.github.io/nvidia-docker/gpgkey | sudo apt-key add -
distribution=$(. /etc/os-release;echo $ID$VERSION_ID)
curl -s -L https://nvidia.github.io/nvidia-docker/$distribution/nvidia-docker.list | sudo tee /etc/apt/sources.list.d/nvidia-docker.list
apt update
apt install -y nvidia-docker2 //安装nvidia-docker2容器
systemctl daemon-reload
systemctl restart docker //重启docker容器

步骤三:获取NGC image

  1. 完成容器安装工作后,需要依次执行以下命令登录到NGC容器环境中;
docker login nvcr.io 
Username: $oauthtoken 
Password: API KEY

执行完成后,会出现如下所示回显内容:
alt
2. 登录NGC官网,在左侧导航栏点击“Containers”;

  1. 在搜索框中输入“TensorFlow”,并点击进入;

  1. 点击右侧“Copy Image Path”,选择对应版本的TensorFlow镜像地址;

  1. 执行以下命令拉取镜像并查看下载的镜像文件。
docker pull nvcr.io/nvidia/tensorflow:18.03-py3
docker images //查看下载的镜像,出现如下回显,表明拉取成功

alt

步骤四:运行容器,完成TensorFlow开发环境的部署

  1. 执行以下命令,运行容器,完成TensorFlow开发环境的部署;
nvidia-docker run --rm -it nvcr.io/nvidia/tensorflow:18.03-py3

出现如下回显,表明部署成功。

  1. 验证测试

    1. 执行python,若环境正常,则直接进入python环境;

    2. 在Python环境下执行以下命令,若出现如下回显表明环境搭建成功。

    import tensorflow as tf
    hello = tf.constant('Hello, TensorFlow!')
    sess = tf.Session()
    sess.run(hello)
    


至此,关于GPU实例上部署NGC环境就完成了,您可以在该开发环境中访问深度学习框架,可以极大程度的缩减产品开发及业务部署的时间,实现开发环境的预安装。
如果您有其他问题,欢迎您联系火山引擎技术支持服务