AMD GPU Pytorch 配置
安装AMD显卡驱动
sudo apt update |
配置环境
# 需要额外加一行参数 |
重启然后验证
reboot |
配置torch
conda create -n py39 python=3.9 |
测试
import torch |
测试速度
import torch |
似乎第一次需要初始化,耗时较长,3.0左右
第二次耗时在0.0002左右
docker 配置
由于 pip 安装的backward慢,且docker中 apex、deepspeed库更容易安装,所以使用docker安装
docker pull rocm/pytorch:latest |
配置ssh 登录(可选)
配置参考docker/docker ssh远程连接篇
重新启动
docker run -d --cap-add=SYS_PTRACE --security-opt seccomp=unconfined --device=/dev/kfd --device=/dev/dri --group-add video --ipc=host --shm-size 32G --name torch20_ssh -p 6606:22 --mount type=bind,source=/ganzhi/ssd/data,target=/data6 pytorch2-0:ssh /usr/sbin/sshd -D |
torch2.0 依赖安装(可选)
先在/etc/apt/source.list
加入以下内容
deb http://apt.llvm.org/focal/ llvm-toolchain-focal-13 main |
然后执行以下shell命令
sudo apt update |
解决torch.compile报错
SystemError: <built-in function load_binary> returned NULL without setting an exception |
export ROCM_PATH=/opt/rocm-5.4.2 |
解决找不到cmath.h
sudo apt install libstdc++-12-dev |
torch等rocm相关包手动安装
安装依赖 , 安装apex必备sudo apt install rocm-dkms rocm-dev rocm-libs miopen-hip miopengemm hipsparse rccl rocthrust hipcub roctracer-dev
安装rocm-dkms可以安装上rocm-clang
安装torchaudiogit clone https://github.com/pytorch/audio.git
cd audio
python setup.py install
版本依赖解决
指定版本如:sudo apt install rocm-dev5.2.4
sudo amdgpu-install --usecase=rocm,hip,mllib --no-dkms --rocmrelease=5.2.4
最好不要手动指定,amdgpu-install已经包含了版本信息
依赖问题dpkg faild to overwrite ….
sudo dpkg -P xxx |