【GPU】服务器选择与远程连接
摘要:本文对服务器性能进行了评估,分别考察了每秒迭代次数和归一化速度。此外,本文还介绍了远程连接调试中遇到的问题,并提供了相应解决方案。
1 服务器评估
1.1 速度(it/s)
每秒迭代次数(iterations per second,it/s)
表1 服务器每秒迭代次数
服务器 | FP16 | FP32 | FP64 | TF32 |
---|---|---|---|---|
A30 | 18.04 | 3.84 | 3.1 | 15.39 |
3090 | 15.02 | 7.7 | 0.25 | 11.27 |
8000 | 15.2 | 5.5 | 0.25 | 5.45 |
titan | 15.56 | 5.63 | 0.25 | 5.53 |
1.2 速度(归一化)
表2 服务器归一化速度
服务器 | FP16 | FP32 | FP64 | TF32 |
---|---|---|---|---|
A30 | 72.16 | 15.36 | 12.4 | 61.56 |
3090 | 60. 08 | 30.8 | 1 | 45.08 |
8000 | 60. 8 | 22 | 1 | 21.8 |
titan | 62.24 | 22. 52 | 1 | 22.12 |
1.3 结论
- 正常训练(32位精度),不用TF32时,A30比3090慢一半。
- 其他情况下都是A30强,特别是使用TF32时(pytorch默认使用TF32),A30比3090强30%以上,半精度下差距缩小。
2 远程连接 Debug
2.1 NVCC 和 CUDA
2.1.1 情况:找不到 NVCC
make: /bin/nvcc: No such file or directory
(pytorch) root@lilingbao:~/data/acquisition/file/package/bitsandbytes-0.40.0# which nvcc # 无输出
(pytorch) root@lilingbao:~/data/acquisition/file/package/bitsandbytes-0.40.0# echo $CUDA_HOME # 无输出
Copy
2.1.2 解决
# 安装 cudatoolkit-dev
conda install -c conda-forge cudatoolkit-dev
# 查看nvcc在哪里:
whereis nvcc
# 重新设置CUDA_HOME
export CUDA_HOME=/opt/conda/envs/<你的虚拟环境名>/bin
export CUDA_HOME=/opt/conda/envs/pytorch/bin
版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/303
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。
THE END
二维码
文章目录
关闭