【GPU】服务器选择与远程连接

【GPU】服务器选择与远程连接-20240501.png

摘要:本文对服务器性能进行了评估,分别考察了每秒迭代次数和归一化速度。此外,本文还介绍了远程连接调试中遇到的问题,并提供了相应解决方案。

1 服务器评估

1.1 速度(it/s)

每秒迭代次数(iterations per second,it/s)

表1 服务器每秒迭代次数

服务器 FP16 FP32 FP64 TF32
A30 18.04 3.84 3.1 15.39
3090 15.02 7.7 0.25 11.27
8000 15.2 5.5 0.25 5.45
titan 15.56 5.63 0.25 5.53

1.2 速度(归一化)

表2 服务器归一化速度

服务器 FP16 FP32 FP64 TF32
A30 72.16 15.36 12.4 61.56
3090 60. 08 30.8 1 45.08
8000 60. 8 22 1 21.8
titan 62.24 22. 52 1 22.12

1.3 结论

  • 正常训练(32位精度),不用TF32时,A30比3090慢一半。
  • 其他情况下都是A30强,特别是使用TF32时(pytorch默认使用TF32),A30比3090强30%以上,半精度下差距缩小。

2 远程连接 Debug

2.1 NVCC 和 CUDA

2.1.1 情况:找不到 NVCC

make: /bin/nvcc: No such file or directory
(pytorch) root@lilingbao:~/data/acquisition/file/package/bitsandbytes-0.40.0# which nvcc  # 无输出
(pytorch) root@lilingbao:~/data/acquisition/file/package/bitsandbytes-0.40.0# echo $CUDA_HOME  # 无输出

Copy

2.1.2 解决

# 安装 cudatoolkit-dev
conda install -c conda-forge cudatoolkit-dev
# 查看nvcc在哪里:
whereis nvcc
# 重新设置CUDA_HOME
export CUDA_HOME=/opt/conda/envs/<你的虚拟环境名>/bin
export CUDA_HOME=/opt/conda/envs/pytorch/bin

版权声明:
作者:Zhang, Hongxing
链接:http://zhx.info/archives/303
来源:张鸿兴的学习历程
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>
文章目录
关闭
目 录