数据对比

V100 A100 P100 数据对比

2021-11-25 14:36:46 gx 14



图片关键词




A100与V100训练与推理性能实测对比

1. 测试环境

卡型卡数显存CPU型号CPU核数(超线程)内存大小CUDAGPU Driver备注
A100840GAMD EPYC 7302 16-Core Processor642T11.0.221450.51.05NV Switch
V100816GINTEL(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz82330G10.2440.64.00NV Link

使用的docker镜像为:nvcr.io/nvidia/tensorfl

2. 训练评测(Training performance benchmark)

2.1 测试代码
使用Tensorflow 1.15测试,测试代码https://github.com/tensorflow/benchmarks.git
基本测试指令:

cd benchmarks/scripts/tf_cnn_benchmarksTF_ENABLE_AUTO_MIXED_PRECISION=1 python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=128 --model=resnet50 --num_batches=100 --variable_update=replicated --xla=Truecd benchmarks/scripts/tf_cnn_benchmarks TF_ENABLE_AUTO_MIXED_PRECISION=1 python tf_cnn_benchmarks.py --num_gpus=1 --batch_size=128 --model=resnet50 --num_batches=100 --variable_update=replicated --xla=True

其中:

  • TF_ENABLE_AUTO_MIXED_PRECISION 用于控制是否开启AMP能力,在混合精度加持下,训练效率能够极大的提升

  • --xla=True 用于开启TF的XLA优化,将对graph做编译优化,训练效率也能一定程度上提升

说明:

  • 由于传输真实数据到测试环境速度太慢,所以这里是使用生成的数据(synthesis)做训练测试

2.2 测试结果

图片关键词
V100 vs A100,1卡下测试ResNet50,在不同优化组合的情况下对比图
图片关键词
V100 vs A100,8卡下测试ResNet50,在不同优化组合的情况下对比图
图片关键词
V100 vs A100,1卡下测试ResNet101,在不同优化组合的情况下对比图
图片关键词
V100 vs A100,1卡下测试Inception4,在不同优化组合的情况下对比图

2.3 测试结论

从不同优化组合和常见CV分类模型下,A100的训练效率是V100的2倍左右

3. 推理评测(Inference performance benchmark)

3.1 测试代码
见镜像(nvcr.io/nvidia/tensorfl)的路径里:/workspace/nvidia-examples/resnet50v1.5
这是来自Nvidia的评测代码,测试命令示例:

python ./main.py --mode=inference_benchmark --warmup_steps 50 --num_iter 400 --iter_unit batch --batch_size 1 --results_dir=/tmp/result
  • 注意:推理测试时使用的是虚拟生成的数据,即未指定 --data-dir 参数

3.2 测试结果

图片关键词
在不同优化组合下的吞吐量对比
图片关键词
在不同优化组合下的时延对比

3.3 测试结论

对于常用的CV分类模型ResNet50下,A100的推理性能是近2倍的V100

编辑于 2020-10-16 22:00


解决方案