测试数据

【转】NVIDIA 3080Ti 计算性能 ML/AI HPC

2022-03-28 00:05:55 gx 4

唐纳德·金霍恩博士 撰写


介绍

我认为 3080Ti 的目的是为 GPU 提供接近 RTX3090 的性能,但 12GB 内存大小更适合游戏使用。

对于机器学习和一些科学计算等计算任务,当 12GB 的 GDDR6X 足够时,RTX3080Ti 是 RTX3090 的替代品。

(与 RTX3090 的 24GB 相比)。12GB 与以前的 NVIDIA GPU 一致,这些 GPU 是 ML/AI 的“work horses”,例如出色的 2080Ti。


RTX3080Ti 肯定有一个用于计算的用例。

在带有鼓风机设计的卡的系统中使用其中的 3 个可能是合理的。

4 个 GPU 可能需要功率限制它们确实比 RTX3080 运行更热,并且使用的温度似乎与 3080 相同


鉴于 RTX3090 较大内存大小的“相对较小”的价格差异和优势。

我可能会建议“将 RTX3080Ti 留给游戏玩家!”

 ...但是,这些天您可能不得不使用任何可用的东西!

可能需要或不需要 RTX3090 的额外内存。

当您处理问题时,“OOM”(内存不足)错误可能非常令人沮丧。


在这篇文章中,我介绍了一些 3080Ti 的 HPC 和 ML 基准测试,主要是与 3090 进行比较。

这不是对 3080Ti 的全面评估,但应该让您了解数值计算任务的性能。

注意我在图表中使用 NVIDIA A100 PCIe、40GB、高端计算 GPU 进行了比较。

A100 与 RTX 系列完全不同!

这是我用过的最令人印象深刻的计算设备!(但是,非常昂贵且被动冷却)


基准 ResNet50、HPC、HPC-AI、HPCG

  • ResNet50: ResNet50 是一种深度神经网络模型,可在使用合成数据时进行良好的硬件基准测试。结果是在给定的 batch_size 和精度(fp32 或 fp16)下,模型训练性能为图像/秒。ResNet50 是 MLPerf 中使用的模型之一它在 128 万张图像 ImageNet 数据集上训练到“74.9% Top-1 准确率”。

  • HPL: HPL Linpack 基准测试用于对Top500 超级计算机进行排名,是对矩阵运算的双精度浮点性能的优化度量。该基准找到了大型密集线性方程组的解决方案。

  • HPL-AI:混合精度基准是相同的 HPL 基准,但使用的精度较低/混合精度,通常用于训练 ML/AI 模型。在 A100 上,这利用了 TF32、32 位张量核心。该基准测试现在也是 Top500 超级计算机排名的一部分。

  • HPCG: High Performance Conjugate Gradients,这是用于在 Top500 列表中排名的另一个基准。它是一种多重网格预处理共轭梯度算法,具有全局 IO 模式的稀疏矩阵向量乘法。这是涉及微分方程组数值解的许多问题的典型工作量。这是非常受内存/ IO 限制的!

请记住,这些是“基准”!我努力寻找可以展示硬件的(大)问题规模和良好参数。测量的 GPU 性能对问题大小特别敏感(通常越大越好)。


测试系统

英伟达 RTX3080Ti 系统

  • CPU - 2 个英特尔至强 6258R 28 核

  • 主板- 华硕 WS-C621E-SAGE

  • 内存- 12 x 32GB Reg ECC DDR4(总共 384GB)

  • GPU - 1 NVIDIA RTX3080Ti 12GB 320W

英伟达 RTX3090 系统

  • CPU - 2 个英特尔至强 6258R 28 核

  • 主板- 华硕 WS-C621E-SAGE

  • 内存- 12 x 32GB Reg ECC DDR4(总共 384GB)

  • GPU - 1 NVIDIA RTX3090 24GB 350W

英伟达 A100 系统

  • CPU - 2 x INTEL Xeon Platinum 8180 28 核

  • 主板- Tyan Thunder HX GA88-B5631 机架式服务器

  • 内存- 12 x 32GB Reg ECC DDR4(总共 384GB)

  • GPU - 1-4 NVIDIA A100 PCIe 40GB 250W

NVIDIA Titan-V 系统

  • CPU - 英特尔至强 W-2295 18 核

  • 主板- 华硕 WS C422 PRO_SE

  • 内存——金士顿128GB DDR4-2400(共128GB)【我的个人系统】

  • GPU - 1-2 NVIDIA Titan-V PCIe 12GB

其他机器来自较旧的 CPU HPC 基准测试帖子(HPL 和 HPCG)。例如,请参阅最近的Intel Rocket Lake 帖子AMD Threadripper Pro 帖子以获取参考。


软件

有关如何使用 Enroot 容器运行时的详细信息,请参阅这些帖子,

结果

下面的图表和讨论应该让您对 RTX3080Ti 的数值计算性能有所了解。

TensorFlow ResNet50

图片关键词

ResNet50 32

笔记:

  • RTX 3080Ti 和 3090 提供与 3090 相似的性能,因为其 24GB 内存允许的更大批量大小而获得了一点性能提升。

  • “*”表示在最近的其他测试中使用稍旧版本的 TensorFlow 1.15 容器完成的结果。

  • 正如预期的那样,A100 的性能是 RTX GPU 的两倍多,并且可以很好地扩展到 4 个 GPU。

  • 图片关键词



笔记:

  • 同样在较低精度 (FP16) 的 Tensor 内核下,整体 img/sec 更高,RTX 3080Ti 和 3090 提供相似的性能。再一次,3090 得到的较大批量大小的性能提升很小。

  • “*”表示在最近的其他测试中使用稍旧版本的 TensorFlow 1.15 容器完成的结果。

  • 正如预期的那样,A100 再次比 RTX GPU 快得多。

  • 基于“Volta”的 Titan V 在利用其 Tensor 核心 FP16 功能时也表现良好。(Volta 是 Tesla V100 中处理器的 GPU 代号。Titan V 和 Quadro GV100 是唯一使用 Volta 处理器的非特斯拉 GPU。)

HPL


图片关键词


笔记:

  • HPL 是超级计算机双精度浮点 (FP64) 性能基准测试。在消费级 GPU 上运行它不太可能产生好的结果,而且确实如此!NVIDIA 游戏和大多数 Quadro GPU 的 FP64 性能不佳。对于它们的预期用途来说,这不是必需的。现代 NVIDIA Tesla/Compute 系列 GPU 确实具有出色的 FP64 性能。

  • 该图表显示了 A100 与基于高端 CPU 的系统相比的出色表现。对于需要双精度的科学计算应用程序,尝试利用 GPU 加速是值得的。

  • RTX 3080Ti 和 3090 在 FP64 的性能比在 FP32 的性能低大约 30 倍。但是,这仍然可以与中端台式机 CPU 相媲美

HPL-AI


图片关键词


笔记:

  • 这是在较低混合精度 FP32 上运行的 HPL 基准测试。它现在被列为 Top500 超级计算机列表的排名标准。它反映了当前在 HPC 世界中使用的 ML/AI。

  • 单个 A100 的“0”结果是因为在合理的问题规模下,我无法获得通过残差的结果(即计算失败)这正是科学计算在较高 FP64 下完成的原因精确。

  • RTX 3080Ti 和 3090 的结果非常好!即每秒 15 万亿次浮点运算。对于 FP32 混合精度足够的应用,消费级 GPU 可以提供出色的性能。

  • 多个 A100 的结果令人惊叹!

  • HPL-AI 的结果对问题大小很敏感,较大的问题通常会提供更好的性能。此图表中的 RTX 3090 结果使用与 RTX 3080Ti 相同的问题大小。这是因为在较大的问题规模下,3090 的残差标准与单个 A100 的失败标准相同。我曾希望这是一个展示 3090 额外内存潜在性能优势的地方。我在帖子末尾的附录中包含了一些工作输出。

HPCG

图片关键词


笔记:

  • HPCG 也是 Top500 超级计算机排名基准。HPCG 受内存限制!这是 NVIDIA GPU 上使用的高性能 GDDR 内存提供比 CPU 内存更好的性能的地方。

  • RTX 3080Ti 和 3090 都具有出色的 GDDR6x 内存,具有相似的数据宽度,并为这种内存绑定代码提供了相似的性能。

结论

主要内容是:

  1. RTX 3080Ti 与 3090 非常相似,但具有两倍的内存。

  2. 对于最严格的科学计算性能,A100 的功能要强大得多(而且价格昂贵!)。

关于 RTX 3080Ti 需要考虑的其他几件事,

  • 3080Ti 在 FE 版本上使用的冷却器似乎与 RTX 3080 相同。

  • 3080Ti 的运行温度比 3080 稍高(但不会过热)。3080Ti 上的风扇比 3080 运转得更硬一些,即声音更大。

  • RTX 3090(添加了 FE)不仅拥有两倍的内存,而且它的外壳更大,散热器更强大。

  • 3080Ti 在负载下使用了足够的功率,可能不建议使用 4 x GPU 设置。(......至少没有对 GPU 进行“功率限制”,即使用 Systemd 和 Nvidia-smi 进行 Quad RTX3090 GPU 功率限制

  • 想想 3090 上的额外内存。这意味着有可能解决更大的问题、使用更大的图像、更大的批量大小、更多的功能等等。它可能需要困难的解决方法来处理需要比可用内存更多的用法!

推荐:

我认为 RTX 3080Ti 是一款非常出色的 GPU,在 ML/Ai 或分子动力学工作站中表现出色。但是,**我的建议是把额外的钱花在 3090 上,并拥有两倍的内存** 和“也许”设计更好的卡。我认为 3090 在大量计算使用下更有可能保持更好,但我无法证实这一点!仅 3090 上的额外内存就足以推荐它用于计算。当你需要记忆时,它是一个“阻碍者”,或者,当你没有它时,它至少是一个大麻烦。无论如何,此时可用性是未知的。希望显卡能够上市,RTX 3080Ti 将减轻高端显卡可用性的一些压力。

快乐的计算!--dbk @dbkinghorn



Appendix

3080Ti 44000 equations

Convergence history: Classical Iterative Refinement
IterationResidual

0 6.868E-06

1 1.000E-10

2 1.528E-14



info===> HPL_Classic_IR_niter 2 timer total 1.318/1.318= redit 0.000 + Classic_IR 1.318/1.318 :MV 0.943Pcond 0.375dot 0.000 

================================================================================================================================================================
 T/VNNB P Q Time GflopsFGMRESGflops_IRS
--------------------------------------------------------------------------------------------------------------------------------------------------------------
HPL_AI WR03L2L2 44000 288 1 1 3.741.517e+04 1.32214 1.121e+04
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 2.774020E-03 ...... PASSED

3090 44000 equations

Convergence history: Classical Iterative Refinement
IterationResidual
0 6.868E-06
1 1.000E-10
2 1.528E-14


info===> HPL_Classic_IR_niter 2 timer total 1.320/1.319= redit 0.000 + Classic_IR 1.320/1.319 :MV 0.944Pcond 0.375dot 0.000 

================================================================================================================================================================
 T/VNNB P Q Time GflopsFGMRESGflops_IRS
--------------------------------------------------------------------------------------------------------------------------------------------------------------
HPL_AI WR03L2L2 44000 288 1 1 3.821.488e+04 1.32339 1.105e+04
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 2.774020E-03 ...... PASSED

3090 Fail 64000 equations

Convergence history: Classical Iterative Refinement
IterationResidual
0 NAN
1 NAN
2 NAN
3 NAN
4 NAN
5 NAN
6 NAN
7 NAN
8 NAN
9 NAN
 10 NAN


info===> HPL_Classic_IR_niter 10 timer total10.976/ 10.976= redit 0.000 + Classic_IR10.976/ 10.976 :MV 7.258Pcond 3.717dot 0.001 

================================================================================================================================================================
 T/VNNB P Q Time GflopsFGMRESGflops_IRS
--------------------------------------------------------------------------------------------------------------------------------------------------------------
HPL_AI WR03L2L2 64000 288 1 1 8.322.100e+0410.98160 9.054e+03
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=NAN ...... FAILED



解决方案