【转】NVIDIA 3080Ti 计算性能 ML/AI HPC

2022-03-28 00:05:55 gx 195

唐纳德·金霍恩博士撰写

介绍

我认为 3080Ti 的目的是为 GPU 提供接近 RTX3090 的性能，但 12GB 内存大小更适合游戏使用。

对于机器学习和一些科学计算等计算任务，当 12GB 的 GDDR6X 足够时，RTX3080Ti 是 RTX3090 的替代品。

（与 RTX3090 的 24GB 相比）。12GB 与以前的 NVIDIA GPU 一致，这些 GPU 是 ML/AI 的“work horses”，例如出色的 2080Ti。

RTX3080Ti 肯定有一个用于计算的用例。

在带有鼓风机设计的卡的系统中使用其中的 3 个可能是合理的。

4 个 GPU 可能需要功率限制它们确实比 RTX3080 运行更热，并且使用的温度似乎与 3080 相同

鉴于 RTX3090 较大内存大小的“相对较小”的价格差异和优势。

我可能会建议“将 RTX3080Ti 留给游戏玩家！”

...但是，这些天您可能不得不使用任何可用的东西！

可能需要或不需要 RTX3090 的额外内存。

当您处理问题时，“OOM”（内存不足）错误可能非常令人沮丧。

在这篇文章中，我介绍了一些 3080Ti 的 HPC 和 ML 基准测试，主要是与 3090 进行比较。

这不是对 3080Ti 的全面评估，但应该让您了解数值计算任务的性能。

注意我在图表中使用 NVIDIA A100 PCIe、40GB、高端计算 GPU 进行了比较。

A100 与 RTX 系列完全不同！

这是我用过的最令人印象深刻的计算设备！（但是，非常昂贵且被动冷却）

基准 ResNet50、HPC、HPC-AI、HPCG

ResNet50： ResNet50 是一种深度神经网络模型，可在使用合成数据时进行良好的硬件基准测试。结果是在给定的 batch_size 和精度（fp32 或 fp16）下，模型训练性能为图像/秒。ResNet50 是 MLPerf 中使用的模型之一，它在 128 万张图像 ImageNet 数据集上训练到“74.9% Top-1 准确率”。
HPL： HPL Linpack 基准测试用于对Top500 超级计算机进行排名，是对矩阵运算的双精度浮点性能的优化度量。该基准找到了大型密集线性方程组的解决方案。
HPL-AI：混合精度基准是相同的 HPL 基准，但使用的精度较低/混合精度，通常用于训练 ML/AI 模型。在 A100 上，这利用了 TF32、32 位张量核心。该基准测试现在也是 Top500 超级计算机排名的一部分。
HPCG: High Performance Conjugate Gradients，这是用于在 Top500 列表中排名的另一个基准。它是一种多重网格预处理共轭梯度算法，具有全局 IO 模式的稀疏矩阵向量乘法。这是涉及微分方程组数值解的许多问题的典型工作量。这是非常受内存/ IO 限制的！

请记住，这些是“基准”！我努力寻找可以展示硬件的（大）问题规模和良好参数。测量的 GPU 性能对问题大小特别敏感（通常越大越好）。

测试系统

英伟达 RTX3080Ti 系统

CPU - 2 个英特尔至强 6258R 28 核
主板- 华硕 WS-C621E-SAGE
内存- 12 x 32GB Reg ECC DDR4（总共 384GB）
GPU - 1 NVIDIA RTX3080Ti 12GB 320W

英伟达 RTX3090 系统

CPU - 2 个英特尔至强 6258R 28 核
主板- 华硕 WS-C621E-SAGE
内存- 12 x 32GB Reg ECC DDR4（总共 384GB）
GPU - 1 NVIDIA RTX3090 24GB 350W

英伟达 A100 系统

CPU - 2 x INTEL Xeon Platinum 8180 28 核
主板- Tyan Thunder HX GA88-B5631 机架式服务器
内存- 12 x 32GB Reg ECC DDR4（总共 384GB）
GPU - 1-4 NVIDIA A100 PCIe 40GB 250W

NVIDIA Titan-V 系统

CPU - 英特尔至强 W-2295 18 核
主板- 华硕 WS C422 PRO_SE
内存——金士顿128GB DDR4-2400（共128GB）【我的个人系统】
GPU - 1-2 NVIDIA Titan-V PCIe 12GB

其他机器来自较旧的 CPU HPC 基准测试帖子（HPL 和 HPCG）。例如，请参阅最近的Intel Rocket Lake 帖子或AMD Threadripper Pro 帖子以获取参考。

软件

Ubuntu 20.04
英伟达驱动 465
NVIDIA HPC-Benchmarks 21.4（NGC 容器）
NVIDIA TensorFlow 1.15 21.05-tf1-py3（NGC 容器）
NVIDIA Enroot 3.3（用于运行容器）

有关如何使用 Enroot 容器运行时的详细信息，请参阅这些帖子，

结果

下面的图表和讨论应该让您对 RTX3080Ti 的数值计算性能有所了解。

TensorFlow ResNet50

高性能工作站服务器找我们

ResNet50 32

笔记：

RTX 3080Ti 和 3090 提供与 3090 相似的性能，因为其 24GB 内存允许的更大批量大小而获得了一点性能提升。
“*”表示在最近的其他测试中使用稍旧版本的 TensorFlow 1.15 容器完成的结果。
正如预期的那样，A100 的性能是 RTX GPU 的两倍多，并且可以很好地扩展到 4 个 GPU。

笔记：

同样在较低精度 (FP16) 的 Tensor 内核下，整体 img/sec 更高，RTX 3080Ti 和 3090 提供相似的性能。再一次，3090 得到的较大批量大小的性能提升很小。
“*”表示在最近的其他测试中使用稍旧版本的 TensorFlow 1.15 容器完成的结果。
正如预期的那样，A100 再次比 RTX GPU 快得多。
基于“Volta”的 Titan V 在利用其 Tensor 核心 FP16 功能时也表现良好。（Volta 是 Tesla V100 中处理器的 GPU 代号。Titan V 和 Quadro GV100 是唯一使用 Volta 处理器的非特斯拉 GPU。）

HPL

高性能工作站服务器找我们

笔记：

HPL 是超级计算机双精度浮点 (FP64) 性能基准测试。在消费级 GPU 上运行它不太可能产生好的结果，而且确实如此！NVIDIA 游戏和大多数 Quadro GPU 的 FP64 性能不佳。对于它们的预期用途来说，这不是必需的。现代 NVIDIA Tesla/Compute 系列 GPU 确实具有出色的 FP64 性能。
该图表显示了 A100 与基于高端 CPU 的系统相比的出色表现。对于需要双精度的科学计算应用程序，尝试利用 GPU 加速是值得的。
RTX 3080Ti 和 3090 在 FP64 的性能比在 FP32 的性能低大约 30 倍。但是，这仍然可以与中端台式机 CPU 相媲美

HPL-AI

高性能工作站服务器找我们

笔记：

这是在较低混合精度 FP32 上运行的 HPL 基准测试。它现在被列为 Top500 超级计算机列表的排名标准。它反映了当前在 HPC 世界中使用的 ML/AI。
单个 A100 的“0”结果是因为在合理的问题规模下，我无法获得通过残差的结果（即计算失败）这正是科学计算在较高 FP64 下完成的原因精确。
RTX 3080Ti 和 3090 的结果非常好！即每秒 15 万亿次浮点运算。对于 FP32 混合精度足够的应用，消费级 GPU 可以提供出色的性能。
多个 A100 的结果令人惊叹！
HPL-AI 的结果对问题大小很敏感，较大的问题通常会提供更好的性能。此图表中的 RTX 3090 结果使用与 RTX 3080Ti 相同的问题大小。这是因为在较大的问题规模下，3090 的残差标准与单个 A100 的失败标准相同。我曾希望这是一个展示 3090 额外内存潜在性能优势的地方。我在帖子末尾的附录中包含了一些工作输出。

HPCG

高性能工作站服务器找我们

笔记：

HPCG 也是 Top500 超级计算机排名基准。HPCG 受内存限制！这是 NVIDIA GPU 上使用的高性能 GDDR 内存提供比 CPU 内存更好的性能的地方。
RTX 3080Ti 和 3090 都具有出色的 GDDR6x 内存，具有相似的数据宽度，并为这种内存绑定代码提供了相似的性能。

结论

主要内容是：

RTX 3080Ti 与 3090 非常相似，但具有两倍的内存。
对于最严格的科学计算性能，A100 的功能要强大得多（而且价格昂贵！）。

关于 RTX 3080Ti 需要考虑的其他几件事，

3080Ti 在 FE 版本上使用的冷却器似乎与 RTX 3080 相同。
3080Ti 的运行温度比 3080 稍高（但不会过热）。3080Ti 上的风扇比 3080 运转得更硬一些，即声音更大。
RTX 3090（添加了 FE）不仅拥有两倍的内存，而且它的外壳更大，散热器更强大。
3080Ti 在负载下使用了足够的功率，可能不建议使用 4 x GPU 设置。（......至少没有对 GPU 进行“功率限制”，即使用 Systemd 和 Nvidia-smi 进行 Quad RTX3090 GPU 功率限制）
想想 3090 上的额外内存。这意味着有可能解决更大的问题、使用更大的图像、更大的批量大小、更多的功能等等。它可能需要困难的解决方法来处理需要比可用内存更多的用法！

Appendix

3080Ti 44000 equations

Convergence history: Classical Iterative Refinement
IterationResidual

0 6.868E-06

1 1.000E-10

2 1.528E-14



info===> HPL_Classic_IR_niter 2 timer total 1.318/1.318= redit 0.000 + Classic_IR 1.318/1.318 :MV 0.943Pcond 0.375dot 0.000 

================================================================================================================================================================
 T/VNNB P Q Time GflopsFGMRESGflops_IRS
--------------------------------------------------------------------------------------------------------------------------------------------------------------
HPL_AI WR03L2L2 44000 288 1 1 3.741.517e+04 1.32214 1.121e+04
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 2.774020E-03 ...... PASSED

3090 44000 equations

Convergence history: Classical Iterative Refinement
IterationResidual
0 6.868E-06
1 1.000E-10
2 1.528E-14


info===> HPL_Classic_IR_niter 2 timer total 1.320/1.319= redit 0.000 + Classic_IR 1.320/1.319 :MV 0.944Pcond 0.375dot 0.000 

================================================================================================================================================================
 T/VNNB P Q Time GflopsFGMRESGflops_IRS
--------------------------------------------------------------------------------------------------------------------------------------------------------------
HPL_AI WR03L2L2 44000 288 1 1 3.821.488e+04 1.32339 1.105e+04
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)= 2.774020E-03 ...... PASSED

3090 Fail 64000 equations

Convergence history: Classical Iterative Refinement
IterationResidual
0 NAN
1 NAN
2 NAN
3 NAN
4 NAN
5 NAN
6 NAN
7 NAN
8 NAN
9 NAN
 10 NAN


info===> HPL_Classic_IR_niter 10 timer total10.976/ 10.976= redit 0.000 + Classic_IR10.976/ 10.976 :MV 7.258Pcond 3.717dot 0.001 

================================================================================================================================================================
 T/VNNB P Q Time GflopsFGMRESGflops_IRS
--------------------------------------------------------------------------------------------------------------------------------------------------------------
HPL_AI WR03L2L2 64000 288 1 1 8.322.100e+0410.98160 9.054e+03
--------------------------------------------------------------------------------
||Ax-b||_oo/(eps*(||A||_oo*||x||_oo+||b||_oo)*N)=NAN ...... FAILED

测试数据

【转】NVIDIA 3080Ti 计算性能 ML/AI HPC

介绍

基准 ResNet50、HPC、HPC-AI、HPCG

测试系统

结果

TensorFlow ResNet50

HPL

HPL-AI

HPCG

结论

Appendix

技术文档

测试数据

【转】NVIDIA 3080Ti 计算性能 ML/AI HPC

介绍

基准 ResNet50、HPC、HPC-AI、HPCG

测试系统

结果

TensorFlow ResNet50

HPL

HPL-AI

HPCG

结论

Appendix

技术文档

为您推荐