NVIDIA A100 Tensor Core GPU 在各个规模上提供前所未有的加速,为全球性能最高的人工智能、数据分析和 HPC 弹性数据中心提供动力。
A100 由 NVIDIA Ampere 架构提供支持,是 NVIDIA 数据中心平台的引擎。
A100 的性能比上一代产品高出 20 倍,并且可以划分为七个 GPU 实例,以根据不断变化的需求进行动态调整。
A100 80GB 提供 40GB 和 80GB 内存版本,以超过每秒 2 TB (TB/s) 的速度推出世界上最快的内存带宽,以运行最大的模型和数据集。
产品亮点:
NVIDIA AMPERE 架构
无论是使用 MIG 将 A100 GPU 分割为较小的实例,还是使用 NVIDIA® NVLink® 连接多个 GPU 来加速大规模工作负载,A100 均可轻松满足不同规模的加速需求,从小型作业到大型多节点工作负载无一例外。A100 功能全面,这意味着 IT 经理可借此充分利用数据中心内的每个 GPU。
第三代 TENSOR CORE
对比 NVIDIA Volta GPU,其深度学习训练的 Tensor FLOPS 和推理的 Tensor TOPS 皆为 NVIDIA Volta™ GPU 的 20 倍,NVIDIA A100 的深度学习计算能力可达 312 teraFLOPS (TFLOPS)。
新一代 NVLINK
A100 中采用的 NVIDIA NVLink 可提供两倍于上一代的吞吐量。与 NVIDIA NVSwitch™ 结合使用时,此技术可将多达 16 个 A100 GPU 互联,并将速度提升至 600GB/s,从而在单个服务器上实现出色的应用性能。
多实例 GPU (MIG)
一个 A100 GPU 可分割成多达七个GPU 实例,这些实例在硬件级别完全独立,并独自拥有高带宽显存、缓存和计算核心。借助 MIG,开发者可为其所有应用实现惊人加速,IT 管理员也可为每个作业提供符合其规模的 GPU 加速,进而优化 GPU 利用率,让每个用户和应用都能使用 GPU 实例。
HBM2E 显存
凭借 80GB 的高带宽显存(HBM2e),A100 将显存带宽提升至超过2TB/s ,并将动态随机存取存储器 (DRAM) 的利用效率提高至95%。A100 提供的显存带宽是上一代产品的 1.7 倍。
结构化稀疏
A100 中的 Tensor Core 可为稀疏模型提供高达两倍的性能提升。稀疏功能不仅更容易使 AI 推理受益,同时还能提升模型的训练性能。
规格参数
A100 40GB PCIE | A100 80GB PCIE | A100 40GB SXM | A100 80GB SXM |
|
FP64 | 9.7 TFLOPS |
FP64 Tensor Core | 19.5 TFLOPS |
FP32 | 19.5 TFLOPS |
Tensor Float 32 (TF32) | 156 TFLOPS | 312 TFLOPS* |
BFLOAT16 Tensor Core | 312 TFLOPS | 624 TFLOPS* |
FP16 Tensor Core | 312 TFLOPS | 624 TFLOPS* |
INT8 Tensor Core | 624 TOPS | 1248 TOPS* |
GPU 显存 | 40GB HBM2 | 80GB HBM2e | 40GB HBM2 | 80GB HBM2e |
GPU 显存带宽 | 1,555GB/s | 1,935GB/s | 1,555GB/s | 2,039GB/s |
热设计功耗 (TDP) | 250W | 300W | 400W | 400W |
多实例 GPU | 多达 7 MIG @ 5GB | 多达 7 MIG @ 10GB | 多达 7 MIG @ 5GB | 多达 7 MIG @ 10GB |
外形规格 | PCIe | SXM |
互联 | NVIDIA® NVLink® 桥接器(可桥接 2 个 GPU): 600GB/s ** PCIe 4.0:64GB/s | NVLink: 600GB/s PCIe Gen4: 64GB/s
|
*数据来源NVIDIA
