行业新闻

20210331培训问答摘录

2021-03-31 20:33:06 NJTST 19

培训问答记录摘录


请问老师 

节点间的gpu和gpu之间的通讯 一般是一个什么过程,用通过节点之间的内存吗?


NVIDIA:节点间GPU之间通信如果是用支持RDMA的网络设备,

如IB,可以通过GDR,不经过节点内存,实现GPU内存到GPU内存


图片关键词

传统网络


图片关键词

RDMA示意




分布式计算用的什么框架?存储用的什么方式?


NVIDIA现在很多AI框架都可以进行分布式计算,

一般大规模集群建议使用分布式并行存储




基于DGX A100的多机多卡的训练对网络带宽和延时的要求具体是怎样的?


NVIDIA这个其实不同的模型,网络对网络带宽和延时都是不同的,

要具体分析,总而言之,带宽越大,延迟越低,对计算效率会很有帮助。



泽: enroot在使用时可以编辑容器吗?


NVIDIA可以传递环境变量,可以做mount等等



  1. HPC业界的Bachmark指标是什么?

  2. 平行文件系统哪个好?



NVIDIATop500中采用的benchmark是HPL,

并行文件系统还是挺多的,各有优势吧,按照需求选择



请问A100峰值功耗是400W,但是公开的功耗是250W,怎么控制它的功耗稳定在250W或者300W?


NVIDIANvlink版本的A100默认就是400W峰值, PCI-E版本的默认峰值功耗是250W,

假如您使用的GPU是PCI-E版本的,只要您跑满GPU性能,

服务器散热足够给力的情况下,功耗会稳定到240-260之间, 


假如您要给PCI-E版本的A100提升一下功耗上限,

在保证服务器散热给力的前提下,通过nvidia-smi -pl 300,就可以把功耗上限稳定到300W了













解决方案