20210331培训问答摘录
2021-03-31 20:33:06
NJTST
29
培训问答记录摘录
请问老师
节点间的gpu和gpu之间的通讯 一般是一个什么过程,用通过节点之间的内存吗?
NVIDIA:节点间GPU之间通信如果是用支持RDMA的网络设备,
如IB,可以通过GDR,不经过节点内存,实现GPU内存到GPU内存
传统网络
RDMA示意
分布式计算用的什么框架?存储用的什么方式?
NVIDIA:现在很多AI框架都可以进行分布式计算,
一般大规模集群建议使用分布式并行存储
基于DGX A100的多机多卡的训练对网络带宽和延时的要求具体是怎样的?
NVIDIA:这个其实不同的模型,网络对网络带宽和延时都是不同的,
要具体分析,总而言之,带宽越大,延迟越低,对计算效率会很有帮助。
泽: enroot在使用时可以编辑容器吗?
NVIDIA:可以传递环境变量,可以做mount等等
HPC业界的Bachmark指标是什么?
平行文件系统哪个好?
NVIDIA:Top500中采用的benchmark是HPL,
并行文件系统还是挺多的,各有优势吧,按照需求选择
请问A100峰值功耗是400W,但是公开的功耗是250W,怎么控制它的功耗稳定在250W或者300W?
NVIDIA:Nvlink版本的A100默认就是400W峰值, PCI-E版本的默认峰值功耗是250W,
假如您使用的GPU是PCI-E版本的,只要您跑满GPU性能,
服务器散热足够给力的情况下,功耗会稳定到240-260之间,
假如您要给PCI-E版本的A100提升一下功耗上限,
在保证服务器散热给力的前提下,通过nvidia-smi -pl 300,就可以把功耗上限稳定到300W了