经过漫长的等待,NVIDIA DGX Spark于去年发布,旨在培养新一代人工智能工程师和研究人员。

此次对比之所以引人注目,在于它让我们有机会观察不同的 OEM 合作伙伴如何诠释 NVIDIA 的参考设计。
虽然所有实现方案的核心电子元件和主板都保持一致,但散热管理方案、机箱设计和气流策略却大相径庭。
这些工程决策最终体现在运行温度的显著差异上,而了解这些差异对于有意购买 DGX Spark 的最终用户来说,无疑是极具价值的。

在本分析中,我们对五款 DGX Spark 系统进行了并排比较,包括NVIDIA Founders Edition、技嘉、戴尔、宏碁和华硕的散热和功耗性能。
NVIDIA DGX Spark 热测试方法
本文所展示的数据是在使用 OpenAI 的 GPT-OSS-120B 模型运行 vLLM 在线服务基准测试时收集的。
该基准测试包含三个不同的测试场景,旨在检验推理流程的不同方面。
均衡场景下,输入和输出标记数量均为 256 个,工作负载均衡,因此预填充和解码阶段的需求都较为短暂且对称。
预填充密集型场景则将计算强度转移到输入处理上,4096 个输入标记生成 512 个输出标记;
这种配置在预填充/编码阶段会迅速耗尽张量核心,同时保持适中的解码需求,类似于代码补全场景。
相反,解码密集型场景则颠倒了这种关系,使用 512 个输入标记生成 4096 个输出标记,类似于要求模型使用单个提示编写应用程序,在自回归标记生成阶段造成持续的内存带宽压力。
每个场景均在 1、2、4、8、16、32、64 和 128 的批次大小下进行测试,总共进行了 24 个测试阶段。
每个后续阶段之间还强制执行 30 秒的冷却期。这些冷却期在图表中表现为测试阶段之间的短暂下降,由分隔阴影场景区域的垂直虚线标出。
图表校准和环境控制
图表采用阶段对齐的时间轴,这意味着所有系统的数据均按测试阶段同步,而非绝对的实际时间。
这种方法能够直接比较系统在相同工作负载阶段的行为,即使由于热节流和持续性能特性等原因,各个系统完成阶段的速度略有不同。
五个系统在相同的环境条件下同时进行测试,彼此相邻放置在一个受控房间内,测试过程中环境温度始终保持一致。
这种并行测试方法确保观察到的任何差异都直接归因于系统的热设计,而不是环境因素,例如环境温度漂移、气流模式或一天中的时间变化。
此外,所有型号都安装了最新的 NVIDIA Ubuntu 镜像。
数据收集
我们使用自定义监控脚本,以 1 秒的间隔收集系统指标。该脚本直接从 Linux 内核接口和 nvidia-smi 读取数据。我们没有使用热探针或任何外部电源监控设备进行直接测量。
需要注意的是,NVMe 固态硬盘的温度不能直接比较,因为并非所有系统都配备了完全相同的存储硬盘。例如,华硕系统是唯一配备 1TB Phison 固态硬盘的机型,戴尔系统配备的是 4TB Phison 固态硬盘,而我们测试的其他所有系统都配备了 4TB 三星固态硬盘。在后续的评测中,我们将更详细地探讨 NVMe 固态硬盘的散热情况,因为即使是硬盘与机箱底部之间的热桥等因素,在不同的 Spark 机型之间也存在差异。
NVIDIA DGX Spark 热分析
在深入探讨各项指标之前,需要了解的是,DGX Spark 采用的是集成式散热系统,其中各个组件共享散热路径。正如 Founders Edition 设计所示,GPU 的热量会直接影响相邻组件的温度,包括 CPU、NVMe 存储和网络接口。这种热依赖性意味着 GPU 密集型工作负载会在整个系统中产生连锁热效应,这也解释了为什么我们会看到不同组件之间的温度模式存在关联。

CPU温度
CPU温度数据揭示了不同配置之间最显著的差异。宏碁系统表现尤为突出,在严苛的“预填充重度”测试场景下,其最高温度仅为74.6°C,而其他所有系统的温度都攀升至80多度。这比竞争对手低了10-14°C,如此巨大的散热空间表明宏碁在散热方面投入了大量资源。

Founders Edition、戴尔和技嘉的显卡温度曲线几乎完全相同,在高负载下均达到 87-88°C。这种相似性表明,大多数厂商基本上都沿用了英伟达的参考散热设计,而非在此基础上进行改进。华硕的显卡温度介于两者之间,比其他厂商的显卡温度低几度,但仍远高于宏碁。
在 Equal 和 Prefill Heavy 测试中,温度呈现锯齿状波动,反映了基准测试的周期性特点,在冷却期间温度明显回落。在 Decode Heavy 测试中,温度则稳定在一个较为持久的水平;这也暗示了令牌生成过程对内存的密集消耗,并且内存配置显然是此工作负载的瓶颈。
GPU温度
由于散热系统共享,GPU温度的变化趋势也类似。在预注水重载测试中,Acer平台GPU最高温度仅为68°C,而其他四台机器的温度均达到80-82°C,两者相差12-14°C,与CPU温度的变化趋势一致。

Founders Edition、戴尔、技嘉和华硕之间的紧密聚集表明,这些实现方式正在接近类似的散热极限,很可能是 GPU 固件控制的散热管理开始介入的地方。
NVMe温度
存储温度反映了各机箱将硬盘位与计算端热量隔离的程度。宏碁再次领先,峰值温度仅为 51.8°C,而其他机箱的峰值温度则在 58-63°C 之间。

测试过程中温度的逐渐升高,与工作负载峰值无关,表明相邻组件的热量会随着时间的推移而累积。
对于长时间的微调运行或频繁的模型切换,这会对硬盘寿命和持续写入性能产生影响。
如前所述,不同系统的硬盘配置各不相同,因此这些比较存在一些局限性。
但宏碁在所有散热指标上都保持着持续优势,这表明其散热性能得到了真正的提升,而非硬盘性能的差异。
NIC 温度
从 ConnectX-7 网卡的温度来看,宏碁主板的最高温度为 62°C,而 Founders Edition 版本则达到了 75°C,两者相差 13°C,这与我们在其他组件上观察到的模式一致。尽管技嘉主板的 CPU 温度较高,但其网卡温度实际上比戴尔和华硕更低,这表明不同机箱设计的散热性能存在差异。

GPU功耗
最后,我们想检查一下GPU的功耗。不出所料,所有五台系统在Prefill Heavy测试期间的峰值功耗都非常相似,范围从69.3W(宏碁)到76.0W(技嘉)。

要点总结
数据清晰地表明:
我们测试的宏碁显卡在所有指标上都比竞争对手低10-15°C,这表明其散热解决方案具有根本性的优越性。
Founders Edition、戴尔和技嘉的显卡在散热方面表现相近,基本与NVIDIA的公版设计一致。
华硕显卡则处于中间位置。功耗方面,三者表现均衡,证实了散热差异完全是由散热方案造成的。
然而,技嘉显卡的表现却脱颖而出。
它提供了最佳的散热方案之一,同时GPU功耗也位居前列,在散热和功耗之间实现了最佳平衡。
总体而言,各款合作机型的性能非常接近,用户选择哪一款都不会出错。
但感兴趣的读者可以继续关注我们对每款系统的全面评测,内容涵盖工作负载性能以及大家最关心的拆解分析。