Intel Xeon

AIGC 机塔互换式工作站(服务器)RTX 6000 Ada

采用四块 NVIDIA RTX 6000 Ada 显卡对新型 AI 训练和推理服务器进行测试。实验室使用 Meta 的 Llama-2-70b-chat-hf、HuggingFace 文本生成推理 (TGI) 服务器和 HuggingFace ChatUI 测试了系统。测试模型使用大约 130GB 视频内存 (VRAM),实验室确认该系统应与可用 GPU 内存(安装四块卡时为 192GB)的其他

  • 参数:

高性能工作站服务器找我们



采用四块 NVIDIA RTX 6000 Ada 显卡对新型 AI 训练和推理服务器进行测试。

实验室使用 Meta 的 Llama-2-70b-chat-hf、HuggingFace 文本生成推理 (TGI) 服务器和 HuggingFace ChatUI 测试了系统。

测试模型使用大约 130GB 视频内存 (VRAM),

实验室确认该系统应与可用 GPU 内存(安装四块卡时为 192GB)的其他 LLM 良好配合。

以下是测试中一些值得注意的性能统计数据:

典型使用测量响应:

  • 验证时间 = 0.59673 毫秒

  • 队列时间 = 0.17409 毫秒

  • 每个Token的时间 = 54.558 ms

多个并发用户的压力测试

  • 以下数据来自 5 分钟内包含 114 个提示(20-30 个用户)的会话

多用户负载下的平均提示响应:

  • 验证时间 = 3.0312 毫秒

  • 队列时间 = 4687.9 毫秒

  • 每个Token的时间 = 68.076 ms


解决方案