AIGC 机塔互换式工作站(服务器)RTX 6000 Ada
采用四块 NVIDIA RTX 6000 Ada 显卡对新型 AI 训练和推理服务器进行测试。实验室使用 Meta 的 Llama-2-70b-chat-hf、HuggingFace 文本生成推理 (TGI) 服务器和 HuggingFace ChatUI 测试了系统。测试模型使用大约 130GB 视频内存 (VRAM),实验室确认该系统应与可用 GPU 内存(安装四块卡时为 192GB)的其他
- 参数:
采用四块 NVIDIA RTX 6000 Ada 显卡对新型 AI 训练和推理服务器进行测试。实验室使用 Meta 的 Llama-2-70b-chat-hf、HuggingFace 文本生成推理 (TGI) 服务器和 HuggingFace ChatUI 测试了系统。测试模型使用大约 130GB 视频内存 (VRAM),实验室确认该系统应与可用 GPU 内存(安装四块卡时为 192GB)的其他
采用四块 NVIDIA RTX 6000 Ada 显卡对新型 AI 训练和推理服务器进行测试。
实验室使用 Meta 的 Llama-2-70b-chat-hf、HuggingFace 文本生成推理 (TGI) 服务器和 HuggingFace ChatUI 测试了系统。
测试模型使用大约 130GB 视频内存 (VRAM),
实验室确认该系统应与可用 GPU 内存(安装四块卡时为 192GB)的其他 LLM 良好配合。
以下是测试中一些值得注意的性能统计数据:
典型使用测量响应:
验证时间 = 0.59673 毫秒
队列时间 = 0.17409 毫秒
每个Token的时间 = 54.558 ms
多个并发用户的压力测试
以下数据来自 5 分钟内包含 114 个提示(20-30 个用户)的会话
多用户负载下的平均提示响应:
验证时间 = 3.0312 毫秒
队列时间 = 4687.9 毫秒
每个Token的时间 = 68.076 ms