企业级方案

网盟科技500万预算深度学习及渲染集群方案A100 A6000

2023-02-10 11:26:43 gx 253

深度学习训练节点	规格参数	数量
WMG4S2G08	INTEL Xeon 8380(2.3-3.4GHz 40核)2/DDR4 RECC 3200MHz 2T(64G32)/1T M.2 NVME 4.01/ NVIDIA Tesla A100 40G PCIE8/21GB 千兆板载/1IPMI（远程管理）/1*100GB IB高速网卡/ 额定2000W 2+2 冗余/4U机架式	4
配件	NVIDIA 2-Slot 桥接器（支持A6000/A100）12*4	48

高逼真图形渲染节点	规格参数	数量
WMG4S2G08	INTEL Xeon 8380(2.3-3.4GHz 40核)2/DDR4 RECC 3200MHz 2T(64G32)/1T M.2 NVME 4.01/ NVIDIA RTX A6000 48G PCIE8/21GB 千兆板载/1IPMI（远程管理）/1*100GB IB高速网卡/ 额定2000W 2+2 冗余/4U机架式	3
配件	NVIDIA 2-Slot 桥接器（支持A6000/A100）4*3	12

管理及登录节点	规格参数	数量
WMG4S2G01	INTEL Xeon 43102/DDR4 RECC 3200 128G(64G2)/SSD 480G SATA1/8T HDD SATA1/21GB千兆板载/1IPMI(远程管理)/1*100G IB 双口/550W 1+1 冗余/2U 机架式含导轨	1

大规模存储节点	规格参数	数量
WMG4S2T01	INTEL Xeon 42102/DDR4 RECC 3200 256G(64G4)/SSD 480G SATA2/14T HDD SATA22/21GB千兆板载/1IPMI(远程管理)/1*100G IB 双口/1000W 1+1 冗余/2U 机架式含导轨	1

集群管理配套软件	1、集群管理（1）★资源调度：采用轻量级容器虚拟化技术和Kubernetes管理平台，实现对CPU、内存、磁盘、GPU等异构计算资源的虚拟化统一管理，支持为容器以直通方式挂载GPU等异构计算资源；（2）资源监控：管理集群中GPU服务器及GPU卡的运行状况，资源使用情况，包含CPU/内存/存储的总数、使用数和剩余数；显卡总数，各个型号的块数，分别统计用于独享、共享、vGPU三种情况的显卡使用量；（3）★资源管理：支持多台服务器的GPU卡资源统一纳管，统一分配；支持单机单卡，单机多卡，多机多卡以及GPU共享、GPU切割、Mig三种方式分配资源；以任务方式分配计算资源；任务完成计算资源回收；（4）存储系统：分布式存储管理：支持Glusterfs/Longhorn/Ceph/LeoFS等，支持将多台服务器本地的硬盘组成分布式存储使用；（5）AI框架：集成多种深度学习各种框架（如TensorFlow，PyTorch，Caffe，Keras，horovod，ray，Matlab等）用户模型开发、模型训练等；支持自定义框架； 2、用户端功能（1）★开发环境：支持用户快速创建深度学习使用的容器环境，环境包括主流的学习框架（TensorFlow/PyTorch/MATLAB等），多种资源套餐（单机单卡、单机多卡、多机多卡、单卡共享和切分），SSH访问接口，手动/定时快照，以及动态变更环境配置等功能。支持用户查看集群各个节点的资源剩余情况包括GPU型号和个数；可以查看GPU、CPU、内存的实时使用率，显存、温度等信息。（2）★模型训练：训练任务支持创建TensorFlow、Pytorch、horovod、ray等框架的分布式并行训练，训练完成资源自动回收释放。支持作业可视化管理、多版本管理、训练参数管理、作业克隆等功能。 ★超参调优：支持基于容器的超参数自动调优功能。支持Grid、Hyperband、TPE等8种自动搜索算法，多参数同时调优，分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围、恢复策略以及保存试验参数基于参数克隆试验。可以实时查看调参曲线输出内容和yaml信息。支持 TensorFlow、MXNet、PyTorch、XGBoost 等多种机器学习框架。（3）★模型管理：支持统一的模型管理功能，集中管理所有在平台训练完成的模型，导入并管理本地模型，支持模型多版本管理，以及模型发布为服务的功能。（4）★模型服务：支持将训练好的AI模型部署成在线服务（Web Service），提供在线UI预测推理能力，为用户提供可调的用API接口；支持选择vGPU和Mig套餐，支持设置模型服务自动停止时间、服务实例个数，服务的启动停止等。（5）数据管理：用户按需申请存储空间大小，提供scp访问/Web访问，支持对个人存储的扩容/重命名/修改密码/共享存储/删除等功能；数据标注工具服务化，通过平台可以在线完成数据标注，标注后的数据可用于开发环境或训练任务，同时平台也支持标注工具的扩展。（6）★数据标注工具服务化，通过平台可以在线完成数据标注，标注后的数据可用于开发环境或训练任务，同时平台也支持标注工具的扩展。（7）★镜像仓库：用户拥有自己的个人私有镜像仓库，支持在线上传个人镜像，平台自动适配封装个人镜像，支持在线设置镜像标签以及下载、多版本管理、镜像共享。 3、管理端功能（1）★组织管理：三层组织架构管理，如超级管理员、组织管理员、成员等，超级管理员可对组织进行资源配额，计费充值，设置菜单权限（自定义用户端的功能模块）。（2）★用户管理：用户信息查看，批量启用禁用，超级管理员设置用户优先级（5>4>3>2>1），优先级高的优先调度资源，如果资源不足，抢占优先级低的用户资源。（3）工单管理：平台用户可以提出问题工单，管理可以查看回复用户工单。（4）产品管理：开发环境可对平台全部用户创建的存储、环境、项目、训练任务、AutoML、模型、推理服务进行统一管理，包括不限于对上述模块的查看、停止、删除等操作。（4）运维管理：统一管理和调度节点上的算力资源，支持接入多个数据中心以及划分多个逻辑集群，支持节点添加与移除，支持查看节点上的任务详情，实时监控各个节点的负载状况。（5）配置管理：管理员可以开启资源审核，配置用户注册必填项，设置邮箱或者短信提醒方式，设置开发环境、模型训练等模块可用的节点数上限。（5）★财务管理：超级管理员可以创建各种规格的资源套餐，自定义GPU使用方式（独享、共享、vGPU、Mig），设置CPU核数、内存数、GPU块数，给资源设定计费单价，查看充值记录和消费记录。（6）安全中心：新增管理员、启动管理员、删除管理员，对管理员赋予角色权限；对平台账户操作记录日志进行查看审计。（7）系统设置：管理员可以设置平台系统的变化与logo。	1



集群部署配件材料	规格参数	数量
1	图腾42U 服务器机柜 60012002055mm	1
2	KVM切换器 16口 VGA 19英寸	1
3	Mellanox InfiniBand MSB7890-ES2F 32口/配套光缆	1
4	24口千兆交换机	1
5	24口千兆电4口万兆三层交换机	1