网盟科技500万预算深度学习及渲染集群方案A100 A6000
2023-02-10 11:26:43
gx
170
深度学习训练节点 | 规格参数 | 数量 |
WMG4S2G08 | INTEL Xeon 8380(2.3-3.4GHz 40核)*2/DDR4 RECC 3200MHz 2T(64G*32)/1T M.2 NVME 4.0*1/ NVIDIA Tesla A100 40G PCIE*8/2*1GB 千兆 板载/1*IPMI(远程管理)/1*100GB IB高速网卡/ 额定2000W 2+2 冗余/4U机架式 | 4 |
配件 | NVIDIA 2-Slot 桥接器 (支持A6000/A100)12*4 | 48 |
高逼真图形渲染节点 | 规格参数 | 数量 |
WMG4S2G08 | INTEL Xeon 8380(2.3-3.4GHz 40核)*2/DDR4 RECC 3200MHz 2T(64G*32)/1T M.2 NVME 4.0*1/ NVIDIA RTX A6000 48G PCIE*8/2*1GB 千兆 板载/1*IPMI(远程管理)/1*100GB IB高速网卡/ 额定2000W 2+2 冗余/4U机架式 | 3 |
配件 | NVIDIA 2-Slot 桥接器 (支持A6000/A100)4*3 | 12 |
管理及登录节点 | 规格参数 | 数量 |
WMG4S2G01 | INTEL Xeon 4310*2/DDR4 RECC 3200 128G(64G*2)/SSD 480G SATA*1/8T HDD SATA*1/2*1GB千兆 板载/1*IPMI(远程管理)/1*100G IB 双口/550W 1+1 冗余/2U 机架式 含导轨 | 1 |
大规模存储节点 | 规格参数 | 数量 |
WMG4S2T01 | INTEL Xeon 4210*2/DDR4 RECC 3200 256G(64G*4)/SSD 480G SATA*2/14T HDD SATA*22/2*1GB千兆 板载/1*IPMI(远程管理)/1*100G IB 双口/1000W 1+1 冗余/2U 机架式 含导轨 | 1 |
集群管理配套软件 | 1、集群管理 (1)★资源调度:采用轻量级容器虚拟化技术和Kubernetes管理平台,实现对CPU、内存、磁盘、GPU等异构计算资源的虚拟化统一管理,支持为容器以直通方式挂载GPU等异构计算资源; (2)资源监控:管理集群中GPU服务器及GPU卡的运行状况,资源使用情况,包含CPU/内存/存储的总数、使用数和剩余数;显卡总数,各个型号的块数,分别统计用于独享、共享、vGPU三种情况的显卡使用量; (3)★资源管理:支持多台服务器的GPU卡资源统一纳管,统一分配;支持单机单卡,单机多卡,多机多卡以及GPU共享、GPU切割、Mig三种方式分配资源;以任务方式分配计算资源;任务完成计算资源回收; (4)存储系统:分布式存储管理:支持Glusterfs/Longhorn/Ceph/LeoFS等,支持将多台服务器本地的硬盘组成分布式存储使用; (5)AI框架:集成多种深度学习各种框架(如TensorFlow,PyTorch,Caffe,Keras,horovod,ray,Matlab等)用户模型开发、模型训练等; 支持自定义框架; 2、用户端功能 (1)★开发环境:支持用户快速创建深度学习使用的容器环境,环境包括主流的学习框架(TensorFlow/PyTorch/MATLAB等),多种资源套餐(单机单卡、单机多卡、多机多卡、单卡共享和切分),SSH访问接口,手动/定时快照,以及动态变更环境配置等功能。 支持用户查看集群各个节点的资源剩余情况包括GPU型号和个数;可以查看GPU、CPU、内存的实时使用率,显存、温度等信息。 (2)★模型训练:训练任务支持创建TensorFlow、Pytorch、horovod、ray等框架的分布式并行训练,训练完成资源自动回收释放。支持作业可视化管理、多版本管理、训练参数管理、作业克隆等功能。 ★超参调优:支持基于容器的超参数自动调优功能。支持Grid、Hyperband、TPE等8种自动搜索算法,多参数同时调优,分布式调优等功能。用户可自定义调参任务的调优参数类型、调参范围、恢复策略以及保存试验参数基于参数克隆试验。可以实时查看调参曲线输出内容和yaml信息。支持 TensorFlow、MXNet、PyTorch、XGBoost 等多种机器学习框架。 (3)★模型管理:支持统一的模型管理功能,集中管理所有在平台训练完成的模型,导入并管理本地模型,支持模型多版本管理,以及模型发布为服务的功能。 (4)★模型服务:支持将训练好的AI模型部署成在线服务(Web Service),提供在线UI预测推理能力,为用户提供可调的用API接口;支持选择vGPU和Mig套餐,支持设置模型服务自动停止时间、服务实例个数,服务的启动停止等。 (5)数据管理:用户按需申请存储空间大小,提供scp访问/Web访问,支持对个人存储的扩容/重命名/修改密码/共享存储/删除等功能;数据标注工具服务化,通过平台可以在线完成数据标注,标注后的数据可用于开发环境或训练任务,同时平台也支持标注工具的扩展。 (6)★数据标注工具服务化,通过平台可以在线完成数据标注,标注后的数据可用于开发环境或训练任务,同时平台也支持标注工具的扩展。 (7)★镜像仓库:用户拥有自己的个人私有镜像仓库,支持在线上传个人镜像,平台自动适配封装个人镜像,支持在线设置镜像标签以及下载、多版本管理、镜像共享。 3、管理端功能 (1)★组织管理:三层组织架构管理,如超级管理员、组织管理员、成员等,超级管理员可对组织进行资源配额,计费充值,设置菜单权限(自定义用户端的功能模块)。 (2)★用户管理:用户信息查看,批量启用禁用,超级管理员设置用户优先级(5>4>3>2>1),优先级高的优先调度资源,如果资源不足,抢占优先级低的用户资源。 (3)工单管理:平台用户可以提出问题工单,管理可以查看回复用户工单。 (4)产品管理:开发环境可对平台全部用户创建的存储、环境、项目、训练任务、AutoML、模型、推理服务进行统一管理,包括不限于对上述模块的查看、停止、删除等操作。 (4)运维管理:统一管理和调度节点上的算力资源,支持接入多个数据中心以及划分多个逻辑集群,支持节点添加与移除,支持查看节点上的任务详情,实时监控各个节点的负载状况。 (5)配置管理:管理员可以开启资源审核,配置用户注册必填项,设置邮箱或者短信提醒方式,设置开发环境、模型训练等模块可用的节点数上限。 (5)★财务管理:超级管理员可以创建各种规格的资源套餐,自定义GPU使用方式(独享、共享、vGPU、Mig),设置CPU核数、内存数、GPU块数,给资源设定计费单价,查看充值记录和消费记录。 (6)安全中心:新增管理员、启动管理员、删除管理员,对管理员赋予角色权限;对平台账户操作记录日志进行查看审计。 (7)系统设置:管理员可以设置平台系统的变化与logo。 | 1 |
集群部署配件材料 | 规格参数 | 数量 |
1 | 图腾42U 服务器机柜 600*1200*2055mm | 1 |
2 | KVM切换器 16口 VGA 19英寸 | 1 |
3 | Mellanox InfiniBand MSB7890-ES2F 32口/配套光缆 | 1 |
4 | 24口千兆交换机 | 1 |
5 | 24口千兆电4口万兆三层交换机 | 1 |