广州NVIDIA DGX A100 Station工作站维修维护

2025-06-10 11:03:49 guanlii4yun

NVIDIA DGX A100 系统是专为所有 AI 基础设施和工作负载(从分析到训练再到推理)构建的通用系统。该系统基于 8 个 NVIDIA A100 Tensor Core GPU 构建。

_images/dgxa100-front.png


DGX A100 型号和组件描述

NVIDIA DGX A100 系统有两种型号:NVIDIA DGX A100 640GB 系统和 NVIDIA DGX A100 320GB 系统。

模型差异化

模型差异化

元件

NVIDIA DGX A100 640GB 系统

NVIDIA DGX A100 320GB 系统

图形处理器

数量 8 个 NVIDIA A100 GPU

第三代 NVLink

数量 8 个 NVIDIA A100 GPU

第三代 NVLink

总 GPU 内存

640 吉字节

320 吉字节

NVIDIA NVSwitch

数量 6

第二代(比第一代快 2 倍)

数量 6

第二代(比第一代快 2 倍)

联网

最多 10 个(出厂配置)

NVIDIA ConnectX-6 或 ConnectX-7

InfiniBand/200 Gb/s 以太网

最多 9 个(出厂配置)

NVIDIA ConnectX-6 或 ConnectX-7 IB/200 Gb/s 以太网

(可选附加组件:第二个双端口 200 Gb/s 以太网)

中央处理器

2 个 AMD Rome,共 128 个内核

2 个 AMD Rome,共 128 个内核

系统内存

2 TB(出厂配置)

1 TB(出厂配置)

(可选附加组件:1 TB 以获得最大 2 TB。

存储

30 TB(出厂配置)

U.2 NVMe 驱动器

(可选驱动器升级到 60 TB)

15 TB(出厂配置)

U.2 NVMe 驱动器

(可选附加组件:15 TB 以获得最大 30 TB。

可选驱动器升级到 60 TB)

组件描述

组件描述

元件

描述

图形处理器

NVIDIA A100 图形处理器

中央处理器

2 个 AMD EPYC 7742 CPU,带 64 个内核

NVSwitch

600 GB/s GPU 到 GPU 带宽

存储 (OS)

RAID 1 阵列中的 1.92 TB NVMe M.2 SSD (ea)

存储(数据缓存)

RAID 0 阵列中的 3.84 TB NVMe U.2 SED (ea)

(可选 7.68 TB NVMe U.2。SED 的

网络(集群)卡

NVIDIA ConnectX-6 或 ConnectX-7 单端口 InfiniBand(默认):高达 200Gbps

以太网:200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

注意

NVIDIA ConnectX-7 单端口网卡仅支持 InfiniBand 协议。

网络(存储)卡

NVIDIA ConnectX-6 或 ConnectX-7 双端口以太网(默认):200GbE、100GbE、50GbE、40GbE、25GbE 和 10GbE

InfiniBand:高达 200Gbps

系统内存 (DIMM)

每 16 个 DIMM 1 TB

BMC(带外系统管理)

1 GbE RJ45 接口

支持 IPMI、SNMP、KVM 和 Web 用户界面,以及 Redfish API。

带内系统管理

1 GbE RJ45 接口

电源

3 千瓦


粤ICP备08125185号-6  粤公网安备 44010402000702号