1.?一體機 (All-in-One Machine)
2025年上半年最火的AI產(chǎn)品是什么?
絕對是DeepSeek一體機。
沒有之一。
一體機,顧名思義,就是將計算、存儲和部分互聯(lián)功能集成在單個機箱內(nèi)的智算機器。
一般配置?1到2顆通用型 CPU,核心數(shù)量適中,主要負(fù)責(zé)操作系統(tǒng)運行、任務(wù)調(diào)度以及一些非計算密集型的工作負(fù)載。
當(dāng)然AI一體機中少不了GPU,通常配備?1到8塊高性能 GPU。
這些 GPU 通過?PCIe 總線?直接連接到 CPU,實現(xiàn)高速數(shù)據(jù)傳輸。
實際部署在多 GPU 配置中,NVIDIA 的?NVLink?等專有互聯(lián)技術(shù)可能用于 GPU 之間的高帶寬、低延遲通信,這種互聯(lián)雖然僅限于單機箱內(nèi)部,實際部署中也比較少見。
所以一體機的數(shù)據(jù)交互,主要依靠?PCIe 總線?作為 CPU 與 GPU 之間以及 GPU 內(nèi)部的主要互聯(lián)方式。通常不涉及外部高速網(wǎng)絡(luò)互聯(lián),因為其設(shè)計初衷是作為獨立的計算工作站。
一體機的架構(gòu)特點:?高度集成、部署簡單、占用空間小。最重要就是便宜。
典型應(yīng)用:?企業(yè)或者個人 AI 開發(fā)工作站、小型深度學(xué)習(xí)模型訓(xùn)練、邊緣 AI 推理、圖形渲染和設(shè)計等。例如DeepSeek一體機就是一種典型的產(chǎn)品形態(tài)。
2.?超節(jié)點 (Supernode)
一體機一般最多8張卡,算力有限。
因此更大規(guī)模的智算設(shè)備形態(tài),超節(jié)點就應(yīng)運而生。
超節(jié)點是比一體機更大規(guī)模的AI計算單元,它由多個計算節(jié)點(通常是服務(wù)器)通過高速網(wǎng)絡(luò)互聯(lián)而成,形成一個邏輯上的高性能計算模塊。
一個超節(jié)點內(nèi)部通常承載著強大的并行計算能力。
一個超節(jié)點可能由多臺服務(wù)器組成,每臺服務(wù)器通常配置2顆或更多 CPU,因此整個超節(jié)點可能擁有數(shù)十顆 CPU,提供強大的通用計算和任務(wù)管理能力。超節(jié)點內(nèi)部集成了?大量 GPU,數(shù)量遠(yuǎn)超一體機。每臺服務(wù)器可能配置8塊、16塊甚至更多 GPU,因此一個超節(jié)點可能包含幾十到上百塊 GPU,為大規(guī)模并行計算提供核心算力。而超節(jié)點的實物如下圖所示,看起來就是一個平平無奇的機柜。
但是超節(jié)點的互聯(lián)方式與一體機不同。超節(jié)點內(nèi)部GPU之間進行級聯(lián)(scale up),沿用?PCIe 總線?。但是最重要的是通過?NVLink(對于 NVIDIA GPU)把GPU連到了一起。當(dāng)然對于其GPU廠家,也有其他的(類似NVLINK)互聯(lián)方式,實現(xiàn) CPU 與 GPU 之間以及同一服務(wù)器內(nèi)多 GPU 之間的高速互聯(lián)。上圖可以看到,超節(jié)點GPU和CPU之間,通過PCIe互聯(lián),而GPU之間通過NVSwitch實現(xiàn)NVLINK的互聯(lián),NVLINK的能夠提供幾個Tbps的互聯(lián)帶寬。這個比PCIe要快一個數(shù)量級。而最近另一個比較有名的超節(jié)點的例子,就是華為的CLOUDMatrix384,這個通過UB Switch實現(xiàn)了384個NPU和CPU的互聯(lián)。
類似于NVLINK和UB Switch這些GPU之間scale up的互聯(lián)協(xié)議是實現(xiàn)超節(jié)點各家的殺手锏。同樣從華為的例子來看,超節(jié)點的互聯(lián)的帶寬是很高的。例如華為CLOUDMatrix384的一個GPU的UB接口達(dá)到了196GBX2的吞吐能力。
超節(jié)點典型應(yīng)用:?很多超節(jié)點就是訓(xùn)推一體,既可以推理也可以訓(xùn)練,在訓(xùn)練方面,可以實現(xiàn)中等規(guī)模 AI 模型訓(xùn)練(如百億參數(shù)級別)、復(fù)雜科學(xué)模擬、數(shù)據(jù)密集型分析、企業(yè)級高性能計算任務(wù)。
3.?智算集群 (Intelligent Computing Cluster)
當(dāng)然,超節(jié)點可以實現(xiàn)幾百張GPU的互聯(lián),如果是LLM大規(guī)模的訓(xùn)練的話,那么就會使用上萬張GPU,那就變成萬卡互聯(lián),甚至十萬卡互聯(lián)。
這就是智算集群,或者叫做萬卡集群或者十萬卡集群
這是目前最頂級的超大規(guī)模計算基礎(chǔ)設(shè)施。
它由數(shù)千甚至上萬個計算節(jié)點通過多層級、高帶寬的互聯(lián)網(wǎng)絡(luò)組成,旨在提供無與倫比的計算能力,以支持超大規(guī)模 AI 模型訓(xùn)練、前沿科學(xué)研究和復(fù)雜工程仿真。
智算集群包含?海量的 CPU。集群中的每個計算節(jié)點都配置多顆高性能 CPU,整個集群的 CPU 數(shù)量可能達(dá)到數(shù)千甚至上萬顆。CPU 主要負(fù)責(zé)集群管理、任務(wù)調(diào)度、數(shù)據(jù)預(yù)處理和一些通用計算任務(wù)。萬卡集群的核心是?海量的 GPU,數(shù)量可以從數(shù)千到上萬塊。這些 GPU 分布在數(shù)百甚至上千個計算節(jié)點中,形成一個龐大的并行計算資源池。下圖就是馬斯克同志搞得十萬卡集群的部分機柜。從智算集群的架構(gòu)來看,智算集群的互聯(lián)是其最復(fù)雜也最關(guān)鍵的部分,旨在確保數(shù)萬塊 GPU 之間的高效通信。網(wǎng)卡集群可以看做很多智算節(jié)點的互聯(lián):?在節(jié)點內(nèi)部(專業(yè)術(shù)語scale up)依然采用?PCIe 總線?和?NVLink(對于 NVIDIA GPU)實現(xiàn)節(jié)點內(nèi)部 GPU 與 CPU 的高速互聯(lián)。在節(jié)點之間(專業(yè)術(shù)語scale out):這是智算集群的精髓。它采用多層級、高帶寬、低延遲的 RDMA 網(wǎng)絡(luò),并構(gòu)建高度復(fù)雜的網(wǎng)絡(luò)拓?fù)?/a>結(jié)構(gòu),例如多層 Fat-Tree、Dragonfly+、或定制的環(huán)形/網(wǎng)格拓?fù)洹?img decoding="async" class="aligncenter" src="https://wximg.eefocus.com/forward?url=https%3A%2F%2Fmmbiz.qpic.cn%2Fsz_mmbiz_png%2F9DPKjVezgib6y9AwwicQI9gMMRy8P8ZCZEH6d8BRg0nypwlLBUkrNXibAfGfZc78sFBcLGo3K9VsibLWhyBIGicTFQA%2F640%3Fwx_fmt%3Dpng%26amp%3Bfrom%3Dappmsg&s=36eec1" />因此,萬卡智算集群引入了?高速 RDMA (Remote Direct Memory Access) 網(wǎng)絡(luò),如?InfiniBand?或?RoCE (RDMA over Converged Ethernet),用于超節(jié)點內(nèi)部不同服務(wù)器節(jié)點之間的高帶寬、低延遲通信。上圖就是通過雙層的交換機,連接不同的智算節(jié)點之間高速網(wǎng)卡(例如400G或者800G的網(wǎng)卡,一般是每塊網(wǎng)卡對于一塊高速GPU)。
例如上圖,每個GPU都要配合一張NIC(網(wǎng)卡(紫色所示)),從而在外部交換機上實現(xiàn)高速的互聯(lián)。這就是10萬卡的集群的特色,不但是有PCIe的Switch,要有GPU之間的NVlink,還要有高速的(400G/800G)的RDMA網(wǎng)卡以及高速的51.2T/102.4T的交換機(400G*128/800G*128)。這些智算服務(wù)器節(jié)點或者超節(jié)點通過網(wǎng)絡(luò)連接起來,然后通過軟硬件協(xié)同設(shè)計,并結(jié)合高性能通信庫(如 NCCL),優(yōu)化集群級的集體通信操作(All-reduce, All-gather等),確保數(shù)萬塊 GPU 能夠像一個統(tǒng)一的計算單元一樣協(xié)同工作。這么大的集群,是很容易出問題的,一次訓(xùn)練需要幾個月,但是集群無故障工作的時間也就是幾天到幾周。因此龐大的規(guī)模要求集群網(wǎng)絡(luò)具備強大的容錯能力、智能的負(fù)載均衡機制和快速的故障恢復(fù)能力。
典型應(yīng)用:?建造這種萬卡或者十萬卡的智算集群,其最主要研究就是AI訓(xùn)練,例如可以訓(xùn)練千億甚至萬億參數(shù)級別的超大規(guī)模 AI 模型(如 GPT-4、Llama 3等),而也是最大的AI煉金爐。
總結(jié)一下:
特性/架構(gòu) | 一體機 (All-in-One) | 超節(jié)點 (Supernode) |
萬卡或者十萬卡集群 (Thousands-GPU Cluster) |
CPU 數(shù)量 | 少量 (1-2顆) | 較多 (數(shù)十顆) | 海量 (數(shù)千到上萬顆) |
GPU 數(shù)量 | 少量 (1-8塊) | 大量 (幾十到上百塊) | 海量 (數(shù)千到上萬塊) |
內(nèi)部互聯(lián) (CPU-GPU/GPU-GPU) | PCIe | PCIe, NVLink/UB/其他scale up協(xié)議 (節(jié)點內(nèi)) | PCIe, NVLink/UB/其他scale up協(xié)議 (節(jié)點內(nèi)) |
節(jié)點間網(wǎng)絡(luò)互聯(lián) | 無(單機) | 超節(jié)點間使用RDMA協(xié)議 | 多層級高速 RDMA (InfiniBand/RoCE) + 雙層交換機 |
典型應(yīng)用 | 推理 | 訓(xùn)推一體 | 超大規(guī)模AI模型訓(xùn)練、前沿科學(xué)研究 |
主要特點 | 高度集成、單機性能 | 擴展性強、節(jié)點內(nèi)高速協(xié)同 | 極致規(guī)模、復(fù)雜高速網(wǎng)絡(luò)、全局優(yōu)化 |