作者:ICVIEWS編輯部
Hot Chips 向來(lái)都是芯片領(lǐng)域的盛會(huì)。2024 年的 Hot Chips 在美國(guó)斯坦福大學(xué)紀(jì)念禮堂隆重舉行。迄今為止,Hot Chips 展會(huì)已成功舉辦了 36 屆。
數(shù)十年來(lái),該展會(huì)一直是探討英特爾、AMD、IBM 以及眾多其他供應(yīng)商最前沿芯片的熱門之地,各公司也常常借此展會(huì)發(fā)布新產(chǎn)品。
英偉達(dá):公布Blackwell架構(gòu)細(xì)節(jié),2024年至2028年的產(chǎn)品路線圖IBM:下一代 AI 加速器Telum II英特爾:下一代英特爾至強(qiáng) 6 SoC、Lunar Lake客戶端處理器AMD:Zen 5 核心架構(gòu)解析高通:Oryon核心解析特斯拉:TTPoE,即特斯拉以太網(wǎng)傳輸協(xié)議中國(guó)香山高性能RISC-V處理器亮相
?01、英偉達(dá):公布Blackwell架構(gòu)細(xì)節(jié)
英偉達(dá)公布了下一代GPU架構(gòu)Blackwell的更多細(xì)節(jié)信息,以及未來(lái)的產(chǎn)品路線圖。英偉達(dá)Blackwell是通用計(jì)算全棧矩陣的終極解決方案,由多個(gè)英偉達(dá)芯片組成,包括Blackwell GPU、Grace CPU、BlueField數(shù)據(jù)處理單元、ConnectX網(wǎng)絡(luò)接口卡、NVLink交換機(jī)、Spectrum以太網(wǎng)交換機(jī)和Quantum InfiniBand交換機(jī)。
它涵蓋了從CPU和GPU計(jì)算,到用于互連的不同類型的網(wǎng)絡(luò)。這是芯片到機(jī)架和互連,而不僅僅是GPU。它是有史以來(lái)單個(gè)GPU所擁有的最強(qiáng)AI計(jì)算、內(nèi)存帶寬和互連帶寬。通過(guò)使用高帶寬接口(NV-HBI),可在兩個(gè)GPU芯片之間提供10TB/s的帶寬。此外,英偉達(dá)還引入了新的FP4和FP6精度。降低計(jì)算精度是提高性能的一種眾所周知的方法。通過(guò)英偉達(dá)的Quasar量化系統(tǒng),可以找出哪些方面可以使用較低的精度,從而減少計(jì)算和存儲(chǔ)。英偉達(dá)表示,用于推理的FP4在某些情況下可以接近BF16性能。
NVLink交換機(jī)芯片和NVLink交換機(jī)托盤(tray)旨在以更低的功耗推送大量數(shù)據(jù)。英偉達(dá)演示了GB200 NVL72和NVL36。其中,NVL72包含36個(gè)Grace GPU和72個(gè)Blackwell GPU,專為萬(wàn)億參數(shù)AI而設(shè)計(jì)。GB200 NVL 72作為一個(gè)統(tǒng)一系統(tǒng),對(duì)大語(yǔ)言模型(LLM)推理性能提升高達(dá)30倍,釋放了實(shí)時(shí)運(yùn)行數(shù)萬(wàn)億個(gè)參數(shù)模型的能力。
英偉達(dá)表示,隨著AI模型尺寸的增加,在多個(gè)GPU上拆分工作負(fù)載勢(shì)在必行。而B(niǎo)lackwell足夠強(qiáng)大,可以在一個(gè)GPU中處理專家模型。
英偉達(dá)還展示了2024年至2028年的產(chǎn)品路線圖。2026年的1.6T ConnectX-9似乎表明了英偉達(dá)對(duì)PCIe Gen7的需求,因?yàn)镻CIe Gen6 x16無(wú)法處理1.6T的網(wǎng)絡(luò)連接。
?02、IBM:下一代 AI 加速器,Telum II
2021 年,IBM推出了IBM Telum 處理器,這是 IBM 首款用于推理的先進(jìn)處理器芯片 AI 加速器。Telum 處理器實(shí)現(xiàn)業(yè)務(wù)成果的能力一直是 IBM z16大型機(jī)計(jì)劃成功的關(guān)鍵驅(qū)動(dòng)因素。隨著客戶需求的發(fā)展,IBM 不斷創(chuàng)新并突破新興技術(shù)的極限。
在今年的Hot Chips 2024大會(huì)上,IBM 宣布推出面向 AI 時(shí)代的下一代企業(yè)計(jì)算,即?IBM Telum II 處理器和?IBM Spyre Accelerator?預(yù)覽版。預(yù)計(jì)兩者將于 2025 年上市。采用三星 5nm 技術(shù)開(kāi)發(fā)的全新 IBM Telum II 處理器將配備八個(gè)高性能核心,運(yùn)行頻率為 5.5GHz。Telum II 的片上緩存容量將增加 40%,虛擬 L3 和虛擬 L4 分別增加到 360MB 和 2.88GB。該處理器集成了專門用于 IO 加速的全新數(shù)據(jù)處理單元 (DPU) 和下一代片上 AI 加速。這些硬件增強(qiáng)旨在為客戶提供比前幾代產(chǎn)品顯著的性能改進(jìn)。
每個(gè)加速器的計(jì)算能力預(yù)計(jì)將提高 4 倍,達(dá)到每秒 24 萬(wàn)億次運(yùn)算 (TOPS)。但僅憑 TOPS 并不能說(shuō)明全部情況。這完全取決于加速器的架構(gòu)設(shè)計(jì)以及位于加速器之上的 AI 生態(tài)系統(tǒng)的優(yōu)化。當(dāng)談到生產(chǎn)企業(yè)工作負(fù)載中的 AI 加速時(shí),適合用途的架構(gòu)至關(guān)重要。Telum II 旨在使模型運(yùn)行時(shí)能夠與最苛刻的企業(yè)工作負(fù)載并駕齊驅(qū),同時(shí)提供高吞吐量、低延遲推理。此外,還增加了對(duì) INT8 作為數(shù)據(jù)類型的支持,以增強(qiáng)首選 INT8 的應(yīng)用程序的計(jì)算能力和效率,從而支持使用較新的模型。還加入了新的計(jì)算原語(yǔ),以更好地支持加速器內(nèi)的大型語(yǔ)言模型。它們旨在支持越來(lái)越廣泛的 AI 模型,以便對(duì)結(jié)構(gòu)化數(shù)據(jù)和文本數(shù)據(jù)進(jìn)行全面分析。
Spyre 核心的框圖在 Hot Chips 2024 上,IBM 還展示了 IBM Spyre 加速器,它是與 IBM Research 和 IBM Infrastructure Development 聯(lián)合開(kāi)發(fā)的。Spyre 加速器將包含 32 個(gè) AI 加速器核心,這些核心將與集成在 Telum II 芯片中的 AI 加速器共享類似的架構(gòu)。多個(gè) IBM Spyre 加速器可以通過(guò) PCIe 連接到 IBM Z 的 I/O 子系統(tǒng)中。將這兩種技術(shù)結(jié)合起來(lái)可以大幅增加可用的加速量。
Spyre 加速卡的外觀Spyre 芯片上有一個(gè) 32 字節(jié)雙向環(huán)連接 32 個(gè)內(nèi)核(我們認(rèn)為是 34 個(gè)內(nèi)核,但只有 32 個(gè)處于活動(dòng)狀態(tài)),還有一個(gè)單獨(dú)的 128 字節(jié)環(huán)連接與內(nèi)核相關(guān)的暫存器內(nèi)存。內(nèi)核支持 INT4、INT8、FP8 和 FP16 數(shù)據(jù)類型。
?03、英特爾:下一代英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器
在 Hot Chips 2024 上,英特爾發(fā)表了四篇技術(shù)論文,重點(diǎn)介紹了英特爾至強(qiáng) 6 SoC、Lunar Lake 客戶端處理器、英特爾 Gaudi 3 AI 加速器和 OCI 芯片組。
英特爾至強(qiáng) 6 SoC 將英特爾至強(qiáng) 6 處理器的計(jì)算芯片組與基于intel 4 工藝技術(shù)構(gòu)建的邊緣優(yōu)化 I/O 芯片組相結(jié)合。與之前的技術(shù)相比,這使 SoC 在性能、能效和晶體管密度方面實(shí)現(xiàn)了顯著提升。其他功能包括:
- 最多 32 條通道 PCI Express (PCIe) 5.0。最多 16 條通道 Compute Express Link (CXL) 2.0。2x100G 以太網(wǎng)。兼容 BGA 封裝中的四個(gè)和八個(gè)內(nèi)存通道。
lEdge 特定的增強(qiáng)功能,包括擴(kuò)展的工作溫度范圍和工業(yè)級(jí)可靠性,使其成為高性能堅(jiān)固設(shè)備的理想選擇。
英特爾至強(qiáng) 6 SoC 還包括旨在提高邊緣和網(wǎng)絡(luò)工作負(fù)載性能和效率的功能,其中包括新媒體加速,可增強(qiáng)實(shí)時(shí) OTT、VOD 和廣播媒體的視頻轉(zhuǎn)碼和分析;英特爾高級(jí)矢量擴(kuò)展和英特爾高級(jí)矩陣擴(kuò)展,可提高推理性能;英特爾QuickAssist 技術(shù),可實(shí)現(xiàn)更高效的網(wǎng)絡(luò)和存儲(chǔ)性能;英特爾 vRAN Boost,可降低虛擬化 RAN 的功耗;并支持英特爾Tiber 邊緣平臺(tái),讓用戶能夠以類似云的簡(jiǎn)便性在標(biāo)準(zhǔn)硬件上構(gòu)建、部署、運(yùn)行、管理和擴(kuò)展邊緣和人工智能解決方案。
Lunar Lake 客戶端處理器。與上一代相比,新的性能核心 (P 核心)?和高效核心 (E 核心)?可提供驚人的性能,而系統(tǒng)級(jí)芯片功耗降低了 40%。與上一代相比,新的神經(jīng)處理單元速度提高了 4 倍,從而實(shí)現(xiàn)了生成式 AI (GenAI) 的相應(yīng)改進(jìn)。此外,新的 X e 2 圖形處理單元核心將游戲和圖形性能提高了 1.5 倍。有關(guān) Lunar Lake 的更多詳細(xì)信息將于9 月 3 日在英特爾酷睿超極本發(fā)布會(huì)期間公布。
英特爾 Gaudi 3 AI 加速器。人工智能加速器首席架構(gòu)師 Roman Kaplan 介紹了需要大量計(jì)算能力的生成式人工智能模型的訓(xùn)練和部署。隨著系統(tǒng)規(guī)模的擴(kuò)大(從單個(gè)節(jié)點(diǎn)擴(kuò)展到龐大的數(shù)千個(gè)節(jié)點(diǎn)集群),這會(huì)帶來(lái)巨大的成本和功耗挑戰(zhàn)。
英特爾 Gaudi 3 OAM 工作示例包英特爾 Gaudi 3 AI 加速器通過(guò)優(yōu)化計(jì)算、內(nèi)存和網(wǎng)絡(luò)架構(gòu)來(lái)解決這些問(wèn)題,同時(shí)采用高效矩陣乘法引擎、兩級(jí)緩存集成和廣泛的 RoCE(融合以太網(wǎng)上的 RDMA)網(wǎng)絡(luò)等策略。這使 Gaudi 3 AI 加速器能夠?qū)崿F(xiàn)顯著的性能和能效,使 AI 數(shù)據(jù)中心能夠更經(jīng)濟(jì)高效、更可持續(xù)地運(yùn)行,解決部署 GenAI 工作負(fù)載時(shí)的可擴(kuò)展性問(wèn)題。
?04、AMD:Zen 5 核心架構(gòu)解析
在 Hot Chips 上,AMD 深入介紹了其全新的 Zen 5 核心架構(gòu),該架構(gòu)將為其下一次高性能 PC 之旅提供動(dòng)力。AMD 的 Zen 1 核心架構(gòu)于 2017 年首次推出,此后,該公司推出了五種新架構(gòu)(Zen+、Zen 2、Zen 3、Zen 4、Zen 5)。AMD 在本世紀(jì)初推出了 Zen 3 架構(gòu),該架構(gòu)在利用 7nm/6nm 工藝技術(shù)的同時(shí),將 IPC 提高了 19%,具有 8 核復(fù)合體,并增加了每個(gè) CCX 的 L3 緩存。該公司隨后發(fā)布了 Zen 4,帶來(lái)了另外 14% 的 IPC 改進(jìn)、AVX-512(FP-256)指令、將 L2 緩存增加一倍至 1 MB、支持 VNNI/BFLOAT16 并采用 5nm 和 4nm 工藝技術(shù)。
今年,AMD 推出了其最新的高性能核心架構(gòu) Zen 5,該架構(gòu)通過(guò) AVX-512 和 FP-512 變體將 IPC 提升了 16%,具有 8 寬調(diào)度、6 個(gè) ALU、雙管道提取/解碼和 4nm/3nm 技術(shù)利用率。今天,AMD 正在 Hot Chips 上深入研究其 Zen 5 的完整架構(gòu)。
AMD 首先闡述了 Zen 5 的設(shè)計(jì)目標(biāo)。在性能方面,Zen 5 旨在實(shí)現(xiàn) 1T 和 NT 性能的又一次重大提升,平衡跨核 1T/NT 指令和數(shù)據(jù)吞吐量,創(chuàng)建前端并行性,提高執(zhí)行并行性,提高吞吐量,實(shí)現(xiàn)高效的數(shù)據(jù)移動(dòng)和預(yù)取,并支持 AVX512/FP512 數(shù)據(jù)路徑以提高吞吐量和 AI。同時(shí),AMD 希望通過(guò)其 Zen 5 和 Zen 5C 核心變體添加新功能,例如額外的 ISA 擴(kuò)展和新的安全功能,以及擴(kuò)展平臺(tái)支持。
產(chǎn)品方面,AMD 的 Zen 5 核心將在三輪產(chǎn)品中率先亮相,包括 Ryzen 9000 “Granite Ridge” 臺(tái)式機(jī) CPU、Ryzen AI 300 “Strix” 筆記本電腦 CPU 和第五代 EPYC "Turin" 數(shù)據(jù)中心 CPU??偠灾珹MD 表示 Zen 5 再次以大幅提升性能的節(jié)奏交付,AVX512 具有 512 位 FP 數(shù)據(jù)路徑,可提高吞吐量和 AI 性能。高效、高性能、可擴(kuò)展的可配置解決方案:Zen 5 可實(shí)現(xiàn)峰值性能,Zen 5c 可實(shí)現(xiàn)效率,支持 4nm 和 3nm 工藝節(jié)點(diǎn)。
?05、高通:Oryon 核心解析
在 Hot Chips 2024 上,高通詳細(xì)展示了驍龍 X Elite 中的 高通Oryon CPU。高通 Snapdragon X Elite 是該公司進(jìn)軍基于 Arm 的 PC SoC 的嘗試。
高通Oryon 是該公司為 Snapdragon X Elite SoC 提供動(dòng)力的 CPU。這是 Nuvia 團(tuán)隊(duì)基于 Arm 的核心。這里的集群是相同的,但出于功率目的,它們的運(yùn)行方式不同。
高通重點(diǎn)關(guān)注的 CPU 核心領(lǐng)域包括指令獲取單元 (IFU)、矢量執(zhí)行單元 (VXU)、重命名和退出單元 (REU)、整數(shù)執(zhí)行單元 (IXU)、內(nèi)存管理單元 (MMU) 以及加載和存儲(chǔ)單元 (LSU)。以下是 Oryon 的提取和解碼規(guī)格。13 周期分支預(yù)測(cè)錯(cuò)誤延遲并非業(yè)界最佳,但高通表示,該設(shè)計(jì)已“平衡”。
矢量和標(biāo)量引擎都具有類似的總體布局和物理寄存器文件。兩者都有來(lái)自加載/存儲(chǔ)單元的四個(gè)數(shù)據(jù)饋送,因此每個(gè)周期可以進(jìn)行四次加載。相比之下,AMD 的 Zen 4 在整數(shù)方面每個(gè)周期只能處理三次加載,在矢量方面每個(gè)周期只能處理兩次加載。
高通選擇了分布式調(diào)度模型。雖然統(tǒng)一調(diào)度器有其優(yōu)勢(shì),但拆分隊(duì)列可以更輕松地選擇最早就緒的指令。Oryon 的加載/存儲(chǔ)單元擁有大型 64 個(gè)條目保留站或調(diào)度器。核心的調(diào)度容量大于加載/存儲(chǔ)隊(duì)列容量,這與我們?cè)谄渌軜?gòu)中看到的情況相反。
高通指出,更大的調(diào)度器仍能滿足時(shí)序要求,并緩解一些瓶頸。此外,調(diào)度器可以執(zhí)行除加載/存儲(chǔ)之外的其他操作(可能是存儲(chǔ)數(shù)據(jù)操作),額外的容量有助于吸收這些操作。Oryon 的 L1 數(shù)據(jù)緩存容量為 96 KB。它是多端口的,并使用代工廠的標(biāo)準(zhǔn)位單元設(shè)計(jì)。高通確實(shí)評(píng)估了使用更大數(shù)據(jù)緩存的可能性,但選擇了 96 KB 的設(shè)計(jì)以滿足時(shí)序(時(shí)鐘速度)要求。
這是使用單線程的內(nèi)存帶寬圖表。單核能夠以略低于 100GB/s 的范圍進(jìn)行傳輸,考慮到 LPDDR5x 內(nèi)存的 135GB/s 平臺(tái)帶寬,這非常了不起。
預(yù)取在任何現(xiàn)代核心中都扮演著重要角色。Oryon 特別強(qiáng)調(diào)預(yù)取,各種標(biāo)準(zhǔn)和專有預(yù)取器都會(huì)查看訪問(wèn)模式,并嘗試在指令請(qǐng)求數(shù)據(jù)之前生成請(qǐng)求。高通通過(guò)使用各種訪問(wèn)模式測(cè)試軟件可見(jiàn)的加載延遲來(lái)展示這一點(diǎn)。預(yù)取器拾取的模式具有較低的延遲。對(duì)于簡(jiǎn)單的線性訪問(wèn)模式,預(yù)取器運(yùn)行得足夠靠前,幾乎可以完全隱藏 L2 延遲。
在系統(tǒng)層面,驍龍 X Elite 擁有 12 個(gè)內(nèi)核,分為三個(gè)四核集群。之所以沒(méi)有使用更大的內(nèi)核集群,是因?yàn)樵陂_(kāi)發(fā)生命周期的早期,L2 互連不支持超過(guò)四個(gè)內(nèi)核的集群。該功能后來(lái)被添加,但并未出現(xiàn)在驍龍 X Elite 中。之前有測(cè)試指出,在測(cè)試的筆記本電腦中,12 個(gè)內(nèi)核受到功率和散熱限制的嚴(yán)重限制。在與產(chǎn)品經(jīng)理的對(duì)話中,他們表示,擁有 12 個(gè)內(nèi)核讓驍龍 X Elite 能夠擴(kuò)展到更高的功率目標(biāo),并在具有更好散熱的設(shè)備中提供額外的多線程性能。該策略與英特爾和 AMD 形成鮮明對(duì)比,后者使用不同的內(nèi)核數(shù)量來(lái)實(shí)現(xiàn)廣泛的功率目標(biāo)。
高通希望將 Oryon 的用途拓展到筆記本電腦以外的領(lǐng)域。
?06、特斯拉:TTPoE,即特斯拉以太網(wǎng)傳輸協(xié)議
去年在 Hot Chips 2023 上,特斯拉推出了他們的 Dojo 超級(jí)計(jì)算機(jī)。對(duì)于特斯拉來(lái)說(shuō),機(jī)器學(xué)習(xí)專注于自動(dòng)駕駛汽車等汽車應(yīng)用,訓(xùn)練涉及視頻,這可能需要大量的 IO 帶寬。例如,對(duì)于公司的視覺(jué)應(yīng)用,單個(gè)張量的大小可能為 1.7 GB。特斯拉發(fā)現(xiàn),即使主機(jī)只是通過(guò) PCIe 復(fù)制數(shù)據(jù),他們的 Dojo 超級(jí)計(jì)算機(jī)的吞吐量也可能受到主機(jī)將數(shù)據(jù)推送到超級(jí)計(jì)算機(jī)的速度的限制。
特斯拉通過(guò)增加更多主機(jī)和將這些額外主機(jī)連接到超級(jí)計(jì)算機(jī)的廉價(jià)方式解決了這個(gè)問(wèn)題。特斯拉沒(méi)有使用像 Infiniband 這樣的典型超級(jí)計(jì)算機(jī)網(wǎng)絡(luò)解決方案,而是選擇通過(guò)修改傳輸層來(lái)適應(yīng)以太網(wǎng)的需求。TCP 被特斯拉以太網(wǎng)傳輸協(xié)議 (TTPoE) 取代。TTPoE 旨在提供微秒級(jí)延遲并允許簡(jiǎn)單的硬件卸載。較低級(jí)別的層保持不變,讓協(xié)議在標(biāo)準(zhǔn)以太網(wǎng)交換機(jī)上運(yùn)行。
TTPoE 的設(shè)計(jì)完全由硬件處理,并提供比標(biāo)準(zhǔn) TCP 協(xié)議更好的延遲。因此,與 TCP 相比,TTPoE 的狀態(tài)機(jī)大大簡(jiǎn)化。
通過(guò)消除 TCP 中的等待狀態(tài),可以減少延遲。在 TCP 中關(guān)閉連接涉及發(fā)送 FIN、等待該 FIN 的確認(rèn),并確認(rèn)該確認(rèn)。此后,連接進(jìn)入 TIME WAIT 狀態(tài),這需要實(shí)現(xiàn)等待一段時(shí)間,允許任何無(wú)序數(shù)據(jù)包安全耗盡,然后新連接才能重用該端口。TTP 刪除 TIME_WAIT 狀態(tài),并將關(guān)閉順序從三次傳輸更改為兩次??梢酝ㄟ^(guò)發(fā)送關(guān)閉操作碼并接收確認(rèn)來(lái)關(guān)閉 TTP 連接。Tesla 的目標(biāo)是微秒級(jí)的延遲,因此即使是毫秒級(jí)的 TIME_WAIT 持續(xù)時(shí)間也可能導(dǎo)致嚴(yán)重問(wèn)題。
TCP 以三向 SYN、SYN-ACK、ACK 握手打開(kāi)連接。TTP 應(yīng)用了與關(guān)閉端類似的優(yōu)化,將握手更改為雙向握手。同樣,打開(kāi)連接時(shí)傳輸次數(shù)越少,延遲就越低。這些簡(jiǎn)化的打開(kāi)和關(guān)閉序列是在硬件中實(shí)現(xiàn)的,這也使其對(duì)軟件透明。這意味著軟件不必明確創(chuàng)建連接,而是可以告訴硬件它想要向哪個(gè)目的地發(fā)送數(shù)據(jù)或從哪個(gè)目的地接收數(shù)據(jù)。
與 TCP 一樣,特斯拉使用數(shù)據(jù)包丟棄來(lái)進(jìn)行擁塞控制。但由于 TTP 設(shè)計(jì)為在低延遲底層網(wǎng)絡(luò)上運(yùn)行,因此特斯拉能夠采取蠻力方法解決問(wèn)題。傳統(tǒng)的 TCP 實(shí)現(xiàn)會(huì)維護(hù)一個(gè)滑動(dòng)擁塞窗口,該窗口限制可以發(fā)送的未確認(rèn)數(shù)據(jù)量。您可以將其視為網(wǎng)絡(luò)中正在傳輸?shù)牧髁?。如果?shù)據(jù)包得到及時(shí)確認(rèn),則擁塞窗口會(huì)擴(kuò)大,從而增加帶寬。如果數(shù)據(jù)包被丟棄并且在時(shí)間閾值內(nèi)未收到確認(rèn),則擁塞窗口會(huì)迅速縮小。這讓 TCP 能夠優(yōu)雅地處理各種不同的連接。帶寬將在低延遲、低損耗的家庭本地網(wǎng)絡(luò)中擴(kuò)大,并自然地在與您的互聯(lián)網(wǎng)服務(wù)提供商及其他網(wǎng)絡(luò)的高延遲、高數(shù)據(jù)包丟失鏈接中縮小。
特斯拉不打算在開(kāi)放互聯(lián)網(wǎng)的低質(zhì)量鏈路上運(yùn)行 TTP,因此采取了強(qiáng)力擁塞控制方法。擁塞窗口不會(huì)根據(jù)數(shù)據(jù)包丟失進(jìn)行縮放。硬件跟蹤 SRAM 緩沖區(qū)中發(fā)送的數(shù)據(jù),這定義了擁塞窗口大小。當(dāng)緩沖區(qū)填滿時(shí),發(fā)送停止,數(shù)據(jù)包丟失通過(guò)重新傳輸 SRAM 緩沖區(qū)中保存的數(shù)據(jù)來(lái)處理。當(dāng)相應(yīng)的確認(rèn)從另一端返回時(shí),數(shù)據(jù)將從 SRAM 緩沖區(qū)中釋放,從而自然地將滑動(dòng)窗口向前移動(dòng)。
特斯拉證明這種方法的合理性是,傳統(tǒng) TCP 擁塞控制算法(如 Reno)的工作時(shí)間尺度太長(zhǎng),因此對(duì)其 Dojo 超級(jí)計(jì)算機(jī)應(yīng)用程序無(wú)效。
擁塞管理在每個(gè)端點(diǎn)上獨(dú)立處理,這是 TCP 擁塞愛(ài)好者所熟悉的模型。Tesla 提到這一點(diǎn)主要是為了與其他低延遲網(wǎng)絡(luò)(如 Infiniband)形成對(duì)比,在這些網(wǎng)絡(luò)中,擁塞控制是在交換機(jī)級(jí)別處理的。Infiniband 使用在交換機(jī)級(jí)別控制的信用系統(tǒng),不會(huì)丟棄數(shù)據(jù)包。如果端點(diǎn)用盡信用,它就會(huì)停止發(fā)送。TCP 和 TTP 通過(guò)簡(jiǎn)單地丟棄數(shù)據(jù)包來(lái)處理?yè)砣?,從而消除了單?dú)發(fā)送信用的需要,并降低了網(wǎng)絡(luò)交換機(jī)的復(fù)雜性。
Tesla 在位于芯片和標(biāo)準(zhǔn)以太網(wǎng)硬件之間的硬件塊中處理其 TTP 協(xié)議。此 MAC 硬件塊由 CPU 架構(gòu)師設(shè)計(jì),并引入了許多 CPU 設(shè)計(jì)功能。演示者將其描述為像共享緩存一樣,其中仲裁器在考慮排序風(fēng)險(xiǎn)的情況下在請(qǐng)求之間進(jìn)行選擇。
傳輸中的數(shù)據(jù)包在被確認(rèn)后會(huì)按順序“退出”,這種機(jī)制讓人想起 CPU 從重新排序緩沖區(qū)按順序退出指令。最突出的資源之一是 1 MB 傳輸 SRAM 緩沖區(qū),它定義了上述擁塞窗口。特斯拉表示,這個(gè)大小足以容忍大約 80 微秒的網(wǎng)絡(luò)延遲,而不會(huì)造成明顯的帶寬損失。根據(jù)利特爾定律,假設(shè) 1 MB 的傳輸數(shù)據(jù)和 80 微秒的延遲,則會(huì)產(chǎn)生 97.65Gbps。這剛好足以使 100 千兆位網(wǎng)絡(luò)接口飽和。TPP MAC 是在 Tesla 所謂的“Dumb-NIC”上實(shí)現(xiàn)的。NIC 代表“網(wǎng)絡(luò)接口卡”。之所以被稱為“Dumb”,是因?yàn)樗M可能便宜和簡(jiǎn)單。Tesla 希望部署大量主機(jī)節(jié)點(diǎn)來(lái)為他們的 Dojo 超級(jí)計(jì)算機(jī)提供數(shù)據(jù),而廉價(jià)的網(wǎng)卡有助于以經(jīng)濟(jì)高效的方式實(shí)現(xiàn)這一目標(biāo)。
除了 TPP MAC,Mojo 還集成了帶有 PCIe Gen 3 x16 接口的主機(jī)芯片以及 8 GB 的 DDR4。PCIe Gen 3 和 DDR4 并非尖端技術(shù),但有助于控制成本。Mojo 這個(gè)名字源于這樣一種理念:額外的主機(jī)節(jié)點(diǎn)會(huì)為 Dojo 提供更多的 Mojo,從而保持高性能。
這些 Mojo 卡安裝在遠(yuǎn)程主機(jī)上。當(dāng)工程師需要更多帶寬來(lái)將數(shù)據(jù)輸入 Dojo 超級(jí)計(jì)算機(jī)時(shí),可以從池中拉出遠(yuǎn)程主機(jī)。這些機(jī)器的額外帶寬疊加在現(xiàn)有主機(jī)提供的入口帶寬之上,這些主機(jī)使用去年 Hot Chips 會(huì)議上展示的更高成本接口處理器。
總體而言,Mojo 和 TTPoE 協(xié)議提供了一個(gè)有趣的視角,展示了如何簡(jiǎn)化眾所周知的傳輸控制協(xié)議 (TCP),以用于更高質(zhì)量的超級(jí)計(jì)算機(jī)內(nèi)部網(wǎng)絡(luò)。雖然該協(xié)議理論上可以在互聯(lián)網(wǎng)上運(yùn)行,但諸如固定擁塞窗口之類的簡(jiǎn)化在互聯(lián)網(wǎng)服務(wù)提供商及其他低質(zhì)量鏈路上效果不佳。與 Infiniband 等其他超級(jí)計(jì)算網(wǎng)絡(luò)解決方案相比,以太網(wǎng)上的自定義傳輸協(xié)議可能提供足夠的額外帶寬來(lái)滿足 Dojo 的需求。
?07、中國(guó)香山高性能 RISC-V 處理器亮相
“香山”開(kāi)源高性能RISC-V處理器核源于中國(guó)科學(xué)院在2019年布局的“中國(guó)科學(xué)院先導(dǎo)戰(zhàn)略專項(xiàng)”。作為該項(xiàng)目的承擔(dān)單位,中國(guó)科學(xué)院計(jì)算技術(shù)研究所于2021年成功研制了第一代開(kāi)源高性能RISC-V處理器核“香山(雁棲湖)”,是同期全球性能最高的開(kāi)源處理器核。
第二代“香山”(南湖)開(kāi)源高性能RISC-V處理器核發(fā)布,是我國(guó)首款對(duì)標(biāo)A76的高性能開(kāi)源RISC-V處理器核。第三代“香山”(微架構(gòu)代號(hào)是昆明湖)生產(chǎn)線瞄準(zhǔn)的是 Arm Neoverse N2。
以上是“昆明湖”和“南湖”芯片與Arm Neoverse N2和 Arm Cortex A76 的比較。