有關人工智能(AI)快速發(fā)展的新聞報道層出不窮,與此同時,對先進、高效的硬件基礎結構的需求也變得愈加迫切。大語言模型(LLM)越來越復雜,所需參數(shù)量每四到六個月就會翻一番。事實上,GPT-4的參數(shù)量超過一萬億!這個數(shù)字看似很直白,但其所對應的數(shù)據(jù)量龐大到令人咋舌──2萬億字節(jié)就相當于200,000張高分辨率照片或500,000個文檔。要想高效且穩(wěn)定地遷移如此龐大的數(shù)據(jù)集,就必須依賴于高可靠性、高帶寬的互連技術。
如果數(shù)據(jù)陷入傳輸瓶頸,復雜的LLM算法和強大的加速器/處理器也將失去意義。大規(guī)模處理和存儲這些模型需要高速和低延遲,而當前超大規(guī)模數(shù)據(jù)中心的基礎設施無法滿足。為了推動技術變革,超大規(guī)模用戶和整個配套生態(tài)系統(tǒng)需要考慮從芯片級別轉變,以支持擴展可實時處理PB級數(shù)據(jù)的系統(tǒng),同時降低功耗。
在這種背景下,PCI Express標準再次更新,PCIe 7.0應運而生。PCIe 7.0可提供最高達512 GB/s的帶寬和超低延遲,能夠滿足AI工作負載的海量并行計算需求,幫助緩解數(shù)據(jù)瓶頸。今天,新思科技推出了完整的PCIe 7.0 IP解決方案,助力實現(xiàn)安全的數(shù)據(jù)傳輸并為下一代AI和HPC芯片提升帶寬。
▲?圖1:AI模型中的參數(shù)量每4到6個月就會翻一番,比摩爾定律快4倍,因此需要更大的容量、更多的資源和更快的互連
AI基礎結構的演變
典型的云應用服務器機架單元中有清晰的結構:處理器和網(wǎng)絡接口卡(NIC)或數(shù)據(jù)處理單元(DPU)通過PCIe鏈路進行連接。
▲?圖2:相干計算需求呈指數(shù)級增長,催生下一代CPU到加速器的連接技術
然而,AI模型日趨復雜,模型訓練的基礎結構要求也隨之發(fā)生了巨大變化。當今的AI工作負載需要不同的架構,其中多個加速器需與中央處理器協(xié)同工作。事實上,一些先進架構需通過支持加載-存儲架構的互連技術,在單個計算單元內連接多達1,024個加速器,確保處理器能夠高效地管理和處理每個數(shù)據(jù)包。PCIe 7.0提供連接多個加速器所需的帶寬和加載-存儲功能,進而促使其高效處理大型、復雜的機器學習模型。此外,PCIe 7.0還滿足了處理器的以太網(wǎng)帶寬需求,以便與兼容1.6 Tbps以太網(wǎng)鏈路的網(wǎng)絡接口卡進行連接。
更重要的是,PCIe 7.0還可以通過完整性和數(shù)據(jù)加密(IDE)協(xié)議支持強化數(shù)據(jù)安全防護,為事務層數(shù)據(jù)包(TLP)和流量控制單元(FLIT)提供數(shù)據(jù)機密性、完整性和重放保護。
新思科技PCIe 7.0 IP解決方案可支持擴展AI工作負載并降低集成風險
新思科技在PCIe IP領域深耕二十余年,與眾多公司合作完成了3,000多項設計,致力于持續(xù)為整個PCIe生態(tài)系統(tǒng)提供接口IP支持,相關產(chǎn)品范圍涵蓋處理器、加速器、閃存控制器、固態(tài)驅動器、Retimer、智能NIC及交換機等。
典型的云應用服務器機架單元中有清晰的結構:處理器和網(wǎng)絡接口卡(NIC)或數(shù)據(jù)處理單元(DPU)通過PCIe鏈路進行連接。
與前幾代PCIe相比,互連功耗降低50%
低延遲、高帶寬鏈路,提供從端點到根的完整解決方案,并包含所有必要的向后兼容特性
信號完整性優(yōu)異,每條通道速度最高可達128 Gb/s,可實現(xiàn)512 GB/s PCIe系統(tǒng)
IDE安全防護,包括數(shù)據(jù)機密性、完整性和重放保護,可有效應對硬件級攻擊
內置協(xié)議檢查,提供多種控制器與PHY配置,以便通過新思科技驗證IP來加速驗證收斂
SoC驗證套件,可提高IP集成的健全性并降低從IP轉移到SoC的集成風險
經(jīng)得起未來考驗的AI基礎結構
對處在創(chuàng)新前沿的公司而言,與值得信賴的PCIe 7.0 IP供應商合作不僅是一項明智的選擇,更是一條必由之路。這項新技術將為下一代AI發(fā)展提供所需的性能、安全性和可擴展性,從而讓設計能夠應對日益復雜且不斷增長的AI工作負載需求。