隨著人工智能 (AI) 模型變得越來越復(fù)雜,數(shù)據(jù)量不斷攀升,數(shù)據(jù)中心正在通過改變系統(tǒng)架構(gòu),來實現(xiàn)更快、更高效的處理。
基于AI 模型產(chǎn)生的業(yè)務(wù)洞察提高了各行各業(yè)的生產(chǎn)力。從為金融機構(gòu)提供全天候客戶支持的 AI 聊天機器人;到可以實時分析患者數(shù)據(jù),預(yù)測潛在并發(fā)癥,從而實現(xiàn)更早干預(yù)的醫(yī)療保健平臺,數(shù)據(jù)驅(qū)動型計算系統(tǒng)的應(yīng)用正在持續(xù)擴(kuò)展。隨著這些模型變得越來越復(fù)雜,它們所需的數(shù)據(jù)量也會不斷增加。這還沒考慮到生成式 AI 的發(fā)展,生成式AI的結(jié)果輸出則會更依賴持續(xù)擴(kuò)充的語言模型,和不斷升級的算力。
為了支持這些應(yīng)用,數(shù)據(jù)中心必須具備更高效的大數(shù)據(jù)處理能力。這一趨勢正在改變數(shù)據(jù)中心所使用的設(shè)備,同時也在改變相應(yīng)的互連技術(shù)。
開發(fā)可擴(kuò)展的數(shù)據(jù)中心架構(gòu)
更高帶寬、更低延遲的系統(tǒng),對有效支持 AI 工作負(fù)載非常關(guān)鍵。處理密集型工作負(fù)載已經(jīng)從標(biāo)準(zhǔn)中央處理單元 (CPU),轉(zhuǎn)向更強大的圖形處理單元 (GPU) - 它們的設(shè)計初衷是通過同時執(zhí)行大量相對簡單的計算來呈現(xiàn)復(fù)雜的圖像。針對需要在短時間內(nèi)完成多項計算任務(wù)的應(yīng)用,GPU 已成為首選引擎。與此同時,隨著張量處理單元芯片(GPU)的出現(xiàn),將進(jìn)一步加速AI的學(xué)習(xí)工作負(fù)載。
單個處理器可以完成的任務(wù)畢竟是有限的。通過將處理器集群連接在一起,數(shù)據(jù)中心的算力可以大幅躍升。而如何將這些集群高效連接在一起是需要攻克的技術(shù)挑戰(zhàn)。
連接器是實現(xiàn)可擴(kuò)展性的關(guān)鍵
在多個組件之間實現(xiàn)大量數(shù)據(jù)快速、可靠地傳輸需要一系列不同的連接器。承擔(dān)繁重工作的 GPU 、以及在整個過程中協(xié)調(diào)工作負(fù)載管理的 CPU 主要依靠插座和疊板連接器將它們連接到印刷電路板。高速線纜組件和線纜盒將服務(wù)器背板上的電氣連接件連接到服務(wù)器上的電路板和其他組件。其他輸入/輸出 (I/O) 連接器將數(shù)據(jù)從一臺服務(wù)器傳輸?shù)搅硪慌_服務(wù)器,并跨多個服務(wù)器連接集群。
為了高效地運行,這些連接器的設(shè)計必須滿足外形因數(shù)規(guī)范,同時最大限度地提高數(shù)據(jù)傳輸速度。目前最快的 AI 解決方案的傳輸速率是56千兆比特/秒。在部署的系統(tǒng)中,這一數(shù)字將在未來一到兩年內(nèi)增長到112 千兆比特/秒,并有望在兩到三年后達(dá)到 224 千兆比特/秒。
隨著數(shù)據(jù)速率的逐步提高,確保系統(tǒng)可靠性能的信號誤差范圍也在縮小。通過銅纜連接以 224 千兆比特/秒的速率穩(wěn)定傳輸數(shù)據(jù),意味著(系統(tǒng))需要在極限物理條件下工作。除了這些嚴(yán)格的性能規(guī)格,工程連接器還必須具有足夠的機械方面和散熱方面的可靠性,以便能夠在嚴(yán)苛的操作環(huán)境中使用。
為此,TE 設(shè)計并生產(chǎn)出各種具有適配功能的連接器,能同時兼顧性能、成本、可靠性和耐用性。這其中包括將加速計算處理單元安裝到不同電路板上的連接器接口,以及用于安裝中央處理器的插座。為了快速連接這些組件,TE 還開發(fā)出一系列用于高速板級連接的內(nèi)部電纜組件、電纜背板組件,以及線纜盒及高速連接器,簡化系統(tǒng)集成過程,并支持系統(tǒng)構(gòu)建和擴(kuò)展這些系統(tǒng)的模塊化方法,最大程度上實現(xiàn)最高速度和最低延遲的可行性。
賦能 AI 計算
將數(shù)據(jù)傳輸?shù)剿栉恢脙H僅只是完成了一半的工作。 構(gòu)成 AI 集群的組件也需要電力來完成它們的工作。一般來說,更強的算力往往需要更高的電力來驅(qū)動。供應(yīng)這些電力需要更高效的連接器,以支持最高級別的系統(tǒng)性能。
為了支持計算密集型應(yīng)用,這些組件必須堅固耐用,以確保它們能夠可靠地支持連續(xù)運行的需求。為了確保不斷發(fā)展的架構(gòu)能持續(xù)滿足這些嚴(yán)苛的規(guī)格需求,組件制造商需要提供各種結(jié)構(gòu)形態(tài)的電源線纜組件和連接器。
運行復(fù)雜的 AI 計算組件需要更高的電力,更高的電力會產(chǎn)生更多熱量。這讓散熱成為非常關(guān)鍵的一環(huán)。AI 系統(tǒng)前面板上的連接通常是最大的發(fā)熱源之一,也讓該區(qū)域成為需要提高效率的重點區(qū)域。TE 的 I/O 產(chǎn)品具有內(nèi)置散熱功能,可將熱能從這些模塊傳導(dǎo)出去,以保持較低的運行溫度,從而提高系統(tǒng)的整體效率和可靠性。
在早期開展協(xié)作
為了支持日益復(fù)雜的 AI 應(yīng)用,數(shù)據(jù)中心對更快速度、更高帶寬的需求基本上是沒有盡頭的。 即使在部署用于當(dāng)下的解決方案時,我們的客戶也在積極思考如何為數(shù)據(jù)中心的下一步發(fā)展設(shè)計更快、更高效的架構(gòu)。
有時,連接器功能的選擇可能會改變系統(tǒng)架構(gòu)的方法。例如,當(dāng)我們與一位客戶在其系統(tǒng)的早期設(shè)計階段緊密合作時,經(jīng)過深入的探索,我們最終將從基于板對板連接器的系統(tǒng)改為使用基于線纜背板的系統(tǒng),從而使系統(tǒng)變得更加靈活和高效。
這樣的創(chuàng)新之所以能成功,是因為我們在早期就與客戶保持密切溝通,了解他們當(dāng)前的需求,及其未來的愿景。隨著 AI 發(fā)展加速數(shù)據(jù)中心的轉(zhuǎn)型,這種協(xié)作對于持續(xù)推動行業(yè)快速發(fā)展,以滿足激增的對越來越強大的算力的需求至關(guān)重要。