關(guān)注我們

掃碼關(guān)注
獲取工程師必備禮包
板卡試用/精品課

設(shè)計助手

電子硬件助手

元器件查詢

加入星計劃，您可以享受以下權(quán)益：

創(chuàng)作內(nèi)容快速變現(xiàn)
行業(yè)影響力擴散
作品版權(quán)保護
300W+ 專業(yè)用戶
1.5W+ 優(yōu)質(zhì)創(chuàng)作者
5000+ 長期合作伙伴

立即加入

為何說eFPGA是最適應(yīng)AI時代的計算芯片方案？

原創(chuàng)

2024/02/06 作者：李堅

5322

加入交流群

掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

eFPGA IP業(yè)務(wù)的發(fā)明者

自1984年以來，FPGA市場一直在增長，但未經(jīng)歷爆發(fā)性增長。FPGA以其硬件可編程性和高性能而被廣泛應(yīng)用于技術(shù)前沿，尤其在新技術(shù)和標(biāo)準(zhǔn)的早期實現(xiàn)和中小規(guī)模部署中發(fā)揮作用。隨著數(shù)據(jù)量的爆炸性增長使得傳統(tǒng)的處理模式受到挑戰(zhàn)，這為FPGA行業(yè)帶來了新機會，越來越多的應(yīng)用將任務(wù)從CPU轉(zhuǎn)移到FPGA處理，以發(fā)揮FPGA在能效和處理延遲方面的優(yōu)勢。

我們都知道FPGA的發(fā)明者是賽靈思，但今天要介紹的則是eFPGA（嵌入式FPGA）業(yè)務(wù)的發(fā)明者——Achronix。

2016年，源于客戶的強烈需求，Achronix開創(chuàng)了eFPGA IP市場。

自成立以來，Achronix一直致力于高端FPGA市場和eFPGA技術(shù)的發(fā)展，也是目前唯一同時提供高性能高密度獨立FPGA芯片和eFPGA IP解決方案的供應(yīng)商。

Achronix的核心特點包括高端、高帶寬FPGA，如采用7納米工藝的Speedster7t系列，配備高速接口、二維片上網(wǎng)絡(luò)（2D NoC）和機器學(xué)習(xí)處理器（MLP）等先進技術(shù)。

另一個顯著特點是Speedcore eFPGA硅知識產(chǎn)權(quán)（IP），即提供FPGA技術(shù)授權(quán)給客戶，使客戶能夠為其ASIC/SoC添加可編程邏輯陣列。

可以說，高端FPGA芯片、eFPGA IP和基于高端FPGA芯片的先進加速卡這樣的產(chǎn)品組合目前在全球范圍內(nèi)是獨一無二的。得益于其Speedcore eFPGA IP等旗艦產(chǎn)品，該公司已在多個行業(yè)領(lǐng)域授權(quán)了超過1500萬個eFPGA。

近年來新興市場的快速成長要求企業(yè)在投入巨大成本和時間進行開發(fā)時，要更多地考慮利用FPGA技術(shù)。企業(yè)數(shù)據(jù)中心或邊緣計算解決方案在不同發(fā)展階段對硬件的要求各異，他們需要靈活適應(yīng)應(yīng)用規(guī)模和使用量。為此，Achronix提出了一種新的可編程硬件應(yīng)用模式，能夠適應(yīng)不同階段的需求。例如，研發(fā)初期和早期部署可以使用符合PCIe等標(biāo)準(zhǔn)接口的加速卡，而全面量產(chǎn)時則可選擇獨立FPGA芯片，應(yīng)用規(guī)模進一步上升時，可選擇eFPGA IP產(chǎn)品來定制SoC或ASIC。

Achronix Semiconductor中國區(qū)總經(jīng)理郭道正

近日，接受了與非網(wǎng)記者的采訪。郭總畢業(yè)于上海交大，擁有二十余年FPGA行業(yè)經(jīng)驗。他介紹了Achronix在高端FPGA和eFPGA IP領(lǐng)域的創(chuàng)新與市場領(lǐng)導(dǎo)地位，同時也強調(diào)了Achronix在FPGA領(lǐng)域的專注和特殊定位。“雖然eFPGA IP授權(quán)是需要市場接受的一個新概念，需要時間來培育和教育市場，但這種技術(shù)在新市場和新技術(shù)應(yīng)用中的價值非常顯著。尤其在網(wǎng)絡(luò)連接、新一代通信、自動駕駛和ADAS等領(lǐng)域，其中eFPGA因其低成本和高效率而成為理想解決方案?！?郭道正表示。

eFPGA IP的優(yōu)勢？

郭道正指出，Achronix提供的Speedcore eFPGA IP目前已非常成熟，在不同工藝節(jié)點上已得到充分的生產(chǎn)制造驗證。相比之下，F(xiàn)PGA可以采用較老的工藝來生產(chǎn)，例如55/60nm、40nm或28nm，而eFPGA通常需要更先進的工藝，比如16nm、12nm、7nm、5nm和3nm。這主要是因為eFPGA的客戶群體通常是高性能應(yīng)用，需要先進的工藝來滿足他們的需求。

除了工藝先進、可編程、高性能之外，eFPGA IP在成本上可以低至相當(dāng)于獨立FPGA芯片的10%。對于芯片設(shè)計企業(yè)來說，購買Achronix的eFPGA IP授權(quán)合作模式，類似于購買Arm內(nèi)核授權(quán)，這可以大大縮短為SoC或ASIC設(shè)計開發(fā)可編程邏輯陣列的時間，并提高芯片的性能和延長其生命周期。相對于獨立FPGA芯片，eFPGA的成本大幅降低，功耗也顯著減少，還可以利用優(yōu)化的內(nèi)部連接和布局來提高性能。

此外，這種模式更適合客戶在新興市場上逐漸擴大自己的規(guī)模，可以在保持高性能和高性價比的同時，維持創(chuàng)新性。郭道正還表示，所有在Achronix FPGA上開發(fā)的IP都可以復(fù)用，從而最大化利用現(xiàn)有開發(fā)成果，提高經(jīng)濟效益和靈活性，避免標(biāo)準(zhǔn)演進、算法更新和市場變化導(dǎo)致重新研發(fā)的困境。

eFPGA IP另一個優(yōu)點是支持chiplet。以Fraunhofer研究所為例，目前就在新項目中充分利用Achronix的Speedcore? eFPGA IP。這個項目主要是高速ADC與Achronix的eFPGA IP連接，用于雷達以及無線和光通信中的預(yù)處理。相關(guān)多芯片系統(tǒng)解決方案將由多個chiplet組成，用于探索芯片間的事務(wù)層互連技術(shù)，如束線（BoW）模式和通用chiplet高速互連協(xié)議UCIe。這些chiplet相比傳統(tǒng)通過印刷電路板連接的分立器件，具有更低的延遲、更高的帶寬和更低的成本。

最適合eFPGA的應(yīng)用市場有哪些？

據(jù)了解，eFPGA IP的競爭對手并非傳統(tǒng)的FPGA芯片制造商，也不直接與CPU或其他處理器IP形成競爭關(guān)系。相反，eFPGA在芯片設(shè)計中充當(dāng)可編程和可升級的硬件加速器，其優(yōu)勢在于能夠提供高效的并行處理和低延遲，這些特性是CPU無法或者難以實現(xiàn)的。因此，eFPGA的引入更多地是取決于向客戶展示其在整體芯片設(shè)計中的價值。此外，隨著技術(shù)發(fā)展，特別是chiplet技術(shù)的廣泛應(yīng)用，Achronix也在支持客戶基于eFPGA做chiplet組件的模式，以實現(xiàn)創(chuàng)新。

據(jù)介紹，目前Achronix針對中國市場的eFPGA業(yè)務(wù)也在積極展開，盡管市場每年都在增長，但仍處于早期階段。郭道正表示，Achronix全球所有客戶嵌入eFPGA的芯片產(chǎn)品的出貨量在前年超過了1500萬個，雖然與通用處理器IP的出貨量相比不算多，但對于行業(yè)來說已是不小的數(shù)據(jù)。

郭道正對與非網(wǎng)記者表示，F(xiàn)PGA在處理大模型方面的靈活性和高效能使其成為硬件加速的理想選擇。同時，隨著AI技術(shù)的進一步發(fā)展和應(yīng)用的擴展，eFPGA的可編程性和靈活性使其在快速變化的市場環(huán)境中具有獨特優(yōu)勢。是采用FPGA還是eFPGA IP，最終還是取決于應(yīng)用的規(guī)模。如果應(yīng)用場景需要的芯片數(shù)量大到一定程度，更適合采用集成eFPGA的ASIC形態(tài)，因為SoC或ASIC可以大幅降低成本和功耗，同時提高性能。他指出，在快速演進的領(lǐng)域內(nèi)做ASIC應(yīng)保留一定的靈活性。芯片設(shè)計公司在規(guī)劃新應(yīng)用時，需要考慮市場規(guī)模和應(yīng)用的核心功能。eFPGA可幫助他們適應(yīng)標(biāo)準(zhǔn)、功能和算法的演進，特別是在快速發(fā)展的AI領(lǐng)域中。例如，在針對單一應(yīng)用的手機上使用eFPGA可能較困難，因為這類場景對性能和可編程性的要求不高。然而，對于更多樣化和變化的邊緣應(yīng)用，如工業(yè)和智能汽車應(yīng)用，eFPGA可能更加適用。

AI典型案例介紹：數(shù)據(jù)中心

隨著AI大模型的爆發(fā)與普及，ASIC的開發(fā)可能因芯片架構(gòu)的迅速變化而面臨研發(fā)成果過時的風(fēng)險，這要求設(shè)計者考慮更靈活、能適應(yīng)未來變化的解決方案。隨著模型的不斷增長，僅靠CPU運行不再具備成本、功耗或延遲的優(yōu)勢。因此，使用如GPU或FPGA這類加速器成為了一種趨勢，它們可以顯著提高計算能效，大幅降低系統(tǒng)延遲，并在更小的規(guī)模上實現(xiàn)更高水平的計算。當(dāng)系統(tǒng)規(guī)模擴展到需要超過8個處理器時（例如GPT-3的訓(xùn)練需要使用10,000個GPU），使用FPGA執(zhí)行大型語言模型在吞吐量和延遲方面勝過GPU。如果模型可以使用INT8精度，則Achronix FPGA在性能上具有更大的優(yōu)勢，尤其是在GPT-20B等大型模型上。使用FPGA的優(yōu)勢還包括較短的交付時間、更多的用戶支持，并且成本通常低于GPU。

事實上，目前FPGA在計算成本上已經(jīng)低于Nvidia的A100 GPU芯片，并且除了計算能力，F(xiàn)PGA還支持高速互聯(lián)，為不同廠商的計算提供互聯(lián)優(yōu)勢。這使得FPGA在人工智能推理應(yīng)用中表現(xiàn)出巨大優(yōu)勢。

近年來，F(xiàn)PGA芯片的主要市場從通信基礎(chǔ)設(shè)備逐漸轉(zhuǎn)移到數(shù)據(jù)中心，并增加了人工智能應(yīng)用。AI大模型的演進也對硬件設(shè)計提出挑戰(zhàn)。例如，GPT 4.5 turbo展示了模型的快速發(fā)展，顛覆現(xiàn)有技術(shù)。這要求芯片設(shè)計者考慮未來的可能變化，不僅僅是當(dāng)前需求。例如，目前大多數(shù)AI框架基于Transformer模型，但未來可能出現(xiàn)新的模型和架構(gòu)，要求芯片設(shè)計具有前瞻性和靈活性。Achronix的高性能FPGA產(chǎn)品正是滿足上述性能高、數(shù)據(jù)帶寬稿和算法變化快的市場需求，如Speedster7t系列，在大模型推理方面的性能甚至超過了一些知名的GPU芯片。

Achronix的Speedster7t FPGA具有一個獨特的架構(gòu)，使其非常適合于大型語言模型。它擁有硬二維片上網(wǎng)絡(luò)（2D NoC），解決了器件內(nèi)的數(shù)據(jù)傳輸和輸入輸出問題。此外，它使用了帶有緊耦合RAM的機器學(xué)習(xí)處理器（MLP），在計算過程中實現(xiàn)了高效的結(jié)果重用。與其他FPGA不同，Achronix的Speedster7t FPGA還配備了八組高效的GDDR6存儲器IP，支持更高的存儲帶寬，并且能夠以4 Tbps的速度加載參數(shù)。由于這些系統(tǒng)的可擴展性需求，F(xiàn)PGA可以利用各種標(biāo)準(zhǔn)接口，以將加速卡互連并實現(xiàn)卡之間的無縫數(shù)據(jù)傳輸。例如，Achronix的Speedster7t AC7t1500器件具有32個100 Gbps的SerDes通道，不需要依賴于專有且成本高昂的解決方案，如NVLink。

以與Myrtle.ai在自動語音識別（ASR）加速解決方案上的的合作為例。該方案采用搭載Speedster7t FPGA器件的VectorPath加速卡，運行Myrtle.ai提供的基于Achronix FPGA優(yōu)化的ASR IP，實現(xiàn)實時、超低延遲的語音轉(zhuǎn)文本功能。該方案支持1000個并發(fā)語音流的識別，實現(xiàn)極低單詞錯誤率和54毫秒的端到端99%延遲。相比于傳統(tǒng)的CPU或GPU加速卡，單張VectorPath加速卡可替代多達20臺CPU服務(wù)器或15張GPU加速卡。該解決方案還可在標(biāo)準(zhǔn)的機器學(xué)習(xí)框架中使用特定或自定義數(shù)據(jù)集進行定制或重新訓(xùn)練，提供靈活性以權(quán)衡準(zhǔn)確性與性能。該方案的性能是基于A100的ASR解決方案的8倍，延遲僅為GPU方案的1/8；與CPU方案相比，低延遲性能提升了約200倍。

這一案例充分展示了Achronix的FPGA在大規(guī)模推理應(yīng)用中的強大能力，特別是在適應(yīng)新一代大模型輸入輸出方面的高效率。例如，這種應(yīng)用非常適合像微信這樣的大型平臺，它們擁有幾億甚至幾十億用戶，支持語音輸入或轉(zhuǎn)換，可以大大提高后臺的轉(zhuǎn)換能力并減少用戶的等待時間。

AI典型案例介紹：ADAS

另一個重要的應(yīng)用案例是ADAS。目前汽車中已經(jīng)安裝了超過2.5億顆FPGA芯片，其中超過7500萬顆用于ADAS應(yīng)用。隨著硬件加速功能的不斷增強，像FPGA和ASIC這樣的器件通常還需要相伴而行。因此，今天的ADAS解決方案需要將硬件加速器與CPU集成在一起，以便在系統(tǒng)級別處理許多通用型和組織型任務(wù)。正是因為這個原因，異構(gòu)計算平臺（如異構(gòu)SoC）已經(jīng)成為加速和ADAS平臺中最常見的平臺之一。

為什么eFPGA IP是ADAS的理想選擇？隨著ADAS系統(tǒng)的復(fù)雜化，硬件設(shè)計面臨的挑戰(zhàn)也日益增加。ADAS硬件需要確保車輛乘員的安全，這要求系統(tǒng)能夠準(zhǔn)確、可靠地實時工作，同時在盡可能低的功耗下運行。這些要求對ADAS構(gòu)成了巨大的挑戰(zhàn)，因為系統(tǒng)通常依賴于大量的數(shù)據(jù)和計算密集型任務(wù)，如機器學(xué)習(xí)算法。因此，ADAS硬件必須同時高效地獲取和處理數(shù)據(jù)，并以最低的功耗預(yù)算運行。

由于FPGA的可編程特性，它在可擴展性方面比ASIC更具優(yōu)勢。這種適應(yīng)性在像ADAS這樣底層算法不斷變化的機器學(xué)習(xí)系統(tǒng)中尤為重要。此外，ASIC的規(guī)格必須提前幾年定義，而FPGA可以在一分鐘內(nèi)更新和重新編程。這一功能使基于FPGA的ADAS系統(tǒng)能夠提供ASIC無法實現(xiàn)的可擴展性和多功能性。

為了解決ADAS硬件面臨的挑戰(zhàn)，設(shè)計人員正在采用專用硬件加速器來提高性能，而不是依賴于傳統(tǒng)的基于CPU的架構(gòu)。專用硬件加速器比常規(guī)的計算資源（如CPU或GPU）提供了更好的性能和能效。在此背景下，F(xiàn)PGA提供了最大的靈活性，而ASIC則提供了最高的性能。FPGA的關(guān)鍵特性之一是能夠提供高級別的并行性，同時仍然可以針對特定的工作負(fù)載進行編程。這表明，F(xiàn)PGA在工作負(fù)載加速方面提供了顯著的價值，尤其是在性能和延遲成為關(guān)鍵因素的情況下。此外，與常規(guī)的CPU和基于GPU的系統(tǒng)相比，F(xiàn)PGA可以為需要加速的工作負(fù)載提供每瓦特最佳的性能，從而幫助系統(tǒng)平衡性能和功率效率之間的權(quán)衡。

Achronix的Speedcore IP這樣的eFPGA技術(shù)可以與CPU資源緊密耦合

郭道正對與非網(wǎng)記者表示，雖然采用FPGA或eFPGA的異構(gòu)計算架構(gòu)并非ADAS或自動駕駛芯片的唯一技術(shù)路徑，但它是一條非常有效的路線。因為FPGA和eFPGA不僅提供可編程計算，還能提供數(shù)據(jù)處理加速。借助eFPGA IP，設(shè)計人員能夠利用FPGA技術(shù)的優(yōu)勢，同時將其硬件加速與其他ASIC子系統(tǒng)（如CPU和I/O接口）緊密耦合。通過將FPGA與CPU一起嵌入到定制SoC中，與分立式FPGA解決方案相比，eFPGA IP可顯著節(jié)省成本、功耗和空間。具體來說，與基于FPGA的獨立系統(tǒng)相比，eFPGA IP集成可以幫助設(shè)計人員節(jié)省90%的成本、降低75%的功耗、延遲改善100倍、接口帶寬增加10倍。因此，預(yù)計ADAS將逐步采用基于eFPGA技術(shù)的異構(gòu)解決方案。

ADAS給計算硬件造成了巨大壓力

eFPGA潛力巨大，但需要市場培育

最后，郭道正也表示，目前Achronix的主要營業(yè)收入還是來自FPGA芯片的銷售，eFPGA IP銷售只占很小一部分。這也很好理解，做IP的Arm的營收大概一年有30億美元，而英特爾的營收可以達到700億美元。

但是展望未來，與傳統(tǒng)FPGA市場相比，郭道正認(rèn)為eFPGA市場擁有更大的發(fā)展空間。但這也同樣需要大量的市場教育。郭道正認(rèn)為，對于面向未來的高性能芯片，開發(fā)團隊成員包括核心架構(gòu)師，甚至公司決策者，通常沒有充分的經(jīng)驗來參考，傾向于依賴于已有的成功技術(shù)路線。eFPGA和CPU雖然都是可編程的，但許多人習(xí)慣于采用Arm或RISC-V等CPU。盡管Achronix在eFPGA領(lǐng)域內(nèi)領(lǐng)先，但仍需投入大量時間和精力去教育市場，說明為什么eFPGA是一個有價值的選擇。這是一個需要耐心和細(xì)致工作的過程，盡管Achronix每年都在成長，但仍需要加大投入來經(jīng)歷這個過程。

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價格	更多信息
STM32F429ZIT6TR	1	STMicroelectronics	High-performance advanced line, Arm Cortex-M4 core with DSP and FPU, 2 Mbytes of Flash memory, 180 MHz CPU, ART Accelerator, Chrom-ARTAccelerator, FMC with SDRAM, TFT	ECAD模型下載ECAD模型	暫無數(shù)據(jù)	查看
AT89C51CC03CA-RLTUM	1	Microchip Technology Inc	IC MCU 8BIT 64KB FLASH 44VQFP		$10.78	查看
STM32F207ZGT6	1	STMicroelectronics	High-performance Arm Cortex-M3 MCU with 1 Mbyte of Flash memory, 120 MHz CPU, ART Accelerator, Ethernet	ECAD模型下載ECAD模型	$13.88	查看

為何說eFPGA是最適應(yīng)AI時代的計算芯片方案？

eFPGA IP業(yè)務(wù)的發(fā)明者

eFPGA IP的優(yōu)勢？

最適合eFPGA的應(yīng)用市場有哪些？

AI典型案例介紹：數(shù)據(jù)中心

AI典型案例介紹：ADAS

eFPGA潛力巨大，但需要市場培育

推薦器件

相關(guān)推薦

為何說eFPGA是最適應(yīng)AI時代的計算芯片方案？

eFPGA IP業(yè)務(wù)的發(fā)明者

eFPGA IP的優(yōu)勢？

最適合eFPGA的應(yīng)用市場有哪些？

AI典型案例介紹：數(shù)據(jù)中心

AI典型案例介紹：ADAS

eFPGA潛力巨大，但需要市場培育

推薦器件

相關(guān)推薦

為何說eFPGA是最適應(yīng)AI時代的計算芯片方案？

eFPGA IP的優(yōu)勢？

最適合eFPGA的應(yīng)用市場有哪些？

eFPGA潛力巨大，但需要市場培育