eFPGA IP業(yè)務(wù)的發(fā)明者
自1984年以來,FPGA市場一直在增長,但未經(jīng)歷爆發(fā)性增長。FPGA以其硬件可編程性和高性能而被廣泛應(yīng)用于技術(shù)前沿,尤其在新技術(shù)和標(biāo)準(zhǔn)的早期實(shí)現(xiàn)和中小規(guī)模部署中發(fā)揮作用。隨著數(shù)據(jù)量的爆炸性增長使得傳統(tǒng)的處理模式受到挑戰(zhàn),這為FPGA行業(yè)帶來了新機(jī)會,越來越多的應(yīng)用將任務(wù)從CPU轉(zhuǎn)移到FPGA處理,以發(fā)揮FPGA在能效和處理延遲方面的優(yōu)勢。
我們都知道FPGA的發(fā)明者是賽靈思,但今天要介紹的則是eFPGA(嵌入式FPGA)業(yè)務(wù)的發(fā)明者——Achronix。
2016年,源于客戶的強(qiáng)烈需求,Achronix開創(chuàng)了eFPGA IP市場。
自成立以來,Achronix一直致力于高端FPGA市場和eFPGA技術(shù)的發(fā)展,也是目前唯一同時(shí)提供高性能高密度獨(dú)立FPGA芯片和eFPGA IP解決方案的供應(yīng)商。
Achronix的核心特點(diǎn)包括高端、高帶寬FPGA,如采用7納米工藝的Speedster7t系列,配備高速接口、二維片上網(wǎng)絡(luò)(2D NoC)和機(jī)器學(xué)習(xí)處理器(MLP)等先進(jìn)技術(shù)。
另一個(gè)顯著特點(diǎn)是Speedcore eFPGA硅知識產(chǎn)權(quán)(IP),即提供FPGA技術(shù)授權(quán)給客戶,使客戶能夠?yàn)槠銩SIC/SoC添加可編程邏輯陣列。
可以說,高端FPGA芯片、eFPGA IP和基于高端FPGA芯片的先進(jìn)加速卡這樣的產(chǎn)品組合目前在全球范圍內(nèi)是獨(dú)一無二的。得益于其Speedcore eFPGA IP等旗艦產(chǎn)品,該公司已在多個(gè)行業(yè)領(lǐng)域授權(quán)了超過1500萬個(gè)eFPGA。
近年來新興市場的快速成長要求企業(yè)在投入巨大成本和時(shí)間進(jìn)行開發(fā)時(shí),要更多地考慮利用FPGA技術(shù)。企業(yè)數(shù)據(jù)中心或邊緣計(jì)算解決方案在不同發(fā)展階段對硬件的要求各異,他們需要靈活適應(yīng)應(yīng)用規(guī)模和使用量。為此,Achronix提出了一種新的可編程硬件應(yīng)用模式,能夠適應(yīng)不同階段的需求。例如,研發(fā)初期和早期部署可以使用符合PCIe等標(biāo)準(zhǔn)接口的加速卡,而全面量產(chǎn)時(shí)則可選擇獨(dú)立FPGA芯片,應(yīng)用規(guī)模進(jìn)一步上升時(shí),可選擇eFPGA IP產(chǎn)品來定制SoC或ASIC。
Achronix Semiconductor中國區(qū)總經(jīng)理郭道正
近日,接受了與非網(wǎng)記者的采訪。郭總畢業(yè)于上海交大,擁有二十余年FPGA行業(yè)經(jīng)驗(yàn)。他介紹了Achronix在高端FPGA和eFPGA IP領(lǐng)域的創(chuàng)新與市場領(lǐng)導(dǎo)地位,同時(shí)也強(qiáng)調(diào)了Achronix在FPGA領(lǐng)域的專注和特殊定位?!半m然eFPGA IP授權(quán)是需要市場接受的一個(gè)新概念,需要時(shí)間來培育和教育市場,但這種技術(shù)在新市場和新技術(shù)應(yīng)用中的價(jià)值非常顯著。尤其在網(wǎng)絡(luò)連接、新一代通信、自動駕駛和ADAS等領(lǐng)域,其中eFPGA因其低成本和高效率而成為理想解決方案?!?郭道正表示。
eFPGA IP的優(yōu)勢?
郭道正指出,Achronix提供的Speedcore eFPGA IP目前已非常成熟,在不同工藝節(jié)點(diǎn)上已得到充分的生產(chǎn)制造驗(yàn)證。相比之下,F(xiàn)PGA可以采用較老的工藝來生產(chǎn),例如55/60nm、40nm或28nm,而eFPGA通常需要更先進(jìn)的工藝,比如16nm、12nm、7nm、5nm和3nm。這主要是因?yàn)閑FPGA的客戶群體通常是高性能應(yīng)用,需要先進(jìn)的工藝來滿足他們的需求。
除了工藝先進(jìn)、可編程、高性能之外,eFPGA IP在成本上可以低至相當(dāng)于獨(dú)立FPGA芯片的10%。對于芯片設(shè)計(jì)企業(yè)來說,購買Achronix的eFPGA IP授權(quán)合作模式,類似于購買Arm內(nèi)核授權(quán),這可以大大縮短為SoC或ASIC設(shè)計(jì)開發(fā)可編程邏輯陣列的時(shí)間,并提高芯片的性能和延長其生命周期。相對于獨(dú)立FPGA芯片,eFPGA的成本大幅降低,功耗也顯著減少,還可以利用優(yōu)化的內(nèi)部連接和布局來提高性能。
此外,這種模式更適合客戶在新興市場上逐漸擴(kuò)大自己的規(guī)模,可以在保持高性能和高性價(jià)比的同時(shí),維持創(chuàng)新性。郭道正還表示,所有在Achronix FPGA上開發(fā)的IP都可以復(fù)用,從而最大化利用現(xiàn)有開發(fā)成果,提高經(jīng)濟(jì)效益和靈活性,避免標(biāo)準(zhǔn)演進(jìn)、算法更新和市場變化導(dǎo)致重新研發(fā)的困境。
eFPGA IP另一個(gè)優(yōu)點(diǎn)是支持chiplet。以Fraunhofer研究所為例,目前就在新項(xiàng)目中充分利用Achronix的Speedcore? eFPGA IP。這個(gè)項(xiàng)目主要是高速ADC與Achronix的eFPGA IP連接,用于雷達(dá)以及無線和光通信中的預(yù)處理。相關(guān)多芯片系統(tǒng)解決方案將由多個(gè)chiplet組成,用于探索芯片間的事務(wù)層互連技術(shù),如束線(BoW)模式和通用chiplet高速互連協(xié)議UCIe。這些chiplet相比傳統(tǒng)通過印刷電路板連接的分立器件,具有更低的延遲、更高的帶寬和更低的成本。
最適合eFPGA的應(yīng)用市場有哪些?
據(jù)了解,eFPGA IP的競爭對手并非傳統(tǒng)的FPGA芯片制造商,也不直接與CPU或其他處理器IP形成競爭關(guān)系。相反,eFPGA在芯片設(shè)計(jì)中充當(dāng)可編程和可升級的硬件加速器,其優(yōu)勢在于能夠提供高效的并行處理和低延遲,這些特性是CPU無法或者難以實(shí)現(xiàn)的。因此,eFPGA的引入更多地是取決于向客戶展示其在整體芯片設(shè)計(jì)中的價(jià)值。此外,隨著技術(shù)發(fā)展,特別是chiplet技術(shù)的廣泛應(yīng)用,Achronix也在支持客戶基于eFPGA做chiplet組件的模式,以實(shí)現(xiàn)創(chuàng)新。
據(jù)介紹,目前Achronix針對中國市場的eFPGA業(yè)務(wù)也在積極展開,盡管市場每年都在增長,但仍處于早期階段。郭道正表示,Achronix全球所有客戶嵌入eFPGA的芯片產(chǎn)品的出貨量在前年超過了1500萬個(gè),雖然與通用處理器IP的出貨量相比不算多,但對于行業(yè)來說已是不小的數(shù)據(jù)。
郭道正對與非網(wǎng)記者表示,F(xiàn)PGA在處理大模型方面的靈活性和高效能使其成為硬件加速的理想選擇。同時(shí),隨著AI技術(shù)的進(jìn)一步發(fā)展和應(yīng)用的擴(kuò)展,eFPGA的可編程性和靈活性使其在快速變化的市場環(huán)境中具有獨(dú)特優(yōu)勢。是采用FPGA還是eFPGA IP,最終還是取決于應(yīng)用的規(guī)模。如果應(yīng)用場景需要的芯片數(shù)量大到一定程度,更適合采用集成eFPGA的ASIC形態(tài),因?yàn)镾oC或ASIC可以大幅降低成本和功耗,同時(shí)提高性能。他指出,在快速演進(jìn)的領(lǐng)域內(nèi)做ASIC應(yīng)保留一定的靈活性。芯片設(shè)計(jì)公司在規(guī)劃新應(yīng)用時(shí),需要考慮市場規(guī)模和應(yīng)用的核心功能。eFPGA可幫助他們適應(yīng)標(biāo)準(zhǔn)、功能和算法的演進(jìn),特別是在快速發(fā)展的AI領(lǐng)域中。例如,在針對單一應(yīng)用的手機(jī)上使用eFPGA可能較困難,因?yàn)檫@類場景對性能和可編程性的要求不高。然而,對于更多樣化和變化的邊緣應(yīng)用,如工業(yè)和智能汽車應(yīng)用,eFPGA可能更加適用。
AI典型案例介紹:數(shù)據(jù)中心
隨著AI大模型的爆發(fā)與普及,ASIC的開發(fā)可能因芯片架構(gòu)的迅速變化而面臨研發(fā)成果過時(shí)的風(fēng)險(xiǎn),這要求設(shè)計(jì)者考慮更靈活、能適應(yīng)未來變化的解決方案。隨著模型的不斷增長,僅靠CPU運(yùn)行不再具備成本、功耗或延遲的優(yōu)勢。因此,使用如GPU或FPGA這類加速器成為了一種趨勢,它們可以顯著提高計(jì)算能效,大幅降低系統(tǒng)延遲,并在更小的規(guī)模上實(shí)現(xiàn)更高水平的計(jì)算。當(dāng)系統(tǒng)規(guī)模擴(kuò)展到需要超過8個(gè)處理器時(shí)(例如GPT-3的訓(xùn)練需要使用10,000個(gè)GPU),使用FPGA執(zhí)行大型語言模型在吞吐量和延遲方面勝過GPU。如果模型可以使用INT8精度,則Achronix FPGA在性能上具有更大的優(yōu)勢,尤其是在GPT-20B等大型模型上。使用FPGA的優(yōu)勢還包括較短的交付時(shí)間、更多的用戶支持,并且成本通常低于GPU。
事實(shí)上,目前FPGA在計(jì)算成本上已經(jīng)低于Nvidia的A100 GPU芯片,并且除了計(jì)算能力,F(xiàn)PGA還支持高速互聯(lián),為不同廠商的計(jì)算提供互聯(lián)優(yōu)勢。這使得FPGA在人工智能推理應(yīng)用中表現(xiàn)出巨大優(yōu)勢。
近年來,F(xiàn)PGA芯片的主要市場從通信基礎(chǔ)設(shè)備逐漸轉(zhuǎn)移到數(shù)據(jù)中心,并增加了人工智能應(yīng)用。AI大模型的演進(jìn)也對硬件設(shè)計(jì)提出挑戰(zhàn)。例如,GPT 4.5 turbo展示了模型的快速發(fā)展,顛覆現(xiàn)有技術(shù)。這要求芯片設(shè)計(jì)者考慮未來的可能變化,不僅僅是當(dāng)前需求。例如,目前大多數(shù)AI框架基于Transformer模型,但未來可能出現(xiàn)新的模型和架構(gòu),要求芯片設(shè)計(jì)具有前瞻性和靈活性。Achronix的高性能FPGA產(chǎn)品正是滿足上述性能高、數(shù)據(jù)帶寬稿和算法變化快的市場需求,如Speedster7t系列,在大模型推理方面的性能甚至超過了一些知名的GPU芯片。
Achronix的Speedster7t FPGA具有一個(gè)獨(dú)特的架構(gòu),使其非常適合于大型語言模型。它擁有硬二維片上網(wǎng)絡(luò)(2D NoC),解決了器件內(nèi)的數(shù)據(jù)傳輸和輸入輸出問題。此外,它使用了帶有緊耦合RAM的機(jī)器學(xué)習(xí)處理器(MLP),在計(jì)算過程中實(shí)現(xiàn)了高效的結(jié)果重用。與其他FPGA不同,Achronix的Speedster7t FPGA還配備了八組高效的GDDR6存儲器IP,支持更高的存儲帶寬,并且能夠以4 Tbps的速度加載參數(shù)。由于這些系統(tǒng)的可擴(kuò)展性需求,F(xiàn)PGA可以利用各種標(biāo)準(zhǔn)接口,以將加速卡互連并實(shí)現(xiàn)卡之間的無縫數(shù)據(jù)傳輸。例如,Achronix的Speedster7t AC7t1500器件具有32個(gè)100 Gbps的SerDes通道,不需要依賴于專有且成本高昂的解決方案,如NVLink。
以與Myrtle.ai在自動語音識別(ASR)加速解決方案上的的合作為例。該方案采用搭載Speedster7t FPGA器件的VectorPath加速卡,運(yùn)行Myrtle.ai提供的基于Achronix FPGA優(yōu)化的ASR IP,實(shí)現(xiàn)實(shí)時(shí)、超低延遲的語音轉(zhuǎn)文本功能。該方案支持1000個(gè)并發(fā)語音流的識別,實(shí)現(xiàn)極低單詞錯(cuò)誤率和54毫秒的端到端99%延遲。相比于傳統(tǒng)的CPU或GPU加速卡,單張VectorPath加速卡可替代多達(dá)20臺CPU服務(wù)器或15張GPU加速卡。該解決方案還可在標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)框架中使用特定或自定義數(shù)據(jù)集進(jìn)行定制或重新訓(xùn)練,提供靈活性以權(quán)衡準(zhǔn)確性與性能。該方案的性能是基于A100的ASR解決方案的8倍,延遲僅為GPU方案的1/8;與CPU方案相比,低延遲性能提升了約200倍。
這一案例充分展示了Achronix的FPGA在大規(guī)模推理應(yīng)用中的強(qiáng)大能力,特別是在適應(yīng)新一代大模型輸入輸出方面的高效率。例如,這種應(yīng)用非常適合像微信這樣的大型平臺,它們擁有幾億甚至幾十億用戶,支持語音輸入或轉(zhuǎn)換,可以大大提高后臺的轉(zhuǎn)換能力并減少用戶的等待時(shí)間。
AI典型案例介紹:ADAS
另一個(gè)重要的應(yīng)用案例是ADAS。目前汽車中已經(jīng)安裝了超過2.5億顆FPGA芯片,其中超過7500萬顆用于ADAS應(yīng)用。隨著硬件加速功能的不斷增強(qiáng),像FPGA和ASIC這樣的器件通常還需要相伴而行。因此,今天的ADAS解決方案需要將硬件加速器與CPU集成在一起,以便在系統(tǒng)級別處理許多通用型和組織型任務(wù)。正是因?yàn)檫@個(gè)原因,異構(gòu)計(jì)算平臺(如異構(gòu)SoC)已經(jīng)成為加速和ADAS平臺中最常見的平臺之一。
為什么eFPGA IP是ADAS的理想選擇?隨著ADAS系統(tǒng)的復(fù)雜化,硬件設(shè)計(jì)面臨的挑戰(zhàn)也日益增加。ADAS硬件需要確保車輛乘員的安全,這要求系統(tǒng)能夠準(zhǔn)確、可靠地實(shí)時(shí)工作,同時(shí)在盡可能低的功耗下運(yùn)行。這些要求對ADAS構(gòu)成了巨大的挑戰(zhàn),因?yàn)橄到y(tǒng)通常依賴于大量的數(shù)據(jù)和計(jì)算密集型任務(wù),如機(jī)器學(xué)習(xí)算法。因此,ADAS硬件必須同時(shí)高效地獲取和處理數(shù)據(jù),并以最低的功耗預(yù)算運(yùn)行。
由于FPGA的可編程特性,它在可擴(kuò)展性方面比ASIC更具優(yōu)勢。這種適應(yīng)性在像ADAS這樣底層算法不斷變化的機(jī)器學(xué)習(xí)系統(tǒng)中尤為重要。此外,ASIC的規(guī)格必須提前幾年定義,而FPGA可以在一分鐘內(nèi)更新和重新編程。這一功能使基于FPGA的ADAS系統(tǒng)能夠提供ASIC無法實(shí)現(xiàn)的可擴(kuò)展性和多功能性。
為了解決ADAS硬件面臨的挑戰(zhàn),設(shè)計(jì)人員正在采用專用硬件加速器來提高性能,而不是依賴于傳統(tǒng)的基于CPU的架構(gòu)。專用硬件加速器比常規(guī)的計(jì)算資源(如CPU或GPU)提供了更好的性能和能效。在此背景下,F(xiàn)PGA提供了最大的靈活性,而ASIC則提供了最高的性能。FPGA的關(guān)鍵特性之一是能夠提供高級別的并行性,同時(shí)仍然可以針對特定的工作負(fù)載進(jìn)行編程。這表明,F(xiàn)PGA在工作負(fù)載加速方面提供了顯著的價(jià)值,尤其是在性能和延遲成為關(guān)鍵因素的情況下。此外,與常規(guī)的CPU和基于GPU的系統(tǒng)相比,F(xiàn)PGA可以為需要加速的工作負(fù)載提供每瓦特最佳的性能,從而幫助系統(tǒng)平衡性能和功率效率之間的權(quán)衡。
Achronix的Speedcore IP這樣的eFPGA技術(shù)可以與CPU資源緊密耦合
郭道正對與非網(wǎng)記者表示,雖然采用FPGA或eFPGA的異構(gòu)計(jì)算架構(gòu)并非ADAS或自動駕駛芯片的唯一技術(shù)路徑,但它是一條非常有效的路線。因?yàn)镕PGA和eFPGA不僅提供可編程計(jì)算,還能提供數(shù)據(jù)處理加速。借助eFPGA IP,設(shè)計(jì)人員能夠利用FPGA技術(shù)的優(yōu)勢,同時(shí)將其硬件加速與其他ASIC子系統(tǒng)(如CPU和I/O接口)緊密耦合。通過將FPGA與CPU一起嵌入到定制SoC中,與分立式FPGA解決方案相比,eFPGA IP可顯著節(jié)省成本、功耗和空間。具體來說,與基于FPGA的獨(dú)立系統(tǒng)相比,eFPGA IP集成可以幫助設(shè)計(jì)人員節(jié)省90%的成本、降低75%的功耗、延遲改善100倍、接口帶寬增加10倍。因此,預(yù)計(jì)ADAS將逐步采用基于eFPGA技術(shù)的異構(gòu)解決方案。
ADAS給計(jì)算硬件造成了巨大壓力
eFPGA潛力巨大,但需要市場培育
最后,郭道正也表示,目前Achronix的主要營業(yè)收入還是來自FPGA芯片的銷售,eFPGA IP銷售只占很小一部分。這也很好理解,做IP的Arm的營收大概一年有30億美元,而英特爾的營收可以達(dá)到700億美元。
但是展望未來,與傳統(tǒng)FPGA市場相比,郭道正認(rèn)為eFPGA市場擁有更大的發(fā)展空間。但這也同樣需要大量的市場教育。郭道正認(rèn)為,對于面向未來的高性能芯片,開發(fā)團(tuán)隊(duì)成員包括核心架構(gòu)師,甚至公司決策者,通常沒有充分的經(jīng)驗(yàn)來參考,傾向于依賴于已有的成功技術(shù)路線。eFPGA和CPU雖然都是可編程的,但許多人習(xí)慣于采用Arm或RISC-V等CPU。盡管Achronix在eFPGA領(lǐng)域內(nèi)領(lǐng)先,但仍需投入大量時(shí)間和精力去教育市場,說明為什么eFPGA是一個(gè)有價(jià)值的選擇。這是一個(gè)需要耐心和細(xì)致工作的過程,盡管Achronix每年都在成長,但仍需要加大投入來經(jīng)歷這個(gè)過程。