作者:九林
前兩天,英偉達(dá)第三季度財(cái)報終于出了。結(jié)果是預(yù)期中的向好,營收351億美元,同比增長93.7%。凈利潤193.1億美元,同比增長109%。簡單計(jì)算就是上個季度英偉達(dá)共賺2542億人民幣,凈利潤1398億,平均每天爆賺15億人民幣,相當(dāng)于一天賺出8套北京價值2億的四合院。
GPU的出現(xiàn)就象征著賺錢,三季度英偉達(dá)的毛利率高達(dá)74.6%。什么概念?被譽(yù)為“大自然的印鈔機(jī)”、將鐘睒睒捧上中國首富寶座的農(nóng)夫山泉,毛利率也不過60%英偉達(dá)的圖形處理單元(GPU)技術(shù)之卓越,已廣為人知。相較之下,國產(chǎn) GPU 的影響力則顯得較為有限。
然而,近年來,中國國內(nèi)的許多GPU企業(yè)開始嶄露頭角。通過持續(xù)的投入和努力,國產(chǎn)GPU在性能、功能和應(yīng)用領(lǐng)域等方面都有了提升,逐漸贏得了市場的認(rèn)可和用戶的信任。國產(chǎn)GPU不僅在傳統(tǒng)圖形處理領(lǐng)域取得了進(jìn)展,也能夠在人工智能、高性能計(jì)算等新興領(lǐng)域展現(xiàn)出一定的競爭力。
01景嘉微
景嘉微是國內(nèi)自主知識產(chǎn)權(quán)圖形GPU領(lǐng)軍企業(yè),是國內(nèi)少數(shù)幾家生產(chǎn)GPU且具有自主知識產(chǎn)權(quán)的公司。景嘉微的GPU 產(chǎn)品包括 JM5400、JM7200、JM9 系列和景宏系列,覆蓋傳統(tǒng)領(lǐng)域和新興領(lǐng)域。JM5400是景嘉微早期推出的一款GPU產(chǎn)品,標(biāo)志著國產(chǎn)GPU的起步;JM7200/7201系列適用于桌面辦公、圖形工作站及有高要求的圖形生成及顯示等領(lǐng)域。
景嘉微在JM7系列時期已完成了與主流國產(chǎn)CPU與操作系統(tǒng)的適配工作。JM9系列是景嘉微的第三代GPU產(chǎn)品,包括JM9100和JM92系列,它們在前兩代的基礎(chǔ)上進(jìn)一步優(yōu)化了性能與功耗,最低功耗不到2W,全面支持國產(chǎn)CPU、國產(chǎn)操作系統(tǒng)和國產(chǎn)固件,可廣泛應(yīng)用于PC、筆記本電腦、工控機(jī)、圖形工作站等計(jì)算機(jī)設(shè)備。景宏系列是景嘉微今年成功研發(fā)的產(chǎn)品,主要用于AI 訓(xùn)練、AI 推理和科學(xué)計(jì)算等領(lǐng)域。根據(jù)公告,景宏系列支持INT8、FP16、FP32、FP64等混合精度運(yùn)算,支持全新的多卡互聯(lián)技術(shù)進(jìn)行算力擴(kuò)展,適配國內(nèi)外主流CPU、操作系統(tǒng)及服務(wù)器廠商,能夠支持當(dāng)前主流的計(jì)算生態(tài)、深度學(xué)習(xí)框架和算法模型庫,大幅縮短用戶適配驗(yàn)證周期。
?02天數(shù)智芯
天數(shù)智芯通用GPU產(chǎn)品天垓、智鎧系列天數(shù)智芯通用GPU產(chǎn)品適配主流CPU芯片/服務(wù)器廠商,能夠支持國內(nèi)外主流AI生態(tài)和各種深度學(xué)習(xí)框架。天數(shù)智芯已經(jīng)發(fā)布了兩款自主研發(fā)的通用GPU產(chǎn)品天垓100、智鎧100,具備應(yīng)用覆蓋廣、開發(fā)易遷移、性能可預(yù)期、全??啥ㄖ啤⑹褂贸杀镜偷忍攸c(diǎn)。天垓100是天數(shù)智芯推出的全自研通用GPU訓(xùn)練產(chǎn)品。它采用通用GPU架構(gòu),兼容國際主流GPU通用計(jì)算模型,支持國內(nèi)外主流AI生態(tài)和深度學(xué)習(xí)框架及原生算子。
2022年底,天數(shù)智芯曾宣布天垓100累計(jì)銷售訂單已突破5億元。智鎧100系列加速卡基于通用GPU架構(gòu),支持多種視頻規(guī)格解碼、800+通用指令集、國內(nèi)外主流深度學(xué)習(xí)開發(fā)框架。兼容CUDA生態(tài),支持市場主流生態(tài),高達(dá)128路視頻接入。平均遷移時間相較市場主流產(chǎn)品下降50%以上,生態(tài)應(yīng)用遷移迅速。天數(shù)智芯推出的國內(nèi)首個通用計(jì)算應(yīng)用開發(fā)及評測平臺DeepSpark持續(xù)迭代,截至目前已匯聚300+訓(xùn)練和80+推理模型示例,支持主流AI應(yīng)用框架,提供多維度測評體系。天數(shù)智芯自主算力集群方案能夠有效支持OPT、LLaMa、GPT-2、CPM、GLM等主流AIGC大模型的Pretrain和Finetune。同時適配支持了清華、智源、復(fù)旦等在內(nèi)的國內(nèi)多個研究機(jī)構(gòu)的開源大模型。
?03中微電
中微電的GPU產(chǎn)品有:南風(fēng)一號、南風(fēng)二號、南風(fēng)三號。“南風(fēng)一號”GPU主要應(yīng)用于信創(chuàng)計(jì)算機(jī)顯示可滿足黨政、金融及安防等信創(chuàng)產(chǎn)業(yè)鏈專用整機(jī)電腦PC顯卡需求。“南風(fēng)二號”提供高性能并行計(jì)算能力,滿足服務(wù)器、訓(xùn)練機(jī)、推理機(jī)、邊緣計(jì)算、科學(xué)仿真計(jì)算、智算中心等人工智能市場需求。去年12月,中微電科技“南風(fēng)一號”顯卡(NF1001)導(dǎo)入了世恒TD120A2整機(jī)。標(biāo)志著產(chǎn)品已經(jīng)通過了中國長城各項(xiàng)功能、性能、可靠性、兼容性、穩(wěn)定性等測試。
“南風(fēng)一號”也與麒麟操作系統(tǒng)(V10 SP1)、飛騰處理器(D2000、FT2000)、奇安信瀏覽器等多家國產(chǎn)設(shè)備、應(yīng)用實(shí)現(xiàn)兼容性互認(rèn)證。“南風(fēng)一號”從“產(chǎn)品”正式轉(zhuǎn)型為“商品”。今年4月,中微電宣布“南風(fēng)二號”核心IP研發(fā)完成,通過了FPGA的仿真測試。實(shí)驗(yàn)結(jié)果表明,“南風(fēng)二號”AI推理性能達(dá)到48TOPS,基本實(shí)現(xiàn)了國家工業(yè)和信息化部揭榜掛帥項(xiàng)目和深圳市科技重大專項(xiàng)項(xiàng)目的參數(shù)指標(biāo)。
?04芯動科技
芯動科技也推出了GPU產(chǎn)品:風(fēng)華1號、風(fēng)華二號。風(fēng)華一號發(fā)布于2021年,是首款國產(chǎn)高性能4K級顯卡GPU。包括“風(fēng)華1號”A型卡(單芯桌面端)、“風(fēng)華1號”B型卡(雙芯服務(wù)器端)兩款,采用12nm制程工藝。支持國產(chǎn)新基建5G數(shù)據(jù)中心、桌面、元宇宙、云游戲、云桌面等千億級產(chǎn)業(yè)。風(fēng)華二號發(fā)布于2022年8月,是一款集超低功耗、強(qiáng)渲染、4K高清三屏顯示、4K視頻解碼、智能AI計(jì)算于一體的桌面和筆記本GPU,采用自研LPDDR5X顯存,帶寬達(dá)到10Gbps,整卡實(shí)測功耗4~15W。工控領(lǐng)域,芯動科技的風(fēng)華 2 號 GPU 已在各大城市軌道交通系統(tǒng)的自動售檢票系統(tǒng)中實(shí)現(xiàn)大規(guī)模商用。該系統(tǒng)中的自動檢票機(jī)、自動售票機(jī)和半自動售票機(jī)等設(shè)備,采用風(fēng)華 2 號 GPU 后,可支持 4 屏顯示和長時間低功耗高穩(wěn)定運(yùn)行,消費(fèi)電子領(lǐng)域,天天電競發(fā)布的國潮電競專業(yè)顯卡品牌 “赤兔”,搭載了芯動科技自研的風(fēng)華 GPU 芯片。
?05沐曦集成
今年9月,沐曦集成近期完成了新一輪股權(quán)融資,參與此次投資的機(jī)構(gòu)包括浦東創(chuàng)投集團(tuán)、上??苿?chuàng)基金、湘江國投、啟夏資本、中衛(wèi)頤和及上海源廬加佳信息科技有限公司等多家知名投資方。目前沐曦集成電路的GPU產(chǎn)品包括:曦思N系列、曦云C系列、曦彩G系列。曦彩G系列GPU是針對圖形渲染加速的解決方案,沐曦自主知識產(chǎn)權(quán)架構(gòu)提供卓越的圖形圖像渲染與視頻處理能力, 可廣泛應(yīng)用于元宇宙、云桌面、云游戲、云手機(jī)、數(shù)字孿生、XR等場景。
曦思N系列首款產(chǎn)品曦思?N100是一款面向云端數(shù)據(jù)中心應(yīng)用的人工智能推理GPU,自2022年底產(chǎn)品量產(chǎn)以來,已在智慧交通、智慧安防、智能轉(zhuǎn)碼等人工智能領(lǐng)域獲得廣泛應(yīng)用。沐曦集成與眸瑞科技聯(lián)合發(fā)布的“貼圖超分”技術(shù),依托曦思N系列AI推理GPU的強(qiáng)大算力,首次將AI超分成功應(yīng)用到了3D模型領(lǐng)域。曦云C系列通用GPU(GPGPU)芯片是針對智算及通用計(jì)算的完美解決方案,沐曦自主知識產(chǎn)權(quán)架構(gòu)提供強(qiáng)大高精度及多精度混合算力,可廣泛應(yīng)用于智算以及通用計(jì)算、教育和科研等場景。
曦云C500單卡算力高達(dá)30TFlops FP32,單卡64GB HBM2E高帶寬顯存,帶寬1.8TB/s,這張卡還配備自研MetaXlink高速接口,適合于大模型訓(xùn)練。4卡既可以支持65B大模型推理,8卡可以支持130B模型推理。2023 年,沐曦?cái)y手智譜華章、優(yōu)刻得共同發(fā)布了國產(chǎn)首臺 GPU 千億參數(shù)大模型訓(xùn)推一體機(jī)。首批客戶是北京航天總醫(yī)院、數(shù)字寧夏建設(shè)運(yùn)營有限公司。
?06登臨科技
登臨科技成立于2017年,目前Goldwasser系列產(chǎn)品已經(jīng)實(shí)現(xiàn)規(guī)模量產(chǎn),團(tuán)隊(duì)致力于以GUGPU為核心構(gòu)建高性能計(jì)算平臺。Goldwasser 系列產(chǎn)品:包括邊緣計(jì)算產(chǎn)品 Goldwasser UL,功率 25-35W,INT8 算力 32-64TOPS;半高半長的服務(wù)器計(jì)算卡 Goldwasser L,功耗 40-70W,提供 128-256TOPS 算力;另有一種全高全長的 Goldwasser XL,輸出 512TOPS 算力。
該公司最引人注意的地方是,聲稱其自主創(chuàng)新的通用GPU 具有“與 CUDA/OpenCL 等編程模型兼容的計(jì)算架構(gòu)”,使其能夠很好地與 Nvidia 競爭,但同時也可能利用 Nvidia 最大的競爭優(yōu)勢——CUDA 與之對抗。據(jù)稱,在首代Goldwasser產(chǎn)品量產(chǎn)后一年內(nèi),登臨科技完成國內(nèi)主流運(yùn)營商、操作系統(tǒng)、CPU、互聯(lián)網(wǎng)企業(yè)、人工智能框架、服務(wù)器企業(yè)的兼容互認(rèn)證,并發(fā)布登臨瀚海生態(tài)計(jì)劃。登臨科技創(chuàng)始人李建文、登臨科技聯(lián)合創(chuàng)始人王平本碩均就讀于清華大學(xué),全球運(yùn)營副總裁楊劍曾任華為全球供應(yīng)鏈副總裁,其研發(fā)團(tuán)隊(duì)擁有長期的GPU研發(fā)和商業(yè)產(chǎn)品化經(jīng)驗(yàn)。此外,登臨科技在硅谷、成都、杭州等城市共設(shè)立了七個研發(fā)中心。
?07壁仞科技
壁仞科技創(chuàng)立于2019年,致力于研發(fā)原創(chuàng)性的通用計(jì)算體系,建立高效的軟硬件平臺,同時在智能計(jì)算領(lǐng)域提供一體化的解決方案。目前,壁仞科技首款國產(chǎn)高端通用GPU壁礪系列已量產(chǎn)落地。BR100系列通用GPU芯片是國內(nèi)算力最大的通用GPU芯片,包括BR104和BR100兩大產(chǎn)品。基于自主原創(chuàng)的芯片架構(gòu)開發(fā),采用7納米工藝制程,并結(jié)合了包括Chiplet(芯粒技術(shù))等在內(nèi)的多項(xiàng)業(yè)內(nèi)前沿芯片設(shè)計(jì)、制造與封裝技術(shù)。
其中BR104對標(biāo)英偉達(dá)2020年推出的A100、BR100對標(biāo)英偉達(dá)4nm芯片H100。此外,壁仞科技還推出了“壁礪”系列算力產(chǎn)品,這些產(chǎn)品進(jìn)一步豐富了壁仞科技的GPU產(chǎn)品線,滿足了不同客戶和應(yīng)用場景的需求。壁仞科技與浪潮科技合作推出了搭載 BR100 的 OAM 服務(wù)器 “海玄”,其峰值浮點(diǎn)算力達(dá) 8PFLOPS,最大功耗為 7KW,為數(shù)據(jù)中心提供了高能效、低 TCO(總擁有成本)的數(shù)據(jù)中心集群方案,可滿足數(shù)據(jù)中心對大規(guī)模數(shù)據(jù)處理和高性能計(jì)算的需求,支持云計(jì)算、大數(shù)據(jù)分析、人工智能等多種應(yīng)用的運(yùn)行。
?08摩爾線程
最近,證監(jiān)會官網(wǎng)顯示,摩爾線程智能科技(北京)股份有限公司(下稱摩爾線程)在北京證監(jiān)局辦理輔導(dǎo)備案登記,正式啟動A股上市進(jìn)程,輔導(dǎo)機(jī)構(gòu)為中信證券股份有限公司。摩爾線程也是國內(nèi)僅有的在B端和C端均有布局的國產(chǎn)GPU企業(yè),其芯片采用先進(jìn)MUSA架構(gòu)。目前產(chǎn)品有MTT S系列顯卡、MTT系列GPU芯片、智算集群解決方案。MTT S系列顯卡包括MTT S80、MTT S70、MTT S50、MTT S3000、MTT S4000。
MTT S80被稱為“國產(chǎn)游戲第一卡”,是國內(nèi)唯一可以支持DX12的消費(fèi)級顯卡。發(fā)布至今,該卡的Windows驅(qū)動已經(jīng)迭代多個版本,已實(shí)現(xiàn)國內(nèi)TOP50熱門游戲100%兼容,已追蹤超過400款游戲的運(yùn)行情況,累計(jì)正式適配和優(yōu)化游戲185款。截至2024年10月,MTT S80在圖形測試軟件3DMark 11中的成績,已提升至4.5倍。MTT系列GPU芯片包括:蘇堤、春曉、曲院。蘇堤是中國首顆全功能GPU芯片,曲院則是基于摩爾線程自研架構(gòu)的最新一代全功能GPU芯片,能夠提供人工智能所需的綜合算力,尤其是針對大語言模型訓(xùn)練和推理的處理能力。此外,針對大模型訓(xùn)練,摩爾線程已經(jīng)落地了全國產(chǎn)的夸娥(KUAE)智算中心全棧解決方案,從千卡智算集群到萬卡集群方案。
?09結(jié)語
從目前的情況來看,部分國產(chǎn) GPU 產(chǎn)品在性能上已經(jīng)取得了一定進(jìn)步,如壁仞科技的 BR100 系列 GPU,其峰值算力超過了英偉達(dá)目前在售的旗艦計(jì)算產(chǎn)品 A100 GPU 的三倍,并創(chuàng)造了全球通用 GPU 的算力記錄,能夠滿足一些對算力要求較高的應(yīng)用場景需求。同時,一些國產(chǎn) GPU 芯片采用了先進(jìn)的制程工藝和封裝技術(shù),在提升性能的同時,有效降低了功耗。例如芯動科技的風(fēng)華 2 號,在低功耗模式下工作功耗僅在 4w 左右,能效比遠(yuǎn)優(yōu)于市場同等算力產(chǎn)品。
越來越多的國產(chǎn) GPU 廠商意識到生態(tài)建設(shè)的重要性,并積極與上下游企業(yè)、科研機(jī)構(gòu)等展開合作,共同構(gòu)建完整的產(chǎn)業(yè)生態(tài)。如摩爾線程與眾多行業(yè)合作伙伴聯(lián)合展示了基于其智算集群的豐富行業(yè)大模型應(yīng)用方案,推動了國產(chǎn) GPU 在各領(lǐng)域的應(yīng)用和發(fā)展。
與英偉達(dá)、AMD 等國際巨頭相比,國產(chǎn) GPU 在整體技術(shù)水平上仍存在一定差距,特別是在高端 GPU 市場,國外產(chǎn)品在性能、能效比、功能完整性等方面仍占據(jù)優(yōu)勢。但千錘百煉,方成正果。國產(chǎn)GPU的發(fā)展進(jìn)程,也是其不斷追求技術(shù)進(jìn)步的歷程。