加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 適應(yīng)多樣化計算需求:芯片、計算架構(gòu)、軟件平臺
    • 瀚博要走怎樣的一條“GPU之路”?
    • One More Thing
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

國產(chǎn)GPU添新玩家,AMD出身,兩款業(yè)界第一7nm芯片曾由他打造

2022/09/07
3038
閱讀需 10 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

金磊 發(fā)自 凹非寺

量子位 | 公眾號 QbitAI

他在現(xiàn)場只是播放了一張的演講內(nèi)容。竟引得眾人不約而同,紛紛高舉手機拍照,會場更是掌聲不斷。

他叫錢軍,很多人熟知這個名字,是因為他曾在AMD擔任高管一職長達近10年時間。

在此期間,錢軍還帶領(lǐng)團隊設(shè)計量產(chǎn)了兩個業(yè)界第一:

第一顆7nm圖形處理器

第一顆7nm GPGPU架構(gòu)的AI芯片

而剛才現(xiàn)場之所以會有那般反響,正是因為錢軍在2018年所成立的瀚博半導(dǎo)體,搞了一個“大動作”——預(yù)覽了國產(chǎn)7nm云端GPU芯片,SG100。

據(jù)了解,SG100是集渲染、AI和視頻于一體的全功能GPU,在吞吐、延時等性能中具備世界領(lǐng)先水平。

至于它所要發(fā)力的領(lǐng)域,正是云游戲、云手機、云桌面、云計算元宇宙關(guān)鍵性應(yīng)用場景。例如在現(xiàn)場,錢軍便演示了在SG100加持下視頻渲染的效果對比:

 

不難看出,在色彩、幀率、細節(jié)、光照等方面,都是要優(yōu)于世面主流GPU芯片。

并且隨著SG100的預(yù)覽,也就意味著國產(chǎn)GPU玩家隊伍,又正式添加一位新成員。但縱觀整場發(fā)布會,“業(yè)界領(lǐng)先”、“性能數(shù)倍”等標簽顯得格外醒目。

之前以“擁有18年以上高端芯片設(shè)計和量產(chǎn)經(jīng)驗”先聲奪人的瀚博半導(dǎo)體,再次來到聚光燈下。

適應(yīng)多樣化計算需求:芯片、計算架構(gòu)、軟件平臺

在錢軍看來,芯片及其衍生的產(chǎn)品,從來不是“單打獨斗”的存在。

相反,他認為芯片性能的強大,應(yīng)當是源自底層計算架構(gòu)。

為此,瀚博半導(dǎo)體在現(xiàn)場率先亮出的便是自研的統(tǒng)一計算架構(gòu)——VUCA(Vastai Unified Compute Architecture)。錢軍表示:

我們用了中臺的概念。核心的IP就類似中臺,然后上層有統(tǒng)一的開發(fā)平臺??梢愿鶕?jù)產(chǎn)品和規(guī)劃和側(cè)重點,設(shè)計和推出更符合市場需求的產(chǎn)品。

而這張全景圖,可以說是貫穿了瀚博半導(dǎo)體的多項核心技術(shù)。

例如架構(gòu)的底層整合了多款高性能計算引擎,包括高性能AI引擎、可編程的矢量計算引擎,還有硬件化視頻解碼、具備渲染能力的顯示核心等。

在這些計算引擎之上,擁有一個高效統(tǒng)一的存儲管理、一致性的接口和低延遲的鏈接。

之所以如此設(shè)計,是因為芯片及其產(chǎn)品單單有算力是不夠的,接口、數(shù)據(jù)等因素依舊會成為制約算力效能的羈絆。

除此之外,要想讓算力資源效能更大化,它還需要被池化、在云端被集中;因此,瀚博半導(dǎo)體的統(tǒng)一計算架構(gòu)還設(shè)置了完整的虛擬化功能。

而配合的統(tǒng)一的底層軟件設(shè)計、模塊化的上層計算算子庫和功能模塊,則會讓芯片及產(chǎn)品在面對不同客戶的需求時,變得更加靈活。

整體而言:

瀚博統(tǒng)一架構(gòu)讓計算密集型的AI、視頻、渲染任務(wù)性能得到最大化硬件加速,同時端到端縮小延時,一體化助力云端實時圖形渲染、AI增強處理、視頻編解碼等需求。

也正是基于這樣的統(tǒng)一架構(gòu),錢軍在現(xiàn)場發(fā)布了瀚博半導(dǎo)體的更多新品。

數(shù)據(jù)中心推理加速卡——載天VA10

載天VA10是一款用于數(shù)據(jù)中心的高性能AI計算、推理的加速卡。

從性能角度來看,載天VA10所擁有的最大亮點,在于INT8峰值算力達400TOPS!

這一數(shù)值便一舉刷新業(yè)界紀錄。

但若是僅憑借算力峰值來判斷加速卡的強弱,那還是有一些片面,需要的更多的綜合性比較。

比如要考慮“算力密度”,算力密度可以從兩個維度來講。

第一是按芯片單元面積將算力平均下來,比如一平方毫米芯片的算力如何。另外一個,是每單元瓦的算力,也即每瓦功耗能夠提供多大的算力。

例如載天VA10的設(shè)計功耗為150W,而在同等條件之下:

最高吞吐率是主流GPU的2倍以上

最高性能延時是主流GPU的6%

不僅如此,在低延時場景(低于4毫秒的YoloV3檢測算法場景)下,載天VA10的推理性能,更達到同功耗市場主流GPU的3倍以上。

也正是得益于載天VA10的如此性能,它便非常適合“上崗”一些需要高實時性的云端AI場景,例如直播視頻增強、智慧交通管理、實時語義理解等。

以智能ROI優(yōu)化為例,載天VA10的效果如下:

 

不難看出,無論是實時處理效率,亦或是色彩增強效果,載天VA10都是肉眼可見的更勝一籌。

邊緣AI推理加速卡——載天VE1

除了數(shù)據(jù)中心端,瀚博半導(dǎo)體聚焦在邊緣端同樣發(fā)布了新品,載天VE1。

不同于載天VA10,載天VE1更側(cè)重的發(fā)力點,是在那些大算力的需求場景。

例如車路協(xié)同、低速自動駕駛(無人配送車、港口物流園區(qū)無人駕駛的車輛)等。

而載天VE1之所以能夠“勝任”于這些場景,還是得益于它自身的性能:

在 40~65瓦功耗下,INT8峰值算力達100TOPS

吞吐率達到主流GPU的2倍,但延時不到主流GPU的5%

 

 

軟件平臺VastStream

但也誠如剛才所言,硬件性能上的“單打獨斗”并不能將其功力全程發(fā)揮出來。

因此,瀚博半導(dǎo)體對此的破解之道,便是“軟硬一體”——VastStream。

據(jù)了解,VastStream軟件平臺,可以加速各類AI應(yīng)用的部署。

例如計算機視覺、視頻處理、自然語言處理、搜索與推薦、算子自定義擴展等。而其全新軟件組件,還提供了系統(tǒng)管理等三大管理工具,方便客戶部署。

與此同時,VastStream的基礎(chǔ)軟件棧功能也變得更加豐富。主要特性包括統(tǒng)一接口、靈活調(diào)度、通用AI計算、多路高效視頻轉(zhuǎn)碼+AI增強、易編程快遷移、工具鏈完備等。

至此,不難看出瀚博半導(dǎo)體已經(jīng)出現(xiàn)一條清晰可見的業(yè)務(wù)線:芯片、推理加速卡、一體機的硬件產(chǎn)品,再到軟件整合的系統(tǒng)解決方案。

那么對于這位新晉的“GPU玩家”來說,如今也到了回答這個問題的時候:

瀚博要走怎樣的一條“GPU之路”?

對于這個問題,錢軍其實在現(xiàn)場已經(jīng)給出了答案:我們致力于做全球領(lǐng)先的綜合算力平臺。

而這次預(yù)覽的GPU,可以說僅是瀚博半導(dǎo)體完整拼圖中的重要一塊。

這一點,從瀚博半導(dǎo)體的發(fā)展路徑中便可以了解一二。

錢軍在創(chuàng)立瀚博半導(dǎo)體之初,雖然有著數(shù)十年深耕GPU的團隊,但他們卻沒有直接切入到造GPU的賽道。

選擇的切入點反倒是“AI+視頻”,而且這其中的AI更多的是在推理應(yīng)用側(cè)。

之所以如此,是因為錢軍認為視頻就像一枚硬幣,有著2個維度。

對于已經(jīng)產(chǎn)生的視頻,是一個計算機處理的問題,包括增強、分析等等。而對于還未出現(xiàn)的視頻,那就是一個像素生產(chǎn)的問題,包括渲染等工作。

雖然此前瀚博半導(dǎo)體從未官宣過類似SG100這樣的GPU的消息,但與GPU相關(guān)的能力其實已經(jīng)是嵌套在了此前的產(chǎn)品中,只是并未對外宣傳。

此舉背后的邏輯,就是讓產(chǎn)品先用起來,然后再打造一顆獨立的高性能GPU。加之已有的推理卡、軟硬件等,便可把“綜合算力平臺”的拼圖拼完整了。

然而把“國產(chǎn)GPU”這條線鋪開來看,在瀚博半導(dǎo)體之前,已然是一副勢頭兇猛的態(tài)勢。

那么在這樣的大環(huán)境之下,瀚博半導(dǎo)體正式進入“國產(chǎn)GPU玩家”之列,其所持的殺手锏又將是什么?

對此,錢軍表示:

重要的不是只有一個芯片、一個“硬疙瘩”;更重要的是一個軟件的生態(tài)和合作的生態(tài)。

唯有做到高性能、低成本,然后用起來才是硬道理。

One More Thing

瀚博半導(dǎo)體此次正式步入GPU市場,一個非常醒目的標簽,便是團隊擁有在AMD數(shù)年的造芯經(jīng)驗。

而在2020年成立的摩爾線程,其創(chuàng)始人也曾在GPU巨頭英偉達任職長達15年。

兩個GPU巨頭之間長期的“對壘”,已然是人盡皆知的事情。

但現(xiàn)在,從英偉達和AMD出走的人,在國產(chǎn)GPU這條道路上再度“交鋒”。

嗯,有點意思。

相關(guān)推薦

電子產(chǎn)業(yè)圖譜