上回書說到——《一份邀請函引發(fā)的中國芯片新猜想》。
于是乎,我為了驗證這個猜想是否正確,特此前來上海一探究竟。
直接揭曉答案
中國最大AI芯片——邃思2.0,正式發(fā)布。
而且聽完整場發(fā)布會,最直觀的感受便是好多的“第一、首個”:
中國首款支持單精度張量TF32數(shù)據(jù)精度的人工智能芯片。
單精度FP32/張量TF32峰值算力,均為國內(nèi)第一。
中國第一個支持世界最先進存儲HBM2E和單芯片64 GB內(nèi)存的產(chǎn)品。
加上其它產(chǎn)品升級,成為國內(nèi)首家發(fā)布第二代AI訓(xùn)練的組合產(chǎn)品。
嗯,看著似乎是有點東西。
中國最大AI芯片問世
先來聊聊最為核心的這張芯片。
雖然說邃思2.0是面向AI云端訓(xùn)練,基于第一代的升級,但一個重點是工藝沒有變化。
也就是這張芯片依舊是由格芯的12nm FinFET工藝打造。
尺寸方面,為57.5毫米×57.5毫米,達到了芯片采用的日月光2.5D封裝的極限。
算力方面:
單精度FP32算力為40TFLOPS
單精度張量TF32算力為160TFLOPS
整數(shù)精度INT8算力為320TOPS
堆疊存儲方面,搭載的是HBM2E,據(jù)了解,這是目前業(yè)界較為領(lǐng)先的存儲方案。
它具備超大存儲容量和訪存帶寬,最高達到64GB和1.8TB/s,還可以支持眼下爆火的超大規(guī)模模型的訓(xùn)練。
算力擴展方面,由于邃思2.0擁有300GB/s的獨立片間互聯(lián)通道,因此可以非常靈活。
一個邃思2.0,升級三大產(chǎn)品
而隨著邃思2.0的到來,燧原科技其他產(chǎn)品也得到了相應(yīng)地升級。
首先,是云燧T20 訓(xùn)練加速卡。
它是面向數(shù)據(jù)中心的第二代AI訓(xùn)練加速卡,官方介紹是這樣的:
具有模型覆蓋面廣、性能強、軟件生態(tài)開放等特點,可支持多種人工智能訓(xùn)練場景。
那么到底性能能搶到什么程度?
在現(xiàn)場,燧原科技直接亮出的Benchmark!
不難看出,在圖像識別/分類、NLP、目標檢測、圖像分割和推薦任務(wù)中,與友商相比均有明顯的提升。(至于這個友商,就是很強的那家,你懂的)
或許你覺得數(shù)據(jù)還不夠直觀,那就直接來效果吧。
下面是友商和云燧T20處理圖片的速度對比:
處理圖片更多,速度還更快,有木有!
除此之外,還有云燧T21訓(xùn)練OAM模組。
據(jù)了解,它是是基于OCP(開放計算項目)OAM(開放加速模組)標準設(shè)計、兼容OCP OAI標準(開放加速器基礎(chǔ)設(shè)施)的AI訓(xùn)練加速模組。
所面向的數(shù)據(jù)中心,可以在互聯(lián)網(wǎng)、金融、教育、醫(yī)療、工業(yè)和政務(wù)等場景中使用。
云燧T21單精度FP32算力最高可達40TFLOPS、TF32算力最高則是160TFLOPS。
與友商的性能對比如下:
最后,燧原科技還升級了它家的馭算TopsRider軟件平臺:
基于算子泛化技術(shù)及圖優(yōu)化策略,支持主流深度學(xué)習框架下的各類模型訓(xùn)練。
利用Horovod分布式訓(xùn)練框架與GCU-LARE互聯(lián)技術(shù)相互配合,為超大規(guī)模集群的高效運行提供解決方案。
而且編程模型和可擴展算子接口,都是開放的哦。
還搞了一個“大組合”
以為這就完了?
不不不。
燧原科技還把它們搞了個“大組合”——云燧智算集群 (CloudBlazer Matrix 2.0)。
最高單精度算力可以達到1.3E(130000T),足足是上一代的46倍。
燧原科技COO 張亞林表示:
云燧的互聯(lián)接口在單口速度保持不變的前提下,接口數(shù)量從T10的4個增加到T20的6個,帶寬提升150%。
用云燧T20可以打造中國E級單精度算力集群。
承諾了一個約定
最后的最后,燧原科技還介紹了關(guān)于他們接下來的計劃。
云端訓(xùn)練計算產(chǎn)品方面,在2023年,他們準備發(fā)布T30/T31。
較一代產(chǎn)品相比,性能要達到14倍。
云端推理計算產(chǎn)品方面,也將在2023年進行迭代,性能提升16倍。
而且還給出了一個燧原產(chǎn)品定理:
至于到了2023年,燧原科技能否兌現(xiàn)承諾,就一起拭目以待吧。