手機之王奪下桌面設備的王冠,那么代價呢?
一周多前,水果公司更新了MacBook產品線。
在放出了2021版格型MacBook Pro系列的同時,更是繼去年首發(fā)桌面級M1處理器之后,拓展出性能更加強悍的M1 Pro和M1 Max系列芯片。
19日線上發(fā)布會那會,C次元沒有跟進。彼時,我們雖然有點想法,但眾多疑惑和猜測,還需要等測評數據來進行驗證。當然現在,隨著越來越多的信息以及測評陸續(xù)放出,有些話終于是可以講了。
首先,深度解讀一下蘋果在發(fā)布會上的性能對比圖吧。注意,蘋果畢竟是蘋果,和部分廠商為了對比圖好看而找軟柿捏完全不同的是,庫克這一次是直接對標現階段頂級的游戲筆記本微星 GP66 Leopard——
測試對標的是微星 GP66 Leopard (11UG-018),采用的是Intel的11代i7-11800H處理器,國內售價超過13,000元。M1 Pro/Max的CPU在同功耗下,性能是i7-11800H的1.7倍。
而在面對同樣GP66時,僅僅“大杯”的M1 Pro就能用30w左右的功耗,實現其配備的RTX3070型圖形處理器100w功耗才能達到的性能。
而更高級的M1 Max處理器則直接找上了頂級游戲本雷蛇Blade 15 Advanced“麻煩”??磮D,在60w功耗下,“超大杯”M1 Max處理器的GPU部分,其性能已堪比RTX3080的160w狀態(tài)。
那么,目前爆出的跑分數據呢?
從最新曝光的Geekbench 5跑分數據來看,頂配 M1 Max 的單核跑分為1749,多核達到了11542,幾乎是M1芯片的兩倍,與2019款Mac Pro高配版(搭載12核 Intel至強W-3235處理器)相差無幾。
01、往死里“擠牙膏”的蘋果
“擠牙膏”,是市場和用戶相當一段時間來,對Intel企業(yè)策略的一種調侃。
從2008年到 2017年長達9年時間,Intel處理器更新了7代,在消費者市場一直是i3雙核4線程,i5四核四線程,i7四核八線程的步調,每一代比上代同頻性能提升3%-5%,雷打不動。
久而久之,Intel也得到了一個“牙膏廠”的外號。
蘋果自研桌面端芯片的初始動機,筆者無從知曉,但無論如何,相信至少有一部分原因是對這其“擠牙膏”策略忍無可忍。只不過這一次,蘋果擠得實在大力了一些,不但擠兌到了“牙膏廠”,甚至順帶狠狠惡心了一把皮衣老黃和蘇媽。
下面,讓我們細品下蘋果M1系列的“中杯”“大杯”和“超大杯”。
CPU部分,10核心的M1Pro/M1Max由8個性能核心和2個能效核心構成。
可能很多人對這幾張圖沒有直觀感受,最左邊最小的是基礎款蘋果M1處理器,他的晶體管總數是160億,采用了臺積電N5工藝制造,而安卓端目前主流的旗艦芯片驍龍888在算上基帶后其晶體管總數也不過100億,采用的還是稍差的三星5LPE工藝。
▲M1、M1 Pro、M1 Max處理器核心X光圖
而右邊兩個,大杯M1 Pro和超大杯M1 Max,其總晶體管數目來到了驚人的337億和570億,(幾天前阿里巴巴公布的128核服務器專用芯“倚天”擁有600億晶體管)一個M1Max的晶體管數量相當于6塊手機端的驍龍888。
先來細品一下“超大杯”的M1 Max。
其中CPU部分為超寬執(zhí)行架構,性能核心擁有192KB的指令緩存,128KB的數據緩存和高達24MB(12MB*2)的二級緩存,而2個能效核心則同樣擁有128KB指令緩存,64KB數據緩存和4MB的L2緩存。其能效核心緩存的富裕程度,已經超越了大多數安卓端所有手機SOC的超大核。
而在這樣超額的晶體管背后,還有著恐怖的性能和外圍電路。
▲M1 Max 芯片X光照片
最顯眼的,莫過于32核心蘋果自研GPU核心陣列,整齊地排列在處理器的中心,由控制器和總線連接著,旁邊是面積極大的片上SLC緩存,如果每一個緩存區(qū)域的大小是16M,整個處理器的SLC緩存可以達到64M。
盡管并不恰當,但這里可以拉來作個對比——目前主流安卓旗艦的處理器驍龍888,其L3緩存大小僅為4M!
左右兩邊則是4組128bit寬度的LPDDR5內存控制器,共同組成了M1 Max“毀天滅地”的內存最大帶寬,在滿配64G片上LPDDR5 6400內存的前提下,最大帶寬達到了驚人的409.6GB/s。
而與之對比,桌面端intel的11代處理器11800H的最大內存帶寬僅為51.2GB/s,這在一些內存帶寬敏感的深度學習應用中將會提供無與倫比的硬件優(yōu)勢。
說完“超大杯”,繼續(xù)看看“大杯”的M1 Pro。
M1Pro則是M1 Max這個“巨無霸”砍掉下半部分構成的。但是即便如此,其晶體管總數仍達到了驚人的337億,并且還保留了32M的SLC緩存和2組128bit LPDDR5內存控制器。當然,“腰斬”后204.8GB/s的內存帶寬依舊驚人。
擠完了“牙膏廠”,再來聊聊對于蘇媽以及皮衣老黃的沖擊。
如果不考慮各個架構和平臺的差異以及各個API的效率差異,僅僅考慮GPU的浮點算力:
滿血的M1 Pro為16核心GPU,浮點算力高達5.2Teraflops(tflops),足以對標AMD的RX5500顯卡或者NVIDIA的RTX 1660 Ti;
哪怕是小刀的M1 Pro(14核心),算力也達到了4.6tflops,直接對標筆記本上滿血的RX5500M、RTX1650 Super;
而大哥M1 Max的滿血版更是恐怖如斯——浮點算力10.4TFlops,執(zhí)行單元4096個,并發(fā)線程數極限98304個,紋理填充率每秒3270億,像素填充率每秒1640億。直接可以對標滿血的RTX2080,或者降低了功耗的縮水版RTX3080。
皮衣老黃贏的如此艱難,至于蘇媽,則需要祭出RX Vega56才能勉強將超越32核心GPU的滿血M1 Max。
在這里,需要再一次強調一點——正如本文一開始解讀的蘋果發(fā)布會PPT里的內容,追上160w的RTX3080的浮點性能,M1 Max“滿血版”只需要60w的功耗。
02、但是,庫克,代價是什么呢?
回顧M1芯片推出之時,那是在2020年的11月,差不多一年前。
彼時的M1,就擁有和現在M1 Pro/Max一樣的單核心性能,而多核心性能的差距僅僅來自于核心數量從8變成了10。
GPU部分則更為簡單,M1擁有最高8個GPU核心,對應M1 Pro和M1 Max的16核心/32核心,就是單純的1:2:4的性能關系,無論是3D Mark分數還是浮點算力都是如此。
換而言之就是,在工藝沒有進步的前提下,單核心一年時間沒有任何變化。
如果往回看蘋果A系列處理器的超大核心,每一代的進步都是極其可觀的,但是從A12開始,這個進步開始放緩,到A13/M1這一代,蘋果已經開始部分依賴代工工藝的進步和頻率的提升了。
而蘋果的對手,不知道是牙膏擠多了還是突然發(fā)力了,幾乎不約而同將在明年推出極其具有競爭力的競品。
首先是蘋果的老伙伴對手。
如無意外,2022年將會是“牙膏廠”GPU爆發(fā)元年。最新的Xe架構GPU很快將會出現,在Intel當前制程工藝落后于臺積電(自然也就落后于使用臺積電先進工藝的蘋果)的情況下,Intel仍預期將實現相對于蘋果當前對比基準線產品“大約一倍”的能效提升。
不要認為這是吹牛,以目前泄漏的Intel DG2處理器滿配置512處理單元來看,蘋果在GPU上對Intel顯卡集群的優(yōu)勢將會迅速縮小。
▲未來Intel DG2移動端獨立顯卡的預估配置與參數
至于AMD,其RNDA2架構也有著超過50%的預估提升。
目前蘋果在桌面產品上的優(yōu)勢,若以非專業(yè)人士的視角來看,對于友商競品而言堪稱碾壓性。但其代價就是:核心架構在這一年將原地踏步,以及將為超大規(guī)模臺積電最新制程工藝而付出極高的成本。
須知在芯片設計領域,雖然同樣的技術條件下規(guī)模越大(也就是晶體管數量越多)某些程度上產品的表現會變得更好。但是事實上就半導體產品的技術指標來說,同樣的性能發(fā)揮和功耗下,用的晶體管越少,越說明你的能力強大,因為這意味著企業(yè)能用更低的成本做出來。
半導體作為一個研發(fā)密集的產業(yè),其研發(fā)投入是固定投入,晶體管數量則是變動投入,隨著產品的量產,大家自然希望固定投入占比越高越好,變動投入占比越低越好,實現同樣的功能,自然是晶體管越少越好。
03、蘋果的野望與國產的方向
很多人關心蘋果新M1 Pro/Max系列處理器的CPU和GPU性能,但是很多人忽略了蘋果在這幾年一直著重發(fā)力的另一個領域,NPU,也就是神經處理單元。
NPU作為一種專用計算單元,對于神經網絡,深度學習相關的運算相對于CPU/GPU這樣的通用計算單元有著他們無法比擬的能效與性能優(yōu)勢,在圖像識別,自然語言處理這類任務中NPU往往可以相對于CPU/GPU用更低的負載更高的速度更好的完成。
正因為優(yōu)點如此顯著,所以在移動端的許多未來應用中,端側的NPU算力成為了許多公司的發(fā)展方向。無論是大陸的海思還是紫光,中國臺灣的聯發(fā)科,美國的高通,亦或者韓國的三星,他們的移動端處理器最近幾年都在朝著強化神經網絡算力的方向發(fā)展,這些算力最終都會落地。
當然,在這一點上,蘋果又走到了大家的前面。以蘋果在iOS 15中更新的“文字識別”功能為例,蘋果可以直接、實時,沒有任何延遲地讀取一張照片中的文字信息,并且允許用戶簡單的將其復制下來。
與之對比,類似的功能在安卓端,則通常需要例如小米傳送門或者華為智慧識屏的特有功能——通過長按觸發(fā)后經過運算分析后讀取出來。這背后看似是功能的差異,實際上是算法和算力的巨大鴻溝,蘋果無感,無延遲,無范圍限制的文字識別,有非常大的概率是蘋果為未來的可穿戴智能設備對外界環(huán)境低功耗全時段無延遲感知進行預先研發(fā)過程中的一個簡單成果落地。
僅僅有感和無感、有延遲和無延遲之間,到底有何差距?
我們不妨想象一下,未來的智能眼鏡允許用戶在轉頭一撇中,獲取足夠的信息,并且高效無感的為你處理完畢。因此,用戶就不在需要反復看一個公告、反復記憶一個地標、反復的閱讀一個內容,更不需要把他拍下來然后逐字逐句的讀取。
未來的智能穿戴設備或許可以直接幫你進行閱讀和理解,拆分和挑選重點,在國外旅游時的菜單翻譯只需要一看就在瞬間完成替換,復雜公式的計算不再需要拍照錄入而是自動實時的完成,這對生活的便利程度提升是難以想象的,而這一切的背后都需要強大的算力與算法的支撐。
然而,這或許只是蘋果野心的一小部分。
國內目前在做較為先進制程芯片的公司有很多,大多數都是尋找臺積電這類代工廠進行代工,少數會選擇中芯國際這類國內的代工廠,同時也有大量的公司在做人工智能/神經網絡相關的芯片研究與開發(fā),例如寒武紀,地平線,芯原,中星微等等。
這個方向目前來說是一個獨立的,起跑線相對接近的賽道,不像ARM/X86架構下國內與國外起點就有十年的差距和大量的技術/專利壁壘,同時這也是未來社會快速發(fā)展的方向之一,背后蘊含著千億級別的龐大市場和需求。
微信號|汽車公社 C次元
作者:秋元明、查攸吟