昨晚Apple的MacBook Pro 14”和16”的神秘面紗終于揭開,新的M1 Pro和M1 Max芯片也終于亮相。
M1 Pro和Max是去年M1的后續(xù)產(chǎn)品,Apple開始用自研芯片全面取代x86芯片。M1取得了很大成功,展示出了筆記本市場上最優(yōu)秀的能效。盡管M1速度很快,但仍然屬于小型SoC(甚至還支撐著iPad Pro產(chǎn)品線),以及相應(yīng)的較低的TDP,仍然在競爭中不及更大、更大功耗的芯片。
但這次的兩款芯片,Apple全力在追趕性能,更多的CPU內(nèi)核、GPU內(nèi)核…… 蘋果現(xiàn)在也增加了功耗預(yù)算,和iPhone與iPad的性質(zhì)完全不同。
M1 Pro:10核CPU、16核GPU、337億個晶體管,245mm²
先來看M1 Pro,為Apple所謂的no-compromise筆記本電腦SoC奠定了基礎(chǔ)。
Apple從封裝開始演示,M1 Pro仍然非常有特點,包括SoC和內(nèi)存封裝在單個PCB上。這與其他傳統(tǒng)芯片形成鮮明對比,例如AMD或Intel的DRAM要么在DIMM插槽,要么焊在主板上。Apple的方式顯然會提高能效。
Apple透露,與M1相比,M1 Pro的內(nèi)存總線增加了一倍,從128bit LPDDR4X接口轉(zhuǎn)向更寬、更快的256bit LPDDR5接口,提供高達200GB/s的系統(tǒng)帶寬。我們不知道這個數(shù)字是精確的還是四舍五入,但LPDDR5-6400接口的帶寬將達到204.8GB/s。
Apple還非常給力地展示了M1 Pro和M1 Max的die shot,芯片的布局一目了然。從內(nèi)存接口開始看,這些接口現(xiàn)在更加集成到SoC的兩側(cè),而不是像M1那樣沿著兩條邊緣展開。由于接口寬度的增加,我們看到內(nèi)存控制器占了相當(dāng)大部分。更有趣的是,Apple現(xiàn)在顯然在內(nèi)存控制器后面直接使用了兩個系統(tǒng)級緩存(SLC)塊。
Apple的SLC一直很突出,因為它們服務(wù)于整個SoC,能夠擴大帶寬,減少延遲,或只是通過避免內(nèi)存任務(wù)中斷來節(jié)省功耗,從而極大地提高了能效。這個新一代SLC與M1大不相同。SRAM單元區(qū)域看起來比M1大,雖然現(xiàn)在無法完全確認這一點,但可能意味著每個SLC中有16MB的緩存。因此M1 Pro的總SLC緩存可能是32MB。
CPU方面,Apple已將能效核的數(shù)量從4個減到2個。我們不知道這些核是否會與M1相似,或者Apple采用了A15 SoC的新IP,A15在這方面有一些更大的微架構(gòu)變化。
在性能核方面,Apple增加了一倍,達到了8核。Apple的性能核在M1上令人印象深刻,但在多線程(MT)性能方面遜于其他8核SoC。性能核翻倍應(yīng)該會有巨大的MT性能提升。
在die shot中,我們看到Apple似乎正在鏡像兩個4核塊,L2 cache也鏡像了。盡管Apple在這里引用了24MB的L2,但它相當(dāng)像2*12MB的設(shè)置,使用的是類似AMD的core-complex設(shè)置。這意味著兩個性能集群的一致性正在超越結(jié)構(gòu)和SLC。當(dāng)然,這是目前的猜測。
CPU性能指標(biāo)方面,Apple與競爭對手進行了一些比較。特別是這里比較的SKU是Intel的Core i7-1185G7,以及Intel最新的Tiger Lake 10nm“SuperFin”CPU的Core i7-11800H、4核和8核版本。
Apple聲稱,在多線程性能方面,性能都大大優(yōu)于Intel的任何芯片,且功耗要低得多。呈現(xiàn)的性能/功率曲線表明,在30W的相同功耗下,M1 Pro和Max的CPU吞吐量比11800H快1.7倍,11800H的功耗曲線非常陡峭。在相同性能水平上(使用了11800H的峰值性能),Apple表示,M1 Pro/Max相同性能水平下低70%的功耗。這個數(shù)字差異大的甚至有些尷尬。
除了強大的CPU外,Apple還在擴大他們定制的GPU架構(gòu)。M1 Pro現(xiàn)在采用了16核GPU,計算吞吐量為5.2 TFLOP。有趣的是,這個巨大的GPU將得到更大的內(nèi)存總線支持,以及可能是32MB的SLC。后者的作用基本上類似于AMD現(xiàn)在通過其GPU無限緩存實現(xiàn)的功能。
據(jù)稱,Apple的GPU性能遠超任何上一代競爭對手的集成顯卡性能,因此他們選擇直接與中端筆記本電腦的獨顯進行比較。在這種情況下,M1 Pro與GeForce RTX 3050 Ti 4GB對比,Apple的芯片以70%的功耗達到了相似的性能。這里的功耗約30W,目前還不清楚這是SoC的總功耗還是系統(tǒng)功耗,還是GPU本身。
除了GPU和CPU,Apple還指出他們大幅改進的Media Engine,現(xiàn)在可以處理ProRes和ProRes RAW的硬件加速解碼和編碼,這對內(nèi)容創(chuàng)作者和專業(yè)攝像師來說是非常有吸引力的。Mac在視頻編輯方面一直享有美譽,但RAW格式的硬件加速引擎將是一個殺手級應(yīng)用,對這些專業(yè)用戶來說是直接的賣點。
M1 Max:570億個晶體管、432mm²的32核GPU怪物雖然M1 Pro在性能方面趕超了競爭對手,但M1 Max的目標(biāo)是提供前所未有的性能,將GPU增加到32核。本質(zhì)上,它不再是具有集成GPU的SoC,而是圍繞著SoC的GPU。
M1 Max的封裝略有變化,因為更大。最明顯的變化是DRAM從2增加到4個,這也與內(nèi)存接口寬度從256bit增加到512bit相對應(yīng)。Apple強調(diào)了400GB/s的巨大帶寬,如果是LPDDR5-6400,可能更準(zhǔn)確地說是409.6GB/s。這種帶寬在SoC中聞所未聞,但在非常高端的GPU中是正常的。
在M1 Max的die shot上,看起來相當(dāng)奇怪。首先,GPU上方芯片的整個頂部看起來與M1 Pro基本相同,指出Apple正在重復(fù)使用大部分設(shè)計,Max只是在塊布局中向下生長的。
另外兩個128bit LPDDR5是很明顯的,有趣的是,它們也在增加SLC塊的數(shù)量。如果確實是每個16MB,那么整個SoC使用的是64MB片上通用緩存。除了明顯的GPU用途外,確實想知道CPU能用如此巨大的內(nèi)存帶寬資源實現(xiàn)什么。
M1 Max真的很大。Apple說M1 Pro晶體管數(shù)量為337億個,而M1 Max的晶體管數(shù)量高達570億個。AMD宣傳說520mm²的Navi 21 GPU為268億個晶體管,采用的是TSMC 7nm工藝。由于Apple使用TSMC先進的5nm工藝,Apple用更小芯片尺寸裝下了更多的晶體管數(shù)量。即使與NVIDIA最大的7nm芯片540億個晶體管的GA100相比,M1 Max的晶體管數(shù)量仍然更龐大。
Apple展出了M1、M1 Pro和M1 Max的尺寸對比,它們確實為1:1的比例。在這種情況下,我們已經(jīng)知道M1是120mm²,M1 Pro 245mm²,M1 Max約為432mm²。
32核GPU占據(jù)了大部分面積,Apple說GPU達到了10.4TFLOP?;氐絛ie shot,似乎基本反映了16核GPU的布局。這里首先想到的是,2個GPU協(xié)同工作,但GPU的兩半之間似乎確實有一些共享邏輯。一旦我們看到系統(tǒng)的軟件行為,可能會更清楚地了解這一點。
在性能方面,Apple正在與市場上最好的產(chǎn)品進行競爭,將M1 Max的性能與GeForce RTX 3080的性能進行比較,功耗要低100W(60W vs 160W)。Apple還與RTX 3080的100W TDP進行了比較,性能仍然優(yōu)于Nvidia的獨立GPU,同時功耗低40%。
我們等待新款M1系列芯片已經(jīng)有一年多了,Apple不僅滿足了這些期望,甚至超越了預(yù)期。M1 Pro和M1 Max看起來都是極具差異化的設(shè)計,與我們在筆記本電腦領(lǐng)域見過的任何設(shè)計大不相同。如果M1表明Apple在芯片方面的成功,那么M1 Pro/Max也毫無疑問為蘋果的Mac產(chǎn)品奠定了更堅固的基礎(chǔ),已將競爭對手遠遠甩在了后面。
[參考文章]Apple Announces M1 Pro & M1 Max: Giant New Arm SoCs with All-Out Performance — Andrei Frumusanu