在去年的蘋果發(fā)布會上,其產品包含iMac全線切到使用蘋果自主研發(fā)并設計的芯片M1系列,這個系列芯片也代表著蘋果放棄x86架構,這一里程碑式性決定。關于其在架構選擇方面的詳細解讀,可以參考之前的文章:
蘋果發(fā)布M1芯片放棄X86架構
M1 Pro和Max都是去年M1的后續(xù)產品,M1是蘋果的第一代Mac芯片,它開啟了蘋果用自己的內部設計取代基于x86芯片的征程。盡管M1速度很快,功耗表現也不錯,但它仍然是一個更小的SoC——仍然為iPad Pro系列等設備供電,以及相應的較低的TDP(Thermal Design Power),自然還是輸給功能更加強勁地芯片,關于技術細節(jié),在之前的文章中均有提到,這里不再贅述。
那么我們已知評功的M1芯片,于其說是為了制造出一款非常強大的明星產品,不如說是為了其生態(tài)鏈完整產品形態(tài)而服務的。那么后續(xù)M1基礎上更新的動作,則更值得探究。
Apple M1,擁有4個大性能核心、4個高效核心和8-GPU,在一個5nm工藝節(jié)點上擁有160億個晶體管。
而新的M1 Pro: 10核CPU, 16核GPU, 337億個晶體管。
M1 Pro繼續(xù)使用定制性的封裝,蘋果是封裝SoC芯片和內存芯片在一個單一的有機PCB, 這與其他傳統(tǒng)芯片,如AMD或英特爾的DRAM芯片形成對比,后者的特點是內存插槽或焊接到主板上,蘋果的做法可能會顯著提高用電效率。
與M1相比,他們將M1 Pro的內存總線增加了一倍,從128位LPDDR4X接口轉移到更寬更快的256位LPDDR5接口,承諾系統(tǒng)帶寬高達200GB/s。 我們不知道這個數字是否是精準地,但是LPDDR5-6400接口的寬度將達到204.8GB/s。
上圖將AnandTech分享地M1與M1 Pro進行對比,
M1 Pro內存接口更加鞏固在SoC的兩個角上,而不是像M1那樣沿著兩條邊展開。 由于接口寬度的增加,我們看到內存控制器占用了相當大一部分SoC。 顯然在內存控制器后面直接使用了兩個系統(tǒng)級緩存(SLC)塊,對比M1,SoC的系統(tǒng)級緩存4MB L2,它是跨所有IP塊共享的。
蘋果的SLC設計精巧,因為它們服務于整個SoC,能夠擴大帶寬,減少延遲,或者只是通過避免內存處理與芯片分離,極來降低功耗。 這個新一代SLC塊看起來相當不同于我們在M1上看到的。 SRAM單元區(qū)域看起來比M1的大,所以雖然我們現在不能確切地確認這一點,但這可能意味著每個SLC塊中有16MB的緩存——對于M1 Pro來說,這意味著總SLC緩存32MB。
在蘋果首此發(fā)布M1時,筆者最終得出的結論時——這是一款可以足夠好服務于蘋果生態(tài)完整性的芯片產品,但是并不代表是一款最高性能的SOC,也并不能說明Arm架構將徹底在與X86競爭的這場戰(zhàn)役中占上風。本次發(fā)布的M1 Pro產品,在性能核心方面,蘋果現在增加了一倍,達到8核。曾經,蘋果的M1多線程性能方面落后于其他8核SOC,但隨著本次新品的推出,M1 Pro必然在多線程操作的過程中有著更加突出的表現。畢竟ARM,基本上可以稱之為精簡指令集(RISC)的代名詞,而針對設計超高性能的臺式機和服務器處理器,Intel的優(yōu)勢更加明顯。所以顯然,從蘋果進階的芯片產品推出的方向看,他們更希望能夠在保持低功耗的RISC基礎上,可以讓芯片的多線程處理性能進一步提升。
蘋果似乎鏡像了兩個4核塊,L2緩存也被鏡像。 雖然蘋果在這里引用了24MB的L2,但Anandtech認為這是一個2x12MB的設置,使用的是類似AMD核心的設置。
在CPU性能指標方面,蘋果與競爭對手進行了一些比較,特別是這里比較的sku是英特爾的酷睿i7-1185G7和酷睿i7-11800H,這是英特爾最新的Tiger Lake 10nm“superin”CPU的4核和8核版本
蘋果的展示的運行測試結果顯示,在多線程性能方面,這兩款新芯片都大大超過了英特爾提供的任何芯片,而且功耗大大降低。 所呈現的性能/功率曲線顯示,在30W等功率使用情況下,新M1 Pro和Max的CPU吞吐量比11800H快1.7倍,其功率曲線非常陡峭。 然而,在同等的性能水平下——在本例中使用11800H的峰值性能——蘋果表示,新款M1 Pro/Max實現了同樣的性能,功耗降低了70%。 這兩個數字之間存在巨大差異,遠遠超過了英特爾目前的成績。
但是筆者隱約記得在去年在發(fā)布會中,蘋果表示,這是世界上最快的CPU。但是想要真正評估,我們最好真的看一下Firestorm CPU內核的微架構。根據我們現有可以得到的信息有限,從蘋果官網注明的測試基準,其實重點在于運行順暢,比如Safari瀏覽器上網,JavaScript的運行速度提升,睡眠模式喚醒等等,這個測試方式還是對macOS系列的產品有優(yōu)勢的。(筆者注,具體的測試方式Apple 于 2020 年 8 月和 10 月使用 JetStream 2、MotionMark 1.1 和 Speedometer 2.0 性能基準對完成測試的瀏覽器進行了此項測試。測試使用預發(fā)行版 Safari 14,以及 Chrome、Firefox 和 (Windows) Microsoft Edge 在測試時的最新穩(wěn)定版本,以及配備 Intel Core i5 處理器的 13 英寸 MacBook Pro 系統(tǒng),運行預發(fā)行版 macOS Big Sur,并用啟動轉換運行 Windows 10 Home)
除了強大的CPU綜合體,蘋果還在擴大其自定義GPU架構。 M1 Pro現在采用了16核GPU,宣傳的計算吞吐量性能為5.2 TFLOPs。更大的GPU將被更寬的內存總線支持,以及大概32MB的SLC——后者本質上類似于AMD的Infinity Cache。(筆者注:AMD推出的Infinity Cache架構,主要目標是希望解鎖游戲場景下,從1080p到4K的升級,否則,沿用傳統(tǒng)設計方式,則可能需要超級昂貴且消耗巨大的512位內存總線,無限緩存位于主計算核心集群的旁邊,本質上充當一個小型但有效的內存存儲。 它位于較小的L1和L2緩存之間,也在GPU本身)
據稱,蘋果的GPU性能大大超過了任何上一代競爭對手的集成顯卡性能,因此該公司選擇直接與中端筆記本電腦的IGPU進行比較。 在這種情況下,M1 Pro與GeForce RTX 3050 Ti 4GB芯片進行了對比,蘋果芯片在功耗降低70%的情況下實現了相似的性能。 這里顯示的功率水平約為30W,但是還不清楚是系統(tǒng)功率,SOC功率或者知識在比較GPU模塊本身的功耗。但是不可否認的是,蘋果Mac系列產品圖形處理能力越發(fā)強大。
至此,本次發(fā)布會依然有驚喜,繼M1 Pro之后,M1 Max更加令人眼前一亮,因為本質上并不是我們常見的SOC+GPU的方式,它更像是GPU+SOC,實際上此類的應用配搭在消費類電子領域不太常見,更像是工業(yè)自動化領域做數據處理,外圍電路用簡單MCU控制的方式。
M1 Max的封裝更大,并且DRAM芯片從2增加到4,這也對應于內存接口寬度從256位增加到512位。400GB/s的巨大帶寬,如果它是LPDDR5-6400,可能更準確地說是409.6GB/s。 這種帶寬基本上只出現在高端GPU中而不是傳統(tǒng)SoC。
根據上圖可以看到,對比M1 Pro整體上部的架構還是近似的,另外兩個128位LPDDR5塊很明顯,而且有趣的是,它們還增加了SLC塊的數量。 如果確實是每個塊16MB,那么整個SoC就可以使用64MB的片上通用緩存。
在如此巨大的內存帶寬資源下,或許除了顯卡的作用,也在功能上有其他方面的考量,筆者猜測這里與機器學習相關的模塊有相關性。畢竟在對比i9等core的同類型產品,跑相同的ML Model,M1 Max的速度會快很多。
綜上,畢竟ARM使用精簡指令集,芯片子模塊的門控時鐘和電源開關通常是設計電路時就決定的。在后端設計方面,諸如處理電壓,時鐘等問題,控制在輸入電壓切換的時候產生的動態(tài)功耗和關斷模塊的漏電功耗至關重要??傮w來講,這個可能需要結合軟件系統(tǒng)來看,比如app workflowdata數據的手機,可以幫助優(yōu)化MacOS給中央處理器的各個核心分配的多線程任務等等。擁有自主OS的硬件在產品迭代的思路上有更多不可復制性。