9 月 16 日,蘋果秋季新品發(fā)布會如約而至,但傳聞中的 iPhone12 卻要等到下個(gè)月才能見到。發(fā)布會僅上新了兩款智能手表和兩款 iPad 平板電腦,新品 iPad Air 4 則搭載了最新的處理器芯片 A14 Bionic(仿生)處理器。這幾款新產(chǎn)品香不香另說,A14 Bionic 處理器卻成為了此次發(fā)布會的最大亮點(diǎn)。
根據(jù)蘋果的介紹,A14 Bionic 處理器是蘋果首款采用 5nm 工藝打造移動(dòng)設(shè)備芯片,晶體管數(shù)量相較于 A13 Bionic 處理器的 7nm 芯片增加了近 40%,晶體管數(shù)量達(dá)到了驚人的 118 億顆。
僅憑工藝制程的提升,A14 在性能和功耗表現(xiàn)上自然會有一定的提升。官方宣稱,在性能比較上,CPU 提升 40%,全新 GPU 構(gòu)架提升 30%。不過,讓外界吐槽的是,這一數(shù)據(jù)是 A14 跟 A12 比較得出來的。這讓 A13 情何以堪呢?
而根據(jù)蘋果之前公布的數(shù)據(jù),A13 相比 A12 在 CPU 和 GPU 性能上都提高了 20%。因此,如果這兩代的處理器性能指標(biāo)測量標(biāo)準(zhǔn)一致的話,則 A14 的 CUP 性能僅比 A13 快了約 16%,GPU 性能僅比 A13 提升了約 8.3%。可以說,如果排除掉 5nm 工藝本身所帶來的改進(jìn),相對 A13 來說,A14 在 CPU 和 GPU 核心本身性能上的提升其實(shí)并不高。
不過,在 AI 算力上,A14 相比 A13 則有了非常大的提升,從之前的 8 核 NPU 直接翻倍提升到 16 核 NPU。根據(jù)蘋果的測試,A14 的 AI 運(yùn)算能力也提升到了 11.8 萬億次,機(jī)器學(xué)習(xí)速度提升了 70%,機(jī)器學(xué)習(xí)加速器則令運(yùn)算速度快達(dá) 10 倍,將各種機(jī)器學(xué)習(xí)應(yīng)用的性能表現(xiàn)提升至全新水平。
如果留意就會發(fā)現(xiàn),蘋果從 A11 到 A14,每一次在 AI 運(yùn)算性能上都做了大幅地提升。盡管我們看到蘋果并不總是以 AI 芯片或者 AI 智能終端為噱頭來做宣傳,但事實(shí)上蘋果 iOS 系統(tǒng)上已經(jīng)遍布各種 AI 應(yīng)用或者功能,對 AI 算力增長提出了超高的需求;與此同時(shí),安卓陣營高端芯片廠商在 AI 芯片上面的頻頻發(fā)力,正在縮短甚至追上與蘋果的 A 系列芯片的差距,這些可能都是構(gòu)成蘋果移動(dòng)終端芯片的 AI 算力爆發(fā)式增長的緣由。
從 A11 到 A14,蘋果的 AI 算力進(jìn)化
2017 年,AI 已經(jīng)成為大眾熱議的話題。此時(shí)沒有一家終端芯片廠商不是以 AI 作為產(chǎn)品的新噱頭,但真正能在 AI 芯片方面拿得出手的廠商也沒有幾家。這一年華為的麒麟 970 橫空出世,搶到了首發(fā)。10 天后,蘋果的 A11 Bionic 也正式發(fā)布,A11 采用 10nm 工藝制程、六核 CPU、自研三核心 GPU 設(shè)計(jì)。
之所以可以稱為“AI 芯片”,就在于 A11 首次搭載神經(jīng)網(wǎng)絡(luò)引擎處理器單元(Neural Network Processing Unit,NPU),并且在新的神經(jīng)網(wǎng)絡(luò)引擎上蘋果發(fā)布了第一代 Core ML,運(yùn)用本地化人工智能加速器進(jìn)行機(jī)器學(xué)習(xí)。
A11 搭載的 NPU 采用雙核設(shè)計(jì),每秒運(yùn)算次數(shù) 6000 億次,主要處理機(jī)器學(xué)習(xí)任務(wù),能夠識別人物,地點(diǎn)和物體,主要針對的應(yīng)用是 iPhone 新推出的人臉識別鎖屏 FaceID 以及人臉關(guān)鍵點(diǎn)追蹤 Animoji,且 NPU 算力并不對第三方應(yīng)用開放。
蘋果 A11 處理器的標(biāo)志意義,除了成為蘋果自主研發(fā)程度最高的一代處理器之外,其實(shí)也和華為一起真正地打開了移動(dòng)終端的 AI 時(shí)代。此后幾乎所有手機(jī)廠商都把 AI 運(yùn)算能力當(dāng)作宣傳賣點(diǎn)和升級點(diǎn)。
蘋果在 2018 年推出的 A12 Bionic,采用了臺積電當(dāng)時(shí)最新的 7nm 工藝制程,蘋果自研的 Fusion 架構(gòu),而神經(jīng)網(wǎng)絡(luò)引擎從雙核直接升級到八核,能夠?qū)崿F(xiàn)每秒 5 萬億次計(jì)算,比較上一代有了 8.3 倍的提升。第二代神經(jīng)網(wǎng)絡(luò)引擎才是在算力和性能上能夠?qū)崿F(xiàn)更多 AI 功能。另外,A12 采用了全新的智能 HDR 算法以及 core ML 帶來的圖像識別、第三方 APP 垃圾信息處理等功能,AI 應(yīng)用開始普及。
2019 年發(fā)布的 A13 Bionic 處理器,CPU、GPU 和 NPU 的核心數(shù)都與 A12 相同,只是采用了臺積電升級版 7nm 工藝,集成 85 億個(gè)晶體管,性能、功耗都有了一定提升,而神經(jīng)網(wǎng)絡(luò)引擎的峰值算力提升到每秒 6 萬億次計(jì)算,提升幅度并不顯著,同樣是為面容 ID、三攝系統(tǒng)、AR 類 APP 等機(jī)器學(xué)習(xí)應(yīng)用提供算力支持。不過值得一提的是,通過在 CPU 中加入 2 個(gè)機(jī)器學(xué)習(xí)加速器,讓 CPU 可以達(dá)到每秒 1 萬億次的矩陣數(shù)學(xué)運(yùn)算。同時(shí),Core ML3 可以與機(jī)器學(xué)習(xí)控制器配合,自動(dòng)為 CPU、GPU 和 NPU 分配任務(wù)。
這次發(fā)布的 A14 處理器芯片上,神經(jīng)引擎核心數(shù)再次翻倍達(dá)到 16 個(gè),每秒運(yùn)算次數(shù)達(dá)到了驚人的 11.8 萬億次,機(jī)器學(xué)習(xí)速度提升了 70%,機(jī)器學(xué)習(xí)加速器則令運(yùn)算速度快達(dá) 10 倍,將各種機(jī)器學(xué)習(xí)應(yīng)用的性能表現(xiàn)再次大幅提升。
AI 應(yīng)用的“猛虎”,蘋果 AI 芯片大規(guī)模升級的內(nèi)因
根據(jù)資料,早在 2014 年,蘋果已經(jīng)在新一代架構(gòu)芯片 Soc 的開發(fā)中加入專門的 AI 芯片。而在此之前,蘋果的 AI 算力是由“CPU+GPU”實(shí)現(xiàn),其自主開發(fā) AI 芯片的設(shè)計(jì)思路則是由 CPU 和 GPU 處理的 AI 任務(wù)轉(zhuǎn)向由專門的 AI 芯片進(jìn)行處理,最終將芯片集成到終端設(shè)備上。
與此同時(shí),隨著蘋果移動(dòng)終端在拍照攝影、圖形處理等應(yīng)用上面越來越需要用到神經(jīng)網(wǎng)絡(luò)和機(jī)器學(xué)習(xí)、深度學(xué)習(xí)的算法運(yùn)算,這些需求使得蘋果開始考慮將 AI 應(yīng)用的運(yùn)算必須采用神經(jīng)引擎這一專門定制的處理器單元來完成這些計(jì)算。
2017 年,蘋果的神經(jīng)引擎處理器正式落地。
不過讓外界驚訝的是,為何短短三年之中,A 系列芯片的 AI 算力得到了將近 20 倍的提升,遠(yuǎn)遠(yuǎn)超出 Soc 芯片其他處理器的性能提升幅度?
一方面是 CPU 和 GPU 的性能,在現(xiàn)有的工藝制程進(jìn)化和既定架構(gòu)的約束上提升已經(jīng)非常困難。隨著半導(dǎo)體工藝從 7nm 向 5nm、3nm 工藝升級,難度會越來越大,而可預(yù)期的提升卻可能并不顯著。反而 AI 加速器還會有相當(dāng)大的設(shè)計(jì)提升空間。
另一方面是,終端應(yīng)用對于動(dòng)用 CPU 和 GPU 的需求正在達(dá)到一個(gè)用戶的使用極限,因此也沒有快速增長的需求,但是這些應(yīng)用的 AI 算力需求則在大幅增長。
如果對蘋果 iOS 系統(tǒng)中的用到機(jī)器學(xué)習(xí)相關(guān)的功能和應(yīng)用進(jìn)行分析的話,我們看到最新兩代的 iPhone 和 iPad 已然是一部各個(gè)部分和細(xì)節(jié)都在使用 AI 的終端了。
在蘋果終端的細(xì)節(jié)體驗(yàn),已經(jīng)有大量機(jī)器學(xué)習(xí)算法的加持,但相應(yīng)的體驗(yàn)難以被用戶察覺。
比如,機(jī)器學(xué)習(xí)用于幫助 iPad 的軟件區(qū)分用戶在使用 Apple Pencil 繪圖時(shí)到底是不小心將手掌壓在屏幕上還是有意提供輸入的按壓?;蛘呤窃诒O(jiān)控用戶使用習(xí)慣,以優(yōu)化設(shè)備的電池壽命和充電頻次,既可以改善用戶在兩次充電之間的時(shí)間,又可以保證電池的使用壽命。
還有像 iPhone 的拍照,用戶每次按下快門,設(shè)備會快速連續(xù)拍攝很多張照片,然后經(jīng)過機(jī)器學(xué)習(xí)訓(xùn)練的算法會分析每個(gè)圖像,并將其認(rèn)為是每個(gè)圖像的最佳部分合成為一個(gè)結(jié)果。也就是 iPhone 拍照的卓越效果很大程度是靠“計(jì)算”出來的。蘋果正是通過 iPhone 中對圖像信號處理器(ISP)和神經(jīng)引擎的協(xié)同處理,才使得照片質(zhì)量獲得大幅提升。
蘋果在終端本地大幅提升神經(jīng)引擎的運(yùn)算能力,以及配合圖形計(jì)算引擎和 AI 加速等功能,可以在移動(dòng)終端中執(zhí)行非常高難度的機(jī)器學(xué)習(xí)任務(wù)。比如在 iPad Pro 上,通過神經(jīng)引擎的計(jì)算能力,結(jié)合 Project Aero 軟件,iPad Pro 能將 PSD 中創(chuàng)作的每一個(gè)圖層以獨(dú)立的 AR 對象呈現(xiàn)在屏幕上,每個(gè)圖層都分離成一幕栩栩如生的景觀,這對創(chuàng)作者來說相當(dāng)具有吸引力。
此外,蘋果已經(jīng)加入的顯著的 AI 新功能,諸如機(jī)器學(xué)習(xí)在翻譯、內(nèi)置聽寫、輸入預(yù)測、健康特性分析與預(yù)測上面,都需要大量的機(jī)器學(xué)習(xí)參與。
而蘋果選擇在機(jī)器學(xué)習(xí)任務(wù)的本地化計(jì)算的另一大原因,可能是為了將數(shù)據(jù)留在本地,用以保護(hù)用戶隱私。我們知道,機(jī)器學(xué)習(xí)的本質(zhì)就是對海量數(shù)據(jù)進(jìn)行學(xué)習(xí),而數(shù)據(jù)的采集和分析一直是谷歌、facebook 這些互聯(lián)網(wǎng)公司的“原罪”,作為承諾嚴(yán)格遵守用戶隱私數(shù)據(jù)保護(hù)的蘋果,自然要做出保證,盡量將機(jī)器學(xué)習(xí)算法所需要的用戶數(shù)據(jù)留在用戶的移動(dòng)終端當(dāng)中,但與此同時(shí)要保證 AI 算法的有效,就必須對終端芯片的 AI 算力引擎做出大幅提升。
當(dāng)然,蘋果自身終端系統(tǒng)對于 AI 算力升級的要求,只是一只內(nèi)生的吞噬算力的“猛虎”,在外部競爭中,蘋果還要面對一群實(shí)力強(qiáng)勁的“追龍”,在 AI 算力提升上不斷地應(yīng)戰(zhàn)。
安卓陣營的“追龍”,蘋果 AI 算力快速升級的外因
蘋果自研的 A 系列處理器芯片,一直以來以創(chuàng)新和高性能著稱,雖然最近兩年,安卓系的高端芯片,諸如高通的驍龍芯片、聯(lián)發(fā)科 Helio 芯片、華為海思的麒麟芯片則大有追趕之勢。
如果拋去綜合性能的討論,但是在 AI 芯片算力上面,高通的驍龍?zhí)幚砥髟谛阅苌虾蛿?shù)量上都已經(jīng)有超過蘋果 A 系列芯片的可能。
比如在 2019 年上半年手機(jī) AI 芯片排行榜上,排名前十的智能手機(jī) AI 芯片,其中前四名分別是高通驍龍 855、蘋果 A12 Bionic、聯(lián)發(fā)科 Helio P90 和海思麒麟 980。但值得關(guān)注的是,除了第二、三、四名,這份榜單中的其他位置都被高通驍龍芯片占據(jù)。
與蘋果采取專用 NPU 芯片來提供 AI 算力不同的是,高通的驍龍?zhí)幚砥鞑捎昧水悩?gòu)計(jì)算的方式,推出了自研的 AI 引擎,通過 CPU、GPU 和 DSP(Hexagon 處理器)組合相互配合,運(yùn)行神經(jīng)網(wǎng)絡(luò)計(jì)算的效率,根據(jù)不同的應(yīng)用場景來安排工作負(fù)載。
而預(yù)計(jì)在今年年底發(fā)布的高通驍龍 875,同樣采用了 5nm 制程工藝,與 7nm 相比邏輯密度提高 80%,其基礎(chǔ)性能較上代提升 15%,功耗降低 30%。非常激進(jìn)的是,高通這次采用了 ARM 的 Cortex X1 超大核心設(shè)計(jì),為“1+3+4”八核心三簇設(shè)計(jì)模式,其中 1 為 Cortex X1 超大核心,3 為大核,采用 Cortex A78,4 為能效核心。據(jù)業(yè)界的預(yù)測,驍龍 875 無論在綜合性能還是在 AI 算力上都有超越 A14 的可能。
此外,高通通過 AI 引擎的的高、中端芯片布局,與不同的軟硬件企業(yè)一起,從底層框架、硬件核心、軟件等層面,將 AI 能力應(yīng)用到了海量的移動(dòng)終端和智能設(shè)備上,形成基于 AI 應(yīng)用的合作生態(tài)。
高通在 AI 算力上的激進(jìn)演化以及在 AI 能力上的不斷賦能,已經(jīng)開始形成對于蘋果的 A 系列芯片領(lǐng)導(dǎo)力的巨大威脅。在面臨安卓陣營這些“追龍”對手如此“給力”的努力下,蘋果自然也會有強(qiáng)大的外部動(dòng)力來大幅升級自身的性能優(yōu)勢。就像驍龍 875 這樣的性能怪獸的出現(xiàn),始終會追在蘋果身后,準(zhǔn)備吊打蘋果。
反過來看蘋果,其 NPU 的性能升級戰(zhàn)略也并未顯露頹勢。根據(jù)專業(yè)人士的說法,目前,蘋果 A 系列芯片上 NPU 占芯片總面積約為 5%,未來 NPU 的面積能夠達(dá)到類似 GPU 占有的 20%的面積的程度,AI 算力至少還有 4 倍的提升空間,此外還有提升算法和芯片之間的協(xié)同設(shè)計(jì),同時(shí)通過 Core ML 的進(jìn)化來加強(qiáng)不同 AI 模型的異構(gòu)設(shè)計(jì),同樣可以發(fā)揮其他 SoC 芯片部分的潛在算力??傮w來說,蘋果在 AI 算力的提升上面還有巨大的增長空間。
我們看到,蘋果和安卓陣營在高端芯片廠商在芯片性能的升級,正在從 CPU 所引領(lǐng)的摩爾定律的賽場轉(zhuǎn)向以 AI 算力增長為代表的新賽道上。而從 AI 算力的增長潛力來看,這一升級戰(zhàn)在未來幾年會更趨激烈。
然而最可惜的是,這場終端芯片 AI 角逐賽里,未來會缺席一位來自中國的實(shí)力選手。