日前,“TOP500”發(fā)布最新運算速度排行榜,日本理化學研究所計算科學研究中心(神戶市)的新機型 Fugaku 以每秒 41.553 京次的運算速度超越了美國超算 Summit,躍居全球首位。Fugaku 登頂?shù)南⒈幻襟w爭相報道,一些分析文章把 Fugaku 奪冠和蘋果棄用英特爾,改用 ARM CPU 的事情聯(lián)系起來大肆鼓吹,仿佛 ARM 將要取代 X86 成為 CPU 的王者。鐵流認為,一些媒體的報道用力過猛,已經(jīng)偏離事實了,就超算來說,采用 ARM CPU 處理器奪冠成績值得肯定,但整體市場還主要是 X86 CPU 或 X86 CPU+加速器。
富士通 Fugaku 和 A64FX 值得肯定 ?
日本超算一直自成一體,早些年的京就采用 SPARC 處理器,如今選擇 ARM,而不是主流的 X86,估計也和日本企業(yè)習慣于自成一體的做法有關。
Fugaku 和排名第 37 的 Flow,之所以把處理器指令集從京的 SPARC 改成現(xiàn)在的 ARM,鐵流猜測一方面和軟銀收購了 ARM 有關,另一方面與 SPARC 逐漸式微也有關系。由于 X86 授權拿不到,SPARC 又逐步式微,因而選擇近年來風頭正盛,且被日本企業(yè)收購的 ARM。
Fugaku 超算和 Flow 采用的是富士通研發(fā)的 A64FX 處理器,這款處理器曾經(jīng)在 Hotchips 會議上亮相,集成了 52 個核心,配備 32GB HBM 2 內(nèi)存,帶寬 1TB/s,浮點性能 2.7TFLOPS,使用 7nm 工藝生產(chǎn)。
A64FX 的 52(4+48)個核心和 SW26010 的 260(4+256)個核心有相似之處,A64FX 是四個管理核心+48 個運算核心,SW26010 是 4 個管理核心+256 個運算核心。得益于 SVE 指令支持 512bit 浮點運算單元,這使得 A64FX 的浮點性能大幅強化。
SW26010 相對于 CPU+加速器的組合有一個優(yōu)勢,那就是共享存儲避免了顯示拷貝。如果采用 CPU+加速器的組合,數(shù)據(jù)需要在 CPU 和加速器之間來回倒騰,會帶來額外開銷。SW26010 的設計則避免了這一點。A64FX 采用了和 SW26010 類似的管理核心+運算核心設計,因而在這方面,可能同樣具有這種優(yōu)勢。根據(jù)富士通的規(guī)劃,F(xiàn)ugaku 只是階段性成果,下一步計劃升級到 1000PFLOPS。
炒作 ARM 處理器優(yōu)勢純屬莫名其妙
誠然,F(xiàn)ugaku 和 A64FX 表現(xiàn)出色,但一些媒體把 Fugaku 登頂和蘋果換芯兩件事情聯(lián)系起來大肆鼓吹,仿佛 ARM 將要取代 X86 成為 CPU 的王者,這就未免有些不妥了。
就蘋果拋棄英特爾 CPU,選擇 ARM CPU 的事情來說,蘋果換芯并非技術因素,而是商業(yè)因素。就桌面 CPU 的性能、功耗、成本、生態(tài)而言,X86 已經(jīng)平衡的非常好了,全球暫時找不出在桌面 CPU 的性能、功耗、成本、生態(tài)等方面超越英特爾的公司。蘋果把 X86 處理器換成 ARM 處理器,主要還是基于蘋果一貫的商業(yè)邏輯,意圖打造蘋果自己的閉環(huán)生態(tài)鏈,進而實現(xiàn)供應鏈的高度掌控。這樣一來,就避免 CPU 上被英特爾分去一杯羹,在 CPU、OS 全部自己掌握后,蘋果可以借此獲取高額利潤。
就 A64FX 來說,從數(shù)據(jù)上看,F(xiàn)ugaku 和 A64FX 很出色,F(xiàn)ugaku 的雙精度浮點性能是 Summit 的 2.8 倍,從功耗上看,F(xiàn)ugaku 也是 Summit 的 2.8 倍。也就是說,在性能功耗比這項屬性上,F(xiàn)ugaku 相對于 Summit 并沒有提升。必須指出的是,A64FX 采用的是 7nm 工藝,而 Summit 的 Power9 是 14nm 工藝,GV100 是 12nm 工藝,在處理器工藝領先一代的情況下,F(xiàn)ugaku 相對于 Summit 的性能功耗比并沒有提升。作為對比,當年神威太湖之光奪魁時,在絕對性能和性能功耗比兩項參數(shù)上都有明顯提升。
雖然 ARM 的鼓吹者把低功耗和 ARM 劃等號,國內(nèi)還搞了一個綠色計算產(chǎn)業(yè)聯(lián)盟,打著綠色環(huán)保的名義,掛羊頭賣狗肉推廣 ARM 服務器。但從實踐上看,指令集對 CPU 性能、功耗的影響已經(jīng)微乎其微了,真正對 CPU 性能指標有巨大影響的是設計水平和制造工藝。一些媒體用 Fugaku 登頂和蘋果換芯論證 ARM CPU 具有先天優(yōu)勢,將要取代 X86 CPU 完全是莫名其妙。
X86 CPU 依然是超算主流選擇
近年來,神威太湖之光、Summit、Fugaku 相繼在 TOP500 榜單上奪得第一,三款超算處理器的指令集分別是 SW64、Power、ARM,由于冠軍往往吸引了更多的目光,給人一種感覺,仿佛 X86 CPU 在超算里已經(jīng)落伍了。但只要看一下 TOP500 榜單就會發(fā)現(xiàn),X86 CPU 在 TOP500 里幾乎是刷榜的存在。
鐵流查閱了 TOP500 資料,其中,采用 X86 處理器的超算有 481 臺,采用 Power 的超算有 13 臺,采用 ARM 的有 4 臺,采用 SPARC 的有一臺,是富士通的京,采用 SW64 的有一臺,是神威太湖之光。
?
(HPC TOP500 里非 X86 CPU 機器,500 臺里共計 19 臺)
從宏觀數(shù)據(jù)上看,X86 依然是超算的絕對主流,SW64、Power、ARM 的占比非常少。由于 X86 的市場份額高,這使 X86 超算在應用方面更加便利,相比之下,采用 SW64、ARM 處理器的超算則面臨軟件移植的問題,此前,非線性大地震模擬應用榮獲戈登貝爾獎,就是工程師將這個應用移植到神威太湖之光超算上。相關部門為了擴展神威太湖之光的應用,也是花了大力氣鼓勵大家去移植應用。由于日本企業(yè)在超算京上已經(jīng)積累了 3000 多項應用,未來日本企業(yè)也會經(jīng)歷應用移植這個過程。
總而言之,X86 CPU 依然是超算主流選擇,而且應用豐富,便于商業(yè)化。Fugaku 和神威太湖之光這類超算,如果要想把超算性能真正發(fā)揮出來,必須進行應用移植,在特定行業(yè),或者自成一體的情況下自己玩是沒問題的,但要商業(yè)化全球出售,恐怕就遜色于 X86 超算了。
?
中美歐日角逐 E 級超算
雖然日本這幾年經(jīng)濟持續(xù)低迷,在全球超算競賽上逐步掉隊,在京之后罕有高性能超算問世,但日本企業(yè)的技術底子還是在的,本次的 Fugaku 則是日本超算實力的體現(xiàn)。目前,中國天河、曙光、神威 E 級超算正在研發(fā)中,美國和歐洲也在研發(fā) E 級超算。未來幾年,中美歐日可能會就 E 級超算進行一場競賽。