国产在线无码av完整版在线观看,国产小视频在线观看免费,一本色道久久综合亚洲精品高清

當(dāng)高啟強(qiáng)給泰叔說「風(fēng)浪越大，魚越貴」的時(shí)候，大概率沒想到，這句話竟也適用于芯片行業(yè)。

這幾年是人工智能的大年，風(fēng)口之上，不只有綠廠一騎絕塵，各家芯片大廠也紛紛調(diào)轉(zhuǎn)船頭，希望在AI的海里多撈幾條大魚。

相比之下，另外一個(gè)技術(shù)半球、曾經(jīng)風(fēng)浪也很大的領(lǐng)域——云計(jì)算，貌似消停了不少。消停到以至于很多人沒注意一個(gè)相當(dāng)重磅的消息：7月初，亞馬遜云服務(wù)官宣，他們最新的Graviton4芯片，已經(jīng)完成了大規(guī)模部署。

這個(gè)消息之所以值得關(guān)注，是因?yàn)镚raviton芯片本身就非常值得關(guān)注。遙想當(dāng)年亞馬遜云科技作為第一個(gè)吃螃蟹的人、以云計(jì)算公司的身份開始自研芯片，到現(xiàn)在Graviton4芯片大規(guī)模部署商用，這個(gè)過程中他們已經(jīng)引領(lǐng)了三波重要的技術(shù)趨勢：

趨勢一：云廠商自研芯片，并由此構(gòu)建獨(dú)特的核心競爭力

趨勢二：Arm架構(gòu)在云端、消費(fèi)端等各個(gè)場景的廣泛使用

趨勢三：軟硬結(jié)合開啟了更多創(chuàng)新機(jī)會，AI也是其中之一

今天這篇文章就幫你詳細(xì)拆解下，Graviton4的大規(guī)模商用部署，是否會在科技領(lǐng)域掀起另一波滔天巨浪。

分析技術(shù)趨勢之前，我們必須先來回顧和梳理一下Graviton這顆芯片的成長歷程。

2015年，亞馬遜花3.5億美元收購了一個(gè)以色列的芯片公司Annapurna Labs，這成為Graviton芯片誕生的開端。站在現(xiàn)在的上帝視角往回看，這次3.5億美元的收購撬動了超過4000億美元的全球云計(jì)算市場。

事實(shí)上，兩家公司在收購之前就已經(jīng)有很密切的合作了。亞馬遜云科技的當(dāng)家技術(shù)叫做Amazon EC2，也就是Elastic Compute Cloud的縮寫。這個(gè)東西是一個(gè)云計(jì)算的基礎(chǔ)性平臺，包括人工智能在內(nèi)的很多應(yīng)用，其實(shí)都是運(yùn)行在這個(gè)平臺上的一個(gè)個(gè)實(shí)例（instance）。所以這兩家公司當(dāng)時(shí)合作的重點(diǎn)，就是不斷迭代Amazon EC2的性能和靈活性。但越迭代他們就越發(fā)現(xiàn)，軟件優(yōu)化的油水被榨的差不多了，各種瓶頸已經(jīng)從軟件轉(zhuǎn)移到了硬件。更聚焦的說，瓶頸就是芯片。

本質(zhì)原因很簡單，市面上賣的各種芯片大都是通用芯片，并不會根據(jù)某個(gè)客戶的需求做定制優(yōu)化，即便是亞馬遜云科技這樣的超級大客戶也不行。

于是他們決定，要自研芯片。

在2016年的re:Invent大會上，亞馬遜云科技的傳奇工程師James Hamilton就從口袋里拿出了他們自研的第一顆數(shù)據(jù)中心芯片，用來支持2x25G 以太網(wǎng)的數(shù)據(jù)包處理。當(dāng)時(shí)給業(yè)界帶來的震撼程度，絲毫不亞于ChatGPT的發(fā)布。因?yàn)槿藗兺蝗灰庾R到，原來云廠商能打破次元壁，去搶芯片公司的飯碗，而且可以做的很好。

更加震撼的是，Graviton的芯片架構(gòu)沒有選擇當(dāng)時(shí)占據(jù)99%市場份額的x86，而是選擇了基于Arm的Neoverse內(nèi)核打造。要知道當(dāng)時(shí)行業(yè)的普遍認(rèn)知是，Arm只適用于低功耗和移動端場景，PC都費(fèi)勁，更不用說有著高性能高功耗的數(shù)據(jù)中心服務(wù)器場景，真的開眼了。

芯片工程師們也集體沸騰了，因?yàn)檫@相當(dāng)于給他們開啟了一片職業(yè)生涯的藍(lán)海。原來我們也能去互聯(lián)網(wǎng)和云計(jì)算公司，分享一波互聯(lián)網(wǎng)的紅利。

兩年后，亞馬遜云科技在2018年的re:Invent大會上正式發(fā)布了第一代Graviton處理器、2019年推出了Graviton2、2021年推出了Graviton3、2023年推出了Graviton4，保持了兩年一更的節(jié)奏，而且每代都取得了極大的飛躍和提升。值得特別注意的是，Graviton是基于Arm架構(gòu)的服務(wù)器CPU芯片，目前驅(qū)動了超過150種計(jì)算實(shí)例、全球超過5萬家企業(yè)和開發(fā)者在使用，這里面的意義是不言而喻的。

具體來看Graviton4芯片，和前一代相比，核心數(shù)提升50%，達(dá)到96個(gè)；每個(gè)內(nèi)核采用了當(dāng)前最頂級的Arm Neoverse V2架構(gòu)，這也是業(yè)界最早支持Arm v9架構(gòu)的芯片之一。存儲方面，Graviton4在緩存容量、內(nèi)存容量和帶寬等多個(gè)方面全面升級。比如每個(gè)核心的L2緩存擴(kuò)大一倍到2MB，這樣二級緩存總量達(dá)到192MB；同時(shí)支持12通道DDR5-5600，內(nèi)存帶寬提升75%，峰值帶寬可以達(dá)到537.6GB/s。高速接口方面，Graviton4支持高達(dá)96通道的PCIe 5.0高速接口，非常適合數(shù)據(jù)中心云計(jì)算和云存儲場景。

更重要的是，Graviton4的設(shè)計(jì)范式也在悄然改變。傳統(tǒng)CPU的評價(jià)機(jī)制一般都是各種benchmark（基準(zhǔn)測試），比如Microbench、SPEC等。但隨著業(yè)務(wù)的不斷細(xì)化、應(yīng)用場景不斷增加，原來那些統(tǒng)一的benchmark可能很難代表某個(gè)應(yīng)用場景的需求。很可能成了一個(gè)跑分大殺器，但實(shí)際使用的時(shí)候達(dá)不到要求。根據(jù)亞馬遜云科技在上海 Summit 上展示的材料，也充分對比了 Micro benchmark 和真實(shí)工作負(fù)載在 CPU 上的表現(xiàn)有很大差異。

于是從Graviton4開始，亞馬遜云科技的造芯思路就從跑分轉(zhuǎn)移到面向?qū)嶋H應(yīng)用做設(shè)計(jì)，讓芯片更加貼近使用場景，規(guī)避不必要的「內(nèi)卷式」優(yōu)化。

當(dāng)然，這也是亞馬遜云科技這樣的云廠商才能有的「特權(quán)」。一個(gè)CPU的參數(shù)茫茫多，牽一發(fā)則動全身，所以特別需要知道哪些參數(shù)是重要的、哪些可能沒那么重要。相比傳統(tǒng)芯片設(shè)計(jì)公司，云廠商有大量實(shí)際場景和案例，對不同應(yīng)用的側(cè)重點(diǎn)和優(yōu)化方向有第一手資料，相當(dāng)于坐擁一個(gè)大寶藏了。而且這些應(yīng)用更貼近自己的業(yè)務(wù)場景，也不需要為其他云計(jì)算公司的其他業(yè)務(wù)做妥協(xié)。

再詳細(xì)聊聊前文說的Graviton帶來的三個(gè)技術(shù)趨勢。第一個(gè)趨勢，就是在亞馬遜云科技的造芯「示范效應(yīng)」下，全球各家云廠商都紛紛開始自研芯片了，而且自研芯片給亞馬遜云科技自己的業(yè)務(wù)也帶來了實(shí)打?qū)嵉奶嵘?/p>

根據(jù)亞馬遜云科技的數(shù)據(jù)，和前一代相比，基于Graviton4的R8g實(shí)例性能提升30%，數(shù)據(jù)庫性能提升40%。國外也有手快的人第一時(shí)間做了測試，在HPC、加密、代碼編譯、模擬仿真、光線追蹤等實(shí)際應(yīng)用場景下，Graviton4都取得了不錯(cuò)的提升。

比如做數(shù)字芯片仿真常用的Gem5模擬器，編譯一個(gè)大型芯片的仿真需要很久，所以編譯速度非常關(guān)鍵。但從測試結(jié)果可以看到，使用R8g實(shí)例后編譯速度明顯提升，不僅比前幾代有大幅提升，也比大廠的產(chǎn)品有23%~49%的提升。

之所以Graviton能在短短幾年取得如此亮眼的成績，一個(gè)重要的原因就是采用了Arm指令集架構(gòu)，這也是他們引領(lǐng)的第二個(gè)技術(shù)趨勢。x86服務(wù)器芯片其實(shí)起源于客戶端芯片，然后逐漸往里面增加服務(wù)器芯片需要的功能。而亞馬遜云科技沒有這樣的包袱，他們就專注于服務(wù)器芯片本身，在利用了Arm架構(gòu)低功耗、低延時(shí)的優(yōu)點(diǎn)的同時(shí)，還結(jié)合自己的應(yīng)用做了大量性能優(yōu)化，也讓Graviton成為了Arm架構(gòu)在高性能計(jì)算領(lǐng)域的成功范例。

比如，Honeycomb公司在測試了R8g實(shí)例后發(fā)現(xiàn)，和x86架構(gòu)相比，Graviton在降低尾延時(shí)方面效果最明顯。與基于 Graviton3的 C7g、M7g 或 R7g 實(shí)例相比，R8g實(shí)例運(yùn)行的副本數(shù)可減少 25%、中位數(shù)延遲降低20%，第99百分位延遲降低了10%。

不僅如此，Graviton已經(jīng)開始進(jìn)軍AI領(lǐng)域。它特別內(nèi)置了可伸縮矢量擴(kuò)展（SVE）技術(shù)，它是單指令多數(shù)據(jù)（SIMD）的進(jìn)一步延伸，允許CPU自由使用不同的向量長度，從而實(shí)現(xiàn)更加靈活的數(shù)據(jù)訪問和計(jì)算，這也是Arm架構(gòu)支持AI計(jì)算的殺手級技術(shù)之一。在Graviton4中，每個(gè)內(nèi)核就集成了4個(gè)128位的SVE-2矢量引擎，明顯就是著重發(fā)力高性能計(jì)算和AI應(yīng)用。

此外，Armv8.6-A架構(gòu)中還特別添加了SMMLA和FMMLA，可以在不同寬度的陣列上同時(shí)執(zhí)行通用矩陣乘法，并且將取指周期縮短最高4倍、將計(jì)算周期縮短達(dá)16倍。

這些是Arm架構(gòu)針對ML和AI的優(yōu)化，Graviton其實(shí)也做了很多自己的進(jìn)一步優(yōu)化。比如面向大語言模型的推理應(yīng)用時(shí)，Graviton針對int4和int8內(nèi)核進(jìn)行了優(yōu)化，從而更好支持這些低精度數(shù)據(jù)指令。

根據(jù)亞馬遜云科技的數(shù)據(jù)，在Llama3-8B模型的推理應(yīng)用里，當(dāng)進(jìn)行提示詞處理和Token生成時(shí)，Graviton3比友商的第四代至強(qiáng)和第四代EPYC都取得了明顯性能提升。那用了Graviton4之后，隨著單核性能至少提升30%，整體AI能力更是降維打擊前一代。

Graviton帶來的第三個(gè)技術(shù)趨勢，就是借助Graviton的加持，讓亞馬遜云科技這樣的云計(jì)算公司更快從通用計(jì)算進(jìn)軍AI計(jì)算。未來的AI領(lǐng)域，大模型訓(xùn)練或許只是少數(shù)，而基于大模型的推理才是更加廣泛的應(yīng)用。這時(shí)算力就不完全是絕對且唯一的考慮因素，人們還需要思考更多關(guān)于功耗、成本、延時(shí)這些同樣關(guān)鍵的指標(biāo)。

很多人認(rèn)為自研芯片是個(gè)投入極高的事情，事實(shí)也的確如此。但一旦芯片大規(guī)模量產(chǎn)部署，邊際成本就會越來越低，自研芯片的成本優(yōu)勢甚至?xí)谶@個(gè)時(shí)候凸顯出來。芯片界大神Jim Keller曾經(jīng)說過，當(dāng)摩爾定律驅(qū)使單顆芯片上晶體管數(shù)量不斷增加的時(shí)候，單純追求更多晶體管并沒有意義，有意義的是如何把這些多出來的晶體管用起來。

通過自研芯片，能去掉很多自己業(yè)務(wù)場景中不會出現(xiàn)、或極少出現(xiàn)的情況，讓芯片的每個(gè)晶體管都能用起來。相比之下，芯片廠商需要兼顧不同客戶之間的通用性，所以會不得不各種「端水」，造成面積和晶體管的浪費(fèi)。這也是為什么基于Graviton的云計(jì)算實(shí)例更便宜的本質(zhì)原因。

其實(shí)，很多傳統(tǒng)云計(jì)算或許還有一些「歷史包袱」，比如成堆的歷史代碼都是面向x86架構(gòu)開發(fā)的，移植到Arm架構(gòu)需要一定的時(shí)間和努力。但面向AI、特別是大模型相關(guān)的應(yīng)用時(shí)，x86和Arm幾乎是站在同一條起跑線，這也給沒有歷史包袱的Arm架構(gòu)在AI端的應(yīng)用提供了新的機(jī)會。

圖靈獎得主John Hennessy和David Patterson說過，當(dāng)前是計(jì)算機(jī)架構(gòu)的新黃金時(shí)代。他們做的一個(gè)重要預(yù)言，就是CPU的架構(gòu)將朝著更加精簡的方向發(fā)展。而這條預(yù)言，幾乎已經(jīng)被Graviton變成了現(xiàn)實(shí)。

Graviton引領(lǐng)的三個(gè)技術(shù)趨勢或許只是表象，當(dāng)人們幾乎一致認(rèn)為x86 CPU就是終極解法時(shí)、當(dāng)人們認(rèn)為AI芯片等同于GPU時(shí)，它為我們揭示了技術(shù)發(fā)展更多的可能，并由此帶來芯片設(shè)計(jì)范式的變革——這或許才是Graviton給行業(yè)帶來的更大意義。

亞馬遜云科技re:Inforce 2024中國站即將拉開帷幕！

（注：本文不代表老石任職單位的觀點(diǎn)。）

器件型號	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
AT32UC3A0512-ALUR	1	Atmel Corporation	RISC Microcontroller, 32-Bit, FLASH, AVR RISC CPU, 66MHz, CMOS, PQFP144, MS-026, LQFP-144		$14.01	查看
STM32F401VET6	1	STMicroelectronics	High-performance access line, Arm Cortex-M4 core with DSP and FPU, 512 Kbytes of Flash memory, 84 MHz CPU, ART Accelerator	ECAD模型下載ECAD模型	$10.53	查看
AT90CAN128-16AUR	1	Microchip Technology Inc	IC MCU 8BIT 128KB FLASH 64TQFP		$8.98	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險(xiǎn)等級

參考價(jià)格

更多信息

AT32UC3A0512-ALUR

Atmel Corporation

RISC Microcontroller, 32-Bit, FLASH, AVR RISC CPU, 66MHz, CMOS, PQFP144, MS-026, LQFP-144