国产又黄又爽无遮挡在线观看,91香蕉app,99爱国产精品免费精品在线

因為ChatGPT，AI取得了里程碑式的勝利，甚至引爆了全社會對生成式AI和大模型技術(shù)的關(guān)注。

大模型由于參數(shù)量大、計算量大，需要更大體量的數(shù)據(jù)和更高的算力支撐，因此對芯片用量的更大需求、芯片規(guī)格的更高要求，已經(jīng)成為明顯趨勢。同時，大模型要進一步走向通用，成為全社會必不可少的生產(chǎn)工具，勢必需要更強的訓(xùn)練、推理能力，以及可接受的使用成本，而這些都在推動大算力芯片的發(fā)展變革。它一方面為AI走向通用奠定基礎(chǔ)，反正，則可能成為掣肘。

AI大模型——算力吞噬怪獸

以ChatGPT為代表的LLM（大語言模型），過去幾年中，其規(guī)模每年約增加10倍。有研究表明，隨著LLM模型規(guī)模增長，很多NLP任務(wù)效果會大幅提升。這也意味著未來的技術(shù)趨勢可能是：追求規(guī)模越來越大的LLM模型，通過增加預(yù)訓(xùn)練數(shù)據(jù)的多樣性，涵蓋越來越多的領(lǐng)域；LLM自主從領(lǐng)域數(shù)據(jù)中通過預(yù)訓(xùn)練過程學(xué)習(xí)領(lǐng)域知識，隨著模型規(guī)模不斷增大，很多問題隨之解決。也就是說，更智能的ChatGPT應(yīng)用，與大模型的復(fù)雜程度和規(guī)模的進一步增加，是伴生而來的階躍和挑戰(zhàn)。

ChatGPT對算力的消耗主要分為三個場景：

一是模型預(yù)訓(xùn)練過程，這是ChatGPT消耗算力的最主要場景。GPT、GPT-2和GPT-3的參數(shù)量從1.17億增加到1750億，預(yù)訓(xùn)練數(shù)據(jù)量從5GB增加到45TB，其中GPT-3單次訓(xùn)練成本就高達460萬美元。同時，模型開發(fā)過程很難一次取得成功，整個開發(fā)階段可能需要進行多次預(yù)訓(xùn)練過程，因此對于算力的需求是持續(xù)的。

二是模型迭代過程。ChatGPT模型需要不斷進行調(diào)優(yōu)，以確保處于最佳應(yīng)用狀態(tài)。這一過程中，一方面需要開發(fā)者對模型參數(shù)進行調(diào)整，確保輸出內(nèi)容不是有害和失真的；另一方面，需要基于用戶反饋和PPO策略，對模型進行大規(guī)?；蛐∫?guī)模的迭代訓(xùn)練。這些都將產(chǎn)生算力成本，且成本取決于模型的迭代速度。

三是日常運營過程。用戶交互帶來的數(shù)據(jù)處理需求同樣也是一筆不小的算力開支，ChatGPT面向全球大眾用戶，用的人越多，帶寬消耗越大，服務(wù)器成本會越來越高。業(yè)界測算ChatGPT 單月運營需要算力約4874.4PFlop/s-day，對應(yīng)成本約616萬美元。

面對ChatGPT這類“吞金怪獸”，算力資源很容易捉襟見肘。根據(jù)OpenAI測算，自2012年以來，全球頭部AI模型訓(xùn)練算力需求3~4個月翻一番，每年頭部訓(xùn)練模型所需算力增長幅度高達10倍，AI深度學(xué)習(xí)正在逼近現(xiàn)有芯片的算力極限，也對芯片設(shè)計廠商提出了更高要求。

大算力芯片面臨能效和成本挑戰(zhàn)

GPU由于采用了數(shù)量眾多的計算單元和超長流水線，因此更適合進行大吞吐量的AI并行計算。不過，隨著大模型逐步發(fā)展，對GPU先進算力的需求在繼續(xù)提升。

面向未來更大的計算和部署挑戰(zhàn)，單純的算力提升已經(jīng)不是最優(yōu)解。AMD首席執(zhí)行官Lisa Su近期提出：“在接下來的十年里，我們必須將能源效率視為最重要的挑戰(zhàn)”。

盡管摩爾定律放緩，但其他因素推動主流計算能力大約每兩年半翻一番。對于超級計算機，翻倍的速度更快。Lisa Su指出，計算的能源效率并沒有跟上步伐，未來十年后的超級計算機需要多達 500 兆瓦的電力，這與核電站差不多。

正因如此，芯片系統(tǒng)級效率的提高被視作下一步的重點，這包括芯片節(jié)能計算、高效的芯片間通信和低功耗內(nèi)存訪問。Lisa Su表示，通過處理器架構(gòu)、先進封裝的改進，以及更好的硅技術(shù)等組合，可以使每瓦性能增長率提高一倍以上。

今年的CES展會上，AMD披露了它“迄今為止的最大芯片”Instinct MI300，這是其首款數(shù)據(jù)中心/HPC級的APU。Instinct MI300擁有1460億個晶體管的芯片，采用Chiplet設(shè)計，擁有13個小芯片，基于3D 堆疊，包括24個Zen4 CPU內(nèi)核，同時融合CDNA 3 和8個HBM3顯存堆棧，集成了5nm和6nm IP，總共包含128GB HBM3顯存和1460億晶體管，有望于今年下半年上市。AMD Instinct MI300 的晶體管數(shù)量已經(jīng)超過了英特爾 1000 億晶體管的 Ponte Vecchio，是 AMD 投產(chǎn)的最大芯片。

AMD聲稱，Instinct MI300可帶來MI250加速卡8倍的AI性能和5倍的每瓦性能提升(基于稀疏性FP8基準(zhǔn)測試)，可以將ChatGPT和DALL-E等超大型AI模型的訓(xùn)練時間從幾個月減少到幾周，從而節(jié)省數(shù)百萬美元的電費。

“我們目前擁有的最大杠桿可能是使用先進的封裝和小芯片”，Lisa Su說，“它使我們能夠比以往任何時候都更緊密地將計算組件結(jié)合在一起?！?/p>

此外，高能效比也是存算一體AI芯片所擅長的，它能從架構(gòu)上突破傳統(tǒng)數(shù)據(jù)搬運方式所帶來的瓶頸，實現(xiàn)計算效率數(shù)量級的提升。英特爾、三星等IDM廠商和新銳的算力芯片廠商都在探索存算一體芯片，并衍生出了不同的架構(gòu)和技術(shù)路線。

在阿里達摩院發(fā)布的2023十大科技趨勢中，多模態(tài)預(yù)測訓(xùn)練大模型、Chiplet、存算一體等技術(shù)都位列其中，成為算力產(chǎn)業(yè)下一步有跡可循的發(fā)展方向。

催生更高內(nèi)存要求

受惠于ChatGPT火熱，有消息稱，三星、SK海力士兩家內(nèi)存大廠旗下HBM業(yè)務(wù)接單量大增（上文提及的Instinct MI300就采用了128GB HBM3）。

HBM（high bandwidth memory），又名高帶寬內(nèi)存，主要通過硅穿孔（Through Silicon Via）技術(shù)進行芯片堆疊，通過增加吞吐量的方式克服單一封裝內(nèi)帶寬的限制，最終將數(shù)個DRAM裸片如積木一樣垂直地堆疊起來?；谶@種設(shè)計，信息交換的時間將會縮短。這些堆疊的數(shù)顆DRAM芯片通過稱為“中介層（Interposer）”的超快速互聯(lián)方式連接至CPU或GPU，最后可將組裝好的模塊連接至電路板，組成一款大容量、高位寬的“性能怪獸”。

早在2014年時，SK海力士就與AMD合作推出第一代HBM產(chǎn)品，如今已經(jīng)更新到第四代產(chǎn)品（HBM3），還有英偉達、英特爾等企業(yè)都在采購HBM3。

與傳統(tǒng)DRAM相比，HBM在數(shù)據(jù)處理速度和性能方面都有著更強的競爭力。SK海力士的第三代HBM已搭配英偉達A100 GPU中，第四代HBM搭載在H100中，都已開始供應(yīng)ChatGPT服務(wù)器所需。

受應(yīng)用拉動，第三代HBM報價飛漲，據(jù)稱已是效能最高的DRAM產(chǎn)品的五倍之多，其市場成長率是三星、SK海力士原本預(yù)測的兩倍以上。

預(yù)測下一步，ChatGPT等應(yīng)用將繼續(xù)提升內(nèi)存需求，例如能夠存儲大量圖片和音頻信息的高容量、進一步提高數(shù)據(jù)傳輸速度的高帶寬、更低功耗、更高安全性，都將是未來深度學(xué)習(xí)與大模型進化的根基。

以HBM為代表的超高帶寬內(nèi)存技術(shù)，有望成為加速芯片選擇，同時大模型的發(fā)展也會推動HBM內(nèi)存進一步增大容量、提升帶寬。

一個隱憂

在筆者日前與千芯科技董事長陳巍的交流中，他對算力芯片有一個形象的比喻：芯片是高科技發(fā)展的算力樹根，大模型技術(shù)是科技樹發(fā)展的AI樹干，每個枝干就是不同的高科技領(lǐng)域。樹根越茁壯，樹干越高，科技樹就越繁盛。從這個角度看，芯片和大模型領(lǐng)域的水平都影響到最終的國力競爭。

盡管國內(nèi)頭部大廠已經(jīng)開始如火如荼地復(fù)現(xiàn)ChatGPT效果，但一個隱憂是——如果高端算力芯片被“斷供”，高端芯片制造受阻，對我們訓(xùn)練和應(yīng)用AI大模型會不會帶來“釜底抽薪”般的挑戰(zhàn)？

如果高端芯片“斷供”持續(xù)下去，對我國AI大模型的發(fā)展可能是非常不利的。一方面，ChatGPT訓(xùn)練需要大量的CPU和GPU。另一方面，由于芯片禁令，導(dǎo)致國內(nèi)難以新獲得A100或更新的GPU。這相當(dāng)于直接鎖住了大模型訓(xùn)練的速度。

現(xiàn)在看來，國內(nèi)可能是半年訓(xùn)練出一代，以后可能就是2年甚至10年才能完成一代進步。由于AI計算還影響到AI制藥、AI材料等領(lǐng)域的發(fā)展，如果高端大算力芯片的問題得不到解決，國內(nèi)的科技樹成長速度有可能被拖慢。

由此會不會加大我國與國際上AI技術(shù)的發(fā)展代差？如果國際上憑借突飛猛進的大模型技術(shù)繼續(xù)反哺各行各業(yè)的創(chuàng)新應(yīng)用？……這種發(fā)展差距細思極恐。

寫在最后

當(dāng)AI公司在ChatGPT時代躍躍欲試淘金之時，探討一下作為根基的大算力芯片尤為必要。特別是當(dāng)大模型有望成為各行各業(yè)重要的生產(chǎn)工具，其下一步的部署和實施，大算力支持也是必不可少的。只有系統(tǒng)性地規(guī)劃，聚焦于關(guān)鍵問題，才能形成持續(xù)突破。

器件型號	數(shù)量	器件廠商	器件描述	參考價格	更多信息
DS3234S#T&R	1	Maxim Integrated Products	Real Time Clock, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20	$7.73	查看
MC9S12A128CPVE	1	Rochester Electronics LLC	16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112	$22.47	查看
ATMEGA88PA-MMHR	1	Atmel Corporation	RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQCC28, 4 X 4 MM, 1 MM HEIGHT, 0.45 MM PITCH, GREEN, PLASTIC, VQFN-28	$2.43	查看

器件型號

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊

ECAD模型

風(fēng)險等級

參考價格

更多信息

DS3234S#T&R

Maxim Integrated Products

Real Time Clock, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20

$7.73

查看

MC9S12A128CPVE

Rochester Electronics LLC

16-BIT, FLASH, 25MHz, MICROCONTROLLER, PQFP112, LEAD FREE, LQFP-112

$22.47

查看

ATMEGA88PA-MMHR

Atmel Corporation

RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQCC28, 4 X 4 MM, 1 MM HEIGHT, 0.45 MM PITCH, GREEN, PLASTIC, VQFN-28

$2.43

查看

從ChatGPT看國內(nèi)AI發(fā)展的生死線

AI大模型——算力吞噬怪獸

大算力芯片面臨能效和成本挑戰(zhàn)

催生更高內(nèi)存要求

一個隱憂

寫在最后

推薦器件

相關(guān)推薦