AI運(yùn)算最關(guān)鍵之處是存儲而非AI處理器本身,AI運(yùn)算90%的功耗和延遲都來自存儲或者說都來自數(shù)據(jù)的搬運(yùn)。90%的工況下,AI處理器都在等待存儲系統(tǒng)搬運(yùn)數(shù)據(jù),而運(yùn)算系統(tǒng)所需要的時(shí)間幾乎是可以忽略的,所以存儲系統(tǒng)的好壞實(shí)際決定了真實(shí)的算力大小,其中存儲帶寬基本可以等同于存儲系統(tǒng)的好壞,也基本等同真實(shí)算力的高低。在Transformer時(shí)代,模型參數(shù)至少10億以上,模型至少1GB大小,存儲帶寬也決定了能不能運(yùn)行Transformer。此外,存儲還決定了功耗,根據(jù)英特爾的研究表明,AI芯片(加速器)當(dāng)半導(dǎo)體工藝達(dá)到 7nm 時(shí),數(shù)據(jù)搬運(yùn)功耗高達(dá) 35pJ/bit,占總功耗的63.7%。