高级少妇一级毛片无码,中文字幕avv,一级特黄AA大片欧美网站

2月20日消息，美國(guó)人工智能初創(chuàng)公司Groq最新推出的面向云端大模型的推理芯片引發(fā)了業(yè)內(nèi)的廣泛關(guān)注。其最具特色之處在于，采用了全新的Tensor Streaming Architecture (TSA) 架構(gòu)，以及擁有超高帶寬的SRAM，從而使得其對(duì)于大模型的推理速度提高了10倍以上，甚至超越了英偉達(dá)的GPU。

推理速度比GPU快10倍，功耗僅1/10

據(jù)介紹，Groq的大模型推理芯片是全球首個(gè)LPU（Language Processing Unit）方案，是一款基于全新的TSA 架構(gòu)的Tensor Streaming Processor (TSP) 芯片，旨在提高機(jī)器學(xué)習(xí)和人工智能等計(jì)算密集型工作負(fù)載的性能。

雖然Groq的LPU并沒(méi)有采用更本高昂的尖端制程工藝，而是選擇了14nm制程，但是憑借自研的TSA 架構(gòu)，Groq LPU 芯片具有高度的并行處理能力，可以同時(shí)處理數(shù)百萬(wàn)個(gè)數(shù)據(jù)流，并該芯片還集成了230MB容量的SRAM來(lái)替代DRAM，以保證內(nèi)存帶寬，其片上內(nèi)存帶寬高達(dá)80TB/s。

根據(jù)官方的數(shù)據(jù)顯示，Groq的LPU芯片的性能表現(xiàn)相當(dāng)出色，可以提供高達(dá)1000 TOPS (Tera Operations Per Second) 的計(jì)算能力，并且在某些機(jī)器學(xué)習(xí)模型上的性能表現(xiàn)可以比常規(guī)的 GPU 和 TPU 提升10到100倍。

Groq表示，基于其LPU芯片的云服務(wù)器在Llama2或Mistreal模型在計(jì)算和響應(yīng)速度上遠(yuǎn)超基于NVIDIA AI GPU的ChatGPT，其每秒可以生成高達(dá)500個(gè) token。相比之下，目前ChatGPT-3.5的公開(kāi)版本每秒只能生成大約40個(gè)token。由于ChatGPT-3.5主要是基于NVIDIA的GPU，也就是說(shuō)，Groq LPU芯片的響應(yīng)速度達(dá)到了NVIDIA ?GPU的10倍以上。Groq表示，相對(duì)于其他云平臺(tái)廠商的大模型推理性能，基于其LPU芯片的云服務(wù)器的大模型推理性能最終實(shí)現(xiàn)了比其他云平臺(tái)廠商快18倍。

另外，在能耗方面，英偉達(dá)GPU需要大約10到30焦耳才能生成響應(yīng)中的tokens，而Groq LPU芯片僅需1到3焦耳，在推理速度大幅提升10倍的同時(shí)，其能耗成本僅有英偉達(dá)GPU的十分之一，這等于是性價(jià)比提高了100倍。

Groq公司在演示中展示了其芯片的強(qiáng)大性能，支持Mistral AI的Mixtral8x7B SMoE，以及Meta的Llama2的7B和70B等多種模型，支持使用4096字節(jié)的上下文長(zhǎng)度，并可直接體驗(yàn)Demo。不僅如此，Groq還喊話各大公司，揚(yáng)言在三年內(nèi)超越英偉達(dá)。目前該公司的LPU推理芯片在第三方網(wǎng)站上的售價(jià)為2萬(wàn)多美元，低于NVIDIA H100的2.5-3萬(wàn)美元。

資料顯示，Groq 是一家成立于2016年人工智能硬件初創(chuàng)公司，核心團(tuán)隊(duì)來(lái)源于谷歌最初的張量處理單元（TPU）工程團(tuán)隊(duì)。Groq 創(chuàng)始人兼CEO Jonathan Ross是谷歌TPU項(xiàng)目的核心研發(fā)人員。該公司硬件工程副總裁Jim Miller 曾是亞馬遜云計(jì)算服務(wù)AWS設(shè)計(jì)算力硬件的負(fù)責(zé)人，還曾在英特爾領(lǐng)導(dǎo)了所有 Pentium II 工程。目前該公司籌集了超過(guò) 6200 萬(wàn)美元。

為何采用大容量SRAM？

Groq LPU芯片與大多數(shù)其他初創(chuàng)公司和現(xiàn)有的AI處理器有著截然不同的時(shí)序指令集計(jì)算機(jī)（Temporal Instruction Set Computer）架構(gòu)，它被設(shè)計(jì)為一個(gè)強(qiáng)大的單線程流處理器，配備了專門(mén)設(shè)計(jì)的指令集，旨在利用張量操作和張量移動(dòng)，使機(jī)器學(xué)習(xí)模型能夠更有效地執(zhí)行。該架構(gòu)的獨(dú)特之處在于執(zhí)行單元、片內(nèi)的SRAM內(nèi)存和其他執(zhí)行單元之間的交互。它無(wú)需像使用HBM（高帶寬內(nèi)存）的GPU那樣頻繁地從內(nèi)存中加載數(shù)據(jù)。

Groq 的神奇之處不僅在于硬件，還在于軟件。軟件定義的硬件在這里發(fā)揮著重要作用。Groq 的軟件將張量流模型或其他深度學(xué)習(xí)模型編譯成獨(dú)立的指令流，并提前進(jìn)行高度協(xié)調(diào)和編排。編排來(lái)自編譯器。它提前確定并計(jì)劃整個(gè)執(zhí)行，從而實(shí)現(xiàn)非常確定的計(jì)算。“這種確定性來(lái)自于我們的編譯器靜態(tài)調(diào)度所有指令單元的事實(shí)。這使我們無(wú)需進(jìn)行任何激進(jìn)的推測(cè)即可公開(kāi)指令級(jí)并行性。芯片上沒(méi)有分支目標(biāo)緩沖區(qū)或緩存代理，”Groq 的首席架構(gòu)師 Dennis Abts 解釋道。Groq LPU芯片為了追求性能最大化，因此添加了更多SRAM內(nèi)存和執(zhí)行塊。

SRAM全名為“靜態(tài)隨機(jī)存取存儲(chǔ)器”（Static Random-Access Memory）是隨機(jī)存取存儲(chǔ)器的一種。所謂的“靜態(tài)”，是指這種存儲(chǔ)器只要保持通電，里面儲(chǔ)存的數(shù)據(jù)就可以恒常保持。相對(duì)之下，動(dòng)態(tài)隨機(jī)存取存儲(chǔ)器（DRAM）里面所儲(chǔ)存的數(shù)據(jù)則需要周期性地更新。自SRAM推出60多年來(lái)，其一直是低延遲和高可靠性應(yīng)用的首選存儲(chǔ)器，

事實(shí)上，對(duì)于 AI/ML 應(yīng)用來(lái)說(shuō)，SRAM 不僅僅具有其自身的優(yōu)勢(shì)?！癝RAM 對(duì)于 AI 至關(guān)重要，尤其是嵌入式 SRAM，它是性能最高的存儲(chǔ)器，可以將其直接與高密度邏輯核心集成在一起。目前SRAM也是被諸多CPU集成在片內(nèi)（更靠近CPU計(jì)算單元），作為CPU的高速緩存，使得CPU可以更直接、更快速的從SRAM中獲取重要的數(shù)據(jù)，無(wú)需去DRAM當(dāng)中讀取。只不過(guò)，當(dāng)前旗艦級(jí)CPU當(dāng)中的SRAM容量最多也僅有幾十個(gè)MB。

Groq之所以選擇使用大容量的 SRAM來(lái)替代DRAM 內(nèi)存的原因主要有以下幾點(diǎn)：

1、SRAM 內(nèi)存的訪問(wèn)速度比 DRAM 內(nèi)存快得多，這意味著 LPU 芯片更快速地處理數(shù)據(jù)，從而提高計(jì)算性能。

2、SRAM 內(nèi)存沒(méi)有 DRAM 內(nèi)存的刷新延遲，這意味著LPU芯片也可以更高效地處理數(shù)據(jù)，減少延遲帶來(lái)的影響。

3、SRAM 內(nèi)存的功耗比 DRAM 內(nèi)存低，這意味著LPU芯片可以更有效地管理能耗，從而提高效率。

但是，對(duì)于SRAM來(lái)說(shuō)，其也有著一些劣勢(shì)：

1、面積更大：在邏輯晶體管隨著CMOS工藝持續(xù)微縮的同時(shí)，SRAM的微縮卻十分的困難。事實(shí)上，早在 20nm時(shí)代，SRAM 就無(wú)法隨著邏輯晶體管的微縮相應(yīng)地微縮。

2、容量?。篠RAM 的容量比 DRAM 小得多，這是因?yàn)槊總€(gè)bit的數(shù)據(jù)需要更多的晶體管來(lái)存儲(chǔ)，再加上SRAM的微縮非常困難，使得相同面積下，SRAM容量遠(yuǎn)低于DRAM等存儲(chǔ)器。這也使得SRAM在面對(duì)需要存儲(chǔ)大量數(shù)據(jù)時(shí)的應(yīng)用受到了限制。

3、成本高：SRAM 的成本比 DRAM要高得多，再加上相同容量下，SRAM需要更多的晶體管來(lái)存儲(chǔ)數(shù)據(jù)，這也使得其成本更高。

總的來(lái)說(shuō)，雖然SRAM 在尺寸、容量和成本等方面具有一些劣勢(shì)，這些劣勢(shì)限制了其在某些應(yīng)用中的應(yīng)用，但是 SRAM 的訪問(wèn)速度比 DRAM 快得多，這使得它在某些計(jì)算密集型應(yīng)用中表現(xiàn)得非常出色。Groq LPU 芯片采用的大容量 SRAM 內(nèi)存可以提供更高的帶寬（高達(dá)80TB/s）、更低的功耗和更低的延遲，從而提高機(jī)器學(xué)習(xí)和人工智能等計(jì)算密集型工作負(fù)載的效率。

那么，與目前AI GPU當(dāng)中所搭載的 HBM 內(nèi)存相比，Groq LPU 芯片集成的 SRAM 內(nèi)存又有何優(yōu)勢(shì)和劣勢(shì)呢？

Groq LPU 芯片的 SRAM 內(nèi)存容量雖然有230MB，但是相比之下AI GPU 中的 HBM 容量通常都有數(shù)十GB（比如NVIDIA H100，其集成了80GB HBM），這也意味著LPU 芯片可能無(wú)法處理更大的數(shù)據(jù)集和更復(fù)雜的模型。相同容量下，SRAM的成本也比HBM更高。不過(guò)，與HBM 相比，Groq LPU 芯片的所集成的 SRAM 的仍然有著帶寬更快（NVIDIA H100的HBM帶寬僅3TB/s）、功耗更低、延遲更低的優(yōu)勢(shì)。

能否替代NVIDIA H00？

雖然Groq公布的數(shù)據(jù)似乎表明，其LPU芯片的推理速度達(dá)到了NVIDIA GPU的10倍以上，并且能耗成本僅是它十分之一，等于是性價(jià)比提高了100倍。但是，Groq并且明確指出其比較的是NVIDIA的哪款GPU產(chǎn)品。由于目前NVIDIA最主流的AI GPU是H100，因此，我們就拿NVIDIA H100來(lái)與Groq LPU來(lái)做比較。

由于Groq LPU只有230MB的片上SRAM來(lái)作為內(nèi)存，因此，如果要運(yùn)行Llama-2 70b模型，即使將Llama 2 70b量化到INT8精度，仍然需要70GB左右的內(nèi)存，即使完全忽略內(nèi)存消耗，也需要305張Groq LPU加速卡才夠用。如果考慮到內(nèi)存消耗，可能需要572張Groq LPU加速卡。官方數(shù)據(jù)顯示，Groq LPU的平均功耗為185W，即使不計(jì)算外圍設(shè)備的功耗，572張Groq LPU加速卡的總功耗也高達(dá)105.8kW。假設(shè)一張Groq LPU加速卡的價(jià)格為2萬(wàn)美元，因此，購(gòu)買(mǎi)572張卡的成本高達(dá)1144萬(wàn)美元（規(guī)模采購(gòu)價(jià)格應(yīng)該可以更低）。

根據(jù)人工智能科學(xué)家賈揚(yáng)清分享的數(shù)據(jù)顯示，目前，數(shù)據(jù)中心每月每千瓦的平均價(jià)格約為20美元，這意味著572張Groq LPU加速卡每年的電費(fèi)為105.8*200*12=25.4萬(wàn)美元。

賈揚(yáng)清還表示，使用4張NVIDIA H100加速卡就可以實(shí)現(xiàn)572張Groq LPU一半的性能，這意味著一個(gè)8張H100的服務(wù)器的性能大致相當(dāng)于572張Groq LPU。而8張H100加速卡的標(biāo)稱最大功率為10kW（實(shí)際上約為8-9千瓦），因此一年電費(fèi)為僅24000美元或略低?，F(xiàn)在一個(gè)8張H100加速卡的服務(wù)器的價(jià)格約為30萬(wàn)美元。

顯然，相比較之下，在運(yùn)行相同的INT8精度的Llama-2 70b模型時(shí)，NVIDIA H00的實(shí)際性價(jià)比要遠(yuǎn)高于Groq LPU。

即使我們以FP16精度的Llama-2 7b模型來(lái)比較，其最低需要14GB的內(nèi)存來(lái)運(yùn)行，需要約70張Groq LPU加速卡才能夠部署，按照單卡FP16算力188TFLOPs計(jì)算，其總算力將達(dá)到約13.2PFLOPs。這么強(qiáng)的算力只是用來(lái)推理Llama-2 7b模型屬實(shí)有些浪費(fèi)。相比之下，單個(gè)NVIDIA H100加速卡，其集成的80GB HMB就足夠部署5個(gè)FP16精度的Llama-2 7b模型，而H100在FP16算力約為2PFLOPs。即使要達(dá)到70張Groq LPU加速卡相同的算力，只需要一臺(tái)8卡NVIDIA H100服務(wù)器就能夠達(dá)到。

單從硬件成本上來(lái)計(jì)算，70張Groq LPU加速卡成本約140萬(wàn)美元，一個(gè)8張H100加速卡的服務(wù)器的價(jià)格約為30萬(wàn)美元，顯然，對(duì)于運(yùn)行FP16精度的Llama-2 7b模型來(lái)說(shuō)，采用NVIDIA H100的性價(jià)比也是遠(yuǎn)高于Groq LPU。

當(dāng)然，這并不是說(shuō)Groq LPU相對(duì)于NVIDIA H100來(lái)說(shuō)毫無(wú)優(yōu)勢(shì)，正如前面所介紹的那樣，Groq LPU的主要優(yōu)勢(shì)在于其采用了大容量的SRAM內(nèi)存，擁有80TB/s的超高的內(nèi)存帶寬，使得其非常適合于較小的模型且需要頻繁從內(nèi)存訪問(wèn)數(shù)據(jù)的應(yīng)用場(chǎng)景。當(dāng)然，其缺點(diǎn)則在于SRAM的內(nèi)存容量較小，要運(yùn)行大模型，就需要更多的Groq LPU。那么，Groq LPU能否進(jìn)一步提升其SRAM內(nèi)存容量來(lái)彌補(bǔ)這一缺點(diǎn)呢？答案當(dāng)然是可以，但是，這將會(huì)帶來(lái)Groq LPU面積和成本的大幅增加，并且也會(huì)帶來(lái)功耗方面的問(wèn)題?；蛟S未來(lái)Groq可能會(huì)考慮，加入HBM/DRAM來(lái)提升 LPU的適應(yīng)性。

編輯：芯智訊-浪客劍

器件型號(hào)	數(shù)量	器件廠商	器件描述	ECAD模型	參考價(jià)格	更多信息
PIC32MX795F512LT-80I/PT	1	Microchip Technology Inc	32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100	ECAD模型下載ECAD模型	$11.46	查看
P82B715TD,118	1	NXP Semiconductors	P82B715 - I2C-bus extender SOIC 8-Pin	ECAD模型下載ECAD模型	$4.97	查看
DS3234S#	1	Maxim Integrated Products	Real Time Clock, Non-Volatile, 1 Timer(s), CMOS, PDSO20, 0.300 INCH, ROHS COMPLIANT, SOP-20		$8.75	查看

器件型號(hào)

數(shù)量

器件廠商

器件描述

數(shù)據(jù)手冊(cè)

ECAD模型

風(fēng)險(xiǎn)等級(jí)

參考價(jià)格

更多信息

PIC32MX795F512LT-80I/PT

Microchip Technology Inc

32-BIT, FLASH, 80 MHz, RISC MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100