久久香蕉国产线看观看精品蕉,污版APP免费下载网站,丝瓜视频官网

引言：網(wǎng)上關(guān)于大模型的文章也很多，但是都不太容易看懂。小棗君今天試著寫(xiě)一篇，爭(zhēng)取做到通俗易懂。廢話不多說(shuō)，我們直入主題。

█ 什么是大模型？

大模型，英文名叫Large Model，大型模型。早期的時(shí)候，也叫Foundation Model，基礎(chǔ)模型。

大模型是一個(gè)簡(jiǎn)稱。完整的叫法，應(yīng)該是“人工智能預(yù)訓(xùn)練大模型”。預(yù)訓(xùn)練，是一項(xiàng)技術(shù)，我們后面再解釋。

我們現(xiàn)在口頭上常說(shuō)的大模型，實(shí)際上特指大模型的其中一類，也是用得最多的一類——語(yǔ)言大模型（Large?Language Model，也叫大語(yǔ)言模型，簡(jiǎn)稱LLM）。

除了語(yǔ)言大模型之外，還有視覺(jué)大模型、多模態(tài)大模型等?，F(xiàn)在，包括所有類別在內(nèi)的大模型合集，被稱為廣義的大模型。而語(yǔ)言大模型，被稱為狹義的大模型。

從本質(zhì)來(lái)說(shuō)，大模型，是包含超大規(guī)模參數(shù)（通常在十億個(gè)以上）的神經(jīng)網(wǎng)絡(luò)模型。

之前給大家科普人工智能（鏈接）的時(shí)候，小棗君介紹過(guò)，神經(jīng)網(wǎng)絡(luò)是人工智能領(lǐng)域目前最基礎(chǔ)的計(jì)算模型。它通過(guò)模擬大腦中神經(jīng)元的連接方式，能夠從輸入數(shù)據(jù)中學(xué)習(xí)并生成有用的輸出。

這是一個(gè)全連接神經(jīng)網(wǎng)絡(luò)（每層神經(jīng)元與下一層的所有神經(jīng)元都有連接），包括1個(gè)輸入層，N個(gè)隱藏層，1個(gè)輸出層。

大名鼎鼎的卷積神經(jīng)網(wǎng)絡(luò)（CNN）、循環(huán)神經(jīng)網(wǎng)絡(luò)（RNN）、長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)（LSTM）以及transformer架構(gòu)，都屬于神經(jīng)網(wǎng)絡(luò)模型。

目前，業(yè)界大部分的大模型，都采用了transformer架構(gòu)。

剛才提到，大模型包含了超大規(guī)模參數(shù)。實(shí)際上，大模型的“大”，不僅是參數(shù)規(guī)模大，還包括：架構(gòu)規(guī)模大、訓(xùn)練數(shù)據(jù)大、算力需求大。

以OpenAI公司的GPT-3為例。這個(gè)大模型的隱藏層一共有96層，每層的神經(jīng)元數(shù)量達(dá)到2048個(gè)。

整個(gè)架構(gòu)的規(guī)模就很大（我可畫(huà)不出來(lái)），神經(jīng)元節(jié)點(diǎn)數(shù)量很多。

大模型的參數(shù)數(shù)量和神經(jīng)元節(jié)點(diǎn)數(shù)有一定的關(guān)系。簡(jiǎn)單來(lái)說(shuō)，神經(jīng)元節(jié)點(diǎn)數(shù)越多，參數(shù)也就越多。例如，GPT-3的參數(shù)數(shù)量，大約是1750億。

大模型的訓(xùn)練數(shù)據(jù)，也是非常龐大的。

同樣以GPT-3為例，采用了45TB的文本數(shù)據(jù)進(jìn)行訓(xùn)練。即便是清洗之后，也有570GB。具體來(lái)說(shuō)，包括CC數(shù)據(jù)集（4千億詞）+WebText2（190億詞）

+BookCorpus（670億詞）+維基百科（30億詞），絕對(duì)堪稱海量。

最后是算力需求。

這個(gè)大家應(yīng)該都聽(tīng)說(shuō)過(guò)，訓(xùn)練大模型，需要大量的GPU算卡資源。而且，每次訓(xùn)練，都需要很長(zhǎng)的時(shí)間。

根據(jù)公開(kāi)的數(shù)據(jù)顯示，訓(xùn)練GPT-3大約需要3640PFLOP·天（PetaFLOP·Days）。如果采用512張英偉達(dá)的A100 GPU（單卡算力195 TFLOPS），大約需要1個(gè)月的時(shí)間。訓(xùn)練過(guò)程中，有時(shí)候還會(huì)出現(xiàn)中斷，實(shí)際時(shí)間會(huì)更長(zhǎng)。

總而言之，大模型就是一個(gè)虛擬的龐然大物，架構(gòu)復(fù)雜、參數(shù)龐大、依賴海量數(shù)據(jù)，且非常燒錢。

相比之下，參數(shù)較少（百萬(wàn)級(jí)以下）、層數(shù)較淺的模型，是小模型。小模型具有輕量級(jí)、高效率、易于部署等優(yōu)點(diǎn)，適用于數(shù)據(jù)量較小、計(jì)算資源有限的垂直領(lǐng)域場(chǎng)景。

█ 大模型是如何訓(xùn)練出來(lái)的？

接下來(lái)，我們了解一下大模型的訓(xùn)練過(guò)程。

大家都知道，大模型可以通過(guò)對(duì)海量數(shù)據(jù)的學(xué)習(xí)，吸收數(shù)據(jù)里面的“知識(shí)”。然后，再對(duì)知識(shí)進(jìn)行運(yùn)用，例如回答問(wèn)題、創(chuàng)造內(nèi)容等。

學(xué)習(xí)的過(guò)程，我們稱之為訓(xùn)練。運(yùn)用的過(guò)程，則稱之為推理。

訓(xùn)練，又分為預(yù)訓(xùn)練（Pre-trained）和微調(diào)（Fine tuning）兩個(gè)環(huán)節(jié)。

預(yù)訓(xùn)練

在預(yù)訓(xùn)練時(shí)，我們首先要選擇一個(gè)大模型框架，例如transformer。然后，通過(guò)“投喂”前面說(shuō)的海量數(shù)據(jù)，讓大模型學(xué)習(xí)到通用的特征表示。

那么，為什么大模型能夠具有這么強(qiáng)大的學(xué)習(xí)能力？為什么說(shuō)它的參數(shù)越多，學(xué)習(xí)能力就越強(qiáng)？

我們可以參考MIT（麻省理工）公開(kāi)課的一張圖：

這張圖是深度學(xué)習(xí)模型中一個(gè)神經(jīng)元的結(jié)構(gòu)圖。

神經(jīng)元的處理過(guò)程，其實(shí)就是一個(gè)函數(shù)計(jì)算過(guò)程。算式中，x是輸入，y是輸出。預(yù)訓(xùn)練，就是通過(guò)x和y，求解W。W是算式中的“權(quán)重（weights）”。

權(quán)重決定了輸入特征對(duì)模型輸出的影響程度。通過(guò)反復(fù)訓(xùn)練來(lái)獲得權(quán)重，這就是訓(xùn)練的意義。

權(quán)重是最主要的參數(shù)類別之一。除了權(quán)重之外，還有另一個(gè)重要的參數(shù)類別——偏置（biases）。

參數(shù)有很多種類

權(quán)重決定了輸入信號(hào)對(duì)神經(jīng)元的影響程度，而偏置則可以理解為神經(jīng)元的“容忍度”，即神經(jīng)元對(duì)輸入信號(hào)的敏感程度。

簡(jiǎn)單來(lái)說(shuō)，預(yù)訓(xùn)練的過(guò)程，就是通過(guò)對(duì)數(shù)據(jù)的輸入和輸出，去反復(fù)“推算”最合理的權(quán)重和偏置（也就是參數(shù)）。訓(xùn)練完成后，這些參數(shù)會(huì)被保存，以便模型的后續(xù)使用或部署。

參數(shù)越多，模型通常能夠?qū)W習(xí)到更復(fù)雜的模式和特征，從而在各種任務(wù)上表現(xiàn)出更強(qiáng)的性能。

我們通常會(huì)說(shuō)大模型具有兩個(gè)特征能力——涌現(xiàn)能力和泛化能力。

當(dāng)模型的訓(xùn)練數(shù)據(jù)和參數(shù)不斷擴(kuò)大，直到達(dá)到一定的臨界規(guī)模后，會(huì)表現(xiàn)出一些未能預(yù)測(cè)的、更復(fù)雜的能力和特性。模型能夠從原始訓(xùn)練數(shù)據(jù)中，自動(dòng)學(xué)習(xí)并發(fā)現(xiàn)新的、更高層次的特征和模式。這種能力，被稱為“涌現(xiàn)能力”。

“涌現(xiàn)能力”，可以理解為大模型的腦子突然“開(kāi)竅”了，不再僅僅是復(fù)述知識(shí)，而是能夠理解知識(shí)，并且能夠發(fā)散思維。

泛化能力，是指大模型通過(guò)“投喂”海量數(shù)據(jù)，可以學(xué)習(xí)復(fù)雜的模式和特征，可以對(duì)未見(jiàn)過(guò)的數(shù)據(jù)做出準(zhǔn)確的預(yù)測(cè)。

簡(jiǎn)單來(lái)說(shuō)，就像董宇輝一樣，書(shū)讀得多了，有些書(shū)雖然沒(méi)讀過(guò)，他也能瞎掰幾句。

參數(shù)規(guī)模越來(lái)越大，雖然能讓大模型變得更強(qiáng)，但是也會(huì)帶來(lái)更龐大的資源消耗，甚至可能增加“過(guò)擬合”的風(fēng)險(xiǎn)。

過(guò)擬合，是指模型對(duì)訓(xùn)練數(shù)據(jù)學(xué)習(xí)得過(guò)于精確，以至于它開(kāi)始捕捉并反映訓(xùn)練數(shù)據(jù)中的噪聲和細(xì)節(jié)，而不是數(shù)據(jù)的總體趨勢(shì)或規(guī)律。說(shuō)白了，就是大模型變成了“書(shū)呆子”，只會(huì)死記硬背，不愿意融會(huì)貫通。

預(yù)訓(xùn)練所使用的數(shù)據(jù)，我們也需要再說(shuō)明一下。

預(yù)訓(xùn)練使用的數(shù)據(jù)，是海量的未標(biāo)注數(shù)據(jù)（幾十TB）。

之所以使用未標(biāo)注數(shù)據(jù)，是因?yàn)?a class="article-link" target="_blank" href="/tag/%E4%BA%92%E8%81%94%E7%BD%91/">互聯(lián)網(wǎng)上存在大量的此類數(shù)據(jù)，很容易獲取。而標(biāo)注數(shù)據(jù)（基本上靠人肉標(biāo)注）需要消耗大量的時(shí)間和金錢，成本太高。

預(yù)訓(xùn)練模型，可以通過(guò)無(wú)監(jiān)督學(xué)習(xí)方法（如自編碼器、生成對(duì)抗網(wǎng)絡(luò)、掩碼語(yǔ)言建模、對(duì)比學(xué)習(xí)等，大家可以另行了解），從未標(biāo)注數(shù)據(jù)中，學(xué)習(xí)到數(shù)據(jù)的通用特征和表示。

這些數(shù)據(jù)，也不是隨便網(wǎng)上下載得來(lái)的。整個(gè)數(shù)據(jù)需要經(jīng)過(guò)收集、清洗、脫敏和分類等過(guò)程。這樣可以去除異常數(shù)據(jù)和錯(cuò)誤數(shù)據(jù)，還能刪除隱私數(shù)據(jù)，讓數(shù)據(jù)更加標(biāo)準(zhǔn)化，有利于后面的訓(xùn)練過(guò)程。

獲取數(shù)據(jù)的方式，也是多樣化的。

如果是個(gè)人和學(xué)術(shù)研究，可以通過(guò)一些官方論壇、開(kāi)源數(shù)據(jù)庫(kù)或者研究機(jī)構(gòu)獲取。如果是企業(yè)，既可以自行收集和處理，也可以直接通過(guò)外部渠道（市場(chǎng)上有專門的數(shù)據(jù)提供商）購(gòu)買。

微調(diào)

預(yù)訓(xùn)練學(xué)習(xí)之后，我們就得到了一個(gè)通用大模型。這種模型一般不能直接拿來(lái)用，因?yàn)樗谕瓿商囟ㄈ蝿?wù)時(shí)往往表現(xiàn)不佳。

這時(shí)，我們需要對(duì)模型進(jìn)行微調(diào)。

微調(diào)，是給大模型提供特定領(lǐng)域的標(biāo)注數(shù)據(jù)集，對(duì)預(yù)訓(xùn)練的模型參數(shù)進(jìn)行微小的調(diào)整，讓模型更好的完成特定任務(wù)。

微調(diào)之后的大模型，可以稱之為行業(yè)大模型。例如，通過(guò)基于金融證券數(shù)據(jù)集的微調(diào)，可以得到一個(gè)金融證券大模型。

如果再基于更細(xì)分的專業(yè)領(lǐng)域進(jìn)行微調(diào)，就是專業(yè)大模型（也叫垂直大模型）。

我們可以把通用大模型理解為中小學(xué)生，行業(yè)大模型是大學(xué)本科生，專業(yè)大模型是研究生。

微調(diào)階段，由于數(shù)據(jù)量遠(yuǎn)小于預(yù)訓(xùn)練階段，所以對(duì)算力需求小很多。

大家注意，對(duì)于大部分大模型廠商來(lái)說(shuō)，他們一般只做預(yù)訓(xùn)練，不做微調(diào)。而對(duì)于行業(yè)客戶來(lái)說(shuō)，他們一般只做微調(diào)，不做預(yù)訓(xùn)練。

“預(yù)訓(xùn)練+微調(diào)”這種分階段的大模型訓(xùn)練方式，可以避免重復(fù)的投入，節(jié)省大量的計(jì)算資源，顯著提升大模型的訓(xùn)練效率和效果。

預(yù)訓(xùn)練和微調(diào)都完成之后，需要對(duì)這個(gè)大模型進(jìn)行評(píng)估。通過(guò)采用實(shí)際數(shù)據(jù)或模擬場(chǎng)景對(duì)大模型進(jìn)行評(píng)估驗(yàn)證，確認(rèn)大模型的性能、穩(wěn)定性和準(zhǔn)確性?等是否符合設(shè)計(jì)要求。

等評(píng)估和驗(yàn)證也完成，大模型基本上算是打造成功了。接下來(lái)，我們可以部署這個(gè)大模型，將它用于推理任務(wù)。

換句話說(shuō)，這時(shí)候的大模型已經(jīng)“定型”，參數(shù)不再變化，可以真正開(kāi)始干活了。

大模型的推理過(guò)程，就是我們使用它的過(guò)程。通過(guò)提問(wèn)、提供提示詞（Prompt），可以讓大模型回答我們的問(wèn)題，或者按要求進(jìn)行內(nèi)容生成。

最后，畫(huà)一張完整的流程圖：

█ 大模型究竟有什么作用？

根據(jù)訓(xùn)練的數(shù)據(jù)類型和應(yīng)用方向，我們通常會(huì)將大模型分為語(yǔ)言大模型（以文本數(shù)據(jù)進(jìn)行訓(xùn)練）、音頻大模型（以音頻數(shù)據(jù)進(jìn)行訓(xùn)練）、視覺(jué)大模型（以圖像數(shù)據(jù)進(jìn)行訓(xùn)練），以及多模態(tài)大模型（文本和圖像都有）。

語(yǔ)言大模型，擅長(zhǎng)自然語(yǔ)言處理（NLP）領(lǐng)域，能夠理解、生成和處理人類語(yǔ)言，常用于文本內(nèi)容創(chuàng)作（生成文章、詩(shī)歌、代碼）、文獻(xiàn)分析、摘要匯總、機(jī)器翻譯等場(chǎng)景。大家熟悉的ChatGPT，就屬于此類模型。

音頻大模型，可以識(shí)別和生產(chǎn)語(yǔ)音內(nèi)容，常用于語(yǔ)音助手、語(yǔ)音客服、智能家居語(yǔ)音控制等場(chǎng)景。

視覺(jué)大模型，擅長(zhǎng)計(jì)算機(jī)視覺(jué)（CV）領(lǐng)域，可以識(shí)別、生成甚至修復(fù)圖像，常用于安防監(jiān)控、自動(dòng)駕駛、醫(yī)學(xué)以及天文圖像分析等場(chǎng)景。

多模態(tài)大模型，結(jié)合了NLP和CV的能力，通過(guò)整合并處理來(lái)自不同模態(tài)的信息（文本、圖像、音頻和視頻等），可以處理跨領(lǐng)域的任務(wù)，例如文生圖，文生視頻、跨媒體搜索（通過(guò)上傳圖，搜索和圖有關(guān)的文字描述）等。

今年以來(lái)，多模態(tài)大模型的崛起勢(shì)頭非常明顯，已經(jīng)成為行業(yè)關(guān)注的焦點(diǎn)。

如果按照應(yīng)用場(chǎng)景進(jìn)行分類，那么類別就更多了，例如金融大模型、醫(yī)療大模型、法律大模型、教育大模型、代碼大模型、能源大模型、政務(wù)大模型、通信大模型，等等。

例如金融大模型，可以用于風(fēng)險(xiǎn)管理、信用評(píng)估、交易監(jiān)控、市場(chǎng)預(yù)測(cè)、合同審查、客戶服務(wù)等。功能和作用很多很多，不再贅述。

█ 大模型的發(fā)展趨勢(shì)？

截至2024年3月25日，中國(guó)10億參數(shù)規(guī)模以上的大模型數(shù)量已經(jīng)超過(guò)100個(gè)，號(hào)稱“百模大戰(zhàn)”。

這些大模型的應(yīng)用領(lǐng)域、參數(shù)規(guī)模各有不同，但是，背后都是白花花的銀子。

根據(jù)行業(yè)估測(cè)的數(shù)據(jù)，訓(xùn)練一個(gè)大模型，成本可能在幾百萬(wàn)美元到上億美元之間。例如，GPT-3訓(xùn)練一次的成本，約為140萬(wàn)美元。Claude 3模型的訓(xùn)練費(fèi)用，高達(dá)約1億美元。

如此多的企業(yè)推出大模型，實(shí)際上也是一種資源的浪費(fèi)。

而且，大模型也分為開(kāi)源大模型和閉源大模型。行業(yè)里有能力做閉源大模型的企業(yè)，并不是很多。大部分的大模型，都是基于開(kāi)源大模型框架和技術(shù)打造的，實(shí)際上是為了迎合資本市場(chǎng)的需求，或者為了蹭熱度。

行業(yè)里，目前仍有部分頭部企業(yè)在死磕參數(shù)規(guī)模更大的超大模型（擁有數(shù)萬(wàn)億到數(shù)千萬(wàn)億個(gè)參數(shù)），例如OpenAI、xAI等。馬斯克之前就在X平臺(tái)宣布，xAI團(tuán)隊(duì)已經(jīng)成功啟動(dòng)了世界上最強(qiáng)大的AI訓(xùn)練集群。該集群由10萬(wàn)塊H100組成，主要用于Grok 2和Grok?3的訓(xùn)練和開(kāi)發(fā)。

對(duì)于大部分企業(yè)來(lái)說(shuō)，萬(wàn)卡和萬(wàn)億參數(shù)其實(shí)已經(jīng)是個(gè)天花板了，再往上走的意愿不強(qiáng)烈，錢包也不允許。

隨著行業(yè)逐漸趨于理性，現(xiàn)在大家的關(guān)注焦點(diǎn)，逐漸從“打造大模型”，變成“使用大模型”。如何將大模型投入具體應(yīng)用，如何吸引更多用戶，如何通過(guò)大模型創(chuàng)造收入，成為各大廠商的頭等任務(wù)。

大模型落地，就涉及到能力“入”端（下沉到終端）。所以，AI手機(jī)、AI PC、具身智能的概念越來(lái)越火，成為新的發(fā)展熱點(diǎn)。

以AI手機(jī)為例，像高通、聯(lián)發(fā)科等芯片廠商，都推出了具有更強(qiáng)AI算力的手機(jī)芯片。而OPPO、vivo等手機(jī)廠商，也在手機(jī)里內(nèi)置了大模型，并推出了很多原生AI應(yīng)用。
第三方AI應(yīng)用的數(shù)量，就更不用說(shuō)了。截止目前，根據(jù)行業(yè)數(shù)據(jù)顯示，具有AI功能的APP數(shù)量已達(dá)到300多萬(wàn)款。2024年6月，AIGC類APP的月活躍用戶規(guī)模達(dá)6170萬(wàn)，同比增長(zhǎng)653%。

大模型入端，也帶來(lái)了輕量化的趨勢(shì)。為了在資源受限的設(shè)備上運(yùn)行，大模型將通過(guò)剪枝、量化、蒸餾等技術(shù)進(jìn)行輕量化，保持性能的同時(shí)減少計(jì)算資源需求。

█ 大模型會(huì)帶來(lái)哪些挑戰(zhàn)？

大模型是一個(gè)好東西，能夠幫我們做很多事情，節(jié)約時(shí)間，提升效率。但是，大模型也是一把雙刃劍，會(huì)帶來(lái)一些新的挑戰(zhàn)。

首先，是影響失業(yè)率。大模型所掀起的AI人工智能浪潮，肯定會(huì)導(dǎo)致一些人類工作崗位被替代，進(jìn)而導(dǎo)致失業(yè)率上升。

其次，是版權(quán)問(wèn)題。大模型基于已有數(shù)據(jù)進(jìn)行學(xué)習(xí)。大模型生成的內(nèi)容，尤其是用于文本、圖像、音樂(lè)和視頻創(chuàng)作，可能引發(fā)版權(quán)和知識(shí)產(chǎn)權(quán)問(wèn)題。它雖然幫助了創(chuàng)作，但也“引用”了人類創(chuàng)作者的作品，界限難以區(qū)分。長(zhǎng)此以往，可能打擊人類的原生創(chuàng)作熱情。

第三，大模型可能引發(fā)算法偏見(jiàn)和不公平。也就是說(shuō)，訓(xùn)練數(shù)據(jù)中存在的偏差，會(huì)導(dǎo)致大模型學(xué)習(xí)到這些偏差，從而在預(yù)測(cè)和生成內(nèi)容時(shí)表現(xiàn)出不公平的行為。模型可能無(wú)意中強(qiáng)化社會(huì)上的刻板印象和偏見(jiàn)，例如性別、種族和宗教等方面的偏見(jiàn)。大模型生成的內(nèi)容也可能被用于政治宣傳和操縱，影響選舉和公共輿論。

第四，被用于犯罪。大模型可以生成逼真的文本、圖像、語(yǔ)音和視頻，這些內(nèi)容可能被用于詐騙、誹謗、虛假信息傳播等惡意用途。

第五，能耗問(wèn)題。大模型的訓(xùn)練和推理需要大量的計(jì)算資源，這不僅增加了成本，還帶來(lái)了巨大的碳排放。很多企業(yè)為了服務(wù)于資本市場(chǎng)或跟風(fēng)，盲目進(jìn)行大模型訓(xùn)練，消耗了大量的資源，也導(dǎo)致了無(wú)意義的碳排放。

總而言之，大模型在倫理、法律、社會(huì)和經(jīng)濟(jì)層面帶來(lái)的威脅和挑戰(zhàn)還是很多的，需要更多時(shí)間進(jìn)行探索和解決。

好啦，以上就是今天文章的全部?jī)?nèi)容，希望對(duì)大家有所幫助！

對(duì)于人工智能這個(gè)領(lǐng)域，小棗君也是學(xué)習(xí)階段。文章如果有錯(cuò)漏的地方，還請(qǐng)大家多多指正！謝謝！