憑借一段簡(jiǎn)單的文字描述,便能生成畫(huà)質(zhì)極高的60秒視頻。
繼ChatGPT之后,OpenAI再一次讓世界沸騰?。。《澈蟾鸬氖恰?/p>
Sora問(wèn)世,AGI提速近10年
2月16日,當(dāng)全中國(guó)還沉浸在或搶紅包,或搶回程票,或噼里啪啦放鞭炮的濃郁新春氛圍中時(shí),大洋彼岸的OpenAI悄無(wú)聲息地發(fā)布了其首個(gè)文生視頻模型Sora。此時(shí)距離ChatGPT的推出,不過(guò)一年光景。
目前,OpenAI在官網(wǎng)上公布了多個(gè)演示視頻,均由Sora根據(jù)提示詞生成,時(shí)長(zhǎng)可達(dá)1分鐘,比如近期刷屏的“東京街道時(shí)尚女郎”。
提示詞:一位時(shí)尚女性走在充滿(mǎn)溫暖霓虹燈和動(dòng)畫(huà)城市標(biāo)牌的東京街道上。她穿著黑色皮夾克、紅色長(zhǎng)裙和黑色靴子,拎著黑色錢(qián)包。她戴著太陽(yáng)鏡,涂著紅色口紅。她走路自信又隨意。街道潮濕且反光,在彩色燈光的照射下形成鏡面效果。許多行人走來(lái)走去。
根據(jù)上述提示詞,Sora生成一段視頻,視頻中不僅還原了文字內(nèi)容,人物、背景、光影效果等細(xì)節(jié)也都極為真實(shí),堪比實(shí)景拍攝。除此之外,包括踏雪而來(lái)的猛犸象、緩緩前進(jìn)的舞龍隊(duì)伍等演示視頻也在多個(gè)社交媒體平臺(tái)反復(fù)轉(zhuǎn)發(fā)播放,登頂各大熱搜榜。
從Demo來(lái)看,無(wú)論是視頻的分辨率、文字理解,還是穩(wěn)定性、保真度等方面,Sora都堪稱(chēng)為當(dāng)前最優(yōu)。在這之前,業(yè)內(nèi)主流的AI生成視頻時(shí)長(zhǎng)只能做到4-16秒,部分甚至“卡成PPT”。
兩相對(duì)比下,Sora帶來(lái)的驚艷不言而喻。據(jù)OpenAI介紹,Sora可根據(jù)文本生成復(fù)雜的場(chǎng)景,不僅包括多個(gè)角色,還有特定的動(dòng)作類(lèi)型,以及對(duì)角色和背景的細(xì)節(jié)描繪,也可以直接輸入圖片或視頻進(jìn)行編輯調(diào)整。其他驚人的本領(lǐng)還有跟隨對(duì)象移動(dòng)鏡頭、多機(jī)位融合轉(zhuǎn)換不相干的場(chǎng)景等。
盡管OpenAI并未在其技術(shù)報(bào)告中提及與Sora訓(xùn)練成本、模型架構(gòu)等相關(guān)的內(nèi)容,但卻強(qiáng)調(diào)了一點(diǎn)——Sora不是單純的視頻生成模型,也不只是視頻行業(yè)顛覆者,而是“世界的模擬器”,它打開(kāi)了一條通往模擬物理世界的有效路徑。
面對(duì)如此驚人的表現(xiàn),連特斯拉的CEO馬斯克也禁不住感嘆:“人類(lèi)認(rèn)賭服輸?!?60創(chuàng)始人周鴻祎更是在微博發(fā)文表示:Sora意味著AGI(通用人工智能)實(shí)現(xiàn)將從10年縮短到1年。
圖源:截自@周鴻祎新浪微博
對(duì)于周鴻祎的這一預(yù)測(cè),我們大概可以這么拆解:
Sora結(jié)合了文本和圖像處理的能力,這種多模態(tài)學(xué)習(xí)正是AGI發(fā)展的一個(gè)重要方向;同時(shí),Sora展示了AI在理解世界運(yùn)動(dòng)和物理規(guī)律方面的能力,這是邁向AGI的關(guān)鍵一步——AGI要求機(jī)器能夠理解并模擬真實(shí)世界;
理解了過(guò)后,Sora根據(jù)自己的理解生成高質(zhì)量的視頻,這不僅僅是簡(jiǎn)單的圖像拼接,更多涉及到AI的自主創(chuàng)作能力,這是AGI的重要組成部分;Sora的出現(xiàn)也將推動(dòng)算力基礎(chǔ)設(shè)施、多模態(tài)大模型等相關(guān)技術(shù)的發(fā)展,預(yù)示著AI技術(shù)將在理解和模擬現(xiàn)實(shí)世界、提升創(chuàng)造力、拓展應(yīng)用場(chǎng)景等方面取得更大的進(jìn)步,為AGI的到來(lái)逐漸鋪平道路。
簡(jiǎn)單總結(jié),Sora推出后之所以能迅速爆火,主要?dú)w于以下幾點(diǎn):
1、學(xué)習(xí)能力:Sora通過(guò)大量數(shù)據(jù)進(jìn)行學(xué)習(xí),理解和模仿視頻內(nèi)容,這種學(xué)習(xí)能力使其能夠生成栩栩如生的視頻內(nèi)容,且內(nèi)容長(zhǎng)度及質(zhì)量遠(yuǎn)超市面上其他AI視頻模型;
2、進(jìn)化速度:Sora的學(xué)習(xí)能力標(biāo)志著AI進(jìn)化速度的加快。通過(guò)視頻學(xué)習(xí)可快速吸收和理解世界各種復(fù)雜場(chǎng)景和動(dòng)態(tài)過(guò)程,這對(duì)于AI技術(shù)的發(fā)展具有重要意義;
3、AGI加速到來(lái):Sora的出現(xiàn)被業(yè)內(nèi)視為通往通用人工智能的一步。AGI即能夠執(zhí)行任何智能任務(wù)的AI系統(tǒng),而Sora在視頻理解和生成方面的表現(xiàn),似乎預(yù)示著AGI的到來(lái)比預(yù)期的要快;
4、潛在應(yīng)用:隨著Sora后續(xù)不斷優(yōu)化成熟,未來(lái)或應(yīng)用于多個(gè)領(lǐng)域,包括但不限于娛樂(lè)、教育、監(jiān)控、虛擬現(xiàn)實(shí)等,這些應(yīng)用都將對(duì)社會(huì)產(chǎn)生深遠(yuǎn)影響。
多方因素的共同作用下,Sora成為了AI視頻生成領(lǐng)域的一個(gè)重要里程碑。不過(guò),Sora目前也并非完美,OpenAI的技術(shù)報(bào)告中提到,Sora還存在不準(zhǔn)確的物理建模和非自然物體“變形”的例子,以及在模擬對(duì)象和多個(gè)角色之間的復(fù)雜交互,對(duì)模型來(lái)說(shuō)通常具有挑戰(zhàn)性等。
比Sora更火的,是“Sora賣(mài)課人”
毫無(wú)疑問(wèn),Sora真的很火,它又一次讓人們感受到了AI技術(shù)的魅力。與此同時(shí),另一波清奇的景象也誕生了——之所以用“清奇”這個(gè)詞來(lái)形容,是因?yàn)樵谂笥讶σ约案鞔箅娚唐脚_(tái)上,Sora已經(jīng)“被”開(kāi)啟或免費(fèi)或付費(fèi)的課程教學(xué)了,然而OpenAI至今都還沒(méi)對(duì)公眾開(kāi)放Sora的測(cè)試權(quán)限。
聞風(fēng)趕來(lái)的投機(jī)者們,迅速掀起一波“Sora賣(mài)課潮”。
“全球物聯(lián)網(wǎng)觀察”在多個(gè)電商或社交平臺(tái)上搜索Sora相關(guān)的關(guān)鍵詞發(fā)現(xiàn),已有不少Sora教程上線,課程形式有視頻講解教學(xué),也有紙質(zhì)文檔資料或電子文檔資料,價(jià)格從幾元至上百元不等,部分電商平臺(tái)店鋪信息顯示,購(gòu)買(mǎi)課程的人還不少。
而近期最為出圈的,當(dāng)屬其中的李一舟——一位在抖音、小紅書(shū)直播賣(mài)AI課程的自媒體博主。據(jù)業(yè)內(nèi)流傳的數(shù)據(jù),其通過(guò)賣(mài)課已經(jīng)實(shí)現(xiàn)收入過(guò)億。網(wǎng)上甚至有人做出“神圖”,把李一舟和OpenAI的CEO Sam Altman并稱(chēng)為“中美兩大AI巨頭”,一位靠AI技術(shù),一位靠AI賣(mài)課。
另?yè)?jù)《新京報(bào)》報(bào)道,記者還發(fā)現(xiàn)有以“免費(fèi)贈(zèng)送Sora資料”為由,但疑似進(jìn)群拉新并誘導(dǎo)付費(fèi)的“套路”。報(bào)道指出,在購(gòu)買(mǎi)課程時(shí),有AI“講師”直言不諱地表示,懂得AI的技術(shù)人員不一定能通過(guò)AI賺到錢(qián),因?yàn)锳I在B端落地很難,但不懂AI技術(shù)的人照樣可以通過(guò)賣(mài)課賺到錢(qián),“我們的作用是抹平AI‘信息差’,我自己懂不懂AI不重要。”
更為“清奇”的是,所謂的“Sora教程”,主要內(nèi)容包括Sora的介紹、生成的視頻、以及部分媒體平臺(tái)發(fā)布的對(duì)Sora進(jìn)行分析解讀的文章,其中90%的內(nèi)容都是能在OpenAI官網(wǎng)或其他公開(kāi)平臺(tái)上找到的資料。也就是說(shuō),教程中只是對(duì)這些公開(kāi)的資料進(jìn)行整理匯總。
怎么說(shuō)呢!用之前的一個(gè)網(wǎng)絡(luò)熱詞來(lái)形容,真是妥妥的一波“割韭菜”。
然而就是這尚未開(kāi)啟公測(cè)的Sora,已經(jīng)讓一波賣(mài)課人賺的盆滿(mǎn)缽滿(mǎn)了。據(jù)多家媒體報(bào)道,Sora出來(lái)后,有人賣(mài)了2w多份課程,一天到手200萬(wàn)元。
顯然,在文生視頻這一市場(chǎng)未及成熟之時(shí),掘金者們已經(jīng)通過(guò)知識(shí)付費(fèi)挖來(lái)了第一桶金。這一現(xiàn)象背后折射出的,正是當(dāng)下人們對(duì)AI的加速進(jìn)化感到焦慮。人工智能的大時(shí)代已經(jīng)真正到來(lái),每個(gè)人都切實(shí)感受著這波AI熱潮,生怕一不留神就被時(shí)代的浪潮拍落。
Sora怎么又沒(méi)出現(xiàn)在中國(guó)?
從ChatGPT到Sora,兩度驚艷世界的AI模型,均誕生自美國(guó)。這熟悉的光景,距離上一次出現(xiàn)僅過(guò)去一年。所以,國(guó)內(nèi)探討的熱度話題,在繼“ChatGPT為何沒(méi)誕生在中國(guó)?”之后,出現(xiàn)了龍年版本的“Sora為何沒(méi)誕生在中國(guó)?”。
中美作為世界居前的兩大經(jīng)濟(jì)體,各自在AI領(lǐng)域的發(fā)展日益成為全球關(guān)注的焦點(diǎn)。聊到這里,我們首先要做的是客觀地正視中美兩國(guó)人工智能發(fā)展的現(xiàn)狀及差距。就當(dāng)前的AI發(fā)展現(xiàn)狀來(lái)看,美國(guó)在該領(lǐng)域的發(fā)展得益于其強(qiáng)大的科研實(shí)力、創(chuàng)新生態(tài)和政策支持。
尤其在科研力量方面,美國(guó)擁有眾多頂尖的AI研究機(jī)構(gòu)和企業(yè),如斯坦福大學(xué)、麻省理工學(xué)院、谷歌、微軟、OpenAI等,這些高校和企業(yè)在機(jī)器學(xué)習(xí)、自然語(yǔ)言處理、計(jì)算機(jī)視覺(jué)等領(lǐng)域已經(jīng)取得了一系列突破性成果。
以爆火的大模型為例,公開(kāi)數(shù)據(jù)顯示,截至2023年5月,美國(guó)擁有10億級(jí)參數(shù)規(guī)模以上的基礎(chǔ)大模型已超100個(gè)。高盛方面預(yù)計(jì),到2025年,美國(guó)大模型方面相關(guān)的投資可達(dá)千億美元,約占全球份額的一半。另外,在大模型的行業(yè)應(yīng)用方面,美國(guó)的大模型主要應(yīng)用在金融、教育、醫(yī)療等領(lǐng)域,其成熟的商業(yè)環(huán)境提供了不少優(yōu)勢(shì)。
國(guó)內(nèi)的起步時(shí)間相對(duì)更晚,在算法創(chuàng)新、芯片設(shè)計(jì)、軟件開(kāi)發(fā)等方面,優(yōu)勢(shì)并不明顯。但從發(fā)展速度來(lái)說(shuō),中國(guó)絕對(duì)不慢。
據(jù)《金融時(shí)報(bào)》報(bào)道,目前在全球排名前10的大模型研發(fā)機(jī)構(gòu)中,中國(guó)的百度、清華大學(xué)、阿里巴巴達(dá)摩院、BAAI智源研究院已占據(jù)其中四席。國(guó)內(nèi)的科大訊飛、騰訊、華為等也正展露出強(qiáng)勁的發(fā)展勢(shì)頭,特別是在語(yǔ)音識(shí)別、圖像識(shí)別、智能推薦等方面取得了顯著成就。
SuperCLUE的2023年中文大模型基準(zhǔn)測(cè)評(píng)報(bào)告顯示,自ChatGPT發(fā)布以來(lái),AI大模型在全球范圍內(nèi)掀起了有史以來(lái)規(guī)模最大的人工智能浪潮。2023年大模型技術(shù)步入快速發(fā)展階段,全國(guó)范圍內(nèi)大模型產(chǎn)品已超過(guò)100種。其中包括百度的文心一言、阿里的通義千問(wèn)、科大訊飛的星火大模型等。
此次Sora引爆的文生視頻賽道,去年就已在國(guó)內(nèi)發(fā)酵。
2023年11月,字節(jié)跳動(dòng)推出文生視頻模型PixelDance,用戶(hù)提供一張指導(dǎo)圖片+文本描述,PixelDance 就能生成有高度一致性且有豐富動(dòng)態(tài)性的視頻;阿里巴巴上線Animate Anyone模型,只需人物照片配合骨骼動(dòng)畫(huà)引導(dǎo),即可生成自然的動(dòng)畫(huà)視頻;百度發(fā)布文生視頻工具“度加剪輯”,號(hào)稱(chēng)“可以一鍵獲取最新熱點(diǎn)、AI生成文案、一鍵生成視頻”。
而就在近幾日Sora引發(fā)大眾探討中美AI發(fā)展?fàn)顩r之際,更多有關(guān)國(guó)內(nèi)文生視頻賽道的進(jìn)展頻頻涌出。
據(jù)《中國(guó)基金報(bào)》報(bào)道,一位接近科大訊飛人士透露,科大訊飛目前內(nèi)部已經(jīng)開(kāi)始文生視頻進(jìn)一步攻關(guān)研發(fā)。該人士表示,此前的訊飛星火大模型已經(jīng)擁有相對(duì)基礎(chǔ)的文生視頻功能。
2月19日,虹軟科技方面宣布,其核心大模型技術(shù)引擎——虹軟ArcMuse再次升級(jí)。而此次升級(jí)將支持面向商拍的商業(yè)視頻自動(dòng)生成。
云從科技也表示,其從容大模型已實(shí)現(xiàn)利用diffusion、GAN等生成式技術(shù)圍繞人物圖像、人物視頻數(shù)據(jù)進(jìn)行建模,通過(guò)文本和音頻實(shí)現(xiàn)對(duì)圖像和視頻內(nèi)容進(jìn)行生成、控制、編輯。
在人工智能的發(fā)展上,國(guó)內(nèi)的方向并沒(méi)有錯(cuò),各大企業(yè)的執(zhí)行力也很強(qiáng)。所以,國(guó)產(chǎn)Sora必會(huì)出現(xiàn),只是時(shí)間問(wèn)題,百花齊放的畫(huà)面已經(jīng)可以預(yù)見(jiàn)。
全員回答2024:擁抱AI的大時(shí)代
人工智能作為引領(lǐng)未來(lái)科技革命和產(chǎn)業(yè)變革的關(guān)鍵力量,已成為全球科技創(chuàng)新的競(jìng)爭(zhēng)高地。尤其在剛過(guò)去的2023年及眼下的2024年,大眾對(duì)這股關(guān)鍵力量的感受更為深刻。春節(jié)后輔一開(kāi)工,魅族、OPPO、吉利等相繼宣布最新的AI計(jì)劃,全員擁抱AI的大幕,已然開(kāi)啟。
OPPO創(chuàng)始人、首席執(zhí)行官陳明永發(fā)表致全體員工的內(nèi)部信。他表示,2024年是AI手機(jī)元年。未來(lái)五年,AI對(duì)手機(jī)行業(yè)的影響,完全可以比肩當(dāng)年智能手機(jī)替代功能機(jī)。OPPO今年的一大重要舉措便是成立AI中心,加速資源向AI集中;
魅族宣布將All in AI,停止傳統(tǒng)“智能手機(jī)”新項(xiàng)目開(kāi)發(fā),將全力投入明日設(shè)備AI For New Generations,將面向AI時(shí)代全新打造的手機(jī)端操作系統(tǒng)進(jìn)行更新;
小鵬汽車(chē)董事長(zhǎng)兼CEO何小鵬在開(kāi)工內(nèi)部信中指出,2024年是小鵬率先邁向高階智駕、并從中國(guó)走向全球的第一年,其計(jì)劃今年在“以智駕為核心的AI技術(shù)”方面投入35億元的研發(fā)資源;
吉利汽車(chē)集團(tuán)CEO淦家閱在開(kāi)工日發(fā)布的新春寄語(yǔ)中提到:沒(méi)有AI的只是出行工具,具備AI的才是智能伙伴。堅(jiān)信接下來(lái)AI技術(shù)對(duì)汽車(chē)的關(guān)鍵作用;
聯(lián)想的開(kāi)工首條微博就是圍繞AI PC對(duì)新款發(fā)布進(jìn)行預(yù)熱,其2024款全系搭載AMD Ryzen 7 8845H,冠以“AI銳龍版”稱(chēng)號(hào)。
2024年開(kāi)年就掀起的這波AI大浪潮,讓這個(gè)世界止不住興奮。不過(guò)在興奮之余,我們要警惕,AI技術(shù)的出現(xiàn),也帶來(lái)了前所未有的挑戰(zhàn)和隱患。人工智能生成導(dǎo)致的虛假信息和“詐騙”案例,層出不窮。在此基礎(chǔ)上,關(guān)于AI監(jiān)管的韁繩更要緊緊拽住。
據(jù)悉,目前“數(shù)據(jù)獲取+應(yīng)用方式”是AI監(jiān)管的兩大問(wèn)題。這兩個(gè)核心問(wèn)題如果處理不當(dāng),將會(huì)嚴(yán)重影響人工智能的發(fā)展和利用。從數(shù)據(jù)獲取方面看,采集和獲取不僅涉及到數(shù)據(jù)的產(chǎn)權(quán)問(wèn)題,還涉及到國(guó)家安全和個(gè)人隱私。
從人工智能的應(yīng)用方式來(lái)看,AI所展示出的強(qiáng)大的信息處理能力,本質(zhì)上是提升人類(lèi)對(duì)信息的利用效率和效果。而人類(lèi)社會(huì)有其基于特定國(guó)家和文化的法律法規(guī)和道德約束,AI發(fā)展也要充分遵從法律法規(guī)和道德倫理。
寫(xiě)在最后
央視新聞在報(bào)道中指出,從某種意義上講,對(duì)人工智能的利用將會(huì)在國(guó)家之間、機(jī)構(gòu)之間,甚至包括人與人之間形成新的代差和新的數(shù)字鴻溝,并推動(dòng)人類(lèi)從農(nóng)業(yè)文明、工業(yè)文明走向數(shù)字文明。因此,能否充分學(xué)習(xí)和利用人工智能會(huì)對(duì)人類(lèi)產(chǎn)生分化,甚至對(duì)人類(lèi)文明產(chǎn)生巨大影響。
毫無(wú)疑問(wèn),今年將是一個(gè)“AI大年”,人工智能背后所蘊(yùn)含的巨大潛力與價(jià)值正在凸顯,新一輪的智能革命來(lái)臨,這一次,將是真真正正的“AI平民化”。