加入星計劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴散
  • 作品版權(quán)保護
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長期合作伙伴
立即加入
  • 正文
    • 視頻生成模型難在哪兒?
    • 誰將最先打造出“中國版Sora”?
    • 留給中國廠商的時間不多了
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請入駐 產(chǎn)業(yè)圖譜

?視頻生成模型之戰(zhàn),中國廠商準(zhǔn)備好了嗎?

03/04 11:40
2051
閱讀需 11 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點資訊討論

近日,Sora、Genie等視頻生成模型點燃了資本市場熱情。人工智能指數(shù)迎風(fēng)大漲,相關(guān)概念股接連漲停。據(jù)不完全統(tǒng)計,近20家上市公司在各自的互動平臺上披露了視頻生成模型領(lǐng)域相關(guān)的業(yè)務(wù)情況。然而,專家指出,目前國內(nèi)視頻生成模型技術(shù)真正達到前沿水平的公司鳳毛麟角,多數(shù)公司只是在跟風(fēng)炒作,缺乏真正的技術(shù)儲備和研發(fā)能力。

視頻生成模型難在哪兒?

相較于文字和圖片,視頻在多維信息表達、畫面豐富性及動態(tài)性方面有更大優(yōu)勢。它可以結(jié)合文本、圖像、聲音及視覺效果,在單一媒體中融合多種信息形式。從視頻生視頻到文生視頻、圖生視頻,多模態(tài)的發(fā)展重視用更少的用戶輸入信息量實現(xiàn)更豐富的AI生成結(jié)果。

核心技術(shù)難點一方面在于數(shù)據(jù),文生視頻需要大量的“文本-視頻”配對數(shù)據(jù),且數(shù)據(jù)標(biāo)注、清洗的工作量龐大;另一方面在于邏輯,視頻是連續(xù)的多幀圖像,要有邏輯性,而非簡單的圖片組合,這會讓模型復(fù)雜度、計算難度和成本大幅提升。

“我們原本在文本、圖像模型上就存在差距,現(xiàn)在視頻模型來了,我們的差距也更大了,”晟云磐盾信息技術(shù)有限公司總裁郝峻晟在接受《中國電子報》記者采訪時坦言,“由于受到算力、顯卡等多方面的限制,國內(nèi)人工智能企業(yè)在大模型領(lǐng)域的創(chuàng)新已經(jīng)落后了一大步。而現(xiàn)在國外領(lǐng)先的大模型不再開源,不再公開核心技術(shù)細節(jié),所有的技術(shù)研發(fā)只能靠我們自己了。大模型研發(fā)是一個系統(tǒng)性的工程,基礎(chǔ)算法本身可能沒什么差距,但像數(shù)據(jù)的訓(xùn)練、清洗、標(biāo)注、管理以及能耗等細節(jié)才是真正拉開差距的地方?!?/p>

Sora、Genie等視頻生成模型的誕生離不開Runway ML的Gen-2、谷歌的Lumiere、Stable Video Diffusion等前沿技術(shù)或產(chǎn)品在前鋪路。Sora的一個重要的技術(shù)創(chuàng)新點在于其先將不同視頻和圖片數(shù)據(jù)壓縮在一個低維空間中,再分解成統(tǒng)一Patch作為訓(xùn)練大模型的基本單位,這一改進使得文生視頻更加逼真、高質(zhì)量。

“所有的創(chuàng)新都是突發(fā)的,具有偶然性,無法被預(yù)測。但海外這些領(lǐng)先的視頻生成模型至少已經(jīng)幫助我們確定了技術(shù)方向。”郝峻晟說道。

除了技術(shù)突破,應(yīng)用賽道的選擇非常重要。賽迪顧問業(yè)務(wù)總監(jiān)、軟件與信息服務(wù)業(yè)研究中心總經(jīng)理高丹在接受《中國電子報》記者采訪時表示:“不管是ChatGPT還是Sora,這類爆款產(chǎn)品都發(fā)跡于我們以往并沒有過多關(guān)注的領(lǐng)域。而二者的共同點是都出現(xiàn)在數(shù)據(jù)積累比較多或者應(yīng)用場景比較多的領(lǐng)域,因此我認為爆款的出現(xiàn)首先是要選對賽道,要關(guān)注數(shù)字化應(yīng)用場景積累豐厚的領(lǐng)域?!?/p>

“另一個重要的點是企業(yè)要長期堅持,并且有資本長期投入,不追求短期效益?!备叩ふf道。這一點說起來容易,真正能做到的企業(yè)寥寥無幾。

誰將最先打造出“中國版Sora”?

在視頻生成模型領(lǐng)域,字節(jié)跳動被寄予厚望?!拔冶容^看好字節(jié)跳動,它本身在視頻應(yīng)用領(lǐng)域的積累就比較多?!焙戮蓪τ浾哒f道。他認為,國內(nèi)有豐富的視頻數(shù)據(jù)集,可供模型訓(xùn)練。要訓(xùn)練出類似Sora的視頻生成模型其實并不難,只要有充足的算力、顯卡和數(shù)據(jù),再調(diào)高算法精度,就能有效提升生成視頻的質(zhì)量。

根據(jù)公開信息,2023年11月,字節(jié)跳動發(fā)表視頻生成研究成果PixelDance,又在今年1月發(fā)布了視頻生成模型MagicVideo-V2。根據(jù)公開的實驗評測數(shù)據(jù)顯示,MagicVideo-V2生成的視頻高清度、潤滑度、連貫性、文本語義還原等比目前主流的文生視頻模型Gen-2、Stable Video Diffusion、Pika 1.0等更出色。

近日,字節(jié)跳動又悄然推出了一款名為Boximator的視頻生成模型。不過,字節(jié)跳動內(nèi)部人士在回應(yīng)外部關(guān)切時表示,Boximator目前仍是一個研究項目,專注于視頻生成領(lǐng)域中控制對象運動的技術(shù)方法。盡管其具有創(chuàng)新性和潛力,但該項目尚未達到作為成熟產(chǎn)品推出的階段。與此同時,與國外領(lǐng)先的視頻生成模型相比,Boximator在畫面質(zhì)量、保真率以及視頻時長等方面仍存在顯著的差距。

盡管字節(jié)跳動仍想保持低調(diào),但從字節(jié)跳動秘密組建AI產(chǎn)品研發(fā)團隊、前抖音CEO張楠轉(zhuǎn)戰(zhàn)剪映、谷歌頂尖科學(xué)家蔣路加入TikTok等舉措來看,Sora的橫空出世無疑大大加劇了字節(jié)跳動的焦慮。

一方面,Sora已經(jīng)能生成60秒視頻,這將直接沖擊到剪映的生存空間,并且會改變抖音與TikTok的內(nèi)容供給邏輯;另一方面,Sora引領(lǐng)著文生視頻技術(shù)不斷精進,抖音及TikTok 也將面臨新技術(shù)帶來的洗牌,這也在一定程度上刺激字節(jié)更加積極推進AI技術(shù)投入。

“Sora的出現(xiàn)是技術(shù)、資本和數(shù)據(jù)綜合的成果,但是結(jié)合目前看更偏重于短視頻的開發(fā),如果多方要素基本相同的情況下,我更看好前期相關(guān)數(shù)據(jù)積累較多的企業(yè)?!备叩し治龅馈?/p>

從國內(nèi)廠商來看,除了字節(jié)跳動,百度在人工智能領(lǐng)域的布局較早,無論是算力的充足、數(shù)據(jù)的豐富還是工程能力的先進程度,都處于國內(nèi)第一梯隊。阿里、騰訊、科大訊飛等也是大模型競爭中的佼佼者。

“實際上,Sora打通的這條道路并不神秘,總體上沒有很多超預(yù)期的技術(shù),它是沿著大一統(tǒng)多模態(tài)大模型的既定路線,在工程上取得的一項成果,沒有改變既定的技術(shù)范式和設(shè)計理念?!蹦炒竽P蛨F隊的工程副總裁表示。在他看來,Sora實現(xiàn)文生視頻的大致思路和邏輯都已經(jīng)在技術(shù)文檔中公之于眾了,但技術(shù)細節(jié)并未披露,想要真正完成復(fù)現(xiàn)甚至超越,仍然需要考驗國內(nèi)AI企業(yè)包括算力、數(shù)據(jù)和工程能力在內(nèi)的多方面的綜合實力。

留給中國廠商的時間不多了

近日,中信建投、國泰君安、申萬宏源、招商證券等多家券商在研報中表示,Sora是人工智能發(fā)展進程中的“里程碑”,預(yù)示AGI(通用人工智能)將加速到來,眾多行業(yè)將迎顛覆式變革。而Sora出手即“王炸”,AI生成視頻創(chuàng)業(yè)公司無疑將面臨巨大壓力。這也難怪Runway CEO瓦倫祖拉會在社交媒體感嘆:“Game On(游戲開始了)?!?/p>

與Sora的眾星捧月形成鮮明對比的是,不少創(chuàng)業(yè)企業(yè)都在尋求收購,或大幅裁員,甚至宣布關(guān)停。多位專家表示,新技術(shù)的風(fēng)口往往稍縱即逝,留給中國廠商的時間不多了。

“投資環(huán)境不同,這也會對技術(shù)的創(chuàng)新產(chǎn)生一定的影響。”郝峻晟分析說。他表示,如果可以給新技術(shù)一些耐心,花十幾年的時間持續(xù)投入研發(fā),做出來的產(chǎn)品、應(yīng)用往往能給行業(yè)帶來顛覆式的變化?!岸鴩鴥?nèi)很多投資方看到‘風(fēng)’來了,就會把資本投入進來,然后‘風(fēng)’走了,投資就撤了。這對技術(shù)創(chuàng)新氛圍的培育是不利的?!彼f道。

人工智能行業(yè)天使投資人郭濤也表達了類似的觀點。他指出,國內(nèi)市場的特點和監(jiān)管政策也可能影響企業(yè)的決策。國內(nèi)企業(yè)要迎頭趕上,需要在技術(shù)研發(fā)、人才培養(yǎng)和市場洞察上下功夫,同時還要考慮到國內(nèi)外市場的差異性和合規(guī)性問題。

不過,或許是考慮性能、安全等問題,Sora并未向公眾開放,目前處于安全測試階段,僅向“紅隊測試人士”(針對潛在危險行為的測試)和少數(shù)創(chuàng)作者開放。據(jù)外媒預(yù)測,GPT-4經(jīng)過6個月的測試后正式向公眾開放,預(yù)計Sora或?qū)⒂?月向公眾開放。

上海市人工智能行業(yè)協(xié)會秘書長鐘俊浩分析指出,Sora面臨的技術(shù)挑戰(zhàn)仍有不少,特別是與文本對話和圖片生成相比,訓(xùn)練成本高昂、高質(zhì)量數(shù)據(jù)集的缺乏以及視頻描述的模糊性都將成為Sora需要跨越的門檻。

“Sora的應(yīng)用場景、商業(yè)前景比較明朗,動漫游戲影視、短視頻等都可以應(yīng)用,長視頻的制作更加復(fù)雜,還需要進一步開發(fā),同時模型訓(xùn)練成本也較高,算力要求也較高,商業(yè)落地還需要一段時間?!备叩け硎尽_@也給國內(nèi)廠商搶占市場留下了一段緩沖期。

郝峻晟表示,國家層面大力建設(shè)智算中心,加速完善新型算力基礎(chǔ)設(shè)施,將為國內(nèi)人工智能的發(fā)展提供豐沃的“土壤”。與此同時,人工智能企業(yè)也要加快探索的步伐,尤其是在垂直行業(yè)或者一些特定的領(lǐng)域去做更多的積累與突破。

 

作者丨宋婧

編輯丨趙晨

美編丨馬利亞

監(jiān)制丨連曉東

推薦器件

更多器件
器件型號 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊 ECAD模型 風(fēng)險等級 參考價格 更多信息
ATMEGA1284P-AU 1 Atmel Corporation RISC Microcontroller, 8-Bit, FLASH, AVR RISC CPU, 20MHz, CMOS, PQFP44, 10 X 10 MM, 1 MM HEIGHT, 0.80 MM PITCH, GREEN, PLASTIC, MS-026ACB, TQFP-44

ECAD模型

下載ECAD模型
$5.69 查看
TMS320F28335PGFA 1 Texas Instruments C2000™ 32-bit MCU with 150 MIPS, FPU, 512 KB flash, EMIF, 12b ADC 176-LQFP -40 to 85

ECAD模型

下載ECAD模型
$29.61 查看
ATSAMD20J18A-AUT 1 Microchip Technology Inc IC MCU 32BIT 256KB FLASH 64LQFP

ECAD模型

下載ECAD模型
$4.06 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜