加入星計(jì)劃,您可以享受以下權(quán)益:

  • 創(chuàng)作內(nèi)容快速變現(xiàn)
  • 行業(yè)影響力擴(kuò)散
  • 作品版權(quán)保護(hù)
  • 300W+ 專業(yè)用戶
  • 1.5W+ 優(yōu)質(zhì)創(chuàng)作者
  • 5000+ 長(zhǎng)期合作伙伴
立即加入
  • 正文
  • 推薦器件
  • 相關(guān)推薦
  • 電子產(chǎn)業(yè)圖譜
申請(qǐng)入駐 產(chǎn)業(yè)圖譜

OpenAI Sora負(fù)責(zé)人專訪:20個(gè)問(wèn)題深入研發(fā)細(xì)節(jié),Sora仍是GPT-1時(shí)期

04/29 10:00
1052
閱讀需 25 分鐘
加入交流群
掃碼加入
獲取工程師必備禮包
參與熱點(diǎn)資訊討論

編譯 |??一支筆,編輯?|??云鵬

Sora通過(guò)在神經(jīng)網(wǎng)絡(luò)中模擬復(fù)雜環(huán)境,彌合了當(dāng)前AI與AGI之間的差距。

智東西4月26日?qǐng)?bào)道,AI生成視頻不僅是圖像生成器的升級(jí),更是向AGI(通用人工智能)邁進(jìn)的關(guān)鍵一步。在"No Priors"節(jié)目中,Sora團(tuán)隊(duì)負(fù)責(zé)人Aditya Ramesh、Tim Brooks和Bill Peebles與主持人一起討論了OpenAI最近宣布的生成式視頻模型——Sora。該模型能夠根據(jù)文本提示生成真實(shí)、視覺(jué)連貫且高清的視頻片段,最長(zhǎng)可達(dá)一分鐘。

訪談中,三位負(fù)責(zé)人探討Sora的開發(fā)過(guò)程,并就其潛在應(yīng)用,如教育、娛樂(lè)、數(shù)字化身份等闡述各自的觀點(diǎn)。但目前團(tuán)隊(duì)的重點(diǎn)仍在于技術(shù)的基礎(chǔ)開發(fā),而不是特定的下游應(yīng)用。Brooks表示,雖然包括數(shù)字化身在內(nèi)的想法很有意義,但團(tuán)隊(duì)目前尚未探索這個(gè)問(wèn)題。Brooks認(rèn)為,Sora仍舊處于AI視頻模型的GPT-1時(shí)代。

此外,Ramesh談到,Sora的視覺(jué)美感引人注目,但其美學(xué)并未深深嵌入模型之中。在安全方面,Sora也面臨著錯(cuò)誤信息和攻擊性文字生成等挑戰(zhàn)。對(duì)此,他們將在確保模型為用戶提供實(shí)際價(jià)值的同時(shí),采取一切可能的安全措施,防止生成深度偽造內(nèi)容和誤導(dǎo)信息。同時(shí),逐步開放技術(shù),尊重用戶自由表達(dá)的權(quán)利。

Peebles則討論了如何使這項(xiàng)技術(shù)更廣泛地普及,包括降低成本和處理可能出現(xiàn)的錯(cuò)誤信息和相關(guān)風(fēng)險(xiǎn)。Peebles提到,作為數(shù)據(jù)網(wǎng)絡(luò)(DN)的一部分,團(tuán)隊(duì)必須考慮安全因素,并積極采取措施應(yīng)對(duì)相關(guān)風(fēng)險(xiǎn)。而這些,已經(jīng)成為團(tuán)隊(duì)研究道路上的重要任務(wù)之一。

以下是Sora團(tuán)隊(duì)負(fù)責(zé)人專訪中的20個(gè)問(wèn)答,為方便閱讀,部分問(wèn)題及回答在盡可能不違背原意的前提下進(jìn)行了處理:

1、從文本到視頻,從AI到AGI的轉(zhuǎn)換,你們是如何開始研究這個(gè)領(lǐng)域的呢?

Peebles:我們堅(jiān)信像Sora這樣的模型確實(shí)是實(shí)現(xiàn)AGI的關(guān)鍵步驟。我們認(rèn)為一個(gè)很好的例子是一群人在東京的冬天穿行的場(chǎng)景,這是一個(gè)極其復(fù)雜的環(huán)境。在這種情況下,你可以想象一臺(tái)攝像機(jī)飛過(guò)場(chǎng)景,許多人相互交流、說(shuō)話、手牽手,以及附近的商販。這個(gè)示例說(shuō)明了Sora如何在神經(jīng)網(wǎng)絡(luò)權(quán)重范圍內(nèi)建模極其復(fù)雜的環(huán)境和世界。

要生成真正逼真的視頻,必須學(xué)習(xí)人們的工作方式、互動(dòng)方式以及最終的思考過(guò)程。這不僅包括人類,還包括動(dòng)物和其他需要建模的物體。因此,隨著我們繼續(xù)擴(kuò)大像Sora這樣的模型,我相信我們將能構(gòu)建類似世界模擬器的東西。這意味著任何人都可以與其中的人物互動(dòng),我作為一個(gè)個(gè)體可以運(yùn)行自己的模擬器,與模擬器中的人物進(jìn)行交互。這種交互是通向AGI的路徑之一。隨著我們未來(lái)擴(kuò)大Sora的規(guī)模,我們將會(huì)看見AGI的實(shí)現(xiàn)。

2、在更廣泛地使用Sora之前,你需要進(jìn)行哪些工作?

Brooks:我們真的希望能與OpenAI以外的人交流,并思考Sora將如何影響世界,以及它如何為人們提供幫助。目前,我們沒(méi)有制定產(chǎn)品的即時(shí)計(jì)劃,甚至沒(méi)有定制產(chǎn)品明確的時(shí)間表。但我們正在采取行動(dòng),向一群小藝術(shù)家和紅隊(duì)成員提供對(duì)Sora的訪問(wèn)權(quán)限,開始探索它可能產(chǎn)生的影響。我們收到了來(lái)自藝術(shù)家的反饋,了解到如何使Sora成為對(duì)他們最有用的工具。我們也收到了來(lái)自紅隊(duì)成員的反饋,幫助我們確保安全,并考慮如何向公眾展示它。這些反饋將為我們未來(lái)的研究制定路線圖,并指導(dǎo)我們是否最終推出該產(chǎn)品,以及具體的時(shí)間表。

3、你能分享一下你得到的反饋嗎?

Ramesh:我們已經(jīng)向一小部分藝術(shù)家和創(chuàng)作者開放了對(duì)Sora的訪問(wèn)權(quán)限,以獲得早期反饋。我們認(rèn)為最重要的是可控性。目前模型僅接受文本作為輸入。盡管這一功能已經(jīng)相當(dāng)有用,但它仍然受限于需要精確描述你想要的內(nèi)容。因此,我們正在考慮如何在未來(lái)擴(kuò)展模型的功能,以便接受除文本之外的輸入。

4、你們有沒(méi)有看見藝術(shù)家或其他人用它制作的最喜歡的東西,或者最喜歡的視頻,亦或你覺(jué)得鼓舞人心的事物?

Brooks:看到藝術(shù)家們?nèi)绾芜\(yùn)用這個(gè)模型真是太神奇了。我們對(duì)一些事情有自己的想法,但那些以制作創(chuàng)意內(nèi)容為職業(yè)的人非常有創(chuàng)造力。例如,Shy Kids制作了一個(gè)非??岬囊曨l,他們制作了短篇故事Airhead,這個(gè)角色有一個(gè)氣球,他們很喜歡這個(gè)故事??吹絊ora能夠解鎖并讓這個(gè)故事更容易講述,簡(jiǎn)直太酷了。我認(rèn)為這與Sora制作某個(gè)特定剪輯或視頻無(wú)關(guān),更多的是這些藝術(shù)家想要講述并能夠分享這個(gè)故事,而Sora可以幫助實(shí)現(xiàn)這一點(diǎn)。Peebles:我個(gè)人最喜歡的樣本是我們創(chuàng)作的Bling Zoo。在我們推出Sora那天,我在Twitter上發(fā)布了它。它本質(zhì)上就是紐約動(dòng)物園的多鏡頭場(chǎng)景,也是一家珠寶商店。你可以看到劍齒虎在這個(gè)閃閃發(fā)光的環(huán)境中仿佛成了裝飾品,這非常地超現(xiàn)實(shí)。

我喜歡這些樣本,因?yàn)樽鳛橐粋€(gè)喜歡創(chuàng)造內(nèi)容但實(shí)際上沒(méi)有創(chuàng)作技能的人,通過(guò)操作這個(gè)模型,我很容易就能產(chǎn)生一大堆想法,并最終得到一些很棒的作品。而且,實(shí)際生成所需的時(shí)間相比于通過(guò)迭代提示生成內(nèi)容而言要少得多。因此,對(duì)我來(lái)說(shuō),操作這個(gè)模型非常有趣,并從中獲得想要的東西。我很高興看到藝術(shù)家們也喜歡使用這個(gè)模型,并從中獲得創(chuàng)造性的靈感。

5、我們何時(shí)能夠看到Sora或其他模型產(chǎn)生的實(shí)際內(nèi)容,這些內(nèi)容由專業(yè)人士制作,并成為更廣泛媒體類型的一部分?

Brooks:好問(wèn)題。我對(duì)確切時(shí)間線沒(méi)有預(yù)測(cè),但我對(duì)此非常感興趣,那就是除了傳統(tǒng)電影之外,人們可能會(huì)將其用于什么。在未來(lái)幾年里,我們或許會(huì)看到人們制作越來(lái)越多的電影,但我認(rèn)為人們也會(huì)找到使用這些模型的全新方式,這些方式與我們習(xí)慣的當(dāng)前媒體完全不同。當(dāng)你告訴這些模型你希望看到什么,并且它們能夠以一種非常不同的方式做出響應(yīng)時(shí),這就構(gòu)成了一個(gè)非常不同的范式。也許會(huì)出現(xiàn)一種全新的互動(dòng)模式,類似真正富有創(chuàng)意的藝術(shù)家與內(nèi)容互動(dòng)的方式。所以,我對(duì)人們將要嘗試的全新創(chuàng)意感到非常興奮。這真的很有趣,因?yàn)榕c我們目前擁有的不同。

6、當(dāng)你考慮這個(gè)世界模擬模型的功能時(shí),你認(rèn)為它會(huì)成為模擬的物理引擎嗎?人們實(shí)際上正在模擬風(fēng)洞?它是機(jī)器人技術(shù)的基礎(chǔ)嗎?

Peebles:我認(rèn)為你說(shuō)到點(diǎn)子上了。對(duì)于像機(jī)器人這樣的應(yīng)用,你可以從視頻中學(xué)到很多你不一定能從其他模式中學(xué)到的東西,就像OpenAI等公司過(guò)去投入了大量資金在這方面,如語(yǔ)言,手臂和關(guān)節(jié)在空間中移動(dòng)的方式等類似的細(xì)節(jié)?;氐綎|京的那個(gè)場(chǎng)景,你可以觀察到腿是如何移動(dòng)以及它們?nèi)绾我晕锢砩蠝?zhǔn)確的方式與地面接觸。因此,在訓(xùn)練中可以學(xué)到很多關(guān)于物理世界的知識(shí)。我們認(rèn)為原始視頻對(duì)于諸如物理體現(xiàn)之類的事情的發(fā)展至關(guān)重要。

7、能為廣大技術(shù)受眾解釋一下什么是擴(kuò)散Transformer嗎?

Brooks:Sora建立OpenAI的DALL-E模型和GPT模型的研究之上。擴(kuò)散是一種數(shù)據(jù)生成過(guò)程,以我們的案例為例,即視頻生成。這個(gè)過(guò)程從噪音開始,通過(guò)反復(fù)多次去除噪音,直到最終去除了足夠多的噪音,只生成一個(gè)樣本。這就是我們生成視頻的過(guò)程。我們從一段有噪音的視頻開始,逐步去除噪音。從架構(gòu)角度來(lái)看,我們的模型必須是可擴(kuò)展的,它們需要能夠從大量數(shù)據(jù)中學(xué)習(xí),并理解視頻中那些非常復(fù)雜且具有挑戰(zhàn)性的關(guān)系,這一點(diǎn)至關(guān)重要。因此,我們采用了一種類似于GPT模型的架構(gòu),稱為Transformer。我們甚至發(fā)布了一份關(guān)于Sora的技術(shù)報(bào)告,展示了在使用較少、中等和更多的計(jì)算量時(shí),從同一提示中獲得的結(jié)果。

我們認(rèn)為,隨著我們不斷增加計(jì)算資源和數(shù)據(jù),我們將不斷改進(jìn)這些模型,使它們能夠勝任更多的任務(wù),如更好的模擬和更長(zhǎng)期的生成。

8、你可以給我們解釋一下這種模型的縮放定律是什么嗎?

Peebles:這是一個(gè)很好的問(wèn)題。正如Tim所提到的,使用Transformer的一個(gè)優(yōu)點(diǎn)是,可以繼承我們?cè)谄渌I(lǐng)域,例如語(yǔ)言中看到的所有優(yōu)秀特性。因此,你可以開始提出視頻而不是語(yǔ)言的縮放法則。這是我們團(tuán)隊(duì)正在積極研究的事情,我們不僅在構(gòu)建模型,還使其變得更好。這意味著,我可以通過(guò)使用相同的訓(xùn)練計(jì)算量,在不從根本上增加所需計(jì)算量的情況下,獲得更好的結(jié)果。這些是我們研究團(tuán)隊(duì)每天都在解決的問(wèn)題之一,以推動(dòng)Sora和未來(lái)模型的發(fā)展。

9、在這個(gè)領(lǐng)域應(yīng)用Transformer的問(wèn)題之一就是標(biāo)記化。還有,這個(gè)名字誰(shuí)想出來(lái)的呢?但像時(shí)空補(bǔ)丁那樣科幻的名字真的很棒,你能解釋一下它是什么以及為什么它與此相關(guān)嗎?

Brooks:我不認(rèn)為我們創(chuàng)造了這個(gè)名字,它更像是一個(gè)描述性的術(shù)語(yǔ)。LLM范式的關(guān)鍵成功之一就是token的概念。當(dāng)你瀏覽互聯(lián)網(wǎng)時(shí),你會(huì)發(fā)現(xiàn)各種各樣的文本數(shù)據(jù),包括書籍、代碼、數(shù)學(xué)等。語(yǔ)言模型的妙處在于它們有token這一單一概念,使得它們能夠在如此廣泛的數(shù)據(jù)上進(jìn)行訓(xùn)練。然而,在過(guò)去,視覺(jué)生成模型缺乏類似的概念。因此,在Sora之前,你會(huì)在256×256分辨率的圖像或256×256的視頻上訓(xùn)練圖像生成模型或視頻生成模型,而這些視頻正好四秒長(zhǎng)。因此,在Sora中,我們引入了“時(shí)空補(bǔ)丁”的概念。你可以把它想象成數(shù)據(jù)的表示方式,存在于圖像和長(zhǎng)視頻中,就像一個(gè)高度堆疊的垂直視頻,你可以從中提取立方體。因此,Sora不僅可以生成720P分辨率的視頻,還可以生成垂直視頻、寬屏視頻,甚至可以生成圖像。這使得Sora成為第一個(gè)具有廣度的視覺(jué)內(nèi)容生成模型,就像語(yǔ)言模型具有廣度一樣。這就是我們朝著這個(gè)方向邁進(jìn)的真正原因。

10、如何將端到端深度學(xué)習(xí)應(yīng)用于視頻

Brooks:在Sora之前,許多處理視頻的模型實(shí)際上都在考慮擴(kuò)展圖像生成模型,并在圖像生成方面取得了很多進(jìn)展。許多人一直在嘗試使用圖像生成器并對(duì)其進(jìn)行一些擴(kuò)展,以便制作一些持續(xù)時(shí)間較長(zhǎng)的視頻,而不僅僅是一張靜態(tài)圖像。但對(duì)于Sora來(lái)說(shuō),真正重要的是架構(gòu)的差異。我們并不是從圖像生成器開始,然后嘗試將其擴(kuò)展為視頻生成器。相反,我們從一個(gè)更宏觀的問(wèn)題出發(fā):如何制作一分鐘的高清視頻剪輯。這就是我們的目標(biāo)。當(dāng)我們?cè)O(shè)定了這個(gè)目標(biāo)時(shí),我們意識(shí)到我們不能僅僅依賴于擴(kuò)展圖像生成器。為了制作高清素材,我們需要可擴(kuò)展的東西,將數(shù)據(jù)分解成非常簡(jiǎn)單的方式,以便我們可以使用可擴(kuò)展的模型。所以我認(rèn)為這確實(shí)是從圖像生成器到Sora的架構(gòu)演變。這是一個(gè)非常有趣的框架,因?yàn)槲覀兿嘈潘粌H可以應(yīng)用于視頻生成領(lǐng)域,還可以應(yīng)用于其他許多領(lǐng)域。當(dāng)然,在最短的時(shí)間內(nèi),我們并不是第一個(gè)推出視頻生成器的人。很多人在視頻生成方面取得了令人印象深刻的進(jìn)展。但是,我們更希望朝著更遠(yuǎn)的未來(lái)目標(biāo)努力。我們寧愿選擇未來(lái)的一個(gè)點(diǎn),然后花一年時(shí)間研究它。而且,我們有快速做事的壓力,因?yàn)锳I發(fā)展太快了。

11、Sora引人注目的一個(gè)方面就是其視覺(jué)效果和美學(xué)。你能說(shuō)說(shuō)如何調(diào)整或打造Sora的美學(xué)嗎?

Ramesh:對(duì)于Sora,我們并沒(méi)有過(guò)多花費(fèi)精力在美學(xué)上,世界本身就很美,但或許是一個(gè)很好的答案。實(shí)際上,Sora的語(yǔ)言理解允許用戶以一種更加直接的方式來(lái)引導(dǎo)它,這是其他模型很難做到的。用戶可以提供各種提示和視覺(jué)線索,以指導(dǎo)模型生成他們想要的內(nèi)容類型。這種交互性使得用戶能夠更加靈活地與模型進(jìn)行溝通,從而獲得更加符合其預(yù)期的生成結(jié)果。

我認(rèn)為,未來(lái)的模型將會(huì)理解個(gè)人審美。我們接觸的許多藝術(shù)家和創(chuàng)作者都希望將他們的全部資產(chǎn)上傳到模型中,這樣在寫標(biāo)題時(shí)就可以借鑒大量的作品,并讓模型理解他們?cè)O(shè)計(jì)公司幾十年來(lái)積累的術(shù)語(yǔ)等。因此,我認(rèn)為個(gè)性化以及如何將它與美學(xué)結(jié)合在一起,將成為一件值得探索的很酷的事情。

12、我們能否得到一種與我們現(xiàn)在非常不同的娛樂(lè)范式?

Brooks:我覺(jué)得視頻模型的發(fā)展將引領(lǐng)著全新的娛樂(lè)、教育和溝通方式。娛樂(lè)是其中重要組成部分,但更深層次地,這些模型有望讓我們更深入地了解世界和我們的生活,以及如何通過(guò)視覺(jué)體驗(yàn)它們。它們不僅可以為我們提供娛樂(lè),還可以成為教育的有力工具。有時(shí)候,定制的教育視頻可以是學(xué)習(xí)新事物的最佳途徑,而制作視頻來(lái)解釋觀點(diǎn)可能是與他人溝通的最有效方式。因此,我認(rèn)為視頻模型存在更廣泛的潛在應(yīng)用。

13、你們有嘗試過(guò)將這些技術(shù)應(yīng)用于數(shù)字化身份等方面嗎?這是否會(huì)不太適用?因?yàn)樗袷俏谋镜揭曨l的提示。

Brooks:到目前為止,我們的重點(diǎn)主要是在Sora的核心技術(shù)上,而不是在具體的應(yīng)用方面。雖然包括數(shù)字化身在內(nèi)的想法很有意義,但我們還沒(méi)有探索這個(gè)問(wèn)題。我認(rèn)為嘗試這些想法會(huì)很酷,但我認(rèn)為我們現(xiàn)在在 Sora的軌跡中的位置,就像是這種新視覺(jué)模型范式的GPT-1。

14、你們是如何看待視頻模型引發(fā)有關(guān)安全性的問(wèn)題,以及如何防止偽造、惡搞或其他類似問(wèn)題?

Ramesh:這是一個(gè)非常復(fù)雜的問(wèn)題。我認(rèn)為我們可以從DALL-E3中學(xué)到很多相關(guān)措施,比如我們處理的色情或血腥圖像的方式。但肯定會(huì)出現(xiàn)新的安全問(wèn)題,比如錯(cuò)誤信息,或者是否允許用戶生成具有攻擊性的內(nèi)容。

一個(gè)關(guān)鍵問(wèn)題是,部署這項(xiàng)技術(shù)的公司應(yīng)該承擔(dān)多少責(zé)任?例如,公司是否應(yīng)該通知用戶,他們看到的內(nèi)容可能不是來(lái)自可信來(lái)源?還有多少責(zé)任應(yīng)該由用戶承擔(dān)?這是一個(gè)棘手的問(wèn)題,我們需要認(rèn)真思考這些問(wèn)題,以找到最好的解決方案。

15、過(guò)去,人們使用Photoshop處理圖像并發(fā)布,提出索賠。人們并沒(méi)有說(shuō),Photoshop的制造商要為濫用該技術(shù)的人負(fù)責(zé),你如何看待這些先例?

Ramesh:這很重要。我們希望人們能夠自由地表達(dá)自己,做他們想做的事情,但同時(shí)也需要負(fù)責(zé)任。逐步釋放技術(shù),并逐步引導(dǎo)人們適應(yīng)它,這是一個(gè)明智的方法。這樣可以確保技術(shù)的使用是負(fù)責(zé)任的,同時(shí)也尊重了用戶的自由表達(dá)權(quán)。

16、能介紹一下你們下一步正在開發(fā)一些功能嗎?

Brooks:我對(duì)人們將如何利用我們的產(chǎn)品創(chuàng)造出新的東西感到非常興奮。我認(rèn)為有很多才華橫溢、富有創(chuàng)造力的人都有自己想要?jiǎng)?chuàng)造的東西。但有時(shí)要做到這一點(diǎn)真的很困難,因?yàn)樗麄兛赡苋狈Ρ匾馁Y源、工具或其他東西。這項(xiàng)技術(shù)有可能讓許多才華橫溢、富有創(chuàng)造力的人創(chuàng)造出他們想要的東西。我真的很期待他們將要制作出什么了不起的東西,以及這項(xiàng)技術(shù)將如何幫助他們。

17、除了長(zhǎng)度等顯而易見的問(wèn)題之外,你能描述一下你們想要解決的局限性是什么嗎?

Peebles:為了使這項(xiàng)技術(shù)更加普及,我們需要考慮多個(gè)因素。其中一個(gè)重要的因素是降低成本,以便更多人能夠承擔(dān)。我們都知道,在視頻生成領(lǐng)域,確切的參數(shù)設(shè)置對(duì)結(jié)果影響很大。你知道你正在創(chuàng)建的視頻的分辨率和持續(xù)時(shí)間,但是你也知道生成過(guò)程不是即時(shí)的,需要等待幾分鐘,尤其是對(duì)于較長(zhǎng)的視頻。因此,我們積極努力降低線程成本,以實(shí)現(xiàn)更廣泛的普及。作為數(shù)據(jù)網(wǎng)絡(luò)(DN)的一部分,我們也必須考慮安全因素,特別是在選舉年。我們非常謹(jǐn)慎地處理潛在的錯(cuò)誤信息,并積極采取措施來(lái)應(yīng)對(duì)周圍的風(fēng)險(xiǎn)。今天,解決這些問(wèn)題已成為我們研究道路上的重要任務(wù)之一。

18、對(duì)于Sora未來(lái)的研究方向,你有什么想說(shuō)的?

Brooks:我們希望,Sora能夠通過(guò)分析所有視覺(jué)數(shù)據(jù),實(shí)現(xiàn)對(duì)世界有更深入的理解,甚至能夠理解3D。這是非常令人興奮的,因?yàn)槲覀儾](méi)有直接將3D信息輸入其中,而是讓它通過(guò)觀察視頻數(shù)據(jù)自行學(xué)習(xí)。它能夠理解在視頻中存在的3D結(jié)構(gòu),比如,它知道了當(dāng)你咬下一口漢堡時(shí),會(huì)留下咬痕。因此,它對(duì)我們的世界有了更深入的了解。當(dāng)我們與世界互動(dòng)時(shí),大部分信息都是視覺(jué)的,我們所學(xué)習(xí)的也是視覺(jué)信息。因此,我們確實(shí)相信,引領(lǐng)AI模型變得更智能、更優(yōu)秀,讓它們像我們一樣理解世界是非常重要的。我們的世界充滿了復(fù)雜性,有很多關(guān)于人們?nèi)绾位?dòng)、事情如何發(fā)生、過(guò)去的事件如何影響未來(lái)的事件的內(nèi)容,這實(shí)際上會(huì)導(dǎo)致比生成視頻更廣泛的更智能的AI模型。人類的許多智慧實(shí)際上與我們對(duì)世界的建模有關(guān)。每當(dāng)我們考慮如何行動(dòng)時(shí),我們都會(huì)在腦海中構(gòu)想場(chǎng)景,憑借著想象力演繹各種可能情景。在實(shí)際行動(dòng)之前,我們會(huì)思考:“如果我這樣做,會(huì)發(fā)生什么?如果我那樣做,會(huì)有什么后果?”所以我們有一個(gè)世界模型,將Sora構(gòu)建為世界模型,與人類擁有的大部分智能非常相似。

19、我們是如何讓Sora擁有與人類非常相似的世界模型,而不是像物理引擎那樣完全精確的東西呢?

Peebles:我們知道,人類的認(rèn)知并不總是十分準(zhǔn)確,所以我們無(wú)法做到完全精確。當(dāng)我們深入研究一組非常狹窄的物理規(guī)律,并進(jìn)行長(zhǎng)期預(yù)測(cè)時(shí),我們可以通過(guò)一些系統(tǒng)來(lái)改進(jìn)我們的理解。因此,我們對(duì)Sora的前景持樂(lè)觀態(tài)度,認(rèn)為它能夠在某一天取代這種能力。從長(zhǎng)遠(yuǎn)來(lái)看,我們希望它能夠比人類更好地扮演世界模型的角色。但是,我們也必須認(rèn)識(shí)到,對(duì)于其他類型的智能來(lái)說(shuō),這種能力并不總是必需的。盡管如此,對(duì)于Sora和其他模型來(lái)說(shuō),未來(lái)仍然會(huì)有改進(jìn)的空間。

20、你認(rèn)為公眾對(duì)視頻模型有什么誤解嗎?

Ramesh:對(duì)于公眾來(lái)說(shuō),Sora的發(fā)布可能是最大的更新。正如Bill和Tim所說(shuō),在內(nèi)部,我們一直在將Sora與GPT模型進(jìn)行比較。當(dāng)GPT-1和GPT-2問(wèn)世時(shí),人們開始越來(lái)越清楚地認(rèn)識(shí)到,只需擴(kuò)大這些模型的規(guī)模就能賦予它們驚人的能力。

目前還不清楚,擴(kuò)大下一個(gè)標(biāo)記預(yù)測(cè)的規(guī)模是否會(huì)產(chǎn)生一個(gè)有助于編寫代碼的語(yǔ)言模型。對(duì)我們來(lái)說(shuō),很明顯,將同樣的方法應(yīng)用于視頻模型也會(huì)帶來(lái)非常驚人的能力。我認(rèn)為Sora 1的發(fā)布證明了這一點(diǎn),現(xiàn)在我們站在了縮放曲線上的一個(gè)關(guān)鍵點(diǎn)。我們對(duì)此感到非常興奮。Peebles:正如Tim和Aditya所暗示的那樣,我們確實(shí)覺(jué)得視頻模型正處于GPT-1的時(shí)刻,但這些模型很快就會(huì)變得更好。我們對(duì)此感到非常興奮,因?yàn)槲覀兿嘈?,這將為創(chuàng)意世界帶來(lái)難以置信的好處。雖然實(shí)現(xiàn)AGI還需要時(shí)間,但我們正在努力確保安全問(wèn)題得到充分考慮,并建立一個(gè)強(qiáng)大的技術(shù)基礎(chǔ),以確保社會(huì)真正從中受益,同時(shí)減輕潛在的負(fù)面影響。盡管我們面臨挑戰(zhàn),但現(xiàn)在確實(shí)是一個(gè)令人振奮的時(shí)刻,我們迫切地想要知道未來(lái)模型能夠?qū)崿F(xiàn)什么。

來(lái)源:No Priors(本文系網(wǎng)易新聞?網(wǎng)易號(hào)特色內(nèi)容激勵(lì)計(jì)劃簽約賬號(hào)【智東西】原創(chuàng)內(nèi)容,未經(jīng)賬號(hào)授權(quán),禁止隨意轉(zhuǎn)載。)

推薦器件

更多器件
器件型號(hào) 數(shù)量 器件廠商 器件描述 數(shù)據(jù)手冊(cè) ECAD模型 風(fēng)險(xiǎn)等級(jí) 參考價(jià)格 更多信息
MKL25Z128VLH4 1 Freescale Semiconductor RISC MICROCONTROLLER

ECAD模型

下載ECAD模型
$6.94 查看
DSPIC33EP512MU810-I/PT 1 Microchip Technology Inc 16-BIT, FLASH, 60 MHz, MICROCONTROLLER, PQFP100, 12 X 12 MM, 1 MM HEIGHT, LEAD FREE, PLASTIC, TQFP-100
$10.04 查看
ATMEGA328P-MU 1 Microchip Technology Inc IC MCU 8BIT 32KB FLASH 32VQFN

ECAD模型

下載ECAD模型
$2.5 查看

相關(guān)推薦

電子產(chǎn)業(yè)圖譜