編譯?|??陳駿達
編輯?|??Panken
著名計算機科學家李飛飛在她最新的TED演講中,分享了關(guān)于空間智能及其改變世界的力量的看法。
智東西6月4日消息,今年4月,著名計算機科學家、斯坦福教授,有“AI教母”之稱的李飛飛在溫哥華舉行的2024年TED大會上,發(fā)表了以《有了空間智能,AI將會理解現(xiàn)實世界》為題的15分鐘演講,分享了她關(guān)于空間智能及其改變世界的力量的看法。值得一提的是,李飛飛在斯坦福大學的個人資料顯示,她從2024年初到2025年底處于部分休假狀態(tài)。據(jù)路透社報道,目前她正在創(chuàng)辦一家初創(chuàng)公司,創(chuàng)業(yè)的方向正是空間智能。李飛飛在演講中提到,隨著神經(jīng)網(wǎng)絡算法的出現(xiàn)、GPU能力的提升,加上大數(shù)據(jù)的助力,計算機視覺領(lǐng)域?qū)崿F(xiàn)了快速的發(fā)展。目前,研究者們已經(jīng)不滿足于僅僅讓計算機看見世界,而是追求讓計算機理解世界,在觀察世界這個三維空間的過程中學習知識并做出行動。這便是所謂的“空間智能”(Spatial Intelligence)。李飛飛指出,行動的沖動是所有具有空間智能的生物的天性。如果想讓目前的AI實現(xiàn)能力上的突破,完全發(fā)揮出當下這場數(shù)字寒武紀大爆發(fā)的潛力,空間智能是必不可少的。同時,她也提醒道,要實現(xiàn)空間智能并不容易。開發(fā)者需要深思熟慮,確保AI技術(shù)始終以人為本。但如果我們真的能開發(fā)出造福人類的空間智能計算機與機器人,我們定能創(chuàng)造出一個更為美好的世界。以下是李飛飛四月份TED演講的完整編譯:
01.看見世界理解世界,是智能的催化劑
我要展示的是一片虛無。這就是5.4億年前的世界:純粹的、無盡的黑暗。世界一片漆黑并不是因為缺乏光線,而是因為缺乏能看見這個世界的眼睛。
在這個世界里,陽光能穿透到一公里深的海底,海底熱液噴口也正散發(fā)著光芒,生命在這里蓬勃發(fā)展。但在這些古老的水域中,卻沒有一只眼睛能夠看到這些景象。沒有視網(wǎng)膜,沒有角膜,沒有晶狀體。所有這些光芒,所有這些生命都無人見證。在過去,“看”這一概念并不存在,沒有生物真的看到過世界。直到這個時刻的到來。
三葉蟲出現(xiàn)了,這是地球上第一種能夠感知光的生物。它們出現(xiàn)的原因我們目前也才略知一二。但它們是我們現(xiàn)在習以為常的生活環(huán)境中的第一批棲息者,也是第一批發(fā)現(xiàn)除了自己外還有其他事物存在的生物。它們意識到,世界是由許多其它“自我”組成的。視覺被認為是寒武紀生命大爆發(fā)背后的推手。這是一個動物物種大量進入化石記錄的時期。最初,這些動物只是被動地接受光線,逐漸演變成更為主動的行為。神經(jīng)系統(tǒng)開始進化。視力轉(zhuǎn)化為洞察力,理解轉(zhuǎn)化為行動,這一切催生了智能。
02.三股力量推動AI時代到來不可能已成為可能
現(xiàn)在,我們不再滿足于僅僅依靠自然賦予我們的視覺智能。好奇心驅(qū)使我們創(chuàng)造出和我們一樣甚至更聰明的機器。九年前,在這個舞臺上,我匯報了計算機視覺這一AI分支領(lǐng)域的早期進展。當時,有三股強大的力量首次匯聚在一起:第一股力量是一種被稱為神經(jīng)網(wǎng)絡的算法家族;第二股力量是快速的專用計算硬件,也就是GPU;第三股力量是大數(shù)據(jù),比如我的實驗室當時花了數(shù)年時間構(gòu)建出來的ImageNet圖片數(shù)據(jù)庫。這三股力量一同推動了AI時代的到來。
我們現(xiàn)在已經(jīng)有了長足進步。當時,單單是給圖片打上標簽就是一個重大的突破。但這些算法的速度和準確度迅速提高。由我的實驗室主導的年度ImageNet挑戰(zhàn)賽評估了這一進展。在這個圖表上,你可以看到每年的改進和具有里程碑意義的模型。
我們更進一步,創(chuàng)建了能夠分割對象或預測它們之間動態(tài)關(guān)系的算法,這一算法是我的學生和合作者們的工作成果。不僅如此,還記得上次我展示的第一個能用自然語言描述照片的計算機視覺算法嗎?那是我和我杰出的學生Andrej Karpathy合作的成果。當時,我碰運氣般地問他:“Andrej,我們能讓計算機做相反的操作嗎?”Andrej笑著說:“哈哈,那是不可能的?!钡邕@篇推文中所說的,不久前,不可能的事情變成了可能。
這要歸功于一系列擴散模型,它們推動了如今生成式AI算法的發(fā)展。這些算法可以根據(jù)人類提示的句子生成全新的照片和視頻。許多人已經(jīng)看到了OpenAI的Sora最近令人印象深刻的成果。但即便沒有大量的GPU,我的學生和我們的合作者也開發(fā)出了一個叫做Walt的生成視頻模型。我們模型的發(fā)布時間領(lǐng)先Sora數(shù)月。你現(xiàn)在看到的是其中一些生成結(jié)果。
這些結(jié)果還有改進的空間??纯茨侵回埖难劬Γ€有貓雖然在水下但卻沒有打濕自己。這真是一場災難(cat-astrophe)。
03.看見世界遠遠不夠空間智能讓看見變?yōu)樾袆?/strong>
過去僅僅是序章,我們將從這些錯誤中學習,創(chuàng)造我們想象中的未來。在這個未來中,我們希望AI能幫我們完成一切事情,或者擁有幫助我們完成一切事情的能力。數(shù)年來我一直在強調(diào),拍下一張照片并不等于看見和理解所拍的內(nèi)容。而今天我還想補充一點,僅僅是看見還遠遠不夠。
看是為了做和學。當我們在三維空間和時間中對這個世界采取行動時,我們也在學習。我們在學習如何更好地看和做。自然創(chuàng)造了這個由“空間智能”(Spatial Intelligence)驅(qū)動的良性循環(huán)。
行動的沖動是所有具有空間智能的生物的天性,它將感知與行動聯(lián)系在一起。如果我們想要推動AI超越當前的能力水平,我們需要的不僅是能看和說的AI。我們需要能做出行動的AI。
04.空間智能已取得初步進展機器人可以給你做飯了
實際上,我們正在取得令人興奮的進展。最近在空間智能方面的里程碑時間是教會計算機觀察、學習、做出行動以及更好地學習和做出行動。這并不容易。自然界花費了數(shù)百萬年時間才進化出了空間智能。這種智能需要依靠眼睛接收光線,將二維圖像投射到視網(wǎng)膜上,然后讓大腦將這些數(shù)據(jù)轉(zhuǎn)換為三維信息。直到最近,谷歌的一組研究人員才開發(fā)出一種算法,可以將一組照片轉(zhuǎn)化為三維空間。
這些都是未來種種可能性的萌芽。一個可以將我們整個世界轉(zhuǎn)化為數(shù)字形式,并通過建模展現(xiàn)出這個世界的豐富與參差的未來。自然在我們各自的心智中隱秘地完成了這些事情。而空間智能技術(shù)有望能為我們的集體意識實現(xiàn)這點。隨著空間智能的進展加速,一個新的良性循環(huán)正在我們眼前展開。這種相互作用正在催化機器人學習。這是任何需要理解和與三維世界互動的具身智能系統(tǒng)的關(guān)鍵組成部分。十年前,我的實驗室的ImageNet數(shù)據(jù)庫幫助訓練計算機,讓它們有了看的能力?,F(xiàn)在,我們正在用行為和動作來訓練計算機和機器人,讓它們具備在三維世界里行動的能力。但我們并不收集靜態(tài)圖像,而是開發(fā)了由三維空間模型驅(qū)動的模擬環(huán)境,使計算機能夠在無限多樣的可能性中學習行動。你現(xiàn)在看到的是一個由我的實驗室領(lǐng)導的Behavior項目中的機器人學習示例。
我們還在機器人的語言智能方面取得了令人興奮的進展。我的學生和合作者們是第一批在這方面取得進展的團隊。利用基于大型語言模型的輸入,他們研發(fā)的機械臂現(xiàn)在能夠根據(jù)口頭指令執(zhí)行各種任務。
例如,打開抽屜或拔出充電的手機,或者用面包、生菜、西紅柿做個三明治,甚至為用戶放上餐巾紙。通常,我會想要在三明治里多放點料,但這是個好的開始。
05.空間智能未來可期能在醫(yī)療等領(lǐng)域發(fā)揮重要作用
在遠古時代,在那片原始的海洋中,看見和感知環(huán)境的能力開啟了寒武紀大爆發(fā)的序幕,不同的生命形式開始互動。如今,那束光芒正在觸及數(shù)字大腦??臻g智能不僅讓機器能夠與其它機器互動,還能讓它們與人類以及真實或虛擬的三維世界互動。隨著這種未來逐漸變?yōu)楝F(xiàn)實,它將對許多人的生活產(chǎn)生深遠的影響。讓我們以醫(yī)療為例。在過去的十年里,我的實驗室一直在應用AI,解決患者預后效果不佳和醫(yī)務人員過勞的問題。我們與斯坦福醫(yī)學院和合作醫(yī)院的工作人員展開合作,正在試點使用智能傳感器。這些傳感器可以檢測醫(yī)務人員進入病房時是否正確洗手,還能跟蹤手術(shù)器械,或者在患者處于危險(如跌倒)時提醒護理團隊。
我們將這些技術(shù)視為一種環(huán)境智能,就像一雙額外的眼睛。它們確實能起到一些作用。但我希望對我們的患者、醫(yī)務人員和護理人員提供更多互動式的幫助,他們正迫切地需要一個能真正做點事情的幫手。想象一下,如果有了能運送醫(yī)療用品的自主機器人,護理人員就只需專注于患者。利用增強現(xiàn)實技術(shù),我們也能引導外科醫(yī)生進行更安全、更快和創(chuàng)傷更小的手術(shù)。想象一下,嚴重癱瘓的患者通過腦電波控制機器人,完成我們司空見慣的日常任務。是的,通過腦電波就可以。大家可以在我實驗室最近的一項試點研究中,看到這一未來的雛形。
在這個例子中,機械臂的控制是通過非侵入性的腦電帽收集的腦電波信號實現(xiàn)的。這個機械臂現(xiàn)在正在烹飪一頓壽喜燒。
06.數(shù)字生命寒武紀大爆發(fā)即將到來,但必須確保技術(shù)始終以人為本
五億年前,視覺的出現(xiàn)徹底顛覆了原本那一片漆黑的世界。它開啟了一場影響最深遠的進化過程:動物世界中智能的發(fā)展。過去十年中,AI的驚人進步同樣令人震撼。但我相信,如果我們想要完全發(fā)揮這場數(shù)字寒武紀大爆發(fā)的潛力,我們就必須為計算機和機器人提供空間智能。這也正是自然界為我們提供的東西。這是一個激動人心的時刻,我們可以教我們的數(shù)字伙伴學會推理,教會他們與我們稱之為家園的三維空間互動,并創(chuàng)造更多我們可以探索的新世界。實現(xiàn)這一未來并不容易。我們需要大家在采取行動時深思熟慮,開發(fā)始終以人為本的技術(shù)。但如果我們能以正確的方式推進技術(shù)的發(fā)展,這些具備空間智能的計算機和機器人將不僅僅只是實用的工具,還將成為可信賴的伙伴,提升和增強我們的生產(chǎn)力,促進人類社會的發(fā)展。它們也將尊重人類個體的尊嚴,促進人類的共同繁榮。
最令我興奮的,是這樣的一個未來:AI將擁有更強的理解能力、洞察能力和空間感知能力,并與我們一起不斷努力,以更好的方式創(chuàng)造出一個更美好的世界。謝謝。
07.結(jié)語:空間智能開啟AI發(fā)展新篇章或成下一代AI的“原爆點”
在九年前的TED演講中,李飛飛介紹了ImageNet這一深度學習爆發(fā)的起點,這也為當代AI奠定了基礎(chǔ)。如今,她再次站在TED的舞臺上,闡釋了“空間智能”這一全新概念,指引AI朝著更高境界邁進。李飛飛本人曾在多個場合指出,AI學術(shù)界能獲得的資源實在是太有限了。她呼吁政府能為學術(shù)界提供必要的支持,以促進AI研究的發(fā)展?,F(xiàn)在,李飛飛已暫離象牙塔,下場創(chuàng)業(yè),并拿到了硅谷知名風投公司a16z的投資。我們也期待她能在學界之外,給AI領(lǐng)域帶來新的驚喜。