2023 年,NVIDIA 發(fā)布了眾多創(chuàng)新的研究成果,從 Neuralangelo 的高保真神經(jīng)表面重建到 Magic3D 的文本到 3D 內(nèi)容創(chuàng)建,這些項目推動了 AI 創(chuàng)新的邊界。從研究主題分布來看,關于 AI 智能體的研究有 3 個(機器人和虛擬角色),3D 生成模型研究有 2 個,圖形處理研究 2 個,圖像生成研究 2 個,視頻生成研究 1 個。讓我們一起回顧 2023 年 NVIDIA 引領 AI 創(chuàng)新發(fā)展的 10 大研究亮點。
Neuralangelo :高保真神經(jīng)表面重建
Neuralangelo 是一個全新 AI 模型,它利用神經(jīng)網(wǎng)絡進行 3D 重建,可將 2D 視頻片段轉(zhuǎn)換為詳細的 3D 結(jié)構(gòu),為建筑物、雕塑以及其他真實物體生成逼真的虛擬復本。就像米開朗基羅用大理石雕刻出令人驚嘆、栩栩如生的雕塑一樣,Neuralangelo 能生成具有復雜細節(jié)和紋理的 3D 結(jié)構(gòu)。隨后,創(chuàng)意人士可以將這些 3D 物體導入設計軟件中,對其進行進一步編輯,用于藝術、視頻游戲開發(fā)、機器人和工業(yè)數(shù)字孿生。Neuralangelo 這項研究入選 TIME 雜志「2023 年最佳發(fā)明」榜單。
了解詳細研究成果,請訪問如下論文:????https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
點擊博客,了解更多:????《數(shù)字文藝復興:NVIDIA Neuralangelo 研究重構(gòu) 3D 場景》
Eureka:AI 智能體利用 LLM訓練機器人完成復雜任務
Eureka 是一種新型 AI 智能體,它可以教機器人復雜的技能。它教會了機器人手如何快速轉(zhuǎn)筆,而且第一次轉(zhuǎn)筆就能像人類做得一樣好。Eureka 還教會了機器人完成打開抽屜和柜子、拋接球、操作剪刀等任務。下面視頻中所展示的令人驚嘆的 “魔術” 是機器人通過 Eureka 學會熟練完成的近 30 項任務之一。Eureka 可以自動編寫獎勵算法來訓練機器人。
了解詳細研究成果,請訪問如下論文:? ?https://arxiv.org/abs/2310.12931
點擊博客,了解更多:????《Eureka!NVIDIA 研究突破為機器人學習注入新動力》
Magic3D:高分辨率文本轉(zhuǎn) 3D 內(nèi)容創(chuàng)建
Magic3D 是一個可以從文字描述中生成3D模型的AI模型。?其可在 40 分鐘內(nèi)創(chuàng)建高質(zhì)量的三維網(wǎng)格模型,比谷歌 DreamFusion(據(jù)稱平均耗時 1.5 小時)快 2 倍,同時還能獲得更高的分辨率。在輸入諸如「一只坐在睡蓮上的藍色毒鏢蛙」這樣的提示后,Magic3D 在大約 40 分鐘內(nèi)生成了一個 3D 網(wǎng)格模型,并配有彩色紋理。
一只坐在睡蓮上的藍色毒鏢蛙
Magic3D 還可以對 3D 網(wǎng)格進行基于提示的實時編輯。想改變生成模型,只要改改文字提示,就能立即生成新的模型。
從一只坐在一堆西蘭花上的金屬兔子到一個坐在一堆巧克力餅干上的獅身人面像
了解詳細研究成果,請訪問如下論文:????https://arxiv.org/abs/2211.10440
利用 ADMM 在 GPU 上實現(xiàn)交互式發(fā)絲模擬
研究人員實現(xiàn)了在 GPU 上計算頭發(fā)模擬的新方法——ADMM。這是一種可以利用神經(jīng)物理學來實現(xiàn)數(shù)萬根頭發(fā)實時且高清模擬的方式。該項 AI 技術可訓練神經(jīng)網(wǎng)絡預測相應對象在現(xiàn)實世界中的運動軌跡。該團隊的這種用于精確、全面地模擬頭發(fā)的新穎方式還基于現(xiàn)階段的 GPU 進行了針對性優(yōu)化。其性能大幅優(yōu)于目前最先進的基于 CPU 的求解器,可將模擬時間從數(shù)天縮短到數(shù)小時,同時還可提高實時頭發(fā)模擬的質(zhì)量。
了解詳細研究成果,請訪問如下論文:https://d1qx31qr3h6wln.cloudfront.net/publications/Interactive Hair Simulation on the GPU Using ADMM.pdf?
點擊博客,了解更多:《NVIDIA 最新圖形學研究成果推動生成式 AI 前沿領域的進一步發(fā)展》
利用 LDM 實現(xiàn)高分辨率視頻合成
Latent Diffusion Models(LDM)可用于高分辨率視頻生成任務。通過在低維潛空間中訓練擴散模型,LDM 實現(xiàn)了高質(zhì)量圖像合成,并避免了過多的計算需求。研究人員還將現(xiàn)有的文本到圖像 LDM 模型轉(zhuǎn)換為高效、精確的文本到視頻模型,并展示了個性化文本到視頻生成的結(jié)果。具體用例包括多模態(tài)駕駛情景預測等。
進行時態(tài)視頻微調(diào)的示意
了解詳細研究成果,請訪問如下論文:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
點擊博客,了解更多:????《NVIDIA 最新圖形學研究成果推動生成式 AI 前沿領域的進一步發(fā)展》
Text2Materials:使用文本到圖像提示來生成自定義紋理材質(zhì)?
Text2Materials 是一種可以幫助藝術家快速創(chuàng)建和迭代 3D 場景材質(zhì)的生成式 AI 工作流。這項研究展示了藝術家如何利用文本或圖像提示來更快地生成織物、木材和石材等自定義紋理材質(zhì),同時對創(chuàng)作進行更加精細的把控。這套 AI 模型將促進材質(zhì)創(chuàng)建和編輯的迭代,使企業(yè)能夠提供新工具來幫助藝術家快速完善 3D 對象的外觀,直到達到想要的效果。在包括建筑、游戲開發(fā)和室內(nèi)設計在內(nèi)的創(chuàng)意產(chǎn)業(yè)中,這些功能可以幫助藝術家快速探索想法并嘗試不同的美學風格,以創(chuàng)建場景的多個版本。
點擊博客,了解更多:《NVIDIA Research 展示生成式 AI 如何幫助創(chuàng)建和編輯逼真的材質(zhì)》
CALM:可操縱虛擬角色的條件對抗性潛在模型?
CALM 是一種為用戶控制的交互式虛擬角色生成多樣化且可定向行為的方法。CALM 基于模仿學習,能捕捉并直接控制角色的動作。通過該方法,可以聯(lián)合學習控制策略和運動編碼器,從而重構(gòu)給定運動的關鍵特征,而不僅僅是復制它。使用 CALM 訓練完成后,可以在類似于視頻游戲中的直觀界面來控制角色。
CALM 由三個階段組成學習有意義的運動語義表征
了解詳細研究成果,請訪問如下論文:https://arxiv.org/abs/2305.02195
Vid2Player3D:通過比賽視頻學習物理模擬網(wǎng)球技術
研究人員創(chuàng)建了一個 AI 系統(tǒng),可以從現(xiàn)實世界網(wǎng)球比賽的 2D 視頻錄像中學習各種網(wǎng)球技能,并將這些動作應用于 3D 角色。模擬網(wǎng)球運動員可以準確地將球打到虛擬球場的目標位置,甚至與其他角色進行長時間的對攻。除了網(wǎng)球的測試案例之外,還解決了一個難題:即在不使用昂貴的動作捕捉數(shù)據(jù)的前提下,生成能夠逼真地完成各種技術動作的 3D 角色。
了解詳細研究成果,請訪問如下論文:https://research.nvidia.com/labs/toronto-ai/vid2player3d/
FlexiCubes:高效、高質(zhì)量的網(wǎng)格優(yōu)化方法
FlexiCubes 可以在 3D 工作流中生成高質(zhì)量網(wǎng)格,從而提升各類應用的質(zhì)量。全新 FlexiCubes 網(wǎng)格提取方法改進了許多最近的 3D 網(wǎng)格生成工作流,進而生成了能夠更好表示復雜形狀細節(jié)的更高質(zhì)量的網(wǎng)格。這些生成的網(wǎng)格也非常適合用于物理模擬,因為要想高效產(chǎn)出穩(wěn)定的模擬,網(wǎng)格的質(zhì)量尤其重要。四面體網(wǎng)格可直接用于物理模擬。
了解詳細研究成果,請訪問如下論文:https://research.nvidia.com/labs/toronto-ai/flexicubes/
點擊博客,了解更多:????《生成高質(zhì)量 3D 網(wǎng)格,從重建到生成式 AI》
eDiff-I:基于專家降噪器集合的文本到圖像擴散模型
eDiff-I 是一種用于合成給定文本圖像的擴散模型,可以生成與任何輸入文本提示相對應的逼真圖像。除了文本到圖像的合成,它還提供了兩個額外功能:樣式傳輸(這使我們能夠使用參考樣式圖像控制生成樣本的樣式)與用文字繪畫(即用戶可以通過在畫布上繪制分割圖來生成圖像的應用程序,這對于制作所需的圖像非常方便)。在這個框架中,研究人員訓練了一組專家降噪器,專門用于在生成過程的不同間隔中進行降噪,從而提高合成能力。
了解詳細研究成果,請訪問如下論文:https://research.nvidia.com/labs/dir/eDiff-I/