2023年,是人工智慧爆炸性成長的一年。
微軟、Google、Meta等科技巨頭紛紛回顧了這一年研究成果。英偉達(輝達)雖以賣算力成為全球GPU霸主,但在AI研究方面也毫不遜色。
對此,Jim Fan本人總結了,英偉達2023年研究的十大看點。
主題的主要分佈:3個有關具身AI(機器人,虛擬角色);2個有關3D生成模型;2個圖形處理;2個圖像生成;1個視頻生成的研究。
來自英偉達和約翰霍普金斯大學的研究人員提出的新型AI模型,利用神經網路重建3D物件。最新研究也被CVPR 2023錄取。
論文地址:https://research.nvidia.com/labs/dir/neuralangelo/paper.pdf
特別是,Neuralangelo可以從手機視頻,無人機拍攝的視頻重建“高保真的大規模場景”。
Neuralangelo這項研究曾被TIME雜誌評為「2023年200個最佳發明」之一。
先前的AI模型在重建3D場景時,往往難以準確捕捉重複的紋理模式、均勻的色彩以及強烈的色彩變化。
為此,團隊提出了一個將多重解析度3D哈希網格的表徵能力和神經表面渲染結合的全新方法—Neuralangelo。
去年,英偉達研究人員曾創造了一種新工具3D MoMa,將照片變成3D物件易如反掌。
NeuralAngelo建立在這一概念的基礎上,允許導入更大、更詳細的空間和物件。而它特別之處在於,可以準確地捕捉重複的紋理模式、同質的顏色和強烈的顏色變化。
透過採用「即時神經圖形基元」,也就是NVIDIA Instant NeRF技術的核心,Neuralangelo由此可以捕捉更細微的細節。
團隊的方法仰賴2個關鍵要素:
(1)用於計算高階導數作為平滑操作的數值梯度;
(2)在控制不同細節等級的哈希網格上進行由粗到細的最佳化。
即使沒有輔助深度,Neuralangelo也能有效地從多視圖影像中恢復密集3D表面結構,其保真度顯著超過了以往的方法,使得能夠從RGB視訊捕捉中重建詳細的大規模場景。
例如,Neuralangelo「復刻」出3D版的著名雕像大衛,大理石的細節、紋理栩栩如生。
要知道,收藏在佛羅倫斯美術學院的大衛雕像,僅身高3.96米,加上基座都有5.5米。
它甚至可以重建一棟建築物的內部和外部結構,屋頂瓦片、玻璃窗格、還有各種細節都一再出現。
Magic3D是一個可以從文字描述產生3D模型的AI模型。
論文網址:https://arxiv.org/pdf/2211.10440.pdf
在輸入諸如“一隻坐在睡蓮上的藍色毒鏢蛙”這樣的提示後,Magic3D在大約40分鐘內生成了一個3D網格模型,並配有彩色紋理。
Magic3D還可以對3D網格進行基於提示的即時編輯。想改變生成模型,只要改改文字提示,就能立即產生新的模型。
與GoogleDreamFusion方式類似,Magic3D同樣是將低解析度生成的粗略模型優化為高解析度的精細模型,由此產生的Magic3D方法,可以比DreamFusion更快地產生3D目標。
從上面Magic3D的架構示意圖可以看出,Magic3D以「由粗到細」的方式從輸入的文字提示中產生高解析度的三維內容。
整個生成過程分為兩個階段。
第一階段,研究團隊使用eDiff-I作為低解析度文字-影像擴散先驗。透過優化Instant NGP獲得初始3D表示。
之後透過重複抽樣和渲染低解析度影像,不斷計算Score Distillation Sampling的損失來訓練Instant NGP。
優化後使用DMTet,從Instant NGP中提取一個粗略模型,並使用哈希網格和稀疏加速結構來加速。
此擴散先驗用於計算場景的梯度,根據64×64的低解析度影像在渲染影像上定義的損失進行建模。
在第二階段,研究團隊使用高解析度潛在擴散模型(LDM),不斷抽樣和渲染第一階段的粗略模型。
透過互動渲染器進行最佳化,反向產生512×512的高解析度渲染影像。
英偉達研究人員實作了在GPU上計算頭髮模擬的新方法—ADMM,論文已被SIGGRAPH 2023上展示。
論文地址:https://research.nvidia.com/publication/2023-08_interactive-hair-simulation-gpu-using-admm
總的來說,這項研究實現了使用AI來預測頭髮在現實世界中的行為。
比起先前的方法,它的性能更加強大,甚至,可以根據頭髮的複雜程度以交互幀率計算模擬,如下圖所示,
論文研究者Gilles Daviet解釋道,透過在各種場景中的測試,頭髮模擬每幀耗時在0.18-8秒之間。
簡而言之,平均計算時間將根據各種因素而增加,例如頭髮數量和長度,或如何精確處理碰撞。
至於內存,根據場景的不同,模擬所需的內存從1GB到2×9.5 GB不等(在雙GPU設定下)。
這種更快的頭髮模擬技術,可用於多種用途。
基於物理的編輯工具可用於調整現有的髮型,同時保持彈性和自碰撞約束。
他創建的演示工具可以「統一縮放頭髮的長度和/或弧度;沿切割平面修剪髮棒;以及通過類似彈簧的力在選擇半徑內直接操作髮絲」。
論文連結:https://arxiv.org/pdf/2310.12931.pdf
英偉達等機構的研究人員開發出來的Eureka系統,可以讓GPT-4直接教導機器人完成基本的動作。
比如,花樣轉筆。
具體來說,它是一個GPT-4加持的獎勵設計演算法,充分利用了GPT-4優秀的零樣本生成、代碼生成和上下文學習的能力,產生的獎勵可以用於透過強化學習來讓機器人獲得複雜的具體技能。
在沒有任何特定於任務的提示或預先定義的獎勵範本的情況下,Eureka產生的獎勵函數的質量,已經能夠超過人類專家設計的獎勵!
具體來說,Eureka透過在上下文中發展獎勵功能,實現了人類層級的獎勵設計,包含了3個關鍵組成部分。
- 模擬器環境程式碼作為上下文,快速啟動初始「種子」獎勵函數。
- GPU上的大規模平行RL,可以快速評估大量候選獎勵。
- 獎勵反射可在上下文中產生有針對性的獎勵突變。
透過在低維潛空間中訓練擴散模型,LDM實現了高品質影像合成,並避免了過多的運算需求。
論文網址:https://arxiv.org/pdf/2304.08818.pdf
研究人員將LDM應用於視訊生成,並進行了微調,實現了對512x1024解析度駕駛影片的優秀表現。
此外,研究人員還將現有的文字到影像LDM模型轉換為高效、精確的文字到視訊模型,並展示了個人化文字到影片產生的結果。
具體來說,這個模型產生的整體流程如下,先生成關鍵幀,然後也使用擴散模型進行插幀,將相鄰幀的latent作為插幀片段的兩端進行保留,中間待插入的幀latent用噪聲初始化。
然後經過解碼器,生成視頻,再用超分模組。
在產生長視頻和插幀時,使用mask-condition的方法,就是用一個二值的mask,通過給定一定的context幀的latent,來預測被mask的幀latent,可以通過迭代的方法生成長視頻。
產生的影片效果如下,解析度為有1280x2048像素,由113幀組成,以24fps的速度渲染,產生4.7秒的長剪輯。
這項用於文字到視訊生成的視訊LDM基於穩定擴散,總共有4.1B個參數,包括除剪輯文字編碼器之外的所有組件。
在這些參數中,只有27億是透過影片進行訓練的。
具體用例中,例如可以進行多模態駕駛情境預測。
作為另一個可能相關的應用程序,研究人員可以採用相同的起始幀並產生多個看似合理的推出。在下面的兩組影片中,合成從相同的初始幀開始。
專案介紹:https://blogs.nvidia.com/blog/siggraph-research-generative-ai-materials-3d-scenes/
英偉達研究人員憑藉可協助藝術家快速迭代3D場景的生成式AI模型演示,贏得了SIGGRAPH現場活動的最佳展示獎。
在演示中,英偉達研究人員在客廳場景下進行了展示。
研究人員使用OpenUSD來添加磚紋理牆,創造和修改沙發和抱枕的布料選擇,並將抽象的動物設計融入了牆壁的特定區域。
在包括建築、遊戲開發和室內設計在內的創意產業中,這些功能可以幫助藝術家快速探索想法並嘗試不同的美學風格,以創建場景的多個版本。
而這個完全基於物理的材質生成功能將透過英偉達Picasso基礎模型平台提供服務。
透過英偉達Picasso基礎模型平台,企業開發人員、軟體創建者和服務提供者可以選擇訓練、微調、優化和推斷圖像、視訊、3D 和360 HDRi 的基礎模型,以滿足他們的視覺設計需求。
專案地址:https://research.nvidia.com/labs/par/calm/
CALM是一種為使用者控制的互動式虛擬角色產生多樣化且可定向行為的方法。
透過模仿學習,CALM 可以學習運動的表示形式,捕捉人體運動的複雜性和多樣性,並且能夠直接控制角色運動。
該方法聯合學習控制策略和運動編碼器,該編碼器可以重建給定運動的關鍵特徵,而不僅僅是複製它。
結果表明,CALM 學習語義運動表示,從而能夠控制生成的運動和風格調節,以進行更高級別的任務訓練。
CALM由3個部分組成:
在低階訓練期間,CALM學習編碼器和解碼器。編碼器從運動參考資料集中獲取運動、關節位置的時間序列,並將其對應到低維潛在表示。
此外,CALM 也聯合學習解碼器。解碼器是一個低階策略,它與模擬器互動並產生與參考資料集類似的運動。
第二階段:方向性控制
為了控制運動方向,研究人員訓練高階任務驅動策略來選擇潛在變數。
這些潛在變數被提供給產生所要求的動作的低階策略。
在這裡,學習到的運動表示可以實現某種形式的風格調節。為了實現這一點,運動編碼器用於獲取所請求運動的潛在表示。
然後,向高階策略提供與所選潛在變數和代表所請求風格的潛在變數之間的餘弦距離成比例的額外獎勵,從而指導高階策略採用所需的行為風格。
第三階段:推理
最後,將先前訓練的模型(低階策略和方向控制器)組合起來組成複雜的動作,而無需額外的訓練。
為此,使用者產生一個包含標準規則和命令的有限狀態機(FSM)。它決定了執行哪個動作,類似於使用者如何控制電玩角色。
例如,開發人員可以建構一個FSM,如(a)「蹲下來走向目標,直到距離< 1m」,然後(b)「踢」,最後(c)「慶祝」。
專案地址:https://research.nvidia.com/labs/toronto-ai/vid2player3d/
英偉達研究人員提出了一個系統,它可以從廣播影片中收集的大規模網球比賽演示中學習各種物理模擬的網球技能。
他們的方法建立在分層模型的基礎上,結合了低階模仿策略和高級運動規劃策略,以在從廣播影片中學習的運動嵌入中引導角色。
當大規模部署在包含大量現實世界網球比賽範例的大型影片集上時,研究人員的方法可以學習複雜的網球擊球技巧,並將多個鏡頭真實地連結在一起形成擴展的比賽,僅使用簡單的獎勵,並且無需明確的擊球註釋類型。
為了解決從廣播影片中提取的低品質運動,研究人員透過基於物理的模仿來校正估計的運動,並使用混合控制策略,透過高級策略預測的校正來覆蓋學習運動嵌入的錯誤方面。
系統可以合成兩個物理模擬角色,透過模擬球拍和球的動力學進行長時間的網球比賽。
系統包括四個階段。首先,研究人員估算2D和3D球員姿勢以及全局根部軌跡,以此創建運動資料集。
其次,訓練一個低層次的模仿策略,用來模仿運動數據,控制模擬角色的低層次行為,並產生一個物理修正的運動數據集。
接下來,研究人員對修正後的運動資料集進行條件變分自編碼器(VAE)的擬合,以學習一個低維度的運動嵌入,從而產生類人的網球動作。
最後,訓練一個高階的運動規劃策略,透過結合運動嵌入輸出的身體動作和對角色腕部運動的預測修正,產生目標運動姿態。
然後,透過低層次策略模仿這個目標動作,以控制物理模擬的角色執行所需任務。
專案地址:https://research.nvidia.com/labs/toronto-ai/flexicubes/
這項研究是基於梯度的網格最佳化。研究人員透過將3D 表面網格表示為標量場的等值面來迭代優化3D 表面網格,這是攝影測量、生成建模和逆向物理等應用中越來越常見的範例。
現有的實作採用經典的等值面擷取演算法。這些技術旨在從固定的已知欄位中提取網格,並且在最佳化設定中,它們缺乏表示高品質特徵保留網格的自由度,或遭受數值不穩定的影響。
研究人員提出了FlexiCubes,這是一種等值面表徵,專門用於優化幾何、視覺甚至物理目標的未知網格。
研究人員將額外精心選擇的參數引入到表徵中,從而允許對提取的網格幾何形狀和連接性進行本地靈活調整。
在優化下游任務時,這些參數會透過自動微分與底層標量場一起更新。這種提取方案基於雙行進立方體,以改進拓撲屬性,並提出擴展以選擇性地生成四面體和分層自適應網格。
透過大量實驗,研究人員在綜合基準和實際應用中驗證了FlexiCube,表明它在網格品質和幾何保真度方面提供了顯著改進。
具體來說,FlexiCubes提供了兩個顯著的優勢,可為各種應用實現簡單、高效且高品質的網格優化:
漸進式的最佳化:網格的微分是明確定義的,基於梯度的最佳化在實務上有效收斂。
靈活性:網格頂點可以單獨進行局部調整,以適應表面特徵並找到具有少量元素的高品質網格。
透過可微渲染進行攝影測量
可微分等值曲面技術DMTet是最近工作nvdiffrec的核心,它共同優化了影像的形狀、材質和光線。
透過在拓樸最佳化步驟中簡單地用FlexiCube取代DMTet,保持管道的其餘部分不變,我們觀察到在相等三角形數量下改進的幾何重建。
3D 網格生成
最近的3D 生成模型GET3D 將3D 表示差異化地渲染為2D 影像,並利用生成對抗框架僅使用2D 影像監督來合成3D 內容。
FlexiCubes可在3D 生成模型中充當即插即用的可微分網格提取模組,並顯著提高網格品質。
使用四面體網格進行可微分物理模擬
FlexiCube可以微分地提取四面體網格。均勻曲面細分允許我們將其與可微分物理模擬框架(gradSim) 和可微分渲染管道(nvdiffrast) 結合起來,共同從多視圖視訊中恢復3D 形狀和物理參數。
在這裡,研究人員展示了初步結果:給定變形物體的視訊序列,他們可以恢復靜止姿勢的四面體網格,以及在模擬下再現運動的材料參數。
動畫物件的網格簡化
FlexiCubes 不是在參考姿勢中擬合單一網格,而是允許透過現成的蒙皮工具對網格進行不同的蒙皮和變形,並同時針對整個動畫序列進行最佳化。
對整個動畫的端到端優化有助於重新分配三角形密度,以避免網格拉伸。
新增網格正則化
FlexiCubes表徵足夠靈活,可以透過自動微分直接評估依賴提取的網格本身的目標和正則化器,並將其納入基於梯度的最佳化中。
研究人員對提取的網格應用可開發性術語,以促進面板的可製造性。
專案地址:https://research.nvidia.com/labs/dir/eDiff-I/
英偉達的研究人員提出了eDiff-I,這是一種用於合成給定文本的圖像的擴散模型。
受擴散模型的行為在不同採樣階段不同的經驗觀察的啟發,研究人員訓練一組專家去噪網絡,每個網絡專門針對特定的噪聲區間。
模型透過T5文字嵌入、CLIP圖像嵌入和CLIP文字嵌入為條件,可以產生與任何輸入文字提示相對應的逼真圖像。
除了文字到圖像的合成之外,我們還提供了兩個額外的功能:
(1) 樣式傳輸,這使我們能夠使用參考樣式影像控制產生樣本的樣式
(2) “用文字繪畫”,使用者可以透過在畫布上繪製分割圖來產生圖像的應用程序,這對於製作所需的圖像非常方便。
模型的工作流程由三個擴散模型的級聯組成:
一個可以合成64x64 解析度樣本的基本模型,以及兩個可以將影像分別逐步上取樣到256x256 和1024x1024 解析度的超解析度堆疊。
模型採用輸入標題並先計算T5 XXL 嵌入和文字嵌入。可以選擇使用根據參考影像計算的CLIP影像編碼。這些圖像嵌入可以用作風格向量。
然後將這些嵌入輸入到級聯擴散模型中,該模型逐漸產生分辨率為1024x1024的圖像。
在擴散模型中,影像合成透過迭代去噪過程進行,該過程逐漸從隨機雜訊產生影像。
如下圖所示,模型從完全隨機的雜訊開始,然後分多個步驟逐漸去噪,最終產生熊貓騎自行車的影像。
在傳統的擴散模型訓練中,訓練單一模型來對整個雜訊分佈進行去雜訊。在這個框架中,研究人員訓練了一組專家降噪器,專門用於在生成過程的不同間隔中進行降噪,從而提高合成能力。
eDiff-I和Stable Diffusion對比
風格轉換功能
~新智元
參考資料:
https://twitter.com/DrJimFan/status/1738613195173159187
https://www.youtube.com/watch?v=d7RM-3dQaJ8