Google DeepMind近日推出了一項突破性技術AvatarPopUp,該方法能夠在2秒鐘內從單張圖片或文字提示生成高品質的3D人類虛擬形象。
瞬間生成3D人類虛擬形象
AvatarPopUp利用圖像擴散模型,從圖像或文字生成帶骨骼繫結的3D模型,並可控制姿態和體型。該技術展示了在一塊A100 GPU上,使用352個不同文字提示生成3D網格的渲染效果,總共耗時3.5小時。
AvatarPopUp是一種能夠從不同輸入模態(如圖片和文字提示)快速生成高品質3D人類虛擬形象的方法,並且可以控制生成的姿態和形狀。該方法使用專門的擴散圖像生成網路,並通過3D提升網路實現3D建模。通過將生成和3D建模過程分離,AvatarPopUp能夠利用在數十億文字-圖像對上訓練的強大圖像合成先驗知識。
為了適應每項任務,AvatarPopUp對潛在擴散網路進行了額外的圖像條件微調,解決了圖像生成和背面預測等任務,並支援不同的3D假設。通過部分微調方法,AvatarPopUp能夠在適應每項任務的同時避免災難性遺忘。
實驗表明,該方法能夠根據多模態的文字、圖像和身體控制訊號生成精準、高品質且外觀多樣的3D虛擬形象。整個生成過程僅需2秒,相較於大多數現有方法實現了四個數量級的速度提升,這使得AvatarPopUp能夠在大規模應用中生成受控的3D人類虛擬形象。
AvatarPopUp利用文字到圖像模型的能力生成高度詳細和多樣的輸入圖像。首先,潛在擴散網路接收文字提示和目標身體姿態與形狀G,並生成一個詳細的前檢視。接下來,第二個網路生成一致的背檢視。在生成的前/背檢視或給定的3D身體姿態和形狀G的基礎上進行像素對齊的3D重建。這種分離使得AvatarPopUp能夠從文字或單張圖片生成3D虛擬形象。
AvatarPopUp可以用於圖像到3D合成。首先預測一個合理的背檢視,然後利用3D提升器將圖像對轉換為3D。整個圖像到網格過程耗時不到10秒。
AvatarPopUp可以用於文字到3D合成。給定文字、姿態和體型控制,使用級聯擴散網路生成前檢視和背檢視,然後3D提升器輸出基於圖像證據的3D網格。整個過程在A100 GPU上每個示例耗時不到10秒。
AvatarPopUp可以進行多模態3D生成。例如,虛擬試穿。給定一個人物的圖像和描述衣物的文字提示,可以生成穿著目標衣物的3D虛擬形象,同時保留原圖像中的身份特徵(面部和體型)。該方法還支援更細緻的修改,例如僅更換特定的衣物或為同一套衣服生成新身份的虛擬形象。
AvatarPopUp能夠生成可用於動畫的虛擬形象。首先生成一個適合動畫的姿態,然後利用條件身體模型繫結估計的3D形狀。通過這種條件策略,3D虛擬形象和條件身體模型實例在3D中高度對齊。這使得我們能夠將重建的3D形狀錨定在身體模型表面並進行繫結。
Niloom.ai 是一個綜合平台,利用生成式AI在空間計算生態系統中建立、原型化、編輯和即時發佈複雜的AR/VR內容,大大減少了時間和成本。
“我們是該生態系統中的首個生成式AI技術之一,也是最早建立空間計算內容的公司之一。你可以生成單獨的資產,如3D模型、2D/360圖像、音樂、音效,甚至可以使用文字到語音 (text-to-speech) 為你的角色賦予聲音,”CEO Baradaran 說。“我很高興地說,現在你可以用AI智能體以非常複雜的方式個性化你的角色個性。我們還提供視訊到動畫 (video-to-animation) 的功能。然後我們簡化了將任何動畫插入任何角色的過程。這是我們一直在做的一些繁重工作。”
他補充道,“最重要的是,你可以輕鬆生成一個時間線上完整的故事,這使你可以從鳥瞰的角度查看時間線。你有複雜的編輯功能和互動性,這非常重要。對我來說,遊戲化是AR/VR的本質。”
通過將100多個關鍵功能整合到一個平台中,Niloom.ai 減少了生產時間和成本,最佳化了生產工作流程,解決了空間計算市場的互操作性問題。消除了對昂貴工程師的依賴,這個平台基於瀏覽器,無需程式碼,專業和普通創作者都可以輕鬆使用。
“Niloom.ai 為那些因內容創作的技術要求而被邊緣化的創意社區打開了大門,”Baradaran 說。“作為空間計算的早期採用者,我親身體驗了依賴大量工程師來實現我的藝術作品的限制。Niloom.ai 通過打破市場上存在的技術和成本壁壘,極大地改變了空間計算內容創作過程,使任何人都能在幾分鐘內生成和發佈AR/VR體驗。”
Niloom.ai 平台在空間計算生態系統中引入了生成式AI,用於建立、原型化和編輯複雜的AR/VR內容。通過簡單的文字或語音提示,Niloom.ai 的生成式AI 可以生成完整的AR/VR體驗、個性化的AI智能體和單獨的資產。現在,它還可以直接在 Apple Vision Pro 和 Meta Quest 頭戴裝置中建立和發佈項目。
它可用於高級創作、編輯和原型製作。開發者可以使用包括互動3D模型和具有語言交流能力的動畫角色在內的高級功能建立沉浸式AR/VR體驗,精彩的故事情節、豐富的背景、音樂、視覺和音效、AI驅動的聲音等。
編輯工具允許即時協作、精確編輯、版本控制、測試和模擬。原型製作允許模擬場景以促進反饋和協作。
開發者可以從視覺時間線和決策樹的鳥瞰視角捕捉整個項目,新增邏輯到場景中——使複雜的故事和無限的使用者互動可能性成為現實:觸摸、手勢和語音命令。
他們可以直接與第三方工具整合,包括 Sketchfab、Kinetix.tech、Ready Player Me、Inworld 和 Google TTS,提供一站式解決方案。Niloom.ai 不受硬體和軟體限制,便於在所有空間計算移動裝置(iOS、Android)和頭戴裝置(Apple Vision Pro、Meta Quest)上建立和即時發佈內容。
它有一個管理系統,開發者可以使用雲端資產和項目庫、團隊管理工具以及資料和分析訪問來最佳化工作流程。
“你可以上傳自己的資產,從 Sketchfab 匯入新的資產,或簡單地生成它們。無論是3D資產、角色、動畫、2D或360圖像,還是音樂和音效,這些都可以組合在一起,讓你在時間線上控制它們,”他說。
“最重要的是,我們允許非開發者的內容創作者參與其中。”
“Niloom.ai 提供了一項突破性的技術,將推動空間計算的新紀元。這正是大型科技公司希望合作或收購的那種可擴展的變革性軟體,以賦能新一代內容創作者,”Niloom.ai 的戰略顧問和 3rd Eye 管理合夥人 Debu Purkayastha 在聲明中補充道。“Niloom.ai 所建構的是革命性的;這種技術在其他地方不存在。”
Niloom.ai 現已在美國上線,使用者可以通過 Niloom.ai、iOS 應用程式商店、visionOS 應用程式商店、Meta Quest 商店等訪問。首批1000位創作者將獲得獨家提前訪問平台的資格,包括14天的專業版免費使用期。之後,他們將有機會選擇獨家的測試版訂閱費率。
Baradaran 在增強現實領域已有約15年歷史,最初是一名內容創作者。
“早在某一天,我作為一個藝術家對空間計算、增強現實和虛擬現實領域產生了濃厚興趣。我真的很幸運能偶然發現這項技術。他在盧浮宮、大英博物館、巴塞爾藝術展等地為這項技術做過展示。他在哥倫比亞大學工程學院教授空間計算課程。
“我是少數幾個藝術家之一,說‘嘿,這將徹底改變我們創作內容的方式,改變我們講故事的方式,改變我們對自我認知的方式。’這非常令人興奮,因為藝術界對理解這項新技術也非常猶豫。我很高興成為這一領域的早期採用者之一,同時也是早期的傳道者。”
最近,他看到 Apple 進入市場推出 Apple Vision Pro 感到非常興奮。
“我們基本上開始建構一個生成式AI驅動的內容創作平台,用於建立AR/VR空間計算體驗的內容,”他說。
三年前,他和他的幾名學生一起成立了這家公司,並在2021年籌集了250萬美元的種子輪融資。團隊核心成員有三人,現在正在增加行銷團隊。
“建構我的願景真的很難,我必須簡化這個複雜過程的全部內容創作過程,”他說。“這既技術複雜,又耗時費錢。”
“我們做了計算。我們非常興奮地說,用 Unity 需要大約六個月的同一項目,在我們這裡只需要大約六小時。而且那是一個非常複雜的項目。你可以用我們這裡的生成式AI引擎來提示。”
雖然許多大型科技平台都是孤立的,Niloom.ai 希望解決生態系統中的痛點,使技術互操作。 (三次方AIRX)