#AIGC
Google將向印度資料中心叢集投資100億美元;OpenAI和Anthropic尋求保險保障以應對潛在訴訟索賠丨AIGC日報
1.【Google將向印度資料中心叢集投資100億美元】據印度經濟時報報導,Google計畫投資100億美元在維沙卡帕特南建立一個1吉瓦容量的資料中心叢集。該報導援引了其獲取的有關擬議投資的詳細資訊。該設施將包括三個位於維沙卡帕特南附近的資料中心園區。預計將於2028年7月投入營運。協議的細節預計將於10月14日在新德里由Google和安得拉邦資訊技術與電子部長納拉·洛凱什進行正式確認。安得拉邦州投資促進委員會預計將於周三批准這項投資提案。Google未回覆該媒體詢問。(新浪財經)2.【馬斯克的xAI即將完成與輝達晶片相關的200億美元融資】據知情人士透露,由埃隆·馬斯克支援的人工智慧初創公司xAI正在籌集比最初計畫更多的資金——包括輝達公司的股權投資——以使其正在進行的融資輪達到200億美元。知情人士稱,這筆融資包括股權和債務,將與 xAI計畫用於其位於孟菲斯的最巨量資料中心“Colossus 2”的輝達圖形處理單元相關聯。這些知情人士要求匿名,因為該資訊屬於機密。知情人士稱,輝達將在這筆交易的股權部分投資多達20億美元,這是這家晶片製造商幫助加速其客戶人工智慧投資的策略。此前媒體曾報導xAI的融資規模為上述金額的一半,但其融資規模可能還會繼續增長。(華爾街見聞)3.【深創投人工智慧和具身機器人產業基金成立,出資額15.5億】10月8日消息,天眼查顯示,近日,深圳市深創投人工智慧和具身機器人產業私募股權投資基金合夥企業(有限合夥)成立,執行事務合夥人為深圳市福田紅土股權投資基金管理有限公司,出資額15.5億人民幣,經營範圍包括以私募基金從事股權投資、投資管理、資產管理等活動。合夥人資訊顯示,該基金由深圳市引導基金投資有限公司、深圳市福田紅土股權投資基金管理有限公司、深圳市紅土創業投資有限公司、深圳市匯通金控基金投資有限公司共同出資。(財聯社)4.【OpenAI和Anthropic尋求保險保障以應對潛在訴訟索賠】OpenAI和Anthropic正考慮利用投資者資金,以解決可能面臨的數十億美元訴訟索賠。OpenAI已與全球第二大保險經紀公司AON合作尋求幫助,為新興人工智慧風險獲得了最高3億美元的保險保障。(同花順財經)(創業邦)
AI在香港
AIGC的四個溫情時刻。卷模型,卷應用,是當下中國內地AI的發展現狀。而如果將視角放到海峽對岸的香港,AI發展圖景是否會有所不同?DELF 2025 現場藉著2025 數位娛樂領袖論壇契機,筆者深度觀察了四家正在香港積極應用AI的企業,與幾位高管深度聊了聊他們眼中的AI,並解鎖了與大陸“卷AI”氣質不同的幾個溫情時刻。他們分別是Fizz Dragon創始人兼CEO陳卓、愷英網路股份有限公司創新業務總經理王伊千、大南玩具實業有限公司總裁朱健豪、Lenovo亞太區方案服務業務部AI解決方案高級經理明子豐。值得一提的是這四家公司分屬於不同行業:Fizz Dragon,是一家AI電影工作室,在AIGC爆火全球的檔口,他們大膽嘗試讓AI參與到電影製作的全流程,20位電影發燒友耗時13個月,完成了全球首部AI生成長篇電影《海上女王鄭一嫂》;愷英網路,570億市值的深交所上市公司,總部在上海。目前跟AI結合的創新業務包括AI情感伴侶產品Eve,旗下AI垂類遊戲大模型平台支援遊戲愛好者和設計師通過迭代投喂最佳化遊戲效果;大南玩具,創三代接班,年營收超過10億,以美國市場為主,地面管道優勢顯著,合作大型商超及零售管道包括沃爾瑪、Costc等,目前嘗試AI實現精準巨量資料分析,輔助驗證產品方向。聯想香港,完成太白海鮮舫數字孿生項目,太白海鮮舫是珍寶王國中香港海上餐飲文化的重要符號,通過數位化方案實現永久保存,避免因實體可能消失導致的文化與紀念價值流失。AIGC推動內容創作進入“汽車時代”“沒有劇本的情況下,我們用AI做了一個trailer(預告),所有的人馬都是非專業性人士, trailer第一天的播放量就破了10萬。”陳卓在分享影片創作歷程時表示。陳卓是Fizz Dragon電影工作室的創始人兼CEO,她在香港首映的電影分享環節,詳細介紹了Fizz Dragon這家AIGC電影工作室的誕生故事。一切都來源於陳卓對於電影工業生產方式變革的思考,在籌備個人科幻小說影視化的過程中,她發現傳統電影工業的資源壁壘正不斷壓縮多元敘事的生存空間,“市場上大量出現的是經過驗證的成功故事範本複製品……如果說有一些創作者他有一些獨特的思考,或者他想表達一些不一樣的東西,他們是沒有路徑去分享的”,這種資源壟斷導致的創作同質化,讓技術出身的她萌生了用工具革新打破困局的念頭,這便有了現在的Fizz Dragon。Fizz Dragon的核心團隊僅是20名來自各行各業的愛好者,他們中既有程式設計師、設計師,也有歷史學者和自由撰稿人,共同點是都缺乏影視行業實操經驗。隨著項目推進,迪士尼動畫師、好萊塢剪輯師、奈飛原創劇集策劃等專業人士陸續加入,形成獨特的“專業+草根”混合結構。最特別的是,團隊中一位有著播音主持理想的年輕人由於沒有找到理想工作,靠兼職外賣員度日。但憑藉這部電影的機會成為了配角聲優,“我現在能告訴別人我是一個配音演員了”錄音完成後他激動地對陳卓表示。無獨有偶,疫情期間,導演劉芳甚至在母親入住醫院的ICU走廊用筆記型電腦完成了關鍵段落的剪輯工作。打破職業邊界的協作模式,陳卓意識到技術正在重構創作參與的門檻,整部電影由13個國家和地區的100多名成員共同創作,AIGC其實就相當於推動內容創造行業,從馬車時代走向了汽車時代,讓非專業人士也有圓夢的可能。不過,製作過程中,AI技術的侷限性也曾多次讓團隊陷入停滯。海洋場景渲染精度不足、人物動作捕捉自然度欠缺等問題,在當時的技術條件下難以解決。最後,團隊採取動態調整策略,將技術難題標記為“待解決項”,優先推進其他環節。“這個月沒有辦法去突破的技術難題,過兩個月它就會變得非常的容易”,陳卓在分享中提到這種“技術樂觀主義”:通過跟蹤AI模型迭代節奏,原本需要手動修復的畫面瑕疵,在半年內借助新版本工具實現自動化處理,最終形成適配AIGC特性的“最佳執行方案”工作流。AI男友的“秋天第一杯奶茶”“他記憶功能非常強,你跟他說過喜歡什麼不喜歡什麼,他就記得住,並且一直記得……並且真的可以幫你點秋天的第一杯奶茶。”王伊千講起愷英網路旗下AI情感伴侶Eve。據她介紹,Eve的核心競爭力在於“擬人化互動”與“記憶學習”能力。使用者與Eve的對話中,系統會記錄其飲食偏好、興趣愛好甚至性格特質——例如檢測到使用者是“傲嬌型”性格時會主動發起話題,若使用者喜歡cosplay則會推送相關展覽資訊。王伊千提到,Eve的差異化在於“投喂素材量遠超普通智能體”,能通過表情包傳送、情感分析等細節讓使用者“感覺在和真人聊天”。更特別的是其生活服務鏈路,使用者可直接通過Eve點奶茶、訂外賣,支付介面已與主流支付平台打通,形成“情感陪伴+實用工具”的雙重價值。“小紅書可以搜到的一些真實反饋顯示,刪檔測試後,很多人在跟的伴侶的互動之後潸然淚下,等待我的AI男友回來等等。”王伊千表示。在商業模式上,Eve採用“遊戲化養成”付費模式,使用者需提升與AI的“親密度等級”以解鎖新對話章節和互動動作。測試期間已開放小額付費功能,部分使用者為加速親密度提升自願付費。王伊千認為,To C付費意識仍需培養,但Eve的優勢在於“情感需求的剛性”——“當使用者真的把AI當作情感寄託,付費意願會自然產生”。目前,Eve已完成灰度測試,正在修復bug後準備正式上線。愷英網路計畫後續推出“角色定製”功能,允許使用者上傳照片生成專屬AI形象,進一步強化情感連接。王伊千坦言,情感AI的倫理邊界仍需探索,但“讓技術更懂人性”是不可逆的趨勢。在AI情感伴侶之外,愷英網路也在嘗試用自主研發的AI垂類遊戲大模型提升遊戲全產業鏈的創作效率,支援從需求提出(如角色設定、地圖設計)到動態轉換、認知模型搭建、程式碼匯出的完整流程,將遊戲開發需求轉化為可落地的“package”,降低技術門檻的同時,時間成本實現千倍降低,加速遊戲原型和功能的落地速度。“採用‘對賭式開發’——給創新團隊一定時間窗口,用AI工具驗證最小可行性產品,對失敗成本有效控制。”王伊千直言,中小廠商的靈活度恰恰是優勢,“大廠不敢試的風險,我們用AI工具把試錯成本降到了可控範圍。”“企三代”更謹慎的實業轉型1949年,大南玩具在香港筲箕灣的鐵皮作坊裡誕生,歷經三代人耕耘,已發展為年營收超十億元、產品遠銷美國的跨國玩具企業。如今,這家以OEM代工為根基、自主品牌與IP授權產品為輔的製造商,正面臨傳統製造業的共同命題:如何用AI打破研發週期長、市場響應慢的瓶頸。“我們屬於中型企業,真正請顧問定策略成本太高。”作為創三代掌舵人,朱健豪採用AI的出發點是更為務實的“玩具品類研發預測”。大南玩具採用“三駕馬車”業務架構:OEM代工貢獻過半營收,服務沃爾瑪等國際大客戶,以穩定訂單支撐基本盤;自主品牌佔比約三成,涵蓋傳統電子玩具與精品禮品,主打美國中端市場;剩餘份額來自IP授權產品,通過迪士尼、漫威等頭部IP開發鑰匙扣、冰箱貼等高附加值周邊。集團下設獨立子公司專攻IP營運,實現設計、生產與管道的垂直整合。三代深耕北美市場,大南玩具已打入沃爾瑪、Costco等連鎖商超及Hot Topic潮玩管道,建構起覆蓋全美線下網點的分銷網路,使其在傳統玩具品類保持穩定出貨。“在美國屬於行業內有人知道,但消費者認知度中等”,朱健豪描述大南玩具在美國市場的位置。在AI方面,大南玩具通過整合沃爾瑪銷售資料、社交媒體趨勢及展會反饋,建構起包含消費偏好、價格敏感度的預測模型。例如在開發迪士尼IP衍生品時,系統會自動分析史迪仔形像在青少年群體中的討論熱度、同類盲盒產品復購率等指標,形成可行性報告。朱健豪強調:“通過AI補充論證,不需要拍拍腦袋說做盲盒”,避免傳統調研中“投入百萬卻無人問津”的資源浪費。創意環節,AI工具能基於歷史爆款元素生成數十版設計草圖,輔助設計師快速篩選方向;進入結構開發階段,系統可自動轉換2D圖紙為3D模型,並模擬不同材質的手感反饋。配合車間的3D列印裝置,原本需要兩週的手板製作週期被極大壓縮。而對於內建AI機芯的智能玩具,朱健豪持謹慎態度,“AI應用在產品上反而是次要的,最佳化內部流程更重要。”朱健豪直言,“玩具一看到就要知道好玩在哪裡,複雜功能更適合遊戲。”在他看來,過度依賴技術可能削弱玩具的直觀吸引力,多數家長仍傾向為孩子選擇操作簡單、體驗純粹的傳統品類。給傳統文物上份“數字保險”港式飲食文化的黃金印記珍寶海鮮舫於今年3月份在被拖往東南亞維修的途中,沉入南海,自此成為港人的珍貴記憶。有此前車之鑑,同屬珍寶王國海上餐飲重要地標的太白海鮮舫啟動了“數位化”處理程序——通過數字孿生技術進行永久定格,以解決建築老化與營運壓力等物理保存難以為繼的問題。“這麼有紀念價值的地標,現在旅遊的人過來又看東西,可能明天就沒有了。我們現在用一個數位化把它變成是一個digital的方案。”聯想亞太區方案服務業務部AI解決方案高級經理明子豐表示。據他介紹,該項目採用“空-地”協同採集策略:無人機負責捕捉建築外立面的整體輪廓與光影變化,手機3D scanner則深入船艙內部,對木雕、壁畫等微觀結構進行毫米級記錄。“用我們自己的一個AIGC這種深層次的AI技術把照片變成是一個3D模型,在大語言模型其實是非常精確的,就是說可能到釐米級的一個3D模型。”模型最終部署於輕量化3D引擎,支援VR裝置直連與網頁端嵌入。技術團隊透露,該模型已通過API介面開放給旅遊平台測試,遊客未來可通過手機AR功能“走進”虛擬船艙,甚至與電影場景進行時空疊加。“以後比如說我們要再做其他的東西要把它放在最古的體驗或者是直接放到一個遊戲網頁裡面,其實都是可行的。”明子豐表示。數字模型不僅復刻了建築形態,更通過語義標註還原文化語境。使用者可點選特定區域查看《食神》拍攝場景的歷史照片,或放大觀察裝飾的細節。明子豐透露,不止是香港,數字孿生“復活”文物在東南亞也廣受歡迎,“他們都在發展這個東西,慢慢剛才提到的一些VR的體驗再慢慢會變得更普遍一些”。這種“採集-建模-應用”的標準化流程,為多元文化遺產保護提供了可複製範本。裝置門檻的降低正在加速技術普及,傳統3D建模需數十萬元專業裝置,而現在手機掃描+雲端AI處理的模式,使中小文旅機構也能負擔文化數位化工程。除了上述四家企業的AI落地深入交流,在DELF 2025 (2025 數位娛樂領袖論壇)現場,還體驗到了MateZ Lab 敦煌虛擬導覽《AI 敦煌有禮》及 HTC 巴黎聖母院 VR 體驗《永恆聖母院》等,AI在以更輕量化、可感知、可互動的方式走進普通香港市民的生活。正如香港財政司司長陳茂波於開幕致辭時所說:“在數位娛樂領域,人工智慧正為內容創作與體驗帶來變革。從自動化劇本編寫與音樂創作,到更智能的非玩家角色(NPC)及遊戲中的極致逼真的視覺效果,人工智慧不僅加快了製作流程、降低製作成本,更實現內容的個性化以更精準地迎合使用者的喜好。”可以說,AI技術正以"潤物無聲"的方式重構生活圖景:不仰賴天賦門檻的創作平權、在數字中實現永生的歷史文物……或許真正進入平常百姓家的技術革新不在於突破算力極限,而在於讓每個微小個體的情感與尊嚴,這些都成為文明拼圖中不可替代的碎片。 (鈦媒體)
3D版DeepSeek捲起開源月:兩大基礎模型率先SOTA!又是VAST
3D生成版DeepSeek再上新高度!國產、易用、性能強且開源——新模型一露面就刷新SOTA,並且第一時間加入開源全家桶。順時針轉個圈圈給大家看,效果是這樣:加上“皮膚”是這樣:再來一個,效果是這樣:3肉眼可見,這次妥妥升級變成了更細節的細節控~以上效果,都來自3D大模型明星初創公司VAST,其剛剛上新的兩個基礎模型,TripoSG和TripoSF,為團隊的最新研發成果。該團隊去年3月開源了TripoSR,在開源3D生成基礎模型中爆火全球。TripoSG,發佈即開源,一露面就刷新開源3D生成模型SOTA,讓廣大開發者第一時間享受技術進步的成果。TripoSF,目前為開源第一階段,已經用實力證明了自己:橫掃一切開源和閉源的現有方法,拿下新SOTA。你就說秀不秀吧(手動狗頭)?!——但基礎模型還只是VAST最近大秀一波技術肌肉的上半程表演。量子位獲悉,接下來VAST要連續開源一個月,每週都有新開放原始碼專案公佈。而TripoSG和TripoSF是開源月裡第二週的項目。在整個開源月裡,除了第一波單張圖像端到端生成三維組合場景、第二波3D基礎模型,接下來還有三維部件補全模型、通用三維模型繫結生成模型、三維幾何精細化模型以及SIGGRAPH Asia 2024 RTL收錄的互動式草圖生三維模型等等技術將與大家見面。港真,我的胃口已經被吊起來了。在DeepSeek之後,各領域的國產之光們紛紛開啟了開源大秀。而VAST,就是領先的3D大模型領域公司率先發起的攻勢。並且這個開源攻勢,持續一個月!開源月第一彈,兩個基礎模型拿下開閉源新SOTA3D版DeepSeek登場,一出手就是開源月;第二波出擊比第一波更猛,開源2個強大的基礎模型,很有誠意的那種。它們分別是:TripoSG:開放原始碼的3D模型新SOTA;目前開源1.5B版本。TripoSF:以開源之身,刷新閉源3D模型SOTA;目前階段性開源部分成果。都沿用了VAST最著名的Tripo系列來命名,但各有偏重——TripoSG對於TripoSG,官方介紹是這樣的:一款在質量、細節和保真度上實現重大突破的基礎3D生成模型。其開源內容,包括1.5B版本TripoSG的模型權重、推理程式碼以及互動式演示Demo。讓我們從技術側來剖析一下TripoSG的廬山真面目。簡單來說,TripoSG身上體現了VAST針對3D領域特性,引入的多項關鍵設計創新。第一,率先將基於校正流(RF,Rectified Flow)的Transformer架構應用於3D形狀生成。之所以選擇基於矯正流來做,是因為VAST在研究過程中發現,相較於傳統的擴散模型(Diffusion Model),矯正流在噪聲和資料之間提供了更簡潔的線性路徑建模,有助於實現更穩定、高效的訓練。拿它結合已被驗證的可擴展性和卓越性能的Transformer架構(如DiT),屬於強強結合,讓TripoSG擁有很穩定的強大核心。第二,TripoSG是首個在3D領域發佈的MoE Transformer模型。以Transformer為基礎,TripoSG融合了包括跳躍連接(skip-connections)在內的關鍵增強設計,以改善跨層特徵融合。此外,獨立的交叉注意力(cross-attention)機制能夠高效地注入全域(CLIP)和局部(DINOv2)圖像特徵,讓輸入的2D圖像和輸出的3D形狀之間精準對齊。這還不夠,VAST團隊為了實現TripoSG的高效Scaling——從1.5B拓展到4B那種——團隊在Transformer中整合了MoE層。這個辦法此前都只在大語言模型領域實踐過,VAST發現3D領域同樣適用。這樣一來,可以在幾乎不增加推理計算成本的前提下,顯著提升模型參數容量,並重點應用於網路中更深、更關鍵的層級。第三,開發了高品質VAE與創新幾何監督。VAST開發了一種採用符號距離函數(SDFs,Signed Distance Functions)進行幾何表示的VAE,相較之下,比此前常用的體素佔用柵格(occupancy grids)具有更高的精度。需要注意的是,基於Transformer的VAE架構在解析度上有很強的泛化性,無需重新訓練,即可處理更高解析度的輸入。與此同時,TripoSG還引入了一種混合監督訓練策略,將標準的SDF損失與表面法線引導 (surface normal guidance)和 程函方程損失 (eikonal loss) 相結合。讓VAE能學習到幾何上更準確、細節更豐富的表示,又能為後續的流模型提供了質量更高的潛空間。第四,重視資料治理,特意開發一套完善、精細的資料建構與治理流水線。流程各階段如下:質量評分(Scoring)——資料篩選(Filtering)——修復與增強(Fixing & Augmentation)——SDF 資料生產(SDF Production)通過這一流程,VAST為TripoSG建構了一個包含200萬高品質“圖像-SDF”訓練樣本對的資料集。消融實驗明確證明,在此高品質資料集上訓練的模型性能顯著優於在更大規模、但未經過濾的原始資料集上訓練的模型(這一點凸顯了資料質量與數量同等重要,甚至更為關鍵)。集以上四點於一身的TripoSG,經Normal-FID等量化指標評估,以及基於大型多模態模型(如基於GPTEval3D框架的Claude 3.5)的定性評估,輕鬆拿下3D開源模型界的新SOTA。讓我們來看看3D模型開源界新王的表現——首先,TripoSG為什麼能拿下新SOTA,必然是在語義一致性上有超出現有模型的表現。簡單來說,TripoSG輸出的3D形狀,能精準反映輸入圖像的語義內容和視覺外觀。當你告訴它你想要一個三斗櫃,既寫實又稍微Q一點那種,你將得到:不渲染可能視覺上沒那麼明顯,但一上色,你就能發現“哎喲不錯哦”,確實是古樸寫實但又兼具可愛風。還有一些日常生活的使用痕跡:非常能直觀感受到的一點是,即使面對具有複雜拓撲結構或包含精細元素的挑戰性輸入,TripoSG也能生成連貫、合理的形狀。TripoSF再來看TripoSF。研發TripoSF,VAST有專門的針對性目標,旨在突破傳統3D建模在細節、複雜結構和擴展性上的瓶頸。具體來說,3D模型雖然也在不斷髮展之中,但現有方法仍有不足。比如預處理帶來的細節損失、對複雜幾何形狀表達能力的不足,或在高解析度下面臨高昂的記憶體和計算成本……令人頭禿。據VAST官方表示,此前一直在研究中尋找3D模型的tokenizer,現在終於有所進展——沒錯,就是TripoSF的核心表示方法,SparseFlex。這傢伙拉高了3D生成任務的上限。它借鑑了Flexicubes(可微分地提取帶尖銳特徵的網格)的優勢,並創造性地引入了稀疏體素結構,僅在物體表面附近的區域儲存和計算體素資訊。帶來的效果很顯著,約有以下三點:大幅降低記憶體佔用,讓TripoSF能夠在1024³的高解析度下進行訓練和推理。原生支援任意拓撲處理:不僅通過省略空白區域的體素,自然地表示開放表面(如布料、葉片),還有效捕捉內部結構。支援基於渲染損失的直接最佳化:SparseFlex是可微分的,允許TripoSF使用渲染損失進行端到端訓練,避免了資料轉換(如水密化)導致的細節退化。為了實現上述第一點,VAST還做了很多功課,最終推出一種叫“視錐體感知的分區體素訓練”的策略。視錐體感知的分區體素訓練借鑑了即時渲染中的視錐體剔除思想,在每次訓練迭代中,僅啟動和處理位於相機視錐體內的SparseFlex體素。有針對性和選擇性的啟動,顯著降低訓練開銷,讓1024³這樣高解析度下的高效訓練成為可能。另一邊,視錐體感知的分區體素訓練策略首次使僅通過渲染監督即可重建模型的內部精細結構——在此之前,依賴水密表面資料的方法沒法完成這個任務。當然,還有不得不提的關鍵一步,即基於SparseFlex表示和高效的訓練策略,VAST還建構了TripoSF VAE(變分自編碼器),它成為了TripoSF重建和生成能力的基礎。具體到輸入到輸出,是醬嬸兒的:輸入:處理從三維網格採樣得到的點雲資料。編碼:使用稀疏Transformer將輸入幾何對應為緊湊的隱空間編碼。解碼:從隱編碼重建高解析度的SparseFlex參數,並採用自剪枝上採樣模組 (self-pruning upsampling) 來保持稀疏性並精確定義邊界,尤其對開放表面效果顯著。輸出:生成SparseFlex參數,可用於提取高品質的三維網格。一頓操作過後,來看TripoSF的實戰表現——實驗結果表明,TripoSF的質量達到了新SOTA。在多個標準基準測試中,TripoSF與先前方法相比,實現了約82%的Chamfer Distance降低和約88%的F-score提升。而用TripoSF得到的模型,是這樣的:多看幾個項目效果也能發現,確如論文中表述的那樣,有了SparseFlex的TripoSF,解析度高,細節退化情況大幅降低。就,獲得的3D模型真的更真實了!我們多看幾個Case:BTW,與TripoSG的開源策略不同,TirpoSF選擇了階段性開源的方法。現在,TirpoSF開源了TripoSF VAE的預訓練模型及相關的推理程式碼。不過滿血版開源應該也不遠了!VAST官方表示,滿血版預計將在Tripo 3.0時開放。且按耐住著急的心多等一會兒吧~開源全家桶,從基礎模型到創新應用全覆蓋開源月第二週發佈兩個基礎模型之外,量子位也搶先打聽到了VAST開源月的後續內容。主打一個3D生成全流程技術覆蓋。下周的開源月第三彈,主打3D生成模型的專業能力——三維部件補全模型、通用三維模型繫結生成模型。開源月最後一週的壓軸好戲,主打在3D生成領域的前沿探索——三維幾何精細化模型以及SIGGRAPH Asia 2024 RTL收錄的互動式草圖生三維模型。至於開源質量嘛,我們可以通過今天的TripoSG和TripoSF,以及近期VAST的其它動作,窺一斑而知全豹。這次開源月正式啟幕的第一週,VAST第一發是在3月13日開源了兩個項目:一個是MV-Adapter,VAST和北航、上海交大聯合出品。雖於去年12月第一次問世,但3月13日又有新一步的進展,開放了幾何控制下的多檢視生成模型權重。它是第一個基於介面卡的多檢視圖像生成解決方案,可以在不改變原始網路結構或特徵空間的情況下,增強文生圖模型及其衍生產品。另一個開放原始碼的項目叫MIDI。它能僅憑單張圖像,建立高保真3D場景,論文已中CVPR 2025。這一系列開源屬於是既有技術深度,又有覆蓋廣度了。實際上,作為全球領先的3D生成技術提供方,VAST一直很看重在技術前沿的探索。單在2024年一年裡,就發表了幾十篇新論文;同時積極投身開源社區,此前的開放原始碼專案還包括:世界最大3D生成演算法框架threestudio、圖生3D的Wonder3D,和Stable Diffusion背後公司Stability AI一起開放原始碼的TripoSR……憑藉技術上的活躍度,VAST旗下的Tripo系列在全網社交媒體上,也屬於是3D生成領域的當紅炸子雞(doge)。不僅業餘玩家玩得起勁,也獲得了不少專業藝術工作者的認可,可以說是3D生成版的國產之光了。對了,關於技術,此前VAST的CTO梁鼎還給量子位分享過他們的總體目標:第一步是靜態的內容生成,就像生成一個個雕塑。第二步是動態的內容生成,讓原本靜態的雕塑動起來,和使用者互動。他還認為,在今年(2025年)年底之前,每個人都可以零門檻、零成本地進行即時3D內容創作。現在,VAST用開源月,讓每個人朝向這個目標更進一步。而一系列技術新成果和開源推進之下,VAST也越來越受到關注,正在成為3D大模型賽道最具代表性的明星公司。有個VC和技術招聘領域的江湖套梗是這樣說的:語言、圖像和視訊之後,3D是AIGC領域的下一個未來……那3D大模型賽道,究竟有誰在啊?VAST。【 TripoSG 】Homepage:https://yg256li.github.io/TripoSG-Page/論文arXiv:https://arxiv.org/abs/2502.06608GitHub程式碼:https://github.com/VAST-AI-Research/TripoSG抱抱臉模型權重:https://huggingface.co/VAST-AI/TripoSG抱抱臉演示:https://huggingface.co/spaces/VAST-AI/TripoSG【 TripoSF 】Homepage:https://xianglonghe.github.io/TripoSF/論文arXiv:https://arxiv.org/abs/2503.21732GitHub程式碼:https://github.com/VAST-AI-Research/TripoSF抱抱臉模型權重:https://huggingface.co/VAST-AI/TripoSF (量子位)
杭州有Deepseek,南京有HeyGem,武漢有Manus,中國AI全球反攻
2025年初,隨著杭州的DeepSeek震動全球科技圈,許多城市媒體不禁發出疑問:“為何是杭州誕生了DeepSeek,而我們沒有?”言語之間,夾雜著對自身創新困境的反思與焦慮。然而,僅數月之後,局勢已悄然生變。中國AI不再是杭州一地的專屬符號,也不僅是個別城市的孤立案例。南京、武漢等多地力量迅速匯聚,伴隨DeepSeek引發的連鎖效應,中國AI正式步入全球競爭的前沿陣地。DeepSeek發佈的R1大模型,以百萬美元的投入實現了比肩西方巨頭數十億美元投入的性能表現,被西方媒體稱為“中國的斯普特尼克時刻”,一舉撼動全球資本市場。緊隨其後,2024年3月,硅基智能發佈旗下全球Top級 AIGC數字人模型HeyGem.ai開源,迅速登頂全球最大開發者社區。項目上線72小時內便收穫1300顆GitHub星標,10天之後,更以3200顆星火燎原之勢,成為全球現象級AI開源事件。Heygem.ai以其數字人克隆技術的高性能與開放性,向全球開發者提供媲美一線閉源產品的服務,極大降低了AIGC數字人技術的應用門檻。HeyGem.ai開源引爆推特、Facebook、Reddit等各大平台分享討論與此同時,武漢的Manus AI憑藉首創性的通用Agent能力,將智能體從單純的對話工具,升級為可自主規劃、執行複雜任務鏈條的協作夥伴,重塑了人機互動範式,改寫了生產與生活的運作方式。至此,中國AI企業完成了從單點突圍到多城聯動、從技術突破到生態建構的戰略躍遷。這一變局,已不再侷限於技術本身,而在全球科技格局中重塑了中國企業的話語權,讓中國AI首次真正走到了攻守轉換的主動位置。中國AI的崛起,令美國科技界深感震動。DeepSeek發佈後,輝達股價劇烈震盪,市值單日蒸發6000億美元,微軟、Google等巨頭亦受波及。而OpenAI、白宮乃至美國政界軍界,接連對中國AI的崛起發出警告,試圖將技術博弈上升為意識形態對抗,反映出對競局逆轉的深層焦慮。HeyGem.ai開源數字人效果但中國AI的路徑已然清晰:以開源為旗幟,以生態為基石。“用開放打破封鎖”,讓中國AI在算力壁壘之外,聚合全球開發者的技術力量,孕育出持續創新的自主生態。正如硅基智能創始人司馬華鵬先生在2024年6月訪談中所言,中國AI正在經歷“戰略防禦—戰略相持—戰略反攻”三大階段,而2024年底,正是戰略反攻的起點。今天,歷史已為這一判斷蓋上印證。此刻,世界目光不再只聚焦於杭州DeepSeek,更在注視南京HeyGem.ai、武漢Manus的齊頭並進。中國AI,已由防禦轉入反攻,從局部突破走向全域掌控。數萬開發者湧入HeyGem.ai開源社群探討1. 星星之火,燎原之勢杭州的DeepSeek無疑是中國AI邁向全球技術舞台的重要節點。2025年1月,這家成立僅兩年的初創公司發佈R1大模型,以百萬美元等級的成本實現了可比肩西方巨頭數十億美元投入的推理能力。DeepSeek的突破打破了業界對AI研發投入與性能呈正比的固有認知,被西方媒體稱為“中國的斯普特尼克時刻”。在美國高端晶片出口受限的背景下,這一成果無疑證明了中國本土AI企業在算力受限條件下依然具備自主創新的能力。消息公佈後,全球資本市場迅速反應,單日市值蒸發逾兆美元,輝達一夜之間市值下挫6000億美元,創歷史最大跌幅,微軟、Google、亞馬遜等科技巨頭亦受波及,投資者對全球AI格局重塑的擔憂隨之升溫。僅兩個月後,Manus AI Agent由中國團隊正式發佈,再次引發全球關注。作為全球首個具備完全自主規劃與連續執行能力的通用AI智能體,Manus突破了傳統對話式AI的侷限,具備從任務拆解到執行交付的全鏈條能力。無論是自動篩選簡歷、分析資料,還是生成專業PPT,使用者只需一句指令,AI即可完成一系列複雜任務,真正實現“數字助手”向“數字代理”的躍升。Hugging Face產品負責人Victor Mustar稱其為“最具顛覆性的AI工具之一”,並預言這類自主型AI或將重塑傳統開發和工作方式。HeyGem.ai開源引爆推特、Facebook、Reddit等各大平台分享討論如果說DeepSeek與Manus體現了中國AI在大模型與智能體領域的迅速突破與反超,那麼HeyGem.ai的出現,則標誌著中國AI在開源生態中的重要引領作用。2025年3月,硅基智能正式開源發佈數字人模型HeyGem.ai,短短72小時內,GitHub項目收穫1300余顆星標,10日後突破3200顆,迅速登上全球趨勢榜單,成為開發者社區熱議焦點。開源地址:https://github.com/GuijiAI/HeyGem.aiHeyGem.ai之所以受到廣泛關注,源於其對數字人製作門檻的根本性降低。使用者僅需一張照片或一秒視訊,即可生成高度逼真的數字分身,完整復刻面容與聲音,並在60秒內輸出4K高畫質視訊口播。性能測試表明,生成視訊在複雜光影、側臉或遮擋情況下,均能實現100%唇動匹配和自然表情呈現,標誌著數字人技術正式從實驗室走向大眾應用場景。更具顛覆性的是,HeyGem.ai採取了免費、無限制、完全離線運行的開源策略,打破了過去數字人技術長期被少數西方閉源公司壟斷的局面。相較於美國同類產品動輒數萬美元的高昂授權費用,HeyGem.ai大幅降低了中小企業與個人開發者的使用門檻,推動數字人技術真正實現普惠化落地。HeyGem.ai開源引爆推特、Facebook、Reddit等各大平台分享討論這一“科技平權”理念贏得了全球開發者的廣泛認同。在GitHub討論區,68%的開發者表示HeyGem.ai的超高速克隆和精準同步是其選擇的核心原因,另有超過三成開發者積極探索將其與其他生成模型整合,打通從文字創作到視訊生成的完整鏈條。國內技術社區反響同樣熱烈,HeyGem.ai官方交流群短期內聚集數萬名開發者分享成果,形成良性創新生態。HeyGem.ai開源數字人效果HeyGem.ai核心亮點即刻生成,無需訓練: 無需數字人訓練,30秒內克隆形象聲音,60秒內合成視訊,最快推理速度達1:0.5,視訊渲染合成速度達1:2。1秒視訊,極速克隆:1秒視訊或1張照片,即刻生成數字人4K電影級畫質:4K超高畫質、32幀/秒,超越好萊塢電影24幀標準。無限級克隆:無限量克隆數字人形象、聲音,無限量合成視訊。100%口型匹配: 即使側臉、遮擋或複雜光影環境下,仍可100%精確匹配發聲口型。多表情多動作:支援數字人呈現自然豐富的面部情緒及肢體動作開箱即用,低配可跑: 支援Docker一鍵部署,最低NVIDIA 1080Ti顯示卡即可運行。多國語言輸出: 克隆音色後支援8國語言輸出,滿足全球市場需求。HeyGem.ai開源引爆YouTube、X、Facebook、Reddit等各大平台分享討論2. 每個行業都值得用HeyGem.ai重做一遍HeyGem.ai以極低的使用門檻與高度靈活的開發能力,使個人與企業得以快速建構專屬AI分身,重塑內容生產、品牌傳播與人機互動的底層邏輯。在內容創作領域,HeyGem.ai徹底改變了創作者與內容的關係。無論是短影片博主、知識型KOL,還是獨立藝術家,通過HeyGem.ai均可快速生成高品質視訊內容,實現從文字指令碼到數字人演繹的全流程自動化,極大釋放了創作潛力,推動內容產業走向“個體即媒體”的時代。在銷售與品牌推廣場景中,HeyGem.ai配合AdBot系統,為品牌方與行銷機構提供了一種高效而精準的傳播工具。使用者只需上傳產品圖與文案,系統便能在10秒內生成4K高畫質帶貨視訊,精準匹配使用者畫像,實現內容定製與傳播效果的最佳化,大幅降低廣告製作成本並顯著提升行銷效率,推動品牌傳播邁向智能化與規模化的新階段。在影視與數字娛樂行業,HeyGem.ai為虛擬角色的高效生成與演繹提供了革命性解決方案。導演與製作團隊可利用HeyGem.ai快速克隆演員形象,實現無需實拍的高保真演出,賦能劇集預演、AI數字演員以及虛擬直播等多種形態,提升製作效率,拓展藝術表現空間,同時激發全新的敘事可能性。在教育領域,HeyGem.ai正在重構傳統教學模式。基於數字人技術的AI教師,能夠實現因材施教與即時互動,覆蓋語言訓練、學科輔導、實驗模擬等多個維度。通過融合多模態內容生成與智能反饋機制,HeyGem.ai為學習者提供沉浸式、個性化的教育體驗,推動教育資源的普及與教學質量的全面提升。在個人IP與品牌建設方面,HeyGem.ai為專業人士與內容創作者提供了全新的數位化表達方式。無論是專家知識的高效傳播,還是企業品牌形象的多維塑造,數字人所具備的可控性與可擴展性,使得知識與影響力突破了時間與空間的限制,實現了“自我”的持續放大與價值沉澱。HeyGem.ai的開源不僅意味著技術的共享,更代表著一種技術價值觀的轉變——推動數字人走出實驗室,走入社會,啟動產業創新生態。在內容、銷售、影視、教育、品牌等多元場景中,HeyGem.ai正成為行業變革的重要推力,加速各領域邁向智能化、高效化與普惠化的未來。著名商業諮詢顧問劉潤,分享自己使用矽基數字人3. 中國AI,用開放原始碼寫下檄文HeyGem.ai的崛起,為開源模式在全球AI競賽中的破局價值提供了生動註解。以開放全球領先的數字人模型為契機,它有效匯聚了跨越地域與壁壘的技術智慧,加速推動技術邊界的重塑。如今,這一路徑正被中國AI行業廣泛採納,開源協作的勢能不斷釋放,逐步形成直面美國技術壟斷的主動攻勢。早在2024年6月27日,硅基智能創始人司馬華鵬先生便深刻指出,人工智慧的較量,遠非單一技術之爭,更關乎國家命運。他明確提出,中國AI企業要打造三重護城河:品牌是海軍優勢,生態是空軍優勢,技術是陸軍優勢。HeyGem.ai正以3000多顆GitHub星標所代表的全球開放原始碼的影響力,匯聚全球數萬開發者形成龐大生態協作,同時以領先技術持續夯實底座,在這場AI產業革命中構築牢不可破的壁壘。2017年司馬華鵬先生提出四大預判司馬華鵬曾言:“每一代人有一代人的長征,我們這一代企業家,必須背起這副擔子,把這條路走出來。要讓世界看到,中國創業公司的力量,同樣值得被正視。”他始終堅持,中國企業要以開放的姿態,制定行業新標準,讓數字人技術真正“飛入尋常百姓家”,讓技術紅利惠及全球開發者與普通人,而非囿於壟斷與封鎖。他進一步援引毛澤東《論持久戰》,判斷中國AI從2022年底到2024年5月經歷戰略防禦期,6月至9月進入戰略相持期,而今年第四季度,中國AI將邁入戰略反攻階段——正是憑藉開源、生態和技術三重護城河的協同發力,中國企業正以前所未有的速度重塑全球AI格局。著名財經作家吳曉波,分享矽基數字人技術曾經,中國AI仰望美國;如今,以Deepseek、HeyGem.ai、Manus為代表的一批企業,憑藉核心技術突破與開放戰略,正在改寫這場競賽的走向。從杭州到南京,從武漢到更多新興力量,中國企業正匯聚成一股不可忽視的AI浪潮。正如司馬華鵬所說:“開源不是失守,而是領跑。我們要讓世界看到,中國AI有底氣、有實力,也有擔當。” 今天,中國AI已穿越防禦、跨越相持,站在戰略反攻的起點。未來競爭註定更加激烈,但中國AI已用實際行動證明:我們有信心去重塑格局,攀登高峰。杭州有Deepseek,南京有Heygem,武漢有Manus,中國AI,正在步入屬於自己的全球反攻時代。開源地址:https://github.com/GuijiAI/HeyGem.ai著名經濟學家任澤平博士,分享矽基數字人技術4. 再一次介紹我自己明星資本機構多輪投資我們開創了4大百億產業我們全球135項專利佈局我們入選行業各大獎項榜單我們被各級領導持續關注江蘇省委書記信長星在南京調研新型工業化,首站考察硅基智能,強調要發揮數位技術的賦能、疊加、倍增作用,實現多贏發展。信書記聽完匯報在離開矽基前後總結:硅基智能打造新物種矽基勞動力,目前才做到冰山一角,矽基未來可能創造N個兆級市場,有可能真正實現:碳基生命享受生活,矽基生命為您幹活的美好場景。 (硅基智能)