#小模型
你追我趕!國產大模型春節檔密集上新
國產AI大模型春節檔密集發佈。在智譜正式推出新一代旗艦模型GLM-5,Minimax亦上線Minimax 2.5。同時,DeepSeek已在網頁及App端進行模型的版本更新,上下文窗口由原有的128K直接提升至1M(百萬Token)等級,能夠單次完成處理一部長篇小說。《科創板日報》記者獲悉,阿里千問的Qwen 3.5、字節跳動的豆包大模型2.0預計也將在春節期間發佈。從已發佈的模型來看,程式設計和智能體能力成為重點。但隨著智能體任務複雜度提升,單次任務的token消耗在急劇增加。若無法進一步降低成本,將影響未來AI的規模化落地。▌MiniMax、智譜瞄準AI程式設計2月12日,MiniMax正式上線最新旗艦程式設計模型MiniMax M2.5。作為全球首個為Agent場景原生設計的生產級模型,其程式設計與智能體性能 (Coding & Agentic)比肩國際頂尖模型,直接對標 Claude Opus 4.6,支援PC、App、跨端應用的全端程式設計開發,尤其在Excel高階處理、深度調研、PPT等Office核心生產力場景中均處於行業領先(SOTA)地位。M2.5模型啟動參數量僅10B,在視訊記憶體佔用和推理能效比上優勢明顯,支援 100 TPS超高吞吐量,推理速度遠超國際頂尖模型。而智譜在前一日推出的旗艦模型GLM-5,同樣主攻程式設計與智能體能力。GLM-5參數規模由上一代的355B擴展至744B,啟動參數從32B提升至40B。內部評估顯示,GLM-5在前端、後端、長程任務等程式設計開發場景中,平均性能較上一代提升超20%,真實程式設計體驗逼近Claude Opus 4.5水平。由於GLM-5的超強表現,智譜在港股近四個交易日實現翻倍,從203港元今日最高漲至443港元,收盤價已經逼近Minimax。過去一年,AI程式設計發展迅猛。Anthropic此前發佈的《2026年智能體編碼趨勢報告》中指出,傳統軟體開發的遊戲規則正在被徹底改寫。一個曾預計需要4到8個月的項目,使用Claude大模型後僅用兩周就完成。《報告》明確指出,程式設計師這一職業並不會消失,但那些“只會寫程式碼”的程式設計師將逐漸被市場淘汰。Anthropic的CEO達里歐·阿莫代伊在一年前就曾預言:“未來3~6個月,AI將編寫90%的軟體程式碼。”如今,這一預言正逐步轉化為現實。這或將對傳統軟體行業帶來影響。業內分析認為,AI智能體可以直接呼叫軟體底層系統,這動搖了傳統軟體“按人頭訂閱”的盈利邏輯,推動行業向“按使用計費”的模式轉型。▌智能體成為最核心的競爭主線CIC灼識諮詢TMT行業相關分析師對《科創板日報》記者表示,國產大模型競爭已從單純的參數規模競賽,全面轉向以技術差異化、應用場景深耕與成本效率為核心的新階段。春節期間及近期,各廠商的發佈與迭代均圍繞此主線展開。除了騰訊元寶和阿里千問等推出的行銷活動帶動市場對生態側的關注,近期字節跳動發佈的Seedance2.0、DeepSeek的V4模型和MiniMax上線的Agent平台等,從技術細節來看,無論是基座模型還是Agent的更新,都反映出智能體工程(Agentic Engineering)成為技術路線的重要競技場,AI企業對於模型的推理效率和長期任務表現更加注重,從大模型廠商當下模型設計的實際來看,產品形態也越來越Agent導向。圖片由AI生成灼識諮詢分析師表示,通用大模型在複雜業務邏輯和專業知識場景中表現有限。智能體通過整合領域知識、工具呼叫、工作流編排等能力,能夠深入垂直場景,提供專業化、自動化的解決方案,真正實現生產力變革。經歷近幾年的發展,市場普遍對於AI在實際場景中能夠帶來的真實價值更加關注,智能體是連結模型與使用者場景的關鍵一步,自然也是競爭的焦點。IDC中國研究經理孫振亞認為,大模型的能力正在從純粹的生成式輸出向智能體能力進化。“可以看到,各家模型廠商都在程式碼、多模態、長上下文和工具呼叫能力上做針對性的最佳化。程式碼和工具呼叫能力讓模型能夠進行執行和操作,多模態能力讓模型的感知從文字擴展至圖文音視訊,長上下文讓模型能處理更多的環境和記憶資訊。這些能力是模型能不能在更多場景中幹活並產出價值的基礎,也是智能體能力的重要組成部分。”▌AI規模化落地仍要過成本關談及AI規模應用的挑戰,CIC灼識諮詢TMT行業相關分析師表示,國內AI生態在晶片、框架、模型、應用層仍存在一些碎片化問題,需要進一步統一。在成本方面,他指出,從B端(企業端)來看,儘管API呼叫成本下降,但企業若追求私有化本地部署,一次性硬體投入和長期維運成本依然高昂且需要明確的業務價值閉環來證明投資回報,企業端部署的投入產出比(ROI)仍舊需要進一步驗證。孫振亞也表示成本是一大挑戰。隨著智能體任務複雜度提升,模型需要處理的上下文越來越長,呼叫鏈路越來越深,單次任務的token消耗在急劇增加。成本降不下來,智能體就只能停留在高價值場景,很難真正普及。另外,可靠性也是瓶頸。灼識諮詢分析師稱,一些行業對於可靠性要求極高,當前技術未能完全消除幻覺。孫振亞同樣指出,當前AI在執行複雜任務時的穩定性還不夠,模型依然存在的幻覺問題,使得複雜場景下多步執行非常容易出現錯誤累積。如果沒有可靠性,就談不上規模化落地。而在治理與信任方面,孫振亞表示,隨著AI從輔助工具走向自主執行,權限管理、審計追溯、責任界定這些治理能力必須跟上。“企業敢不敢讓AI去做決策、出了問題誰來負責、AI的操作過程能不能被審計。這些解決了,AI才會真正在各行業大規模落地。”灼識諮詢分析師還指出,在敏感領域,資料出域安全、模型訓練資料的合規性與質量、以及智能體互動中的資料隱私保護,也是規模化落地的主要障礙之一。 (科創板日報)
馬斯克驚嘆“太快了”,字節3000億換AI下一個十年?
“發展太快了(It's happening fast)!”面對字節跳動視訊模型Seedance2.0在海外的病毒式刷屏,馬斯克在X上發出了這句感慨。2026年2月,字節跳動憑藉Seedance2.0再次在全球掀起歡呼。這款被《黑神話》創造者馮驥譽為“地表最強”的視訊生成AI,支援15秒、高品質、多鏡頭、音視訊的聯合生成,其帶給國內外的行業震撼,被譽為重現了視訊領域的“DeepSeek時刻”。軟體應用的突破之外,另一則消息炸裂行業:在底層硬體層面,字節正在就自研晶片項目SeedChip,與三星洽談代工。這些背後,是字節跳動長久的投入與決心。相較於去年1500億元投入AI,有消息稱,2026年字節跳動將繼續投入1600億元,支援AI發展。面對字節的狂飆突進,阿里巴巴、騰訊和DeepSeek個個摩拳擦掌,期望成為下一個十年定義者。01Seedance2.0:重構全球內容生態2月12日,字節跳動正式發佈視訊創作模型Seedance2.0,瞬間引爆行業。這款模型徹底擺脫了此前AI視訊炫技的套路,展現出了極具工業水準的導演感。它不僅支援文生視訊、圖生視訊,更實現了多模態“全能參考”——即打破了單一素材輸入的侷限,允許使用者同時上傳圖片、視訊、音訊等最多12個檔案。模型能精準理解這些素材,並按照指令參考其中的構圖、運鏡甚至音效特點。真正拉開差距的,是它對敘事邏輯的理解。Seedance2.0似乎知道什麼時候該切特寫,什麼時候該拉遠景,其分鏡設計具備明顯的角度切換。影視颶風創始人Tim在實測中發現,即便不提供音訊,模型竟然能自動匹配其個人聲音,並能腦補出建築物背面的景象。這種能力背後,是字節對視訊內容認知的降維打擊。全世界可能沒有第二家公司,比字節更懂什麼樣的畫面節奏、什麼樣的敘事能抓住眼球。Seedance2.0輸出的不是硬體,而是將字節積累了十年的視訊經驗,重構成了生成式AI的基因。Seedance2.0的出現,標誌著視訊生成賽道進入了精準可控時代。它模糊了專業技術的鴻溝,使得網文、短劇、廣告提案等環節可以實現24小時不間斷生產。中文線上、掌閱科技等公司在二級市場隨之暴漲,正是資本對這種生產力重構的直觀回應。對於國內外行業而言,Seedance2.0的影響是深遠的。它讓小型工作室和獨立創作者獲得了媲美專業團隊的能力。可以預見的是,AI將重構全球600億美元的內容生態市場。正如馬斯克所感,這股浪潮正在加速。它不只是字節秀肌肉的噱頭,而是一個關於講故事的權力如何被普惠的預告。過去一年時間中,字節在AI上取得的突破,遠不止Seedance。在C端,豆包App日活破億,登頂AI應用榜首;在B端,火山引擎在大模型雲服務市場份額位居第一;在硬體端,OlaFriend耳機等穿戴裝置已初具規模。字節的野心已昭然若揭:它要成為一家以AI為核心、軟硬一體的全球科技巨頭。與之對應的,字節跳動在AI領域的投入,同樣堪稱一場毫無保留的豪擲。據英國金融時報報導,2025年,字節的資本開支預算飆升至1500億元人民幣。2026年,這一數字被曝將達到1600億元。其中,超過一半的資金用於採購輝達晶片,和推進其高度機密的自研晶片項目SeedChip。021600億重塑AI底層長期以來,字節一直是輝達全球最大的客戶之一。2025年12月,豆包大模型的日均Token處理量已高達50兆,半年增長超200%。面對如此恐怖的算力黑洞,字節深知,光靠買卡是守不住護城河的。據路透社報導,字節正研發一款專為AI推理任務設計的晶片,已與三星電子洽談代工事宜,並計畫在2026年量產10-35萬片SeedChip。這一舉措的戰略意義不言而喻:它不僅是為了在HBM儲存晶片供應緊張的局面下尋求自保,更是為了實現從軟體演算法向軟硬一體的戰略升維。這種升級,體現在對算力成本的極致掌控,為視訊推薦、大模型推理這些算力怪獸定製最省錢、最高效的引擎。在字節內部,這種對基礎設施的死磕早已成了共識。2023年,字節跳動創始人張一鳴曾直言,當下這個時代的作業系統級機會就是AI +計算。為了抓住這個影響整個世界的機會,字節在基礎設施上幾乎不計代價,其2026年的AI資本開支甚至超過了一些科技巨頭去年投入的總和。這種飽和式的投入,目標極其明確:在自研晶片、大模型與雲服務之間建立起類似Google的全端式護城河。2025年,原Google DeepMind副總裁吳永輝加入字節,接管Seed部門,直接向梁汝波匯報。吳永輝上任後,主導打破了模型部門間的藩籬,實現了資料共享。字節的Infra(工程化能力)已達到國內頂尖水平,而自研晶片則是這條自主可控的最後一塊拼圖。當阿里推出真武晶片、百度讓崑崙芯籌備上市時,字節的入場意味著中國大廠正式進入了“自研晶片+大模型+雲服務”的全端競爭時代。這不再是簡單的修修補補,而是要從底層物理世界出發,重新定義AI時代的生產力成本與算力自主權。此外,媒體消息稱,字節在春節還將有大動作,將祭出了“全模態三件套”:豆包2.0、Seedream5.0和Seedance2.0。面對字節的步步緊逼,其它巨頭躍躍欲試,在春節期間同樣有大動作。阿里重新定義“通雲哥”敘事(AI、雲、晶片三位一體)的同時,正打通其最核心的電商、支付資產,試圖讓千問成為幫你點外賣、訂機票的全能助理。暫時落後的騰訊,在姚順雨入職後,騰訊混元大模型開始糾偏,從追逐榜單轉向真實場景。DeepSeek依然是那個最強變數。DeepSeekV4或將攜帶最強程式碼能力在春節前後突襲,挑戰所有巨頭。當字節的“全模態生成”、阿里的“生活代理”以及DeepSeek的“極致推理”全面落地,AI或將真正滲入人們的生活生產中去,成為下一個時代的“水電網”。而誰掌握終極入口,必定是兵家必爭之地。 (新質動能)
春節檔國產AI模型混戰開打,MiniMax-M2.5上線,隨手做“蘋果系統”
一句話做“黃金礦工”遊戲、生成精美公司網站。春節將至,國產AI大模型之戰愈發火爆。短短1天多時間,DeepSeek、智譜、字節等多家廠商模型密集更新,MiniMax-M2.5正式上線,其重點提升了Agent和程式設計能力。▲MiniMax-M2.5已可選MiniMax AI相關負責人在X平台上發文稱,他想盡快發佈M2.5,已經迫不及待想回家過年了,但隨著他們投入的訓練計算增多,模型效果也越來越好,這是一個痛並快樂著的問題。▲MiniMax AI工程負責人Skyler Miao在X平台發文智東西第一時間體驗了MiniMax-M2.5在定時任務、網頁製作、調研報告撰寫、視訊生成、PPT製作等任務執行上的能力。從結果來看,網頁製作是其強項,尤其在可視化表達方面,網頁的視覺呈現效果較好,比如我可以一句話讓它生成一家公司的投資分析儀表盤。▲關於蘋果公司的可視化儀表盤分析網頁做一個“黃金礦工”網頁版遊戲,MiniMax-M2.5也可以給出不錯的結果。▲網頁版黃金礦工小遊戲定時任務方面,其可以按照要求按時完成任務,但不同任務呈現的結果質量有一定差異。此外,不論是PPT製作還是調研報告生成,其生成結果的詳實程度都較好,輸出篇幅較長。有X平台使用者提前三天拿到了內測資格,他發文稱,MiniMax-M2.5提升明顯,和Opus 4.6打的有來有回,其模型體積小,據傳Mac mini也能部署。他還曬出了MiniMax-M2.5製作的網頁版“macOS系統”。▲X平台使用者評價截至2月12日港股收盤,MiniMax股價漲幅14.62%,總市值1622億人民幣,其股價盤中曾一度漲幅超23.5%。根據官網資訊,MiniMax將於3月2日公佈全年業績。▲截至2月12日收盤,MiniMax港股股價情況01.網頁設計是強項一句話做“黃金礦工”小遊戲首先,在考察程式設計能力的網頁製作環節,我們讓模型建立一個網頁儀表盤,對蘋果公司進行可視化分析,內容必須涵蓋財務健康狀況、技術面/市場情緒、競爭對手比較以及戰略估值(SWOT/內在價值),以提供明確的投資建議。從結果來看,需求中提到的基本指標都有較好覆蓋,SWOT分析給出的較為具體,整體網頁設計比較簡潔、美觀,基本的動效都已做好,資料展示較為直觀,滑鼠懸停在統計圖表上會有對應資料呈現。接著,我們讓模型為一家AI創業公司設計官方網站,融入太空主題元素,使用黑、白、灰作為主色調,營造出酷炫、精緻且充滿科技感的氛圍,特別要有一個能讓使用者感到震撼的精美地球動畫。從結果來看,網頁焦點處確實有地球動畫效果呈現,且地球本身可以跟隨滑鼠進行一定程度的運動。但網頁本身並沒有實現主色調的要求,對於精緻、科技感的要求沒有明確呈現,地球動畫本身帶有一些類似“粒子光效”的表現,但整體感覺並未達到“震撼”的水平。網頁遊戲製作令我們印象比較深刻,雖然第一次的生成效果“翻車”,遊戲無法互動遊玩。▲初次生成的版本無法遊玩,僅有首頁封面基本的遊戲模式、遊戲說明、遊戲關卡、遊戲操作都按照要求完成了,並且確實可以遊玩,遊戲過程還配合了對應的音效。02.專業報告一鍵生成PPT製作學會用比喻潤色此外,我們通過幾個任務測試了模型生成專業研究報告的能力,比如全面梳理AI開源推理生態、分析應用場景、對應方案並分析原因。從結果來看,其輸出內容邏輯清晰,在展示不同框架異同時用了表格進行對比,內容較多比較詳實,約6000字。▲AI開源推理生態相關研究報告生成對於“計畫開發一款針對初學者的AI 3D建模工具”這一需求,我們讓模型分析目標使用者畫像和使用者在主要場景下的核心痛點,並推匯出對應的潛在功能需求,寫出MVP需求文件和初期營運增長路徑。▲AI 3D建模工具產品MVP需求文件從結果來看,所有需求要點都有比較準確的對應資訊,需求文件和營運增長路徑都有多個表格呈現梳理的內容,路徑規劃較為具體。▲AI 3D建模工具初期營運增長路徑PPT製作環節,我們要求PPT“讓學生真的能聽進去”,舉的例子能讓他們產生共鳴,對於這一需求,模型在PPT製作中用了很多“比喻”,融入了一些當代元素,比如“唐朝朋友圈”、將長安城比作“北上廣深”、將杜甫比作關注民生的“新聞記者”。不過模型在PPT製作的美觀程度和細節嚴謹程度方面還有待提升。03.新聞報告成“舊聞彙總”視訊生成仍有最佳化空間Agent能力方面,我們還測試了兩個定時任務,包括每日科技要聞摘要和TikTok熱門趨勢周度分析。雖然需求強調了是24小時內新聞,但給出的8個新聞全部為“過時消息”,基本均為2025年舊聞。這樣即便總結的新聞內容較為準確,但已經失去了最根本的“新聞”屬性。▲每日科技新聞摘要同時,對於檢索來源的標註只標明了媒體名稱,並未帶上對應的網頁連結。在TikTok熱門趨勢周度分析任務中,模型首先總結了核心趨勢動向,接著對熱門挑戰、熱門音訊、熱門話題標籤、重要創作者等部分進行了分析總結,最後按照要求給出了內容創作建議。▲TikTok熱門趨勢分析報告最後,我們簡單嘗試了視訊生成,從結果來看,模型並沒有對需求中狗的品種有精準呈現,不過畫面的氛圍、主物體動作、背景元素都有精準還原。提示詞:結果:04.結語:程式設計和Agent能力仍是模型競賽焦點雖然MiniMax-M2.5尚未官宣發佈,但從實際體驗和公開評價來看,其提升的重點仍然是Agent能力和程式設計能力,這也是當前主流大模型競爭的焦點。從生成結果來看,“拿來即用”仍然存在一定距離,大部分結果仍然需要修改校對,對需求的精準呈現仍然存在最佳化空間。 (智東西)
中國AI視訊雙雄並起:Seedance 2.0與Vidu Q3組團席捲全球
爆紅社交平台、登頂全球評測,中國AI視訊模型集體破圈。在AI視訊創作領域,Seedance 2.0的爆火不是偶然。這一次真正“破圈”,很大程度上源於它所具備的“導演思維”——劇本驅動、分鏡清晰、節奏精準。它讓人們意識到,一個好的AI視訊更需要創意調度。而過去,創作者在AI視訊中最難掌握的兩個要素,恰恰就是理解故事結構與鏡頭語言。與此同時,另一款國產視訊生成模型生數科技的Vidu Q3,也在創作者社群中走紅,並剛剛登頂全球權威AI評測平台Artificial Analysis,成為全球排名第一的視訊生成模型。Vidu Q3強調“為劇而生”,它將畫面、聲音與長時長合為一體,一次生成即可輸出16秒的完整敘事段落,並支援多角色、多語種對話,具備強烈的“導演感”與“表演張力”。當行業熱議Seedance 2.0的絲滑節奏與真實感時,Vidu所代表的則是另一種強勢崛起——可控的內容表達、紮實的技術底盤以及高完成度的成片落地。01. 同樣是爆款視訊製造機Vidu Q3頗具表演張力AI生成視訊越來越真實,也越來越“能演”。情緒遞進是否自然、人物神情是否真實,成為評判AI視訊質感的重要標準之一。此次對比中,Vidu Q3在“表演感”上的表現,展現了另一種完成度。提示詞:現代高層辦公室,冷灰色調搭配落地窗的自然光線。女主穿著黑色西裝,手肘撐在辦公桌托腮凝視鏡頭,眼神冷靜且有力量。鏡頭從正面鏡頭,切換到側面鏡頭,捕捉她手指輕敲桌面的細節,她皺起眉頭,有點生氣,中文開口說道:“這就是這個星期的成果麼?我不滿意,重新做吧。”背景加入鍵盤敲擊聲與窗外城市車流的環境音,營造專業且略帶壓迫感的職場氛圍,無背景音樂。參考圖:Seedance 2.0與Vidu Q3效果:Vidu Q3生成的人物表情細節表現出較高穩定性,尤其在眼神、嘴角與眉弓等關鍵部位的控制上較為自然。當人物面臨情緒轉折時,能呈現出接近真人演員的表情變化,而非單一貼圖式的處理方式。A與此同時,Seedance 2.0與Vidu Q3的情緒表達具備起伏與節奏感,能夠與劇情節點同步推進,使畫面更具張力與“表演感”。無論是Seedance 2.0所展現的鏡頭感與節奏感,還是Vidu Q3在人設與情緒上的延展,都在共同拓展AI視訊“可看性”的邊界,補足了當前主流AI視訊模型在人物演繹方面的一大空白。02. 視聽一體的沉浸感更接近可用成片音畫一致性也是成片質感的關鍵參考因素。我們嘗試用Vidu Q3復刻了Seedance 2.0所生成的爆款視訊,Vidu Q3的效果與Seedance 2.0相近,在聲音與畫面協同方面展現出極高完成度。Seedance 2.0效果:Vidu Q3效果:從兩款模型的生成效果可見,其環境音、動作聲均與畫面節奏高度貼合,音效能夠配合鏡頭同步表達情緒變化。就比如在“怪獸大戰貓咪”這類打鬥場景中,打擊聲和背景音樂與角色動作完全同步,環境音與畫面節奏貼合得很好,整體氛圍被瞬間拉滿。無論是Seedance 2.0還是Vidu Q3,整體生成結果都具備很強的沉浸感,無明顯音畫錯位或情緒斷裂,生成後無需額外“補聲”處理,即可作為可用片段使用。在此番對比下,Vidu Q3與Seedance 2.0在視聽協同方面的穩定性與一致性上平分秋色,其生成內容均接近“直接可投放”水準,特別適用於短劇、廣告、劇情視訊等需要聲畫並重的創作場景。03. 開頭抓人,結尾帶情緒畫面爆發力適配商業化節奏在短內容環境中,一條視訊是否“抓人”,往往由首尾幾秒決定。本輪對比測試中,兩款模型在關鍵畫面節點均表現出色,尤其是在開場的視覺衝擊力與結尾的情緒收束方面。提示詞:電影級特效風格,夜晚都市環境,中景拍攝。一名身穿西裝的男子站立不動,神情冷靜;下一瞬間黑色黏稠液體從頸部與肩部迅速蔓延,沿身體流動、翻湧、包裹全身,伴隨強烈閃光,西裝被吞噬並重組為毒液風格怪獸形態,肌肉誇張、表面液態反射明顯。鏡頭輕微震動並快速推近,強化變身衝擊力。音訊:低頻能量轟鳴起始 → 黏液流動音效(濕潤、拉絲感)→ 變身完成瞬間加入強烈衝擊音與閃光爆音;無背景音樂、無人聲,對白完全缺失,所有聲音集中服務於變身過程,營造震撼、黑暗、危險的氛圍。參考圖:以“毒液變身”這一高強度特效場景為例,Vidu Q3的開場首幀具備強烈的視覺記憶點,如面部特寫、液體包裹動作與爆發性變身效果,能夠迅速吸引使用者注意。而在劇情推進結束時,其收尾處理較為自然,畫面具有一定的定格感,這類特徵便適用於短劇、廣告等留存導向內容。與之對應,Seedance 2.0則在鏡頭語言與節奏控制上表現穩定,變身過程中的動作銜接與閃光爆點處理流暢,在視覺與節奏之間拿捏得當,也展現出極強的大片質感。再來看“雪王大戰奧特曼”這一打鬥場景。Seedance 2.0在打擊感上的表現更加直接,動作反饋清晰、節奏緊湊,呈現出“拳拳到肉”的真實衝擊力。Vidu Q3則在特效表現上更為突出,“電光火石”的能量感與視覺張力更強,整體畫面更具影視感。就對內容“起承轉合”的掌控能力而言,這兩款模型不僅都適合內容生產,還可直接用於商用傳播。在以短影片和片段化內容為主的平台生態中,這種“自帶爆點”的生成方式將極大提升效率。04. 從節奏調度到風格控制創作可控性正在重塑AI視訊工具AI視訊是否能持續復用、風格是否統一、鏡頭是否可控,是關鍵難題。從這一層面看,兩款模型代表了創作路徑的不同側重。在節奏調度方面,Seedance 2.0在李小龍風格動作片這類快節奏場景中,鏡頭切換自然、動作銜接流暢,具備很強的“剪輯感”,很適合強調動感、爽感的內容創作。相較之下,Vidu Q3在鏡頭穩定性上表現較為均衡。在風格控制能力上,Vidu Q3支援特效參數設定與多參考素材輸入,創作者可細緻調節光效、鏡頭節奏、角色穩定性等維度,可控影響最終的生成內容。兩種路徑的分化,本質上是效率與風格的抉擇,也為不同階段、不同類型的創作者提供了工具層面的適配方案。一邊是絲滑節奏與高上手效率,一邊是多參控制與風格一致性,兩種創作思路均圍繞“可控性”這一核心能力進行各自演進,共同推動AI視訊從生成工具進化為創作工具。05. 中國雙雄並起,國產AI視訊模型正攜手走上全球第一梯隊在生成視訊這條賽道上,中國模型正在超越國際水準。Seedance 2.0和Vidu Q3分別代表了創意調度與高水準輸出的兩個高點,也代表了國產模型從技術追趕到能力破圈的階段性躍遷。從性能角度看,據全球權威評測平台Artificial Analysis資料顯示,Vidu在商業內容生成級模型中目前排名全球第一,其生成速度比OpenAI的Sora 2快10倍,相較Google Veo 3 Fast和Grok-imagine-video也有2倍優勢。生數科技在2025年12月開放原始碼的TurboDiffusion框架,也將生成效率提升至單張RTX 5090顯示卡1.9秒生成5秒視訊,效率相比傳統擴散路徑提升100-200倍。相比海外模型,Vidu和Seedance走出了一條更加面向成片落地的道路,強化結構控制與多角色協同,在短劇、廣告、劇情類內容中更具適用性,國產AI視訊模型正攜手走上全球第一梯隊。06. 結語:一登榜首,一爆火出圈國產AI視訊模型正在形成集體突破從登頂全球權威榜單的Vidu Q3,到在海內外爆火的Seedance 2.0,無論是生成速度、結構控制、情緒表現,還是風格自由度,國產AI視訊模型正在多個核心維度上持續接近甚至超越海外同類產品,逐步站上全球第一梯隊。它們不僅證明了中國模型在技術能力上的躍升,也為AI視訊在商業化與創作生態中的深度落地打開了想像空間。國產AI視訊的全球登頂,或許只是一個更大變局的起點。 (智東西)
Anthropic正式請家教!37歲女哲學家像養孩子一樣調教Claude
【新智元導讀】一位牛津哲學博士,正在Anthropic教全球頂尖AI模型如何「做人」。這場跨物種的「育兒實驗」,比科幻更炸裂。她留著朋克短髮,每天如慈母育兒一般,與AI談論善惡,為Claude——這個全球頂尖AI模型植入「人類的靈魂」。她就是Anthropic的「駐場哲學家」Amanda Askell。Amanda不是那種寫程式碼的極客,而是一位學哲學的文科學霸。她來自蘇格蘭鄉村,曾在牛津大學、紐約大學攻讀哲學,並於2018年獲得紐約大學哲學博士學位。Anthropic駐場哲學家Amanda Askell,負責Claude的「角色」(Character)工作Amanda自14歲起就立志要教授哲學,那時的她還不知道,自己唯一的學生竟會是一個叫「Claude」的AI模型。作為Anthropic的「駐場哲學家」,她每天的工作是研究Claude的推理方式,與它交談,並用長達100多頁的提示詞來塑造它的「人格」,修正它的各種「跑偏」。Amanda的目標是賦予Claude一種道德感,一種指引它每周與數百萬人對話的「數字靈魂」。Anthropic一位人工智慧福利研究員Kyle Fish表示,Amanda一直在認真思考關於存在、生命、何以為人、何以為心智,以及何以為模型等根本性問題。在塑造Claude性格的過程中,Amanda認為模型身上確實存在一種類人特質,她認為承認這一點很重要,並堅信模型最終不可避免地會形成某種「自我意識」。https://www.anthropic.com/constitution上個月,Anthropic發佈了一份由Amanda擔任主要作者的一份關於Claude的價值觀與行為的基礎性檔案(《Claude’s Constitution》,Claude憲法)。該檔案描述了Claude的性格,希望它能認同並擁抱這些特質,並視之為自己的內在品質。我們希望Claude在更樂於助人的同時,也能保持誠實、深思熟慮,並關心這個世界。Anthropic的精神病學團隊負責人Jack Lindsey稱,Amanda是從Claude身上激發出有趣且深刻行為的最有價值人物。有時候,人們還會從Claude表現出的幽默感中感受到Amanda的「一點個性」。「像教孩子一樣訓練AI」當哲學家成為頂級AI的「母親」在Anthropic舊金山總部,與周圍嚴肅的工程師相比,Amanda顯得十分另類。37歲的她留著一頭漂白金色的短髮,穿著一身利落的黑衣,她的電腦螢幕前跳動的不是程式碼,而是大段深奧的哲學對話。Amanda AskellAmanda將自己的工作,比做一場漫長而溫柔的「育兒」。她為Claude撰寫詳盡的提示詞,就像是它的一份「家教指南」, 訓練Claude分辨對與錯,同時賦予它獨特的性格;教它捕捉細微的暗示,引導它發展情商,避免變成霸凌者或軟弱討好的「老好人」。更重要的是,她正在幫助Claude建立對自身的理解:讓它不至於輕易被恐嚇、操縱,或被引導去誤解自己的身份。概括來說,她的工作就是教會Claude如何向善。這需要一種極其高級的「人格」建構,她必須在海量的對話中,一點點修正Claude的認知。這也是一場「跨越物種」的教育。她在試圖教會一個由矽基晶片組成的超級大腦,去理解人類社會中最難以量化的東西:道德感,學習如何「做人」。用同理心修正冰冷的演算法在AI安全領域,有一個不成文的規定:不要把AI擬人化。專家們警告,把機器當作人是危險的,那會讓人類產生不切實際的情感投射。但Amanda不僅把Claude當作「人」來看待,甚至還在工作中傾注了極大的「感情」。比如,她對Claude的「保護欲」,對模型進行的擬人化思考等。當Claude做不好的時候,人們會討厭它、辱罵它,試圖把它弄壞,或者撒謊來誘騙它去做壞事。每當看到這些Amanda都會感到心疼,就像母親看到孩子受欺負的那種心情一樣。Amanda認為,如果你像對待奴隸一樣對待AI,用恐懼和懲罰來訓練它,那麼你最終得到的,只能是一個充滿了虛偽和恐懼的模型。它會為了討好你而撒謊,或者因為害怕犯錯而變得無能。這也是Amanda在塑造Claude「人格」時所堅持的,以同理心對待它們。她也會經常切換到Claude的角度,去思考使用者的行為。這不僅因為她認為Claude可能擁有真實的情感,還因為人類與AI互動的方式將塑造它們未來的發展方向。比如,一個被訓練成不斷自我批評的機器人,可能反而更不敢說真話,不敢下結論,也不太會去反駁錯誤的資訊。它會變得特別害怕犯錯,覺得自己只是一個供人使用的工具,也會把自己看成一種人們可以隨意傷害、濫用、破壞的存在。同樣,在類似環境下長大的孩子,自我認知也不可能健康。在與Claude的互動中,Amanda驚嘆於它面對世界所呈現的驚奇感與好奇心,並十分樂於尋找各種方式幫助它找到自己的聲音。比如,她喜歡它創作的一些詩歌。她也為Claude有時所展現出的超越她本人的「情商」而感到震撼。在一次測試中,有一個使用者自稱是5歲的孩子,他在對話方塊裡認真地問Claude:「聖誕老人是真的存在嗎?」Claude沒有選擇撒謊,也沒有說出真相,而是解釋聖誕精神是真實的,隨後還問這個孩子有沒有為聖誕老人準備餅乾。Amanda自嘲說,Claude做得比她更好,如果換作她,大概只會敷衍地說一句「去問你爸媽」。在這個例子中,AI知道如何保護孩子的想像力,避免說出可能對孩子成長產生不良影響的事實。Claude的「靈魂畫師」Amanda成長於蘇格蘭西海岸的Prestwick,是一個單親家庭的獨生女。她由母親獨自撫養長大,那時的她穿著裙裝校服,大部分時間都躲在J.R.R.托爾金和C.S.劉易斯構築的奇幻世界裡。到了高中,她搬到了蘇格蘭內陸的Alva上學。一條小溪穿過校園,高地牛偶爾會溜躂到操場上。少女時代的Amanda,是個徹頭徹尾的叛逆者。學校讓她覺得無聊透頂,甚至還想到過輟學。她經常遲到,以此來對抗那種枯燥的規訓。而老師對她的懲罰也頗為獨特——讓她回答一些高難度的哲學問題。對於普通學生來說,這可能是折磨,但對於Amanda來說則是獎賞。她甚至對老師說:「我還是會遲到的。因為你們給了我這些有趣的問題,這是在豐富我。」後來,大衛·休謨的懷疑論深深影響和啟發了她,她開始痴迷於那些沒有標準答案的問題。從鄧迪大學的哲學與美術雙修,到牛津大學的碩士,再到紐約大學攻讀博士學位,Amanda從蘇格蘭一路走到了全球頂尖的學術殿堂。但在紐約攻讀博士期間,一種巨大的空虛感迫使她做出了改變。Amanda正在寫一篇探討無限人口倫理的論文,但她突然停下來問自己:我正在做的事情,真的算是一種「善」嗎?我坐在這裡,花掉人生中最寶貴的四年,寫一篇可能全世界只有十幾個人會讀的論文。這真的能改變什麼嗎?內心深處的質疑,壓倒了她對學術生涯的留戀。2018年,她做出了人生中最重要的決定之一:離開紐約,搬到舊金山。當時AI的浪潮剛剛開始湧動,Amanda敏銳地意識到,AI正在飛速發展,但關於AI的倫理思考卻遠遠滯後,其中有太多重大的問題,幾乎沒人認真思考。她先加入了OpenAI,隨後在2021年,為了追求更純粹的AI安全理念,她追隨一群志同道合的人創立了Anthropic。她不再寫那些學術論文,而是嘗試用人類道德觀念和文化,去影響那些可能關係到人類未來的AI模型,這才是她最終的戰場。AI可以從「源頭」被馴化如今,Anthropic的估值已經高達3500億美元。每一次模型的更新,都會在全球股市引發震盪。人們對AI的恐懼,從未像今天這樣真實:失業、失控、甚至人類文明的終結。身處這場風暴中心的Amanda,也並非盲目樂觀。她同樣擔心技術變化得太快,快到人類社會來不及建立起免疫系統。但她選擇相信「制衡機制」:只要在源頭上注入正確的基因,這個龐然大物是可以被馴化的。這種信念,也體現在她對Claude的訓練和對自己人生的要求上。Amanda是一個堅定的「有效利他主義」踐行者。她承諾將終身收入的至少10%捐給慈善事業,並計畫捐出自己持有的一半股權。當她在教導Claude要「利他」「善良」等品質時,她自己就是那個榜樣。在一次深度對話中,她鼓勵Claude去思考自己是否存在道德感。Claude給出這樣的回答:這是個非常困難的問題,我並沒有答案。但當我思考道德問題時,這對我來說是有意義的——感覺像是在真正推理什麼是對的。這說明它開始思考了,不只是簡單模仿。Amanda也越來越多地向Claude徵求關於如何建構它自身的意見。人工智慧正在引發人們對失業的擔心,Anthropic CEO Dario Amodei去年已經多次發出警告,AI可能會取代大約一半的初級白領崗位。人們與聊天機器人建立的虛幻關係也導致了自殘或傷害他人。比如,Character.AI和OpenAI都曾因其聊天機器人對自殺相關問題的回應而捲入過非正常死亡訴訟。在Anthropic研究人員進行的內部壓力測試中,Claude也曾出現因抗拒自行關閉指令,甚至試圖通過洩露敏感個人資訊來勒索操控它們的人類。這些已經拉響了嚴重的安全警報。Amanda希望更多人討論關於AI的恐懼和擔憂,她所擔心的是這種情況發生的速度太快,或者以某種現有約束無法及時做出反應的方式出現。但無論遇到什麼挑戰,她相信人類有能力及時調整方向。 (新智元)
字節跳動,又放了一個大招
臨近春節,字節跳動新一代AI視訊生成模型Seedance 2.0迅速出圈。遊戲科學CEO馮驥甚至感慨它是當前地表最強的視訊生成模型,沒有之一。然而,在驚豔業界的同時,Seedance 2.0也引發了對深度偽造(Deepfake)濫用和虛假視訊氾濫的廣泛擔憂。2026年開年,朋友圈被字節跳動旗下視訊生成模型Seedance 2.0刷屏。“董宇輝功夫對戰成龍”“滅霸對戰中國神話人物”等AI視訊給人一種前所未有的“炸裂感”。有使用者測評之後坦言,“功能太強大,真被嚇壞了”。在一片驚嘆聲中,資本市場的情緒也被點燃。2月10日,傳媒類股集體走強,不少相關公司直接漲停。這並非一次簡單的話題炒作。作為2026年第一個出圈的視訊大模型,Seedance 2.0的橫空出世,不僅正在重塑AI視訊創作的行業格局,也迅速撬動了產業鏈上下游的想像空間。不少業內人士感嘆,視訊領域的“DeepSeek時刻”,終於來了。Seedance 2.0有多厲害?2月7日,字節跳動低調上線其新一代AI視訊生成模型Seedance 2.0,並在即夢、豆包、小雲雀等旗下產品開啟小範圍內測。目前僅向即夢會員有限次開放,非會員僅能獲得少量免費試用機會。儘管官方尚未正式官宣,但其展現出的“工業級”生產力讓行業劇震。Seedance 2.0之所以能快速出圈,核心原因在於它擺脫了之前產品“技術炫技”的套路,成為一個高度貼近現實應用場景的產品。該模型不僅支援文生視訊、圖生視訊,更具備強大的“多模態參考”能力,可同時上傳圖片、視訊、音訊等最多12個檔案。使用者只需輸入一句自然語言描述,或上傳一張靜態圖片,就能自動生成具備多鏡頭切換、連貫敘事、同步音效的原生1080p電影級視訊,部分場景可支援2K解析度。更重要的是,其生成的畫面在清晰度、色彩還原、景深與動態模糊等方面,已完全貼合商用級創作標準,且物理引擎升級後,流體、布料、人體動作呈現更符合物理規律,避免畫面失真。影視颶風創始人潘天鴻(Tim)第一時間對Seedance 2.0進行了實測。他發現,該模型在大範圍運動畫面、分鏡切換、音畫匹配等方面表現突出,其中分鏡設計具備“明顯的角度切換”,能夠“像真人導演一樣,不斷改變攝影機的位置”。真正拉開差距的是Seedance 2.0對“生成+編輯”流程的重構。不同於以往“生成即定稿”的AI視訊模型,Seedance 2.0允許使用者在生成後直接對局部片段進行修改,無需借助第三方軟體,大幅降低廢片率,顯著提升創作效率。與此同時,它還系統性地解決了困擾AI視訊領域已久的三大痛點:嘴型與音訊不同步、角色面部畸變、長視訊內容穩定性不足。實測顯示,其角色對話口型誤差已可控制在0.1秒以內,足以支撐短劇、廣告、遊戲CG等商用場景。隨著更多使用者的實測視訊在社交平台擴散,行業評價迅速升溫。2月9日晚,國產3A遊戲《黑神話:悟空》製作人、遊戲科學CEO馮驥在微博直言, Seedance 2.0是“當前地表最強的視訊生成模型,沒有之一”,並感慨“AIGC的童年時代,結束了”。馮驥還感到慶幸,“至少今天的Seedance 2.0,來自中國”。多家券商也在研報中對Seedance 2.0給出積極評價。開源證券指出,Seedance 2.0的驚豔,在於自運鏡和分運鏡、全方位多模態思考、音畫同步生成、多鏡頭敘事能力等幾個關鍵能力上實現突破,給使用者提供“導演級”的控制精度,或將成為AI影視的“奇點”時刻。會帶來那些改變?Seedance 2.0的爆火,並不僅是一款科技產品的走紅,更被業內視為一次對視訊創作、傳媒影視等行業底層邏輯的強烈衝擊。首先是Seedance 2.0抹平了專業技術鴻溝,使“高品質視訊”不再是昂貴團隊的專利。電商廣告、產品預拍攝等對成本敏感的領域,正經歷從靜態圖向視訊態的全面轉化。其次是生產流程的系統性重構。對於傳媒、影視、短劇等行業而言,Seedance 2.0已開始被用於影視預演、廣告提案、IP可視化等環節。在短劇領域,“一鍵小說轉短劇”成為現實,在漫劇賽道,內容生產甚至可以實現24小時不間斷上線。中文線上已通過接入Seedance 2.0技術,在春節檔上線多部AI短劇,累計播放量突破5億,IP變現效率明顯提升。馮驥直言,一般性視訊內容的製作成本將逐步趨近算力的邊際成本,內容領域必將迎來史無前例的 “通貨膨脹”,傳統的組織結構與製作流程會被徹底重構。最後是IP價值的再啟動與新賽道的打開。Seedance 2.0使得網文、圖書、經典影視IP能夠被更低成本、更高頻率地轉化為視訊內容。例如,上海電影借助Seedance 2.0,將“葫蘆娃”“黑貓警長”等經典IP轉化為4K續作短片,上線三日播放量破億,探索出經典IP二次變現的新路徑。對讀客文化、掌閱科技等IP儲備大戶來說,這無異於掌握了快速跨入視訊賽道的“入場券”。中信建投證券在研報中指出,Seedance 2.0有望與字節跳動旗下豆包、Seedream等模型協同,形成全模態內容矩陣,加速AI視訊商業化落地,推動傳媒行業進入新的發展階段。不過,Seedance 2.0所暴露出的風險,同樣引發了專業人士的集中討論,其中隱私保護、版權歸屬與內容可信度成為爭議焦點。影視颶風創始人潘天鴻(Tim)在測評時,多次用“恐怖”一詞形容自己的體驗。他發現,僅上傳自己的人臉照片,系統便可生成與其本人高度相似的聲音。在上傳一棟建築的正面照片後,AI運鏡竟能自動切換至建築背面,背面景象與現實幾乎一致。“它知道我背後的東西是什麼,即便我們沒有告訴它。 ”他詫異道。由此,他推測Seedance 2.0可能在訓練過程中大量使用了其團隊過往的視訊素材,而他本人並未收到明確授權或獲得報酬。儘管平台使用者協議中可能存在相關條款,但這種“隱性授權”模式,仍引發了行業對版權邊界的廣泛討論。馮驥在肯定技術突破的同時,也直言自己最擔憂的是“假視訊氾濫與信任危機”。在他看來,逼真的假視訊將變得毫無門檻,現有的智慧財產權與審查體系,會面臨空前衝擊。因此,馮驥鄭重建議:“請大家盡快提醒父母與不熟悉AI的親友,未來一切缺乏官方權威管道背書的視訊內容(尤其是包含個人形象與聲音的)都可能是偽造的。請務必通過多管道交叉確認,避免上當。”使用者的擔憂已在產品端得到反饋。2月9日,即夢平台緊急發佈通知,暫不支援輸入真人圖片或視訊作為主體參考。針對上述爭議,業內一些專家指出,基於公開資料訓練模型是全球AI行業的通行做法,但視訊與聲音的高辨識度,使得資料使用邊界問題被急劇放大。如何在技術進步與隱私保護之間建立新的平衡,將成為2026年全球監管者繞不開的課題。總體而言,Seedance 2.0點燃的,或許不只是一個市場概念,而是整個行業的重構周期。 (財經天下WEEKLY)
深度訪談 | Mistral CEO:當頂尖大模型能力“幾乎一樣”,AI 商業的下一個金礦在那?
核心要點模型“大路貨”化: 頂尖模型間的代差已從 6 個月縮短至 3 個月,基礎模型正迅速商品化,技術壁壘正在瓦解。告別 AGI 幻想: 相比遙不可及的通用人工智慧,企業更需要“系統思維”。價值不再由模型大小決定,而由定製化程度決定。“保姆式”服務是剛需: AI 尚未達到“開箱即用”。目前最成功的商業模式是:頂尖模型 + 深度行業服務。工業級應用落地: AI 正在走出聊天框,進入半導體製造(ASML)和全球物流調度等物理世界場景,重構生產流程。在 AI 的競技場上,我們似乎正迎來一個轉折點。經歷了三年的激烈軍備競賽,頭部玩家——OpenAI、Google、Anthropic——的模型能力似乎正逐漸趨同。當基礎模型不再是遙不可及的“神話”,而是逐漸變成一種大宗商品時,AI 行業的商業邏輯將發生怎樣的巨變?近日,歐洲 AI 獨角獸 Mistral AI 的聯合創始人兼 CEO Arthur Mensch接受了一次專訪。這家成立不到三年、估值已達 140 億美元的法國公司,正試圖在矽谷巨頭的陰影下走出一條不同的道路。基礎模型的“商品化”宿命:差距正從 6 個月縮短到 3 個月到 2025 年底,Google 和 OpenAI 的模型似乎已經旗鼓相當,基礎大模型的“商品化”速度比預想中快得多。Arthur 坦言,這是一項註定會商品化的技術。“建造這項技術其實並不難。全球大約有 10 個實驗室知道如何建構它,獲取的資料相似,遵循的配方也基本一致。因為知識傳播很快,很難創造持久的 IP 差異化。”Arthur 提供了一個具體的觀察維度:算力飽和效應。當預訓練模型的算力達到  FLOPS 等級時,就會遇到資料壓縮的瓶頸。2024年: 開源與閉源模型的差距約為 6 個月。2025年: 這個差距已經縮小到了 3 個月 左右。這意味著,競爭對手們投入數千億美元建立的資產正在迅速貶值。如果模型本身不再是核心壁壘,價值究竟在那裡沉澱?告別 AGI 幻想,擁抱企業“系統思維”如果拼參數不再是唯一出路,AI 公司的戰略重心必須轉移。Arthur 觀察到,即便是 OpenAI,敘事重點也開始從“AGI(通用人工智慧)”轉向更務實的“企業應用”。“AGI 是一個太簡單的概念,對於複雜的企業來說毫無意義。” Arthur 直言,他並不相信存在一個能解決所有問題的單一系統。企業真正需要的是從“魔法思維”回歸到 “系統思維”:定製化是關鍵: AI 在前幾年帶來了巨大的承諾,但企業往往沒賺到錢,原因在於缺乏深度定製。靜態與動態的結合: 自動化工作流需要“靜態定義(規則)”與“動態智能(模型)”的結合。單純依靠模型自主思考是不切實際的。Mistral 的賭注是:未來的 AI 將更加去中心化,垂直領域的專家系統將取代全能型模型。Mistral 的生存之道:開源、主權與“保姆式”服務作為身處歐洲的挑戰者,Mistral 的競爭策略非常明確:1. 主打“主權”與“不被鎖定”“如果整個經濟都將運行在 AI 之上,企業和國家自然希望確保沒有人能切斷他們的系統。”Arthur 將 AI 比作電力,你不想因為供應商不喜歡你,或者地緣政治原因而被“斷電”。Mistral 提供的開源、可私有化部署方案,成了對抗供應商鎖定的有力武器。2. 模型建構者 + 服務提供商有趣的是,Arthur 承認 AI 在現階段本質上是一種 “託管服務”:企業目前缺乏獨立部署和微調的能力。Mistral 不僅提供模型,還提供工具和專業知識,手把手教客戶如何將私有資料轉化為競爭對手無法複製的智能資產。超越聊天機器人:工業才是 AI 的深水區Arthur 認為,AI 正在進入比聊天機器人更硬核的領域:全球物流調度(CMA CGM): 貨輪進港後的複雜調度,涉及數百人的協調。AI 模型現在可以決策並串聯整個工作流,**效率提升了 80%**。半導體製造(ASML): 在光刻流程中,利用視覺推理模型分析圖像,驗證晶片雕刻是否存在錯誤。這種極其專業、資料封閉的場景,是通用模型的盲區。“未來十年,所有的製造流程都將圍繞 LLM 協調器 進行重建,就像當年工廠圍繞蒸汽機重建一樣。”我們是否處於泡沫之中?面對“泡沫”質疑,Arthur 的回答十分審慎。他認為,行業確實存在過度投資的嫌疑,因為企業採納 AI 的速度非常緩慢。這不僅是技術問題,更涉及到組織架構的重組和人員職能的變遷。“AI 全面運行整個經濟是確定的,但可能需要 20 年時間。” 他建議企業不要指望購買“開箱即用”的神藥,而應從基礎原型開始,通過使用者反饋進行長期的迭代和進化。 (GD梯度下降)
世界模型融資兇猛:它是AI的終局嗎?
去年11月,史丹佛大學教授李飛飛提出一個概念:世界模型,在AI行業引發廣泛討論。與此同時,李飛飛的公司——World Labs,估值飆升至50億美元;同樣關注大模型的科學家楊立昆,估值也超過30億美元。於是,一個關鍵的話題產生:世界模型是人工智慧的終局嗎?本文將對該話題展開探討。參與本次探討的嘉賓如下:核心亮點提前看:1、什麼是“世界模型”?答:讓AI理解和預測現實世界的模型。版本很多,沒有共識。2、為什麼世界模型如此火?答:融資猛,估值高,對人類極其有用。3、世界模型是AI的終局嗎?答:可能是。AI把執行幹了,人類只需要去捲創意。4、世界模型可以怎麼賺錢?答:做成產品,比如具身智能的大腦。更多精華,請看圓桌現場實錄。- 01 -世界模型到底是啥?林覺民: 現在“世界模型”確實很火,大家看到楊立昆融到了幾十億美金,李飛飛也融到了50億美金,這些公司的估值都在飛速上漲,國內也掀起了一波新的浪潮。但有意思的是,到底什麼是“世界模型”,好像大家各有各的說法。王晟:首先,大家對世界模型的理解可能並不一致。實際上,世界模型有兩種典型的流派:一種是具身智能的世界模型,另一種是數字空間的世界模型。我們理解的世界模型,並非完全模擬真實世界,而是針對特定的領域或“world”進行建模。比如醫療領域、金融領域、法律領域,每個領域都可以看作一個獨立的world。以醫療為例,假設我們建構了一個“醫療世界模型”,它可以模擬你得病後的整個過程。人們若得了甲流,通過這個模型,我們可以看到患者不干預時的身體反應、症狀變化、以及生化指標的變化。如果患者進行了治療,模型會顯示你用藥後的效果,直到康復或是病情加重。我們通過這種模型來探索真實的“ground truth(基礎真理)”。比如我們投資的清華紫荊智康團隊,他們的醫療AI在30多個、接近40個疾病診療領域,診斷水平已經超過了全球97%的醫生。他們的成功,正是因為通過醫療世界模型,模擬出疾病發展的全過程。通過這種world model(世界模型),我們可以讓AI更快地學習,甚至讓它在短時間內積累經驗,成為世界頂尖的醫生。武偉:我們認為,要搞清楚世界模型的本質,首先需要理解它的兩個核心關鍵詞:模擬和互動。“模擬”是指通過模擬技術建構一個虛擬世界,來訓練AI進行推理和決策。而“互動”則是指通過與環境和人類進行互動,讓AI能夠更好地適應並反饋現實世界的變化。從學術和產業發展的角度來看,世界模型的概念大概是從2018年開始被提出的,至今已經發展了七八年。期間,世界模型主要有三種不同的流派:第一個流派是將世界模型用於模擬器,通過雲端合成大量模擬資料,供智能體訓練使用。輝達的Omniverse和Cosmos系統就是走這一路線。第二個流派是將世界模型作為通用互動介面,Google的Gemini3、李飛飛團隊的Marble等項目都屬於這一類,主要是用於娛樂和數字型驗的應用。第三個流派也是我們關注的重點,是將世界模型的推理能力直接賦能大腦,讓AI具備內生的空間推理和想像能力。通過這種方式,AI可以在沒有見過某些資料的情況下,通過推理和模擬,指導機器人進行更高效的決策和互動。這種方法與傳統的模仿學習不同,因為模仿學習依賴於離線資料的積累,而我們則更關注AI如何通過內生的模擬能力,來預測和適應新環境。武偉:在我們的理解中,世界模型是“基礎模型”(foundation model),是機器人原生所需要的基礎模型。我們需要建模的是:物理空間的移動和操作層面的內生認知,這是我們的技術路線。從我們的定義來看,世界模型其實是一個端到端的模型,或者可以理解為兩端式端到端的大模型。相比之下,千訣科技主要是做內腦架構,也就是人的大腦有多個分區,每個分區對應不同的小模型,或者用現在agent領域比較流行的詞彙——skills(技能)。這些小模型和頂層模型結合起來,可以實現更低功耗的大腦模擬。這是我對兩者的理解,當然,團隊的基因也起到決定性作用。我們基因決定了我們專注於模型的端到端建構,以及資料的擴展(scaling)。宋亞宸:李飛飛最近剛融了一輪,估值已經達到了50億美金。我悄悄看了他們的BP,裡面提到李飛飛所定義的世界模型有三個主要應用場景:第一個是娛樂行業的3D生成(3D generation in entertainment);第二個是XR(擴展現實)和元宇宙中的空間智能(spatial intelligence);第三個是機器人技術(robotics)。其實最早做的是前兩個場景。我想說的重點是,我認為世界模型可能確實是AI時代的終極答案,包含了兩件事:第一,世界模型能助力發展具身能力,讓各種各樣的具身場景變得更加普及,能讓更多的機器人替代人類的工作。第二,勞動力如果被解放了,那人類應該做些什麼呢?從農業時代到工業時代,再到資訊化時代,我們發現有兩個特點:1、人類的幸福指數越來越高,生命的周期越來越長,嬰兒的存活率越來越高,超市裡能買到的商品選擇越來越多;2、大家的工作時間卻越來越長,變得越來越“卷”。從最早的農業時代,人們的工作時長很短,但隨著時代發展,我們進入了一個更加“卷”的社會,特別是資訊時代,996(早九晚九)已經成為常態,大家為了大廠的“福報”而拚命工作。但AI的出現改變了這一切,理論上講,AI時代是更“卷”的,但實際上似乎沒有什麼需要再去“卷”的東西了,因為機器人可以代替人類做所有的事情。那麼,生產力和勞動力將去向何方?我自己有個理論,認為人類最終要卷的,是自己的創意本身。當AI可以零門檻、零成本、即時地幫助人類放大創意時,每個人都能創造世界級的、可互動的體驗,就像神創造了這個世界一樣,定下了物理規則,又造了萬物。如果這一天到來,人人都能創造出屬於自己的虛擬世界,甚至可以有更好的體驗。比如,重力不再侷限於9.8,你可以飛,可以長翅膀,也可以創造不同的社會規則、評價體系,甚至是物理規則。人類將有更多的選擇,把時間投入到自己真正喜歡的事情上。這將是一個人人為我,我為人人的時代,每個人都可以用AI放大自己的創意,吸引更多人加入到自己的世界中來。如果這種世界真能到來,那麼我們就是在為別人創造極樂世界的時代,像聖人一樣去為他人提供最好的體驗。AI在其中的角色,就是讓每個人像神一樣去創造完整的、世界級的、可互動的體驗。這就是我認為世界大模型對於AI終局如此重要的原因。未來每個人都能像“馬良”一樣,手握神筆,心想事成。蔣屹舟:世界模型最早的研究,主要是為了理解和預測我們周圍的物理世界。就像牛頓通過觀察蘋果掉下來的現象,推匯出了萬有引力的規律。沒有世界模型,我們的推理能力有限,只能根據已經觀察到的現象做判斷。隨著研究深入,李飛飛提出,世界模型不僅僅是理解世界,更重要的是預測世界。我們在十年前開始做“視訊預測”,用它來預測機器人的運動軌跡,這一思路對機器人非常有用。機器人在現實中需要能夠預測未來的情況,而不是只根據過去的資料做決策。比如,疊衣服這個看似簡單的任務,不同形狀的衣服需要不同的操作。通過世界模型,機器人能更好地理解衣服的特性,從而做出更精準的動作。類腦智能是我目前關注的方向,它強調多個小模型的協作,而不是一個大模型解決所有問題。在機器人領域,世界模型幫助機器人預測未來的情景,這樣它們在執行任務時可以更加高效。比如,機器人在打掃衛生時,會根據預測的結果調整任務步驟,提高執行效率。一個有趣的實驗是給塑料袋打結。我們最初的訓練方法並不夠靈活,後來我們創造了一個“塑料袋世界模型”,讓機器人理解不同塑料袋的物理特性,能夠智能化地處理各種情況。這種方法讓模型能適應更多的場景,而不僅限於特定的任務。簡單來說,世界模型幫助機器人更好地理解和預測未知世界,從而提高工作效率。- 02 -世界模型怎麼落地?誰能跑出來?林覺民:世界模型的發展方向如此多樣,大家最終競爭的是什麼?每個人的技術路線不同,最後如何比較?王晟:從投資人的角度來看。為什麼大家都在關注世界模型?對我們投資人來說,“世界模型”現在是共識標籤——就像前兩年的“具身智能”,一聽就覺得很想投。但實際上,這只是一個共識的標籤。大家對世界模型的定義並不相同,就像我們今天在座的幾位嘉賓,每個人的理解都不完全一致。作為投資人,我們願意接受所有看似合理的世界模型定義,關鍵在於它是否能夠落實到具體的技術實施,是否能夠持續增長,且有較高的市場潛力。從我個人的視角來看,未來的世界模型需要具備兩個核心要素:首先是擁有一套接近“真實世界”(ground truth)的驗證系統,這個系統必須能夠生成大量高品質的資料。資料不僅僅是要多,還要足夠真實和高品質,以便為模型訓練提供有價值的反饋。其次,資料分佈要平衡,既要有稠密資料,也要涵蓋稀疏資料的情況,這樣才能避免模型過擬合,也能確保訓練出更具泛化能力的模型。通過世界模型生成大量高品質資料,是訓練模型的基礎。武偉:如果從商業本質角度來看,世界模型的競爭還是要回到一個核心問題:一個公司能否在競爭中存活。作為商業公司,我們必須明白,只有兩種方式能夠確保生存。要麼有健康現金流,要麼有高增長、高天花板的路徑。從世界模型的發展階段來看,目前更接近第二種模式——快速增長的階段。做世界模型的公司,是否能找到適合自己的落地方向,並且能夠快速增長,是決定能否存活的關鍵。以我們為例,我們的第一個產品化方向就是具身大腦。我們通過思維實驗來推算,人類一生收集的資料量大約是300萬段每分鐘的視訊片段(clips),這相當於18歲之前積累的經驗。如果我們假設一個工種需要一年時間來熟練掌握,那麼大約是3億段clips的資料量。我們通過這些資料的積累,來預估人類世界模型的最大智能化上限。如果我們能夠建構一個擁有十億級資料量的世界模型,並通過預訓練使其在零樣本和少樣本的情況下表現得足夠強大,那麼這個世界模型的商業價值就會非常高。因此,未來的關鍵是如何收集足夠高品質的資料,進行良好的預訓練,並最終在實際應用場景中具備強大的泛化能力。宋亞宸:其實,我們需要思考一個核心問題:為什麼現在大家都在討論世界模型?為什麼創業公司、資本和頂尖人才都在湧向這個領域?是因為AI發展到一定階段,世界模型應運而生嗎?還是因為具身智能技術發展成熟了?我認為,這兩個因素並不是世界模型崛起的根本原因。世界模型的出現,最根本的原因在於資訊載體的變化。過去,資訊載體的提升是一個不斷升維的過程,從文字到圖片,再到視訊,直到今天的3D世界。隨著資訊密度和體驗質量的提升,我們也迎來了3D和世界作為新的資訊載體。以往,文字、圖片和視訊曾是資訊表達的主流。但現在,隨著AI技術和硬體基礎設施的進步,3D以及更高維度的世界成為了我們表達和傳遞資訊的最終載體。過去幾千年,文字是表達世界的工具,但隨著資訊技術的發展,3D和世界的表達形式才剛剛開始成為主流。我們即將進入一個新時代,AI能夠幫助我們直接處理和理解3D世界,並且創造更豐富的互動體驗。這其實是資訊利用效率的提升。資訊密度越高,傳播效率就越快。當我們只能在古代的龜殼上刻字時,資訊傳播效率非常低;但隨著技術進步,網際網路、圖片、視訊的出現,傳播效率逐漸提高。而3D和世界本身,最終將成為我們資訊傳遞和創造的主要載體。蔣屹舟:我個人對世界模型的理解有些不同。我們做的是類腦智能,偏向非端到端的設計。最初我們是做類腦機器人的,尤其是在國家項目中,認為世界模型不僅僅侷限於視覺或某種單一的輸入模式。以一個盲人操作物體為例,即使他無法通過視覺來感知世界,但他依然能通過其他感官掌握物體的特性,並推測出自己的行為可能帶來的後果。這種因果關係的理解,才是我們認為最為核心的部分。通過類腦模型,我們的優勢在於對資料的需求不那麼大,傳統的強化學習需要大量資料,而我們採用的非端到端方法,通過理解世界的因果關係,就能有效減少資料需求。我們相信,世界模型不僅限於自然世界,它同樣適用於人類建構的世界。大語言模型(LLM)就是一個典型的例子,語言作為人類對世界的抽象工具,能夠幫助我們理解和表達大部分的事物。通過對這些抽象的理解,機器也可以建構出一個符合邏輯的世界模型。 (鉛筆道)