#智能
1美金時薪雇個全端替身,MiniMax M2.5讓打工人也能體驗當老闆的感覺
春節檔模型大戰,又殺出一匹黑馬。今天,MiniMax正式官宣了已經提前兩天開跑的新模型M2.5,依然主打智能體和Vibe Coding,性能比肩Claude Opus 4.6。它不挑食,PC端、手機App、React Native、Flutter全能寫,而且是前後端帶資料庫的真全端。以前的模型頂多給你畫個皮(前端),M2.5是連皮帶骨頭(前端+後端+資料儲存)都能給你交付。它還是為智能體生態而生的,配合OpenClaw這種腳手架,能把你的自然語言直接變成電腦上的具體操作。你只需要懂業務邏輯,剩下的全端程式碼實現,它能以100TPS的速度秒回交付給你,而且每小時成本只要1美金。10B啟動參數躋身第一梯隊M2.5這次在寫程式碼和跑任務這兩個硬指標上,直接和Claude Opus 4.6站在了同一條水平線上。比如在程式設計最硬核的SWE-Bench Verified榜單上,它拿到了80.2%的高分,在多語言任務Multi-SWE-Bench上更是拿到了第一。而且它在Vibe Coding模式下能通吃全端,能從介面一路寫到後端邏輯和資料庫設計,一次性交付整套能用的程式碼。比如面對一個“豪華貓咪隧道電商網站”的需求,不僅要極簡風、視差滾動效果,後台還得帶個3D配置器。M2.5跑出來的結果能直接呈現出大片級的自動播放視訊效果,連那種可以點著玩的3D配置器也跑得有模有樣,出來的網站整體感覺非常高級,而且是個真正能直接運行的完整項目。這種底氣來自於它進化出了“原生Spec行為”——在動手寫程式碼前,它會像架構師一樣主動拆解功能結構和UI設計。而且能全端通吃,是因為它是在Go、Rust、Python等10多種程式語言和幾十萬個真實環境中鍛鍊出來的。在處理長鏈路任務時,M2.5也是專門最佳化過的,不管是主流框架還是自己寫的指令碼,它都能順暢配合。這裡它引入了Process Reward(過程獎勵) 機制,能全鏈路監控完成質量,解決了長任務容易“跑偏”的難題。這種機制帶來的邏輯能力在處理繁瑣、重複性高的活時特別明顯,比如統計福布斯富豪榜,就需要去抓取淨資產、年齡和財富來源。M2.5生成的表格非常老練,它會自動建好Cover、BillionairesData和Sources三個Sheet,把封面、資料來源和詳細資料分得清清楚楚,格式規整得像個強迫症員工做的。能幹這麼重的活,M2.5的啟動參數量其實只有10B,是第一梯隊裡體型最小的旗艦模型。配合上深度最佳化的思考鏈路,它的推理吞吐量飆到了100TPS,這個速度是主流旗艦模型的2倍,跑大規模資料清洗或者改程式碼Bug任務時,也能體驗到那種瞬間刷屏的快感。文能編寫全端程式碼,武能操縱本地系統前面兩個線上DEMO,只是開胃小菜,接下來就把M2.5帶到真刀真槍的智能體環境當中拉練一番。按MiniMax的說法,適配各種不同的智能體框架,是M2.5的一大優勢能力。既然說到智能體框架,那不得不提的就是爆火的OpenClaw了,所以乾脆就在我的電腦上安裝一個,然後把M2.5接入進去試試。由於M2.5剛出,OpenClaw的安裝嚮導裡還沒有這個選項,因此安裝的過程手動折騰了一番,這裡也就不詳述了,總之最後是成功接入了進來。不過,通過後台看板和OpenClaw對話實在是太麻煩了,所以我打算把它接到我的飛書裡。拳腳已經給M2.5搭建好,接下來就看這個大腦怎麼發揮了。我用Python生成了一個裝了100個亂七八糟財務檔案的資料夾丟在桌面,然後給OpenClaw一個非常直接的任務:先把所有檔案名稱清洗一遍,統一改成“日期+供應商+金額”的格式。當然這還不算完,它得把這些資料吃透,按支出分類整理好,最後直接生成一份帶圖表的月度財務分析PPT,不僅要圖文並茂還得看著美觀。先看一下,整理之前的檔案長這樣:接下來呢,我們就通過飛書把任務佈置給M2.5正在操縱的OpenClaw。chua的一下,整個資料夾裡的檔案齊刷刷改了名字,變成了我們要求的格式。同時在飛書裡,OpenClaw也匯報了它的工作進度,總結了這個月的支出情況。至於PPT,顯然我懶得去資料夾裡翻找,所以直接通過飛書讓OpenClaw給我發了過來。激動人心的驗收時刻馬上就要到了。M2.5指揮的OpenClaw,自己選了個很有科技感的深色主題,藍綠配色看著就很舒服。而且它不是光把資料填進去就完事了,還真的看懂了那些帳單。比如在餅圖裡,它一眼就揪出來“雲端運算服務”佔了快90%的大頭,還在核心指標頁裡特意標註了第2周支出最高。在最後一頁它還提出了改進建議,發現在“星云云計算”上花錢太多,直接建議去談個年度合同降本。這種能從資料裡挖出業務洞察的能力,已經超越了單純的圖表製作。可以看出在智能體環境中,M2.5的確是一個合格的大腦,讓我體驗到了一種當老闆的感覺✨(⌐■_■)✨。除了智能體之外,還有一項讓MiniMax引以為傲的技能,就是Vibe Coding。這裡我們用VSCode,通過Cline進行連接,看M2.5能不能一勺燴地搞定後端、前端、通訊、部署偵錯這套完整的開發流程。我讓它用Java Spring Boot寫一個多人即時協作的待辦清單系統。功能上其實不簡單,得用WebSocket做多端的即時同步,還得卡死權限,誰建的任務誰才能改。另外對介面美觀度也有要求,必須得呈現出科技感,給人一種駭客終端的感覺。接到任務之後,M2.5先從pom.xml和application.yml兩個文件開始寫起。這倆檔案是Java Spring Boot項目的“心臟”和“大腦”。pom.xml相當於給建構工具(Maven)看的購物清單。也就是你要做這個“待辦清單”項目,需要用到那些現成的零件(依賴包)。application.yml(運行說明書)則是給程序看的設定面板。軟體啟動後具體怎麼跑,都在這裡定規矩。這兩個清單列好之後,就開始寫主體和各個模組的JAVA程式碼,還有前端HTML,另外還建立了一個資料庫檔案。這一切都寫好之後,M2.5驅動的Cline會自動對程序進行編譯運行,並且如果在這個過程當中遇到了報錯,還會讀取錯誤資訊,自動對程式碼進行修改。一番折騰之後,後台程序終於開始運行,前端頁面也在8080連接埠跑起來了,確實介面既簡潔又具有我剛才要求的科技感。簡單測試一下任務的新增、刪除和進度調整,還有暱稱的修改,都沒有問題。但是,這裡看到的效果並不能證明真的是後端服務正常運行,因為這樣的效果純靠前端也能實現。所以接下來還得拿出“照妖鏡”,通過多端同步這項技術要求,看一下是不是真的有後端在工作。這裡我把手機(通過區域網路訪問部署在電腦端的頁面)的螢幕都投到了電腦上,然後分別在兩端對任務進行增、刪、改,觀察另外一台裝置的即時變化。結果所有的操作,都即時同步到了另一端,說明後端正在工作,M2.5是真的把這個系統的前後端全給跑通了。嗯,M2.5宣傳的全端工程能力,確實已經比只會在前端搞一些花拳繡腿的模型高出一個level了。總之,還是我們常說的那句話,測試這些案例只是拋磚引玉,更多新奇的玩法,還等待著你的後續探索。AI大爆發即將到來這一波M2.5的出現,給我們帶來了一個明確的訊號——AI應用的大爆發,已經就在眼前了。在過去100多天裡,M2系列在程式碼能力上的進步速度直接拉出了一條陡峭的陽線,保持著行業最快的迭代節奏。這說明現在的模型,在“腦子好使”這件事上已經準備好了。而且它還解決了“貴”和“慢”這兩個最硬的攔路虎,把推理速度幹到了100TPS,還帶來了1美金就能讓智能體連續工作一小時的“白菜價”。它展現出的那種全端一肩挑的能力,使得它在MiniMax內部,已經接管了30%的真實業務,從寫程式碼到做財務報表什麼都干。它能一口氣把事辦成,開發者不用再天天盯著細節改Bug,能放心大膽地讓AI去跑那些長鏈路的業務。以前我們總說AI是Copilot,但在M2.5這種能獨立扛事的模型面前,它已經成為你的生產力引擎了。接下來,你只需要負責踩油門(下達目標),至於引擎蓋底下怎麼轉,就是AI的事了。 (量子位)
你追我趕!國產大模型春節檔密集上新
國產AI大模型春節檔密集發佈。在智譜正式推出新一代旗艦模型GLM-5,Minimax亦上線Minimax 2.5。同時,DeepSeek已在網頁及App端進行模型的版本更新,上下文窗口由原有的128K直接提升至1M(百萬Token)等級,能夠單次完成處理一部長篇小說。《科創板日報》記者獲悉,阿里千問的Qwen 3.5、字節跳動的豆包大模型2.0預計也將在春節期間發佈。從已發佈的模型來看,程式設計和智能體能力成為重點。但隨著智能體任務複雜度提升,單次任務的token消耗在急劇增加。若無法進一步降低成本,將影響未來AI的規模化落地。▌MiniMax、智譜瞄準AI程式設計2月12日,MiniMax正式上線最新旗艦程式設計模型MiniMax M2.5。作為全球首個為Agent場景原生設計的生產級模型,其程式設計與智能體性能 (Coding & Agentic)比肩國際頂尖模型,直接對標 Claude Opus 4.6,支援PC、App、跨端應用的全端程式設計開發,尤其在Excel高階處理、深度調研、PPT等Office核心生產力場景中均處於行業領先(SOTA)地位。M2.5模型啟動參數量僅10B,在視訊記憶體佔用和推理能效比上優勢明顯,支援 100 TPS超高吞吐量,推理速度遠超國際頂尖模型。而智譜在前一日推出的旗艦模型GLM-5,同樣主攻程式設計與智能體能力。GLM-5參數規模由上一代的355B擴展至744B,啟動參數從32B提升至40B。內部評估顯示,GLM-5在前端、後端、長程任務等程式設計開發場景中,平均性能較上一代提升超20%,真實程式設計體驗逼近Claude Opus 4.5水平。由於GLM-5的超強表現,智譜在港股近四個交易日實現翻倍,從203港元今日最高漲至443港元,收盤價已經逼近Minimax。過去一年,AI程式設計發展迅猛。Anthropic此前發佈的《2026年智能體編碼趨勢報告》中指出,傳統軟體開發的遊戲規則正在被徹底改寫。一個曾預計需要4到8個月的項目,使用Claude大模型後僅用兩周就完成。《報告》明確指出,程式設計師這一職業並不會消失,但那些“只會寫程式碼”的程式設計師將逐漸被市場淘汰。Anthropic的CEO達里歐·阿莫代伊在一年前就曾預言:“未來3~6個月,AI將編寫90%的軟體程式碼。”如今,這一預言正逐步轉化為現實。這或將對傳統軟體行業帶來影響。業內分析認為,AI智能體可以直接呼叫軟體底層系統,這動搖了傳統軟體“按人頭訂閱”的盈利邏輯,推動行業向“按使用計費”的模式轉型。▌智能體成為最核心的競爭主線CIC灼識諮詢TMT行業相關分析師對《科創板日報》記者表示,國產大模型競爭已從單純的參數規模競賽,全面轉向以技術差異化、應用場景深耕與成本效率為核心的新階段。春節期間及近期,各廠商的發佈與迭代均圍繞此主線展開。除了騰訊元寶和阿里千問等推出的行銷活動帶動市場對生態側的關注,近期字節跳動發佈的Seedance2.0、DeepSeek的V4模型和MiniMax上線的Agent平台等,從技術細節來看,無論是基座模型還是Agent的更新,都反映出智能體工程(Agentic Engineering)成為技術路線的重要競技場,AI企業對於模型的推理效率和長期任務表現更加注重,從大模型廠商當下模型設計的實際來看,產品形態也越來越Agent導向。圖片由AI生成灼識諮詢分析師表示,通用大模型在複雜業務邏輯和專業知識場景中表現有限。智能體通過整合領域知識、工具呼叫、工作流編排等能力,能夠深入垂直場景,提供專業化、自動化的解決方案,真正實現生產力變革。經歷近幾年的發展,市場普遍對於AI在實際場景中能夠帶來的真實價值更加關注,智能體是連結模型與使用者場景的關鍵一步,自然也是競爭的焦點。IDC中國研究經理孫振亞認為,大模型的能力正在從純粹的生成式輸出向智能體能力進化。“可以看到,各家模型廠商都在程式碼、多模態、長上下文和工具呼叫能力上做針對性的最佳化。程式碼和工具呼叫能力讓模型能夠進行執行和操作,多模態能力讓模型的感知從文字擴展至圖文音視訊,長上下文讓模型能處理更多的環境和記憶資訊。這些能力是模型能不能在更多場景中幹活並產出價值的基礎,也是智能體能力的重要組成部分。”▌AI規模化落地仍要過成本關談及AI規模應用的挑戰,CIC灼識諮詢TMT行業相關分析師表示,國內AI生態在晶片、框架、模型、應用層仍存在一些碎片化問題,需要進一步統一。在成本方面,他指出,從B端(企業端)來看,儘管API呼叫成本下降,但企業若追求私有化本地部署,一次性硬體投入和長期維運成本依然高昂且需要明確的業務價值閉環來證明投資回報,企業端部署的投入產出比(ROI)仍舊需要進一步驗證。孫振亞也表示成本是一大挑戰。隨著智能體任務複雜度提升,模型需要處理的上下文越來越長,呼叫鏈路越來越深,單次任務的token消耗在急劇增加。成本降不下來,智能體就只能停留在高價值場景,很難真正普及。另外,可靠性也是瓶頸。灼識諮詢分析師稱,一些行業對於可靠性要求極高,當前技術未能完全消除幻覺。孫振亞同樣指出,當前AI在執行複雜任務時的穩定性還不夠,模型依然存在的幻覺問題,使得複雜場景下多步執行非常容易出現錯誤累積。如果沒有可靠性,就談不上規模化落地。而在治理與信任方面,孫振亞表示,隨著AI從輔助工具走向自主執行,權限管理、審計追溯、責任界定這些治理能力必須跟上。“企業敢不敢讓AI去做決策、出了問題誰來負責、AI的操作過程能不能被審計。這些解決了,AI才會真正在各行業大規模落地。”灼識諮詢分析師還指出,在敏感領域,資料出域安全、模型訓練資料的合規性與質量、以及智能體互動中的資料隱私保護,也是規模化落地的主要障礙之一。 (科創板日報)
Anthropic:2026年智能體編碼趨勢報告
根據Anthropic發佈的最新研究報告《2026年智能體編碼趨勢報告》(2026 Agentic Coding Trends Report),人工智慧在軟體開發領域的應用正在經歷一場從嚴重的“輔助工具”向深度的“協作夥伴”的根本性轉變。這份報告基於廣泛的客戶資料和內部詳細研究,闡述了將在2026年定義智能體編碼(Agentic)報告核心觀點指出,隨著智能體向協作型智能體團隊進化,軟體開發的生命周期將被徹底崩潰,工程師的角色佇列程式碼系統的執行者轉變為智能體的編寫排版者。智能體系統的崛起與開發周期的崩潰收縮軟體開發領域正在經歷自圖形使用者介面誕生以來最顯著的互動變革。2025年,編碼智能體已經從實驗性工具轉變為能夠交付實際功能的生產系統。而根據Anthropic的預測,2026年將出現一種結構性的飛躍:單一的AI智能體將轉變為協調協作的“智能體團隊”(Cooperative Teams)。傳統的軟體開發生命周期(SDLC)——涵蓋需求、設計、實現、部署等階段——通常以測試周或月為單位。然而,報告指出,隨著智能體取代實現、自動化測試和文件編寫等專項性工作,這一周期正在崩潰為縮短小時甚至分鐘級。變革的核心驅動力承載架構的演進。目前的架構智能體工作流通常是線性的,建立於單一的這種下游窗口。而2026年的多智能體分層架構將引入“編排者智能體”(Orchestrator Agent)。該中心大腦負責任務分層、分發工作和質量控制,指揮於架構、編碼、測試和審查的“專家智能體”架構工作。這種協作模式使得智能體不再侷限於完成數十內完成的離散任務。報告預測,長效運行的智能體(Long-running Agents)將能夠連續工作數小時甚至數天,獨立建構和測試整個應用程式系統,並在關鍵決策點尋求人類的戰略指導。日本樂天集團(Rakuten)的案例慘遭這一趨勢。其工程師利用 Claude Code 在擁有 1250 萬行程式碼的龐大開源庫(vLLM)中實施了一項複雜性的啟動提取方法。究竟可能需要數周的工作,智能體在單次運行中僅需 7 小時即可完成自主,且實現的結果與參考方法相比達到了 99.9% 的精度。這種能力不僅是速度的提升,更是任務複雜性處理度的變遷。協作部落論與工程師角色的重構隨著智能體承擔了更多的實施工作,一個關鍵的成本分數浮出水面:這種轉型本質上是高度協作的,而不是簡單的替代方案。人類的社會影響團隊研究發現了一個耐人尋味的“協作工作論”:雖然開發人員在約 60% 的中使用了 AI,但他們報告能夠“完全授權”給 AI 的任務比例大約 0-20%。這表明,人工智慧正在成為一個持續的合作者,但有效使用它需要深思熟慮的設定、主動的監督和嚴格的驗證。對於高風險工作而言,人類的判斷力相等。報告強調,未來的軟體工程師將不再是程式碼的編寫者,而是智能體的“編排者”。他們的核心價值將轉移到系統架構設計、智能體協調、質量評估以及將業務轉化為技術路徑的戰略決策問題上。這種角色的轉變反而工程師變得更加“全端”。研究顯示,借助AI補知識空白,工程師現在可以更有效地覆蓋遠端、遠端、資料庫設施和基礎設施等領域工作。究竟需要數周跨團隊協調的任務,現在可以在重點的工作會話中完成。例如,金融科技平台CRED利用Claude Code覆蓋了整個開發生命周期,在保持金融服務的高品質標準的同時,將執行速度提高一倍。另外,生產力的提升在速度上,更體現在財富的“體量”和“廣度”上。人類的內部研究發現,約27%的人工智慧輔助工作由那些“具體不會行動”的任務組成。這包括清理長期積累的技術債務、建構前期因成本過高而被擱置的“錦上添花”的工具,以及進行探索性的原型設計。加拿大電信黨TELUS的團隊在將程式碼交付速度提高 30% 的同時,建立了超過 13,000 個定製的 AI 解決方案,這在傳統模式下是不可想像的。泛化與防禦:程式碼權力的下放與雙刃劍2026年的智能體編碼趨勢開創了專業的軟體工程團隊,它正在向新的領域和使用者群體擴展,推動技術的民主化。首先是語言障礙的消失。智能體編碼將分裂COBOL、Fortran等傳統語言以及特定領域的母語。這將極大地降低繼承系統的所有權,使企業能夠更輕鬆地對核心舊舊系統進行現代化改造。更必然的影響具有非技術角色的賦能。報告預測,來自銷售、行銷、法律和營運等非技術團隊的員工將獲得建構自動化工作流和工具的能力。例如,自動化平台 Zapier 已經實現了全員 AI 普及,設計團隊利用 Claude 在客戶訪談期間即時原型,而這在過去需要數周時間。人性化自身的法律團隊也通過建構自動化合同修訂的工作流,將支出審查的周轉時間從兩周到三天大約達到了 24 小時。然而,這種能力的普及也帶來了“雙重用途”的風險。報告指出,智能體編碼在增強防禦能力的同時,也可能被攻擊者利用。隨著模型變得更加強大,建構行為安全的應用程式變得更加容易,任何工程師都可以在人工智慧的輔助下執行之前需要專家級知識的安全審查和牙齒。但與此同時,威脅能力同時利用相同的擴展攻擊規模。針對這一挑戰,報告建議企業採用“安全優先”的架構。自動化的智能體防禦系統將能夠以機器速度響應威脅,這是對抗自動化攻擊的唯一有效途徑。這要求工程師在設計之初就將安全性嵌入到智能體系統中,而不是作為事後的補充。結語:從增量工具到戰略核心人類的這份聲明清晰地描繪了一個分嶺:2026年,智能體編碼將不再是提高效率的外掛,而是企業參與的核心戰略原動力。早期的採用者與落後者之間的差距正在迅速擴大。對於企業領導者而言,未來的當務之急不僅僅是部署工具,而是掌握多智能體協調的,建立規模化的人機協作監督機制,並賦能整個組織的領域專家。成功的關鍵不是試圖將人類從循環中移除,而是通過智能協作,讓人類的智慧聚焦於最關鍵的決策點。在這個新時代,軟體開發佇列一行行程式碼的編寫,漸進為智能系統的宏大編排。 (21世紀關鍵技術)
輝達兩篇論文,帶來了VLA之後具身智能的新範式
2025年,具身智能領域最火的詞就是VLA(視覺-語言-動作模型)。它成了一種席捲全行業的共識,一個關於具身基礎模型的標準答案。在過去的一年裡,資本和算力瘋狂湧入這條賽道,基本上所有的模型大廠,都在用這套範式。但很快,現實的物理世界給所有從業者潑了一盆冷水。因為VLA在物理動作執行上很弱。它能懂極其複雜的文字指令。但當機械臂真正去抓取時,它可能連如何調整手腕姿態以避開杯柄的阻擋都做不好,更別提讓它去執行解開鞋帶這種涉及複雜物理形變的動作了。VLA的另一個致命痛點是泛化。本來之所以大家要做模型更新,為的就是不用為每個特殊環境程式設計,看重的正是大模型的泛化能力。結果現在,任何超越訓練規定環境的動作,VLA基本都無法泛化,甚至出了訓練環境類似的環境都做不了。整個行業把泛化的無力,歸結於資料的不足。大廠們開始投入億萬資金,用各種方式去採集資料,試圖用海量的模擬演示來填補VLA的常識空缺。但2026年初,輝達(NVIDIA)發佈了兩篇論文《DreamZero: World Action Models are Zero-shot Policies》和《DreamDojo: A Generalist Robot World Model from Large-Scale Human Videos》兩篇論文,建構了一套全新的具身智能基礎模型範式,打破了資料內卷的僵局。它們一起,給出了一個完全從視訊裡學習,Zero-shot(零樣本)就能泛化執行不同工作的具身模型的可能。01 VLA缺的不是資料,而是世界模型要理解DreamZero和Dream Dojo的顛覆性,必須先從底層剖析VLA的系統性缺陷。VLA的最大問題,就是缺乏世界模型。VLA的底層架構限制了它的認知方式。從譜繫上看,VLA和LLM的親緣更強,反而和純視覺、純物理的親緣較弱。它通過交叉注意力機制(Cross-Attention)將圖像的像素塊對應到文字的語義空間中,在這個空間裡,它理解了杯子和桌子的概念,理解了它們在二維畫面中的相對位置。但物理世界不是二維的語義切片。物理世界是連續的,充滿了質量、摩擦力、重力和幾何碰撞。VLA對物理動作和世界的理解相對較弱,因為它本質上是一個「翻譯器」。我們可以用物理學中的狀態轉移方程來解釋。一個完整的世界模型,本質上是在學習一個條件機率分佈。它能在給定當前世界的狀態(視覺觀測)和機器人即將執行的動作,預測世界下一秒會變成什麼樣。VLA從來沒有學過這個方程。VLA學習的是靜態視覺觀測+語言指令直接對應到可執行動作的函數關係;卻沒被系統性地訓練去預測動作後果、做反事實試錯。所以一旦環境、材質、約束關係稍微變形,性能就會斷崖式下滑。這就好比讓一個人在不理解幾何原理的情況下,去死記硬背一萬道幾何題的答案。遇到原題,他能快速寫出完美答案;遇到條件稍微變動的新題,他就徹底當機。VLA的泛化,本質上只是高維語義空間中的插值。當物理形態超出訓練集的包絡面時,插值就會失效。與之對比的,是視訊生成模型。在Veo3、Sora 2和最近大火的Seedance 2生成的物理互動畫面已經相當逼真,流體、剛體、柔性材料的動作如此連貫,幾乎與現實世界難以區分。這說明,大規模視訊生成模型在海量的網際網路視訊中,很可能已經隱式地壓縮並內化了物理世界的基礎運行規律,形成了一些世界模型。即使強大如斯,視訊生成之前仍然主要被用在給VLA提供模擬資料,而不是整合進機器人的工作流中。其實,大家想利用視訊生成模型來控制機器人的念頭並不是從此開始的。在DreamZero之前,學術界和工業界也提出了多個解決方法。但這些方法無一例外地陷入了工程和邏輯的死胡同。比如 LVP(大規模視訊規劃器)。它的思路是從一張圖和一句話,直接生成應該如何完成任務的未來視訊計畫。再把視訊中的人手運動重建成 3D 軌跡。是用視訊預訓練,而不是語言預訓練,作為機器人基礎能力的主軸。第二種則是類似輝達自己的DreamGen這種,生成視訊後,再反推動作。這是之前被寄予厚望的路線。它把整個基礎模型的架構切分為兩半,上半部分是一個視訊模型,負責預測未來;下半部分是一個獨立訓練的IDM網路,負責看著預測出來的視訊,反推並輸出動作。以上兩種分階段的模式,最大的問題就是動作和視訊生成對不齊。動作那塊要求特別精準,但視訊生成很難完美。一旦它產生的未來畫面帶有微小的像素偽影或物理幻覺,那不管是IDM或者點追蹤,都直接懵圈,成倍放大錯誤。視訊裡機器人的手指位置偏了一微米,現實中機器人就根本什麼都抓不住了。魯棒性極差。第三種是Unified Video-Action(UVA,聯合視訊-動作生成)。這算是最先進的方法了,它嘗試把視訊和動作放在同一個擴散模型裡的潛空間裡學習,兼顧了視訊預測和動作預測。而推理時又通過「解碼解耦」跳過視訊生成,以保證速度。但它的架構使用了雙向擴散(Bidirectional Diffusion)架構。為了匹配語言指令的長度,必須對生成的視訊序列進行大幅壓縮。這種做法徹底扭曲了原生的視訊時間流。時間都扭曲了,動作指令與視覺畫面的對齊幾乎就不可能了,所以這種方式的泛化性自然極差。除此之外,這些方法都有一個致命的共同缺陷,就是太慢。視訊擴散模型需要多步迭代去噪,生成幾秒鐘的動作往往需要幾十秒的計算。要是一個機器人把碗放進碗櫃要5分鐘,你怕是在邊上看著都得急瘋。因此在2026年前所有新具身智能企業中,幾乎只有前一陣剛推出家用機器人的1X Technologies在嘗試這種視訊預測的方法。他們利用海量的“影子模式”(Shadow Mode)資料,即在人類遙操作時,讓模型在後台同步運行預測,用這種極高品質的配對資料去硬生生訓練那個脆弱的IDM。但一時的失敗,並不意味著方向被否定。在去年的機器人大會上,我採訪了很多國內的具身智能學者。彼時正是Google Veo 3和 Genie 3剛剛發佈不久之時。大多數學者都對此印象深刻,意識到了視訊生成模型的世界理解能力。因此在交流中,他們幾乎是以一種共識的口吻,提出生成可能是後續具身智能最靠譜的路徑。這比在模擬環境下(Simulation)產生資料要可能性更高。模擬器(如Isaac Gym或MuJoCo)受限於人類硬編碼的物理引擎,永遠無法窮盡真實世界材質的複雜性、光影的多變性和接觸力的非線性。而吸收了全人類視訊資料的生成模型,才是那個真正包含了萬物物理法則的超級模擬器。但當時,這個思維還是停留在「資料」這個層面上,視訊生成取代VLA這個講法,基本還沒進入視野。但輝達的研究,很可能就是讓這個想法,第一次變成有效的工程化路徑的轉折點。02 DreamZero,以世界模型為基地的具身智能前面已經講了,過去利用視訊生成模型去建構機器人動作所面對的三個主要問題。一是分步導致的對齊問題。二是合一模式太差,沒法用的問題。三是太慢的問題。針對於此,輝達先用DreamZero,給出了一條解決方法。首先,DreamZero採用了視訊和動作預測同步端到端訓練的方式。這就解決了過去分階段模式的不對齊問題。其次,針對UVA的時空錯亂問題,DreamZero徹底拋棄了早期的雙向架構,轉而建構了一個14B參數的自回歸 Diffusion Transformer (DiT)。這是目前標準的視訊生成模型架構。它像語言模型生成文字一樣,嚴格按照時間順序,從左到右預測視訊和動作。在同一次擴散前向裡,同時預測視訊與動作。這帶來了兩個好處。第一,保留了原生影格率,動作和畫面在時間軸上實現了絕對對齊。第二,它利用了KV Cache(鍵值快取)技術。模型不需要每次都從頭計算歷史畫面,極大地節省了算力。之後,為瞭解決自回歸導致的“誤差累積”和幻覺問題。DreamZero還引入了真實觀測注入。模型預測出未來1.6秒的畫面和動作,機器人執行完畢。而在動作執行完的瞬間,獲取攝影機拍下的絕對真實的當前物理世界畫面,直接編碼並塞入KV Cache,覆蓋、替換掉模型剛才生成的假畫面。這一步,瞬間斬斷了誤差積累的因果鏈。模型被迫永遠站在絕對真實的物理基石上,去思考下一步。最後,也是最重要的一步,是解決生成慢的問題。為了達到機器人控制需要的頻率,DreamZero發明了DreamZero-Flash技術。擴散模型慢,是因為推理時需要走完漫長的去噪鏈。如果強行減少步數(比如只用1步去噪),生成的動作質量會斷崖式下跌,因為畫面還處在充滿噪點的模糊狀態,模型無法從中提取精確的動作。DreamZero-Flash的解法是「解耦噪聲調度」。在訓練時,它不再讓視訊和動作處於相同的噪聲等級。它強制模型看著極度模糊、充滿高強度噪聲的視覺畫面,去預測完全乾淨、精準的動作訊號。這等於是在訓練模型在看不清未來的情況下,憑藉物理直覺做出正確反應。對於人來講,這是不可能的任務,看不清就是做不了動作。但對模型來講,這似乎完全行得通。經過這一訓練,到了推理階段,模型只需要進行僅僅1步去噪就能生成精準動作。推理時間從350毫秒瞬間壓縮到了150毫秒。這使得系統能夠以7Hz的頻率輸出動作塊,結合底層控製器,實現了相對平滑的即時執行。經過了這一系列改造。DreamZero展現出了視訊生成世界模型的恐怖潛力。最突出的是泛化能力。在AgiBot雙臂機器人的測試中,研究人員拋出了訓練集裡完全沒有見過的任務解開打結的鞋帶、從假人模型頭上摘下帽子、拿著刷子畫畫。讓從頭訓練的VLA來做,任務進度幾乎為零,開始的地方都做不好。但DreamZero的平均任務進度達到了39.5%,某些特定任務(如摘帽子)甚至高達85.7%。這是因為DreamZero的學習過程是顛覆性的。在訓練時聯合預測視訊和動作,它被迫在潛空間中建立事物演變的因果鏈條。它知道如果不鬆開夾爪,被夾住的物體就不會掉落;它知道如果向前推倒一杯水,水會灑出來。因為預設了基於視訊的世界模型,WAMs擁有了物理直覺。當遇到未見過的任務時,它不是在記憶庫裡搜尋類似的動作,而是在腦海中模擬出了動作的物理後果。只要這個物理後果符合語言指令的語義目標,它就能直接湧現出執行動作。這就是為什麼它能在Zero-shot的情況下完成解鞋帶這種複雜任務。更讓人震撼的是跨機體(Cross-Embodiment)能力。在傳統的VLA範式下,你要讓一台新形態的機器人幹活,就必須僱人去給這台機器人錄製專屬的遙運算元據。但在DreamZero中,研究人員只讓模型觀看了人類視角的錄影(純視訊,沒有任何電機動作參數),僅僅看了12分鐘。模型在未見任務上的表現就實現了42%的相對提升。隨後,他們把在AgiBot上訓練的模型,直接遷移到一台完全不同的YAM機器人上。僅僅給它喂了30分鐘的非結構化「玩耍資料」(Play Data),模型就完成了軀體適應,並且完美保留了零樣本泛化執行複雜指令的能力。這就是世界模型的降維打擊。物理規律是通用的,它只需要極少的資料去微調自己對新軀體運動學邊界的認知。VLA最大的問題,DreamZero這樣預設了世界模型的動作模型 WAM(World Action Model)完美解決了。它不需要海量的機器人資料訓練就能達成很好的泛化。但我們必須保持清醒。基於視訊生成的工程化路徑,其實依然有很多卡點。相對於VLA動輒在消費級顯示卡上跑出20Hz、30Hz的驚人速度,DreamZero拼盡全力最佳化後的7Hz依然很慢。並且,它對硬體要求更高,依賴於H100或GB200這樣的頂級晶片組成的計算叢集來進行平行推理。對於邊緣端部署的獨立機器人來說,這在目前的算力成本下是不可接受的。不過,算力成本的下降服從摩爾定律,而演算法架構的物理認知上限則是天花板。用昂貴的算力去換取原本根本不存在的泛化能力,這筆交易在技術演進的長期視角下是絕對划算的。DreamZero的成功,意味著從VLA轉向視訊世界模型,不再是一個學術幻想,而是一個已經跑通的可能。03 世界模型需要的資料,和VLA不一樣在 DreamZero 的實驗中,輝達發現了一個反直覺的結論。我們通常認為資料越多越好。如果機器人學不會,那就再採集一萬小時資料。 但在世界模型的語境下,這個定律失效了。DreamZero 揭示了新的法則 資料多樣性 > 資料重複量。研究人員做了一組對照實驗 ,準備了兩份資料,總時長都是 500 小時。● 資料集 A(重複組):包含 70 個任務,每個任務有大量重複的演示,位置和環境變化很小。這是傳統 VLA 喜歡的“刷題”模式。● 資料集 B(多樣組):包含 22 個不同環境、數百個任務,資料極其雜亂,幾乎不重複。結果使用雜亂資料訓練的 DreamZero,在未見任務上的泛化成功率達到了 50%。 而使用精美重複資料訓練的模型,成功率只有 33%。為什麼? 這是因為 VLA 和 WAM 的學習邏輯根本不同。 VLA 是在背誦。WAM 是在學物理。DreamZero 證明了對於學習物理規律而言,看 1 次在火星上煎蛋,比看 1000 次在廚房裡煎蛋更有價值。因為前者提供了新的物理邊界條件,而後者只是在通過重複增加冗餘。世界模型需要的是覆蓋率,而不是重複率。04 下一步,是把世界模型訓練的更好DreamZero 的意義,是證明了WAM這條路完全能走通,還能非常好的泛化。但想要持續提升DreamZero這樣模型的能力,我們還需要對它加以訓練。儘可能強化它基於視訊生成的世界模型,最好還有個更嚴格的後驗裁判,能夠指導它在後訓練中持續提升精準性。這就是另一篇論文中 Dream Dojo 的作用。DreamZero 造出了引擎,DreamDojo 煉出了持續最佳化這個引擎的燃油。正如其名,它像是一座道場,要把世界模型訓練這件事,從DreamZero這種一次性的科研 demo,豐富成一套可重複的工業流程。這套流程涵蓋了從資料攝入、表徵對齊,到滾動預測、誤差診斷的全生命周期。在 DreamDojo 出現之前,VLA(視覺-語言-動作)模型在資料上總是碰壁,面臨三重死穴。1. 標籤稀缺:網際網路視訊浩如煙海,但只有畫面,沒有動作資料(Action Labels)。2. 工程地獄:機器人的身體千奇百怪。不同的自由度(DOF)、不同的控制頻率、不同的介面格式。試圖統一這些資料,是工程師的噩夢。3. 不可控:很多模型生成的視訊看著像,但在物理因果上是錯的。如果動作和後果不對齊,模型就無法進行反事實(Counterfactual)推演。無法推演,就無法規劃。但現在,因為有了視訊生成模型,這些就都不是問題了。DreamDojo 不是從零做 world model,它是站在「視訊基礎模型已經把世界的視覺與時空規律學到一定程度」的台階上,再強化對於具身智能來講,至關重要的互動因果和可控性。既然人類視訊裡沒有電機資料,那我們就不要電機資料了。DreamDojo 不再執著於感測器裡的讀數,而是去尋找動作的物理本質。動作,本質上就是一種讓世界狀態發生改變的力。DreamDojo 設計了一個自監督編碼器,專門盯著視訊的前後幀看。它在不斷地問自己一個問題,到底是什麼力量,讓上一幀變成了下一幀?機器自動提取出來的這個答案,就是連續潛在動作。DreamDojo 不再記錄絕對的關節姿態。因為絕對姿態在高維空間裡太稀疏、太難學。 它記錄的是變化量。每一幀都以當前狀態為基準歸零。這讓動作的分佈變得更窄、更集中,模型更容易學會向左移一點這種通用的物理規律,而不是死記坐標。這就好比不需要知道一個人用了那塊肌肉(感測器資料),只要看他揮手砸杯子,杯子碎了,模型提取出揮手擊碎這個潛在動作的整個過程。同時,為了增強可控性。DreamDojo 不把整段動作軌跡當作全域條件灌進去,而是把連續 4 個動作拼成 chunk,只注入到對應的 latent frame。通過這樣的拆分,模型被強制要求理解是這一個微小的動作切片,導致了下一刻的畫面變化。讓世界模型不會造成因果混淆。視訊模型在這個過程中,把訓練目標從預測未來像不像,推向動作改變未來的方向與幅度是否一致。這徹底打通了不同具身體之間物種隔離。 不同身體、不同場景做同一種動作,潛動作會趨於相近。模型不再需要知道手肘電機轉動 30 度,它只需要知道這個潛在動作會導致杯子被拿起。而因為這個潛空間的動作規律對誰都一樣,不存在空間異構,不存在資料格式不通。DreamDojo 在視訊生成這個世界模型的基礎上,用連續潛在動作這個數學上的通用語,把全人類的視訊資產轉換成了機器人可以理解的經驗。為了達成這個目標,輝達團隊建構了一個 DreamDojo-HV(加上 In-lab 與 EgoDex)的資料集,是一個約 44,711 小時的第一視角人類互動混合資料集,覆蓋極其廣的日常場景與技能分佈。包含上萬級場景、數千級任務、數萬級對象的長尾分佈。這個規模,比之前最大的機器人世界模型資料集大了 15 倍,場景豐富度高了 2000 倍。結果 DreamDojo 在沒見過任何真機器人的情況下,僅憑看人類視訊預訓練,就能在極少量的微調後,操控真機器人完成從未見過的任務。再通過蒸餾技術,他們把這個龐大的世界模型壓縮到了能跑 10 FPS 的即時速度。至此,結合Dream Dojo和DreamZero,這套建立在世界模型上的具身智能的閉環終於合上了。它的底座是視訊生成模型,因為它懂物理。構架是DreamZero 代表的世界動作模型(WAM),它能通過預測未來來決策,而且讓可執行與低延遲夠薄,能用。而其進步的燃料,是DreamDojo 把物理與可檢驗性做厚,讓全網的人類視訊,通過潛在動作轉化為機器人的經驗。我們不再需要讓幾萬個博士去遙操作機器人了。只要讓機器人坐在那裡,日夜不停地看人類幹活的視訊,它就能學會關於物理世界的一切。05 這,很可能是具身智能的範式轉變DreamZero的出現,敲響了具身智能純VLA時代的喪鐘。這場範式的轉變可能,將深刻地重塑整個行業的生態。首先是資料採集哲學的顛覆。在VLA範式下,從業者陷入了遙運算元據的囚徒困境,認為只有花重金採集幾萬小時的精準動作配對資料,機器人才能變聰明。但DreamZero展示了跨機體學習的恐怖潛力,僅僅通過觀看人類行為的純視訊,模型就能汲取物理策略。而Dream Dojo則意味著,YouTube、TikTok上那數以百億計的人類生活視訊,那座原本被認為缺乏動作標籤而對機器人無用的資料金礦,將被徹底解鎖。從高成本的實體遙操作,轉向低成本的網際網路視訊挖掘,這是獲取常識的降維打擊。最重要的是,我們對機器智能的認知正在發生根本性轉移。VLA時代,我們試圖通過教會機器認字來讓它幹活,結果得到了一個笨拙的翻譯官。現在,我們開始教會機器做夢,在腦海中生成、預測、模擬物理世界的演變。當一台機器不再是機械地復讀資料,而是能夠在內部建構一個符合物理定律的微縮宇宙,並在其中推演自己的行為後果時,我們就已經站在了通用具身智能的真正起點上。這是一條更陡峭的路徑,但也必定通往更廣闊的未來。 (騰訊科技)
蔚來召回246229輛,極氪召回38277輛
中國國家市場監督管理總局質量發展局網站顯示,日前,上海蔚來汽車有限公司根據《缺陷汽車產品召回管理條例》和《缺陷汽車產品召回管理條例實施辦法》的要求,受委託向國家市場監督管理總局備案了召回計畫。自即日起,召回2018年3月16日至2023年1月16日期間生產的ES8、ES6和EC6純電動汽車,共計246229輛。本次召回範圍內的部分車輛,由於軟體問題,可能在特定條件下出現短時間的儀表及中控屏黑屏,期間無法為駕駛員提供必要的車輛資訊及功能(如車速資訊、故障報警提示、除霜除霧功能等),存在安全隱患。上海蔚來汽車有限公司將通過遠端升級(OTA)技術,免費為召回範圍內的車輛升級軟體至Aspen 3.5.6、Alder 2.1.0或更高版本,對於無法通過OTA技術升級的車輛,將通過蔚來服務中心聯絡相關使用者實施召回,以消除安全隱患。因部分車輛之前已升級最佳化後的軟體,本次召回此部分車輛無需再次升級。日前,浙江極氪智能科技有限公司也根據《缺陷汽車產品召回管理條例》和《缺陷汽車產品召回管理條例實施辦法》的要求,受浙江吉利汽車有限公司委託向國家市場監督管理總局備案了召回計畫。自2026年3月6日起,召回生產日期從2021年7月8日至2024年3月18日期間生產的部分極氪001WE版汽車,共計38277輛。本次召回範圍內的部分車輛,由於高壓動力電池的部件製造一致性原因,長期使用動力電池內阻會異常升高,可能導致部分動力電池性能下降,極端情況下可能導致動力電池熱失控,存在安全隱患。浙江極氪智能科技有限公司將對召回範圍內車輛進行檢查或遠端診斷,對尚未更換動力電池的車輛免費更換動力電池總成,以消除安全隱患。應急處置措施:針對可能發生的安全隱患,極氪汽車雲端預警平台會提前預警,並通過400客服聯絡使用者並安排主動救援服務;當車輛出現故障時,會點亮動力電池故障燈並行出報警音提醒使用者,請立即靠邊停車並撥打極氪汽車服務熱線400-0036-036並等待救援。 (中國新聞社)
一人幹翻所有大廠!OpenClaw矽谷封神,開發者一夜爆賺兩億
【新智元導讀】矽谷新英雄OpenClaw之父豪言:本地AI智能體將滅掉80%App,人類從此只需「許下願望」,世界自動為你運轉!OpenClaw更是開啟兆美元應用新場景,社交套利從未如此簡單!這些天,矽谷正在經歷一場前所未有的瘋狂。OpenClaw之父,已經成為矽谷英雄——繼網際網路之後,他開啟了文明層級的又一次範式轉移。所有人類,正在站在被智能體接管的奇點前夜。剛剛,OpenClaw之父上了YC訪談,揭秘了OpenClaw這個爆款AI背後的頓悟時刻。他放下豪言:本地優先智能體,將「殺死」當今80%的應用;個人智能體,會徹底重塑軟體的未來!而且,如果還沒有用OpenClaw賺錢,你就out了。最近,已經有開發者僅投入2萬美元,就實現了4000萬美元淨資產的積累。許多人說,這就是OpenClaw的「十億美元級應用場景」!一個人幹翻所有大廠,2萬美元撬動4000萬?最近,一個「2萬美元變4000萬美元」的例子,在全網瘋傳。一個普通人用TikTok+OpenClaw,把華爾街按在地上摩擦。TikTok上,一條視訊突然爆了——一個女孩舉著星巴克的粉色星星杯,聲音都快破音了:「全城斷貨!真的買不到了!求代購!」對大多數人來說,這只是一條視訊,刷過去就算了。但對另一個人來說,這卻是一條交易訊號。就在視訊開始爆發的5分鐘前,他的OpenClaw已經完成了識別:抓取內容 → 判斷情緒強度 → 交叉驗證 → 匹配可交易標的 → 建倉。幾周後,華爾街的分析師們還在爭論著「節日促銷是不是一次性的」,他的收益曲線卻已經幾乎乎垂直:從2萬美元,滾到了4000萬美元。這不是運氣,也沒有內幕。只有一個人,一台電腦+幾千行程式碼,就完成了這場個人財富的翻倍。這種方法的關鍵,就在於交易中的情緒分析。例如,多項研究顯示,社交媒體可預測股票回報,產生 1-2%的超額收益。但由於僅有1%的訊號可能帶來可執行的交易,因此仍需人工驗證,從而在一個有80%的日內交易者虧損的領域中,降低情緒偏見。因此,開頭那個故事不是什麼新套路,只是被AI放大了。其實這種事,以前就發生過。2007年,Chris Camillo——一個沒背景、沒終端、沒華爾街人脈的普通人,靠的不是Bloomberg,而是眼睛,實現了財富暴增。他會去商場看排隊、看「sold out everywhere」,刷論壇、刷早期社交網站,比金融機構早幾個月意識到什麼在賣爆。初入股市三年時間,他的本金就翻了10倍,直接血賺。這個人後來成了社交資料智能公司TickerTags的首席執行長,也就是那個傳說中的「華爾街掃地僧」。之後,2006年12月1日至2013年11月30日的七年期間,他的投資組合年均回報率達到84%。他把這種交易策略叫「社交套利」,邏輯很簡單:消費情緒會在街頭、在手機裡先爆炸,股價在幾個月後才跟上。而今天,這種操作的問題不是「看不到」,而是「來不及」。情緒早已不在商場裡,而是在TikTok、X和評論區裡。但人類根本跟不上。TikTok上一個限量杯斷貨視訊在病毒式傳播,而高盛的交易員卻還在等財報電話會議,他們掃描的只是上個季度的影子。上文的研究表明:社交媒體情緒可以預測股票回報,大約有1–2%的超額收益空間。但現實是:99%的訊號沒法交易,而人類在驗證、猶豫、情緒波動中,把那1%也錯過了。於是,80%的日內交易者長期虧損。而AI來了,OpenClaw來了,「社交套利」有了新版本——它不走官方API(因為API有限制,且會被遮蔽),它直接模擬真實的人類瀏覽器行為。它不知疲倦,每5分鐘醒來一次,執行一套極其複雜的搜尋任務,然後把最有價值的情報喂到你的嘴邊。14小時,1605個訊號,平均每30秒就有一個潛在收益訊號。人類會累、會怕、會猶豫、會自我懷疑,但它不會。它不貪,也不慌,只是穩定執行。曾經需要6個月才能完成的社交套利窗口,現在被壓縮成幾天,甚至幾小時。MoonDev手動驗證過下面這些案例:星巴克節日杯的爆火,領先於財報;Lululemon瑜伽褲斷貨,提前抬高了市場預期;任天堂新配件賣空,直接帶動了整機銷量預期上抬。AI不負責「相信」,它只負責比你更早看到、比你更冷靜執行。人類真正剩下的價值,只在兩個時刻:極端節點的人工干預,或者乾脆躺平,什麼都不做,看曲線自己起飛。說到底,這不是什麼暴富神話,而是規則的變化。傳統交易就像下象棋,而OpenClaw則是給新手一台AlphaZero。它不一定永遠贏,但它永遠比你清醒。它能讓你的財富一夜從2萬翻到4000萬。本質上來說,這是「執行力×槓桿×時間壓縮」的AI魔法。這是散戶第一次在資訊速度上,把機構按在地上摩擦。「OpenClaw封神矽谷」,這絕不僅僅是一個梗,而是一個緊迫的訊號:普通人正在走向資訊平權,算力平權,執行平權。華爾街會花數億美元去買1毫秒的延遲,而一個2萬美元的指令碼,買到的是6個月的時間差。最鋒利的武器,從來不是槓桿,而是——你比別人更早知道,而且敢於執行!YC之父:80%的APP都會被殺死最近,那個讓整個網際網路「炸鍋」的男人——Peter Steinberger,開源AI智能體 OpenClaw 的創造者,上了YC訪談。在這次深度對談中,Peter不僅回顧了「靈光一現」時刻,也掀開了他那套驚世駭俗的開發理念——他說自己只是在「電腦上玩點小東西」,結果直接捲出了一整套未來生活方式。個性化智能體OpenClaw「殺死」當今80%應用你可能會問,現在AI助手滿天飛,為什麼偏偏是OpenClaw火了?OpenClaw在Github開放原始碼專案的Star數歷史Peter直接甩出一記重錘:「因為它真的能跑在你自己的電腦上。」這聽起來可能沒那麼驚豔,但別急——之前的那些智能體,不是在雲端動動嘴皮子、也能跑幾個任務流程嗎?OpenClaw不一樣,它可以連接你家裡的任何裝置,真·動手操作你的世界。「它能控制我的床墊溫度。」他說,「ChatGPT行嗎?」對話的高潮在於,Peter Steinberger給App的「死刑判決」——「未來80%的App,都會被AI智能體取代。」Peter Steinberger語氣平靜,像是在描述明天天氣可能下雨。但這是一記響亮的喪鐘。響在產品經理的腦袋裡,響在VC的估值報表上,也響在App的開發者心頭。為什麼App會死?Peter的答案簡單,但讓人無法反駁:我有了一個AI,它住在我電腦裡,會聽我說話,會看我的檔案,會幫我點外賣、回郵件、生成幻燈片、訂餐廳,還會提醒我「你最近運動太少」。、既然有更貼心的個人化的智能體,「那我還需要App幹嘛?」想訂餐廳?你只要說:「幫我訂個安靜點的日料館。」AI直接和餐廳溝通,或者,真的打電話讓人類幫你搞定。想記錄飲食?你不需要打開熱量計算App比如MyFitnessPal,點開食物條目,選份量,再手動輸入。你只要隨口說:「今天中午吃了個巨無霸。」AI記錄下來了,還會默默在你日曆上插個30分鐘的跑步時間段。你不再「作業系統」,而是「交代願望」。你不再「使用工具」,而是「觸發動作」。人類進入了「意圖即執行」的新時代。那什麼類型的App會先死?Peter很清楚地劃出一條界線:「只要是那種幫你「管理資訊」的App,全都要死。」代辦類、備忘錄類、打卡類、記錄類、資料整理類……它們的存在價值,在於你「沒地方交代這些事情」。但現在,你只要張口說話,OpenClaw就能:記錄、理解、歸類、調度、自動執行。一個智能體,就幹掉了五六個App團隊的功能線。只有少數幾類App,還有存在的意義:「它們得有感測器。」比如手錶收集心率、溫度感測器監測睡眠質量、攝影機識別家庭安全問題……這些硬體介面,AI暫時還得依賴它們。但那些「沒有物理輸入端」的軟體,就危險了。OpenClaw,是時代轉折的宣言:「你要的,不是一個又一個工具。而是一個理解你、行動力強、記得你的人格化智能體。」AI不是App的升級版,而是App範式的終結者。一旦你體驗過「說一句話,世界為你運轉」的流程,你就再也不想回到點點點的App介面!模型不是護城河,記憶才是OpenClaw可以清理你的收件箱,傳送郵件,管理日程,辦理航班值機。而這一切,只需要通過你日常使用的WhatsApp、Telegram或任何聊天應用即可完成。但OpenClaw真正的革命性,不只是「它能做多少事」,而在於它不屬於任何平台,只屬於你。這正是它和主流AI產品最本質的區別。今天市面上的AI助手,看起來方便,背後卻是一場資料封鎖戰。你說的話、上傳的檔案、生成的圖片、分析的內容,全都被收進雲端。而你,無法遷移、無法下載、無法帶走。你以為你擁有了一隻聰明的AI。其實,是平台悄悄擁有了你的全部生活軌跡。而OpenClaw,反過來了。所有記憶,保存在你本地電腦裡,純文字Markdown檔案。如果你願意,你可以手動刪除、匯出、加密、轉移,甚至拿USB 隨身碟插去別的電腦繼續用。這,就是在奪回資料主權。Peter說:「未來的AI世界,不該是平台主宰一切,而是使用者主宰自己的智能體。」他看得很清楚:模型再強,也會被下一代替代;算力再猛,也終將平價;介面再炫,也會被模仿。但一個人和AI共同經歷的記憶,獨一無二。這才是OpenClaw真正的「護城河」!它不怕你換模型,不怕你換電腦,不怕你斷網。只要你還有那一堆.md檔案,那段與你共同生活的記憶,它就能「原樣回來」,再度成為你的數字影子。這,是OpenClaw最溫柔、也最危險的野心:「讓每個人,都擁有一個只屬於自己的AI,而不是一份租來的雲端人格。」OpenClaw不是Peter的終點,而是每個個性化智能時代的起點。未來將屬於那些擁有自己AI、擁有自己資料、擁有自己靈魂.md的人。就像Peter所說:「你不需要被AI征服,你只需要找回對技術的掌控感。那是我們最早愛上電腦時的感覺。」 (新智元)
網易智能實測:用爆火的即夢Seedance2.0拍王家衛和《史密斯夫婦》
2026年2月,隨著字節跳動旗下即夢AI(Jimeng AI)正式全量上線新一代視訊生成模型Seedance 2.0,中國AI視訊賽道再次迎來了“地震級”的更新。如果說去年的Sora和PixelDance開啟了AI視訊的“默片時代”,那麼Seedance 2.0的發佈,標誌著行業正式跨入了“有聲電影”的紀元。作為字節跳動在多模態領域的最新成果,Seedance 2.0憑藉其獨創的音畫同步生成技術,迅速在中文網際網路引發了一場關於“AI創作奇點”的輿論熱潮。測評博主們對Seedance的測評主要集中在這幾點:1、複雜的運鏡指令2、音畫同步生成3、動作一致性。中國權威視訊製作博主“影視颶風”在實測後指出,不同於以往AI模型只能生成單一視角的固定鏡頭,Seedance 2.0能夠理解複雜的運鏡指令。在測試中,模型成功執行了從特寫拉至全景、環繞拍攝等高難度動作,且在鏡頭運動過程中,主體人物與背景的物理一致性保持得相當出色。這種“指那打那”的操控感,被評價為打破了AI視訊“隨機抽卡”的魔咒,讓創作者從單純的“提示詞輸入者”晉陞為擁有調度權的“導演”。圖為蜜雪冰城大戰外企咖啡店,圖源 @影視颶風有評論稱,該模型在生成視訊時可同步生成匹配的音效和配樂,並支援角色口型同步和情緒匹配。也有評論表示,Seedance 2.0最具顛覆性的突破,在於其攻克了AI視訊生成領域長期存在的“動作一致性”難題,實現了對複雜連續動作指令的精準跟隨。從行業競爭的維度來看,Seedance 2.0的發佈也被資本市場視為一個重要的訊號。開源證券在最新的研報中將其稱為AI影視的“奇點時刻”。與此同時,《每日經濟新聞》等媒體的實測資料顯示,在同等2K畫質下,Seedance 2.0的生成速度相比快手可靈(Kling)等競品提升了約30%。東方證券分析師認為Seedance 2.0降低了專業視訊製作的門檻,讓普通使用者也能像操作儀表盤一樣控制光影、聲音和動作,這將極大推動B端廣告與C端個人創作市場的雙重擴容。以下為網易智能實測案例:01 實測一:TVC 畫面測試首先,我們先進行了一段廣告宣傳片等級的畫面測試,我們選取了一個玩梗幽默+視覺反差風格的小片。以下為提示詞:鏡頭1:靈魂拷問畫面:快速推進特寫,鏡頭懟臉拍男生(參考圖2),他正對著電腦一臉認真,背景是全粉辦公室。音效:“咻” 的一聲快速推進音效,配合鍵盤敲擊聲驟停。旁白(女聲,犀利調侃):“Eassy,說吧,你想找個什麼樣的女朋友?”鏡頭2:極限二選一畫面:先切到左側粉裙女生(參考圖3),鏡頭定格,彈出文字標籤:「事事隨你」,配軟萌 BGM。再切到右側黑西裝女生(參考圖3),鏡頭定格,彈出文字標籤:「很有主見」,BGM 瞬間切換成酷颯電子音。鏡頭拉遠,男生從畫面上方 “啪嗒” 落下,坐在兩人中間(參考圖4),雙手一攤,一臉 “我是誰我在那” 的迷茫,開始瘋狂撓頭。可以看出,人物的情感和整體基調把握準確,展示得很鮮明。且不同場景之間可以做到絲滑的銜接,AI感並不明顯。02 實測二:王家衛電影類型測試隨後,我們對於聲音和畫面的銜接進行了測試。我設定了一個王家衛風格的電影場景,主要驗證多景別切換下,雨聲環境音的連續性和空間感變化,並且測試在嘈雜雨聲背景下,人物低語對白的清晰度與口型(側臉)同步。以下是我的提示詞:畫面描述:王家衛電影風格,極強的復古膠片顆粒感,高飽和度,色彩以昏黃、墨綠和深紅為主。夜晚濕漉漉的香港老弄堂,霓虹燈牌在積水中拉出長長的倒影。鏡頭序列:【全景 】:鏡頭靜止。一條悠長、狹窄且空無一人的雨巷,大雨如注。一個渺小的身影(女主)撐著透明傘緩緩走入畫面深處。【跟拍中景】:鏡頭跟隨女主背影移動。她身穿華麗的墨綠色花卉旗袍,腰肢搖曳。重點展示透明雨傘上瘋狂跳動的雨珠,以及周圍環境的濕潤感。【特寫】:鏡頭聚焦在她穿著精緻高跟鞋的雙腳上。一隻腳踏入積水坑,濺起的水花在慢動作中炸開,映照著霓虹光影。【中近景】:她在一家昏暗的雲吞麵攤前停下腳步,身體微微側轉,露出精緻憂鬱的側臉。雨水順著傘沿滴落。聲音/音訊描述:整體環境音: 持續不斷的、密集的暴雨聲(嘩啦啦),帶有明顯的空間包裹感。對話在【中近景·側臉】鏡頭時:一個低沉、富有磁性的男性聲音從畫面外(右側暗處)傳來,聲音不大,夾雜在雨聲中:“還不想回去?”女主微微低頭,嘴唇輕啟,發出極輕柔、略帶嘆息的女聲(粵語):“不知道去那。”我們可以看出,Seedance2.0對於雨聲的處理基本實現了模擬效果,雨聲環境音在深巷中呈現出遠聲,在近處呈現出打在雨傘上的“實體聲音”。高跟鞋敲擊地面、激起雨水的音效也完成了模仿。在最後的場景中,人物低語對白的清晰度與口型(側臉)同步。王家衛導演鮮明的風格化與“氛圍感”,在畫面中得到了呈現。但是也可以看到,這場戲的不同景別之間轉換依然不夠絲滑,從女主背影過渡到高跟鞋特寫的轉場,仍然趕超沒有人類導演引以為傲的「運鏡」能力。03 實測三:《史密斯夫婦》敘事小說等級測試最後,我們用一段指令,直接實現了對於敘事小說等級的測試。我用即夢模擬了一段《史密斯夫婦》的原劇本。以下是我的提示詞:鏡頭01:畫面描述: 電影質感,低照度燭光晚餐。一張精緻的紅木餐桌,桌上擺著銀質餐具和高腳杯。一位穿著白色襯衫的男士(類似布萊德·皮特側影),正拿著餐刀切牛排。他的手肘看似不經意地向外一拐,重重地撞向桌邊一瓶開封的紅酒瓶。酒瓶失去平衡,開始傾斜墜落。聲音描述 : 極度安靜的房間底噪。刀叉切割瓷盤的刺耳“滋滋”聲。突然一聲沉悶的撞擊聲(手肘碰到玻璃瓶),緊接著是瓶底摩擦桌面的“格拉”聲,聲音突然中斷(瓶子離桌)。鏡頭02:畫面描述: 極具張力的特寫鏡頭。紅酒瓶在半空中翻轉下落,深紅色的酒液在瓶頸處激盪,差點灑出。突然,一隻纖細但有力的女性手臂(穿著黑色晚禮服)從畫面右側極速伸入,帶著強烈的動態模糊。在瓶子落地前的最後一毫秒,她的手穩穩抓住了瓶身。聲音描述: 彷彿時間靜止的低頻“嗡——”聲。紅酒在瓶子裡激盪的液體聲。緊接著是一聲極快的、銳利的破風聲“嗖!”,與手伸出的動作完全同步。鏡頭03:景別: 雙人過肩鏡頭畫面描述: 鏡頭恢復正常速度。女士面無表情,眼神冷酷,動作輕柔地將紅酒瓶重新放回桌面上。她抬眼看了一下對面,整理了一下頭髮。對面的男士手裡拿著叉子停在半空,表情從驚訝轉為玩味的微笑。聲音描述: 厚重的玻璃瓶底觸碰實木桌面的“咚”一聲悶響,非常有質感。片刻沉默後,男士用低沉、富有磁性的聲音說:“Nice catch.”。但在這場戲中,最大的問題是在特寫鏡頭中,女士抓酒的手臂出現了兩次,這是AI 目前還沒有進化掉的BUG,也是最明顯的紕漏。此外,酒作為液體的流向正常,沒有出現“反重力”等違背物理學常識的情況;女主抓酒時的風聲也非常還原。儘管每秒的鏡頭都可以還原劇本,但整體而言,這種“質感”並不能與原片相比。在傳統模式下,一個簡單的“雨夜”鏡頭需要燈光佈景、攝影調度、現場收音以及後期的擬音(Foley)合成,成本高昂且周期漫長。而 Seedance 2.0憑藉“音畫一體”的生成能力,將這一複雜的工業協作鏈條壓縮為一次簡單的“提示詞互動”。這意味著,影視製作的邊際成本正在趨近於零。對於行業而言,這種衝擊是結構性的:初級概念設計、分鏡繪製以及基礎音效師的生存空間將被大幅擠壓;而創作的門檻被徹底倒置——未來的核心競爭力將不再是操作攝影機或調音台的技術壁壘,而是“審美決策力”與“敘事想像力”。然而,在一片讚譽聲中,我們也必須客觀審視Seedance 2.0當前存在的侷限性。經過我們的測評,畫面仍然會出現一些閃回、重複等低級錯誤,也有部分使用者反饋,在極少數情況下,生成的背景音中會出現與畫面無關的雜音或模糊人聲,這種“幻覺”現象雖然出現頻率不高,但也提醒我們在商業交付時必須進行嚴格的人工稽核。同時,由於音畫同步計算對算力要求極高,目前普通使用者在高峰期生成視訊往往面臨較長的排隊時間,且積分消耗是舊版模型的兩倍以上,這對於高頻使用的企業使用者來說,是一筆需要考量的成本帳。 (網易科技)
OTA“暫停”一年,車企的餅畫不下去了
汽車OTA的熱度似乎在退潮。根據艾拉比發佈的《2025年OTA市場活動報告》,2024年,開展汽車OTA的品牌為92個,升級版本數為751個;2025年,汽車OTA的品牌縮減為85個,升級版本數為792個。智能汽車越來越多,汽車OTA的品牌反而變得更少,就連頻次也幾乎與2024年持平。縱觀2025年全年,上半年可以稱為政策適應期,OTA活躍度低,處在“合規重構+內部流程調整”階段;下半年整體節奏快速拉升,尤其是到了12月,車市的銷量翹尾沒有來,汽車OTA卻集體爆發,升級品牌達到48個,升級版本數為133個,活躍度為全年的峰值。在智能汽車的野蠻生長期,汽車OTA一度異常活躍,一周一大更,兩天一小更,然而,隨著政策對智能汽車的規範,汽車OTA開始慢了下來,甚至有車主開始質疑車企畫餅。事實上,車企不是不想升級,是不敢隨便OTA了,汽車OTA開始進入制度化、合規化營運的新時期。2025年正是這樣的一個轉折點,強監管倒逼行業規範,汽車OTA從一個充滿不確定性的“風險動作”,回歸為產品持續進化的標準節奏。在打好根基,確定方向後,汽車OTA的2026年又將有大動作。合資車企重注OTA2025年,政策的大棒頻頻揮下。2月,工業和資訊化部、市場監管總局聯合印發《關於進一步加強智能網聯汽車產品准入、召回及軟體線上升級管理的通知》,其中明確提到,規範汽車企業OTA升級活動,開展OTA升級活動分類管理,加強管理協同,建立汽車OTA升級活動備案資訊共享機制。4月,市場監管總局發佈《關於進一步加強智能網聯汽車產品准入、召回及軟體線上升級管理的通知》系列解讀——汽車軟體線上升級(OTA),其中要求企業實施OTA升級活動,應當按要求向市場監管總局備案,並確保實施OTA升級活動後的汽車產品符合國家法律法規、技術標準及技術規範等相關要求。8月,《市場監管總局工業和資訊化部關於加強智能網聯新能源汽車產品召回、生產一致性監督管理與規範宣傳的通知(徵求意見稿)》正式發佈,向社會公開徵求意見。此次《徵求意見稿》重點對新能源汽車召回管理和OTA升級進行了規範。監管的一鍵三連之下,車企不得不將大量精力投入到“合規重構”與內部流程調整中,OTA的總體活躍度一度低迷。然而,短暫的“降溫”是為了更健康、更可持續的加速。資料顯示,2025年,自主品牌表現尤為活躍,佔比高達78%,月均推送品牌數超過12個,同比增長高達50%。星途、捷途、iCar,銀河、魏牌等不少品牌跑贏大盤,甚至反超新勢力。其中問界成為卷王,整個2025年,問界通過“高頻迭代 + 重磅大更”的節奏推進 OTA,全年完成4輪核心大版本+多輪小版本升級,累計推送超 150 項功能新增與最佳化,覆蓋智駕 ADS、鴻蒙座艙、安全、通訊、續航五大維度。另一邊,合資與外資品牌開始真正下場智能化。具體表現為:合資外資品牌年均OTA更新版本數首次突破5個,向“雙月更”節奏邁進;涉及OTA的車型佔比首次達到30%,結束了過去單一車型試點的狀態,進入多車型體系化部署階段。超過70%的合資外資品牌實現了升級頻次的上漲。以上汽大眾、一汽大眾、廣汽豐田等為代表的品牌,在2025年展現了從“技術跟隨”到“深度本土化”的快速轉身。它們不僅迭代速度大幅提升,更在高階智駕上車、座艙娛樂化與情感化互動方面著力頗深。例如,部分車型接入本土大模型、深化影音娛樂生態、推出更符合中國使用者習慣的泊車輔助與語音互動功能。這場“本土化”戰役,預計將在2026年圍繞高階智駕體驗與生態融合,變得更加激烈。智能座艙的OTA之戰如果說2025年之前,智能駕駛是OTA升級的絕對主戰場,那麼過去一年,智能座艙升級跟了上來。2025年,座艙域新增及更新功能的增長幅度高達39.3%,智駕域增長10%,車身車控增長7.2%。更值得玩味的是,座艙與智駕域的增長,主要來源於“新增功能”,而非簡單的最佳化修補。這表明,車企正通過OTA開闢全新的功能場景與使用者體驗。”其中,AI的深度賦能構成年度最亮眼的底色。2025年各大品牌共計推送了276項AI相關功能。使用者已不再滿足於語音識別等基礎AI能力,需求正向更深層次的“主動智能”躍遷。從AI OS到AI Agent,車輛正從一個被動響應指令的工具,向能理解場景、預測需求、主動提供服務的“智能體”進化。座艙,也因此成為使用者體驗差異化競爭的核心戰場。例如,理想汽車則以大模型為核心,推動智駕、座艙、電動三端協同進化,其“理想同學”的目標是從“工具”轉變為“伴侶”。AI的價值,正從技術秀場走向使用者日常體驗與品牌情感連接的深水區。星途的AI智能尋車功能,利用AI多模態感知,感測器和圖像識別技術,通過車機端和移動端協同,實現車輛入場、停車、出場的全流程記憶管理。座艙的重要性愈發凸顯之外,OTA作為“差異化競爭要素”正以前所未有的速度向中低端市場滲透。《2025年艾拉比汽車OTA報告》顯示,汽車市場中,10萬元以下的車型OTA頻次加速,銷量Top20的車型已經達年均3.1次,而2024年年均未超過1次,OTA所承載的智能體驗“平權”,正在改寫各個細分市場的競爭規則。汽車OTA,從免費到創收2025年,車企的免費福利正在變為營收項目。此前很長一段時間,OTA幾乎都是免費的,但隨著汽車價格的下滑,車企利潤的消失,OTA開始了收費的嘗試。2025年1月初,特斯拉進行了OTA遠端升級,升級後。此前免費可以使用的廣播功能被限制,必須購買9.99元/月的高級車載娛樂服務包才能繼續使用,這引發了車主的不滿,卻也拉開了OTA收費的序幕。據不完全統計,2025年,各類 OTA軟硬體付費功能項合計超30+,其中,硬體更換佔據了很大的比例。例如,問界M9,小鵬G9提出了智駕小藍燈的限時優惠。此外。不少汽車品牌已經在醞釀硬體升級,範圍涵蓋雷射雷達、隔音、座椅等配置。車企想要將最新的功能給到消費者,但過去的硬體跟不上軟體速度,因此想出了回爐重造的方式。另一條思路,則是從出廠之初,就預先部署高性能硬體,再通過OTA解鎖高階功能(如更高等級的輔助駕駛、AI座艙服務),即“新車預埋+OTA解鎖+老車後裝升級”。這兩種方式都有效延長了車輛的生命周期價值,也為使用者提供了持續煥新的可能。聽上去很美,最大的問題是,要花錢。汽車軟體的OTA,90%以上是免費的。汽車硬體的升級,90%以上是收費的。例如,小鵬汽車的“AI智駕小藍燈硬體OTA眾籌計畫”,給出的限時價為899元(原預計1000元);小鵬汽車智能座艙晶片升級價格為4999元,智駕晶片升級價格為19999元。2024款和2025款的智界S7Max及以上版本,升級毫米波雷達的費用是4999元。智界R7純電的Max及以上版本,費用是5079元。問界M9的智駕小藍燈,2025年10月6日至12月31日期間,限時優惠價為7500元,升級內容包括前格柵燈帶和後大燈燈組總成以及裝飾總成‌。硬體收費已成定局,但新車企對軟體付費的差異化功能規劃仍不夠清晰。更重要的是,2025年底出台的監管政策明確要求:“對需收費的差異化增值功能,購車時未告知的不得收費”。這一規定直指過往一些模糊的收費行為,倒逼車企必須在銷售環節就明確告知可能的付費點與價值,從而真正從“車企一廂情願”轉向“政策與使用者雙向驅動”的健康發展模式。軟體收費案例中,也有優秀代表。比如,以尚界H5為代表的高階智駕選裝包已獲眾多使用者青睞;蔚來將情感化IP NOMI通過AI帽子、表情互動塑造為具有“車格”的夥伴,試圖開闢高毛利軟體訂閱的情感化入口。在《汽車商業評論》看來,誰能提前佈局清晰、透明、價值感強的軟體付費體系,誰就能在下一階段的商業模式競爭中搶佔先機。OTA的2026:大模型、全生態與智能體汽車2025年,汽車OTA在摸索中前行。在艾拉比看來,面向2026年,OTA技術本身與它所承載的行業變革,將面臨三大核心趨勢的挑戰與機遇:趨勢一:大模型驅動OTA技術本身革新。 車載大模型參數正從十億級向千億級邁進,升級包體積指數級增長,更新頻率要求從“月更”向“持續學習”壓縮。這對OTA系統的差分演算法效率、升級穩定性、資料安全與隱私保護提出了前所未有的要求。傳統的開源OTA方案已難堪重負,車企需要快速落地針對大模型的更高效、安全升級技術,這也將成為行業的基礎設施競爭點。趨勢二:人車家全生態互聯,競爭升維。 使用者對智能生活的期待已是“全場景連續體驗”,而非單點智能。2025年,車與無人機、相機、IoT裝置的互聯已不鮮見。2026年,“車家一體”的大規模IoT互聯將成為主戰場。競爭核心從單一車輛體驗,升級為以車為關鍵節點的生態體系競爭。協議統一性、體驗連續性與跨裝置安全,將成為新的競爭壁壘。小米、華為、比亞迪、理想等車企在生態互聯上的佈局已如火如荼。趨勢三:車輛即“智能體”,OTA讓進化永不停止。 2026年AI座艙的核心,是讓車輛通過整車OTA持續進化為一個“智能體”。它不僅具備主動情感互動和無縫跨域控制能力,更能通過“硬體後裝”等靈活方案,讓不同硬體基礎的車輛獲得AI能力升級。這依賴於高算力硬體、AI原生作業系統與先進OTA技術的深度協同。汽車,將真正成為一款可以從購買日起不斷成長、個性愈加分明的“生命體”。回顧2025年的OTA,是中國智能汽車產業從躁動走向成熟、從單點突破走向合規競爭的縮影。車企的最終比拚也變成是車企的綜合體系能力:軟體生命周期管理能力、工程化的持續交付能力、對使用者需求的深度洞察、AI技術的原創與應用融合,以及建構開放生態的戰略視野。戰爭的號角,從未停歇,只是換了一個更複雜、也更精彩的戰場。 (汽車商業評論)