#小模型
中國最強程式設計模型來了! 阿里Qwen3.6-Plus性能直逼Claude,國產大模型殺入決賽圈
什麼這code那code,先別code了,因為——中國最強程式設計模型來了!就在剛剛,阿里突襲發佈Qwen3.6-Plus新一代基座大模型,在程式設計和智能體能力上,直接捅破了國產大模型的天花板,強到Next Level~那…到底有多Next呢? ?1M上下文直接拉滿,不僅能獨立拆解任務、規劃執行路徑、全程自測迭代達到目標,還能根據簡單提示詞搓出Vibe Coding。這不嘛,前幾天模型的preview版本提前上了OpenRouter,小編也拿到開白資格搶先實測了一番!我只給了AI一句話,幾秒鐘就得到了一個可移縮放的3D的雪山場景多模態網頁,連雪花都是動態飄落的~模型表現歸模型表現,關鍵還是要拉到真實評測中見真章啊!!值得一提的是,在涵蓋智能體程式設計、真實世界任務的權威評測中,Qwen3.6-Plus目前已經成為了最接近全球最強Claude系列的國產模型:(Claude:不er,哥們兒???)專業搞程式碼的大佬們拿到Qwen3.6-Plus更是爽感拉滿,這不嘛,提前體驗過的網友們速速給出反饋了——下面這位大哥直言,速度和生成體驗感比Claude更夯,Opus 4.6你還得加把勁兒啊!更有硬核網友直接開了壓力測試,在5個復合倉庫裡輪番轟炸,得出的結論嘛:甭說別的,這模型是真靠譜~目前,Qwen3.6-Plus已第一時間上線阿里雲百煉,且API服務已全面開放;此外,在悟空、千問APP等阿里AI應用和平台也已同步上線。這下好了,大家可以——直接上手搓搓搓了!!Vibe Coding、多模態理解能力忒夯不知道大家們還記不記得,上個月Qwen3.5剛發佈的時候,全網都在感嘆模型強大的程式設計能力。但老話說得好,一代更比一代強,事實上相較於上一代模型,這次發佈的Qwen3.6-Plus在程式設計Coding能力、智能體Agent能力和工具呼叫能力上直接上演了一場大型的《自己卷自己》的戲碼。(doge)咋個卷法呢?在性能上,Qwen3.6-Plus表現出了比上一代模型更敏銳的理解感知能力和更強大的多模態推理能力。在SWE-bench系列真實程式設計任務測試、考察終端程式設計的Terminal-Bench2、長程程式設計任務NL2Repo,以及Claw-Eval、QwenClawBench等真實世界Agent能力評測中——Qwen3.6-Plus幾乎直逼Claude Opus 4.5,甚至部分性能表現比Claude更優,還超越了2倍乃至3倍參數量的其他主流模型。看來,千問妥妥掌握了「以小勝大」的秘方啊??不僅如此,基於百萬token的上下文窗口。模型還集中對OpenClaw、Qwen Code、Claude Code、Kilo Code、Cline、OpenCode等系列Agent框架進行了最佳化支援。是的,這模型卷的已經不只是模型本體,連整套Agent工作流的適配度都梭哈了…只能說——《夯,極夯》。咱們直接老規矩,圍繞模型擅長的Vibe Coding、多模態理解、問題重構等幾個能力維度上實打實測一波!Vibe Coding能力實測常言道,用程式設計模型必玩Vibe Coding,所以,咱就先來考一考Qwen3.6-Plus在網頁開發上的能力~大家都知道,對AI或者Agent來說,網頁開發其實不是啥難事兒,真正的挑戰在於——只用一句簡單提示詞,就能做出兼具視覺設計、互動邏輯與頁面跳轉的完整頁面,所以咱這次直接把難度抬高。用一句大白話指令,讓AI一鍵生成一個可互動的「AI資訊日曆網站」!幫我生成一個有科技感的AI日曆網站。首頁為月曆檢視,每一天標註對應的AI大事件,使用者點選日期後可進入詳情頁查看完整內容,包括事件標題、一句話簡介、時間和來源連結。大概2分鐘的時間,AI就給我搓出來了個完成度相當高的AI資訊日曆網頁。從前端生成效果來看,整體視覺簡潔而且科技味兒還蠻濃,不僅清晰呈現了日曆結構,還自動對不同資訊做了色彩區分,閱讀體驗十分友好!!!在具體互動能力上,還支援前後月份翻閱查詢,每日日期格子內均標註可點選的資訊入口,點一下就能查看摘要內容。此外,不知道大家發現沒,頁面右側還附帶一個可跳轉連結,一鍵就能跳到原資訊網站,查閱資訊源賊方便:接下來,我們換種玩法,不生成網頁了,改玩點有意思的。挑戰用一句話讓AI幫忙製作一個可互動的色彩度比較鮮明的3D的雪山場景,看看這AI在前端視覺上的表現力咋樣。製作一個3D的雪山場景,雪山中間有一個日式的寺廟,整體風格參考塞爾達曠野之息。先看視覺效果,u1s1確實有點塞爾達那種清新明快畫風的意思,色彩飽和度和光影質感肉眼看都還是蠻舒服的。不僅如此,我還可以靈活拖動視角,360度旋轉場景、用滾輪自由縮放遠近這些都ok,甚至,連雪花粒子都是動態飄落的???我們繼續挑戰,再來實測一些更好玩的場景,這回看看Qwen3.6-Plus的「遊戲網站」搭建能力咋樣~幫我做一個虛擬寵物養成網頁,頁面主體是寵物的房間,使用者可以隨時看到它的狀態,寵物有飢餓、心情、體力和成長值,會隨時間變化,使用者可以在房間裡進行喂食、玩耍、洗澡、睡覺等互動,加入簡單動畫、表情變化、隨機事件和任務系統,完成可獲得金幣購買道具,整體風格可愛~So cute!!瞬間夢迴小時候玩的《皮卡堂》小遊戲~(萌翻了.jpg)從實際效果看,在這個頁面裡我不僅可以查看寵物的動態,寵物還可以跟著我的滑鼠位置進行移動。不僅如此,頁面右側還設有狀態值、互動功能、任務和商店四大類股,我還可以根據寵物狀態進行喂食、玩耍等互動操作。你還真別說,Qwen3.6-Plus在審美和互動設計這塊兒提升不少,確實真·有兩下子…咱們最後再來試一個大家幾乎都玩過的消消樂小遊戲,這次我直接把提示詞寫到簡單不能再簡單:生成一個美食卡通主題的消消樂小遊戲網站。那怕提示詞如此大白話,那怕如此簡單,這輸出效果也確實沒得說。是的,我只用了一句提示詞,Qwen3.6-Plus把核心玩法、連鎖機制、視覺UI、輔助能力這些全cover了…多模態理解能力實測除了強大的Vibe Coding能力外,Qwen3.6-Plus在多模態理解這塊兒也屬實有兩把刷子。具體來說,就是從視覺感知,到多模態推理,再到智能體執行都能hold得住!這次我喂給了模型一段AI資訊類的視訊內容,整個視訊時長說實話還蠻長的,很考驗模型的內容解析能力。我要讓它做的,不單單只是解析視訊核心內容,而是要讓它幫我進行逐秒指令碼分析,並且根據內容二創成一份適合小紅書筆記發的爆款文案,以下是我喂給Qwen3.6-Plus的原視訊:請你幫我解析一下這條視訊內容,做逐秒指令碼拆解,並根據視訊內容二創成一篇適合發小紅書的爆款筆記文案:可以看到,Qwen3.6-Plus不僅給我進行了逐秒的視訊指令碼拆解,而且每一個視角戳裡還幫我貼心地將指令碼從視覺、內容、目的三個維度進行了推理判斷。不僅如此,在下方還按照要求輸出了對應的小紅書爆款文案,並將文案概括成開頭鉤子、核心內容、關鍵發現、引起共鳴幾個維度,666啊~最後的最後,我們再來上點難度,讓Qwen3.6-Plus嘗試根據圖片內容復刻一個線上網頁。這次,我喂給了它一個旅遊規劃的頁面圖片,讓它根據頁面裡的功能,直接復刻並搭建出一個完整的線上網頁——那怕幾乎沒有任何文字的提示詞指令,Qwen3.6-Plus依舊通過多模態能力精準出了圖片的內容,並且嘛——比我圖片裡手畫的頁面佈局效果更好、視覺呈現更牛、內容更充實??更複雜的程式設計場景照樣在行看到這兒估計有朋友該說了,上面這些場景多少有點太簡單了吧。你還真別說,更硬核的程式設計場景這不就來了嘛!事實上,除了能用簡單提示詞實現Vibe Coding、解析並執行多模態內容外,Qwen3.6-Plus還能基於命令列工具生成頁面、進行程式碼問題分析與重構,甚至自主開發工具。在命令列頁面生成能力上,Qwen3.6-Plus支援通過CC等工具直接呼叫API。我們只需輸入 「根據開源倉庫生成landing page」這類簡潔指令,就能快速產出完整網頁,實現高效自動化的前端開發!!話不多說!先給咱們「電子老婆」來個項目官網首頁~這裡說的電子老婆,正是GitHub上的開放原始碼專案AIRI—— 仿照超火虛擬主播Neuro-sama打造,能即時陪聊、陪打遊戲,妥妥全天候線上的電子伴侶(doge)。通過VS Code中的Qwen Code外掛,我讓Qwen3.6-Plus直接讀取開放原始碼專案介紹,自主理解需求、規劃頁面結構,並一次性輸出完整可用的程式碼:(提供項目)根據這個開放原始碼專案生成landing page,輸出HTML+tailwind CSS。從Thinking過程可以清晰地觀察到Qwen3.6-Plus一步步查看需求、建立檔案,整個過程能夠即時監測:Done!耗時約3分鐘,Qwen3.6-Plus就生成好了項目官網頁面,程式碼自動保存在landing-page.html檔案中:咱打開html檔案來看下效果~首先,看上去還蠻符合項目的宣傳邏輯,把臨時體驗頁面、項目開源地址、社區地址全都關聯上了。不僅如此,導覽列還能夠跳轉到對應內容,把項目介紹裡包含的能力、可相容的模型廠商、部署步驟都給概括全了,不戳不戳~接下來,我們來測試模型的「問題分析與程式碼重構」能力。這次我又在Qwen Code命令列工具裡,喂給了Qwen3.6-Plus一坨問題不小的老舊程式碼,讓它捉捉蟲:(提供項目)我剛接手這個項目,該怎麼最佳化呢?Qwen3.6-Plus看懂了原有邏輯,自動整理了一份最佳化清單,但是在動手之前還是詢問了一句「需要開始實施嗎」。比起其他大刀闊斧直接上手的模型來說,這份分寸感把握得還是相當不賴的~下一步,當然就是讓它幫我修改x山程式碼了!!我反手就是一個——這裡一定要說個好玩的,Qwen你的碎碎念也有太活人感了,先給產品經理畫餅,然後去push伺服器,接著又在老闆面前裝!模!作!樣!(還有啥是你做不出來的??)說歸說鬧歸鬧,任務還得按部就班搞下去,修完Bug、再做最佳化,主打一個有條不紊~最佳化完成!人家具體都改了點啥呢——請看下方總結。最後嘛,還來了點小建議,be like:安裝依賴、寫測試指令碼都可以直接交給它來做,我全程省心省力只負責點頭。(美哉美哉~)(Qwen3.6-Plus:俺的程式設計本事,可是不孬!!!)AI程式設計的門檻,這回是真被打下來了說實話,從今年年初開始,我們真的接觸了太多太多的AI Agent和各種Claw字輩兒的龍蝦。此外還有一個大家感知很深的事是,當下廠商們也越來越押注模型的程式設計能力,各種Vibe Coding產品也層出不窮。我自己也在社交軟體上刷到過很多感興趣的項目,點開之前覺得蠻有意思,可一看對方用到的提示詞和輔助工具,我很快就意識到了一個問題。那就是沒點提示詞本事,沒點基礎程式設計能力,想做出和人家同款效果的Vibe Coding產品,真的蠻難的…(哭死…)只能說,大家還是苦Vibe Coding《上手門檻》久矣。△圖片由AI生成這次實測Qwen3.6-Plus下來,除了對於模型在複雜程式碼治理、跨域長程規劃等真實世界的專業程式設計任務的中呈現的過硬能力外,我更大的感受在於——它確確實實把普通人的「程式設計門檻」大幅拉低了。基於自然語言驅動的Vibe Coding不再是概念,只要一句大白話,我們就能把腦子裡的想法直接變成可運行的現實。在過去很長一段時間,行業默認用參數規模來換性能提升,模型越大,效果越好,也越貴。而這一次,Qwen3.6-Plus通過一個體量更輕的模型,交出了可以對標甚至超過2到3倍參數模型的結果,這對我們使用者來說當然是好事情。當然,更進一步從行業角度看,也不難看出Qwen3.6-Plus也正是阿里ATH(Alibaba Token Hub)思路在程式設計模型上一次很有代表性的落地。創造高效Token、輸送低成本Token、應用普惠化Token,在ATH成立後僅一個月的時間,就速速口號照進現實了。最後值得一提的是,Qwen3.6-Plus是千問3.6系列推出的第一個模型。後面千問3.6系列還會開源更多不同尺寸的版本給大家,另外性能更強的旗艦款Qwen3.6-Max也會在近期發佈。大家可以小小期待一下子~ (量子位)
我,怕斷電斷網,更怕斷Token
剛剛過去的3月,視訊號上一條短影片在程式設計師圈子爆火,一個白髮蒼蒼的“程式設計師”對著另一個程式設計師苦苦哀求,“哥我求你了……就一點點就行,我快不行了,我就寫一個因數的量……”要的不是錢,是Token。視訊獲得了3.7萬點贊,10萬轉發。視訊的主角是AI製作的,內容是虛構的,但是對token的成癮反饋,是真的引起了情緒共鳴。就在同一個月,這條視訊爆火前,大洋彼岸曾經上演了一場全球性服務中斷。Anthropic的Claude全球當機,Claude Code徹底癱瘓,幾小時內Downdetector湧入超過5000條故障報告。外媒的文章標題是"開發者面對不得不親自寫程式碼的恐怖"。一位Meta高級工程師Gauresh Pandit說,Claude掛掉後他直接去幹別的了,因為手動寫程式碼“可能更慢”。他說大模型已經變成一種“單按鈕操作”,那怕最簡單的事也會習慣性交給它。社交媒體上有人說:“Claude當機才讓我意識到,我已經把半個大腦外包了。”視訊裡白髮蒼蒼的程式設計師求的不是隨便什麼Token,他要的是目前最貴的模型的Token。夥伴遞過來的平替,他看都懶得看。這些細節才是整件事最值得深思的地方:程式設計師不只是對AI上癮,是對高端Token上癮。痛苦不來自於“沒有AI可用”,更來自於“沒有那個AI可用”。0130%的人拿錢都不願意戒斷AIMETR是一家專注於AI能力評估的非營利機構。2026年2月,他們發佈了一份令人意外的聲明:實驗做不下去了。因為他們的實驗要求一半的任務不能使用AI,30%到50%的受邀開發者因為這個條件直接退出,即便報酬高達每小時50美元。這些開發者中的很多人,經驗豐富、項目資深,恰恰是最能說明問題的樣本。他們再也不願意手寫程式碼了。這組資料比任何生產力統計都更能說明問題。McKinsey在2026年2月發佈的調查說AI程式設計工具讓常規編碼任務快了46%。Stack Overflow的年度調查說84%的開發者在用AI。在這些數字描述的廣度之外,METR的發現描述了另外一個維度,AI已經嵌入了人的認知習慣,拔出來會痛。02一杯咖啡和一輛保時捷到這裡,“大模型是類似於電力一樣的基礎設施”這個提出了近10年,流行了超過三年的說法,需要被認真質疑了。Andrew Ng在2017年提出這個說法時,強調的是AI像電力一樣將滲透到每個行業。這一點他是對的。但比喻的另一半,“電是無差別的標準化商品”,完全不適用於大模型。220伏交流電就是220伏交流電,不管它來自風力發電還是火力發電。你不會因為用了"更好的電"而烤出更好的面包。Token不是這樣。以下是截至2026年3月,各主流廠商大模型API每百萬Token的官方定價:各主流廠商大模型API價格對比這張表可以清晰看出不同模型價格的差距。同一個月在售的模型之間,定價可以差兩個數量級。快取機制又在實際成本上撕開了另一層差異。DeepSeek V3.2的快取命中價$0.028,不到三分錢處理一百萬Token。Opus 4.6的快取命中價也從$5.00降到$0.50,打了一折。GPT-5.4 nano的快取價$0.02甚至比DeepSeek更低。在高重複率的生產場景中,實際成本可以比標價再低一個數量級。Token的“掛牌價”和“成交價”之間,又藏著一層巨大的差異。這不是電力市場的價格結構。電的價格反映發輸配的物理成本,與電本身的“質量”無關。Token的價格反映的是智能的種類和等級,推理深度、上下文理解、代理執行能力、可靠性,而這些維度之間無法簡單排序。03大模型的微笑曲線企業已經用腳投票了。據AI基礎設施研究機構Iternal的分析,成熟的企業級AI部署正在採用“智能路由”架構:70%的簡單查詢扔給性價比模型,20%給中端模型,只有10%的最棘手、最高風險的任務,才會呼叫頂級模型。從宏觀來看,Token市場正在形成一條微笑曲線:左端是極致效率,右端是極致智能。左端是一種新的工業邏輯:當Token足夠便宜,它就可以像水電一樣大規模灌入自動化流水線的原料。批次資料清洗、日誌分類、工單路由、內容稽核、表單提取,這些任務不需要模型"極致聰明",需要的是又快又便宜又穩定。誰能把每百萬Token的成本壓到最低,同時保持足夠的精準率,誰就能拿下這個市場。這一端的競爭壁壘是推理基礎設施的效率,算子最佳化、晶片利用率、快取命中率、調度策略。右端的遊戲規則完全不同。Opus 4.6定價$5/$25,它們賣的是一種不可替代的認知能力。右端的壁壘是絕對的智能質量,推理深度、指令遵循的精確度、在複雜約束下保持邏輯一致性的能力。這是旗艦模型在爭奪的領地。但是,一切都不是一成不變的。一位大模型行業的從業者透露:“我們定價的時候,核心第一原則還是自己的成本,不能虧錢。”當被問及“如果還有價格戰怎麼辦?”,回答是:“目前大模型行業還沒發生過惡性的價格戰。所謂的價格屠夫,也是基於他們自己的成本價格。所以必須通過技術創新把成本打下去。”“成本打下去之後,價格不一定變,但是競爭就有優勢了。”這是一個變化極快的行業,“人間才一日,AI已千年”。擔心如影隨形。站在微笑曲線另外一端的Claude,是否就可以高枕無憂地走高端智能的愛馬仕路線了?“競爭對手會努力把它的價格打下來的。”一位從業者說。微笑曲線兩端的商業定律不會變,但是大模型公司的站位會隨時變。這也造成了,大模型公司之間的商業價值也會拉開較大差距。一位二級市場的分析師說:“我們目前看大模型公司第一位還是看人才密度和技術能力。因為你看不清楚終局,最後對這個人類社會的影響你也看不清楚。但是從產業上來看,它的確是在不斷的往前推進的,所以我覺得人才和技術是最核心的一個要素。然後才是商業化資料。”微笑曲線的左端,是大規模的工業級生產需求。右端,是靠模型的智能能力獲得的溢價能力。更需要引起關注的是,能夠溢價的背後,是使用者的粘性和依賴性。04外腦一旦插上,就拔不掉了回到那個當機的3月。一家英國基礎設施服務商Deployflow做了一筆簡單的帳:25人的工程團隊,4小時的AI中斷,直接損失超過9000英鎊,還沒算下游的項目延期。但經濟損失不是最讓人不安的部分。最讓人不安的是,開發者在當機結束後表現出的反應不是憤怒,而是如釋重負,一種人類不想承認的依賴感。這種依賴正在從程式設計師擴散到所有知識工作者。Claude在當機前幾天剛剛超越ChatGPT,成為美國App Store下載量最大的免費應用。大模型的訂閱套餐一般都有Token使用限額,“對話到一半,限額到了,也無法遷移,只能繼續充錢。” 一位大模型的深度使用者說。它的使用者不只是寫程式碼的人,還有寫報告的人、做研究的人、改合同的人、帶團隊的人。AI不再是像電那樣驅動機器的基礎設施,而是直接參與思考的"智能"。在這個時代,我們害怕斷電、斷網,也害怕“斷token”。智能的成癮已經蔓延。更大的噩夢還在於,我的“小龍蝦”記憶突然清零,或者龍蝦團隊領袖的大腦,突然當機。使用者持續為他所依賴的外腦持續付出成本,也將是大模型公司最深的商業護城河。 (騰訊科技)
全球第一!中國世界模型超越Google輝達,AGI邁入物理世界新里程碑
AI領域再傳重磅喜訊,極佳視界GigaWorld-1具身世界模型,在全球權威評測基準WorldArena強勢登頂,擊敗Google、輝達、阿里等頂尖團隊,成為榜單唯一綜合得分突破60分的具身世界模型。這項評測由清華、普林斯頓、北大等8所頂尖機構聯合打造,覆蓋16項核心指標與3大真實任務,是世界模型領域最嚴苛的“試金石”。GigaWorld-1實現三大維度斷層領先:物理遵循度超第二名16%,3D精準度逼近滿分,視覺質量遙遙領先。技術上,GigaWorld-1創新融合顯式動作建模+可微分物理引擎,保障幾何一致性與真實物理互動,搭配上萬小時機器人實操資料訓練,泛化能力與動作精度大幅提升。項目堅持開源賦能,核心程式碼與資料集已開放,半月下載量破1.6萬次,並作為官方基準支撐CVPR 2026挑戰賽,助力全球具身智能生態發展。從GigaWorld-0里程碑驗證,到GigaWorld-1全球登頂,再到GigaWorld-Policy實現效率10倍飛躍、任務成功率提升30%,系列產品持續引領行業突破。極佳視界是國內首家佈局世界模型的科技企業,核心團隊匯聚全球頂尖人才,以閉環生態為AGI走進物理世界築牢基石。GigaWorld-1的登頂,是中國在具身智能領域的關鍵突破,標誌著世界模型從實驗室走向產業應用,為通用人工智慧打開全新大門。 (靈動數上科技)
中國最強程式設計模型來了! 阿里Qwen3.6-Plus性能直逼Claude,國產大模型殺入決賽圈
什麼這code那code,先別code了,因為——中國最強程式設計模型來了!就在剛剛,阿里突襲發佈Qwen3.6-Plus新一代基座大模型,在程式設計和智能體能力上,直接捅破了國產大模型的天花板,強到Next Level~那…到底有多Next呢? ?1M上下文直接拉滿,不僅能獨立拆解任務、規劃執行路徑、全程自測迭代達到目標,還能根據簡單提示詞搓出Vibe Coding。這不嘛,前幾天模型的preview版本提前上了OpenRouter,小編也拿到開白資格搶先實測了一番!我只給了AI一句話,幾秒鐘就得到了一個可移縮放的3D的雪山場景多模態網頁,連雪花都是動態飄落的~模型表現歸模型表現,關鍵還是要拉到真實評測中見真章啊!!值得一提的是,在涵蓋智能體程式設計、真實世界任務的權威評測中,Qwen3.6-Plus目前已經成為了最接近全球最強Claude系列的國產模型:(Claude:不er,哥們兒???)專業搞程式碼的大佬們拿到Qwen3.6-Plus更是爽感拉滿,這不嘛,提前體驗過的網友們速速給出反饋了——下面這位大哥直言,速度和生成體驗感比Claude更夯,Opus 4.6你還得加把勁兒啊!更有硬核網友直接開了壓力測試,在5個復合倉庫裡輪番轟炸,得出的結論嘛:甭說別的,這模型是真靠譜~目前,Qwen3.6-Plus已第一時間上線阿里雲百煉,且API服務已全面開放;此外,在悟空、千問APP等阿里AI應用和平台也已同步上線。這下好了,大家可以——直接上手搓搓搓了!!Vibe Coding、多模態理解能力忒夯不知道大家們還記不記得,上個月Qwen3.5剛發佈的時候,全網都在感嘆模型強大的程式設計能力。但老話說得好,一代更比一代強,事實上相較於上一代模型,這次發佈的Qwen3.6-Plus在程式設計Coding能力、智能體Agent能力和工具呼叫能力上直接上演了一場大型的《自己卷自己》的戲碼。(doge)咋個卷法呢?在性能上,Qwen3.6-Plus表現出了比上一代模型更敏銳的理解感知能力和更強大的多模態推理能力。在SWE-bench系列真實程式設計任務測試、考察終端程式設計的Terminal-Bench2、長程程式設計任務NL2Repo,以及Claw-Eval、QwenClawBench等真實世界Agent能力評測中——Qwen3.6-Plus幾乎直逼Claude Opus 4.5,甚至部分性能表現比Claude更優,還超越了2倍乃至3倍參數量的其他主流模型。看來,千問妥妥掌握了「以小勝大」的秘方啊??不僅如此,基於百萬token的上下文窗口。模型還集中對OpenClaw、Qwen Code、Claude Code、Kilo Code、Cline、OpenCode等系列Agent框架進行了最佳化支援。是的,這模型卷的已經不只是模型本體,連整套Agent工作流的適配度都梭哈了…只能說——《夯,極夯》。咱們直接老規矩,圍繞模型擅長的Vibe Coding、多模態理解、問題重構等幾個能力維度上實打實測一波!Vibe Coding能力實測常言道,用程式設計模型必玩Vibe Coding,所以,咱就先來考一考Qwen3.6-Plus在網頁開發上的能力~大家都知道,對AI或者Agent來說,網頁開發其實不是啥難事兒,真正的挑戰在於——只用一句簡單提示詞,就能做出兼具視覺設計、互動邏輯與頁面跳轉的完整頁面,所以咱這次直接把難度抬高。用一句大白話指令,讓AI一鍵生成一個可互動的「AI資訊日曆網站」!幫我生成一個有科技感的AI日曆網站。首頁為月曆檢視,每一天標註對應的AI大事件,使用者點選日期後可進入詳情頁查看完整內容,包括事件標題、一句話簡介、時間和來源連結。從前端生成效果來看,整體視覺簡潔而且科技味兒還蠻濃,不僅清晰呈現了日曆結構,還自動對不同資訊做了色彩區分,閱讀體驗十分友好!!!在具體互動能力上,還支援前後月份翻閱查詢,每日日期格子內均標註可點選的資訊入口,點一下就能查看摘要內容。此外,不知道大家發現沒,頁面右側還附帶一個可跳轉連結,一鍵就能跳到原資訊網站,查閱資訊源賊方便:接下來,我們換種玩法,不生成網頁了,改玩點有意思的。挑戰用一句話讓AI幫忙製作一個可互動的色彩度比較鮮明的3D的雪山場景,看看這AI在前端視覺上的表現力咋樣。製作一個3D的雪山場景,雪山中間有一個日式的寺廟,整體風格參考塞爾達曠野之息。先看視覺效果,u1s1確實有點塞爾達那種清新明快畫風的意思,色彩飽和度和光影質感肉眼看都還是蠻舒服的。不僅如此,我還可以靈活拖動視角,360度旋轉場景、用滾輪自由縮放遠近這些都ok,甚至,連雪花粒子都是動態飄落的???我們繼續挑戰,再來實測一些更好玩的場景,這回看看Qwen3.6-Plus的「遊戲網站」搭建能力咋樣~幫我做一個虛擬寵物養成網頁,頁面主體是寵物的房間,使用者可以隨時看到它的狀態,寵物有飢餓、心情、體力和成長值,會隨時間變化,使用者可以在房間裡進行喂食、玩耍、洗澡、睡覺等互動,加入簡單動畫、表情變化、隨機事件和任務系統,完成可獲得金幣購買道具,整體風格可愛~So cute!!瞬間夢迴小時候玩的《皮卡堂》小遊戲~(萌翻了.jpg)從實際效果看,在這個頁面裡我不僅可以查看寵物的動態,寵物還可以跟著我的滑鼠位置進行移動。不僅如此,頁面右側還設有狀態值、互動功能、任務和商店四大類股,我還可以根據寵物狀態進行喂食、玩耍等互動操作。你還真別說,Qwen3.6-Plus在審美和互動設計這塊兒提升不少,確實真·有兩下子…咱們最後再來試一個大家幾乎都玩過的消消樂小遊戲,這次我直接把提示詞寫到簡單不能再簡單:生成一個美食卡通主題的消消樂小遊戲網站。那怕提示詞如此大白話,那怕如此簡單,這輸出效果也確實沒得說。是的,我只用了一句提示詞,Qwen3.6-Plus把核心玩法、連鎖機制、視覺UI、輔助能力這些全cover了…多模態理解能力實測除了強大的Vibe Coding能力外,Qwen3.6-Plus在多模態理解這塊兒也屬實有兩把刷子。具體來說,就是從視覺感知,到多模態推理,再到智能體執行都能hold得住!這次我喂給了模型一段AI資訊類的視訊內容,整個視訊時長說實話還蠻長的,很考驗模型的內容解析能力。我要讓它做的,不單單只是解析視訊核心內容,而是要讓它幫我進行逐秒指令碼分析,並且根據內容二創成一份適合小紅書筆記發的爆款文案,以下是我喂給Qwen3.6-Plus的原視訊:請你幫我解析一下這條視訊內容,做逐秒指令碼拆解,並根據視訊內容二創成一篇適合發小紅書的爆款筆記文案:可以看到,Qwen3.6-Plus不僅給我進行了逐秒的視訊指令碼拆解,而且每一個視角戳裡還幫我貼心地將指令碼從視覺、內容、目的三個維度進行了推理判斷。不僅如此,在下方還按照要求輸出了對應的小紅書爆款文案,並將文案概括成開頭鉤子、核心內容、關鍵發現、引起共鳴幾個維度,666啊~最後的最後,我們再來上點難度,讓Qwen3.6-Plus嘗試根據圖片內容復刻一個線上網頁。這次,我喂給了它一個旅遊規劃的頁面圖片,讓它根據頁面裡的功能,直接復刻並搭建出一個完整的線上網頁——那怕幾乎沒有任何文字的提示詞指令,Qwen3.6-Plus依舊通過多模態能力精準出了圖片的內容,並且嘛——比我圖片裡手畫的頁面佈局效果更好、視覺呈現更牛、內容更充實??更複雜的程式設計場景照樣在行看到這兒估計有朋友該說了,上面這些場景多少有點太簡單了吧。你還真別說,更硬核的程式設計場景這不就來了嘛!事實上,除了能用簡單提示詞實現Vibe Coding、解析並執行多模態內容外,Qwen3.6-Plus還能基於命令列工具生成頁面、進行程式碼問題分析與重構,甚至自主開發工具。在命令列頁面生成能力上,Qwen3.6-Plus支援通過CC等工具直接呼叫API。我們只需輸入 「根據開源倉庫生成landing page」這類簡潔指令,就能快速產出完整網頁,實現高效自動化的前端開發!!話不多說!先給咱們「電子老婆」來個項目官網首頁~這裡說的電子老婆,正是GitHub上的開放原始碼專案AIRI—— 仿照超火虛擬主播Neuro-sama打造,能即時陪聊、陪打遊戲,妥妥全天候線上的電子伴侶(doge)。通過VS Code中的Qwen Code外掛,我讓Qwen3.6-Plus直接讀取開放原始碼專案介紹,自主理解需求、規劃頁面結構,並一次性輸出完整可用的程式碼:(提供項目)根據這個開放原始碼專案生成landing page,輸出HTML+tailwind CSS。從Thinking過程可以清晰地觀察到Qwen3.6-Plus一步步查看需求、建立檔案,整個過程能夠即時監測:Done!耗時約3分鐘,Qwen3.6-Plus就生成好了項目官網頁面,程式碼自動保存在landing-page.html檔案中:咱打開html檔案來看下效果~首先,看上去還蠻符合項目的宣傳邏輯,把臨時體驗頁面、項目開源地址、社區地址全都關聯上了。不僅如此,導覽列還能夠跳轉到對應內容,把項目介紹裡包含的能力、可相容的模型廠商、部署步驟都給概括全了,不戳不戳~接下來,我們來測試模型的「問題分析與程式碼重構」能力。這次我又在Qwen Code命令列工具裡,喂給了Qwen3.6-Plus一坨問題不小的老舊程式碼,讓它捉捉蟲:(提供項目)我剛接手這個項目,該怎麼最佳化呢?Qwen3.6-Plus看懂了原有邏輯,自動整理了一份最佳化清單,但是在動手之前還是詢問了一句「需要開始實施嗎」。比起其他大刀闊斧直接上手的模型來說,這份分寸感把握得還是相當不賴的~下一步,當然就是讓它幫我修改x山程式碼了!!我反手就是一個——這裡一定要說個好玩的,Qwen你的碎碎念也有太活人感了,先給產品經理畫餅,然後去push伺服器,接著又在老闆面前裝!模!作!樣!(還有啥是你做不出來的??)說歸說鬧歸鬧,任務還得按部就班搞下去,修完Bug、再做最佳化,主打一個有條不紊~最佳化完成!人家具體都改了點啥呢——請看下方總結。最後嘛,還來了點小建議,be like:安裝依賴、寫測試指令碼都可以直接交給它來做,我全程省心省力只負責點頭。(美哉美哉~)(Qwen3.6-Plus:俺的程式設計本事,可是不孬!!!)AI程式設計的門檻,這回是真被打下來了說實話,從今年年初開始,我們真的接觸了太多太多的AI Agent和各種Claw字輩兒的龍蝦。此外還有一個大家感知很深的事是,當下廠商們也越來越押注模型的程式設計能力,各種Vibe Coding產品也層出不窮。我自己也在社交軟體上刷到過很多感興趣的項目,點開之前覺得蠻有意思,可一看對方用到的提示詞和輔助工具,我很快就意識到了一個問題。那就是沒點提示詞本事,沒點基礎程式設計能力,想做出和人家同款效果的Vibe Coding產品,真的蠻難的…(哭死…)只能說,大家還是苦Vibe Coding《上手門檻》久矣。△圖片由AI生成這次實測Qwen3.6-Plus下來,除了對於模型在複雜程式碼治理、跨域長程規劃等真實世界的專業程式設計任務的中呈現的過硬能力外,我更大的感受在於——它確確實實把普通人的「程式設計門檻」大幅拉低了。基於自然語言驅動的Vibe Coding不再是概念,只要一句大白話,我們就能把腦子裡的想法直接變成可運行的現實。在過去很長一段時間,行業默認用參數規模來換性能提升,模型越大,效果越好,也越貴。而這一次,Qwen3.6-Plus通過一個體量更輕的模型,交出了可以對標甚至超過2到3倍參數模型的結果,這對我們使用者來說當然是好事情。當然,更進一步從行業角度看,也不難看出Qwen3.6-Plus也正是阿里ATH(Alibaba Token Hub)思路在程式設計模型上一次很有代表性的落地。創造高效Token、輸送低成本Token、應用普惠化Token,在ATH成立後僅一個月的時間,就速速口號照進現實了。最後值得一提的是,Qwen3.6-Plus是千問3.6系列推出的第一個模型。後面千問3.6系列還會開源更多不同尺寸的版本給大家,另外性能更強的旗艦款Qwen3.6-Max也會在近期發佈。大家可以小小期待一下子~ (量子位)
老美火速封禁!這個預測網站爆火,押「美伊衝突」能賺錢
美伊衝突懸而未決,有些人卻搶先一步,發了一筆戰爭財。據Newyork Post報導,美國加利福尼亞州州長紐森27日簽署法令,禁止該州由州長任命的行政官員利用內幕消息在預測市場Polymarket牟利。加州州長辦公室在聲明中說,美國一些顯然能夠接觸到聯邦政府敏感資訊的官員在預測市場中的“押注時機極其精準”,聲明同時批評部分官員將公共服務變為快速致富的手段。(圖源:NYP)有趣的是,這並不是Polymarket這個網站今年第一次上熱搜。就在美以對伊朗發動襲擊的數小時之前,Polymarket上預測美對伊朗發動軍事打擊的機率突然暴漲,其中六個主要參與者從中賺取了120萬美元(約合830萬人民幣),這也使得整個平台一戰成名。隨後,Polymarket又成功預測了一系列中東局勢,其中不乏美以對伊朗核設施的後續襲擊,小哈米尼會在什麼時候上任等資訊,更有甚者,已經開始重倉美伊停火,預測將在3月31日或4月15日之前發生。這就讓人非常好奇,這個網站究竟是何方神聖?為何總能預測未來?用錢投票的競猜平台其實,Polymarket的本質並不複雜。用大白話來講,它就是一個基於Web3技術的全民競猜平台。它的運作原理非常簡單粗暴,Polymarket會把未來可能發生的某個事件設定成一個盤口,而你能在這個平台上做的事情,就是根據規則,預測這個事件何時發生、怎樣發生,然後下注就行。比如有一個問題是,蘋果會在2027年之前發佈全新產品線嗎,2027年就是時限,寫在下面的這個就是規則。(圖源:Polymarket)規則裡表示,“全新產品線”的定義是指蘋果公司此前未銷售過的產品類別,而非現有產品的迭代或更新,例如機器人或遊戲主機都屬於全新產品線,而新款iPhone、Mac、iPad、Apple Watch或AirPods則不屬於此類。要是你覺得這件事會發生,你就買肯定選項,反之就買否定選項。支援的人越多,這個選項的價格就越貴,對應的預測發生機率也就越高。因為預測的事件沒啥限制,所以你能夠在這個平台上看到很多讓人啼笑皆非的奇妙盤口。這群老外真的會聚在一起拿錢打賭,馬斯克在3月27日-4月3日之間會發幾條推特,或猜測美國政府今年會不會確認外星人的存在,甚至連耶穌基督會不會在2027年復活都能成為下注的目標。不對勁,怎麼還有4%的人覺得耶穌基督能復活的。(圖源:Polymarket)繼續往下扒,你甚至可以看到,預測泰勒·斯威夫特會不會婚前懷孕的...(圖源:Polymarket)預測賈躍亭啥時候回國的...(圖源:Polymarket)甚至還有就在今天下午打響的,WBG和IG的電子競技世界盃預選賽,這些老外都能在上面美美地預測開盤。(圖源:Polymarket)等等,我尋思,啥都能預測開盤...這不就是賭博嗎?但你還真別說,Polymarket這網站在預測上還真的有點說法的。咱們就拿前年TGA做例子,國內玩家大多都覺得會是《黑神話:悟空》 《艾爾登法環:黃金樹幽影》 《最終幻想 7:重生》 的三方合戰,結果偏偏最後給索尼的小機器人摘了桃子,多少人氣不過啊。誒嘿,沒想到吧,在Polymarket上居然是小機器人一直保持著領先。(圖源:Polymarket)要是有人當時跟著他們all in機器人,還真能猛賺波大的。不僅如此,什麼GPT-5.2發佈啊,Gemini 3.0 Pro、OpenAI瀏覽器發佈啊,這個平台都給出了相當精準的預測。在他們自己的官網上,更是給出了一套相當嚇人的資料:四小時內的預測準確率96.7%,一天內的精準率95.8%,一個月內90.4%...(圖源:Polymarket)只能說戰績可查,好吧。你的消息值多少錢?那問題就來了,為何Polymarket的預測成功率這麼高,比那些所謂的掌握著小道消息的自媒體,靠譜的多?這就不得不提所謂的“群體智慧”了。早在1907年,自然雜誌上曾登過一篇叫作《民眾之聲》的文章,統計學家弗朗西斯·高爾頓在普利茅斯舉辦的一場鄉村集市上,隨機找了800個成分不同的人,然後讓這些人猜測一頭牛被屠宰加工後的真實體重是多少。他最後成功回收了787個有效資料,取中位數,得出的最終數字是1207磅。(圖源:wikipedia)而那頭牛被真正稱重後,實際體重是1198磅,預測和實際的誤差僅有1%。這次實驗,促成了認知科學領域的一個重要發現:群體的判斷可以被建模為一個機率分佈,其中位數位於待估計量的真實值附近。而我們今天聊的Polymarket,本質上就是把這場百年前的實驗搬到了網際網路上。只不過,它往裡面加入了一個至關重要的催化劑,那就是真金白銀。在Polymarket這種預測平台上,你支援的每一個選項,都必須用你自己錢包裡的錢來背書,這足以把那些湊熱鬧的人給剔除掉,而那些那些真正掌握了資訊的人,那怕只是蛛絲馬跡,他們有強烈的經濟動因去參與。(圖源:雷科技,Nano Banana製作)而這為我們帶來了兩種不同的主要參與者,內幕交易者和巨量資料統計人。前者很好理解,就不說美伊衝突裡出現的那六個人,甚至在美國閃擊委內瑞拉之前,就有多個帳戶極其精準地砸下三萬多美元,賭中了馬杜洛被抓捕的確切時間,反手就賺走了四十三萬多美元。科技行業也是這樣,在Gemini 3發佈之前,就有一個剛註冊沒多久的新帳號,一口氣掏出了七萬八美元砸在yes裡,就賭Gemini 3會在11月發佈。至於體育這邊,你敢信有球星親自代言預測平台並下場買自己不會轉會的嗎?(圖源:Kalshi)這種沒有事先任何公開徵兆,卻能精準踩中大事件節點的交易行為,除了內部人員提前走漏風聲,你很難找到其他合理的解釋。至於後者,其實就是那些極客玩家。普通人玩競猜,可能就睡醒了看看新聞,然後憑直覺或者個人喜好去點兩下滑鼠。但在極客的眼裡,這就是一個純粹的資料遊戲。他們直接給OpenClaw接入GPT,讓機器人二十四小時不間斷地監控著全球網際網路,新聞、財報、社交媒體、甚至是鏈上的資金流向,全都在它的計算範圍內。只要現實世界裡有任何風吹草動,那怕是一個不起眼的官方公告,AI都能在毫秒等級計算出事件機率的變化,然後全自動地完成下單操作,可以說人類的反應速度完全不值一提。就拿Polymarket上的大神ilovecircle為例,在短短兩個月內,這貨就通過全自動交易,狂賺220萬美元,勝率高達74%。開源社區也沒閒著,Polymarket Agents、Polyseer已經滿天飛了。(圖源:Github)這也從側面證明了,在這類平台上,資訊的極度不對稱已經成為一種常態。真金白銀,砸出靠譜資訊源看到這裡,我想大家對於Polymarket應該也有自己的一套看法了。就我而言,我很自信自己不會有什麼內幕消息的管道,那怕去鼓搗什麼用大模型驅動的機器人收集資料,也沒什麼可能競爭過那些長期佈局的極客玩家,因此我永遠不會參與進去。但不得不說,如果你把它當成一個爆料網站,那它確實是一個還不錯的資訊源。在真金白銀的驅動下,位於五湖四海的使用者,把這些分散在世界各個角落的、或明或暗的、專業的、業餘的資訊,最終匯聚成了一個不斷跳動、可量化的機率。(圖源:Polymarket)可以說,這就是Polymarket真正的價值。無論是否存在著內幕消息,這個機率,就是這個時間點,你能獲取的所有資訊的綜合體現。這也就是為什麼我說,它可能比看任何一個自媒體的分析都靠譜。需要注意的是,分析終究是分析,不是預知未來。根據范德比爾特大學的研究人員Joshua Clinton和TzuFeng Huang的一項新研究表明,Polymarket的實際預測準確率僅為67%,在很多摸棱兩可的問題,平台會傾向於採信更符合自己預測的一邊,以此營造出高精準率的假象。(圖源:DLNews)作為一個既沒有內幕,也沒有算力的普通人。我們根本不需要下注,也不必神化它,把它當資訊工具就夠了。至於賺錢這塊,就讓阿川自己去玩得了。 (雷科技)
“黑天鵝”之父:我們今日所處的世界
導讀:本文是《黑天鵝》、《反脆弱》等系列作品的作者納西姆·塔勒布在 2025 年羅恩·保羅研究所(Ron Paul Institute for Peace and Prosperity)年會上的演講。演講時間為9月初。羅恩·保羅研究所由美國前國會議員羅恩·保羅創立,以倡導“有限政府、反對海外軍事干預、強調個人自由與市場經濟”為宗旨。它的年會匯聚學者、評論員和政界人士,討論全球政治、經濟與社會趨勢,常常與華盛頓的主流政策立場針鋒相對。塔勒布以研究“不確定性”和“黑天鵝事件”聞名,在這次演講中,他從隨機過程和複雜系統的視角,提出了對當下世界的七點觀察。以下為塔勒布演講全文編譯。朋友們,我今天要談七個要點。為什麼是七個?因為我最近看了太多巴比倫歷史。一、從“連接”到“技術封建主義”第一個要點是關於“集中化”。這是現代世界的一個顯著特徵,往往和我所謂的“黑天鵝”問題聯絡在一起。如今,由於高度互聯,“贏者通吃”的效應無處不在。想像一個小島,上面有許多物種,但每平方米密度很高。再對比一個大陸:一旦有足夠的空間,一些物種最終會佔主導,導致單位面積的多樣性下降。這正好對應了當今的文化與經濟生活。以書籍為例。大家都讀同樣的書——比如《哈利·波特》;音樂上也一樣——比如披頭士樂隊。在出版行業,最終是少數作家勝出。你要麼能賣出兩千萬冊,要麼就得去星巴克打工(除非像我一樣抵制那家公司)。歌劇演員也如此。過去,他們還能靠本地演出維持生計,因為當時沒有音像記錄。但現在,少數明星攫取了大部分收入。這種集中化本身並不是壞事——它只是市場機制的一部分,是事物運作的方式。問題在於,當頂端的地位變得“固化”(sticky)時,就會出現病態。比如,從大學宿舍走向主導市場的Google之路,曾經很短。以前像 AltaVista 這樣的搜尋引擎可以在幾分鐘內被取代,由新崛起的Google取而代之。但如今要取代Google卻幾乎不可能,因為其統治地位已經根深蒂固。這就是不健康的集中,導致了瓦魯法基斯(Varoufakis)所稱的“技術封建主義(technofeudalism)”。集中化也同樣適用於病毒。新冠在大約一周內就傳遍全球,迅速佔據了整個星球。相比之下,腺鼠疫(則花了數年時間才從君士坦丁堡傳到英格蘭北部,並且因為缺乏交通聯絡,根本沒有傳到美洲。今天的超級互聯加劇了集中化,但這只有在我們還抱著 20 世紀初那種陳舊的經濟、社會、文化和生物學教科書理解時,才顯得病態。再看財富。比如在美國,二十年後能維持下來的億萬富豪家族只有 20%。而在歐洲情況相反——集中化越來越頑固。我們正在朝著歐洲式的僵化方向走,而且是全球性趨勢。評論 1資本主義之所以能運轉,不僅在於它允許向上的流動,更在於它加速了向下的流動。二、歷史處理程序的動態性與誤讀第二個要點,是我們在理解“動態過程”上的困難,尤其是在地緣政治方面。因為歷史學家和統計學家看待歷史的方式完全不同。我的專長是隨機過程(stochastic processes,隨機演化的數學模型),所以我把歷史看作一個動態的演變過程,而不是靜態的教科書描述。評論 2GDP 及其增長率在預測未來狀態時都可能誤導人;但如果忽視增長差異,其複利效應帶來的錯誤可能極為巨大。當拿不準時,應把“增長率”而不是“GDP 現值”當作基準。2007 年,我出版了《黑天鵝(The Black Swan)》。那一年,美國佔世界經濟的比例大約是 20%(以購買力平價 PPP 計,這個指標更合理),歐洲也差不多,中國則只有 6%。如今,美國大約 15%,並且還在下降;歐洲約 14%,下滑更快;而中國已超過 20%。這些變化,發生在一本書的壽命之內。複利增長中的小差異,會隨著時間推移造成巨大的結果差別——華倫·巴菲特對此反覆強調。即便你用“實際美元”來衡量 GDP,故事也差不多,只是基數不同而已。再看看軍事開支:美國每年花費大約一兆美元,中國則大約是三分之一。但比較兩者的“性價比”就不一樣了。在中國製造一把椅子可能只要 1 美元,而在美國則要貴得多。把這種差異套用在軍事生產上,你就能明白誰才是正在崛起的真正超級大國。如果中國現在還不是,那也只是幾周或幾個月的問題——因為變化太快了。這既不是“親中”,也不是“反中”,而只是現實。中國製造業總體更便宜,在軍事領域的相對優勢則更明顯。美國則存在“5.3 萬美元一個垃圾桶”(譯註:2020 年,彭博社報導空軍以 5.3 萬美元採購一個垃圾桶)的問題。美國的武器工業(麥格雷戈上校 Col. McGregor 已經提到過)缺乏競爭力。這是美國三大“極度昂貴”的領域之一,另外兩個是醫療和教育——在這些方面,美國的成本比別國高出一到兩個數量級。中國的軍費開支名義上只是美國的三分之一。你很容易看出發生了什麼,因為他們沒有“5.3 萬美元垃圾桶”的問題。由於一種認知偏差,人們往往把“現狀”理解為 GDP 總量。但真正的“現狀”是 GDP 增長率。中國在 15 年裡從 6% 上升到全球 GDP(PPP)佔比超過 20%。試想 2035 年地緣政治格局會是什麼樣子。我們的預測往往失敗,因為我們依賴對過去的“原始分析”,忽視了二階效應。在未來,關於戰爭的討論可能需要發生在北京,而不是華盛頓。問題是,華盛頓那些高薪官員或許根本意識不到這些變化。三、S 曲線與經濟飽和第三個要點是S 曲線,我在《反脆弱》裡討論過。在生物學和經濟學中,增長往往先是凸性的高速擴張,然後逐漸放緩進入飽和階段——增長雖然可能沒有上限,但仍然低於對數型的無限增長。舉個例子:當你已經有一個兩車位的車庫時,你真的還需要一個五車位車庫嗎?有些人可能會,但大多數人不會——因為激勵已經減弱。中國的增長之所以迅速,是因為很多人仍然缺乏基本的生活設施,比如汽車;而歐洲和美國已經接近飽和,增長動力有限。與此同時,許多人也逐漸發現,某些生活方式的改善(如修建自行車道、打造步行和騎行友好型城市)雖然提高了生活質量,卻未必帶來經濟增長。問題在於,負債最重的,偏偏是這些已經飽和的經濟體——美國和歐洲。有一句法語諺語:On ne prête qu’aux riches(“只借錢給富人”)。然而,當一個國家已經很富有卻仍然大量舉債時,它需要依賴增長來償還債務,而在 S 曲線的頂部,增長恰恰最難實現。更糟的是,某些政策(比如本屆政府推行的關稅)會進一步抑制增長,因為它們迫使資源流向低利潤率的活動。就像讓一名腦外科醫生每周花兩天去當園丁,以避免被專業園丁“剝削”。這種從高附加值轉向低附加值的轉變會壓低 GDP——這是正統經濟學家普遍認同的觀點。而偏偏我們現在是最需要增長的時候。GDP 增長必然在“窮人不夠用”的時候放慢。增長遵循一條 S 曲線,儘管右側延伸較長。生物學中的事物往往會飽和,或至少放緩。把人從貧困中拉出來時,經濟增長得很快;但當你不得不“進口窮人”才能維持增長時,就難多了。問題在於,國家就像個人一樣,往往在不需要借錢時借得最少,而在富裕時卻借得越來越多,最終陷入債務螺旋。美國的龐大政府體系和不負責任的財政政策正在加劇這種困境。不久之後,美國的大部分開支都會被用來償還債務,而我們缺乏糾正這一局面的政治機制。更糟的是,我們現在依賴外國人或本國退休老人來購買國債。拜登前總統的政策,比如凍結美元資產,已經讓投資者對美元資產望而卻步。如果你的資產可能因為“某人曾和某個與普丁沾親帶故的銀行家吃過午飯”而被凍結,那誰還願意持有美元?於是,各國央行紛紛轉向黃金。隨著金價大幅上漲,金磚國家也在逐漸減少對美元儲備的依賴。四、移民從來沒有一個社會會單純出於“喜歡移民”而歡迎他們,真正的理由總是經濟上的實用性。西方國家先是富裕了,然後發現沒人願意去打掃廁所、修屋頂、帶那些吵鬧的被寵壞的孩子,或者割草坪。如果要讓牙醫每周抽兩天時間去當園丁,那成本會高得無法承受。而且中產階級的年輕人也不會夢想著長大以後去做清潔工。所以,這些工作只能靠“輸入窮人”來完成——那怕是勉強接受。評論 3少量移民在社會上是無害的;但大量移民則會讓本地人覺得這與歷史的延續出現了“斷裂”,甚至像一次入侵,即便實際上並非如此。美國和歐洲在結構上已經對廉價移民勞動力產生了依賴——房子越建越大,草坪越來越廣,維護也越來越費工。一旦這些勞動力驟減,就會引發“超級通膨”,因為此類供給收縮的效應是非線性的。還記得 2022 年的情況嗎?事實上,每一個靠“反移民”綱領上台的西方政黨,最後執政結束時的移民數量都比之前更多。義大利的總理喬治婭·梅洛尼(Giorgia Meloni)就是最新的例子。在這種背景下,近期的驅逐移民舉措看上去大多隻是象徵性的動作——為了贏得選票而做的姿態。有些甚至純粹是出於羞辱移民的惡意。那麼,西方能不能擺脫移民?答案是否定的。除非願意把自己的全球 GDP 攔腰砍掉——而對於已經被債務壓得喘不過氣的經濟體來說,這是絕對付不起的代價。理論上這可能是理性的選擇,但在現實中幾乎沒人願意承受。需要強調的是,我本人對封閉的、排外的單一民族國家(xenophobic ethnostates)並無意見,只要它們不去入侵別人,並且各過各的就好。但在現代條件下,你不可能既維持這樣的體制,又背負著需要增長來償債的龐大債務。於是我們陷入一種奇怪的局面:那些排外的人,一方面依賴移民來滿足自身需求,另一方面卻投票反對移民——這就是一種“公地悲劇”。評論 4人們對移民數量的感知往往比現實高出很多。原因可能在於他們往往集中在城市中心區域,差異又特別顯眼,產生了“顯著性偏差”。在歐洲,穆斯林人口比例通常低於 1/20,大多數國家在 1/10 到 1/100 之間。但普通人的直覺估計往往要高一個數量級。這種錯覺讓人以為“移民的好處只屬於移民自己”。但現實是,大多數抱有這種看法的人,最終都依賴移民來維持他們所謂的“更好生活”——除非他們對“更好生活”的定義完全不涉及物質層面。關於高技能移民的說明在“反向人才流失”(即高技能移民流入)方面,歐洲和美國之間有顯著差別,這在很大程度上解釋了兩者增長率的差異。美國憑藉更豐厚(但也更不平等)的學術薪酬,以及更少的退休限制,一直在吸引歐洲最具進取心和生產力的科學家。在紐約大學坦頓工程學院(Tandon School of Engineering of NYU),我待了十五年以上。那裡的教師和研究生幾乎全部是外國出生的。評論 5通過簽證限制來逆轉“人才流失”方向,可能實際上有助於人才來源國,讓他們的人才留在本地發展。五、社交媒體的解放效應接下來的要點是一個樂觀的消息:社交媒體改變了資訊流動的方式。在歷史上,人們在理髮店、魚市交換消息,既是傳遞者,也是接收者。大眾傳媒打破了這種模式,把我們變成了被動的電視觀眾——由國家和經過淨化的報紙來“灌輸”。而如今,像 TikTok 和 X(前 Twitter)這樣的平台,讓我們重新回到既能分享、也能接收資訊的自然模式。社交媒體很難被控制,即便有審查機制。而人工智慧的存在更讓操控變得困難:一旦想要系統性操縱,結果往往會前後矛盾。舉個例子,如果 1995 年發生在加薩的種族清洗,可能會被傳統媒體完全掩蓋。但在 2025 年,社交媒體讓真相曝光。如今的媒體只對政客或與現實脫節的人有意義——任何 30 歲以下的人都不會關心 ABC 新聞。所以,這是件好事。有人和我談起華盛頓的“媒體循環”,我直接告訴他:唯一在乎媒體的人,要麼坐在輪椅上,要麼混跡政壇。我自己能走到今天,最初靠的是 Facebook,後來是 X/Twitter,而不是傳統媒體。我甚至拒絕了出版社為我最新幾本書安排的媒體巡演。評論 6傳統集中化媒體對西方公民的控制被打破,直接的效果之一就是:以色列再也無法把他們的種族清洗和種族隔離包裝成“捍衛西方價值觀、抵禦伊斯蘭原教旨主義”的敘事。六、政府角色的擴張第六個要點,是政府的持續膨脹,使得跨時代的比較完全失效。在歷史書裡,我們會讀到路易十四這樣的君王,或者像科爾貝爾(Colbert)這樣的中央集權者。但今天的政府,比當時大得多,也更具侵入性。在歐洲,政府支出佔 GDP 的 40%–50%(在法國更高,尤其是如果把教育算進去)。美國官方數字略低一些,但如果加上地方政府和最近的各類干預,比例其實更高。一個世紀前,政府開支佔 GDP 的比例往往不到 15%,很多時候甚至不到 5%。評論 7政府規模是與時代相關的概念,因此跨時代比較並不成立。今天的政府比歷史上任何時候都更具“有效的滲透力”,這要歸功於技術。即便是在依靠亞當·斯密原理驅動的經濟體中,政府的規模也在大幅增長。1500 年時,即使是獨裁政府也難以掌控太多,因為它在經濟中的佔比很小。但今天的政府擁有更廣的觸角,而且這一趨勢幾乎無法阻擋。所謂“有限政府”的保守派,在當下的訴求,其實和幾十年前中央集權者的願望差不多。七、規模的重要性最後一個要點,是治理與規模息息相關。我有一句箴言,被朋友們這樣總結:在國家層面,我是自由意志主義者;在州層面,我是共和黨人;在市政層面,我是民主黨人;在家庭層面,我是共產主義者。意思是說,治理方式必鬚根據規模來調整。比如說,鄉村俱樂部都有規則和執行機制——這其實就是一種“政府”。但沒有人會抱怨這是“俱樂部獨裁”。回顧歷史,成功的治理模式往往是小規模的城邦,比如威尼斯、杜拜、新加坡。小規模使治理更有效。而隨著美國經濟的規模和複雜性不斷擴大,治理反而變得越來越困難。事實上,我們今天需要的,是比 50 年前或 100 年前更多的地方自治,但現有制度並沒有適應這一現實。 (格上財富)
黑馬AI橫掃預測市場!預測未來勝率已超過人類
【新智元導讀】大模型能否預測未來?UniPat AI建構了一套完整的預測智能基礎設施,Echo,包含動態評測引擎、面向未來事件的訓練範式和預測專用模型EchoZ-1.0。在其公開的General AI Prediction Leaderboard上,EchoZ-1.0穩居第一,並在與Polymarket人類交易市場的直接對比中展現出顯著優勢。過去一年,預測能力越來越受到模型廠商的重視。但預測領域有一個根本性的驗證難題:你說你能預測未來,怎麼證明?發佈時的demo無法追溯,事後公佈的案例存在選擇性偏差,通用基準測試衡量的是語言理解和推理能力,跟真實預測是兩碼事。UniPat AI近日發佈的Echo系統,試圖用一套完整的基礎設施來回答這個問題。Echo由三個緊密耦合的元件構成:一個持續運轉的動態評測引擎,一套面向未來事件的後訓練流程(Train-on-Future),一個未來可能的AI原生預測API。官網:https://echo.unipat.ai/ Blog:https://unipat.ai/blog/Echo核心模型EchoZ-1.0是第一個在Train-on-Future範式下端到端訓練的大語言模型。在General AI Prediction Leaderboard 上(2026年3月資料),EchoZ-1.0以Elo 1034.2排名第一,領先 Google的Gemini-3.1-Pro(1032.2)和Anthropic的Claude-Opus-4.6(1017.2)。排行榜涵蓋12個模型,覆蓋政治、經濟、體育、科技、加密貨幣等7個領域,活躍題目超過1000道。EchoZ在排名魯棒性測試中穩定第一排名本身只是一個快照,排名的穩定性更值得關注。部落格中披露了一組σ參數敏感性測試:調整Elo框架中的σ參數(控制Brier Score差異向勝率的轉化強度)從 0.01到0.50共9個取值,重新計算全部模型排名。這個參數簡單來說,就是控制「模型之間表現差距」會被放大到什麼程度。EchoZ在全部9個分組均保持第一,是唯一排名未發生任何波動的模型。作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。更有說服力的一個細節是,EchoZ的競爭對手不僅有頂級大模型,還有預測市場上真實投入資金的人類交易者的聚合判斷,EchoZ的Elo分數顯著高於這條基線。與此同時,Echo官網公開了所有預測問題、模型輸出的機率分佈和最終結算結果,任何人都可以回溯驗證。三個層面的可驗證性疊加在一起(動態排行榜、實盤市場對照、全量資料公開),構成了Echo與此前各種「AI 預測」最根本的區別。那麼,EchoZ對人類預測者的實際優勢有多大?Unipat AI給出了一組分層對比:將EchoZ與人類市場在同一預測批次中的同一問題上進行比較,基於Brier Score計算勝率,按領域、預測期限和市場不確定性三個維度展開:政治與治理領域:EchoZ勝率63.2%長期預測(7天以上):EchoZ勝率59.3%市場不確定區間(人類信心55%-70%):EchoZ勝率57.9%一個值得注意的規律是:人類預測者越猶豫的場景(高不確定性、長時間跨度、複雜政治博弈)EchoZ的優勢反而越明顯。這暗示模型在資訊整合和機率校準上的系統性優勢,恰好在人類直覺最不可靠的區域得到了最大程度的釋放。一個持續生長的評測引擎建構評測基準本身並不新鮮,但Echo的做法有一個關鍵差異:它建構的不是一個靜態的題庫,而是一個能夠自動出題、自動結算、持續更新排名的動態系統。為什麼「動態」這件事很重要?拿一道具體的預測題來說:「2026年3月31日收盤時,全球市值最大的公司是那家?」如果模型A在3月1日給出了預測,模型B在3月28日給出了預測,兩者的正確率能直接比較嗎?顯然不能。越接近結算時間,可用資訊越多,預測難度越低。這就是現有預測基準的第一個結構性問題:時序不對稱。第二個問題是題源過於單一:現有基準的題目幾乎全部來自預測市場,偏向容易結算的二元問題,大量來自專業領域和新興話題的預測需求被遺漏了。Echo Leaderboard 的架構正是圍繞這兩個問題展開的。整套系統可以拆解為四個階段的持續循環:Echo 評測引擎建構流程第一步,資料採集。三條資料管道同時運行。第一條對接Polymarket等預測市場,篩選有明確結算規則和高品質共識訊號的合約。第二條面向開放域,抓取Google Trends等即時趨勢,自動生成關於尚未發生事件的預測問題,由agent持續搜尋進展並自動結算。第三條來自真實專業場景:科研、工程、醫療等領域的專家將自己工作流中有價值的預測題貢獻到系統中,並在預定時間點給出權威判定。從Polymarket上的大眾共識到實驗室裡的專家判斷,三條管道覆蓋了一個相當完整的預測光譜。第二步,預測點調度。每道題不只做一次預測。系統使用對數調度演算法,根據題目的結算周期長度分配多個prediction points(預測時間點),既保證了生命周期內的覆蓋密度,又控制了計算開銷。第三步,對戰建構。這是解決時序不對稱問題的關鍵環節。評測使用point-aligned Elo機制:嚴格只比較「同一道題、同一預測時間點」的結果。所有參賽模型在完全相同的資訊上下文下對決,公平性由此建立。第四步,Elo評分更新。基於Bradley-Terry MLE演算法計算全域排名。實驗資料顯示,這套框架對新加入模型的排名收斂速度是傳統Avg Brier方法的2.7倍。模型排名收斂速度對比這四步構成一個不斷循環的閉環:新題目持續流入,新的預測點持續觸發,對戰持續發生,排行榜持續更新。用一句話概括:Echo造了一把動態校準的尺子,而這把尺子本身也在不停生長。Train-on-Future:當推理過程本身成為訓練訊號評測引擎解決了「怎麼量」的問題,接下來要回答的是「怎麼訓」。Echo 的訓練流程同樣是一套結構化的系統,UniPat稱之為Train-on-Future範式,由三個核心機制組成。在展開之前,有必要先理解傳統路徑(Train-on-Past)為什麼走不通。用歷史事件的已知結果來訓練預測模型,面臨兩個很難繞過的困難。第一個是工程悖論:網際網路內容持續更新,用過去的事件做訓練題時,模型在搜尋網頁的過程中幾乎必然會撞上包含答案的資訊,資料洩露在工程實現上極難杜絕。第二個是結果導向偏差:現實事件充滿隨機性,一個邏輯嚴密的分析可能因為黑天鵝事件而給出「錯誤」答案,一個粗糙的猜測可能碰巧命中。直接用最終結果做訓練訊號,模型很容易過擬合到噪聲上。Train-on-Future 的三個機制分別瞄準了這些問題:機制一:動態問題合成。與使用歷史題庫不同,Echo通過一條自動化管道,持續從即時資料流中生成關於未來事件的高資訊量預測問題。因為每道題都關乎尚未發生的事件,訓練天然不存在資料洩露的問題。機制二:Automated Rubric Search。這是整個訓練範式中最有技術含量的部分。Echo的做法是:把訓練訊號建立在推理過程的質量上,而非最終預測的對錯。但隨之而來的問題是,「好的推理過程」該如何定義?舉一個體育預測領域的具體例子。Echo的Rubric中有一個維度叫做「Precursor and External Catalyst Evaluation」,評估模型是否利用高度相關的先行訊號或外部驅動因素。得5分的標準是:識別具體的近期或即將發生的催化因素(如關鍵球員回歸、連續客場結束、關鍵對位變化),並分析這些因素與比賽結果之間的歷史關聯。得 1 分的標準是:僅泛泛提及「狀態不錯」或「士氣提升」等模糊因素,而未繫結具體可驗證事件。另一個維度是「Multi-Factor Causal Synthesis」,評估模型是否將多個獨立因素整合為一個有因果結構的預測結論。得5分的標準是:明確整合至少三個相互獨立的因素(如傷病情況、近期狀態、主客場表現、賠率基線),並解釋這些因素如何相互作用(如傷病削弱進攻效率,而主場優勢部分避險該影響),最終形成一個加權後的整體判斷。得1分的標準是:僅基於單一因素(如「某隊最近連勝」)直接得出結論,或簡單羅列資訊而沒有解釋各因素之間的作用關係。總結來說,這兩個維度分別關注模型是否能夠在時間維度上引入可量化的前瞻性的關鍵變化,並在同一時點上將這些變化與既有資訊整合為結構化的因果判斷,從而提升預測的完整性與動態適應能力。模型按rubrics打分的排名與Elo排名相關係數隨rubrics質量提升而提升。這些維度高度具體,顯然不是泛泛而談的「推理質量」。但靠人工設計也走不遠,預測領域噪聲極高,不同領域的邏輯差異很大。Echo把這個問題轉化成了一個資料驅動的搜尋任務:由LLM生成候選評分標準(rubric),每一輪基於上一輪的反饋進行迭代,搜尋目標是讓rubric產生的模型排名與真實Elo排名之間的Spearman ρ最大化。搜尋按領域獨立進行,政治領域和體育領域各自搜尋出20個評分維度。實驗資料顯示,rubric的評估質量在迭代過程中持續攀升。機制三:Map-Reduce Agent架構。訓練完成後,EchoZ-1.0在推理階段採用分佈式的Map-Reduce流程。Map階段將一個宏觀預測問題分解為多個正交子任務,派出多個agent平行完成資訊採集和領域推理;Reduce階段由聚合節點處理跨源衝突、對齊因果鏈,輸出最終的機率判斷。這個循環支援多輪自適應迭代,直到資訊覆蓋度和推理深度趨於穩定。這套訓練範式的本質可以這樣理解:不僅考察模型猜對了沒有,也考察模型的分析過程是不是優秀。而「評價分析過程」這件事本身,也由這個系統自動完成。值得留意的下一步據瞭解,UniPat計畫將EchoZ-1.0的預測能力封裝為一套AI-native Prediction API對外開放。從部落格已披露的技術架構來看,這套API將支援自然語言形式的預測問題輸入,返回包含機率分佈、分層證據鏈、反事實脆弱性評估和監測建議的完整結構化報告,每份報告由多輪Map-Reduce agent對即時網路證據循環檢索和推理後生成。UniPat在官網上為Echo寫下了這樣一句話:「The future is no longer a probability you guess — it is a parameter you integrate.」當預測從一種直覺判斷變成一個可呼叫、可整合的參數,它能嵌入的決策場景,金融市場、演算法交易、企業戰略,遠比當前看到的要多。UniPat為Echo定義了四個關鍵詞:General、Evaluable、Trainable,以及Profitable。而落地的效果,則需要期待API的正式上線。 (新智元)
德意志銀行:2026中國人形機器人出貨量將超3萬台,世界模型正成為關鍵技術架構
近日,德意志銀行發佈了《Humanoid Robot (III): Six visions for 2026 – Scaling, iterating and diversifying》我們摘取並翻譯了其中的部分重要內容供大家參考,原文連結在文末。一、2026全球人形機器人出貨量接近5W台,中國超3W台2025 年,估計全球人形機器人出貨量超過 15,000 台,較 2024 年的 3,000 台顯著增長。這一增長主要由中國原始裝置製造商(OEM)驅動,其中以 宇樹科技(Unitree)和 智元機器人(AGIBOT)為領軍者,得益於中國支援性的政策、較低的成本以及接納度較高的客戶群。相比之下,2025 年美國 OEM 的出貨量增長較為緩慢,這主要是由於硬體和軟體的複雜性,以及人形機器人商業可行性的尚未得到驗證。對於 2026 年,我們預計全球出貨量將接近 50,000 台。中國有望繼續保持最大的人形機器人市場地位,出貨量將翻倍以上,超過 35,000 台。由 特斯拉(Tesla)和 Figure 領銜的美國 OEM 出貨量,預計將在低基數基礎上隨著產能擴大而展現出強勁增長。從長期來看,我們認為美國 OEM 的總出貨量將逐漸與中國 OEM 趨同。此外,包括歐洲、日本和韓國在內的其他地區的人形機器人出貨量也有望增加。根據德意志銀行的預測,2026年,美國出貨量前三的公司分別為Tesla、Figure、Agility,出貨量分別為5000、2000、300,中國出貨量前三的公司分別為宇樹、智元、優必選,出貨量分別為15000、11000、3000宇樹科技(Unitree):宇樹科技首席執行長於2026年初宣佈,公司目標在2026年交付1萬至2萬台人形機器人。據悉,宇樹科技在2025年已交付超過5,500台人形機器人(不含輪式人形機器人)。另有報導指出,2025年宇樹科技獲得的訂單總額超過12億元人民幣,機器人總出貨量(包括四足機器人)超過1萬台。智元機器人(AGIBOT):智元機器人研發總監於2026年初提出目標,預計2026年累計出貨量將突破1萬台。此前在2025年12月,其首席執行長曾表示,智元機器人2025年的出貨量有望達到5,000台,銷售額將超過10億元人民幣。優必選(UBTECH):據報導,截至2025年12月,優必選已建成年產超過1,000台的工業人形機器人產能,並已交付超過500台;預計2026年其產能將提升至1萬台。二、歐美廠商定價目標區間為2萬-3萬美元,中國相對價格更低大多數美國和歐洲的人形機器人製造商的目標是,一旦實現大規模生產,其人形機器人的定價將在2萬至3萬美元之間。NEURA和1X目前已有產品落在此價格區間內。然而,根據我們的管道調研顯示,當前人形機器人的實際成本介於5萬至25萬美元之間,這表明要實現廣泛的商業化應用,仍需進一步最佳化成本。在中國,價格競爭更為激烈,宇樹科技(Unitree)和智元機器人(AGIBOT)等廠商的低端產品報價約為1萬美元。三、歐美應用場景集中在汽車和物流領域,中國資料採集與測試中心需求廣泛根據國際資料公司(IDC)的資料,2025年全球出貨的人形機器人中,37%用於娛樂和表演,其次是25%用於科研與教育,17%用於資料採集。用於展覽引導(11%)和工業製造(9%)的比例相對較小。報告還整理了優必選在2025年披露的訂單情況。在其總計14億元人民幣的訂單中,資料採集類訂單佔比最大,達到44%。這些訂單主要來自中國多個地方政府建立的人形機器人資料採集與測試中心,凸顯了政府對具身智能產業的支援。美國和歐洲的應用場景主要集中在汽車工廠和物流領域,目前仍處於概念驗證(PoC)階段。四、世界模型(World Model)正成為繼視覺 - 語言 - 動作(VLA)模型之後的下一代架構,或與其平行發展什麼是世界模型(World Model)?世界模型學習/預測環境如何演變,以及動作如何改變未來狀態,而不僅僅是將當前觀測對應到下一個動作。它與 VLA 有何不同?VLA(視覺 - 語言 - 動作)模型主要最佳化目標是從“觀測 + 指令”生成機器人動作;而世界模型則增加了對未來的顯式預測/模擬能力,從而可提升規劃能力、場景覆蓋範圍和反事實推理能力。示例: Google Genie、Nvidia Cosmos、1X World Model、Meta V-JEPA 2為什麼它很重要?增強合成資料: 世界模型可以生成或預測額外的訓練場景或世界狀態(如天氣、光照條件等),有助於擴展合成資料流水線,減少對遙運算元據的依賴,並比在現實中收集每一個邊緣案例更快地實現場景覆蓋擴張。規劃質量: 它們增加了“先預測後行動”的能力,這對於長周期人形機器人任務尤為寶貴——因為在這些任務中,動作誤差會累積。動作模型僅將當前觀測對應為下一步動作,而世界模型可以評估在不同動作選擇下接下來可能發生的情況。挑戰:資料需求高 & 計算密集: 訓練世界模型通常需要大規模、長時序的視訊或軌跡資料,以及強大的算力用於生成和 rollout(推演)。“幻覺”問題: 作為生成模型,世界模型本質上也會產生“幻覺”,這是由於長時序中預測誤差累積所致(用預測的狀態去預測下一狀態)、感測器噪聲等原因。它可能生成看似合理但物理上不正確的 rollout(例如物體憑空出現等),這可能會污染策略訓練。未來展望:我們認為,世界模型更可能演變為 VLA / 動作策略的一個互補層,而非替代品。兩者的耦合將越來越呈現閉環形態:世界模型 rollout(合成場景)→ 評分/過濾 → 後訓練資料 → 更強的 VLA;在更先進的系統中,將查詢世界模型以獲取“如果…會怎樣?”的結果 → 選擇短期計畫/子目標 → 由 VLA 執行,同時底層安全控製器確保穩定性。 (萌趣AI小棧)