#指令 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#指令

Claude Code破解3500年前死語言！74年來最大考古語言學突破

【新智元導讀】個業餘語言學家用Claude Code，聲稱破譯了困擾人類70年的古文字——3500年前的線形文字A。408個詞條、40個音值、9頁語法手稿，正在等待劍橋和羅格斯大學專家稽核。 3500年前的密碼，5個月被一個人撬開了。 6月16日，一篇署名Tom Di Mino的文章在AI社區炸開——他聲稱，借助Claude Code編寫的一套Python指令碼，自己完成了對米諾斯文明「線形文字A」（Linear A）的系統性破譯。 408個詞條的詞典。40個音值的確認。一份9頁的語法手稿。

20+ 個值得收藏的 Agent Skills、倉庫與市場

Skill 是編碼智能體中可復用的功能單元。它本質上是一個資料夾，裡面有一套指令集，核心檔案為SKILL.md。你只需教智能體一次如何完成某項任務，之後每當需要時，智能體會自動載入相關指令，無需每次都重複解釋。如果你想深入瞭解背景，建議先讀一讀 Anthropic 的 “為現實世界配備 Agent Skill” 和 Claude Code 的 Skill 文件，這兩份資料是本指南的主要參考。這只是一張人氣分佈圖，並非質量排名。核心觀點：最適合你的 Skill ，往往是你為自己程式碼庫量身定製的。但沒必要從零開始。先安裝一些成熟的框架，瞭解它們的結構，再動手寫自己的 Skill 。以下所有連結都經過實際測試。簡潔版

伊朗導彈炸翻比亞迪，史上最硬核廣告爆了

伊朗導彈不小心給比亞迪拍了支零成本、無指令碼、全實景的廣告，比任何明星代言、投放都管用，堪稱人類商業史上最 “意外行銷”，沒有之一。2026年3月1日，伊朗與以色列衝突升級，一枚導彈砸在耶路撒冷周邊，威力大到路面炸出大坑，周邊車輛非廢即燃，交通牌被掀飛數米。就在這片狼藉中，一輛比亞迪元PLUS（海外版ATTO 3）脫穎而出：它離爆炸點極近，外觀千瘡百孔、車窗全碎、車體嚴重變形，怎麼看都是“車毀人亡”的劇本。但離譜的反轉來了：車門能正常開啟，車身核心結構未塌，新能源汽車最怕的電池熱失控半點沒發生。車內6人僅受傷，全球網友直接看懵，直接刷起“BYD=Build Your Defense”“比亞迪，你造的不是車，是移動安全屋吧？”01這事兒看似巧合，本質是比亞迪藏了多年的技術底氣，被一枚導彈強行曝光，順帶完成了價值百億的免費行銷。要知道，比亞迪海外一次大型廣告動輒上百萬美元，還未必能觸達全球焦點。而這枚導彈分文未花，直接把安全標籤焊死在全球消費者心裡，尤其在中東這種不太平的地方，這份信任背書多少錢都買不來。有人說“只是運氣好，沒炸到要害”，清醒點，戰爭現場沒有運氣，只有實力。那台車是實打實被衝擊波和彈片正面招呼，換做某些“皮薄餡大”的新能源車型，別說電池不炸，車身都能散架，乘員能否生還都是未知數。這背後，是比亞迪最被低估的安全技術——那種“不宣傳、不炒作，但能保命”的硬實力。這台車能扛住導彈衝擊波，靠的是三個實打實的技術。首先是刀片電池，比亞迪吹了好幾年，很多人當是行銷話術。刀片電池最牛的不是續航，是安全閾值離譜。普通三元鋰電池稍受擠壓穿刺就起火爆炸，熱失控快到打不開車門；而刀片電池用磷酸鐵鋰材料，本身不易燃，“刀片”結構既能分散衝擊力，又能阻止熱失控蔓延——說白了，除非直接用導彈炸成粉末，否則它能扛住各種折騰。更關鍵的是，刀片電池早過了針刺、擠壓、模擬爆炸衝擊等魔鬼測試，每一項都拉滿標準。2025年全球新能源汽車起火事故中，62%源於電池熱失控，而比亞迪的起火率一直控制的很低。其次是車身結構。很多車企造新能源，一門心思堆螢幕、堆智能化，把車身當“邊角料”，但比亞迪尤其是海外版車型，簡直按“防爆炸、防碰撞”標準來造。畢竟它深耕中東多年，懂當地消費者既要好開，更要安全。這台元PLUS用比亞迪3.0平台高強度鋼車身，高強度鋼佔比超70%，核心部位是硬度堪比裝甲車的熱成型鋼，籠式結構把乘員和電池牢牢護住，即便車身嚴重變形，核心區域也不會坍塌。還有就是本土化適配。比亞迪在中東賣的車，不是國內車型換標，而是針對性升級：元PLUS海外版加強了車身和電池安全，最佳化了空調、底盤，還針對中東高溫升級了電池散熱。正是這些“量身定製”，讓它能在戰爭現場扛住考驗。02不得不提比亞迪的全球化佈局，這才是意外廣告爆火的底層邏輯。很多人以為它海外只是賣車，實則早已悶聲發大財，尤其在中東市場。公開資訊顯示，比亞迪在中東地區的市場佈局已取得顯著進展，覆蓋海灣六國，門店擴充計畫仍在穩步推行。它不只是找經銷商，還與當地巨頭深度繫結：阿聯合作Al-Futtaim集團，科威特合作Alghanim Industries，雙方的合作關係也已超越單純的經銷商模式。很多車企全球化的致命錯誤，是把國內一套照搬過去，不考慮當地需求，結果水土不服。比亞迪懂入鄉隨俗，中東消費者要高安全就加強車身電池，高溫就最佳化散熱，注重服務就密集佈局服務中心，本土化結合技術硬實力才是它站穩腳跟的關鍵。這起事件，更是中國新能源從性價比內捲走向技術出海的縮影。以前中國車企出海靠便宜，現在比亞迪跳出內卷，靠技術、安全、本土化站穩全球市場。有人吐槽中國新能源“只會堆配置，沒核心技術”，比亞迪用事實打臉：刀片電池、車身結構、動力系統全是自主可控，安全標準甚至超越國際——歐盟2024年新安全法規要求電池碰撞不起火，比亞迪幾年前就實現了“碰撞後電池無熱失控、車門可開啟”，甚至能扛住導彈衝擊波。當然，比亞迪也不完美：海外服務響應速度有待提升，部分車型智能化不如國內，事件後競爭對手也會跟風炒作安全。但不可否認，這枚導彈給它送了“天胡開局”，也給中國新能源出海指了明路：靠性價比只能走一時，靠硬核技術才能走長遠。伊朗導彈擊中比亞迪，看似意外，實則是技術實力和全球化佈局的必然。商業的本質從來不是行銷，而是產品本身。把產品做好、實力練強，那怕沒有廣告代言，運氣也會站在你這邊；反之，行銷再好，產品不行，終究是鏡花水月。比亞迪的好運，從來不是偶然，是多年深耕技術、堅守安全底線的必然回報。 (投資家)

川普麻煩大了！要被全球穆斯林追殺，伊朗宗教領袖發出聖戰指令

就在外界還在消化哈米尼遇襲身亡這一震撼消息的第二天，伊朗宗教界投下了一枚重磅炸彈，99歲的大阿亞圖拉納賽爾·馬卡雷姆·設拉子通過伊朗國家電視台公開宣佈：對美國和以色列發動宗教聖戰！設拉子這個名字對很多人來說可能有些陌生，但他所代表的份量，足以讓川普和納坦雅胡在內的所有美以領導人徹夜難眠，因為在什葉派的世界裡，他的一句話，比十個政府的宣言都管用。那麼問題來了，設拉子到底是什麼來頭？他的聖戰宣言意味著什麼？這一發言將如何影響中東局勢？以及這場宗教戰爭是否會改變戰局走向？（左為大阿亞圖拉納賽爾·馬卡雷姆·設拉子，圖源網路）要理解設拉子的份量，首先需要瞭解什葉派的教士等級體系。在這個體系中，教士的晉陞之路有著嚴格的標準：普通教士→阿亞圖拉→大阿亞圖拉→馬爾賈，馬爾賈就是金字塔的最頂端，全球範圍內獲得這一認可的人屈指可數。設拉子1927年出生於伊朗，在聖城庫姆執教數十年，被視為當代什葉派學界的教科書級人物。他不僅是宗教權威，更直接參與了伊朗革命後第一部憲法的起草，換句話說，他既是宗教法規的制定者，也是國家根本大法的制定者。在伊朗政教合一的體制下，設拉子雖然不擔任具體的行政職務，但在制度設計、國家戰略、對美以立場等重大問題上擁有事實上的絕對的否決權。他的公開表態，尤其是以宗教法令形式發佈的意見，在體制內外都具有極高的約束力。（圖為哈米尼，圖源網路）哈米尼在1989年繼任時甚至還不是大阿亞圖拉，直到1994年才補考通過。而設拉子這些百歲老人，在資歷上遠比哈米尼更深，如今哈米尼死了，設拉子立馬站出來表態，可見川普是徹底惹怒了伊朗宗教界，用中國話說，就像是"殺了掌門，跳出來十幾個太上長老要跟你不死不休"。設拉子的聲明包含以下幾個核心要點：第一，定性。他將美以聯合襲擊定義為"對整個伊斯蘭世界的戰爭，對真主意志的褻瀆"，將一場國家層面的衝突，提升到了宗教戰爭的高度。第二，號召。"聖戰已開始，所有有能力者必須加入抵抗，直至侵略者被徹底擊敗。"這是向全球什葉派信徒發出的動員令。第三，義務。他明確表示，為哈米尼復仇是全世界穆斯林的宗教義務。第四，點名。在教法上，將川普和納坦雅胡歸類為"穆哈里卜"（與真主作戰者）。這個"穆哈里卜"的定性極為關鍵，在伊朗教法體系中，這意味著兩人進入了極刑適用範圍，可以被判處決、斷肢甚至流放。更重要的是，任何有能力的穆斯林對其實施打擊，都可以被解釋為履行宗教義務，而非刑事犯罪。（圖為薩爾曼·拉什迪，圖源網路）這並非伊朗首次發佈此類教令。英國作家拉什迪在1988年出版小說《撒旦詩篇》，在《撒旦詩篇》中，拉什迪創造性地運用了有關伊斯蘭教先知穆罕默德和《古蘭經》的一些故事，被認為是對穆罕默德和伊斯蘭教的影射和褻瀆。小說出版一年後，1989年2月，時任伊朗最高領袖霍梅尼宣佈《撒旦詩篇》褻瀆神明，並對拉什迪發出了追殺令，懸賞150萬美元號召全世界穆斯林追殺拉什迪以及與出版《撒旦詩篇》相關的所有人員，該事件甚至導致伊朗與英國兩國政府斷交。在那之後，拉什迪受到了英國政府全天候的保護，有十年時間，他甚至需要對外保密自己的位置。本以為時間久了大家都忘了，結果沒想到在2022年，當他在美國紐約州參加公開演講時，被一名24歲的穆斯林青年當場連砍十余刀，儘管倖免於難，卻失去了右眼並遭受肝臟重創，襲擊者被捕後在法庭上明確表示自己是在執行那道發佈了33年的宗教政令。如今，川普將隨時可能遭遇來自全球的追殺，儘管在此前，川普本人曾明確表示，一旦遇襲，將對伊朗採取毀滅性打擊。（1989年英國，《撒旦詩篇》被焚燒）聖戰不是隨便喊的，當一個頂級馬爾賈以法特瓦形式發佈號召，意味著接下來的任何報復行動，不管是街頭抗議還是武裝襲擊，都獲得了最高等級的宗教合法性背書。伊朗革命衛隊已經表態"將全力執行宗教領袖的號召"。可以預見，在伊拉克、敘利亞、黎巴嫩、葉門等什葉派武裝活躍的地區，低強度的分散化打擊將會顯著增多。在民族情緒高度激憤的時刻，設拉子率先發聲，渲染復仇情緒，伊朗對美以政策將更難出現明顯妥協。哈米尼在世時，還能平衡各方勢力，如今設拉子站出來，實際上是在行使本該屬於最高領袖的宗教話語權，這也意味著伊朗宗教體系的權力結構正在重構。（圖源路透社）接下來的局勢，可能不再是以色列和伊朗兩個國家之間的博弈，而是整個什葉派網路（約2.5億信徒分佈在中東、中亞、東南亞等地）與美以之間的對抗。什葉派雖然不會直接提供大量兵力，但他們最擅長的是那種猝不及防的斬首行動，這才是最令人防不勝防的。至於川普和納坦雅胡能否在這場聖戰中全身而退，讓我們拭目以待。 (留學生日報)

一個人的好萊塢：Seedance2.0 正在把導演椅發給普通人

凌晨 3 點的義烏小商品城凌晨 3 點，義烏小商品城的燈還亮著。李建國沒有在第 7 次修改拍攝指令碼，也沒有給那個總愛遲到的攝影師打電話。他蹲在倉庫門口，用一張皺巴巴的煙盒紙，隨手畫了幾格分鏡。不是因為他變懶了。而是因為他心裡很清楚——2 月 24 日之後，他再也不需要花 8000 塊請攝影師了。他只需要打開即夢後台，上傳 9 張競品參考圖，敲下一行字：“從窗邊緩緩推進，光影要王家衛風格。”然後等 10 分鐘。這不是一次工具升級，這是一次權力交接。一、技術平權的終極形態從「手藝人」到「思想者」字節剛剛釋放的Seedance 2.0，正在完成影像創作史上規模最大的一次——去技能化。過去，拍視訊是一門典型的手藝活：你得懂 180 度法則你得會調色曲線你得知道什麼時候切特寫、什麼時候拉遠景這些往往需要三年學徒期才能掌握的技能，如今被壓縮成了一個按鈕：9 張參考圖 + 3 段音訊 + 一段自然語言描述→ AI 自動生成從分鏡到成片的完整工作流這意味著什麼？意味著：義烏的小店主，不再需要看攝影師臉色，他自己就是導演縣城寶媽，不必在 PR 時間軸前崩潰，只需“喂”三個參考視訊，就能生成帶情感節拍的親子 vlog那些有好故事卻社恐的編劇，終於可以繞過演員和鏡頭，讓視覺直接為敘事服務當技術門檻被歸零，內容產業的核心競爭力發生了殘酷遷移：從「你會不會用相機」 → 「你有沒有審美」從「你懂不懂剪輯」 → 「你會不會講故事」視覺敘事，第一次從手工業，變成了思想者的遊戲。二、新職業正在出現審美極客與 AI 導演的崛起Seedance 2.0 真正顛覆的，不是某一個崗位，而是創作權的分配方式。2025 年，我們幾乎可以確定一件事：抖音內容供給會指數級爆炸。但這並不等於內卷升級，恰恰相反——這是新物種的出現。第一種人：審美極客他們可能是前廣告公司的美術指導，也可能是小紅書上的視覺收藏家。他們的核心資產不是裝置，而是參考庫：知道那 9 張圖能“喂”出賽博朋克知道一句話怎麼寫，才能復刻《花樣年華》的色調知道如何與 AI 談判美學他們用 Seedance 生產電影級短片，但不再熬夜調色，只花時間做一件事：判斷什麼是“好看”的。第二種人：AI 原生導演他們可能是懂產品卻恐懼鏡頭的帶貨主播，也可能是腦子裡有完整分鏡卻沒錢拍的學生導演。Seedance 2.0 支援多語言唇形同步、音訊驅動表情，這意味著：“表演”和“拍攝”這兩個最昂貴的環節，正在被解耦。你不再需要演員，只需要一個好的提示詞工程；你不再需要片場，只需要一個好的視覺策展人。未來的劇組，可能只有兩個人：一個負責想，一個負責告訴 AI 該怎麼想。三、狂歡背後的算力暗戰當創意爆發撞上物理極限但在這場狂歡背後，有一個被嚴重低估的風險。如果所有視訊模型都按 Seedance 2.0 這個標準卷——支援 54 秒連續鏡頭、多模態輸入、影視級畫質——崩的可能不是影視行業，而是地球的伺服器。當：每個義烏店主都能日更 100 條 4K 視訊每個寶媽都能生成 54 秒電影級 vlog視訊生成進入“工業化批次生產”我們面對的，將是一場算力饑荒。字節敢放出 Seedance 2.0，是因為它背後站著抖音和 TikTok 的分佈式算力基建。但對中小平台來說，這更像是一張——算力軍備競賽的入場券。跟不上，內容生態就會被降級。Seedance 2.0 真正重新定義的，不只是導演，而是：誰，才有資格大規模生產影像。四、給普通人的行動指南如果你現在還在糾結：該買索尼 A7M4 還是佳能 R5——停手。未來三個月，你會看到兩種人迅速分化：一種人還在討論“這相機直出膚色好不好”另一種人已經在建構自己的 AI 導演語言庫他們在做什麼？收集 1000 張參考圖整理 50 套提示詞範本把自己從「操作工」升級為「指揮官」Seedance 2.0 目前仍在測試，2 月 24 日正式開放。這不是一個產品節點，而是一個職業分水嶺。結語：導演椅已經發下來了150 年前，攝影術出現時，畫家恐慌——他們以為繪畫已死。結果，我們迎來了印象派與現代藝術。當技術不再是門檻，人反而更值錢了。Seedance 2.0 把導演椅發給了 14 億人。現在稀缺的，不是技術，而是——你敢不敢坐上去，喊那聲「Action」。只是這一次：你的場記板是鍵盤你的演員是參數你的對手，是另外 14 億個同樣拿著 AI 的人你準備好了嗎？ (混沌的市場)

剛剛！美國國防部，突爆大消息！

美國國防部內部命令突然曝光。據美媒最新爆料，在此前針對加勒比海一艘所謂“運毒船”的軍事打擊行動中，美國國防部長皮特·赫格塞思曾下達了“殺光所有人”（Kill them all）的口頭指令。這一爆料瞬間引發了各方關注與熱議，多名現任及前任美國官員、戰爭法專家的觀點指出，五角大樓的此類致命打擊行動已造成80餘人死亡，此舉涉嫌違法，且可能導致直接參與者面臨未來的法律追責。對此，赫格塞思當地時間28日斥責媒體報導“假新聞”。與此同時，美國總統川普也曝出大動作。據美媒報導，多名知情人士透露稱，川普上周與委內瑞拉總統馬杜羅進行直接電話會談，通話內容包括兩人在美國舉行會晤的可能性。“殺光所有人”11月29日，參考消息援引美國《華盛頓郵報》網站11月28日報導，知情人士透露，9月2日對加勒比海一艘船隻的襲擊是川普政府發起的“打擊西半球販毒嫌疑人”戰爭的第一槍。據報導，負責這次行動的特種作戰指揮官在襲擊中下令實施第二次打擊，以打死兩名倖存者。據兩名直接瞭解此次行動的人士透露，美國國防部長皮特·赫格塞思下達了口頭指令。“命令是殺光所有人（Kill them all）。”其中一人說。據報導，一枚導彈呼嘯著擊中了這艘船，船隻瞬間燃起熊熊大火，火勢從船頭蔓延至船尾。指揮官們通過無人機即時監控目睹了船隻燃燒的景象，大火持續了數分鐘。待煙霧散去，他們震驚地發現：兩名倖存者正緊緊抓著仍在冒煙的殘骸。兩名知情人士透露，負責這次行動的特種作戰指揮官下令實施第二次打擊，以執行赫格塞思的指示。那兩人在水中被炸得粉身碎骨。此前從未報導過的赫格塞思的命令，為打擊毒品走私嫌疑人的行動增加了另一個層面。部分現任和前任美國官員以及戰爭法專家說，五角大樓的致命行動（迄今已造成80多人死亡）是非法的，可能會使那些最直接參與的人未來面臨訴訟。美國喬治敦大學國家安全法項目負責人托德·亨特利說，即使美國已與“毒販”開戰，但如果船上所有人員都已喪失戰鬥能力，那麼下令將其全部殺死，“本質上就是毫不留情的命令，這構成了戰爭罪”。美防長緊急回應據悉，這篇報導是基於對7名瞭解9月2日襲擊和整體行動的人士的採訪和陳述撰寫的。五角大樓首席發言人肖恩·帕內爾拒絕回答有關赫格塞思的命令和其他行動細節的問題。11月29日，環球網援引美國《國會山報》報導，當地時間28日，赫格塞思為美軍近期襲擊摧毀所謂“販毒船隻”的行動辯護，斥責媒體報導“假新聞”。赫格塞思28日在社交平台X上發帖，為美軍摧毀“販毒船隻”的行動辯護，指認有關說法是“假新聞”，“和往常一樣，假新聞媒體又在散佈更多捏造的、具有煽動性和貶損意味的報導。”但他也公開辯稱，相關軍事行動“符合美國法律與國際法”，並強硬預告“打擊毒品恐怖分子的行動才剛剛開始”。《華盛頓郵報》解讀認為，其言論相當於間接承認了曾下令“不留活口”的爆料。9月初以來，美軍已在加勒比海和東太平洋擊沉超過20艘美方指稱的“販毒船”，造成80餘人死亡。《國會山報》報導稱，美軍打擊行動持續引發兩黨內部的強烈反應，不少人對行動合法性提出質疑。川普的最新動作11月29日，據新華社消息，美國媒體28日披露稱，川普上周與委內瑞拉總統馬杜羅通電話，通話內容包括兩人在美國舉行會晤的可能性。白宮和委內瑞拉方面暫未證實這一報導。《紐約時報》28日援引多名匿名知情人士的話報導說，此次通話的具體時間為上周晚些時候。報導還說，眼下雙方暫無會晤的具體計畫。美國媒體本周早些時候放出風聲稱，川普暫不打算對委內瑞拉動武，希望和馬杜羅直接談判。美國阿克西奧斯新聞網站援引多名美國官員的話報導，川普告訴他的一些顧問，打算與馬杜羅直接對話。這一想法目前“處於計畫階段”，日期未定，不清楚川普打算討論那些事項。一名熟悉情況的美國官員說：“目前沒有人計畫進入（委內瑞拉）向他（馬杜羅）開槍或抓捕他。我不會說永遠不會這樣，但這不是目前的計畫。”川普此前就曾表示願意“在某個時候”與馬杜羅對話。《紐約時報》23日報導，川普尚未決定如何對委實施下一階段軍事行動，可能方案包括在委實施破壞活動或進行網路戰、心理戰、資訊戰。阿克西奧斯新聞網站援引美方官員的話報導，上周以來，川普已經決定與馬杜羅直接對話，“關於對話的討論更多，關於轟炸的討論更少”，這是川普對委內瑞拉展開“炮艦外交”的一個重要節點。《紐約時報》評論稱，此次通話最終將如何影響美國對馬杜羅的政策，目前尚難定論。畢竟川普在與對手打交道時向來有“雙線操作”的傳統：一邊展開談判，一邊持續施加武力威脅。 (券商中國)

世界模型，大語言模型之後的第二場革命

“大語言模型是基礎，世界模型是途徑，自主智能才是AI的終極奧義。在過去兩年裡，大語言模型（LLM）在語言理解、文字生成、推理、指令執行等方向取得突破，使AI在理解語義層面變得越來越可靠。然而，語言智能只是通向通用智能的一環。要讓AI在懂語言的基礎上，去理解真正的世界，就必須讓它理解環境、感知動態、在環境中做出行動判斷。這其中的關鍵，就是世界模型（World Model）。世界模型的核心是讓AI內部建構一個可互動的世界，要理解物理規則、模擬未來狀態、預測動作結果。實現從靜態圖像、視訊生成，逐步走向多模態、帶動作控制的視覺語言動作模型（VLA，Vision-Language-Action）。從OpenAI的Sora（文字→視訊世界模擬）到DeepMind的Genie（可互動世界生成），從Meta的V-JEPA 2（視覺自監督世界模型）到特斯拉在自動駕駛系統中隱含的世界意識探索，乃至國內諸如華為ADS等智駕系統，這些案例都表明世界模型正成為AI Agent化路徑上的關鍵支點。可以預見，未來的AI Agent很可能是“LLM+世界模型+執行動作層”的三層協同結構。理解這一趨勢，對我們判斷產業方向、技術路線、戰略佈局至關重要。從語言到世界：AI理解的邊界在延伸如果說大語言模型讓AI學會了理解語言，那麼世界模型的出現，則意味著AI開始嘗試理解世界。在人工智慧研究的脈絡中，“世界模型”（World Model）並不是一個全新的概念。早在2018年，Google大腦研究科學家David Ha與瑞士AI實驗室IDSIA負責人Jürgen Schmidhuber在經典論文《World Models》中提出，智能體要想高效學習，就必須在大腦中建構世界的內部模型。這種模型能夠通過感知輸入，去預測外部世界在未來的變化，在內部“想像”出一系列可能的結果，從而據此選擇行動。智能體包含緊密相連的三個模組：視覺 (V)、記憶 (M) 和控製器 (C)（來自World Models）彼時，世界模型還主要服務於強化學習領域，用於在遊戲或模擬環境中幫助智能體做規劃與決策。隨著算力的提升和多模態學習的成熟，世界模型的內涵被重新定義，從在模擬環境裡學習，演進為讓AI自己生成並理解環境。比如GoogleDeepMind在Dreamer系列工作中，讓智能體能夠在潛在空間（latent）中對未來進行滾動預測（roll-out），從而無需真實環境就能完成策略最佳化。這種思路，被視為世界模型的早期成熟版本，也讓預測未來成為機器學習的新邊界。而真正讓世界模型走出學術圈，成為AI產業熱詞，是視訊生成技術的突破。2024年2月15日，OpenAI發佈Sora模型，並在官方論文中首次明確提出，視訊生成模型正在成為世界模擬器（world simulator）。Sora不僅能生成語義上合理的視訊，還能在物理規律、光影運動、空間連續性等層面維持一致性，讓AI演繹世界成為可能。Sora2幾乎在同一時間，Meta發佈視覺自監督模型 V-JEPA（Visual Joint Embedding Predictive Architecture）。這是由Yann LeCun團隊主導的項目，旨在讓AI通過預測視覺序列中的時空變化，在潛在空間中理解世界的結構與規律。與生成式模型不同，V-JEPA不直接生成圖像，而是學習世界的抽象表徵，這是Meta首次在視覺領域明確提出建構世界模型的研究方向。僅在那十餘天後，DeepMind發佈了Genie模型。與Sora不同，Genie並不是單純的視訊生成器，而是一個“可玩世界”的生成模型，可以從普通視訊素材中學習環境規律，並生成可即時互動的二維遊戲場景。使用者可以控制角色在生成的世界中移動、碰撞、跳躍，這種“生成—互動—反饋”的閉環，被認為是世界模型從被動感知邁向主動參與的重要一步。Sora、V-JEPA與Genie，分別代表了世界模型演化的三個方向，生成世界、理解世界、參與世界。三者幾乎出現在同一時間節點，共同組成了世界模型認知層面的突破。而另一條更具現實意義的路徑，則來自執行層面的落地。自2023年底起，特斯拉在其自動駕駛系統FSD（Full Self-Driving）中推行端到端神經網路架構，從感知到規劃再到控制，全部由統一模型完成。馬斯克將FSD V12稱為世界模型驅動的駕駛系統，因為車輛已不依賴高精地圖或人工編碼規則，而是通過多攝影機視訊流在內部重建外部環境，並即時預測交通參與者的行為。今年上半年推出的FSD V13進一步加入時序記憶與多模態預測，使這一世界模型式駕駛的雛形更趨完整。而在國內，這樣的探索思路也幾乎同步落地。比如華為在2024年4月發佈ADS 3.0（乾崑），以去高精地圖與世界建模感知為核心，依託多源感測重建動態場景；小鵬在2024年5月公佈XPlanner（規劃與控制大模型），與感知網路XNet、車載大模型XBrain組成端到端量產棧，將長時序預測引入軌跡規劃；百度Apollo則在同月推出ADFM自動駕駛基礎模型，並搭載到第六代 Robotaxi。這些系統共同指向一個趨勢，世界模型正在從虛擬場景走向真實世界，從“認知世界”轉向“執行世界”。如果說Sora、V-JEPA、Genie們建構的是AI的感知與想像層，那麼FSD、ADS、XPlanner、Apollo們則建構了AI的行動與落地層。前者是通往通用智能的基礎，後者則是將智能具象化的通道。中美雙極：世界模型競賽的兩種路徑如今，世界模型已經成為全球AI競爭的新焦點。其中，最具代表性的當屬中美之間的競爭。這場看似關於演算法的較量，背後卻是認知方式與產業邏輯的分歧，也正因為這種分歧，中美兩國正走在兩條不同的路徑上。前文說過，在美國，OpenAI、DeepMind、Google、Meta、Anthropic五大巨頭構成了最具體系化的“世界建模陣營”。它們的共同特徵是，從語言模型出發，沿著認知—生成—具身（Embodied）的路線，把AI從語言理解延伸到物理模擬。今年9月，Sora 2登場，不僅整合了音視訊統一建模和動態光照控制，還新增 “Cameo”功能，讓使用者可以直接把自己嵌入生成的世界中。今年8月，DeepMind發佈Genie 3，允許從自然語言直接生成三維、可操作的虛擬世界，使用者能即時控制角色，與環境互動並觀察反饋。今年6月，Meta V-JEPA 2以自監督方式讓AI理解視訊中的時序與動力規律，成為世界模型“視覺直覺”的雛形。它不依賴標籤資料，而是通過預測畫面未來幀的方式，逼近人類感知世界的方式。與此同時，儘管Google Gemini 2.5 Pro與Anthropic Claude 4.5不算嚴格意義上的世界模型，但它們都在讓語言模型具備理解世界的能力，前者通過多模態語義建模理解現實邏輯，後者通過隱式因果推理保持認知一致性。以此可見，美國的研究體系已經形成了完整的認知鏈條，從理解語言、預測視覺變化到生成並模擬世界。而在中國，世界模型的側重方向更貼近執行層面。從智能駕駛到行業智能體，再到具身機器人，國內企業更關注AI在真實物理環境中的可感知、可預測與可執行性。可以說，中國企業更看重系統整合與工程落地。智能駕駛之外，國內世界模型的思想和策略也正在進入更多行業場景。比如華為盤古大模型引入物理建模框架，將世界模型理念應用到氣象預測、製造、製藥等工業領域；百度文心在視訊理解和數字人互動中融入動態世界建模機制，此類案例非常多，這裡就不一一展開。更具代表性的，是中國在具身智能方向的系統化突破。過去一年，宇樹、優必選、傅利葉、小米等公司，陸續推出新一代人形與四足機器人，讓世界模型從演算法概念真正落地到機器身體。比如宇樹發佈的R1人形機器人，支援圖像與語音多模態融合，可進行動態行走與互動；優必選 Walker S2具備靈巧雙臂與自主換電功能，更貼近工業執行場景；傅利葉推出可遙操作的GR-3C人形機器人版本，可用於康復與人機協作；從智能駕駛，到智慧型手機器人，中國的AI正在推動世界模型從虛擬走向物理，從演算法走向具身。中美世界模型生態邏輯對比：當然，這種解讀僅限於生態偏重，不涉及能力邊界。美國並非只有認知與生成。以特斯拉、Figure AI、Boston Dynamics為代表的企業，已經在建構具身智能與自動駕駛的世界建模系統建立一定優勢。國內也不止於感知與執行。萬相、可靈等視訊生成模型，也在建構中國版的“視覺世界模擬器”。儘管中美兩國為代表的世界模型演變生態邏輯不同，但從更長的技術周期看，這種分野正逐漸進化為互補關係。世界模型的最終方向，肯定不是生成完美的視訊，也不是控制一輛汽車，而是打通“理解—預測—行動”的完整閉環。從這個層面來說，中美兩國正共同建構通向通用智能的現實路徑。AI的下一個臨界點：世界模型接管智能體過去十年，AI的每一次躍遷都源自輸入方式的變革：文字帶來了語言智能，圖像催生了視覺智能，而如今，世界模型正在讓AI理解現實世界，一個有時間、有空間、有因果的動態系統。這正是世界模型的核心價值，它讓AI獲得了具身智能（Embodied Intelligence）的基礎。在過去的一年中，具身智能已經成為全球AI研究的共識。如OpenAI投資的Figure AI，正在以GPT系列模型驅動人形機器人的決策系統；特斯拉的FSD與Optimus，分別在道路和工廠場景中驗證世界模型驅動的閉環控制；中國的機器人企業也在讓模型直接掌控感測器與電機，使演算法真正落地到身體。這種趨勢背後，AI正在經歷一場從虛擬智能到物理智能的轉變。在虛擬世界中，它生成一段視訊或一段話，而在物理世界中，它必須理解摩擦力、時間延遲和人的意圖。可以預見，未來的智能體將是一個多層協作系統：上層的大語言模型負責目標規劃與邏輯推理，中層的世界模型負責環境建模與因果預測，底層的執行系統則負責感知、行動與反饋。當這三層閉合，AI才真正擁有“意圖—計畫—行動”的完整循環，這正是通用智能的現實路徑。再往前一步，便是AI的終極奧義——自主智能（Autonomous Intelligence）。一旦AI能在內部模擬世界、預測變化並根據反饋修正決策，它就不再只是生成內容、執行動作，甚至可能思考如何存在。這意味著，AI將具備一種內在的驅動力：能根據環境變化自主設定目標、規劃路徑、評估後果、修正策略。這種能力不再依賴外部指令，而是建立在長期記憶、世界建模與價值函數的協同基礎之上。可以說，自主智能是AI自我意識的一種雛形，即不以人類輸入為中心，而以世界模型為認知坐標系，主動發現問題、驗證假設、最佳化自身。智能的定義，也將被徹底改寫。挑戰與啟示：從概唸到產業化仍有距離當然，這是最順暢的路徑。事實上，每一次智能的躍遷，都伴隨著新的複雜性與不確定性。首先，是技術和生態層面的挑戰。與語言模型不同，世界模型必須同時理解文字、圖像、視訊、語音、動作等多模態資訊。資料維度暴漲、推理鏈條加深、模型參數呈指數級增長，對算力、能耗與資料質量提出了前所未有的要求。Sora等級的視訊生成模型都需要巨量GPU支撐，而具身智能又要求在端側實現即時計算，其中的複雜性將考驗當下的算力極限。同時，世界模型也缺乏跨平台協同的工程體系配套。目前而言，世界模型沒有標準，缺乏統一的訓練語料、可比的評價指標與公共實驗平台，企業往往各自為戰。如果無法實現跨模型的可驗證性與可復用性，世界模型的生態就很難真正形成規模化創新。其次，是認知層面的挑戰。世界模型的強大之處，在於它可以在內部推演與預測，但這也讓它的決策過程愈發難以被人類理解。試想一下，當一個模型能在潛在空間中模擬成千上萬種結果時，我們還能否追蹤它的決策邏輯？從自動駕駛的責任歸屬，到自主智能之間，有沒有可能產生長期目標漂移（Goal Drift）？進而延伸出AI的目標是否仍與人類一致的問題。一旦AI從被動執行轉為主動學習，安全與倫理的議題，也隨之從技術層面上升到價值層面。接下來，是產業和倫理層面的挑戰。世界模型的進一步發展，勢必重新定義產業邊界。AI不僅可能重構交通、製造、醫療、金融等領域的決策體系，也將催動演算法主權、智能監管等制度議題。中美雖然在路徑上各有偏重，美國憑藉資本與開放生態快速試錯，中國依託產業鏈協同推進落地，但雙方都面臨同一問題，當世界模型真正嵌入社會運行系統，它將以何種規則參與人類世界？就目前而言，世界模型所依託的世界，仍建立在人類提供的語料、規則與經驗上。但AI進化下，人類需要持續地在技術、倫理與治理層面為智能設定邊界，這會是一項長期的考驗。總之，世界模型是演算法從符號空間步入物理現實的通道。大語言模型建構了AI的語義基礎，世界模型打開了AI的行動途徑，目標是智能的真正落地。可以肯定的是，世界模型的意義，絕對不是讓AI更像人，而是讓人類在AI的協同下，走向更遠的未來。 (資料猿)

阿里深夜幹了件大事，成本暴降90%！

32B尺寸比肩235B性能，兩大新模型已開源。智東西9月12日報導，今天凌晨，阿里通義實驗室正式發佈下一代基礎模型架構Qwen3-Next，並訓練了基於該架構的Qwen3-Next-80B-A3B-Base模型，該模型擁有800億個參數，僅啟動30億個參數。Base模型在Qwen3預訓練資料的子集上訓練，包含15T tokens訓練資料，僅需Qwen3-32B 9.3%的GPU計算資源，針對超過32k的上下文，推理吞吐量可達到Qwen3-32B的10倍以上。同時，基於Base模型，阿里開源了Qwen3-Next-80B-A3B的指令模型（Instruct）和思維模型（Thinking），模型支援原生262144個token上下文長度，可擴展至1010000個token。其中，Qwen3-Next-80B-A3B-Instruct僅支援指令（非思考）模式，其輸出中不生成<think></think>塊；Qwen3-Next-80B-A3B-Thinking僅支援思考模式，為了強制模型進行思考，默認聊天範本自動包含<think>。指令模型的性能表現與參數規模更大的Qwen3-235B-A22B-Instruct-2507相當，思維模型優於Google閉源模型Gemini-2.5-Flash-Thinking。▲指令模型測試基準▲思維模型測試基準在架構升級方面，相比阿里4月底的Qwen3 MoE模型，新增了混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化，以及提升推理效率的多Token預測（MTP）機制等。新模型已在魔搭社區和Hugging Face開源，開發者也可通過Qwen Chat或阿里雲百煉、NVIDIA API Catalog體驗Qwen3-Next。開發者在Qwen的X評論區稱讚其新增的多Token預測（MTP）機制，稱這是最令人印象深刻的部分。Qwen Chat地址：https://chat.qwen.aiHugging Face地址：https://huggingface.co/collections/Qwen/qwen3-next-68c25fd6838e585db8eeea9d魔搭社區：https://modelscope.cn/collections/Qwen3-Next-c314f23bd0264a阿里雲百煉：https://bailian.console.aliyun.com/?tab=model#/model-market/detail/qwen3?modelGroup=qwen301.指令模型接近235B旗艦模型思維模型超Gemini-2.5總的來看在性能方面，指令模型接近阿里參數規模235B的旗艦模型，思維模型表現優於Gemini-2.5-Flash-Thinking。其基座模型為Qwen3-Next-80B-A3B-Base，僅使用1/10的Non-Embedding啟動參數，在大多數基準測試中，性能表現與Qwen3-32B-Base相近。但其總訓練成本為Qwen3-32B-Base的10%不到。得益於其新的混合模型架構，Qwen3-Next在推理效率方面，與Qwen3-32B相比，Qwen3-Next-80B-A3B在預填充（prefill）階段，在4k tokens的上下文長度下，吞吐量接近前者的7倍，當上下文長度超過32k時，吞吐量提升達到10倍以上。在解碼（decode）階段，該模型在4k上下文下實現近4倍的吞吐量提升，在超過32k的長上下文場景中能保持10倍以上的吞吐優勢。具體來看，其指令模型表現優於Qwen3-30B-A3B-Instruct-2507和Qwen3-32B-Non-thinking，並取得了幾乎與參數規模更大的Qwen3-235B-A22B-Instruct-2507模型相近的結果。只有在面向大模型的綜合性評測基準、高難度數學推理基準AIME25中，指令模型的表現略遜色於Qwen3-235B-A22B-Instruct-2507，在程式設計、複雜問答與長對話的評測中表現更好。Qwen3-Next-80B-A3B-Instruct在RULER上所有長度的表現明顯優於層數相同、注意力層數更多的Qwen3-30B-A3B-Instruct-2507，甚至在256k範圍內都超過了層數更多的Qwen3-235B-A22B-Instruct-2507。思維模型的表現優於預訓練成本更高的Qwen3-30B-A3B-Thinking-2507、Qwen3-32B-thinking，全面超過Google的閉源模型Gemini-2.5-Flash-Thinking，並在部分指標上接近阿里最新旗艦模型Qwen3-235B-A22B-Thinking-2507。02.混合注意力、MoE、穩定最佳化多Token預測加持研究人員在部落格中提到，Qwen3-Next是針對大模型在上下文長度和總參數兩方面不斷擴展的未來趨勢而設計。Qwen3-Next採用的是Qwen3 36T預訓練語料的均勻採樣子集，包含15T tokens的訓練資料，其訓練所消耗的GPU Hours不到Qwen3-30A-3B的80%；與Qwen3-32B相比，僅需9.3%的GPU計算資源，即可實現更優的模型性能。這一模型結構相較其4月底推出的Qwen3的MoE模型，新增了多種新技術並進行了核心改進，包括混合注意力機制、高稀疏度MoE結構、一系列訓練穩定友好的最佳化，以及提升推理效率的多Token預測（MTP）機制等。混合注意力機制：用Gated DeltaNet（線性注意力）和Gated Attention（門控注意力）的組合替換標準注意力，實現超長上下文長度的有效上下文建模。研究人員發現Gated DeltaNet相比常用的滑動窗口注意力（Sliding Window Attention）和Mamba2有更強的上下文學習能力, 並在3:1的混合比例下，即75%層使用Gated DeltaNet，25%層保留標準注意力，能一致超過超越單一架構，實現性能與效率的雙重最佳化。同時在保留的標準注意力中，研究人員進一步引入多項增強設計，包括沿用先前工作的輸出門控機制，緩解注意力中的低秩問題，將單個注意力頭維度從128擴展至256，僅對注意力頭前25%的位置維度加入旋轉位置編碼，提高長度外推效果。高稀疏度混合專家（MoE）：在MoE層中實現極低的啟動比率，大幅減少每個token的FLOPS，同時保留模型容量。研究人員的實驗表明，在使用全域負載平衡後，當啟動專家固定時，持續增加專家總參數可帶來訓練loss的穩定下降。此前，Qwen3系列的MoE專家啟動比約為1比16，Qwen3-Next實現了1比50的啟動比。穩定性最佳化：包括零中心化和權重衰減LayerNorm等技術，以及其他增強穩定性以實現魯棒的預訓練和後訓練。研究人員發現，注意力輸出門控機制能消除注意力池與極大啟動等現象，保證模型各部分的數值穩定。多Token預測（MTP）：提升預訓練模型性能並加速推理，Qwen3-Next特別最佳化了MTP多步推理性能，通過訓練推理一致的多步訓練，進一步提高了實用場景下的投機採樣（Speculative Decoding）接受率。03.結語：3B啟動參數對標旗艦模型！阿里憑架構創新為模型降本提速Qwen3-Next的突破點在於同時實現了大規模參數容量、低啟動開銷、長上下文處理與平行推理加速。此外結合注意力機制、MoE設計等方面的多項架構創新，阿里通義此次實現僅啟動3B參數模型就能對標規模更大模型的性能，使得模型在性能與效率之間找到更佳平衡點，同時為降低模型訓練、推理成本提供了有效路徑。研究人員在部落格提到，未來他們將持續最佳化這一架構並開發Qwen3.5。與此同時近期阿里通義已經推出數個不同領域的模型，如超兆參數的Qwen3-Max-Preview、文生圖及編輯模型Qwen-Image-edit、語音識別模型Qwen3-ASR-Flash等。隨著其多領域模型的持續落地與開源，阿里通義在開源社區的技術影響力正逐步增強。 (智東西)