#小模型 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#小模型

首個龍蝦大模型排行榜來了！兩個中國國產 AI 殺進全球前三，養蝦前必看

你現在養了幾隻龍蝦？這就是現在打招呼最常見的問題，上周騰訊深圳總部排起龍等著免費裝 OpenClaw，真是一代人有一代人的雞蛋。連黃仁勳也盛讚 OpenClaw 為「有史以來最重要的軟體發佈」，認為它已經證明了 AI 在高度個性化環境中，能夠完美復刻人類的複雜工作流。養龍蝦太過火爆，也終於出現專門針對 OpenClaw 的基準測試 PinchBench，用於評估大語言模型在 OpenClaw 任務中的表現。PinchBench 評分方式也很硬核，有的任務看程式碼能不能跑通（自動化檢查），有的看寫得好不好（Claude Opus 當評委），還有的是兩者結合。所有題目和答案都開源在 GitHub 上，誰都可以去驗貨。今天，OpenClaw 創始人 Peter Steinberger 分享這個龍蝦基準測試排行榜。PinchBench 一口氣測了 32 款主流大模型，從成功率、速度、費用三個維度，看看那個模型最適合養龍蝦。PinchBench 官網🔗 https://pinchbench.com/Gemini 3 Flash 成功率最高，中國國產模型也殺瘋了來看最重磅的成功率排名。Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率奪冠，這個成績說實話讓我有點意外。因為 Flash 系列一直是 Gemini 的「輕量版」，主打快和便宜，沒想到這次在精準率上直接把自家 Pro 老大哥和 Claude、GPT 系列全超了。這說明Google 在模型效率最佳化上是真的下了功夫。輕量模型不代表能力弱，關鍵看怎麼調。Gemini 3.1 Flash-Lite 更多介紹可以查看 APPSO 推文：剛剛，GPT-5.3 新模型撞車 Gemini，OpenClaw：謝謝你們第二名是 MiniMax M2.1，成功率 93.6%。中國國產模型真的站起來了，MiniMax 的表現相當亮眼，成功壓過了 Claude Sonnet 4.5（92.7%）和 GPT-4o（85.2%）。Kimi K2.5 緊隨其後，成功率 93.4%。Kimi 的長文字能力一直很強，這次在程式設計任務上也證明了自己。和 MiniMax 一起，中國國產雙雄直接佔據了 TOP3 的兩個席位。再往後看，Claude Sonnet 4.5 排第四（92.7%），Gemini 3 Pro 第五（91.7%），Claude Haiku 4.5 第六（90.8%）。有意思的是，Claude Opus 4.6 作為 Anthropic 的旗艦大模型，成功率只有 90.6%，排在第七。看來「大」不一定「強」，至少在程式設計這個場景下，中端模型反而更香。唯快不破，MiniMax 贏麻了在開發這些重度任務中，誰都不想對著螢幕乾等。速度接影響幹活的心情。MiniMax M2.5 以 105.96 秒的成績拿下速度冠軍，完成全部測試任務。什麼概念？比第二名 Gemini 2.0 Flash 只快了 0.09 秒，但第一就是第一。第三名 Llama 3.1 70B（106.14 秒）、第四名 Gemini 1.5 Pro（106.85 秒）、第五名 Mistral Large（107.72 秒）——這幾個差距都不大，基本在同一梯隊。但往下看就有意思了。Claude Sonnet 4 用了 137.66 秒，比第一梯隊慢了 30 秒。Gemini 3 Pro 更是用了 239.55 秒，是 MiniMax M2.5 的兩倍多。這說明一個規律：輕量級模型普遍更快。如果你做的是快速原型開發、需要頻繁迭代，選輕量模型準沒錯。但如果是那種「跑一遍就行」的任務，等等大模型也無妨。怎麼養龍蝦最划算養龍蝦，精打細算很重要，畢竟很多OpenClaw 任務都是 Token 無底洞，稍不留神就能讓你懷疑人生。GPT-5 Nano 以 0.03 美元的成本成為全場最便宜的選擇，成功率 85.8%。雖然精準率不算頂尖，但這個價格……還要什麼自行車？適合預算有限、對錯誤容忍度高的場景。Gemini 2.5 Flash Lite 排第二，只要 0.05 美元，成功率 83.2%。這個性價比就很能打了——成本是 GPT-5 Nano 的不到兩倍，成功率只低了 2.6 個百分點。MiniMax M2.1 排第五，成本 0.14 美元，但別忘了它的成功率是 93.6%。算下來每百分點的成本只有 0.0015 美元，性價比極高。再看高端模型的成本，就有點觸目驚心了。Claude Opus 4.6 完成測試要花 5.89 美元，是 GPT-5 Nano 的將近 200 倍。但它的成功率只有 90.6%，比 MiniMax M2.1 還低了 3 個百分點。這帳怎麼算都不划算。除非你對 Claude 有特殊的品牌信仰，否則從純性價比角度，中端模型顯然是更理性的選擇。🦞龍蝦養殖怎麼選看完三個維度的榜單，相信你已經有了自己的判斷。這裡 APPSO 再給大家幾個場景化的建議：🏆 如果你追求成功率，無腦選 Gemini 3 Flash95.1% 的成功率 + 0.72 美元的成本，目前綜合表現最優。適合對程式碼質量要求高的生產環境，出錯的代價遠大於模型成本的時候，選它準沒錯。⚡ 如果你追求速度，選 MiniMax M2.5 或 Gemini 2.0 Flash都在 106 秒左右完成全部任務，適合快速原型開發、需要頻繁迭代的場景。時間就是金錢，這倆能幫你省下不少耐心。💰 如果你追求性價比，選 Gemini 2.5 Flash Lite0.05 美元的成本，83.2% 的成功率，是入門「養龍蝦」的最佳選擇。個人項目、小團隊、預算有限的場景，閉眼入。🇨🇳 如果想少折騰傾向中國國產模型，MiniMax M2.1 和 Kimi K2.5 都很能打MiniMax M2.1 成功率 93.6% 排第二，Kimi K2.5 成功率 93.4% 排第三，兩款中國國產模型都已經躋身第一梯隊。而且 MiniMax 的速度還是冠軍，性價比也極高，值得重點關注。從這次 PinchBench 的榜單可以看出，Agent 已經進入了「百花齊放」的時代。Google 的 Gemini 系列在效率和成本上全面領先，中國國產模型 MiniMax 和 Kimi 緊隨其後，OpenAI 和 Anthropic 則在高端市場保持競爭力。對於開發者來說，好消息是選擇越來越多了。壞消息是……選擇困難症可能更嚴重了。但沒關係，記住一個原則：沒有最好的模型，只有最適合你場景的模型。生產環境看成功率，原型開發看速度，個人項目看性價比，按需選擇就好。而且，APPSO 也想特別提醒大家，安裝 OpenClaw 或許不用花費什麼成本，但「養龍蝦」消耗的 Token ，可比過去我們和 AI 對話要多得多。前幾天 OpenClaw 在紐約辦的聚會上不少使用者分享自己的龍蝦養殖心得，有人每個月在 Token上的花費高達1000-2000美元，更有一位「土豪」玩家每天燒掉 10 億 tokens，沒有信仰可禁不起這麼燒錢。嘗鮮 OpenClaw 可以，但它其實並不適合所有人，目前有很多任務用龍蝦也並非最優解，更大的意義是可以感受 AI 帶來全新的互動體驗。 (APPSO)

OpenAI和輝達，終究還是到了這一步｜AGI焦點

AI頂流們正在加緊“梭哈”晶片。Meta、OpenAI和Anthropic等公司今年以來已簽下了數千億美元訂單。憑此賺得盆滿缽滿的，自然還是“賣鏟人”。在本周ASIC晶片龍頭博通公佈的財報中，一季度（2025年11月至2026年1月）AI半導體收入84億美元，同比大漲106%；Q2預期環比再漲27%達107億美元，同比將暴增143%。此前，輝達的業績更是炸裂，公司同期總營收已達681億美元，同比增長73%，新財季營收預期更是增至780億美元，預計同比增長77%。核心指標全都大幅刷新紀錄。這些公司的掌舵者也對未來一致樂觀。博通CEO陳福陽說，明年，公司光AI晶片營收就能超過1000億美元，比上個財年的公司總營收還高出至少五成。輝達CEO黃仁勳說，在截至2026年底的五個季度中，公司主力晶片Blackwell和下一代晶片Rubin的訂單至少有5000億美元，這個數字是輝達此前年收入的兩倍還多。表面上看，“狂飆突進”仍在加速，甚至每一次破紀錄都像是新的指數級增長曲線的起點。但在風光背後，從晶片到雲，從大模型到應用，一系列技術、產業與社會的變化正在發生，某種約束已若隱若現：Scaling Law（縮放定律）和通用GPU多年來的統治地位受到挑戰，雲廠商巨額Capex（資本開支）的驗證時間窗口縮小，“定製化”和“個性化”等分佈式需求愈發吃重，讓集中式的迅猛增長有落潮之虞。一邊狂賺千億，一邊“友誼破裂”作為AI大模型時代並駕齊驅的造浪者，今年以來，輝達與OpenAI之間的關係明顯鬆動。年初，媒體爆出輝達不滿OpenAI的商業策略，欲大幅削減投資。此後，又有消息稱，OpenAI對輝達最新晶片在推理環節的表現不滿，會繼續探索替代方案。傳言難以證實，但輝達在OpenAI新一輪融資中出資300億美元，相較此前的千億美元投資方案明顯縮水。在3月4日的摩根士丹利TMT會議上，黃仁勳親口表示，這次投資“可能是最後一次”，去年11月被他稱為“一代人僅有一次機會”的千億美元合作大機率會不了了之。為什麼會突然發生這樣的轉變？背後有些行業趨勢值得探討。首先是，Scaling Law和GPU性能提升飛輪，已有觸頂跡象。電腦科學家伊利亞·蘇茨維克（Ilya Sutskever）已表示，此前Scaling Law能夠主導大模型發展，是因為預訓練的道路走通了。誰的大模型喂得越飽，就顯得越聰明。但隨著大模型領域競爭白熱化，高品質、結構化的公開資料實際上已被吃盡。光有算力不足以支撐這條路走到頭。業界對Scaling Law的未來，有很多討論，比如轉向後訓練，轉向推理時擴展，或者改進Transformer核心架構。但拆解這些方法，其關鍵詞多與“提升效能”、“合理分配算力”和“特定領域針對性最佳化”相關聯，實際上，也意味著預訓練階段的性能躍遷不會再現。GPU面臨的境況是相似的。在Scaling Law時代，成熟度高、通用性和靈活性強、適合大規模平行運算的GPU，無疑是大模型的最佳搭檔。其性能在近十年間飛速進化，是大模型能力提升和規模化復刻的重要動力。所以，儘管輝達產品售價極高，毛利率常年在75%左右，還是屢屢供不應求。半導體行業知名研究機構SemiAnalysis分析稱，晶片領域先進製程的演進速度已明顯放緩，典型案例是台積電3nm帶來的性能增幅與成本增加已不成正比。全球計算聯盟GCC資料也顯示，摩爾定律放緩正導致AI晶片性能增幅下滑，2018-2022年間，AI晶片性能年均提升50%，到2023-2025年已降至20%以下（未計入尚未量產投入市場的新一代產品）。而就在2025年，追求特定場景下更極致的性能，功耗更低、體積更小、量產後成本更優的定製化AISC晶片強勢崛起。以GoogleTPU的市場良好反饋為標誌，其市佔比開始向GPU發起挑戰。而包括Meta、亞馬遜、微軟乃至OpenAI等都在加緊自研AISC晶片，2026年預計就將迎來量產和商業化的集中爆發期。資料來源：各公司官網、野村證券、公開報導；作者製表這條技術多元化路線的核心，又是“定製化”“高效能”“低延遲”和“性價比”，實際就是通用硬體效率狂飆的階段已經落幕。從這個視角再來看，OpenAI與輝達之間隱現的“友誼裂痕”，所謂不滿晶片推理表現，是因為GPU不再能通過“暴力破局”來“包打天下”。而所謂對商業策略有疑義，則是在大模型能力“無限增長”故事講不下去後，希望確證能有可觀商業回報維持其需求的穩定。是誰在給輝達們“潑冷水”？當然，性能增幅放緩絕不意味著需求會驟降，反而可能推動更加平穩、持續的增長。而在2025年“DeepSeek衝擊波”中，描述效率最佳化往往導致消耗總量增加的“傑文斯悖論”也屢被提及。不過，前提是盡快切換到更加“細水長流”的發展模式，而目前AI產業的慣性動能，卻與此存在一定錯位。最核心的，是拚命壓縮時間周期可能帶來的系統性病灶。早期以GPU為主的AI晶片，迭代周期約為18-24個月。隨著AI熱潮來臨，需求方競爭壓力加劇，對迭代速度的渴求愈發極端，這讓輝達和Google等將晶片迭代周期壓縮到“年更”。但即使這樣還是不夠。目前，頂尖大模型基本每三個月就要迭代一次。SemiAnalysis創始人迪倫·帕特爾（Dylan Patel）此前在參與The MAD Podcast with Matt Turck播客節目時表示，即使晶片廠商將迭代周期壓縮到半年，也無法很好適配模型進步的速度，也難言確保自身優勢。即使晶片和模型的性能增幅雙雙放緩，這種“賽跑”也未見稍顯的跡象。而考慮到前文提到的製程、技術演進等方面的瓶頸，以及美國能源供給方面愈發緊迫的硬性約束，結果可能演變成跑著跑著增長動能斷檔，甚至雙雙“撞牆”，讓原本可能在斜率放緩中更加平衡的供需被打破。更不可小覷的是這種“賽跑”對Capex的依賴。處在晶片與模型之間，被這種“你追我趕”來回拉扯的雲廠商，承擔了最集中的資本支出，他們往往同時也涵蓋AI業務，投資與回報都面臨風險和壓力。根據亞馬遜、微軟、Google、Meta和甲骨文這五大雲廠商披露的資訊，其2026年Capex總額將超過7000億美元。資料來源：公司財報及電話會議；作者製圖按照較為傳統的算力基礎設施五年折舊周期來計算，大約對應1400億美元的AI銷貨成本，這對AI行業目前的ARR（年度經常性收入）來說是天文數字。雖然OpenAI預計2026年ARR能夠突破450億美元，Anthropic也有望達到類似規模，但這兩巨頭本身的市佔比已接近八成，即使不考慮利潤，行業的淨收入也很難支撐資本開支。而正是由於晶片和模型迭代速度越來越快，市場對折舊周期的計算也產生了疑惑。知名投資人“大空頭”麥可·貝瑞（Michael Burry）自去年起，就一再“炮轟”當下的折舊周期不符合實際，認為如今AI晶片的實際經濟價值可能在2-3年內就會因技術過時而大幅衰減。雖然此類觀點爭議頗多，但如果大模型和晶片的“賽跑”繼續，甚至還要加速，那麼，有關折舊周期的質疑只會越來越多。而且，資本端的超額支出，往往以Scaling Law和大模型性能的繼續躍遷為由。從前文提及的趨勢來看，Scaling Law的退潮，也會讓Capex的狂飆不再“師出有名”。2025年下半年至今，雲巨頭的投資回報率（ROI）愈發成為市場矚目的核心指標，美股對缺乏利潤增長的Capex往往報以拋售，典型如微軟，其公佈的財報營收、淨利均超預期，但股價隨即暴跌10%。而晶片企業即使持續創造新的紀錄，但以去年11月輝達市值從5兆高點回落為節點，市場始終未給出匹配增速的估值溢價，空頭聲音反而愈發顯眼。這些，也構成了時下盛行的“AI泡沫論”的核心焦慮。不過，值得注意的是，相較於泡沫本身的存在與規模，人們看待和對待其方式，可能更加重要。當市場持續不給單純的拼規模、拼速度以正向反饋後，這一趨勢更可能會以幾次陣痛為代價放緩步伐。目前晶片大廠和部分大模型、雲廠商對未來兩年已有明確規劃，迭代速度和支出規模可能仍然維持高位，高盛也預測2025至2027年是AI伺服器出貨量增長最迅猛的三年，其中增速峰值出現在2026年。但在這之後，全產業鏈的增長可能都會面臨結構性放緩。如果只在商業和技術層面考慮，對AI增速形成影響的變數還有很多，但最近兩大標誌性熱門事件，為AI產業的發展，蒙上了一層不確定性陰影。其中一個就是，Citrini Research的《2028全球智能危機》（The 2028 Global Intelligence Crisis）。報告幾乎是以“近未來科幻”的方式，描述了從2025年末起Agent（智能體）登堂入室開始，直到2028年人類社會在新的AI時代可能面臨的窘境。圖片來源：CitriniResearch報告本身是虛構，且先進技術替代人類工作種類，也不是什麼新鮮論調，但是，當下的時點討論這個問題，卻意外引發空前共鳴。畢竟，就在2026年初，OpenClaw、Anthropic的Claude Cowork及一系列Agent外掛的出現，將AI的“替代力”十分直接地擺上了檯面。在種種預警和焦慮下，人類社會加以反制AI嗎？AI發展得越快，替代性危機的發酵就可能越快，但AI落地真實工作場景的實戰能力和可持續性，卻需要進一步探索，但顯然，我們正在看到的景像是，大小公司集體AI化的步調已經加快了。 (鈦媒體)

【以美襲擊伊朗】他把AI模型賣給美軍，如今卻害怕成為“末日博士”

“最初用於編寫程式碼和詩歌的工具，如今已成為致命的武力。”·達里歐·阿莫迪。（美國哥倫比亞廣播公司）美以對伊朗的軍事行動已持續數日，一則新聞再次吸引了全球的目光。據《華爾街日報》報導，美軍在對伊朗的大規模轟炸行動中，用上了美國AI公司Anthropic旗下的大語言模型克勞德（Claude）。知情人士證實，包括美國中央司令部在內的全球各司令部，都在使用Anthropic的AI工具。對此，英國《衛報》稱，“這是危險的轉折點” 。這已不是AI第一次走上戰場。今年1月美軍抓捕委內瑞拉總統馬杜洛時，克勞德就已被用於軍事行動。而這也引發了美國政府與Anthropic之間持續數月的爭執——關於五角大樓究竟該如何使用AI模型。而站在風暴中心的，是Anthropic創始人兼首席執行長達里歐·阿莫迪。當導彈能像人一樣思考據《華爾街日報》報導，克勞德主要服務於指揮部門，承擔情報分析、目標識別以及戰鬥場景模擬等任務。·當地時間3月2日，美以聯合對伊朗發起的軍事行動仍在持續，一名男子走過德黑蘭尼盧法廣場附近受損的居民樓。（法新社）Anthropic與美軍的合作始於2024年11月。同一時期，美國資料分析公司Palantir和亞馬遜網路服務也開始為美軍提供技術支援。據《華盛頓郵報》報導，由Palantir開發的軍方“梅文智能系統”，能從衛星、監控及其他情報來源的資料中提取關鍵資訊。而被整合進這套系統的克勞德模型，則負責對敏感情報進行分析處理。目前，克勞德已成為美軍許多部門使用的日常工具。對美軍而言，AI帶來的最大改變，是戰爭節奏本身。《戰爭律師》一書的作者克雷格·瓊斯在接受英國《衛報》的採訪時提到，在一戰和越南戰爭期間，美軍從空中偵察到執行轟炸任務通常需要6個月。但現在，整個周期已經被AI大幅壓縮。“AI系統會給出打擊目標的建議，速度遠超人類思維。”新美國安全中心執行副總裁保羅·沙雷則向路透社介紹，對美軍而言，AI已經從理論假設走向真實戰場。“這讓美軍能夠以機器速度，而非人類速度來制定打擊方案。”在此次對伊軍事行動中，以軍也用上了AI技術。其使用的新型空對地巡航導彈“破冰者”，深度融合了AI演算法。它能像人一樣思考，自主規劃飛行路徑，精準辨別目標，甚至可以在空中與其他導彈即時溝通、分工協作。·美國海軍托馬斯·哈德納號驅逐艦發射戰斧導彈，支援美以對伊實施的“史詩怒火”行動。（蓋蒂圖片社）此外，據《財富》雜誌報導，AI目前也出現在了其他戰場上。以色列在以巴衝突期間曾利用AI識別哈馬斯目標。而在俄烏衝突中，自主化無人機已經投入使用，俄羅斯和烏克蘭都採用了不同形式的自主技術。對於AI介入軍事行動，外界普遍感到不安。以色列《耶路撒冷郵報》評價，將大語言模型融入戰爭，標誌著現代戰爭的重大轉變，“最初用於編寫程式碼和詩歌的工具，如今已成為致命的武力”。Anthropic剛被踢出局，競爭對手立刻補上了空缺。川普禁令發佈幾小時後，美國AI公司OpenAI就與五角大樓達成協議，開始向機密系統提供AI技術。“要麼配合，要麼出局”在此次美以對伊朗的軍事行動中，Anthropic公司的AI模型扮演了關鍵角色。然而頗具戲劇性的是，就在空襲開始前幾個小時，這家公司剛剛被美國國防部和川普雙雙“拉黑”。據英國廣播公司報導，Anthropic與美國當局的緊張關係“可以追溯到幾個月前”。今年1月，美軍在抓捕委內瑞拉總統馬杜洛的突襲行動中，使用了克勞德模型。Anthropic隨後提出反對，聲明其使用條款明確禁止將AI用於暴力目的、武器研發或監控活動。此後雙方關係持續惡化，開始了長達數周的談判。據美國有線電視新聞網報導，談判中Anthropic在兩個問題上寸步不讓：一是AI控制武器，二是AI對美國公民的大規模監控。他們認為，AI目前還不足以可靠地操控武器，而且也無法律規範大規模監控的行為。面對Anthropic的堅持，美國國防部長赫格塞斯下了最後通牒。·赫格塞斯。（蓋蒂圖片社）當地時間2月24日，他與阿莫迪會面，要求對方放寬AI模型的安全限制，並給出了最後期限：2月27日前，美軍必須獲得克勞德模型的無限制使用權，否則公司將被列入政府“供應鏈風險”黑名單。進入黑名單意味著，所有簽有軍事合同的公司，此後不得在任何軍事工作中使用Anthropic的產品。26日，阿莫迪公開發文，表明立場不變。“即便是當今最先進、最強大的AI系統，其可靠性也不足以支撐完全自主武器的運作。”他在文中寫道，“我們不能昧著良心答應美軍的要求”。阿莫迪發文不久後，五角大樓給出了回應。一名美國國防部官員對媒體表示，Anthropic必須做出選擇，“要麼配合，要麼出局”，否則國防部將強制使用克勞德模型，無論Anthropic是否願意。·阿莫迪。（蓋蒂圖片社）緊接著，川普下令所有聯邦機構立即停用克勞德。他還在真實社交（川普於2021年自創的社交媒體平台）上痛批Anthropic，稱其為“由一群不懂現實世界的人營運的左翼瘋子公司”。幾小時後，美軍戰機從部署在中東的“林肯號”和“福特號”航母以及海外軍事基地起飛，與以色列空軍一起，向伊朗發動了大規模空襲。“技術的青春期”與美國當局“硬剛”的阿莫迪，實際上與OpenAI的淵源頗深。阿莫迪出生於1983年，本科畢業於美國史丹佛大學物理學專業，後取得美國普林斯頓大學生物物理學博士學位。畢業後，他曾在百度矽谷AI實驗室工作，後加入Google從事語音識別研究。2016年，他加入OpenAI，一路做到研究副總裁，主導開發了GPT-2和GPT-3大語言模型。然而在2021年，他與OpenAI創始人薩姆·奧特曼在AI安全理念及商業化方向上產生了分歧。此後，阿莫迪帶著包括妹妹丹妮拉·阿莫迪在內的十多名公司核心成員離職，創辦了Anthropic，並推出克勞德系列模型。·阿莫迪（左）與妹妹丹妮拉。（蓋蒂圖片社）離開OpenAI後，阿莫迪與奧特曼的分歧並未消解。就在今年年初，他與奧特曼在新德里的一場AI峰會上同台，但彼此拒絕握手、沒有眼神交流。他曾在播客裡直言，“不相信奧特曼能讓AI不走彎路”。·2026年2月，在新德里舉行的“AI影響力峰會”上，印度總理莫迪（左）與奧特曼（中）、阿莫迪等AI企業負責人合影。（蓋蒂圖片社）兩人最大的分歧，還是在於對AI安全的擔憂。今年1月，阿莫迪在題為《技術的青春期：直面並克服強大AI的風險》文章中警告“AI海嘯將至”，但社會遠未準備好。他認為，當“智力、工具規模、時間優勢”疊加，AI將是一個會重寫安全、經濟與權力結構的變數。他擔心，一旦強大的AI被大型組織掌控，將對外形成壓倒性優勢，帶來不可預估的後果。然而也有觀點指出，阿莫迪的AI恐懼論實際上是刻意利用科技倫理問題，打壓競爭對手。今年2月，阿莫迪曾公開指控DeepSeek等三家中國AI企業發動“工業級蒸餾攻擊”，“抽取”克勞德模型能力。但在AI領域，“蒸餾”本就是將大參數模型遷移到小模型的常用技術，類似於模仿學習，而非抄襲。而阿莫迪此番發言卻把這一技術污名化，試圖抹黑中國同行。從這個角度看，阿莫迪似乎並非單純追求AI的正確發展，而是在爭奪誰有做AI的權利。正如普利策獎得主、國家安全記者斯賓塞·阿克曼所指出的，阿莫迪在最初與美國軍方簽訂協議時就忽略了科技倫理問題。阿克曼批評道：“當你收了末日博士（漫畫中的反派角色）的錢，給他製造零件時，你難道不知道他要造的就是末日機器人嗎？”有評論認為，阿莫迪堅守技術倫理底線的選擇，固然有科學家式的理想與堅持，但他對中國AI公司的無端敵意與雙重標準，又讓這份堅守失去了應有的中立與格局。 (環球人物)

我被大模型這薪資驚到了！

2026年AI行業最大的機會，毫無疑問就在應用層！字節跳動已有7個團隊全速佈局Agent大模型崗位暴增69%，年薪破百萬！騰訊、京東、百度開放招聘技術崗，80%與AI相關……如今，超過60%的企業都在推進AI產品落地，而真正能交付項目的大模型應用開發工程師，卻極度稀缺！落地AI應用絕對不是寫幾個prompt，調幾個API就能搞定的，企業真正需要的，是能搞定這三項核心能力的人：✅RAG：融入外部資訊，修正模型輸出，給模型裝靠譜大腦✅Agent智能體：讓AI自主幹活，通過工具呼叫（Tools）環境互動，多步推理完成複雜任務。比如做智能客服等等……✅微調：針對特定任務最佳化，讓模型適配業務目前，脈脈上有超過1000家企業發佈大模型相關崗位，人工智慧崗平均月薪7.8w！實習生日薪高達4000！遠超其他行業收入水平！技術的稀缺性，才是你「值錢」的關鍵！具備AI能力的程式設計師，比傳統開發高出不止一截！有的人早就轉行AI方向，拿到百萬年薪！👇🏻👇🏻AI浪潮，正在重構程式設計師的核心競爭力！現在入場，仍是最佳時機！ (AI寒武紀)

剛剛，GPT-5.3 新模型撞車 Gemini，OpenClaw：謝謝你們

在 AI 模型的命名玄學裡，「Instant」和「Lite」這兩個後綴，長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象，基本就是：速度快、腦子慢，做做文字總結勉強夠用，一旦碰上稍微複雜的推理任務，就開始一本正經地胡說八道。久而久之，輕量模型幾乎成了「將就用」的代名詞。就在剛剛，OpenAI 和 Google 又一次撞車，發佈了各自的輕量模型，並試圖用硬實力來扭轉這個刻板印象。省流版如下：GPT-5.3 Instant：更具「人味兒」的智能助理，大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力，溝通更自然精準，適合對內容質量要求高的場景（寫作、專業問答、高風險領域）Gemini 3.1 Flash-Lite：便宜、快、不拖泥帶水，還支援「思考等級」調節功能，在保持高吞吐量的基礎上兼顧了深層邏輯推理，適合大規模、高即時性的批次任務（內容稽核、UI 生成、NPC 對話）GPT-5.3 Instant：終於學會像個正常人一樣聊天了經常用 ChatGPT 的人，大概都有過這種無奈：你只是隨口問個小問題，它非要先給你端上一段「作為一個人工智慧，我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」，確實挺招人煩的。好在，OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案，不再囉里囉嗦地鋪墊。除了不愛說廢話，它也變得更靠譜了。舊版本搜完網頁之後，容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升，GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來，先想清楚你真正想問什麼，再給出有重點的回答，而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示，在聯網狀態下幻覺率降低了 26.8%，僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域，新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的，其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明：同樣寫一個費城郵遞員退休最後一天，舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句，新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹，就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少，整體風格更直接，少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度，調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放，API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant，但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite：便宜、反應快，還挺聰明相比於 GPT-5.3 Instant 的好好說話，Gemini 3.1 Flash-Lite 走的是純粹的務實風，目標非常明確：就是要快，就是要便宜。價格方面，Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens，輸出價格是 1.50 美元每百萬 tokens。這是什麼概念？如果你是一個開發者，這意味著你大概花不到 2 塊錢人民幣，就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨？格局小了。根據 Artificial Analysis 的基準測試，，相比上一代的 Gemini 2.5 Flash，3.1 Flash-Lite 的首字響應時間（TTFT）快了 2.5 倍，整體輸出速度提升了 45%。對於需要即時響應的產品來說，這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著，當你還在眨眼的時候，它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外，Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中，Google 為這款 Lite 模型配備了「思考等級（Thinking Levels）」的選項。開發者可以根據任務的複雜程度，自主調節模型「想多深」。簡單的高吞吐量任務，比如批次內容翻譯和內容稽核，可以用最輕的配置快速跑完；遇到需要嚴格遵循指令的介面生成或模擬建立任務，則可以讓模型多花一點時間推理，把結果做紮實。這種「既要又要」的能力，也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中，它的 Elo 分數達到了 1432，在 GPQA Diamond（研究生等級的問答）測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%，多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」，而是直接超過了體量更大的 Gemini 2.5 Flash。注意，這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash，顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前，3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放，企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試，普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看，你會發現「Instant」和「Lite」，或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例，其核心場景是幫使用者處理郵件、管理日程，本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求，和普通 chatbot 聊天工具完全不同：它不需要模型表演得多聰明，它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率，意味著 Agent 在自主執行任務時少犯錯；「AI 腔」的消退，意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時，往往需要平行處理海量的子任務，對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本，加上能靈活調配算力的「思考等級」，這種極具彈性的架構對高並行的自動化任務而言，無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察，但大方向已經很明確：一個負責讓互動更像人，一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下，輕量模型將成為更自然、務實的選擇。 (APPSO)

MWC圍觀、OpenClaw屠榜！2026 AI變天：從“陪聊”到“幹活”，中國開源模型成全球開發者首選

階躍星辰Step 3.5 Flash霸榜OpenClaw呼叫排行，全球開發者正在“用腳投票”AI新方向。🤖頭圖由AI生成3月2日，西班牙巴塞隆納，持續四天的世界移動通訊大會MWC 2026正式開幕。在春節後的首場全球科技盛會上，中國科技廠商的展檯面前人頭攢動。智東西在逛展時便發現，圍繞人工智慧的新技術新應用，在本屆MWC大會上無處不在。從字節跳動和努比亞合作的“豆包AI”手機到榮耀新發佈的機器人手機，展台都被來自世界各地的參會者圍得水洩不通，他們都想要親自上手體驗，看AI到底是如何操作手機、如何做事的。在同一天，一度讓全球開發者為之瘋狂，連AI大神卡帕西都曾盛讚為“令人驚嘆的科幻級爆發現象”的開源AI Agent助手OpenClaw，已經超越了所有GitHub開放原始碼軟體項目，正式成為史上最受歡迎開放原始碼專案。OpenClaw本質上是一個能直接操作你電腦的AI Agent，開發者們瘋狂地為它接入各種大模型，只為了一個目的：讓AI真的動起來，幫自己幹活。這兩件事看似沒有關聯，但他們都不約而同地反映出2026年AI發展的一個核心趨勢，那就是：AI正在從能聽懂你的話，進化到可以幫你做事了。01. 階躍星辰新模型，憑何成為全球爆火OpenClaw玩家的擁躉？同樣是使用OpenClaw來幹活，活幹得怎麼樣，背後的大模型就至關重要。在知名模型聚合平台OpenRouter上，OpenClaw的呼叫量榜單成了衡量模型“動手能力”的直接體現。就在3月2日，國內大模型頭部創企階躍星辰在2月新開放原始碼的Agent基座模型Step 3.5 Flash單日呼叫量已超過40B，在OpenClaw的呼叫量榜中排名第二，超過Kimi K2.5、Gemini 3 Flash Preview、Claude Sonnet 4.5等一眾國內外主流模型。對於OpenClaw這種需要複雜推理、長時間運行的Agent系統，使用者更加傾向速度快、推理強、成本低的模型。而Step 3.5 Flash恰恰滿足了OpenClaw使用者的痛點。Step 3.5 Flash採用稀疏MoE架構，每個token僅啟動約110億參數（總計1960億），在單請求程式碼類任務上最高推理速度可達每秒350個token。在Agent場景和數學任務上，Step 3.5 Flash的能力逼近閉源模型，能夠勝任複雜、長鏈條任務，是階躍星辰迄今最強的開源基座模型。這款模型一經發佈，便受到大量海外開發者的關注好評，向來低調的階躍星辰研發團隊，罕見現身Reddit r/LocalLLaMA社區回答全球開發者有關Step 3.5 Flash的提問。有開發者提問：在規劃Step 3.5 Flash時，你們是否心中已經瞄準了這個特定的“最佳平衡點”：89 tokens/參數，並且正好卡在消費級硬體規模的上限（128GB 用於 Q4 量化，11B 啟動參數以保證實用的運行速度）？階躍星辰CTO朱亦博回覆稱，團隊的確有明確目標，即讓相關模型能夠運行在128GB記憶體系統中。他發現，目前市場上約230B規模的模型，剛好超出了其個人MacBook Pro裝置4位量化的承受範圍，因此他便要求團隊對模型規模進行了適當縮減。從開發者的角度去研發產品，而不是讓開發者來適應產品。有開發者說，這正是他覺得興奮的地方。有外網網友分享稱，對Step 3.5 Flash的印象很深刻，已經將該模型作為自己OpenClaw的主力Agent。02. 有求必應，階躍星辰Step 3.5 Flash全鏈路“開誠布公”在與階躍星辰研發團隊的溝通中，有開發者希望階躍星辰可以將基礎模型與指令/思考模型一起發佈，這樣社區就可以對它進行微調了。階躍星辰對開發者有求必應，今天，階躍星辰將Step 3.5 Flash的Base 權重、Midtrain 權重、Steptron 訓練框架一同開源，希望通過更徹底的開源，讓開發者能夠以Step 3.5 Flash為基座進行更深度模型定製，打造真正屬於自己的Agent。這一舉動在當前大模型開源趨於保守的環境下，顯得頗為徹底。開源不到 24 小時，海外社區對階躍星辰的進一步開放原始碼的反饋十分熱烈。還有開發者讚歎說，Step 3.5 Flash速度十分驚豔，與OpenClaw的自然相容性也很出色。03. 開發者用腳投票：從應用出發，才能讓AI更好地應用從全球開發者們使用大模型建構Agent的實踐反饋中，我們也可以看出：最近一兩年，AI的核心是“理解使用者”，大模型比拚的是誰更懂人的語義、誰的上下文更長。而2026年的分水嶺在於，AI的核心正在向“執行任務”遷移，比的是誰能讓AI真正操作工具、誰能幫人類做更多的事情。而階躍星辰的技術路線，正是圍繞著“讓AI做事”展開。在階躍星辰團隊與全球開發者的交流中，他們說了這樣一句話：“Step 3.5 Flash的目標，從一開始就是三件事：智能密度、推理與生成速度、Agent 能力。目標清晰後，演算法、資料與基礎設施會自然對齊。”這句話很清晰地反映出了階躍星辰“讓AI做事”的技術路徑。在他們的邏輯裡，一個模型好不好，不再只看它在基準測試上刷了多少分，而是看它能不能在開發者的本地機器上跑起來、跑得快、跑得穩。最近，階躍星辰也登上了央視焦點訪談，首席戰略官李璟在節目中說到，在這半年以來，階躍星辰在AI應用與融入人們生活的方面投入了更多的研發力量，如今的AI正在從“能聽懂你的話”進化為“能幫你做事”。以應用來作為牽引指導多模態的發展，用應用落地的目標倒推基座大模型的研發，是階躍星辰的發展主線。04. 結語：階躍星辰選擇了一條難走但正確的路如果說2025年是國產大模型的“爆發之年”，那麼2026年或將成為AI的“分水嶺”，誰能找準AI落地價值與場景，誰就有可能突出重圍。階躍星辰認準的“應用牽引多模態發展”發展路徑，是一條難走但正確的路，他們認準AI的價值不在於對話，而在於它能走進多少人的生活，能幫人們做到多少事。這或許正是國產大模型從“流量競爭”走向“價值競爭”的一個縮影。喧囂終會退去，真正留下的是那些能紮根場景、解決實際問題的技術。 (智東西)

不是GPT-5.4，OpenAI深夜發新模型！幻覺率暴降27%

被嫌“太囉嗦、愛說教”後，OpenAI發了個更會聊天的模型。智東西3月4日報導，今天，OpenAI正式發佈GPT‑5.3 Instant，該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋，GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時，模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點，不再夾雜冗長的限制性說明，顯著減少了不必要的拒答行為，並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外，GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量，模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如，它能夠利用既有的認知圖譜為近期資訊提供深度背景解析，不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看，GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴，解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞，並在回答開頭即優先呈現核心資訊。此前，GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”，表現為言語過於強勢，或者在未獲確認的情況下，就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告，以及類似“停一下，深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調，例如其親和力與熱情度。相比GPT‑5.2 Instant，GPT‑5.3 Instant提供的回答更具事實性，在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度，OpenAI團隊採用了兩項內部評估指標：其一側重於醫療、法律及金融等高風險領域；其二則專門針對“幻覺”高發場景進行測試，樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型，GPT‑5.3 Instant在“高風險領域”評估中，聯網模式下的幻覺率降低了26.8%，僅依靠模型自身知識庫時，幻覺率降低了19.7%。而在基於使用者真實反饋的評估中，該模型在聯網模式下的幻覺率下降了22.5%，非聯網模式下則下降了9.6%。在故事寫作方面，GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢，且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到，GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言，如日語和韓語，中的回覆風格可能稍顯生硬，或帶有刻板的直譯感。並且，OpenAI團隊仍在持續監控反饋並進行功能最佳化，同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放，開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月，並計畫於2026年6月3日正式退役。結語：OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病，此次GPT‑5.3 Instant的升級更新，將視角重新放回“聊天”上，回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初，OpenAI因與美國軍方簽訂合作協議，大批使用者開始發起“抵制ChatGPT”等活動，Anthropic更是直接推出了一鍵轉移上下文內容的服務，ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)

九位具身大佬談：去年量產遭遇了那些難題，今年落地仍有那些瓶頸？

春晚之後，2026年中國兩大科技主線已經明確：巨頭之間的AI（大模型）之戰，創業團隊之間的具身（機器人）之戰。其中更為性感的、也更為產業所熱議的，自然是後者，具身機器人之戰，尤其是2026年正在成為具身機器人從“量產”到“落地”的關鍵一年。僅僅是在開年這一周時間裡，就出現了五起大額融資——千尋智能兩輪近20億元融資，智平方超10億元B輪融資，銀河通用25億元A+輪融資，松延動力近10億元B輪融資，以及優理奇3億元股權融資。經過這一輪資本加持，中國具身智能賽道已經跑出至少7家百億級獨角獸企業：宇樹、智元、銀河通用、星海圖、智平方、自變數、千尋智能。然而，在具身機器人經歷了第一波量產嘗試後，在市場熱情再次被燃燒起來之時，整個產業更需要反思的是：2025年，在第一波具身機器人量產過程中，暴露出了那些問題？2026年，在又一波具身機器人落地浪潮下，有那些確定性瓶頸和趨勢？就這兩個關乎具身機器人產業未來走向的問題，我是在近期舉辦的人形機器人與具身智能標準化年會上，聽到了一場含金量極高的對話，參與這場對話的均為中國具身領域頭部機構的從業者——智源研究院院長王仲遠、星動紀元創始人陳建宇、星海圖創始人高繼揚、清華大學教授汪玉、自變數機器人創始人王潛、眾擎機器人創始人趙同陽、帕西尼創始人許晉誠、加速進化創始人程昊，以及它石智航首席科學家丁文超。從這九位具身機器人頭部機構從業者的深入研討中，我們找到了上述兩個問題的些許答案。01 具身機器人量產，N個“一致性”難題問：具身機器人量產過程中，最難啃的“骨頭”是什麼？陳建宇：量產過程中，我們認為有兩個比較大的問題：第一，“一致性”問題。因為機器人鏈條很長，從供應鏈、零部件，到整機、系統、演算法，每個環節都可能出現一些小的變數影響一致性。例如，我們之前遇到過這樣一個問題：同一批次造出的人形機器人，有幾台走路走得總是不好，後來查了半天發現，工人在電機組裝的打膠水環節中，有幾台打得不太好，這種問題在實際生產環境中並不少見。後來的解決方案是，我們設定了多層關卡和閘門，一層層把風險排除掉。第二，因為具身機器人這類產品太新了，我們往往無法提前考慮到所有問題，特別是在我們自己小批次內測時，可能會存在沒有考慮到的問題。例如我們之前有一款在售產品，推出一段時間並沒有出現任何問題，後來我們一位大客戶，買的量比較多、用得比較久，使用場景也比較重，在他們使用過程中，出現了一些我們完全沒有預料到的問題。這樣的問題是目前難以避免的，但是我們可以做兩件事情：第一，快速迭代，遇到問題後，快速想辦法把問題分析解決掉；第二，形成經驗“錯題本”，不斷積累，避免下次出現同類問題。高繼揚：整機和智能的聯動是一個很重要的問題。我們通過生產、工藝能夠保證一定的一致性，但最終發現，每台機器人之間依然存在細微差異，加上基礎模型之後，這些細微差異就會被放大。這就需要有一個標定的過程，將整機中的各種感測器、機械結構，在一個統一的數學空間中做出標定，並與模型完成聯動。基於此，不僅整機有量產，智能也有了一個量產的過程，中間的聯動就靠標定，這是在機器人或者具身智能量產過程中，比較獨特的問題。王潛：兩位講的都是我們所能控制的部分，在我們自己的生產、標定當中，依然存在一部分我們自己控制不了的部門，就是供應鏈問題。我印象特別深刻的是，有一次我們有一個電機，老是出現一些不規則的、難以預測的損壞情況，我們當時覺得很奇怪，為什麼在我們友商那裡，用同樣的電機，他們沒有碰到這樣的問題。後來我們發現，因為大家使用的工況不同，友商使用的是比較常見的工況，供應商針對這個工況做的最佳化比較好，我們雖然也在供應商標定工況之內，但是可能供應商有點偷懶，沒有把那部分的測試和最佳化做好。這也凸顯出了標準工作的重要性，如果我們有一套足夠完備的標準，能夠把這類情況規範起來，就可以避免這類問題發生的。但是目前階段，還是不可避免地會走一些彎路，依然需要我們不斷積累，在各類環境中大量使用和測試，包括量產，才可能讓這些問題暴露出來，這是產業鏈一個發展過程。趙同陽：首先，關於量產，我們要有一個清晰的定義。從去年到現在，人形機器人數千台規模的出貨量，相較於汽車行業而言，只能算是“小批次試產”。相對於百年的汽車行業而言，機器人現在所處的階段還遠未到量產階段，這是一個事實。這其中，供應鏈的發展也還遠未達到量產階段。像汽車，從輪胎、減速器，到玻璃、方向盤，每一個零部件都有幾十家，乃至上百家成熟的供應商，經過近百年的發展，而機器人行業，尤其是人形機器人行業，只是在近兩三年才得到高速發展。從機器人的供應商來看，目前可選的並不多，質量也還在一起探索階段。另外，這個行業到目前依然處於快速發展階段，產品迭代很快，這使得像模具的生產製造，大家都不敢放開手去做。由於行業發展非常快，一個產品可能只有1-2年的競爭力，假如企業備了幾十萬台的貨，有可能在下次競爭中就會被淘汰，導致企業出現大量庫存，這就使得我們和供應鏈廠商都不敢大規模進行產品量產，也就導致整個供應鏈會有一點卡滯。此外，小型人形機器人和大型人形機器人的標準要求也不一樣，小型人形機器人運動能力對機械強度等方面要求不是特別高，但大尺寸人形機器人要又蹦又跳，要承受10g-20g的加速度，還要保證齒輪不斷裂，需要從模擬到設計上慢慢驗證。有些東西甚至無法模擬或設計出來，只能測試出來，這些都是我們整個行業在現階段要去解決的問題。丁文超：大家講的很多是關節的、控制的一致性，我們遇到的一個問題是，如何保證大腦、小腦以及本體協同的一致性。例如機器人要送去進行作業，機器人全生命周期的各種動態性能，包括力觸的感知都是動態變化的，但企業發佈的其實是“本體+模型”，如何保證大腦也具有一致性、量產性，其實是我們現在正在解決的問題。這個問題不僅僅是一個硬體問題，還有很多大腦層面的訓練、資料使用技巧都可以加進去，讓機器人在整個生命周期，無論遇到怎樣的損耗、老化，都可以保持模型的泛化能力。02 具身機器人落地，26年如何造大腦？問：2026年，要讓機器人真正具備泛化能力，並在各個場景中發揮價值，還需要在那些方面進行突破？王仲遠：過去這幾年機器人之所以受到如此高的關注，不僅是因為硬體的發展，也是由於人工智慧，尤其是大模型的突破，為具身智能帶來了新的變數。具身智能和傳統的大模型相比，它需要和硬體耦合在一起，不像純數字世界，可能大模型本身可以直接發揮價值，但具身智能既需要有模型能力本身的提升，又要依賴硬體，複雜性更高。具身智能現在依然非常缺乏高品質資料，這就要求具身智能的資料除了從網際網路模擬環境中獲取以外，一定要有真機資料。當然，這些真機資料如何高品質、標準化地獲得，這就是標委會可以重點推進的一些事項。展望未來，尤其是今年，我覺得可能分兩部分：第一，就企業實際落地來看，我相信依然會以VLM+VLA，或者純VLA為主，在具體的場景中做資料閉環打磨；第二，就科研角度來看，會將重心放在世界模型，放在推進下一代真正具備泛化性的具身智能模型。陳建宇：2026年，我們有兩個重點：第一，資料閉環。經過過去兩年的發展，端到端VLA模型的一些範式已經開始標準化，這時，提升資料質量就成了提升模型能力最高效的途徑。第二，模型範式的提升。當前比較標準的VLA模型主要是基於模仿學習的範式，如何為機器人建立更好的理解物理世界的模型，幫助機器人更好、更范化、更精細地完成各類物理世界中的任務，這也需要進行範式的探索。高繼揚：現在看機器人大腦這件事，主要分為三部分：資料的形態、預訓練怎麼做、後訓練怎麼做。預訓練，去年大家都在做VLA，今年明顯的趨勢是往世界模型在走，這是一個確定性的趨勢；後訓練，去年主要是SFT的模仿學習微調，今年明確在向強化學習方向去走；資料形態，現在具身智能有很豐富的資料形態，從傳統的遙運算元據，到UMI資料，再到我們最近和輝達有一個基於EgoScale框架的合作，是用POV資料觀測自己的雙手怎麼去做，沒有佩戴任何其它輔助裝置，也有很好的預訓練效果。這三個方面，都會在今年有集中的體現。汪玉：從演算法發展的角度來看，後訓練是從SFT向IL（模仿學習）、RL（強化學習）的方向走。現在如何做強化學習，特別是如何將現有算力高效地用於強化學習，這是在雲端要考慮的問題。邊端如何讓機器人在百分之七八十精準率的情況下，進一步通過真機的強化學習能夠將特定認為的精準率提升到99%，乃至100%，這是今年重點要突破的。此外，就具身資料而言，資料的“量”很重要，“質”也很重要。特別是針對資料的“質”，我們看到，做真機強化學習時，實際場景中沒有做好的資料如何回流，如何加入到典型資料中，讓機器人能夠不斷學自己做不好的事情，我覺得是一個關鍵問題。王潛：模型架構本身是一個大的方向。兩年前，還有很多人在做單點任務的小模型，去年大家開始去做VLA，今年大家開始做世界模型。整體上是在往越來越統一、越來越全能的方向發展。但是我們看模型的輸出，有輸出動作，有輸出世界模型對於未來狀態的預測，但其實我們希望模型學到的倒不一定是這些東西，我們更希望模型學到一些物理世界的規律，例如物體的屬性或者更加本質的東西。其實我們自己認為，VLA模型、世界模型並不是相斥的關係，它們在更大框架下是相互幫助，所以我們提出了物理世界基礎模型，這個詞讓大家稍微有一點費解，後來我們把這個詞改成了世界動作模型。我們的看法是，不同任務之間的相互協同是具身模型非常顯著的特點。不同時間的任務，互相之間有大量本質性交叉，這是基於預訓練基礎模型架構的一個大的發展趨勢。當然中間會有百花齊放，有的團隊更注重世界模型，有的團隊更注重動作的訓練。另一方面，最近兩年後訓練獲得了很大的進展。例如很多團隊已經能夠在某些單點場景上做相當優秀的後訓練，特別是強化學習，能夠獲得非常不錯的、前幾年做不到的一些效果。這很大程度依賴於預訓練模型的發展，不管是在具身模型上，還是之前在語言模型上看到的明顯特點，如果預訓練模型沒有很好的基礎，強化學習效果會很差。關於資料，我看到的一個大趨勢是，資料生產逐漸從單點的known-how轉向工業體系。之前大家對於資料的理解是在一個地方有一個口傳心授的秘訣，另外一個地方有單點的模型進行處理，但是現在整體的趨勢是，資料越來越向工業化的方向發展。我們正在以一個完整、可控制、可大規模複製的方式去生產資料，我們也有成體系的 benchmark或模型閉環，這也是我們自己會非常重視和大力度投入的方向，基本上是這樣。趙同陽：早期我們把人形機器人當成一個工具去使用，看重的是機器人的工具屬性，工具要做的就是足夠快、足夠精準、失敗機率足夠低，我們自己內部也在用世界模型、強化學習讓它的失敗機率更低一些。但是人類已經有很多工具，還在乎多一種新的工具嗎？除了工具屬性，接下來人形機器人會帶來更多情緒價值。我們賦予它“雙眼”，讓它能看清這個世界，賦予它“雙耳”，讓它能聽懂這個世界，賦予它“觸覺”，讓它能夠感知這個世界……既然賦予了它這麼多能力，我們希望它不僅能為人類帶來工具屬性的價值，還能帶來情緒價值，世界模型的使用，包括情緒、情感、喜怒哀樂，我們要將它做得至少像一個人，而不僅僅是一個機器。此外，具身機器人大腦的模型還完全沒有收斂，每一家都有自己的做法，每過一兩個月都會有新的演算法出現。它不像做腿足運動控制，現在已經能跑能跳，很多東西幾乎已經超越人類現有水平，而現有的VLA模型很多還處於探索階段，模型能力只能達到人類的1/3、1/4 ，甚至更糟糕的狀態，我們也正在嘗試解決這個問題。許晉誠：我們一直嘗試在做的就是泛化的定義，我們押注在與物理世界接觸模態資訊上，只有這些資訊，才能提升整體任務的成功率。我們在機器人實驗中，加入了大量接觸模態的感測器，例如觸覺感測器，它可以讓基於Pi0這樣基座模型的一個任務的執行成功率，從20%提升到90%以上。這很大程度上提升了任務執行的成功率和泛化性，這是我認為具身機器人未來很重要的一個發展方向。物理接觸模態的資料也很重要，我們現在也在把大量接觸模態的多維觸覺資料採集下來，這對提升整體任務的成功率很重要。程昊：我們認為具身大腦是前期研發需要投入比較多的地方。在整體路線變得越來越清晰的情況下，我們更側重於在現有雙足人形機器人上，尤其是在機器人全身運動已經越來越成熟，可能今年在很多任務執行上能夠超過人類的情況下，現有的具身模型或VLA到底引入那些新維度的資料，模型通過強化學習，還是更多模態的方式，能夠在雙足人形上有更好的效果提升，這是接下來兩年我們在具身大腦上重點投入的方向。丁文超：資料和模型是我們成立第一天起就開始解決的問題，我們公司第一天就提出了一個概念，叫作“以人為中心的資料”。遙操作是通過VR/AR裝置把動作對應到機器人上，讓機器人去完成，而我們的想法是，通過可穿戴式裝置，讓人去做資料採集任務。我們設計了一整套數據採集套件SenseHub，你可以佩戴第一人稱的攝影機、穿戴手套，也可以佩戴二指指套，多種不同的終端。這樣一套數采裝置很大的好處真正能夠深入到各行各業，所以我們現有資料不僅侷限於數采中心，我們在真實場景下的各行各業，大家能想到人能去的場景，我們都能采到資料，這對於整個模型的泛化能力的提升非常關鍵。在模型側，我們有一個落地任務，它是一個長程、柔性、高精度的任務，這是這代具身智能需要解決的問題。我們發現，在現在的世界動作模型落地過程中，關鍵在於如何將對世界的預測和動作有機結合起來。現在很多世界模型單純把它引入到VLA，很容易產生幻覺問題，對空間的幻覺、物理的幻覺會直接影響機器人最終執行的動作。如何讓機器人的物理感知，對物理的推測、對空間的推測沒有幻覺，能夠穩定可靠執行任務，這是過去這一年我們一直在解決的問題。 (鋅產業)