#小模型
首個龍蝦大模型排行榜來了!兩個中國國產 AI 殺進全球前三,養蝦前必看
你現在養了幾隻龍蝦?這就是現在打招呼最常見的問題,上周騰訊深圳總部排起龍等著免費裝 OpenClaw,真是一代人有一代人的雞蛋。連黃仁勳也盛讚 OpenClaw 為「有史以來最重要的軟體發佈」,認為它已經證明了 AI 在高度個性化環境中,能夠完美復刻人類的複雜工作流。養龍蝦太過火爆,也終於出現專門針對 OpenClaw 的基準測試 PinchBench,用於評估大語言模型在 OpenClaw 任務中的表現。PinchBench 評分方式也很硬核,有的任務看程式碼能不能跑通(自動化檢查),有的看寫得好不好(Claude Opus 當評委),還有的是兩者結合。所有題目和答案都開源在 GitHub 上,誰都可以去驗貨。今天,OpenClaw 創始人 Peter Steinberger 分享這個龍蝦基準測試排行榜。PinchBench 一口氣測了 32 款主流大模型,從成功率、速度、費用三個維度,看看那個模型最適合養龍蝦。PinchBench 官網🔗 https://pinchbench.com/Gemini 3 Flash 成功率最高,中國國產模型也殺瘋了來看最重磅的成功率排名。Google 的 Gemini 3 Flash Preview 以 95.1% 的成功率奪冠,這個成績說實話讓我有點意外。因為 Flash 系列一直是 Gemini 的「輕量版」,主打快和便宜,沒想到這次在精準率上直接把自家 Pro 老大哥和 Claude、GPT 系列全超了。這說明Google 在模型效率最佳化上是真的下了功夫。輕量模型不代表能力弱,關鍵看怎麼調。Gemini 3.1 Flash-Lite 更多介紹可以查看 APPSO 推文:剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們第二名是 MiniMax M2.1,成功率 93.6%。中國國產模型真的站起來了,MiniMax 的表現相當亮眼,成功壓過了 Claude Sonnet 4.5(92.7%)和 GPT-4o(85.2%)。Kimi K2.5 緊隨其後,成功率 93.4%。Kimi 的長文字能力一直很強,這次在程式設計任務上也證明了自己。和 MiniMax 一起,中國國產雙雄直接佔據了 TOP3 的兩個席位。再往後看,Claude Sonnet 4.5 排第四(92.7%),Gemini 3 Pro 第五(91.7%),Claude Haiku 4.5 第六(90.8%)。有意思的是,Claude Opus 4.6 作為 Anthropic 的旗艦大模型,成功率只有 90.6%,排在第七。看來「大」不一定「強」,至少在程式設計這個場景下,中端模型反而更香。唯快不破,MiniMax 贏麻了在開發這些重度任務中,誰都不想對著螢幕乾等。速度接影響幹活的心情。MiniMax M2.5 以 105.96 秒的成績拿下速度冠軍,完成全部測試任務。什麼概念?比第二名 Gemini 2.0 Flash 只快了 0.09 秒,但第一就是第一。第三名 Llama 3.1 70B(106.14 秒)、第四名 Gemini 1.5 Pro(106.85 秒)、第五名 Mistral Large(107.72 秒)——這幾個差距都不大,基本在同一梯隊。但往下看就有意思了。Claude Sonnet 4 用了 137.66 秒,比第一梯隊慢了 30 秒。Gemini 3 Pro 更是用了 239.55 秒,是 MiniMax M2.5 的兩倍多。這說明一個規律:輕量級模型普遍更快。如果你做的是快速原型開發、需要頻繁迭代,選輕量模型準沒錯。但如果是那種「跑一遍就行」的任務,等等大模型也無妨。怎麼養龍蝦最划算養龍蝦,精打細算很重要,畢竟很多OpenClaw 任務都是 Token 無底洞,稍不留神就能讓你懷疑人生。GPT-5 Nano 以 0.03 美元的成本成為全場最便宜的選擇,成功率 85.8%。雖然精準率不算頂尖,但這個價格……還要什麼自行車?適合預算有限、對錯誤容忍度高的場景。Gemini 2.5 Flash Lite 排第二,只要 0.05 美元,成功率 83.2%。這個性價比就很能打了——成本是 GPT-5 Nano 的不到兩倍,成功率只低了 2.6 個百分點。MiniMax M2.1 排第五,成本 0.14 美元,但別忘了它的成功率是 93.6%。算下來每百分點的成本只有 0.0015 美元,性價比極高。再看高端模型的成本,就有點觸目驚心了。Claude Opus 4.6 完成測試要花 5.89 美元,是 GPT-5 Nano 的將近 200 倍。但它的成功率只有 90.6%,比 MiniMax M2.1 還低了 3 個百分點。這帳怎麼算都不划算。除非你對 Claude 有特殊的品牌信仰,否則從純性價比角度,中端模型顯然是更理性的選擇。🦞龍蝦養殖怎麼選看完三個維度的榜單,相信你已經有了自己的判斷。這裡 APPSO 再給大家幾個場景化的建議:🏆 如果你追求成功率,無腦選 Gemini 3 Flash95.1% 的成功率 + 0.72 美元的成本,目前綜合表現最優。適合對程式碼質量要求高的生產環境,出錯的代價遠大於模型成本的時候,選它準沒錯。⚡ 如果你追求速度,選 MiniMax M2.5 或 Gemini 2.0 Flash都在 106 秒左右完成全部任務,適合快速原型開發、需要頻繁迭代的場景。時間就是金錢,這倆能幫你省下不少耐心。💰 如果你追求性價比,選 Gemini 2.5 Flash Lite0.05 美元的成本,83.2% 的成功率,是入門「養龍蝦」的最佳選擇。個人項目、小團隊、預算有限的場景,閉眼入。🇨🇳 如果想少折騰傾向中國國產模型,MiniMax M2.1 和 Kimi K2.5 都很能打MiniMax M2.1 成功率 93.6% 排第二,Kimi K2.5 成功率 93.4% 排第三,兩款中國國產模型都已經躋身第一梯隊。而且 MiniMax 的速度還是冠軍,性價比也極高,值得重點關注。從這次 PinchBench 的榜單可以看出,Agent 已經進入了「百花齊放」的時代。Google 的 Gemini 系列在效率和成本上全面領先,中國國產模型 MiniMax 和 Kimi 緊隨其後,OpenAI 和 Anthropic 則在高端市場保持競爭力。對於開發者來說,好消息是選擇越來越多了。壞消息是……選擇困難症可能更嚴重了。但沒關係,記住一個原則:沒有最好的模型,只有最適合你場景的模型。生產環境看成功率,原型開發看速度,個人項目看性價比,按需選擇就好。而且,APPSO 也想特別提醒大家,安裝 OpenClaw 或許不用花費什麼成本,但「養龍蝦」消耗的 Token ,可比過去我們和 AI 對話要多得多。前幾天 OpenClaw 在紐約辦的聚會上不少使用者分享自己的龍蝦養殖心得,有人每個月在 Token上的花費高達1000-2000美元,更有一位「土豪」玩家每天燒掉 10 億 tokens,沒有信仰可禁不起這麼燒錢。嘗鮮 OpenClaw 可以,但它其實並不適合所有人,目前有很多任務用龍蝦也並非最優解,更大的意義是可以感受 AI 帶來全新的互動體驗。 (APPSO)
OpenAI和輝達,終究還是到了這一步|AGI焦點
AI頂流們正在加緊“梭哈”晶片。Meta、OpenAI和Anthropic等公司今年以來已簽下了數千億美元訂單。憑此賺得盆滿缽滿的,自然還是“賣鏟人”。在本周ASIC晶片龍頭博通公佈的財報中,一季度(2025年11月至2026年1月)AI半導體收入84億美元,同比大漲106%;Q2預期環比再漲27%達107億美元,同比將暴增143%。此前,輝達的業績更是炸裂,公司同期總營收已達681億美元,同比增長73%,新財季營收預期更是增至780億美元,預計同比增長77%。核心指標全都大幅刷新紀錄。這些公司的掌舵者也對未來一致樂觀。博通CEO陳福陽說,明年,公司光AI晶片營收就能超過1000億美元,比上個財年的公司總營收還高出至少五成。輝達CEO黃仁勳說,在截至2026年底的五個季度中,公司主力晶片Blackwell和下一代晶片Rubin的訂單至少有5000億美元,這個數字是輝達此前年收入的兩倍還多。表面上看,“狂飆突進”仍在加速,甚至每一次破紀錄都像是新的指數級增長曲線的起點。但在風光背後,從晶片到雲,從大模型到應用,一系列技術、產業與社會的變化正在發生,某種約束已若隱若現:Scaling Law(縮放定律)和通用GPU多年來的統治地位受到挑戰,雲廠商巨額Capex(資本開支)的驗證時間窗口縮小,“定製化”和“個性化”等分佈式需求愈發吃重,讓集中式的迅猛增長有落潮之虞。一邊狂賺千億,一邊“友誼破裂”作為AI大模型時代並駕齊驅的造浪者,今年以來,輝達與OpenAI之間的關係明顯鬆動。年初,媒體爆出輝達不滿OpenAI的商業策略,欲大幅削減投資。此後,又有消息稱,OpenAI對輝達最新晶片在推理環節的表現不滿,會繼續探索替代方案。傳言難以證實,但輝達在OpenAI新一輪融資中出資300億美元,相較此前的千億美元投資方案明顯縮水。在3月4日的摩根士丹利TMT會議上,黃仁勳親口表示,這次投資“可能是最後一次”,去年11月被他稱為“一代人僅有一次機會”的千億美元合作大機率會不了了之。為什麼會突然發生這樣的轉變?背後有些行業趨勢值得探討。首先是,Scaling Law和GPU性能提升飛輪,已有觸頂跡象。電腦科學家伊利亞·蘇茨維克(Ilya Sutskever)已表示,此前Scaling Law能夠主導大模型發展,是因為預訓練的道路走通了。誰的大模型喂得越飽,就顯得越聰明。但隨著大模型領域競爭白熱化,高品質、結構化的公開資料實際上已被吃盡。光有算力不足以支撐這條路走到頭。業界對Scaling Law的未來,有很多討論,比如轉向後訓練,轉向推理時擴展,或者改進Transformer核心架構。但拆解這些方法,其關鍵詞多與“提升效能”、“合理分配算力”和“特定領域針對性最佳化”相關聯,實際上,也意味著預訓練階段的性能躍遷不會再現。GPU面臨的境況是相似的。在Scaling Law時代,成熟度高、通用性和靈活性強、適合大規模平行運算的GPU,無疑是大模型的最佳搭檔。其性能在近十年間飛速進化,是大模型能力提升和規模化復刻的重要動力。所以,儘管輝達產品售價極高,毛利率常年在75%左右,還是屢屢供不應求。半導體行業知名研究機構SemiAnalysis分析稱,晶片領域先進製程的演進速度已明顯放緩,典型案例是台積電3nm帶來的性能增幅與成本增加已不成正比。全球計算聯盟GCC資料也顯示,摩爾定律放緩正導致AI晶片性能增幅下滑,2018-2022年間,AI晶片性能年均提升50%,到2023-2025年已降至20%以下(未計入尚未量產投入市場的新一代產品)。而就在2025年,追求特定場景下更極致的性能,功耗更低、體積更小、量產後成本更優的定製化AISC晶片強勢崛起。以GoogleTPU的市場良好反饋為標誌,其市佔比開始向GPU發起挑戰。而包括Meta、亞馬遜、微軟乃至OpenAI等都在加緊自研AISC晶片,2026年預計就將迎來量產和商業化的集中爆發期。資料來源:各公司官網、野村證券、公開報導;作者製表這條技術多元化路線的核心,又是“定製化”“高效能”“低延遲”和“性價比”,實際就是通用硬體效率狂飆的階段已經落幕。從這個視角再來看,OpenAI與輝達之間隱現的“友誼裂痕”,所謂不滿晶片推理表現,是因為GPU不再能通過“暴力破局”來“包打天下”。而所謂對商業策略有疑義,則是在大模型能力“無限增長”故事講不下去後,希望確證能有可觀商業回報維持其需求的穩定。是誰在給輝達們“潑冷水”?當然,性能增幅放緩絕不意味著需求會驟降,反而可能推動更加平穩、持續的增長。而在2025年“DeepSeek衝擊波”中,描述效率最佳化往往導致消耗總量增加的“傑文斯悖論”也屢被提及。不過,前提是盡快切換到更加“細水長流”的發展模式,而目前AI產業的慣性動能,卻與此存在一定錯位。最核心的,是拚命壓縮時間周期可能帶來的系統性病灶。早期以GPU為主的AI晶片,迭代周期約為18-24個月。隨著AI熱潮來臨,需求方競爭壓力加劇,對迭代速度的渴求愈發極端,這讓輝達和Google等將晶片迭代周期壓縮到“年更”。但即使這樣還是不夠。目前,頂尖大模型基本每三個月就要迭代一次。SemiAnalysis創始人迪倫·帕特爾(Dylan Patel)此前在參與The MAD Podcast with Matt Turck播客節目時表示,即使晶片廠商將迭代周期壓縮到半年,也無法很好適配模型進步的速度,也難言確保自身優勢。即使晶片和模型的性能增幅雙雙放緩,這種“賽跑”也未見稍顯的跡象。而考慮到前文提到的製程、技術演進等方面的瓶頸,以及美國能源供給方面愈發緊迫的硬性約束,結果可能演變成跑著跑著增長動能斷檔,甚至雙雙“撞牆”,讓原本可能在斜率放緩中更加平衡的供需被打破。更不可小覷的是這種“賽跑”對Capex的依賴。處在晶片與模型之間,被這種“你追我趕”來回拉扯的雲廠商,承擔了最集中的資本支出,他們往往同時也涵蓋AI業務,投資與回報都面臨風險和壓力。根據亞馬遜、微軟、Google、Meta和甲骨文這五大雲廠商披露的資訊,其2026年Capex總額將超過7000億美元。資料來源:公司財報及電話會議;作者製圖按照較為傳統的算力基礎設施五年折舊周期來計算,大約對應1400億美元的AI銷貨成本,這對AI行業目前的ARR(年度經常性收入)來說是天文數字。雖然OpenAI預計2026年ARR能夠突破450億美元,Anthropic也有望達到類似規模,但這兩巨頭本身的市佔比已接近八成,即使不考慮利潤,行業的淨收入也很難支撐資本開支。而正是由於晶片和模型迭代速度越來越快,市場對折舊周期的計算也產生了疑惑。知名投資人“大空頭”麥可·貝瑞(Michael Burry)自去年起,就一再“炮轟”當下的折舊周期不符合實際,認為如今AI晶片的實際經濟價值可能在2-3年內就會因技術過時而大幅衰減。雖然此類觀點爭議頗多,但如果大模型和晶片的“賽跑”繼續,甚至還要加速,那麼,有關折舊周期的質疑只會越來越多。而且,資本端的超額支出,往往以Scaling Law和大模型性能的繼續躍遷為由。從前文提及的趨勢來看,Scaling Law的退潮,也會讓Capex的狂飆不再“師出有名”。2025年下半年至今,雲巨頭的投資回報率(ROI)愈發成為市場矚目的核心指標,美股對缺乏利潤增長的Capex往往報以拋售,典型如微軟,其公佈的財報營收、淨利均超預期,但股價隨即暴跌10%。而晶片企業即使持續創造新的紀錄,但以去年11月輝達市值從5兆高點回落為節點,市場始終未給出匹配增速的估值溢價,空頭聲音反而愈發顯眼。這些,也構成了時下盛行的“AI泡沫論”的核心焦慮。不過,值得注意的是,相較於泡沫本身的存在與規模,人們看待和對待其方式,可能更加重要。當市場持續不給單純的拼規模、拼速度以正向反饋後,這一趨勢更可能會以幾次陣痛為代價放緩步伐。目前晶片大廠和部分大模型、雲廠商對未來兩年已有明確規劃,迭代速度和支出規模可能仍然維持高位,高盛也預測2025至2027年是AI伺服器出貨量增長最迅猛的三年,其中增速峰值出現在2026年。但在這之後,全產業鏈的增長可能都會面臨結構性放緩。如果只在商業和技術層面考慮,對AI增速形成影響的變數還有很多,但最近兩大標誌性熱門事件,為AI產業的發展,蒙上了一層不確定性陰影。其中一個就是,Citrini Research的《2028全球智能危機》(The 2028 Global Intelligence Crisis)。報告幾乎是以“近未來科幻”的方式,描述了從2025年末起Agent(智能體)登堂入室開始,直到2028年人類社會在新的AI時代可能面臨的窘境。圖片來源:CitriniResearch報告本身是虛構,且先進技術替代人類工作種類,也不是什麼新鮮論調,但是,當下的時點討論這個問題,卻意外引發空前共鳴。畢竟,就在2026年初,OpenClaw、Anthropic的Claude Cowork及一系列Agent外掛的出現,將AI的“替代力”十分直接地擺上了檯面。在種種預警和焦慮下,人類社會加以反制AI嗎?AI發展得越快,替代性危機的發酵就可能越快,但AI落地真實工作場景的實戰能力和可持續性,卻需要進一步探索,但顯然,我們正在看到的景像是,大小公司集體AI化的步調已經加快了。 (鈦媒體)
【以美襲擊伊朗】他把AI模型賣給美軍,如今卻害怕成為“末日博士”
“最初用於編寫程式碼和詩歌的工具,如今已成為致命的武力。”·達里歐·阿莫迪。(美國哥倫比亞廣播公司)美以對伊朗的軍事行動已持續數日,一則新聞再次吸引了全球的目光。據《華爾街日報》報導,美軍在對伊朗的大規模轟炸行動中,用上了美國AI公司Anthropic旗下的大語言模型克勞德(Claude)。知情人士證實,包括美國中央司令部在內的全球各司令部,都在使用Anthropic的AI工具。對此,英國《衛報》稱,“這是危險的轉折點” 。這已不是AI第一次走上戰場。今年1月美軍抓捕委內瑞拉總統馬杜洛時,克勞德就已被用於軍事行動。而這也引發了美國政府與Anthropic之間持續數月的爭執——關於五角大樓究竟該如何使用AI模型。而站在風暴中心的,是Anthropic創始人兼首席執行長達里歐·阿莫迪。當導彈能像人一樣思考據《華爾街日報》報導,克勞德主要服務於指揮部門,承擔情報分析、目標識別以及戰鬥場景模擬等任務。·當地時間3月2日,美以聯合對伊朗發起的軍事行動仍在持續,一名男子走過德黑蘭尼盧法廣場附近受損的居民樓。(法新社)Anthropic與美軍的合作始於2024年11月。同一時期,美國資料分析公司Palantir和亞馬遜網路服務也開始為美軍提供技術支援。據《華盛頓郵報》報導,由Palantir開發的軍方“梅文智能系統”,能從衛星、監控及其他情報來源的資料中提取關鍵資訊。而被整合進這套系統的克勞德模型,則負責對敏感情報進行分析處理。目前,克勞德已成為美軍許多部門使用的日常工具。對美軍而言,AI帶來的最大改變,是戰爭節奏本身。《戰爭律師》一書的作者克雷格·瓊斯在接受英國《衛報》的採訪時提到,在一戰和越南戰爭期間,美軍從空中偵察到執行轟炸任務通常需要6個月。但現在,整個周期已經被AI大幅壓縮。“AI系統會給出打擊目標的建議,速度遠超人類思維。”新美國安全中心執行副總裁保羅·沙雷則向路透社介紹,對美軍而言,AI已經從理論假設走向真實戰場。“這讓美軍能夠以機器速度,而非人類速度來制定打擊方案。”在此次對伊軍事行動中,以軍也用上了AI技術。其使用的新型空對地巡航導彈“破冰者”,深度融合了AI演算法。它能像人一樣思考,自主規劃飛行路徑,精準辨別目標,甚至可以在空中與其他導彈即時溝通、分工協作。·美國海軍托馬斯·哈德納號驅逐艦發射戰斧導彈,支援美以對伊實施的“史詩怒火”行動。(蓋蒂圖片社)此外,據《財富》雜誌報導,AI目前也出現在了其他戰場上。以色列在以巴衝突期間曾利用AI識別哈馬斯目標。而在俄烏衝突中,自主化無人機已經投入使用,俄羅斯和烏克蘭都採用了不同形式的自主技術。對於AI介入軍事行動,外界普遍感到不安。以色列《耶路撒冷郵報》評價,將大語言模型融入戰爭,標誌著現代戰爭的重大轉變,“最初用於編寫程式碼和詩歌的工具,如今已成為致命的武力”。Anthropic剛被踢出局,競爭對手立刻補上了空缺。川普禁令發佈幾小時後,美國AI公司OpenAI就與五角大樓達成協議,開始向機密系統提供AI技術。“要麼配合,要麼出局”在此次美以對伊朗的軍事行動中,Anthropic公司的AI模型扮演了關鍵角色。然而頗具戲劇性的是,就在空襲開始前幾個小時,這家公司剛剛被美國國防部和川普雙雙“拉黑”。據英國廣播公司報導,Anthropic與美國當局的緊張關係“可以追溯到幾個月前”。今年1月,美軍在抓捕委內瑞拉總統馬杜洛的突襲行動中,使用了克勞德模型。Anthropic隨後提出反對,聲明其使用條款明確禁止將AI用於暴力目的、武器研發或監控活動。此後雙方關係持續惡化,開始了長達數周的談判。據美國有線電視新聞網報導,談判中Anthropic在兩個問題上寸步不讓:一是AI控制武器,二是AI對美國公民的大規模監控。他們認為,AI目前還不足以可靠地操控武器,而且也無法律規範大規模監控的行為。面對Anthropic的堅持,美國國防部長赫格塞斯下了最後通牒。·赫格塞斯。(蓋蒂圖片社)當地時間2月24日,他與阿莫迪會面,要求對方放寬AI模型的安全限制,並給出了最後期限:2月27日前,美軍必須獲得克勞德模型的無限制使用權,否則公司將被列入政府“供應鏈風險”黑名單。進入黑名單意味著,所有簽有軍事合同的公司,此後不得在任何軍事工作中使用Anthropic的產品。26日,阿莫迪公開發文,表明立場不變。“即便是當今最先進、最強大的AI系統,其可靠性也不足以支撐完全自主武器的運作。”他在文中寫道,“我們不能昧著良心答應美軍的要求”。阿莫迪發文不久後,五角大樓給出了回應。一名美國國防部官員對媒體表示,Anthropic必須做出選擇,“要麼配合,要麼出局”,否則國防部將強制使用克勞德模型,無論Anthropic是否願意。·阿莫迪。(蓋蒂圖片社)緊接著,川普下令所有聯邦機構立即停用克勞德。他還在真實社交(川普於2021年自創的社交媒體平台)上痛批Anthropic,稱其為“由一群不懂現實世界的人營運的左翼瘋子公司”。幾小時後,美軍戰機從部署在中東的“林肯號”和“福特號”航母以及海外軍事基地起飛,與以色列空軍一起,向伊朗發動了大規模空襲。“技術的青春期”與美國當局“硬剛”的阿莫迪,實際上與OpenAI的淵源頗深。阿莫迪出生於1983年,本科畢業於美國史丹佛大學物理學專業,後取得美國普林斯頓大學生物物理學博士學位。畢業後,他曾在百度矽谷AI實驗室工作,後加入Google從事語音識別研究。2016年,他加入OpenAI,一路做到研究副總裁,主導開發了GPT-2和GPT-3大語言模型。然而在2021年,他與OpenAI創始人薩姆·奧特曼在AI安全理念及商業化方向上產生了分歧。此後,阿莫迪帶著包括妹妹丹妮拉·阿莫迪在內的十多名公司核心成員離職,創辦了Anthropic,並推出克勞德系列模型。·阿莫迪(左)與妹妹丹妮拉。(蓋蒂圖片社)離開OpenAI後,阿莫迪與奧特曼的分歧並未消解。就在今年年初,他與奧特曼在新德里的一場AI峰會上同台,但彼此拒絕握手、沒有眼神交流。他曾在播客裡直言,“不相信奧特曼能讓AI不走彎路”。·2026年2月,在新德里舉行的“AI影響力峰會”上,印度總理莫迪(左)與奧特曼(中)、阿莫迪等AI企業負責人合影。(蓋蒂圖片社)兩人最大的分歧,還是在於對AI安全的擔憂。今年1月,阿莫迪在題為《技術的青春期:直面並克服強大AI的風險》文章中警告“AI海嘯將至”,但社會遠未準備好。他認為,當“智力、工具規模、時間優勢”疊加,AI將是一個會重寫安全、經濟與權力結構的變數。他擔心,一旦強大的AI被大型組織掌控,將對外形成壓倒性優勢,帶來不可預估的後果。然而也有觀點指出,阿莫迪的AI恐懼論實際上是刻意利用科技倫理問題,打壓競爭對手。今年2月,阿莫迪曾公開指控DeepSeek等三家中國AI企業發動“工業級蒸餾攻擊”,“抽取”克勞德模型能力。但在AI領域,“蒸餾”本就是將大參數模型遷移到小模型的常用技術,類似於模仿學習,而非抄襲。而阿莫迪此番發言卻把這一技術污名化,試圖抹黑中國同行。從這個角度看,阿莫迪似乎並非單純追求AI的正確發展,而是在爭奪誰有做AI的權利。正如普利策獎得主、國家安全記者斯賓塞·阿克曼所指出的,阿莫迪在最初與美國軍方簽訂協議時就忽略了科技倫理問題。阿克曼批評道:“當你收了末日博士(漫畫中的反派角色)的錢,給他製造零件時,你難道不知道他要造的就是末日機器人嗎?”有評論認為,阿莫迪堅守技術倫理底線的選擇,固然有科學家式的理想與堅持,但他對中國AI公司的無端敵意與雙重標準,又讓這份堅守失去了應有的中立與格局。 (環球人物)
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
MWC圍觀、OpenClaw屠榜!2026 AI變天:從“陪聊”到“幹活”,中國開源模型成全球開發者首選
階躍星辰Step 3.5 Flash霸榜OpenClaw呼叫排行,全球開發者正在“用腳投票”AI新方向。🤖頭圖由AI生成3月2日,西班牙巴塞隆納,持續四天的世界移動通訊大會MWC 2026正式開幕。在春節後的首場全球科技盛會上,中國科技廠商的展檯面前人頭攢動。智東西在逛展時便發現,圍繞人工智慧的新技術新應用,在本屆MWC大會上無處不在。從字節跳動和努比亞合作的“豆包AI”手機到榮耀新發佈的機器人手機,展台都被來自世界各地的參會者圍得水洩不通,他們都想要親自上手體驗,看AI到底是如何操作手機、如何做事的。在同一天,一度讓全球開發者為之瘋狂,連AI大神卡帕西都曾盛讚為“令人驚嘆的科幻級爆發現象”的開源AI Agent助手OpenClaw,已經超越了所有GitHub開放原始碼軟體項目,正式成為史上最受歡迎開放原始碼專案。OpenClaw本質上是一個能直接操作你電腦的AI Agent,開發者們瘋狂地為它接入各種大模型,只為了一個目的:讓AI真的動起來,幫自己幹活。這兩件事看似沒有關聯,但他們都不約而同地反映出2026年AI發展的一個核心趨勢,那就是:AI正在從能聽懂你的話,進化到可以幫你做事了。01. 階躍星辰新模型,憑何成為全球爆火OpenClaw玩家的擁躉?同樣是使用OpenClaw來幹活,活幹得怎麼樣,背後的大模型就至關重要。在知名模型聚合平台OpenRouter上,OpenClaw的呼叫量榜單成了衡量模型“動手能力”的直接體現。就在3月2日,國內大模型頭部創企階躍星辰在2月新開放原始碼的Agent基座模型Step 3.5 Flash單日呼叫量已超過40B,在OpenClaw的呼叫量榜中排名第二,超過Kimi K2.5、Gemini 3 Flash Preview、Claude Sonnet 4.5等一眾國內外主流模型。對於OpenClaw這種需要複雜推理、長時間運行的Agent系統,使用者更加傾向速度快、推理強、成本低的模型。而Step 3.5 Flash恰恰滿足了OpenClaw使用者的痛點。Step 3.5 Flash採用稀疏MoE架構,每個token僅啟動約110億參數(總計1960億),在單請求程式碼類任務上最高推理速度可達每秒350個token。在Agent場景和數學任務上,Step 3.5 Flash的能力逼近閉源模型,能夠勝任複雜、長鏈條任務,是階躍星辰迄今最強的開源基座模型。這款模型一經發佈,便受到大量海外開發者的關注好評,向來低調的階躍星辰研發團隊,罕見現身Reddit r/LocalLLaMA社區回答全球開發者有關Step 3.5 Flash的提問。有開發者提問:在規劃Step 3.5 Flash時,你們是否心中已經瞄準了這個特定的“最佳平衡點”:89 tokens/參數,並且正好卡在消費級硬體規模的上限(128GB 用於 Q4 量化,11B 啟動參數以保證實用的運行速度)?階躍星辰CTO朱亦博回覆稱,團隊的確有明確目標,即讓相關模型能夠運行在128GB記憶體系統中。他發現,目前市場上約230B規模的模型,剛好超出了其個人MacBook Pro裝置4位量化的承受範圍,因此他便要求團隊對模型規模進行了適當縮減。從開發者的角度去研發產品,而不是讓開發者來適應產品。有開發者說,這正是他覺得興奮的地方。有外網網友分享稱,對Step 3.5 Flash的印象很深刻,已經將該模型作為自己OpenClaw的主力Agent。02. 有求必應,階躍星辰Step 3.5 Flash全鏈路“開誠布公”在與階躍星辰研發團隊的溝通中,有開發者希望階躍星辰可以將基礎模型與指令/思考模型一起發佈,這樣社區就可以對它進行微調了。階躍星辰對開發者有求必應,今天,階躍星辰將Step 3.5 Flash的Base 權重、Midtrain 權重、Steptron 訓練框架一同開源,希望通過更徹底的開源,讓開發者能夠以Step 3.5 Flash為基座進行更深度模型定製,打造真正屬於自己的Agent。這一舉動在當前大模型開源趨於保守的環境下,顯得頗為徹底。開源不到 24 小時,海外社區對階躍星辰的進一步開放原始碼的反饋十分熱烈。還有開發者讚歎說,Step 3.5 Flash速度十分驚豔,與OpenClaw的自然相容性也很出色。03. 開發者用腳投票:從應用出發,才能讓AI更好地應用從全球開發者們使用大模型建構Agent的實踐反饋中,我們也可以看出:最近一兩年,AI的核心是“理解使用者”,大模型比拚的是誰更懂人的語義、誰的上下文更長。而2026年的分水嶺在於,AI的核心正在向“執行任務”遷移,比的是誰能讓AI真正操作工具、誰能幫人類做更多的事情。而階躍星辰的技術路線,正是圍繞著“讓AI做事”展開。在階躍星辰團隊與全球開發者的交流中,他們說了這樣一句話:“Step 3.5 Flash的目標,從一開始就是三件事:智能密度、推理與生成速度、Agent 能力。目標清晰後,演算法、資料與基礎設施會自然對齊。”這句話很清晰地反映出了階躍星辰“讓AI做事”的技術路徑。在他們的邏輯裡,一個模型好不好,不再只看它在基準測試上刷了多少分,而是看它能不能在開發者的本地機器上跑起來、跑得快、跑得穩。最近,階躍星辰也登上了央視焦點訪談,首席戰略官李璟在節目中說到,在這半年以來,階躍星辰在AI應用與融入人們生活的方面投入了更多的研發力量,如今的AI正在從“能聽懂你的話”進化為“能幫你做事”。以應用來作為牽引指導多模態的發展,用應用落地的目標倒推基座大模型的研發,是階躍星辰的發展主線。04. 結語:階躍星辰選擇了一條難走但正確的路如果說2025年是國產大模型的“爆發之年”,那麼2026年或將成為AI的“分水嶺”,誰能找準AI落地價值與場景,誰就有可能突出重圍。階躍星辰認準的“應用牽引多模態發展”發展路徑,是一條難走但正確的路,他們認準AI的價值不在於對話,而在於它能走進多少人的生活,能幫人們做到多少事。這或許正是國產大模型從“流量競爭”走向“價值競爭”的一個縮影。喧囂終會退去,真正留下的是那些能紮根場景、解決實際問題的技術。 (智東西)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)
九位具身大佬談:去年量產遭遇了那些難題,今年落地仍有那些瓶頸?
春晚之後,2026年中國兩大科技主線已經明確:巨頭之間的AI(大模型)之戰,創業團隊之間的具身(機器人)之戰。其中更為性感的、也更為產業所熱議的,自然是後者,具身機器人之戰,尤其是2026年正在成為具身機器人從“量產”到“落地”的關鍵一年。僅僅是在開年這一周時間裡,就出現了五起大額融資——千尋智能兩輪近20億元融資,智平方超10億元B輪融資,銀河通用25億元A+輪融資,松延動力近10億元B輪融資,以及優理奇3億元股權融資。經過這一輪資本加持,中國具身智能賽道已經跑出至少7家百億級獨角獸企業:宇樹、智元、銀河通用、星海圖、智平方、自變數、千尋智能。然而,在具身機器人經歷了第一波量產嘗試後,在市場熱情再次被燃燒起來之時,整個產業更需要反思的是:2025年,在第一波具身機器人量產過程中,暴露出了那些問題?2026年,在又一波具身機器人落地浪潮下,有那些確定性瓶頸和趨勢?就這兩個關乎具身機器人產業未來走向的問題,我是在近期舉辦的人形機器人與具身智能標準化年會上,聽到了一場含金量極高的對話,參與這場對話的均為中國具身領域頭部機構的從業者——智源研究院院長王仲遠、星動紀元創始人陳建宇、星海圖創始人高繼揚、清華大學教授汪玉、自變數機器人創始人王潛、眾擎機器人創始人趙同陽、 帕西尼創始人許晉誠、加速進化創始人程昊,以及它石智航首席科學家丁文超。從這九位具身機器人頭部機構從業者的深入研討中,我們找到了上述兩個問題的些許答案。01 具身機器人量產,N個“一致性”難題問:具身機器人量產過程中,最難啃的“骨頭”是什麼?陳建宇:量產過程中,我們認為有兩個比較大的問題:第一,“一致性”問題。因為機器人鏈條很長,從供應鏈、零部件,到整機、系統、演算法,每個環節都可能出現一些小的變數影響一致性。例如,我們之前遇到過這樣一個問題:同一批次造出的人形機器人,有幾台走路走得總是不好,後來查了半天發現,工人在電機組裝的打膠水環節中,有幾台打得不太好,這種問題在實際生產環境中並不少見。後來的解決方案是,我們設定了多層關卡和閘門,一層層把風險排除掉。第二,因為具身機器人這類產品太新了,我們往往無法提前考慮到所有問題,特別是在我們自己小批次內測時,可能會存在沒有考慮到的問題。例如我們之前有一款在售產品,推出一段時間並沒有出現任何問題,後來我們一位大客戶,買的量比較多、用得比較久,使用場景也比較重,在他們使用過程中,出現了一些我們完全沒有預料到的問題。這樣的問題是目前難以避免的,但是我們可以做兩件事情:第一,快速迭代, 遇到問題後,快速想辦法把問題分析解決掉;第二,形成經驗“錯題本”,不斷積累,避免下次出現同類問題。高繼揚:整機和智能的聯動是一個很重要的問題。我們通過生產、工藝能夠保證一定的一致性,但最終發現,每台機器人之間依然存在細微差異,加上基礎模型之後,這些細微差異就會被放大。這就需要有一個標定的過程,將整機中的各種感測器、機械結構,在一個統一的數學空間中做出標定,並與模型完成聯動。基於此,不僅整機有量產,智能也有了一個量產的過程,中間的聯動就靠標定,這是在機器人或者具身智能量產過程中,比較獨特的問題。王潛:兩位講的都是我們所能控制的部分,在我們自己的生產、標定當中,依然存在一部分我們自己控制不了的部門,就是供應鏈問題。我印象特別深刻的是,有一次我們有一個電機,老是出現一些不規則的、難以預測的損壞情況,我們當時覺得很奇怪,為什麼在我們友商那裡,用同樣的電機,他們沒有碰到這樣的問題。後來我們發現,因為大家使用的工況不同,友商使用的是比較常見的工況,供應商針對這個工況做的最佳化比較好,我們雖然也在供應商標定工況之內,但是可能供應商有點偷懶,沒有把那部分的測試和最佳化做好。這也凸顯出了標準工作的重要性,如果我們有一套足夠完備的標準,能夠把這類情況規範起來,就可以避免這類問題發生的。但是目前階段,還是不可避免地會走一些彎路,依然需要我們不斷積累,在各類環境中大量使用和測試,包括量產,才可能讓這些問題暴露出來,這是產業鏈一個發展過程。趙同陽:首先,關於量產,我們要有一個清晰的定義。從去年到現在,人形機器人數千台規模的出貨量,相較於汽車行業而言,只能算是“小批次試產”。相對於百年的汽車行業而言,機器人現在所處的階段還遠未到量產階段,這是一個事實。這其中,供應鏈的發展也還遠未達到量產階段。像汽車,從輪胎、減速器,到玻璃、方向盤,每一個零部件都有幾十家,乃至上百家成熟的供應商,經過近百年的發展,而機器人行業,尤其是人形機器人行業,只是在近兩三年才得到高速發展。從機器人的供應商來看,目前可選的並不多,質量也還在一起探索階段。另外,這個行業到目前依然處於快速發展階段,產品迭代很快,這使得像模具的生產製造,大家都不敢放開手去做。由於行業發展非常快,一個產品可能只有1-2年的競爭力,假如企業備了幾十萬台的貨,有可能在下次競爭中就會被淘汰,導致企業出現大量庫存,這就使得我們和供應鏈廠商都不敢大規模進行產品量產,也就導致整個供應鏈會有一點卡滯。此外,小型人形機器人和大型人形機器人的標準要求也不一樣,小型人形機器人運動能力對機械強度等方面要求不是特別高,但大尺寸人形機器人要又蹦又跳,要承受10g-20g的加速度,還要保證齒輪不斷裂,需要從模擬到設計上慢慢驗證。有些東西甚至無法模擬或設計出來,只能測試出來,這些都是我們整個行業在現階段要去解決的問題。丁文超:大家講的很多是關節的、控制的一致性,我們遇到的一個問題是,如何保證大腦、小腦以及本體協同的一致性。例如機器人要送去進行作業,機器人全生命周期的各種動態性能,包括力觸的感知都是動態變化的,但企業發佈的其實是“本體+模型”,如何保證大腦也具有一致性、量產性,其實是我們現在正在解決的問題。這個問題不僅僅是一個硬體問題,還有很多大腦層面的訓練、資料使用技巧都可以加進去,讓機器人在整個生命周期,無論遇到怎樣的損耗、老化,都可以保持模型的泛化能力。02 具身機器人落地,26年如何造大腦?問:2026年,要讓機器人真正具備泛化能力,並在各個場景中發揮價值,還需要在那些方面進行突破?王仲遠:過去這幾年機器人之所以受到如此高的關注,不僅是因為硬體的發展,也是由於人工智慧,尤其是大模型的突破,為具身智能帶來了新的變數。具身智能和傳統的大模型相比,它需要和硬體耦合在一起,不像純數字世界,可能大模型本身可以直接發揮價值,但具身智能既需要有模型能力本身的提升,又要依賴硬體,複雜性更高。具身智能現在依然非常缺乏高品質資料,這就要求具身智能的資料除了從網際網路模擬環境中獲取以外,一定要有真機資料。當然,這些真機資料如何高品質、標準化地獲得,這就是標委會可以重點推進的一些事項。展望未來,尤其是今年,我覺得可能分兩部分:第一,就企業實際落地來看,我相信依然會以VLM+VLA,或者純VLA為主,在具體的場景中做資料閉環打磨;第二,就科研角度來看,會將重心放在世界模型,放在推進下一代真正具備泛化性的具身智能模型。陳建宇:2026年,我們有兩個重點:第一,資料閉環。經過過去兩年的發展,端到端VLA模型的一些範式已經開始標準化,這時,提升資料質量就成了提升模型能力最高效的途徑。第二,模型範式的提升。當前比較標準的VLA模型主要是基於模仿學習的範式,如何為機器人建立更好的理解物理世界的模型,幫助機器人更好、更范化、更精細地完成各類物理世界中的任務,這也需要進行範式的探索。高繼揚:現在看機器人大腦這件事,主要分為三部分:資料的形態、預訓練怎麼做、後訓練怎麼做。預訓練,去年大家都在做VLA,今年明顯的趨勢是往世界模型在走,這是一個確定性的趨勢;後訓練,去年主要是SFT的模仿學習微調,今年明確在向強化學習方向去走;資料形態,現在具身智能有很豐富的資料形態,從傳統的遙運算元據,到UMI資料,再到我們最近和輝達有一個基於EgoScale框架的合作,是用POV資料觀測自己的雙手怎麼去做,沒有佩戴任何其它輔助裝置,也有很好的預訓練效果。這三個方面,都會在今年有集中的體現。汪玉:從演算法發展的角度來看,後訓練是從SFT向IL(模仿學習)、RL(強化學習)的方向走。現在如何做強化學習,特別是如何將現有算力高效地用於強化學習,這是在雲端要考慮的問題。邊端如何讓機器人在百分之七八十精準率的情況下,進一步通過真機的強化學習能夠將特定認為的精準率提升到99%,乃至100%,這是今年重點要突破的。此外,就具身資料而言,資料的“量”很重要,“質”也很重要。特別是針對資料的“質”,我們看到,做真機強化學習時,實際場景中沒有做好的資料如何回流,如何加入到典型資料中,讓機器人能夠不斷學自己做不好的事情,我覺得是一個關鍵問題。王潛:模型架構本身是一個大的方向。兩年前,還有很多人在做單點任務的小模型,去年大家開始去做VLA,今年大家開始做世界模型。整體上是在往越來越統一、越來越全能的方向發展。但是我們看模型的輸出,有輸出動作,有輸出世界模型對於未來狀態的預測,但其實我們希望模型學到的倒不一定是這些東西,我們更希望模型學到一些物理世界的規律,例如物體的屬性或者更加本質的東西。其實我們自己認為,VLA模型、世界模型並不是相斥的關係,它們在更大框架下是相互幫助,所以我們提出了物理世界基礎模型,這個詞讓大家稍微有一點費解,後來我們把這個詞改成了世界動作模型。我們的看法是,不同任務之間的相互協同是具身模型非常顯著的特點。不同時間的任務,互相之間有大量本質性交叉,這是基於預訓練基礎模型架構的一個大的發展趨勢。當然中間會有百花齊放,有的團隊更注重世界模型,有的團隊更注重動作的訓練。另一方面,最近兩年後訓練獲得了很大的進展。例如很多團隊已經能夠在某些單點場景上做相當優秀的後訓練,特別是強化學習,能夠獲得非常不錯的、前幾年做不到的一些效果。這很大程度依賴於預訓練模型的發展,不管是在具身模型上,還是之前在語言模型上看到的明顯特點,如果預訓練模型沒有很好的基礎,強化學習效果會很差。關於資料,我看到的一個大趨勢是,資料生產逐漸從單點的known-how轉向工業體系。之前大家對於資料的理解是在一個地方有一個口傳心授的秘訣,另外一個地方有單點的模型進行處理,但是現在整體的趨勢是,資料越來越向工業化的方向發展。我們正在以一個完整、可控制、可大規模複製的方式去生產資料,我們也有成體系的 benchmark或模型閉環,這也是我們自己會非常重視和大力度投入的方向,基本上是這樣。趙同陽:早期我們把人形機器人當成一個工具去使用,看重的是機器人的工具屬性,工具要做的就是足夠快、足夠精準、失敗機率足夠低,我們自己內部也在用世界模型、強化學習讓它的失敗機率更低一些。但是人類已經有很多工具,還在乎多一種新的工具嗎?除了工具屬性,接下來人形機器人會帶來更多情緒價值。我們賦予它“雙眼”,讓它能看清這個世界,賦予它“雙耳”,讓它能聽懂這個世界,賦予它“觸覺”,讓它能夠感知這個世界……既然賦予了它這麼多能力,我們希望它不僅能為人類帶來工具屬性的價值,還能帶來情緒價值,世界模型的使用,包括情緒、情感、喜怒哀樂,我們要將它做得至少像一個人,而不僅僅是一個機器。此外,具身機器人大腦的模型還完全沒有收斂,每一家都有自己的做法,每過一兩個月都會有新的演算法出現。它不像做腿足運動控制,現在已經能跑能跳,很多東西幾乎已經超越人類現有水平,而現有的VLA模型很多還處於探索階段,模型能力只能達到人類的1/3、1/4 ,甚至更糟糕的狀態,我們也正在嘗試解決這個問題。許晉誠:我們一直嘗試在做的就是泛化的定義,我們押注在與物理世界接觸模態資訊上,只有這些資訊,才能提升整體任務的成功率。我們在機器人實驗中,加入了大量接觸模態的感測器,例如觸覺感測器,它可以讓基於Pi0這樣基座模型的一個任務的執行成功率,從20%提升到90%以上。這很大程度上提升了任務執行的成功率和泛化性,這是我認為具身機器人未來很重要的一個發展方向。物理接觸模態的資料也很重要,我們現在也在把大量接觸模態的多維觸覺資料採集下來,這對提升整體任務的成功率很重要。程昊:我們認為具身大腦是前期研發需要投入比較多的地方。在整體路線變得越來越清晰的情況下,我們更側重於在現有雙足人形機器人上,尤其是在機器人全身運動已經越來越成熟,可能今年在很多任務執行上能夠超過人類的情況下,現有的具身模型或VLA到底引入那些新維度的資料,模型通過強化學習,還是更多模態的方式,能夠在雙足人形上有更好的效果提升,這是接下來兩年我們在具身大腦上重點投入的方向。丁文超:資料和模型是我們成立第一天起就開始解決的問題,我們公司第一天就提出了一個概念,叫作“以人為中心的資料”。遙操作是通過VR/AR裝置把動作對應到機器人上,讓機器人去完成,而我們的想法是,通過可穿戴式裝置,讓人去做資料採集任務。我們設計了一整套數據採集套件SenseHub,你可以佩戴第一人稱的攝影機、穿戴手套,也可以佩戴二指指套,多種不同的終端。這樣一套數采裝置很 大的好處真正能夠深入到各行各業,所以我們現有資料不僅侷限於數采中心,我們在真實場景下的各行各業,大家能想到人能去的場景,我們都能采到資料,這對於整個模型的泛化能力的提升非常關鍵。在模型側,我們有一個落地任務,它是一個長程、柔性、高精度的任務,這是這代具身智能需要解決的問題。我們發現,在現在的世界動作模型落地過程中,關鍵在於如何將對世界的預測和動作有機結合起來。現在很多世界模型單純把它引入到VLA,很容易產生幻覺問題,對空間的幻覺、物理的幻覺會直接影響機器人最終執行的動作。如何讓機器人的物理感知,對物理的推測、對空間的推測沒有幻覺,能夠穩定可靠執行任務,這是過去這一年我們一直在解決的問題。 (鋅產業)