#模型
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
MWC圍觀、OpenClaw屠榜!2026 AI變天:從“陪聊”到“幹活”,中國開源模型成全球開發者首選
階躍星辰Step 3.5 Flash霸榜OpenClaw呼叫排行,全球開發者正在“用腳投票”AI新方向。🤖頭圖由AI生成3月2日,西班牙巴塞隆納,持續四天的世界移動通訊大會MWC 2026正式開幕。在春節後的首場全球科技盛會上,中國科技廠商的展檯面前人頭攢動。智東西在逛展時便發現,圍繞人工智慧的新技術新應用,在本屆MWC大會上無處不在。從字節跳動和努比亞合作的“豆包AI”手機到榮耀新發佈的機器人手機,展台都被來自世界各地的參會者圍得水洩不通,他們都想要親自上手體驗,看AI到底是如何操作手機、如何做事的。在同一天,一度讓全球開發者為之瘋狂,連AI大神卡帕西都曾盛讚為“令人驚嘆的科幻級爆發現象”的開源AI Agent助手OpenClaw,已經超越了所有GitHub開放原始碼軟體項目,正式成為史上最受歡迎開放原始碼專案。OpenClaw本質上是一個能直接操作你電腦的AI Agent,開發者們瘋狂地為它接入各種大模型,只為了一個目的:讓AI真的動起來,幫自己幹活。這兩件事看似沒有關聯,但他們都不約而同地反映出2026年AI發展的一個核心趨勢,那就是:AI正在從能聽懂你的話,進化到可以幫你做事了。01. 階躍星辰新模型,憑何成為全球爆火OpenClaw玩家的擁躉?同樣是使用OpenClaw來幹活,活幹得怎麼樣,背後的大模型就至關重要。在知名模型聚合平台OpenRouter上,OpenClaw的呼叫量榜單成了衡量模型“動手能力”的直接體現。就在3月2日,國內大模型頭部創企階躍星辰在2月新開放原始碼的Agent基座模型Step 3.5 Flash單日呼叫量已超過40B,在OpenClaw的呼叫量榜中排名第二,超過Kimi K2.5、Gemini 3 Flash Preview、Claude Sonnet 4.5等一眾國內外主流模型。對於OpenClaw這種需要複雜推理、長時間運行的Agent系統,使用者更加傾向速度快、推理強、成本低的模型。而Step 3.5 Flash恰恰滿足了OpenClaw使用者的痛點。Step 3.5 Flash採用稀疏MoE架構,每個token僅啟動約110億參數(總計1960億),在單請求程式碼類任務上最高推理速度可達每秒350個token。在Agent場景和數學任務上,Step 3.5 Flash的能力逼近閉源模型,能夠勝任複雜、長鏈條任務,是階躍星辰迄今最強的開源基座模型。這款模型一經發佈,便受到大量海外開發者的關注好評,向來低調的階躍星辰研發團隊,罕見現身Reddit r/LocalLLaMA社區回答全球開發者有關Step 3.5 Flash的提問。有開發者提問:在規劃Step 3.5 Flash時,你們是否心中已經瞄準了這個特定的“最佳平衡點”:89 tokens/參數,並且正好卡在消費級硬體規模的上限(128GB 用於 Q4 量化,11B 啟動參數以保證實用的運行速度)?階躍星辰CTO朱亦博回覆稱,團隊的確有明確目標,即讓相關模型能夠運行在128GB記憶體系統中。他發現,目前市場上約230B規模的模型,剛好超出了其個人MacBook Pro裝置4位量化的承受範圍,因此他便要求團隊對模型規模進行了適當縮減。從開發者的角度去研發產品,而不是讓開發者來適應產品。有開發者說,這正是他覺得興奮的地方。有外網網友分享稱,對Step 3.5 Flash的印象很深刻,已經將該模型作為自己OpenClaw的主力Agent。02. 有求必應,階躍星辰Step 3.5 Flash全鏈路“開誠布公”在與階躍星辰研發團隊的溝通中,有開發者希望階躍星辰可以將基礎模型與指令/思考模型一起發佈,這樣社區就可以對它進行微調了。階躍星辰對開發者有求必應,今天,階躍星辰將Step 3.5 Flash的Base 權重、Midtrain 權重、Steptron 訓練框架一同開源,希望通過更徹底的開源,讓開發者能夠以Step 3.5 Flash為基座進行更深度模型定製,打造真正屬於自己的Agent。這一舉動在當前大模型開源趨於保守的環境下,顯得頗為徹底。開源不到 24 小時,海外社區對階躍星辰的進一步開放原始碼的反饋十分熱烈。還有開發者讚歎說,Step 3.5 Flash速度十分驚豔,與OpenClaw的自然相容性也很出色。03. 開發者用腳投票:從應用出發,才能讓AI更好地應用從全球開發者們使用大模型建構Agent的實踐反饋中,我們也可以看出:最近一兩年,AI的核心是“理解使用者”,大模型比拚的是誰更懂人的語義、誰的上下文更長。而2026年的分水嶺在於,AI的核心正在向“執行任務”遷移,比的是誰能讓AI真正操作工具、誰能幫人類做更多的事情。而階躍星辰的技術路線,正是圍繞著“讓AI做事”展開。在階躍星辰團隊與全球開發者的交流中,他們說了這樣一句話:“Step 3.5 Flash的目標,從一開始就是三件事:智能密度、推理與生成速度、Agent 能力。目標清晰後,演算法、資料與基礎設施會自然對齊。”這句話很清晰地反映出了階躍星辰“讓AI做事”的技術路徑。在他們的邏輯裡,一個模型好不好,不再只看它在基準測試上刷了多少分,而是看它能不能在開發者的本地機器上跑起來、跑得快、跑得穩。最近,階躍星辰也登上了央視焦點訪談,首席戰略官李璟在節目中說到,在這半年以來,階躍星辰在AI應用與融入人們生活的方面投入了更多的研發力量,如今的AI正在從“能聽懂你的話”進化為“能幫你做事”。以應用來作為牽引指導多模態的發展,用應用落地的目標倒推基座大模型的研發,是階躍星辰的發展主線。04. 結語:階躍星辰選擇了一條難走但正確的路如果說2025年是國產大模型的“爆發之年”,那麼2026年或將成為AI的“分水嶺”,誰能找準AI落地價值與場景,誰就有可能突出重圍。階躍星辰認準的“應用牽引多模態發展”發展路徑,是一條難走但正確的路,他們認準AI的價值不在於對話,而在於它能走進多少人的生活,能幫人們做到多少事。這或許正是國產大模型從“流量競爭”走向“價值競爭”的一個縮影。喧囂終會退去,真正留下的是那些能紮根場景、解決實際問題的技術。 (智東西)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)
九位具身大佬談:去年量產遭遇了那些難題,今年落地仍有那些瓶頸?
春晚之後,2026年中國兩大科技主線已經明確:巨頭之間的AI(大模型)之戰,創業團隊之間的具身(機器人)之戰。其中更為性感的、也更為產業所熱議的,自然是後者,具身機器人之戰,尤其是2026年正在成為具身機器人從“量產”到“落地”的關鍵一年。僅僅是在開年這一周時間裡,就出現了五起大額融資——千尋智能兩輪近20億元融資,智平方超10億元B輪融資,銀河通用25億元A+輪融資,松延動力近10億元B輪融資,以及優理奇3億元股權融資。經過這一輪資本加持,中國具身智能賽道已經跑出至少7家百億級獨角獸企業:宇樹、智元、銀河通用、星海圖、智平方、自變數、千尋智能。然而,在具身機器人經歷了第一波量產嘗試後,在市場熱情再次被燃燒起來之時,整個產業更需要反思的是:2025年,在第一波具身機器人量產過程中,暴露出了那些問題?2026年,在又一波具身機器人落地浪潮下,有那些確定性瓶頸和趨勢?就這兩個關乎具身機器人產業未來走向的問題,我是在近期舉辦的人形機器人與具身智能標準化年會上,聽到了一場含金量極高的對話,參與這場對話的均為中國具身領域頭部機構的從業者——智源研究院院長王仲遠、星動紀元創始人陳建宇、星海圖創始人高繼揚、清華大學教授汪玉、自變數機器人創始人王潛、眾擎機器人創始人趙同陽、 帕西尼創始人許晉誠、加速進化創始人程昊,以及它石智航首席科學家丁文超。從這九位具身機器人頭部機構從業者的深入研討中,我們找到了上述兩個問題的些許答案。01 具身機器人量產,N個“一致性”難題問:具身機器人量產過程中,最難啃的“骨頭”是什麼?陳建宇:量產過程中,我們認為有兩個比較大的問題:第一,“一致性”問題。因為機器人鏈條很長,從供應鏈、零部件,到整機、系統、演算法,每個環節都可能出現一些小的變數影響一致性。例如,我們之前遇到過這樣一個問題:同一批次造出的人形機器人,有幾台走路走得總是不好,後來查了半天發現,工人在電機組裝的打膠水環節中,有幾台打得不太好,這種問題在實際生產環境中並不少見。後來的解決方案是,我們設定了多層關卡和閘門,一層層把風險排除掉。第二,因為具身機器人這類產品太新了,我們往往無法提前考慮到所有問題,特別是在我們自己小批次內測時,可能會存在沒有考慮到的問題。例如我們之前有一款在售產品,推出一段時間並沒有出現任何問題,後來我們一位大客戶,買的量比較多、用得比較久,使用場景也比較重,在他們使用過程中,出現了一些我們完全沒有預料到的問題。這樣的問題是目前難以避免的,但是我們可以做兩件事情:第一,快速迭代, 遇到問題後,快速想辦法把問題分析解決掉;第二,形成經驗“錯題本”,不斷積累,避免下次出現同類問題。高繼揚:整機和智能的聯動是一個很重要的問題。我們通過生產、工藝能夠保證一定的一致性,但最終發現,每台機器人之間依然存在細微差異,加上基礎模型之後,這些細微差異就會被放大。這就需要有一個標定的過程,將整機中的各種感測器、機械結構,在一個統一的數學空間中做出標定,並與模型完成聯動。基於此,不僅整機有量產,智能也有了一個量產的過程,中間的聯動就靠標定,這是在機器人或者具身智能量產過程中,比較獨特的問題。王潛:兩位講的都是我們所能控制的部分,在我們自己的生產、標定當中,依然存在一部分我們自己控制不了的部門,就是供應鏈問題。我印象特別深刻的是,有一次我們有一個電機,老是出現一些不規則的、難以預測的損壞情況,我們當時覺得很奇怪,為什麼在我們友商那裡,用同樣的電機,他們沒有碰到這樣的問題。後來我們發現,因為大家使用的工況不同,友商使用的是比較常見的工況,供應商針對這個工況做的最佳化比較好,我們雖然也在供應商標定工況之內,但是可能供應商有點偷懶,沒有把那部分的測試和最佳化做好。這也凸顯出了標準工作的重要性,如果我們有一套足夠完備的標準,能夠把這類情況規範起來,就可以避免這類問題發生的。但是目前階段,還是不可避免地會走一些彎路,依然需要我們不斷積累,在各類環境中大量使用和測試,包括量產,才可能讓這些問題暴露出來,這是產業鏈一個發展過程。趙同陽:首先,關於量產,我們要有一個清晰的定義。從去年到現在,人形機器人數千台規模的出貨量,相較於汽車行業而言,只能算是“小批次試產”。相對於百年的汽車行業而言,機器人現在所處的階段還遠未到量產階段,這是一個事實。這其中,供應鏈的發展也還遠未達到量產階段。像汽車,從輪胎、減速器,到玻璃、方向盤,每一個零部件都有幾十家,乃至上百家成熟的供應商,經過近百年的發展,而機器人行業,尤其是人形機器人行業,只是在近兩三年才得到高速發展。從機器人的供應商來看,目前可選的並不多,質量也還在一起探索階段。另外,這個行業到目前依然處於快速發展階段,產品迭代很快,這使得像模具的生產製造,大家都不敢放開手去做。由於行業發展非常快,一個產品可能只有1-2年的競爭力,假如企業備了幾十萬台的貨,有可能在下次競爭中就會被淘汰,導致企業出現大量庫存,這就使得我們和供應鏈廠商都不敢大規模進行產品量產,也就導致整個供應鏈會有一點卡滯。此外,小型人形機器人和大型人形機器人的標準要求也不一樣,小型人形機器人運動能力對機械強度等方面要求不是特別高,但大尺寸人形機器人要又蹦又跳,要承受10g-20g的加速度,還要保證齒輪不斷裂,需要從模擬到設計上慢慢驗證。有些東西甚至無法模擬或設計出來,只能測試出來,這些都是我們整個行業在現階段要去解決的問題。丁文超:大家講的很多是關節的、控制的一致性,我們遇到的一個問題是,如何保證大腦、小腦以及本體協同的一致性。例如機器人要送去進行作業,機器人全生命周期的各種動態性能,包括力觸的感知都是動態變化的,但企業發佈的其實是“本體+模型”,如何保證大腦也具有一致性、量產性,其實是我們現在正在解決的問題。這個問題不僅僅是一個硬體問題,還有很多大腦層面的訓練、資料使用技巧都可以加進去,讓機器人在整個生命周期,無論遇到怎樣的損耗、老化,都可以保持模型的泛化能力。02 具身機器人落地,26年如何造大腦?問:2026年,要讓機器人真正具備泛化能力,並在各個場景中發揮價值,還需要在那些方面進行突破?王仲遠:過去這幾年機器人之所以受到如此高的關注,不僅是因為硬體的發展,也是由於人工智慧,尤其是大模型的突破,為具身智能帶來了新的變數。具身智能和傳統的大模型相比,它需要和硬體耦合在一起,不像純數字世界,可能大模型本身可以直接發揮價值,但具身智能既需要有模型能力本身的提升,又要依賴硬體,複雜性更高。具身智能現在依然非常缺乏高品質資料,這就要求具身智能的資料除了從網際網路模擬環境中獲取以外,一定要有真機資料。當然,這些真機資料如何高品質、標準化地獲得,這就是標委會可以重點推進的一些事項。展望未來,尤其是今年,我覺得可能分兩部分:第一,就企業實際落地來看,我相信依然會以VLM+VLA,或者純VLA為主,在具體的場景中做資料閉環打磨;第二,就科研角度來看,會將重心放在世界模型,放在推進下一代真正具備泛化性的具身智能模型。陳建宇:2026年,我們有兩個重點:第一,資料閉環。經過過去兩年的發展,端到端VLA模型的一些範式已經開始標準化,這時,提升資料質量就成了提升模型能力最高效的途徑。第二,模型範式的提升。當前比較標準的VLA模型主要是基於模仿學習的範式,如何為機器人建立更好的理解物理世界的模型,幫助機器人更好、更范化、更精細地完成各類物理世界中的任務,這也需要進行範式的探索。高繼揚:現在看機器人大腦這件事,主要分為三部分:資料的形態、預訓練怎麼做、後訓練怎麼做。預訓練,去年大家都在做VLA,今年明顯的趨勢是往世界模型在走,這是一個確定性的趨勢;後訓練,去年主要是SFT的模仿學習微調,今年明確在向強化學習方向去走;資料形態,現在具身智能有很豐富的資料形態,從傳統的遙運算元據,到UMI資料,再到我們最近和輝達有一個基於EgoScale框架的合作,是用POV資料觀測自己的雙手怎麼去做,沒有佩戴任何其它輔助裝置,也有很好的預訓練效果。這三個方面,都會在今年有集中的體現。汪玉:從演算法發展的角度來看,後訓練是從SFT向IL(模仿學習)、RL(強化學習)的方向走。現在如何做強化學習,特別是如何將現有算力高效地用於強化學習,這是在雲端要考慮的問題。邊端如何讓機器人在百分之七八十精準率的情況下,進一步通過真機的強化學習能夠將特定認為的精準率提升到99%,乃至100%,這是今年重點要突破的。此外,就具身資料而言,資料的“量”很重要,“質”也很重要。特別是針對資料的“質”,我們看到,做真機強化學習時,實際場景中沒有做好的資料如何回流,如何加入到典型資料中,讓機器人能夠不斷學自己做不好的事情,我覺得是一個關鍵問題。王潛:模型架構本身是一個大的方向。兩年前,還有很多人在做單點任務的小模型,去年大家開始去做VLA,今年大家開始做世界模型。整體上是在往越來越統一、越來越全能的方向發展。但是我們看模型的輸出,有輸出動作,有輸出世界模型對於未來狀態的預測,但其實我們希望模型學到的倒不一定是這些東西,我們更希望模型學到一些物理世界的規律,例如物體的屬性或者更加本質的東西。其實我們自己認為,VLA模型、世界模型並不是相斥的關係,它們在更大框架下是相互幫助,所以我們提出了物理世界基礎模型,這個詞讓大家稍微有一點費解,後來我們把這個詞改成了世界動作模型。我們的看法是,不同任務之間的相互協同是具身模型非常顯著的特點。不同時間的任務,互相之間有大量本質性交叉,這是基於預訓練基礎模型架構的一個大的發展趨勢。當然中間會有百花齊放,有的團隊更注重世界模型,有的團隊更注重動作的訓練。另一方面,最近兩年後訓練獲得了很大的進展。例如很多團隊已經能夠在某些單點場景上做相當優秀的後訓練,特別是強化學習,能夠獲得非常不錯的、前幾年做不到的一些效果。這很大程度依賴於預訓練模型的發展,不管是在具身模型上,還是之前在語言模型上看到的明顯特點,如果預訓練模型沒有很好的基礎,強化學習效果會很差。關於資料,我看到的一個大趨勢是,資料生產逐漸從單點的known-how轉向工業體系。之前大家對於資料的理解是在一個地方有一個口傳心授的秘訣,另外一個地方有單點的模型進行處理,但是現在整體的趨勢是,資料越來越向工業化的方向發展。我們正在以一個完整、可控制、可大規模複製的方式去生產資料,我們也有成體系的 benchmark或模型閉環,這也是我們自己會非常重視和大力度投入的方向,基本上是這樣。趙同陽:早期我們把人形機器人當成一個工具去使用,看重的是機器人的工具屬性,工具要做的就是足夠快、足夠精準、失敗機率足夠低,我們自己內部也在用世界模型、強化學習讓它的失敗機率更低一些。但是人類已經有很多工具,還在乎多一種新的工具嗎?除了工具屬性,接下來人形機器人會帶來更多情緒價值。我們賦予它“雙眼”,讓它能看清這個世界,賦予它“雙耳”,讓它能聽懂這個世界,賦予它“觸覺”,讓它能夠感知這個世界……既然賦予了它這麼多能力,我們希望它不僅能為人類帶來工具屬性的價值,還能帶來情緒價值,世界模型的使用,包括情緒、情感、喜怒哀樂,我們要將它做得至少像一個人,而不僅僅是一個機器。此外,具身機器人大腦的模型還完全沒有收斂,每一家都有自己的做法,每過一兩個月都會有新的演算法出現。它不像做腿足運動控制,現在已經能跑能跳,很多東西幾乎已經超越人類現有水平,而現有的VLA模型很多還處於探索階段,模型能力只能達到人類的1/3、1/4 ,甚至更糟糕的狀態,我們也正在嘗試解決這個問題。許晉誠:我們一直嘗試在做的就是泛化的定義,我們押注在與物理世界接觸模態資訊上,只有這些資訊,才能提升整體任務的成功率。我們在機器人實驗中,加入了大量接觸模態的感測器,例如觸覺感測器,它可以讓基於Pi0這樣基座模型的一個任務的執行成功率,從20%提升到90%以上。這很大程度上提升了任務執行的成功率和泛化性,這是我認為具身機器人未來很重要的一個發展方向。物理接觸模態的資料也很重要,我們現在也在把大量接觸模態的多維觸覺資料採集下來,這對提升整體任務的成功率很重要。程昊:我們認為具身大腦是前期研發需要投入比較多的地方。在整體路線變得越來越清晰的情況下,我們更側重於在現有雙足人形機器人上,尤其是在機器人全身運動已經越來越成熟,可能今年在很多任務執行上能夠超過人類的情況下,現有的具身模型或VLA到底引入那些新維度的資料,模型通過強化學習,還是更多模態的方式,能夠在雙足人形上有更好的效果提升,這是接下來兩年我們在具身大腦上重點投入的方向。丁文超:資料和模型是我們成立第一天起就開始解決的問題,我們公司第一天就提出了一個概念,叫作“以人為中心的資料”。遙操作是通過VR/AR裝置把動作對應到機器人上,讓機器人去完成,而我們的想法是,通過可穿戴式裝置,讓人去做資料採集任務。我們設計了一整套數據採集套件SenseHub,你可以佩戴第一人稱的攝影機、穿戴手套,也可以佩戴二指指套,多種不同的終端。這樣一套數采裝置很 大的好處真正能夠深入到各行各業,所以我們現有資料不僅侷限於數采中心,我們在真實場景下的各行各業,大家能想到人能去的場景,我們都能采到資料,這對於整個模型的泛化能力的提升非常關鍵。在模型側,我們有一個落地任務,它是一個長程、柔性、高精度的任務,這是這代具身智能需要解決的問題。我們發現,在現在的世界動作模型落地過程中,關鍵在於如何將對世界的預測和動作有機結合起來。現在很多世界模型單純把它引入到VLA,很容易產生幻覺問題,對空間的幻覺、物理的幻覺會直接影響機器人最終執行的動作。如何讓機器人的物理感知,對物理的推測、對空間的推測沒有幻覺,能夠穩定可靠執行任務,這是過去這一年我們一直在解決的問題。 (鋅產業)
【MWC 2026】高通甩出3nm旗艦AI晶片,讓智能手錶能跑大模型
10分鐘充電約50%,首創六重連接解決方案。芯東西3月2日巴塞隆納報導,剛剛,高通在2026世界移動通訊大會(MWC 2026)上發佈新一代旗艦可穿戴晶片——驍龍可穿戴平台至尊版。驍龍可穿戴平台至尊版採用3nm製程,整合了升級的CPU和GPU,採用全新5核CPU架構。與前代平台相比,其CPU單線程性能提升最高可達5倍,GPU最高FPS性能提升可多至7倍,並提供多達10TOPS的AI算力、可支援在裝置端運行20億參數的AI模型。這是高通面向個人AI裝置推出的迄今最先進可穿戴平台,也是高通首次將“至尊版”品牌標記引入可穿戴領域。高通基於四大核心技術對該平台進行了最佳化,包括端側AI、性能、續航、連接性。最佳化AI體驗方面,驍龍可穿戴平台至尊版整合的eNPU、高通Hexagon NPU、感測器中樞共同工作,使近身的AI終端能夠更深入地理解使用者的日常生活情境。其中,eNPU是高通顯著增強面向低功耗用例的專用AI加速器,能幫Hexagon和MCU分擔AI工作負載,可通過高通AI Runtime(QNN)程式設計。eNPU支援在裝置端運行關鍵詞偵測、動作識別等環境感知類的“低功耗島始終開啟”任務,並支援語音通話回聲消除、噪音抑制等主動模式用例。高通還在可穿戴平台上首次引入了專用Hexagon NPU,使裝置端可直接運行參數規模達20億的模型,首個token生成時間為0.20秒,最高每秒生成10個token。基於驍龍可穿戴平台至尊版,終端能有效處理來自語音、視覺、位置以及各類感測器的多模態輸入,打造個性化的AI智能體,在工作、學習、健康及日常生活的方方面面為使用者提供支援。續航也是一大亮點,驍龍可穿戴平台至尊版可實現日常使用時長(DOU)延長30%、10分鐘充電約50%。連接方面,該晶片首創六重連接解決方案,包括5G RedCap、超低功耗Wi-Fi、藍牙6.0、UWB超寬頻、窄帶非地面網路(NB-NTN)衛星通訊、全球導航衛星系統(GNSS)這6項連接技術。三星宣佈智能手錶會搭載驍龍可穿戴平台至尊版,聯想旗下摩托羅拉也分享了與高通在可穿戴領域的合作。如今,AI模型不斷向更小型化、更高效率方向演進,個人AI終端需要能在裝置本地支援更複雜且持續運行的AI工作負載,並具備更強大的連接能力。通過這些設計,驍龍可穿戴平台至尊版在性能與時延之間實現了更好的平衡,既能更好滿足智能體驗隨時可用的需求、實現當下消費者所期待的高響應體驗,同時又不犧牲產品的尺寸、能效、佩戴舒適度或可用性。 (芯東西)
大模型告別技術奇觀:日活飆升背後,如何幫使用者玩轉AI?
在馬年春節各家大模型應用暴漲的日活資料背後,存在一個迴避不了的客觀情況,大模型不同於點選就能使用的外賣或出行軟體,它有著非常具體的認知和操作門檻。 普通使用者領完紅包、拿到應用權限後,面對介面上空白的輸入框,往往不知道該輸入什麼指令。 玩不轉AI,領完“雞蛋”之後,使用者自然也不會再用AI。封圖:圖蟲創意馬年春節,國內的科技大廠們拿起了慣用的老招數——紅包大戰。目的只有一個,把自家的旗艦大模型推到神州大地上每一位普通使用者面前,這場砸錢拉新的盛況,在微博上被網民調侃為“一代人有一代人的免費雞蛋要領”。百度文心助手宣佈投入5億元啟動春節紅包活動;騰訊元寶啟動10億元現金紅包活動,通過社交網路進行使用者裂變;阿里千問上線了春節30億元大免單活動;字節跳動豆包則宣佈與央視春晚進行深度合作,在除夕當晚送出10萬份科技好禮和現金紅包。依靠密集的現金補貼和大型晚會的集中曝光,豆包、千問、螞蟻阿福和元寶等人工智慧應用,在春節期間輪番登頂了蘋果應用程式商店免費下載榜。短期的大規模資金投入換來了直接的資料增長。公開資料顯示,春節期間阿里千問完成近2億次下單,其中60歲以上使用者達到400萬;字節豆包人工智慧總互動達到19億次,幫助使用者生成了超過5000萬張新春頭像和超1億條祝福語,大模型每分鐘處理令牌數(TPM)峰值達到633億;騰訊元寶日活躍使用者超過5000萬,月活躍使用者達到1.14億,春節主會場累計抽獎次數超36億次,完成了超10億次人工智慧創作。大批普通使用者在此期間在手機上安裝了多個人工智慧應用,公開資料顯示,截至2月上旬,阿里千問的日活躍使用者數達到7352萬,豆包日活躍使用者數達到7871萬,元寶日活躍使用者數達到1828萬。在全球範圍內,中國人工智慧模型的呼叫量也呈現出高速增長。監測資料顯示,2026年2月中旬,中國模型的呼叫量首次超過美國模型,2月16日至22日期間,中國模型的周呼叫量達到5.16兆Token,三周內增長127%,底層計算成本的下降,為大模型廠商在春節期間進行全民範圍的市場推廣提供了基礎條件。流量的峰值可以靠資金拉動,但要做好使用者的留存還需要習慣來支撐。在馬年春節各家大模型應用暴漲的日活資料背後,存在一個迴避不了的客觀情況,大模型不同於點選就能使用的外賣或出行軟體,它有著非常具體的認知和操作門檻。普通使用者領完紅包、拿到應用權限後,面對介面上空白的輸入框,往往不知道該輸入什麼指令。玩不轉AI,領完“雞蛋”之後,使用者自然也不會再用AI。如果沒有具體的應用環境和明確的操作指導,春節一過,新鮮感退潮,應用的打開率自然會往下掉。所以,單純靠發錢拉新的招數已經摸到了天花板。AI應用想在使用者的手機裡紮根,廠商們亟須一個能讓使用者互相交流用法的內容生態平台,讓那些剛下載好APP的新使用者,看到別人都是怎麼玩轉AI的,自己又能如何抄作業。抹平認知門檻技術的普及規律歷來如此,產品完成底層突破後,首要任務是儘可能降低普通使用者的使用門檻。2025年春節期間,市場對DeepSeek的關注主要停留在技術突破和研發成本層面,使用者關注的是模型參數和開源路線。到了2026年春節,可以明顯看到社交平台上,普通使用者的討論方向發生了實質性轉移。根據第三方資料,2月1日至2月18日整個春節周期內,微博就累計產生了371個人工智慧相關的熱搜,閱讀量達到127億,互動量近2690萬。其中千問相關熱搜達到190個,元寶相關熱搜53個,豆包聯動春晚相關熱搜42個。而討論的核心已經從國產自主技術突破這種單一新聞事件的討論,徹底轉向產品玩法、操作教學和具體問題的解決方案。以字節跳動發佈的Seedance 2.0視訊生成模型為例。該模型支援文字、圖像、視訊、音訊四種輸入模態,並具備自動分鏡和原生音視訊同步功能。底層模型生成能力很強,但普通使用者很難精準描述長串的鏡頭語言和畫面細節。在大眾的認知裡,用大模型生成視訊似乎非常簡單,在輸入框裡敲一句話就能出片。但實際情況是,文生視訊大模型存在極高的操作門檻,一個普通使用者腦子裡有清晰的畫面,卻很難用具體的文字去精準描述鏡頭推拉、光影調度和動作細節。面對複雜的生成工具,絕大多數使用者根本不知道該怎麼用文字去表達自己想要的視訊效果。在這個階段,微博上不同領域的創作者直接填補了這項空白,他們針對新發佈的模型,編寫並行布了詳細的提示詞範本。例如,知名設計博主Simon_阿文就在微博上發佈了針對Seedance 2.0的實操測試內容。他向使用者展示了如何通過具體的提示詞控制複雜的畫面。在製作一段科技產品風格的視訊時,他指出僅靠單句指令很難達到理想效果,他隨後在提示詞中增加了暗底背景、局部掃光、部件爆炸檢視和極簡參數展示等具體的視覺要素。加入這些限制條件後,模型精準輸出了具有專業廣告質感的視訊,這種將專業視覺元素轉化為結構化文字的拆解過程,直接為普通使用者提供了一套現成的操作參考。除了這種針對提示詞的進階拆解,微博上還湧現了大量保姆級的新手教學,不少博主將視訊生成的邏輯提煉為“誰在做什麼動作加在什麼環境裡加鏡頭怎麼拍”的基礎公式,並且把新手容易踩坑的盲區一一列出,讓零基礎的使用者也能直接套用出片。普通使用者不需要研究底層參數和複雜的演算法機制,他們可以在微博上直接複製這些博主分享的提示詞範本,替換其中的主體名詞和環境設定,就能生成高品質的視訊內容。這種基於微博大V分享的圖文和視訊教學,把複雜的模型指令變成了普通人能看懂的操作步驟。在微博等平台創作者的帶動下,不同廠商大模型產品順理成章地完成了最艱難的使用者教育環節。還原真實場景工具的價值,最終要在具體的使用場景中完成閉環。大模型應用廠商在研發階段無法預判所有的生活細節和使用者需求,真實的剛性需求往往在群體互動和具體的現實問題中產生。春節期間,不少使用者就在微博上自發拓展了大模型的實際用途,將技術工具嵌入到日常的生活當中。在社互動動中,面對節日期間親戚的常規提問,知名微博博主默庵·超級個體分享了使用阿里千問生成反套路回覆的方法。他在提示詞中要求模型扮演話術軍師,針對工資、對象、買房等問題,生成不敷衍、幽默且不失禮貌的回覆,他要求模型為每個問題提供不同風格的應對選項,並直接通過對話生成配套的漫畫梗圖。熱門影視IP也為大模型提供了天然的創作環境。在電影《鏢人》上映時,微博發起了相關的二次創作活動,大量創作者通過大模型對電影中的武俠人物進行重新演繹。創作者米啦女士將電影中的角色轉化為貓咪形象,創作者鈴蘭ninja利用生成技術製作了原版電影中不存在的偶遇財神爺的搞笑情節視訊,創作者安建明利用大模型生成了具有大漠風沙質感的動態視訊,創作者共生藝術運用指令,將傳統的武俠風格轉換為機甲科技風格。原本侷限於文字創作的博主,現在通過幾句指令就能產出高品質的視訊內容。大模型工具釋放了文字創作者的視訊生產力,拓展了內容的表達形式,平台也因此獲得了更為豐富的優質視訊內容。除了文娛二創與社互動動,這種基於大模型的創作方式正在向更多維度延伸。在微博上,無論是美食、旅遊,還是情感與健康科普,不同圈層的創作者都在利用人工智慧應用尋找新的圖文與視訊表達方式。值得一提的是,今年春節期間,市場上出現了一個特殊現象。不少大模型廠商在電視螢幕上投放了長達幾十秒甚至一分鐘的廣告,不同於以往快消品塑造品牌形象的打法,這些廣告的內容高度一致,高密度地口播大模型究竟能解決那些具體的生活問題。這種做法直接暴露了行業的普遍焦慮,廠商們急於告訴普羅大眾,花重金推到他們面前的AI工具到底有什麼用。但面對具有操作門檻的前沿科技產品,單向的電視口播很難讓觀眾建立起實際的使用習慣,老少皆宜的電視螢幕,無法提供直接的操作反饋和交流空間。脫離了具體使用環境的技術,只能停留在測試階段,智慧型手機和新能源汽車的普及,都經歷了從硬體比拚到日常場景滲透的過程。隨著春節檔的流量洪峰退去,各大模型廠商依靠“發雞蛋”拉了一大波新使用者。但隨著行業競爭回歸日常,各大廠商都需要依託微博等平台上成熟的創作者生態,讓普通使用者在不同的使用場景下獲取操作攻略,將技術工具融入社交、娛樂和資訊檢索的實際需求中。畢竟,“發雞蛋”可以換來一時的下載量,但薅完羊毛之後,最終目的還是要讓使用者真正把大模型用起來。 (經濟觀察報)
全球AI大模型全景解析:ChatGPT、Grok、微軟、Google與中國代表模型同台對比
當前全球人工智慧大模型賽道已形成多元競爭格局,國際陣營與中國本土模型各有技術路線與場景優勢,共同推動AI技術走向普及化、實用化。OpenAI的ChatGPT作為全球通用大模型的標竿,綜合能力均衡全面,在邏輯推理、程式碼編寫、專業創作與多模態理解上保持領先,外掛生態成熟完善,是全球專業辦公、學術研究與海外業務的主流選擇,產品風格嚴謹穩定,適配各類高要求任務場景。xAI的Grok憑藉鮮明特色快速崛起,依託X平台即時資料接入,對全球熱點與時事動態響應迅速,產品風格個性直接、迭代節奏激進,同時與特斯拉車載、智慧型手機器人生態深度聯動,更受科技愛好者與追求前沿體驗的使用者青睞。微軟依託與OpenAI的深度合作及自研佈局,形成了以Copilot為核心的AI體系,全面融入Windows、Office、Azure等生態,在文件處理、表格分析、簡報製作等辦公場景體驗極致,同時整合Claude模型能力,兼顧企業級服務的穩定性與效率,小參數模型Phi系列在輕量化部署上表現突出,成為辦公場景的首選AI助手。GoogleGemini系列以超強多模態能力與超長上下文處理為核心優勢,深度聯動Google搜尋、雲端辦公與Android生態,在長文件解析、多媒體理解、科學計算等領域表現亮眼,是全場景智能體的代表產品。中國大模型立足本土需求,打造出更貼合國內使用者的實用體系。字節跳動豆包定位國民級全能AI,中文理解自然流暢,多模態創作與日常工具呼叫能力突出,深度聯動抖音、剪映、飛書等生態,使用門檻低、普惠性強,適配日常娛樂、內容創作、辦公輔助等全場景。百度文心一言依託知識圖譜與搜尋技術積累,在知識問答、複雜推理與行業解決方案上優勢顯著,政務、金融等企業級服務體系成熟,合規性與穩定性領先。阿里通義千問兼顧開源與閉源雙路線,長文字處理與多語言能力出色,深度融入電商、雲端運算生態,性價比優勢明顯。騰訊混元依託微信、QQ等社交生態,在內容生成、社交場景適配與多模態協同上表現優秀。華為盤古聚焦政企與工業場景,依託鴻蒙與算力底座,在智能製造、智慧城市等領域落地深入,安全可控能力突出。整體來看,國際模型中ChatGPT主打全能均衡,Grok聚焦即時個性,微軟Copilot深耕辦公生態,GoogleGemini領跑多模態;中國模型則以地道中文體驗、本土生態融合、安全合規與高性價比為核心優勢,更適配國內使用者的日常與產業需求。不同模型依託各自技術與生態優勢,覆蓋不同場景與使用者群體,為全球AI應用提供了豐富多樣的選擇。 (趣ai視角)