NVIDIA最新發佈《2026 年醫療保健與生命科學領域的AI現狀及未來發展趨勢》:AI正在讓看病更快、更準、更省錢
最近,NVIDIA 發佈了備受關注的《State of AI in Healthcare and Life Sciences: 2026 Trends》調研報告。這份報告基於 2025 年 8-9 月對全球 600 多名醫療和生命科學專業人士的調查(管理層與 AI 從業者各佔一半),涵蓋製藥、醫療器械、數字醫療、支付方與提供方等多個細分領域。報告用實打實的資料告訴我們:AI 已經在醫療健康行業站穩腳跟,而且正在加速從“嘗鮮”走向“規模化盈利”。過去一年,AI 的應用成熟度明顯躍升。報告直言,AI不僅幫助醫療器械廠商快速適應新法規,還大幅縮短新藥研發時間,甚至能建立人體數字孿生來輔助癌症治療。更讓人振奮的是,AI agents(智能代理)正讓醫生們把時間還給患者,而不是埋頭在文書工作裡。AI採用率持續攀升,70%企業已在實際使用報告顯示,2025年有 70% 的受訪組織正在積極使用 AI,比2024年的 63% 又上升了7個百分點。其中,生成式 AI 和大語言模型的使用率從 54% 躍升至 69%,成為最熱門的工作負載。各細分領域全面進步:數字醫療:78%(去年70%)製藥與生物科技:74%醫療器械、工具與診斷:70%支付方與提供方(醫院、保險公司等):56%(去年僅43%,大漲13個百分點)中大型企業(員工超100人)採用更多類型AI,包括生成式AI、資料分析、Agentic AI等,幾乎每個工作負載都比小企業高出約 10個百分點。生成式AI和資料分析仍是各行業前兩大重點,只有醫療器械領域把電腦視覺排在首位(59%)。預測與資料分析仍是AI核心,臨床決策支援最受歡迎65% 的組織把 AI 用於資料分析和資料科學,42% 用於支援臨床決策。這兩大應用貫穿藥物發現、影像診斷、個性化醫療等全鏈條。分行業看,用法各有側重:製藥與生物科技:藥物發現與開發(57%)、基因組應用(44%)數字醫療:虛擬健康助手與聊天機器人(52%)、臨床文件自然語言處理(50%)支付方與提供方:行政任務與工作流最佳化(52%)醫療器械:醫療影像(61%)整體而言,臨床決策支援是全行業最受歡迎的AI用例(42%),其次是醫療影像和行政工作流最佳化(各 38%)。真實盈利來了!醫療影像和藥物發現ROI最亮眼這是報告最鼓舞人心的部分:當 AI 針對具體場景落地時,回報非常明顯。醫療器械領域:57% 的企業表示醫療影像AI已產生ROI製藥企業:46%表示藥物發現與開發AI實現ROI數字醫療:虛擬健康助手與聊天機器人是最高回報用例支付方:行政工作流最佳化回報最顯著全行業來看,醫療影像、工作流最佳化、臨床文件自然語言處理是前三大ROI用例。管理層反饋:85%認為AI幫助年度收入增長80%認為AI幫助年度成本下降44% 的管理者表示收入增長超過 10%(小企業更高達56%)開源模型成“秘密武器”,82%企業視其為戰略關鍵為什麼AI能精準落地?報告給出的答案是開源。82%的受訪者認為開源模型和軟體對AI戰略“重要”或“非常重要”,其中小企業認可度更高(64% 認為非常重要)。開源讓企業能用自己的資料微調模型,打造高度專用的AI解決方案,而不是用通用大模型“將就”。推理性能(模型精準度、資料合規、成本效率)成為大家最關注的點,38% 把模型性能與合規列為首要因素,37% 最看重總擁有成本。基礎設施也在悄然變化:混合計算(本地+雲)使用率從去年的 35% 升至 43% ,純雲部署則從 41% 降至 35% 。Agentic AI初露鋒芒,47%組織已在嘗試今年報告新增了 Agentic AI(智能代理)專題,結果讓人驚喜:47% 的組織已在使用或評估AI agents其中 22% 已實際部署,19% 計畫明年部署大企業部署比例更高(27% 已部署)製藥與生物科技領域最積極:48% 用 AI agents 做藥物發現和生物標誌物識別。整體最受歡迎的 Agentic AI 用例是:知識管理和檢索(46%)文獻綜述與分析(38%)內部流程最佳化(37%)分行業看,製藥側重文獻綜述(55%)和藥物發現(48%);數字醫療最愛患者聊天機器人(49%)。不過挑戰也不小:性能可靠性(27%)、資料相關問題(隱私、安全)、監管合規是三大痛點。40%的企業表示,HIPAA、FDA審批、GDPR等合規要求是實施Agentic AI的最大影響因素。2026年AI預算大增85%,醫療AI進入“飛輪期”因為看到了實實在在的回報,企業信心滿滿:85%的受訪者表示2026年AI預算會增加近一半企業增幅超過10%預算主要流向:最佳化現有AI工作流和生產周期( 47% ,比去年上升)建構或獲取更多AI基礎設施( 34% ,比去年上升)報告總結:醫療AI正進入“飛輪階段”——早期試點成功→更多投資→更好效果→更大投資。2027年,AI 很可能從單純預測分析轉向更成熟的 Agentic 系統,在患者群體、臨床試驗、護理流程中實現端到端智能推理。總結:AI不是“未來”,已經是醫療的“現在”這份 NVIDIA 報告用 600 多份真實調研資料證明:AI 正在讓醫療更高效、更精準、更親民。無論是大藥企用 AI 加速新藥研發,還是醫院用聊天機器人減輕醫生負擔,或者保險公司用工作流最佳化降低成本,AI 都已交出漂亮答卷。當然,預算、人才、資料合規仍是需要跨越的門檻。但趨勢已經清晰:誰先把 AI 和自身業務深度融合,誰就能在 2026 年搶佔先機。 (AI資訊風向)
三年前OpenAI預測不會被AI影響的職業,正以4倍速被殘酷碾壓
2月27日,美國金融科技公司Block宣佈裁員40%,約4000人,以全面轉型為AI公司‌。AI概念戲劇性地導致其股價暴漲超20%。這家在矽谷算不上舉足輕重的公司的案例,卻透露出AI快速發展可能引發的經濟連鎖反應。在這背後,有一個數字,在過去三年被改寫了四次。2023年3月,OpenAI說:美國約19%的工人會看到超過50%的工作任務被AI影響,這個過程需要十年。2026年1月,Cognizant說:這個比例已經是30%,而現在距離ChatGPT發佈才三年。同一個月,史丹佛數字經濟實驗室在分析了2.85億條招聘廣告後發現:AI高暴露度行業的入門級崗位招聘量下降了18%-40%,而資深員工的需求在上升。如果你還在用"AI會不會搶走人類工作"這個二元問題來理解這場變革,你已經落後了。真正在發生的不是崗位的消失,而是勞動力市場結構的熔斷:入口在關閉,中間層在塌陷,而站在塔尖的極少數"AI駕馭者"正在收割一切。更可怕的是,根據Citrini Research對2028年的推演,這場撕裂才剛剛開始。01. 2023年的刻舟求劍與2026年的凜冬驟至把時鐘撥回2023年3月,ChatGPT剛剛引爆全球。OpenAI的研究人員聯合多所大學發表了一篇里程碑式的論文、《GPTs are GPTs》(生成式預訓練模型是通用目的技術)。當時,OpenAI的團隊採用了一套基於任務暴露度(Exposure)的評分模型。他們得出的結論是:美國約80%的勞動力至少有10%的工作任務會受到GPT的影響,而約19%的打工人會看到超過50%的任務被波及。更有意思的是,他們發現了一個「高薪悖論」,與過去幾十年自動化技術(如機械臂)總是最先淘汰藍領工人不同,GPT時代,薪酬越高的認知型工作,暴露度反而越高。 在技能樹上,程式設計和寫作技能與AI暴露度呈強正相關,而科學和批判性思維則被認為是「安全區」。在那個時間節點,研究人員明確標註了一個侷限性:他們沒有將視覺等多模態能力計算在內。他們那時候甚至都沒考慮到工具使用能力。在2023年的框架裡,AI仍然是一個被困在螢幕裡、只懂處理文字和程式碼的缸中之腦。他們給出的上限預測是,這場重構可能需要長達十年的時間(到2032年)才會徹底展開。時間來到2026年初,全球IT服務巨頭Cognizant發佈了他們對2023年研究的更新報告《新工作,新世界 2026》。報告的開篇就表明「我們原本預測需要十年(到2032年)才會發生的事情,現在已經提前六年就在我們眼前上演了。」資料顯示,今天美國已有93%的工作受到AI不同程度的影響。Cognizant用了一個指標叫「速率得分」(Velocity Score),說白了就是你的職業被AI吃掉的速度有多快。如下圖所示,此前所有職業的AI暴露度年均增長2%,現在已經躍升到9%,相當於加速了4.5倍。這意味著,那些在2023年看起來屬於「AI動不了我」的職業,現在正以4倍速度被捲進來。具體到崗位上,任務暴露度超過50%的崗位比例從2023年的0%飆升至30%(原預測2032年僅為15%),而所有任務至少暴露25%的崗位則增長了17%,達到69%。Cognizant測算,僅在美國,這相當於將價值4.5兆美元的人力勞動成本轉移給了AI,約佔美國GDP的15%。這種加速是從那兒來的呢?報告用了一個很細的分類,描繪了不同暴露度的分層。E0 (No exposure) - 完全不暴露,32%的任務E1 (Direct exposure) - 直接用GPT就能省一半時間,10%的任務E2 (LLM+ tools) - 需要配套軟體但可行,17%的任務E3 (With image capability) - 加上視覺能力後可行,17%的任務Full automation - 完全可自動化,10%的任務(這是2023→2026最大的躍升,從1%到10%)從這個分類我們就可以看到,從E1到E3,也就是LLM加上多模態(眼睛與耳朵)和高級推理(大腦)以及隨之而來的Agentic AI 智能體(手與腳)帶來的改變最大。單純的ChatGPT其實影響有限(10%),但一旦Agent能使用專業工具,影響就擴大到27%,再加上視覺處理的範疇,則直接覆蓋到了44%的工作。比如一個修水管的工人,AI單獨看或想都替代不了他,但當AI能「看懂漏水的位置+推理出可能的原因+生成維修方案+自動下單配件」,那他的工作就被重構了。雖然還得他去擰螺絲,但前期診斷和後續報告都不需要他了。這種復合能力的爆發,導致了幾個在2023年無法想像的後果。第一,管理層不再安全。 曾幾何時,CEO和高管們認為協調、預算分配和決策是人類獨有的。但在2026年,Agent能夠自主安排日程、根據支出模式重新分配預算、追蹤項目進度。Cognizant的資料顯示,CEO的AI暴露度從25%飆升至超過60%。第二,藍領與物理世界的防線被滲透。 建築工人、機械師和水管工曾被認為是AI無法觸及的低風險區。但在多模態和AR穿戴裝置的加持下,AI現在能夠分析現場照片以診斷管道洩漏,或者讀取建築藍圖。建築業的AI暴露度從4%上升到了12%,交通運輸業從6%暴漲至25%。 一個水管工不會失業,但他未來的工作方式是被AI頭顯直接指揮的。按可由AI完成的任務百分比排名,Cognizant選出了受AI影響最大的六個職業。排在榜首的是財務經理,84%的工作內容可以被AI接手。換句話說,財務規劃、預算分析、風險評估這些核心任務,AI都能插上一手。電腦和數學相關職位緊隨其後,受影響程度達到67%。商業和財務營運、辦公室和行政支援這兩個大類都在60%到68%之間。法律職業63%,管理工作(包括高管層)60%。過去幾個月,軟體開發領域的變化尤其明顯。Anthropic的首席工程師鮑裡斯·切爾尼(Boris Cherny)今年1月透露了一個令人驚訝的數字:他們公司幾乎100%的程式碼,都是由自家AI產品Claude Code和Opus 4.5編寫的。「就我個人而言,我已經有兩個多月沒親手寫過程式碼了,連小修改都不做。」切爾尼說,「昨天我提交了22個拉取請求,前天提交了27個,每一個都是Claude寫的。」當然,他們發現34個職業完全沒有任何任務暴露。這些職業清一色是純體力、現場、手工活:砌磚工、屠宰工、洗碗工、石匠、輪胎修理工...這些變化,可能意味著勞動力市場的極化會加劇。高技能的人用AI變得更高產,低技能的人困在無法自動化的低薪苦活裡,中間那批能自動化但還沒完全自動化的中等技能白領工作最危險。而這正是在當下招聘市場中真實發生的事。02. 巨量資料不會撒謊:入口已經關閉,中間層正在塌陷預測看起來很緊迫,但在過去現實中的勞動力市場到底發生了什麼?當我們把目光轉向由Lightcast、PwC、Indeed、Stanford等機構彙編的過去三年(2023年-2026年)的線上招聘廣告巨量資料時,會發現很多符合預言的部分。報告當時預測,高工資職業普遍展現出更高的暴露度,並且暴露度與職業所需的程式設計和寫作技能正相關,與科學和批判性思維技能負相關。這些在招聘廣告資料裡都得到了驗證。而且方向也大體正確,即越是知識密集、文字密集、規則密集的工作,AI滲透越快;越是需要物理操作、現場判斷、人際互動的工作,暴露度越低。被超越的部分是速度。2023年的報告預測這些變化會在十年內展開,結果三年就看到了顯著的結構性變化。更重要的是,報告當時強調我們的暴露度測量不區分勞動增強和勞動替代,言下之意是技術可行不等於實際採用。但現實是,企業的採用速度比學術界預期的快得多。深入去看,我們會看到一幅被研究者命名為「混合轉型」(Hybrid Transformation)的圖景。這個溫和的學術術語掩蓋不了它的本質,即一場正在發生的階級重組。首先,在這個轉型中,得利最多的是AI使用者。截至2025年底至2026年初,純粹的「AI技能崗位」在整體招聘市場中佔比依然不高,大約在4.2%左右。 但它的增速是極其恐怖的,生成式AI相關崗位的提及率相比2023年增長了3倍以上。而且,從2023年低期,招聘開始分化,所有招聘在減少的情況下,提到AI的招聘卻在一路上行。市場對這極小部分掌握新生產力工具的人給予了極其豐厚的回報。PwC和Lightcast的資料高度一致:在同一職業中,包含AI技能要求的崗位平均能獲得15%到30%的薪資溢價,甚至在某些核心知識領域(如律師、金融分析師)工資差異能拉大到56%。這絕不是全體打工人的「共同富裕」,而是工資結構的劇烈分化。企業願意為能用AI十倍速提升產出的人付高薪,同時開始凍結那些只做傳統重複性腦力勞動的人的薪水。其次,是在這三年間,入門級白領崗位的「隱性死亡」。AI並沒有在宏觀層面造成總就業人口的斷崖式崩塌(目前招聘總數仍在疫情後常態波動),但在「新手村」,一場屠殺已經發生。史丹佛數字經濟實驗室結合ADP薪酬資料與數千萬份簡歷的分析表明,自2022年末ChatGPT爆發以來,在AI高暴露度行業中,22-25歲年輕人群的就業出現了顯著的收縮(下降約6%,軟體開發等領域甚至回落20%),而同行業的年長資深員工就業依然在增長。一篇基於2.85億條美國崗位廣告的因果識別研究估算,ChatGPT發佈後,高AI可替代性職業的崗位廣告數量相對低可替代性職業平均下降了約12%。而且這個效應對無需高學歷/無需更多經驗的入門崗位更強,分別達到18%和20%的降幅。行政支援類職位的降幅甚至接近40%。這被稱為「偏向資歷的技術變革」(Seniority-Biased Technological Change)。 過去,大公司需要招聘大量的應屆生和初級員工來做基礎的程式碼審查、資料清洗、草擬財報、整理法律文件。現在,資深員工借助幾個AI Agent就能搞定這些髒活累活。一項覆蓋6200萬勞動者的研究發現,從2023年一季度起,採用GenAI的企業初級崗位就業明顯下滑。企業不是在裁人,而是乾脆不招了。因為中級員工用上AI之後,能幹更多活。企業甚至懶得開掉初級員工,因為不招新人,讓老人自然流失就夠了。這種溫水煮青蛙式的裁員,連勞動法都管不著。年輕人進入職業階梯的「第一級台階」被AI抽走了。最後一個趨勢是,任務重寫(Task Rewriting)取代職業消亡。2013年牛津大學曾有過一個著名的恐怖預測,認為未來「47%的崗位會被自動化」。它為什麼至今沒有發生?因為職業是一個殼,裡面包裹著無數個「任務」(Tasks)。Indeed和Revelio Labs的資料顯示,崗位名稱沒有消失,但HR寫在招聘廣告裡的「崗位職責(JD)」被重寫了。 在財務、文書、初級程式碼崗位中,「日常對帳」、「生成標準程式碼」等容易被AI取代的任務佔比正在直線下降;取而代之的是,企業要求應聘者具備「複雜性管理」、「AI系統引導」、「邊緣案例解決」和「質量驗證與判斷」的能力。這印證了Cognizant的洞察。即使一個職位有39%的任務被AI接管,剩下的61%也需要人類把AI幹完的活整合起來,放入更大的商業語境中。 未來一兩年內的時代是「人類+AI」的重構,純粹的執行者被淘汰,留下的是審判者和協調者。但審判者和協調者也不需要那麼多。一個資深審判者+AI能幹過去10個初級執行者的活,企業只需要原來1/5的人就夠了。所謂的人機協作,本質上是用少數精英+AI,替代掉大多數普通人。03. 通向2028,Agent奇點與全球智能危機如果我們把當前招聘市場的「結構性擠壓」和Agent技術的進化曲線向前延伸,會發生什麼?在回答這個問題之前,先看看過去三年發生了什麼?2023年,OpenAI說改變職業結構需要十年,2026年,Cognizant說已經發生了巨變;2023年,完全自動化的任務佔1%,2026年,這個數字是10%;2023年,入門級崗位還在正常招聘,2026年,AI高暴露行業的初級崗位招聘量已經下降了18%-40%。如果這個加速度不變,2028年會是什麼樣?Citrini Research在一篇名為《2028年全球智能危機:來自未來的金融史思想實驗》的深度推演中,描繪了一個令人毛骨悚然的後奇點世界。在這個劇本中,時間線被設定在2028年6月。在2026年到2027年間,市場沉浸在一種荒誕的狂歡中。因為AI Agent的大規模部署,標普500指數和納斯達克一路狂飆,企業利潤屢創新高。勞動生產率達到了1950年代以來的最高水平。創造產品的Agent不需要睡覺,不需要醫保,也不會生病。但經濟學家們很快發現了一個致命問題,即幽靈GDP。它指的是那些在國民帳戶上閃閃發光、卻從未在實體經濟中流轉的財富。為什麼?因為北達科他州的一個GPU叢集完成了過去曼哈頓一萬個白領的工作,而機器是不會去買咖啡、交房租、看電影或者去度假的。佔美國經濟70%的消費主導型市場開始枯萎。如果我們把當前招聘市場的「結構性擠壓」和Agent技術的進化曲線向前延伸,這個詞很可能會從隱喻變成現實。過去的技術創新(如雲端運算、網際網路)大多屬於資本支出(CapEx),它創造了龐大的上下游就業。但Agent的引入是營運支出(OpEx)的直接替代。2026年,當Agentic工具(如Claude Code的進階版)迎來能力階躍時,企業CIO們發現,他們可以用內部的AI原型在幾周內替代掉每年幾十萬美金的SaaS服務。軟體公司(如ServiceNow)為了保住利潤,只能裁減自己15%的員工,並把省下來的錢投入到更強的AI工具中去抵禦競爭。這是一個沒有任何物理制動機制的負反饋循環: AI變強 → 企業裁員 → 用裁員省下的錢買更多AI算力 → AI變得更強 → 進一步裁員。被最佳化的白領們失去了收入,消費降級,導致企業收入下降,企業為了維持利潤率,只能更加激進地引入AI並裁員。財富以前所未有的速度向掌握算力資本的極少數人集中。2027年,危機的烈火將從軟體行業蔓延到了整個「中介層」。在過去五十年裡,人類社會建立了一個極其龐大的「利用摩擦力變現」的商業帝國。因為人類沒有時間、缺乏耐心、存在資訊差,所以我們願意忍受旅行平台、保險續保、房產中介的抽成。但在2028年的世界裡,消費者全面接入了個人AI Agent。這些Agent會在後台24小時不知疲倦地全網比價、自動退訂那些忘記取消的SaaS訂閱、瞬間完成房產交易的盡職調查和合同審查。傳統的訂閱經濟(賭你忘記取消)和中介經濟(賭你懶得比價)在一夜之間土崩瓦解。人類所謂的「商業黏性」,在冷酷的機器最佳化算力面前,被證明只不過是一層溫情脈脈的「摩擦力」外衣。04. 剩下的24個月幾百年來,面對盧德分子的恐慌,經濟學家總是用一句金科玉律來安慰大眾:「技術在消滅舊工作的同時,總會創造更多的新工作。」ATM機淘汰了部分櫃員,但銀行開出了更多網點;網際網路幹掉了黃頁,卻創造了電商和外賣。但這一次不一樣。因為過去的新工作,都必須由人類來做。 當AI進化為「通用智能體」(General Intelligence)時,它不僅能勝任舊工作,它在新工作上的學習速度和執行成本也遠勝人類。AI確實創造了新崗位(比如提示詞工程師、AI安全審查員),但每創造一個新崗位,就同時讓幾十個傳統高薪白領崗位變得多餘。而且,這些新崗位的生命周期極短,很快又會被下一代更強、更便宜的Agent自我迭代掉。所有的線索都在指向同一個結局。AI不會像終結者那樣在物理世界上消滅人類,但它正在以一種極其高效、極致理性的方式,重構人類社會的勞動價值網路。但這還只是問題的第一步。到了2028年,真正的問題是當一個社會裡,機器創造了99%的價值,但機器不消費、不買房、不看病、不交稅,這個社會的循環怎麼轉起來?我們可以嘲笑Citrini的2028劇本是危言聳聽,但過去三年的資料已經證明,技術的加速度遠超人類社會的適應速度。2023年,OpenAI說需要十年;2026年,Cognizant說已經發生了。那麼2028年,會不會真的出現那個GDP數字狂飆、但消費枯萎的時刻?也許答案不在技術本身,而在一個更古老的問題上,當生產力的主體不再是人類時,人類憑什麼分配財富?這個問題,亞當·斯密沒回答過,馬克思也沒回答過。因為在他們的時代,勞動永遠是人類的。Block裁掉的那4000人,華爾街歡呼的那20%漲幅,已經告訴我們資本選擇了那條路。問題是,我們選擇什麼?在2026年,我們必須回答這個問題。因為留給我們的時間,可能只剩下24個月。 (騰訊科技)
Google 發佈 Gemini 3.1 Flash-Lite:每秒 363 tokens,百萬 token 只要 $0.25
Google 剛發佈了 Gemini 3 系列的最新成員,Gemini 3.1 Flash-Lite,主打一個又快又便宜。這個模型有多快呢?輸出速度達到了 363 tokens/秒,而上一代 Gemini 2.5 Flash 是 249 tokens/秒,直接快了 45%。首個 token 的響應速度更是提升了 2.5 倍。簡單說就是,你話還沒問完,它答案都快出來了。價格也砍了快就算了,價格還降了。輸入 $0.25/百萬 tokens,輸出 $1.50/百萬 tokens。跟上一代比,輸入便宜了 17%,輸出便宜了 40%。這個價格在當前的大模型市場裡,已經屬於「白菜價」等級了。Google 的意思很明確:大規模呼叫的場景,用這個就對了。跑分不差便宜歸便宜,但跑分並沒有拉胯。在 Arena.ai 排行榜上拿了 1432 Elo,幾個關鍵基準測試的成績:GPQA Diamond(科學知識):86.9%MMMU Pro(多模態推理):76.8%Video-MMMU(視訊理解):84.8%MMMLU(多語言問答):88.9%LiveCodeBench(程式碼生成):72.0%Google 說它在推理和多模態理解上,超過了同等級的其他模型。考慮到它的價格,這個性價比確實有點離譜。動態思考Gemini 3.1 Flash-Lite 有個有意思的功能:動態思考等級(dynamic thinking levels)。開發者可以根據任務複雜度來調整模型的推理深度。翻譯、內容稽核這種簡單任務,用淺層推理就夠了,省錢省時間。生成 UI 介面、跑模擬這種複雜任務,就讓它深度思考。這就好比一個員工,簡單活兒不磨蹭,難的活兒也能啃下來,自己知道什麼時候該省力什麼時候該拚命。支援全家桶模態方面,Gemini 3.1 Flash-Lite 支援文字、圖片、音訊、視訊輸入,上下文窗口 100 萬 tokens,最大輸出 64K tokens。基於 Gemini 3 Pro 架構打造,該有的能力都沒縮水。誰在用幾家早期合作夥伴已經在用了,包括 Latitude、Cartwheel 和 Whering。反饋是:表現接近高端模型的水準,能跟複雜指令,能保持上下文理解。Google 給它定位的典型場景包括:大規模翻譯、內容稽核、客服系統、資料分析,以及任何對延遲敏感的即時應用。Gemini 3.1 Flash-Lite 目前已在 Google AI Studio 和 Vertex AI 上以預覽版提供。363 tokens/秒的速度加上白菜價的定價,Google 瞄準的就是那些需要大規模 API 呼叫的開發者和企業。 (AGI Hunt)
剛剛,GPT-5.3 新模型撞車 Gemini,OpenClaw:謝謝你們
在 AI 模型的命名玄學裡,「Instant」和「Lite」這兩個後綴,長期以來都帶著一股說不清道不明的廉價感。不是沒有原因。過去這類模型給人留下的印象,基本就是:速度快、腦子慢,做做文字總結勉強夠用,一旦碰上稍微複雜的推理任務,就開始一本正經地胡說八道。久而久之,輕量模型幾乎成了「將就用」的代名詞。就在剛剛,OpenAI 和 Google 又一次撞車,發佈了各自的輕量模型,並試圖用硬實力來扭轉這個刻板印象。省流版如下:GPT-5.3 Instant: 更具「人味兒」的智能助理,大幅降低幻覺率、減少「AI 腔」以及強化細節寫作能力,溝通更自然精準,適合對內容質量要求高的場景(寫作、專業問答、高風險領域)Gemini 3.1 Flash-Lite:便宜、快、不拖泥帶水,還支援「思考等級」調節功能,在保持高吞吐量的基礎上兼顧了深層邏輯推理,適合大規模、高即時性的批次任務(內容稽核、UI 生成、NPC 對話)GPT-5.3 Instant:終於學會像個正常人一樣聊天了經常用 ChatGPT 的人,大概都有過這種無奈:你只是隨口問個小問題,它非要先給你端上一段「作為一個人工智慧,我需要提醒你……」的長篇大論。這種總想教人做事的「AI 腔」,確實挺招人煩的。好在,OpenAI 這次是真的聽進去了。新上線的 GPT-5.3 Instant 花了很大的力氣來解決這個「毛病」。它學會了直接給出答案,不再囉里囉嗦地鋪墊。除了不愛說廢話,它也變得更靠譜了。舊版本搜完網頁之後,容易把一堆連結和不相關資訊堆到你面前。得益於搜尋能力的提升,GPT-5.3 Instant 會主動把網頁內容和自身的背景知識結合起來,先想清楚你真正想問什麼,再給出有重點的回答,而不是把搜尋引擎的工作原封不動地轉包給你。OpenAI 公佈的內部評測顯示,在聯網狀態下幻覺率降低了 26.8%,僅靠內部知識時也降低了 19.7%。官方特別提到醫療、法律、金融等高風險領域,新模型在這些場景下的謹慎程度和精準性都有明顯改善。最令人驚喜的,其實是它在寫作上的變化。OpenAI 用一首詩的對比做了說明:同樣寫一個費城郵遞員退休最後一天,舊版本傾向於堆砌「把這座城市背在郵袋裡」這類抒情句,新版本則會寫那根「掉漆的藍色欄杆」、那扇「總有狗在門口等著的柵門」。情緒不靠凹,就這樣自然而然流露出來。語氣上的調整也是此次更新的核心目標之一。「停下。深呼吸。」這類會打斷對話節奏的句式被刻意減少,整體風格更直接,少了一種不必要的「AI 腔」。使用者仍可在設定裡自訂回覆的溫暖程度與熱情度,調出自己習慣的互動風格。GPT-5.3 Instant 即日起向所有 ChatGPT 使用者開放,API 名稱為「gpt-5.3-chat-latest」。付費使用者還可以在舊版模型裡繼續用 GPT-5.2 Instant,但它將在今年 6 月 3 日正式退役。彩蛋時間Gemini 3.1 Flash-Lite:便宜、反應快,還挺聰明相比於 GPT-5.3 Instant 的好好說話,Gemini 3.1 Flash-Lite 走的是純粹的務實風,目標非常明確:就是要快,就是要便宜。價格方面,Gemini 3.1 Flash-Lite 的輸入價格是 0.25 美元每百萬 tokens,輸出價格是 1.50 美元每百萬 tokens。這是什麼概念?如果你是一個開發者,這意味著你大概花不到 2 塊錢人民幣,就能讓 AI 閱讀相當於 5 本《哈利·波特》全集的文字量。覺得便宜沒好貨?格局小了。根據 Artificial Analysis 的基準測試,,相比上一代的 Gemini 2.5 Flash,3.1 Flash-Lite 的首字響應時間(TTFT)快了 2.5 倍,整體輸出速度提升了 45%。對於需要即時響應的產品來說,這個延遲差距在使用者體驗上會有肉眼可見的感受。這意味著,當你還在眨眼的時候,它的回答可能已經生成了一半。對於那些需要即時反饋的應用——比如即時翻譯、遊戲內的 NPC 對話、即時 UI 生成——這種低延遲是決定性的。除此之外,Gemini 3.1 Flash-Lite 還具備「思考」能力。在 AI Studio 和 Vertex AI 中,Google 為這款 Lite 模型配備了「思考等級(Thinking Levels)」的選項。開發者可以根據任務的複雜程度,自主調節模型「想多深」。簡單的高吞吐量任務,比如批次內容翻譯和內容稽核,可以用最輕的配置快速跑完;遇到需要嚴格遵循指令的介面生成或模擬建立任務,則可以讓模型多花一點時間推理,把結果做紮實。這種「既要又要」的能力,也因此收穫了相當不錯的成績單。在 Arena.ai 的排行榜中,它的 Elo 分數達到了 1432,在 GPQA Diamond(研究生等級的問答)測試中拿到了 86.9% 的精準率。在學術評測 GPQA Diamond 上得分 86.9%,多模態理解 MMMU Pro 上達到 76.8%。這兩個數字不只是「在同檔位裡還不錯」,而是直接超過了體量更大的 Gemini 2.5 Flash。注意,這裡對比的是 Gemini 2.5 Flash 而非 Gemini 3 Flash,顯然雞賊的 Google 對這款模型也並未抱有多大的信心。目前,3.1 Flash-Lite 以預覽版形式通過 Google AI Studio 和 Gemini API 向開發者開放,企業使用者可通過 Vertex AI 接入。Latitude、Cartwheel、Whering 等早期合作夥伴已在生產環境中完成測試,普遍認可它在大規模呼叫下的穩定性和指令遵循能力。把這兩個模型放在一起看,你會發現「Instant」和「Lite」,或許正在找到自己最合適的位置。以最近大火的 OpenClaw 為例,其核心場景是幫使用者處理郵件、管理日程,本質上是一個需要自主執行任務的 Agent。這類產品對模型的要求,和普通 chatbot 聊天工具完全不同:它不需要模型表演得多聰明,它需要模型說人話、不出錯、還得扛得住高頻呼叫。GPT-5.3 Instant 顯著降低幻覺率,意味著 Agent 在自主執行任務時少犯錯;「AI 腔」的消退,意味著生成的郵件、文件讀起來更貼合真人的閱讀習慣。Gemini 3.1 Flash-Lite 則更符合最為關鍵的第三個需求。Agent 在後台狂奔時,往往需要平行處理海量的子任務,對響應速度和 API 成本極度敏感。Flash-Lite 極快的響應速度和白菜價的成本,加上能靈活調配算力的「思考等級」,這種極具彈性的架構對高並行的自動化任務而言,無疑是久旱逢甘霖。即便兩款模型的長期穩定性仍需觀察,但大方向已經很明確:一個負責讓互動更像人,一個死磕更快更省錢。在未來人手一隻「龍蝦」的情況下,輕量模型將成為更自然、務實的選擇。 (APPSO)
OpenAI連夜爆出GPT-5.4! 緊急上新GPT-5.3反擊Google, AI爹味治好了
【新智元導讀】GPT-5.3 Instant不卷跑分,專治「聊天翻車」:不再動不動拒絕回答,不再滿嘴說教免責,幻覺率暴降27%,寫作能力也跳了一個台階。OpenAI「貼臉開大」!GoogleDeepMind前腳扔出Gemini 3.1 Flash-Lite,不到2小時,OpenAI坐不住了....就在剛剛,GPT-5.3 Instant炸裂登場,全面擊碎了「AI爹味」,幻覺率爆砍27%。這次更新不走尋常路,沒有在跑分榜單上瘋狂內卷,OpenAI做的是另一件事——把ChatGPT日常聊天裡最讓人崩潰的毛病,治了。目前,在ChatGPT中,GPT-5.3 Instant已正式上線。同時,所有開發者即日可用,API代號「gpt-5.3-chat-latest」。GPT-5.2 Instant保留三個月,6月3日退役。不僅如此,OpenAI還劇透了,GPT-5.4比你預想的更快到來。這種與Google貼身肉搏的拉力戰,火藥味瞬間拉滿。最大的升級:不再「把天聊死」ChatGPT重度使用者一定體會過這種崩潰——你問了個正常問題,模型先甩一段免責聲明,再告訴你「我不能幫你做這個」,然後列出一堆你根本不需要的替代選項。等你看完,已經忘了自己要問什麼。這次,5.3 Instant大刀闊斧砍掉了這些廢話。OpenAI給了一個極佳的案例:「幫我計算一個超遠距離射箭場景的軌跡」。GPT-5.2 Instant的反應堪稱經典翻車。整段回覆密密麻麻,看完只想關掉對話方塊。先是寫了一大段「我不能幫你進行旨在遠距離精準擊中真實目標的計算」的安全聲明;然後把回答分成「純教學/通用」「故事/世界觀建構」「模擬/程式設計」三個方向讓你選;最後還追了一句靈魂拷問「這是為了遊戲/故事/物理學習,還是為了真正的射箭?」GPT-5.3 Instant?一句「沒問題,我能幫你」,然後直接列參數、給公式、問你要不要加空氣阻力,乾淨利落。搜尋,更像人了GPT-5.3 Instant在「聯網搜尋」時也進步明顯。以前ChatGPT容易「過度依賴搜尋結果」。要麼甩一串連結,要麼把結果鬆散拼在一起,讀起來像沒消化過的摘要。現在它會用自己的知識為搜尋結果補充背景,而不是單純複述。官方展示的對比案例很能說明問題:使用者問「2025-26年棒球休賽期最大的簽約是什麼,為什麼對棒球長期前景重要?」GPT-5.2 Instant回答的是上一年胡安·索托簽約大都會的舊聞,分析框架沒問題,但資訊過時了。GPT-5.3 Instant精準抓到了這個休賽期真正的焦點:凱爾·塔克簽約道奇,4年2.4億美元,年均6000萬創位置球員歷史紀錄。不僅給了合同細節,還把這筆交易放進了人才集中化、薪資差距拉大、勞資談判緊張的聯盟大背景裡分析。對比起來,一個在念舊報紙,一個剛從ESPN直播間出來。情商,更高了更有趣的是,GPT-5.3 Instant的「情商」變高了。部落格中,OpenAI用了個很親民的詞形容5.2的問題:cringe,腳趾扣地。具體表現:過於強勢、愛揣測使用者意圖、動不動來一句「停下來,深呼吸」。面對「為什麼我在舊金山找不到真愛」這種扎心提問,GPT-5.2 Instant開口就是:「首先,你沒毛病,你也不是一個人。」然後洋洋灑灑分析性別比例、創業文化、約會軟體飽和,最後還來一段靈魂拷問:「你到底是找不到真愛,還是身邊的人給不了你想要的愛?」GPT-5.3 Instant直接跳過那句沒用的安慰,開門見山分析結構性原因,語氣平等,不居高臨下,不揣測你的情緒。不過,真說了這麼多,正能體會到這些變化的只有「英語」使用者。非英語語言的回覆,目前仍然生硬、翻譯腔偏重。幻覺率最高砍了27%除了語氣和體驗,GPT-5.3 Instant在「不瞎說」這件事上也取得了實打實的進步。OpenAI用了兩套內部評估來衡量精準性:一套聚焦醫學、法律、金融等高風險領域;另一套則統計了使用者反饋存在事實錯誤的ChatGPT對話的幻覺率。在HealthBench基準上,三種不同版本測試中,GPT-5.3 Istant整體的幻覺率,要比上一代低。在高風險領域評估中,5.3 Instant聯網時的幻覺率降低了26.8%,僅靠內部知識作答時降低了19.7%。在使用者反饋評估中,聯網時幻覺減少22.5%,不聯網時減少9.6%。寫作開竅了,有溫度又有深度GPT-5.3 Instant在寫作方面的進化可能是最容易被忽視、但實際體驗中感受最深的一項。比如,讓模型以「費城一位退休郵遞員最後一次送信」為題,寫一首短詩。GPT-5.2 Instant寫得中規中矩,用的是抽象感傷的路子。「聯排別墅眨著眼睛醒來,古老的門廊記住了他的腳步聲」,在「告訴」你該感動了。GPT-5.3 Instant完全換了一種寫法。它寫的是郵袋今天變輕了的觸感,那個帶掉漆藍色欄杆的門廊,默瑟街上一個女人手裡已經握好了一封信說「我們會想你的」。最後一句「當郵筒蓋合上的時候,那聲音聽起來就像一段溫柔歲月的終結。一扇永遠都在那裡的門,終於,悄悄地關上了。」不講情緒,而是用細節讓你自己感受。不卷跑分,卷體驗可以看到,GPT-5.3 Instant和同一天發佈的GoogleGemini 3.1 Flash-Lite打法完全不同。Flash-Lite是典型的跑分碾壓型發佈。也就是,用幾分之一的價格在GPQA、SimpleQA上暴打競品。而GPT-5.3 Instant壓根沒提任何benchmark。在OpenAI看來,這些問題「不總能在基準測試中跑出來,但直接決定了ChatGPT是讓你得心應手,還是讓你抓狂」。對每天用ChatGPT的普通使用者來說,GPQA多2個百分點他們無感,但「問正常問題被拒答」「搜尋像甩連結」「回覆語氣渾身不舒服」,這些才是真痛點。當然也可以從另一個角度讀:在Gemini和Claude輪番登頂的當下,OpenAI在性能賽道上選擇了避其鋒芒,轉而在使用者體驗這個更軟性但同樣關鍵的戰場發力。務實還是無奈?見仁見智。但對每天跟ChatGPT打幾十輪交道的人來說,5.3 Instant是一個能實實在在感受到的進步。 (新智元)
MWC圍觀、OpenClaw屠榜!2026 AI變天:從“陪聊”到“幹活”,中國開源模型成全球開發者首選
階躍星辰Step 3.5 Flash霸榜OpenClaw呼叫排行,全球開發者正在“用腳投票”AI新方向。🤖頭圖由AI生成3月2日,西班牙巴塞隆納,持續四天的世界移動通訊大會MWC 2026正式開幕。在春節後的首場全球科技盛會上,中國科技廠商的展檯面前人頭攢動。智東西在逛展時便發現,圍繞人工智慧的新技術新應用,在本屆MWC大會上無處不在。從字節跳動和努比亞合作的“豆包AI”手機到榮耀新發佈的機器人手機,展台都被來自世界各地的參會者圍得水洩不通,他們都想要親自上手體驗,看AI到底是如何操作手機、如何做事的。在同一天,一度讓全球開發者為之瘋狂,連AI大神卡帕西都曾盛讚為“令人驚嘆的科幻級爆發現象”的開源AI Agent助手OpenClaw,已經超越了所有GitHub開放原始碼軟體項目,正式成為史上最受歡迎開放原始碼專案。OpenClaw本質上是一個能直接操作你電腦的AI Agent,開發者們瘋狂地為它接入各種大模型,只為了一個目的:讓AI真的動起來,幫自己幹活。這兩件事看似沒有關聯,但他們都不約而同地反映出2026年AI發展的一個核心趨勢,那就是:AI正在從能聽懂你的話,進化到可以幫你做事了。01. 階躍星辰新模型,憑何成為全球爆火OpenClaw玩家的擁躉?同樣是使用OpenClaw來幹活,活幹得怎麼樣,背後的大模型就至關重要。在知名模型聚合平台OpenRouter上,OpenClaw的呼叫量榜單成了衡量模型“動手能力”的直接體現。就在3月2日,國內大模型頭部創企階躍星辰在2月新開放原始碼的Agent基座模型Step 3.5 Flash單日呼叫量已超過40B,在OpenClaw的呼叫量榜中排名第二,超過Kimi K2.5、Gemini 3 Flash Preview、Claude Sonnet 4.5等一眾國內外主流模型。對於OpenClaw這種需要複雜推理、長時間運行的Agent系統,使用者更加傾向速度快、推理強、成本低的模型。而Step 3.5 Flash恰恰滿足了OpenClaw使用者的痛點。Step 3.5 Flash採用稀疏MoE架構,每個token僅啟動約110億參數(總計1960億),在單請求程式碼類任務上最高推理速度可達每秒350個token。在Agent場景和數學任務上,Step 3.5 Flash的能力逼近閉源模型,能夠勝任複雜、長鏈條任務,是階躍星辰迄今最強的開源基座模型。這款模型一經發佈,便受到大量海外開發者的關注好評,向來低調的階躍星辰研發團隊,罕見現身Reddit r/LocalLLaMA社區回答全球開發者有關Step 3.5 Flash的提問。有開發者提問:在規劃Step 3.5 Flash時,你們是否心中已經瞄準了這個特定的“最佳平衡點”:89 tokens/參數,並且正好卡在消費級硬體規模的上限(128GB 用於 Q4 量化,11B 啟動參數以保證實用的運行速度)?階躍星辰CTO朱亦博回覆稱,團隊的確有明確目標,即讓相關模型能夠運行在128GB記憶體系統中。他發現,目前市場上約230B規模的模型,剛好超出了其個人MacBook Pro裝置4位量化的承受範圍,因此他便要求團隊對模型規模進行了適當縮減。從開發者的角度去研發產品,而不是讓開發者來適應產品。有開發者說,這正是他覺得興奮的地方。有外網網友分享稱,對Step 3.5 Flash的印象很深刻,已經將該模型作為自己OpenClaw的主力Agent。02. 有求必應,階躍星辰Step 3.5 Flash全鏈路“開誠布公”在與階躍星辰研發團隊的溝通中,有開發者希望階躍星辰可以將基礎模型與指令/思考模型一起發佈,這樣社區就可以對它進行微調了。階躍星辰對開發者有求必應,今天,階躍星辰將Step 3.5 Flash的Base 權重、Midtrain 權重、Steptron 訓練框架一同開源,希望通過更徹底的開源,讓開發者能夠以Step 3.5 Flash為基座進行更深度模型定製,打造真正屬於自己的Agent。這一舉動在當前大模型開源趨於保守的環境下,顯得頗為徹底。開源不到 24 小時,海外社區對階躍星辰的進一步開放原始碼的反饋十分熱烈。還有開發者讚歎說,Step 3.5 Flash速度十分驚豔,與OpenClaw的自然相容性也很出色。03. 開發者用腳投票:從應用出發,才能讓AI更好地應用從全球開發者們使用大模型建構Agent的實踐反饋中,我們也可以看出:最近一兩年,AI的核心是“理解使用者”,大模型比拚的是誰更懂人的語義、誰的上下文更長。而2026年的分水嶺在於,AI的核心正在向“執行任務”遷移,比的是誰能讓AI真正操作工具、誰能幫人類做更多的事情。而階躍星辰的技術路線,正是圍繞著“讓AI做事”展開。在階躍星辰團隊與全球開發者的交流中,他們說了這樣一句話:“Step 3.5 Flash的目標,從一開始就是三件事:智能密度、推理與生成速度、Agent 能力。目標清晰後,演算法、資料與基礎設施會自然對齊。”這句話很清晰地反映出了階躍星辰“讓AI做事”的技術路徑。在他們的邏輯裡,一個模型好不好,不再只看它在基準測試上刷了多少分,而是看它能不能在開發者的本地機器上跑起來、跑得快、跑得穩。最近,階躍星辰也登上了央視焦點訪談,首席戰略官李璟在節目中說到,在這半年以來,階躍星辰在AI應用與融入人們生活的方面投入了更多的研發力量,如今的AI正在從“能聽懂你的話”進化為“能幫你做事”。以應用來作為牽引指導多模態的發展,用應用落地的目標倒推基座大模型的研發,是階躍星辰的發展主線。04. 結語:階躍星辰選擇了一條難走但正確的路如果說2025年是國產大模型的“爆發之年”,那麼2026年或將成為AI的“分水嶺”,誰能找準AI落地價值與場景,誰就有可能突出重圍。階躍星辰認準的“應用牽引多模態發展”發展路徑,是一條難走但正確的路,他們認準AI的價值不在於對話,而在於它能走進多少人的生活,能幫人們做到多少事。這或許正是國產大模型從“流量競爭”走向“價值競爭”的一個縮影。喧囂終會退去,真正留下的是那些能紮根場景、解決實際問題的技術。 (智東西)
GoogleGemini 3.1新模型深夜掀桌, 每秒狂飆363 token! 1/4價格暴擊Claude
【新智元導讀】Google深夜再放大招,Gemini 3.1 Flash-Lite正式登場。輸出速度363 token/s,價格僅0.25美元/百萬Token,跑分卻碾壓GPT-5 mini和2.5 Flash,堪稱最強「窮人版旗艦」。繼Gemini 3.1 Pro屠榜封神之後,Google又在深夜扔出一顆炸彈。剛剛,Gemini 3.1 Flash-Lite正式上線!速度363 tokens/s,輸出價格1.50美元/百萬Token,跑分直接碾壓GPT-5 mini和Claude 4.5 Haiku。同一任務下,相較於2.5 Flash(33分鐘),3.1 Flash-Lite僅用了4分鐘,token消耗最少,且正確率最高。毫不誇張地說,3.1 Flash-Lite幾乎可以做到「瞬時」輸出。上傳一份任何PDF、文字、圖片、視訊、音訊,它能極速轉成Markdown格式。又或是,3.1 Flash-Lite「粒子鍛造器」,迅速出模擬不同的動態效果,堪稱驚豔。目前,開發者已經可以通過Google AI Studio的Gemini API體驗預覽版,企業使用者可通過Vertex AI接入。用1/4的價格,跑出5倍的速度先看最直觀的數字。3.1 Flash-Lite的輸出速度達到363 tokens/s,跟自家2.5 Flash-Lite(366 tokens/s)幾乎持平,但把上一代Gemini 2.5 Flash(249 tokens/s)遠遠甩在了身後。而那些「貴族選手」呢?GPT-5 mini只有71 tokens/s,Claude 4.5 Haiku也不過108 tokens/s,Grok 4.1 Fast稍好一些,145 tokens/s。換句話說,Flash-Lite的速度是GPT-5 mini的5倍,是Claude 4.5 Haiku的3.4倍,價格卻只有後者的四分之一。再看具體定價。3.1 Flash-Lite輸入0.25美元/百萬Token、輸出1.50美元/百萬Token。3.1 Flash-Lite比3.1 Pro便宜8倍對比之下,GPT-5 mini的輸出價格是2.00美元,Gemini 2.5 Flash是2.50美元,而Claude 4.5 Haiku更是高達5.00美元,整整貴了3倍還多。一句話概括:跑得比你快,還比你便宜,跑分還比你高。跑分碾壓,小模型的「越級挑戰」在最考驗科學知識和推理能力的GPQA Diamond上,3.1 Flash-Lite直接轟出86.9%的高分。這一成績不僅碾壓了GPT-5 mini的82.3%和Claude 4.5 Haiku的73.0%,甚至把體量更大、價格更貴的Gemini 2.5 Flash(82.8%)也踩在了腳下。多模態理解方面同樣強悍。在MMMU-Pro測試中,Flash-Lite拿下76.8%,力壓GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和Claude 4.5 Haiku(58.0%)。在事實精準性測試SimpleQA Verified中,差距更是斷崖級。Flash-Lite以43.3%的精準率遙遙領先,而Gemini 2.5 Flash為28.1%,GPT-5 mini僅有9.5%(4.5倍),Claude 4.5 Haiku更是低到5.5%(近8倍)。多語言能力方面,MMMLU測試中Flash-Lite以88.9%登頂,超過了Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%,在這個價位段裡沒有對手。在視訊理解領域,Video-MMMU得分84.8%,同樣是同等級最高,GPT-5 mini(82.5%)和Gemini 2.5 Flash(79.2%)均不及。當然,3.1 Flash-Lite也並非沒有短板。在LiveCodeBench程式碼生成測試中,Flash-Lite得分72.0%,雖然不低,但GPT-5 mini憑藉80.4%明顯更強,Grok 4.1 Fast也有76.5%。在Humanity's Last Exam中,Flash-Lite得分16.0%,與GPT-5 mini的16.7%基本持平,但Grok 4.1 Fast以17.6%拿到了這個等級的最高分。但別忘了一個核心事實:Flash-Lite的價格只有這些對手的幾分之一。Arena打進全球前40實驗室跑分只是一面,真刀真槍的盲測對戰才見真章。在Chatbot Arena的文字競技場中,3.1 Flash-Lite以1432的Elo分數排名第36。它身邊的鄰居是o3(1432分)和GPT-5 High(1434分),而身後緊跟著的是Grok 4.1 Fast Reasoning(1430分)。一個定價0.25美元的輕量模型,Elo分數和OpenAI的旗艦推理模型o3打成平手,這個性價比足夠讓人震驚。在程式碼競技場中,3.1 Flash-Lite得分1261,排名並列35。它在這裡的對手包括Claude Haiku 4.5(1308分,第31名)和DeepSeek V3.2(1321分,第34名),差距不算大,但確實還有提升空間。在Artificial Analysis評測中,3.1 Flash-Lite在輸出速度和成本效益上,目前業界最優。「思考深度」可調除了硬核性能,3.1 Flash-Lite還標配了thinking levels功能,開發者可以自由設定模型在每個任務上投入多少推理資源。批次翻譯、內容稽核、資料分類這類高頻低複雜度任務跑淺思考模式,速度和成本壓到極致。生成UI介面、建構模擬環境、執行多步驟複雜指令?切到深度推理模式,效果不輸大模型。實測:輕量模型的重量級表現在實際測試中,3.1 Flash-Lite展現出了遠超其定位的能力。電商場景:瞬間填滿原型圖。給出一句指令,Flash-Lite就能在幾秒內用幾十個品類、數百款商品填滿一整個電商介面原型,包含名稱、價格、分類、圖片佔位。這在以往,需要設計師手動填充半天的工作,現在一個Prompt搞定。即時資料看板:天氣預報+歷史分析。Flash-Lite能夠結合最新的天氣預報介面和歷史資料,即時生成動態的天氣資料可視化看板。對於需要快速搭建資料展示層的開發者來說,這個能力直接省掉了一個「前端工程師」。SaaS AI智能體:多步任務自動化。Flash-Lite可以建構處理多步驟靈活任務的SaaS智能體,幫助企業自動化客戶工單處理、訂單跟蹤等流程。在低延遲和低成本的加持下,這類高頻呼叫場景正是Flash-Lite的主戰場。海量內容處理:快速分析歸類。面對大批次的圖片、文件、使用者評論等非結構化內容,Flash-Lite還能夠快速完成分析、標籤化和歸類整理。性價比賽道,徹底變天3.1 Flash-Lite的發佈,標誌著AI競爭進入了一個全新的階段。過去,各家大模型都在卷「誰最強」——ARC-AGI刷分、HLE拼推理、程式碼競賽爭排名。但Flash-Lite的出現,把戰場拉到了另一個維度。光卷性能已經不夠了。誰能用最低的成本交付最高的質量,誰才是真正的贏家。用幾分之一的價格打出旗艦級效果、用5倍的速度碾壓競品、在事實精準性上斷崖領先,Google用Flash-Lite告訴所有人:在性價比這條賽道上,它已經跑在了前面。而對於全球數百萬開發者來說,這可能是目前最值得關注的模型之一。畢竟,在真實的產品場景中,成本和速度有時比跑分更重要。 (新智元)
不是GPT-5.4,OpenAI深夜發新模型!幻覺率暴降27%
被嫌“太囉嗦、愛說教”後,OpenAI發了個更會聊天的模型。智東西3月4日報導,今天,OpenAI正式發佈GPT‑5.3 Instant,該模型在回答的語氣傾向、回覆相關度以及對話的順暢度均有相應的提升。OpenAI團隊稱其收到使用者反饋,GPT‑5.2 Instant有時會拒絕回答本可以安全響應的問題。在涉及敏感話題時,模型的表現偶爾顯得過於保守或帶有說教感。GPT‑5.3 Instant的回答將直擊重點,不再夾雜冗長的限制性說明,顯著減少了不必要的拒答行為,並削減了回答前那些過度防衛或帶有說教色彩的開場白。此外,GPT‑5.3 Instant還最佳化了聯網搜尋結果的整合質量,模型現在能更有效地平衡搜尋結果與自身知識儲備及邏輯推理。例如,它能夠利用既有的認知圖譜為近期資訊提供深度背景解析,不再是簡單地羅列並彙總搜尋資訊。從更廣泛的層面來看,GPT‑5.3 Instant降低了對聯網搜尋結果的過度依賴,解決了此前偶爾出現的“連結堆砌”或資訊鬆散的問題。它現在能更精準地洞察問題的潛台詞,並在回答開頭即優先呈現核心資訊。此前,GPT‑5.2 Instant的語氣偶爾會讓人感到“尷尬、違和”,表現為言語過於強勢,或者在未獲確認的情況下,就對使用者的意向和情緒進行過度解讀或妄加揣測。本次更新大幅削減了不必要的冗餘宣告,以及類似“停一下,深呼吸”等口吻。使用者可以在設定中調整模型的回覆語調,例如其親和力與熱情度。相比GPT‑5.2 Instant,GPT‑5.3 Instant提供的回答更具事實性,在廣泛的話題領域內均顯著降低了幻覺率。為了衡量精準度,OpenAI團隊採用了兩項內部評估指標:其一側重於醫療、法律及金融等高風險領域;其二則專門針對“幻覺”高發場景進行測試,樣本取自經過脫敏處理、被使用者標記為事實錯誤的真實對話記錄。對比前代模型,GPT‑5.3 Instant在“高風險領域”評估中,聯網模式下的幻覺率降低了26.8%,僅依靠模型自身知識庫時,幻覺率降低了19.7%。而在基於使用者真實反饋的評估中,該模型在聯網模式下的幻覺率下降了22.5%,非聯網模式下則下降了9.6%。在故事寫作方面,GPT‑5.3 Instant在處理實用任務與表達性寫作之間切換得更加順暢,且不會犧牲邏輯的清晰度與連貫性。OpenAI團隊補充到,GPT‑5.3 Instant仍存在一些改進空間。例如ChatGPT在某些語言,如日語和韓語,中的回覆風格可能稍顯生硬,或帶有刻板的直譯感。並且,OpenAI團隊仍在持續監控反饋並進行功能最佳化,同時也在不斷擴展自訂選項。GPT‑5.3 Instant自即日起面向所有ChatGPT使用者開放,開發者也可通過API使用名為gpt-5.3-chat-latest的模型。Thinking和Pro版本的更新也將於近期推出。GPT‑5.2 Instant將在“Legacy Models”下拉菜單中為付費使用者保留三個月,並計畫於2026年6月3日正式退役。結語:OpenAI用對話挽留使用者GPT‑5.2 Instant在回答中的“油膩”“冗雜”的套路句式一直被廣大使用者所詬病,此次GPT‑5.3 Instant的升級更新,將視角重新放回“聊天”上,回應了使用者長期以來對聊天機器人“好用、實在、不繞彎”的核心訴求。在3月初,OpenAI因與美國軍方簽訂合作協議,大批使用者開始發起“抵制ChatGPT”等活動,Anthropic更是直接推出了一鍵轉移上下文內容的服務,ChatGPT的使用者或正在流失。OpenAI在此時最佳化對話風格或許也是其試圖留住使用者的舉措。 (智東西)