#A.I.
全球AI雙榜第一!力壓GoogleVeo與Grok,Vidu Q3「參考生」之王歸來
【新智元導讀】Vidu Q3帶著「全家桶」重磅回歸,視覺、聽覺、場景能力全面進化。AI視訊的生產級交付時代,真的來了。這個月初,Google一紙公告,把Veo 3.1的視訊生成能力,免費開放給了所有Google帳號。可以說,這是AI視訊史上的一個分水嶺——曾經一條10秒視訊要燒掉數美金的「奢侈品」,正在被巨頭硬生生做成「水電煤」。但越是免費、越是普及,一個尷尬的問題就越藏不住:模型可以無限趨近「能用」,可它和「能交付」之間,依然隔著一整條生產線。榜單上的分數、demo裡的炫技、社交媒體上的爆款片段,全都換不來一個劇組、一支廣告團隊、一條電商內容流水線的穩定輸出。熱鬧歸熱鬧,能用歸能用,從來就是兩件事。而當大多數玩家還在卷免費、卷解析度、卷畫面時長時,一個被低估的中國玩家,悄悄把答案擺上了桌。今天,Vidu Q3帶著「參考生」重磅回歸。作為全球公認的「參考生鼻祖」,這一次,它直接把「參考生」揉進一整套全家桶——以Vidu Q3參考生模型為「核心底座」,Vidu SaaS(Vidu Agent、Vidu Claw)與 Vidu MaaS(Vidu AI 開放平台)全面接入。其中Vidu AI開放平台,可0門檻接入、價格僅為行業平均水平的1/3、切鏡自然合理、生成速度快。同時,它還支援提示詞調優、工作流適配及專項培訓服務,即便在高峰時段也能確保穩健輸出。以上三層加在一起,構成了一套完整的、可直接接入真實生產流水線的內容生產系統。至此,Vidu Q3已全面覆蓋文生、圖生、參考生三大領域,完成由單一模型向全場景視訊生成方案的跨越。正如Slogan所言,「為劇而生,萬物可參」,Vidu正在做一件其他玩家還顧不上做的事:把模型能力,焊死在真正的生產流程中。「參考生之王」回歸 直接拍戲了要理解這件事的重要性,先把背景拎清楚。1月30日,Vidu Q3全球首發,在權威評測榜單AA上一騎絕塵,拿下了全球第一的成績。它一舉超越了Grok Imagine、Gen-4.5、GoogleVeo3.1等一眾領先模型。在全球首個參考生榜單,SuperClue榜單上,Vidu Q3斷層登頂,在多圖/單圖參考任務蟬聯雙榜第一。首次亮相,Vidu Q3便主打「為劇而生」,成為全球首個聲畫直出16秒的AI視訊模型。事實上,整個AI視訊行業的競爭焦點,正在悄悄發生一次根本性的位移。視訊大模型,正在從「生成畫面」邁向「生成內容」。比拚的重點也從單點能力,轉向兩件更本質的事——是否具備完整的敘事能力,以及,是否能進入真實場景的生產級交付。這兩件事,才是把AI視訊從「技術demo」推向「內容生產力」的真正分水嶺。Vidu Q3的出世,恰恰被視為整個行業轉變的階段性節點——從最早的「視訊生成」,到Q2的「演技生成」,再到Q3真正具備「劇集生產能力」的敘事單元級躍遷。每一步,Vidu都踩在了行業演化的關節上。而支撐這次躍遷的關鍵變數,正是Vidu一直握在手裡的那張王牌——參考生。在AI視訊走向生產級交付的這條路上,「參考生」的角色正被徹底改寫。它不再只是一個提升畫面一致性的工具能力,而正逐漸演變為一種可復用、可組合的內容生產範式。作為全球「參考生」首創者,名副其實的「參考生之王」,這一次,Q3直接把其從模型層推到了應用層。這種巨變,直接體現在了漫劇、短劇、廣告、影視劇等應用場景中的可用性和交付性。換句話說,Vidu讓AI視訊,真正具備了「劇」的表達能力,為劇而生。萬物可參,為「劇」而生,聲畫同出在視覺、聽覺和場景上, Vidu Q3系統性升級,招招致命。相較於上一代,Q3不再執著於枯燥的「生成質量指標」(FID/FVD)比拚,而是死磕一個核心目標:讓AI生成內容,真正具備「劇」的表達能力。要知道,所謂的「劇集感」,是由無數個符合直覺的微小細節堆砌而成的。Vidu Q3在視覺、聽覺與場景三個關鍵維度上,交出了一份令人「恐怖」的答卷。在視覺方面,Vidu Q3新增六大特效:粒子、流體、動力學、運鏡、轉場、光影,將其深度融入敘事語言,讓生成內容更接近「成片級表達」。五大沉浸式音效:環境、動態、氛圍、擬音、情緒,讓Q3賦予了AI視訊「聽覺上的敘事連續性」。至此,聲音不再是畫面的附屬,而是情緒的載體。最重要的是,Q3場景能力已進化為直接對齊工業流程的「內容單元」,大幅縮減從創意到成片的距離,覆蓋了短劇、漫劇、影視劇、廣告四大場景。在這些領域,Vidu 不僅實現了極速生成與高頻迭代,更通過極高的視覺穩定性,率先解決了AI創作中「角色一致性」的行業難題。這種從點到面的全場景滲透,標誌著Vidu已從技術驗證期跨入深度產業應用期,建立了不可踰越的落地領先優勢。為了驗證其真實戰力,我們拋棄了傳統的「跑分邏輯」,直接把Vidu Q3扔進更接近真實生產的內容場景裡——漫劇的高燃瞬間、短劇的情緒爆點、影視級的災難與懸疑調度,以及廣告的多元創意。高燃漫劇漫劇,是過去兩年AI內容工業化跑得最快的賽道之一。低成本、短周期、可批次生產,這些特性天然契合AI視訊的能力邊界。但也正因為漫劇對「量」的極致追求,它把AI視訊最致命的那塊短板暴露得淋漓盡致——一致性。一部大約60分鐘的漫劇,每分鐘三四十個鏡頭,每段AI生成的素材只有5–10秒。這就意味著,整部劇是由上千段片段硬拚而成。過去,AI模型最大的問題,是每一張圖之間彼此獨立:人物的臉換了一點、服裝紋樣飄了一點、道具位置跳了一幀,觀眾瞬間出戲。創作者在剪輯台前熬夜重抽素材的痛苦,幾乎是整個行業的共同記憶。一個能夠支援批次生產與快速迭代、同時把主角、場景、道具死死鎖住的模型,是漫劇工業化真正的分水嶺。丟給Vidu Q3一張紅圍巾校服少年的立繪,讓它生成一個「熱血少年覺醒變身」的短片。結果令人震撼,狂風的怒吼、電流的尖嘯、大地的碎裂聲在這一秒瘋狂交織、層層遞進,將情緒推向了最頂峰。最關鍵的突破點在於:複雜的特效變化下,男主形象始終如一。再比如,投喂給Q3一張古風女主的角色圖片、一張江南水鄉的場景圖、一套手繪的服化道參考。提示詞唯寫了一句,「@圖1穿著@圖2衣服,在@圖3江南水鄉行走」。可以看到,動漫女主的臉部特徵被死死鎖住,沒有出現任何畫風偏移或五官融化,服裝的紋理與褶皺也隨著行走步伐自然飄動。而且,背景還夾雜著微風、鳥叫聲、腳步聲生動的環境音效。如果說單人變身是基礎操作,那麼複雜的「雙人肢體纏鬥」則是檢驗AI模型能力的試金石。上傳兩個主角的圖片,在這段激烈的對峙戲中,Vidu Q3展現出了令人膽寒的技術統治力。面對拳腳相加、重擊倒地、連續翻滾等大動態物理互動,Vidu Q3將兩位主角的形象死死鎖住,徹底告別了傳統AI常見的「面部融化」與「服飾穿模」。不僅如此,它在音效與情感生成的顆粒度上達到了影院級水準:沉悶的肉搏聲、倒地後紊亂的喘息,甚至刀鋒逼近脖頸時那一聲微小且冰冷的顫音,都與畫面嚴絲合縫。這一段,可以直接剪進漫劇成片裡,幾乎不需要返工。真人短劇如果說漫劇拼的是「量」,那短劇拼的就是「戲」。中國短劇市場一年狂飆到幾百億規模,單集時長被壓到極致,敘事密度卻反向拉滿——每一句台詞、每一次對視、每一個停頓,都必須精準擊中觀眾的情緒點。大幅降低製作成本和周期,是短劇行業對AI視訊最迫切的呼喚;但前提是——AI必須先學會演對白戲,也就是說,短劇的生死線是「對話」。過去AI視訊在多人對話場景上最容易翻車:要麼兩個人同時張嘴像合唱團,要麼口型對不上台詞,要麼切鏡頭的瞬間人就變了。觀眾能容忍畫面糙一點,但對話一崩,戲就徹底散了。且看下面這段極其細膩的古風雙人對角戲,呈現了Vidu Q3令人驚嘆的「影視級演技」。Vidu Q3 不僅將兩人的骨相特徵與複雜的古裝妝造死死鎖住,更完美呈現了男主嘴角輕佻時那抹似有若無的笑意。這種告別了「AI僵硬感」的細膩神態捕捉,讓角色瞬間擁有了鮮活的靈魂。更令人稱絕的是隨後的雙人台詞交鋒,對話時口型的毫釐不差。再比如來一個現代劇,女強人和霸主之間的糾葛,在Vidu Q3的筆下呈現得淋漓盡致。廣告/電商對於廣告或電商而言,用AI的最大訴求可能就是提升效率──不止是素材版本多,創意要快,要快速試錯。素材生產效率,就是速度、就是搶先引爆熱點的優勢。而Vidu Q3不僅提升了素材生成效率,更重要的是人物、風格統一可控,商品不走樣,背景或人物任意選。比如,下列唇蜜的廣告,利用Vidu Q3參考生功能,可快速篩選不同的風格:只需替換參考模特,一鍵生成不同風格、聲情並茂的視訊,真一鍵出片!鏡頭逐漸推進唇部,模特用唇蜜塗抹在嘴唇上,特寫鏡頭展示唇蜜質感。廣告大片效果,多鏡頭展示。最後手持唇膏模特說說:This touch is more than just color.。去掉bgm,保留人聲再舉一個例子,老梗換新貨,更容易在網上爆紅。比如,威爾·史密斯吃義大利面,就是國外的經典梗之一,可謂歷久不衰。在Vidu Q3,用他的表情包+新的商品(比如漢堡),繼續利用參考生就能生成類似場景的梗圖。這效果看起來是真香!影視預演/內容創意影視劇是AI視訊最難啃的一塊骨頭,但也是價值天花板的最高場景。過去,一個劇本從文字到成片,中間要經歷概念設計、分鏡繪製、預演拍攝、特效合成——這背後,動輒是上千萬的預算,是以「月/年」為單位的製作周期。整個行業最渴望的,是一種能把劇本快速可視化、分鏡自動生成、創意驗證前置的能力,讓導演在燒錢之前,就先看到自己腦中的畫面。Vidu Q3沒有選擇繞路,直接正面正剛。它挑了三種最吃功力的片種:科幻、災難、懸疑。給到一段提示詞:根據參考機甲與未來都市場景,生成一段電影級科幻追逐戲。夜色中的賽博朋克城市高樓林立,霓虹燈閃爍,主角駕駛機甲在高架橋與樓宇之間高速穿梭,後方數架敵方飛行器緊追不捨。鏡頭先從城市遠景俯拍,再切入近距離追蹤,機甲急轉、噴射推進、擦過廣告螢幕與樓體邊緣,期間伴隨爆炸火光與碎片飛散。畫面要求有強烈速度感、空間縱深與電影感,參考主體外觀保持穩定,特效密集但清晰。這個生成的難點在於,俯拍切近景、遠景切追蹤、機甲高速運動、爆炸的碎片層次....每一個細節,都考驗著模型對「電影感」的理解。更狠的是音效,直接構成了一個立體聲場,給人一種身臨其境的壓迫感。再來看災難片,考核的是尺度與震撼,這是這類型大片的標準配方。Vidu Q3在生成效果中,處理了多層次的視覺要素:天空、水牆、慌亂的人群、建築物震顫,每一個要素配合著調度營造出一種末日緊迫感。而且,由遠及近的聲壓推進,更成為了這個視訊重頭戲。更令人想不到的是,一段廢棄醫院的長鏡頭,瞬間拉滿了那種脊背發涼的氛圍感。Vidu Q3不僅在空間推進中保持連貫,還在光影忽明忽暗中保留了真實性,角色表演也有一定的張力。音效更是克制到極致,燈管電流雜音、走廊回音、腳步聲、呼吸聲,把緊張感推向頂點。總言之,Vidu Q3在視覺、聽覺與場景三個關鍵維度上,將四大場景的應用推向了新的高光時刻。偉大的技術 最終都將隱形於無形縱觀科技史,任何一項偉大的技術,其最終的宿命都是「隱形」。當電動機剛發明時,人們驚嘆於電流的魔力;但當大工業時代到來時,電動機隱身於工廠的流水線中,人們只看到源源不斷產出的精美商品。今天的AI視訊行業,正在經歷同樣的蛻變。Vidu Q3通過極盡複雜的底層演算法攻堅,通過從Q1到Q3的艱難跋涉,換來的,恰恰是創作者極其簡單的「為劇而生」。它終結了那個需要靠算運氣、抽盲盒才能得到一段好視訊的時代;它把AI視訊從獵奇者的「玩具箱」,搬到了專業創作者的「工作台」上。「萬物可參」,參考的不僅是現實世界的像素,更是人類無盡的想像力。當你在Vidu App中敲下第一行劇本,當Vidu Claw為你自動生成第一組分鏡,當Vidu Q3用它極具張力的音效和電影級的光影,把你腦海中那個原本只敢做夢的龐大宇宙完美呈現時,你會深刻地意識到:不要用做盲盒的邏輯,去奢望大工業時代的轟鳴。AI視訊的「前戲」已經結束,屬於創作者的、由新質生產力驅動的「大航海時代」,在Vidu Q3按下Enter的那一刻,正式拉開了帷幕。在這個充滿無限可能的時代,最好的故事,不再受制於資本的傲慢與工業的繁瑣。 (新智元)
李開復陸奇重倉同一家Harness智能體公司,李笛帶隊,4個月2輪融資3-5年糧草
多智能體賽道爆發,Harness成為破局關鍵,資本加速佈局。剛剛,成立僅四個多月的AI初創公司明日新程(Nextie),宣佈連續完成兩輪融資。其中,天使輪由創新工場、Atypical Ventures聯合領投,奇績創壇繼續跟投。原微軟全球副總裁David Ku等個人投資者,以及公司獨家財務顧問安可資本等,也紛紛看好入局。公司表示,當前資金儲備已夠未來三到五年持續創新所需。幕後掌舵人,正是“小冰之父”、微軟亞洲互聯網工程院原副院長李笛,以及與他並肩多年的微軟小冰創始核心班底。△李笛在奇績創壇路演日上壓軸登場在一級市場整體降溫、機構出手愈發審慎的當下,一家成立不到半年的公司卻能連融兩輪,更迎來陸奇、李開復兩大AI圈頂級“風向標投資人”罕見同框、同步押注,這本身就是一種訊號,體現了資本對其團隊、技術、賽道的多重認可。所以這筆資金將投向何方?團隊給出的答案很明確,大方向只有一個——Harness群體多智能體。當下,無論是持續霸屏的OpenClaw,還是近期風頭正盛的Hermes Agent,AI Agent正以前所未有的熱度席捲整個行業。隨著實踐的不斷深入,Harness的價值逐漸清晰。包括OpenAI、Anthropic在內,越來越多頂尖團隊已意識到,Harness是智能體落地的核心支撐。有意思的是,這個判斷,明日新程團隊負責人李笛早在去年就已給出。去年12月7日,奇績創壇Demo Day上,李笛壓軸登場,系統性拋出群體智能理論,並對Harness趨勢有了準確預判和率先佈局。雖然他本人很低調:我們現在其實都比較羞於說我們早就看到了什麼,這個是沒有用的。這個世界上永遠都是,你做它比你看到它要難得多。就像《駭客帝國》裡有句話,知道路與走路,二者截然不同。如今,該賽道已成為投資人佈局AI下半場的核心標的。而明日新程,也已在這一領域形成了領跑態勢。Harness為何會成為行業共識?明日新程又憑什麼能夠殺出重圍?團隊下一步又將如何落地?量子位與李笛聊了聊。糧草已備,重倉佈局Harness群體多智能體OpenClaw火遍全網,無疑為智能體賽道按下了加速鍵,讓行業第一次真切看到了智能體主動幹活的潛力。但當人們開始把它當“正式員工”用時,問題來了。這事兒要說還得Meta最有發言權……Meta安全對齊總監Summer Yue的信箱,曾一夜之間被OpenClaw清空所有郵件。此事過去沒多久,OpenClaw未經授權擅自行動,將敏感的公司和使用者資料,洩露給無權限員工長達近倆小時。究其原因,該框架在工程實現上,尚處於早期階段,缺乏Harness等級的技術注入。在處理24小時以上的長程複雜任務時,其Token消耗量巨大,效果卻常常不盡如人意,穩定性與安全性仍有很大提升空間。用李笛的話來說,任何一個超級智能個體,無論它的智能水平達到什麼程度,都一定有盲區,沒有辦法自我糾偏。而當超級智能個體處理長程任務時,錯誤會隨著時間累積被指數級放大。隨著行業實踐的深入,AI廠商逐漸關注到這一問題。Harness,如今已成為AI工程領域的新共識。所以,Harness到底是什麼?從本質來看,Harness意為“馬具”,類比到AI領域,就是連接“模型(馬匹)”與“人類需求(騎手)”的核心框架。它不直接參與任務執行,卻能通過明確的約束、規範與協同機制,引導多智能體高效協作,避免失控,實現“約束換自主”的核心價值,這也是其區別於Prompt Engineering、Context Engineering的核心所在。今年2月,OpenAI發佈官方Blog《Harness Engineering: Leveraging Codex in an Agent-First World》,通過實驗證明AI是可以獨立完成全流程開發的執行主體,但必須有一套框架來駕馭它。通過Harness Engineering,3人工程師小組在5個月時間裡,可以利用Agent建構百萬行程式碼的產品。Anthropic最近也發佈了新Agent架構Managed Agents,技術文件中也有反覆強調“Agent Harness”。而明日新程在這條路上,堅持得比別人更專注一些。不同於行業內對Harness的單一架構解讀,明日新程所佈局的“Harness群體多智能體”,是將Harness工程化理念與群體智能深度融合的全新體系。它並非簡單的“多智能體+約束規則”,而是以原生群體智能與認知模型為核心,讓眾多具備不同認知能力、不同功能定位的Agent,按照明確的規則協同工作、互相校驗、迭代最佳化。李笛進一步解釋,Nextie的Harness核心包含三個關鍵元件:上下文管理、參與其中的多智能體、多智能體協同方法。其中,多智能體協同方法最為關鍵,團隊內部將其稱為“認知碰撞”,即通過辯論、挑戰、反思、同行評審、投票等方式,讓多智能體真正實現思辨與互補,而非“表演式一致”。上下文管理,則確保多智能體在協同過程中獲取的資訊精準、全面且適度,避免因資訊過載或偏差導致荒謬結果;Agent池最佳化,指的是根據任務需求動態搭配不同角度、不同功能的Agent,實現協同效率最大化。這種體系既能解決OpenClaw等框架的長程協同痛點,讓多智能體在長周期任務中保持穩定高效;又能通過群體思辨、共識機制,打破單一Agent的認知盲區,輸出經過權衡的最優解,真正實現“群體智能大於個體智能之和”。這也是明日新程對多智能體賽道未來的核心判斷。這其中的種種思考,繞不開一個詞——協同。“協同”這道題,他們在小冰時代就思考了李笛團隊的佈局並非一時興起。“自2022年以來,我們一直在準備這個時刻”,李笛把這段蟄伏期拆成了幾個關鍵節點。第一個節點,是在2022年底。彼時,Transformer架構的合理性已被徹底驗證,其顛覆性潛力讓行業看到了全新可能。在當時,團隊受到了決策體系的限制,但李笛最終還是帶著團隊自籌算力,把這條線先跑了起來:我們手裡有一套基於上一代技術的框架。我們能清晰感知到框架本身的潛力,但它被上一代技術拖累了。當看到新技術出現時,我們眼前一亮,很多過去棘手的難題,終於有了破解的可能。但興奮之餘,一個更為根本的問題浮現出來:有些障礙,不是靠模型能力變強就能繞過去的。這個問題,種子早在小冰時代就已埋下。團隊最初的目標就不止於打造一個“小冰”,而是建構千千萬萬個能精準匹配使用者需求、且彼此配合的AI。但實踐中他們發現,單個Agent再聰明,一旦放進多智能體場景,局面就失控了。要麼是“表演式一致”,表面上一團和氣,實則誰都沒往深裡想;要麼互相衝突內耗,整體效率還不如單干。完全依賴模型自身驅動協同,遠遠不夠。於是,一條新的研究方向被李笛團隊單獨闢出來:多智能體之間,到底應該怎麼協作?在他們看來,唯一的參考藍本,就是人類社會。畢竟,人類是迄今所知的、唯一實現了大規模高級認知協同,並持續產出價值的群體。為此,團隊還專門梳理了1800-2020年整整220年的人類文獻,只為拆解“群體智慧”的演進脈絡。時間來到2023年年初,團隊提出CoT是關鍵。他們自研了“小冰鏈”(X-CoTA),驗證了思考過程透明化的核心價值。小冰鏈僅使用了GPT-3約2%的參數量,便實現了可觀測、可追溯的思維鏈建構,並能夠在推理過程中即時獲取外部資訊、做出行動決策。實際上,CoT也是多智能體協同大計畫中的一塊關鍵拼圖。在團隊的構想裡,真正高效的協同,不能只共享結論,更要同步思考過程。就像人與人協作,只有知道對方的推導邏輯,而非僅僅拿到一個結果,才能實現超越表層的深度配合。到了2023年年底,團隊做的開源大模型性能超越了Meta同期產品。他們欲乘勢而上,提出研發推理模型的新計畫,但在當時的決策框架下,這個方向再次被擱置。2025年12月9日,李笛帶領微軟小冰創始核心團隊成立新公司明日新程(Nextie)。如今,技術條件、市場環境、團隊狀態終於迎來同頻共振的時刻。團隊現在手握完全的決策權,可以心無旁騖地深耕Harness群體多智能體賽道。延續對“多智能體協同”的長期思考,明日新程團隊組建之初,便將核心方向鎖定為原生群體智能與認知模型。今年2月份,團隊打造的首個原生群體智能平台——“糰子(tuanzi.ai)”發佈內測版。量子位在產品剛發佈時,就上手實測過:使用者提出問題後,幾十個Agent成團“圍坐一桌”,各抒己見、互相補充、辯論交鋒,甚至還有投票表決、同行評審這樣的專業環節。它不追求單一智能體的能力極致,而是聚焦“群體協同價值”,既能勝任高認知複雜度的深度研究任務(通過多智能體思辨、碰撞,破解單一模型的認知侷限),也能適配以OpenClaw為代表的長程多智能體協同、大規模群體模擬等核心場景,真正將Harness理念落地到了產品層面。在團隊設計的視角完備性、辯證深度、落地實操性、隱含訴求滿足度、決策五維度評測指標中,Nextie綜合表現顯著優於競品。不僅超過了包括ChatGPT-5.2 Thinking在內的單一大模型;同時,在達到同等思考深度的情況下,整體計算消耗(Token)可降低約50%。此外,前段時間引發關注的“衛士蝦”TuanziGuardianClaw,則是群體智能能力的又一次實戰驗證。這只專門堵OpenClaw安全漏洞的Agent,完全由糰子群體智能體自主協同設計而成。量子位還打探到,目前明日新程內部大量使用Agent作為“人機共生的同事”,採用“常駐Agent+臨時Agent”的協作模式——常駐Agent負責常規開發與產品設計,臨時Agent根據具體任務需求動態補充。“衛士蝦”就是安全領域的臨時Agent與常駐Agent協同完成的。“小冰島”將以新形態重現談到近期產品規劃,李笛向我們透露了團隊醞釀已久的全新動作。他們正在全力打造一款形態接近“小冰島”的全新產品。它不再侷限於簡單陪伴,而是能夠協同完成各類複雜、長期任務,讓一群Agent真正做到幫使用者幹活、陪使用者成長,並在持續互動中與使用者建立深度繫結關係。李笛表示,新產品最大的延續,在於小冰島最初的設計理念:觀察圍繞每一個人,究竟配備一群怎樣的Agent才是最適配的。每個人的需求不同,有人需要工作支援與情感陪伴兼顧,有人更需要理性、專業的決策輔助。我們要做的,就是讓Agent群體真正貼合使用者本身。而產品最核心的升級,則是技術層面的全面迭代,深度融入糰子的Harness群體智能能力。李笛解釋,當年做小冰時,受限於技術水平,很多複雜的協同邏輯只能靠工程抹平,無法實現真正的智能協同;如今有了大模型與Harness,終於能實現當初的設想。以前在小冰島上,你告訴一個AI“我失戀了”,這個AI無法判斷是否要把這個私密資訊傳遞給其它AI,要麼所有人都來安慰你,讓你尷尬;要麼只有這一個AI知道,無法形成真正的情感支援。但現在,Agent會通過智能判斷,做出最合理的反應,你的每一次互動,都會在Agent群體中產生智能、合理的漣漪。未來,使用者可以擁有一組像OpenClaw一樣的自主Agent,他們能夠根據你的自身需求靈活調整。換句話說,這群Agent,從來都只是為你而存在。由此,這也將打開多智能體全新的應用場景。By the way,新版“小冰島”預計本月底推出~ (量子位)
全世界消耗Token最多的人
2025年之前,想要證明自己混得好,大概得腕上戴塊百達翡麗,車庫裡停輛庫裡南。但到了AI時代,硬通貨變了:看你一年到底燒了多少Token。一年燒掉250億個Token,有位25歲的韓國小夥子,成了全世界最能燒的人。2025年12月,首爾江南區一家中餐館裡,Anthropic(Claude系列大模型的開發公司)擺了一桌私宴。公司聯合創始人Ben Mann帶著幾位高管,跟一群重度使用者圍坐一桌,暢談怎麼讓AI代理系統跑得更穩、更靠譜。席間最打眼的是一位24歲的韓國年輕人。他頂著亂糟糟的齊肩捲髮,臉上還帶著幾顆沒消下去的青春痘,笑起來一臉膠原蛋白,身材微微發福,看起來就是個普通大學生模樣。他叫Sigrid Jin。很難想到,這位其貌不揚的小夥子,正是Anthropic當時公認的“榜一大哥”。一年內,他一個人在Claude Code上燒掉了250億個Token。250億個Token是個什麼概念?按開發者常用的Claude Sonnet 4.6定價(輸入3美元/百萬Token,輸出15美元/百萬Token),假設輸入輸出比例為2:1,這筆開銷大概相當於17.5萬美元,折合人民幣約125萬。這筆錢,放在北京五環外,差不多夠付一套小兩居的首付。Sigrid Jin一個人去年在模型上燒掉的錢,抵得上一套三線城市的房,也夠在北京紮根了。圖|claude官網定價Sigrid Jin本名Jin Hyung Park,今年25歲,目前還在英屬哥倫比亞大學(UBC)讀書。不過他是個出了名的“輟學專業戶”,2018年和2024年先後兩次暫時離開學校,到現在也沒固定專業,只是掛在理科大類下面。他的技術不是科班出身,而是靠參加後端開發訓練營自學成才。他的人生路徑相當跳脫。高中就讀於韓國外國語高中,主修語言和人文,當過辯論隊隊長,還辦過TEDx。工作經歷更是五花八門,他做過以太坊稽核員、給經濟學人寫過研報、在空軍服役期間負責過財務和人事助理。圖|領英上,Sigrid Jin的部分工作經歷直到2022年底,Sigrid Jin才真正開始碰軟體開發。各種經歷雜糅在一起,像一團沒理順的程式碼。現在,他已經是韓國最大LLM研究社區instructkr的創始人。這個Discord群裡聚集了一千多名活躍成員,平時大家就在裡面聊模型、分享workflow、吐槽各種agent的坑。另外,他還是Sionic AI的團隊成員。2023年,Sigrid Jin加入這家公司,開始研究一個叫“AI Harness”的方向。通俗一點解釋,如果把單個AI Agent比作幹活的工人,那AI Harness就是整個工地的總調度。它負責定規矩、搭流程,讓不同的AI工具像流水線一樣配合起來,真正做到“沒人盯著也能一直跑”。為了驗證這套系統,Sigrid Jin和團隊直接開了5個OpenAI Codex Pro帳號、6個Claude Code Max帳號,同時讓它們狂跑,一天就能燒掉20億Token。據說,他所在的初創公司Sionic AI過去一年總共消耗了1380億Token,算力燒得那叫一個毫不手軟。真正讓他封神的,是那個程式碼洩露的凌晨。2026年3月31日凌晨,Sigrid Jin被手機震醒。消息鋪天蓋地,Claude Code的原始碼洩露了。洩露的起因堪稱荒誕。Anthropic在npm更新時,打包工具出了問題,一個60MB的source map檔案被塞進了安裝包,裡面躺著51.2萬行TypeScript原始碼。最先發現的是安全研究員Chaofan Shou。凌晨4點23分,他在X上扔出一個下載連結,帖子很快收穫了1600萬瀏覽量。幾小時內,GitHub上冒出了8000多個複製,Anthropic的法務團隊緊急出動,一口氣發了8100份DMCA下架通知。Sigrid Jin的消息列表炸了。他遠在韓國的女朋友連珠炮似的給打電話,聲音都在發抖。女友擔心Sigrid Jin的電腦上存了那些程式碼,會有法律風險。Anthropic之前起訴過類似項目。圖|程式碼洩漏當晚,Sigrid Jin發帖換做普通人,可能早就刪庫跑路了。但Sigrid Jin做了件更瘋的事。他決定,不看洩露的程式碼,只用AI Harness從零重寫一個。他啟動了自己參與推廣的oh-my-codex(OmX)。這是另一位韓國開發者Yeachan Heo打造的AI工作流編排層,基於OpenAI Codex建構。Sigrid Jin是該項目的社區大使,對這個工具的調度邏輯瞭如指掌。在這個工具的調度下,多個AI代理同時開工。team指令負責平行程式碼審查和架構反饋,ralph指令執行持久化的驗證循環。Codex負責程式碼生成和審查,其他模型輔助檢索。短短幾個小時,他和同伴就用另一種方式把Claude Code那51.2萬行核心邏輯完整復現出來,搞出了一個平替版“Claw Code”。整個過程有點像翻拍一部經典老電影。主線和靈魂沒變,但台詞、演員、佈景全換成了自己的那一套。天還沒亮,Claw Code就被推上了GitHub。兩小時內收穫5萬star,24小時突破10萬,成為GitHub歷史上躥升最快的項目之一。Anthropic後來對8100多個直接搬運洩露程式碼的倉庫發出了DMCA下架通知,唯獨Sigrid Jin的clawcode安然無恙。因為它屬於“淨室重寫”(clean-room rewrite),一字節原程式碼都沒抄,版權上完全算獨立創作。“這是用250億個Token換來的直覺。”Sigrid Jin後來這樣評價。這種直覺來自他對Claude Code近乎痴迷的鑽研。今年2月,他特意飛去舊金山參加Claude Code的一周年生日派對。本以為會看到一屋子極客,結果現場擠滿了醫生、律師、音樂家之類的普通人。一位加州律師用Claude Opus 4.6做了一個自動化建築許可審批工具,還在駭客松裡拿了冠軍。這讓Sigrid Jin意識到,AI Harness不再是極客的玩具,而是這個時代最迫切的基建。圖|claude code一周年生日會合影一周後,他在舊金山辦了一場一百多人的程式設計活動,規則特別離譜。參賽者設定好任務後,從中午12:30開始四個小時全程不能碰電腦。如果忍不住想干預,就得穿上紅色的龍蝦服當懲罰。Sigrid Jin把這叫“IRL模式”:一邊瘋狂用AI代理幹活,一邊強迫自己切換回現實生活,別完全沉進去。這大概就是他在那250億Token裡摸索出來的生活態度。雖然他的GitHub上堆著上百個實驗項目,但他的社交媒體首頁卻主打粉紅色,氛圍輕鬆又快樂。頁面裡時不時出現女明星和呆萌動漫頭像,還有他打卡學習中文的帖子。Claw Code爆火之後,他還認真回覆網友:“別只顧著造AI agents,也要去現實裡好好經營人際關係。”在2月的生日派對上,他曾對著鏡頭半開玩笑地喊:“讓Claude Code再便宜點吧,求求了。”結果一個月後,他做出了同樣功能的Claw Code,而且還能免費使用。現在,這個“全世界燒Token最多的人”,終於成了真正握有AI掌控權的那一撥人。只不過他的方式有點特別。他沒有去寫更牛的程式碼,而是設計了一套更狠的規則,讓AI自己去管AI。那250億個Token,不過是他交給這個時代的學費。而當他把Claude Code的靈魂用免費的Claw Code還給全世界時,故事才真正收尾。在AI時代,最頂級的Token消費,從來不是為了證明你有錢,而是為了把門檻踩得稀巴爛。從這個角度看,Sigrid Jin這250億個Token,燒的不是錢,是一張通往新世界的門票。 (36氪)
阿里首提智能體經濟,在全球AI競爭顯鋒芒!
行家一出手,便知有沒有!自AI問世以來,已成中美科技必爭之地,誰能笑到最後,關鍵還是要看應用!在這方面,矽谷那邊的公司一直想打通AI+消費這條路,但缺乏穩固的生態和龐大的應用場景,一直流於形式,還未實踐。而阿里在春節期間取得了千問辦事的成功之後,在新財年的首次集團戰略會上,阿里正式提出,要全力推進以千問為代表的智能體經濟。1. 什麼是“智能體經濟”?對普通人有什麼意義?“智能體經濟”簡單來說,就是通過AI這個技術載體來推動更好的消費,也就是很多官媒說的“AI+消費”!這玩意對普通人來說,有三好!一好為:方便。比如以前點外賣,得自己去外賣軟體上一個個找,現在一句話就能搞定;以前買電影票,選座位得研究一下,現在交給千問按需訂票。可以這麼說,過去很複雜的消費流程,現在一句話就能辦完,給誰誰能不喜歡?二好為:創造新的機會。往前翻個20年,就能發現每一次技術革新,除了會為行業帶來新變化以外,也會創造新的機會。比如當年的電商,讓很多人從個體戶變成了小老闆;10年前左右的自媒體,催生了現在的網紅經濟;那麼如今阿里的智能體經濟要發展,必然也會衍生出一系列的工作崗位,現在能想到的就是營運、設計、AI訓練師之類的工作,往後發展這方面人才缺口勢必會放大,普通人只要抓住機會,很有可能直接改變命運。三好為:技術普惠這個怎麼理解呢?以老年人為例。很多上了年紀的老人。對於智慧型手機用的並不熟練。一個人在家想點個外賣,都搞不明白。但在千問智能體經濟的技術普惠下,老年人也能一句話搞定外賣,體驗到年輕人的生活方式。網際網路的浪潮奔湧向前,阿里通過技術普惠,讓銀髮一族也能緊跟時代的步伐,這既是社會責任的體現,也是技術便利每一個日的最好寫照!2. 為什麼阿里是第一個提出此概念的公司?因為只有阿里具備這些條件!這個智能體經濟兩大要素,過人的技術,優秀的生態。而這兩方面,不管是那個條件,阿里都是王中王、頂中頂!論技術,阿里從模型到GPU晶片都是行業頂尖。最新模型Qwen 3.6 Plus一經發佈,單日呼叫量突破1兆Token的模型,問鼎全球大模型周呼叫量冠軍,究其原因,是因為它是國產程式設計模型技術能力的天花板。上周的時候,在AI視訊生成領域,由阿里巴巴內部孵化的模型HappyHorse-1.0,登頂Artificial Analysis排行榜。這個大模型有多牛?它在文字生成視訊、圖片生成視訊等四大核心賽道中全面領先。這也能證明,阿里在AI領域持續投入是有結果,同時,阿里在多模態大模型領域技術積累也非常的雄厚。平頭哥自研GPU也已實現規模化量產,截至26年2月已累計交付47萬片。AI技術,大模型是基礎,GPU是運轉的關鍵,兩大技術阿里全都有,並且全都硬,為智能體經濟提供了堅實的保障。論生態,阿里積累了20多年的網際網路商業、消費經驗,旗下擁有淘寶、閃購、高德、飛豬等覆蓋人們吃喝住行娛一體的生態產品,並且還這些產品還和千問全部打通,這也就將阿里的生態優勢賦能到了AI應用端。為了集中力量辦大事,4月8日的時候,阿里還進行了組織架構調整,新設立了阿里巴巴集團技術委員會,吳泳銘任組長,周靖人擔任首席AI架構師,整合優勢資源,投入到智能體經濟戰略當中來。3. 總結阿里今天提出智能體經濟,是其科技實力的體現,也是生態經營多年的結果。這大概也就是此前美國知名科技商業媒體The Information發報導稱:“阿里巴巴在AI辦事領域的進展快於亞馬遜和 OpenAI。”的原因所在! (梁穩健)
華爾街日報:將川普描繪成耶穌的圖片引發強烈反彈
川普總統的社交媒體帖子引發了自他重返白宮以來來自宗教右翼的最強烈反彈。2月,川普總統在華盛頓特區出席全國祈禱早餐會。 圖片來源:Saul Loeb/AFP/Getty Images華盛頓——川普總統決定發佈一張人工智慧生成的圖像,將自己描繪成基督般的形象,此舉激起了宗教右翼的憤怒,引發了他重返白宮以來天主教和福音派基督教支持者最強烈的反對。“我們有點不知所措,”天主教徒互助會首席執行長約翰·葉普說道。該非營利組織曾在川普的海湖莊園俱樂部舉辦過信仰活動,並與川普政府保持著密切聯絡。周日晚上,葉普在教堂做完禮拜後和朋友們一起吃晚飯,這時他的手機亮了起來,彈出一條消息,內容是關於一張現已被刪除的照片,照片中身穿長袍的川普觸摸了一名躺在病床上的男子的額頭。葉普在一次採訪中表示,當時在場的所有人都感到“悲傷”,因為天主教徒給了這位總統如此壓倒性的支援,而他此刻卻如此不尊重我們的信仰,這讓我們感到非常困惑。他立即聯絡了與政府關係密切的人士,表達了他的“悲傷和失望”。保守派作家羅德·德雷爾曾參加過副總統JD·范斯步入政壇前的天主教洗禮儀式,他的觀點更為激進。“我不是說川普就是反基督,”德雷爾告訴《華爾街日報》,“但他身上散發著反基督的精神,這一點毋庸置疑。”國防部長皮特·赫格塞斯所屬的保守派加爾文教派的聯合創始人道格拉斯·威爾遜牧師稱這張照片“褻瀆神明”。儘管最初有所疑慮,但近年來保守派基督徒仍然團結在川普周圍,在他經歷兩次彈劾和三次選舉後依然堅定地支援他。作為回報,川普兌現了競選時對他們的承諾,提名了推翻“羅訴韋德案”的最高法院大法官。川普發佈了一張人工智慧生成的圖片,圖片中他把自己描繪成耶穌基督。Truth Social但對許多基督教領袖來說,川普周日晚在 Truth Social 上發表的帖子,以及他對教皇良十四世的尖銳批評,都太過分了。圖片中,川普被耀眼的光芒環繞,一位女子雙手合十祈禱。白頭鷹和噴氣式戰鬥機在空中翱翔,總統上方的雲層中出現了奇怪的身影。此前,教皇公開譴責伊朗戰爭,川普對此大加抨擊,指責這位天主教領袖在打擊犯罪方面軟弱無力,迎合自由派。川普證實他發佈了這張圖片,但他表示自己無意將自己比作耶穌。“這張圖片原本是想表達我作為一名醫生治病救人的形象,”他周一下午在白宮告訴記者。此前,該帖子已從Truth Social網站刪除。這並非川普第一次將政治與宗教意象結合起來:去年,川普在 Truth Social 上發佈了一張人工智慧生成的自己裝扮成教皇的圖片。白宮沒有解釋為何刪除該帖子,並廣泛維護了川普的政績。白宮發言人泰勒·羅杰斯表示:“總統為有信仰的美國人帶來了前所未有的勝利,他將繼續保護和擴大我們神聖的宗教自由權利。”保守派網站 Daily Wire 的宗教作家梅根·巴沙姆(Meghan Basham) 周日晚間打趣道,如果人們看到川普在白宮草坪上“啃草”,那就表明他像舊約中的尼布甲尼撒王一樣被打倒在地。尼布甲尼撒王因其驕傲而被懲罰,變成了一頭野獸。川普的社交媒體言論引發的爭議可能會成為共和黨在中期選舉中的政治包袱。他已連續三次贏得天主教徒的多數支援,最近一次是在2024年,根據皮尤研究中心的資料,他獲得了55%的天主教選票,而前副總統卡馬拉·哈里斯的得票率為43% 。共和黨人原本指望在即將到來的中期選舉中贏得這些選民的支援,但川普抨擊教皇后,這一計畫變得更加困難。教皇譴責伊朗戰爭,稱“上帝不會祝福任何衝突”後,川普反駁說,這位美國籍教皇“對外交政策一竅不通”,“如果我沒入主白宮,他根本不可能待在梵蒂岡”。川普在 Truth Social 上發佈了關於教皇良十四世的帖子。Truth Social批評人士,以及一些基督教支持者,對川普及其盟友為發動伊朗戰爭所使用的措辭表示不滿。本月初在白宮舉行的一次活動中,電視福音傳教士、川普的精神顧問寶拉·懷特將總統比作耶穌,稱兩人都曾“遭到背叛、逮捕和誣告”。此番言論招致廣泛譴責。威爾遜曾與赫格塞斯一同參加周日禮拜,最近還在五角大樓的祈禱儀式上發言。他認為川普的社交媒體帖子是旨在賦予總統神聖權威的一系列舉措之一,其中包括懷特為總統按手祈禱。“我對這種准聖禮式的按手儀式感到不安,彷彿川普是一個被特別揀選的器皿,就像一位公民聖人,”他說。他表示,川普的帖子“只會加劇”他的不安。其他人則認為川普的帖子帶有政治動機。“當像寶拉·懷特這樣的精神顧問公開將總統的權力描述為神聖的旨意時,這實際上是在告訴公眾,反對總統就是反對上帝,”浸信會宗教自由聯合委員會執行主任阿曼達·泰勒說道。該組織倡導政教分離。川普重返橢圓形辦公室,誓言要結束“針對信仰的激進戰爭”。他曾在白宮接待宗教領袖,簽署了福音派選民支援的行政命令,並承諾結束“政府反基督教的武器化”。身為天主教徒的保守派智庫傳統基金會主席凱文·羅伯茨表示,他對這些初步成果感到滿意,但鼓勵川普和良進行“更直接的對話”。羅伯茨在接受採訪時說,這兩位領導人都在尋求伊朗和平。他說:“雖然我認為川普總統與教會進行對話還有更具建設性的方式,但我完全贊同總統和大多數美國人的目標,那就是徹底結束伊朗衝突。”川普的盟友、信仰與自由聯盟的創始人和主席拉爾夫·裡德表示,總統已經贏得了宗教選民“深厚的讚賞和忠誠”。當被問及那張已被刪除的圖片時,他回應說,忠誠“遠比社交媒體帖子引發的任何分歧或爭議重要得多,在我看來,忠誠將掩蓋一切”。這場爭議正值過去十年保守派圈子中天主教皈依人數顯著增加上際。這其中就包括一直以來公開談論自己信仰的范斯,他即將出版一本新書《聖餐:重拾信仰之路》。教宗與副總統范斯在梵蒂岡。ALESSIA GIULIANI/IPA/Zuma Press川普對教皇的言辭突然轉變,令一些總統的外部支持者感到困惑。德雷爾是一位東正教基督徒,也是范斯的熟人。他表示,自己與教皇在政策上存在分歧,但“政治人物與教皇交惡沒有任何好處”。他指出,歷史上國家元首與梵蒂岡之間也曾有過分歧,通常措辭更為禮貌,但他抱怨說,“川普似乎認為教皇只不過是穿著白色長袍的基爾·斯塔默而已。”《燈報》(The Lamp)是一份天主教文學期刊,此前曾發表過范斯的文章。該報的執行主編尼克·羅文表示,最終教區居民會支援那一方並不難判斷。“良的職位是終身制,而川普已經是跛腳鴨總統了,”羅文說,“對美國天主教徒來說,這兩人中有一個人會長期執政;另一個人則即將卸任。”良教宗誓言將繼續公開反對戰爭。“福音的資訊非常明確:締造和平的人有福了,”他在從羅馬飛往阿爾及利亞的教宗專機上對記者說。他將從阿爾及利亞開始為期四天的非洲之行。“我一點也不怕川普政府,”良說。 (invest wallstreet)
史丹佛423頁AI報告出爐!中美差距僅2.7%,清華DeepSeek衝進全球前十
史丹佛「2026年AI指數報告」重磅出爐!這份432頁長文含金量極高:中美AI巔峰對決,差距幾乎抹平,縮減至僅2.7%。全球頂尖AI年產95個,基本都聚集在大廠。最殘酷的是,22-25歲開發者的就業已被切掉20%。今天,史丹佛HAI重磅發佈「2026年AI指數報告」!這份長達423頁的年度報告,全面揭示了全球AI產業的最新權力版圖。它給出了一條核心結論:AI的本事漲得飛快;但人類衡量和管好它的能力,卻沒怎麼跟上步伐。其中,最震撼的結論是——中美AI模型性能差距已基本消失,雙方在巔峰對決中頻繁易主,目前Anthropic領先優勢僅剩2.7%。美國在AI上砸的錢比誰都多,但招攬頂尖人才卻越來越吃力了。報告還指出,AI的進化不僅沒有遭遇所謂的「瓶頸」,反而正以史無前例的速度狂飆。過去一年,全球超90%的頂尖模型,在博士級科學問題、多模態推理、競賽數學上的表現,追平甚至超越了人類。特別是在程式碼能力上,SWE-bench的成績在一年內,從60%飆升至近100%。然而,AI的「偏科」現像極其嚴重,呈現出一種畸形的現狀:LLM可以拿下IMO金牌,卻讀不對模擬時鐘,正確率僅為50.1%。與此同時,AI搶飯碗這事兒已經從預測變成了現實,而且最先遭殃的就是當代年輕「打工人」。下面直接上乾貨,「2026年AI指數報告」最值得關注的12個硬核趨勢。其他亮點速覽:全球AI算力3年漲30倍,輝達獨佔60%,幾乎所有晶片都出自一家台積電2025年全球企業AI投資5817億美元,同比翻倍,美國一國吃下近一半進入美國的AI研究人員7年跌89%,僅過去一年就跌80%22-25歲軟體開發者就業自2024年起下滑20%,入門崗位被精準切掉中國累計建成85台公共AI超算,是北美的兩倍以上,全球第一中國職場AI使用率超80%,遠超全球58%的平均最強模型越來越黑箱,95個代表性模型裡80個沒有公開訓練程式碼中美貼臉差距只剩2.7%史丹佛把2023年5月以來Arena榜單上的美國第一和中國第一,畫在了同一張坐標系裡。2023年5月,gpt-4-0314拿1320分領跑,中國這邊還是chatglm-6b,差距300多分。2025年2月,DeepSeek-R1第一次和美國頭部模型短暫打平。2026年3月,美國的Claude Opus 4.6拿到1503分,中國dola-seed-2.0-preview拿到1464分。如今中美AI之間的差距,僅有39分。換算成百分比,2.7%。更值得說的是過去一年的換位頻率。從2025年初開始,兩國頭部模型已經在Arena上你來我往換了好幾次位置。數量上同樣接近五五開。2025年美國發佈了50個「顯著模型」,中國緊跟著也發佈了30個頂尖大模型。第一梯隊裡OpenAI、Google、阿里、Anthropic、xAI同台站位,全球TOP 5五五分帳。再往下看到TOP 10,中國機構和企業佔了四席,阿里、DeepSeek、清華、字節。開源生態這一年的重心也明顯東移。DeepSeek、Qwen、GLM、MiniMax、Kimi一路把開源權重的能力曲線往前推。再算上論文發表量、被引數、專利產出量、工業機器人裝機量,中國統統全球第一。價格層面是另一條戰線。海外開發者在X上算過一筆帳,Seed 2.0 Pro的輸出價格大約只有Claude Opus 4.6的十分之一。性能貼臉,價格只要十分之一。這件事的連鎖反應才剛剛開始。90%前沿模型出自產業封神速度史無前例去年發佈的95個最具代表性的模型裡,超過九成都來自產業界,不是學術機構,也不是政府實驗室。學術界已經追不上前沿了。發佈速度也在變態加速。光是2026年2月一個月,就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5八九個旗艦模型同月入場。封神周期從「年」變成了「月」。基準一年封頂AI沒有瓶頸最猛的曲線是程式設計。SWE-bench Verified這個真實修Bug的基準,一年時間從60%漲到接近100%。不是漲了幾個點,是基本封頂。Terminal-Bench測試Agent處理真實終端任務的能力,從去年的20%漲到77.3%。網路安全Agent解決問題的成功率,從15%漲到93%。Gemini Deep Think在國際數學奧林匹克拿到金牌。PhD級科學問答(GPQA Diamond)、競賽數學(AIME)、多模態推理(MMMU)這些原本被認為「人類不可超越」的硬骨頭,全部被前沿模型啃了下來。最能說明問題的是Humanity's Last Exam。這是一個專門被設計來「難倒AI、偏袒人類專家」的測試,題目由各個領域的頂尖專家提供。去年OpenAI的o1拿到8.8%,前沿模型在一年時間裡把分數往上又推了30個百分點,目前Claude Opus 4.6和Gemini 3.1 Pro已經雙雙過了50%。鋸齒前沿能拿IMO金牌卻看不懂表但同一份指數甩出了另一組數字。最強模型在「讀模擬時鐘」這個任務上的正確率,是50.1%。機器人在實驗室模擬環境(RLBench)裡的操作成功率已經達到89.4%。但搬到真實家庭場景裡完成洗碗、疊衣服這類家務,成功率立刻掉到12%。實驗室和廚房之間,差了77個百分點。研究者把這種現象命名為「鋸齒前沿」(jagged frontier)。AI能力的分佈是凹凸不平的,能拿數學奧賽金牌,卻沒法穩定地告訴你現在幾點。AI能在數學奧賽拿金牌,但只有一半的機率能看懂模擬時鐘。AI在加速,但加速的不是同一個方向。另外,在智能體任務中,OSWorld測試中,前沿AI實力(66.3%)正逼近人類基線。然而,在專門評估科研邏輯的PaperArena測試中,最強AI加持的Agent,得分僅39%,只有博士生一半的功力。但這種凹凸已經不影響企業把AI往生產線上塞。AI Index給出的另一個數字是,全球企業AI採用率達到88%。九成的公司已經把AI接進了某個工作流。代價同步在漲。AI相關事故記錄從2024年的233起漲到362起。錢在加速5817億砸進AI2025年全球企業AI投資達到5817億美元,同比增長130%。其中私募投資3447億美元,同比增長127.5%。兩條曲線都幾乎翻倍。國別上,美國一騎絕塵。2025年美國私募AI投資2859億美元。並且一年新增1953家AI創業公司,也是排名第二的10倍以上。錢在加速湧向美國。但美國的另一項核心資源,正在反向流動。人在流走進美國的AI研究者跌了89%裡面有一組數字讓人愣了一下。2017年到現在,進入美國的AI研究人員和開發者數量下降了89%。更關鍵的是,這個下降在加速。僅僅過去一年,下降幅度就達到80%。美國仍然是全球AI研究人員密度最高的國家,但流入的水龍頭正在擰緊。錢和人這兩條曲線開始反向。這是過去十年沒出現過的局面。算力三年漲30倍命門都在一家公司手裡AI能力曲線在加速,背後那條算力曲線跑得更猛。從2021年到現在,全球AI算力總量漲了30倍。過去三年裡,每年都在翻三倍以上。撐起這條曲線的是少數幾家公司。輝達一家的GPU,佔據了全世界AI算力的60%以上。亞馬遜和Google靠自研晶片排在二三位,但加起來也遠遠追不上輝達。而幾乎所有這些晶片,都來自一家代工廠,台積電。算力曲線越陡,命門就越窄。與此同時,代價也在加大。全球AI資料中心的總功率已經達到29.6 GW,相當於紐約州在用電高峰時段的全部用電需求。xAI Grok 4一次訓練的估算碳排放是72816噸二氧化碳當量,相當於17000輛汽車開一整年的尾氣。資料中心建在那裡,電從那裡來,晶片從那裡產,這三個問題已經變成今年所有AI公司CEO案頭最頭疼的事。生成式AI三年滲透53%中國職場使用率破80%生成式AI在三年內達到了53%的全球人口滲透率。這個速度比個人電腦快,比網際網路快。但滲透速度和國別相關性極強。新加坡61%,阿聯54%,都跑在美國前面。美國在調查覆蓋國家中只排第24位,滲透率28.3%。如果把維度從消費者換成職場,反差更大。報告裡另一組資料顯示,2025年全球58%的員工在工作中已經開始經常性使用AI。但在中國、印度、奈及利亞、阿聯、沙烏地阿拉伯這5個國家,這個比例超過了80%。中國的職場AI滲透率,已經比全球平均高出20個百分點以上。更有意思的是消費者價值。AI Index估算,到2026年初,生成式AI工具每年給美國消費者創造1720億美元的價值。從2025年到2026年,每個使用者的中位數價值翻了三倍。絕大多數使用者用的還是免費版。普通人願意為AI付的錢,遠低於AI給他們創造的價值。這中間的剪刀差是現在所有AI公司都在試圖彌合的東西。入門崗位銳減22-25歲開發崗狂砍20%整份AI Index裡最讓中文讀者沉默的,可能是關於年輕就業的部分。22到25歲的軟體開發者群體,從2024年至今,就業人數下降了大約20%。同期,年紀更大的同行群體反而在增長。不止開發崗。客服等其他高AI暴露行業,也在出現同樣的模式。更讓人擔心的是企業問卷的結果。受訪高管普遍預期,未來的裁員幅度會比過去幾個月還要大。這不是宏觀失業率的事,是入口崗位被精準切掉的事。第一份工作沒了,整個職業階梯就斷了一格。這件事的長期影響,現在沒人能算清。AI正在改寫科學發現的方式如果說就業那一段是冷的,科學這段就是熱的。自然科學、物理科學、生命科學領域的AI相關論文,2025年同比增長了26%到28%。具體到應用,今年第一次有AI完整跑通了端到端的天氣預報流程。從原始氣象觀測資料直接吐出溫度、風速、濕度的最終預報,中間沒有任何傳統數值模型介入。AI從「幫你寫論文」「幫你算數字」,正在變成「自己做發現」。醫院裡也是一樣。2025年大量醫院開始部署能從就診對話自動生成臨床記錄的AI工具。多個醫院系統的醫生反饋,寫病歷的時間減少了多達83%,工作倦怠顯著下降。但同一份指數給醫療AI潑了一盆冷水。一份針對500多個臨床AI研究的綜述發現,將近一半的研究依賴考試題式的資料集,只有5%用了真實臨床資料。AI能減少醫生敲鍵盤的時間,這件事是確定的。AI在真實病人身上的臨床價值,目前還有大量問號。自學浪潮全球開炸正規教育已經掉隊正規教育跟不上AI了。美國有4/5的高中生和大學生現在用AI完成學校作業。但只有一半的中學有AI使用政策,只有6%的老師認為這些政策寫得清楚。學生跑在前面,老師還在原地,規則還沒出現。正規教育跟不上的同時,自學浪潮在全球開炸。裡面寫,學AI工程技能增長最快的三個國家分別是阿聯、智利和南非。不是美國,不是歐洲。技能曲線的最陡峭的那一段,長在所有人都沒在看的地方。最強模型變成最不透明的專家和公眾撕裂最強的模型,正在變成最不透明的模型。Foundation Model Transparency Index今年的平均分從去年的58分跌到了40分。AI Index直接點名,Google、Anthropic、OpenAI都已經放棄公開最新模型的訓練資料規模和訓練時長。去年發佈的95個最具代表性的模型裡,80個沒有公開訓練程式碼。公眾的情緒也變得更複雜。全球範圍內,認為AI利大於弊的比例從52%上升到59%。但同期,對AI感到緊張的比例從50%上升到52%。兩個方向在同時增長。最分裂的是美國。只有33%的美國人認為AI會讓自己的工作變得更好,全球平均是40%。美國人對本國政府監管AI的信任度,是受訪國家裡最低的,31%。新加坡人對自己政府監管AI的信任度,是81%。最近Sam Altman家被襲擊的事件之後,矽谷圈內人「驚訝地發現」Instagram評論區裡的普通人對此並不同情,甚至有人覺得「應該更激烈一點」。他們沒意識到事情已經糟到這個程度。研報引用的Pew和Ipsos資料,專家和公眾在AI影響就業、醫療、經濟這些維度上的觀感差距,普遍超過30個百分點,最大的一項達到50個百分點。一邊是實驗室裡的曲線在飛漲,一邊是普通人心裡的不安在累積。中間沒有橋。寫在最後423頁的報告裡有幾百張圖表,但其實只畫了一張圖。橫軸是時間,縱軸是能力。模型能力的曲線在飛,算力曲線在飛,投資曲線在飛,採用率曲線在飛。其他全都在原地踏步或者向下。這就是2026年AI Index的全部內容。AI在加速。其他所有東西都在脫節。如果你是這個行業裡的人,現在該問的問題不是「未來會怎樣」,而是「自己站在那一條曲線上」。 (新智元)