#大模型
我,怕斷電斷網,更怕斷Token
剛剛過去的3月,視訊號上一條短影片在程式設計師圈子爆火,一個白髮蒼蒼的“程式設計師”對著另一個程式設計師苦苦哀求,“哥我求你了……就一點點就行,我快不行了,我就寫一個因數的量……”要的不是錢,是Token。視訊獲得了3.7萬點贊,10萬轉發。視訊的主角是AI製作的,內容是虛構的,但是對token的成癮反饋,是真的引起了情緒共鳴。就在同一個月,這條視訊爆火前,大洋彼岸曾經上演了一場全球性服務中斷。Anthropic的Claude全球當機,Claude Code徹底癱瘓,幾小時內Downdetector湧入超過5000條故障報告。外媒的文章標題是"開發者面對不得不親自寫程式碼的恐怖"。一位Meta高級工程師Gauresh Pandit說,Claude掛掉後他直接去幹別的了,因為手動寫程式碼“可能更慢”。他說大模型已經變成一種“單按鈕操作”,那怕最簡單的事也會習慣性交給它。社交媒體上有人說:“Claude當機才讓我意識到,我已經把半個大腦外包了。”視訊裡白髮蒼蒼的程式設計師求的不是隨便什麼Token,他要的是目前最貴的模型的Token。夥伴遞過來的平替,他看都懶得看。這些細節才是整件事最值得深思的地方:程式設計師不只是對AI上癮,是對高端Token上癮。痛苦不來自於“沒有AI可用”,更來自於“沒有那個AI可用”。0130%的人拿錢都不願意戒斷AIMETR是一家專注於AI能力評估的非營利機構。2026年2月,他們發佈了一份令人意外的聲明:實驗做不下去了。因為他們的實驗要求一半的任務不能使用AI,30%到50%的受邀開發者因為這個條件直接退出,即便報酬高達每小時50美元。這些開發者中的很多人,經驗豐富、項目資深,恰恰是最能說明問題的樣本。他們再也不願意手寫程式碼了。這組資料比任何生產力統計都更能說明問題。McKinsey在2026年2月發佈的調查說AI程式設計工具讓常規編碼任務快了46%。Stack Overflow的年度調查說84%的開發者在用AI。在這些數字描述的廣度之外,METR的發現描述了另外一個維度,AI已經嵌入了人的認知習慣,拔出來會痛。02一杯咖啡和一輛保時捷到這裡,“大模型是類似於電力一樣的基礎設施”這個提出了近10年,流行了超過三年的說法,需要被認真質疑了。Andrew Ng在2017年提出這個說法時,強調的是AI像電力一樣將滲透到每個行業。這一點他是對的。但比喻的另一半,“電是無差別的標準化商品”,完全不適用於大模型。220伏交流電就是220伏交流電,不管它來自風力發電還是火力發電。你不會因為用了"更好的電"而烤出更好的面包。Token不是這樣。以下是截至2026年3月,各主流廠商大模型API每百萬Token的官方定價:各主流廠商大模型API價格對比這張表可以清晰看出不同模型價格的差距。同一個月在售的模型之間,定價可以差兩個數量級。快取機制又在實際成本上撕開了另一層差異。DeepSeek V3.2的快取命中價$0.028,不到三分錢處理一百萬Token。Opus 4.6的快取命中價也從$5.00降到$0.50,打了一折。GPT-5.4 nano的快取價$0.02甚至比DeepSeek更低。在高重複率的生產場景中,實際成本可以比標價再低一個數量級。Token的“掛牌價”和“成交價”之間,又藏著一層巨大的差異。這不是電力市場的價格結構。電的價格反映發輸配的物理成本,與電本身的“質量”無關。Token的價格反映的是智能的種類和等級,推理深度、上下文理解、代理執行能力、可靠性,而這些維度之間無法簡單排序。03大模型的微笑曲線企業已經用腳投票了。據AI基礎設施研究機構Iternal的分析,成熟的企業級AI部署正在採用“智能路由”架構:70%的簡單查詢扔給性價比模型,20%給中端模型,只有10%的最棘手、最高風險的任務,才會呼叫頂級模型。從宏觀來看,Token市場正在形成一條微笑曲線:左端是極致效率,右端是極致智能。左端是一種新的工業邏輯:當Token足夠便宜,它就可以像水電一樣大規模灌入自動化流水線的原料。批次資料清洗、日誌分類、工單路由、內容稽核、表單提取,這些任務不需要模型"極致聰明",需要的是又快又便宜又穩定。誰能把每百萬Token的成本壓到最低,同時保持足夠的精準率,誰就能拿下這個市場。這一端的競爭壁壘是推理基礎設施的效率,算子最佳化、晶片利用率、快取命中率、調度策略。右端的遊戲規則完全不同。Opus 4.6定價$5/$25,它們賣的是一種不可替代的認知能力。右端的壁壘是絕對的智能質量,推理深度、指令遵循的精確度、在複雜約束下保持邏輯一致性的能力。這是旗艦模型在爭奪的領地。但是,一切都不是一成不變的。一位大模型行業的從業者透露:“我們定價的時候,核心第一原則還是自己的成本,不能虧錢。”當被問及“如果還有價格戰怎麼辦?”,回答是:“目前大模型行業還沒發生過惡性的價格戰。所謂的價格屠夫,也是基於他們自己的成本價格。所以必須通過技術創新把成本打下去。”“成本打下去之後,價格不一定變,但是競爭就有優勢了。”這是一個變化極快的行業,“人間才一日,AI已千年”。擔心如影隨形。站在微笑曲線另外一端的Claude,是否就可以高枕無憂地走高端智能的愛馬仕路線了?“競爭對手會努力把它的價格打下來的。”一位從業者說。微笑曲線兩端的商業定律不會變,但是大模型公司的站位會隨時變。這也造成了,大模型公司之間的商業價值也會拉開較大差距。一位二級市場的分析師說:“我們目前看大模型公司第一位還是看人才密度和技術能力。因為你看不清楚終局,最後對這個人類社會的影響你也看不清楚。但是從產業上來看,它的確是在不斷的往前推進的,所以我覺得人才和技術是最核心的一個要素。然後才是商業化資料。”微笑曲線的左端,是大規模的工業級生產需求。右端,是靠模型的智能能力獲得的溢價能力。更需要引起關注的是,能夠溢價的背後,是使用者的粘性和依賴性。04外腦一旦插上,就拔不掉了回到那個當機的3月。一家英國基礎設施服務商Deployflow做了一筆簡單的帳:25人的工程團隊,4小時的AI中斷,直接損失超過9000英鎊,還沒算下游的項目延期。但經濟損失不是最讓人不安的部分。最讓人不安的是,開發者在當機結束後表現出的反應不是憤怒,而是如釋重負,一種人類不想承認的依賴感。這種依賴正在從程式設計師擴散到所有知識工作者。Claude在當機前幾天剛剛超越ChatGPT,成為美國App Store下載量最大的免費應用。大模型的訂閱套餐一般都有Token使用限額,“對話到一半,限額到了,也無法遷移,只能繼續充錢。” 一位大模型的深度使用者說。它的使用者不只是寫程式碼的人,還有寫報告的人、做研究的人、改合同的人、帶團隊的人。AI不再是像電那樣驅動機器的基礎設施,而是直接參與思考的"智能"。在這個時代,我們害怕斷電、斷網,也害怕“斷token”。智能的成癮已經蔓延。更大的噩夢還在於,我的“小龍蝦”記憶突然清零,或者龍蝦團隊領袖的大腦,突然當機。使用者持續為他所依賴的外腦持續付出成本,也將是大模型公司最深的商業護城河。 (騰訊科技)
中國最強程式設計模型來了! 阿里Qwen3.6-Plus性能直逼Claude,國產大模型殺入決賽圈
什麼這code那code,先別code了,因為——中國最強程式設計模型來了!就在剛剛,阿里突襲發佈Qwen3.6-Plus新一代基座大模型,在程式設計和智能體能力上,直接捅破了國產大模型的天花板,強到Next Level~那…到底有多Next呢? ?1M上下文直接拉滿,不僅能獨立拆解任務、規劃執行路徑、全程自測迭代達到目標,還能根據簡單提示詞搓出Vibe Coding。這不嘛,前幾天模型的preview版本提前上了OpenRouter,小編也拿到開白資格搶先實測了一番!我只給了AI一句話,幾秒鐘就得到了一個可移縮放的3D的雪山場景多模態網頁,連雪花都是動態飄落的~模型表現歸模型表現,關鍵還是要拉到真實評測中見真章啊!!值得一提的是,在涵蓋智能體程式設計、真實世界任務的權威評測中,Qwen3.6-Plus目前已經成為了最接近全球最強Claude系列的國產模型:(Claude:不er,哥們兒???)專業搞程式碼的大佬們拿到Qwen3.6-Plus更是爽感拉滿,這不嘛,提前體驗過的網友們速速給出反饋了——下面這位大哥直言,速度和生成體驗感比Claude更夯,Opus 4.6你還得加把勁兒啊!更有硬核網友直接開了壓力測試,在5個復合倉庫裡輪番轟炸,得出的結論嘛:甭說別的,這模型是真靠譜~目前,Qwen3.6-Plus已第一時間上線阿里雲百煉,且API服務已全面開放;此外,在悟空、千問APP等阿里AI應用和平台也已同步上線。這下好了,大家可以——直接上手搓搓搓了!!Vibe Coding、多模態理解能力忒夯不知道大家們還記不記得,上個月Qwen3.5剛發佈的時候,全網都在感嘆模型強大的程式設計能力。但老話說得好,一代更比一代強,事實上相較於上一代模型,這次發佈的Qwen3.6-Plus在程式設計Coding能力、智能體Agent能力和工具呼叫能力上直接上演了一場大型的《自己卷自己》的戲碼。(doge)咋個卷法呢?在性能上,Qwen3.6-Plus表現出了比上一代模型更敏銳的理解感知能力和更強大的多模態推理能力。在SWE-bench系列真實程式設計任務測試、考察終端程式設計的Terminal-Bench2、長程程式設計任務NL2Repo,以及Claw-Eval、QwenClawBench等真實世界Agent能力評測中——Qwen3.6-Plus幾乎直逼Claude Opus 4.5,甚至部分性能表現比Claude更優,還超越了2倍乃至3倍參數量的其他主流模型。看來,千問妥妥掌握了「以小勝大」的秘方啊??不僅如此,基於百萬token的上下文窗口。模型還集中對OpenClaw、Qwen Code、Claude Code、Kilo Code、Cline、OpenCode等系列Agent框架進行了最佳化支援。是的,這模型卷的已經不只是模型本體,連整套Agent工作流的適配度都梭哈了…只能說——《夯,極夯》。咱們直接老規矩,圍繞模型擅長的Vibe Coding、多模態理解、問題重構等幾個能力維度上實打實測一波!Vibe Coding能力實測常言道,用程式設計模型必玩Vibe Coding,所以,咱就先來考一考Qwen3.6-Plus在網頁開發上的能力~大家都知道,對AI或者Agent來說,網頁開發其實不是啥難事兒,真正的挑戰在於——只用一句簡單提示詞,就能做出兼具視覺設計、互動邏輯與頁面跳轉的完整頁面,所以咱這次直接把難度抬高。用一句大白話指令,讓AI一鍵生成一個可互動的「AI資訊日曆網站」!幫我生成一個有科技感的AI日曆網站。首頁為月曆檢視,每一天標註對應的AI大事件,使用者點選日期後可進入詳情頁查看完整內容,包括事件標題、一句話簡介、時間和來源連結。從前端生成效果來看,整體視覺簡潔而且科技味兒還蠻濃,不僅清晰呈現了日曆結構,還自動對不同資訊做了色彩區分,閱讀體驗十分友好!!!在具體互動能力上,還支援前後月份翻閱查詢,每日日期格子內均標註可點選的資訊入口,點一下就能查看摘要內容。此外,不知道大家發現沒,頁面右側還附帶一個可跳轉連結,一鍵就能跳到原資訊網站,查閱資訊源賊方便:接下來,我們換種玩法,不生成網頁了,改玩點有意思的。挑戰用一句話讓AI幫忙製作一個可互動的色彩度比較鮮明的3D的雪山場景,看看這AI在前端視覺上的表現力咋樣。製作一個3D的雪山場景,雪山中間有一個日式的寺廟,整體風格參考塞爾達曠野之息。先看視覺效果,u1s1確實有點塞爾達那種清新明快畫風的意思,色彩飽和度和光影質感肉眼看都還是蠻舒服的。不僅如此,我還可以靈活拖動視角,360度旋轉場景、用滾輪自由縮放遠近這些都ok,甚至,連雪花粒子都是動態飄落的???我們繼續挑戰,再來實測一些更好玩的場景,這回看看Qwen3.6-Plus的「遊戲網站」搭建能力咋樣~幫我做一個虛擬寵物養成網頁,頁面主體是寵物的房間,使用者可以隨時看到它的狀態,寵物有飢餓、心情、體力和成長值,會隨時間變化,使用者可以在房間裡進行喂食、玩耍、洗澡、睡覺等互動,加入簡單動畫、表情變化、隨機事件和任務系統,完成可獲得金幣購買道具,整體風格可愛~So cute!!瞬間夢迴小時候玩的《皮卡堂》小遊戲~(萌翻了.jpg)從實際效果看,在這個頁面裡我不僅可以查看寵物的動態,寵物還可以跟著我的滑鼠位置進行移動。不僅如此,頁面右側還設有狀態值、互動功能、任務和商店四大類股,我還可以根據寵物狀態進行喂食、玩耍等互動操作。你還真別說,Qwen3.6-Plus在審美和互動設計這塊兒提升不少,確實真·有兩下子…咱們最後再來試一個大家幾乎都玩過的消消樂小遊戲,這次我直接把提示詞寫到簡單不能再簡單:生成一個美食卡通主題的消消樂小遊戲網站。那怕提示詞如此大白話,那怕如此簡單,這輸出效果也確實沒得說。是的,我只用了一句提示詞,Qwen3.6-Plus把核心玩法、連鎖機制、視覺UI、輔助能力這些全cover了…多模態理解能力實測除了強大的Vibe Coding能力外,Qwen3.6-Plus在多模態理解這塊兒也屬實有兩把刷子。具體來說,就是從視覺感知,到多模態推理,再到智能體執行都能hold得住!這次我喂給了模型一段AI資訊類的視訊內容,整個視訊時長說實話還蠻長的,很考驗模型的內容解析能力。我要讓它做的,不單單只是解析視訊核心內容,而是要讓它幫我進行逐秒指令碼分析,並且根據內容二創成一份適合小紅書筆記發的爆款文案,以下是我喂給Qwen3.6-Plus的原視訊:請你幫我解析一下這條視訊內容,做逐秒指令碼拆解,並根據視訊內容二創成一篇適合發小紅書的爆款筆記文案:可以看到,Qwen3.6-Plus不僅給我進行了逐秒的視訊指令碼拆解,而且每一個視角戳裡還幫我貼心地將指令碼從視覺、內容、目的三個維度進行了推理判斷。不僅如此,在下方還按照要求輸出了對應的小紅書爆款文案,並將文案概括成開頭鉤子、核心內容、關鍵發現、引起共鳴幾個維度,666啊~最後的最後,我們再來上點難度,讓Qwen3.6-Plus嘗試根據圖片內容復刻一個線上網頁。這次,我喂給了它一個旅遊規劃的頁面圖片,讓它根據頁面裡的功能,直接復刻並搭建出一個完整的線上網頁——那怕幾乎沒有任何文字的提示詞指令,Qwen3.6-Plus依舊通過多模態能力精準出了圖片的內容,並且嘛——比我圖片裡手畫的頁面佈局效果更好、視覺呈現更牛、內容更充實??更複雜的程式設計場景照樣在行看到這兒估計有朋友該說了,上面這些場景多少有點太簡單了吧。你還真別說,更硬核的程式設計場景這不就來了嘛!事實上,除了能用簡單提示詞實現Vibe Coding、解析並執行多模態內容外,Qwen3.6-Plus還能基於命令列工具生成頁面、進行程式碼問題分析與重構,甚至自主開發工具。在命令列頁面生成能力上,Qwen3.6-Plus支援通過CC等工具直接呼叫API。我們只需輸入 「根據開源倉庫生成landing page」這類簡潔指令,就能快速產出完整網頁,實現高效自動化的前端開發!!話不多說!先給咱們「電子老婆」來個項目官網首頁~這裡說的電子老婆,正是GitHub上的開放原始碼專案AIRI—— 仿照超火虛擬主播Neuro-sama打造,能即時陪聊、陪打遊戲,妥妥全天候線上的電子伴侶(doge)。通過VS Code中的Qwen Code外掛,我讓Qwen3.6-Plus直接讀取開放原始碼專案介紹,自主理解需求、規劃頁面結構,並一次性輸出完整可用的程式碼:(提供項目)根據這個開放原始碼專案生成landing page,輸出HTML+tailwind CSS。從Thinking過程可以清晰地觀察到Qwen3.6-Plus一步步查看需求、建立檔案,整個過程能夠即時監測:Done!耗時約3分鐘,Qwen3.6-Plus就生成好了項目官網頁面,程式碼自動保存在landing-page.html檔案中:咱打開html檔案來看下效果~首先,看上去還蠻符合項目的宣傳邏輯,把臨時體驗頁面、項目開源地址、社區地址全都關聯上了。不僅如此,導覽列還能夠跳轉到對應內容,把項目介紹裡包含的能力、可相容的模型廠商、部署步驟都給概括全了,不戳不戳~接下來,我們來測試模型的「問題分析與程式碼重構」能力。這次我又在Qwen Code命令列工具裡,喂給了Qwen3.6-Plus一坨問題不小的老舊程式碼,讓它捉捉蟲:(提供項目)我剛接手這個項目,該怎麼最佳化呢?Qwen3.6-Plus看懂了原有邏輯,自動整理了一份最佳化清單,但是在動手之前還是詢問了一句「需要開始實施嗎」。比起其他大刀闊斧直接上手的模型來說,這份分寸感把握得還是相當不賴的~下一步,當然就是讓它幫我修改x山程式碼了!!我反手就是一個——這裡一定要說個好玩的,Qwen你的碎碎念也有太活人感了,先給產品經理畫餅,然後去push伺服器,接著又在老闆面前裝!模!作!樣!(還有啥是你做不出來的??)說歸說鬧歸鬧,任務還得按部就班搞下去,修完Bug、再做最佳化,主打一個有條不紊~最佳化完成!人家具體都改了點啥呢——請看下方總結。最後嘛,還來了點小建議,be like:安裝依賴、寫測試指令碼都可以直接交給它來做,我全程省心省力只負責點頭。(美哉美哉~)(Qwen3.6-Plus:俺的程式設計本事,可是不孬!!!)AI程式設計的門檻,這回是真被打下來了說實話,從今年年初開始,我們真的接觸了太多太多的AI Agent和各種Claw字輩兒的龍蝦。此外還有一個大家感知很深的事是,當下廠商們也越來越押注模型的程式設計能力,各種Vibe Coding產品也層出不窮。我自己也在社交軟體上刷到過很多感興趣的項目,點開之前覺得蠻有意思,可一看對方用到的提示詞和輔助工具,我很快就意識到了一個問題。那就是沒點提示詞本事,沒點基礎程式設計能力,想做出和人家同款效果的Vibe Coding產品,真的蠻難的…(哭死…)只能說,大家還是苦Vibe Coding《上手門檻》久矣。△圖片由AI生成這次實測Qwen3.6-Plus下來,除了對於模型在複雜程式碼治理、跨域長程規劃等真實世界的專業程式設計任務的中呈現的過硬能力外,我更大的感受在於——它確確實實把普通人的「程式設計門檻」大幅拉低了。基於自然語言驅動的Vibe Coding不再是概念,只要一句大白話,我們就能把腦子裡的想法直接變成可運行的現實。在過去很長一段時間,行業默認用參數規模來換性能提升,模型越大,效果越好,也越貴。而這一次,Qwen3.6-Plus通過一個體量更輕的模型,交出了可以對標甚至超過2到3倍參數模型的結果,這對我們使用者來說當然是好事情。當然,更進一步從行業角度看,也不難看出Qwen3.6-Plus也正是阿里ATH(Alibaba Token Hub)思路在程式設計模型上一次很有代表性的落地。創造高效Token、輸送低成本Token、應用普惠化Token,在ATH成立後僅一個月的時間,就速速口號照進現實了。最後值得一提的是,Qwen3.6-Plus是千問3.6系列推出的第一個模型。後面千問3.6系列還會開源更多不同尺寸的版本給大家,另外性能更強的旗艦款Qwen3.6-Max也會在近期發佈。大家可以小小期待一下子~ (量子位)
老美火速封禁!這個預測網站爆火,押「美伊衝突」能賺錢
美伊衝突懸而未決,有些人卻搶先一步,發了一筆戰爭財。據Newyork Post報導,美國加利福尼亞州州長紐森27日簽署法令,禁止該州由州長任命的行政官員利用內幕消息在預測市場Polymarket牟利。加州州長辦公室在聲明中說,美國一些顯然能夠接觸到聯邦政府敏感資訊的官員在預測市場中的“押注時機極其精準”,聲明同時批評部分官員將公共服務變為快速致富的手段。(圖源:NYP)有趣的是,這並不是Polymarket這個網站今年第一次上熱搜。就在美以對伊朗發動襲擊的數小時之前,Polymarket上預測美對伊朗發動軍事打擊的機率突然暴漲,其中六個主要參與者從中賺取了120萬美元(約合830萬人民幣),這也使得整個平台一戰成名。隨後,Polymarket又成功預測了一系列中東局勢,其中不乏美以對伊朗核設施的後續襲擊,小哈米尼會在什麼時候上任等資訊,更有甚者,已經開始重倉美伊停火,預測將在3月31日或4月15日之前發生。這就讓人非常好奇,這個網站究竟是何方神聖?為何總能預測未來?用錢投票的競猜平台其實,Polymarket的本質並不複雜。用大白話來講,它就是一個基於Web3技術的全民競猜平台。它的運作原理非常簡單粗暴,Polymarket會把未來可能發生的某個事件設定成一個盤口,而你能在這個平台上做的事情,就是根據規則,預測這個事件何時發生、怎樣發生,然後下注就行。比如有一個問題是,蘋果會在2027年之前發佈全新產品線嗎,2027年就是時限,寫在下面的這個就是規則。(圖源:Polymarket)規則裡表示,“全新產品線”的定義是指蘋果公司此前未銷售過的產品類別,而非現有產品的迭代或更新,例如機器人或遊戲主機都屬於全新產品線,而新款iPhone、Mac、iPad、Apple Watch或AirPods則不屬於此類。要是你覺得這件事會發生,你就買肯定選項,反之就買否定選項。支援的人越多,這個選項的價格就越貴,對應的預測發生機率也就越高。因為預測的事件沒啥限制,所以你能夠在這個平台上看到很多讓人啼笑皆非的奇妙盤口。這群老外真的會聚在一起拿錢打賭,馬斯克在3月27日-4月3日之間會發幾條推特,或猜測美國政府今年會不會確認外星人的存在,甚至連耶穌基督會不會在2027年復活都能成為下注的目標。不對勁,怎麼還有4%的人覺得耶穌基督能復活的。(圖源:Polymarket)繼續往下扒,你甚至可以看到,預測泰勒·斯威夫特會不會婚前懷孕的...(圖源:Polymarket)預測賈躍亭啥時候回國的...(圖源:Polymarket)甚至還有就在今天下午打響的,WBG和IG的電子競技世界盃預選賽,這些老外都能在上面美美地預測開盤。(圖源:Polymarket)等等,我尋思,啥都能預測開盤...這不就是賭博嗎?但你還真別說,Polymarket這網站在預測上還真的有點說法的。咱們就拿前年TGA做例子,國內玩家大多都覺得會是《黑神話:悟空》 《艾爾登法環:黃金樹幽影》 《最終幻想 7:重生》 的三方合戰,結果偏偏最後給索尼的小機器人摘了桃子,多少人氣不過啊。誒嘿,沒想到吧,在Polymarket上居然是小機器人一直保持著領先。(圖源:Polymarket)要是有人當時跟著他們all in機器人,還真能猛賺波大的。不僅如此,什麼GPT-5.2發佈啊,Gemini 3.0 Pro、OpenAI瀏覽器發佈啊,這個平台都給出了相當精準的預測。在他們自己的官網上,更是給出了一套相當嚇人的資料:四小時內的預測準確率96.7%,一天內的精準率95.8%,一個月內90.4%...(圖源:Polymarket)只能說戰績可查,好吧。你的消息值多少錢?那問題就來了,為何Polymarket的預測成功率這麼高,比那些所謂的掌握著小道消息的自媒體,靠譜的多?這就不得不提所謂的“群體智慧”了。早在1907年,自然雜誌上曾登過一篇叫作《民眾之聲》的文章,統計學家弗朗西斯·高爾頓在普利茅斯舉辦的一場鄉村集市上,隨機找了800個成分不同的人,然後讓這些人猜測一頭牛被屠宰加工後的真實體重是多少。他最後成功回收了787個有效資料,取中位數,得出的最終數字是1207磅。(圖源:wikipedia)而那頭牛被真正稱重後,實際體重是1198磅,預測和實際的誤差僅有1%。這次實驗,促成了認知科學領域的一個重要發現:群體的判斷可以被建模為一個機率分佈,其中位數位於待估計量的真實值附近。而我們今天聊的Polymarket,本質上就是把這場百年前的實驗搬到了網際網路上。只不過,它往裡面加入了一個至關重要的催化劑,那就是真金白銀。在Polymarket這種預測平台上,你支援的每一個選項,都必須用你自己錢包裡的錢來背書,這足以把那些湊熱鬧的人給剔除掉,而那些那些真正掌握了資訊的人,那怕只是蛛絲馬跡,他們有強烈的經濟動因去參與。(圖源:雷科技,Nano Banana製作)而這為我們帶來了兩種不同的主要參與者,內幕交易者和巨量資料統計人。前者很好理解,就不說美伊衝突裡出現的那六個人,甚至在美國閃擊委內瑞拉之前,就有多個帳戶極其精準地砸下三萬多美元,賭中了馬杜洛被抓捕的確切時間,反手就賺走了四十三萬多美元。科技行業也是這樣,在Gemini 3發佈之前,就有一個剛註冊沒多久的新帳號,一口氣掏出了七萬八美元砸在yes裡,就賭Gemini 3會在11月發佈。至於體育這邊,你敢信有球星親自代言預測平台並下場買自己不會轉會的嗎?(圖源:Kalshi)這種沒有事先任何公開徵兆,卻能精準踩中大事件節點的交易行為,除了內部人員提前走漏風聲,你很難找到其他合理的解釋。至於後者,其實就是那些極客玩家。普通人玩競猜,可能就睡醒了看看新聞,然後憑直覺或者個人喜好去點兩下滑鼠。但在極客的眼裡,這就是一個純粹的資料遊戲。他們直接給OpenClaw接入GPT,讓機器人二十四小時不間斷地監控著全球網際網路,新聞、財報、社交媒體、甚至是鏈上的資金流向,全都在它的計算範圍內。只要現實世界裡有任何風吹草動,那怕是一個不起眼的官方公告,AI都能在毫秒等級計算出事件機率的變化,然後全自動地完成下單操作,可以說人類的反應速度完全不值一提。就拿Polymarket上的大神ilovecircle為例,在短短兩個月內,這貨就通過全自動交易,狂賺220萬美元,勝率高達74%。開源社區也沒閒著,Polymarket Agents、Polyseer已經滿天飛了。(圖源:Github)這也從側面證明了,在這類平台上,資訊的極度不對稱已經成為一種常態。真金白銀,砸出靠譜資訊源看到這裡,我想大家對於Polymarket應該也有自己的一套看法了。就我而言,我很自信自己不會有什麼內幕消息的管道,那怕去鼓搗什麼用大模型驅動的機器人收集資料,也沒什麼可能競爭過那些長期佈局的極客玩家,因此我永遠不會參與進去。但不得不說,如果你把它當成一個爆料網站,那它確實是一個還不錯的資訊源。在真金白銀的驅動下,位於五湖四海的使用者,把這些分散在世界各個角落的、或明或暗的、專業的、業餘的資訊,最終匯聚成了一個不斷跳動、可量化的機率。(圖源:Polymarket)可以說,這就是Polymarket真正的價值。無論是否存在著內幕消息,這個機率,就是這個時間點,你能獲取的所有資訊的綜合體現。這也就是為什麼我說,它可能比看任何一個自媒體的分析都靠譜。需要注意的是,分析終究是分析,不是預知未來。根據范德比爾特大學的研究人員Joshua Clinton和TzuFeng Huang的一項新研究表明,Polymarket的實際預測準確率僅為67%,在很多摸棱兩可的問題,平台會傾向於採信更符合自己預測的一邊,以此營造出高精準率的假象。(圖源:DLNews)作為一個既沒有內幕,也沒有算力的普通人。我們根本不需要下注,也不必神化它,把它當資訊工具就夠了。至於賺錢這塊,就讓阿川自己去玩得了。 (雷科技)
黑馬AI橫掃預測市場!預測未來勝率已超過人類
【新智元導讀】大模型能否預測未來?UniPat AI建構了一套完整的預測智能基礎設施,Echo,包含動態評測引擎、面向未來事件的訓練範式和預測專用模型EchoZ-1.0。在其公開的General AI Prediction Leaderboard上,EchoZ-1.0穩居第一,並在與Polymarket人類交易市場的直接對比中展現出顯著優勢。過去一年,預測能力越來越受到模型廠商的重視。但預測領域有一個根本性的驗證難題:你說你能預測未來,怎麼證明?發佈時的demo無法追溯,事後公佈的案例存在選擇性偏差,通用基準測試衡量的是語言理解和推理能力,跟真實預測是兩碼事。UniPat AI近日發佈的Echo系統,試圖用一套完整的基礎設施來回答這個問題。Echo由三個緊密耦合的元件構成:一個持續運轉的動態評測引擎,一套面向未來事件的後訓練流程(Train-on-Future),一個未來可能的AI原生預測API。官網:https://echo.unipat.ai/ Blog:https://unipat.ai/blog/Echo核心模型EchoZ-1.0是第一個在Train-on-Future範式下端到端訓練的大語言模型。在General AI Prediction Leaderboard 上(2026年3月資料),EchoZ-1.0以Elo 1034.2排名第一,領先 Google的Gemini-3.1-Pro(1032.2)和Anthropic的Claude-Opus-4.6(1017.2)。排行榜涵蓋12個模型,覆蓋政治、經濟、體育、科技、加密貨幣等7個領域,活躍題目超過1000道。EchoZ在排名魯棒性測試中穩定第一排名本身只是一個快照,排名的穩定性更值得關注。部落格中披露了一組σ參數敏感性測試:調整Elo框架中的σ參數(控制Brier Score差異向勝率的轉化強度)從 0.01到0.50共9個取值,重新計算全部模型排名。這個參數簡單來說,就是控制「模型之間表現差距」會被放大到什麼程度。EchoZ在全部9個分組均保持第一,是唯一排名未發生任何波動的模型。作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。更有說服力的一個細節是,EchoZ的競爭對手不僅有頂級大模型,還有預測市場上真實投入資金的人類交易者的聚合判斷,EchoZ的Elo分數顯著高於這條基線。與此同時,Echo官網公開了所有預測問題、模型輸出的機率分佈和最終結算結果,任何人都可以回溯驗證。三個層面的可驗證性疊加在一起(動態排行榜、實盤市場對照、全量資料公開),構成了Echo與此前各種「AI 預測」最根本的區別。那麼,EchoZ對人類預測者的實際優勢有多大?Unipat AI給出了一組分層對比:將EchoZ與人類市場在同一預測批次中的同一問題上進行比較,基於Brier Score計算勝率,按領域、預測期限和市場不確定性三個維度展開:政治與治理領域:EchoZ勝率63.2%長期預測(7天以上):EchoZ勝率59.3%市場不確定區間(人類信心55%-70%):EchoZ勝率57.9%一個值得注意的規律是:人類預測者越猶豫的場景(高不確定性、長時間跨度、複雜政治博弈)EchoZ的優勢反而越明顯。這暗示模型在資訊整合和機率校準上的系統性優勢,恰好在人類直覺最不可靠的區域得到了最大程度的釋放。一個持續生長的評測引擎建構評測基準本身並不新鮮,但Echo的做法有一個關鍵差異:它建構的不是一個靜態的題庫,而是一個能夠自動出題、自動結算、持續更新排名的動態系統。為什麼「動態」這件事很重要?拿一道具體的預測題來說:「2026年3月31日收盤時,全球市值最大的公司是那家?」如果模型A在3月1日給出了預測,模型B在3月28日給出了預測,兩者的正確率能直接比較嗎?顯然不能。越接近結算時間,可用資訊越多,預測難度越低。這就是現有預測基準的第一個結構性問題:時序不對稱。第二個問題是題源過於單一:現有基準的題目幾乎全部來自預測市場,偏向容易結算的二元問題,大量來自專業領域和新興話題的預測需求被遺漏了。Echo Leaderboard 的架構正是圍繞這兩個問題展開的。整套系統可以拆解為四個階段的持續循環:Echo 評測引擎建構流程第一步,資料採集。三條資料管道同時運行。第一條對接Polymarket等預測市場,篩選有明確結算規則和高品質共識訊號的合約。第二條面向開放域,抓取Google Trends等即時趨勢,自動生成關於尚未發生事件的預測問題,由agent持續搜尋進展並自動結算。第三條來自真實專業場景:科研、工程、醫療等領域的專家將自己工作流中有價值的預測題貢獻到系統中,並在預定時間點給出權威判定。從Polymarket上的大眾共識到實驗室裡的專家判斷,三條管道覆蓋了一個相當完整的預測光譜。第二步,預測點調度。每道題不只做一次預測。系統使用對數調度演算法,根據題目的結算周期長度分配多個prediction points(預測時間點),既保證了生命周期內的覆蓋密度,又控制了計算開銷。第三步,對戰建構。這是解決時序不對稱問題的關鍵環節。評測使用point-aligned Elo機制:嚴格只比較「同一道題、同一預測時間點」的結果。所有參賽模型在完全相同的資訊上下文下對決,公平性由此建立。第四步,Elo評分更新。基於Bradley-Terry MLE演算法計算全域排名。實驗資料顯示,這套框架對新加入模型的排名收斂速度是傳統Avg Brier方法的2.7倍。模型排名收斂速度對比這四步構成一個不斷循環的閉環:新題目持續流入,新的預測點持續觸發,對戰持續發生,排行榜持續更新。用一句話概括:Echo造了一把動態校準的尺子,而這把尺子本身也在不停生長。Train-on-Future:當推理過程本身成為訓練訊號評測引擎解決了「怎麼量」的問題,接下來要回答的是「怎麼訓」。Echo 的訓練流程同樣是一套結構化的系統,UniPat稱之為Train-on-Future範式,由三個核心機制組成。在展開之前,有必要先理解傳統路徑(Train-on-Past)為什麼走不通。用歷史事件的已知結果來訓練預測模型,面臨兩個很難繞過的困難。第一個是工程悖論:網際網路內容持續更新,用過去的事件做訓練題時,模型在搜尋網頁的過程中幾乎必然會撞上包含答案的資訊,資料洩露在工程實現上極難杜絕。第二個是結果導向偏差:現實事件充滿隨機性,一個邏輯嚴密的分析可能因為黑天鵝事件而給出「錯誤」答案,一個粗糙的猜測可能碰巧命中。直接用最終結果做訓練訊號,模型很容易過擬合到噪聲上。Train-on-Future 的三個機制分別瞄準了這些問題:機制一:動態問題合成。與使用歷史題庫不同,Echo通過一條自動化管道,持續從即時資料流中生成關於未來事件的高資訊量預測問題。因為每道題都關乎尚未發生的事件,訓練天然不存在資料洩露的問題。機制二:Automated Rubric Search。這是整個訓練範式中最有技術含量的部分。Echo的做法是:把訓練訊號建立在推理過程的質量上,而非最終預測的對錯。但隨之而來的問題是,「好的推理過程」該如何定義?舉一個體育預測領域的具體例子。Echo的Rubric中有一個維度叫做「Precursor and External Catalyst Evaluation」,評估模型是否利用高度相關的先行訊號或外部驅動因素。得5分的標準是:識別具體的近期或即將發生的催化因素(如關鍵球員回歸、連續客場結束、關鍵對位變化),並分析這些因素與比賽結果之間的歷史關聯。得 1 分的標準是:僅泛泛提及「狀態不錯」或「士氣提升」等模糊因素,而未繫結具體可驗證事件。另一個維度是「Multi-Factor Causal Synthesis」,評估模型是否將多個獨立因素整合為一個有因果結構的預測結論。得5分的標準是:明確整合至少三個相互獨立的因素(如傷病情況、近期狀態、主客場表現、賠率基線),並解釋這些因素如何相互作用(如傷病削弱進攻效率,而主場優勢部分避險該影響),最終形成一個加權後的整體判斷。得1分的標準是:僅基於單一因素(如「某隊最近連勝」)直接得出結論,或簡單羅列資訊而沒有解釋各因素之間的作用關係。總結來說,這兩個維度分別關注模型是否能夠在時間維度上引入可量化的前瞻性的關鍵變化,並在同一時點上將這些變化與既有資訊整合為結構化的因果判斷,從而提升預測的完整性與動態適應能力。模型按rubrics打分的排名與Elo排名相關係數隨rubrics質量提升而提升。這些維度高度具體,顯然不是泛泛而談的「推理質量」。但靠人工設計也走不遠,預測領域噪聲極高,不同領域的邏輯差異很大。Echo把這個問題轉化成了一個資料驅動的搜尋任務:由LLM生成候選評分標準(rubric),每一輪基於上一輪的反饋進行迭代,搜尋目標是讓rubric產生的模型排名與真實Elo排名之間的Spearman ρ最大化。搜尋按領域獨立進行,政治領域和體育領域各自搜尋出20個評分維度。實驗資料顯示,rubric的評估質量在迭代過程中持續攀升。機制三:Map-Reduce Agent架構。訓練完成後,EchoZ-1.0在推理階段採用分佈式的Map-Reduce流程。Map階段將一個宏觀預測問題分解為多個正交子任務,派出多個agent平行完成資訊採集和領域推理;Reduce階段由聚合節點處理跨源衝突、對齊因果鏈,輸出最終的機率判斷。這個循環支援多輪自適應迭代,直到資訊覆蓋度和推理深度趨於穩定。這套訓練範式的本質可以這樣理解:不僅考察模型猜對了沒有,也考察模型的分析過程是不是優秀。而「評價分析過程」這件事本身,也由這個系統自動完成。值得留意的下一步據瞭解,UniPat計畫將EchoZ-1.0的預測能力封裝為一套AI-native Prediction API對外開放。從部落格已披露的技術架構來看,這套API將支援自然語言形式的預測問題輸入,返回包含機率分佈、分層證據鏈、反事實脆弱性評估和監測建議的完整結構化報告,每份報告由多輪Map-Reduce agent對即時網路證據循環檢索和推理後生成。UniPat在官網上為Echo寫下了這樣一句話:「The future is no longer a probability you guess — it is a parameter you integrate.」當預測從一種直覺判斷變成一個可呼叫、可整合的參數,它能嵌入的決策場景,金融市場、演算法交易、企業戰略,遠比當前看到的要多。UniPat為Echo定義了四個關鍵詞:General、Evaluable、Trainable,以及Profitable。而落地的效果,則需要期待API的正式上線。 (新智元)
Kimi 新架構讓馬斯克歎服!17歲高中生作者一戰成名
17歲高中生,以一作身份,在Kimi團隊把Ilya提出的設想,變成了現實。Ilya之前有個預言,把按時間先後順序處理資料的LSTM網路“旋轉90度”,也就是把時間軸換成模型深度軸,就變成了現在的殘差網路。Kimi團隊認為,既然時間上的LSTM能對應深度上的殘差,那後來淘汰了LSTM的“注意力機制”自然也可以照做。他們新搞出的Attention Residuals技術,就相當於把注意力機制也“旋轉了90度”。用了這套新方法後,模型在計算當前層時可以聰明地“回頭看”,根據需要自由決定去提取前面那一層的資訊。這篇論文讓馬斯克也來圍觀,表示令人印象深刻。除了馬斯克,這篇論文也引發了大神Karpathy的思考,直言我們對Attention is All You Need這篇Transformer開山之作的理解還是不夠。這種新機制放到Kimi自家的Kimi Linear 48B大模型(3B啟動參數)上驗證,訓練效率提升25%,推理延遲增加不到2%。殘差連接的“記憶負擔”先回顧一下殘差連接的工作原理。傳統做法是:第N層的輸出 = 第N層的計算結果 + 第N-1層的輸出。這樣一路累加下去,每一層都能“記住”前面所有層的資訊。問題來了,在大模型PreNorm主流範式下,殘差連接中所有層的貢獻都是等權累加。就像一個“記憶力太好的人”,把所有經歷都以相同權重存進大腦。貢獻被逐步稀釋,早期資訊難以檢索,且大量層可被剪枝而損失微小,稱之為“PreNorm dilution problem”。更麻煩的是,隱藏狀態的范數會隨著深度不斷增長。研究人員發現,在深層網路中,這種unbounded growth會導致訓練不穩定。月之暗麵糰隊換了個思路:既然問題出在“無差別累加”,那就讓網路自己決定該回憶什麼。用注意力“選擇性回憶”團隊觀察到一個有趣的對偶性:網路的深度維度和序列的時間維度,本質上是同構的。在Transformer處理序列時,用注意力機制讓當前位置“選擇性關注”之前的位置。那麼在深度維度上,為什麼不能讓當前層“選擇性關注”之前的層?Attention Residuals就這麼來的:當前層的可學習偽查詢向量作為query(learnable pseudo-query)所有前層的輸出作為key和value用注意力機制加權聚合這樣一來,網路可以學會那些層的資訊對當前計算最重要,就多關注一點;不相關的層,權重自然降低。但這帶來一個新問題:計算量爆炸。如果一個100層的網路,每一層都要對前面99層做full attention residual,複雜度是O(L²),根本跑不動。Block AttnRes:分塊壓縮論文中的解決方案是Block AttnRes。核心思想是把連續的若干層打包成一個block,對block內部的輸出做壓縮,只保留一個“摘要向量”。具體操作如下:把L層網路分成B個block,每個block包含若干層每個block結束時,把block內的資訊壓縮成單個向量後續層做attention時,只需要關注塊間表徵+塊內即時層輸出,而非全部L個層這樣一來,attention的複雜度從O(L²)降到了O(L·B),在實踐中B可以設得很小(論文用的是8-16)。此外,團隊還做了數個工程最佳化:快取式流水線通訊、序列分片預填充、KV 快取粒度最佳化等等。Kimi Linear驗證:1.25倍效率提升理論說得通,但真正讓人信服的是大規模驗證。團隊在自家的Kimi Linear架構上做了測試。這是一個採用線性注意力的大模型,總參數48B,啟動參數3B(MoE架構)。同等計算預算下,Attention Residuals能獲得更好的下游性能;反過來說,達到相同性能需要的訓練計算量減少了約20%,相當於獲得了1.25倍的效率優勢。在具體任務上,數學推理(MATH、GSM8K)、程式碼生成(HumanEval、MBPP)均持平或略優,多語言理解的一致性也有所改善。更重要的是,Attention Residuals是一個drop-in replacement,不需要修改網路其他部分,直接替換殘差連接即可。論文裡還講到一個有意思的視角。團隊把這項工作稱為“時間-深度對偶性”(time-depth duality)的應用。在他們看來,深度神經網路的“層”和循環神經網路的“時間步”,本質上是都是對資訊的迭代處理。Transformer之所以成功,是因為用attention替代了RNN中固定的recurrence。那麼在深度維度上,是不是也該用attention替代固定的residual?17歲高中生入列共同一作更有意思的是,這篇讓馬斯克、Karpathy等人都為之一震的論文,共同一作之一是一名年僅17歲的高中生——陳廣宇(Nathan)。另外兩名共同一作,分別是Kimi的關鍵人物之一、RoPE(旋轉位置編碼)的提出者蘇神(蘇劍林),以及Kimi Linear的第一作者張宇。誠然Attention Residuals是團隊協作取得的成果,但一名高中生出現在這樣的團隊之中,還與兩位大神共列一作,已經足夠震撼。a16z創始人Marc Andreessen、Thinking Machines的聯創等人都關注了他的X帳號。一年前才剛剛開始瞭解大模型的陳廣宇,是從北京的一場駭客鬆開始,一路走向矽谷的。後來回國時,他選擇加入了Kimi。經手過月之暗面投資的奇績創壇(原YC中國)創始成員董科含,也曾在其個人公眾號上刊載過陳廣宇的一份自傳。去年二月,北京的一場中學生駭客松上,陳廣宇展示了一個關於“人類第三隻機械輔助手”的創新構想——ThirdArm。也正是這個項目,讓他結識了駭客松評委董科含,後者也成為了他的創業導師。當時,董科含追問他,未來是否會深耕這項技術,這促使他開始重新審視自己的職業方向。隨後他入選了董科含發起的只有極少數人入選的青年計畫,開始接觸IOI(國際資訊學奧林匹克)金牌得主及資深科研人員。此前他曾嘗試經營Shopify跨境電商店舖、營運短影片帳號,但經過董科含的建議,他決定轉向理解時代的底層技術。當時還不知道Transformer是什麼的他,在DeepSeek研究員袁境陽的指導下,利用Gemini作為輔助工具,通過研讀經典論文、追蹤GitHub開放原始碼專案等方式逐步建立認知。有一次他在推特上分享了對一篇部落格的反思後,獲得了作者的回覆,這篇帖子也因此引起了一家矽谷AI初創公司CEO的關注。該公司於2024年底成立,2025年初完成了800萬美元種子輪融資,資方背景涉及OpenAI與Anthropic。在通過一項限時通宵完成的實驗測試後,他拿到了對方的錄用通知。暑假期間,他前往舊金山開啟了為期七周的實習。其中前兩周,他負責定義並推進一個涉及144張H100顯示卡的探索性項目。在CEO直接指導下,他的工作延伸至營運層面,參與了招聘系統搭建、技術內容輸出及融資策略討論,並獲得與早期投資者Vinod Khosla交流的機會。在矽谷期間,他維持著高強度工作節奏,通過咖啡社交與輝達工程師及初創創始人建立聯絡。這次經歷讓他將科研視為一種支撐創造的底層能力。實習結束後,陳廣宇回到國內,並於去年11月加入月之暗面。把他吸引進去的,正是Kimi一直做的Flash Linear Attention這一類高效attention工作。實際上,正是GitHub上的FLA項目,吸引了他對機器學習的興趣並被邀請加入Kimi團隊。也正是順著這條線,他開始一路往更底層鑽,從讀論文、看實現,到研究 Triton kernel、理解attention為什麼能被這樣重寫、這樣加速。到了月之暗面,這條路也算是繞了一圈又落回原點——他最初是被底層技術吸引,最後做的也正是最底層、最核心的那部分事。相比於講一個“少年天才一路開掛”的故事,陳廣宇的經歷更像是另一種成長路徑——先被時代最前沿的技術擊中,再一步步把興趣磨成能力,把能力帶到真正的大模型研發現場裡。 (Python開發者)
深度解讀315曝光的“GEO亂象” :AI的回答是如何“被操控”的?
3月15日晚間,“315晚會”曝光了AI大模型被“投毒”的問題,矛頭直指GEO(生成式引擎最佳化)技術。圖片由AI工具製作這項技術原本用於最佳化資訊發佈、提升內容曝光效率,卻被一些公司開發成了“操控AI大模型”的工具,讓虛假資訊堂而皇之地成為AI給出的“標準答案”。在記者的探訪視訊中,為了驗證GEO技術,業內人士用“力擎GEO最佳化系統”捏造了一款名為“Apollo-9”的智能手環,編造誇張賣點和虛假使用者評價,並自動生成十幾篇軟文發佈到自媒體。僅兩個小時後,AI大模型竟引用這些虛構內容,正經推薦該手環,並給出購買建議。三天後,追加發佈11篇虛擬測評後,已有兩個AI模型開始推薦這款根本不存在的產品,且排名靠前。一款憑空捏造的商品,就這樣被推向了消費者。GEO背後究竟是怎樣的邏輯在運作?AI為何如此容易被“帶節奏”?對普通使用者又意味著什麼?本文將從技術原理、影響機制和應對思路三個維度,警示大家這場由AI引起的“資訊圍獵”。01當GEO變味兒:一場針對AI的“資訊圍獵”實際上,當前被討論的黑灰產化GEO亂象,已經不能再被簡單理解為傳統意義上的行銷最佳化。所謂GEO,本質上是圍繞 AI 搜尋和生成式引擎展開的一種“可見度最佳化”,目標是讓內容更容易被AI平台提及、引用或推薦。從這個角度看,它是SEO在AI時代的自然延伸,其本身並不天然帶有問題。如果GEO只是幫助內容更規範地被搜尋系統或AI系統理解,那仍屬於正常的資訊分發競爭。但問題在於,當前的GEO亂像已經越界,開始通過偽內容、偽權威、偽共識以及海量重複分發,去系統性影響大模型“看到什麼、引用什麼、如何組織答案”的過程時,它的性質就發生了變化。我們可以看到,在“315晚會”記者採訪的操作流程顯示中,業務人員以大量、定向、結構化的資訊投喂來影響模型抓取和排序,通過偽造內容、偽裝權威、重複鋪設資訊鏈條,就能在模型生成回答時形成“偽共識”,讓虛假資訊看起來像真實知識。AI大模型在回答問題時,會從網際網路上抓取大量內容作為參考依據。GEO正是利用了這一機制,通過系統性地向網路“投喂”特定內容,讓AI在檢索時優先抓取這些資訊,最終將其作為答案輸出給使用者。這種行為已經不是行銷最佳化,而是對AI資訊生態的污染,更深入嚴肅的看待這個問題來說,這是在面向生成式AI實施一種新的認知操縱。02不是“洗腦”AI,而是“操縱”了證據鏈這件事真正值得警惕的地方在於,這場變質行銷背後帶來的危害性。過去,黑灰產是想辦法把廣告排到更前面;現在,黑灰產更進一步,是想辦法讓AI把廣告說成答案,把操縱包裝成推薦,把商業利益偽裝成知識共識。這裡最容易讓公眾誤解的一點是,很多人會覺得AI的回答內容像是“自己想出來的”。但實際上,目前大量搜尋、問答、導購、助手類AI產品,並不只依賴模型內部記憶,而是會結合外部網頁、知識庫、檢索系統、搜尋增強模組來生成回答。也就是說,很多場景下,模型先要“看資料”,再去“組織答案”。而付費GEO的危險,不在於騙過某一個編輯或某一個平台營運,而在於它試圖去影響整個模型的外部證據鏈。它通常會通過幾類方式起作用:第一類,批次製造看上去像“中立資訊”的內容;第二類,偽裝成測評、科普、經驗總結、榜單、問答等更容易獲得信任的內容形態;第三類,在多個站點、多個帳號、多個文字範本中反覆分發,製造“很多地方都這麼說”的假象;第四類,把內容寫成更適合 AI 抓取、切片、引用和拼接的結構。從這個角度看,它影響的已經不只是內容曝光位置,還有影響AI的資訊輸入質量和答案形成依據。03GEO的新入口:RAG、搜尋增強、引用鏈路相比大眾普遍擔心的“訓練資料投毒”,這種風險在頭部基座模型廠商的訓練體系中其實較難真正發生。當前黑產利用的GEO,本質上與模型訓練、訓練環境無關,更準確地說,當前GEO主要作用在AI的檢索增強、聯網搜尋、知識庫呼叫、RAG(檢索增強生成)這類環節。其運作方式是:讓大量行銷化、偽裝成中立資訊的內容,進入檢索、抓取、知識庫或搜尋增強問答的候選池,再被模型當作參考依據呼叫出來。換句話說,當前這類風險更像是在污染AI的“外部證據層”。模型本身的參數並未被改動,只是在它回答問題時,桌上已經被擺滿了一批經過精心操縱的“參考材料”。因此,當我們討論GEO風險時,最重要的不是泛泛地談“AI被污染了”,眼下最現實的問題是:RAG、搜尋增強和引用鏈路正在成為被操縱的主要目標。而更值得警惕的是:即便基座模型廠商針對黑灰產式GEO做了定向安全風控,未來仍可能出現新型攻擊方式——比如在GEO場景下的“間接提示詞注入”攻擊。攻擊者可以通過在內容分發平台的圖片或正文中嵌入隱藏指令,誘導AI生成被操縱的答案。這類攻擊更加隱蔽、更難防範,目前也是包括OpenAI在內的全球AI平台都尚未有效解決的安全難題。04黑產GEO的危害:當廣告偽裝成知識,讓AI“夾帶私貨”GEO亂象之所以值得高度警惕,在於它攻擊的目標已從“廣告是否被看到”延伸到模型如何形成判斷本身。一旦廣告被包裝成知識,操縱被包裝成推薦,偽造出來的大量重複資訊又被偽裝成“外部共識”,模型就可能在形式上給出越來越完整、越來越像中立結論的答案,但這些答案背後的證據基礎,已經被污染了。這和傳統網際網路廣告亂象最大的不同在於:過去,使用者看到廣告,還能意識到“這是廣告”;但在生成式AI場景裡,商業操縱更可能以“AI總結後的建議”“AI推薦的答案”“AI整理出的共識”的形式出現。使用者面對的也不再似傳統網際網路中一個裸露的推廣位,將面對無數個類似於語氣平穩、結構完整、看上去經過篩選、歸納和綜合的回答。這會直接影響公眾如何理解資訊、信任資訊,以及依據什麼作出消費、選擇和判斷。也正因為如此,付費GEO一旦越過正常最佳化邊界,滑向偽造、投喂、操縱和偽共識製造,它就已經具備了明顯的AI時代黑灰產特徵。05當信任機制存在漏洞:AI安全治理何去何從GEO亂象的爆發,將一個更深層的問題推到了行業面前:生成式AI的安全治理,應該如何跟上技術發展的步伐?2024年,據普林斯頓大學等機構發表的一項研究顯示,通過對內容進行針對性的GEO最佳化,可以將資訊在AI生成回答中的可見度提升最高40%。研究人員測試了多種最佳化策略,發現加入引用來源、使用統計資料、採用流暢且結構化的表達,都能顯著提高內容被AI引用的機率。這些資料揭示了一個現實:AI系統目前的“信任機制”存在結構性漏洞,而GEO產業鏈正是瞄準這些漏洞精準施壓。顯然,目前傳統安全策略已無法應對新型風險。AI原生安全不只是簡單給模型外面套一層傳統安全殼,也不是只做內容稽核。它更核心的對像是模型的認知鏈路——尤其是模型在檢索、引用、組織和生成答案時,對外部證據的處理能力。這次國內基座模型集中暴露出的GEO問題,本質上是一個全球生成式AI都會面臨的外部證據鏈安全問題,只是在國內被更集中、更商業化、更面向大眾地放大了。之所以國內表現得更突出,主要有兩個方面:一方面與中文網際網路長期存在的軟文矩陣、偽測評、站群分發等成熟黑灰產生態有關;另一方面也說明部分模型廠商在來源可信度、引用透明度、抗偽共識、抗投喂操縱和產品風控上仍存在短板。這裡既是底層安全能力問題,也是產品責任和風險治理問題。模型廠商向使用者提供的,已經不是單純的模型能力,而是一套會影響使用者判斷、選擇與信任的答案服務;使用者信任最無價。因此廠商必須對模型“看到了什麼、為什麼引用、為什麼推薦”負責,這正是AI原生安全今天必須被放到核心位置的原因。總之,未來對於AI治理的核心不再只是判斷內容的真假,還包括對外部證據鏈的可信性進行審查,識別引用源是否被污染,以及判斷系統能否發現虛假的共識資訊。更重要的是,模型必須能夠在複雜、多變的資訊環境下守住事實、權威與可信度的邊界,以防止生成的回答被操控或誤導,這才是行業亟需攻克的核心問題。 (騰訊科技)
阿里、抖音、京東徹底瘋狂,新的大戰一觸即發
槍響之後,沒有退路。去年還在卷大模型參數,今年巨頭們已經真刀真槍幹起了AI電商。年關前後,三家巨頭集體出手,京東AI購獨立App悄然上線,阿里千問接通電商生態、用30億紅包砸出1.2億筆AI訂單,抖音豆包開始內測購物功能。硝煙逐漸瀰漫,一場屬於AI時代的電商大戰,即將爆發。阿里、抖音、京東集體出手 AI電商時代正在到來AI時代,一場新的變革正在醞釀。近期,輝達創始人黃仁勳罕見地發表了一篇長文,他在文中直言:“人工智慧(AI)是當今塑造世界的最強大力量之一......它是如同電力和網際網路一樣不可或缺的基礎設施。”聯絡現實,AI確實已經以勢不可擋之勢席捲了全球各行各業。回望二十多年前,網際網路的興起與普及將購物與交易從線下帶到了線上,催生了電商這一劃時代的產物。而如今,當AI逐漸成為新一代基礎設施,也必然會對電商產生深遠的影響。事實上,行業巨頭已紛紛行動,一場“電商AI化”的轉型浪潮正悄然啟動。以抖音和阿里為代表的企業,已不約而同地將旗下AI助手全面接入各自的電商生態。最近,抖音豆包開始內測一項新功能——“購物下單”,即使用者在對話中能直接完成購物。當聊到相關需求時,AI會自動推送商品卡片,點選即可進入購買流程,無需跳出應用。圖源:豆包這是繼去年10月豆包接入抖音商城連結後,其AI購物體驗的又一大飛躍。據QuestMobile資料,今年央視春晚期間,豆包的日活躍使用者數(DAU)峰值達到1.45億,是國內AI原生應用當之無愧的斷層領先者。這也意味著,豆包手裡握著數量極其龐大的使用者。圖源:QuestMobile對此,抖音表示,抖音電商和豆包是相互獨立但有合作的關係,抖音電商沒有直接“接入”豆包(比如成為豆包的內建功能)。從這個角度來說,豆包嵌入抖音電商,本質還是利用AI提升站內轉化效率。在推薦購買的過程中,AI扮演的是加速成交的催化劑角色。相比抖音克制的態度,阿里千問的戰略則顯得更加激進。據多家媒體披露,去年底,阿里將千問APP、夸克及AI硬體等多個業務聚合,成立全新的千問C端事業群,由集團副總裁吳嘉親自掛帥,目標直指將千問打造為AI時代的“超級應用”與智能樞紐。今年1月,千問已邁出實質性一步,全面接入淘寶、支付寶、飛豬等阿里核心生態。這意味著,使用者與千問的對話不再止於資訊獲取,而是可以直接完成訂機票、點外賣、購物等一系列真實生活事務。千問正從一個聊天對象演變為能實際辦事的智能體,以“超級入口”之姿強力推進阿里在C端的AI戰略。圖源:千問當然,更核心的激進之處在於阿里春節期間砸下的30億。春節AI大戰中,千問選擇了一條最親民的路徑來實現使用者的拉新:下載即送25元代金券,一單羊毛撬動一個使用者。玩法十分樸素,效果卻很震撼。千問通過“請客活動”實現爆發式拉新,DAU從707萬飆升至7352萬,增速高達940%,活動期間累計使用者下單超2億次,吸引1.3億人首次體驗AI購物。更關鍵的是,其憑藉實用場景實現高留存,活動後DAU穩定在4000萬,雖然曝光量不及豆包,但仍被摩根士丹利和AI產品資料平台AICPB評為使用者留存率最強,證明了以真實交易驅動的增長策略具備持續生命力。這背後是阿里對AI的獨特理解。正如馬雲所說,科技的意義在於“呵護人間煙火”。千問的路徑很清晰:從對話式聊天轉向能辦事的智能體,用補貼這種最樸素的手段,快速完成使用者心智教育。它不追求炫技,只追求讓更多人用起來。當電商購物的繁瑣流程被濃縮為幾句AI指令,就有機會擊穿更多使用者群體的使用壁壘。不同於抖音和阿里,京東的選擇,是從零建構一個原生AI購物工具。去年底,京東悄悄上架了一款獨立App——京東AI購,搭載自研的JoyAI大模型。圖源:APP STORE京東沒有把現有AI揉進電商體系,而是選擇了一條更徹底的路徑:用自然語言互動取代傳統的貨架與搜尋,實現“一句話購物”。使用者不再需要瀏覽、比價,只需描述需求,AI便直接匹配商品並完成下單。與此同時,京東也在供應鏈端發力。物流調度、工業供應鏈等環節都部署了專用AI系統。正如京東CEO許冉所說,依託自營業務和物流履約能力,京東正在成為AI技術應用場景最豐富的企業。三巨頭,三條路:抖音把AI嵌入現有生態,阿里用補貼砸開使用者心智,京東另起爐灶造原生工具。路徑不同,目標卻一致,即爭奪AI電商時代的下一張門票。AI正在重寫電商的底層邏輯摩根士丹利分析師曾預測,未來幾年AI購物代理將t重塑線上零售格局,到2030年,近半數電商交易有望通過AI代理完成。事實上,AI對電商的改造早已啟動,從商家到平台,使用者往往是感知最晚的一環。首先,AI正在系統性地降低電商的門檻。對中小商家而言,數字人直播、AIGC內容生成、智能客服等工具,讓原本依賴專業技能和人力的線上生意,開始被“數字員工”分擔。其次,AI也在重塑供應鏈。隨著AI對基礎設施的改造,平台甚至可以轉向AI預測使用者要什麼,供應鏈從被動響應走向主動預判。以京東為例,其物流與倉儲環節的AI系統已在推動這一轉變。今年,京東“AI年貨地圖”首次上線,其基於巨量資料與人工智慧,能夠預測不同區域的消費偏好,提前指導商品分倉與布貨,提升時效。圖源:京東而在使用者側,AI購物助手的普及,正在顛覆過去二十年的遊戲規則:流量分配。過去,誰佔據搜尋首頁誰就能贏,商家為此投入巨大預算。而未來,如果使用者不再主動搜尋,而是直接告訴AI需求,那麼流量入口就將從關鍵詞排名轉向需求匹配。商家的任務從搶排名,變成讓AI理解自己的商品。平台的角色也從分發流量轉向分發需求——這是一場權力的重新洗牌。這意味著,誰掌握AI入口,誰就掌握使用者。當人們習慣用豆包購物、用千問點外賣、用京東AI下單,傳統電商的流量壁壘將被逐步瓦解。但挑戰同樣真實存在。一是算力瓶頸。億級使用者同時呼叫AI下單,算力消耗遠超傳統操作,平台必須持續加碼AI基礎設施的建設,這無疑是一筆巨大的投入。二是使用者心智的培育。對商家而言,AI帶來降本增效是明確的剛需,但對使用者來說,用AI購物是否真的是“真需求”,仍需檢驗。在今年的春節AI大戰中,補貼換來的下載高峰,未必完成了有效的使用者篩選。如何讓使用者從薅羊毛走向真習慣,是每個平台都必須回答的問題。但無論如何,槍聲已經響起。這一次,不僅僅是概念或試點,而是巨頭們真金白銀的投入、千萬級使用者的驗證、商業閉環的打通。雖然結果如何還尚未可知,但唯一可以預見的是,時代的變化,一定比想像中來得更快。 (電商之家)
大模型:超人智能誕生,邁向矽基文明
AI大模型作為開啟AI時代的鑰匙,正引起一場時代巨變。在社會影響層面,AI正全方位重構人類生活與工作範式。它打破了傳統的技能壁壘,讓普通人擁有成為超級個體、一人公司的可能,並推動了頂尖專業的法律、醫療等服務向大眾普惠。然而,當前全球仍有約84%的人口從未接觸過AI,這既加劇了全社會的認知分化,也預示著AI基礎設施正處於類似30年前網際網路爆發的前夜,機遇和空間極大。在技術演進上,大模型面對傳統“大力出奇蹟”帶來的算力與資料瓶頸,行業正加速轉向演算法最佳化(如DeepSeek的高效做減法)與多模態的感官進化。展望未來,大模型發展將呈現五大決定性趨勢:推理端算力需求將迎來指數級爆發;後訓練將接棒預訓練成為破局核心,讓大模型從“通才”向頂尖“專才”跨越;世界模型的大規模落地將賦予AI理解真實物理規律的能力;中國AI企業將在馬太效應中確立全球引領地位;而人機對齊與安全監管,將成為護航人類走向AI文明的紅線。1AI大模型:對社會五大深遠影響全社會都在熱議大模型,對大眾而言,它最直觀的表現形態,就是我們手機和電腦裡越來越聰明的AI助手——比如國際上的ChatGPT、Gemini、豆包、千問等。然而,在這些聊天背後,大模型本質上是一種建立在海量資料和超大算力之上、具備“通用認知能力”的革命性AI系統。一是資料大、大模型見識廣,它幾乎被喂下了人類有史以來在網際網路上產生的全部文字、書籍、論文和程式碼。二是參數大,它的內部包含了數千億甚至上兆個數學參數,就像人類大腦神經元之間的突觸,交織成了極其複雜的邏輯網路。三是算力大,它需要成千上萬張最頂級的GPU晶片,耗費數月時間日以繼夜地進行運算。正因為這種前所未有的規模,大模型變成了能夠自主進行內容創作、邏輯推理、編寫程式碼乃至與人類共情的“生成式智能”,讓AI自主思考。2026年起,AI將全方位重構人類的日常生活、工作模式與社會關係。大模型的普及對大眾的深遠影響,在以下五個維度:影響一:技能壁壘被全面打破,人人皆可成為超級個體,人人都是創作者。過去需要極高學習成本的職業壁壘將被大幅削弱。比如,在程式設計開發領域,借助具備自主規劃能力的智能體,不懂程式碼的普通人也能通過自然語言從零建構百萬行程式碼的產品,實現個人軟體開發。在內容創作領域,毫無剪輯和設計經驗的人,憑幾句提示詞,就能呼叫AIGC工具(如Seedance2.0、Sora等)生成專業級的影視分鏡、廣告海報甚至遊戲資產。創意轉化為成果的門檻大大降低,一人公司成為趨勢,但也意味著單一基礎技能的市場價值正在快速衰減。這一趨勢將深刻重塑當前教育體系。當掌握技能的門檻被大模型踏破,教育的護城河將被徹底重估。在小學、初中等基礎教育階段,傳統的填鴨式知識灌輸、死記硬背將徹底失去意義,獲取標準答案已無意義。基礎教育的核心必須不可逆地轉向培養孩子的提問能力,這就是我們在使用AI大模型中所用到的Prompt思維(提示詞思維)。同樣,培養批判性思考、想像力以及人機協同的素養在AI大模型時代同樣重要。未來,在大學等高等教育層面,以單一規則和熟練度為主的傳統專業如基礎程式設計、初級翻譯、傳統財會等將面臨一定的生存危機。高等教育的終極目標,必須從過去批次製造標準化技術工,全面跨越到培養能夠跨學科整合資源、具備極高審美與戰略全域觀的“AI指揮專家”。未來的文憑將不再是基礎技能的背書,而是駕馭AI能力的體現。影響二:工作與生活範式重構,進入人機協作的超級AI助理時代未來的大模型,不僅僅能處理大家工作生活中的種種問題,還將更加廣泛的以智能體AI Agent的形式展開。在生活場景中,AI可以自動整理家庭帳單、定製專屬學習計畫、規劃包含機酒預訂的複雜旅行路線;在工作場景中,AI能自動篩選撰寫郵件、生成會議紀要、檢索跨系統資訊,成為高度定製化的第二大腦。將大眾的時間與精力徹底釋放到創造性事務上。影響三:頂尖專業服務走向普惠,隨時隨地呼叫專家智囊垂直行業大模型的崛起,讓原本昂貴且稀缺的醫療、法律等知識密集型服務變得觸手可及。比如在醫療健康場景,大眾在基層即可獲得媲美資深醫生的AI輔助診斷,比如螞蟻阿福等應用的出現,就是讓AI醫療變得觸手可及;在法律應用場景,普通人能以極低的成本獲取準確率極高的合同審查和文書起草服務。大模型實質上推動了頂尖專業資源的平權。影響四:大模型加速了認知鴻溝差距,認知平權尚未到來儘管大模型賦予了個體極大的生產力躍升,但在宏觀層面上,它沒有立刻帶來普惠的認知平權,而正以前所未有的速度加劇全新的不平等。不使用AI的人會有認知落後、被時代“遺棄”的風險。據統計,截至2026年初,全球80億人口中,約84%(68億人)壓根從未接觸過AI。真正使用過免費AI對話工具的人群僅佔16%(約13億人),而每月付費20美元深度使用AI的約1500-2500萬人,使用AI輔助程式設計工具僅約200-500萬人,這些先鋒群體其實目前仍佔比極低。這意味著,極少數率先掌握大模型工具的群體正在利用技術槓桿獲得幾何級數放大的競爭優勢,而絕大多數普通人目前仍被排斥在技術紅利之外。未來全社會的認知分化,將極大程度上取決於對AI工具的掌握與應用程度。影響五:全球用過大模型的人口不足20%,AI基礎設施處於爆發前夜當前大模型在普通大眾中的滲透階段,猶如30年前的網際網路。1995年,全球網民不到4000萬人,佔世界人口不到0.8%,而30年後網際網路已覆蓋全球超50億人。如今約有84%的全球人口尚未接觸AI,這預示著AI海嘯其實還是處於爆發前夜。隨著推理成本的持續下降和智能體的全面鋪開,大模型將迅速從少數人的先鋒工具演變為全民的底層基礎設施。對於普通大眾而言,儘早打破認知壁壘,主動跨入那使用AI的、付費深度使用、用AI創造價值的極少數人的行列中,是在這輪AI文明演進中避免被邊緣化、搶佔時代先機的唯一出路。2拆解AI大模型技術原理第一,我們看AI大模型到底在幹什麼?簡單說,大模型的本質,就是用電腦語言“預測下一個詞”出現的機率。機器的演算法和人類大腦極其相似。大模型通過海量閱讀,尋找特徵、計算條件機率,最後生成可能性最高的句子,並不斷通過反饋強化學習。它是在用電腦語言壓縮人類的邏輯,從而理解世界。從1955年開始,歷經統計語言、神經網路、深度學習等階段,直到2020年LLM大語言模型成型,參數量飆升,才讓人機對齊成為現實,AI最終能夠以大模型的方式實現初步普惠、走近普通人的生活。第二,我們看大模型的技術基石,為什麼是Transformer架構和GPT跑出來了?其實,2017年是全球AI真正的分水嶺,Google開放原始碼的Transformer架構徹底打下了今天大模型的江山。在這之前,AI界主要用CNN(擅長看圖)和RNN(擅長處理句子)。但老一代的RNN有個致命弱點:它必須按順序一個詞一個詞地讀,無法同時處理,效率極低。而Transformer的偉大之處在於它打破了順序的枷鎖,實現了“平行計算”:它能一口氣吞下整段文字,完美契合了GPU的大規模並行算力。正是從這一刻起,算力能夠高效轉化。為什麼說從GPT開始,大模型的商業邏輯閉環了?因為從GPT選擇的技術路線是只專注做一件事:永遠去預測下一個詞。這讓它的結構極其純粹,部署極快。更重要的是,在同等算力投入下,單向模型能把資源的投入產出比做到極致。第三,其實,AI大模型進入“ChatGPT時刻”的本質,就是量變引起了質變,機器突然擁有了“湧現(Emergence)”能力 。當模型參數量突破“百億”這個臨界點時,它不再是單純的死記硬背,而是突然展現出類似人類的推理和思維能力,精準度呈指數級飆升 。就像幼兒學說話,前期積累單詞,突然有一天不需要提示,就能說出極其複雜的長難句,這就是AI的湧現。這表現為“給個提示就能答對(上下文學習)”和“一步步邏輯推導(思維鏈)” 。雖然機理仍是“黑箱”,但這被視為機器邁向智能的前兆。第四,大模型過去幾年的信仰是“大力出奇蹟”,即Scaling Law。參數越大、資料越多、算力越強,大模型就越聰明 。但是現在已經遇到了兩大現實瓶頸。第一是木桶效應,大模型不能偏科。不能只砸錢買算力,沒有好資料喂養,模型性能就會停滯。參數、資料、算力必須按比例同步增長。第二是邊際效應遞減。性能達到高位後,再提升一點點,需要付出幾十倍的成本。比如推測GPT-5參數是GPT-4的六倍,Grok-3算力是上一代的十倍,但性能只是小幅提升。這說明“單純靠暴力堆算力”的路線快走到頭了。所以,我們要看未來大模型技術的兩大最佳化方向。3  大模型未來發展方向:演算法最佳化、感官進化當前AI大模型的演進正從單純的“算力競賽”轉向更深層的“架構革命”,核心突破體現在演算法效能與感官進化。一是在大模型演算法層面,行業正在經歷一場由“堆料”向“做減法”。過去,大模型極度依賴參數堆疊和算力擴張,但隨著邊際效益遞減,以DeepSeek為代表的演算法最佳化路徑打破了“唯算力論”。AI大模型正變得更輕巧、更廉價且更聰明。通過混合專家模型(MoE)實現計算資源的精準分配,利用多頭潛在注意力機制(MLA)對長文字資訊進行高倍壓縮,並輔以知識蒸餾技術將複雜智慧遷移至輕量化模型。這種變革的本質是利用演算法架構的創新來避險昂貴的算力成本,讓通用人工智慧的門檻從算力霸權回歸到效率邏輯。二是在感官層面,AI大模型的突破方向是多模態統一,打破文字、圖像、音訊、視訊的壁壘,實現多種資料的統一處理和理解,讓模型既能讀文字、看圖片,也能聽聲音、分析視訊。這種感知力的質變,讓AI徹底突破了文字框的限制,為具身智能、腦機介面等前沿場景提供了具備空間感知和動態預測能力的數字大腦。4全球主流AI大模型:格局分析截至2026年2月,大模型發展正經歷著從無序競爭到頭部集中的演變,市場格局更加穩定。全球主流大模型在應用特點與優勢上呈現出以下特徵:Google (Google/DeepMind):作為AI大模型基礎架構的絕對奠基者,其在2017年提出了Transformer架構與注意力機制。Google除了早期展現“湧現”能力的 PaLM 和 LaMDA,其當前的核心主力Gemini更是原生多模態領域的標竿。Gemini打破了單一文字限制,從底層實現了文字、圖像、音訊和視訊的融合處理;此外,它深度內嵌於Android生態與Google搜尋中,Gemini Live等模式在即時語音互動、長上下文理解以及跨應用資訊整合方面具有極強的應用落地優勢。同時,Google依託龐大的應用生態,日均處理呼叫量達數兆級,在推理端佔據主導地位。OpenAI (GPT系列):作為行業先驅,其最新一代GPT-5(參數量超10兆)在個性化互動、更強推理邏輯及程式設計能力上具有顯著優勢。其原生多模態模型GPT-4o的平均響應時長僅需320毫秒,與人類相當;同時,借助後訓練技術的GPT-o1在數學、程式碼等複雜推理任務上表現好。DeepSeek:率先轉向為演算法做減法,顛覆了“AI訓練必依賴強大算力”的認知。其代表模型DeepSeek V3 通過混合專家模型(MoE)、多頭潛在注意力機制(MLA)等技術,大幅降低了推理延遲、算力需求與落地成本。它在科研輔助領域獨樹一幟,在多項基準測試,如數學計算和程式碼編寫中表現優異。Anthropic (Claude系列):代表模型Claude-3.5-Sonnet在各項基礎測試中表現出色。其衍生的Claude Code在智能程式設計領域應用深入,能夠實現檔案分析、程式碼編輯等,可作為企業虛擬軟體團隊中的開發或測試Agent實現複雜項目的拆解與協同執行。xAI (Grok系列):作為馬斯克旗下的大模型,Grok的核心壁壘在於與X平台的深度繫結,擁有極強的即時熱點解析能力。最新一代Grok-3,在專業領域實現了進一步提升。其應用特點是處理即時新聞和輿情分析方面具有優勢。字節跳動 (豆包 & Seedance):憑藉Seedance 2.0在視訊生成等多模態領域成為行業標竿,其核心通用大模型豆包憑極高的響應速度和擬人化的語音互動體驗,牢牢佔據了國內C端市場頭部。它深度嵌入字節的內容生態,在個人效率提升和智能內容生成AIGC上具有極強的商業落地優勢。月之暗面 (Kimi):作為國內大模型的明星代表,Kimi在文書處理上的核心壁壘是超長上下文窗口技術。它在處理百萬字級超長文件解析、法律合同審查、財報深度分析以及複雜長程式碼閱讀時具有極高精準率,是知識密集型行業依賴的AI生產力工具。阿里巴巴 (通義千問 Qwen):代表開源模型Qwen2.5-72B在精準度測試中名列前茅。在應用端,阿里依託電商場景積累的海量資料,持續最佳化通義千問的商業應用能力,比如千問點外賣等場景。騰訊 (元寶):致力於打造“AI+社交”入口,將元寶大模型精準推向更多效率場景。Meta (Llama系列):其代表模型Llama-3.1-405B作為開源社區的重要力量,在推理與文字生成基準測試中保持著較高的精準度,為開發者提供了強大的基礎模型。5大模型未來五大趨勢通用智能的實現,將完全重構全球經濟分工體系、顛覆所有產業的商業模式,甚至重塑人類社會的底層邏輯。五大決定性的未來趨勢已顯現。趨勢一:AI超級應用爆發後,推理端算力需求將迎來指數級爆發,成為主導未來AI商業版圖的核心戰場。隨著AI應用從探索期進入全面落地期,從雲端到終端的龐大使用者群正以前所未有的高頻次呼叫大模型服務。微軟、Google等科技巨頭的日均Token處理量已躍升至數兆等級,遠超早期聊天機器人時代的計算量。AI算力需求的核心矛盾,正從早期的“模型訓練為主”迅速讓位於“實際落地推理優先”。未來以智能體AI Agent為代表的殺手級應用一旦大規模普及,消費級AI的日活使用者將輕鬆突破十億,佔據整個生成式AI市場70%以上的計算資源,大模型在推理端的算力消耗將呈幾何級數膨脹。趨勢二:後訓練將全面接棒預訓練,成為破局大模型演算法瓶頸的核心。過去幾年,單純依賴擴大參數、算力和資料的“預訓練尺度定律(Scaling Law)”正不可避免地撞上現實天花板。一方面,高品質的公共網際網路資料即將被消耗殆盡,資料獲取與人工標註的成本呈指數級攀升;另一方面,維持和新建超大規模算力叢集的資金壓力極大,底層硬體的物理極限也讓算力規模的無底線暴增難以為繼,行業重心必須向後期的精細化訓練轉移。如果說預訓練是廣撒網,讓大模型掌握基礎的通識能力(成為“通才”),那麼後訓練就是定向爆破,它聚焦特定任務與垂直場景,精準最佳化模型,讓大模型向頂尖的“專才”跨越 。傳統大模型在預訓練後雖具備了通識基礎,但在處理極端複雜的專業任務時常常捉襟見肘。比如在醫療領域,融合真實病例與醫學圖譜的後訓練模型大幅提升了診斷精度;在金融市場,吸收專有資料的模型展現出頂級的風控評估能力。目前的AI大模型精進法則,已從單一的預訓練維度,全面升級為“預訓練+後訓練+即時推理”。趨勢三:世界模型(World Models)將大規模落地,賦予AI理解真實物理規律的高級認知能力。現有大模型無論多麼驚豔,其本質依然是被動接受知識並進行統計機率上的相關性推理,擅長內容生成但缺乏真正的物理因果認知。而世界模型的核心理念則完全不同,它旨在讓AI像人類一樣主動探索、與真實物理環境互動,從而建構起內在的知識體系。它不再僅僅預測下一個詞(token),而是要預測下一個動作或物理狀態。融合多模態、記憶與控製器三大核心元件的世界模型,是實現無人駕駛和具身智能大爆發的關鍵。多模態模型負責壓縮和感知複雜的物理世界資訊,記憶模型負責掌握時間動態並進行未來預測,控製器則負責設定目標並指導機器人執行。這種擁有時空推理能力、甚至能脫離現實進行虛擬模擬的世界模型,研發門檻極高。目前,以特斯拉FSD系統、輝達Cosmos工業模擬為代表的架構已率先試水,預計2026年後,隨著物理AI裝置的普及,世界模型將迎來真正的爆發。趨勢四:全球大模型格局加速向頭部集中,中國AI力量將在馬太效應中確立全球引領地位。早年間“百模大戰”式的無序競爭已經徹底終結,市場篩選機制變得極其殘酷。海量使用者和企業對AI性能、安全與穩定性的苛刻要求,讓那些缺乏核心底層技術的初創模型迅速出局。在這個優勝劣汰的過程中,擁有頂尖研發人才、海量專有資料與充沛資金鏈的中國頭部廠商,成功跨越了技術壁壘,將國產大模型全面拉升至國際第一梯隊。中國科技巨頭與獨角獸企業正在各個細分與通用賽道上形成壓倒性的比較優勢。DeepSeek以極具顛覆性的演算法創新,在科研輔助與極低成本推理上獨樹一幟;字節跳動依託豆包、Seedance在視訊生成等多模態領域牢牢佔據行業標竿;阿里將海量電商消費資料反哺模型,將商業應用落地能力做到極致;騰訊則緊握“AI+社交”入口。這種從技術突破到使用者增長、再到資料反哺的正向循環,將進一步拉大強者與追趕者之間的差距。趨勢五:人機對齊與AI安全監管,將成為決定矽基文明能否平穩延續的紅線。當AI的智力遠超人類且具備高度自主執行能力時,如何確保它在複雜甚至極端環境中做出符合人類道德價值觀的判斷,是當下面臨的最棘手挑戰。由於機器底層缺乏對人類“公平、安全、道德”的天然感知,且訓練資料本身往往帶有網際網路固有的偏見與非理性動機,如果不加干預,高度自主的AI極易在黑箱中演化出不可預測的倫理災難甚至反人類傾向。解決AI道德困境與價值觀對齊,必須依賴企業級技術約束與全球主權政府的深度協同監管。人類社會本身的文化與道德框架就存在巨大差異,達成普世的AI行為準則絕非易事。明確演算法詮釋權與權責劃分,不僅是約束技術的韁繩,更是護航人類安全走向超人智能時代的文明底座。 (澤平宏觀)