在AI重新定義未來的臨界點上,騰訊科技聯動中國AI浪潮前沿的創新者,推出“AI未來指北”穿越2025系列預測,梳理他們對2025年AI圖景的研究分析。從矽谷的創業孵化器到中國深圳的人工智慧實驗室,這些建立在硬核技術突破和第一手研發經驗之上的預測,試圖描繪出一幅AI與人類共同進化的藍圖。當我們透過這些專家的視角窺探AI的未來圖景時,我們看到的不僅是技術參數的進步,更是一個正在經歷範式轉移的人類社會。
2025年,AI需要證明它是一種比以往技術革命中發揮作用更為強大的通用技術。
AI需要繼續提升性能和降低成本,讓更多的行業可以應用和創造價值。它也要求更廣泛的基礎設施的支撐,如能源電力系統。它還要求從公司到社會層面的生產關係和治理的調整和就緒。
最重要的是,AI要顯示出它與以往技術的本質的不同,如果說以往的技術基本上是工具,而AI將是智能體,能使用甚至設計工具。
下一代大模型將會出現,它不再是沿著原先GPT的擴展軌跡的延伸,而將是其基本功能從預測下一個token轉為較複雜的推理和決策,支援智能體的建構。
智能體在2025年的進展,樂觀地看將於年底在一些企業,主要在科技巨頭和軟體公司中開始相當於人力熟練完成任務,並且開始進入物理場景完成真正有經濟價值的任務。
智能體使用工具完成任務,決定了下一代大模型的意義,也成為殺手級應用的必要條件。
2025年,GPT-5或下一代基礎模型將會推出,前沿AI公司將會尋求“新的擴展範式”。
推理模型迅速成為新的共識。
在中國,深度求索發佈了DeepSeek-R1、阿里巴巴發佈了Qwen-QwQ,智譜發佈了Zero;在美國,Google發佈了“迄今為止思考最周到的模型”Gemini 2 Flash Thinking,逼著OpenAI拿出了最新版的o3。後者相比o1,實現了一次階躍,在程式設計、數學、科學等一系列基準測試中成為學霸中的學霸,特別是在ARC-AGI的測試中,取得了大幅度的突破。
它們在推理時間上進行擴展,基於獎勵機制,在測試階段對思維鏈(CoTs)推理過程的反覆強化學習,完成多步驟、長距離的任務。
下一代大模型,主要不會是參數數量級的增長,如從GPT-4的1.8兆個參數增加到18兆個參數(不過想想看,再增加一個數量級,大模型的參數量將相當於人類大腦神經網路的突觸數量),在算力叢集的部署、訓練和推理成本的控制、電力供應及碳排放等方面,都會增加很大的壓力。
下一代大模型的性價比與可持續性,將是一個重要考慮,有幾點應該是可以確定的。
首先它仍然會追求智能湧現、通用性和知識遷移能力。在提升現有資料質量的基礎之上,增加高品質的合成資料和多模態資料。它將增強推理能力和深度“長考”,將加強多模態整合,專用化和開源模型,支援智能體,即無縫連接各種API和外部工具,借助專業功能執行複雜任務,上述的整合有助於建構能夠應對數字和物理領域多樣化挑戰的人工智慧生態系統。
擴展定律沒有完全失效。在預訓練階段,“暴力美學”越來越不經濟,但對於不少頭部企業來說,放慢開發速度的風險要大於過度投資。在後訓練階段,監督微調(SFT)、合成資料與強化學習(RL)仍在引領AI跨越LLM之谷。OpenAI還組合出強化微調(RFT)技術。“測試時”階段的擴展已經成為了推理模型的首要選擇。
擴展定律同樣在多模態領域仍然生效,物理AI會是下一代基礎模型的重要方向。Sora的誕生證明了這一點。在它演示之後的半年左右時間內,競爭對手推出了各種視訊模型,包括Google、字節跳動等坐擁海量視訊資料的網際網路巨頭。公開的、自然的、高品質的文字資料正在耗盡,而整合了圖像、視訊與音訊的多模態大模型,將是對大型語言模型既有的世界知識的完善。
下一代大模型的另一種可能是多模態,至少會以MOE的形式深度整合。
中國廠商DeepSeek已經開始這麼做了,它的DeepSeek-VL2是一個先進的大型混合專家(MoE)視覺-語言模型。OpenAI的o1完整版已經可以就圖像進行慢思考,而Google的推理模型一開始就可以接受32k token以內的圖片輸入。未來,視覺與語言的融合將越來越有機,而不是僅僅將多維的世界的資料,塞進一維的token的序列裡。
如果將大模型比作會做題的學生,智能體就是畢業生,必須學以致用。
行業對智能體的共識,貫穿2024年始終,2025年將達到高潮。幾乎所有的科技巨頭、初創企業與垂直行業,都參與其中,就像當年開發APP一樣。去年年初,吳恩達團隊基於GPT-3.5的智能體的性能,甚至超過了GPT-4。
智能體就是用來完成原本應該由人完成的任務,它最本質特徵就是會使用工具,首先從使用數位化的工具開始,進入工作流,如PC,還有任務流,如手機。程式設計是智能體進展最快的領域;Claude的computer use,以及完全體的Siri,可以初步實現像人類那樣操作PC或手機。設計與使用工具的能力,是對智能體的基準評價。首先是數字空間,然後結合物理場景。
在網際網路時代與移動網際網路時代,殺手級應用依託於網路效應;在大模型時代,AI應用的爆發與殺手級應用的誕生,很大程度上將依託於智能體使用工具的熟練程度,還有設計新工具的能力。
智能體依賴於推理模型的進步。它可以通過增加檢索和思維鏈中的反思減少大模型的“幻覺”,並且增加對“湧現”的可解釋性,但根本上更強的基礎模型是具備類似人類的慢思考與快思考結合的直覺判斷能力。它依賴於更強大的檢索增強生成,也需要更高效地從模仿學習到解耦到泛化再到湧現。
與去年將智能體嵌入工作流,拆解、分配任務並處理問題相比,基於下一代大模型的智能體,要在開放式場景中發揮更多主動性。這就要求它能夠利用的工具足夠順手,呼叫工具的方式足夠合理。
儘管智能體將首先在數位化的工作流中得到快速滲透,但推理與多模態相結合,才能讓AI與世界產生更有意義的互動。它是智能體對ChatGPT的人類與AI互動的自然延伸。納德拉將ChatGPT的成功,歸因於它是有狀態(stateful) 的工具。
有狀態,意味著工具能夠像人一樣,記住上下文,並進行動態調整,從而提供更智能和人性化的互動;而傳統搜尋儘管有搜尋歷史,但沒有更深入的狀態管理,是無狀態的。
在這個意義上,智能體的“狀態”將變得更為豐富,也更為重要,同時面臨更大的工程挑戰,尤其是多智能體協同時。李飛飛在最近一篇智能體綜述論文中表示,多模態、跨現實,將是通往通用人工智慧的智能體的新範式。
2025年,整個市場仍將處於算力飢渴的狀態。
微軟決定在2025財年投入800億美元的資本開支,xAI已經以瘋狂的速度建立起十萬張GPU卡的算力叢集,把這場競賽的巨頭級門檻,提升到千億美元資本支出和十萬卡算力叢集等級。
大模型進入推理時代,反而強化了算力邏輯。
首先,AI作為通用技術,將隨著推理模型與智能體技術的成熟,進入越來越多的行業。而且,如果AI推理解決有經濟價值的問題,能提升效率並且創造出新的需求,那麼,就會伴隨著單位算力成本下降,越便宜用得越多,推高算力的總需求量。
其次,推理模型的思維鏈,以及智能體感知環境與調度工具的中間過程,也將消耗大量終端使用者看不到的算力。任務越複雜、越廣泛,消耗的token呈數量級增加。
最後,即使最近湧現出一批更輕量和更集約的模型,要保持同等的性能,往往在基礎模型、合成資料等多個環節,額外增加算力支出。
算力經濟將會繼續繁榮下去。越有價值的推理,消耗越大量的token,價格越貴。
紅杉資本判斷,行業將從按席位收費,轉向按成果收費。但是,一旦推理模型進入市場競爭階段,誰能提供更高性價比的服務,誰將佔據上風。
因此,行業一方面將繼續通過模型框架、軟體演算法的最佳化,提升對算力的利用效率,另一方面會繼續尋找性價比最高的算力。AI晶片(GPU、ASIC、FPGA)及各種特色晶片,資料中心、資料傳輸、以及新型電力系統的投資,將會非常巨大。
2025年,Google將發佈了第七代TPU,Meta發佈了第三代MTIA,亞馬遜部署40萬張第二代Trainium並行布其第三代。蘋果也將努力補上其最後一塊硅硬體:首款伺服器AI晶片。
博通講述的定製晶片(ASIC)的邏輯,聽上去十分可信且誘人,是因為它符合大模型範式轉移,它們將會證明其正式加入科技巨頭的實力,還喊出了公司2027年面對最高900億美元的ASIC晶片的可及市場(SAM)。
與博通相似,Marvell被視為另一位潛在贏家。
推理是一個巨大的增量市場。博通與Marvell等的興起,並不意味著輝達會從頂點走下坡路。
去年年中,黃仁勳就明確表態,已經開始著手AI晶片定製業務,今年更是計畫加速從台灣挖走1000名工程師。定製晶片至少迭代三代才能成熟,輝達為推理大模型打造的B300已經發佈,總擁有成本更具性價比,算力比B200高50%,代價是200W額外功率,而算力叢集對GPU的數量要求將在十萬張的等級上膨脹,這將對資料中心的能源供應提出新的挑戰。
計算就是能源的處理形式。資料中心的供電與散熱,仍將是2025年大模型前進道路上的絆腳石,資料中心正在加速跨入吉瓦級。
美國能源部最新報告將未來三年內全國資料中心用電量,從當前全國總用電量的4%上調至最高12%。
近期,Meta也加入了Google、亞馬遜與微軟的行列。拜登政府提出了將核能規模提高兩倍的路線圖,川普也支援核能,這將是中短期內最確定的產業方向之一。與此同時,分佈式算力叢集與整個計算架構的創新也將同步演進。
推理模型和智能體,為真正出現AI殺手級應用奠定了基礎。擁有全端技術的巨頭,將主導智能體的競爭。
美國的科技巨頭擁有最龐大的現金儲備,能在算力與能源上“無限”擴展,持續獲得領先優勢,它們往往還擁有作業系統。
微軟、Google與蘋果擁有Windows、Android與iOS,Meta還在參與競爭新興的空間智能的作業系統。這決定了誰能用更好的模型做出更好的智能體。納德拉就暗示過,微軟某種程度上控制著調度的介面授權。
智能體競爭的一大焦點,是AI搜尋。
微軟的Bing、OpenAI的SearchGPT、獨角獸Perplexity將繼續挑戰搜尋霸主Google;垂直領域如法律、金融、教育、醫療等領域的大模型,都可以用作垂直AI搜尋;企業AI搜尋也將與智能體結合,當這些“有狀態的”(stateful)搜尋成為AI時代個人與企業的搜尋習慣時,傳統的搜尋將被解構。當然,所有這些也都逃不過Google的掌心。也期待中國捲出更好的搜尋。
智能體讓AI應用產生差異性,以原生和賦能的方式,在既有平台和新的領域開始產生殺手級應用。如o1解決較高難度的問題,Sonnet 3.5用來程式設計,GPT-4o用來寫文章,Gemini Flash 2.0解決長上下文問題。
許多模型/智能體具備了殺手級應用的潛質,如Sora,Project Astra,NotebookLM,Siri、Computer Use等,還有多模態AI加持的智能眼鏡、頭顯等。
有一個差別可以注意,美國的智能體之間有更好的連接及互操作生態,中國的應用仍然會更追求流量。
在AI殺手級應用方面,Google最具底氣。
從晶片、雲端運算、作業系統,到軟硬體的應用,Google能垂直提供端到端的所有技術,而且手中擁有9個10億使用者級的應用和5個數億使用者級的應用。
美國出現的差異化,將會在2025年顯著影響中國的態勢。中國也將會出現差異化,不過局面比美國顯得混沌一些,在很多方面將不同於美國的差異化。
中國的大廠中,前沿大模型的競爭力仍然需要證明。六小虎的模型能力需要盡快從探索(exploration)向利用(exploitation)轉變,智能體最起碼要具備佔據一個殺手級應用的生態位的實力,而無法實現這一點的,將會有一半左右被併購。與此同時,集約型和輕量化的模型、高性價比的智能體、豐富的應用場景,為中國AI各技術堆疊的補缺與創新帶來了機會。
大模型的範式轉移,更有利於中國企業以較高的性價比訓練和微調模型。它也讓中國企業的算力供應在國內和國際市場上有更多選擇,產生了更多晶片創新的機會。
在技術上,中國企業會在算力約束下,開闢更多元的更集約的技術路線。滿足成本約束下的性能提升,才讓衡量真實技術水平更具現實意義。
推理與智能體主導的2025年,將會在商業變現方面面臨較大的壓力。無論是大模型的API服務,還是智能體殺手級應用,都需要合適的商業模式。奧特曼稱即使是200美元/月的最高訂閱價格,都無法讓推理模型o1賺錢,更不用提目前讓o3解答一個有難度的問題,需要用掉上千美元。
這需要大模型廠商在下一代大模型的架構、演算法上繼續最佳化。最直接的方法,當然是進一步提升其內在價值。
分析機構semianalysis估算,前沿模型的毛利率達到了70%,而一旦面臨開源競爭,利潤率就會降至20%以下。但這僅僅是呼叫API的收入,更大的價值空間,在於把應用建立在自有的模型與智能體基礎之上。
智能體基礎的商業模式,它可能是免費使用的廣告,freemium中的訂閱,API服務中的token用量,以及按照解決問題的價值來定價。
2025年,智能體開始加入勞動力大軍嗎?
納德拉已經提出將減少人力支出成本而增加GPU的供應,黃仁勳已經提出售後業務增長所需要的勞動力,將主要由智能體充當;班尼奧夫(SaleForce創始人)提出了數字勞動力的概念,從人力資源部門又為AI的資本投入爭取了預算。
當這一切發生的時候,對於奧特曼們來說,是否意味著AGI的實現?
在新年與中國新年之間,一個超級智能(superintelligence)的輪廓開始閃爍,它不僅出現在伊利亞的PPT裡,也出現在奧特曼新年的反思部落格和媒體訪談中。
DeepMind早就在AGI的分級中,提到強化學習加持的人工智慧,在一些領域已經實現了遠超人類的智能,如對弈和預測及設計蛋白質。而Anthropic的聯合創始人阿莫迪,使用了一個不同的術語強大AI(powerful AI),但它的要義與超級智能有相通之處,21世紀人類需要50年到100年才能完成的科學發現,將在5年到10之實現——我們正處於一個被壓縮的21世紀。
他們似乎越來越不喜歡AGI這個概念了,其中有太多的短板短期內也無法補齊,似乎想盡快擺脫。
如果這樣的話,2025年奧特曼們可能會在一種較狹窄的定義和較初級的基準難度上聲稱實現AGI,進入一個相對收斂的但又更能解決複雜問題的超級智能的時代。 (騰訊科技)