推理模型能力的持續提升,推動大模型迎來“可用”到“好用”的拐點。推理強化和應用拓展啟動了大模型下半場的新賽程。個人智能體潛力初步顯現,行業應用漸次走深,開源開放日益成為大模型的核心競爭力組成。大算力、多模態、強推理、廣開源、准資料、智能體、深應用等,成為當前發展的重要趨勢。
DeepSeek以557萬美金的低成本訓練,給全球帶來很大震動。但這並未顛覆大模型需要大算力的底層邏輯,實際上,該模型單次訓練成本相當於國外同類模型成本的八分之一左右,尚未有數量級的差別,其意義是以更集約化的方式復現已有模型效果的工程創新。此前網路熱炒的中美大模型訓練成本的懸殊對比,其實是拿美國千億美金等級的資料中心建設、晶片購買、網路搭建、科學家薪酬等總支出,來對比DeepSeek的單次訓練成本,裹挾了較大的誇張和情緒因素。
用更大算力去探索大模型的能力上限,仍是行業共識。預計今年上半年國外將推出GPT-5、Llama 4等級大模型。美國大算力叢集建設如火如荼,馬斯克的xAI已建成全球規模最大的20萬張H100算力叢集,並在此基礎上訓練出Grok3大模型。Google今年預計投入750億美元,同比增長43%,大部分用於算力中心建設;Meta預計投入為600-650億美元,同比增長53%-66%;亞馬遜預計為1000億美元,同比增長超20%。此外,日本軟銀集團、OpenAI和美國甲骨文公司三家企業聯合開啟星際之門計畫,將在未來4年投資5000億美元,在美國建設超大型算力基礎設施。這些將推動大模型在預訓練方面的更多突破,加上現在流行的強化學習等後訓練增強,大模型能力的躍升可能會進一步加快。有不少大佬預測,AGI的實現可能就在最近的兩到三年。
高端晶片供給仍是中國下一代大模型的卡脖子問題,可能再次面臨訓練晶片供應不足的風險。雖然去年以來,中國AI高端晶片企業數量和能力均有提升,華為、燧原科技、摩爾執行緒、海光、壁仞等多家企業已設計出對標輝達A100單卡性能的國產晶片,但由於台積電暫停7nm產能供應及HBM禁令等限制,國產高端晶片的製造仍面臨挑戰。
包含了強化學習等在內的後訓練過程,把預訓練積累的模型潛力發揮了出來,模型慢思考帶來了推理能力的大幅提升。受DeepSeek效應刺激,國內外大模型公司正加速推出下一代大模型,如OpenAI的基礎大模型GPT-4.5,推理模型o3;Anthropic整合了深度思考和快速輸出的混合推理模型Claude 3.7;Google相繼發佈 Gemini 2.0和更強大的推理模型Gemini 2.5 Pro,以及xAI的Grok 3。國內騰訊混元發佈了可以秒回的強推理模型T1,將快慢思考相結合,並首次將混合Mamba架構無損應用於超大型推理模型,顯著降低了訓推成本。DeepSeek更新了一版名為DeepSeek-V3-0324的模型,在數學、程式碼類相關評測集上取得了超過 GPT-4.5 的得分成績。
多模態是人類世界的本來樣貌,大模型的發展趨勢一定是走向多模態,從單一的文字、圖像、視訊、3D,向聲、光、電,甚至分子、原子等各類模態擴展,達成對真實世界的理解和生成,原生多模態是未來方向。近期發佈的GoogleGemini 2.0 Flash可實現一句話編輯圖片,堪比專業Photoshop軟體的編輯效果; GPT4o最新推出的風格化文生圖能力火爆全網。騰訊剛開放原始碼的混元3D模型,同時支援文生3D和圖生3D,可一鍵換皮膚、一鍵變動畫,一鍵生成3D遊戲視訊。
隨著模型能力的躍遷,可以預見,更多領域將迎來“AlphaGo時刻”,即大模型在各領域的能力超過該行業90%以上,甚至最高水平的人。OpenAI的o1在在美國數學邀請賽拿到接近滿分成績,在物理、 生物和化學問題的基準測試上超越了博士水平的精準率。Anthropic 首席執行官Dario近日預言 ,未來3-6 個月 AI 將能夠編寫 90% 的程式碼。
之前行業爭執不下的開源與閉源之辨,倒向了開放原始碼的一邊。DeepSeek的火爆,一定程度上得益於開源,其採取的MIT License協議支援完全開源,不限制商用,也無需申請,讓全球開發者都有機會上手使用和評測,依靠口碑效應快速形成了全球影響力。原來堅定走閉源路線的OpenAI也被迫考慮開源,奧特曼近日公開表示,之前選取的閉源策略可能站在了歷史錯誤的一邊,同時還在社交平台公開徵集開源方案,未來要做端側的開源大模型和o3 mini等級的開源模型。
國外Meta,國內騰訊、阿里、智譜等企業很早就開啟了開源戰略。如,混元文生圖模型是業內首個中文原生的DiT架構文生圖開源模型;文生視訊大模型是當前最大的視訊開源模型,且全面開源,包含模型權重、推理程式碼、模型演算法等完整模型。國外Hunging Face等社區也成為全球大模型開發者活躍的重要平台,在Hunging Face上彙集了152萬款開源大模型,33.7萬個開放資料集。
同樣重要的還有大模型的開放協議,可以類比為網際網路興起時的HTTP協議,HTTP讓各類網頁都能以統一的格式展現在瀏覽器中,方便使用者獲取資訊。大模型的資料通訊開放協議則可以讓大模型更方便地呼叫各種工具,從而自主完成各類任務。如,近期火爆的MCP(模型上下文協議)是Anthropic於去年11月發佈的一個模型資料通訊協議,成為連通大模型和各類工具之間的橋樑。
技術對知識資訊的影響,第一次從傳播和互動環節向前延伸到生產環節。大模型知識輸出的精準度、專業度,即大模型的“可信度”,正在成為人工智慧的核心競爭指標。
大模型帶來資訊極大豐富的同時,內容中所包含的幻覺等噪聲問題也困擾著使用者。《哥倫比亞新聞評論》研究發現,美國用於新聞搜尋的生成式人工智慧模型存在嚴重的精準性問題。研究人員測試了8種具備即時搜尋功能的AI搜尋工具,發現有60%以上的新聞來源查詢錯誤。
大模型的幻覺問題,是伴隨人工智慧底層技術路徑與生俱來的,和創新能力是一體兩面的,難以僅僅依靠技術徹底解決。引入權威的圖書、雜誌、新聞資訊、論文等優質內容資料,並打造新的、“可信”的知識共識機制和供應體系,是大模型未來在生產、生活應用領域產生更大價值的關鍵所在。
OpenAI與新聞集團去年簽署了為期5年的合同,獲得了訪問該集團旗下媒體歷史內容的授權,包括《華爾街日報》《巴倫周刊》《泰晤士報》《每日電訊報》等主串流媒體,以增強大模型回答內容的可信度。
騰訊混元正在與大百科出版社、人民衛生出版社、上海辭海出版社、化工出版社等優秀的傳統出版機構開展合作,支援其推出圖書智能體,探索基於搜尋增強技術的可信大模型合作模式。如,在元寶APP應用廣場中,人衛智能體可以為使用者提供心腦血管等特定醫學知識領域的權威解答,同時提供相關書籍原文的引用,並可以引流到電子書閱讀平台,跳轉到實體書購買頁面。既能實現類似腳註尾注、文獻索引等傳統知識溯源機制的遷移,確保輸出知識的共識性、精準性,也將為出版機構和大模型平台帶來可持續共贏的模式。
未來,誰能夠接入更多可信的資料來源,建構起可信的評價和共識機制,誰就能在人機內容共創的時代獲得領先優勢。
GPT-4.5,DeepSeek V3、騰訊Turbo S等基礎大模型,OpenAI o3、DeepSeek R1、騰訊T1等推理模型的陸續發佈,標誌著基礎大模型進化到了好用的階段,推動個人應用迎來發展新起點。
過去個人應用之所以不夠豐富,核心是由於基礎大模型的能力所限,在複雜問題分析、多模態生成和理解等領域的效果還不盡如人意,使用者使用大模型時驚喜不足。而且個人應用的資料,更多是使用偏好資料,並不能反哺基礎大模型智能的提升,因此過去花錢買流量和使用者的應用也沒能構築護城河,使用者替換應用的成本較低,粘性不足。
在當前基礎大模型能力相對成熟的背景下,過去移動網際網路賴以成功的平台效應有望再次發揮作用。更多使用者使用AI應用,可以沉澱更多的優質共享知識、積累更多的使用者反饋和社互動動等,從而讓應用得以持續最佳化,並吸引更多的使用者使用,形成良性的正循環。以騰訊元寶為例,採取DeepSeek+混元雙模型引擎驅動的戰略後,使用者數直線上升, 今年2月至3月DAU(日活)增長超20倍。
中國應用領先的優勢有望進一步發揮,提效類的生產力工具日益強大,殺時間的陪伴類和文娛類應用體驗不斷最佳化。根據a16z投資機構3月發佈的全球Top 50生成式AI應用報告,中國公司的應用有11款上榜,而去年8月僅有3款產品上榜,增速明顯。AI新搜尋、文生圖/視訊工具和角色扮演應用是排名前三的熱點方向。
但同時,個人應用創新仍然面臨“苦澀的教訓”( The bitter lesson) ,即人們反覆嘗試用工程手段提升性能,最終卻總是被簡單堆算力的方式超越。大模型能力的不斷提升,會“吃掉”不少應用創新的功能,特別是工作流類的應用,更容易被大模型的新能力取代。如何在應用中加深護城河,需要更多第一性原理的思考,從而嵌入使用者決策鏈條的關鍵節點去提升價值,增加使用者的情感性認同,並通過生態協同,提升自身的不可替代性。可以說,技術迭代是矛,場景滲透是盾,生態協同是土壤,個人應用有時候要跑得快一點等大模型能力的提升,有時候又要慢一點思考大模型的演進路徑,去建構技術+場景+生態協同的“動態能力組合”。
基礎大模型能力的升級,帶來應用深度的能力解鎖。第一波以ChatGPT為代表的大模型擅長對話,催生了AI新搜尋Perplexity等應用。第二波以Claude 3.5 Sonnet為代表的大模型擅長程式設計,推動了估值百億美金的Cursor和當紅程式設計明星Devin等的火爆。第三波以Open AI o1為代表的大模型擅長深度推理,讓Agent應用成為可能。特別是隨著多模態、強化學習技術持續突破,模型的效果大幅提升、成本不斷降低,可以預見,智能體應用將加速滲透到更多垂直領域,開啟人機協作新紀元。
智能體新時代正在走來。近期國內Manus應用的火爆,讓業界對AI智能體的未來給予更多期待。無獨有偶,OpenAI的自主電腦使用智能體Operator和深度研究智能體Deep Research已開啟商業化試水,從實驗室走向大眾市場。據外媒報導,OpenAl計畫以每月2000美元的價格向“高收入知識工作者”出售低端代理;中端代理每月收1萬美元,用於軟體開發;而高端代理作為博士級研究代理,每月收費 2萬美元。據Gartner 預測,到2028年,33% 的企業軟體應用將包含代理式人工智慧,而2024年這一數字不到1%,且至少15%的日常工作決策將通過人工智慧代理自主做出。人工智慧代理市場將顯著增長,從 2024年的51億美元增長到2030年的471億美元。
Agent應用的深入,將推動Token消耗量呈百倍甚至更高量級的增長,由此帶來推理算力需求的更大爆發,並超過訓練算力需求。為提升能效比和降低成本,Google、亞馬遜、Meta、OpenAI等大型雲端運算和大模型廠商均加速佈局定製化ASIC,ASIC正逐步發展成為輝達GPU之外的重要新技術路線。摩根士丹利預計,AI ASIC市場規模將從2024年的120億美元增長至2027年的300億美元,複合增長率達34%。與此同時,Agent的廣泛使用將要求模型能處理更大規模的上下文,對模型基礎能力的提升也帶來更大挑戰。
以雲的方式,讓智能變成一種千行百業可按需呼叫的服務,將最終形成智力即服務(Intelligence as Service)的新形態。過去衡量經濟發展和數位化水平,會看用電量、用雲量,以後我們衡量智能的水平,可能要去看“用詞量”(Token)。
DeepSeek等大模型的火熱,帶來了模型效果的全面升級,激發了中國各行業擁抱大模型的新熱潮。但當前,中美企業的生成式AI應用程度存在一定差距,中國企業應用大多處於試驗階段,離規模化使用還有距離。而美國企業應用更加廣泛和深入,2024年美國企業全面實施生成式AI的比例達24%,明顯高於中國的19%。美國政府和企業普遍採用公有雲部署AI,支援AI快速迭代,超過70%的組織使用雲端AI。受此推動,美國大公司最新一季度的雲端運算收入高速增長,如微軟達到409億美元,同比增長21%;亞馬遜為287.86億美元,同比增長19%;Google119.6億美元,同比增長30%。
高性價比正在推動行業應用走深。自ChatGPT發佈兩年多來,大模型性能持續提升,推理成本顯著下降,如GPT-4o的API呼叫價格為每百萬輸出tokens 20美元,相比發佈時下降了三分之二。當前國內DeepSeek V3的每百萬Token 8元,混元多模態大模型TurboS每百萬Token低至2元。在模型能力效果大幅提升的同時,還為各行業大範圍部署提供了很高的性價比。近兩個月來,行業大模型落地成效顯著,已有政務、金融、醫療、教育、傳媒、文旅等30多個行業落地,大幅提升效率的同時,也在重構原有流程。包括深圳寶安政務、深圳醫保、上海徐匯城運中心、深圳大學、瑞金醫院、上海醫藥、重慶農商行、榮耀等公司都積極部署並探索大模型應用。以深圳寶安政務大模型應用為例,已覆蓋民生訴求、企業服務、政務辦公、社會治理等31個業務場景,覆蓋全區14個領域、20個行業近3萬餘條政府服務知識,整合了60多種模型能力,並可結合業務場景需要快速部署新的智能應用。
行業應用中,優質資料是提效護城河。行業大模型比以往任何時候都更需要行業和企業內的優質資料,因為行業應用需要更準確、專業的知識,且對幻覺零容忍。在資料治理上的投入將獲得事半功倍的效果。而這往往需要很大的投入,也被經常認為是苦活兒和累活兒,是行業落地中最容易被忽視的部分。
未來,大模型不僅在各行業縱深發展,更將通過跨領域協同、中小企業普惠、社會系統重塑等路徑,實現深度應用的立體化演進:從“場景適配”到“價值創造”,大模型從效率工具升級為業務增長引擎;從“資訊孤島”到“生態融合” ,跨領域資料的協同推動應用邊界擴展;從“企業級應用”到“社會系統重構” ,技術滲透進入深水區,引發企業和社會組織模式、就業和分配結構、社會倫理規範等全方位變革。 (騰訊研究院)