AI 的競爭成為模型公司全端能力和創新的博弈。2000 年,美國網際網路泡沫破滅時,Google 面臨巨大的商業化壓力。當時他們搜尋引擎的流量暴漲,但離盈利還有一段距離。Google 曾嘗試把自己的技術授權給友商,以賺取微薄的 “經費”。但還是無法支撐公司的長遠發展。公司作為商業組織本質是逐利的。但有技術信仰的企業,往往會在短期利益與長期投入之間,選擇那條更難、更慢、也更燒錢的路徑。Google 沒有放棄技術。2002 年,Google 的工程師們發現,使用者在搜尋框中輸入關鍵詞,不只是為了搜尋資訊,也是在表達購買意圖。Google 將 “使用者搜尋意圖” 與 “商業廣告” 通過競價排名結合,在行業中找到了一個獨特的身位,將技術和商業化真正連接了起來。偉大的技術突破往往能帶企業打開新的市場。蘋果未止步於個人電腦,而締造出了劃時代的 iPhone;字節跳動抓住推薦演算法,才完成對資訊流的重構;OpenAI 固執地進行大模型訓練,讓演算法湧現出了智能。但過去兩年,AI 技術受困於找不到落地場景,商業化受阻。2025 年,DeepSeek 在保持成本優勢的同時,展現出接近人類的思考能力,讓 C 端使用者對 AI 的價值有了新的認知。不久後,OpenAI 的原生多模態模型 GPT-4o,展現了其對圖片內容的理解能力,讓 AI 生成 “吉卜力” 畫風的圖片引爆社交網路。AI 技術的進展帶來瞭解決以下兩大難題的可能性,讓市場重新評估 AI 的商業潛力。物理: AI 對真實世界的理解和執行能力不足。商業: 推理成本過高,限制了 AI 的大規模應用。2025 年底,百度發佈文心大模型 5.0,Google 發佈 Gemini 3,模型實現在統一原生架構下能理解圖片、看懂視訊,大模型統一原生多模態的潛力被逐步看到。技術進步也帶來商業化的可能。目前,大模型有望通過演算法層、架構層、系統層,乃至晶片側的全端最佳化,降低推理成本,提高模型效能,如 Anthropic 的 Claude 系列、Google 的 Gemini 系列、百度文心繫列。AI 行業的競爭不止在於算力、資料,也成為一個公司全端工程能力和基礎創新的綜合博弈。AI 能力正從文字生成走向原生多模態大模型還無法做到完全理解使用者的意圖,但語言模型正在進入 “收益平台期”——儘管算力、資料投入指數級增加,但大模型在預測下一個 Token 的任務上,所表現出的泛化性曲線已明顯放緩。單一文字維度的縮放路徑,無法滿足大模型智能繼續進化的目標。業界一個廣泛流傳的觀點是,大模型要理解世界。“現在的大模型達不到 AGI”,大模型理解世界,需要視覺、聽覺、語言等多種感官資訊的融合。兩點陣圖靈獎得主,楊立昆、Geoffrey Hinton 都曾提出類似的觀點。目前,多數多模態模型就像 “傳話筒”,圖像、語音等訊號需經過獨立模型解碼後再轉譯給語言模型,最終實現理解、生成。建構原生多模態大模型,可以讓模型從訓練階段起,就具備理解圖片、語音等各種模態資訊的能力。原生多模態模型就是能像人一樣,“端到端” 理解各種模態的資訊——前者訓練時只需專注處理單一模態資訊,難在保持 “傳話” 過程中不出現資訊失真的現象;後者則是在訓練時就要讓模型理解圖片、視訊、語音等資訊,但難在讓各種類型資料的意義互通。但原生多模態模型在訓推中需要處理大量多模態的資料,給架構設計、訓練過程和推理等多個層面都帶來了指數級的壓力。Google 從開始訓練 Gemini 系列,便確定原生多模態的技術路徑。但訓練資料較難統一,剛開始 Google 的模型在應用側的效果並算不突出。直到 2025 年末,Gemini 3.0 展現的多模態理解能力,讓業界重新相信了 “原生多模態”。2025 年,國內企業發佈的模型開始呈現原生多模態轉向,發佈的模型有各自的特點。階躍星辰的 Step-3 針對國產晶片頻寬進行了最佳化,降低了企業的商用成本;智譜的 GLM-4.6V 和字節的豆包大模型 1.8,都是將工具呼叫能力原生融入大模型,讓 AI 可以行動;阿里發佈的 Qwen 3-Omni 主要通過最佳化使用者互動與開源,擴大生態。百度文心大模型 5.0 則專注於模型本身,發佈了參數量達 2.4 兆的原生全模態大模型。在國內為數不多的全模態模型中,參數量最大,並在底層架構實現了文字、圖像、音訊、視訊多模態的統一。真實世界本質是跨模態的訊號流,大模型要理解世界,原生多模態是技術上的趨勢。以百度文心大模型 5.0 為例,其文字與視覺理解能力體現出的泛化性,均在 LMArena 大模型競技場相應領域的全球排行榜中,佔據前列。通過原生多模態架構,模型能捕捉到更多非語言資訊,AI 能夠像人類一樣感知現實,並通過 Agent 建立與世界更深層的連接。這也讓大模型切入具身智能、智能座艙、消費硬體等兆美金級賽道的商業場景成為可能。推理成本定義 AI 商業化拐點2024 年底,行業從 “快思考” 轉向 “慢思考”。慢思考是讓模型在回答問題之前,先模仿人類思考路徑,在後台列出完整思維鏈條,自我修正後再生成回答。慢思考模式下使用者每提一個問題,單次消耗的 token 數量都激增。OpenRouter 發佈的年度報告指出,2025 年推理任務消耗 token 的佔比不斷升高,模型專用於推理類任務的呼叫量,佔 token 消耗總額的超 50% 。使用者規模擴大後,模型廠商需為使用者消耗的 token 支付高額的成本。能否降低推理成本,成為 AI 走向商業化的關鍵。2025 年初,DeepSeek 憑藉 MLA 架構和精細化的 MoE 設計,顯著降低大模型計算消耗的同時,提高了模型的性能,被行業視為 “效率標竿”。但 DeepSeek 只是語言模型。語言模型的降本經驗並不能直接平移到多模態領域。GPT-5、Gemini 3、豆包 1.8、文心 5.0 等原生多模態模型,需要處理視覺和音訊流,其對訓練算力的需求是純文字模型的 5 到 10 倍,推理過程也更加複雜。GPT-4o 訓練投入超 1000 PFlop/s-day,大約相當於數千台頂級 GPU 滿負荷運行數周。原生多模態模型若要實現 DeepSeek 式的降本,僅靠模型層面的演算法創新是不夠的。以文心 5.0 為例,依託飛槳深度學習框架進行大規模 MoE 模型訓練,模型預訓練性能較基線提速 230%,啟動參數比低至 3%。在國產晶片替代的大背景下,大模型降本需要同時掌握晶片、框架、模型和應用四個層面的自主權,對企業全端系統工程能力提出了更高的要求。目前國內具備這種閉環能力的只有百度和華為。當推理成本降低,模型可以在後台持續完成自我博弈、工具呼叫和邏輯反思,以 Manus 為代表的通用 Agent 就能實現在網頁間穿梭,完成報表分析。這不光重塑了軟體,也驅動模型能力從 “雲端” 向 “端側” 下沉。原本昂貴的 AI 被嘗試融合進 AI 眼鏡、智能座艙和手機 OS 中。顯然,AI 的下半場不再只是比拚模型規模,而是比 “誰能以更低的成本提供更深的智能”。在這場效率革命中,降本不是目的,而是手段。誰是 AI 時代下一個 “超級入口”?2000 年,百度也憑藉自身技術,為搜狐、新浪、網易等入口網站提供搜尋方面的支援。彼時,這些入口網站雖然擁有龐大的搜尋流量,但 “搜尋” 卻僅被其視為一個附屬的功能模組,沒進行深度最佳化。2001 年,李彥宏力排眾議要推出自己的入口網站,以搜尋引擎為核心的入口 “百度”(Baidu.com)應運而生。百度憑藉超鏈分析技術和精準的中文分詞,從入口網站的索引中脫穎而出。那時,百度的成功在於解決了 “搜得準” 的問題。百度成為了最初的 “平台級入口”。時間回到 2025 年,AI 技術讓 “超級入口” 的邏輯發生了質變,下一代超級入口正從 “匯聚流量的 app” 轉向 “多模態的智能助手”。在 “超級入口” 之爭上,國內能與大廠競爭的創業公司屈指可數。大廠不會放棄任何一種擴張的可能。字節跳動、阿里、騰訊與百度正依託各自的生態,搶佔 “平台級入口” 這一高地。12 月 1 日,字節發佈和中興努比亞合作開發的豆包手機助手,試圖重塑人機互動的底層邏輯。使用者僅通過語音互動,就可以讓豆包手機助手直接接管使用者螢幕。同期,阿里調動整個集團資源,打造 AI 時代的超級助手。阿里成立千問 C 端事業群,將之前阿里雲事業部下通義千問 APP 改名 “千問 APP” 發佈,以 “一周一更新” 的速度迭代。近日,千問 APP 已接入高德地圖,未來阿里或把夸克、UC、天貓精靈等功能也整合進千問 APP。百度基於搜尋,也上線了百度文心助手,對標 Gemini 3,競爭超級入口。百度搜尋全面升級文心助手 AIGC 創作能力,支援 AI 圖片、AI 視訊、AI 音樂、AI 播客等多種模態創作。從硬體佈局的演進趨勢來看,百度可以依託文心 5.0 大模型的技術底座,通過蘿蔔快跑接管物理空間,用小度佔據家庭互動入口,讓資訊實現從虛擬空間向真實空間的滲透。幾周前,Google 將 Gemini 3 嵌入核心搜尋業務,通過跨應用的資料調取,即時生成能與使用者互動的 UI 頁面,向使用者直接交付搜尋結果。Google 通過自研 AI 晶片和 Google Cloud 支援大模型訓練、推理,訓練出的先進的模型又能與自身搜尋、雲盤、Android 生態等入口融合,繼續產生相應領域的高品質資料,持續推動智能升級。有行業人士認為,Google 已形成 “算力-模型-資料-應用” 的系統級飛輪,而百度是中國為數不多能與 Google 對標的 “AI 六邊形戰士”。因為下個時代的 AI 競爭的不止是模型能力,而是演進為全端式的系統競爭,比拚的是誰能完成 “算力—系統—模型—入口—資源—行動能力” 六個層面的閉環。他們認為,百度依託崑崙芯、智能雲作為算力與系統底座,以文心大模型作為能力中樞,連結搜尋、網盤、小度等流量入口,並通過搜尋、地圖與自動駕駛等業務將能力落地到現實世界,形成了六大要素閉環,是國內最接近 “AI 六邊形戰士” 形態的公司之一,具備長期演進的系統飛輪能力。圖源網路水面之下,騰訊同樣暗流湧動。12 月下旬,騰訊新成立 AI Infra 部、AI Data 部、資料計算平台部,27 歲的前 OpenAI 研究員姚順雨出任 “CEO / 總裁辦公室” 首席 AI 科學家。過去數月裡,騰訊也以加倍薪資挖角 AI 人才,強化研發體系。在生成式人工智慧的第一波流量交鋒中,有的公司水漲船高,有的公司陷入沉靜。但在喧囂之下,堅守 “技術信仰” 的企業,正在等待那個規則被重新定義的時刻。 (晚點LatePost)