隨著推理模式日益複雜,完成任務所需的token數量正在暴漲,導致實際成本不降反升。業界正從單純追求模型能力上限轉向追求計算效率。目前,“混合推理”已成為行業共識,目的是要讓模型學會判斷何時需要“深度思考”,何時只需“快速響應”。
在AI大模型的激烈競賽中,衡量標準正悄然改變。
從美團最新開放原始碼的龍貓大模型,到OpenAI下一代旗艦GPT-5和明星創業公司DeepSeek的新品,頂尖玩家們不約而同地將目光投向了“混合推理”與“自適應計算”,標誌著AI行業的發展重點正從“更高、更強”轉向“更聰明、更經濟”。
美團近日開放原始碼的“龍貓”(LongCat-Flash)憑藉創新的架構,在性能比肩業界頂尖水平的同時,實現了驚人的算力節省。
華爾街見聞此前提及,LongCat-Flash最具創新性的設計之一是 “零計算”專家機制,該機制能智能識別輸入內容中的非關鍵部分,如常見的詞語和標點符號,並將其交由一個不進行複雜運算的特殊“專家”處理,從而直接返回輸入,極大地節省了算力。
此舉並非孤立的技術炫技,而是對當前行業痛點的精準回應——隨著推理模式變得更加複雜,AI應用的成本正在快速上升。
業界的應對策略正在聚焦到一個共同方向:混合推理模式。這種模式讓AI系統能夠根據問題複雜度自動選擇合適的計算資源配置,避免在簡單任務上浪費昂貴的算力。
美團對效率的極致追求,恰恰反映了整個AI行業正面臨的嚴峻挑戰。
據機器之心,前段時間,TextQL聯合創始人兼CEO丁一帆(Ethan Ding)就指出了一個反直覺的現象 —— 明明Token的成本一直在下降,但各家模型公司的訂閱費卻在飛漲。
丁一帆認為,問題的癥結在於,那些降價的模型大部分不是SOTA模型,而人類在認知上的貪婪決定了,大部分人只想要“最強大腦”,所以99%的需求會轉向SOTA。而最強模型的價格始終差不多。
簡單來說就是,雖然單個token的價格在下降,但完成複雜任務所需的token數量正在以前所未有的速度增長。
例如,一次基礎的聊天問答可能僅消耗幾百個token,但一項複雜的程式碼編寫或法律檔案分析任務,可能需要消耗數十萬甚至上百萬個token。
AI初創公司T3 Chat的首席執行官Theo Browne也曾表示:
“爭奪最智能模型的競賽,已經演變成了爭奪最昂貴模型的競賽。”
這種成本壓力已傳導至應用層公司。據媒體報導,生產力軟體公司Notion的利潤率因此下降了約10個百分點。一些AI程式設計輔助工具的初創公司,如Cursor和Replit,也不得不調整定價策略,引發了部分使用者的抱怨。
為破解成本困局,“混合推理”或稱“自適應計算”已成為行業共識。
各大模型廠商雖然路徑不一,但目標高度一致:讓模型學會判斷何時需要“深度思考”,何時只需“快速響應”。
OpenAI的GPT-5採用“路由器”機制,根據問題複雜程度自動選擇合適的模型處理。舉例來說,對於如“天空為什麼是藍色”的簡單問題,GPT-5會直接將其交給輕量級模型,複雜任務則呼叫高算力模型。
根據OpenAI內部評測,GPT-5使用思考模式能以比前代模型少50-80%的輸出token完成任務,達到相同或更好的效果。該系統通過使用者行為、偏好反饋和正確率等真實訊號持續訓練路由機制,隨時間不斷改進。
DeepSeek的V3.1版本則更進一步,將對話和推理能力合併到單一模型中,推出了單模型雙模式架構。開發者和使用者可以通過特定標記或按鈕,在“思考”與“非思考”模式間切換。
官方資料顯示,其思考模式能在消耗減少25-50% token的情況下,達到與前代模型相當的答案質量,為企業提供了一個高性價比的開源選擇。
目前,這一趨勢已成為行業主流。從Anthropic的Claude系列、Google的Gemini系列,到國內的阿里Qwen、快手KwaiCoder、字節豆包以及智譜GLM等,幾乎所有頭部玩家都在探索自己的混合推理方案,試圖在性能與成本之間找到最佳平衡點。
有分析指出,混合推理的下一個前沿將是更智能的“自我調節”——讓AI模型能夠精準地自我評估任務難度,並在無人干預的情況下,以最低的計算代價,在最恰當的時機啟動深度思考。 (硬AI)