大模型瘋狂擴容兩年後，研究人員發現方向不對

2026/06/09

•

過去兩年，AI行業有一個幾乎沒人懷疑的共識：模型越大越強。

從GPT到Claude，從Gemini到各種開源模型，整個行業都在圍繞同一個方向瘋狂投入。參數越來越多，上下文窗口越來越長，訓練資料越來越龐大。誰擁有更多算力，誰就被認為更接近真正的人工智慧。

但最近，一項研究卻讓不少開發者開始重新思考這個問題。

一個只有200億參數的開源搜尋Agent，在關鍵測試中超過了GPT-5.4以及多個主流系統。更有意思的是，研究團隊認為他們獲勝的原因，並不是模型更聰明，而是給AI換了一種工作方式。

這聽起來有些反常識。畢竟過去幾年，整個行業都在拚命給AI換更大的“大腦”。而現在，卻有人告訴大家，也許問題根本不在大腦本身。

事實上，如果仔細觀察過去一年的Agent應用，你會發現一個很奇怪的現象。

當任務簡單時，AI往往表現不錯。寫封郵件、總結一篇文章、查詢一個問題，大多數模型都能完成得相當漂亮。

但一旦任務變複雜，問題就開始出現。

比如讓AI連續搜尋幾十個網頁、分析大量文件、交叉驗證多個資訊來源，最後形成一份完整報告。任務進行到一半時，它常常會忘記自己最初在尋找什麼。

有時遺漏關鍵證據。有時忽略已經找到的重要資訊。

有時甚至會重複做同樣的工作。很多企業在部署Agent時都遇到過類似情況。任務越長，AI越容易迷路。開發者們甚至專門給這種現象起了個名字——搜尋失憶症。

面對這個問題，行業最自然的反應是什麼？增加記憶。讓模型記住更多東西。

於是過去兩年，大模型廠商幾乎都在擴大上下文窗口。十萬Token不夠，那就百萬Token。百萬不夠，那就繼續增加。

大家都認為，只要記憶足夠大，問題自然會消失。然而Harness-1團隊認為，這種思路可能從一開始就偏離了方向。

AI為什麼總是失憶？

研究團隊舉了一個非常容易理解的例子。假設你聘請了一位世界頂級研究員。

然後把他關進一個空房間。沒有辦公桌。沒有筆記本。沒有便簽紙。沒有檔案櫃。

接著要求他連續閱讀幾十本書，同時記錄所有資料來源、所有引用資訊以及全部推理過程。剛開始或許還能應付。但隨著資訊不斷增加，再聰明的人也會開始混亂。問題不是能力不夠。而是工作環境出了問題。

研究團隊認為，如今很多AI系統其實正處於類似狀態。

它們不僅負責思考。還負責記憶。負責記錄。負責整理。負責驗證。負責保存證據鏈。所有事情全部堆在同一個上下文窗口裡。隨著任務越來越複雜，模型的認知負擔也越來越重。最終導致性能下降。

從這個角度看，AI的很多問題其實不是因為不夠聰明，而是因為工作方式過於低效。

現實中的優秀研究人員從來不會把所有東西都記在腦子裡。

他們會建立筆記系統。會使用參考文獻管理工具。會整理檔案。會記錄研究進展。這些工具並不會讓他們變笨。

恰恰相反，正因為有這些工具存在，他們才能把精力集中在真正重要的分析和判斷上。

而這正是Harness-1想做的事情。

問題可能出在辦公環境

Harness-1採用了一種被稱為“狀態外接”的架構。簡單來說，就是把大量原本需要模型自己記住的內容交給外部環境管理。

搜尋歷史由系統記錄。候選文件由系統保存。證據鏈由系統維護。驗證過程由系統跟蹤。模型本身則專注於分析、推理和決策。

聽起來像是給AI配了一套辦公系統。而不是單純擴大它的大腦。這種變化看似簡單，卻帶來了明顯效果。過去的Agent更像一個被要求同時負責思考、記錄、整理和歸檔的員工。

而Harness-1則把這些輔助工作交給了專門工具。模型終於可以專注於自己最擅長的事情。

研究團隊發現，當認知負擔被釋放後，即使模型規模不大，也能展現出更強的穩定性和更高的資訊召回率。這讓很多開發者開始重新思考。

過去幾年，行業是否過於迷信模型規模了？

也許不斷增加參數，並不是解決所有問題的萬能答案。更好的工作環境，同樣能夠顯著提升能力。事實上，這種思路並不只存在於AI領域。在人類社會裡，生產力的提升很多時候也來自工具進步，而不是人類突然變聰明。

計算器讓數學運算變得容易。搜尋引擎讓知識獲取變得簡單。辦公軟體讓複雜協作成為可能。人類並沒有因此變得更聰明。但工作效率卻大幅提高。Harness-1試圖證明，AI也許正在經歷類似階段。

參數大戰可能要變天了

更令人意外的是，這套系統並沒有使用海量訓練資料。

過去幾年，行業形成了另一種共識：想獲得更強能力，就必須投入更多訓練資料。於是動輒數百萬、數千萬甚至數億條樣本成為常態。而Harness-1的訓練規模卻小得驚人。整個監督微調階段只使用了不到一千條高品質訓練軌跡。

隨後強化學習階段增加了三千多項任務。全部訓練資料加起來僅四千多條。放在如今的大模型世界裡，這幾乎算得上“節儉”。然而最終結果卻證明，訓練資料的絕對數量並不一定決定最終效果。

更合理的架構設計，同樣能夠帶來巨大提升。這也是越來越多研究人員開始關注Agent系統設計的原因。

過去大家關注的是模型本身。未來大家關注的可能是模型如何工作。過去競爭的是參數規模。未來競爭的可能是工作流設計。過去討論的是誰擁有最大的上下文窗口。

未來討論的或許是誰擁有最好的認知框架。對於企業來說，這種變化尤其重要。因為更大的模型意味著更高成本。更長的上下文意味著更高開銷。

而更高效的工作環境，則意味著更低的部署成本和更穩定的運行效果。

從商業角度看，這甚至可能比模型本身的突破更有價值。當然，現在還沒人能確定這是否會成為行業未來的主流方向。但有一點已經越來越明顯。

AI行業正在從單純追求“大腦更大”，逐漸轉向思考“如何讓大腦工作得更好”。

這或許也是過去兩年AI發展過程中最重要的變化之一。因為真正決定未來競爭格局的，未必是誰擁有最大的模型。而是誰能夠為AI打造最好的工作環境。

如果這個方向最終被證明正確，那麼過去幾年轟轟烈烈的參數大戰，也許只是整個AI時代的第一階段。

下一階段的競爭，才剛剛開始。 (AI在想啥)