只要幾十美元? 「低成本」小模型背後的真相…

繼DeepSeek R1以有限算力,憑藉強大演算法創新「驚豔」全球之後,大模型研發領域似乎也開始打起「價格戰」。美國史丹佛大學、加州大學柏克萊分校等機構的研究團隊,先後宣佈僅以數十美元成本,開發出性能可媲美前沿推理模型的人工智慧(AI)模型。這是否意味著大模型研發成本正逐漸下探,動輒數千億美元的研發費用將成為過去?

1月8日,在美國拉斯維加斯,人們在展區觀賞運用AI技術的新款電視 新華社發(曾慧攝)

1 低成本玩高級推理

「這是開源模型對閉源模型的勝利。」正如法國電腦科學家、圖靈獎得主楊立昆先前在個人社交媒體評價DeepSeek時所說,開源模型正不斷推進AI領域的諸多突破性進展。微調、蒸餾等建立在開源模型基礎上的低成本創新技術,似乎正在挑戰大模型的燒錢邏輯。

美國史丹佛大學和華盛頓大學的研究團隊日前宣佈研發出名為S1的模型,在衡量數學和編碼能力的測試中,表現出與OpenAI o1和DeepSeek R1等前沿推理模型不相上下的表現。

這項研究可以算是「站在巨人肩上摘果子」。根據論文,S1的核心創新在於採用了知識「蒸餾」技術和「預算強制」方法。 「蒸餾」技術就好比對別人釀好的酒進一步提純。此模型的訓練資料是基於GoogleGemini Thinking Experimental模型「蒸餾」出的僅有1000個樣本的小型資料集。

在演算法上,S1則是對阿里雲的通義千問開源模型進行監督微調,並透過「預算強制」方法,控制訓練後的模型計算量。最後,使用16個輝達H100 GPU僅進行了26分鐘的訓練便達成目標。

美國加州大學柏克萊分校研究團隊最近也開發出一款精簡的AI模型TinyZero,宣稱實現了DeepSeek R1-Zero在倒數計時和乘法任務中的復刻版。該模型透過強化學習,實現了3B(30億模型參數)的大語言模型的自我思維驗證和搜尋能力。

兩個研究團隊都以「低成本」為賣點,對外宣稱訓練成本僅數十美元。參與S1計畫的史丹佛大學研究人員尼克拉斯·米尼霍夫告訴科技媒體TechCrunch,訓練租用所需的運算資源大約只需20美元。而TinyZero團隊核心成員加州大學柏克萊分校博士潘家怡也在其個人社群媒體上發文稱,其計畫訓練成本不到30美元。

2 「低成本」小模型背後的真相

清華大學電腦系長聘副教授劉知遠接受記者採訪時說,部分海外研究團隊採用DeepSeek R1、OpenAI o1等高性能推理大模型建構、篩選高品質長思維鏈資料集,用這些資料微調小模型,可以低成本快速獲得高階推理能力。這些研究進展進一步驗證了DeepSeek R1論文中提出的觀點:利用大模型進行知識蒸餾可有效提升小模型的推理性能,這是AI前進方向的有益嘗試,但成本和整體性能都有誇張之嫌。

首先,超低成本只是局部費用。 AI智庫「快思慢想研究院」院長田豐告訴記者,幾十美元成本只是最後一環的算力成本,並沒有計算基模型的預訓練成本、資料收集加工成本,與DeepSeek、GPT o1的完整訓練周期成本不具可比性。此外,二者的成功均建立在其他成熟開源模式的微調基礎之上,而非從0到1的原始創新,底座大模型高昂的訓練成本並未被計入。這就好比蓋房子,只算了最後裝修的錢,卻沒算買地、打地基的錢。

其次,整體性能尚無法比肩成熟大模型。 TinyZero僅在簡單數學任務、程式設計及數學益智遊戲等特定任務中有良好表現,但無法適用於更複雜、更多樣化的任務場景。而S1模型也只能透過精心挑選的訓練資料,在特定測試集上超過GPT o1-preview,而遠遠沒有超過o1正式版或DeepSeek R1。在使用“預算強制”方法時,當思考的時間和內容越來越多時,S1模型還會有點“後勁不足”,性能提升不太明顯。

不過田豐認為,新研究中延長模型思考時間的方法、強迫模型反思發現答案錯誤、高品質蒸餾資料集的推理提升等探索,都對科研群體有啟發性。

以「二創」方式建構小模型的探索,也增強了AI的普惠性。這對採用基礎模型微調的二次開發企業具有現實價值,可快速根據自身實際情況微調出小模型,以更低成本將AI技術應用於業務中,推動更多領域的智慧化變革。

3 成本逐年降低是趨勢

對於AI大模型的未來進化而言,此類小微創新只能算是「靈光一現」。

劉知遠指出,就推動大模型能力邊界而言,「知識蒸餾」技術意義不大,未來仍需要探索大規模強化學習技術,以持續激發大模型在思考、反思和探索等方面的湧現能力,從而不斷探索人工智慧的科學化技術方案。

TechCrunch也刊文表示,蒸餾技術已被證明是一種以低成本重現AI模型能力的有效方法,但它並不能創造出比現有模型優越得多的全新AI模型。

目前,大模型研發成本依然高漲。 2025年,Meta、Google和微軟計畫在AI基礎設施上投入數千億美元,部分資金將用於訓練下一代AI模型。相關專家認為,要推動AI創新的前沿發展,這項規模的投資仍不可或缺。

不過,拉長時間尺度來看,大模型研發成本還是逐年降低趨勢。百度2024年宣佈,其文心大模型推理成本已降至2023年3月版本的1%,演算法訓練效率提升到原來的5.1倍,推理效能提升105倍。清華大學和面壁智慧2024年推出MiniCPM最新端側模型,只需要數十億參數便能夠實現GPT-4o水平的能力,可在手機上高效運作。於2024年9月發佈的DeepSeek V3啟動參數降低到2024年4月同水平模型LlaMA 3 405B的1/10,訓練和推理成本相應降低,而時隔不到一年後發佈的R1單任務推理成本僅為V3的40%,這均是能力密​​度持續增強的例證。

在大模型迭代過程中,存在著類似摩爾定律的現象,即大模型的能力密度正隨時間呈指數級增強。劉知遠指出,2023年以來,大模型的能力密度大約每100天翻一倍,即每過100天,只需要一半的算力和一半的參數就能實現相同的能力。未來應繼續推進計算系統的智慧化,並不斷追求更高的能力密度,並努力以更低成本——包括訓練成本和計算成本——實現大模型的高效發展。

在可預見的未來,性能強大的模型終將不被算力巨頭壟斷,而是「飛入尋常百姓家」。 (財經國家周刊)