谷歌推出首款混合推理模型,思考程度可控,實現“按需付費”


(資料來源:MIT Technology Review)


自2019 年起,讓AI 模型變得更強大的方法層出不窮。一種是使用更多訓練數據,擴大模型規模;另一種則是針對什麼是優質答案給予更精準的回饋。而在去年年底,Google和其他人工智慧公司開始採用第三種方法——推理。

近日,Google發布首個混合推理模型Gemini 2.5 Flash,該版本以Gemini 2.0 Flash 為基礎,在推理能力方面進行了重大升級,同時兼顧了速度和成本。

該模型引入了谷歌所謂的「思考預算」機制,允許開發人員指定在生成回應之前應分配多少運算能力用於推理複雜問題。有效解決了當今人工智慧市場的一個根本矛盾:更複雜的推理通常以更高的延遲和更高的價格為代價。

使用Gemini 2.5 Flash 時,開發者每百萬token 的輸入成本為0.15 美元。輸出成本則根據推理設定而有顯著差異:關閉思考功能時每百萬token 為0.60 美元,而啟用推理功能時則每百萬token 為3.50 美元。

推理輸出的近六倍價格差異反映了「思考」過程的計算強度,其中模型在產生回應之前會評估多種潛在路徑和考慮因素。思考預算可以從0 調整到24,576 個token,作為最大限製而非固定分配。據Google稱,該模型會根據任務的複雜性智慧地確定使用多少思考預算,從而在不需要複雜推理時節省資源。

谷歌聲稱,Gemini 2.5 Flash 在關鍵基準測試中展現出極具競爭力的性能,同時保持了比其他同類產品更小的模型規模。在「人類最後一次考試」(一項旨在評估推理和知識的嚴格測試)中,2.5 Flash 的得分為12.1%,優於Anthropic 的Claude 3.7 Sonnet(8.9%)和DeepSeek R1(8.6%),但略低於OpenAI 近期推出的o4-mini(14.3%)。此模型在知識問答(GPQA)和數學(AIME 2025/2024)等技術基準上也取得了優異的成績。

DeepMind 首席研究科學家Jack Rae 表示:「我們一直在推動模型思考。」這類模型旨在透過邏輯推理解決問題,為得出答案會花費更多時間。隨著DeepSeek R1 模型在今年早些時候推出,推理模型受到了廣泛關注。它們對人工智慧公司頗具吸引力,因為透過訓練現有模型以務實方式解決問題,能提升現有模型效能,公司也就不需要從頭開始建立新模型。

當AI 模型在查詢上投入更多時間和精力時,運行成本也會更高。推理模型排行榜顯示,完成一項任務的成本可能高達200 美元。人們期望這些額外投入的時間和資金,能幫助推理模型更好地應對諸如程式碼分析、從大量文件中收集資訊等具有挑戰性的任務。

Google DeepMind 技術長Koray Kavukcuoglu 認為:「對某些假設和想法思考得越深入,模型就越有可能找到正確答案。」但事實並非總是如此。 Gemini 產品團隊負責人Tulsee Doshi 指出,模型確實有過度思考的問題,他特別提到了Gemini Flash 2.5。這次發布的模型中包含一個滑塊,開發人員可透過它調節模型的思考程度。

模型在一個問題上耗時過長,不僅會增加開發人員的運作成本,還會加重人工智慧的環境負擔。 Hugging Face 的工程師Nathan Habib 對推理模型的廣泛應用進行了研究,他表示過度思考的現象十分普遍。他指出,在急於展示更聰明的人工智慧的熱潮中,企業們不管什麼情況都想用推理模型,就像手裡拿著錘子,看什麼都像釘子。實際上,OpenAI 在2 月宣布推出新模型時表示,這將是該公司最後一個非推理模型。

Habib 稱,對於某些任務,推理模型的性能提升“有目共睹”,但對許多其他人工智慧的普通用戶而言並非如此。即便將推理應用於適當的問題,也可能出現狀況。他提到一個例子,一個領先的推理模型在處理有機化學問題時,一開始表現尚可,但推理過程中卻突然「崩潰」:不斷重複「等等,但是…」。最終,它在這項任務上花費的時間遠遠超出非推理模型。在DeepMind 負責評估雙子座模型的Kate Olszewska 也表示,Google的模型同樣可能陷入循環。

谷歌推出的新「推理」滑桿就是為了解決這個問題。目前,該功能並非針對Gemini 的消費者版本,而是供開發應用程式的開發人員使用。開發人員可以為模型處理某個問題時設定運算能力預算,如果某項任務不需要太多推理,就可以調低「思考程度」。開啟推理功能後,模型的輸出成本大約會提高6 倍。

設定這種彈性的另一個原因是,目前還難以確定何時需要更多推理才能得到更好的答案。 Jack Rae 表示:“很難界定什麼樣的任務最適合深度思考。”像編碼(開發人員可能會將數百行代碼粘貼到模型中尋求幫助)、生成專業研究報告這類任務,很明顯需要深度思考,開發人員可能會調高“思考程度”,並認為為此付出的成本是值得的。不過,還需要進行更多測試並收集開發人員的回饋,才能確定在那些情況下中低「思考程度」的設定就足夠了。

Habib 表示,對推理模型的巨額投資表明,提升模型表現的傳統模式正在改變。他說:「規模定律正在被取代。」如今,企業們更傾向於認為,讓模型思考更長時間,比單純擴大模型規模能帶來更好的效果。多年來,人工智慧公司在推理(即模型實際生成答案時)上的投入明顯高於模型訓練,隨著推理模型的興起,這筆支出還會加速成長。同時,推理過程產生的碳排放量也越來越多。

即便推理模型持續佔據主導地位,Google也並非一枝獨秀。去年12 月和今年1 月,DeepSeek 發布的成果引發股市市值下跌,因為它宣稱能以較低成本打造強大的推理模型。該模型被稱為「開放權重」模型,也就是說,其內部設定(即權重)是公開的,開發人員無需付費使用Google或OpenAI 的專有模型,就能自行運作。

那麼,既然像DeepSeek 這樣的開放模式表現如此出色,為什麼還有人選擇使用Google的專有模型呢? Kavukcuoglu 表示,在編碼、數學和金融領域,人們對模型的準確性和精確性要求極高,期望模型能理解複雜情況。他認為,無論是否開源,只要能滿足這些要求的模型就能脫穎而出。在DeepMind 看來,這種推理將成為未來人工智慧模型的基礎,這些模型將代表你採取行動,為你解決問題。

他還提到:“推理是構建智能的關鍵能力。模型開始推理的那一刻,就具備了一定的自主性。”(麻省理工科技評論APP)