奧特曼使用大模型的方法,竟然是錯的?
來自沃頓商學院等機構的最新研究發現,備受奧特曼喜愛的“直接回答”提示,竟然會顯著降低模型精準率。
不過另一方面,這項研究也發現,在提示詞中加入思維鏈(CoT)命令同樣不好用——
CoT提示對於推理模型非但沒有效果提升,反而會增加時間和計算成本。
而一些前沿的非推理模型,CoT提示可以帶來效果提升,但答案的不穩定性也隨之增加了。
研究團隊使用GPQA Diamond資料集,針對現在主流的推理和非推理模型,分別在啟用和不啟用CoT的情況下進行了測試。
結果就是對於推理模型,CoT的作用十分有限,比如對於o3-mini,CoT帶來的精準率提升只有4.1%,但時間卻增加了80%。
非推理模型的結果則要複雜一些,但總之要不要用CoT,也需要對收益和投入進行仔細權衡。
所以CoT到底該不該用呢?
實際上,這項研究針對的是使用者提示詞中的CoT命令,並不包括系統提示詞設定,更不是CoT本身。
這項研究使用GPQA Diamond資料集作為基準測試工具,該資料集包含了研究生水平的專家推理問題。
實驗過程中,研究團隊測試了這些模型:
對於每個模型,研究團隊都設定了三種實驗環境:
為了確保結果的可靠性,每個問題在每種條件下都被測試了25次,也就是說每個模型針對同一個問題都要做出75次回答。
對於每種實驗設定,研究團隊一共統計了四個指標:
結果,對於非推理模型,CoT提升相比於直接回答,所有模型的平均評分和“51%正確”指標都有所提升。
其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其後,GPT-4o和4o-mini則提升不明顯。
但是在100%和90%正確率指標當中,相比於不推理,加入CoT提示後Gemini家族兩款模型和4o-mini的指標反而下降。
這意味著,CoT雖然從整體上提高了模型的精準率,但同時也增加了答案的不穩定性。
如果比較強制CoT和默認模式,可以看到CoT帶來的效果明顯比相對於直接回答更弱,造成這種結果的原因可能和部分模型已經內建了思維鏈相關。
而對於推理模型來說,CoT提示的效果就更有限了——
對於o3-mini和o4-mini,使用CoT提示相比要求模型直接回答提升非常少,對於Gemini 2.5 Flash更是所有指標全面下降。
例如在平均評分上,o3-mini僅提升2.9個百分點,o4-mini提升3.1個百分點。
但相比之下,消耗的時間卻是大幅增長,o4-mini大概漲了20%,o3-mini的漲幅更是超過了80%。
而效果好一些的非推理模型,時間的增加也更加明顯。
結合開頭作者打臉奧特曼的推文,可以看到模型依然是在“會思考”的時候表現最好,但是最前沿的模型當中,推理模型本就已經內建推理過程,一些非推理模型內建提示也包含了CoT相關內容,這種“思考”不再需要通過額外增加提示來實現。
所以,對於直接使用模型應用的使用者來說,默認設定就已經是一種很好的使用方式了。 (量子位)