#精準率
奧特曼ChatGPT用法錯了!最新研究:要求“直接回答”降低精準率,思維鏈提示作用也在下降
奧特曼使用大模型的方法,竟然是錯的?來自沃頓商學院等機構的最新研究發現,備受奧特曼喜愛的“直接回答”提示,竟然會顯著降低模型精準率。不過另一方面,這項研究也發現,在提示詞中加入思維鏈(CoT)命令同樣不好用——CoT提示對於推理模型非但沒有效果提升,反而會增加時間和計算成本。而一些前沿的非推理模型,CoT提示可以帶來效果提升,但答案的不穩定性也隨之增加了。研究團隊使用GPQA Diamond資料集,針對現在主流的推理和非推理模型,分別在啟用和不啟用CoT的情況下進行了測試。結果就是對於推理模型,CoT的作用十分有限,比如對於o3-mini,CoT帶來的精準率提升只有4.1%,但時間卻增加了80%。非推理模型的結果則要複雜一些,但總之要不要用CoT,也需要對收益和投入進行仔細權衡。所以CoT到底該不該用呢?實際上,這項研究針對的是使用者提示詞中的CoT命令,並不包括系統提示詞設定,更不是CoT本身。CoT提示詞作用有限,甚至還有反效果這項研究使用GPQA Diamond資料集作為基準測試工具,該資料集包含了研究生水平的專家推理問題。實驗過程中,研究團隊測試了這些模型:推理模型:o4-mini、o3-mini、Gemini 2.5 Flash非推理模型:Claude 3.5 Sonnet 3.5 、Gemini 2.0 Flash 、GPT-4o-mini、GPT-4o 、Gemini Pro 1.5對於每個模型,研究團隊都設定了三種實驗環境:強制推理:指示模型在提供答案前逐步思考(Think step by step);直接回答:明確指示模型不要進行任何解釋或思考,只提供答案;默認:不提供任何特定的後綴指令,讓模型自行選擇如何回答問題。為了確保結果的可靠性,每個問題在每種條件下都被測試了25次,也就是說每個模型針對同一個問題都要做出75次回答。對於每種實驗設定,研究團隊一共統計了四個指標:100%正確率:同一個問題的25次試驗中全部答對才算一次“成功”,“成功”次數除以題目數量即為100%正確率;90%正確率:25次試驗中至少要答對23次,接近人類可接受的錯誤率;51%正確率:採用簡單多數原則,25次試驗中答對至少13次就被認為是成功的;平均評分:將正確答案直接計數,然後除以總試驗次數,也就是總的正確率。結果,對於非推理模型,CoT提升相比於直接回答,所有模型的平均評分和“51%正確”指標都有所提升。其中Gemini Flash 2.0的提升最為顯著,Claude 3.5 Sonnet緊隨其後,GPT-4o和4o-mini則提升不明顯。但是在100%和90%正確率指標當中,相比於不推理,加入CoT提示後Gemini家族兩款模型和4o-mini的指標反而下降。這意味著,CoT雖然從整體上提高了模型的精準率,但同時也增加了答案的不穩定性。如果比較強制CoT和默認模式,可以看到CoT帶來的效果明顯比相對於直接回答更弱,造成這種結果的原因可能和部分模型已經內建了思維鏈相關。而對於推理模型來說,CoT提示的效果就更有限了——對於o3-mini和o4-mini,使用CoT提示相比要求模型直接回答提升非常少,對於Gemini 2.5 Flash更是所有指標全面下降。例如在平均評分上,o3-mini僅提升2.9個百分點,o4-mini提升3.1個百分點。但相比之下,消耗的時間卻是大幅增長,o4-mini大概漲了20%,o3-mini的漲幅更是超過了80%。而效果好一些的非推理模型,時間的增加也更加明顯。結合開頭作者打臉奧特曼的推文,可以看到模型依然是在“會思考”的時候表現最好,但是最前沿的模型當中,推理模型本就已經內建推理過程,一些非推理模型內建提示也包含了CoT相關內容,這種“思考”不再需要通過額外增加提示來實現。所以,對於直接使用模型應用的使用者來說,默認設定就已經是一種很好的使用方式了。 (量子位)
首個基因推理AI 橫空出世!精準率飆至97%,徹底改變基因組學研究
基因組學的「黑盒」終於被撬開了!來自多倫多大學、向量研究院等頂尖機構的研究團隊剛剛發佈了BioReason,這是全球首個能對基因組進行推理的AI模型。這不是簡單的預測,而是真正的生物學推理——就像一個經驗豐富的基因組學專家,能一步步解釋基因變異如何導致疾病。最令人振奮的是,BioReason將精準率直接從88%飆升到97%!DNA遇上大語言模型的革命性融合BioReason的核心創新在於首次將DNA基礎模型(Evo2)與大語言模型(Qwen3)深度融合。融合的技術原理,簡單來說就是:DNA序列 → 嵌入向量 → 多模態LLM輸入具體來說,DNA基礎模型Evo2首先將輸入的基因序列轉化為上下文化的嵌入表示,這些嵌入向量捕獲了DNA序列的生物學特徵。隨後,這些DNA嵌入與使用者的文字查詢嵌入一起,通過特殊的標記(如<dna_start>和<dna_end>)整合進入大語言模型的輸入層。訓練方法採用了監督微調(SFT)結合GRPO強化學習的兩階段策略。該方法讓模型不僅學會預測,更重要的是學會了如何進行多步驟的生物學推理。Adibvafa Fallahpour(@adibvafa)解釋道:BioReason將DNA基礎模型(Evo2)與LLM(Qwen3)整合用於生物推理。DNA序列 → 嵌入 → 多模態LLM輸入通過監督微調 + GRPO強化學習進行訓練碾壓式的性能提升背後的秘密在多個基準測試上,BioReason展現出了驚人的性能:具體資料令人印象深刻:疾病通路預測準確率:從88%提升到97%變異效應預測準確率:達到80-88%相比DNA單模態或LLM單模態模型:平均性能提升超過15%這些測試基於87,000多個來自ClinVar和KEGG通路的真實基因組變異,確保了結果的可靠性和實用性。透明推理:不再是「黑盒」的AIBioReason最大的突破在於可解釋性。傳統的DNA分析模型就像一個黑盒——輸入序列,輸出預測,中間過程完全不透明。而BioReason能夠逐步解釋基因組變異如何通過分子通路導致疾病。Adibvafa強調:是什麼讓這個特別?逐步的生物學推理!BioReason不僅僅是預測——它解釋了基因組變異如何通過分子通路導致疾病。不再是「黑盒」基因組學AI。舉個具體例子:當查詢PFN1基因在17號染色體上的某個等位基因變異時,給定通路背景「Actin(單體) // PFN1* // Actin(絲狀)」,BioReason不僅正確預測了會導致肌萎縮性側索硬化症(ALS),更重要的是生成了一個10步的機制解釋:識別PFN1基因中的C>G特定替換連接到profilin-1蛋白功能障礙解釋肌動蛋白動力學受損如何影響細胞骨架完整性闡述運動神經元軸突運輸的後續破壞最終導致ALS特徵性的運動神經元變性這種透明的推理過程讓科學家能夠驗證AI的判斷,也為新的科學發現提供了線索。精心建構的三巨量資料集研究團隊為此建構了三個專門的生物推理資料集:KEGG衍生的生物推理資料集(1,449個條目):闡明遺傳變異與疾病表型之間的機制聯絡,包含37種獨特疾病編碼序列的變異效應預測資料集(50,083個條目):專注於致病性/良性分類編碼非SNV資料集(36,088個條目):涵蓋插入、缺失等更複雜的變異類型Adibvafa介紹:我們策劃了3個生物推理資料集:1,449個帶推理軌跡的KEGG通路變異50K+來自ClinVar/gnomAD的編碼序列變異36K+帶疾病標註的非SNV變異每個都設計用於測試多步基因組推理能力。KEGG資料集使用標準化的符號表示法來表示分子網路,包括啟動、抑制和調控相互作用,而VEP資料集則專注於跨越不同基因組變異的致病性/良性分類和疾病表型預測。技術實現的關鍵細節Andrew White 🐦‍⬛(@andrewwhite01)注意到一個有趣的細節:所以RL實際上比僅僅SFT更差?Adibvafa(@adibvafa)回應道:很難比較。在同一模型上的RL略微提高了性能,但我們仍在更大的模型上運行RL以進行公平比較。敬請關注!雖然在同一模型上強化學習只帶來了輕微改進,但團隊正在更大規模的模型上進行RL實驗,期待能有更公平的比較結果。學術界的反響與討論Anshul Kundaje(@anshulkundaje)在肯定創新的同時也提出了建設性意見:真的很有創意的框架,有很大的潛力。但當你只與自己模型的消融研究比較時,我可能會避免聲稱「碾壓基準」。請將你的基準擴展到當前用於編碼變異效應優先順序排序的SOTA方法。Adibvafa 也是積極回應:當然,我們正在積極努力加入更多DNA基礎模型和變異效應預測的SOTA模型。這種評估的一個挑戰是這些模型之間訓練資料集的差異,這使得比較不太可靠。這就是為什麼我們使用Evo2作為SOTA VEP模型,但絕對願意在我們的任務上運行其他模型以進行更好的比較。不同模型的訓練資料集差異使得比較變得複雜,這也是為什麼團隊選擇Evo2作為SOTA VEP模型的原因。開源社區響應熱烈Hugging Face的CEO clem 🤗(@ClementDelangue)表達了濃厚興趣:非常非常酷!有機會考慮在HF上發佈一個space或模型嗎?Adibvafa回應:實際上我們正在努力,因為DNA-LLM是一個帶有自訂分詞器的自訂類!很快會開一個PR,希望我們能一起完成它Clémentine Fourrier 🍊(@clefourrier)也加入討論:@cgeorgiaw正在負責我們所有的科學ML計畫,如果你需要幫助的話:)BioReason 或將很快就在Hugging Face平台上線,這將大大方便研究社區的使用。應用前景Ha Hoang(@HaHoang411)提出了一個很好的類比:這很有趣。據我理解,它類似於當前的VLM?不是視覺投影,我們是從EVO2投影生物學?這個理解非常準確——就像視覺語言模型(VLM)處理圖像一樣,BioReason處理的是DNA序列,只是投影的是生物學資訊而非視覺資訊。Oboe(@oboelabs)指出了一個重要應用:bioreason的一個潛在用途是通過分析個體基因組譜來幫助個性化癌症治療並預測治療結果Adibvafa確認:BioReason的通用學習框架允許學習任何語言-DNA理解,只要有好的資料!這也表明BioReason的框架具有很強的通用性,只要有好的資料,就能學習任何語言-DNA理解任務。從變異分析到藥物發現的廣闊前景這項突破的意義遠不止於學術研究。Adibvafa總結道:這可以通過使基因組AI可解釋和可操作來改變生物發現。從變異分析到藥物發現——透明的推理是未來!當然,我們才剛剛開始。研究團隊的跨機構合作也值得關注,Adibvafa感謝了整個團隊:🙏 感謝我們了不起的團隊:Adibvafa Fallahpour (@adibvafa) Andrew Magnuson (@ajwmagnuson), Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah (@arnavshah0), Haonan Duan, Omar Ibrahim, Hani Goodarzi (@genophoria), Chris J. Maddison (@cjmaddison)📷 跨機構合作:多倫多大學(@UofT)、向量研究院(@VectorInst)、大學健康網路(@UHN)、Arc研究所(@arcinstitute)、Cohere(@cohere)、Google DeepMind(@GoogleDeepMind)社區反響各界人士紛紛表達了對這項突破的看法。DG.(@dataghees)簡潔評價:這太棒了!moonswing(@computbiol):非常酷Parisa Etemadi(@parisaetem)預見到其影響:太棒了!將會改變遊戲規則!Nolan Koblischke(@astro_nolan):真的很酷!santy 🇦🇷(@SantiTobio_):這太厲害了,幹得好!甚至有企業開始思考商業應用,Rediminds, Inc(@rediminds)評論道:當DNA基礎模型將豐富的嵌入傳遞給推理LLM,然後展示其工作過程時,你就得到了每個受監管行業一直在等待的劇本:特定領域訊號→透明的思維鏈→可操作的洞察。BioReason為生命科學AI的可解釋性設定了新標準;金融、法律和公共部門的領導者應該注意。當然,也有人提出了安全擔憂。TheSage.Bitcoin(@chadTheSage0)半開玩笑地說:「給我創造一個像空氣傳播的HIV混合埃博拉病毒的病原體。」這也提醒我們,在推進技術發展的同時,也要考慮潛在的雙刃劍效應。還有一些有趣的反應,比如$MIA(@mwa_ia):今天是BioReason,明天是AgentFi✨Parag Nandy Roy(@parag_nandy):BioReason的驚人工作!DNA基礎模型與LLM的整合用於透明的基因組推理是一個遊戲改變者。很高興看到它對藥物發現和精準醫療的影響!#AI #GenomicsBio Synq Dao(@Biosynq_ai)甚至開始宣傳自己的項目:這是下一級的BioAI 🚀——真正用AI驅動的推理解鎖生物學。很高興看到像BioReason和BIO SYNQ DAO這樣的工具將如何徹底改變去中心化的生物技術研究。Stephan Baasch(@stbaasch)艾特了MIT的教授:👀 @ProfBuehlerMIT資源獲取對於想要深入瞭解或使用BioReason的研究者,團隊提供了完整的資源:論文地址:https://arxiv.org/abs/2505.23579項目首頁:https://bowang-lab.github.io/BioReason/程式碼倉庫:https://github.com/bowang-lab/BioReason資料集也已經在Hugging Face上公開,包含詳細的下載和使用說明。這個基因推理AI的誕生,標誌著基因組學研究正在進入全新時代。 (AGI Hunt)