#數學模型
震驚!57歲美國著名數學教授,竟辭職給24歲中國天才女孩打工!數學也要被AI顛覆了?
前幾天,《華爾街日報》一篇報導讓全球教育圈炸了鍋。57歲的美國頂尖數學家Ken Ono,辭去弗吉尼亞大學終身教授職位,跑去矽谷給自己24歲的中國女學生打工——成為她創辦的AI數學公司Axiom Math的第15號員工。你沒看錯。不是教授帶學生創業,是教授去給學生打工。更震撼的資料還在後面:這家公司成立不到兩年,拿到6400萬美元融資,估值3億美元。用自主研發的AI系統,5小時攻克懸而未決45年的數學難題,1天內解決懸置30年的埃爾德什第124題。家長圈瞬間慌了。有人震驚:"教授都去給學生打工了?"也有人質疑:"這女孩到底什麼背景?"更有人焦慮:"我們還要不要讓孩子卷奧數?"但你有沒有想過一個更扎心的問題:當AI已經在數學領域碾壓人類頂尖專家,當一個24歲的中國女孩能讓57歲的數學大師甘願"降級打工",這背後到底說明了什麼?對此,定居矽谷多年、在清華、香港科技大學都長期任教過,深耕創新人才培養的教育專家陸向謙教授,一針見血地指出:"AI正在顛覆所有行業,包括數學、物理、化學。你的孩子還在那卷數理化的第一嗎?這已經過時了!不要去捲第一,要做你的唯一。要玩人工智慧。"這句話,擊中了當下中國教育最核心的焦慮。| 當數學大師遇到AI:"我的領域守不住了"Ken Ono是什麼等級的人物?世界頂尖數論學家,弗吉尼亞大學薪酬最高的員工之一,好萊塢、奧運會的數學顧問,ESPN眼中"最會彈吉他的數學家"。他的數學成就橫跨Ramanujan研究、數論、Moonshine理論等超級深水區,培養出10位摩根獎獲得者。這樣的大師,本以為"數學創造力至少幾十年內不會被AI取代"。直到去年春天,他參加了一次AI數學模型測試。看完之後,他整個人都不好了。他發現,在他擅長的那塊領域,他比AI了解得多。但其他數學領域,AI都比他瞭解得多。再過幾年,可能連他自己的領域都守不住了。你聽清楚了嗎?一個世界頂尖數學家,第一次感受到知識的天花板正在被AI重寫。Ken Ono陷入了深度的"身份危機":"如果AI連這都能做,那我還能做什麼?"直到那場"撞擊靈魂"的頓悟到來——"AI不是來取代數學家,而是改變數學的做法。"於是他做出了震動整個數學界的決定:辭職,加入AI數學的最前線。更戲劇的是:他加入的公司,創始人是他24歲的學生洪樂潼。看懂了嗎?這才是這個故事最扎心的地方:不是教授不夠牛,而是時代變化太快了。AI的速度,已經讓傳統學術體系跟不上了。| 24歲中國天才女孩有多炸裂?很多人問:洪樂潼到底什麼背景,能讓數學大師甘願"下凡打工"?她來自廣州,家裡第一代大學生。但她的履歷,開掛到不真實:學術成就:MIT本科3年畢業,數學+物理雙學位美國本科數學最高榮譽——摩根獎得主美國數學界最高女性獎——愛麗絲·謝弗獎(全美一年只選1人)羅德獎學金獲得者牛津神經科學碩士史丹佛數學博士+法學博士在讀(後輟學創業)創業戰績:成立Axiom Math不到兩年,融資6400萬美元從Meta挖來一批頂尖AI研究員AI系統攻克兩道懸而未決數學難題陸向謙教授看到這個案例,說了一句讓所有家長深思的話:"眼看著名校畢業生不好找工作,但小時候玩過電腦、網際網路、人工智慧的那群孩子,連大學都沒上完,就被高薪挖走了。"什麼意思?意思是洪樂潼的成功,不是因為她考了多少個第一名,而是因為她從小就在"玩"真正有價值的東西——數學研究、AI技術、跨學科整合。更關鍵的是:她在咖啡館讀數學論文時,跟隔壁桌Meta的AI科學家聊了聊,就決定退學創業。為什麼?她說:"研究數學已經很難了。AI做數學?更難。我要去做這個。"知難而進,這才是天才的底色。久而久之,家長們才明白:培養孩子,不是讓他考100分、拿奧數金牌,而是讓他敢於挑戰最難的問題、最前沿的領域。| AI如何顛覆數學?5小時攻克45年難題很多人可能覺得:數學這麼抽象,AI能做什麼?Axiom Math給出了震撼答案。他們用自主研發的AI系統:埃爾德什第481題(懸置45年):5小時完成完整證明與形式化驗證,推翻OpenAI"GPT-5已解決"的不實聲明。埃爾德什第124題(懸置30年):1天內完成基礎公理層面的形式化證明,成為全球首個可嚴格驗證的解決方案。陸向謙教授直言不諱地揭露了本質:"AI正在顛覆所有行業,包括數學、物理、化學。就連數學家都守不住自己的領域了,你覺得其他行業能倖免嗎?"看懂了嗎?這不是說數學不重要了,而是說:會做題、會考試的"數學第一名",在AI面前已經沒有優勢了。真正有價值的,是"能提出好問題、能用AI解決實際問題"的能力。Ken Ono現在的日常工作是:給AI模型設計必須通過的數學難題建構數學能力的基準測試推動模型向"數學創造力"進化他說:"純數學很美,但很少改變世界。而AI數學,將改變整個世界。"這就是差距。| 給家長和孩子的3個建議:別再讓孩子卷第一了看到這裡,很多家長肯定在想:那我到底該怎麼辦?結合陸向謙教授30多年的觀察和這個案例,我給你3個建議:第一:別再讓孩子卷"數理化第一"了陸教授說得特別直白:"你的孩子整天還在那卷數理化的第一?已經過時了。不要去捲第一,要做你的唯一。"什麼意思?意思是AI時代,會做題的"第一名"不值錢了,會用AI解決實際問題的"唯一"才值錢。家長得多問問:我的孩子有什麼別人沒有的特質?能創造什麼獨特價值?具體怎麼做?從小培養孩子:玩電腦、網際網路、人工智慧:不是為了考級、考證,而是真正理解計算機思維做項目,不是做題:讓孩子解決真實問題,而不是刷題庫培養"Something special":找到孩子的獨特性,而不是讓他跟別人一樣記住:AI會做的事,你讓孩子去捲,就是在浪費時間。第二:要學會"和AI說話",而不是"和AI競爭"Ken Ono的選擇說明了什麼?說明最聰明的人,不是在跟AI競爭,而是學會和AI協作。陸教授的觀點更清楚:"要從小玩人工智慧。小時候玩過電腦、互聯網、人工智慧的孩子,連大學都沒上完,就年薪百萬了。"家長得讓孩子從小接觸AI工具,培養"AI原生思維"學會用AI做複雜項目,而不只是用AI查資料成為"AI時代的超級個體"——一個人+AI,頂一個團隊這不是開玩笑,這是正在發生的現實,甚至未來會出現一人獨角獸公司(一個人帶著AI就能打造出價值10億美金的公司)第三:選賽道,比選學校更重要Ken Ono 教授為什麼離開弗吉尼亞大學?不是學校不好,而是賽道不對了。傳統大學的節奏,跟不上AI革命的速度。AI正在顛覆所有行業。你孩子站在那個賽道上,比他在那個學校更重要。什麼是好賽道?AI、機器學習、AI+生物計算——這些才是未來30年最值錢的領域。如果你的孩子有機會接觸這些領域——別猶豫,讓他去折騰。因為5年後、10年後,這些才是真正改變世界的技能。記住:這個時代,懂AI的人年薪百萬起步,不懂AI的人可能連工作都找不到。最後我想說,57歲的數學大師辭職給24歲的學生打工,這不是一個獵奇故事,而是一個時代轉折的訊號。AI正在重構所有行業的規則。當Ken Ono說"即使我們創造出超級智能,世界上仍會有數學問題無人能解,而我依然會在尋找答案"的時候,他其實在告訴我們:數學不會消失,但做數學的方式徹底變了。數學正在進入新時代——不再是人類單打獨鬥,而是與AI共同探索無限的未知。同樣的道理適用於所有行業、所有孩子。如果你還在逼孩子刷題、拼高考、沖985——醒醒吧。那些知識,5年後可能AI就比你孩子強100倍。真正值錢的,不是數理化考多少分,而是孩子能不能用AI創造獨特價值。所以家長要從小培養孩子"和AI協作、用AI創造價值"的真本事!這才是給孩子最好的禮物:不是一張名校文憑,而是AI時代的生存能力。千萬別讓孩子,成為被AI淘汰的那一代。 (陸向謙)
DeepSeek再破GoogleOpenAI壟斷:開源IMO數學金牌大模型
AI界掌管開放原始碼的神——DeepSeek回來了!剛剛,DeepSeek開源了全新的數學模型DeepSeekMath-V2,專注於可自驗證的數學推理。DeepSeekMath-V2不僅在IMO 2025和CMO 2024中取得金牌級分數,而且還在Putnam 2024中,得分118/120,超過了人類最高分90。與此同時,DeepSeekMath-V2在所有CNML等級問題類別(代數、幾何、數論、組合學、不等式)上均優於GPT-5-Thinking-High和Gemini 2.5-Pro。不僅性能無敵,網友表示這還是第一個開放原始碼的IMO金牌模型。這下,Google和OpenAI要坐不住了!特別是OpenAI,本來就打算放出IMO金牌模型來應對GoogleGemini 3 Pro的衝擊,現在被DeepSeek搶先一步。(鯨魚回來了!)值得一提是,這篇論文的一作邵智宏也是之前DeepSeekMath 7B的一作,在那篇論文中,他們提出了著名的GRPO。最強開源IMO金牌模型總的來說,DeepSeekMath-V2是一個旨在實現自驗證數學推理(Self-verification)的大型語言模型(685B)。它的核心在於開發和利用強大的證明驗證能力來指導和最佳化證明生成,從而克服傳統上依賴最終答案作為獎勵的強化學習(RL)方法的侷限性。傳統用於數學推理的強化學習(RL)方法存在根本性限制:最終答案獎勵的不可靠性:將LLM獎勵基於最終答案的正確性,並不能保證推理過程的正確性或邏輯的嚴謹性,模型可能通過錯誤的邏輯得出正確答案 。對定理證明任務的侷限性:許多數學任務(如定理證明)不要求數值答案,而是需要嚴格的步驟推導和邏輯嚴謹性,使得基於最終答案的獎勵機制不適用。缺乏內部驗證能力:經過傳統方法訓練的LLMs缺乏驗證自身證明有效性的能力,經常表現出高假陽性率(即認為錯誤的證明是有效的)。DeepSeekMath-V2採用迭代的強化學習循環,交替最佳化證明驗證器和證明生成器,以實現可自驗證的數學推理。證明驗證訓練驗證器研究首先訓練一個精準且忠實的LLM-based驗證器,使其能夠根據人類專家的標準識別證明中的問題並評分。具體來說,驗證器針對給定的數學問題與證明,輸出一個證明分析,該分析首先總結識別出的問題(如果有),然後基於三個等級分配一個分數:1:完全正確、嚴謹且邏輯清晰的證明。0.5:總體邏輯合理,但有微小錯誤或細節遺漏的證明。0:包含致命邏輯錯誤或關鍵漏洞的根本性錯誤的證明。驗證器的訓練分為資料建構(冷啟動)和模型強化學習目標兩個關鍵階段。在資料建構階段,研究首先從AoPS競賽中收集了1.75萬個要求證明的奧賽等級數學問題。隨後,利用現有模型(DeepSeek-V3.2-Exp-Thinking)生成大量的候選證明,並通過多輪迭代來提升證明的嚴謹性,最終請數學專家人工對這些證明進行評分,分數分為1、0.5和0三個等級,從而建立了初始的RL驗證資料集。進入強化學習目標階段,研究使用上述資料集對基礎模型(DeepSeek-V3.2-Exp-SFT)進行訓練,使其能夠輸出證明分析總結和最終分數。獎勵函數一方面通過格式獎勵強制模型輸出格式包含問題總結和分數,另一方面通過分數獎勵激勵模型預測的分數與專家標註的分數高度一致,從而使驗證器具備模仿人類專家評估嚴謹性的能力。引入元驗證 (Meta-Verification)為解決初步訓練的驗證器可能因幻覺(hallucinating)不存在的問題而獲得正確低分,從而損害其對錯誤識別的忠實性(faithfulness)的問題,研究團隊引入了元驗證(Meta-Verification)機制。元驗證作為一個二級評估過程,旨在審查驗證器生成的證明分析(Proof Analysis),評估其中識別出的問題是否真實存在,以及這些問題是否在邏輯上合理地支援了其預測的證明分數。為了訓練元驗證器,研究首先讓數學專家根據專門的元驗證標準對驗證器輸出的分析質量進行評分,建立了元驗證資料集。隨後,研究訓練了一個專門的元驗證器,該元驗證器生成對驗證分析本身的問題總結,並分配一個質量分數,以衡量原驗證器分析的精準性和合理性。元驗證器的強化學習目標結構與驗證器訓練類似,同樣包含格式獎勵和分數獎勵。接下來是增強驗證器訓練,研究利用訓練好的元驗證器,將元驗證的質量分數整合到驗證器的獎勵函數中,以增強驗證器的忠實性。最終,使用原驗證資料集和元驗證資料集共同訓練增強後的驗證器,使該模型能夠同時執行證明驗證和元驗證兩項任務。在原驗證資料集的一個驗證子集上,經驗證器評估的證明分析的平均質量分數從 0.85 提升到了0.96,同時保持了證明分數預測的精準性不變,有力證明了元驗證機制能有效提高驗證器識別問題的忠實度。證明生成接下來,研究用訓練好的驗證器作為獎勵模型來訓練證明生成器,並進一步通過“自驗證”機制,讓生成器學會嚴格地自我審查和修正,從而提高證明質量。具體來說,研究訓練生成器以最大化驗證器賦給其生成的證明的分數。在訓練中,生成器被要求在生成證明後,緊跟著進行自我分析。獎勵函數激勵精準的自我評估和正確性。最終獎勵是對證明質量和自我評估質量的加權組合。由此,自我評估獎勵不僅獎勵自評分的精準性,還獎勵自我分析的忠實性。這種獎勵結構激勵生成器:忠實地承認錯誤(而非盲目自信)。獲得高獎勵的最佳策略是在最終輸出前,積極識別並解決自身證明中存在的問題,從而實現自我迭代完善。證明驗證與生成之間的協同作用接下來,研究利用驗證器和生成器的協同作用,通過規模化的計算和元驗證機制,建立了一個完全自動化的資料標註流程,從而持續提升驗證器的能力,並最終取代耗時的人工標註。然而,隨著問題難度增加,人工標註耗時且效率低下。由此研究提出了一套自動化標註的方法:首先,通過生成n個獨立的驗證分析,提高在有缺陷證明中捕獲真實問題的機率。接下來,利用元驗證器生成m個評估,對報告問題的分析進行有效性確認,確保識別出的問題是真實的(元驗證比從零識別問題更高效)。具體的標註流程如下:分數判定:檢查所有分析中分配的最低分數。只有當至少有k個分析被元驗證確認為有效時,該最低分才被賦給該證明;否則標記為1分(無合法缺陷)。取代人工: 最終,這種完全自動化的流程在後續訓練迭代中徹底取代了人工標註,並且質量檢查證實其標註結果與專家判斷高度一致。由此,上述流程在最終的訓練迭代中徹底取代了耗時的人力標註,實現了驗證和生成的協同循環,保證了模型能力的持續突破。實驗結果研究採用GRPO進行強化學習,迭代地最佳化證明驗證和生成能力。在每次迭代中,研究首先最佳化證明驗證。然後,證明生成器會從驗證器的checkpoint初始化,並針對證明生成進行最佳化。從第二次迭代開始,證明驗證器會使用一個檢查點進行初始化,該檢查點通過拒絕微調(rejection fine-tuning)鞏固了前一次迭代中的驗證和生成能力。研究首先評估了模型未經迭代完善的單次生成正確證明的能力。實驗結果表明,在所有CNML等級問題類別中——包括代數、幾何、數論、組合學和不等式——DeepSeekMath-V2 持續優於 GPT-5-Thinking-High和Gemini 2.5-Pro。為了探究擴展上下文和自驗證如何提高證明質量,研究又評估了帶有自驗證的順序精煉方法。研究表明,自選的最佳證明比執行緒平均得分獲得了顯著更高的驗證分數,這證明生成器具備精準評估證明質量的能力。此外,隨著最大順序嘗試次數的增加,Pass@1大幅提升,表明自驗證有效地指導了迭代改進。這些結果表明,生成器能夠可靠地區分高品質和有缺陷的證明,並利用這種自我意識系統地改進其數學推理。最後,為瞭解決最具備挑戰性的問題,研究採用了高計算量搜尋策略,該策略通過平行生成探索多樣化的證明路徑,並結合規模化的(64 次)驗證來精確識別細微錯誤。模型迭代地從包含問題分析的候選證明池中精煉出最優證明,直到證明通過所有驗證。最終,這種方法使其在Putnam競賽中以118/120的分數超越人類最高分90分,展現了在驗證器指導下,AI解決複雜問題的強大能力。One more thing如開頭所說,這篇論文的一作邵智宏也是DeepSeek之前數學模型DeepSeekMath 7B的一作。值得一提的是,也就是在DeepSeekMath 7B的論文中,他和團隊提出了經典的GRPO(Group Relative Policy Optimization )。同樣的,他也是DeepSeek-R1的核心貢獻者。邵智宏目前是DeepSeek從事大模型推理研究的研究員,他本科畢業於北京航空航天大學,博士畢業於清華,師從黃民烈教授。 (量子位)
今年這屆諾貝爾經濟學獎,來得實在太是時候了……
台北時間2025年10月13日,瑞典皇家科學院宣佈將諾貝爾經濟學獎授予三位傑出的經濟學家:美國西北大學的經濟史學家喬爾·莫基爾(Joel Mokyr),以及法蘭西學院的菲利普·阿吉翁(Philippe Aghion)和布朗大學的彼得·豪伊特(Peter Howitt),以表彰他們“對創新驅動的經濟增長的闡釋”。這次的頒獎,將經濟增長理論的兩個核心分支——宏大的歷史敘事與精密的數學模型——完美地結合在一起。在人工智慧浪潮席捲全球、地緣政治重塑產業格局的今天,重溫和深思三位巨擘的洞見,對於尋求高品質發展的中國而言,無疑是恰逢其時!01 熊彼特的幽靈要理解本次諾獎的意義,我們必須回到思想的源頭——約瑟夫·熊彼特(Joseph Schumpeter)。這位特立獨行的奧地利經濟學家,在一個世紀前就提出了“創造性破壞”(Creative Destruction)這一顛覆性概念。1942年,熊彼特寫下煌煌巨著《資本主義、社會主義與民主》,將資本主義描繪成一個“從內部不斷革命化經濟結構”的動態過程,即舊的被不斷摧毀,新的被不斷創造。熊彼特認為,經濟發展的真正動力並非源於價格的短期波動或市場的自我均衡,而是來自企業家引入的“新組合”——無論是新產品、新工藝、新市場,還是新的組織形式——這就是創新。這種創新過程如同“經年不息的狂風”,它摧毀了馬車伕的飯碗,卻創造了汽車工業的繁榮。熊彼特的理論極具洞察力,但在很長一段時間裡,它更像是一個生動的隱喻,而非一個可供分析的嚴謹理論。它提出了“是什麼”,卻沒有完全解答“為什麼”和“怎麼樣”。而這正是今年三位獲獎者的工作價值所在:莫基爾探尋創新得以持續的文化與制度根基;而阿吉翁和豪伊特則用精準的數學語言,建構了可計算的動力學模型。02 喬爾·莫基爾的歷史羅盤我們首先來看喬爾·莫基爾,作為一位傑出的經濟史學家,他主要研究工業革命前後的歐洲,試圖回答一個根本問題:為何持續的經濟增長在人類歷史的大部分時間裡是例外而非通則,卻在過去兩百年成為可能?莫基爾的核心洞見在於,他提出了“有用知識”(Useful Knowledge)的概念,並將其劃分為兩大類:1,命題性知識(Propositional Knowledge):即關於自然規律和現象的科學知識,回答“是什麼”和“為什麼”的問題。這類似於我們今天所說的基礎科學。2,指令性知識(Prescriptive Knowledge):即關於如何操作的技術、工藝和配方,回答“怎麼做”的問題。這類似於應用技術和工程訣竅。在莫基爾看來,工業革命前的創新大多依賴於工匠的經驗和試錯,即指令性知識的緩慢積累。然而,要實現持續的、自我驅動的增長,兩種知識必須形成正反饋循環。在工業革命時期,歐洲形成了一種獨特的“知識生態”:科學家、工程師、企業家和工匠之間的交流日益密切,科學原理被用來解釋和改進技術,而技術實踐中遇到的問題又反過來催生了新的科學探索。莫基爾的研究也證明,一個開放、寬容、鼓勵思想交流和質疑權威的社會文化,是創新之樹得以枝繁葉茂的土壤。制度保障(如專利法)和激勵機制固然重要,但更深層次的,是一種追求進步的信念和將知識轉化為生產力的文化。他的歷史分析為我們理解為何某些國家和地區能夠成為創新高地,而另一些則陷入停滯,提供了深刻的歷史鏡鑑。03 阿吉翁與豪伊特建構創新驅動的內生增長模型菲利普·阿吉翁和彼得·豪伊特的工作,則是對熊彼特思想最重要的一次現代化和形式化。在20世紀80年代中期之前,主流的經濟增長理論(如索洛模型)將技術進步視為一個“外生”變數——如同上帝的禮物,從模型外部給定,無法解釋其來源。這顯然無法令人滿意。而以保羅·羅默(Paul Romer)等為先驅的“內生增長理論”則試圖將技術進步的動力放到模型內部來解釋。阿吉翁和豪伊特在1992年發表的開創性論文,正是內生增長理論中“熊彼特學派”的奠基之作。他們建構了一個優美的數學模型,數學公式咱們就不放了,但是其核心思想如下:增長的引擎是“質量階梯”:經濟增長表現為產品或技術質量的不斷提升。創新來自逐利動機:企業投入研發,是為了創造出更高品質的產品來取代現有市場領導者,從而獲得暫時的壟斷利潤。創造與破壞並存:每一次成功的創新,都意味著對前一代技術和相應企業的“創造性破壞”。這種破壞是增長的必要代價。政策與制度至關重要:模型的增長率並非天定,而是受到專利保護強度、市場競爭程度、教育水平和金融市場效率等一系列可由政策影響的因素決定。阿吉翁和豪伊特及其後續研究,為我們提供了許多極具啟發性的政策洞見。其中最著名的莫過於競爭與創新的“倒U型關係”。他們的理論和實證研究表明,完全壟斷或過度激烈的競爭都不利於創新。在競爭不足時,領先企業缺乏“逃離競爭”的動力去創新;而在競爭過於激烈時,創新成功後的利潤又太低,無法覆蓋研發成本,從而削弱了創新激勵。因此,維持一個適度的競爭環境,是激發創新的關鍵所在。他們的框架將熊彼特的思想從一個哲學洞見,轉變為一個強大的分析工具箱,讓政策制定者可以具體地探討如何通過制度設計來培育一個持續創新的經濟體。04 駕馭破壞性創新三位諾獎得主的理論之所以在今天顯得尤為重要,是因為我們正處在一個“創造性破壞”空前加速的時代。人工智慧,特別是生成式AI,無疑是當下最典型的創造性破壞力量。它正在自動化許多認知性工作,對內容創作、軟體程式設計、客戶服務等行業造成巨大衝擊。根據麥肯錫的報告,到2030年,全球多達30%的工作小時可能會被自動化。然而,正如歷史所揭示的,技術在摧毀舊崗位的同時,也在創造全新的崗位和產業。阿吉翁等人的框架提醒我們,應對AI衝擊的關鍵,不在於阻止破壞的發生,而在於如何通過教育改革、終身學習體系和靈活的勞動力市場政策,幫助勞動者適應轉型,並抓住AI帶來的新機遇。此外,在全球地緣政治格局下,技術競爭成為大國博弈的核心。莫基爾的理論強調了開放交流對於“有用知識”傳播的重要性,這對於當前一些逆全球化和“脫鉤”的思潮提出了警示。而阿吉翁-豪伊特的模型則為理解不同國家的創新模式提供了視角。例如,他們區分了兩種創新模式:一種是模仿和改進(接近技術前沿的國家),另一種是前沿創新。這兩種模式需要不同的制度安排和政策支援(即“適配性增長政策”)。這對於思考中國如何在堅持開放合作的同時,建構自主可控的創新體系,具有深刻的啟示。值得注意的是,“創造性破壞”的過程是痛苦的。技術變革會加劇收入不平等,因為創新的收益往往不成比例地流向資本所有者和高技能勞動者,而被替代的勞動者則可能面臨失業和收入下降的困境。這也正是當前許多社會矛盾的根源所在。三位獲獎者的工作同樣也涉及到了這一部分,他們的理論框架強調,一個成功的創新驅動型經濟體,必須輔之以強大的社會安全網和包容性政策。這包括:對人的投資:大力發展教育和職業再培訓體系,提升勞動力的適應能力。健全的保障體系:提供失業保險、社會救助等,為在轉型中受損的群體提供緩衝。競爭與監管的平衡:實施有效的反壟斷政策,防止創新巨頭扼殺新的競爭,同時確保創新成果能夠以更低的價格惠及消費者。2025年的諾貝爾經濟學獎,是對“創新”經濟學的又一次致敬。喬爾·莫基爾以其深邃的歷史眼光,為我們展示了創新得以生根發芽的土壤;菲利普·阿吉翁和彼得·豪伊特則用精巧的數學模型,揭示了創新之樹開花結果的內在機制。他們的工作共同描繪了人類社會如何通過一場持續的“創造性破壞”,掙脫了千年的停滯,走向了今天的繁榮。正如諾獎委員會主席所言:“獲獎者的工作表明,經濟增長不能被視為理所當然。我們必須維護創造性破壞背後的機制,這樣才不會再次陷入停滯。”理解並善用“創造性破壞”這股力量,在鼓勵顛覆性創新的同時,最大限度地緩衝其社會衝擊,將是我們這個時代最重要的課題。您覺得呢? (TOP創新區研究院)
DeepSeek-R2尚未問世,微軟小模型撿漏稱王? 6000樣本煉出「數學作弊器」!
微軟一口氣推出了Phi-4推理模型系列:Phi-4-reasoning、Phi-4-reasoning-plus和Phi-4-mini-reasoning。參數最多隻有14B,能在本地高效能筆記型電腦上流暢運作。而3.8B的Phi-4-mini-reasoning甚至超越8B參數的DeepSeek-R1蒸餾模型,釋放了小模型的推理能力!現在AI流行推理模型。可惜,4月沒有等來DeepSeek的第二代推理模型DeepSeek-R2。但微軟,最近上新了Phi-4的推理模型,包括Phi-4-mini-reasoning,Phi-4-reasoning和Phi-4-reasoning-plus。專案連結:https://huggingface.co/collections/microsoft/phi-4-677e9380e514feb5577a40e4在數學推理上表現超越DeepSeek-R1蒸餾模型,但Phi-4-Mini-Reasoning參數規模較小。微軟AI Frontiers實驗室的合作研究經理( Partner Research Manager)Ahmed Awadallah介紹了Phi-4-reasoning,總結了新模型的特點。這個模型結合了監督微調(使用精心挑選的推理範例資料集)和強化學習進行訓練。在推理類基準測試中表現出色,可媲美DeepSeek R1等更大規模的頂級模型在新測試上依然表現強勁(如AIME 2025、HMMT)推理能力具有很強的遷移性/泛化能力,即便只經過監督微調,也能適應全新任務(如k-SAT、數學方程式求解、日程規劃等)保留並大幅提升通用能力(例如指令理解與執行)他表示Phi-4還有不少方面需要改進,特別是在上下文長度、編碼能力和工具整合方面。除了模型本身,微軟也分享了一份詳盡的技術報告,深入解析模型的訓練與評估流程。論文連結:https://www.microsoft.com/en-us/research/wp-content/uploads/2025/04/phi_4_reasoning.pdf在X上,微軟研究院AI Frontiers實驗室的主任研究員(Principal Researcher),兼威斯康辛大學副教授Dimitris Papailiopoulos介紹了關於Phi-4推理模型更多情況。他認為Phi-4-reasoning完全達到了研究生水平,而且可以在本地PC上運作。這超出他對AI發展的預期。新模型參數雖少,性能強,是「小怪獸」。性能“小怪獸”儘管它的參數規模不大,但在諸如AIME、HMMT和OmniMath等數學基準測試中,它的表現優於或媲美更大規模的開放權重模型(如QwQ-32B、R1-70B、R1)及封閉模型(如o1-mini、sonnet 3.7)。先來聊聊它的「整體得分」: 這個模型的規模精巧,適合在高效能筆記型電腦上流暢運作。但同時能力出眾,能破解許多謎題──這些謎題連更大型的非推理模型,甚至某些推理模型都束手無策。它還順利通過了DimitrisEval測試!令人驚訝的是,推理似乎是一種真正可遷移的「元技能」,甚至只透過監督微調SFT就能學會!證據一:即使沒有在非推理類任務上進行專門訓練,研究者在IFEval、FlenQA以及內部的PhiBench 上依然觀察到了顯著的性能提升(提升超過10分!)。另外,在SFT階段,編碼相關的資料也非常少(RL階段則完全沒有涉及),但模型在這方面依然表現不俗,例如在LCB和Codeforces上的得分大致與o1-mini相當。此外,Dimitris Papailiopoulos透露,程式設計是後續版本的重點方向。證據二:在完全沒有對一些特定問題進行明確訓練(無論是SFT還是RL階段)的情況下,例如旅行商問題、迷宮求解、k-SAT、受限規劃等,模型在這些任務上的表現依然非常出色!而Phi-4(甚至GPT-4)在這些任務上都無法做到這一點。這充分說明了推理能力確實可以作為一種技能遷移!光是一輪很短的強化學習(只花了6000個樣本,相較之下SFT用了140萬個例子),模型的推理機制就像是被「鎖定」了一樣。這讓Dimitris Papailiopoulos特別震撼。他感覺這好像強化學習讓模型學會了用「自己的語言」去推理,在AIME和HMMT上的準確率提高了約10%,而在難題中的平均回答長度也增加了50%。強化學習真的有效! !這次發現這種推理機制被「鎖定」的現象,通常會讓模型的輸出分佈更集中,準確率也更高。強化學習能夠顯著提升模型的能力,這點也在微軟先前的研究中也有所體現。論文連結:https://arxiv.org/abs/2412.01951在強化學習階段,新模型甚至沒有對數據進行特別優化:6000個問題只是從一個更大的精選數據集中隨機抽取的。那麼,為什麼微軟沒有進行更多密集的學習訓練呢?因為模型產生了超出32k 上下文長度(模型未訓練過的長度)的問題答案,他們只能對其進行截斷。另外,借助平行推理計算(例如Maj@N),新的推理模型幾乎已經在AIME 2025上達到了效能上限,甚至超越了它的老師模型(o3-mini)的pass@1表現。而且在2025年2月之前完成了所有資料的收集,HMMT也是如此。在其他任務中,研究者也觀察到了「青出於藍」的現象,例如OmniMath和日程規劃(Calendar Planning)任務。SFT階段的提示詞設計,加上後續的強化學習流程,似乎讓模型具備了「自我提升」的能力,超越了教師模型提供的知識範圍。下圖洋紅色代表o3-mini,綠色代表Phi。一個有趣的現像是:回應長度處於前25%的長文字,往往與錯誤答案強烈相關!但另一方面,在大多數評估中,整體的平均回答長度越長,準確率反而越高。也就是說,測試時加大運算資源確實有幫助,但模型在「卡住」時也容易「囉嗦」。關於模型的侷限性,也有一些需要注意的地方:目前還沒有對超過32k上下文長度的處理能力進行充分擴展或測試。模型在處理簡單問題時容易「想太多」,而在自我評估上可能顯得過於冗長。對多輪對話的能力還沒有進行廣泛測試。當然還有更多「盲點」有待發現,但整體來看,研究團隊感覺自己走在正確的道路上!雙重驚喜微軟研究院的主任研究經理(Principal Research Manager)Suriya Gunasekar,隸屬於負責開發Phi系列模型的「AGI物理學」團隊,則重點介紹了工作的核心原理。這次微軟的Phi團隊將精力集中在後訓練階段,推出了Phi-4-reasoning(只用了SFT)和Phi-4-reasoning-plus(SFT+少量RL)。這兩款都是14B的模型,在推理和通用任務基準測試上都展現了強大的實力,雖體積小但威力不減。這項工作的核心在於提示選擇和針對可遷移、自我提升推理技能的實驗探索。訓練過程中有兩大驚喜發現:其一,只要少數領域訓練長鍊式推理(CoT)軌跡,Phi-4 就在日程規劃、迷宮求解(無需視覺輸入)、IFEva、FlenQA、KITAB(基於尋找的問答)及內部PhiBench 等多項任務中,性能實現大幅提升;其二,即使只用6000個數學範例做最小程度的RL訓練,模型在部分基準測試中的表現也顯著提高,最高提升幅度達10%(不過token使用量增加了約1.5 倍),同時在RL階段也觀察到技能的跨領域遷移現象。也就是說,與OpenAI和Google等主要競爭對手相比,微軟Phi-4推理系列展示了新的可能性:利用高品質資料和精細的訓練策略,小模型可以在特定任務中媲美甚至超越大型模型。核心方法推理模型Phi-4-reasoning,擁有140 億參數,在複雜推理任務中表現強勁。該模型基於Phi-4 進行監督微調訓練,使用的是一組精心挑選的「可傳授」(teachable)提示詞,這些提示兼具適當的複雜度與多樣性;訓練過程中使用o3-mini 生成的推理示例作為參考。Phi-4-reasoning能夠產生詳細的推理鏈,充分利用推理過程中的計算資源。在此基礎上,微軟進一步開發了Phi-4-reasoning-plus。它在原始模型的基礎上通過一小階段基於結果的強化學習進行了增強,生成的推理鏈更長,性能也更強。研究表明,精心設計的SFT資料集對於推理語言模型的效果有顯著提升作用,而強化學習(RL)則能在此基礎上進一步放大這種提升。在SFT實驗中,即使在這種相對簡單的生成設定下,對種子問題的精挑細選與嚴格過濾依然是模型成功的關鍵。他們將整套訓練數據都經過了嚴格去污染處理流程,確保不包含與廣泛使用的推理或通用基準測試題高度重合的數據,包括一些未在本報告中提到的基準。被去污染處理的完整基準測試清單如下:數學與推理類:AIME-2024、MATH、GPQA、OmniMATH、GSM8k程式設計類別:LiveCodeBench、Codeforces、HumanEval、MBPP問答與通識類:SimpleQA、DROP、AGIEval、ARC-Challenge、ARC-Easy、CommonsenseQA、OpenBookQA、PIQA、WinoGrande其他評估任務:SWE-Bench Verified、ArenaHard、MT-Bench、PhiBench透過對擁有140 億參數的Phi-4 模型進行監督微調(Supervised Finetuning, SFT),研究人員得到了Phi-4-reasoning,在此之前沒有進行任何強化學習。SFT目標是提煉基礎模型中蘊含的結構化推理能力。Phi-4-reasoning 的架構與Phi-4模型相同,但有兩個關鍵的修改:推理token (Reasoning tokens):基礎模型中的兩個佔位符token被重新用作 <think> 和 </think> token,分別用於token一段推理(「思考」)過程的開始和結束。增加的token長度(Increased Token Length):基礎模型(Phi-4) 最初支援的最大token長度為16K。為了容納額外的推理token,RoPE的基礎頻率增加了一倍,並且模型在最大32Ktoken長度下進行了訓練。他們使用了合成方法產生的大量思維鏈(chain-of-thought) 推理過程範例。使用的SFT資料集包含超過140萬個提示-回復對,總計83億個獨特的token,涵蓋了數學、程式設計等推理領域,以及用於安全和負責任AI 的對齊資料(alignment data)。圖4a展示了關鍵指標在整個SFT迭代過程中的變化。在訓練的早期,模型就開始使用明確的「思考」token,這表明模型很快就學會了這種淺層的結構化格式。然而,如圖4a所示,思維鏈模組的有效性和模型的推理能力在整個訓練過程中都在提高,這表明模型不僅僅是在複製格式,而是在實際學習推理這項技能。有趣的是,與強化學習不同,在SFT過程中,研究者並沒有看到回覆長度的增加。事實上,如圖4b所示,平均回覆長度略有下降。這表明隨著訓練的進行,模型正在學習更有效地利用其token預算。為了有系統地評估不同的訓練策略,他們使用了固定的基準測試——AIME 2024 和GPQA diamond——作為進展指標。總的來說,實驗方法可以分為兩個階段:探索(exploration) 和擴展(scaling)。在探索階段,研究人員使用較短的訓練周期和有限的資料來源和領域來快速迭代並提取穩健的訓練方法。在隨後的擴展階段,研究人員匯總了早期風險降低實驗的結果,並最終確定了SFT設定。圖5總結了這個進展,重點介紹了幾個關鍵設計選擇的消融實驗(ablations)。圖5:Phi-4-reasoning SFT實驗周期的高層次概述圖5展示了Phi-4-reasoning監督微調(SFT)實驗周期的高層次概述,包括探索和擴展階段,使用了一部分範例實驗來表示。每個點簇代表特定訓練設計選擇的實驗結果。圖7展示了Phi-4-reasoning-plus模型在GRPO訓練過程中的關鍵發現。從監督微調(SFT)基礎模式Phi-4-reasoning出發,僅進行90步驟GRPO訓練就將AIME效能提升超10%(圖7a)。繼續增加訓練步數並未帶來額外收益,這表明強SFT模型的潛力已接近性能天花板。要注意的是,GRPO訓練中輸出被限制在31k token以內,客觀上限制了GRPO的最佳化空間。如圖7c所示,反應時間與AIME表現呈現強相關性,而獎勵分數與AIME得分的關聯較弱。這種反應長度成長效應正是GRPO訓練的預期效果-模型透過增加「思考時長」來提升推理能力。圖7d進一步揭示:由於獎勵模型的設計,錯誤答案的生成長度成長率顯著高於正確答案(當模型目前回答錯誤時,系統會激勵其進行更長時間的思考)。事實上,僅基於反應長度(尤其是顯著超過中位數的長響應)進行拒絕採樣就可能進一步提升GRPO效果。如圖7d所示,訓練過程中較短反應(長度位於底部25%分位)的成長趨勢與正確答案平均長度相似,而錯誤答案長度更接近整體反應長度的75%分位。這種分化現象表明,基於長度的拒絕採樣可透過抑制過長的錯誤輸出來提升模型效率。(新智元)
DeepSeek新數學模型刷爆記錄! 7B小模型自主發現671B模型不會的新技能
DeepSeek放大招!新模型專注數學定理證明,大幅刷新多項高難基準測試。在普特南測試上,新模型DeepSeek-Prover-V2直接把記錄刷新到49道。目前的第一名在657題中只做出10道題,為Kimi與AIME2024冠軍組Numina合作成果Kimina-Prover。而未針對定理證明最佳化的DeepSeek-R1隻做出1道。讓還沒發表的R2更令人期待了。除測評結果之外,論文中特別報告了「透過強化學習發現新技能」現象。正如R1帶來了“啊哈時刻”,Prover-V2也有令人意想不到的能力。具體來說,在普特南測試中,參數量較小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解決了13個671B模型未能解決的問題。當團隊仔細檢查模型的輸出後發現,其推理方法存在一個獨特模式:7B模型處理涉及有限基數的問題時,經常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型產生的輸出中明顯沒有這些內容。要注意,7B模型是在DeepSeek-Prover-V1.5-Base模型基礎上,先使用671B模型在強化學習階段收集的資料微調,再執行強化學習得來的。也就是說,7B模型學會了671B模型沒有學會的新技能。那麼,DeepSeeK-Prover-V2如何煉成的呢?與前代相比又有那些改進?形式化與非形式化數學證明統一模型DeepSeek數學定理證明DeepSeek-Prover系列模型已推出3款:2024年3月的DeepSeek-Prover(後簡稱為Prover-V1)2024年8月的DeepSeek-Prover-V1.5(後簡稱為Prover-V1.5)2025年5月的DeepSeek-Prover-V2(後簡稱為Prover-V2)Prover-V1主要探討了透過大規模合成資料集微調DeepSeek-Math-7B,來推進定理證明。Prover-V1.5在此基礎上增加了證明助手回饋的強化學習(RLPAF)和蒙特卡羅樹搜尋方法。Prover-V2進一步提出「子目標分解的強化學習」,而基礎模型從DeepSeek-Math-7B升級到DeepSeek-V3。整合DeepSeek-V3的高上下文視窗和強大的自然語言推理能力,把形式化和非形式化數學證明統一到一個模型中。Prover-V2也繼承了Prover-V1.5提出的CoT和非CoT產生兩種模式。接下來,詳細介紹Prover-V2的各主要環節。通過遞迴證明搜尋合成冷啟動推理資料利用DeepSeek-V3作為子目標分解和形式化的統一工具來建構冷啟動資料集,提示DeepSeek-V3將定理分解為高級證明草圖,同時在Lean 4中將這些證明步驟形式化,從而產生一系列子目標。使用一個較小的70億參數模型來處理每個子目標的證明搜尋,從而減輕相關的計算負擔。一旦一個具有挑戰性的問題的分解步驟得到解決,就將完整的逐步形式化證明與來自DeepSeek-V3的相應思維鏈進行配對,以建立冷啟動推理資料。使用合成冷啟動資料進行子目標分解的強化學習團隊精心挑選了一組具有挑戰性的問題,這些問題無法由70億參數量的證明器模型以端到端的方式解決,但所有分解後的子目標都已成功解決。透過組合所有子目標的證明,為原始問題建構了一個完整的形式化證明。然後,將此證明附加到DeepSeek-V3的思維鏈中,該思維鏈概述了相應的引理分解,從而實現了非形式化推理與後續形式化的有機結合。在合成冷啟動資料上對證明器模型進行微調後進行強化學習階段,進一步增強其將非正式推理與形式化證明建構相銜接的能力。遵循推理模型的標準訓練目標,使用二元的正確或錯誤回饋作為獎勵監督的主要形式。具體訓練細節兩階段訓練:DeepSeek-Prover-V2分兩個階段建立互補證明生成模式。第一階段以高效非思維鏈(non-CoT)模式,聚焦快速產生Lean證明程式碼,加快迭代和資料收集。第二階段基於第一階段成果,採用高精度思維鏈(CoT)模式,闡述中間推理步驟,以冷啟動思維鏈資料強化學習,提升複雜問題推理能力。專家迭代:其中非CoT模式訓練遵循專家迭代範式,以最佳證明策略為難題生成證明嘗試,經Lean驗證,成功的納入監督微調(SFT)資料集。與先前版本相比,訓練問題分佈有調整,引入了額外問題和子目標分解產生的問題。監督微調:對DeepSeek-V3-Base-671B做監督微調,訓練語料庫包含兩個互補來源的資料:一是透過專家迭代收集的非CoT資料,這些資料產生的Lean程式碼不包含中間推理步驟,主要用於強化模型在Lean 定理證明生態系統中的形式驗證技能。二是冷啟動CoT資料,這些資料將DeepSeek-V3的先進數學推理過程提煉為結構化的證明路徑,明確地模擬了將數學直覺轉化為形式證明結構的認知過程。強化學習:採用GRPO演算法,與傳統的PPO不同,GRPO無需單獨的裁判模型,它通過為每個定理提示採樣一組候選證明,並根據它們的相對獎勵來最佳化策略。訓練過程中使用二元獎勵機制,即生成的Lean證明若被驗證正確則獲得獎勵1,否則為0。為確保學習效果,精心挑選訓練提示,僅包含那些有足夠挑戰性但又能被監督微調後的模型解決的問題。蒸餾DeepSeek-Prover-V2 7B將DeepSeek-Prover-V1.5-Base-7B上下文視窗擴展到32768個token,用DeepSeek-Prover-V2-671B資料微調,融入非CoT證明資料,以便利用小模型產生簡潔的形式化輸出,提供一種經濟高效的證明選項。此外,對DeepSeek-Prover-V2-7B執行與671B模型訓練中相同的強化學習階段,以進一步提升其效能。由此得到的模型Prover-V2 671B在神經定理證明方面達到了最先進的性能,在miniF2F測試中的通過率達到88.9%,並解決了普特南測試中的49道。 Prover-V2為miniF2F資料集產生的證明可單獨下載。ProverBench:AIME和教科書問題的形式化與Prover-V2一起推出ProverBench,這是一個包含325個問題的基準資料集。其中,有15個問題是從近期美國數學邀請賽(AIME 24和25)的數論與代數題目中形式化而來,提供了真實的高中競賽水準挑戰。其餘310個問題則取自精心挑選的教科書範例和教學教學,構成了一套多樣化且基於教學需求的形式化數學問題集合。該基準旨在能夠對高中競賽問題和本科階段數學問題進行更全面的評估。DeepSeek-Prover-V2系列在三個資料集上評測的最後總成績如下:DeepSeek全明星陣容Prover-V2的作者共18人,共同一作ZZ Ren, 邵智宏、辛華劍都是參與過V3、R1以及Prover系列前作的主力成員。作者名單中出現了幾位未參與前兩代版本(Prover-V1、Prover-V1.5)的研究者。例如Shirong Ma,清華本碩。公開資料顯示,他於去年畢業後即加入DeepSeek,現為DeepSeek研究員,此前參與了從DeepSeek LLM v1到R1以及DeepSeek-Coder等工作。還有Zhe Fu、Yuxuan Liu。雖然他們都沒有出現在Prover-V1、Prover-V1.5的作者名單中,但都是DeepSeek資深成員。在Prover-V1/V1.5同一期發佈的《Fire-Flyer AI-HPC》研究中可見其署名。研究提出的Fire-Flyer AI-HPC架構,透過軟硬體協同設計降低訓練成本,解決傳統超算架構在AI訓練需求上的不足。不過這次Prover-V2的論文中並未提及在訓練或推理基礎設施具體有那些最佳化策略。最後還有一位新面孔Hongxuan Tang,暫未理解到具體資訊。Prover-V2發表後迅速引發社區關注,GitHub倉庫12小時內即獲得350+星標。在X(原Twitter)、抱抱臉等平台,網友們展開熱烈討論。Prover-V2核心貢獻者邵智宏在個人帳號主動推廣研究成果。X工程師@kache特別讚賞道:感謝你們對開放科學研究的奉獻。普林斯頓大學助理教授Chi Jin表示:恭喜這項驚人的工作!在miniF2F上攻克最後10%-20%的問題標誌著能力上的重大飛躍。當前形式化數學領域的競爭態勢堪稱激烈,難以置信Kimina僅保持了兩周SOTA就被DeepSeek超越。就連Kimina-Prover核心貢獻者@Marco Dos Santos都來送上了祝賀:恭喜DeepSeek AI團隊將miniF2F任務的SOTA提升到了89%!很高興看到長思維鏈方法正在被其他團隊獨立探索且呈現出一些有趣的差異。形式數學如今比以往任何時候都更受歡迎!另外,網友們最關注的問題還是:R2什麼時候發佈啊~(量子位元)
垃圾當寶宣傳