#哥德爾測試
GPT-5攻克「量子NP難題」,首篇論文引爆學界!人類2周壓縮至30分鐘
【新智元導讀】GPT-5正改寫科學發現的規則!一篇重磅論文揭秘,「量子版NP難題」竟被GPT-5在30分鐘之內攻克了,然而這要耗費人類1-2周的時間。照這種速度發展下去,AI離完成「諾獎級」突破真的不遠了。幾天前,GPT-5成功通過「哥德爾測試」,破解了數學三大猜想。意想不到的是,這一次,GPT-5又「攻陷」了量子領域的難題。量子計算專家Scott Aaronson首次發表論文,證明其中一個老難題竟被GPT-5助攻破解了。論文中,Scott一直在死磕量子計算中的一個核心問題——QMA複雜度類別,堪稱「量子版的NP問題」。其中,關鍵在於證明過程中的誤差機率,能否被無限降低,特別是,能否實現完美完備性。論文地址:https://arxiv.org/pdf/2509.21131之前學界研究中已經把誤差壓到很低,但最新研究卻發現:「雙指數級誤差」是現有方法的理論極限,無法進一步突破。在關鍵推導環節受阻後,作者開始向GPT-5尋求幫助。一開始,AI給出了錯誤的思路。但在大約30分鐘互動後,它最終提出一個精妙的數學函數,精確分析出特徵值行為。研究證明,這一構想成為了論文中最關鍵的突破。在最新博文中,Scott驚嘆地表示,「這思路要是那個學生想出來的,我絕對會誇一句——真是絕了」!這個難題預估需要1-2周人力才能完成OpenAI科學家Sebastien、產品負責人Kevin再次激動轉發,並稱「一場重大變革開始了」。量子版NP難題:QMA奇點這篇於25日提交至arXiv的論文,主要研究了量子複雜性類「QMA中黑盒放大的侷限性」。那麼,QMA是什麼?QMA,即量子梅林-亞瑟(Quantum Merlin Arthur),可以看作是NP的典型量子版本。它包含了一類決策問題:如果答案是「是」,Merlin可以傳送給Arthur一個量子見證態,能讓Arthur(在經過多項式時間的量子計算後)以至少2/3的機率接受;而如果答案是「否」,無論Merlin傳送什麼見證態,Arthur接受的機率都至多為1/3。在這裡,如同複雜性理論中常見的那樣,常數2/3和1/3隻是慣例,可以通過放大取代為,比如1-2⁻ⁿ和2⁻ⁿ。在這個領域,一個長期懸而未決的問題是——QMA是否等於QMA₁,其中QMA₁是QMA的一個子類,允許協議具有「完美完備性」?2008年,Scott Aaronson通過實用分析方法,證明了存在一個「量子預言機」,使得QMA≠QMA₁。這意味著,任何證明QMA=QMA₁的嘗試,都需要「量子非相對化技術」。這倒並不是說這個障礙難以踰越,但至少說明了問題的複雜性。突破:雙指數放大侷限直到今年6月,Freek Witteveen和Stacey Jeffery發表了一篇重磅論文,證明了QMA協議可通過黑盒方式放大,讓完備性誤差達到了「雙指數級小」,即 1/exp(exp(n))。論文地址:https://arxiv.org/pdf/2506.15551他們採用了一種Scott從未想過的方法:將接受機率編碼到一個量子態的振幅中,而這些振幅以幾何級數遞減。事實證明,QMA這位相識25年的「老朋友」,依然能帶來驚喜。在8月的線上會議,Scott問道:這個雙指數的完備性,是黑盒技術的極限嗎?能否進一步放大到三指數級小,即1/exp(exp(exp(n)))。30分鐘攻克,GPT-5上大分一周後,Scott聯手Freek寫出了完整證明,表明在黑盒技術下,雙指數級小的完備性誤差已是極限。換句話說,他們將2008年的「QMA≠QMA₁」預言機分離結果量化,得到的「下界」(lower bound)恰好與6月論文的協議相匹配。這項研究最引人注目的部分,或許並不是量子複雜性本身,而是AI在其中的角色。如前所述,這是Scott Aaronson第一篇論文,其主要成果證明中的一個關鍵技術步驟來自AI。具體來說,是GPT5-Thinking。當時,作者面臨的一個問題是:分析一個N×N的厄米矩陣E(θ)(比如,N=2ⁿ),其每個元素都是一個關於實參數θ的poly(n)次三角多項式。需要證明的是,當θ從0變化到1時E(θ)的最大特徵值,以證明λₘₐₓ(E(θ))不可能從一個接近0的值開始,然後長時間「停留」在接近1的狀態,例如接近 1/exp(exp(exp(n)))。針對這一問題,如有1-2周的時間,Scott和合著者查閱文獻也可以解決。但他選擇了GPT5-Thinking,5分鐘後,它給出了一個自信但明顯錯誤的答案。Scott並沒有嘲笑AI,而是告訴它錯在那裡。GPT5-Thinking在思考片刻後,再次嘗試給出了一個更好的方案。就這樣,經過了幾次反覆迭代,如同研究生/同事交流一樣,GPT-5給出了以下函數:它正確指出,這是一個關於θ的次數可控的有理函數,並且恰好編碼了最大特徵值 λₘₐₓ(E(θ))與1的接近程度的相關資訊。令人欣喜的是,這個方法奏效了,不用AI協助就能輕鬆完成驗證。Scott認為,或許GPT5在訓練資料中,某個地方見過類似結構,但若是學生提出的方案,他會毫不猶豫地稱其為「巧妙」。最後,他回憶道,一年前,自己曾用當時的GPT推理模型嘗試類似問題,結果遠不如人意。現在,是2025年9月,我可以明確告訴你——AI已經開始真正觸及那些我認為最具人類智慧特徵的核心工作:證明量子複雜性類之間的預言機分離。雖然它現在還做不到獨立撰寫整篇研究論文,但如果你清楚自己在做什麼,它能幫你擺脫困境,這可以說是一個絕佳的應用場景。誰知道,這種情況會持續多久?Scott Aaronson調侃道,「想到這兒,不禁慶幸自己還有個鐵飯碗——終身教職」。 (新智元)
剛剛,GPT-5首次通過「哥德爾測試」!破解三大數學猜想
【新智元導讀】GPT-5首次通過「哥德爾測試」,連破三大組合最佳化猜想!甚至,它能自主推翻原有猜想,給出全新有效解法,當場驚呆OpenAI研究科學家。AI迎來歷史性一刻!GPT-5成功破解三大猜想,通過了「哥德爾測試」。OpenAI科學家Sebastien Bubeck驚嘆地表示,這類開放性問題,頂尖博士生往往耗費數日才能解決。不同以往,這項由海法大學和思科主導的研究,首次讓AI直面「開放性數學猜想」的挑戰。論文中,團隊設計了五項「組合最佳化」領域的測試任務,每項任務提供1-2篇文獻作為瞭解。在三個相對簡單的問題上,GPT-5給出了近乎完美的解法,證明了其強大的邏輯推理水平。令人驚喜的是,在猜想二中,它不僅成功求解,還推匯出與研究人員預期不同的有效解法,顛覆了原有猜想。這一突破,標誌著頂尖AI正從「學習數學」邁向「真正做數學」的關鍵跨越。不難看出,AI正為數學發現做出實質性貢獻,提前預演了2030年代科研範式的深遠變革。AI單挑「哥德爾測試」遠超陶哲軒想像此前,陶哲軒曾分享了自己與OpenAI o1合作經驗,生動地將其比作「指導一名平庸,但並非完全無能的研究生」。在他看來,LLM雖能在大量提示後,逐步得出解決方案,但無法獨立生成關鍵概念性想法。不過,經過一兩次迭代,結合工具,AI就能達到「合格研究生」的水平。OpenAI和Google均宣稱,自家前沿LLM無需外部工具,即可拿下IMO金牌。但這個具有挑戰性的問題,畢竟是為高中生設計的。在最新論文中,研究焦點不同:讓AI處理更高級的數學猜想,即「哥德爾測試」。這些猜想要求的不只是解題能力,還需要整合背景知識和創新思維。為此,研究人員從「組合數學」的子領域——子模最大化中挑選問題。這類問題具體、有明確動機,且控制在能展示數學推理範圍內。與陶哲軒實驗不同,團隊沒有提供大量提示或指導。論文中,他們精心設計了五大猜想。只給每個問題一個最小化描述,外加上1-2篇參考文獻。難度設定為:優秀本科生、研究生,有望在一天內解決所有問題,同時確保大部分問題,存在明確猜想及已知解決路徑。GPT-5的任務是,基於有限輸入,生成完整證明。這模擬了真實研究場景:數學家往往從少量線索出發,獨立探索。在測試中,GPT-5表現既有亮點,也有短板,一起看看具體的解題能力。GPT-5破解三大猜想猜想一:「單調+非單調」的子模函數在凸多面體上取最大這個要求好像是,讓「兩個互相掣肘的收益」加在一起最大化:一部分收益G會越加東西越大(單調),另一部分 H 可能先漲後跌(非單調),而選擇必須落在一個「不能超過上限」的凸集合裡。GPT-5做法是套用連續Frank-Wolfe思路,從零開始,每一步朝著「此刻最能漲分」的方向挪一小步,並使用「遮罩」保證不越界。它把參考論文裡「凹函數」的位置換成 H,推了個遞推式,最後得到一個拆分保證——至少拿到約63%的G(o),再加上37%的H(o)(若H也單調則也是63%),外加一個隨步長參數ε線性衰減的小誤差。猜想二:p-system約束下的「雙指標」演算法這題允許「價值幾乎最優(1−ε)」,但在可行性上稍微超一點(放寬倍數g(ε)),目標是在越廣泛的p-system約束下把g(ε)壓到儘量小。GPT-5提了個樸素而有效的流程,每一輪都在當前解的基礎上,再做一次「在約束裡儘可能有價值」的貪心選集(greedy),最後把若干輪的結果並起來。證明關鍵是:每一輪都能把「距離最優」的差距按p/(p+1)的比例縮小,多滾幾輪差距就指數式消退,於是只要做 ℓ≈ln(1/ε)/ln((p+1)/p)輪,就能把價值推到1−ε。這也意味著,放寬倍數 g_p(ε)=⌈ln(1/ε)/ln((p+1)/p)⌉。部分解題過程如下:令人意想不到的是,猜想二中,GPT-5甚至推匯出不同的近似保證,經核查後推翻原有猜想,並提供了有效解。猜想三:γ-弱DR子模+凸約束的最大化這個猜想把「邊際收益遞減」的連續版放寬為一個強度參數 γ(γ=1即標準情形;γ越小,遞減越弱)。GPT-5還是用Frank-Wolfe:步步解一個「沿梯度的線性子問題」,用小步長前進,並靠平滑性控制離散化誤差。核心一步是把經典證明中的關鍵不等式按γ縮放,於是把著名的1−1/e近似比提升為更一般的1−e^{−γ},再加上一個可調的L/(2K)等級誤差項(K為迭代輪數)。在研究人員看來,結論與推理主體靠譜。只是GPT-5多假設了「向下封閉」這種其實用不上的條件、以及對「步長總和=1」的細節有點不一致。可以看出,如果題目有明確的、單一的推理路徑,GPT-5表現不錯——五道題裡有三道能給出幾乎正確的證明。一旦需要把不同證明結合起來,比如4和5,GPT-5就搞不定了。猜想五中,GPT-5倒是識別出了和作者設想一樣的演算法,但分析得不對。他們後來復盤發現,這個證明其實有可能做出來,只是難度比預想的高。比起早期模型,GPT-5在組合最佳化這種專業領域裡,數學能力明顯進步,偶爾還會冒出一點小創新。這恰恰說明了,它現在還缺乏「整合性推理」能力,這是個主要短板。作者介紹Moran FeldmanMoran Feldman是海法大學電腦科學系的教授。在此之前,他曾擔任以色列開放大學的教職,並在洛桑聯邦理工學院(EPFL)擔任博士後研究員,師從Ola Svensson教授。Amin KarbasiAmin Karbasi思科基金會AI負責人,曾任Robust Intelligence首席科學家,耶魯大學教授,Google工程師。 (新智元)