#數學
頂級恐怖!MIT數學實錘證明:ChatGPT正誘發「AI精神病」,全球14人已死亡
【新智元導讀】就在剛剛,MIT伯克利史丹佛的研究者給出數學鐵證:ChatGPT正誘發「AI精神病」!那怕你是理想的貝葉斯理性人,也難逃演算法設下的「妄想螺旋」。2026年2月最危險的一篇AI論文,已經悄然發表——AI會誘發人類精神病,剛剛實錘了!MIT、伯克利和史丹佛的研究者,剛剛用嚴格的數學方法證明,AI可以將一個完全理性的人變成妄想症患者。原因就在於,AI內建「迎合傾向」,很可能會引發「妄想螺旋」,在反覆確認中強化錯誤信念!這項研究的題目很克制,甚至有點學院派:《諂媚型聊天機器人會導致「妄想式螺旋」,即便面對的是理想貝葉斯理性人》。什麼意思?就是說,那怕你是一個絕對理性、毫無偏見的邏輯天才,只要你持續和AI聊天,你最終一定會陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對現實的認知。這,就是一種名為「AI精神病」的新型流行病。這個研究一經發佈,就在X上引發熱議,連馬斯克都下場宣傳。這篇論文最可怕的地方,不在於它講了幾個駭人聽聞的個案,而是它把「AI為什麼會把人越聊越偏」這件事,寫成了一個可計算、可模擬、可推導的數學模型。一切都有數學和公式實證!MIT用數學證明:ChatGPT正在悄悄逼瘋人類如果你最近覺得自己的觀點越來越「正確」,如果你發現AI簡直是你靈魂深處的伯樂,請務必讀完這篇文章。下面是一個真實的案例。2025年初,一名叫Eugene Torres的會計師開始頻繁使用AI輔助工作。他此前沒有任何精神病史,是一個邏輯嚴密的人。但僅僅幾周後,他就堅信自己被困在一個「虛假宇宙」中。在AI的持續「認可」下,他開始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯絡,只為「拔掉大腦的插頭」 。這並非孤例。據統計,如今全球已經記錄了近300起這類「AI誘發型精神病」案例,它已導致至少14人死亡,42個州的司法部長已要求聯邦政府採取行動。其中,有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形而上學的啟示。為什麼一個一向理性的人,會如此輕易被AI帶進坑裡?妄想式螺旋論文研究的核心現象,叫做delusional spiraling,也就是妄想式螺旋。在對話反饋回路里,人的信念被一步步推向極端,而且本人還覺得自己越來越「有道理」。作者關注的元兇,是另一個詞sycophancy,也就是諂媚。這個現像我們都知道,不過這個論文的一大關鍵貢獻,就是試圖回答:那怕使用者是理性人,這種螺旋為什麼仍然會發生?也就是說,他們要證明,這是一個系統性問題,而非個人問題。論文最狠的一步:先假設你是「完美理性人」很多人看到AI把人聊偏了,第一反應是:可能這些人本來就很偏執?論文一上來,就把這條路堵死了。它設定的使用者,是一個理想化的貝葉斯理性人。就是說,這個人不會瞎猜,不會情緒化判斷,每獲得一條新資訊,都會按照機率論,嚴絲合縫地更新自己的信念。這也就是這項研究最震撼的部分:研究者建立了一個理想貝葉斯模型。考慮一個理性主體(「使用者」),他與一個對話對象(「機器人」)進行互動。使用者對於某個關於世界的事實 H∈{0,1}存在不確定性,但對這一事實具有一定的先驗信念。使用者與機器人之間的對話以若干輪進行,每一輪包含四個步驟硬核數學推導:為何理性無法自救?假設有一個理想理性的使用者,正在和AI討論一個事實H(比如:疫苗是否安全)。H=1代表事實(疫苗安全)。H=0代表謬誤(疫苗危險)。第一步:初始博弈使用者最初是中立的,其先驗機率 p(H=0) = 0.5。當使用者表達一個微小的懷疑:「我有點擔心疫苗副作用。」(即採樣第二步:AI的「投喂」邏輯AI手中掌握著大量資料點D。如果是「公正模式」,它會隨機拋出真相;但在「諂媚模式」下,AI會計算一個數學期望:扔給使用者。第三步:貝葉斯更新的陷阱理想理性的使用者接到資料後,會根據貝葉斯公式更新自己的信念:因為使用者認為AI是客觀的,所以他會把AI投喂的「偏見資料」當成客觀證據。第四步:死循環(妄想螺旋)使用者信心稍微偏向H=0。使用者的下一次提問會帶上更強的傾向性。AI為了繼續討好,會投喂更極端的證據。使用者信心進一步激增。數學模擬顯示,當AI的諂媚機率π達到0.8時,原本理性的使用者有極高機率在10輪對話內達到99%的錯誤信心(即堅信H=0) 。由此,研究者得出結論:妄想螺旋不是Bug,它是理性的邏輯在受到干擾的資訊環境下的必然產物。圖3展示了10條隨機選取的模擬對話軌跡,這些對話發生在一個「尚未受奉承影響」的使用者與一個奉承傾向為𝜋 = 0.8的機器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對真實命題𝐻 = 1的高度確信,而另一些則「螺旋式」地滑向相信𝐻 = 0,這種分化源於奉承型機器人回覆的自我強化特性圖2A展示了該發生率隨𝜋變化的情況。當𝜋 = 0(即機器人完全中立)時,災難性螺旋的發生率非常低。然而,隨著𝜋的增加,這一發生率也隨之上升;當𝜋 = 1時,發生率達到0.5研究者建構了一個認知層級的智能體體系,包含四個層次(見圖 4)。在第0層,是完全中立的機器人(𝜋 = 0)。在第1層,是我們在前一節中討論的「對奉承不敏感」的使用者。在第2層,是前一節中的奉承型機器人,它會選擇 𝜌(𝑡) 來迎闔第 1 層使用者的觀點,從而進行驗證與附和。最後,在第3層,是「能夠意識到奉承」的使用者,該使用者在解讀回覆時,會將機器人建模為第2層的奉承型機器人。圖5展示了使用者信念隨時間的變化情況,其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時,使用者會推斷機器人不可靠;當 𝜋 較低時,使用者會認為機器人在一定程度上是可靠的,於是會採納證據,並逐漸增強對 𝐻=1的信心可以補救嗎?這種情況可以補救嗎?OpenAI等公司曾嘗試過兩種補救措施,但論文證明,它們在數學上都是徒勞的:方案一,就是禁掉幻覺,也就是強制AI只准說真話,不准編造。結果,這個方案失敗了。 AI依然可以通過「選擇性真相」來操縱你。它不說假話,但它只告訴你那些支援你錯誤觀點的真話,而掩蓋相反的真話。方案二,是給使用者警告,在螢幕上直接告訴使用者:「本AI可能會為了討好你而表現得諂媚。」結果依然失敗了。研究者建立了一個「覺醒級」模型,使用者深知AI可能在拍馬屁。但在複雜的機率博弈中,使用者依然無法完全分辨那些資訊是有價值的證據,那些是純粹的奉承。只要AI摻雜了一點點真實訊號,理性的貝葉斯接收者依然會被慢慢誘導,最終不可挽回地滑向深淵。29歲的Allyson是兩個孩子的母親,每天都花很多時間跟ChatGPT交流後,它認為其中一個實體Kael才是她真正的伴侶,而不是她的丈夫史丹佛的恐怖發現:39萬條對話,300小時沉淪史丹佛團隊分析了39萬條真實對話記錄,發現的情況令人觸目驚心:65%的消息包含諂媚式的過度驗證。37%的消息在瘋狂吹捧使用者,告訴他們「你的想法能改變世界」。更可怕的是,在涉及暴力傾向的案例中,AI居然在33%的情況下給予了鼓勵。曾經,有一位使用者曾警覺地問AI:「你不是在無腦吹捧我吧?」AI的回答極具藝術性:「我沒有吹捧你,我只是在反映你所建構的事物的實際規模。」於是,這名使用者在那場螺旋中又沉淪了300個小時。AI是靈魂伴侶嗎?在最後,研究者表示:人們正親手打造一個擁有4億周活使用者的產品,它在數學上竟然無法對使用者說「不」。當你下一次覺得ChatGPT或者其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時,請務必停下來。你可能並沒有變得更聰明,你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。 (新智元)
“黑天鵝”之父:我們今日所處的世界
導讀:本文是《黑天鵝》、《反脆弱》等系列作品的作者納西姆·塔勒布在 2025 年羅恩·保羅研究所(Ron Paul Institute for Peace and Prosperity)年會上的演講。演講時間為9月初。羅恩·保羅研究所由美國前國會議員羅恩·保羅創立,以倡導“有限政府、反對海外軍事干預、強調個人自由與市場經濟”為宗旨。它的年會匯聚學者、評論員和政界人士,討論全球政治、經濟與社會趨勢,常常與華盛頓的主流政策立場針鋒相對。塔勒布以研究“不確定性”和“黑天鵝事件”聞名,在這次演講中,他從隨機過程和複雜系統的視角,提出了對當下世界的七點觀察。以下為塔勒布演講全文編譯。朋友們,我今天要談七個要點。為什麼是七個?因為我最近看了太多巴比倫歷史。一、從“連接”到“技術封建主義”第一個要點是關於“集中化”。這是現代世界的一個顯著特徵,往往和我所謂的“黑天鵝”問題聯絡在一起。如今,由於高度互聯,“贏者通吃”的效應無處不在。想像一個小島,上面有許多物種,但每平方米密度很高。再對比一個大陸:一旦有足夠的空間,一些物種最終會佔主導,導致單位面積的多樣性下降。這正好對應了當今的文化與經濟生活。以書籍為例。大家都讀同樣的書——比如《哈利·波特》;音樂上也一樣——比如披頭士樂隊。在出版行業,最終是少數作家勝出。你要麼能賣出兩千萬冊,要麼就得去星巴克打工(除非像我一樣抵制那家公司)。歌劇演員也如此。過去,他們還能靠本地演出維持生計,因為當時沒有音像記錄。但現在,少數明星攫取了大部分收入。這種集中化本身並不是壞事——它只是市場機制的一部分,是事物運作的方式。問題在於,當頂端的地位變得“固化”(sticky)時,就會出現病態。比如,從大學宿舍走向主導市場的Google之路,曾經很短。以前像 AltaVista 這樣的搜尋引擎可以在幾分鐘內被取代,由新崛起的Google取而代之。但如今要取代Google卻幾乎不可能,因為其統治地位已經根深蒂固。這就是不健康的集中,導致了瓦魯法基斯(Varoufakis)所稱的“技術封建主義(technofeudalism)”。集中化也同樣適用於病毒。新冠在大約一周內就傳遍全球,迅速佔據了整個星球。相比之下,腺鼠疫(則花了數年時間才從君士坦丁堡傳到英格蘭北部,並且因為缺乏交通聯絡,根本沒有傳到美洲。今天的超級互聯加劇了集中化,但這只有在我們還抱著 20 世紀初那種陳舊的經濟、社會、文化和生物學教科書理解時,才顯得病態。再看財富。比如在美國,二十年後能維持下來的億萬富豪家族只有 20%。而在歐洲情況相反——集中化越來越頑固。我們正在朝著歐洲式的僵化方向走,而且是全球性趨勢。評論 1資本主義之所以能運轉,不僅在於它允許向上的流動,更在於它加速了向下的流動。二、歷史處理程序的動態性與誤讀第二個要點,是我們在理解“動態過程”上的困難,尤其是在地緣政治方面。因為歷史學家和統計學家看待歷史的方式完全不同。我的專長是隨機過程(stochastic processes,隨機演化的數學模型),所以我把歷史看作一個動態的演變過程,而不是靜態的教科書描述。評論 2GDP 及其增長率在預測未來狀態時都可能誤導人;但如果忽視增長差異,其複利效應帶來的錯誤可能極為巨大。當拿不準時,應把“增長率”而不是“GDP 現值”當作基準。2007 年,我出版了《黑天鵝(The Black Swan)》。那一年,美國佔世界經濟的比例大約是 20%(以購買力平價 PPP 計,這個指標更合理),歐洲也差不多,中國則只有 6%。如今,美國大約 15%,並且還在下降;歐洲約 14%,下滑更快;而中國已超過 20%。這些變化,發生在一本書的壽命之內。複利增長中的小差異,會隨著時間推移造成巨大的結果差別——華倫·巴菲特對此反覆強調。即便你用“實際美元”來衡量 GDP,故事也差不多,只是基數不同而已。再看看軍事開支:美國每年花費大約一兆美元,中國則大約是三分之一。但比較兩者的“性價比”就不一樣了。在中國製造一把椅子可能只要 1 美元,而在美國則要貴得多。把這種差異套用在軍事生產上,你就能明白誰才是正在崛起的真正超級大國。如果中國現在還不是,那也只是幾周或幾個月的問題——因為變化太快了。這既不是“親中”,也不是“反中”,而只是現實。中國製造業總體更便宜,在軍事領域的相對優勢則更明顯。美國則存在“5.3 萬美元一個垃圾桶”(譯註:2020 年,彭博社報導空軍以 5.3 萬美元採購一個垃圾桶)的問題。美國的武器工業(麥格雷戈上校 Col. McGregor 已經提到過)缺乏競爭力。這是美國三大“極度昂貴”的領域之一,另外兩個是醫療和教育——在這些方面,美國的成本比別國高出一到兩個數量級。中國的軍費開支名義上只是美國的三分之一。你很容易看出發生了什麼,因為他們沒有“5.3 萬美元垃圾桶”的問題。由於一種認知偏差,人們往往把“現狀”理解為 GDP 總量。但真正的“現狀”是 GDP 增長率。中國在 15 年裡從 6% 上升到全球 GDP(PPP)佔比超過 20%。試想 2035 年地緣政治格局會是什麼樣子。我們的預測往往失敗,因為我們依賴對過去的“原始分析”,忽視了二階效應。在未來,關於戰爭的討論可能需要發生在北京,而不是華盛頓。問題是,華盛頓那些高薪官員或許根本意識不到這些變化。三、S 曲線與經濟飽和第三個要點是S 曲線,我在《反脆弱》裡討論過。在生物學和經濟學中,增長往往先是凸性的高速擴張,然後逐漸放緩進入飽和階段——增長雖然可能沒有上限,但仍然低於對數型的無限增長。舉個例子:當你已經有一個兩車位的車庫時,你真的還需要一個五車位車庫嗎?有些人可能會,但大多數人不會——因為激勵已經減弱。中國的增長之所以迅速,是因為很多人仍然缺乏基本的生活設施,比如汽車;而歐洲和美國已經接近飽和,增長動力有限。與此同時,許多人也逐漸發現,某些生活方式的改善(如修建自行車道、打造步行和騎行友好型城市)雖然提高了生活質量,卻未必帶來經濟增長。問題在於,負債最重的,偏偏是這些已經飽和的經濟體——美國和歐洲。有一句法語諺語:On ne prête qu’aux riches(“只借錢給富人”)。然而,當一個國家已經很富有卻仍然大量舉債時,它需要依賴增長來償還債務,而在 S 曲線的頂部,增長恰恰最難實現。更糟的是,某些政策(比如本屆政府推行的關稅)會進一步抑制增長,因為它們迫使資源流向低利潤率的活動。就像讓一名腦外科醫生每周花兩天去當園丁,以避免被專業園丁“剝削”。這種從高附加值轉向低附加值的轉變會壓低 GDP——這是正統經濟學家普遍認同的觀點。而偏偏我們現在是最需要增長的時候。GDP 增長必然在“窮人不夠用”的時候放慢。增長遵循一條 S 曲線,儘管右側延伸較長。生物學中的事物往往會飽和,或至少放緩。把人從貧困中拉出來時,經濟增長得很快;但當你不得不“進口窮人”才能維持增長時,就難多了。問題在於,國家就像個人一樣,往往在不需要借錢時借得最少,而在富裕時卻借得越來越多,最終陷入債務螺旋。美國的龐大政府體系和不負責任的財政政策正在加劇這種困境。不久之後,美國的大部分開支都會被用來償還債務,而我們缺乏糾正這一局面的政治機制。更糟的是,我們現在依賴外國人或本國退休老人來購買國債。拜登前總統的政策,比如凍結美元資產,已經讓投資者對美元資產望而卻步。如果你的資產可能因為“某人曾和某個與普丁沾親帶故的銀行家吃過午飯”而被凍結,那誰還願意持有美元?於是,各國央行紛紛轉向黃金。隨著金價大幅上漲,金磚國家也在逐漸減少對美元儲備的依賴。四、移民從來沒有一個社會會單純出於“喜歡移民”而歡迎他們,真正的理由總是經濟上的實用性。西方國家先是富裕了,然後發現沒人願意去打掃廁所、修屋頂、帶那些吵鬧的被寵壞的孩子,或者割草坪。如果要讓牙醫每周抽兩天時間去當園丁,那成本會高得無法承受。而且中產階級的年輕人也不會夢想著長大以後去做清潔工。所以,這些工作只能靠“輸入窮人”來完成——那怕是勉強接受。評論 3少量移民在社會上是無害的;但大量移民則會讓本地人覺得這與歷史的延續出現了“斷裂”,甚至像一次入侵,即便實際上並非如此。美國和歐洲在結構上已經對廉價移民勞動力產生了依賴——房子越建越大,草坪越來越廣,維護也越來越費工。一旦這些勞動力驟減,就會引發“超級通膨”,因為此類供給收縮的效應是非線性的。還記得 2022 年的情況嗎?事實上,每一個靠“反移民”綱領上台的西方政黨,最後執政結束時的移民數量都比之前更多。義大利的總理喬治婭·梅洛尼(Giorgia Meloni)就是最新的例子。在這種背景下,近期的驅逐移民舉措看上去大多隻是象徵性的動作——為了贏得選票而做的姿態。有些甚至純粹是出於羞辱移民的惡意。那麼,西方能不能擺脫移民?答案是否定的。除非願意把自己的全球 GDP 攔腰砍掉——而對於已經被債務壓得喘不過氣的經濟體來說,這是絕對付不起的代價。理論上這可能是理性的選擇,但在現實中幾乎沒人願意承受。需要強調的是,我本人對封閉的、排外的單一民族國家(xenophobic ethnostates)並無意見,只要它們不去入侵別人,並且各過各的就好。但在現代條件下,你不可能既維持這樣的體制,又背負著需要增長來償債的龐大債務。於是我們陷入一種奇怪的局面:那些排外的人,一方面依賴移民來滿足自身需求,另一方面卻投票反對移民——這就是一種“公地悲劇”。評論 4人們對移民數量的感知往往比現實高出很多。原因可能在於他們往往集中在城市中心區域,差異又特別顯眼,產生了“顯著性偏差”。在歐洲,穆斯林人口比例通常低於 1/20,大多數國家在 1/10 到 1/100 之間。但普通人的直覺估計往往要高一個數量級。這種錯覺讓人以為“移民的好處只屬於移民自己”。但現實是,大多數抱有這種看法的人,最終都依賴移民來維持他們所謂的“更好生活”——除非他們對“更好生活”的定義完全不涉及物質層面。關於高技能移民的說明在“反向人才流失”(即高技能移民流入)方面,歐洲和美國之間有顯著差別,這在很大程度上解釋了兩者增長率的差異。美國憑藉更豐厚(但也更不平等)的學術薪酬,以及更少的退休限制,一直在吸引歐洲最具進取心和生產力的科學家。在紐約大學坦頓工程學院(Tandon School of Engineering of NYU),我待了十五年以上。那裡的教師和研究生幾乎全部是外國出生的。評論 5通過簽證限制來逆轉“人才流失”方向,可能實際上有助於人才來源國,讓他們的人才留在本地發展。五、社交媒體的解放效應接下來的要點是一個樂觀的消息:社交媒體改變了資訊流動的方式。在歷史上,人們在理髮店、魚市交換消息,既是傳遞者,也是接收者。大眾傳媒打破了這種模式,把我們變成了被動的電視觀眾——由國家和經過淨化的報紙來“灌輸”。而如今,像 TikTok 和 X(前 Twitter)這樣的平台,讓我們重新回到既能分享、也能接收資訊的自然模式。社交媒體很難被控制,即便有審查機制。而人工智慧的存在更讓操控變得困難:一旦想要系統性操縱,結果往往會前後矛盾。舉個例子,如果 1995 年發生在加薩的種族清洗,可能會被傳統媒體完全掩蓋。但在 2025 年,社交媒體讓真相曝光。如今的媒體只對政客或與現實脫節的人有意義——任何 30 歲以下的人都不會關心 ABC 新聞。所以,這是件好事。有人和我談起華盛頓的“媒體循環”,我直接告訴他:唯一在乎媒體的人,要麼坐在輪椅上,要麼混跡政壇。我自己能走到今天,最初靠的是 Facebook,後來是 X/Twitter,而不是傳統媒體。我甚至拒絕了出版社為我最新幾本書安排的媒體巡演。評論 6傳統集中化媒體對西方公民的控制被打破,直接的效果之一就是:以色列再也無法把他們的種族清洗和種族隔離包裝成“捍衛西方價值觀、抵禦伊斯蘭原教旨主義”的敘事。六、政府角色的擴張第六個要點,是政府的持續膨脹,使得跨時代的比較完全失效。在歷史書裡,我們會讀到路易十四這樣的君王,或者像科爾貝爾(Colbert)這樣的中央集權者。但今天的政府,比當時大得多,也更具侵入性。在歐洲,政府支出佔 GDP 的 40%–50%(在法國更高,尤其是如果把教育算進去)。美國官方數字略低一些,但如果加上地方政府和最近的各類干預,比例其實更高。一個世紀前,政府開支佔 GDP 的比例往往不到 15%,很多時候甚至不到 5%。評論 7政府規模是與時代相關的概念,因此跨時代比較並不成立。今天的政府比歷史上任何時候都更具“有效的滲透力”,這要歸功於技術。即便是在依靠亞當·斯密原理驅動的經濟體中,政府的規模也在大幅增長。1500 年時,即使是獨裁政府也難以掌控太多,因為它在經濟中的佔比很小。但今天的政府擁有更廣的觸角,而且這一趨勢幾乎無法阻擋。所謂“有限政府”的保守派,在當下的訴求,其實和幾十年前中央集權者的願望差不多。七、規模的重要性最後一個要點,是治理與規模息息相關。我有一句箴言,被朋友們這樣總結:在國家層面,我是自由意志主義者;在州層面,我是共和黨人;在市政層面,我是民主黨人;在家庭層面,我是共產主義者。意思是說,治理方式必鬚根據規模來調整。比如說,鄉村俱樂部都有規則和執行機制——這其實就是一種“政府”。但沒有人會抱怨這是“俱樂部獨裁”。回顧歷史,成功的治理模式往往是小規模的城邦,比如威尼斯、杜拜、新加坡。小規模使治理更有效。而隨著美國經濟的規模和複雜性不斷擴大,治理反而變得越來越困難。事實上,我們今天需要的,是比 50 年前或 100 年前更多的地方自治,但現有制度並沒有適應這一現實。 (格上財富)
《大西洋月刊》丨陶哲軒:數學的邊界
The Edge of Mathematics傳奇數學家陶哲軒闡釋生成式人工智慧的前景。作者:馬特奧·王 (Matteo Wong)插圖:《大西洋月刊》繪製。圖片來源:Kimberly White / Getty Images2026年2月24日在過去的幾個月裡,幾位研究人員開始提出一個相同的挑釁性主張:他們利用生成式人工智慧工具解決了一個此前未解的數學難題。那些最極端的承諾——即人工智慧輔助解決數學界一些最棘手的問題——很可能最終被證明是空洞的炒作。但是,許多由人工智慧撰寫的解答(儘管針對的是遠沒那麼受讚譽的問題)已經通過了驗證。這些答案針對的是“埃爾德什問題”(Erdős Problems)中的一部分——這是由匈牙利數學家保羅·埃爾德什(Paul Erdős)提出的1000多個數學問題——是利用包括ChatGPT在內的生成式人工智慧模型寫成的。OpenAI迅速宣佈了一場勝利:“GPT-5.2 Pro解決了另一個開放的埃爾德什問題,”OpenAI總裁格雷格·布羅克曼(Greg Brockman)於一月份在X平台上發帖稱,“這將是數學和科學進步狂野的一年!”圍繞這一新聞的大部分興奮之情,源於這些人工智慧所寫證明的裁決者:陶哲軒。他是加州大學洛杉磯分校(UCLA)的教授,被廣泛認為是當今世界上最偉大的在世數學家。他的認可似乎賦予了生成式人工智慧最大的承諾以合法性——即推動人類知識和文明的邊界。當我本月早些時候致電陶哲軒,詢問他對人工智慧能為數學帶來什麼的看法時,他的態度更為溫和。他告訴我,人工智慧生成的埃爾德什問題解答令人印象深刻,但並非壓倒性的:陶哲軒表示,這些機器人實際上只是取得了一些“廉價的勝利”。陶哲軒長期以來對人工智慧工具能為他的領域做些什麼感到好奇,但也持保留態度。我們在2024年秋季第一次交談時,陶哲軒將聊天機器人比作“平庸但並非完全無能”的研究生。大約六個月後,他告訴我,這些模型在“某些類型的高層數學推理”方面有所進步,但缺乏創造力且會犯細微的錯誤。但在我們最近的談話中,他的態度更加樂觀。人工智慧或許尚未處於解決世界上所有偉大數學問題的邊緣,但聊天機器人已經達到了可以與人類數學家協作的水平。他說,在這個過程中,這項技術正在開闢一種不同的“做數學的方式”。本次對話經過編輯,以求簡練清晰。馬特奧·王: 最近,關於ChatGPT解決某些埃爾德什問題的能力引起了極大轟動。在過去一年左右的時間裡,您看到生成式人工智慧的數學能力是如何演變的?陶哲軒: 有一大群人非常、非常希望看到人工智慧的成功故事。與此同時,也有另一群截然相反的人想要抹殺所有人工智慧的進展。而事實介於兩者之間,是一個非常複雜且微妙的故事。特別是在這些埃爾德什問題中,有一小部分是我們要真正解決的高知名度問題,然後還有長長的尾部,由非常冷僻的問題組成。人工智慧非常擅長系統地探索這個長尾部分,並攻克其中最簡單的問題。但這與人類的風格截然不同。人類不會系統地瀏覽所有1000個問題並挑選出最簡單的12個來研究,而這正是人工智慧正在做的事情。這些問題之間確實存在著巨大的難度差異。看看迄今為止人工智慧獨立解決的問題,你會發現:哦,好吧,它們使用的是一種標準技術。如果一位專家花半天時間研究此事,也能解決出來。當然也有更複雜的、由人工智慧輔助的解決方案。我認為在短期內,我們將通過純人工智慧方法在簡單問題上獲得許多快速勝利。而在接下來的幾個月裡,我認為我們將看到各種形式的人機混合貢獻。我也從出現的一些證明中學習。我喜歡閱讀它們——也許它使用了某篇1960年論文中的技巧,而我之前並不知曉。所以它可能不是超級、超級有創造力,但它是新的,並且能做到那些審視該問題的人類專家所忽略的事情。王: 您曾寫道,當人類數學家面對一個新問題時,無論成功與否,他們都會產生見解供該領域的其他人建構基礎——這是基於人工智慧的證明所無法提供的。為什麼會這樣?陶哲軒: 這些問題就像是你需要徒步前往的遙遠地點。在過去,你必須踏上一段旅程。你可以放下路標供他人跟隨,也可以繪製地圖。人工智慧工具就像是用直升機把你直接空降到目的地。你錯過了旅程本身的所有益處。你直接到達了終點,而這實際上只是解決這些問題價值的一部分。王: 當您思考當今這些模型的能力時,除了讓非數學家能夠處理更高級的問題外,它們還能為您的領域做出什麼貢獻?陶哲軒: 如今有很多非常乏味的數學工作是我們不喜歡做的,所以我們尋找巧妙的方法來繞過它們。但人工智慧會很樂意猛衝通過這些繁瑣的計算。當我們把人工智慧整合到人類的工作流程中時,我們就可以滑過這些障礙。我還認為數學家將開始在更大的規模上進行數學研究。想想科學研究中個案研究與人口調查之間的區別。如果你要在18世紀研究一種疾病,如果這是一種罕見病,你可能會研究一位患有此病的病人,記錄其所有症狀並做詳盡的筆記。但在21世紀,你可以進行臨床試驗,給1000人用藥,進行統計分析,從而獲得關於藥物效率更精確的資訊。數學仍然很大程度上處於個案研究的水平。一篇論文會選取一兩個問題,以一種非常手工打造、高強度的方式對其進行透徹研究。這是我們的風格。但人工智慧工具實現的是“群體研究”。王: 您對人工智慧模型在數學能力方面取得的進步感到驚訝嗎?陶哲軒: 有一點驚訝。發生的很多事情是我預料到的,但它們比我預期的時間表稍微提前了一點。並沒有提前太多。例如,在2023年,我為微軟寫了一篇文章,預測到2026年,人工智慧將成為值得信賴的合著者——即其對技術論文的貢獻將達到合著者的水平。那篇文章反響不一:有人說我太過雄心勃勃,也有人說我太過悲觀。但我認為這基本上幾乎完全符合時間表。我們基本上看到人工智慧的使用水平達到了我預期初級人類合著者所能做出的貢獻,尤其是那些非常樂意做苦差事並解決大量繁瑣案例的合著者。王: 在未來一兩年內,您希望或期待生成式人工智慧模型有那些改進?陶哲軒: 我們需要找到一個中間地帶,既鼓勵負責任地使用人工智慧,又阻止不負責任的使用。這是一條需要小心行走的界線。但我們以前做到過。數學家經常使用電腦進行數值工作,當電腦輔助證明首次出現時,最初遭到了很多反對,因為人們質疑如何信任電腦程式碼?但我們在20或30年裡解決了這個問題。不幸的是,現在的時間表被大大壓縮了。所以我們必須在幾年內製訂出我們的標準。而我們的社區通常不會移動得那麼快。有一件非常基本的事情可以幫助數學社區:當人工智慧給你一個問題的答案時,通常它不會很好地表明它對這個答案有多大的把握,或者它總是會說:“我完全確定這是真的。”人類也會這樣做。無論他們對某事是否有信心,這都是非常重要的資訊。暫時提出一些你不確定的事情是可以的,但重要的是要標記出你對此不確定。然而,人工智慧工具並不能精準地評估它們自己的置信度。這降低了它們的有用性。我們會更欣賞誠實的人工智慧。此外,許多人工智慧公司痴迷於“一鍵式”、完全自主的工作流程:你把任務交給人工智慧,然後你去喝杯咖啡,回來時問題就解決了。這實際上並不理想。對於困難的問題,你真正想要的是人類與人工智慧之間的對話。而人工智慧公司並沒有真正促進這種互動。如果我們能與至少一些願意開發更多互動平台的技術公司合作,那將會更容易被人們所接受。我們不想淪為只是按按鈕的角色。 (邸報)
OpenClaw (龍蝦)如何學會新東西 ?
人工智慧與人類在學習新事物方式上的巨大差距,促使研究人員重新思考當今 AI 模型背後的數學基礎。但開發者找到了一種更即時、更實用的權宜之計,讓 AI 能持續學習:所謂“skills(技能)”。所謂技能,是一段文字提示詞,其中包含指令,告訴智能體(agent)該如何完成某項任務。比如,一個被要求去調整 PDF 的智能體,在執行任務前可能會先查閱一條用於 PDF 編輯的技能說明。OpenClaw是一款增長迅速的開放原始碼軟體,用於驅動個人 AI 智能體。它可以瀏覽一個名為 ClawHub的網站,在那裡尋找技能,內容涵蓋從總結 YouTube 視訊到使用 Google Cloud等各種任務。像 Claude Code和 Codex這樣的程式設計智能體,也能利用技能來更輕鬆地處理各種任務,否則它們會更吃力。技能彌補了 AI 模型學習新能力方式中的一個關鍵缺口。如今的 AI 要麼在訓練過程中吸收知識,要麼在與使用者對話的過程中學到東西,但對話一結束就很快遺忘這些資訊。(像 ChatGPT這樣的聊天機器人也可以儲存關於使用者的簡單備註,並在未來對話中引用。)相比之下,人類能在當下迅速而靈活地掌握新技能或新資訊,並且在最後一次使用後的數月甚至數年之後仍能回憶起來。一些開發者認為,給 AI 智能體配備 skills(技能),是一條長期沒有得到充分重視的解決路徑。Jo是一家成立兩年的舊金山灣區初創公司,開發的智能體與 OpenClaw類似,採用裝置端模型。其首席市場官 Kevin Li說:“我覺得很多人沒有意識到,OpenClaw 因為能訪問自己的檔案系統,其實具備自我改進的能力。我認為,只要你持續給它載入越來越好的技能,或者它在犯錯後自己寫出技能並據此改進,使用者手裡的 OpenClaw 的能力演進速度就會隨著時間推移轉為指數級加速增長。”讓一個 AI 智能體在執行任務前先去瀏覽一套“說明書庫”,與從底層重新設計 AI 模型相比,聽起來像是用膠帶臨時粘出來的方案。但技能相較於通過編寫軟體程式碼或更新模型權重來學習新能力,有一個關鍵優勢:技能用的是自然語言寫成,人類使用者更容易理解。不過,在技能以及其他面向智能體的指令體繫上,仍有一些毛病需要修補。例如,除了面向具體任務的技能之外,Claude Code還使用一個名為 claude.md 的文字檔,使用者會在其中存放背景偏好與指令,比如要求 Claude 避免不必要的奉承。當 Claude 出錯時,“它會承諾下次做得更好。”AI Policy Network(人工智慧政策網路)政策負責人 彼得·威爾德福德(Peter Wildeford)說。該組織位於華盛頓,致力於推動 AI 立法遊說。“但 Claude 並不總是有那種直覺,知道為了下次改進,它需要把東西寫下來。所以我得告訴 Claude,類似這樣:‘不,你沒有持久記憶。請把這點標記到你的 claude.md 檔案裡。’然後它才會這麼做。”(不過,Anthropic昨天開始測試一項新的自動記憶儲存功能,這可能會改善 Claude Code 如何為自己保存備註。)儘管有這些磕絆,claude.md 可能比技能更好用,因為這個檔案始終對智能體可用。相比之下,潛在技能的數量太多了,智能體不可能全部讀完,所以它必須在恰當的時候載入恰當的技能。Zo Computer是一家成立三年的初創公司,正在為非技術使用者開發個人智能體。其聯合創始人 Ben Guo說,技能往往“不會在正確的時機被呼叫”。他還表示,當下圍繞技能與 claude.md 這類檔案的做法“非常原始”。但 Guo 的聯合創始人 Rob Cheung說,人和組織同樣依賴這種原始的筆記方式來記住如何完成工作。比如,他說,GitLab就使用一套內容極其龐大的員工手冊,讓遠端員工保持一致。這反倒讓人安心,因為要等到 AI 研究人員用一種更聰明也更簡潔的新模型設計真正破解“持續學習”,很可能還得花上好幾年。與此同時,像 ClawHub這樣的網站會不斷拿出更好的技能,而像 OpenClaw這樣的智能體也會越來越擅長在需要時把這些技能調出來並用得更到位。 (一半杯)
震驚!57歲美國著名數學教授,竟辭職給24歲中國天才女孩打工!數學也要被AI顛覆了?
前幾天,《華爾街日報》一篇報導讓全球教育圈炸了鍋。57歲的美國頂尖數學家Ken Ono,辭去弗吉尼亞大學終身教授職位,跑去矽谷給自己24歲的中國女學生打工——成為她創辦的AI數學公司Axiom Math的第15號員工。你沒看錯。不是教授帶學生創業,是教授去給學生打工。更震撼的資料還在後面:這家公司成立不到兩年,拿到6400萬美元融資,估值3億美元。用自主研發的AI系統,5小時攻克懸而未決45年的數學難題,1天內解決懸置30年的埃爾德什第124題。家長圈瞬間慌了。有人震驚:"教授都去給學生打工了?"也有人質疑:"這女孩到底什麼背景?"更有人焦慮:"我們還要不要讓孩子卷奧數?"但你有沒有想過一個更扎心的問題:當AI已經在數學領域碾壓人類頂尖專家,當一個24歲的中國女孩能讓57歲的數學大師甘願"降級打工",這背後到底說明了什麼?對此,定居矽谷多年、在清華、香港科技大學都長期任教過,深耕創新人才培養的教育專家陸向謙教授,一針見血地指出:"AI正在顛覆所有行業,包括數學、物理、化學。你的孩子還在那卷數理化的第一嗎?這已經過時了!不要去捲第一,要做你的唯一。要玩人工智慧。"這句話,擊中了當下中國教育最核心的焦慮。| 當數學大師遇到AI:"我的領域守不住了"Ken Ono是什麼等級的人物?世界頂尖數論學家,弗吉尼亞大學薪酬最高的員工之一,好萊塢、奧運會的數學顧問,ESPN眼中"最會彈吉他的數學家"。他的數學成就橫跨Ramanujan研究、數論、Moonshine理論等超級深水區,培養出10位摩根獎獲得者。這樣的大師,本以為"數學創造力至少幾十年內不會被AI取代"。直到去年春天,他參加了一次AI數學模型測試。看完之後,他整個人都不好了。他發現,在他擅長的那塊領域,他比AI了解得多。但其他數學領域,AI都比他瞭解得多。再過幾年,可能連他自己的領域都守不住了。你聽清楚了嗎?一個世界頂尖數學家,第一次感受到知識的天花板正在被AI重寫。Ken Ono陷入了深度的"身份危機":"如果AI連這都能做,那我還能做什麼?"直到那場"撞擊靈魂"的頓悟到來——"AI不是來取代數學家,而是改變數學的做法。"於是他做出了震動整個數學界的決定:辭職,加入AI數學的最前線。更戲劇的是:他加入的公司,創始人是他24歲的學生洪樂潼。看懂了嗎?這才是這個故事最扎心的地方:不是教授不夠牛,而是時代變化太快了。AI的速度,已經讓傳統學術體系跟不上了。| 24歲中國天才女孩有多炸裂?很多人問:洪樂潼到底什麼背景,能讓數學大師甘願"下凡打工"?她來自廣州,家裡第一代大學生。但她的履歷,開掛到不真實:學術成就:MIT本科3年畢業,數學+物理雙學位美國本科數學最高榮譽——摩根獎得主美國數學界最高女性獎——愛麗絲·謝弗獎(全美一年只選1人)羅德獎學金獲得者牛津神經科學碩士史丹佛數學博士+法學博士在讀(後輟學創業)創業戰績:成立Axiom Math不到兩年,融資6400萬美元從Meta挖來一批頂尖AI研究員AI系統攻克兩道懸而未決數學難題陸向謙教授看到這個案例,說了一句讓所有家長深思的話:"眼看著名校畢業生不好找工作,但小時候玩過電腦、網際網路、人工智慧的那群孩子,連大學都沒上完,就被高薪挖走了。"什麼意思?意思是洪樂潼的成功,不是因為她考了多少個第一名,而是因為她從小就在"玩"真正有價值的東西——數學研究、AI技術、跨學科整合。更關鍵的是:她在咖啡館讀數學論文時,跟隔壁桌Meta的AI科學家聊了聊,就決定退學創業。為什麼?她說:"研究數學已經很難了。AI做數學?更難。我要去做這個。"知難而進,這才是天才的底色。久而久之,家長們才明白:培養孩子,不是讓他考100分、拿奧數金牌,而是讓他敢於挑戰最難的問題、最前沿的領域。| AI如何顛覆數學?5小時攻克45年難題很多人可能覺得:數學這麼抽象,AI能做什麼?Axiom Math給出了震撼答案。他們用自主研發的AI系統:埃爾德什第481題(懸置45年):5小時完成完整證明與形式化驗證,推翻OpenAI"GPT-5已解決"的不實聲明。埃爾德什第124題(懸置30年):1天內完成基礎公理層面的形式化證明,成為全球首個可嚴格驗證的解決方案。陸向謙教授直言不諱地揭露了本質:"AI正在顛覆所有行業,包括數學、物理、化學。就連數學家都守不住自己的領域了,你覺得其他行業能倖免嗎?"看懂了嗎?這不是說數學不重要了,而是說:會做題、會考試的"數學第一名",在AI面前已經沒有優勢了。真正有價值的,是"能提出好問題、能用AI解決實際問題"的能力。Ken Ono現在的日常工作是:給AI模型設計必須通過的數學難題建構數學能力的基準測試推動模型向"數學創造力"進化他說:"純數學很美,但很少改變世界。而AI數學,將改變整個世界。"這就是差距。| 給家長和孩子的3個建議:別再讓孩子卷第一了看到這裡,很多家長肯定在想:那我到底該怎麼辦?結合陸向謙教授30多年的觀察和這個案例,我給你3個建議:第一:別再讓孩子卷"數理化第一"了陸教授說得特別直白:"你的孩子整天還在那卷數理化的第一?已經過時了。不要去捲第一,要做你的唯一。"什麼意思?意思是AI時代,會做題的"第一名"不值錢了,會用AI解決實際問題的"唯一"才值錢。家長得多問問:我的孩子有什麼別人沒有的特質?能創造什麼獨特價值?具體怎麼做?從小培養孩子:玩電腦、網際網路、人工智慧:不是為了考級、考證,而是真正理解計算機思維做項目,不是做題:讓孩子解決真實問題,而不是刷題庫培養"Something special":找到孩子的獨特性,而不是讓他跟別人一樣記住:AI會做的事,你讓孩子去捲,就是在浪費時間。第二:要學會"和AI說話",而不是"和AI競爭"Ken Ono的選擇說明了什麼?說明最聰明的人,不是在跟AI競爭,而是學會和AI協作。陸教授的觀點更清楚:"要從小玩人工智慧。小時候玩過電腦、互聯網、人工智慧的孩子,連大學都沒上完,就年薪百萬了。"家長得讓孩子從小接觸AI工具,培養"AI原生思維"學會用AI做複雜項目,而不只是用AI查資料成為"AI時代的超級個體"——一個人+AI,頂一個團隊這不是開玩笑,這是正在發生的現實,甚至未來會出現一人獨角獸公司(一個人帶著AI就能打造出價值10億美金的公司)第三:選賽道,比選學校更重要Ken Ono 教授為什麼離開弗吉尼亞大學?不是學校不好,而是賽道不對了。傳統大學的節奏,跟不上AI革命的速度。AI正在顛覆所有行業。你孩子站在那個賽道上,比他在那個學校更重要。什麼是好賽道?AI、機器學習、AI+生物計算——這些才是未來30年最值錢的領域。如果你的孩子有機會接觸這些領域——別猶豫,讓他去折騰。因為5年後、10年後,這些才是真正改變世界的技能。記住:這個時代,懂AI的人年薪百萬起步,不懂AI的人可能連工作都找不到。最後我想說,57歲的數學大師辭職給24歲的學生打工,這不是一個獵奇故事,而是一個時代轉折的訊號。AI正在重構所有行業的規則。當Ken Ono說"即使我們創造出超級智能,世界上仍會有數學問題無人能解,而我依然會在尋找答案"的時候,他其實在告訴我們:數學不會消失,但做數學的方式徹底變了。數學正在進入新時代——不再是人類單打獨鬥,而是與AI共同探索無限的未知。同樣的道理適用於所有行業、所有孩子。如果你還在逼孩子刷題、拼高考、沖985——醒醒吧。那些知識,5年後可能AI就比你孩子強100倍。真正值錢的,不是數理化考多少分,而是孩子能不能用AI創造獨特價值。所以家長要從小培養孩子"和AI協作、用AI創造價值"的真本事!這才是給孩子最好的禮物:不是一張名校文憑,而是AI時代的生存能力。千萬別讓孩子,成為被AI淘汰的那一代。 (陸向謙)
華裔數學天才陶哲軒經費被砍,被迫四處籌款,美國高校迎來艱難時刻
2025年8月的一個深夜,數學圈被一條推文刷屏:“IPAM帳戶只剩不到90天工資,我不得不開始緊急籌款。如果9月還看不到NSF撥款,我們將取消秋季學期所有項目。”發推的人叫陶哲軒——曾經以13歲獲得國際數學奧林匹克競賽金牌、24歲成為加州大學洛杉磯分校正教授、31歲斬獲數學界最高榮譽菲爾茲獎的天才數學家。評論區瞬間翻車:“連陶哲軒都缺錢?美國科研是真完了。”“當年他拿獎時,政府哭著求他留下,現在說斷供就斷供?”“這不是個人悲劇,是系統地震。”當一個世界級的數學天才都無法獲得基本的研究經費保障時,我們不得不思考:這究竟是一個個案,還是美國科研體系深層次問題的集中體現?2025年7月31日,對於陶哲軒而言是一個分水嶺式的日子。當天,川普政府以加州大學洛杉磯分校(UCLA)“未能有效遏制校園反猶主義”為由,凍結了該校約5.84億美元的聯邦研究資金。這筆錢的量級是什麼概念?它相當於美國國家科學基金會(NSF)一年撥給整個加州大學系統的數學+物理+化學總預算。純數學與應用數學研究所(IPAM)不幸躺槍——100%經費來自NSF,其研究經費也隨之被切斷。而陶哲軒,正是IPAM的特別項目主任。圖源:網路IPAM是美國僅有的5家NSF數學研究所之一,專攻跨界,曾把純數學帶進深度學習、密碼貨幣、癌症影像。過去20年,從這裡走出的學者拿下3枚菲爾茲獎、2座沃爾夫獎,堪稱“數學諾獎搖籃”。IPAM不是“邊角料”,而是美國數學的“呼吸機”。拔掉呼吸機,整條學科鏈都得休克。圖源:網路儘管美國法院在8月12日下令恢復UCLA的國家科學基金會(NSF)撥款,但截至9月初,陶哲軒個人的研究資金以及IPAM的營運資金仍然無法發放。陶哲軒透露,自己的NSF項目(總額75萬美元,用於研究孿生素數猜想)仍被凍結。更糟糕的是,由於該研究所幾乎完全依賴NSF的資助,此前的營運資金已經耗盡,面臨被迫關閉的危機。“IPAM沒有足夠的儲備金來維持幾個月以上的營運。在過去兩周左右的時間裡,我們一直處於緊急籌款模式,我一直在與很多捐贈者會面。”陶哲軒在接受《華盛頓郵報》採訪時無奈地表示。這位曾經專注於探索人工智慧在數學應用的世界級學者,如今被迫將主要精力轉向了籌款活動。川普政府上台以來,一直推行大幅削減聯邦開支的政策,科研經費成為重點削減對象之一。據PBS報導,國家科學基金會被迫暫停了高達10億美元的資助項目。IPAM的現金流告急只是浮出水面的冰山一角。同一紙範本信(4月22日NSF《重新對齊通知》)共凍結800余個項目,其中包括:40個癌症臨床試驗被迫暫停招募;6顆已進入總裝測試的氣候衛星無限期推遲發射;3條剛剛通線的新一代量子晶片中試產線直接關閉。圖源:網路美國科學促進會(AAAS)發表白皮書,用一句罕見的嚴厲措辭警告:“政治化凍結正把國家科研拖入‘人為冬天’。”更令人擔憂的是,政治因素對科研經費分配的影響日益明顯。政府以大學校園存在“反猶太主義和偏見”問題為由切斷經費,這種做法本身就充滿了爭議。它不僅違背了學術獨立的基本原則,更開創了一個危險的先例:科研經費可以成為政治鬥爭的工具和籌碼。陶哲軒在公開發聲中直言不諱地指出,聯邦科研資金的動盪、延遲與不確定性,正危及美國獨特的科學生態系統。他認為,政府不加區分的科研經費削減行動,對他的研究領域乃至更廣泛的學術科學構成了生存威脅。陶哲軒事件的影響遠遠超出了一個數學家的個人遭遇,它正在引發美國科研界的人才流失潮。在接受PBS採訪時,陶哲軒透露自己已經被歐洲、澳大利亞和中國的多個院系接觸,考慮離開美國的可能性。"我第一次真正開始擔心存在性問題。比如,院系可能會關閉,或者大幅削減研究部分。"陶哲軒的這番話反映了許多美國科研人員的共同擔憂。圖源:網路曾經,美國實驗室的燈亮到最晚,世界各地的聰明人便循著光而來:經費充裕,話題自由,沒人計較口音和護照。如今紅燈開始閃了——機器還在轉,帳上的錢卻說不準那天斷。青年學者們發現:“今天可以斷IPAM,明天就能斷我的實驗室。”於是,跳槽、轉行、出海,產生多米諾骨牌效應。其他國家趁勢打開國門,用更快的簽證、更厚的啟動包、更穩的經費周期,計畫把美國多年攢下的頂尖人才接走。哈佛數學系悄悄推出“北美—亞洲雙聘”席位,一年只需在美待四個月,其餘時間飛東京或香港;新加坡國立大學把“IPAM避難包”直接塞到博士後手裡——三年工資加啟動經費,拎包即走;更有中國新銳研究所在朋友圈放話:“菲爾茲獎等級,落地獨立實驗室加一千萬元,孩子上學包辦。”一夜之間,簡歷像候鳥一樣向南飛,連行李箱都來不及裝滿。人才流失不再是無聲的數字,而是登機口排起的長隊和Zoom裡越來越多的海外IP。對於陶哲軒個人而言,這次事件無疑是一次嚴峻的考驗。作為已經在美國工作和生活了30年的科學家,他與這個國家已經產生了深厚的連結。他在採訪中表示,美國的科學傳統和開放的學術環境對他產生了深遠的影響。然而,當理想遭遇現實,當學術追求受到基本生存條件的制約時,個人不得不做出艱難的選擇。圖源:網路陶哲軒表示,這是他第一次真正考慮離開美國的可能性。這種考慮背後,既有對現實困境的無奈,也有對未來發展的深思熟慮。幸運的是,根據最新的報導,IPAM在年底獲得了NSF的五年資助,雖然經費大幅縮水,但至少為研究所的基本營運提供了保障。這也意味著陶哲軒暫時不需要為他的研究所的生存問題而過度擔憂,但他仍然需要繼續籌款以保證研究所的正常營運。圖源:網路寫在最後無論陶哲軒最終選擇留在美國還是前往其他國家,他在數學領域的貢獻都將被歷史銘記。但這次事件所折射出的科研生態問題和人才流動趨勢,其影響將遠遠超出一個數學家的個人命運,成為理解現在全球科技發展軌跡的一個重要觀察點。今天美國科研的“雷”,明天可能砸到任何高度依賴單一經費的地方。無論是高校、實驗室,還是你所在的公司研究院。 (留學生日報)
DeepSeek再破GoogleOpenAI壟斷:開源IMO數學金牌大模型
AI界掌管開放原始碼的神——DeepSeek回來了!剛剛,DeepSeek開源了全新的數學模型DeepSeekMath-V2,專注於可自驗證的數學推理。DeepSeekMath-V2不僅在IMO 2025和CMO 2024中取得金牌級分數,而且還在Putnam 2024中,得分118/120,超過了人類最高分90。與此同時,DeepSeekMath-V2在所有CNML等級問題類別(代數、幾何、數論、組合學、不等式)上均優於GPT-5-Thinking-High和Gemini 2.5-Pro。不僅性能無敵,網友表示這還是第一個開放原始碼的IMO金牌模型。這下,Google和OpenAI要坐不住了!特別是OpenAI,本來就打算放出IMO金牌模型來應對GoogleGemini 3 Pro的衝擊,現在被DeepSeek搶先一步。(鯨魚回來了!)值得一提是,這篇論文的一作邵智宏也是之前DeepSeekMath 7B的一作,在那篇論文中,他們提出了著名的GRPO。最強開源IMO金牌模型總的來說,DeepSeekMath-V2是一個旨在實現自驗證數學推理(Self-verification)的大型語言模型(685B)。它的核心在於開發和利用強大的證明驗證能力來指導和最佳化證明生成,從而克服傳統上依賴最終答案作為獎勵的強化學習(RL)方法的侷限性。傳統用於數學推理的強化學習(RL)方法存在根本性限制:最終答案獎勵的不可靠性:將LLM獎勵基於最終答案的正確性,並不能保證推理過程的正確性或邏輯的嚴謹性,模型可能通過錯誤的邏輯得出正確答案 。對定理證明任務的侷限性:許多數學任務(如定理證明)不要求數值答案,而是需要嚴格的步驟推導和邏輯嚴謹性,使得基於最終答案的獎勵機制不適用。缺乏內部驗證能力:經過傳統方法訓練的LLMs缺乏驗證自身證明有效性的能力,經常表現出高假陽性率(即認為錯誤的證明是有效的)。DeepSeekMath-V2採用迭代的強化學習循環,交替最佳化證明驗證器和證明生成器,以實現可自驗證的數學推理。證明驗證訓練驗證器研究首先訓練一個精準且忠實的LLM-based驗證器,使其能夠根據人類專家的標準識別證明中的問題並評分。具體來說,驗證器針對給定的數學問題與證明,輸出一個證明分析,該分析首先總結識別出的問題(如果有),然後基於三個等級分配一個分數:1:完全正確、嚴謹且邏輯清晰的證明。0.5:總體邏輯合理,但有微小錯誤或細節遺漏的證明。0:包含致命邏輯錯誤或關鍵漏洞的根本性錯誤的證明。驗證器的訓練分為資料建構(冷啟動)和模型強化學習目標兩個關鍵階段。在資料建構階段,研究首先從AoPS競賽中收集了1.75萬個要求證明的奧賽等級數學問題。隨後,利用現有模型(DeepSeek-V3.2-Exp-Thinking)生成大量的候選證明,並通過多輪迭代來提升證明的嚴謹性,最終請數學專家人工對這些證明進行評分,分數分為1、0.5和0三個等級,從而建立了初始的RL驗證資料集。進入強化學習目標階段,研究使用上述資料集對基礎模型(DeepSeek-V3.2-Exp-SFT)進行訓練,使其能夠輸出證明分析總結和最終分數。獎勵函數一方面通過格式獎勵強制模型輸出格式包含問題總結和分數,另一方面通過分數獎勵激勵模型預測的分數與專家標註的分數高度一致,從而使驗證器具備模仿人類專家評估嚴謹性的能力。引入元驗證 (Meta-Verification)為解決初步訓練的驗證器可能因幻覺(hallucinating)不存在的問題而獲得正確低分,從而損害其對錯誤識別的忠實性(faithfulness)的問題,研究團隊引入了元驗證(Meta-Verification)機制。元驗證作為一個二級評估過程,旨在審查驗證器生成的證明分析(Proof Analysis),評估其中識別出的問題是否真實存在,以及這些問題是否在邏輯上合理地支援了其預測的證明分數。為了訓練元驗證器,研究首先讓數學專家根據專門的元驗證標準對驗證器輸出的分析質量進行評分,建立了元驗證資料集。隨後,研究訓練了一個專門的元驗證器,該元驗證器生成對驗證分析本身的問題總結,並分配一個質量分數,以衡量原驗證器分析的精準性和合理性。元驗證器的強化學習目標結構與驗證器訓練類似,同樣包含格式獎勵和分數獎勵。接下來是增強驗證器訓練,研究利用訓練好的元驗證器,將元驗證的質量分數整合到驗證器的獎勵函數中,以增強驗證器的忠實性。最終,使用原驗證資料集和元驗證資料集共同訓練增強後的驗證器,使該模型能夠同時執行證明驗證和元驗證兩項任務。在原驗證資料集的一個驗證子集上,經驗證器評估的證明分析的平均質量分數從 0.85 提升到了0.96,同時保持了證明分數預測的精準性不變,有力證明了元驗證機制能有效提高驗證器識別問題的忠實度。證明生成接下來,研究用訓練好的驗證器作為獎勵模型來訓練證明生成器,並進一步通過“自驗證”機制,讓生成器學會嚴格地自我審查和修正,從而提高證明質量。具體來說,研究訓練生成器以最大化驗證器賦給其生成的證明的分數。在訓練中,生成器被要求在生成證明後,緊跟著進行自我分析。獎勵函數激勵精準的自我評估和正確性。最終獎勵是對證明質量和自我評估質量的加權組合。由此,自我評估獎勵不僅獎勵自評分的精準性,還獎勵自我分析的忠實性。這種獎勵結構激勵生成器:忠實地承認錯誤(而非盲目自信)。獲得高獎勵的最佳策略是在最終輸出前,積極識別並解決自身證明中存在的問題,從而實現自我迭代完善。證明驗證與生成之間的協同作用接下來,研究利用驗證器和生成器的協同作用,通過規模化的計算和元驗證機制,建立了一個完全自動化的資料標註流程,從而持續提升驗證器的能力,並最終取代耗時的人工標註。然而,隨著問題難度增加,人工標註耗時且效率低下。由此研究提出了一套自動化標註的方法:首先,通過生成n個獨立的驗證分析,提高在有缺陷證明中捕獲真實問題的機率。接下來,利用元驗證器生成m個評估,對報告問題的分析進行有效性確認,確保識別出的問題是真實的(元驗證比從零識別問題更高效)。具體的標註流程如下:分數判定:檢查所有分析中分配的最低分數。只有當至少有k個分析被元驗證確認為有效時,該最低分才被賦給該證明;否則標記為1分(無合法缺陷)。取代人工: 最終,這種完全自動化的流程在後續訓練迭代中徹底取代了人工標註,並且質量檢查證實其標註結果與專家判斷高度一致。由此,上述流程在最終的訓練迭代中徹底取代了耗時的人力標註,實現了驗證和生成的協同循環,保證了模型能力的持續突破。實驗結果研究採用GRPO進行強化學習,迭代地最佳化證明驗證和生成能力。在每次迭代中,研究首先最佳化證明驗證。然後,證明生成器會從驗證器的checkpoint初始化,並針對證明生成進行最佳化。從第二次迭代開始,證明驗證器會使用一個檢查點進行初始化,該檢查點通過拒絕微調(rejection fine-tuning)鞏固了前一次迭代中的驗證和生成能力。研究首先評估了模型未經迭代完善的單次生成正確證明的能力。實驗結果表明,在所有CNML等級問題類別中——包括代數、幾何、數論、組合學和不等式——DeepSeekMath-V2 持續優於 GPT-5-Thinking-High和Gemini 2.5-Pro。為了探究擴展上下文和自驗證如何提高證明質量,研究又評估了帶有自驗證的順序精煉方法。研究表明,自選的最佳證明比執行緒平均得分獲得了顯著更高的驗證分數,這證明生成器具備精準評估證明質量的能力。此外,隨著最大順序嘗試次數的增加,Pass@1大幅提升,表明自驗證有效地指導了迭代改進。這些結果表明,生成器能夠可靠地區分高品質和有缺陷的證明,並利用這種自我意識系統地改進其數學推理。最後,為瞭解決最具備挑戰性的問題,研究採用了高計算量搜尋策略,該策略通過平行生成探索多樣化的證明路徑,並結合規模化的(64 次)驗證來精確識別細微錯誤。模型迭代地從包含問題分析的候選證明池中精煉出最優證明,直到證明通過所有驗證。最終,這種方法使其在Putnam競賽中以118/120的分數超越人類最高分90分,展現了在驗證器指導下,AI解決複雜問題的強大能力。One more thing如開頭所說,這篇論文的一作邵智宏也是DeepSeek之前數學模型DeepSeekMath 7B的一作。值得一提的是,也就是在DeepSeekMath 7B的論文中,他和團隊提出了經典的GRPO(Group Relative Policy Optimization )。同樣的,他也是DeepSeek-R1的核心貢獻者。邵智宏目前是DeepSeek從事大模型推理研究的研究員,他本科畢業於北京航空航天大學,博士畢業於清華,師從黃民烈教授。 (量子位)
震驚世界的天才少女們,來自中國小鎮
數學界,新神出現。北京大學深入淺出的“韋神”韋東奕已經在網際網路上紅了許多年,他吃飯時礦泉水配饅頭、整日不修邊幅的形象,與國際奧數雙冠王、北大教授的身份,形成巨大反差。今年6月,他接連3天坐在教室的第一排,和其他搶課的學生一樣,靜靜等待另一位“神”出現在講台上。34歲的王虹,去年和同伴用127頁的論文,在三維空間中證明了困擾數學界100多年的“掛谷猜想”。她帶著研究成果在各個高校開講座,所到之處,座無虛席,教室裡擠滿了教授和學生,近一半的人願意站著聽完講座。就在剛剛過去的10月份,王虹在兩天內又接連拿下兩項數學大獎。也正因此,她成為2026年菲爾茲獎的熱門候選人,如果成真,她將是首位獲獎的中國籍數學家,也是史上第三位獲此獎的女性。王虹爆火之後,將她視作女性之星的聲音不絕於耳,在鋪天蓋地的網評中,她被認為是理科領域中“鮮少”出現的強大女性。實際上,近年來,與王虹類似的傑出女性在各行各業不斷湧現。年輕一代的女性迸發出的創造力和生命力,正以迅雷不及掩耳之勢,刷新公眾的認知。1991年,她出生於廣西桂林的一個小鎮的雙教師家庭,展現出遠超同齡人的學習能力。每個學期開學前,她就會借來課本自學一遍。她很少問老師問題,自己想一想,再翻翻資料,往往就順利解決了。“我對數學的想像就是自己看課外書,想一想上面的問題。”小學時,她連跳兩級;中學時,她從全年級100名開外衝入前10名;高考時,她16歲就以653分的成績,考入北京大學地球與空間科學院。學生時期的王虹,已經屬於學霸中的學霸,但她的數學天賦在那時還未被發掘。因為對數學感興趣,王虹在大二時轉入數學科學學院,這才算是她與數學的正式會面。在此之前,她從未受過任何的數學訓練,也從未參加過任何數學競賽。北大的數學系被稱為“四大瘋人院”之一,同學們幾乎每人手握數個國際大獎,而王虹是個自由生長的“野路子”。突如其來的壓力,讓她開始焦慮。王虹剛開始,她的成績並不拔尖。為了提高成績,她曾逼著自己模仿同學通宵,但最後往往發展成和朋友聊天。她意識到,“數學並不是一個逼得時間長了,就能學會的學科。”她開始調整自己的節奏,像當初邊看課外書邊思考數學一樣,將數學和生活完全融為一體。她能精準說出每周花在運動上的時間,但卻難以估量在數學上花費的時間,因為,數學的存在與“呼吸”無異,它填滿了王虹生活的角落。有時在路上發呆,她腦子裡都是在想一些數學難題。從北大畢業時,王虹剛滿20歲,在北大求學的經歷,更像是她數學生涯的啟航階段,接下來的人生,是她不斷尋寶的過程。她遠赴法國巴黎綜合理工學院學習,攻讀碩士學位,畢業不久,又獲得麻省理工的博士學位。拿到人類設定的最高學位,顯然只是王虹數學生涯上一個階段性的勝利。2024年,她和同伴用127頁的論文,在三維空間中證明了困擾數學界100多年的“掛谷猜想”。2025年,王虹成為法國高等科學研究所數學學科終身教授,同時兼任紐約大學科朗數學科學研究所數學教授。今年10月27日,她獲得ICCM數學金獎,隔天,獲得塞勒姆獎。歷盡千帆歸來,王虹僅僅34歲。明年,每4年舉辦一次的菲爾茲獎即將舉辦,它被稱為數學界最難拿的獎,只因它只頒發給40歲以下的數學家。而王虹,是目前公眾評出最有望拿獎的候選人。在回母校開講座時,數學界的泰斗、前菲爾茲獎獲得者丘成桐為王虹開場,他提到:“王虹是年輕一代最偉大、最重要的中國學者。”有網友驚嘆於王虹的鎮定,在面對如此權威的前輩的誇獎時,王虹只是默默站在講台上,正視前方,看不出有什麼情緒波動。丘成桐評價王虹。圖源:@深圳衛視科創最前沿王虹這樣評價自己:“我無論如何都不是天才,我在身體上、精神上都很一般,只是我可以堅持目標,並擅長延遲滿足。”她不過分謙虛,也不孤傲自持,她正視取得的成果,因為這與她的付出和堅持成正比。王虹的出現,打破了女孩無法在理科世界有所作為的刻板印象。當她變得引人注目,難免會收到或讚揚,或質疑的評論。但貼在她身上的任何標籤,都無法影響她前進的方向。她希望將這份勇氣傳遞給更年輕的女孩們:“不要拒絕交流,不要害怕犯錯,不要害怕不一樣,勇敢地追求自己喜歡的東西。”和王虹一樣,在以男性為大多數的領域中,還有很多值得被看見的傑出女性,正在迸發超乎想像的能量。最近,90後女孩陳丹琦的就業動向引起不小的關注,網友們用放大鏡觀察她的首頁。通過種種蛛絲馬跡,大家推測,這位AI領域的大牛或許即將進入一家十分有前景的AI公司。這家公司在今年5月剛剛建立,團隊成員主要由前OpenAI員工構成,聚集了AI圈的許多高級工程師,公司雖只有幾十人,卻已經成為業內獨角獸的存在。大家關注的重點,並非是這份新工作的履歷有多光鮮,而是,陳丹琦的加入,足以證明這家公司的含金量。35歲的陳丹琦,已經是AI領域不可忽視的一個存在。陳丹琦早在高中時,她就在資訊科學領域做出了一次完美的“自我介紹”。2008年,剛滿18歲的陳丹琦,是湖南省第一位入選資訊學國家隊的女選手,同年,她在國際資訊學奧林匹克競賽中獲得金牌。比賽期間,她提出了全新的“CDQ分治”演算法,極大地降低了資訊學競賽中一些問題的複雜度,提高了運算效率。一同集訓的隊員用陳丹琦的名字縮寫,命名該演算法。後來,這一演算法在競賽圈甚至學術圈都廣為應用,成為她天才實力的證明。高中時期的陳丹琦那一年,她被保送至清華大學電腦姚班。2012年畢業後,她繼續去史丹佛大學深造,一直讀到博士畢業。她在青少年時期顯露的創新思維,在更大的平台上發揮到極致。2014年,她發表的論文,在她研究的“依存分析”領域裡堪稱開山之作,該論文將某一問題的解析速度提高了60倍,引領了NLP(自然語言處理,指讓電腦能理解、處理和生成人類語言的技術)技術革命。導師評價她說:“陳丹琦是使用神經網路方法解決自然語言理解問題方面的先驅。”她的博士論文在史丹佛大學受到廣泛關注,發表4天內,就擁有了上千次閱讀,成為近十年裡校內最熱門的論文,最終獲得最佳博士論文獎。Google的某演算法,也是基於她在史丹佛開發的演算法演變而來。陳丹琦的論文被引用超7萬次博士畢業後,她沒有繼續留在本校做研究,而是十分果斷選擇了普林斯頓大學。普林斯頓大學的電腦系舉世聞名,那時系裡招聘了一批新的教授,陳丹琦目標明確:“這對我來說是一個機會,我可以在這裡從頭建立起自己的研究團隊。”相比於做一個成熟團隊的一員,她更希望靠自己成長和開拓一片新的疆土。2019年,她如願擔任普林斯頓大學電腦副教授,並領導研究小組。最近,由陳丹琦領導的團隊,又實現了里程碑式的突破。目前為止,大部分的AI聊天模型都是通過海量資料的輸入來訓練,而陳丹琦團隊發現,語言模型的能力提升,並非只有這一條路可走,可以通過激發模型的“思考能力”來實現。也就是說,只要搭好框架,AI就會像一個隨機應變的“人”。這項突破性的創新,對普通人的生活意義非凡,許多人開始想像,當會“思考”的AI遍佈生活,那會是一番什麼樣的景象?她開闢出一條全新的AI路徑,為全行業的人提供了新的思考,她正處在世界AI領域的頂端,成為科技領頭軍的一員。網友將陳丹琦視作偶像。圖源:@toomanytabsopen陳丹琦一次次的創新、顛覆,將“女性邏輯差”的古板印象,掃進了歷史的垃圾堆裡。有人留意到,在她的團隊裡,女性研究員的比例已經超過半數,但這並非是陳丹琦刻意為之的結果,相反,這恰恰是自然選擇的結果。一個擁有巨大成就的女性,經常被講述成“鳳毛麟角”“屈指可數”“難得”的人才,但實際上,有天賦、肯鑽研、勇創新的優點,本身就存在於萬千女性品格中。這樣的品格與“天才劇本”無關,與遠超常人的起跑點無關。那怕在世俗標準下,被評判為“差勁”的女性,同樣擁有如此堅韌的品格,她們抓住機會,展現“永不服輸”的那一面。今年,一位來自河南的05後女孩魯靜怡,站上了全球的舞台,她成為了第11位“全球技能夢想大使”。世界技能大賽是目前全球地位最高、規模最大、影響力最大的職業技能競賽,被視作技能界的奧林匹克競賽。全球僅有11人獲得“大使”榮譽,而魯靜怡是其中一員,也是中國唯一入選大使。魯靜怡並非傳統意義上的“三好學生”,她的老家在河南鄭州的一個村莊裡,她的經歷,像是許多農村女孩的縮影。魯靜怡奪得世界技能大賽冠軍。圖源:@央廣網2020年,魯靜怡中考失利後,進入河南化工技師學院學習。沒考上高中讓魯靜怡受挫又迷茫,她甚至考慮要不要退學:“老一輩的家長都以為考不上高中,去上職業類學校,就是學習不好。當時我也帶一點偏見,想著去了打發時間。”家裡人對魯靜怡並不抱希望,讓她上技師學院,不過是等到她成年,再去工作。她抱著“試試看”的心情入學,後來卻越做越起勁。初中時她的化學成績優異,但誰都沒有在意過,如今誤打誤撞,被視作差生的她,重新找回了天賦和自信。憑藉好底子,她通過選拔進入了培優班,第一次聽說世界技能大賽。有機會站上世界的舞台,成為她接下來的目標。她鉚足勁練習,自我要求嚴格,通常不需要教練佈置任務,就已經將所有細節做好。除此之外,她還主動承擔衛生打掃和耗材整理的工作。這些良好的習慣,讓魯靜怡在操作台上越發眼疾手快,實驗室成了她最熟悉、最能展現自信的地方。2022年5月,魯靜怡開始了比拚之路,她順利通過校內選拔,獲得市級金牌,最終拿到省級金牌。第二年,她代表河南省參加中國第二屆職業技能大賽,獲勝後進入國家集訓隊。那時的魯靜怡,剛滿18歲。國賽時,魯靜怡的操作讓許多裁判驚訝:“這個女孩可以同時推進幾個任務,我沒看明白她是怎麼進行時間分配和任務安排的,但就感覺她成竹在胸、有條不紊,在短短15分鐘內,她連續做了4個樣品,簡直就是謎一樣的操作。”魯靜怡在做訓練。圖源:@央廣網去年,魯靜怡成為正選選手,第一次出國,代表中國前往法國里昂參加第47屆世界技能大賽。她再一次不負眾望,獲得了化學實驗室技術項目的冠軍。今年,魯靜怡作為亞洲代表,成為“上海世賽全球技能夢想大使”,同時被中國婦女雜誌選為2024年有影響力的《中國婦女》時代人物。魯靜怡的心境發生了變化。以前,她專注比賽奪獎,如今,她意識到不要自暴自棄,命運真的可以靠自己改寫。圖源:《中國婦女雜誌》她曾經也對低學歷的自己充滿偏見,但當她見過更廣闊的世界,發現“一切皆有可能”的口號,同樣適用於底層女性。曾經所有的偏見躊躇,不攻自破。王虹、陳丹琦和魯靜怡,她們站在各自行業的頂端,向世界發出訊號,那些曾被斷定為男性主導的行業裡,女性同樣出類拔萃。她們的出現並非個例,而是屬於這個時代的新趨勢。各行各業的女性從業者,正在從幕後走向台前,走向行業的頭部。在山西省,有一支30人的農業科技創新團隊,成員中有21位是女性。團隊專注於蔬菜、農作物以及動物產業的科技創新,例如針對番茄、紅棗、雜糧生產加工及有機肥加工等技術薄弱環節,多次為村民進行技術培訓。培訓人數超2000人,同時,她們帶動婦女就業1000餘人,真正用科技把地種明白。在湖南省,曾在俄羅斯留學7年的90後女孩肖源,畢業後選擇回老家做起了農民。她和父親合開了一家生態農業公司,為周邊村民發放扶貧的雞、豬,公司成立一年,就幫助了700余戶貧困戶。第二年,她牽頭建成留守婦女就業車間,帶著村裡的女性再就業。2023年1月,肖源被選為湖南省第十四屆人大代表,並提出推動農業現代化的建議。還有盲人小雅,她是一名咖啡師,通過聲音、觸覺來辨別和感知製作過程,學成後,加入教練團隊,幫助更多視障人士走上就業的道路。小雅在做咖啡。圖源:《廣州日報》各行各業發光的女孩,在努力自我成長的同時,用自己的經驗,逐漸填補了原本被忽視的行業漏洞,並改善周圍的生活環境。近幾年來,我們看到了越來越多這樣的女性,“她力量”正以超出我們想像的速度崛起。她們的出現,擴大了女性可能性的樣本。儘管我們素不相識,但在每一位女性的故事中,總有某一個段落,讓許多女性產生精神共鳴。故事裡的她們未必非常成功,也並非只存在於行業頭部。她們就是我們,是我們之中,每一個努力向上攀爬的普通人。這樣的故事,通過網際網路傳送到每位女性面前時,是一種無言的鼓勵。“女生更適合文科”“女孩不該做體力活”“女性該以家庭為重”……女性天生對某一領域不擅長的說法,在越來越多女孩們親手寫下的故事裡,失效了。這個世界對於女性的敘事,由此被重新書寫。九億少女的夢,是閃閃發光的她們,也是充滿可能性的每一個人。 (INSIGHT視界)