#AI科學家
下一個300萬!全球AI人才爭奪戰,中國的“機會窗口”來了?
國際金融論壇(IFF)今年7月發佈的報告顯示,全球AI人才總量約300萬人,其中美國佔約三分之一,中國佔比22.4%,排名第二。更為驚人的的是,目前在中國內地工作的AI人才中,高達42%擁有美國的工作或學習經歷。然而,矽谷正經歷一場特殊的人才遷徙——中國AI科學家在美國完成技術積累後加速回流。資料顯示,2023年已有47位美企華人AI專家回國創業,較2022年增長62%。而根據媒體統計,自2024年開始,大批來自中國的世界頂尖科學家回國任職。包括,普林斯頓核聚變專家劉暢和美國埃默裡大學教授胡懿娟回歸北京大學,電腦科學家和區塊鏈專家陳婧回到母校清華大學任教,多模態人工智慧大咖齊國君紮根西湖大學,AI製藥領域重量級學者符天凡加盟南京大學電腦學院,劍橋大學卡文迪許實驗室博士後潘林楓加盟上海交通大學,癌症科學家孫少聰加盟首都醫科大學,美國國家工程院院士陳滬東落地浙江大學能源工程學院等等。最近一例頗為引人注目的無疑就是,全球頂尖AI科學家、IEEE Fellow許主洪(Steven Hoi)已加盟阿里通義,轉向通義大模型的相關研發工作。許主洪擁有超20年AI產業和學術經驗,是新加坡管理大學終身教授、曾任新加坡南洋理工大學終身副教授,在AI領域發表了300多篇頂級學術論文,論文被引用超過5萬次,曾被史丹佛大學評為全球頂尖1%的AI科學家之一。在此之前,另一位全球AI產業轟動的是來自Deepseek的潘梓正了。前輝達實習生,在2023年夏天毅然放棄了美國的機會,選擇加入北京的DeepSeek。當時深度求索團隊僅有3名成員,潘梓正成為公司的第四名員工。後來,他成為DeepSeek-R1模型的關鍵開發者之一。這讓哈佛大學教授格雷厄姆·艾利森也不得不感嘆,美國錯失了這位AI領域的“錢學森”。如上所述頂尖科學人才的回歸並非個例,已初步形成一種潮流。這一方面是由於美國科技裁員潮迫使華人科技精英另尋出路,尤其是川普上台之後大幅削減科研經費以及不友好的簽證政策更起到一種推波助燃的作用。根據《自然》雜誌日前發佈的一項資料:在接受調查的美國科學家中,有75%的人表示正在考慮離開美國。與此同時,中國對包括海外華人在內的科研人員吸引力越來越大。根據官方資料顯示,中國每年投入的研究與試驗發展(R&D)經費自2020年以來增長近40倍。2024年中國研發經費投入超過3.6兆元人民幣,同比增加8.3%。目前研發經費總量僅次於美國,位居全球第二。更重要的是,隨著中國科技產業的蓬勃發展,尤其是人工智慧、自動駕駛、機器人等產業需求的落地,這為技術的商業化提供了廣闊的天地,也為參與的科技人員提供了豐厚的經濟回報。如中國AI公司不僅給予頂尖技術人才高額的薪資,同時給予股權激烈,綜合下來,其回報將是美國同崗位的3倍以上。這也造就了中國史上最大的留學生“歸國潮”。如2023年歸國的留學生突破30萬人,是近十年來的歷史新高;不僅如此歸國留學生中大部分簡歷都想當硬核,有麻省理工、史丹佛博士後;也有Google、Meta、輝達的高級工程師等。這令美國專家不得不發出警告:“中國人才是美國ai的秘密武器,美國將無人可用!”根據國際金融論壇的報告預測,到2030年底,全球AI人才增長量將達280萬人以上,五年時間實現接近100%的增長。如上所述,種種跡象表明,這場全球化的人才爭奪戰才剛剛開始。在美國愈發封閉的人才政策的當下,中國以全球科技產業最大“試驗場”的獨特優勢正吸引越來越多科技人才的加入,尤其是尖端的AI人才!可以說,這場橫跨太平洋的AI人才遷徙,正在重塑全球技術競爭格局。 (飆叔科技洞察)
OpenAI前VP聯手DeepMind大神創業,目標打造AI科學家,a16z領投3億美元
兩位來自OpenAI和Google DeepMind的AI大牛正式聯手創業William Fedus 和 Ekin Dogus Cubuk 今日正式官宣新公司 Periodic Labs  的成立William Fedus曾任OpenAI後訓練副總裁,也曾在Google大腦工作Ekin Dogus Cubuk是另一位聯合創始人,此前是Google DeepMind材料科學與化學負責人,同樣出身於Google大腦他們宣佈,公司的目標是:打造一個AI科學家核心理念:AI科學家 + 自動化實驗室Periodic Labs認為,科學的運作方式是提出關於世界如何運作的猜想,進行實驗,並從結果中學習。在這個過程中,智力是必要但不充分的。只有當想法被驗證與現實一致時,新知識才得以創造。因此,Periodic Labs正在建構AI科學家,以及供其操作的自動化實驗室直到目前,科學領域的AI進展都源於基於網際網路資料訓練的模型。但網際網路儘管浩瀚,其資料仍是有限的(估計約10兆文字token),而近年來最前沿的AI模型已將其完全耗盡儘管研究人員試圖更好地利用這些資料,但正如任何科學家所知:重讀教科書可能會帶來新見解,但最終他們必須通過實驗來驗證想法是否成立自動化實驗室是Periodic Labs戰略的核心。它們具備三大優勢:1.提供海量、別處無法獲得的高品質資料(每個實驗可產生GB等級的資料)2.生成極具價值的負面結果,而這類結果很少被公開發表3.最重要的是,它們為AI科學家提供了行動的工具從物理科學起步,自然界就是RL環境Periodic Labs選擇從物理科學領域起步,因為技術進步受限於人類設計物理世界的能力選擇這一領域的原因在於:實驗的訊號雜訊比高且速度相對較快,物理模擬能有效建模許多系統,更廣泛地說,物理學是一個可驗證的環境AI在擁有資料和可驗證結果的領域(如數學和程式碼)中進步最快。而在物理科學領域,自然界就是強化學習(RL)的環境公司的目標之一是發現比現有材料更高工作溫度的超導體。這方面的重大進展將有助於創造下一代交通工具,並建設損耗最小的電網但這只是一個例子——如果能夠實現材料設計的自動化,就有可能加速摩爾定律、太空旅行和核聚變的發展同時,公司也致力於將解決方案與工業界結合。例如,他們正在幫助一家半導體製造商解決晶片散熱問題。通過為其工程師和研究人員訓練定製的AI agent,幫助他們理解實驗資料,從而加快產品迭代速度豪華創始團隊與投資陣容Periodic Labs的創始團隊背景深厚,曾共同創造了ChatGPT、DeepMind的GNoME、OpenAI的Operator(現為Agent)、神經網路注意力機制和MatterGen;他們還曾擴展自動化物理實驗室,並為過去十年中一些最重要的材料發現做出了貢獻公司也獲得了頂級投資者的支援。a16z領投了其3億美元的融資,其他投資者還包括 Felicis、DST Global、NVentures(輝達的風險投資部門)、Accel,以及包括Jeff Bezos、Elad Gil、Eric Schmidt和Jeff Dean在內的個人投資者這筆資金將用於發展團隊、擴大實驗室規模,並開發第一代AI科學家 (AI寒武紀)
Yann LeCun最新紀錄片首曝!傳奇AI教父的雙面人生,深度學習幕後40年
【新智元導讀】Yann LeCun的AI故事,紀錄片回顧了這位元深度學習先驅的四十年曆程。從索邦大學的孤獨探索,到貝爾實驗室發明摺積神經網路、推動支票識別商用,再與Hinton、Bengio共創深度學習革命,他始終堅信機器應學會學習。在AI的璀璨星空中,有一位傳奇人物始終閃耀——Yann LeCun。他不僅是深度學習的開創者之一,也是Meta的首席AI科學家。當祖克柏敲定28歲的Alexander Wang出任Meta的首席AI官後,所有人同時想到一個問題。Yann LeCun去那裡了?就在最近,Yann LeCun最新的個人紀錄片上線了!一位AI遠見者的反思,以及與Yann LeCun合著的AI故事影片中,這位Meta FAIR實驗室的首席科學家,在巴黎回顧了他早期在神經網路領域的工作、與Hinton的合作,以及深度學習和開源AI的演進歷程。LeCun認為,AI領域的真正競賽無關國界,而在於開放與封閉之爭。「我們看到的並非地區間的競爭,而更多是開放研究、開源世界與閉源生態之間的較量。」在LeCun看來,AI的真正進步,源於能夠讓創新成果普惠大眾的開放系統。這一發聲的時機頗為微妙,因為祖克柏最近暗示,Meta可能會重新考慮其Llama型的開源策略。倘若此事成真,Meta是否還是LeCun的容身之所,將打上一個問號。Yann LeCunAI「教父」的遠見與反思在塞納河畔的巴黎,一座美麗的建築靜靜矗立,它是法蘭西科學院的殿堂。Yann LeCun,作為其成員之一,站在這裡,彷彿能看到自己學術生涯的起點——不遠處的索邦大學。如今,他被譽為「AI教父」之一,是Meta的首席科學家和紐約大學的教授。Yann LeCun出生於1960年,是法國裔美籍電腦科學家、人工智慧和深度學習領域的先驅人物。他因在光學字元識別和電腦視覺中引入摺積神經網路(CNN)而聞名於世,被譽為「摺積網路之父」。Yann LeCun基於CNN的光學字元識別系統作為「深度學習三劍客」之一,他與Geoffrey Hinton、Yoshua Bengio一道推動了神經網路的復興,並在2018年共同獲得了圖靈獎這一電腦領域的最高榮譽。值得一提的是,Yann LeCun在博士期間提出了一種早期形式的反向傳播(Backpropagation)演算法,用於訓練多層神經網路 。這項工作為日後深度學習中廣泛使用的誤差反向傳播技術奠定了基礎。但故事的開端,卻是一段孤獨而堅定的探索之旅。孤獨的先驅時間回到上世紀80年代,當LeCun還是索邦大學的一名博士生時,他對機器學習,特別是「神經網路」產生了濃厚的興趣。這在當時是一個極其冷門的領域,以至於他在整個法國都找不到同路人。「人們當時在取笑我們,那些研究神經網路的人,」他回憶道。但這並未動搖他的信念。他堅信,機器真正的力量在於學習,而非被動地執行預設的程序。他埋首於John Hopfield、Geoff Hinton、Terry Sienowski等寥寥幾位先驅的論文中,並意識到,破解多層神經網路的訓練難題,是開啟未來的鑰匙。命運的轉折點發生在1985年。在一場研討會上,他結識了另一位AI巨擘Terry Sejnowski。回到美國後,Sejnowski興奮地告訴Hinton:「有個法國的小夥子,正在做跟我們一樣的事情!」右邊就是年輕時候的Hinton教授幾個月後,Hinton來到巴黎。憑藉著對法語的粗淺理解和清晰的數學公式,Hinton讀懂了LeCun的研究。當即,他向這位即將畢業的年輕人發出了邀請:「你何不來多倫多,跟我做博士後呢?」博士畢業後,Yann LeCun前往加拿大,從1987年開始在多倫多大學跟隨Hinton教授從事為期一年的博士後研究。一段傳奇的合作就此開啟。在多倫多的博士後經歷使Lecun有機會與辛頓直接合作,並深入瞭解深度神經網路的最前沿思想。貝爾實驗室時期摺積神經網路誕生1988年,LeCun加入了群星璀璨的貝爾實驗室自適應系統研究部門。當時貝爾實驗室是電腦科學和通訊技術的聖地,匯聚了眾多頂尖研究人員。這裡是現代科技的搖籃,也成為了他將理論付諸實踐的舞台。僅僅一兩個月,他便在一項手寫數字識別任務上取得了前所未有的成果。「我們有了一個可演示的系統,」LeCun生動地描述道,「只需將一張紙放在攝影機下,按一下鍵,它就能以每秒幾個字元的速度識別所有字元。」這個看似簡單的演示,催生了AI最早的商業應用之一:一個能自動讀取支票金額的ATM系統。LeCun的這些創新成果很快在實際中得到驗證。貝爾實驗室與銀行業合作開發了支票手寫體識別系統,利用摺積網路技術自動讀取銀行支票上的數字資訊。該系統在1990年代末投入商用後,被NCR等公司部署,據估計讀取了全美超過10% 的支票,大大提高了金融票據處理的自動化水平。摺積神經網路(CNN)在貝爾實驗室,LeCun受生物視覺系統的啟發,設計出一種層級結構的圖像識別模型,即摺積神經網路。他開發的CNN架構被稱為「LeNet」,最初用於識別手寫數字。1989年,他發表了著名論文《利用反向傳播演算法識別手寫郵政編碼》, 展示了摺積網路在手寫數字識別上的卓越性能。這項工作證明,多層摺積結構可以自動從圖像像素中學習特徵,有效地執行字元識別任務 。LeNet是深度學習歷史上的里程碑,被廣泛視為現代深度摺積網路的開端。然而,成功的道路佈滿荊棘。儘管技術領先,但要說服世界接受它卻異常艱難。「這個系統很難復現,」他解釋說,「每個人都用著不同的電腦、不同的作業系統。」他們手握著未來的鑰匙,卻難以分享給世界。更名,與天才們的「陽謀」進入21世紀,神經網路的名聲依然不佳。2003年,已成為紐約大學教授的LeCun決定,必須改變這一切。他和同道們做出了一個影響深遠的戰略決策:「我們改了名字,稱之為『深度學習』」。真正的爆發點來自他的導師Hinton策劃的一場天才「陽謀」。Hinton將他的三名學生作為實習生,分別「安插」進了當時擁有頂級語音識別引擎的三家巨頭——微軟、Google和IBM。他們的任務只有一個:用深度學習系統替換掉傳統引擎中的「聲學建模」部分。「結果他們都取得了更好的成績,」LeCun笑道,「這手策劃真是高明!」在那之後不到18個月,深度學習就佔領了幾乎每一部智慧型手機的語音識別功能。革命,就這樣悄然完成了。開放原始碼的信念與AI的未來如今,站在巴黎這個歐洲最大的創新溫床,LeCun的思考已超越了技術本身。他認為,AI領域的真正競爭,並非國與國之間,而是「開源世界與封閉專有世界之間的競爭」。以Meta的Llama模型為例——這個誕生在巴黎、下載量高達8億次的開源模型,正在賦能全球無數的開發者和企業。LeCun說選擇在Meta工作是因為Meta對開源有著堅定的承諾。2018年,Yann LeCun的頭銜進一步提升為首席AI科學家(Chief AI Scientist),負責統籌Meta平台下所有與AI相關的研究計畫。這意味著他不僅領導FAIR研究院的學術研究,還參與公司AI戰略的制定。「那個國家處於領先並不重要,」他說,「重要的是,開放研究和開源社區的迭代速度和進步,要比那些選擇閉門造車、秘不示人的公司更快。」對於甚囂塵上的「AI威脅論」,LeCun則展現了一位工程師的務實與樂觀。他認為,AI失控並非不可避免的宿命,而是一個需要解決的工程問題,就像製造安全的飛機一樣。「認為智力與統治慾望正相關的觀點是錯誤的,」他犀利地指出,「看看政界,情況甚至恰恰相反。」他提出了「目標驅動架構」的設想,即為AI設定目標和不可踰越的「安全護欄」,讓它們為人類服務。他甚至預言,未來將是「我的正義AI對抗你的邪惡AI」的制衡局面。「我相信社會最終會做出正確的選擇,因為民眾會提出這樣的要求。」工程師、音樂家與夢想家脫下「教父」的光環,Yann LeCun是一個擁有多元愛好的有趣靈魂。他從工程師父親那裡繼承了動手能力,痴迷於製造各種飛行器,「我們把它們飛上天,再把它們摔下來——當然不一定是故意的。」他對動物的智慧充滿好奇,也熱愛音樂,從巴洛克到硬波普爵士,品味廣泛。他懷念巴黎的美食,尤其是外祖母家鄉阿爾薩斯的傳統燉菜,那是一種對根的眷戀。LeCun說他有四分之一的阿爾薩斯血統。而這一切,都構成了他完整的人格——一個既能建構複雜演算法,也能在生活中尋找樂趣與靈感的創造者。在他的故事結尾,LeCun將目光投向了更年輕的一代,言辭懇切而充滿力量:「不要讓那些負面或聳人聽聞的故事阻礙你前進的腳步。要認識到自己的力量,主動去塑造你所期望的未來。即使是一個簡單的想法,只要它對你意義重大,只要你篤信不疑,就能帶來改變。未來,取決於你。」這或許就是Yann LeCun最核心的信念。他相信,AI的真正意義在於增強人類的智慧,就像15世紀的印刷機一樣。他所預見的,不僅僅是一場技術革命,更是一場全新的、由每個人共同書寫的「文藝復興」。而他,正是這場復興的奠基人與引路者。(新智元)
全球第一AI科學家天團,首戰封神!2.5個月找到治盲新藥,醫學圈震撼
【新智元導讀】就在剛剛,世界首個AI科學家天團首個成果重磅發佈——治療失明的新藥被發現了,而且僅僅用時2.5個月!世界首個AI科學家天團,剛剛重磅爆出了第一個成果!其中一位AI科學家,在實驗室中取得了首個重大突破——針對失明(dAMD)的全新藥物。可以說,這是一項真正的科學發現!AI自己做實驗、自己發現醫新藥的時代,真的來臨了。注意,在這個過程中,所有資料、假設、原始實驗和後續實驗,都是由AI科學家智能體生成的。只有實驗室工作和論文撰寫沒有被自動化。而且,全過程僅僅由一個研究人員小團隊,在短短2.5個月內就完成了。這代表了AI驅動科學發現的全新範式!就在五一期間,FutureHouse發佈了四個AI科學家Agent,科研能力直接超越o3,文獻搜尋已經超過人類博士。沒想到這次,才短短二十多天,AI們就已經產生了真正的成果。論文地址:https://arxiv.org/abs/2505.13400諾獎得主押注的方向,被人搶先了?不僅如此,GoogleDeepMind CEO、諾獎得主Demis Hassabis也在進軍AI藥物研發方向。他作為創始人,已經擁有了一家藥物研發初創公司Isomorphic Labs,成立僅四年。而Hassabis表示,到今年年底,公司就會有一款由AI設計的藥物進入臨床試驗了!在採訪中,Hassabis透露,公司正在關注腫瘤、心血管疾病、神經退行性疾病等主要疾病領域。「通常,發現一種新藥平均需要五到十年。而我們也許能將這個過程提速十倍,這將在人類健康領域帶來一場真正的革命。」這個方向實在是前景巨大,讓Isomorphic Labs一家吸引了多家大型製藥公司,希望借助AI降低高昂的藥物開發成本、提高研發效率。而現在,Future House,或許已經在這個方向上搶了先。AI科學家的首個發現AI科學家的首個重大突破,是一種治療乾性老年性黃斑變性(AMD)的新療法。因為乾性AMD是致盲的主要原因之一,這種療法前景十分廣闊。AI科學家智能體,這次直接包辦了寫論文所需的全過程,人類根本無需插手——它生成了假設、設計了實驗、分析了資料、進行了迭代,甚至為論文製作了圖表。可以說,除了沒進實驗室親手做實驗,AI基本把能幹的都幹了!不過要注意,提出這一發現的Future House團隊、真正的生物學家們特別強調說,這並不意味著他們已經用AI治癒了乾性AMD。如果要驗證這一假設,接下來還需要做人體試驗,這會需要更長的發現。而且,還不能說AI科學家這次做出了「第37步」等級的發現。不過按照目前的速度,相信達到這個水平,也會很快了。Robin出場:首個自動化科學發現的AI在這個過程中,團隊還推出了首個全自動化的多智能體系統——Robin。可以說,這個AI完全自動化了科學發現的電腦內(in-silico)元件。就是靠它,這次重大科研成果才能被發現。這應該是人類首次做到,讓AI將假設生成、實驗和資料分析以閉環的形式連接起來,這也標誌著,智能體推動的科學發生速度,從此會大幅加快!就在下週二,團隊將以開源形式發佈Robin。類似於Google的Co-Scientist,這段程式碼非常簡潔。團隊使用了多個AI智能體來篩選想法。在下周,程式碼就將開源,所有軌跡資料也會同時公開此前,FutureHouse發佈了一個AI智能體天團,專門用來實現科研各個環節的自動化。其中,Crow、Falcon和Owl用於文獻檢索和合成;Phoenix用於化學合成設計;Finch用於複雜資料分析。而這一次,團隊又完成了一項重大突破:所有這些智能體,合體到一個統一系統Robin中!這樣,科學過程中的關鍵智力步驟,就全部自動化。現在,Robin已經做出了首個發現——它識別出,Ripasudil可以作為治療乾性老年性黃斑變性(dAMD)的新型候選藥物。乾性老年性黃斑變性,是全球範圍內導致不可逆性失明的主要原因之一。此前,作為一種Rho激酶(ROCK)抑製劑,它已被臨床用於治療青光眼。Robin,如何做出首次發現所以,Robin具體是如何完成這一重大發現的呢?這個過程中,它經過了假設生成、實驗設計和資料分析的迭代循環。初始假設在這一階段,Robin借助Crow進行了廣泛的文獻綜述,隨後並提出一個關鍵假設——增強視網膜色素上皮(RPE)細胞的吞噬功能,可能對治療乾性老年性黃斑變性(dAMD)具有治療價值。隨後,Robin使用Falcon工具評估了一組可能實現該目標的候選分子,並在實驗室中對其中的十種進行了測試。接著,Robin利用Finch工具分析了這些實驗資料,由此有了這一發現:ROCK抑製劑Y-27632,能在細胞培養中增強RPE的吞噬功能。作用機制研究Robin隨後提出,應該進行RNA測序實驗,以確定Y-27632是否引起了可以解釋 RPE吞噬能力增強的基因表達變化。據此,人類科學家動手展開了實驗,由Finch進行資料分析,結果發現:Y-27632果然上調了ABCA1的表達!ABCA1,就是RPE細胞中一個關鍵的脂質外排泵。發現dAMD新療法基於第一輪藥物候選測試的資料,Robin提出了第二組候選藥物。研究者按照相同的實驗方法進行了測試,最終發現新的最佳候選物——Ripasudil,這是一種已被用於眼科治療的藥物。注意,整個研究的知識框架,完全是由AI主導的,而人類研究員起的作用,僅僅是執行物理實驗而已。要注意,Robin雖然首先被團隊應用於治療領域,但這個智能體是通用的,可以被用於從材料科學到氣候技術等跨多個領域的發現。科學研究的新範式,從此誕生了。人類從未想過的方法,被AI發現了從Future House放出的視訊中,我們可以瞭解到更多詳細資訊。團隊的三位成員,都是實打實的生物學家。比如左邊的Michaela,在過去十年中,一直在探索人類細胞基因調控分子機制的基本原理。中間的Ali,是一名臨床科學家,正在公司建立藥物研發管線。此前,他取得了生物技術的博士學位,還創辦過一家致力於研究新型生物材料藥物的公司。右邊的Benjamin,剛剛加入Future House,正在牛津大學攻讀統計機器學習博士學位,此前曾從事計算合成生物學工作。團隊介紹說,為了生成針對幹性AMD的新型治療候選藥物,他們建立了一個管線,把三個智能體Crow、Falcon(文獻綜述智能體)和Finch(原型資料分析智能體)連接了起來。這個多智能體系統,是同類系統中第一個將假設生成與資料分析結合起來的系統,從而建立了一個端到端的治療發現系統。以下,就是這個系統的具體工作原理。首先,通過對150篇文獻進行廣泛綜述,它提出了一種治療乾性黃斑變性(dAMD)的實驗策略。在綜合了400多篇科學論文和臨床實驗報告後,該系統生成了增強RPE吞噬作用的治療候選藥物的假設。然後,團隊嘗試了本次實驗中智能體建議的10種初始藥物。另外AI還建議,在實驗室的細胞培養測定中,使用ARP 19細胞和流式細胞術模擬這種行為。總之,這些智能體幾乎完成了藥物發現工作流中的每個步驟,人類只需要從系統給出的分析中進行選擇、執行實驗就可以了。由此,他們發現:Y-27632在增強RPE吞噬能力上表現最佳。當他們第二次運行Robin,並向其提供實驗結果時,它提出了另一種藥物Ripasudil。此前,人們只知道Ripasudil會抑制吞噬作用,但沒有人想到,它還可以作為乾性黃斑變性的一種治療方法!這就是AI科研的奇妙之處了——答案在幾年前就在那裡,但從未有人想過用這種方式,將所有事實整合到一起。甚至,這個AI還建議人類去進行RNA研究,來搞清為何Y27632能增強吞噬作用。聽話地做完這個實驗後,人們把資料提供給Finch,發現這種藥物不僅能導致肌動蛋白細胞骨架基因的差異表達,還改變了自噬基因的表達。這就揭示了Ripasudil發揮作用的潛在新機制。只要繼續這個實驗循環,智能體就會不斷進行資料分析,生成進一步的假設,從而很可能讓我們得到關於如何治療疾病的新機制的假設。這代表了AI智能體中科學發現上一個真正令人興奮的里程碑。更令人激動的是,這個過程才剛剛開始。 (新智元)
全球首個AI科學家天團出道!007做實驗碾壓人類博士,生化環材圈巨震
【新智元導讀】世界首個公開可用AI科學家天團,剛剛組團出道!FutureHouse發佈了四個AI科學家Agent,科研能力直接超越o3,文獻搜尋已經超過人類博士。就在剛剛,世界上首個公開可用的AI科學家登場了!前GoogleCEO Eric Schmidt投資的一家非營利組織FutureHouse,官宣發佈四個超人類的AI科學家智能體。通用智能體:Crow(烏鴉)自動化文獻綜述智能體:Falcon(獵鷹)調研智能體:Owl(貓頭鷹)實驗智能體:Phoenix(鳳凰)這些智能體都是專門為科學研究而開發。Crow、Falcon和Owl通過了嚴格的基準測試,在搜尋精度和精準性上已經超越了目前頂級搜尋模型,比如o3-mini,GPT-4.5,Claude-3.7。LitQA基準測試精度(正確答案 / 已回答問題)和精準率(正確答案 / 所有問題)比較FutureHouse還通過實驗,驗證了它們在直接文獻搜尋任務中,檢索和綜合能力比博士水平的研究人員具有更高的精度。在問答、文章總結和矛盾檢測這三個任務中,PaperQA2與人類博士的性能對比在未來一兩年內,我們將見證:今天科學家所做的大部分桌面工作,都會通過這些AI科學家的幫助而加速!完勝人類的AI科學家FutureHouse董事兼CEO Sam Rodriques表示:我們的AI科學家智能體,執行起科學任務來已經完勝人類!通過把它們串聯起來,我們已經很快有了全新的生物學發現。這次FutureHouse發佈的AI科學家,跟以往那些AI科學家有什麼不同呢?這主要就體現在,Crow、Falcon和Owl可以訪問大量完整的科學文字。這就意味著,你可以向它們提出關於實驗方案和研究侷限性的更詳細的問題。而一般的網路搜尋智能體,通常只能訪問摘要,這就會錯過這些問題。而且,它們還能使用各種因素來區分來源質量,確保它們不會依賴低品質的論文,或者是流行的科學來源。最後還有一點,也是至關重要的一點,就是FutureHouse會為使用者提供一個API,允許研究者將這些智能體直接整合到他們的工作流中。網友熱評:為我量身打造已經有網友摩拳擦掌,表示自己已經在想像使用起這個AI科學家的樣子了。有人表示,自己如今已經63歲了,有過12年的學界經驗,和25年的私人診所經驗,感覺這些AI科學家非常適合自己。當然,也有人提出疑問:這些產品使用的資料經過允許了嗎?誠然,目前這些智能體還不能自主完成大多數的科學研究。不過我們已經可以用它們來生成和評估新的假設,規劃新的實驗,速度還比以前快很多。另外,Future House內部還有專門用於資料分析、假設生成、蛋白質工程等方面的智能體,未來幾個月內即將上線。人類科研效率在下降,該AI上場了!所以,AI科學家具體是怎麼工作的?FutureHouse的三位科學家,為我們提供了詳盡的解答。據他們介紹,FutureHouse的平台,是從科學第一的角度建構的,而不僅僅是為了吸引儘可能多的使用者。這三位科學家,本身對於科學就有著十分濃厚的興趣。比如左邊的Michaela,在過去十年中,一直對控制人類細胞基因調控的分子機制十分好奇;中間的Mike是一位計算材料科學博士。右邊的Andrew表示,當他們共同創立未來之家時,他們注意到很多生產力和科學都在下降——每年人類發表的論文都越來越多,但突破卻越來越少。與此同時,AI卻已經進化到了可以真正加速科學發展的程度。因此,他們希望能讓AI科學家做到自動化科研的全過程,如搜尋文獻、生成假設和進行分析。其中,Crow非常適合文獻檢索問題,尤其是需要使用開放目標等資料來源的問題提供簡潔答案的時候。Falcon是一個更深度的搜尋工具,會考慮更多的來源,會在回答中為我們提供長篇報告。Owl則專注於先例搜尋,如果你好奇某項科研此前是否已經被做過,它的用武之地就來了。而且,它非常擅長梳理出某研究和過去研究的細微差別。Phoenix則是一名化學藥劑師,比其他科學家顯得更定製化,更關注化學問題。從PCOS開始,找到值得研究的新藥比如Michaela表示,自己的朋友最近表示自己有多囊卵巢綜合徵(PCOS),卻很難找到一種非激素的治療方法。Michaela就實測了一番,是否能用這些AI科學家從零知識獲得明確的可驗證假設。首先,她去問Falcon:請對PCOS進行全面解釋。然後,AI科學家就開始工作了,並且我們可以看到全程的推理過程。可以看到,Falcon建立了自己的搜尋詞,去搜尋已發表的論文,這一切都是它自行決定的。更特別的是,跟主流的Agent不同,FutureHouse的AI科學家可以訪問科學文獻的全文。引用次數、引用圖表、來自那些期刊,都一清二楚。在下一步,它抽出了其中的19份論文,同時還納入了治療PCOS的臨床實驗資訊。隨後,就發生了一個非常密集的推理過程,Falcon會找到與所提問題最相關的背景證據。在整個系統中,這種資訊漏斗的功能極其強大。幾位科學家表示,這個AI是目前該領域性能最強的資訊提取系統之一。下一步,就該Crow出場了。它被問到一個相當具體的問題:在基因組關聯研究中,那些關鍵基因跟PCOS相關?是否有人做過更清晰的篩選?果然,Crow發現了此前的研究:已經有人在一項功能基因組學研究中, 將特定基因表達的增加,與細胞培養中睾酮表達的增加聯絡起來。但這是為什麼呢?AI科學家也能找到答案。就這樣,我們從對PCOS一無所知的小白,一下子掌握了決定該領域的一個關鍵差距,本來這會耗費我們大量時間去閱讀資料、與專家交談的,現在全都省去了。甚至我們還可以點選連結,看到實際的推理軌跡:AI會解釋為什麼選擇這項來源。對於科學家而言,AI科學家的輔助無疑意義重大。因為在生物學或藥物設計領域擁有豐富經驗的研究者,並不會成為工程師,對於諸如抓取論文、設定分佈式資料庫、速率限制這類事都並不擅長。而這,就是FutureHouse平台誕生的意義。那如何在提出假設和檢驗假設這兩方面取得進展呢?這就需要Phoenix出場了。我們可以向它提問,讓它給出三種可以治療由DENND1A過度表達引起的疾病的新型化合物。(這是基於此前AI科學家給出的調研結果)因為在這個階段,我們需要找到能治療PCOS的藥物。我們可以從與蛋白質結合的分子開始,確保它更易溶解,不會進入肝臟或腎臟,以及沒有獲得過專利。在提問中,我們瞭解到,目前不存在已知的針對該基因的結合劑。這就提供了一個很好的線索,甚至值得投入資金來進行藥物研發。最後,AI科學家給出了一份關於不同候選分子的報告,列出了它們已知的結合物,以及為什麼可能與調節DENND1A的表達有關。這樣,它就給出了下一步研究的起點,我們可以直接去實驗室中驗證了。1年造出AI科學家FutureHouse的科學總監/聯合創始人Andrew White,在X上回顧了過去一年的研發歷程。2024年6月,FutureHouse發佈了Lab-Bench基準測試。2024年9月,FutureHous成功開發了PaperQA2智能體。PaperQA2示意圖:與傳統的RAG不同,在PaperQA2中LLM決定將那些工具應用於查詢。2024年10月,他們編寫了17,000篇關於人類編碼基因的維基百科文章,驗證了AI科學家的可行性。2024年12月,他們利用新的框架和訓練方法,在多個任務上了訓練智能體——在分子克隆和文獻研究方面超過生物學專家20多個精準率點。昨天,他們隆重發佈了FutureHouse平台。獨具匠心的智能體,真正改變科研與傳統智能體相比,FutureHouse智能體的優勢非常獨特:它們不僅能夠訪問海量高品質的免費論文和專業科學工具,而且還能從專業的論文資料庫中精準搜尋資訊。它們還能模仿研究人員,採用多種方法評估資訊來源的質量。而且這些智能體的推理過程完全透明,對每個資訊來源都進行了多階段的深入分析。更重要的是,使用者可以清晰地查看整個推理過程,瞭解智能體得出結論的每一步依據。此外,FutureHouse平台具備良好的擴展性。科學家個人往往難以維護自己的AI智能體部署,因此FutureHouse不僅提供了網頁端介面,還開放了API,便於研究人員將其整合進實際工作流中。通過大規模整合和連結這些智能體,科學家能夠大幅提升科學發現的速度與效率。已知的具體應用場景這個平台尤其擅長應對以下兩類問題:需要詳盡全文文獻分析的研究課題,或需要運用專業化學工具的探索任務。具體應用場景包括:挖掘疾病路徑中的未知機制:使用者可利用Falcon獲取背景知識,Crow挖掘關鍵基因關聯,Owl定位研究空白。這些操作只要幾分鐘就能完成,而傳統的文獻調研要花費數周時間。系統梳理文獻中的矛盾:使用者可利用Falcon分析數百篇論文中爭議性話題的矛盾證據,精準指出需要進一步實驗去澄清的爭議點。深入剖析實驗方法:由於智能體可以訪問計畫全部的科學論文,使用者可詳細詢問實驗方法或研究侷限性,挖掘摘要中難以察覺的關鍵細節。通過API定製研究流程:研究團隊利用API建構軟體系統,即時監控最新論文,或大規模搜尋文獻,為篩選實驗結果提供全面的背景知識支援。尋找目標蛋白的結合候選物:科學家可指示Phoenix基於現有資料,篩選結合目標蛋白的候選物,同時滿足溶解度、官能團或新穎性等複雜要求。探索化學知識:Phoenix能判斷化合物的新穎性、估算成本、預測化學反應結果,甚至比較直接購買與自行合成化學品的成本。 (新智元)
當前大語言模型最終都會被淘汰 | 楊立昆萬字演講實錄
3月21日,Meta首席AI科學家楊立昆在美國2025 年聯合數學會議上就 AI 的發展現狀與未來方向發表了演講。他深入分析了當前 AI 技術,特別是自回歸大語言模型存在的根本侷限,如“幻覺”問題和無法真正理解物理世界。楊立昆表示,如果想實現達到人類水平的 AI,別只盯著 LLM,當前大語言模型最終都會被淘汰。他表示,AI 需要像嬰兒一樣通過觀察和互動來學習世界模型,為了學習世界模型,我們應該放棄(像素級預測的)生成式 AI,並重點介紹了他所推動的基於能量的模型(EBMs)和聯合嵌入預測架構(JEPA)等新思路,以及與之相關的規劃和推理能力的重要性。以下是本次演講實錄經數字開物團隊編譯整理剛聽 Bryna 列舉了過往 Gibbs 講座的各位傑出演講者,我確實深感壓力。我不敢相信自己能夠與那些大師比肩。不過,還是讓我來談談 AI。如今人人都在談論 AI,特別是實現達到人類水平 AI 的難點。在 AI 的研發生態中,許多人開始認為,我們或許有機會在未來十年左右,建構出一種最終有望達到人類智能水平的機器架構。至於這具體需要多長時間,各種預測眾說紛紜,差異巨大。最樂觀的人認為我們已經實現了。有些正在大舉融資的人聲稱明年就能實現,但我個人並不如此認為。但我確實認為我們大有希望。接下來,我想和大家探討一下,我所認為的 AI 研究方向、面臨的挑戰,以及其中一些確實存在的數學難題。我們為何需要建構具備人類水平智能的 AI 系統?因為在不久的將來,我們每個人都將與 AI 助手互動,讓它們來協助我們的日常生活。我們將能通過各種智能裝置 (包括智能眼鏡等) ,借助語音以及其他多種方式與這些助手溝通。我們將擁有內建攝影機和螢幕的智能眼鏡。目前市面上已有不帶螢幕的智能眼鏡,但帶螢幕的版本也即將問世。實際上,這種技術現已存在,只是成本過高,尚未能商業化。這是我們在 Meta 的同事們展示的 Orion 項目。所以,未來正在到來。設想:我們每個人的一生,都將與 AI 助手緊密相伴、持續互動。我們每個人都會像大公司的 CEO 或重要官員一樣,身邊隨時有一支由聰明的虛擬助手組成的團隊待命,為我們服務。這是一種可能出現的未來景象。但問題在於,我們尚不知曉如何實現這一切。坦率地說,當前機器學習 的水平,確實不盡如人意。與人類或動物相比,機器的學習效率非常低。要達到某個特定的性能水平,它們需要經歷的樣本數量或試錯次數極為龐大。過去,機器學習的主要範式是監督學習。監督學習的過程是:給系統一個輸入,等待其產生一個輸出,然後告知系統正確的、預期的輸出是什麼。如果系統產生的輸出與期望不同,它便會調整內部參數,以使下一次的輸出更接近正確答案。這本質上只是在學習一個輸入輸出的對應關係。強化學習則不直接告知系統正確答案,它僅是告知系統其產生的答案是好是壞。這種方法的主要問題在於,系統需要反覆嘗試並接收關於“好壞”或“是否有改進”的反饋,因此其效率甚至低於監督學習。強化學習目前主要僅適用於遊戲或者那些可以在電腦上快速模擬的場景。在過去幾年裡,有一項技術給 AI 領域帶來了革命性的變化,那就是自監督學習 。它的效果驚人地好,確實給 AI 帶來了翻天覆地的變化。然而,它的侷限性也非常明顯。自監督學習是當前大語言模型、聊天機器人以及類似技術的基礎。稍後我會向大家解釋其工作原理。動物和人類學習新任務的速度非常快。它們能理解世界的運作方式,能夠進行推理和規劃,並擁有常識。它們的行為是由目標驅動的,而不僅僅是預測文字序列中的下一個詞。那麼,這些聊天機器人和 LLMs 是如何工作的呢?自回歸大語言模型的訓練目標是預測序列中的下一個詞,或者更準確地說,是預測一個離散符號序列中的下一個符號,例如詞語、DNA 序列、音符、蛋白質序列等。其具體做法是,取一段符號序列,將其輸入一個大型神經網路。這種網路的架構設計旨在讓系統在其輸出端重現其輸入——這被稱為自動編碼器 。使用者輸入一個序列,並要求系統在輸出端複製這個序列。然而,該架構的特點在於:系統在生成某個特定符號時,只能參考該符號之前的符號序列,無法看到需要預測的符號本身。因此,訓練的實質是讓模型根據先前的符號預測下一個符號。這個訓練過程可以在長序列上平行執行。通過測量輸入序列與系統生成序列之間的某種散度進行量化差異,再利用基於梯度的最佳化方法,調整預測器函數 (一個可能包含數百億乃至數千億參數的巨型神經網路) 內部的所有參數,以最小化該散度值。這是一個維度非常高的問題。系統訓練完成後,當輸入一個序列時,它便會預測下一個符號。假設此處的上下文窗口(即系統回溯參考的先前符號數量) ,其大小為 3。實際上,對於當前的 LLM,該窗口長度可達數十萬符號。但我們假設是 3。向系統輸入 3 個詞,它會生成下一個詞。當然,系統無法精確預測下一個詞具體是那一個,因此它實際輸出的是一個覆蓋其詞彙表中所有可能詞語 (或 Tokens) 的機率分佈。通常在 LLMs 中,訓練模型生成的是 Tokens,即子詞單元,而非完整的詞。可能的 Token 種類數量通常在 10 萬左右。在使用這個訓練好的系統時,使用者首先輸入一段文字序列,稱為提示。系統預測出下一個 Token 後,將其追加到輸入序列的末尾。隨後,系統基於更新後的序列預測再下一個 Token,並再次追加,如此循環往復。這就是自回歸預測,一個在訊號處理和統計學領域非常古老的概念。如果將這些神經網路建構得極其龐大,使用非常長的輸入窗口,並利用包含數兆乃至數十兆 Token 的海量資料集進行訓練,其效果便會格外顯著。這些系統似乎能夠學習到語言或其他符號序列內部大量深層次的結構。然而,自回歸預測存在一個根本性的問題 (在座的數學家或許能更嚴謹地將其形式化表述) 。自回歸預測本質上是一個發散的過程。想像符號是離散的。每生成一個符號,便存在多種選擇 (可能多達 10 萬種) 。可以將所有可能的 Token 序列集合想像成一棵巨樹,其分支因子達到 10 萬。在這棵龐大的樹中,僅有一棵極小的子樹對應著所有“正確”的答案或合理的續寫。例如,若初始提示是一個問題,那麼後續生成的包含答案的文字序列便都位於這棵小子樹之內。但問題在於,這棵代表正確性的子樹,在由所有可能序列構成的巨樹中,僅佔極其微小的一部分。問題由此產生:若假設 (儘管此假設並不成立) 每生成一個符號便有固定的錯誤機率 ‘E’,且各步錯誤相互獨立,那麼一個長度為 N 的序列保持完全正確的機率即為 (1-E)^N。即使錯誤率 E 非常小,但隨著序列長度 N 的增加,該正確機率也會呈指數級衰減並趨近於零。這個問題是自回歸預測框架所固有的,在當前框架內無法解決。我的預測是:自回歸 LLMs 註定要被淘汰。幾年後,理性的人們可能將不再使用它們。這也就是為何經常出現 LLM 產生幻覺的現象;它們有時會生成不合邏輯或與事實不符的內容,其根本原因便在於這種自回歸預測機制。問題在於,應當採用何種機制來替代它?以及它是否存在其他侷限性?我認為,我們目前仍缺乏一些根本性的要素——即一種建構 AI 系統的全新理念。僅僅依靠在更大的資料集上訓練更大的語言模型,永遠無法實現達到人類水平的 AI。這絕無可能。稍後我會闡述另一個原因。且不說達到人類的水平,即便要模擬數學家或科學家的能力也相去甚遠,我們目前甚至無法復現貓所具備的能力。貓對於物理世界擁有驚人的理解力 (我用貓舉例,換成老鼠也同樣適用) 。我們目前尚不清楚如何讓 AI 系統獲得如同貓一般的物理世界理解能力。家貓能夠規劃非常複雜的行動序列。它們擁有關於世界的因果模型 (Causal Models) ,能夠理解自身行為所產生的後果。而人類的能力則更為出色。一個 10 歲的孩子便能收拾餐桌並將碗碟放入洗碗機,即便先前從未專門學習過此項任務。讓這個孩子去執行,他很可能在首次嘗試時就能正確完成。這與零樣本學習相關。這是因為這個孩子已經具備了相當完善的世界心智模型 (Mental Model) ,理解物體在被操控時的反應方式以及事物應有的狀態。一個 17 歲的青少年,大約通過 20 小時的練習便能掌握駕駛技能。然而,儘管自動駕駛公司積累了海量的訓練資料 (可能多達數十萬小時的人類駕駛錄影) ,但時至今日,我們仍未實現完全自動駕駛,即 L5 等級的車輛。我們已有能夠通過律師資格考試、解決數學問題乃至證明定理的 AI 系統。但是,承諾的 L5 級自動駕駛汽車在那裡?我的家用機器人又在何處?我們仍舊無法建構出能有效與真實物理世界互動的系統。事實證明,物理世界遠比語言複雜得多。這恰好印證了莫拉維克悖論 (Moravec's Paradox) :那些對人類而言頗具挑戰的任務 (例如計算積分、求解微分方程、進行象棋或圍棋對弈、規劃城市路徑等) ,電腦反而極為擅長。它們在棋類對弈等任務上的表現遠超人類,使我們望塵莫及。這意味著什麼?當人們將人類智能譽為“通用智能”時,這完全是一種誤解。我們人類並不具備所謂的通用智能;我們是高度專業化的。僅靠文字訓練,我們無法實現達到人類水平的 AI。這裡有一個有趣的計算值得關注。一個典型的現代大語言模型大約是在20 兆個 Token 上進行訓練的。每個 Token 大約相當於 3 字節,因此總量接近 60 TB。我們將其近似看作100 TB 。我們任何一個人都需要花費數十萬年,才能讀完這如海量般的文字,而這幾乎囊括了網際網路上所有公開可用的文字。這似乎是極其龐大的訓練資料量。現在,我們來考慮一個人類的孩子。一個四歲的孩子總共清醒的時間大約是 16,000 小時。我們大約有 200 萬根視神經纖維 (每隻眼睛 100 萬根) 連接到視覺皮層。每根視神經纖維大約每秒傳輸 1 字節的資料。計算表明,一個四歲的孩子在四年內僅通過視覺就處理了大約 100 TB的資料。物理世界蘊含的資訊,特別是來自視覺、觸覺和聽覺的感官輸入,其資訊量遠超人類有史以來產生的所有文字。如果我們不能讓 AI 系統通過觀察世界來學習其運作規律,我們將永遠無法實現達到人類水平的智能。感官輸入所能提供的資訊,遠比文字豐富得多。心理學家已經研究過嬰兒如何學習現實世界,在最初的幾個月裡,他們主要通過觀察來學習。在此期間,嬰兒除了活動自己的四肢外,並不能對世界產生顯著影響或與之進行有效互動。他們主要通過觀察,學習了大量關於這個世界的背景知識。這是一種 自我監督學習的形式,我相信,如果我們希望 AI 系統能達到動物乃至人類水平的智能,就必須復現這種學習方式。嬰兒會學習諸如 物體恆存性(即一個物體被另一個物體遮擋後依然存在的事實)、穩定性以及自然物體類別(即使不知道它們的名稱) 等概念。他們還會學習直覺物理學,包括重力、慣性和動量守恆等基本物理規律。嬰兒大約在九個月大的時候就能掌握這些。如果你給一個六個月大的嬰兒展示一個物體似乎漂浮在空中的場景,他們並不會感到特別驚訝。然而,一個 10 個月大的嬰兒看到同樣的場景則會睜大眼睛,顯得非常驚訝,因為那時他們已經懂得,沒有支撐的物體會下落。這種學習主要是在這個年齡段,通過觀察並結合一些互動完成的。要實現達到人類水平的 AI (Meta 稱之為 AMI,即高級機器智能,其發音 'ami' 在法語中意為 '朋友';之所以這樣命名,是因為我們認為人類智能並非真正通用的),我們需要這樣的系統:它們能夠通過觀察和感官輸入學習世界模型,也就是對世界運作方式的內部認知模型。這使得它們能夠學習直覺物理學和常識。我們還需要具備持久性記憶的系統,能夠規劃複雜行動序列的系統,能夠進行推理的系統,以及那些天生可控、設計安全的系統,而不僅僅是像當前 AI 系統那樣通過微調實現安全可控。在我看來,要建構這樣的系統,唯一的途徑就是徹底改變其執行推理的方式。當前 LLM 和其他神經網路改採用的推理方式,是將輸入訊號通過固定數量的網路層處理後生成輸出。LLM 就是這樣工作的;每生成一個 Token,都會消耗固定的計算量。讓 LLM 實現所謂‘更長時間思考’的技巧,其實是誘導它生成更多的 Token (這被稱為 思維鏈推理)。這在近期被譽為 AI 領域的一大進步。然而,這種每步計算量固定的方式,其侷限性非常大。對於一個規模合理的神經網路來說,訊號通過固定層數所能計算的函數類型是有限的。大多數複雜任務需要可變的計算步驟;它們無法總被簡化為固定的幾步。許多計算任務在本質上是序列或順序的,而非純粹的平行結構。處理複雜問題,往往需要投入比簡單問題更多的計算資源 (時間)。一種更優的推理方法,或許是“通過最佳化進行推理”。在這種方法中,你先獲得一個觀察結果,這個觀察結果可以先通過幾個初始神經網路層進行初步處理。然後,你擁有一個成本函數(它本身也可以是一個神經網路),它會輸出一個標量值。這個成本函數用於衡量輸入與某個假設輸出之間的相容程度 (或不相容程度)。於是,推理問題就轉變為一個最佳化問題:給定輸入 'x',去尋找能使該目標 (成本) 函數最小化的那個輸出 'y'。我將這種方法稱為 目標驅動的 AI,當然,這並非一個全新的概念。大多數機率推理系統(probabilistic inference systems) 正是運用最佳化來進行推理。在座的各位中,很多人都研究過最優控制;最優控制中的規劃,比如模型預測控制,它就是通過最佳化來生成控制輸出的。關於這一點,我稍後會再詳細說明。這個想法並不新鮮,但似乎已經被遺忘了。我相信我們必須重新回歸這種方法。我們需要建構基於最佳化推理架構的系統,其中,“輸出”被看作一個潛變數,需要依據輸入和目標函數 來進行最佳化確定。這在傳統 AI 中是很經典的思想:在可能的解空間中搜尋解決方案。這種思想非常傳統,只不過在近期的深度學習熱潮中有些被忽視了。這種方法能解決的任務類型,大致相當於心理學家所說的 “系統 2” 思維模式。在人類認知中,存在兩種產生行為的模式。系統1處理的是潛意識層面的任務,也就是那些無需深思即可執行的動作。而當你必須集中意識、深思熟慮來規劃一系列行動時,系統 2 就開始工作了。例如,當你在建造不熟悉的東西時,你會用到系統 2。當你在證明一個定理時,毫無疑問你也在使用系統2。若要形式化地表述這種‘通過最佳化進行推理’的過程,最佳方式是什麼呢?這正好對應了能量基模型(Energy-Based Models)的核心思想。一個 EBM 會計算一個稱為“能量”的標量值,它衡量的是輸入 X 與候選輸出 Y 之間的不匹配程度。它通過最小化這個能量值 (相對於 Y) 來進行推理。我們稱這個能量函數為 F(X, Y)。為何用 'F' 而非 'E' (Energy) 呢?因為 'F' 關聯到自由能,這可以追溯到吉布斯的研究工作。這就是推理的過程。通過標量能量函數來刻畫變數 X 和 Y 之間的依賴關係,這種方法比直接學習從 X 到 Y 的對應函數要通用得多。原因在於,對於給定的 X,可能存在多個與之相容的 Y 值。例如,在機器翻譯中,一個英文句子可能對應許多個有效的法語翻譯。所有這些好的翻譯都應該對應較低的能量值,表明輸入 (英文句) 和輸出 (法文譯文) 在翻譯任務上是相容的。但這並不意味著一定存在唯一的“正確”輸出。本質上,我這裡談論的是 隱式函數——也就是通過隱式函數,而非顯式函數,來表達變數間的依賴關係。這是一個非常簡單的概念,但令人意外的是,有些電腦科學家似乎對此難以理解。那麼,在一個能夠規劃行動的智能系統中,我們應如何運用這些能量基模型呢?下面這個示意框圖,展示了這類標量能量函數系統的內部結構。在此圖中:圓形表示變數 (觀測到的或潛在的)。一端扁平、另一端圓弧形的模組代表 確定性函數 (比如,產生單一輸出的神經網路)。矩形代表目標函數,它們是標量值函數,當其輸入組態符合期望或可接受時,函數值就低,反之則高。這裡可以有多種類型的目標函數。一種是衡量系統完成預期任務的程度。另一類則可能代表護欄,也就是一些約束條件,用於防止系統執行不期望的、危險的、自毀的或有害的行為 (例如,對附近人類造成傷害)。整個過程始於觀察世界狀態 (S_t)。該觀察結果首先被送入感知模組,由它生成當前狀態的一種內部表示。由於感知可能是不完整的,該表示可能會結合來自記憶模組的資訊,後者儲存著對世界未觀測部分的估計狀態。這些資訊組合起來,就構成了當前的狀態估計。這個狀態估計隨後被輸入到一個世界模型中。世界模型的作用,是預測在執行一個特定的行動序列 (A) 後,將會產生什麼樣的結果 (即未來的狀態表示)。行動序列在圖中由黃色變數框表示。世界模型會預測出一系列後續的狀態表示 (S_t+1, S_t+2...)。這些預測的狀態表示,隨後被輸入到目標函數中進行評估。假定所有這些模組 (感知、世界模型、成本模組) 都是可微的(例如,可以由神經網路實現),那麼就可以將梯度從成本函數出發,經由世界模型,一路反向傳播到行動序列上。通過使用基於梯度的最佳化方法 (例如梯度下降),就能找到一個可使總體成本 (目標函數值) 最小化的行動序列。這個過程,本質上就是在進行規劃。我們首先來描述一個系統如何通過最佳化來執行推理,也就是規劃。這需要一個“世界模型” ,用來預測行動會帶來什麼後果。在最優控制理論裡,這是一個非常經典的想法——你要控制一個系統,就得先有一個這個系統的模型。給這個模型輸入一系列行動(或者叫控制指令),它就能預測出結果。比如說,要把火箭送入空間站。我們得有一個火箭的動力學模型。我們可以先設想一系列控制指令,預測火箭的飛行軌跡,再用一個成本函數來衡量火箭離目標空間站有多遠。接著,通過最佳化,就能找到讓這個成本最小的那一套控制指令,引導火箭飛向目的地。這是一種非常經典的技術,叫做“模型預測控制” (MPC)。從上世紀 60 年代開始,MPC 在最優控制、機器人技術,甚至火箭軌道規劃這些領域,都有非常廣泛的應用。當然,真實世界並非完全是確定性的。我們用的世界模型,可能需要引入一些“潛在變數”,這些變數的值我們沒法直接看到。它們可能代表著一些未知因素,可能需要從某個機率分佈中抽取,這樣一來,模型就會給出多種可能的預測。所以,用這種包含了潛在變數來表示未知因素的世界模型,在不確定性下做規劃,肯定是非常理想的。不過,在通常情況下,這仍然是一個尚未解決的難題。我們最終想要實現的是“分層規劃”。人類和動物天生就會這麼做。但是,目前還沒有那個 AI 系統能真正學會如何有效地做分層規劃。我們可以手工定義好層次結構,讓系統去執行分層規劃,但沒有系統是真正自己學會這個能力的。舉個例子:假設我現在在紐約大學的辦公室,打算去巴黎。我不可能只靠規劃具體到毫秒級的肌肉怎麼動,這是最低層級的動作,來計畫好從辦公室到巴黎的整個行程,這做不到。第一,這個動作序列會特別特別長;第二,我缺少做這種規劃所必需的資訊(比如,我沒法預先知道路上那個紅綠燈是紅的還是綠的,這會影響到我計畫在那兒是停還是走)。不過,在比較高的抽象層面上,我的大腦可以做這樣的預測:要去巴黎,得先去機場坐飛機。好了,現在就有了一個子目標:去機場。那怎麼去機場呢?在紐約的話,我可以下樓到街上,招手叫輛計程車。那怎麼下到街上呢?我得從辦公桌前站起來,走到電梯那兒,按下按鈕,然後走出大樓。那怎麼去電梯那兒呢?我得從椅子上站起來,拿起包,打開辦公室的門,然後一邊躲著障礙物,一邊走到電梯口。你看,沿著這個層次往下,到了某個足夠具體的層級,詳細的行動規劃(比如剛才說的毫秒級肌肉控制)才變得可行,因為這時候,做動作需要的即時資訊都有了(比如,站起來、開門這些動作,就可以在當前這個局部環境下規劃)。所以說,怎麼學習世界模型、怎麼學習分層世界模型、怎麼學習世界的“抽象表示”,好讓系統能在不同的時間尺度上做預測,從而有效地規劃,關於這一系列的問題,目前還沒有人確切地知道該怎麼做,或者怎麼能讓它穩定可靠地運行起來。把這些部分拼在一起,我們大概就能得到一個 AMI,也就是人工智慧機器,它可能的“認知架構”是什麼樣的。這個架構裡,得有一個世界模型,還得有各種各樣的“目標函數”,一個“行動者”(它負責最佳化動作來降低成本),還得有“短期記憶”(有點像大腦裡的海馬體),最後還需要一個“感知模組”(類似大腦的視覺皮層)。大概兩年半以前,我寫過一篇長論文,大致講了我認為 AI 研究要在那個方向上使勁,才能取得進展。寫那篇論文的時候,“大語言模型”那股熱潮還沒起來,雖然那時候 LLM 已經有了。但我從來就不信,光靠 LLM 就能搞出達到人類水平的 AI。那我們怎麼才能讓 AI 系統通過看視訊之類的感官輸入,來學習關於這個世界的“心智模型” 呢?我們能不能像訓練 LLM 那樣,用“自回歸預測”的思路,去訓練一個“生成式架構”,讓它能預測視訊的下一幀畫面呢?答案是:不行,這招沒用。我本人在這上面花了 20 年功夫,結果是徹底失敗。它對視訊預測就是不管用。但它對預測離散的符號是管用的,因為預測下一個符號的時候,處理不確定性相對簡單直接:你只要輸出一個機率向量就行了(也就是一串加起來等於 1 的、0 到 1 之間的數字)。可視訊預測的難點在於,你要預測的是一個維度非常高、而且是連續的對象(也就是一幀圖像)。我們現在還不知道,怎麼才能在這樣高維度的連續空間裡,既有效又方便地表示“機率密度函數”。雖然我們可以用“能量函數”來間接表示它,然後再做歸一化(這有點像統計物理裡的做法,比如用玻爾茲曼分佈 (Boltzmann distribution),就是那個 exp (-能量/kT))。但是,對於高維空間裡複雜的能量函數來說,要算出那個歸一化常數(也叫“配分函數” (partition function)),通常在計算上是搞不定的。所以說,用標準的“生成式模型”(比如那種直接預測每個像素值的自回歸模型),想通過訓練它做視訊預測來學習世界模型,效果並不好。現在是有很多人在研究生成式視訊模型,但他們主要的目標,往往就是生成視訊本身,不一定是為了從中學習深刻的世界模型。如果你的目標只是生成視訊,那這個方法也許還行。但如果你想讓系統真正理解它背後的物理原理和因果關係,那這條路多半是走不通的。你想想,未來明明是不確定的,你非要讓系統給出一個唯一的、確定的預測,那結果往往就是預測出來的東西模模糊糊的,或者是各種可能性的一個平均,因為它沒辦法,只好試著把各種可能性都折中一下。針對這個問題,我提出的解決方案叫做 JEPA,它的全稱是“聯合嵌入預測架構” (Joint Embedding Predictive Architecture)。概念圖大概是這個樣子。可能你第一眼看上去,覺得它跟生成式架構沒啥區別。讓我來給你講清楚點。左邊這個是生成式架構:它在訓練的時候,要最小化的是“預測誤差”。你看,它觀察輸入 X,在訓練的時候也觀察目標 Y,然後就訓練這個系統怎麼根據 X 來預測 Y。這跟“監督學習”很像(或者說,如果 Y 本身就是 X 的一部分,那就跟“自監督學習”差不多,比如預測序列裡的下一個元素)。這套方法對預測離散的 Y 管用,但是對預測連續的、高維的 Y(比如圖像或者視訊)就不行了。右邊這個就是聯合嵌入預測架構 (JEPA)。你看,輸入 X 和目標 Y,都各自經過一個“編碼器網路”。這些編碼器會算出 X 和 Y 的“抽象表示”(也就是“嵌入”)。X 和 Y 的編碼器可以是不一樣的。然後呢,預測是在這個抽象的表示空間裡進行的(就是從 X 的表示來預測 Y 的表示)。這可能就是個更容易解決的問題了,因為你想啊,原始輸入 Y 裡面,很多細節資訊可能壓根兒就沒法預測。JEPA 架構的目標,就是要學到一種抽象表示,把那些不可預測的細節給過濾掉或者忽略掉。編碼器函數要學習的是“不變性”,目的是把 Y 裡面那些跟不可預測因素相關的變化,從表示空間裡給去掉。比方說,想像一個鏡頭在這個房間裡掃過。要是我停下鏡頭,讓系統預測下一幀畫面是啥,它可能能預測出大體的場景(比如座位上有人),但它絕對預測不了每個人的精確位置和長相,也預測不了地板、牆壁的精確紋理。這裡面有太多不可預測的細節了,因為需要的資訊根本就不在輸入畫面裡(也就是上下文中沒有)。JEPA 就是要學習一種能過濾掉這些不可預測細節的表示,把預測的精力集中在那些能預測的事情上,而不是在那些壓根兒預測不了的東西上白費力氣。當然,要有效地實現 JEPA,還有一些技術上的挑戰。但結論就是:如果我的說法是對的,那在學習世界模型這件事上,用 JEPA 這種架構要比用標準的生成式架構好得多。為了學習世界模型,我們也許真該放棄那種像素等級的生成式預測了。現在大家都在談論“生成式 AI”。而我的建議是,要想學習世界模型,咱們就得放棄(像素級預測性的)生成式 AI。這些架構也有不同的變種,有些可能還會用到潛在變數。不過,一個關鍵的挑戰是怎麼去訓練這些“基於能量的模型”或者 JEPA 系統。要想訓練這種系統學會變數之間的依賴關係,就得學習一個能量函數,讓這個函數給那些在訓練資料裡看到的、匹配的 (X, Y) 資料對打低分(低能量值),而給那些不匹配的、或者離正常資料分佈(也就是“資料流形”)很遠的資料點打高分(高能量值)。你可以想像一下,所有正常的 (X, Y) 資料點都分佈在某個高維空間裡的一個光滑的面上(這個面就叫流形)。我們希望能量函數在這個面上得分最低(比如是 0),然後離這個面越遠,得分就越高。問題是,就我所知,訓練這種系統主要有兩種辦法。如果這個能量函數特別能變形(就是參數特別多,能擬合出各種形狀),那它就可能會“崩潰”。如果你只讓能量函數在訓練資料點上得分低,其他啥也不管,那系統最後可能就學到一個最簡單的解:給所有點都打一樣的最低分,變成一個完全平的能量函數。這就是一個沒用的“平凡解”。這就叫“崩潰”。那怎麼防止崩潰呢?主要有兩種方法。第一種是“對比方法”(Contrastive methods)。你得另外生成一些“反例”樣本(圖中那些閃爍的綠點),這些點不在正常的資料流形上。然後你明確地告訴模型,要給這些反例打高分,同時給那些正常的樣本打低分。你通過設計一個“損失函數”來達到這個目的。但對比方法的毛病在於,到了高維空間它就不太好使了,因為要想把能量函數的樣子(也就是“能量地貌”)給塑造好,你需要特別特別多的反例樣本,這個數量會隨著維度增加呈指數爆炸式增長。第二種是“正則化方法” (Regularized methods)。這種方法是在損失函數里加一個“正則化項” (regularizer term)。你通過最小化這個正則化項,來間接地限制那些被打低分的輸入空間的“體積”,不讓它變得太大。這聽起來可能有點玄乎,但在應用數學裡有類似的想法,比如“稀疏編碼” (sparse coding)。當你讓一個潛在變數變得稀疏的時候(比如加個“L1 懲罰項”,你其實就是在減小那些能讓“重建能量”很低的潛在空間的體積。所以,基本上就是這兩條路:對比方法和正則化方法。不同的架構,發生崩潰的傾向性也不一樣。既然這是吉布斯講座 (Gibbs lecture),我必須再提一下Gibbs的名字。怎麼把能量函數正兒八經地變成機率分佈呢?就是用“吉布斯-玻爾茲曼分佈” (Gibbs-Boltzmann distribution)。你算一個 exp(-β * F(X,Y)),β 是個常數,類似“逆溫度”,F(X,Y) 就是能量函數。然後你把這個式子在 Y 的所有可能取值上做個積分,用這個積分結果去除它本身,進行歸一化。這樣,你就得到了一個規規矩矩歸一化了的條件機率分佈 P(Y|X)。如果你非要搞“機率建模”,那你訓練“能量基礎模型”的辦法,就是在訓練資料上最小化那個“負對數似然函數” (negative log-likelihood, -log P(Y|X))。但問題又來了,那個歸一化常數 Z(X),通常算起來太難了,計算上搞不定。所以你就得用近似的方法,比如“變分方法” (variational methods) 或者“蒙特卡洛方法” (Monte Carlo methods)。機器學習領域有很多人在這方面下了大功夫,也從物理、統計這些學科裡借鑑了不少想法。我畫了個表,把各種經典的方法分成了正則化和對比這兩類。這些方法(包括對比和正則化的)用自監督學習的方式來預訓練視覺系統,學習圖像表示,已經非常成功了。這些想法的核心,最早可以追溯到 90 年代初,包括我 1993 年的一篇論文,還有 2000 年代中期我和學生們一起做的一些研究。最近這些年,有很多論文,包括 Google 發的那些,都在研究這些方法,尤其是對比方法。你們可能聽說過 OpenAI 的 CLIP 模型,它就是用文字做監督,通過對比學習來學視覺特徵的。但還是要再說一遍,對比方法隨著潛在空間維度增加,它的擴展性不一定好。我個人更喜歡正則化方法。問題是怎麼讓它們有效地跑起來。一個關鍵的目標是防止模型崩潰。那在這種情況下,崩潰到底是什麼樣子呢?崩潰,指的就是模型只去最小化那個潛在空間裡的預測誤差(比如說,預測的表示 S_Y_tilde 和目標的表示 S_Y 之間的距離 D),而且 只幹這件事。那系統就可以耍小聰明了,它完全不管輸入 X 和 Y 是啥,直接輸出兩個固定的、不變的表示 S_X 和 S_Y,這樣誤差自然就是零了。但這樣得到的模型,就是個崩潰了的、一點用都沒有的模型。要防止這種情況,一個辦法(它也算是一種正則化項)就是,在最小化預測誤差的同時,還要想辦法最大化編碼器輸出的表示 S_X 和 S_Y 本身包含的“資訊量”。比如,你找個辦法估計一下資訊量 I(S_X) 和 I(S_Y),在它們前面加個負號(表示要最大化它們),然後把這兩項加到總的、需要最小化的目標函數里去。但是,直接去最大化資訊量是很難的。雖然我們有些跟資訊量上界有關的技術(比如最小化“互資訊” (mutual information)),但在這種場景下,我們通常沒有有效的、方便計算的下限來幫我們最大化資訊量。所以,實際操作中,我們是設計一些“代理”目標,通過最佳化這些代理目標,來間接鼓勵模型產生資訊量更高的表示(這可能基於一些假設或近似),並期望實際的資訊量也跟著提高。而且這招效果還挺不錯的,雖然它的理論依據還在完善中,但可能比其他方法要好。我們具體在用的一種方法叫做VicReg ,全稱是“方差-不變性-協方差正則化” (Variance-Invariance-Covariance Regularization)。它的想法裡包含一個成本項,要求在處理一批樣本時,表示 S_X 的每個維度的方差都要保持在某個閾值以上(比如大於 1,可以用“hinge 損失”來實現)。還有一個成本項,要求這批樣本表示算出來的“協方差矩陣”,它的非對角線上的元素都要趨近於零(比如,先把資料“中心化”,然後算 S_X 轉置乘以 S_X)。這樣做的目的是消除表示向量各個維度之間的相關性,最理想的情況是讓不同的特徵維度(也就是表示矩陣的列)之間近似“正交”。其他研究者也提出了類似的想法,包括伯克利的馬毅(Yi Ma)教授,還有我在紐約大學的一些同事(他們搞了個叫 MMCR 的方法)。我們有一些理論結果表明,在某些條件下,如果你先對資料做了“非線性變換” (non-linear transformation),然後再用這個去相關的標準,它能有效地促進變數之間“兩兩獨立” (pairwise independence),而不僅僅是沒相關性,這一點很有意思。不過,完整的理論圖像還不清晰。對於嗅覺敏銳的數學家來說,這裡面還有很多挑戰。時間關係,我再跳過一些細節,但你其實可以把 VicReg 這個技術用到“偏微分方程” (Partial Differential Equations, PDEs) 上——不一定是為了直接解方程,而是比如,通過觀察方程解在不同時空窗口裡的樣子,來反推出方程本身的係數。具體怎麼做呢?你拿到 PDE 的時空解,從裡面隨機取兩個不同的窗口,然後訓練一個系統(用 VicReg 的標準),讓它不管你取那兩個窗口,都能給它們算出一樣的表示。你想,能讓系統從不同窗口裡提取出來的、共同的不變資訊是啥呢?那只能是跟背後那個微分方程本身有關的東西——說白了,就是方程的係數,或者是係數的某種表示。把這個方法用到各種實際問題上,發現它確實管用。想瞭解更多細節的話,可以找 Randal Balestriero聊聊。他是相關論文的主要作者之一。最關鍵也很有趣的一點是,用 VicReg 這種方法學出來的 PDE 係數,用它去做後續的預測,效果竟然比直接用監督學習訓練來做預測還要好。除了 VicReg,還有一類替代方法,是基於“蒸餾”的。我們用這些方法,是因為它們在實驗中通常效果挺好。但我個人不太喜歡它們,因為感覺它們的理論基礎好像還不如 VicReg 或者資訊最大化那些方法紮實。我就不細講它們是怎麼工作的了。簡單說,你名義上是在最小化某個函數,但實際上你用的那個“梯度下降” 更新步驟,並不能真正讓那個函數達到最小值;這裡面挺複雜的。雖然也有一些理論論文,但它們通常只在很簡化的假設下才成立(比如假設編碼器和預測器都是線性的)。總的來說,這不是一個理論上特別讓人滿意的方法,但它確實在實踐中效果很好,很多人用它來自監督地學習圖像特徵。這類技術裡有一種叫做 I-JEPA,我就不細說了,但它在學習圖像表示方面做得非常好,學到的表示對後續的監督任務很有用,而且需要的帶標籤的樣本比從零開始訓練要少得多。類似地,還有一個用於視訊的版本,叫做 V-JEPA。它的做法是:拿一段視訊,在時間和空間上隨機“遮掉” (mask) 一大部分區域,然後訓練一個 JEPA 架構,讓它根據沒被遮住的部分(也就是上下文)的表示,去預測那些被遮住部分的表示。結果發現,這樣訓練出來的系統能學到非常好的視訊表示。你可以把這種表示作為後續任務(比如動作分類)的輸入,效果非常好。我們最近在準備投的一篇論文裡,有個特別有意思的結果:你用這些 V-JEPA 系統去測試,測量它們對視訊的預測誤差,如果你給它看一段物理上不可能發生的視訊(比如一個東西突然消失了,或者自己變形了),系統能檢測出來!這時候預測誤差會一下子變得特別高,就好像系統在說:“嘿,這事兒不對勁,不可能發生!”這說明這個系統已經學到了一種非常基本的、關於物理世界可能性的“常識”,這跟我前面提到的嬰兒學習有點像。這個結果挺讓人驚訝的,因為我們並沒有專門訓練它去檢測“異常”,它只是被訓練去預測那些被遮住的部分應該是什麼樣的表示而已。我們還一直把自監督學習訓出來的編碼器和預測器用在規劃任務上。這就又說回到世界模型了。假設有張圖顯示了當前世界的狀態(比如桌子上有一堆籌碼),同時有個系統控制著一個機械臂。我們希望這個系統能操作機械臂,讓最後的狀態跟我們想要的目標狀態一樣(比如,把所有藍色的籌碼都弄到指定的方框裡去,就像圖裡畫的那樣)。我們先訓練一個編碼器(可以用像 DINOv2 這樣預訓練好的),然後再訓練一個世界模型,讓它在抽象的表示空間裡預測,如果採取某個特定的動作,會導致什麼結果。它能不能預測出來,最後那個擺著藍色籌碼的棋盤的狀態,對應的表示是什麼?一旦有了這個世界模型(這個模型可以在隨機動作的資料上訓練),我們能不能用它來規劃一連串的動作,最終達到我們想要的目標狀態呢?我們已經把這套方法用在了好幾個問題上,發現它在規劃方面效果確實不錯。這就是那個藍色籌碼任務的結果。大家看到的是一段視訊(你看不到機械臂做了什麼動作,但它確實在動)。上面顯示的是真實世界裡籌碼狀態的變化。下面顯示的是系統通過它內部的世界模型,預測接下來會發生什麼(這個預測結果是通過一個另外訓練的“解碼器”,把內部表示又變回圖像,這樣我們就能看見了)。我再放一遍。在下面這個預測畫面裡,你可以看到,隨著機器人推著籌碼移動,預測的狀態也在一步步變化。最後預測的狀態雖然不是個完美的正方形,但也相當接近了。這個任務需要在複雜的“動態系統”裡做規劃,因為籌碼之間會相互碰撞、相互影響。對於這樣的系統,你很可能沒法靠手工建立一個足夠精確的模型來做有效的規劃。我們還有類似的研究,把這些想法用到了真實環境裡的導航規劃上。所以,我的建議如下:放棄(像素級預測性的)生成式模型,擁抱聯合嵌入架構(比如 JEPA)。放棄純粹的機率模型,擁抱基於能量的模型。放棄對比方法,擁抱正則化方法。放棄“無模型的強化學習”,擁抱“基於模型的方法”,比如模型預測控制和規劃。如果你真的想實現達到人類水平的 AI,別只盯著 LLM。如果你是 AI 領域的博士生,我勸你最好別直接去做擴展 LLM 的工作,因為你得跟那些有幾萬塊 GPU 的大公司工業團隊競爭,想在那兒做出重大貢獻太難了。那有那些問題需要解決呢?怎麼建構大規模的世界模型?怎麼才能有效地用“多模態輸入” 來訓練它們?怎麼開發出更好的規劃演算法?最優控制和各種最佳化技術方面的深厚功底,在這裡可能會派上大用場。用簡單的基於梯度的方法在這些學到的模型裡做規劃時,會碰到“局部最小值”和可能“不可微分”的問題。像 ADMM(交替方向乘子法)這樣的方法也許能幫上忙。其他的關鍵問題還有:怎麼做帶潛在變數的 JEPA?怎麼在“不確定的環境” 裡做規劃?怎麼有效地對潛在變數進行正則化?以及,怎麼實現真正的分層規劃?基於能量的學習,它的數學基礎到底是啥?當我們跳出嚴格的機率學習框架時,我們就進入了一個不那麼熟悉的領域,到底什麼樣的訓練過程才是最優的,還不完全清楚。還有一個我沒怎麼談到的問題是,怎麼讓系統自己學習成本函數或者目標模組。世界模型難免不精準,怎麼在這種情況下做有效的規劃,並且不斷調整模型,這也非常關鍵。也許,要是我們能在未來五到十年裡把這些問題解決了,我們就有望走上正軌,去建構真正智能的,也就是能夠規劃和推理的AI 系統。我個人覺得,要讓這一切朝著好的方向發展,唯一的辦法就是讓底層的平台保持“開源”;我本人就是開源 AI 的鐵桿支持者。如果我們成功了,AI 就能成為放大人類智能的強大工具,這肯定是一件大好事。非常感謝大家。 (數字開物)