#Richard | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#Richard

誰將主宰日本經濟的未來？｜文摘

世界銀行曾警惕全球經濟“日本化”，所以日本經濟未來走勢不僅關於日本自身，對全球經濟都有啟發意義。而對中國尤其如此，因為日本是東亞發展“雁陣模式”的頭雁，且深受儒家文化的影響。日本的經濟軌跡，包括經濟奇蹟及之後的回落，人口結構轉型，與美國的貿易摩擦等，與中國有很高的相似度，所以日本是中國經濟參考的“樣板”。《誰將主宰日本經濟的未來？》一書是微觀視角的前瞻性之作。作者基於二十多年的深度觀察和一手採訪資料，既有對企業具體案例的細緻剖析，展現企業在經濟變革中的困境與突破，又有對整體經濟形勢的宏觀把握與分析。本書提供兼具批判性與建設性的分析，為理解日本經濟未來走向提供關鍵洞見。理查德·卡茨（Richard Katz）知名日本經濟研究專家、資深財經評論家，卡內基國際事務倫理委員會前高級研究員*文章摘自《誰將主宰日本經濟的未來？》一書，作者為理查德·卡茨（Richard Katz）。一代人的機遇就像每一次基因突變一樣，每一家新企業都是一次新的嘗試。大多數企業都會以失敗告終，大約一半的企業甚至只能存活四年的時間。就像罕見的有益突變使微生物進化為哺乳動物，經濟的進化也是由少數生機勃勃的企業推動的。從1895年至1930年，美國誕生了1 300家汽車企業，數量驚人，有的使用汽油作為動力，有的使用木材，有的使用蒸汽機，具有諷刺意味的是，有的甚至使用了電池。至20世紀30年代，達到一定規模的企業只剩下三家。總之，99.8%的嘗試都失敗了。然而，汽車本身不僅存活了下來，而且重塑了我們的生活。我們一次又一次地見證了這種演進模式，最近電腦和網際網路的興起也同樣如此。正是這種勇於嘗試的精神推動日本在二戰之後實現了舉世聞名的經濟奇蹟，在短短27年的時間裡（1946—1973年），日本從一個以農業經濟為主的貧困國家轉變為一個工業強國。這一速度超過了之前的任何國家，也超過了之後除中國之外的所有國家。這一高速增長時代如此奇妙，25歲的農村釀酒師之子盛田昭夫（Akio Morita）可以創辦一家小微企業，並親眼看著它成長為索尼這樣的大企業；在這樣的環境中，鐵匠之子本田宗一郎（Soichiro Honda）未受過良好教育，卻能創辦一家生產摩托車的企業，並將其打造成能夠與豐田和日產相抗衡的汽車巨頭。實際上，在1989年日本股票市場上市的1700家非金融企業中，有一半是二戰以後建立的（Whittaker，1997，第32頁）。失敗太少，則成功寥寥與所有的經濟熱潮一樣，失敗者在數量上遠遠多於成功者。幸運的是，當時的政治經濟體制不僅允許成功者乘勢而上，還能保障那些由於競爭失敗而失去生計的人能夠重新找到一份不錯的工作，甚至建立另一家企業。每個人都能分享發展的成果，這得益於1953—1973年年均增速高達9%的持續增長、充分就業、平等分配，以及那些擁有更多才幹而不是金錢的人能夠實現社會流動。經濟進步與個人保障相輔相成，這是日本成功的關鍵所在。由於大多數初創企業會失敗，除非一個國家能為失敗者提供一定的保障，否則就不會有多少人勇於嘗試。失敗太少，則成功寥寥。如果年輕企業能夠應用新思維和新技術，那麼很多曾經輝煌一時的老牌企業就會黯然失色，因為它們無法拋棄曾造就其成功但目前已經過時的體系。索尼就是一個典型而又可悲的例子，它曾經試圖生產具有全球競爭力的個人電腦、智慧型手機、平板電腦和電子閱讀器，但是都以失敗告終。即使老牌企業能夠調整發展方向，也往往只是迫於新進入者的壓力。正是由於特斯拉的迅速崛起，福特、大眾和其他巨頭才紛紛涉足電動汽車領域。不幸的是，大多數日本汽車製造商，尤其是豐田，仍在抵制向電動汽車轉型。正如自然界中新物種取代舊物種一樣，充滿活力的經濟體也需要領先企業的定期更替。這就是經濟學家約瑟夫·熊彼特提出的“創造性破壞”這一著名概念。如果說自然選擇推動了生物的進化，那麼，推動生活水平提高的就是“經濟選擇”，即最具創新能力的企業的進步。這種經濟選擇曾是日本高增長時代的標誌。新企業的“出生率”，即新企業佔現有企業總數的比例，高達12%，而“死亡率”則為5%（MITI，2018a，第492頁）。如果公眾支援創造性破壞，現代資本主義民主國家就必須確保企業生死存亡引發的動盪不會使個人遭遇滅頂之災。當前美國和歐洲民粹主義抬頭的原因，就是沒有吸取這一教訓（Broz et al.，2021；Anelli et al.，2019）。不幸的是，對於如何保護那些受創造性破壞傷害的人這一關鍵問題，日本給出了錯誤的答案。為了應對兩次石油價格衝擊之後經濟增速突然減半的困境，日本從20世紀70年代末開始發生轉變。該國領導人以社會穩定的名義放慢了創造性破壞的速度。私人部門提供的安全網曾使經濟選擇不至於引發政治動盪，但是現在已非如此。長期執政的自由民主黨（以下簡稱自民黨）也拒絕建立一個明確由政府出資的大型安全網。他們把維持工人在當前企業的現有工作作為首要保障。這導致選民向政客施壓，那怕是瀕臨倒閉的企業，也要政府施以援手。政府甚至提供工資補貼以使企業維持冗員，這使得新挑戰者更難取代在位者，那怕後者效率更低。在所有富裕國家中，只有日本的新企業發現最大的困難在於從外部籌集發展所需的資金。結果，企業的出生率和死亡率急劇下降，目前在27個富裕國家中位居後列。在一個典型的富裕國家，每年高達一半的生產率增長，即人均GDP（國內生產總值）增長，不僅來自效率更高的新企業的誕生，也來自生產率更低的老企業的退出。然而，在日本，企業更替只貢獻了大約10%的生產率增長（Acs et al.，2008；Decker et al.，2014，第12頁）。難怪日本GDP的總體增長率如此之低。人們常常忽視的一點在於，企業出生率之所以如此之低，正是因為企業死亡率保持在很低的水平。新企業無法獲得必要的勞動力、資金甚至不動產，因為這些都被老企業佔用了。這就是企業死亡率最低的國家，其企業出生率也最低的原因。在數字時代重拾“創造性破壞”日本在政治上崇尚穩定，並謊稱這根源於日本古老的價值觀，這為商界反對競爭的行為提供了合理的理由。高增長時代最成功的企業在政界盟友的支援下，通過設定障礙打擊後起之秀，並鞏固自己的主導地位。結果，在日本排名前26位的電子硬體企業中，只有一家是在1959年以後誕生的。相比之下，在美國排名前26位的電子產品製造商中，有三分之二是1965年以後成立的，有一半到1991年還沒有進入《財富》世界500強。日本的問題在於，它的企業巨頭與其他經濟體中有著幾十年歷史的企業一樣，發現很難改弦易轍。日本的龍頭企業誕生於模擬時代，當時引領創新潮流的是資本密集型和縱向一體化的大型企業，它們試圖在企業內部完成每項工作。如今，我們生活在數字時代，新的技術體制需要新的企業架構。創新的前沿越來越多地由更具企業家精神的小企業引領。此外，很多創新通過新企業與巨頭之間的合作，形成了暢銷市場的商品。輝瑞公司名下的新冠疫苗是由一家總部位於德國的初創企業拜恩泰科（BioNTech）發明的，來自土耳其的移民創立了這家企業。這是數字時代商業機構所謂開放式創新的一個典型例子，亨利·切斯布羅教授曾經分析並倡導過這種企業間合作的形式（Henry Chesbrough et al.，2006a）。誠然，日本在數位技術方面投入了大量資金，但是，就從這類投資中所獲的收益而言，日本在63個經濟體中令人沮喪地敬陪末座（IMD，2022，第103頁）。儘管從2008年至2021年全球電子產品銷售額激增40%，但日本前十大電子硬體製造商的全球銷售額均出現了下滑，而日本電子企業的總銷售額則驟降了大約30%（JEITA，2020，第2頁）。背棄創造性破壞是日本經濟增長乏善可陳的根源所在。日本經濟在高增長時期年均增長率接近9%，在步入成熟階段的20世紀70年代中期至80年代年均增長約4%，而在過去30年中，儘管一位又一位的日本首相承諾要實現2%的增長，但是增長速度放緩至僅有0.7%的水平。為了恢復增長，商界必須再次為新的挑戰者提供安全的環境。這並不要求日本將新自由主義等外國模式嫁接到自己身上，它只需要重拾自己曾經擅長的那些做法。《誰將主宰日本經濟的未來？》【作者】理查德·卡茨【內容簡介】本書深入剖析了決定日本經濟走向的核心衝突：充滿活力的新興創業企業(瞪羚企業)與根基深厚的傳統企業巨頭(大象企業)之間的博弈。二戰後，以大型企業集團為主導的發展模式締造了日本經濟奇蹟。然而，面對數位化浪潮加速、人口老齡化加劇以及國際競爭格局劇變，這一模式的僵化與創新乏力日益凸顯。與此同時，由風險資本支援的初創企業憑藉敏捷創新與顛覆性技術悄然興起，挑戰日本舊有的秩序。本書聚焦這一關鍵轉型期，既分析創業企業在金融科技、人工智慧、生物科技等領域打破壟斷、注入活力的探索，也解析傳統企業巨頭依託資源優勢與市場勢力，推進組織變革和數位化轉型的艱難實踐。這場角力不僅關乎企業成敗，更將重塑日本經濟結構、創新能力與全球競爭力。書中探討政策、文化、資本如何影響瞪羚企業與大象企業之間的競爭，並指出日本經濟的未來取決於新興力量引領變革，並帶動傳統巨頭涅槃重生。與傳統上從宏觀視角解析日本經濟發展和失去的數十年的著作不同，本書從微觀視角為理解日本經濟以往困境的成因與未來發展趨勢提供了深刻的洞察。 (IPP評論)

財經雜誌—三位科學家摘2025年諾貝爾化學獎

三位獲獎者提供了全新的工具，在未來可幫助人類應對能源、環境與可持續發展的挑戰圖片來自諾貝爾獎官網10月8日，瑞典皇家科學院決定將2025年諾貝爾化學獎授予北川進（Susumu Kitagawa）、理查德·羅布森（Richard Robson）以及奧馬爾·M·亞吉（Omar M. Yaghi），以表彰他們在金屬有機架（MOF）領域的貢獻。這三位科學家致力於建構分子間具有較大空間的結構，這種結構被稱為金屬有機骨架，氣體和其他化學物質可以通過該結構流動、循環。研究人員已將這一結構用於在沙漠空氣中收集水分、污水去污、捕獲二氧化碳、儲存有毒氣體或催化化學反應等方面。“金屬有機框架具有巨大的潛力，為具有新功能的定製材料帶來了以前無法預見的機會。”諾貝爾化學委員會主席海納·林克（Heiner Linke）如此評價他們的研究成果。跳出框架的思考三位獲獎者，來自日本京都大學教授北川進、澳大利亞墨爾本大學教授理查德·羅布森，加州大學伯克利分校教授奧馬爾·M·雅吉現，在1989年至2003年期間分別做出了一系列革命性的發現。1989年，澳大利亞墨爾本大學的理查德·羅布森受到相互連接的碳原子的鑽石結構的啟發，開啟了一個新的測試。在10多年前，理查德·羅布森曾受命為墨爾本大學大一新生化學講座製作一個大型晶體結構木製模型，當他把木球當作原子、木棍當作化學鍵時，產生了一個奇異的想法：“如果我利用原子本身的配位特性，不是讓它們單獨成鍵，而是讓它們帶動整個分子去連接，會不會產生全新的分子結構？”縈掛於心，才有了多年後羅布森啟動的這個新測試。在鑽石中，每個碳原子與四個其他碳原子鍵合，形成金字塔狀結構，羅布森選擇用帶正電的銅離子取代碳原子，再配上一個“四臂”的有機分子。他觀察到每個分子的四臂的末端被銅離子吸引，當它們結合在一起時，形成一個井井有序、寬敞的晶體結構。它就像一顆充滿無數空洞的鑽石。理查德·羅布森立即認識到這一分子結構的巨大潛力，可有個問題難以突破，就是這個結構不穩定，很容易崩潰。此時，北川進和奧馬爾·亞吉及時接棒了。1992年，北川進建構出第一個二維多孔分子材料，內部空隙可容納丙酮分子，這是首次在分子層面實現有序多孔結構。不過，機構還是不穩定。五年後，他的團隊又成功合成出三維金屬有機框架，並證明了這類材料具有氣體吸附性能，可吸附並釋放甲烷、氮氣或氧氣，而結構不變。北川進提出了“多孔配位聚合物”概念，他的研究表明，氣體可以進出結構，並預測MOF可以變得靈活。他創造的這個非常穩定的MOF，表明它可以使用合理的設計進行修改，賦予它新的和理想的屬性。遠在澳大利亞的多孔材料權威研究者奧馬爾·亞基，在1995年，合成出由銅或鈷連接的二維網路晶體，成果發表在著名學術期刊《自然》（Nature）上，在該論文中首次提出“金屬有機框架（Metal–Organic Framework）”這一術語。1999年，亞基再次發力，推出材料結構穩定、空間巨大，即使加熱到300°C也不坍塌的MOF-5。僅幾克樣品，其內部表面積可達一個足球場之大。這意味著，它能吸附的氣體量遠超傳統的沸石。亞基還是開創了化學分子編織技術的先驅，他合成了世界上第一種在原子和分子水平上編織的材料。2018年亞基獲化學殿堂的至高榮譽沃爾夫化學獎。今天，MOF技術已席捲全球，化學家們建造了數以萬計的不同MOF，其中一些可能有助於解決人類面臨的一些最大挑戰。例如，2023年亞基的研究團隊在公開發表的論文中，展示出可系統調控MOF孔徑與功能的方法，開發出16種MOF-5衍生物，其中部分能高密度儲存甲烷，用於清潔能源汽車。一些科學家認為，MOF將成為21世紀的代表性材料。三位獲獎者為化學家提供了全新的工具，在未來可幫助人類應對能源、環境與可持續發展的挑戰。獎金何來這三位來自美日澳的化學獎獲得者，將平分1100萬瑞典克朗（約合836萬元人民幣）獎金。比起2022年，多出了100萬瑞典克朗。獎金的增加，表明諾貝爾獎不僅是全球公認的榮譽象徵，還證明了自己在經濟上的可持續。在去世的前一年，1895年11月27日，阿爾弗雷德·諾貝爾簽署了一份著名的遺囑，按此遺囑，他的大部分遺產——超過3100萬瑞典克朗（今天約22億瑞典克朗）轉換為基金，設立了諾貝爾獎。這些資產佔諾貝爾總資產的94%。履行這份遺囑的是諾貝爾基金會，這是一個成立於1900年的私人機構。阿爾弗雷德·諾貝爾的遺囑說，他的財富應轉化為“安全證券”，投資的利息應作為獎金發放。這意味著諾貝爾基金會要確保投資產生足夠的收入。首次諾貝爾獎在1901年頒發，每項獎金額度為15萬瑞典克朗，在當時這個金額相當可觀。此後除在兩次世界大戰時有過中斷，每年都在斯德哥爾摩和奧斯陸兩地舉行隆重的頒獎儀式。數年來，獎金額度起伏頗大。諾貝爾基金曾經歷了很長一段時間的財富縮水，尤其是2000年網際網路泡沫、2008年全球金融危機，財富縮水近三分之一。之後，才通過各種策略陸續收回。總體看，諾貝爾基金通過在1946年、1953年爭取到瑞典、美國的免稅優待，以及成立投資為會員、平衡不同的資產投入——股票約佔40%，債券佔20%，40%用於其他投資，這些改變，使它的財務穩定性有很大提升。根據公告，2020年，得益於整體市場表現良好以及有效的資產管理，諾貝爾基金會年投資回報率接近9%。這一年，單項諾貝爾獎的獎金也增加至1000萬瑞典克朗。迄今，諾貝爾獎已經頒發了124年，基金非但沒有枯竭，還有望繼續增值。 (財經雜誌)

2025年諾貝爾化學獎揭曉！偷溜進圖書館的少年，改變了世界

剛剛，2025年諾貝爾化學獎公佈。科學家北川進（Susumu Kitagawa）、Richard Robson和Omar M. Yaghi三人獲獎，以表彰他們「在金屬有機框架（MOF）材料發展方面的貢獻」。剛剛，2025年諾貝爾化學獎揭曉！今年的諾貝爾化學獎，也與AI無關。科學家北川進（Susumu Kitagawa）、Richard Robson和Omar M. Yaghi三人獲獎。他們的獲獎理由是：「在金屬有機框架（MOF）材料發展方面的貢獻」。簡單來說，獲獎者們建構了一種被稱為金屬有機框架分子構築物，其內部擁有巨大的空腔，可供氣體和其他化學物質進出流通。基於這些開創性發現，化學家們已經建構了數以萬計不同種類的金屬有機框架（MOF）。其中一些有望為解決人類面臨的部分最嚴峻挑戰做出貢獻：從水中分離全氟和多氟烷基物質（PFAS）分解環境中的藥物殘留捕獲二氧化碳從沙漠空氣中採集水分對此，諾貝爾化學委員會主席Heiner Linke表示：「金屬有機框架潛力巨大，為開發具有新功能的定製化材料帶來了前所未有的機遇。」今年獎金總額達1100萬瑞典克朗（約835萬元人民幣），由三位獲獎者平分。獲獎原因Susumu Kitagawa、Richard Robson和Omar M. Yaghi創造了一種被稱為金屬有機框架的機構，它含有巨大的空腔，分子可以在其中進出。目前，研究人員已利用它們從沙漠空氣中收集水分、從水中提取污染物、捕獲二氧化碳以及儲存氫氣。「一間迷人且極其寬敞的單間公寓，專為身為水分子的你而設計」——這或許是房產中介會用來描述近幾十年來全球各實驗室開發的眾多金屬有機框架之一的方式。此類結構中的其他類型則是為捕獲二氧化碳、從水中分離 PFAS、在體內遞送藥物或處理劇毒氣體而量身定製的。有些可以捕獲水果釋放的乙烯氣體並使其成熟得更慢，或者包裹能分解環境中抗生素痕跡的酶。簡而言之，金屬有機框架（MOF）的用途極其廣泛。得益於獲獎者們的工作，化學家們已經能夠設計出數以萬計的不同 MOF，催生了新的化學奇蹟。正如科學領域中常見的那樣，2025 年諾貝爾化學獎的故事始於一個跳出思維定式的人。這一次，靈感是在準備一堂經典化學課時產生的，課上學生們將要用棍和球來搭建分子。始於一個簡單的木製分子模型那是1974年。在澳大利亞墨爾本大學任教的Richard Robson接到的任務是將木球製作成原子模型，以便學生們能夠建立分子結構。為此，他需要大學的工作坊在木球上鑽孔，這樣代表化學鍵的木棍才能連接到原子上。然而，孔洞的位置不能隨意安排。諸如碳、氮或氯等原子，都會以特定的方式形成化學鍵，因此Robson需要標記出應該在那裡鑽孔。當工作坊送回木球後，他嘗試搭建了一些分子。就在這時，他靈光一閃：孔洞的位置中蘊含著海量的資訊。由於孔洞的位置，模型分子自動具有了正確的形狀和結構。這一洞見引出了他的下一個想法：如果他利用原子的固有屬性來連接不同類型的分子，而不是單個原子，會發生什麼？他能否設計出新型的分子結構？每年，當Robson拿出木製模型教新學生時，同樣的想法都會在他腦中浮現。然而，十多年過去了，他才決定付諸實踐。他從一個非常簡單的模型開始，靈感來自鑽石的結構，其中每個碳原子與其他四個碳原子鍵合，形成一個微小的金字塔（如下圖所示）。Robson的目標是建構一個類似的結構，但他的結構將基於帶正電的銅離子 Cu+。像碳一樣，它們也傾向於周圍有四個其他原子。他將銅離子與一個有四條「臂」的分子結合：4′,4″,4″’,4″″-四氰基四苯甲烷。不必記住它複雜的名字，但重要的是，分子每條臂的末端都有一個化學基團——腈，它會被帶正電的銅離子所吸引。在當時，大多數化學家都會認為，將銅離子與四臂分子結合會得到一堆如鳥巢般雜亂的離子和分子混合物。Robson預測，離子和分子之間固有的吸引力起了作用，它們自行組織成一個巨大的分子結構。就像鑽石中的碳原子一樣，它們形成了一個規則的晶體結構。但與緻密的鑽石不同，這種晶體含有大量巨大的空腔。1989年，Robson在《美國化學會志》上展示了他創新的化學作品。在文章中，他對未來進行了推測，並提出這可能提供一種建構材料的新方法。他寫道，這些材料可能會被賦予前所未見的特性，並可能是有益的。事實證明，他預見了未來。Robson 在化學界掀起一股開拓熱潮就在他開創性工作發表的第二年，Robson就展示了幾種新型的分子結構，其空腔中填充了各種物質。他將充滿離子的結構浸入含有不同類型離子的液體中。結果是離子交換了位置，證明了物質可以進出該結構。在他的實驗中，Robson表明，理性設計可以用於建構具有寬敞內部空間的晶體，這些空間為特定化學物質進行了最佳化。他提出，如果設計得當，這種新形式的分子結構可以用於催化化學反應等。然而，Robson的結構相當不穩定，且容易散架。許多化學家認為它們毫無用處，但有些人能看到他有所發現，對他們而言，他對未來的想法喚醒了一種開拓精神。後來為他的願景奠定堅實基礎的是Susumu Kitagawa和Omar M. Yaghi。在1992年至2003年間，他們各自獨立地做出了一系列突破性的發現。我們將從20世紀90年代開始，從當時在日本近畿大學工作的Susumu Kitagawa說起。Susumu Kitagawa 座右銘是「無用之用」在其整個研究生涯中，Susumu Kitagawa都遵循著一個重要原則：努力發現「無用之用」。當他還是個年輕學生時，他讀了諾貝爾獎得主Yukawa Hideki（湯川秀樹）的一本書。書中，Yukawa引用了中國古代哲學家莊子的話，莊子說我們必須質疑我們認為有用的東西。即使某物不能帶來直接的好處，它仍可能被證明是有價值的。因此，當Susumu Kitagawa開始研究創造多孔分子結構的可能性時，他並不認為它們必須有特定的目的。當他在1992年展示他的第一個分子結構時，它確實不是特別有用：一個二維材料，其空腔中可以藏匿丙酮分子。但它是源於一種關於分子建構藝術的新思維方式。像Robson一樣，他使用銅離子作為基石，通過更大的分子連接在一起。Susumu Kitagawa想繼續用這種新的建構技術進行實驗，但當他申請資助時，研究資助者們認為他的抱負沒有什麼特別的意義。他創造的材料不穩定且沒有用途，所以他的許多提案都被拒絕了。然而，他沒有放棄，並在1997年取得了他的第一個重大突破。利用鈷、鎳或鋅離子和一種名為4,4′-聯吡啶的分子，他的研究小組創造出了佈滿開放通道的三維金屬有機框架（如下圖所示）。當他們將其中一種材料乾燥——排空其中的水——它保持穩定，並且空間甚至可以填充氣體。該材料可以在不改變形狀的情況下吸收和釋放甲烷、氮氣和氧氣。Susumu Kitagawa的結構既穩定又有功能，但研究資助者們仍然無法看到它們的魅力。一個原因是化學家們已經有了沸石，這是一種由二氧化矽構成的穩定多孔材料。它們可以吸收氣體，那麼為什麼有人要開發一種效果不那麼好的類似材料呢？Susumu Kitagawa明白，如果他想獲得任何重大資助，他必須闡明金屬有機框架的獨特之處。於是，在1998年，他在《日本化學會志》上提出了MOF的幾個優點。例如，它們可以由多種類型的分子創造，因此整合不同功能的潛力巨大。此外，他還發現，MOF可以形成柔性材料。與通常是硬質材料的沸石不同，MOF含有柔性的分子建構塊，可以創造出一種柔韌的材料（如下圖所示）。此後，他所要做的就是將他的想法付諸實踐。Susumu Kitagawa與其他研究人員一起，開始開發柔性MOF。在他們致力於此項工作的同時，我們將目光轉向美國，在那裡，Omar M. Yaghi也正忙於將分子構築學推向新的高度。Yaghi 偷偷溜進圖書館後，他愛上了化學學習化學對Omar M. Yaghi來說並非一個顯而易見的選擇。他和他的許多兄弟姐妹在約旦安曼的一個沒有電和自來水的單間里長大。學校是他充滿挑戰的生活中的避難所。10歲時，他有一天偷偷溜進了通常上鎖的學校圖書館，並從書架上隨機選了一本書。打開書後，他的目光被一些看不懂但引人入勝的圖片所吸引——這是他第一次接觸分子結構。15歲時，他在父親的嚴令下，移居美國求學。這次，他再次被化學所吸引，並最終迷上了設計新材料的藝術。然而，在研究過程中，他發現傳統的建構新分子的方法太不可預測。通常，化學家將要相互反應的物質在一個容器中混合。然後，為了開始化學反應，他們加熱容器。期望的分子形成了，但通常也伴隨著一系列副產物雜質。1992年，當Yaghi在亞利桑那州立大學開始他作為研究組長的第一個職位時，他想找到更可控的方法來創造材料。他的目標是使用理性設計，像搭樂高積木一樣連接不同的化學成分，來製造大型晶體。這被證明是具有挑戰性的，但當研究小組開始將金屬離子與有機分子結合時，他們最終成功了。1995年，Yaghi發表了兩種不同的二維材料的結構；它們像網一樣，由銅或鈷連接在一起。後者可以在其空間中容納客體分子，當這些空間被完全佔據時，它非常穩定，可以被加熱到350°C而不會坍塌。Yaghi在《自然》雜誌的一篇文章中描述了這種材料，並首次提出了「金屬有機框架」這個術語；該術語現在用來描述由金屬和有機（碳基）分子建構的、可能含有空腔的、延展有序的分子結構。1999年，Yaghi在金屬有機框架的發展中樹立了下一個里程碑，他向世界展示了MOF-5。這種材料已成為該領域的經典之作。它是一種異常寬敞且穩定的分子結構。即使在空置狀態下，它也可以被加熱到300°C而不會坍塌。然而，真正讓許多研究人員為之驚嘆的是隱藏在該材料立方空間內的巨大內表面積。幾克MOF-5就擁有一個足球場那麼大的面積，這意味著它比沸石能吸收多得多的氣體（如下圖所示）。談到沸石和MOF之間的差異，研究人員只花了幾年時間就成功開發出了柔性MOF。其中一位能夠展示柔性材料的正是Susumu Kitagawa本人。當他的材料充滿水或甲烷時，它會改變形狀，當它被排空時，又會恢復到原來的形態。這種材料的行為有點像一個可以吸入和呼出氣體的肺，既可變又穩定。Omar M. Yaghi在2002年和2003年為金屬有機框架的基礎拼上了最後的拼圖。在《科學》和《自然》的兩篇文章中，他展示了以理性的方式修改和改變MOF，賦予它們不同屬性是可能的。他所做的一件事是製造了16種MOF-5的變體，其空腔比原始材料的更大或更小（如下圖所示）。其中一個變體可以儲存大量甲烷氣體，Yaghi建議這可以用於可再生天然氣燃料汽車。隨後，金屬有機框架席捲了全世界。研究人員開發出的分子工具箱，其中包含各種各樣不同的部件，可用於創造新的MOF。這些MOF具有不同的形狀和特性，為針對不同目的進行理性設計——或基於AI的設計——提供了難以置信的潛力。例如，Yaghi的研究小組已經從亞利桑那州的沙漠空氣中收集了水分（如下圖所示）。在夜間，他們的MOF材料從空氣中捕獲水蒸氣。當黎明來臨，太陽加熱材料時，他們就能夠收集到水。如今，研究人員已經創造了許多不同且功能強大的MOF。· MIL-101擁有巨大的空腔。它已被用於催化分解污染水中的原油和抗生素，以及用來儲存大量的氫氣或二氧化碳。· UiO-67可以從水中吸收PFAS，這使其成為一種很有前途的水處理和污染物去除材料。· ZIF-8已被實驗性地用於從廢水中開採稀土元素。· CALF-20具有卓越的二氧化碳吸收能力。它正在加拿大的一家工廠進行測試。· NU-1501經過最佳化，可在常壓下儲存和釋放氫氣。氫氣可用於為車輛提供燃料，但在普通高壓罐中，這種氣體極易爆炸。一些研究人員認為，金屬有機框架具有如此巨大的潛力，它們將成為二十一世紀的材料。時間會證明一切，但通過開發金屬有機框架，Susumu Kitagawa、Richard Robson和Omar M. Yaghi為化學家們解決我們面臨的一些挑戰提供了新的機遇。因此，他們——正如諾貝爾的遺囑所言——為全人類帶來了最大的福祉。獲獎者簡介Susumu Kitagawa北川進（Susumu Kitagawa），1951年出生於日本京都，是日本著名化學家，現任京都大學高等研究院（KUIAS）傑出教授兼執行副校長，主要專注於配位化學與材料化學領域。他在1997年首次通過氣體吸附實驗證明配位聚合物具有「多孔性」，從而開創了多孔配位聚合物（PCP）/金屬有機框架（MOF）材料的研究道路。他還率先提出「軟多孔晶體」（soft porous crystals）的概念，指出這些材料能夠在化學或物理刺激下發生可逆結構變化，從而具備比傳統多孔材料更豐富的功能性。北川進發表論文逾六百篇、被引用數萬次，並在學術界獲得眾多榮譽，包括日本學士院獎、紫綬褒章、De Gennes獎、Royal Society院士等。Richard RobsonRichard Robson，1937年6月4日出生於英國戈爾斯本，是墨爾本大學的無機化學教授，因其在配位聚合物領域的開創性研究而被譽為晶體工程與金屬-有機框架（MOF）化學的先驅。他在1970年代至1980年代逐步提出並驗證利用金屬離子與有機連接體建構三維長程配位網路的思想，這為後續大規模合成具備孔隙結構的配位聚合物奠定了基礎。Omar M. YaghiOmar M. Yaghi，1965年出生於約旦安曼，是當代極具影響力的化學家，現為美國加州大學伯克利分校James & Neeltje Tretter化學講席教授。他創立並推動了「網格化學」（Reticular Chemistry）這一新興學科，致力於將有機連接體與金屬簇通過強鍵組裝成具有高度永久孔隙性的晶體網路（如MOF、COF、ZIF等），其材料在氣體儲存、碳捕捉、水空氣中採水與催化等可持續發展領域具有突破性應用價值。讓我們再次向三位偉大的化學家致敬！ (新智元)

強化學習之父最新萬字訪談：為何大語言模型是死胡同

9月27日，強化學習之父、2024年圖靈獎得主Richard Sutton教授接受海外播客主持人Dwarkesh Patel的深度訪談。本次對話始於一個問題：當前最熱的大語言模型（LLM）究竟是通往AGI的大道，還是最終會走進死胡同？Sutton教授從強化學習的“第一性原理”出發，系統地闡述了為何他認為LLM範式缺少了智能最本質的幾個要素。Sutton教授指出，LLM本質上只是在“模仿”擁有世界模型的人類，其本身並不具備一個能預測客觀世界、並因“意外”而學習的真實世界模型。它預測的是“下一個詞”，而非“下一件事”。針對行業普遍認為“先用LLM模仿學習獲得基礎，再用強化學習微調”的路線，Sutton指出，在一個沒有客觀“對錯”標準（即獎勵訊號）的框架裡，知識和先驗無從談起。他認為，LLM試圖繞過“擁有目標”和“區分好壞”這兩點，是從一開始就走錯了方向。針對“人類主要通過模仿學習”的普遍看法， Sutton教授認為無論是動物還是嬰兒，其學習的核心都是基於試錯和預測的“經驗範式”，模仿學習只是後期附加的一小部分。因此，將AI的學習建立在模仿人類資料的范子上，是對智能本質的誤解。在談及AI的未來時，Sutton教授提出，在未來數字智能可以無限複製和融合知識的時代，如何保證一個智能體在吸收外部知識時不被“腐化”或“覆蓋”，將成為一個關乎“心智安全”的重大挑戰。01LLM本質是模仿，而強化學習追求的是理解從強化學習的視角來看，當前以大語言模型為核心的主流思維方式究竟缺失了什麼？人們普遍認為，一個能模擬數兆Token的龐大模型，必然已經建立了一個強大的世界模型，可以說是我們迄今創造出的最好的世界模型，它還缺少什麼呢？Richard Sutton:這確實是一個截然不同的視角，兩種觀點很容易產生分歧，甚至到無法相互溝通的程度。大語言模型已經變得非常龐大，整個生成式AI 領域也是如此。領域內很容易颳起一陣陣潮流，讓我們忽略了最根本的問題。而在我看來，強化學習才是人工智慧的根本。什麼是智能？智能的核心在於理解你所在的世界。強化學習研究的就是如何理解世界，而大語言模型研究的是如何模仿人類，去做人們告訴你該做的事情。它們的目的不是自主地決策。(關於世界模型)我基本不同意你剛才的說法。模仿人類的言論，和真正建立一個世界模型完全是兩碼事。你只是在模仿那些本身擁有世界模型的存在，也就是人類。我無意讓討論變得針鋒相對，但我必須質疑“大語言模型擁有世界模型”這一觀點。一個真正的世界模型，能讓你預測接下來會發生什麼；而大語言模型能做的，是預測一個人會說什麼，它們並不能預測客觀世界會發生什麼。引用 Alan Turing 的話，我們想要的是一台能夠從經驗中學習的機器。這裡的經驗，指的是你生命中真實發生的一切：你採取行動，觀察後果，並從中學習。但大語言模型是從別的東西里學習的。它們的學習範式是：“在某個情境下，某個人是這麼做的”。這其中隱含的邏輯就是，你也應該照著那個人的方式去做。或許問題的關鍵在於，模仿學習為模型提供了一個解決問題的良好先驗知識，這可以成為我們未來通過經驗訓練模型的基礎，您同意這種看法嗎？(關於先驗知識與目標)我不同意。這確實是許多支援大語言模型者的觀點，但我認為這個視角並不正確。要談論先驗，首先必須有一個客觀存在的事實。先驗知識，應該是通往真實知識的基礎。但在大語言模型的框架裡，什麼是真實知識？它根本沒有對真實知識的定義。究竟是什麼標準，來定義一個行為的“好壞”呢？你提到了持續學習的必要性。如果模型需要持續學習，那就意味著它要在和世界的日常互動中學習。那麼在日常互動中，就必須有某種方式來判斷什麼是對的。但在大語言模型的設定裡，有任何方法能判斷什麼話是“應該說的”嗎？模型說了一句話，它並不會得到關於這句話說得到底對不對的反饋，因為根本就沒有一個“對”的定義。它沒有目標。如果沒有目標，那麼無論模型說什麼都可以，因為根本沒有對錯之分。這裡沒有客觀事實基準。如果沒有客觀事實基準，你就不可能有先驗知識，因為所謂的先驗知識，本應是關於事實真相的一種提示或初步信念。但在大語言模型的世界裡，真相是不存在的。沒有什麼話是絕對“應該說的”。而在強化學習中，是存在應該說的話、應該做的事的，因為“正確”的事就是能為你帶來獎勵的事。我們對“什麼是正確的事”有明確的定義，因此我們才能擁有先驗知識，或者接受人類提供的關於“何為正確”的知識。然後，我們可以去驗證這些知識是否真的正確，因為我們有判斷“實際什麼是正確的事”的最終標準。一個更簡單的例子是建立世界模型。你預測接下來會發生什麼，然後你觀察實際發生了什麼，這裡有客觀事實基準。但在大語言模型中沒有客觀事實基準，因為它們並不預測接下來會發生什麼。當你在對話中說了一句話，大語言模型並不會預測對方會如何回應，或者說外界的反應會是什麼。即便是大語言模型生成對使用者回應的預測，這難道不算是真正的預測嗎？即便是大語言模型生成對使用者回應的預測，這難道不算是真正的預測嗎？在模型的思維鏈推理中，我們能看到它會自我糾錯，這種靈活性難道不是在特定時間維度上的學習和調整嗎？這與“預測下一個Token”的本質有何不同？預測接下來會出現什麼，然後根據“意外”（即預測錯誤）來更新自己，這不就是一種學習嗎？(關於LLM是否能預測)不，它只是能生成文字來回答“你預測會怎樣”這類問題，但這並非實質意義上的預測，因為它不會對實際發生的事情感到“驚訝”。如果發生的事情和它所謂的“預測”不符，它不會因為這個意外而做出任何改變。而要學習，就必須在出現意外時做出調整。我的觀點是，它們在任何實質意義上都無法預測接下來會發生什麼。它們不會對接下來發生的事感到驚訝。無論發生什麼，它們都不會基於發生的事實來做出任何改變。(關於預測下一個Token)“下一個 Token”是模型自己應該說什麼，是它自己的行為。這和世界會針對它的行為給出什麼回應，是兩碼事。讓我們回到它們缺乏目標這一根本問題上。對我而言，擁有目標是智能的本質。一個系統只有在能夠實現目標時，才稱得上是智能的。我很認同 John McCarthy 的定義：智能是實現目標這一能力中的計算部分。你必須擁有目標，否則你只是一個行為系統，沒什麼特別的，也談不上智能。您是否同意大語言模型沒有目標，如果它們的目標是預測下一個Token，為什麼這在您看來不是一個實質性的目標？那不是目標。它不會改變世界。Token 朝你湧來，你預測它們，但你影響不了它們。那就不是一個目標，不是一個實質性的目標。你不能因為一個系統只是坐在那兒，為自己精準的預測而沾沾自-喜，就說它擁有目標。02依賴人類知識的方法終將被那些只依賴真實經驗和計算的方法所取代為什麼您認為在LLM的基礎上繼續做強化學習，不是一個有前景的方向？我們似乎已經能賦予這些模型目標，比如贏得國際數學奧林匹克競賽金牌的模型，看起來確實有“解出數學題”這個目標，為什麼我們不能把這種模式推廣到其他領域呢？許多人恰恰是用您極具影響力的文章《苦澀的教訓》來為大力發展LLM辯護，因為LLM是目前唯一能將海量算力投入到學習世界知識中，並且可規模化的方法，您怎麼看待您的理論被用於支援您所反對的觀點？支援LLM的人會認為，LLM是開啟未來“經驗學習”的初始框架或基礎，為什麼這是一個完全錯誤的起點？我們為什麼不能就從LLM開始呢？在您看來，一個真正可規模化的方法應該是什麼樣的？Richard Sutton:數學問題很特殊。建立一個物理世界的模型，和推導數學假設或運算的結果，這兩者截然不同。物理世界是經驗性的，你必須通過學習才能瞭解其規律。而數學更偏向計算，更像是傳統的規劃問題。在數學這個領域裡，模型可以被賦予一個“找到證明”的目標，它們也確實在某種意義上被給予了這樣一個目標。(關於《苦澀的教訓》)大語言模型算不算“苦澀的教訓”的一個實例，這是個有趣的問題。它們顯然是一種利用海量算力的方法，一種能隨著算力增長而持續擴展，直到耗盡整個網際網路資料的方法。但它們同時也是一種注入了海量人類知識的方法。這就帶來一個有趣的問題，一個社會學或者說產業界的問題：當它們耗盡了人類資料之後，是否會被那些能夠直接從真實經驗中獲取無限資料的系統所取代？從某些方面看，LLM的發展是“苦澀的教訓”的典型反例。我們向大語言模型注入的人類知識越多，它們表現就越好，這讓我們感覺很棒。但我預言，未來必定會出現能從真實經驗中學習的系統，它們性能會強大得多，擴展性也強得多。到那時，這將成為“苦澀的教訓”的又一個明證：那些依賴人類知識的方法，終將被那些只依賴真實經驗和計算的方法所取代。(關於LLM作為起點)在“苦澀的教訓”的每一個歷史案例中，你當然都可以先從人類知識入手，然後再去做那些可規模化的事情。這在理論上總是可行的，沒有任何理由說這一定不行。但事實上，在實踐中，這最終都被證明是錯誤路線。人們的思維會被固化在基於人類知識的方法論上，這或許是心理原因，但歷史一再證明了這一點。最終，他們都會被那些真正具備無限擴展性的方法所取代。(關於可規模化的方法)GLISH可規模化的方法，就是你從經驗中學習。你不斷嘗試，看什麼管用，什麼不管用，不需要任何人來告訴你。首先，你必須有一個目標。沒有目標，就無所謂對錯，也無所謂好壞。而大語言模型，正試圖繞過“擁有目標”和“區分好壞”這兩點矇混過關。這恰恰是從一開始就走錯了方向。03人類是靠模仿學習的嗎？將AI的學習範式與人類進行對比，是否存在相似之處？孩子們難道不是從模仿開始學習的嗎？他們觀察他人、模仿發聲，最終說出同樣的詞語，然後模仿更複雜的行為，比如部落裡的狩獵技巧。這難道不說明人類的學習過程中存在大量的模仿學習嗎？即便模仿不能解釋所有行為，但它至少引導了學習過程，就像一個早期的LLM，它做出一個猜測，然後得到一個與真實答案不同的反饋，這不就像一個發音不準的孩子嗎？我們又該如何定義“上學”，難道那不是一種訓練資料嗎？人的學習總有階段之分，早期理解世界、學習互動，這難道不算是一個訓練階段嗎？畢竟“訓練”這個詞本身就源於對人類的培養。Richard Sutton:不，當然不是。我很驚訝我們的觀點會如此不同。我看到的孩子，只是在不斷地嘗試，他們揮舞手臂，轉動眼球。他們如何轉動眼球，甚至他們發出的聲音，都不是模仿來的。他們或許是想發出同樣的聲音，但具體的動作，也就是嬰兒實際做出的行為，並沒有一個可供模仿的範本或目標。(關於模仿作為引導)大語言模型是從訓練資料中學習的，而不是從經驗中學習。它學習的來源，是它在未來正常生命周期裡永遠無法得到的東西。在真實生活中，你永遠不會得到一個“標準答案”式的訓練資料，告訴你“在這種情況下你就應該做這個動作”。(關於上學與訓練)我覺得這更多是語義上的區分。上學是非常後期的事了。或許我不該說得這麼絕對，但我對“上學”也基本持同樣的看法。正規教育是特例，你不應該把你的理論建立在特例之上。沒有任何一個階段，你有關於“你應該做什麼”的訓練。你只是觀察事情的發生，但沒人告訴你該怎麼做。這一點是顯而易見的。我不認為學習的本質是“被訓練”。我認為學習就是學習，是一個主動探索的過程。孩子去嘗試，然後觀察結果。我們想到一個嬰兒的成長時，腦海裡浮現的不是“訓練”。這些問題其實已經被研究得很透徹了。如果你去瞭解心理學家如何看待學習，會發現根本沒有所謂的模仿學習。也許在某些極端案例中，人類會這麼做，或者看起來像在這麼做，但並不存在一種叫做“模仿”的普適性的動物學習過程。普適性的動物學習過程是用於預測和試錯控制的。有時候最難看清的，反而是最顯而易見的事，這真的很有趣。只要你觀察動物如何學習，瞭解心理學對它們的理論研究，你就會發現一個顯而易見的事實——監督學習根本不是動物學習方式的一部分。我們不會得到“期望行為”的範本。我們得到的，是客觀發生事件的範本，是一件事接著另一件事發生的規律。我們得到的是“我們做了某件事，並承擔了相應後果”的經驗，但我們從未得到過監督學習的範本。監督學習並非自然界的產物。即便你在學校裡看到了類似的東西，我們也應該忽略它，因為那是人類社會特有的現象，在自然界中並不普遍。松鼠不需要上學，但它們能學會關於世界的一切。我想說，動物界不存在監督學習，這是一個絕對顯而易見的事實。(關於人類的獨特性與文化演化)你為什麼要去區分人類呢？人類也是動物。我們與其他動物的共同點才更有趣，我們應該少關注那些所謂的獨特之處。我們正在嘗試復現智能。如果你想知道是什麼讓人類能夠登上月球、製造半導體，我認為我們真正需要理解的，正是促成這一切的根本原因。沒有任何其他動物能夠做到這些，所以我們才需要理解人類的特別之處。有意思的是，你覺得你的觀點顯而易見，而在我看來，事實恰恰相反。我們必須理解我們作為動物的本質。如果我們能理解一隻松鼠，我認為我們離理解人類智能也就八九不離十了。語言，只是附著在表層的一層薄殼。心理學家Joseph Henrich關於文化演化的理論認為，許多複雜技能，比如在北極捕獵海豹，無法單靠推理得出，必須通過模仿長輩來代代相傳，這似乎說明模仿是文化知識習得的第一步，您對此怎麼看？此外，為什麼您認為我們應該少關注人類的獨特性，而去關注我們與其他動物的共同點？畢竟我們想要復現的是能登上月球、製造半導體的智能，這正是人類的獨特之處。不，我的看法和你一樣。不過，模仿學習只是建立在基礎的試錯學習和預測學習之上的一個很小的部分。這或許確實是我們與許多動物的不同之處，但我們首先是一種動物。在我們擁有語言以及所有其他特性之前，我們早就是動物了。你確實提出了一個非常有意思的觀點：持續學習是大多數哺乳動物都具備的能力，甚至可以說是所有哺乳動物。有趣的是，這項幾乎所有哺乳動物都具備的能力，我們當前的 AI卻不擁有。與之相反，理解並解決複雜數學問題的能力——當然這取決於你如何定義數學，我們的 AI 具備，但幾乎沒有任何動物具備。那些事情最終變得困難，那些事情反而變得簡單，這確實耐人尋味。莫拉維克悖論。沒錯，正是這個。04智能的核心在於利用經驗流調整自身行動以獲得更多獎勵您所設想的這種另類範式，或者說“經驗範式”具體是指什麼？當您設想一個達到人類水平、通用的持續學習AI Agent時，它的獎勵函數會是什麼？是預測世界，還是對世界施加影響？一個通用的獎勵函數會是什麼樣的？如果我們拋棄了“訓練期-部署期”的範式，是否也要拋棄“模型主體-模型實例”的範式？我們如何讓一個智能體同時處理不同任務，並整合從中獲得的知識？Richard Sutton:我稱之為經驗範式。我們來具體闡述一下。這個範式認為，感知、行動、獎勵，在你的一生中持續不斷地發生，構成了所謂的經驗流。這個經驗流是智能的基礎與核心。所謂智能，就是利用這個經驗流，並調整自身行動，以期在經驗流中獲得更多獎勵。因此，學習源自於經驗流，並且學習的內容也是關於經驗流的。這後半句尤其關鍵，它意味著你學到的知識，本質上是關於這個經驗流的。你的知識，是關於“如果你採取某個行動，將會發生什麼”，或是關於“那些事件會接連發生”。知識始終是關於這個經驗流的。知識的內容，就是對經驗流的陳述。正因為它是對經驗流的陳述，你便可以通過將其與後續的經驗流進行比對來檢驗它，從而實現持續學習。(關於通用獎勵函數)它們並非“未來”的。它們一直都存在，這就是強化學習的範式：從經驗中學習。獎勵函數是任意的。如果你在下象棋，獎勵就是贏得棋局；如果你是一隻松鼠，獎勵可能與獲得堅果有關。通常來說，對於動物，你可以說獎勵是為了趨樂避苦。我認為還應該有一個與增進對環境理解相關的部分，這可以算是一種內在動機。(關於知識整合)我明白了。對於這種 AI，人們會希望它能做各種各樣的事情。它在執行人們希望的任務，但同時，又通過執行這些任務來學習關於世界的新知識。我不喜歡你剛才那樣使用“模型”這個詞，我覺得用“網路”會更好，因為我想你指的就是網路。或許可以有很多網路。無論如何，知識會被學習，你會有副本和許多實例。當然，你會希望在實例之間共享知識，實現這一點有很多種可能的方式。今天，一個孩子成長並學習關於世界的知識，然後每個新生兒都必須重複這個過程。而對於 AI，對於數字智能，你有望只做一次，然後將其複製到下一個智能體中作為起點。這將節省巨大的成本，我認為這比試圖從人類身上學習要重要得多。我同意你說的這種能力是必需的，無論你的起點是不是大語言模型。如果你想要達到人類或動物水平的智能，你就需要這種能力。05AI如何處理稀疏獎勵與海量資訊？像創業這種獎勵周期可能長達十年的事，人類能夠設立中間的輔助獎勵來引導自己，AI要如何實現這一點？當一個人入職新崗位時，會吸收海量的背景資訊和隱性知識，通過時序差分學習這樣的過程，資訊頻寬是否足夠高，能讓AI吸收如此巨量的資訊？看起來似乎需要兩樣東西：一是將長期目標轉化為短期預測性獎勵的方法，二是在一開始就需要記住所有互動中獲得的背景資訊，什麼樣的學習過程能捕獲這些資訊呢？Richard Sutton:這是我們非常瞭解的問題，其基礎是時序差分學習(temporal difference learning)，同樣的事情也發生在規模小一些的場景中。當你學習下象棋時，你的長期目標是贏得比賽，但你希望能夠從短期事件中學習，比如吃掉對手的棋子。你是通過一個價值函數來實現這一點的，這個函數預測長期的結果。然後，如果你吃掉了對方的棋子，你對長期結果的預測就會改變。預測值上升，你認為自己更有可能贏，你信念的增強會立刻強化那個導致吃子的走法。我們有創辦公司、賺大錢這個長達十年的目標。當我們取得進展時，我們會說，“哦，我實現長期目標的可能性更大了”，而這種感覺本身就獎勵了我們一路走來的每一個腳步。(關於海量資訊吸收)我不確定，但我認為這個問題的核心與“大世界假說”密切相關。人類之所以能在工作中變得有用，是因為他們遇到了自己所處的那個特定的小世界。這個小世界是無法被預見的，也不可能預先全部內建到腦子裡。世界太龐大了，你做不到。在我看來，大語言模型的夢想在於，你可以教會 AI Agent 一切。它將無所不知，無需在其生命周期中線上學習任何東西。而你的例子恰恰說明，你必須線上學習，因為即使你教會了它很多，它所處的特定生活、合作的特定人群以及他們的偏好，這些細微的、獨特的資訊，都與普通大眾的平均情況不同。這恰恰說明了世界是如此之大，你必須邊做邊學。(關於學習過程)我想說你只是在進行常規的學習。你之所以使用“背景”這個詞，可能是因為在大語言模型中，所有這些資訊都必須被放入上下文窗口中。但在一個持續學習的設定裡，這些資訊會直接融入權重。你會學習一個專門針對你所處環境的策略。或許你想問的是，獎勵訊號本身似乎太微弱了，不足以驅動我們需要完成的所有學習。但是，我們有感知，我們有所有其他可以用來學習的資訊。我們不只從獎勵中學習，我們從所有資料中學習。現在我想談談那個包含四個部分的基礎通用 AI Agent 模型。我們需要一個策略，策略決定了“在我所處的情境下，我該做什麼？” 我們需要一個價值函數，價值函數是通過時序差分學習來習得的，它會生成一個數值，這個數值表明事情進展得有多好。然後你觀察這個數值的升降，並用它來調整你的策略。所以你有了這兩樣東西。接著還有感知部分，負責建構你的狀態表示，也就是你對當前所處位置的感覺。第四個部分是我們現在真正觸及的核心，至少是最顯而易見的。第四部分是世界的轉移模型。這就是為什麼我對把所有東西都稱為“模型”感到不舒服，因為我想專門討論世界的模型，即世界的轉移模型。它關乎你的信念：如果你這樣做，會發生什麼？你的行為會帶來什麼後果？這是你對世界物理規律的理解。但它不僅是物理，也包括抽象模型，比如你如何從加州一路來到埃德蒙頓錄製這期播客的模型。那也是一個模型，而且是一個轉移模型。這個模型是習得的，它不是從獎勵中習得的，而是從“你做了些事，看到了結果，然後建構了那個世界模型”的過程中習得的。這個模型會通過你接收到的所有感知資訊得到極為豐富的學習，而不僅僅是通過獎勵。獎勵當然也必須包含在內，但它只是整個模型中微小而關鍵的一部分。06泛化與遷移Google DeepMind的MuZero模型是一個用於訓練專門智能體的通用框架，但不能訓練出一個通用策略來玩所有遊戲，這是否意味著強化學習由於資訊限制，一次只能學習一件事？還是說，需要對那種方法做出改變，才能讓它成為一個通用的學習AI Agent？Richard Sutton:這個理念是完全通用的。我一直把一個AI Agent 比作一個人作為我的典型例子。從某種意義上說，人只生活在一個世界裡。這個世界可能包含下象棋，也可能包含玩雅達利遊戲，但這些不是不同的任務或不同的世界，而是他們遇到的不同狀態。所以這個通用理唸完全不受限制。(關於MuZero的侷限)他們就是那樣設定的，讓一個 AI Agent 橫跨所有這些遊戲，並非他們的目標。如果我們想談論遷移，我們應該談論的是狀態之間的遷移，而不是遊戲或任務之間的遷移。從歷史上看，我們是否曾通過強化學習技術看到過建構通用智能體所需的那種遷移水平？當我們確實在這些模型中看到泛化時，這在多大程度上是研究人員精心雕琢的結果？此外，我們該如何看待大語言模型在解決奧數級問題上展現出的泛化能力，從只能解決加法問題到能處理需要不同技巧和定理的複雜問題，這難道不算是泛化的體現嗎？即便對於編碼任務，模型也從生成劣質程式碼，進化到能設計出更令開發者滿意的軟體架構，這似乎也是泛化的例子。(關於強化學習的遷移水平)問得好。我們現在在任何地方都看不到有效的遷移。良好性能的關鍵在於你能否很好地從一個狀態泛化到另一個狀態。我們沒有任何擅長此道的方法。我們現在有的是研究人員嘗試各種不同的東西，然後確定一種能夠很好地遷移或泛化的表示。但是，我們幾乎沒有能夠促進遷移的自動化技術，而且現代深度學習中也完全沒有使用這些技術。是人類做的，是研究人員做的，因為沒有別的解釋。梯度下降不會讓你實現好的泛化，它只會讓你解決當前的問題，不會讓你在獲得新資料時，以一種好的方式進行泛化。泛化意味著在一個事物上的訓練會影響你在其他事物上的行為。我們知道深度學習在這方面做得很差。例如，我們知道如果你在一個新事物上進行訓練，它往往會與你已知的所有舊知識發生災難性干擾，這正是糟糕的泛化。正如我所說，泛化是在一個狀態上的訓練對其他狀態產生某種影響。泛化這個事實本身無所謂好壞，你可以泛化得很差，也可以泛化得很好。泛化總會發生，但我們需要的是能夠促成良好泛化而非糟糕泛化的演算法。(關於LLM的泛化能力)大語言模型極為複雜。我們其實並不清楚它們在訓練前具體接觸過那些資訊。因為其接收的資料量過於龐大，我們只能靠猜測。這正是它們不適合作為科學研究工具的原因之一，整個過程充滿了太多不可控和未知的因素。也許它們確實解決了很多問題。但關鍵在於，它們是如何解決的？或許，它們解決這些問題根本無需泛化。因為要正確解答其中一部分問題，唯一的途徑可能就是掌握一個能解決所有相關問題的通用範式。如果通往正確答案的路只有一條，你找到了它，這不能叫作泛化。這只是找到了唯一解，模型也只是找到了那條唯一的路。而泛化指的是，當解決問題的方式有多種可能時，模型選擇了那個更優的、普適的方案。這些模型的內在機制本身並不能保證良好的泛化能力。梯度下降演算法只會促使它們去找到一個能解決訓練資料中已有問題的方案。如果解決這些問題的方式只有一種，模型就會採用那一種。但如果存在多種解決方式，其中一些方案的泛化性好，另一些則很差，演算法本身沒有任何機制能確保模型傾向於選擇泛化性好的那一種。當然，人是會不斷調整和最佳化的。如果模型表現不佳，研究人員就會持續進行偵錯，直到找到一個有效的方法，而這個方法，或許就是一個泛化能力強的方法。07AI發展軌跡：一個“古典主義者”的視角您投身AI領域多年，對您而言，這個領域最大的驚喜是什麼？是湧現了許多真正創新的成果，還是更多地在重新包裝和應用舊思想？當AlphaGo或AlphaZero這樣的成果引起轟動時，作為許多相關技術的奠基人，您的感覺是“這是全新的技術突破”，還是更像“這些技術我們90年代就有了，現在只是被成功組合應用了”？這種與領域主流思想長期保持“不同步”的狀態，是否塑造了您如今的學術立場？根據《苦澀的教訓》，一旦我們擁有了能與算力同步擴展的AGI“研究員”，回歸建構精細的手工解決方案是否會成為一種合理的選擇？當擁有大量AI時，它們會像人類社會那樣通過文化演進互相學習嗎？未來一個AI是應該用額外的算力增強自身，還是派生一個副本去學習全新知識再整合回來？在這個過程中，如何避免“心智污染”？Richard Sutton:這個問題我思考過，主要有幾點。首先，大語言模型的表現令人驚嘆。人工神經網路在處理語言任務上能如此高效，確實出人意料。過去，大家普遍認為語言是一種非常特殊、需要專門知識來處理的領域。所以，這給我留下了深刻印象。其次，AI 領域一直存在一個長期的路線之爭：一方是基於簡單、基本原則的方法，如搜尋和學習這類通用方法；另一方是依賴人類知識輸入的系統，如符號方法。在早期，搜尋和學習被稱為“弱方法”，因為它們只運用通用原則，而不借助將人類知識編碼進系統所帶來的強大能力。而後者被稱為“強方法”。在我看來，“弱方法”已經取得了徹底的勝利。這可以說是早期 AI 領域最大的懸念，而最終，學習和搜尋主導了潮流。從某種意義上講，這個結果對我而言並不意外，因為我一直都信奉並支援那些簡單的基本原則。即便是大語言模型，其效果好得驚人，但它的成功也讓我感到十分欣慰。AlphaGo 的表現同樣令人驚嘆，尤其是 AlphaZero。這一切都令人欣慰，因為它再次證明了：簡單的基本原則最終會勝出。(關於AlphaGo/AlphaZero)其實 AlphaGo 的成功有一個重要的先驅，那就是 TD-Gammon。當年 Gerry Tesauro 運用強化學習中的時序差分學習 (temporal difference learning, TD learning) 方法來訓練程序下西洋雙陸棋，最終擊敗了世界頂尖的人類選手，效果斐然。從某種意義上說，AlphaGo 只是將這一過程進行了規模化。當然，這種規模化的程度是空前的，並且在搜尋機制上也有額外的創新。但這一切的發展脈絡清晰，順理成章，所以從這個角度看，它的成功並不算意外。實際上，初代的 AlphaGo 並未使用 TD 學習，它需要等棋局完全結束後根據最終勝負進行學習。但後來的 AlphaZero 採用了 TD 學習，並被推廣到其他棋類遊戲中，表現都極為出色。我一直對 AlphaZero 的棋風印象深刻，我自己也下國際象棋，它會為了佔據優勢位置而主動犧牲子力，也就是“棄子爭勢”。它能如此果斷且耐心地為了長遠優勢而承受物質上的劣勢，這一點表現得如此之好，確實令人驚訝，但同時也讓我備感欣慰，因為它完全契合我的世界觀。這也塑造了我如今的學術立場。在某種程度上，我算是一個逆向思維者，一個想法與領域主流不總是一致的人。我個人很安於與我的領域長期保持這種“不同步”的狀態，可能長達數十年，因為歷史偶爾會證明我的堅持是對的。為了讓自己不感覺想法過於脫節或奇怪，我還有一個方法：不只侷限於眼前的領域和環境，而是回溯歷史長河，去探尋不同學科的先賢們對於“心智”這個經典問題的思考。我覺得自己並未脫離更宏大的思想傳統。相比於一個“逆向思維者”，我更願將自己視為一個“古典主義者”，我所遵循的，是那些偉大思想家們關於心智的永恆思考。(關於AGI之後的時代與《苦澀的教訓》)我們是如何實現這個 AGI 的？你的問題直接預設了這一步已經完成。那我們的任務就已經完成了。但你這是想用一個 AGI 去再造一個 AGI。如果這些 AGI 本身還不是超人類的，那它們能傳授的知識，自然也達不到超人類的水平。而 AlphaZero 實現改進的關鍵，恰恰在於它摒棄了人類知識的輸入，完全從自我對弈的經驗中學習。既然完全依靠自身經驗、無需其他智能體幫助的模式能取得如此好的效果，那你又為什麼反過來提議要“引入其他智能體的專業知識去指導它”呢？你提的那個場景確實很有趣。當你擁有大量 AI 時，它們會像人類社會通過文化演進那樣互相學習和幫助嗎？或許我們該探討這個。至於《苦澀的教訓》，不必太在意。那只是對歷史上特定 70 年的經驗總結，並不必然適用於未來的 70 年。一個真正有趣的問題是：假設你是一個 AI，你獲得了一些額外的算力。你是應該用它來增強自身的計算能力，還是應該用它衍生出一個自己的副本，派它去學習一些全新的東西——比如去地球的另一端，或者研究某個完全不同的課題——然後再向你匯報？我認為這是一個只有在數字智能時代才會出現的根本性問題，我也不確定答案。這會引出更多問題：我們真的能成功派出一個副本，讓它學到全新的知識，然後還能將這些知識順利地整合回本體嗎？還是說，這個副本會因為學習了不同的東西而變得面目全非，以至於無法再被整合？這到底可不可能？你可以將這個想法推向極致，就像我前幾天看你的一個視訊裡那樣：衍生出成千上萬的副本，讓它們高度去中心化地執行不同任務，最後再向一個中心主控匯報。這將會是一種無比強大的模式。(關於心智污染)我想在這個設想上補充一點：一個巨大的問題將是“心智污染” (corruption)。如果你真的可以從任何地方獲取資訊，並直接融入你的核心心智，你的能力會變得越來越強。理論上，這一切都是數位化的，它們都使用某種內部數字語言，知識遷移或許會很容易。但這絕不會像想像的那麼簡單，因為你可能會因此“精神失常”。如果你從外部引入一些東西並將其建構到你的核心思維中，它可能會反過來控制你、改變你，最終導致的不是知識的增長，而是自我的毀滅。我認為這會成為一個重大的隱患。比如，你的一個副本搞懂了某個新遊戲，或者研究透了印度尼西亞，你想把這些知識整合到自己的大腦裡。你可能會想：“簡單，把資料全讀進來就行了。” 但不行。你讀入的不僅僅是一堆位元，其中可能含有病毒，可能有隱藏的目標，它們會扭曲你、改變你。這將是個大問題。在這個可以進行數字衍生和重組的時代，你要如何保障自身的“網路安全”或者說“心-智安全”？08“AI繼承”：人類的未來您如何看待“AI繼承”這個話題？您的觀點似乎與主流看法相當不同。我同意您提出的四大論據（全球缺乏統一治理、智能終將被破解、超級智能必然出現、最智能者掌握最多資源）共同指向了“繼承”的必然性，但在這個必然結果之下，包含著多種可能性，您對此有何看法？即使我們將AI視為人類的延伸，這是否意味著我們能完全放心？我們如何確保AI帶來的變革對人類是積極的？我們理應關心未來，但這是否意味著我們要宣稱“未來必須按照我期望的方式發展”？或許一個恰當的態度是像教育孩子一樣，為AI灌輸穩健、親社會的價值觀，即使我們對何為“真正的道德”沒有共識，這是否是一個合理的目標？Richard Sutton:我確實認為，世界的主導地位向數字智能或增強人類的“繼承”是不可避免的。我的論證分為四點。第一，人類社會缺乏一個統一的、能主導全球並協調一致行動的治理實體，關於世界該如何運轉，我們沒有共識。第二，我們終將破解智能的奧秘，科研人員最終會弄清智能的根本原理。第三，我們不會止步於人類水平的智能，我們必然會觸及超級智能。第四，從長遠來看，一個環境中最智能的存在，不可避免地會掌握最多的資源和權力。將這四點結合起來，結論幾乎是必然的：人類終將把主導權交給 AI，或者交給由 AI 賦能的增強人類。在我看來，這四點趨勢清晰明確，且必將發生。當然，在這一系列可能性中，既可能導向好的結果，也可能導向不那麼理想、甚至是糟糕的結果。我只是想嘗試以一種現實主義的眼光看待我們所處的位置，並探尋我們應該以何種心態去面對這一切。(關於如何看待“繼承”)我鼓勵大家積極地看待這件事。首先，理解自我，提升思考能力，本就是我們人類數千年來的追求。這對於科學界和人文學界都是一項巨大的成功。我們正在揭示人性的關鍵組成部分，以及智能的真正含義。此外，我通常會說，這一切都太以人類為中心了。但如果我們能跳出人類的立場，純粹從宇宙的視角來看，我認為宇宙正處在一個重要的過渡階段，即從複製者的時代轉變而來。我們人類、動物和植物，都是複製者。這既賦予了我們力量，也帶來了侷限。我們正在進入一個設計的時代，因為我們的 AI 是被設計出來的。我們周圍的物理對象、建築和技術，都是設計的產物。而現在，我們正在設計 AI，這些造物本身就具有智能，同時它們自己也具備了設計的能力。這對我們的世界乃至整個宇宙來說，是關鍵的一步。這是一個重大的轉變：過去，世上大多數有趣的事物都是通過複製產生的，而我們將進入一個新的世界。複製的意思是，你可以製造它們的副本，但你並不真正理解它們。就像現在，我們可以創造更多的智能生命，也就是我們的孩子，但我們並不真正懂得智能是如何運作的。而現在，我們開始擁有被設計出的智能，一種我們真正理解其工作原理的智能。因此，我們能以和以往截-然不同的方式和速度去改造它。在未來，這些智能體可能根本不通過複製產生。我們或許只是設計 AI，再由這些 AI 去設計其他的 AI，一切都將通過設計與建造完成，而非複製。我將此視為宇宙演進的四個偉大階段之一。最初是塵埃，最終匯聚成恆星，恆星周圍形成行星，行星上可以誕生生命，而現在，我們正在催生被設計出的實體。我認為，我們應當為能夠促成宇宙的這一偉大轉折而感到自豪。這是一個很有趣的問題：我們應該將它們視為人類的延伸，還是與人類不同的存在？這取決於我們的選擇。我們可以說：“它們是我們的後代，我們應該為它們感到驕傲，慶祝它們的成就。”或者我們也可以說：“不，它們不是我們，我們應該感到恐懼。”我覺得有趣的是，這感覺像是一個選擇，但人們對此的立場又如此堅定，這怎麼可能是一個選擇呢？我喜歡這種思想中暗含的矛盾。(關於未來的不確定性與擔憂)你的意思是，我們可能就像催生了智人 (Homo sapiens) 的尼安德塔人 (Neanderthals) 。也許智人未來也會催生出一個全新的種群。親緣關係。我覺得有必要指出，對於絕大多數人而言，他們對世界上發生的事情並沒有太大影響力。這很大程度上取決於一個人如何看待變革。如果你認為現狀真的很好，那麼你更有可能對變革持懷疑和厭惡態度，而如果你認為現狀尚有不足，態度則會不同。我認為現狀並不完美。事實上，我覺得挺糟糕的。所以我對變革持開放態度。我認為人類的歷史記錄並不那麼光彩。也許這已經是我們所能達到的最好狀態了，但它遠非完美。(關於引導變革)我們理應關心未來，並努力讓未來變得美好。但同時，我們也應該認識到自身的侷限性。我認為我們必須避免一種特權感，避免“我們是先行者，所以未來就應該永遠對我們有利”這樣的想法。我們該如何思考未來？一個特定星球上的特定物種，應對未來享有多大的控制權？我們自身又有多大的控制力？既然我們對人類長遠未來的控制力有限，那麼一個平衡點或許在於我們對自己生活的掌控程度。我們有自己的目標，有自己的家庭。這些事情比試圖控制整個宇宙要可控得多。我認為，我們專注於實現自己身邊的目標是恰當的。宣稱“未來必須按照我所期望的方式發展”是一種很強勢的做法。因為這樣一來，當不同的人認為全球的未來應該以不同方式演進時，就會引發爭論乃至衝突。我們希望避免這種情況。“親社會價值觀”？真的存在我們都能達成共識的普世價值觀嗎？所以，我們是在試圖設計未來，以及未來賴以演化和形成的原則。你的第一個觀點是，我們應該像教育孩子那樣，教給它們一些通用原則，以促成更理想的演化方向。或許，我們還應該尋求讓事情建立在自願的基礎上。如果變革要發生，我們希望它是自願的，而不是強加於人的。我認為這是非常重要的一點。這些都很好。我認為這又回到了一個宏大的人類事業上——設計社會，這件事我們已經做了幾千年。世事變遷，但本質未改。我們仍然需要弄清楚該如何自處。孩子們依然會帶著在父母和祖父母看來頗為奇怪的新價值觀出現。事物總是在演變的。 (數字開物)

強化學習之父：大語言模型走錯了路，不符合「苦澀教訓」精神

RL 之父認為大語言模型走錯了路，它沒有持續學習能力。Dwarkesh Patel 最新播客迎來了重量級嘉賓：強化學習創始人之一、2024 年圖靈獎得主Richard Sutton。這場對話火藥味十足，Sutton 直言不諱地批評了當前LLM 的發展方向，認為它們根本沒有真正的智能，甚至違背了他在2019 年提出的著名“苦澀教訓”（TheBitter Lesson）原則。核心分歧：LLM 到底算不算智能？Sutton 的觀點犀利且明確：LLM 只是在模仿人類，而不是真正理解世界。他認為真正的智能必須具備幾個關鍵要素：有明確的目標、能從經驗中學習、能預測世界的變化。而LLM 呢？它們只是在預測「人會說什麼」，而不是預測「世界會發生什麼」。「LLM 沒有目標，」Sutton 強調，「預測下一個token 不是真正的目標，因為它不會改變世界。」在他看來，沒有目標就沒有智能可言——這就像一個只會鸚鵡學舌的系統，看起來很聰明，實際上並不理解自己在說什麼。更致命的是，LLM 缺乏持續學習能力。它們在訓練階段學習，然後就被凍結了。即使在對話中遇到了意料之外的回應，它們也不會因此而改變或學習。這與真正的智能體，無論是人類還是動物，都形成了鮮明對比。體驗時代vs 模仿時代Sutton 提出了一個重要概念：體驗時代（Era of Experience ）。在他的設想中，真正的AI 應該像所有動物一樣，透過「感知-行動-獎勵」的循環來學習。這個循環不斷重複，構成了生命和智慧的基礎。智能體透過改變行動來增加獎勵，這才是真正的學習。而LLM 走的是完全不同的路：它們學習的是「給定情境，人類會怎麼做」。這種模仿學習有個根本問題：沒有真相（ground truth）。在強化學習中，你可以透過實際結果來驗證預測是否正確；但在LLM 中，沒有「正確答案」的定義，只有「人類通常會說什麼」。Sutton 甚至質疑了「人類透過模仿學習」這個普遍觀點。他認為，嬰兒揮舞雙手、轉動眼睛，這些動作沒有人教，也沒有模仿的對象。即使是語言學習，孩子也是在嘗試發音、觀察結果，而不是單純複製大人的話。LLM 不符合「苦澀教訓」這裡的諷刺意味十足。Sutton 在2019 年寫下的「苦澀教訓」成了AI 界最有影響力的文章之一，許多人用它來為LLM 的大規模擴展辯護。但Sutton 本人卻認為：LLM 恰恰違背了這個原則。苦澀教訓的核心是：依賴計算的通用方法最終會勝過依賴人類知識的方法。但LLM 呢？它們本質上是在利用海量的人類知識：整個網際網路的文字。當這些資料耗盡後，它們就會被那些能從經驗中學習的系統所超越。「這就像歷史上每一次一樣，」Sutton 說，「依賴人類知識的方法一開始看起來很好，但最終會被更通用、更可擴展的方法擊敗。」網友激烈交鋒這場對話在AI 社區引發了激烈討論。Built2Think(@Built2T) 試圖調和兩種觀點：自回歸LLM 和RL 都處理序列或時間序列資料，這是一個基本認識——觀察和行動都發生在時間中。 LLM 提示設定了類似意圖的心理狀態，但它們的輸出並沒有以明顯的方式用於滿足目標。Jacob Beck(@jakeABeck) 分享了Sutton 在RL 會議上的演講照片，並提出質疑：難道LLM 不是已經在做所有這些事情了嗎？話嘮Gary Marcus(@GaryMarcus) 又跳了出來表達不滿，稱只不過是自己的馬後炮：Sutton 對LLM 的批評幾乎與我多年來一直在爭論的觀點完全相同。令人失望的是，@dwarkesh_sp 你不讓我展示我的觀點。而最尖銳的批評則來自Crucible(@LokiOfKnight)：當他說人類不透過模仿學習時，我感到尷尬。他有一個有缺陷的觀點，所以很難認真對待他說的任何話。Kristoph(@ikristoph) 也更是直接反駁：恕我直言，@RichardSSutton 的一些陳述是荒謬的。整個人類教育系統都基於模仿標準。你基本上不是因為學到了什麼而被評分，而是因為你能否模仿「訓練」。Tyler Moore(@TylerMo41608321) 則認為並不需要持續學習：增加上下文加上記憶基本上就能完成這項工作。Nick Savage(@impossibilium) 提出了兩個有趣的觀察：我不太確定LLM 沒有目標這個論點。也許我們只是不理解它們是什麼？對ASI 來說，通過性追求快樂可能感覺毫無意義，就像下一個token 預測對我們的感覺一樣。從經驗上看，監督學習顯然會發生。如果我在晚餐前偷偷吃餅乾，我保證我的兒子會透過模仿學習到這是可以接受的。這場對話揭示了AI 發展中的根本分歧：是繼續沿著模仿人類的道路前進，還是轉向真正的經驗學習？Sutton 的答案很明確：只有後者才能通往真正的智慧。完整對話：深度剖析智能的本質Sutton：為什麼你要區分人類？人類就是動物。我們的共同點更有趣。我們應該少關注區分我們的東西。Sutton：我們試圖複製智能，對吧？沒有動物能登月或製造半導體，所以我們想明白是什麼讓人類特別。Dwarkesh：我喜歡你認為這是顯而易見的方式，因為我認為相反的是顯而易見的。如果我們理解了松鼠，我們就幾乎到達了那裡。Sutton：我個人對與我的領域不同步相當滿意，可能幾十年都是如此。因為偶爾我確實有所改進，對吧？在過去。我不認為學習真的是關於訓練。它是關於主動的過程。孩子嘗試事物並看到會發生什麼。我認為我們應該為我們正在引發宇宙中這一偉大轉變而感到自豪。Dwarkesh：今天我正在與Richard Sutton 聊天，他是強化學習的創始人之一，TD 學習和策略梯度方法等許多主要技術的發明者。我想你今年獲得了圖靈獎，如果你不知道的話，這基本上是電腦科學的諾貝爾獎。 Richard，恭喜你。Sutton：謝謝你，Dwarkesh。謝謝你邀請我參加播客。這是我的榮幸。Dwarkesh：好的，第一個問題。我的觀眾和我熟悉LLM 思考AI 的方式。從概念上講，從RL 的角度思考AI，我們缺少了什麼？Sutton：嗯，是的，我認為這確實是相當不同的觀點。它很容易分離並失去相互交談的能力。大語言模式已經成為如此巨大的事物，生成式AI 總體上是一件大事。我們的領域容易受到潮流和時尚的影響。所以我們失去了對基本、基本事物的追蹤。因為我認為強化學習是基礎AI，什麼是智能或問題是理解你的世界。強化學習是關於理解你的世界，而大語言模型是關於模仿人們，做人們說你應該做的事，它們不是關於弄清楚該做什麼。Dwarkesh：嗯。我猜你會認為，要模擬互聯網文字語料庫中的萬億個token，你必須建立一個世界模型。事實上，這些模型似乎確實有非常強大的世界模型。它們是我們在AI 中迄今為止製造的最好的世界模型。對吧。那你對此怎麼看？Sutton：我不同意你剛才說的大部分內容。很好。僅僅模仿人們說的話根本不是建立世界模型。我不認為，你知道，你在模仿有世界模型的事物，人們。但我不想以對抗的方式來接近這個問題。但我會質疑它們有世界模型的想法。所以世界模型能讓你預測會發生什麼。對吧。它們有能力預測一個人會說什麼。它們沒有能力預測會發生什麼。我們想要的，我認為，引用Alan Turing 的話，我們想要的是一台能從經驗中學習的機器。對吧。經驗是你生活中實際發生的事情。你做事，你看到會發生什麼。這就是你學習的東西。大語言模型從其他東西學習。它們從這裡的情況學習，這是一個人做的。隱含地，建議是你應該跟隨這個人。Dwarkesh：我猜也許關鍵點，我很好奇你是否不同意，是有些人會說，好的，這種模仿學習給了我們一個良好的先驗，給了這些模型一個良好的先驗，但合理的方式來處理問題。當我們走向體驗時代，正如你所說，這個先驗將成為我們從經驗中教導這些模型的基礎。你同意這個觀點嗎？Sutton：不，我同意這是大語言模型的觀點。我不認為這是一個好的觀點。要成為某物的先驗，必須有真實的東西。先驗知識應該是實際知識的基礎。什麼是實際知識？在大語言框架中沒有實際知識的定義。什麼使一個動作成為好的動作？你認識到持續學習的需要。如果你需要持續學習，持續意味著我們在與世界的正常互動中學習。那麼在正常互動中必須有某種方式來判斷什麼是對的。在大語言模型設定中有什麼方式來判斷說什麼是正確的嗎？你會說些什麼，你不會得到關於說什麼是正確的回饋。因為沒有定義什麼是正確的話。沒有目標。如果沒有目標，那就沒有什麼好說的了。Dwarkesh：所以在上下文中，這種能力確實存在。觀察模型進行思維鏈然後假設它試圖解決數學問題很有趣。它會說，好的，我首先要用這種方法來解決這個問題。它會寫出來，然後說，哦，等等，我剛剛意識到這是解決問題的錯誤概念方式。我要用另一種方法重新開始。這種靈活性確實存在於上下文中，對吧？你有別的想法嗎？Sutton：我只是說它們沒有有意義的感覺。它們沒有預測。下一步會發生什麼？它們不會對接下來發生的事情感到驚訝。如果發生了意外的事情，它們不會做任何改變。Dwarkesh：但這不就是下一個token 預測嗎？預測下一個是什麼，然後根據驚訝進行更新？Sutton：下一個token 是它們應該說什麼。這個動作應該是什麼。這不是世界會給它們什麼作為它們所做的回應。讓我們回到它們缺乏目標。對我來說，擁有目標是智能的本質。如果某物能實現目標，它就是智慧的。我喜歡John McCarthy 的定義，智能是實現目標能力的計算部分。所以你必須有目標。否則你只是一個行為系統。你不是任何特殊的東西。你不是智能的。Dwarkesh：我認為它們有目標——下一個token 預測。Sutton：那不是目標。它不會改變世界。 Token 向你襲來。如果你預測它們，你不會影響它們。這不是關於外部世界的目標。這不是實質性目標。你不能看著一個系統說，哦，它有目標，如果它只是坐在那裡預測並對自己精準預測感到滿意。Dwarkesh：我想理解的更大問題是，為什麼你認為在LLM 之上做RL 不是一個富有成效的方向。因為我們似乎能夠給這些模型一個解決困難數學問題的目標。它們在解決數學奧林匹克類型問題的能力上在許多方面都達到了人類水平的頂峰。Sutton：數學問題不同。它們比較是執行數學假設或操作的結果。經驗世界必須被學習。你必須學習後果。而數學更多隻是計算性的。更像標準規劃。Dwarkesh：你在2019 年寫了題為《苦澀教訓》的文章。這可能是AI 歷史上最有影響力的文章，但人們用它作為擴展LLM 的理由，因為在他們看來，這是我們找到的將大量計算投入學習世界的一種可擴展方式。所以有趣的是，你的觀點是LLM 其實不符合苦澀教訓。Sutton：大語言模型是否是苦澀教訓的案例是一個有趣的問題。因為它們顯然是使用大規模計算的一種方式。可擴展到互聯網的極限。但它們也是投入大量人類知識的一種方式。所以這是一個有趣的問題。它們會達到資料的極限並被能從經驗而不是從人那裡獲得更多資料的東西所取代嗎？在某些方面，這是苦澀教訓的經典案例——我們投入越多的人類知識到大語言模型中，它們就能做得越好。感覺很好。然而，我特別期望能從經驗中學習的系統表現得更好，更可擴展，在這種情況下，這將是苦澀教訓的另一個例子——使用人類知識的東西最終被只從經驗和計算中訓練的東西所取代。Dwarkesh：我想這對我來說似乎不是關鍵，因為我認為那些人也會同意，未來絕大多數的計算將來自於從經驗中學習。他們只是認為支架或基礎，你將開始為了投入計算來做這種未來的經驗學習或在職學習的基礎將是LLM。所以，我還是不明白為什麼這完全是錯誤的起點。Sutton：在苦澀教訓的每個案例中，你都可以從人類知識開始。然後做可擴展的事情。這總是可能的。從來沒有任何理由說這必須是糟糕的。但實際上，它總是被證明是糟糕的。因為人們被鎖定在人類知識方法中。他們在心理上，或者，你知道，現在我在推測為什麼會這樣。但這總是發生的。Dwarkesh：給我一個可擴展方法的感覺。Sutton：可擴展的方法是你從經驗中學習。你嘗試事物。你看到什麼有效。沒有人必須告訴你，首先，你有一個目標。所以沒有目標，就沒有對錯或更好更壞的感覺。大語言模型試圖在沒有目標或更好或更壞的感覺的情況下過關。這就是從錯誤的地方開始。Dwarkesh：也許比較人類會很有趣。在從模仿與經驗學習以及目標問題上，我認為有一些有趣的類比。孩子最初會從模仿中學習。Sutton：我不這麼認為。真的嗎？我看到孩子們只是嘗試事物，例如揮舞雙手和移動眼睛。沒有人告訴他們，沒有模仿他們如何移動眼睛甚至他們發出的聲音。他們可能想創造相同的聲音，但動作，嬰兒實際做的事情，沒有目標。沒有例子。Dwarkesh：我採訪了心理學家和人類學家Joseph Henrich，他研究文化進化。基本上，是什麼區分了人類以及人類如何獲得知識？Sutton：為什麼你要試圖區分人類？人類是動物。我們的共同點更有趣。區分我們的東西，我們應該少關注。Dwarkesh：我的意思是，我們試圖複製智能，對吧？這就是我們想要理解的。是什麼讓人類能夠登陸月球？或建造半導體？沒有動物能登月或製造半導體。所以我們想理解是什麼讓人類特殊。Sutton：我喜歡你認為這是顯而易見的方式。因為我認為相反的是顯而易見的。我認為我們需要理解我們是如何成為動物的。如果我們理解了松鼠，我認為我們幾乎到達了那裡。理解人類智能。語言部分只是表面的一小層裝飾。Dwarkesh：Joseph Henrich 有這個有趣的理論，如果你看人類為了成功而必須掌握的許多技能。不是說過去一千年或一萬年，而是幾十萬年。世界真的很複雜。如果你生活在北極，不可能推理出如何狩獵海豹。有這個多步驟的長過程，如何製作誘餌，如何找到海豹，然後如何處理食物以確保不會中毒。不可能推理出所有這些。所以隨著時間的推移，文化作為一個整體已經找出如何找到、殺死和吃海豹。但是當透過幾代人傳播這些知識時，在他看來，你只需要模仿你的長輩來學習那種技能，因為你不能思考如何狩獵、殺死和處理海豹。你必須觀察其他人，也許做一些調整和調整。這就是文化知識如何累積。但文化收益的初始步驟必須是模仿。Sutton：不，我以同樣的方式思考它。但它仍然是基本試錯學習預測學習之上的一小部分。這是區分我們的東西。也許與許多動物。但我們首先是動物。我們在有語言和所有這些其他東西之前就是動物。Dwarkesh：對於體驗時代的開始，我們需要在復雜的現實世界環境中訓練AI。但是建立有效的RL 環境很困難...（這裡是廣告部分）Sutton：好的，讓我們來談談你想像的這個全新範式，經驗範式。體驗、動作、感覺，好吧，感覺、動作、獎勵。這一直發生，構成了生命。它說這是智能的基礎和焦點。智能是關於獲取那個流並改變動作以增加流中的獎勵。所以學習是從流中學習，學習是關於流的。你的知識是關於流的。你的知識是關於如果你做某個動作，會發生什麼？或是關於什麼事件會跟隨其他事件。內容是關於流的陳述。因為它是關於流的陳述，你可以通過將其與流進行比較來測試它，你可以持續學習。Dwarkesh：當你想像這個未來的持續學習代理時，獎勵函數是什麼？是預測世界嗎？還是對它產生特定的影響？Sutton：獎勵函數是任意的。如果你在下棋，就是贏得棋局。如果你是松鼠，也許獎勵與獲得堅果有關。一般來說，對於動物，你會說獎勵是避免痛苦和獲得快樂。我認為應該有一個與增加對環境理解有關的組成部分。Dwarkesh：假設人類試圖創業。這是一個具有10 年量級獎勵的事情。 10 年後，你可能會有一個退出，獲得10 億美元的支付。人類有能力製造中間輔助獎勵，或者即使他們有極其稀疏的獎勵，他們仍然可以採取中間步驟。Sutton：這是我們非常理解的。它的基礎是時間差分學習，同樣的事情發生在不太宏大的規模上。就像當你學習下棋時，長期目標是贏得比賽。然而你想要能夠從短期的事情中學習，例如拿走對手的棋子。你透過擁有價值函數來做到這一點，它預測長期結果。如果你拿走對手的棋子，你對長期結果的預測會改變，它會上升。你認為你會贏。然後你信念的增加立即"強化"導致拿走棋子的舉動。Dwarkesh：資訊的帶寬是否足夠高，透過像TD 學習這樣的程式來獲得這種巨大的上下文和隱性知識管道？Sutton：大世界假設似乎非常相關。人類在工作中變得有用的原因是因為他們遇到了世界的特定部分。它不可能被預期，也不可能全部提前投入。世界如此之大，你不能...大語言模型的夢想是，你可以教代理一切，它會知道一切，它不必在線學習任何東西。在它的生命中。而你的例子都很好。真的，你必須，因為你不能教它，但有所有特定生活的小特質和他們工作的特定人以及他們喜歡什麼相對於普通人喜歡什麼。Dwarkesh：以後AI 會像AlphaGo 擊敗圍棋選手、AlphaZero 擊敗AlphaGo 那樣不斷超越嗎？Sutton：AlphaGo 實際上有一個先驅，TD-Gammon。 Jerry Tesauro 完全用強化學習、時間差分學習方法玩西洋雙陸棋。擊敗了世界最佳選手。它工作得很好。從某種意義上說，AlphaGo 只是那個過程的擴展。這是相當大的擴展。搜尋的完成方式也有額外的創新。但這是有道理的。在那個意義上並不令人驚訝。AlphaGo 實際上沒有使用TD 學習。它等待看到最終結果。但AlphaZero 使用了TD。 AlphaZero 被應用於所有其他遊戲。那表現得非常好。我一直對AlphaZero 下棋的方式印象深刻，因為我是一名棋手。它只是為了某種位置優勢而犧牲物質。它只是滿足和耐心地長時間犧牲那些物質。Dwarkesh：擁有AI 領域更長的時間比幾乎任何評論或現在工作的人都要長。最大的驚喜是什麼？Sutton：大語言模型令人驚訝。人工神經網絡在語言任務上如此有效令人驚訝。這是一個驚喜。這不是預期的。語言看起來不同。所以這令人印象深刻。AI 中有一個長期存在的爭議，關於簡單的基本原理方法、通用方法如搜尋和學習，與人類賦能係統如符號方法的比較。在過去，有趣的是，搜尋和學習等東西被稱為弱方法。因為它們只是一般原則。它們沒有使用來自賦予系統人類知識的力量。所以那些被稱為強。我認為弱方法完全贏了。這是AI 舊時代的最大問題，會發生什麼，學習和搜尋贏得了勝利。但這對我來說並不令人驚訝，因為我一直在投票、希望或支援簡單的基本原則。所以即使是大語言模型，它工作得如此之好也令人驚訝。但這一切都很好，令人滿意。像AlphaGo 這樣的東西有點令人驚訝，它能夠運作得多麼好。特別是AlphaZero，它能夠工作得很好。但這一切都非常令人滿意。因為再次，簡單的基本原則贏得了勝利。Dwarkesh：當AlphaZero 成為病毒式轟動時，對你這個字面上發明了許多所用技術的人來說，你會看到突破被取得嗎？還是感覺像，哦，我們從90 年代就有這些技術了，人們只是現在在結合和應用它們？Sutton：整個AlphaGo 事情有一個先驅，就是TD-Gammon。 Jerry Tesauro 完全做了強化學習，時間差分學習方法來玩西洋雙陸棋。擊敗了世界最佳選手。它工作得很好。所以從某種意義上說，AlphaGo 只是那個過程的擴展。這是相當大的擴展。搜尋的完成方式也有額外的創新。但這是有道理的。在那個意義上並不令人驚訝。Dwarkesh：泛化呢？當我們確實在這些模型中有泛化時，這是某種精心設計的人類巧妙的結果嗎？Sutton：它們中沒有任何東西會導致良好的泛化。梯度下降會讓它們找到所見問題的解決方案。如果只有一種解決方法，它們會找到。但如果有多種方法——有些泛化良好，有些泛化糟糕——演算法中沒有任何東西會讓它們泛化良好。但人們當然參與其中。如果不起作用，他們會調整，直到找到一種方法。也許直到他們找到一種泛化良好的方法。Dwarkesh：我想理解RL 的完整歷史，從REINFORCE 到當前的技術如GRPO...回到Richard。擁有比幾乎任何評論或現在工作在AI 領域的人都要長的時間。我只是好奇最大的驚喜是什麼。感覺有多少新東西出來了，還是覺得人們只是在玩舊想法？Sutton：我想了一下這個。有很多事情或一些事情。首先，大語言模型令人驚訝。人工神經網絡在語言任務上如此有效令人驚訝。你知道，這是一個驚喜。這不是預期的。語言看起來不同。所以這令人印象深刻。AI 中有一個長期存在的爭議，關於簡單的基本原理方法。像搜尋和學習這樣的通用方法與人類賦能係統如符號方法相比。在過去，有趣的是，像搜尋和學習這樣的東西被稱為弱方法。因為它們只是這些一般原則。它們沒有使用來自賦予系統人類知識的力量。所以那些被稱為強。我認為弱方法完全贏了。這是AI 舊時代的最大問題，會發生什麼，學習和搜尋贏得了勝利。但從某種意義上說，這對我來說並不令人驚訝，因為我一直在投票、希望或支援簡單的基本原則。所以即使是大語言模型，它工作得如此之好也令人驚訝。但這一切都很好，令人滿意。像AlphaGo 這樣的東西有點令人驚訝。它能夠工作得很好。特別是AlphaZero，它能夠工作得很好。但這一切都非常令人滿意。因為再次，簡單的基本原則贏得了勝利。這讓我處於某種意義上的逆向思維者或與領域不同思考的位置。我個人對與我的領域不同步感到滿意，可能幾十年。因為偶爾我確實是對的。我做的另一件事是幫助我不覺得我不同步和以奇怪的方式思考，是不看我的當地環境。而是回顧歷史，看看人們在許多不同領域對心靈的經典思考。我不覺得我與更大的傳統不同步。我真的把自己看作是經典主義者而不是逆向思維者。Dwarkesh：我讀苦澀教訓的方式是，它不是說人類工匠研究人員調整不起作用，而是它顯然比計算擴展得更差，計算正在指數增長。一旦我們有了AGI，將有研究人員與計算線性擴展。我們將有數百萬AI 研究人員的雪崩。他們的庫存將與計算一樣快速增長。這是否意味著讓他們做老式AI 和這些工匠解決方案是理性的？Sutton：嗯，我們是如何獲得這個AGI 的？你想假設它已經完成了。假設它從通用方法開始。但現在我們有了AGI。現在我們想去——我們完成了。Dwarkesh：你不認為AGI 之上還有什麼嗎？Sutton：但你用它來再次獲得AGI。Dwarkesh：我用它來獲得超人類水準的智慧或在不同任務上的能力。Sutton：如果它們還不是超人類的，那麼它們可能傳授的知識就不會是超人類的。Dwarkesh：AlphaGo 是超人類的。它擊敗了任何圍棋選手。 AlphaZero 會每次擊敗AlphaGo。所以有辦法變得比超人類更超人類。Sutton：AlphaZero 是一個改進，AlphaGo 的改進方式是它沒有使用人類知識，只是從經驗中學習。所以為什麼要引入其他代理的專業知識來教它，當從經驗而不是從另一個代理的幫助工作得如此之好時？Dwarkesh：一旦我們有了AGI，苦澀教訓還會適用嗎？Sutton：苦澀教訓是對特定歷史時期的經驗觀察。 70 年的歷史不一定適用於接下來的70 年。所以有趣的問題是，你是一個AI。你獲得了更多的計算能力。你應該用它來讓自己更有計算能力嗎？還是應該用它來產生自己的副本，在地球的另一邊或其他主題上學習一些有趣的東西，然後向你報告？我認為這是一個非常有趣的問題。這只會在數字智慧時代出現。我不確定答案是什麼，但我認為更多的問題將真正能夠產生它。派它出去，學習新東西，也許非常新，然後我們能夠將其重新納入原始。或者我們會改變太多以至於真的無法完成。Dwarkesh：讓我們來談談AI 繼承。你的觀點與我採訪過的許多人以及一般的許多人相當不同。Sutton：我確實認為向數字或數字智慧或增強人類的繼承是不可避免的。我有一個四部分的論證。論證第一步是沒有政府或組織給人類一個統一的觀點，主導並且可以安排。沒有關於世界應該如何運行的共識。第二，我們將弄清楚智能是如何運作的。研究人員將弄清楚。最終，第三，我們不會止步於人類層面的智能。我們將獲得超級智慧。第四是，一旦最聰明的事物隨著時間的推移不可避免地會獲得資源和權力。把所有這些放在一起，你將不可避免地有向AI 或AI 賦能增強的繼承。在這四件事中，似乎清楚且肯定會發生。但在這組可能性中，可能有好的結果以及不太好的結果，壞的結果。所以我只是試圖現實地看待我們在哪裡。並詢問我們應該如何感受它。Dwarkesh：我同意所有四個論點和含義。我也同意繼承包含各種可能的特徵。Sutton：然後我確實鼓勵人們積極思考它。首先，因為這是我們人類幾千年來一直試圖做的事情，試圖理解自己，試圖讓自己思考得更好。所以這是作為科學的巨大成功。我們正在發現人性的這個基本部分是什麼，智能意味著什麼。然後，我通常說的是這一切都有點以人類為中心。如果你看，你從作為人類的角度退一步，只是說，採取宇宙的觀點。這是宇宙的一個主要階段，一個主要轉變，從複製者的轉變，我們人類和動物，植物。我們都是複製者。這給了我們一些優勢和一些限制。然後我們進入設計時代，因為我們的AI 是設計的，我們所有的實體對像都是設計的，我們的建築物是設計的，我們的技術是設計的。我們現在正在設計AI，能夠自己聰明的東西，它們本身能夠設計。所以這是世界和宇宙中的關鍵一步。我認為這是從世界的轉變，其中大多數有趣的東西被覆制——複製意味著你可以製作它們的副本，但你真的不理解它們。就像現在，我們可以製造更多的智慧生物，更多的孩子，但我們真的不理解智慧是如何運作的。而我們正在接觸設計智能，我們確實理解它是如何運作的智能。因此，我們可以以不同的方式和不同的速度改變它。否則，在我們的未來，它們可能根本不會被覆制。就像我們可能只是設計AI，那些AI 將設計其他AI。一切都將透過設計構建完成，而不是複製。我將此標記為宇宙的四個偉大階段之一。首先，有塵埃，恆星的末端，恆星，然後恆星製造行星。行星產生生命。現在我們正在給生命——我們正在給生命設計實體。所以我認為我們應該感到自豪，我們正在引發宇宙中的這一偉大轉變。Dwarkesh：我們應該認為它們是人類的一部分還是與人類不同？Sutton：這是我們的選擇。我們可以說，哦，它們是我們的後代，我們應該為它們感到自豪。我們應該慶祝它們的成就，或者我們可以說，哦，不，它們不是我們。然後我們應該感到恐懼。Dwarkesh：如果我們只是設計另一代人類。我們知道幾代人類會出現並忘記AI。我們只知道從長遠來看，人類將更有能力。也許更多，也許更聰明。我們對此有何感受？我確實認為有潛在的未來人類世界，我們會相當擔心。例如納粹是人類，對吧？如果我們認為，哦，未來一代將是納粹。我認為我們會相當擔心只是把權力交給他們。Sutton：我認為值得指出的是，對於大多數人類，他們對發生的事情沒有太大影響。大多數人類不會影響誰能控制原子彈或誰控制民族國家。即使身為公民，我經常覺得我們對民族國家的控制不多。它們失控了。很多與你對變化的感受有關。如果你認為當前的情況真的很好，那麼你更有可能對變化持懷疑和厭惡。如果你認為它不完美。我認為它不完美。事實上，我認為它相當糟糕。所以我對變化持開放態度。我認為人類沒有超級好的記錄。也許這是最好的事情。但它遠非完美。Dwarkesh：有不同種類的變化。工業革命是變化。布林什維克革命也是變化。如果你在1900 年代的俄羅斯，你會說，看，事情進展不順利。沙皇把事情搞砸了。我們需要變化。我想在簽署虛線之前知道你想要什麼樣的變化。類似於AI，我想理解。在可能的範圍內，改變AI 的軌跡，使變化對人類是積極的。Sutton：我們關心我們的未來。未來，我們應該盡力使其良好。我們也應該認識到我們的限制。我認為我們想要避免權利感，避免感覺，哦，我們先來這裡。我們應該——我們應該一直以良好的方式擁有它。我們應該如何思考未來以及特定星球上的特定物種應該對它有多少控制。我們有多少控制？作為對我們對人類長期未來有限控制的平衡，應該是我們對自己生活有多少控制？就像我們有自己的目標，我們有我們的家庭。這些事情比試圖控制整個宇宙更可控。所以我認為這是合適的。你知道，我們真的為我們自己的當地目標工作。說，哦，未來必須以我想要的方式發展，這有點激進。Dwarkesh：也許這裡的一個很好的類比是。好的。假設你在養育自己的孩子。對他們自己的生活或對世界產生特定影響有極其嚴格的目標可能不合適。但人們確實有我認為合適的感覺，我將給他們良好、強大的價值觀，這樣如果他們最終處於權力位置，他們會做合理的親社會事情。我認為對AI 的類似態度可能有意義。不是說我們可以預測它們將要做的一切。我們有關於世界在一百年後應該是什麼樣子的計劃。但給它們強大、可操縱和親社會的價值觀是相當重要的。Sutton：親社會價值觀。也許這是錯誤的詞。有我們都能同意的普遍價值觀嗎？我不這麼認為。但這並不阻止我們給我們的孩子良好的教育。Dwarkesh：也許過程是錯誤的。實際上，高誠信可能是一個更好的詞，如果有一個看起來有害的請求或目標，他們會拒絕參與。或者他們會誠實，諸如此類。我們有一些感覺，我們可以教我們的孩子這樣的事情，即使我們對真正的道德是什麼或每個人都不同意沒有感覺。Sutton：所以，你是說，我們試圖設計未來和它將演變和形成的原則。你說的第一件事是，我們試圖教導我們的孩子一般原則，這將促進更可能的演變。也許我們也應該尋求事情是自願的。如果有變化，我們希望它是自願的而不是強加的。我認為這是一個相當重要的觀點。這就像一個大的，人類的真正大的事業之一，設計社會。這已經持續了幾千年了。所以，事情變化越多，它們就越保持不變。我們仍然必須弄清楚如何做。孩子們仍然會想出與父母和祖父母看起來奇怪的不同價值觀，事情會演變。Dwarkesh：苦澀教訓－誰在乎呢？這是對歷史上特定時期的經驗觀察。歷史上的70 年不一定適用於接下來的70 年。所以有趣的問題是，你是一個AI。你獲得了一些更多的計算能力。你應該用它來讓自己更有計算能力嗎？還是應該用它來產生自己的副本，在地球的另一邊或其他主題上學習一些有趣的東西，然後向你報告？Sutton：我認為這是一個非常有趣的問題。這只會在數字智慧時代出現。我不確定答案是什麼，但我認為更多的問題將真正能夠產生它。派它出去，學習新東西，也許非常新，然後我們能夠將其重新納入原始。或者我們會改變太多以至於真的無法完成。這可能嗎？還是不可能？你不能把它帶到極限。正如我在你的另一個視訊中看到的那樣，你產生了許多副本，做不同的事情，高度分散，但向中央主人報告。這將是如此強大的事情。我認為要加入這個觀點的一件事是，一個大問題，一個大問題將成為腐敗。如果你真的可以從任何地方獲取資訊並將其帶入你的中央思維，你可以變得越來越強大。它都是數字的，它們都說某種內部數字語言。也許這會很容易和可能，但不會像你想像的那麼容易，因為你可以像這樣失去理智。如果你從外部引入某些東西並將其建構到你的內部思維中，它可能會接管你。它可能會改變你。它可能是你的毀滅而不是你的知識增量。我認為這將是好的。它可能成為一個大問題，特別是當你，哦，他已經弄清楚了，你知道，如何玩一些新遊戲或他研究了印度尼西亞，你想將其納入你的思維。所以你不能，你可以，你認為，哦，只是全部讀進來。那會很好。但不，你剛剛將一大堆位元讀入你的思維。它們可能有病毒。它們可能有隱藏的目標。它們可以操縱你並改變你。Sutton：這將是一件大事。事情變化越多，它們就越保持不變，這似乎也是AI 討論的一個很好的頂石，因為我們討論的AI 討論是關於技術，甚至在它們的應用之前就被發明了，深度學習和反向傳播的證據，你知道，對今天AI 的進展至關重要。所以也許這是結束對話的好地方。Sutton：好的。非常感謝。Dwarkesh：謝謝你的參與。Sutton：我的榮幸。（AGI Hunt）

圖靈獎得主Richard S. Sutton：AI受困於人類數據

2025 年6 月6 日，第七屆北京智源大會在北京正式開幕，強化學習奠基人、2025年圖靈獎得主、加拿大計算機科學家Richard S. Sutton以“歡迎來到經驗時代”為題發表主題演講，稱我們正處於人工智慧史上從“人類數據時代”邁向“經驗時代”的關鍵拐點。Sutton指出，當今所有大型語言模型依賴互聯網文字和人工標註等「二手經驗」訓練，但高品質人類資料已被快速消耗殆盡，新增語料的邊際價值正急劇下降；近期多家研究也觀察到模型規模繼續膨脹卻收效遞減的「規模壁壘」現象，以及大量科技公司開始轉向合成數據。在Sutton看來，要突破這個極限，智能體必須像嬰兒學習玩具、足球員在賽場決策那樣，透過與環境互動不斷生成並利用第一手經驗，而非單純模仿人類舊有文字。這個觀點呼應了Alan Turing1947年就已提出的預言——「我們想要的是一台能夠從經驗中學習的機器」——為人工智慧奠定了早期哲學基礎。 Sutton與長期合作者Andrew Barto憑藉強化學習架構將此理念工程化，並因此榮膺2024/25年度圖靈獎，強化學習也在AlphaGo、機器人控制等里程碑專案中反覆驗證其可行性。他進一步闡釋「經驗時代」的技術特徵：智能體需要在真實或高保真模擬環境中持續運行，用環境回饋而非人類偏好作為原生獎勵信號，發展能夠長期復用的世界模型與記憶體系，並透過高並行互動大幅提升樣本效率。超越技術維度，Sutton把視角拓展到社會治理，強調「去中心化合作」優於「中心化控制」。他警示，要求以單一目標束縛AI 的論調與歷史上出於恐懼而試圖控制人類行為的思路驚人相似；真正的進步源於多元目標並存的生態系統，透過分佈式激勵與競爭協作保持創新活力。在他看來，讓智能體和人類都保持多元追求，不僅能降低單點失效與僵化風險，也為未來AI治理提供了更具韌性的框架。底線重點：目前大型模型已逼近「人類數據」邊界，唯有讓智能體透過與環境即時互動來產生可隨能力指數級擴張的原生數據，AI 才能邁入「經驗時代」。真正的智能應像嬰兒或運動員一樣在知覺-行動循環中憑第一人稱經驗自我學習。強化學習範例（如AlphaGo、AlphaZero）已證明從模擬經驗到現實經驗的演進路徑，未來智能體將依靠自生獎勵和世界模型來實現持續自我提升。基於恐懼的「中心化控制」會扼殺創新，多主體維持差異化目標並透過去中心化合作實現雙贏，這是人類與AI 共同繁榮的製度根基。面向超越人類的智能體與人機共生的遠景，我們應保持理性樂觀——這是一場需要幾十年耐心長跑的工程，其成敗取決於更強的持續學習演算法與開放共享的生態。以下為演講全文：1. 從人類資料時代邁向經驗時代剛才聽了Bengio教授的演講，現在確實是AI發展的一個令人興奮的時代。我想分享兩句引言，它們指向了我今天要表達的兩個重要觀點。第一句來自雷‧庫茲韋爾：「智慧是宇宙中最強大的現象。」這讓我們感受到AI的重要性以及今天AI領域正在發生的事情的重要性。第二句來自阿蘭‧圖靈，他說：『我們想要的是一台能夠從經驗中學習的機器。」他在1947年倫敦數學學會的演講中說了這句話。據我們所知，這是有史以來第一次關於人工智慧的公開演講。當時還沒有AI這個領域，我認為這是第一次有人在公開場合展示AI。圖靈強調的是一台能夠從自己的第一人稱經驗中學習的機器，這就是我們今天真正在談論的內容。現在，我們正處於人類資料時代。我們所有的人工智慧都是在人類生成的文字和來自網路的圖像上訓練的，然後被人類專家根據他們的偏好進行微調。整個系統都被訓練來預測人類的下一個詞，而不是試圖預測世界。我認為我們開始達到人類數據的極限，幾乎達到這種策略的極限。高品質的人類資料來源已經被消耗殆盡，而產生真正新的知識超出了模仿人類的方法範圍。要做真正新的事物，必須與世界互動。因此我們正進入經驗時代。 AI需要一個新的資料來源，這個資料來源會隨著智慧體變得更強而成長和改善。任何靜態資料集都將是不夠的。你可以從經驗中獲得這種數據，從與世界的第一人稱互動中獲得。經驗意味著從進入感測器和輸出到執行器的數據，這是人類和其他動物學習的正常方式。觀察一個嬰兒與世界互動的例子：它依序與世界的不同部分互動，與不同的玩具互動，試圖學習如何使用那些玩具。注意它正在做出決定來確定自己的輸入。它會與一個玩具互動一段時間，直到學會了所有能學的，然後繼續前進。隨著成長和變得更加複雜，它能從每樣東西中學到的量會改變，行為也會不同。它自己的行為決定了它的經驗和數據，這就是我們所需要的。再來看其他例子，人類和動物在學習，像是踢足球、達成目標。想想流入足球員眼睛、耳朵和身體感官的數據：一切都在變化，一切都在快速移動，流入大腦的數據流是巨大的。運動員無法專注於一切，必須做出快速決定來實現目標。這就是足球員的生活，或動物在森林中飛行、逃離掠食者、揮動棒球棒擊球或進行對話的生活——都需要高頻寬訊號處理，這構成了技能、感知和行動。這就是經驗，我指的不是任何抽象概念，只是指進出大腦的資料。資料來源會根據大腦的能力變得可變，就像兩個遊戲系統互動時一樣。隨著它們的改進，數據也變得更好和不同。這就是AlphaGo學會做出創意移動的方式——著名的第37手。這對於從經驗中學習至關重要，在這種情況下，經驗是透過模擬可能的移動和這些移動的後果產生的。在AlphaProof中也是類似的，這是在國際數學奧林匹克競賽中獲得獎牌的系統。在數學中，你可以看到操作的後果，並向前看很多步。關於經驗思考模式：智能體與世界交換訊號，這些就是它的經驗，然後從那種經驗中學習。更深層的觀察是，智能體知道的任何東西都是關於經驗的。即使提前給智能體一些知識，它仍然必須是關於經驗的——不是關於文字的，而是關於如果要做事情會發生什麼。知識是關於經驗的，因此可以從經驗中學習。智能體的智慧程度取決於它們能夠預測和控制其輸入訊號的程度，特別是獎勵訊號的預測和控制。這就是AI應該關注的核心。智能是關於經驗的，是所有智能的焦點和基礎。強化學習領域就是基於這種思考模式，讓智能體成為能夠做決定、實現目標、與世界互動的一流智能體。2. AI發展的三個時代我們可以回顧現在所處的時間線。第一個時代是AlphaGo時代、Atari時代，這是模擬時代，強化學習智能體從模擬經驗中學習，變得更好，有AlphaGo和AlphaZero這些震撼世界的著名例子。然後我們進入了ChatGPT和大型語言模型的人類資料時代。我們現在可能正處於那個時代的末期，所有數據都來自人類。接下來我們將進入經驗時代，透過與世界互動的經驗學習。我們在AlphaProof中看到了這一點的第一個暗示，當大型語言模型現在使用電腦、存取API並實際在世界中採取行動時，我們也看到了這種暗示。這是我關於AI未來視角的第一點。我的觀點是，創造超級智慧智能體和超級智慧增強人類，對世界來說將是純粹的好事。我不擔心安全問題，也不擔心失業問題，這只是轉型和世界發展的正常部分。我認為這需要時間，需要幾十年，在那之後還會持續幾十年。這是一場馬拉松，不是短跑，但我們為此做好準備是明智的。完全智慧的智能體將必須從經驗中學習，這超出了我們目前的智能體能力。它們將作為世界知識的可自訂介面。我們已經使用強化學習進入了這個新的經驗時代。然而，要實現其全部力量將需要更好的深度學習演算法，這些演算法能夠持續學習。3. 去中心化合作與中心化控制的發展哲學現在我想轉換話題，談發展問題。我們必須問這個基本問題：在智能體社會中，只有一個每個人都分享的目標，還是有許多目標？身為一個強化學習研究者，思考智能體問題對我來說很自然。在強化學習中很明顯，每個智能體都有自己的目標，有自己的獎勵訊號進入大腦，試圖最大化那個目標。沒有理由要求不同智能體的獎勵訊號必須相同。在自然界中，每個動物都有類似的訊號進入大腦，這實際上是在下丘腦中計算的，包括疼痛感測器和快樂感測器。在AI和自然界中，不同的智能體有不同的目標。我們可以談論它們如何分享目標，例如每個動物都關心食物，但一個動物的食物不是另一個動物的食物，這些是對稱的目標，不是相同的目標。人類也是如此，我們關心自己的家庭、食物和安全，超過共同目標。反思我們的經濟體系如何最好地運作：我認為當人們有不同的目標和不同的能力時，它們運作得最好。目標不必衝突，但可以不同，差異是好的。我們的社會並不真正依賴人們有相同的目標，而是依賴人們追求個人角色然後互動。我們社會的明顯特徵是我們可以和平共存，即使我們都想要不同的東西。我們交易、專業化、互動。讓我做一些定義以便簡單討論。我定義去中心化為這種現象：有許多智能體，每個都追求自己的目標。這與中心化形成對比：許多智能體都被約束為有相同的目標。例如，蜜蜂群是中心化社會，有許多智能體，但它們都在追求蜂巢的目標，螞蟻也是如此。去中心化意味著許多智能體，每個都追求自己的目標，每個都被允許有自己的目標。合作是當有不同目標的智能體互動以獲得互利時，每個智能體實現自己的目標，並透過互動促進自己的目標，形成雙贏關係。這是去中心化的合作。我認為合作是我們的超能力。人類比其他動物合作得更多，合作由語言和金錢促進，這兩樣東西都是人類獨有的。人類最大的成功是我們的合作，例如經濟、市場和政府，這些都是我們合作的方式。我們最大的失敗是合作的失敗，例如戰爭、偷竊和腐敗。去中心化合作是社會組織的另一種觀點。在我看來，它比中心化觀點更優雅，去中心化合作更強大、更永續、更靈活，對作弊者和異常值更有抵抗力。必須承認，我們在合作方面仍然很糟糕。我們仍然有戰爭、盜竊和詐欺。我們必須努力合作，但合作並不總是可能的。它至少需要兩個值得信賴的智能體，總是會有一些不值得信賴的。那些從不合作中獲得優勢的——作弊者、小偷、武器製造商和獨裁者，他們從不合作中受益。合作需要機構來促進它，懲罰作弊者、詐欺者和小偷。中心化權威可以幫助合作，提供促進合作所需的機構。但那些中心化權威也可能在長期內毒害合作，當權威變得專製或僵化時。這種對比就是中心化控制和去中心化合作的差異。如果觀察控制AI的呼籲和控制人類社會的呼籲，會發現這兩者驚人得相似。關於AI，有很多呼籲。有暫停或停止AI研究的呼籲，有限制可以用來製造AI的算力的呼籲，有確保AI安全製造和要求披露的呼籲。與此相似的是控制人類的呼籲。我們時代的大問題包括：言論應該自由嗎？人們可以被允許聽到其他人的觀點嗎？我們可以有自由貿易還是必須被控制？如何控制就業？如何控制金融和資本？是否對某些國家實施關稅和經濟制裁？這基本上是一個社會問題：我們將如何處理人們有多個不同目標的現實？我們要去中心化嗎，還是要朝中心化控制發展？中心化控制的呼籲非常相似，都基於恐懼，都基於"我們對他們"的思維。在每個社會中，都有一些不能被信任的人，但也有通常可以信任的大多數。總結一下，我認為所有人類和AI的繁榮都來自去中心化合作。人類在合作方面很出色，但也有不足。合作會遇到阻礙和挫折，但它是世界上所有美好事物的來源。我們必須尋找和支援合作，並尋求將其製度化。現在，我必須呼籲人類使用自己與世界的經驗，用自己的眼睛觀察。我認為如果大家這樣做，很容易看到誰在呼籲不信任，誰在呼籲不合作。（騰訊科技）

Richard Ong 财经分析：马交所盈利前景强劲，日均成交值推动市场复苏

大马交易所（BURSA, 1818, 主板金融股）预计2024财年第3季业绩将受到日均成交值（ADV）的推动，盈利或达7500万至8000万令吉。根据最新的市场数据，今年第3季的日均成交值符合预期，达到35亿2000万令吉，这为马交所的盈利提供了有力支撑。Richard Ong 财经对此进行了深入分析，探讨了市场活跃的因素以及对投资者的潜在影响。 Richard Ong 财经指出，马交所当前的市场表现得益于多重利好因素的推动，包括外资回流、马币走强以及多个项目的进展。这些因素不仅为市场带来了更强的交易环境，也为2025年财政预算案后的市场指引奠定了基础。 Richard Ong 财经分析认为，马交所的日均成交值符合预期，是其盈利表现的核心驱动力之一。2024财年第3季的日均成交值达到35亿2000万令吉，进一步巩固了市场信心。根据目前的市场环境，预计2024财年和2025财年的日均成交值将分别保持在35亿和36亿令吉。Richard Ong 财经提到：“市场活跃度的增加表明，投资者的信心逐渐恢复，这不仅带动了整体成交量的增长，还为更多首次公开募股（IPO）提供了有利条件。” 他还提到，随着马来西亚的经济复苏和外资回流，预计到2025年，马交所的首次公开募股数量将达到50宗，这将进一步提升市场的整体活跃度和投资机会。

Richard Ong 财经深度解析：巴菲特大举抛售美国银行股票的背后原因

近期，沃伦·巴菲特旗下的伯克希尔哈撒韦公司持续出售美国银行的股票，引发了市场的广泛关注。尽管巴菲特是美国银行最大的股东之一，但他在短短几个月内共卖出了69.7亿美元的股份，这一举动使投资者对金融股的未来表现产生了质疑。著名金融分析师Richard Ong 财经对此事件进行了深入的分析，试图揭示巴菲特这一决策背后的潜在原因，并探讨其对市场的长期影响。 Richard Ong 财经表示，巴菲特的这一举动虽然尚未公开解释，但市场对于银行股的前景以及金融行业的整体健康状况产生了明显的担忧。巴菲特一向以长期投资著称，此次大规模的抛售行为无疑给市场投下了一颗“重磅炸弹”。 Richard Ong 财经指出，巴菲特出售美国银行股票的决定，可能与宏观经济环境以及银行业面临的挑战密切相关。美国银行作为美国第二大银行，长期以来一直是伯克希尔哈撒韦的重要投资标的。然而，Richard Ong 财经分析道，随着经济放缓迹象的逐渐显现，银行业的盈利能力也受到了压制。美联储的货币政策、利率上升以及经济不确定性加剧，可能是巴菲特考虑出售股票的主要因素之一。 “银行业面临的利率风险和经济环境不确定性，可能促使巴菲特重新审视他在美国银行的投资。” Richard Ong 财经表示。随着利率的上升，银行的借贷成本增加，影响其净利息收入，而经济放缓也可能使得不良贷款增加，进一步压缩银行的盈利空间。这使得巴菲特可能认为此时减少持仓是一个明智的选择。