在這場最新的面對面訪談中,AI領域的大神級人物Andrej Karpathy與NoPriors投資播客展開了一場關於人工智慧現狀和未來發展,及其對教育和認知影響的深度探討。Karpathy憑藉其在OpenAI、特斯拉等頂尖科技公司的豐富經驗,輸出了獨特而深刻的見解。
訪談涵蓋了廣泛的主題,從自動駕駛技術的現狀和未來,到AI研究的最新進展;從大語言模型的發展潛力,到AI在教育領域的革命性應用;從人機融合的可能性,到AI對人類認知和學習方式的深遠影響。
Karpathy強調了AI不應該是取代人類,而是應該成為賦能人類的工具。他深入探討了AI研究的技術細節,包括Transformer架構的重要性、合成資料的潛力與挑戰、小型高效模型的發展前景等。在教育方面,Karpathy正在開發一個創新的AI驅動的教育平台,旨在為全球每個人提供高品質、個性化的教育體驗。他對AI在改變學習動機、打破傳統教育壁壘方面的潛力表示樂觀。
自從OpenAI離職全心搞AI教育後,這是Andrej第一次出來專訪,對於關心Andrej的同學們來說,這個訪談已經等太久了。
本次訪談的重點內容:
自動駕駛技術的現狀與未來:
Karpathy認為特斯拉在解決軟體問題方面處於領先地位,而Waymo則面臨硬體挑戰。他預測特斯拉將在長期內佔據優勢,因為軟體問題相對更容易解決。自動駕駛技術從演示到實際產品化經歷了漫長的十年,但仍未實現真正的全球化。Karpathy認為自動駕駛領域的進展可以類比於AGI(通用人工智慧)的發展。
Transformer架構被視為重大突破,它解決了之前神經網路架構的許多限制。當前研究重點已轉向資料集和損失函數的創新,而不是架構本身。合成資料在AI訓練中被視為未來趨勢,但需要小心處理以避免模型退化。Karpathy預測,未來的AI模型可能會更小、更高效,甚至可能只需10億參數就能實現強大的認知功能。
合成資料被視為解決AI訓練資料不足問題的重要方法。然而Karpathy警告說,使用合成資料時需要謹慎,以避免模型的隱性退化。他提出了在合成資料中注入熵的重要性,以保持資料的多樣性和豐富性。
Karpathy預測,未來可能會出現參數量大大減少但功能強大的AI模型。他認為,當前的大型模型可能浪費了大量容量來記憶不重要的資訊。未來的AI系統可能更像是一個由多個專門化小模型組成的"生態系統",而不是單一的大模型。
Karpathy正在開發一個以AI為基礎的全球化教育平台,旨在為每個人提供高品質的個性化教育。他認為AI可以實現教育的真正個性化,適應不同學習者的背景和需求。AI教育助手可以扮演類似於個人導師的角色,大幅提高學習效率。Karpathy認為教育不應該僅僅是娛樂,而應該是一種挑戰性的、塑造思維的過程。
談話探討了AI如何改變學習動機,以及在後AGI時代,教育可能更多地成為一種娛樂和自我提升的方式。Karpathy強調了文化環境對學習動機和職業選擇的重要影響。他希望AI教育能夠打破傳統的精英主義和血統觀念,使高品質教育更加民主化。
Karpathy強調,數學、物理和電腦科學仍將是塑造思維能力的核心學科,對於未來世界至關重要。他建議年輕人應該專注於培養解決問題的能力和邏輯思維,而不是僅僅積累知識。Karpathy預見未來的教育將更加靈活,人們會更頻繁地回到"學校"學習新技能。
-=Web3天空之城書面全文版(1.6萬字)=-
NoPriors:
今天我們和 Andrej Karpathy 一起聊天,他不需要再多介紹。Andrej 是著名的研究員,備受喜愛的人工智慧教育家,是 OpenAI 的早期團隊成員,曾擔任特斯拉 Autopilot 的負責人,現在致力於教育領域的人工智慧。我們將與他討論研究現狀,他的新公司,以及我們對人工智慧的期望。
非常感謝你今天加入我們,很高興你能來。
Andrej:
謝謝,我很高興來到這裡。
NoPriors:
你曾領導特斯拉的 Autopilot,現在我們確實有了完全自動駕駛的汽車,道路上的乘用車。你如何看待當前的能力集,我們應該多快看到能力的提升或普及的乘用車?
Andrej:
是的,我在自動駕駛領域可能花了大約五年的時間。我認為這是一個迷人的領域。目前在這個領域發生的事情是,我確實認為我會從自動駕駛中找到很多類比,我會說,類似於 AGI,而這可能是因為我熟悉這個領域。但我有點覺得我們在自動駕駛方面已經有一點達到了 AGI,因為現在有一些系統,你可以基本上帶著它們四處轉轉,並作為付費客戶使用。在舊金山,Waymo 當然非常常見。你可能也坐過 Waymo。我坐過很多次,非常驚人,它可以帶你四處轉轉,而你是以產品的形式付費的。
有趣的是,我第一次坐 Waymo 實際上是十年前,幾乎正好是2014年左右。是一位在那兒工作的朋友給我做了一個演示。十年前它帶我繞著街區開了一圈,基本上是一次完美的駕駛。花了十年從我看到的演示變成一個我可以付費使用的產品,而且是在城市規模內擴展,等等。
NoPriors:
你認為其中有多少是由於監管因素,而多大程度是技術因素?你認為技術什麼時候準備好?是最近嗎?
Andrej:
我認為是技術。你不可能在30分鐘的一次演示駕駛中看到全部情況。你不會遇到他們十年來必須應對的所有問題。所以演示和產品之間存在巨大的差距。我認為其中很多與法規等方面有關。但我確實認為,我們在這種意義上在自動駕駛領域達到了 AGI 的一點點成就。儘管如此,我認為真正令人著迷的是全球化根本沒有發生。所以你有一個演示,你可以在南方使用它,但世界還沒有改變。這需要很長時間。所以從演示到實際全球化,我認為那裡還有個巨大差距。我會說,這與 AGI 相關,因為我懷疑當我們得到 AGI 時,它看起來會很相似。在自動駕駛領域,人們普遍認為Waymo領先於Tesla。但我個人認為,Tesla實際上領先於Waymo。儘管這看起來並非如此,但我對特斯拉及其自動駕駛計畫非常看好。
我認為特斯拉麵臨的是軟體問題,而Waymo面臨的是硬體問題。在我看來,軟體問題要容易解決得多。特斯拉已經在全球部署了大量汽車,規模宏大,而我認為Waymo需要達到這一點。因此,一旦特斯拉能夠真正部署並且正常工作,我認為這將是非常令人難以置信的。
我昨天剛試駕了最新版本的特斯拉自動駕駛系統,現在它已經可以把我帶到任何地方了。我不得不說,他們最近有了非常好的改進。是的,我最近一直在使用它,它實際上運行得相當好。昨天它為我完成了一次神奇的駕駛,所以我對團隊的工作印象深刻。
所以我仍然認為特斯拉主要面臨的是軟體問題,而Waymo主要面臨的是硬體問題。雖然目前看起來Waymo有些領先,但我認為當我們在10年後回顧時,誰真正實現了規模化,誰的收入來源最多,從這個角度來看,我仍然認為特斯拉領先。
NoPriors:
你認為我們離解決軟體問題的轉折點有多遠,何時才能達到某種程度的相等性?
顯然,如果你看Waymo的車,它有很多非常昂貴的LiDAR和其他感測器,這些感測器支援了其軟體系統。而特斯拉的方法是只用攝影機,這樣可以有效地去除大量的成本和複雜性,並且可以應用於多種不同類型的車。你認為這種轉變什麼時候會發生?
Andrej:
希望在未來幾年左右。
但實際上,真正有趣的是,我不確定人們是否意識到特斯拉其實也使用了很多昂貴的感測器。他們只是在訓練時使用這些感測器。所以有一堆裝有LiDAR的車子在行駛。他們做了許多無法擴展的事情,還有額外的感測器等等。他們進行地圖繪製和所有這些工作。在訓練階段完成這些工作,然後將其濃縮成一個部署到車上的僅基於視覺的測試包。這就像是在感測器和成本上的套利。
我認為這實際上是一種很聰明的策略,但還沒有被充分理解。我認為這會有很好的效果,因為像素已經包含了資訊。我認為網路會有能力做到這一點。在訓練階段,這些感測器確實有用,但在測試階段它們並不那麼有用。
NoPriors:
似乎另一個正在發生的轉變是從許多邊界情況設計啟髮式方法向端到端深度學習的轉變。這就是最近發生的另一個轉變。你要談談這個問題,並且介紹一下這個嗎?
Andrej:
是的,我認為這一直是特斯拉從一開始就計畫好的。我在談論神經網路如何能夠逐步取代整個棧。因為當我加入時,有大量的C++程式碼。而現在,在車上運行的測試包中,C++程式碼已經少了很多。我們沒有談論後端的那些大量內容,神經網路有點像穿過系統。
首先,它只是在圖像層面做檢測。然後它處理多張圖像,給你一個預測。隨著時間的推移,多個圖像給你一個預測。你正在丟棄C++程式碼,最終只是發出轉向命令。所以我認為特斯拉是在逐步取代整個棧。
我的理解是現在的Waymo實際上不是這樣,他們嘗試過,但最終沒有實現,這是我目前的理解。但我不確定,因為他們沒有談論這個問題。但我從根本上相信這種方法。如果你這樣考慮的話,我認為這是最後一塊拼圖。
我確實懷疑,像特斯拉這樣的端到端系統在大約10年內,就是一個神經網路。意思是,視訊流進入一個神經網路,然後輸出指令。你必須逐步建立起來,一步步來。即使所有的中間預測和我們所做的所有事情,我認為它們實際上並沒有誤導開發。我認為它們是其中的一部分,因為這有很多微妙的原因。
實際上,像端到端駕駛,當你只是模仿人類等行為時,你用很少的監督資訊來訓練一個龐大的神經網路。訓練這麼多億個參數訊號太少了。所以這些中間表示等有助於你開發所有特徵和檢測器,然後讓端到端的部分問題變得容易得多。
所以我懷疑,雖然我不確定,因為我不是團隊的一員,但有大量的預訓練正在進行,以便你可以進行端到端的微調。所以基本上,我覺得有必要逐步地推進。這就是特斯拉所做的。我認為這是正確的方法。看起來它正在發揮作用。所以我真的很期待。
NoPriors:
如果你從頭到尾開始做,你無論如何都不會有資料。這說得通。
你離開之前在特斯拉的人形機器人項目上做過工作。我有很多問題,其中一個是從這裡開始。有什麼可以轉移的?
Andrej:
基本上,所有東西都可以轉移。而且我認為人們並沒有意識到這一點。
NoPriors:
好的。這是一個很大的聲明。這看起來是一個完全不同的問題。
Andrej:
我認為汽車在實際觀察時基本上就是機器人。汽車是機器人。
我認為特斯拉不是一家汽車公司,這種看法是誤導性的。特斯拉是一家規模化的機器人公司。規模化也是一個完全獨立的變數。他們不是在製造單一的產品,而是在製造製造產品的機器,這是一個完全不同的事情。所以我認為特斯拉是一家規模化的機器人公司。
從汽車到人形機器人之間的轉變實際上並不費勁。早期版本的Optimus機器人,它以為自己是輛車,因為它有完全相同的電腦和攝影機。這真的很有趣,因為我們在機器人上運行汽車網路,而它在辦公室走來走去。它試圖識別可駕駛空間,但現在我想都是可行走的空間了。實際上,它有點泛化了,需要進行一些微調。它認為自己是在駕駛,但實際上是在穿越一個環境。
NoPriors:
一種合理的方式來看待這件事,實際上,它是一個機器人,很多東西可以轉移,但比如說你缺少執行和行動資料。
Andrej:
是的,你肯定會缺少一些元件。但我還想說的是,很多東西是可以轉移的,比如說Optimus的啟動速度,對我來說非常令人印象深刻。因為Elon一說我們要做這個,大家就帶著所有合適的工具出現了。所有東西很快就出現了,所有這些CAD模型和供應鏈的東西。我感覺,哇,Tesla內部有這麼多建構機器人方面的專業知識。而且用的工具都是一樣的。就好像在重新組態,從一輛汽車變成《Transformer》電影裡的那種。它們只是被重新組態和重新洗牌,但就像是同樣的東西。你需要所有相同的元件,你需要考慮所有相同種類的東西,無論是在硬體方面、規模方面,還是在智能方面。
關於智能,有很多的轉移,不僅是特定網路的轉移,還有整個方法、標籤團隊以及所有協調和人們採用的方法。我只是覺得有很多的轉移。
NoPriors:
但你認為人形機器人或人形裝置的第一個應用領域會是什麼?
Andrej:
我認為很多人有這樣的願景,比如說做洗衣服等等。我認為那會來得很晚。我不認為B2C是一個正確的起點,因為我不認為我們可以讓機器人像是撞傷奶奶,這就是我的看法,有點像是這樣的。我覺得這會涉及太多的法律責任。我認為這不是正確的方法。但比如說一個非常詭異的擁抱。它只會倒下之類的事情,你知道的,這些東西還不完美,需要一些工作才能改進。我認為最好的客戶首先是你自己。特斯拉可能會採取這種方式。如果人們能看得出來,我對特斯拉非常看好。
第一個客戶是你自己,你在工廠裡孵化它,可能進行大量的物料處理等工作。這樣,你不必與第三方合作簽訂合同,避免了涉及律師等繁瑣的事情。你孵化它,然後第二步是B2B。你去那些有巨大倉庫的公司,我們可以進行物料處理,起草合同,安裝圍欄,完成所有這些事情。
當你在多家公司孵化後,我認為那時候你才開始進入B2C應用。我確實認為我們還會看到B2C機器人,比如Unitree等公司開始推出我非常想要的機器人。有一個G1機器人,我可能會買一個,而且可能會有一個人在那些平台上建立起來的生態系統。
在規模上的優勢可能會使這種方法獲勝。但一開始,這涉及很多的物料處理,然後逐漸向越來越多的具體應用發展。我真正感興趣的是Friedman關於樹葉吹機的挑戰。我會很喜歡看到一個樂觀主義者走在街上,小心翼翼地撿起每一片樹葉,這樣我們就不需要樹葉吹機了。我認為這是可行的,並且是一個驚人的任務。所以我希望這是其中一個最早的應用。或者就算是耙葉也可以,那也應該行得通,只是非常安靜地耙葉。
NoPriors:
他們確實有一個正在工作的機器,只是不是類人機器人。我們可以談一談類人機器人這個論點嗎?最簡單的解釋是這個世界是為人類而建的,你只需要建造一套硬體,正確的做法是建立一個可以在這套硬體上完成越來越多工的模型。
還有另一種觀點認為人類在任何特定任務上都不是最優的。你可以讓他們更強大、更大、更小,或者其他任何方式,那為什麼我們不做超級人類的事情呢?
Andrej:
對此,我認為人們可能低估了進入任何單一平台的固定成本的複雜性。你為任何單一平台支付了大量的固定成本,因此,集中化並擁有一個可以完成所有任務的平台是非常有意義的。類人外形也非常吸引人,因為人們可以非常容易地進行遠端操作。因此,這是一種非常有用的資料收集方式,因為人們顯然能夠很容易地進行遠端操作。我認為這一點通常被忽視。當然,還有你提到的為人類設計的世界等方面,所以我覺得這也很重要。
我認為我們將在類人平台上有一些變種,但任何平台都有很大的固定成本。最後一個方面是,你可以從不同任務之間的遷移學習中受益良多。在人工智慧中,你希望有一個單一的神經網路,它是多工的,能夠處理很多事情。這就是你獲得所有智能和能力的地方。這也是為什麼語言模型如此有趣的原因,因為你有一個單一的體系,比如文字領域,在執行所有這些不同的問題時,它們之間共享知識,而且這一切都耦合在一個神經網路中。我認為你需要那樣的平台。你希望為撿葉子收集的所有資料能為所有其他任務帶來收益。如果你為某個單一用途建構一個特殊的東西,你不會從所有其他任務的轉換中受益。
NoPriors:
是的,我認為有一種說法是,G1大約是30Grand,但似乎很難在某個特定的物料清單(BOM)下建構一個非常有能力的類人機器人。如果你想在輪子上裝一個能做事情的手臂,也許在開始時有更便宜的通用平台方法。這對你有意義嗎?
Andrej:
更便宜的通用平台方法?從硬體的角度來看,是的,我認為這有意義。你可以給它裝一個輪子而不是腳,等等。
我確實感覺……我想知道這是否會有點陷入局部最小值。我只是覺得,選擇一個平台並使其完美,是長期來看相當不錯的賭注。另外一件事是,我覺得這會讓人們感到熟悉,我認為人們會理解你可能想與它交流。我覺得這其中的心理層面因素可能會更傾向於人類平台,除非人們害怕它並且更喜歡一個更加抽象的平台。不過我不知道這是否會只是一個類似八輪怪物在做事情,我不知道這會不會讓人覺得更吸引或者更少吸引。
NoPriors:
有趣的是,我認為Unitree的另一種形式是狗,而且這幾乎是一個更友好或更熟悉的形象。
Andrej:
是的,但隨後人們看《黑鏡》,突然這隻狗變得像一個可怕的東西。所以,很難想透。我只是認為從心理學上講,人們會很容易理解正在發生的事情。
NoPriors:
你認為相對於證明這個未來,技術裡缺少了什麼里程碑?
Andrej:特指機器人嗎?
NoPriors:是的,特指機器人。或者是人形機器人或其他任何人類形態的東西?
Andrej:
我不確定我是否對這個問題有十分清晰的看法。我確實認為在人形機器人這種形態中,對於下半身的控制,我不確定是否適合通過示範進行模仿學習。因為下半身涉及很多倒立擺控制等複雜問題。而對於上半身,則需要大量的遠端操作、資料收集和端到端的處理。因此,在這個意義上,一切都變得非常混合化。
我不清楚這些系統是如何互動的。
NoPriors:
當我與這個領域的專家交談時,他們很多關注的是執行機構、操作以及某種數字操作等。
Andrej:
我預計在一開始,大部分項目是通過遠端操作來啟動,模仿它,直到能達到95%的成功率。然後談到人對機器人的比例,逐漸讓人們成為機器人的監督者,而不是直接執行任務。這些變化都會隨著時間的推移逐步發生。
我不知道是否有任何我特別熟悉的具體障礙。我只是覺得這需要很多繁重的工作。很多工具已經可以使用。Transformers 是一個美麗的組織塊,你可以用它做任意的任務。你只需要資料,把它以正確的形式輸入,訓練它,進行實驗,部署它,不斷迭代。這確實是很多繁重的工作。我不知道是否存在某個單獨的技術性問題會阻礙我們的進步。
NoPriors:
我們現在的大塊研究處於什麼狀態?
Andrej:
我們處於非常好的狀態。我認為,也許還沒有完全被認可,但 Transformer 確實非常了不起。它不僅僅是另一個神經網路,而是一個非常通用的神經網路。例如,當人們談論神經網路中的縮放損失時,縮放損失在很大程度上實際上是Transformer的特性。在Transformer之前,人們在玩LSTM和堆疊它們等。你實際上得不到清晰的縮放損失,這個東西實際上無法訓練,也不起作用。是Transformer首次實現了真正的縮放,你得到了縮放損失,一切都變得合理了。
所以它就像是一個通用的訓練電腦。我把它看作是一種電腦,但它就像一個可微的電腦。你可以給它輸入和輸出,以及上億的資料,然後你可以用反向傳播來訓練它,它實際上會自我安排去完成任務。我認為這實際上是我們在演算法領域偶然發現的一個神奇的東西。
其中有一些個別的創新。例如,殘差連接已經存在了。你有需要插入的層標準化。你有注意力模組。你沒有那些像tanh之類的飽和非線性,因為它們會消除梯度訊號,所以在Transformer中沒有這些。所以有幾項創新,大約四或五個,都被整合到這個Transformer中。這就是Google在他們的論文中所做的。這種方法實際上已經被訓練出來了。突然間,你獲得了縮放損失,並且有了一個可以在很大程度上訓練的結構。這是一個重大的突破。
NoPriors:
你覺得我們還沒有達到這種突破的極限,因為當然會有關於資料壁壘以及規模進一步發展的成本問題的討論。你怎麼看這個問題?
Andrej:
我們開始進入的領域是,我不認為神經網路架構再從根本上限制我們了。它已經不是瓶頸了。以前Transformer是一種瓶頸,但現在它已經不再是瓶頸了。現在我們更多地在討論什麼是損失函數,資料集在那裡。這些問題幾乎成為了瓶頸。
這不再是一個基於你想要它變成什麼而重新組態的通用組織。這就是為什麼許多活動已經轉移到了這個領域。很多公司和其他應用這種技術的企業不再怎麼考慮Transformer了。他們不再怎麼考慮架構。
Llama的發佈中,Transformer並沒有太大的變化。我們增加了RoPE相對位置編碼,這是主要的變化。其他一切都無關緊要,像是一些小東西的3%的提升而已。但實際上,RoPE是唯一插入的東西。這就是Transformer在過去五年左右的變化。所以在這方面沒有太多的創新。大家都認為這是理所當然的,讓我們訓練它,等等。然後大家主要在資料集和損失函數的細節上進行創新。所以所有的活動都集中在那裡了。
NoPriors:
在那個領域,以前我們用的是網際網路資料,現在網際網路資料已經用完了。所以問題主要圍繞合成資料或者更昂貴的資料收集。
Andrej:
我覺得這是個好觀點。現在很多活動都在大型語言模型(LLM)方面。網際網路資料不是你想要的用於訓練你的Transformer的資料。它像是一個最近鄰,實際上讓你走得更遠,令人驚訝。但網際網路資料是一堆網際網路網頁,你真正想要的是你大腦裡的內心獨白,你大腦中的軌跡。在你解決問題時,大腦中的路徑,如果我們有十億個這樣的路徑,比如AGI就在這裡,大致來說,這在很大程度上是精準的。而我們根本沒有這種情況。
所以現在很多活動所在的領域,我認為,是通過網際網路資料來實現接近這一點,因為網際網路碰巧有足夠的推理痕跡和大量的知識,加上變換器使其工作的還不錯。我認為現在很多活動集中在將資料集重構為內心獨白格式。大量合成資料的生成對此很有幫助。有趣的是,當前的模型在多大程度上幫助我們建立下一代模型,就像是一種改進的階梯。
NoPriors:
你認為合成資料有多大用處,或者說能帶我們走多遠?因為正如你所說,每個資料、每個模型都有助於更好地訓練後續模型,至少在建立工具、資料標註等方面,也許部分是合成資料。你認為合成資料的部分有多重要?
Andrej:
當我和人們談話時,他們說,是的,我認為這是我們能夠取得進展的唯一途徑,我們必須讓它發揮作用。但在使用合成資料時,你必須小心,因為這些模型會悄無聲息地退化。這是一個主要問題之一。
如果你去ChatGPT並讓它告訴你一個笑話,你會發現它只知道大約三個笑話。這就像是唯一的情況,它大多數時候只給你一個笑話,有時候會給你大約三個笑話。這是因為模型退化了,而且退化得悄無聲息。
當你看任何單一的輸出時,你只看到了一個單一的例子。但當你實際查看分佈時,你會注意到這不是一個非常多樣化的分佈,悄無聲息地退化了。當你進行合成資料生成時,這是一個問題,因為你實際上非常需要那種熵。你需要資料集中有豐富的多樣性和豐富性,否則,你得到的資料集會變得收縮。當你查看任何單個示例時,你看不到它,但分佈已經失去了大量的熵和豐富性,所以它在無聲中變得更糟。
這就是為什麼你必須非常小心,必須確保在資料集中保持熵。為此有很多技術。例如,有人發佈了Persona資料集作為示例。Persona資料集是一個包含十億個個性特徵的資料集,像人的背景:“我是老師”或者“我是藝術家”,“我住在這裡,我做這件事”等等。它就像是虛構的人類背景的小段落。
當你進行合成資料生成時,不只是說,完成這個任務並用這種方式做,而是想像你在向這個人描述,並加入這些資訊,現在你迫使它探索更多空間,並獲得一些熵。所以你必須非常小心地注入熵,保持分佈。我認為這是困難的部分,也許人們一般不會充分意識到這一點。
所以我基本上認為合成資料絕對是未來,我的印象是我們不會缺乏資料。我只是覺得你必須小心。
NoPriors:
你覺得我們現在從這項研究中學到了什麼關於人類認知的東西?
我不知道我們是否在學習……有人可以爭辯說,弄清我們想要的推理軌跡的形狀,例如,有助於實際理解大腦的運作方式。
Andrej:
我會小心對待類比,但總的來說,我確實認為這是完全不同的事物。不過,有些類比還是可以做的。
舉個例子,我認為Transformer在很多方面實際上比人腦更好。它們實際上是一個更高效的系統。它們不如人腦工作的原因主要是資料問題,大體上說,這是我認為的一階近似。
事實上,Transformer記憶序列的能力遠遠超過人類。比如,如果你給它一個序列,並在該序列中進行一次前向和反向傳播傳遞,那麼如果你給它序列的前幾個元素,它會完成序列的其餘部分。它記住了那個序列,而且它對這個非常擅長。如果你給人類一次演示一個序列,人類是絕對記不住的。
因此,我確實認為,基於梯度的最佳化,我們在訓練神經網路時一直進行的前向-反向更新,在某些方面實際上比人腦更高效。這些模型更好,但它們還沒有準備好大放異彩。在許多認知方面,我認為它們可能會突出。只要有了正確的輸入,它們會變得更好。
NoPriors:
這是電腦在各種應用中都具有的算術能力,不是嗎?
Andrej:
我認為人類的大腦有很多限制。工作記憶非常小,而Transformers有更大得多的工作記憶,這將繼續保持下去。它們是更高效的學習者。人腦在各種限制下運作,不明顯的是人腦是否使用反向傳播,也不明顯那將如何工作。它是一個非常隨機的動態系統,在各種限制條件下工作,包括環境條件等等。
所以,我確實認為我們實際擁有的東西潛力上比大腦更好,只不過還沒達到那一步。
NoPriors:
您如何看待隨著時間的推移,人類與不同的AI系統的增強?您認為這是一個可能的發展方向嗎?用AI模型增強人類?
Andrej:
我認為總體來說,絕對是這樣。
NoPriors:
因為,有一種抽象的版本,你將其用作工具,那是外部版本。還有,合併的場景,很多人最終談到這個。
Andrej:
我們已經在某種程度上融合了。問題是,有輸入輸出的瓶頸。但大多數情況下,如果你有這些模型中的任何一個,你已經在使用它們了。
NoPriors:
是的,但那有點不一樣,因為我想人們已經爭論了40到50年,認為科技工具只是人類能力的延伸。電腦是人類思維的自行車,等等。
Andrej:對,正是這樣。
NoPriors:
但是,有一部分AI社區認為,我們可以通過某種形式解決與未來AI或其他事物的潛在衝突。例如,像Neuralink的提議,等等。
Andrej:
沒錯,就是這樣。我還不知道這種合併會是什麼樣子,但我肯定能看出你想要減少工具使用的輸入輸出。我認為這有點像一個外皮層。我們是在我們的新皮層上建構,不是嗎?這只是下一層。它恰好在雲中,等等。但它是大腦的下一層。
NoPriors:
早在2000年代初的《Accelerando》一書中就有一個版本,基本上所有東西都體現在一副計算眼鏡中,這副眼鏡與您的大腦連接,並且您佩戴它們。如果你失去了它們,你就會覺得失去了一部分個性或記憶。
Andrej:
我認為這很有可能。今天,手機幾乎已經是這樣了。我認為情況會變得更糟。當你把你的科技產品放在一邊時,你就像大自然中的裸體人類,或者你失去了部分智慧。這非常令人焦慮。
NoPriors:
一個非常簡單的例子就是地圖。我注意到現在很多人其實不再能很好地導航他們的城市,因為他們總是使用轉彎提示方向。
Andrej:
如果我們有這樣一個東西,比如說通用翻譯器,我認為離這不遠了。如果你把你的東西放在一邊,你就會失去與不講英語的人交流的能力。
NoPriors:
我很樂意重新利用我大腦的那部分來做進一步的研究。
Andrej:
我不知道你是否看過那個視訊,就像有個孩子,他拿著一本雜誌,卻在雜誌上滑動。令我著迷的是,這個孩子不理解什麼是自然存在的,什麼是技術附加在自然之上的,因為它變得如此透明。我認為這看起來可能類似,人們將開始假設這些工具的存在。然後,當你把它們拿走時,你會意識到,人們好像不知道什麼是技術,什麼不是。
如果你戴著這個東西,它總是在為你翻譯所有人或者為你做類似的事情,那麼可能人們就會失去基本的認知能力。我認為存在這種可能性。
我們將會專精化。你不能理解說西班牙語的人嗎?這是什麼情況?或者,當你去到物體面前,就像在迪士尼,所有的物體都是有生命的。我認為我們可能會走向那樣一個世界,為什麼不能和物體說話呢?就像今天,你可以和Alexa說話,向她詢問一些事情等等。
NoPriors:
我見過一些玩具公司,它們試圖在玩具中嵌入一個大語言模型(LLM),以便能夠與孩子互動。
Andrej:
是不是很奇怪,當你走到一扇門前,不能直接說“開門”?另一個我喜歡的例子是《超能敢死隊》或《機械公敵》,有人取笑說你不能隨便和東西對話,真是見鬼了。
NoPriors:
如果我們在談論外部大腦,這是一件非常重要的事情,需要將其民主化。你怎麼看當前的市場結構以及在大規模語言模型研究中發生的事情?實際上,只有少數幾家大型實驗室有機會在下一代訓練中取得進展。這對於未來人們能夠訪問的技術來說意味著什麼?
Andrej:
你可能在暗示的是生態系統的狀態。我們有幾個封閉平台形成的寡頭壟斷,同時也有相對落後的開源平台,比如Meta Llama等。這反映了開源生態系統的狀況。
當我們開始把這些東西看作是一個外部大腦時,有一句加密貨幣的說法叫“沒有你的金鑰,就沒有你的Token”。如果說,這就像“不是你的權重,就不是你的大腦”?
NoPriors:
這很有趣,因為一個公司實際上在控制你的外皮質,因此很大一部分你的……
Andrej:
這開始感覺有點侵入性了。如果這是我的外皮質,我認為人們會更加在意所有權,是的。你意識到你是在租用你的大腦。似乎租用你的大腦有點奇怪。
NoPriors:
這個思想實驗就像是,你願意放棄所有權和控制權來租用一個更好的大腦嗎?因為我願意,是的。所以我認為這是一個權衡,我們會看看這如何運作。
Andrej:
也許有可能默認使用封閉版本,因為它們很出色,但你可以在各種情況下有一個後備方案。我認為這有點像今天事情的發展。就像當一些封閉源提供商的API當機時,人們開始實現對開放生態系統的後備方案,他們完全控制並感到由此而來的賦權。所以,這也許就是對大腦未來樣子的擴展,如果發生了什麼事情,你就依靠開源資源。但是大多數時候,你其實……
NoPriors:所以開源資源持續進步非常重要。
Andrej:
我認為是這樣,百分之百。這不是一個顯而易見的觀點,或者現在人們可能不一定同意的事情,但我百分之百認為是這樣。
NoPriors:
我一直在想的是,最小的、高效的模型是什麼,你可以在某種意義上達到,無論是參數大小還是你想怎麼考慮?還有就是你的觀點,因為你對蒸餾、小模型有很多思考,我有些好奇。
Andrej:
我認為它可以出奇地小。而且我確實認為當前的模型浪費了大量容量來記住不重要的東西。比如,它們記住了 SHA 雜湊碼,記住了一些古老的東西……因為資料集沒有得到最好的整理。
我認為這種情況會有所改變。我們只需要到達認知核心。我認為認知核心可以非常小,它只是一個會思考的東西。如果它需要尋找資訊,它知道如何使用不同的工具。
NoPriors:那是像30億參數嗎?是20億嗎?
Andrej:
我認為甚至10億。10億就足夠了。我們可能會達到那一點。模型可以非常非常小。我認為它們可以非常小的原因根本上,就像蒸餾一樣。蒸餾出乎意料地有效。蒸餾是你得到一個非常大的模型或者大量的計算資源之類的東西,監督一個非常小的模型。你實際上可以把很多功能塞進一個非常小的模型裡。
NoPriors:
這是某種數學表示或資訊理論公式嗎?因為幾乎感覺你現在應該能夠計算這個。
Andrej:
可能吧。也許可以這樣考慮這個問題:我們回到網際網路資料集,這是我們正在處理的東西。網際網路大約是0.001%的認知,99.99%的資訊垃圾。我認為大部分資訊對思考部分沒有用。
NoPriors:
也許換個方式來問這個問題就是,有沒有一種數學表示形式可以體現認知能力相對於模型大小的關係?或者你如何在你想要達成的目標中捕捉認知,知道這是最小值或最大值?也許沒有一個好的方式來表示這一點。
所以我認為也許十億參數可以獲得一個不錯的認知核心。
Andrej:
我認為即使是十億參數也太多了。我不知道。我們拭目以待。
NoPriors:
考慮到裝置邊緣與雲端的區別,以及使用模型的原始成本,一切都很令人興奮。但是在不到十億個參數的情況下,我也在本地裝置上有我的外腦。
Andrej:
可能不是一個單一的模型,對我來說,思考這實際上會如何發展是很有趣的,因為我認為你想要從平行處理中受益。你不想有一個順序過程,你想要有一個平行過程。我認為公司在某種程度上也有點像工作的平行化。但公司中有一個層級結構,因為這是組織內進行資訊處理和簡化所需要的一種方法。所以我認為我們最終可能會擁有一個大語言模型公司的結構。我認為你擁有各種不同能力、專注於獨特領域的模型並不是什麼不太可能的事情。這將實際上在很大程度上開始類似於公司。程式設計師和項目經理等角色在平行工作,並為你協同運算。因此,也許這樣思考是不正確的。它更像是一個蜂群。你的外皮層就像是一個大型語言模型的蜂群。這更像是一個生態系統,就像一個生物生態系統,你在其中有專門的角色和生態位。我認為它將開始趨同那樣。你有自動地將問題上升到蜂群的其它部分,具體取決於問題的難度。所以也許CEO就像一個非常聰明的雲模型,但工人可以便宜得多,甚至可能是開源模型或其他什麼的。而我的成本函數與你的成本函數不同。所以這可能會很有趣。
NoPriors:
你離開了OpenAI,從事教育工作。你一直是一名教育者。那麼,為什麼要這樣做?
Andrej:
我的起點是,我一直是一名教育者,我熱愛學習,也熱愛教學。這是一個我長期以來一直非常熱衷的領域。另一件事是,我認為有一個宏觀的圖景在推動我,我認為在AI領域有很多活動。而且我認為大多數是想要取代或替代人類。這主題就像是把人滑到一旁。但我總是對能賦能人的任何事物更感興趣。從一個更高的層面看,我是站在人類一邊。我對AI能做什麼來賦能人類感興趣。我不希望未來人們只是處於自動化的一邊。我希望人們處於一種非常有權能的狀態。我希望他們變得非常出色,比今天出色得多。
另一個非常有趣的方面是,如果一個人有全科的完美導師,他們能走多遠?我認為如果人們有完美的課程安排,他們可以走得非常遠。我們看到了這一點,假如有些富人可能有導師,他們確實走得很遠。所以我認為我們可以通過AI甚至LexarPassive接近這一點。
NoPriors:
實際上,從80年代開始就有非常明確的文獻支援這一點,一對一的輔導可以幫助人們提高一個標準差。是布魯姆的東西。有很多非常有趣的先例。
你如何通過AI的視角來看待這一點?或者說,什麼樣的第一類產品能真正幫助實現這一點?因為有像《鑽石時代》這樣的書,他們討論了《年輕女士的插圖入門》之類的東西。
Andrej:
所以我會說,我肯定受到它某些方面的啟發。在實際操作中,我正在嘗試建立一個單一的課程,希望它能成為人們學習AI時的首選課程。我認為基本問題在於如何擴大這些課程的規模。例如,我曾在斯坦福教授過231N,這是第一門深度學習課程,並且相當成功。但問題是,如何真正擴大這些課程的規模?如何讓地球上的80億人都能受益?他們講不同的語言,能力水平各不相同,單個教師無法覆蓋如此廣泛的受眾。
因此,問題在於如何使用AI來擴大一個優秀教師的影響力。我這樣思考這個問題:老師負責大量的課程建立和設計,因為以目前的AI能力,我不認為這些模型能夠建立一個好的課程。但我認為它們適合成為學生的前端,向他們解釋課程內容。基本上,老師不再直接面對學生,而是在後台設計課程材料,AI則作為前端,能夠說各種不同的語言,引導學生完成整個課程。
NoPriors:這種情況可以理解為類似助教(TA)的體驗嗎?
Andrej:
AI助教作為學生的前端,與學生互動並引導他們完成課程。我認為這是可以解決的,儘管現在還不存在,但它可以變得非常好。隨著時間的推移和能力的提高,課程設定可能會以各種方式重構。
我喜歡找到一些東西,今天的人工智慧能力和對它有一個良好的模型。我認為很多公司可能並不直觀地理解今天的能力在那裡,最終會建構一些超前於現有能力的東西,或者可能不夠雄心勃勃。因此,我確實認為這是一個可能性與真正有趣和激動人心的結合點。
NoPriors:
回到你剛才提到的某件事,我覺得非常鼓舞人心,特別是考慮到你的背景以及你對我們目前研究狀況的理解。基本上,我們不知道從學習的角度來看人類表現的極限是什麼。考慮到更好的工具,這裡有一個很簡單的類比。我們一個月前剛剛舉辦了奧運會,一個跑者以及最好的英里時間或者任何體育運動,今天的水平比以前好多了。拋開像10年前的興奮劑不談,僅僅因為你開始訓練得更早,擁有一個非常不同的計畫,我們有更好的科學理解,我們有技術,我們有裝備。
你相信如果我們從工具和課程開始,人類可以取得更大進步,這一點令人驚嘆。
Andrej:
是的,我認為我們甚至還沒有觸及到可能實現的任何一部分。所以我認為基本上有兩個維度。第一個是全球化的維度,我希望每個人都能接受到真正優質的教育,另一個是一個人可以走多遠。我認為這兩個問題都非常有趣且令人興奮。
NoPriors:
通常,當人們談論一對一學習時,他們關注的是其自適應性,即在挑戰與其水平相當的人。你認為今天可以用人工智慧實現這一點嗎?還是說這是未來的事情,今天更多的是擴大影響力、多語言和全球化?
Andrej:
顯而易見的是,諸如不同語言之類的事情非常容易實現。我認為當前的模型在翻譯方面實際上非常好,基本上可以即時定位和翻譯材料。所以很多事情都是顯而易見且容易實現的。
根據一個人的背景進行適應,我覺得這不像是容易摘到的果實,但也不至於難到遙不可及。不過這確實是你需要的東西,因為並不是每個人都有相同的背景。而且,如果你過去熟悉其他學科,利用你知道的東西來做類比也是非常有幫助的。這在教育中非常強大,所以這是一個你想要利用的維度。但我認為這開始變得不那麼顯而易見,需要一些工作。
一個簡單的版本不會太難,你可以想像只是提示模型,比如“哦,我懂物理”或者“我懂這個”。你可能會得到一些東西。但我指的是一些真正有用的東西,不是那種你可以演示,有時能工作的東西。我指的是它真的起作用,並且以一種人的方式起作用。
NoPriors:
這就是為什麼我問到適應性的問題,因為人們學習的速度不同,或者有些事物他們覺得有挑戰性,而其他人則不然,反之亦然。在這種情況下,你怎麼去調整呢?我猜你可以隨著時間推移,將某人在某方面的優劣重新引入到模型中。
Andrej:
這就是人工智慧的特點。我覺得很多這些功能就像提示一樣。所以你總是會看到演示,但你真的會得到一個產品嗎?你知道我的意思嗎?在這個意義上,我會說演示很近,但產品還很遠。
NoPriors:
我們之前討論過的一件有趣的事情是,研究界發生的某種血統關係。你來自某些實驗室,每個人都在談論彼此來自那個實驗室。我認為有相當高比例的諾貝爾獎得主實際上曾經在前諾貝爾獎得主的實驗室工作過。所以這大概是某種文化、知識或品牌的傳播,不知道是那一種。在一個以AI教育為中心的世界裡,你如何保持譜系,或者這並不重要?或者你如何看待這些關於網路和知識傳播方面的問題?
Andrej:
我其實不想生活在一個非常看重譜系的世界裡,所以我希望AI可以幫助你稍微打破這種結構。這感覺有點像某種稀缺資源的把關機制,好像是說,有有限數量的人擁有這個譜系等等。我認為這有點像是某種方面的表現。
我希望它能夠打破這種結構。
NoPriors:
這確實是一個方面,比如實際學習的一部分譜系。
這也像是聚集效應。為什麼所有或者大部分的AI社區都在灣區?為什麼大部分的金融科技社區都在紐約?
我認為很多時候是因為你把一些有共同興趣和信念的聰明人聚集在一起,他們從這個共同核心中延伸出來,然後以一種有趣的方式分享知識。
你必須在某種程度上讓這種行為轉移到線上,尤其是對年輕人而言。
Andrej:
其中一個方面有點像教育方面。比如今天如果你是某個社區的一員,你會獲得大量的教育和學徒機會等,這非常有幫助,會讓你在那個領域達到一種有權能的狀態。
另一個方面是文化方面的,也就是你受什麼激勵以及你想要從事什麼工作。文化重視什麼、推崇什麼、奉什麼為神聖?
在學術界,舉例來說,就是H指數。每個人都關心H指數,你發表的論文數量等等。我曾是那個社區的一員,我見證了這一點。
我感覺現在我到了不同的地方,各個社區都有不同的偶像。我認為這對人們的動機、他們的社會地位以及他們真正關心的事物產生了巨大的影響。
我還覺得我曾是不同社區的一部分,比如在斯洛伐克長大,那是一個非常不同的環境,在加拿大也是一個非常不同的環境。
在那裡重要的是什麼?冰球。
舉個例子,我會說在加拿大,我在多倫多大學和多倫多。我不認為它是一個非常具有企業家精神的環境。根本不會想到你應該創業。人們不這麼做。你不會有朋友在做這個。你也不知道你應該仰望它。人們不會讀所有這些創始人們的書籍然後討論他們。這根本不是你嚮往或在意的事情。
每個人都在談論的是,你在那裡找到了實習?你以後打算去那兒工作?而且大家似乎都接受有一套固定的公司列表,你應該從中選擇並與其中一家對齊。這就是你仰望或者追求的目標。
所以這些文化方面的因素非常強大,可能實際上是主要的變數。因為我幾乎覺得,如今教育方面的問題已經相對容易了,比如說有大量的資源已經可用,等等。
所以我認為主要是你所身處的文化環境。
NoPriors:
在這一點上,我們幾周前聊的一個話題是,我記得你也在網上發過,學習和娛樂是有區別的。學習確實應該是困難的。我認為這涉及到地位的問題,地位是一個偉大的激勵因素,比如說誰是偶像。
你認為,通過這樣的系統,在動機方面你能夠改變多少,如果這是一個阻礙因素?你是否專注於給予人們資源,使他們能夠在自己的能力範圍內儘可能地在過程中走得更遠,比歷史上的任何時候都更進一步,已經是鼓舞人心?或者你實際上是想改變有多少人願意學習,或者至少激勵他們走上學習的道路?
Andrej:
"願意"是一個有負擔的詞。我會說,我想讓學習變得容易得多。然後可能會有人不願意學習。今天,比如人們為了實際原因願意學習,比如他們想找到工作等等,這是完全有道理的。所以在一個前AGI社會中,教育是有用的。我認為人們會因此而有動機,因為他們在經濟上不斷攀升等等。
NoPriors:
但在後AGI社會,我認為教育在很大程度上將是一種娛樂。包括像成功的結果教育,不僅僅是讓內容從你身上流過。
Andrej:
是的,我認為是這樣的。結果就像理解、學習、能夠貢獻新知識,或者你如何定義它。
NoPriors:
我認為這不是偶然的,如果你回到200年前、300年前,那些做科學的人是貴族或有錢人。我們都會成為與安德烈一起學習的貴族。
Andrej:
是的。我確實認為我看到它非常類似於你之前的引用。我覺得學習某些東西有點像去健身房,但這是對大腦的鍛鍊,就像去健身房的感覺。去健身房是很有趣的。人們喜歡舉重等。有些人不去健身房。不,不。有些人去,但需要努力。是的。是的,需要努力,但它是努力的,同時也有點有趣。你也有一個回報,比如你在各方面對自己感覺良好,而且我認為教育基本上等同於那樣的感覺。
所以這就是我說教育不應該是有趣的時候的意思,等等。這有點有趣,但我認為這是一種特定的樂趣,我確實認為,也許在一個後AGI的世界裡,我希望發生的是人們實際上,他們確實經常去健身房,不僅是身體上的,還包括精神上的。這是我們仰望的東西,有很高的教育程度。
Priors:
我可以問你關於Eureka的最後一個問題嗎,只是因為我覺得這會讓人們感興趣。比如第一個課程的受眾是誰?
Andrej:
第一個課程的受眾,我主要認為這是一個本科水平的課程。所以如果你在技術領域讀本科,我認為這將是一個理想的受眾。我確實認為我們現在看到的是一種陳舊的教育概念:你上學,然後畢業去工作。顯然,這樣的模式在一個變化如此迅速的社會裡會完全崩潰。隨著科技的快速發展,人們會更加頻繁地回到學校學習。
這種學習有點像本科的水平,但我認為任何年齡段的人都在範圍之內。年齡上會非常多樣化,但主要是那些技術性的人,他們大多數是真正想要瞭解不少內容的人。
NoPriors:他們什麼時候可以上這門課?
Andrej:
我希望是在今年年底。我確實有很多干擾正在積累,但我認為明年初可能是個時間節點。我在努力把它做好,這確實需要時間才能完成。
NoPriors:
我還有最後一個相關的問題。如果你今天有小孩子,你認為他們應該學習什麼以確保一個有用的未來?
Andrej:
在我看來,有一個正確的答案。正確答案大概是數學、物理、電腦科學這些學科。我這麼說的原因是因為我認為它對思維能力有幫助,這是最佳的思維技能核心。
當然,我有特定的背景,所以我會這麼想,這只是我的看法。我覺得我上過的物理課和其他課都塑造了我的思維方式,這對解決問題非常有用,總的來說等等。如果我們處在一個AGI前的世界,這會有用。在AGI之後,你仍然希望有能力的人類可以在任何任意能力中發揮作用。所以我認為這是對人們的正確答案,他們應該做和學的事情,要麼有用,要麼好。
我認為很多其他的東西你可以稍後再新增,但在人們有大量時間和注意力的關鍵時期,應該主要用來做這些簡單操作密集型的任務和工作負載,而不是記憶密集型的任務和工作負載。我學的是數學學位,覺得在學習的過程中,感覺自己的大腦正在開闢一條新溝槽,而且這種溝槽在以後會更難開闢。
當然,我還會把很多其他東西也加入進來,比如,我並不排斥所有其他學科。我認為擁有多樣性的事物其實是很美的,但我確實認為其中的80%應該像這樣。
NoPriors:
首先,與我們的工具相比,我們不是有效的記憶者。
謝謝你做這件事,真是太有趣了。
Andrej:很高興來到這裡。 (Web3天空之城)