OpenAI CEO奧特曼警告:技術民主化遭挑戰,算力分配是下一個核武器級問題

這是 OpenAI CEO Sam Altman 接受 Stanford Online頻道的專訪。這個專訪公開發表於2026年06月16日。

Sam Altman 在訪談中,核心圍繞三個主題:規模、產品與社會分叉點。

在“規模”上,他強調,幾乎所有最有趣的突破都來自“把已有有效方向做到前所未有的大規模”,不論是模型、公司網路效應還是人才聚集。人類和組織天然抗拒大規模,因為系統會以不可預測方式“半崩潰”,但正是在解決技術、資本、文化等一連串“勸退理由”的過程中,才誕生真正的突破。他認為當下很多人仍嚴重低估了繼續放大規模的回報。

在產品與技術路徑上,他回顧了 ChatGPT 與 Codex 的誕生。GPT‑3 商業化一度受挫,只跑通了文案寫作,但開發者卻自發用它“純聊天”。OpenAI 於是順勢做出 ChatGPT,本來只是展示用的研究 Demo,卻在幾天內資料瘋狂增長,逼得公司進入“緊急狀態”快速擴張。他認為真正的殺手級產品往往一開始並不完美,但資料會說話。對於未來模型架構和訓練管線,他判斷現有 pipeline 必然還會被重構,並計畫用“AI 研究實習生/研究員”來探索新架構,同時堅信大模型擴展遠未到頭,唱衰 LLM 是誤判。

關於社會分叉點,他提出三大擔憂與判斷:其一,AI 會持續快速發展,但關鍵分叉在於:技術是被少數公司高度集中掌控,還是成為類似電力的“公用基礎設施”,被廣泛民主化?他認為集中化既不公平,也是一種“對齊失敗”,估計有約 80% 的機會走向更民主的路徑,但需要全社會刻意推動。其二,算力正在成為最重要、也會長期短缺的公共資源,未來如何定價和分配算力是被嚴重低估的關鍵問題。其三,教育體系對 AI 的反應遠遠太慢,如果仍按“前 AGI 時代”的方式教學與考核,學生真正“學會思考”的能力會退化,教育必須圍繞“人類+AI 能力”徹底重構。

訪談全文如下:

主持人: 請和我一起歡迎 Sam Altman。這門課的設計靈感來自於我在這裡當學生時的一些不同經歷。其中之一是 Terry Winograd 的入門研討課 CS47N《電腦與開放社會》。第二個對我以及當時校園裡許多朋友和同齡人產生深遠影響的經歷,是 Sam 在 2014 年開設的 CS183《如何創業》(How to Start a Startup)。很高興你能回來。感覺怎麼樣?重新回到這裡的感受如何?

山姆·奧特曼: 我走進來的時候就在想,如果我能再多一點時間,我一定要更新那門課的內容,因為我認為關於創業的一切已經發生了翻天覆地的變化。我還沒看到有誰對“當下該如何創業”給出過完美的解答。所以剛走進這裡時,我心裡就閃過一個念頭:啊,如果能重開這門課一定會很有趣。

主持人: 從時間線來看,你是在 2014 年教的那門課。OpenAI 好像是 2015 年成立的,對吧?基本上是 16 年。16 年。好的。所以,從旁觀者的角度來看,感覺像是你先構思出了一套“如何正確創業”的理論體系,然後再去親身實踐。這種評價中肯嗎?還是情況並非如此?畢竟 OpenAI 的路徑非常奇特。

山姆·奧特曼: 過去幾十年矽谷的初創公司通常以產品起家,增長一段時間,直到增長放緩,這時他們才會增設一個研究實驗室,去弄清楚下一步該做什麼。

我們正好相反,我們起初就是一個研究實驗室,後來才不得不為其加上創業公司的外殼。我並不推薦這種做法——這是一條非同尋常的道路——但我想表達的不是這個意思。我的觀點是,由於我們致力於建構人工智慧且當時尚未成功,我們依然遵循著 AI 時代前的那套創業法則。

然而,觀察當下最頂尖的初創公司是如何運作的,你會發現它與幾年前相比已經截然不同。我覺得應該有人——雖然大機率不會是我——把那門課再講一遍。

主持人: 如果基於新的資料,你會做出那些最大的更新?

山姆·奧特曼:現在,只需可負擔的 Token 成本,你就能撬動過去百人頂尖工程團隊才能完成的壯舉。 這在過去是完全不可能的,根本不在初創公司的選項之內。但現在成為了現實。因此,你可以承擔的任務、你的雄心壯志、你行動的速度,以及你能同時處理的事務量,都發生了徹底的改變。

主持人: 這會改變你分配給學生去攻克的問題類型嗎?如果你再教一次這門課,在學期末你會讓他們去解決什麼樣的問題?

山姆·奧特曼: 我認為分配問題去攻克是行不通的。因為如果我能想到一個問題,或者一個絕佳的創業點子,既然它對我來說足夠明顯,那麼對很多人來說大機率也是顯而易見的。

當我們創辦 OpenAI 時,全球範圍內(毫不誇張地說)大概只有四個致力於通用人工智慧(AGI)的團隊。你想要尋找的就是這樣的機會。我確信,在自動化程式設計時代之前,有些事情是完全不可能的,它們極不顯眼,但很快就會成為兆美元等級的市場,而且目前世界上只有四家公司在做。

但我不知道那具體是什麼。比起我,你們更有可能知道答案;我的大腦已經完全被 OpenAI 佔據了。歸根結底,別人分配給你去研究的想法,通常不是你真正想做的。

主持人: 好吧,這很合理。但鑑於這是一門系統課程,探討一個你需要切實解決的具體問題會很有幫助。這樣學生們就能借鑑解決問題的思維模式——從系統架構的角度將問題拆解為解決方案——並應用到他們自己的工作中。

你早在 2014 年的課程中就引入了一個概念,並且多年來一直在公開場合討論,那就是規模(Scale)。規模本身就是一頭巨獸;量變即質變(Quantity is its own quality)。

過去 10 年裡,你一直在用各種方式對“規模”這一概念進行實證研究。你能先幫我們拆解一下,10 年後的今天,你所說的“規模”究竟意味著什麼嗎?無論作為一種工具還是其他屬性,你會如何將其解構為一個系統設計要素?我們能從這裡開始嗎?

山姆·奧特曼: 沒問題。我不清楚以下觀察為何成立,我也無法給出令自己滿意的理論解釋,這讓我不太敢建議你們照做,但我還是要說,因為從經驗來看它確實成立。

在我職業生涯所觀察到的所有最有趣的事情中,它們無一例外都與規模(Scale)帶來的湧現能力(Emergent Properties)有關,或者說,持續擴大規模所帶來的回報,往往遠超大眾共識的認知極限。

這顯然印證了 AI 模型的規模法則(Scaling Law),但同樣適用於將更多聰明人聚集在研究環境中共同思考一個問題。這種情況也發生在公司內部,以及你可以通過不同方式實現的各種規模經濟(Economies of Scale)中。

我在 Y Combinator 時深刻體會到了這一點。當時大家都在說:“哦,Y Combinator 規模太大了,應該縮減。我們應該減少每期的投資數量。Y Combinator 最輝煌的時候是每期只有 10 家公司的時候。” 很多非常聰明的人都這麼說。

這聽起來很誘人,因為工作量會減少很多。當時的理論是:最優秀的公司總是顯而易見的,剩下的只作陪襯,投資它們意義不大。但 YC 成功的核心魔力,恰恰在於每一期內部產生的網路效應(Network Effects)。這正是一種在規模擴大後才被發現的湧現能力。在此之前,從來沒有人嘗試過如此大規模地投資初創公司,因此也從來沒有人觀察到這種現象:當你把規模做大時,會發生一些至關重要的事情,而這些事情在十分之一或百分之一的規模下是根本不存在的。

還有許多類似的例子,為了節省時間我就不贅述了。但我還是要強調,雖然我無法解釋原因,但從經驗來看:當你發現一個方向,並且能將其推向人們此前未曾嘗試過的規模,同時它在較小規模下已經表現出了某些有趣的特性時,這往往是一個絕佳的主意。

這似乎也是大多數人做得遠遠不夠的地方。我也無法解釋為什麼,但比如當初我們決定要全力擴展 AI 模型規模時,這個領域的大多數“天才”都在說:“哦,這行不通。這甚至算不上什麼科學成果。規模變大效果變好一點也不稀奇。你已經證明了這一點,為什麼還要繼續擴大規模呢?” 我前面提到了 YC 的例子,其實我也見過很多情況。

很多初創公司的創始人會說:“如果我擴大規模,可能會發生一些有趣的事情,但我總有些說不清道不明的擔憂。” 回過頭來看看那些在各個維度成功擴大公司規模的海量案例,你會發現幾乎總能從中挖掘出意想不到的驚喜。所以,我認為在方向上,這是一個非常值得發力且被嚴重探索不足的領域。

回到系統設計層面,我認為人們不願意擴大規模的一個原因是:隨著規模的擴大,系統會以不可預測的方式加速崩潰。如果你真的要大規模擴展某個事物,它總會處於一種“輕微損壞”的狀態。總會有非常聰明的人勸阻你:“不要太有野心。不要做得太大。我們從小處著手吧。”

因此,將其作為系統問題進行拆解至關重要。我以我們擴展 AI 模型的經驗為例。首先是技術問題:我們到底能不能做到?這聽起來很瘋狂,因為此前從來沒有人想過要在 10,000 或 100,000 個 GPU 上運行一個處理程序,這需要極其龐大的頂尖工程人才儲備。

其次是資本需求,以及實現這一目標需要付出的代價。此外,還有商業可行性上的擔憂:你如何證明承擔這樣的風險是合理的?

最後是文化層面的挑戰,研究人員會質疑:“如果我們要獲取這麼龐大的算力(Compute),為什麼要把它們全部投入到這一個項目中?我們什麼都學不到。為什麼不把算力分配給所有其他項目呢?” 我觀察過幾乎所有涉及規模擴張的領域,這種情況屢見不鮮。將挑戰拆解為每一個具體的困難環節——或者說每一個“勸退”你的理由——並嘗試逐一攻克,這一點真的至關重要。

主持人: 我想就這一點深入探討一下,因為多年來,能像 OpenAI 團隊這樣持續將新產品和新系統規模化的人寥寥無幾。

但問題似乎在於,人類腦海中總是存在各種先入為主的心智模型(Mental Models)和預期。你說過系統有時會崩潰,而最常崩潰且最難重構(Refactor)的,往往是系統設計中“人”的這一環,對吧?尤其是在有執行者或參與者捲入的情況下,更是如此。

那麼,關於如何管理“規模化的人類團隊”,你學到了什麼?具體來說,你如何組織大規模的人群去參與一個全新的系統,而這個系統並非他們乍一看就能輕易理解的過往模式的簡單復刻?

山姆·奧特曼: 我認為“清晰”至關重要:明確的目標、清晰的實施計畫、確定的行進路線,以及在過程中如何做決策的明確答案。這些都非常重要。

回顧我們當初決定擴大模型規模(Scale Up)的時候,很多人說:“這行不通的,會遇到各種問題,”或者說“我們需要更多元化的投資組合(Diversified Portfolio)。”

但一旦我們拍板決定:“不,我們就是要押注擴展深度學習(Scaling Deep Learning)——這就是我們的使命。如果錯了,大不了失敗,但我們非做不可。”這種破釜沉舟的決心就產生了強大的力量。我們清晰地定義了為什麼要這麼做,以及如果成功,未來的世界將會是怎樣。這種願景極具穿透力。然後……

無論出於什麼原因,人類在進化過程中,並沒有演化出擅長進行“指數級思考”的大腦。人們很難想像規模法則(Scaling Law)會呈指數級延續,很難想像收入會呈指數級增長,也很難想像一個組織能承載指數級的複雜度。根據我的經驗,你要花大量的時間,才能引導大家運用第一性原理(First Principles)去真正推演清楚背後的底層邏輯。

主持人: 我們可以用兩個具體的例子來剖析一下嗎?一個是 ChatGPT,另一個是 Codex。這兩者都帶來了顛覆性的改變。大家在後排能聽清嗎?我儘量大點聲。可以嗎?好的。

我先來設定一個討論框架,你可以隨時反駁我的假設,然後我們希望通過實例來復盤到底發生了什麼。以 ChatGPT 為例,在推進模型規模化的很長一段時間裡,行業內普遍存在一個巨大的思維盲區:這玩意兒到底能有什麼用?它更像是一種“拿著方案找問題”的研究導向型路徑,而不是產品導向。

隨後 ChatGPT 問世了,它向世界證明:對於面向消費者的通用大模型而言,對話式體驗(Chat Experience)就是那個殺手級應用(Killer App)。幾年後,事實又清晰地表明,程式碼編寫(Coding)則是企業端的殺手級應用。

那麼,在挖掘這些用例(Use Cases)、發佈產品、規模化推廣以及商業變現的過程中,你會如何對比這兩種模式下的系統打法?從這兩套系統中,有什麼突出的經驗教訓嗎?

山姆·奧特曼: 其實我們當時主要想確保的是……回到最初,GPT-3 是一個非常有趣且酷炫的演示(Demo),但我們需要創收,因為我們要將計算規模擴展到耗資 10 億甚至數十億美元(Billion and multi-billion dollar)的超級電腦上。我們在圍繞它做產品時進退維谷;嘗試了幾個方向,但都無功而返。既然自己沒法找準產品定位,我們決定幹脆把它作為 API 開放出去,寄希望於外界的開發者能探索出基於它建構產品的方法。

2020 年夏天,我們發佈了 GPT-3 API。起初它在市場上毫無水花。但大約 1 個月後,它突然在 Twitter 上爆火了。似乎完全出於偶然,幾個不同的開發者發現能用它做出很酷的東西並把成果發到了網上,這立刻引發了跟風嘗試。一夜之間,大量湧入的使用者開始呼叫這個 API。

然而,當時那個模型其實爛得驚人。如果你今天再回過頭去用 GPT-3 甚至 3.5,對比當時它們引發的狂熱,你會驚訝於它們的能力竟然如此糟糕。人們嘗試了各種五花八門的方向,但唯一真正跑通並形成規模的商業模式,只有文案撰寫(Copywriting)。這事兒聽起來既不酷也不令人興奮,所以我們意識到,只能耐心等待更強大的模型問世。

儘管那是唯一走得通的商業模式,但開發者們私下裡已經摸索出了新玩法:輸入提示詞(Prompt)來跟模型進行純粹的聊天。我們觀察到了大量這樣的行為;越來越多人開始這麼用,雖然他們沒法讓 API 為自己的業務創造商業價值,但他們卻在消耗 API 金鑰的額度,僅僅為了跟模型“純聊天”。

於是我們想:“既然大家顯然有這個需求,那我們完全可以自己做一個出色的聊天機器人(Chatbot)。”當時我們正好有一款準備發佈的新模型,也就是 3.5 版本。我們還摸索出了一種全新的後訓練(Post-training)方法,能讓模型在指令遵循(Instruction Following)方面表現優異,這讓使用者與它對話變得輕鬆順暢得多。

當時,API 業務的整體表現並不出彩——它大概只是一塊年化營收(Run-rate)為 1000 萬或 2000 萬美元的業務。但我們手裡卻握著一個使用者真正為之狂熱的東西。秉持著 YC “做使用者熱愛的東西”這一原則,我們決定幹脆直接圍繞它打造一款聊天機器人。

我們發佈了它,那怕當時我們內部依然不認為它能掀起多大波瀾。它的初衷純粹只是作為一個研究演示(Research Demo),想借此去說服外界的開發者:你們也應該去開發這類聊天產品,然後來買我們的 API 服務。

但結果它爆火出圈,勢不可擋。我在 YC 學到的另一條黃金法則是:當一個產品本身還不夠完美,但資料卻開始瘋長時,你手裡絕對已經握住了一個爆款。 我們經歷了大約 5 天的神奇時間:流量瘋狂飆升,然後回落,大家會說:“這不過是又一波炒作周期(Hype Cycle)罷了。”但到了第二天,它會沖上一個更高的峰值,在晚些時候再次回落。人們依然覺得這只是炒作。直到第 4 天還是第 5 天,我猛然醒悟:“我懂這個規律了。我知道接下來要發生什麼。我們眼前,是一個潛藏的殺手級產品(Killer Product)。”

我們知道自己還能把它做得更好。我們知道手裡還握著 GPT-4,也確信我們能繼續擴大規模。就在第 5 天,我們把所有人召集在一起,宣佈:“大家注意,現在進入緊急狀態。這是一場‘幸福的煩惱’,但擺在眼前的是,我們必須同步去建立一家公司並打磨一款產品。”隨後的 2 個月,我們迎來了瘋狂的規模擴張。我們決定先把商業模式放一邊,當務之急只是向使用者收一點費,免得我們付不起高昂的算力帳單而破產。儘管這不是長久之計,但事實證明極其有效。這就是 ChatGPT 誕生的故事。它帶來的實用價值太大了,大到人們願意主動克服使用它的“啟動能”(Activation Energy,指使用門檻),而且這一切都運轉得極其順暢。

其實在 ChatGPT 誕生之前,我們的原計畫是全力投入到 Codex 上。我們深知這些模型具備寫程式碼的能力,且這將是一片價值連城的藍海。當時我們的內部共識是:編寫程式碼,是這些模型在數字世界裡控制電腦的手段;而驅動機器人,則是它們在物理世界中控制事物的手段。如果你能打造出一個足夠聰明的模型,讓它同時具備寫程式碼和驅動機器人這兩種“執行器”(Actuators),你就能真正讓這種智能代替你在現實世界中建功立業。

我們花了一段時間才走到這一步。我認為 Codex 在今年初已經變得非常強大,但在 5.5 版本中,我們看到了一個真正的拐點(Inflection Point),如今人們正在利用它實現不可思議的創舉。

主持人: 在課程初期,我們討論過能力管線(Capabilities Pipeline)的形態,它在不同的研究團隊中正變得越來越標準化、清晰化。比如預訓練(Pre-training)、中程訓練(Mid-training)、後訓練(Post-training),以及強化學習(RL)和監督式反饋循環(Supervised Feedback Loop)。你認為這種大致的管線形態,是否就是促使 Codex(註:此處原文發音似為codecs,推測為Codex模型)實現能力躍升的原因?這種形態現在會保持穩定和一致嗎?還是說我們即將經歷一次管線的大規模重構?

山姆·奧特曼: 我認為針對目前的管線(Current Pipeline)而言,我們肯定會經歷一次大規模重構。我不確定這會在何時發生,也不確定具體方式,但這種以“管線”形式運作的方式讓我感到有些奇怪,它似乎並非最優解。

主持人: 那你心中理想的解決方案是什麼?

山姆·奧特曼: 我認為這是需要人工智慧(AI)去解決的研究課題。

我們目前已經設定了一個目標:到今年9月,我們將使用相當於500台 H100 等效GPU 的算力,以“AI研究實習生”的身份來工作——這是一股極其龐大的計算能力。

到2028年3月,我們將擁有全流程端到端、極具天賦的“AI研究員”來探索全新的架構。 因此,我認為即使只依靠當前的管線和架構,我們也即將跨越那道門檻,讓AI完成令人驚嘆的工作。

主持人: 你剛才提到的這番話讓我想起,我們在課堂上經常討論系統、框架和類比,目的是讓缺乏背景知識的人也能理解跨領域的概念。但有時,由於“翻譯”過程中的資訊損耗,通過類比來推理反而適得其反,因為認知偏差會不斷累積。

你提到我們的目標是將AI作為實習生使用。在矽谷的語境下,這是一個非常直觀的比喻,因為這裡的學生都明白這些技術管線是如何運作的。然而,當把這個比喻推廣到全球時,缺乏特定背景知識的人可能會對這些模型產生不恰當的聯想。

我們該如何看待這種類比的侷限性?在矽谷,你認為那些關於產品和研究的類比最行之有效?此外,在推廣這些類比時,你發現了它們存在那些侷限?你又是如何在兩者之間尋找平衡的?

山姆·奧特曼: 我一直熱衷於研究自己的思維方式。我認為當下正在發生的是:我們正在創造一種全新的公用基礎設施(Utility)。 這種歷史機遇並不多見。電力是公用基礎設施,網際網路和自來水也是。這類事物屈指可數,因此我們沒有太多歷史經驗可供借鑑,也找不到完美的比喻來向世界解釋這一切。

我最近考察了電力成為公用事業時的歷史。這是一個很好的類比,儘管它並不完美。早期的電力公司——至少據我所查的資料顯示——並沒有將“電力”作為賣點,因為當時沒人知道電是什麼,也不知道為什麼需要它。相反,“電”聽起來十分恐怖:它是一種接入你家、隨時可能以駭人聽聞的方式將你致死的東西,它徹底顛覆了人們對過去世界的認知。也許他們最初嘗試過直接行銷“電力”,但碰壁了。

於是,他們轉而向人們兜售“夜晚的光明”。他們會說:“你從我們這裡買的不是電,而是夜晚的光明。”他們還會順帶一提:“順便說一句,這種能發光的東西,還能用來幹別的。”人們會疑惑:“我為什麼要用它幹別的?”電力公司描繪道:“總有一天,它能幫你洗衣服。”但在當時的人們看來:“不可能,這步子邁得太大了,我無法想像。”

我不知道當下最契合的類比究竟是什麼。但我懷疑,即使我們對未來的判斷完全精準——即“智能”將成為一種全新的公用基礎設施,每家公司、每個消費者、每個政府都需要接入,並以各種不可思議的方式加以利用——直接向大眾推銷“智能”也是行不通的,它無法引起人們的共鳴。

最終,你可能只需要訂閱一個 OpenAI 的 Token 服務,就能將其接入萬物,用它來喚醒各種全天候待命、能創造奇蹟的後台服務。我不知道AI時代的“夜晚的光明”究竟是什麼產品。但如果我們註定要成為一種新型的基礎設施,我們就必須找到一種通俗易懂的方式向世界解釋:擁有一根可以隨心所欲呼叫的“智能水管(Intelligence Pipe)”到底意味著什麼。

主持人: 這門課由於邀請了背景各異的演講嘉賓,產生了一個有趣的“湧現屬性(Emergent Property)”:“公用基礎設施”這個類比被多次提及,但每次指向的對象卻不盡相同。比如 Jensen(黃仁勳)將算力(Compute)比作基礎設施,探討了為何算力需要普及,甚至提出史丹佛應該統籌預算,將算力作為校園基礎設施集中採購。而你剛才則將“智能(Intelligence)”比作基礎設施。這兩種觀點都成立嗎?還是只有一個是對的?那一個更有可能成為現實?我們該如何區分“將算力(即晶片)作為基礎設施”與“將 Token 作為基礎設施”這兩個概念?你覺得這說得通嗎?

山姆·奧特曼: 我認為,作為消費者——無論是企業還是個人——你們的思考維度會更接近於 Token,甚至比 Token 還要再高一個層級。我不認為你們會去關心硬體藏在那裡、具體用的是那款晶片、底層是什麼在驅動。這些底層細節終將被完全抽象化(Abstracted out)。你真正在意的,是你與系統互動時的體驗。

你會關心:它能隨意使用嗎?價格便宜嗎?任務完成得出色嗎?所以就目前而言,它體現為 Token 的形式。

隨著我們步入一個人人皆有專屬智能體(Agent)全天候待命、時刻提供價值的世界,這種認知還會進一步演化。你甚至會將思考維度再拔高一層。

我的猜測是,當你支付手機話費時,你會想:“好吧,我買的是通話時長和幾個 G 的流量”,以此來運行各種應用程式,滿足各項需求。但在為網路基礎設施付費時,你本質上是在購買整個系統及基站硬體的訪問權,至於手機究竟是如何連接到網際網路的,你根本不會去深究。

主持人: 我知道關於基礎設施的極客話題我可以聊上很久,但我希望能把話題切回到與在座學生更相關的內容上。通常我們會有問答環節,但今天本來沒安排,除非你介意來幾場即興問答?哦,好的,太棒了!那就即興發揮吧。

好的。為了激發大家的創造力,我的最後一個問題是關於這門課的期末項目——5x183,即“單人前沿實驗室(One-person Frontier Lab)”。

在座的每個人都在模擬自己作為一個獨立的實驗室,並擁有所有頂級工具的存取權來進行項目開發。他們從 Cloudflare 獲得了數十萬美元的額度,我想我們也有一些 OpenAI 的 Token,所以大家手頭有大量的算力可供支配。

假設你也在上這門課,你的“單人前沿實驗室”項目會做些什麼?

山姆·奧特曼: 好的。首先,我認為這是個非常棒的問題。

山姆·奧特曼: 那是一個非常棒的項目。我想大家現在最關注的就是這個,因為我們剛才還在討論效用框架(Utility Frameworks)。我認為有很多極具才華的人正致力於提出卓越的訓練理念,我們將迎來令人驚嘆的模型。我向你們保證,無論在座的各位做什麼,我們很快都會見證這些驚人模型的誕生。

我認為,我們在如何大規模提供海量且廉價的智能(Cheap Intelligence)方面,投入還遠遠不夠。所以,如果是我,我可能會去研究技術堆疊中的推理(Inference)部分,探索如何讓這種驚人的智能變得既廉價又普及。我認為這一領域的投資嚴重不足。而且我相信,所有前沿的人工智慧實驗室,在很大程度上都必須轉型為推理公司。

主持人: 現在讓大家調整項目方向可能有點晚了,但遲做總比不做好。大家就做自己想做的方向吧。好的,我們開始提問環節,我來主持。請大家儘量提出有建設性的問題,不要太有火藥味。記住,這是一堂電腦科學課,不過具體怎麼回答看你的了,Sam。

哦,有提問了。太好了。第一個問題,關於楊立昆(Yann LeCun)認為大語言模型(LLM)是一條死胡同的觀點,你怎麼看?

山姆·奧特曼: 首先,就實現人類水平的智能而言,這些模型在某些方面已經遠超人類,但在另一些方面卻仍然表現得很糟糕。例如,在需要長程推理(Long-horizon Reasoning)和高等級判斷的任務上,它們的能力似乎還遠不及人類。

但另一方面,就在昨天,我們的一個模型證實或證偽了一個猜想——這是一個許多聰明人苦心鑽研了很久的埃爾德什(Erdős)數學難題。許多傑出的科學家(我不知道楊立昆是不是其中之一),甚至直到最近還在斷言這種壯舉是不可能發生的。然而,模型就是做到了。現在,連數學家們都在驚呼:“數學要終結了嗎?這對我們的領域意味著什麼?”顯然,大語言模型已經具備了發現新知識的能力,能夠完成人類根本無法企及的智能任務。

它們的規模還將進一步大幅擴展(Scale),我們很快就會知道,它們究竟能在多少任務上超越人類。我預感這個數字將是驚人的。關於我們之前提到的對指數級增長缺乏信念的問題,說實話,我認為人工智慧領域被整整一代科學家拖了後腿,他們過於篤定規模法則(Scaling Law)行不通。而與此同時,另一批人只是看著資料圖表,看到技術仍在完美地持續進化,於是便決定堅定不移地走下去。

我認為世界模型(World Models)顯然非常重要,我們在機器人等領域會需要它。但在現階段去對賭大語言模型的規模擴展會失效,我覺得是完全被誤導了。

當那個說“我早就說過吧(I told you so)”的人會覺得煩嗎?不會。推特(Twitter)上總有一些噴子,多年來一直在唱衰:“這行不通,這太蠢了,這是個騙局,這家公司遲早要完,這種研究路線註定失敗。” 以前我還會因為他們感到困擾,但現在我甚至連去說一句“我早就告訴過你吧”的興致都沒有了。就好像,你們還停留在原地,還在喋喋不休地抱怨。但其實,資料已經非常強有力地站在了我們這一邊。我覺得去炫耀“我早就說過吧”也沒什麼意思。而且,即便你們現在依然堅持說我們錯了,我也真的毫不在乎了。

主持人: 俗話說,如果資料已經證明某件事行不通,卻依然一遍又一遍地重複做,那就是瘋了。從某種意義上說,我認為這確實是一種瘋狂。

山姆·奧特曼: 我認為常常會發生這樣一種情況:當你把自己的身份認同與“某件事成與不成”深度繫結,當你沉浸於這種執念中時,一旦科學或實證結果證明你錯了,你就會因為包袱太重而無法釋懷,進而矇蔽了雙眼,看不見真相。我認為這對正反雙方都是一個重要的警醒。

接下來談談教育?教育顯然必須做出極大的適應性改變。說實話,我很擔憂。我本以為教育界現在應該已經做出改變了。如果我們繼續像處在“通用人工智慧時代之前(Pre-AGI)”那樣去教導和評估學生,那是絕對行不通的。這會導致學生“學習如何思考”的能力發生退化。我曾以為這一點已經不言而喻,所以之前並沒有那麼擔心。

當ChatGPT發佈時,我當時的真實想法是:沒錯,我們可能會經歷大概一年的陣痛期,學生們可能會用來作弊,學不到什麼真東西;但緊接著,整個教育系統就會自我重塑。然後我們就能把人們教得更好。學生們將真正接觸到那些“必須使用AI才能完成”的項目,但在整個過程中,他們依然需要極大地拓展思維,進行更深入的思考,去探索全新的解決方案。

但老實說,自ChatGPT發佈這三年半以來,我很難在宏觀教育系統中看到任何實質性的系統性變革。這是我預測失誤的地方。我本以為變革一定會發生。但我依然堅信我們能做到這一點。就像我們在過去每一次技術飛躍中所做的那樣,我們將重新設計教育的運作方式,確保人們依然需要去學習“如何思考”。

總會有一些事情是無法被完全取代的。比如,我是一個習慣通過寫作來思考的人,我寫的很多東西從不拿給別人看,但寫作本身對於我理清思路至關重要。所以我很慶幸自己學會了寫作。很多人對程式設計也有同樣的感觸。因此,即便未來機器在某些方面能比人類做得更好,我們依然會教導人們去掌握這些技能,因為這能很好地培養他們思考與學習的“元技能(Meta-skill)”,這也是非常合理的。但在很多其他方面,我們絕對應該徹底改變我們的教學、學習和評估方式。如果我們不這樣做,人們的批判性思維能力將會出現嚴重的退化。

主持人: 下一個問題是,你在史丹佛大學(Stanford)期間最喜歡的課程是什麼?有那些課是你現在希望當年能選修的?

山姆·奧特曼: 史丹佛現在還有入門研討課(IntroSems)嗎?大一的時候,我好像每個學季都會上三門入門研討課,而且我每一門都非常喜歡。它們的內容天差地別。現在回想起來,能夠在早期廣泛接觸各類事物,並對許多不同領域建立起那怕是很淺顯的認知,是一件極其寶貴的事情。如果沒上過這些課,我可能只會去選修電腦科學和物理課程——當然,那也會很棒。但我現在反思更多的是那些我上過的、看似極其隨意且與我現在的工作毫無關聯的課程,它們實際上在某些關鍵方面塑造了我的認知視角。

我認為不管怎樣,我最終都會學會程式設計。但我當時可沒這麼想。我那時的感覺是,雖然這些課很酷,但我的核心任務還是學習電腦科學。我唯讀了兩年大學就輟學了,所以還有很多我本來想上卻沒機會上的課。不過這恰恰是大學經歷中最令人驚喜的部分。

主持人: 下一個問題,你最大膽、最“辛辣”(Spiciest take)的觀點是什麼?

山姆·奧特曼: 如果給我更多時間思考,我肯定能想出一個更犀利的觀點。但我現在的觀點是:人工智慧將不可阻擋地持續向前發展。而且我認為,這個觀點目前還沒有被大眾普遍接受。如果大家真的普遍意識到了這一點,我們的社會早就該引發比現在劇烈得多的連鎖震盪了。

也許我並沒有什麼特別驚人的觀點。實際上,最核心的關鍵點(High-order bit)在於:如果人工智慧繼續沿著目前的指數級軌跡狂飆突進,既然距離ChatGPT發佈已經過去了三年半,那麼只要我們在這條軌跡上再前行三年半,這個世界、未來的潛力、社會的運作形態以及人類社會所能企及的高度,都將被徹底顛覆。

主持人: 讓我試著用更多的“思考令牌”(Thinking Tokens) 來提示(Prompt) 你一下。如果我們把你當作一個前沿模型(Frontier Model),你具備某些內在能力,而在接下來的幾分鐘裡,我們將試圖激發(Elicit) 出大眾尚不瞭解的潛力。其中一點是,你現在已經完成了後訓練(Post-training),甚至在 OpenAI 內部接受了持續的強化學習(RL),並結合了外部世界的反饋循環,充分瞭解了那些行得通、那些行不通。那麼現在,如果暫時把你當作一個預測引擎,給你的提示詞是:你認為未來 10 年裡,世界最可能出現的三個分叉點(Forks) 是什麼?你對每一個分叉點的機率評估是多少?這聽起來合理嗎?

山姆·奧特曼: 一個感覺極其重要的分叉點是:這項技術究竟能在多大程度上實現廣泛的普惠化(Democratized),又會在多大程度上被少數幾家公司壟斷把持。我認為,有很多理由表明,順其自然的默認結局就是技術集中在少數公司手中,進而由它們掌控地球上很大一部分財富。這顯然非常可怕,我們正竭盡全力去阻止這種情況的發生。

然而,我認為要避免這一結局,需要全世界的集體意志,因為目前存在一種天然走向集中化的“吸引子狀態”(Attractor State)。我堅信,我們需要將這項技術推向公用事業模型(Utility Model),因為一旦退無可退——即只有少數幾家公司掌握所有權力——那將是一個極其不穩定、糟糕且本質上極度不公平的局面。

除了公平性之外,我認為技術的高度集中代表了真正意義上的“對齊失敗”(Alignment Failure),並會造就一個極其脆弱的世界。實現一個多贏未來的最佳路徑——在這個未來裡,每個人的價值觀都能得到彰顯,每個人都能擁有能動性(Agency)——就是將這項技術毫無保留地推向全世界。

誠然,圍繞安全和穩定,肯定會有強烈的反對聲音來阻撓這一處理程序。我認為這將是一個重大的歷史分叉點,且至關重要。我鼓勵在座的各位在未來的職業生涯中,堅定地捍衛並推動這一信念:這應當是一項屬於全人類的技術。

它可以為我們帶來不可思議的科幻未來,生活將會得到難以置信的改善。為了抵達那個彼岸,我們固然要承擔一些風險。但是,將技術集中在少數幾家公司手中的風險——那怕我們自己就是其中一家公司——也是我們絕對不應容忍的。因此,我認為這將是一個巨大的分叉點。至於機率,全世界都理應為此付出極大的關注和利益訴求,所以我認為,我們有 80% 的機率會走向民主化、普惠化的道路。但屆時,必定會有強烈的關於安全方面的警告,也會有許多追逐權力的人企圖將力量據為己有。

主持人: 預測未來時,無論是你還是我們所有人,面臨的一個問題是:一旦你做出了預測,你就擁有了影響這個預測結果的能動性(Agency),進而去改變預測本身,對吧?

山姆·奧特曼: 我們很清楚自己將如何運用這種能動性。這就是我們的信仰。我們將盡一切努力,將它推向我們堅信的方向。只不過,我們也真切地看到了反方向的阻力。

另一個相關的分叉點是關於未來經濟模型的廣泛討論:我們要實行全民基本收入(UBI) 嗎?我們會讓每個人都持有一點所有公司的股份嗎?是保持資本主義一成不變,還是走向完全的共產主義?大家對此眾說紛紜。

但我認為被談論較少的一點是:我們究竟該如何具體地分配算力(Compute)?也許很大一部分經濟仍會按照它原有的軌跡運行。實際上,我現在對短期就業前景的悲觀情緒(Doomerism) 已經大大減輕了。我一直樂觀地認為我們會找到新的事情去做,短期內它甚至可能不會像我最初想像的那樣具有破壞性。

但我們現在確實看到了算力短缺。我可以預見情況會變得更糟,甚至可以想像,算力將成為人類需要的最重要的公共資源。因此,從供需角度來看,如果算力的價格嚴重失衡,我認為在這一點上就會出現一個非常有趣的分叉點。

主持人: 這意味著我們需要公平地分配算力。你剛才提到了兩點非常有趣的觀點:在經濟層面,我們可能需要全民基本收入,並且每個人都應該持有股份。

這門課的另一位演講嘉賓是挪威主權財富基金的掌門人 Nicolai Tangen。他非常了不起。挪威主權財富基金擁有全球所有上市公司 1.5% 的股份,且他們在實際上也已經推行了全民基本收入。

你甚至可以說,今天這種模式的雛形已經存在了,因為美國最大的僱主就是政府。有人可能會說,其中很大一部分機制,就是政府將納稅人的收入進行重新分配的方式。

那麼,這些解決方案是真的需要顛覆性的創新,還是僅僅需要在這個時代被重新應用?你怎麼看待這些解決方案的新穎性?在矽谷,我們通常有一種強烈的傾向,想要從第一性原理出發去重新發明一切。我們是不是只需審視現有的系統並加以調整即可?(註:正如你接下來會提到的,我不認為這兩者是互斥的。)

山姆·奧特曼: 這確實需要深刻的全新構思。儘管如此,我想說的是,比起每個月領固定的現金分紅,我更期待看到人們擁有某種形式的所有權(Ownership Stake)。 不久前,我資助了一項大規模的全民基本收入研究,我也觀察了人們在投資初創公司時的反應。我很清楚那種模式更契合人類的心理。因此,我真正渴望看到的是:隨著世界的槓桿正從勞動力向資本轉移——我認為這種趨勢將持續下去——我們必須找到一條出路。

最終在這個國家乃至全世界建立起類似“公民財富基金”的機制。通過這種機制,你基本上就擁有了資本主義的一塊切片,對吧?也就是擁有了這些公司的一部分。

主持人: 接著說關於算力瓶頸的第二個分叉點,你提到當算力價格失控時。根據我們所看到的資料,我目前的理解是,自今年一月以來,H100 和 Blackwell 晶片的長期預訂價與現貨(Spot) 價之間的價差大概是 5 倍。我不確定現在是否還有這麼高,可能略有緩解,但確實依然很高。前提是你還能找到 H100,因為今年的貨源基本已經全被搶空了。這情況屬實嗎?(毫無爭議,確實存在巨大的算力短缺。)

所以,這就是一個當前正在真實發生的系統性問題的絕佳現實例子。對一些人來說,這感覺就像是算力時代的“新冠疫情爆發”——就好像所有的衛生紙都被搶空了一樣。為什麼大家對這件事還不感到恐慌呢?

山姆·奧特曼: 我想,人們可能假設我們會在現有的硬體上取得巨大的推理(Inference) 性能提升。我也認為隨之而來的是一股硬體的海嘯。但也許,需求的海嘯還要更加洶湧。

主持人: 人們確實應該感到一定程度的恐慌。那麼,你認為這合理嗎?至少基於你目前掌握的資料來看,我們還要在這種算力短缺的狀況下掙扎多久?

山姆·奧特曼: 我認為,這就好比如果不談價格,你就無法真正討論全球的電力需求。如果能源價格下降 10 倍或上漲 10 倍,世界對能源的需求量將截然不同。我認為人工智慧也是如此。如果我們能打造出……

足夠聰明且成本足夠低的模型,我認為需求基本上是無上限的(Uncapped)。因此,從某種意義上說,只要我們能繼續在這個領域取得進展,短缺就將永遠存在。市場上的競價將始終高於我們心目中的合理價格。儘管人們正在獲得更好、更聰明、更強大的智能,但僅僅因為你可以無止境地去使用它們。

試想,如果我們開發出非常出色的人工智慧體(Personal Agents),你大可以同時讓 10 個 Agent 替你全天候地跑任務、做工作,甚至是 100 個。而且我相信,你肯定會想要 100 個的。

主持人: 這其中包含了大量的推理(inference)和十足的自信。太棒了!那麼,現在我要把這門課的紀念品送給你,感謝你的到來。謝謝,謝謝大家! (藍血研究)