OpenAI 最近操作不斷,Sora App、Dev Day 的密集發佈、與 Nvidia、AMD 的各種協議合作等等。
很明顯,在 ChatGPT 和基礎模型之外,他們想要更多。
「我們的目標並不是做「超級 App」,而是要建構一個真正強大的 AI 超級系統。」
在 a16z 最近的訪談中,Sam Altman 描述了他們的目標:一個集前沿研究、超大規模基礎設施和消費級產品於一體的超級系統。
一個人人會使用的個人 AI 訂閱服務,使用者不僅能在 OpenAI 的消費產品裡使用它,還能用它登錄許多其他服務,未來某個時候,還可以通過專用硬體來使用它。
一個無處不在的 ChatGPT,一個整合了產品、基礎設施和硬體的超級公司。
訪談中,Altman 還分享了很多他對於業務的實際思考,包括對於不同業務的底層邏輯思考、現在的產品策略是什麼、為什麼要做 AI 基建、Sora 的盈利模式、對於 agent 的看法等等。
主持人:在 2025 DevDay 上,你對發佈的那部分內容最感興趣?
Sam Altman:所有。非要說一個重點,是 App 和 ChatGPT 的結合。
但我覺得我們還需要一些迭代,來摸索出人們真正想怎麼用這些東西。比如:使用者到底更傾向於通過呼叫某個應用來完成任務,還是希望 ChatGPT 本身就知道他們想幹什麼並主動推薦?我認為,開發者最終會找到一種新的分發機制,非常適合他們。但說到底,這些產品推向世界後,總是會帶來一些意想不到的驚喜。
主持人:OpenAI 現在很複雜,是一個消費級科技公司,一個 scaling 的 infra 營運商,一個 research lab,還有硬體,應用程式商店等等。OpenAI 到底想做什麼?
Sam Altman:是的,可以看作是三家公司,或者說,第四部分是我們以自己的方式打造的、一個規模龐大的研究實驗室。但核心業務主要有三個。我們希望成為人們的個人 AI 訂閱服務,我認為大多數人都會訂閱一個,有些人可能會訂閱好幾個。你不僅能在我們自家的消費產品裡使用它,還能用它登錄許多其他服務,未來某個時候,你還可以通過專用硬體來使用它。最終,你會擁有一個真正瞭解你、並且對你非常有用的 AI,這就是我們想做的。事實證明,為了支撐這一切,我們還必須建設海量的基礎設施。但這套基礎設施的目標,或者說我們真正的使命,始終是「AGI,並使其對全人類有益」。
主持人:你們的基礎設施未來會成為一項獨立業務,還是只服務於個人 AI訂閱這個核心目標?
Sam Altman:你是說,我們會不會把基礎設施作為服務賣給其他公司?直覺上,它未來可能會衍生出一些別的用途,但我們目前還沒有明確的計畫。目前我們的計畫只是支援我們想要提供的服務和研究。
主持人:在 ChatGPT 還沒有出現的時候,你開玩笑說 OpenAI 的商業模式要去問 AI,現在來看,這句玩笑話是不是比我們想像的更認真?
Sam Altman:那句話並不完全是玩笑。但我們確實有好幾次,包括最近一次,向當時最新的模型詢問我們應該怎麼做,它都給出了我們自己沒注意到、但很有洞察力的答案。能實現的關鍵在於你得給它足夠多的背景資訊。
所以,當我那麼說的時候,大家可能只把它當成一句趣話,但其實它既有玩笑的成分,也有認真的成分。
主持人:除了擴大分發和算力之外,連接這些不同業務的底層邏輯是什麼?
Sam Altman:研究讓我們能做出偉大的產品,而基礎設施讓我們能進行研究。所以它就像一個垂直整合的技術堆疊。你可以用 ChatGPT 或其他服務來獲取建議,但要讓它有效,背後需要前沿的研究和大量的基礎設施。所以,它們其實是一回事。
我過去一直反對垂直整合,但現在我覺得我可能錯了。人們總希望經濟是高效的,理論上公司應該只做一件事,然後與其他公司協作。但在我們的案例中,至少目前看來並不是這樣的。OpenAI 的發展經歷告訴我們,為了實現我們的使命,我們必須做比最初想像中更多的事情。
iPhone 就是一個垂直整合的例子。我認為 iPhone 是科技行業有史以來最了不起的產品,而且它實現了極高的垂直整合度。
主持人:談談你們的產品戰略。最終是想打造一個無所不包的「超級應用」,還是一個由多個應用構成的「超級系統」?
Sam Altman:我們的目標並不是做「超級 App」,而是要建構一個真正強大的 AI 超級系統。
Sora 作為一個獨立的應用發佈,而不是整合到 ChatGPT 裡,是因為對很多使用者來說,ChatGPT 是他們最私人的帳號之一。如果把一個「社交體驗」也強行塞進去,感覺會很奇怪。你可以想像加入一些「消息」功能,因為很多人確實會分享內容、進行協作。但從使用者心態來看,他們對 ChatGPT 的認知,和對一個娛樂類 App 的認知是完全不同的,混在一起會有割裂感。當然,我們也會把很多功能直接加到 ChatGPT 裡,但有些東西還是更適合獨立發佈。
主持人:你覺得現在人們可以建構那些真正重要、有用的 Agent?你最看好那一類?
Sam Altman:我覺得可以參考一下 Codex 的發展,然後把這種思路推廣到其他行業。比如:能不能為法律、金融建模,或其他我們已經看到早期成功案例的領域,打造像 Codex 一樣的體驗?其實現在已經有一些很棒的初創公司在做這些方向了。隨著技術的成熟,如果你能讓這些 Agent 在各自行業中,做到像 Codex 在程式設計領域那樣強大,那將是我最感興趣的方向之一。
想像一下未來的場景:一個人只需要和一堆 Agent 對話,就能啟動一個公司。現在的 Agent Builder 和 AgentKit 還沒完全達到這個水平,但我能看到我們正在往這個方向靠近。
主持人:聊回你之前提的「一人十億美元公司」賭局。距離一個能真正獨立幹完一周工作、完全不用人操心的 Agent,還有多遠?
Sam Altman:我覺得,像 Code Interpreter(程式碼直譯器)這樣的工具,距離完成「一周的工作量」其實已經不遠了。雖然聽起來有點瘋狂,但我覺得這並不是一個遙不可及的 2025 年目標。
我和一些人聊起這事,他們也很驚訝地說:「它現在真的已經能完成一天的任務了?怎麼發展得這麼快?」老實說,我通常不會覺得 AI 的進步有多誇張,但在 ChatGPT Code Interpreter 能完成的任務長度這個方面,我真的感受到一種爆炸式的進展。所以我猜,一周等級的任務,可能真的很快就能實現。
主持人:要實現這種 Agent,還需要那些技術上的突破?
Sam Altman:更聰明的模型、更長的上下文處理能力、更好的記憶系統。
主持人:AI 極大地降低了開發門檻,你認為初創公司真正的護城河(moat)在那裡?是資料、分發,還是獨特的工作流?
Sam Altman:我覺得挺難回答的。我認為最好的「獨特優勢」,往往是你自己為你要做的事情量身打造的。我們在 OpenAI 也花了很多精力去找到這一點。我覺得這沒有通用的「最佳答案」。最好的回答應該是:你找到了一些,只對你當前產品、技術、市場定位在這個時間點上才成立的獨特東西。而這類東西,往往就構成了你能創造巨大價值的核心。
不過,有一點通用的建議我可以說:你是在做的過程中逐步發現優勢的。我很喜歡一句經典的商業名言,「讓戰術變成戰略。」你可以先從一些「有用、能跑得通的事情」開始,往往在這個過程中,就會慢慢浮現出某些可以上升為戰略的東西。如果你在我們剛開始做 ChatGPT 的時候問我:「你們未來會有什麼持久的優勢?」我可能會說「我也不知道」,或者給你一堆猜測,但不會有特別自信的答案。但現在回頭看,像「記憶」功能,其實就成為了一個非常強的競爭優勢,也是使用者持續使用 ChatGPT 的重要原因之一,但當時我們壓根沒想到這點。所以你在建構功能時,有時會意外地發現:「哇,這個點其實可以成為我們長期的護城河。」這就是你一邊走、一邊找、慢慢形成的過程。
主持人:如果我們站在 GPT-6 的時代回望今天,你認為什麼樣的產品決策,能讓應用經受住時間的考驗?
Sam Altman:最終還是得你自己去摸索出來。我覺得 AI 雖然改變了世界上很多事情,但它並沒有改變一個公司獲得優勢的底層機制。比如說,網路效應、品牌和市場優勢、使用者資料、平台或市場的雙邊效應等等,這些因素過去行得通,現在依然有效。如果你去列一個近幾年成功企業的清單,那些驅動力大機率現在也還適用。只不過,現在可能會有一些新的策略、新的打法。
主持人:作為 CEO,你最近和 AMD、Oracle 等公司達成了一系列合作。與早年相比,你在達成這些交易時的思路有什麼變化?
Sam Altman:我那時確實沒什麼營運和管理經驗。我天生不是那種適合經營公司的人,更擅長做投資。我之前就是幹這個的,也一度以為那就是我的職業方向了。
我在那之前也當過 CEO,但當得不好。所以我認為,在做那筆交易時,我的心態更像一個為公司提供建議的投資者。而現在,我明白了真正營運一家公司是什麼感覺。我花了很多時間才學會怎麼把一筆交易真正在營運層面落地,怎麼去考慮協議背後所有的連鎖反應,而不僅僅是盯著「拿到錢和管道」這麼簡單。
主持人:你們既與這些公司合作,也存在潛在的競爭關係。你是如何決定何時合作、何時競爭的?
Sam Altman:我們已經下定決心,是時候進行一次非常激進的基礎設施投資了。因為我對我們未來的研究路線圖,以及這些新模型能創造的經濟價值,從未像現在這樣充滿信心。但要在如此大的規模上進行投資,我們需要整個行業,或者說行業裡的一大批關鍵角色來共同支援。這涉及到從最底層的硬體(electrons)到最上層的模型分發,以及中間所有環節。因此,我們會和非常非常多的人合作。在未來幾個月,你會看到我們在這方面有更多動作。
主持人:當你談到擴張規模時,似乎沒有上限。在你看來,限制 OpenAI 規模的因素是什麼?
Sam Altman:上限肯定是有的。比如全球的 GDP 就是一個硬上限,其中知識型工作又只佔一部分,而且我們目前還沒涉足機器人領域。所以限制是客觀存在的,但感覺這些限制離我們今天的水平還非常遙遠。如果我們對模型能力發展方向的判斷是正確的,那麼它能釋放的經濟價值就有極大的想像空間。如果你只有今天的模型,當然不會按那個規模去擴張。不過,即便如此我們還是會繼續擴張,因為我們能清楚地看到,僅憑現有模型,就有大量需求我們無法滿足。但如果我們只有今天的模型,我們不會如此激進地擴張。是因為我們看到的不僅僅是今天的模型,我們能比市場提前一兩年看到未來。
主持人:那些投入是為了實現 AGI,那些又是為了避險不確定性的?
Sam Altman:表面上看,Sora 似乎與 AGI 不太相關。但我敢打賭,如果我們能建構出非常出色的世界模型,它對 AGI 的重要性將遠超人們的想像。
這和 ChatGPT 的情況很像。當初也有很多人覺得它離 AGI 很遠,但它卻給我們帶來了巨大的幫助:不僅讓我們能訓練出更好的模型,也讓我們第一次真正瞭解社會想怎麼用這項技術,更重要的是,它迫使整個社會開始認真對待 AGI。在 ChatGPT 出現前的很長一段時間裡,我們談論 AGI,人們要麼覺得這不可能發生,要麼根本不關心。是 ChatGPT 的出現,才讓大家突然開始關心這件事。
所以,撇開研究上的好處不談,我堅信,社會與技術必須共同演進。你不能等到最後把一個完美的東西直接扔給世界,那行不通。它必須是一個持續的、相互適應的過程。
主持人:你曾說過,在職業上你最關心的兩件事是 AI 和能源。現在這兩者是如何融合在一起的?
Sam Altman:我當時並不知道它們最終會成為同一件事。它們原本是兩個獨立的興趣,但現在確實融合在一起了。 回顧歷史,改善人們生活質量最具影響力的因素就是更廉價、更豐富的能源。所以,進一步推動能源發展是個好主意。每個人看世界的角度不同,而在我的視角裡,能源無處不在。
主持人:隨著 AI 對能源需求的激增,你認為未來的能源結構會是怎樣的?政策上應該如何應對?
Sam Altman:我預計短期內,美國新增的基荷電力主要會來自天然氣。但長期來看,我相信主導能源將是太陽能加儲能以及核能的某種組合。具體比例不好說,但這兩種會是未來的主力。這包括了先進的裂變技術、小型模組化反應堆(SMRs)以及核聚變等整個技術方向。
主持人:Sora 在你們的戰略中扮演什麼角色?為什麼要把寶貴的 GPU 資源投入到 Sora 上,這是一種長短期的權衡嗎?
Sam Altman:Sora 有幾個層面的意義。
首先,能做出人們喜歡的好產品,本身就是一件很酷的事。
其次,也是更重要的一點,這正是我所說的「共同演進」:讓社會提前感受即將到來的技術。很快,世界就必須面對強大的視訊模型,它們能深度偽造任何人,能生成任何你想要的畫面。這大部分是好事,但社會也需要一個適應期。就像 ChatGPT 一樣,我們覺得世界需要瞭解這項技術的發展方向。我認為讓世界盡快瞭解視訊技術的發展方向非常重要,因為視訊比文字更具情感共鳴力,很快我們將進入一個視訊無處不在的世界。
除此之外,就像我前面提到的,Sora 對我們的研究計畫有幫助,也是通往 AGI 路上的一部分。而且話說回來,AI 的意義也不該只是追求極致的效率、解決所有問題。這條路上也應該有樂趣、喜悅和創造力。當然,我們不會把海量的算力都投給它,Sora 只佔了我們總算力的一小部分而已。
主持人:你曾說模型已經讓聊天這個應用場景飽和了。未來的 AI 人機互動,在軟硬體上會是什麼樣的?
Sam Altman:我需要澄清一下,我當時說「聊天」飽和,指的是一個很窄的範圍:如果你只是想進行簡單的日常對話,那現在的模型確實已經很好了。但是,作為一個互動介面,「聊天」的潛力還遠沒有達到飽和。比如,你可以對聊天介面說:「請治癒癌症。」模型顯然還做不到。
所以我認為,文字互動這種形式還有很長的路要走,即便對於閒聊類的應用,模型已經很出色了。當然,未來肯定還會有更好的互動介面出現。
Sora 的一個很酷的地方在於,想像一下,未來的互動介面可能是一個由 AI 即時渲染出來的動態視訊世界。這會解鎖多少可能性?另外,你也可以想像新型的硬體裝置,它們能時刻感知周圍環境的狀況。你的手機不會再隨時用簡訊通知來打擾你,而是能真正理解你的處境,知道在什麼時候向你展示什麼內容。所有這些都還有很長的路要走。
主持人:關於盈利模式,你目前最關心或者正在探索的方向是什麼?
Sam Altman:我現在最關心的是 Sora 的盈利模式,因為它剛剛發佈,使用量非常大。發佈這種產品總能讓你學到一件事:使用者實際用它的方式,和你最初設想的差別有多大。大家當然在用我們預想的方式使用 Sora,但同時也出現了大量我們沒想到的用法,比如生成自己和朋友的搞笑表情包,然後在群聊裡分享。這需要一種非常不同的盈利模式。
Sora 視訊的製作成本很高。對於每天生成幾百次的使用者來說,這將需要一種與我們原先設想的完全不同的盈利方式。Sora 背後有一個很酷的假設,那就是人們其實有強烈的創作慾望,並不是傳統網際網路理論裡說的只有 1% 的人創作。可能只是過去的工具門檻太高了。我覺得這是個非常棒的轉變,但這也意味著我們必須為這種高頻的創作行為,找到一種全新的、可持續的盈利模式。我猜,對於這種高成本的生成,可能最終還是得按次收費。
主持人:對於長尾使用者,你考慮過廣告變現嗎?
Sam Altman:持開放態度。和許多人一樣,我覺得廣告有點令人討厭,但並非完全不可行。有些廣告我甚至很喜歡,比如我很讚賞 Meta 的一點是,Instagram 的廣告對我來說常常是加分項,我確實喜歡看。人們對 ChatGPT 有著非常高的信任關係,即使它出錯、產生幻覺,人們也覺得它在努力幫助他們,做正確的事。如果我們破壞了這種信任,比如當使用者問「我該買那款咖啡機?」時,我們推薦的不是最好的,而是付了錢給我們的一款,那麼這種信任就會消失。所以那種廣告是行不通的。但我能想像到其他一些類型的廣告是完全可行的,只是在設計上必須極其小心,避免踩進那些明顯的坑裡。
主持人:你怎麼看版權問題的未來走向?比如,訓練資料是否屬於「合理使用」?
Sam Altman:這是我目前的猜測。正如社會與技術共同演進一樣,隨著技術向不同方向發展,情況也會變化。比如我們已經看到,版權方對視訊模型的反應,就和當初對圖像模型的反應很不一樣。所以這個領域會持續演變。但如果讓我從今天的立場做一個預測,我認為社會最終會接受:AI 用公開資料進行訓練屬於「合理使用」(fair use)。但在生成內容時,會有一套新的模式,比如你要模仿特定風格或使用某個 IP。
這就像一個作家,可以閱讀一部小說並從中獲得一些靈感,但不能直接抄襲。你可以討論哈利·波特,但你不能把整本書背出來當成自己的作品。
另外,我覺得還有一件事正在發生變化,這點在 Sora 上特別明顯。我們當然收到了很多版權方的擔憂,但同時也收到了很多另一種聲音:他們擔心的不是我們用了他們的角色,而是我們用得還不夠多。他們當然也需要限制,不希望自己的角色說出一些瘋狂或者冒犯的話,但他們更希望粉絲能和角色互動,因為這樣才能建立情感連接,讓他們的 IP 更有價值。如果我們的模型總是選擇別人的角色而不是他們的,他們反而會不高興。
所以,我完全可以想像這樣一個世界:在版權持有者自己決策的前提下,他們擔心的將不再是「用太多」,而是「用太少」。
主持人:從 ChatGPT 發佈到現在,AI 的發展肯定有很多超出你預料的地方。如果讓你只挑一件,什麼事最讓你感到驚訝,甚至徹底改變了你之前的某些判斷?
Sam Altman:有很多事讓我驚訝,但最有趣的是我們發現了多少「新東西」。
當初我們發現語言模型的 Scaling Laws 時,我們以為自己偶然發現了一個巨大的秘密,這感覺像是一次不可思議的勝利。我當時想,我們可能再也不會有這麼好的運氣了。但深度學習就像一個不斷創造奇蹟的源泉,我們接二連三地取得了突破。當我們再次在推理模型上取得突破時,我同樣覺得,這樣的好運可能不會再有第二次了。這項技術能如此成功,似乎是一件機率極小的事情。但後來我想,也許所有重大的科學發現都是這樣:當它足夠基礎、足夠根本時,它的潛力就會持續不斷地湧現出來。但進展的速度非常快,如果你現在回頭去用 ChatGPT 剛發佈時的 GPT-3.5,你會覺得:「我簡直不敢相信當時有人會用這個東西。」而現在,我們已經創造出了巨大的「能力富餘」(capability overhang)。
普通大眾對 AI 的理解還停留在 ChatGPT 的水平;然後矽谷的一些技術愛好者在使用 Codex,他們會覺得普通人根本不懂 AI 已經發展到什麼程度了;而極少數頂尖科學家又會覺得,那些用 Codex 的人也同樣不瞭解前沿模型真正的潛力。今天,模型的能力和公眾的認知之間已經存在巨大的鴻溝,我們在能力上已經走了非常非常遠。
主持人:我們用大語言模型(LLM)到底能走多遠?在那個節點會需要新的技術架構或突破?
Sam Altman:我認為,僅憑現有的技術路線,我們就能走得足夠遠,遠到足以創造出一個能幫我們找到下一條技術路線的 AI。我知道這個答案聽起來有點像自我循環,但你想想,如果基於 LLM 的系統,它的研究能力能超過整個 OpenAI 團隊的總和,那或許就足夠我們抵達下一個里程碑了。
主持人:你之前對 AGI 的定義是:當它在大多數具有經濟價值的任務上超過人類。如果某個模型在 GDPval 的得分達到某個程度,你會認為 AGI 實現了嗎?
註:GDPval 是 OpenAI 於 2025 年 9 月 25 日提出的一項新的評估方法,用於衡量 44 個職業中具有經濟價值的現實任務的模型性能。
Sam Altman:我最近也在認真思考這個問題。首先,像很多人一樣,我對 AGI 也有多個定義。離目標越近,這個概念反而越模糊。但對我來說,最重要、也是讓我最驚喜的一點是:我們已經開始看到 AI 具備「發現新知識」的能力了。也就是說,AI 可以擴展人類目前的知識邊界。雖然現在這些例子還很小,但這才是我最在意的突破。
主持人:我們往後看幾年,你認為 AI 模型下一個真正讓人興奮的能力躍遷會是什麼?是更深度的白領工作替代、AI 科學家,還是人形機器人?
Sam Altman:會有很多方面,但你提到了我最興奮的一點,「AI 科學家」。我知道關於圖靈測試的嚴格定義一直有爭議,但大眾理解的那個圖靈測試,早就被我們不經意間超越了。
我們之前都覺得圖靈測試遙不可及,是 AI 領域的終極考驗。然後突然之間,它就被攻克了。全世界為此熱議了一兩個星期,然後大家很快接受了現實:「好吧,看來電腦現在也能聊天了。」然後一切照舊。我認為,科學領域正在發生同樣的事情。
對我個人而言,真正的「圖靈測試」,是看 AI 能否獨立進行科學研究。那才是真正能改變世界的時刻。而隨著 GPT-5 的出現,我們已經開始看到一些微小的火花了。你會在 Twitter 上看到這樣的例子,有人分享它幫助自己有了一項新的數學發現,或者在我的物理、生物研究項目中解決了一些小問題。我們看到的一切都表明,這個方向將會有更大的發展。
所以我認為,在兩年內,模型將能承擔更大部分的科學工作,並做出重要的發現。這是一件瘋狂的事情,將對世界產生巨大的影響。我一直相信,從根源上說,是科學進步在推動人類社會變得更好。如果我們即將迎來更多的科學進步,那將是一件大事。
主持人:這很有趣,因為這是一個人們不常談論的積極變化。當談到 AI 變得極度聰明時,評論經常是聊到負面影響。但對於碳排放和疾病這些問題,我們確實需要更多的科學。
Sam Altman:是的,這一點說得很好。我記得 Alan Turing 曾說過,有人問他:「你真的認為電腦會比傑出的人類頭腦更聰明嗎?」他回答說:「它不必比傑出頭腦更聰明,只需要比平庸的頭腦更聰明就行,比如像 AT&T 的總裁那樣。」 (Founder Park)