#關閉Sora
OpenAI關閉Sora之後 | OpenAI總裁對話實錄
4月2日,OpenAI 聯合創始人兼總裁 Greg Brockman 接受海外播客Big Technology 的深度訪談。本次對話中, Greg Brockman 首次回應了OpenAI 為何在視訊生成風頭正勁時選擇關停Sora APP,在 AI 競爭進入白熱化的當下,OpenAI 轉向全速推進“超級應用”與“推理模型”的真實意圖以及戰略抉擇。此外介紹了超級應用的終端形態、揭秘了代號為“Spud”的新一代預訓練模型,詳細探討了Scaling Law 在推理側的演進以及算力經濟學等話題。Greg Brockman指出,公司正處於從能力展示向現實效能轉化的轉折點,核心邏輯已從“驗證技術可行性”轉向“獲取知識工作的深度反饋”。他透露,即使擁有全球頂尖的算力儲備,也無法同時支撐視訊生成(Sora)與核心推理(GPT)這兩個完全不同的技術樹分支,OpenAI 現階段選擇收縮 Sora 的商業化投入,是為了確保資源向具備更高協同效應、能解決物理與科學難題的推理路徑絕對對齊。關於 AGI的進度,Greg Brockman認為 AGI 已經完成了 70% 到 80%,並將在未來幾年內實現。他指出,AGI 的判斷標準不應是圖靈測試或感官上的智力構想,而應是“經濟模式全面轉型的時刻”,即 AI 能夠自主勝任幾乎所有電腦端的智力任務。針對超級應用,他指出,未來的超級應用是程式設計、瀏覽器與對話的合體,未來的 AI 不應讓人類去適應電腦的操作邏輯,而是由 Agent直接操控網頁並處理複雜背景資訊,人類則演變為管理成千上萬 Agent 艦隊的CEO,承擔最終的問責制。關於代號為“Spud”的全新預訓練基礎模型,他指出,預訓練的提升具有巨大的乘數效應,基礎能力的跨越能顯著降低後續強化學習與推理的成本。同時,他詳細闡述了即將發佈的自動化研究員路徑,該系統能接管研究科學家的端到端工作流,通過 AI 反哺 AI 研發實現技術騰飛。在算力經濟,他提出,算力不是“成本中心”,而是像僱傭銷售人員一樣的“收入中心”,算力的建設規模直接決定了企業收入的邊界。01放棄 Sora的戰略取捨OpenAI 目前在消費級市場已取得領先,但近期似乎在收縮Sora方面的投入,轉而集中精力開發結合商業和程式設計場景的“超級應用”。作為外界觀察者,我們很好奇這種資源轉移背後的真實考量是什麼?你們在優先順序排序上是如何權衡私人助手與生產力工具的?Greg Brockman: 我是這樣看的,我們一直處於開發深度學習技術的世界中,真正的目標是驗證這項技術能否產生我們預想中的正向影響,以及它能否被用來建構改變人們生活的應用程式。此前,我們一直有一支專門的力量在嘗試實際部署,無論是為了維持業務運轉,還是為了在技術真正成熟並實現我們創立公司時的願景之前,積累現實世界的應用經驗。我認為我們正處於一個轉折點,我們已經看到這項技術確實有效。我們正在超越單純的基準測試和能力展示,進入一個新的階段:為了進一步開發,我們需要將其投入現實世界,從知識工作和各種實際應用中獲取反饋。由於技術發展階段的變化,這是一個重大的戰略轉移。這並不代表我們正從消費者市場轉向 B2B,我們真正想表達的是,面對眾多的可能性,那些是最核心的應用?因為我們無法面面俱到,我們需要專注於那些在建構時能產生協同效應,並能提供深遠影響,從而提升每個人效率的功能。在我們的願景中,消費級應用涵蓋很多方面。它可以是私人助手,瞭解你、與你的目標一致並協助你達成人生目標,也可以是創意表達或娛樂工具。而在商業領域,核心其實是一件事:當你有一個困難的任務時,AI 能否利用所有的背景資訊去完成它?對我們來說,優先順序排序中排在最前面的是兩件事:一是私人助手,二是能幫你解決難題的 AI。即便以我們目前擁有的算力,甚至都不足以同時支撐這兩件事。如果我們繼續增加更多其他非常有用的 AI 應用場景,資源會更加捉襟見肘。這是對技術快速成熟及其巨大影響的預判,我們需要明確優先順序,挑選出最能造福世界的應用集。02Sora 與 GPT 屬於不同技術分支,必須放棄全面開花你曾用迪士尼的“米老鼠”模型來類比 OpenAI:以模型為核心衍生出視訊、助手和企業服務。現在 OpenAI 是否已經無法再維持這種“全面開花”的狀態,必須在不同產品方向間做出殘酷的取捨?此外,既然視訊生成的進步有目共睹,為什麼你們最終押注 GPT 推理模型,而不是在 Sora 這樣理解世界物理規律的“世界模型”領域繼續投入?Greg Brockman: 實際上我認為這個類比現在比以往任何時候都更貼切。但在技術層面必須理解的是,Sora 模型雖然非常出色,但它與核心推理模型 GPT 系列屬於不同的技術樹分支。它們的建構方式完全不同。在某種程度上,同時追求這兩個分支對我們目前的資源來說確實太難了。目前,我們依然在機器人領域繼續進行 Sora 的研究計畫,因為機器人顯然將是一個變革性的應用,儘管它仍處於研究階段。機器人技術還沒有像知識工作那樣成熟到可以大規模部署的程度。這是一種戰略選擇:在當前這一時刻,我們需要將主要精力放在 GPT 系列的開發上。這並不意味著我們只做文字或腦力工作。例如,雙向通訊、出色的語音互動介面,這些都能讓技術變得非常易用且實用。但這些並不屬於不同的技術分支,它們源自同一個模型,只是進行了不同的微調。如果你把戰線拉得太長,在算力有限且需求極大的世界裡,是很難維持兩個不同產品方向的。(關於為何押注推理)這個領域最大的問題是機會太多了。我們在 OpenAI 早期就觀察到,只要是能想像到的技術路徑幾乎都行得通。雖然工程難度和算力需求各不相同,但只要數學邏輯成立,都能產生不錯的結果。這證明了深度學習底層的力量,它能觸及問題的實質,讓 AI 真正理解生成資料的底層規則。這不只是關於資料本身,而是理解底層的運作過程並將其應用到新語境中。無論是世界模型、科學發現還是程式設計,都是如此。關於文字模型能走多遠、文字智能是否能真正構築世界觀,這些爭論曾非常激烈。我認為我們已經給出了明確答案:它將通向 AGI。我們已經看到了實現這一目標的清晰路徑,也看到了今年即將推出的更強大的模型。在內部,關於如何分配算力的決策確實越來越痛苦。我們的核心邏輯是聚焦順序和時機。目前,一些曾被視為夢想的應用已觸手及輕。例如,解決未解決的物理難題。最近一位物理學家將困擾他許久的問題交給了我們的模型,12 小時後就得到瞭解決方案。他說這是他第一次感覺到模型在思考,解決了一個人類可能永遠無法攻克的難題。當你看到這種潛力時,你必須傾注所有資源去加倍投入,因為這能為全人類釋放巨大的潛能。對我來說,這不僅是重要性的比較,更是關乎 OpenAI 的使命:將 AGI 帶給世界並讓每個人獲益。03未來的超級應用是程式設計、瀏覽器與對話的合體GoogleDeepMind 的 Demis Hassabis 曾認為圖像/視訊生成器最接近 AGI,因為它們需要理解物理世界。如果你放棄這個分支,是否會錯失關鍵機會?另外,你心目中那個整合了所有核心能力的“超級應用”到底是什麼樣的?它針對的是商業還是個人場景?Greg Brockman: 兩個回答。第一,絕對存在這種可能(錯失機會)。在任何領域,你都必須做出選擇和博弈。OpenAI 的起點正是基於我們所堅信的實現 AGI 的路徑,並為此全力以赴。隨機向量的總和為零,但如果你能對齊向量,你就能朝著一個方向突圍。第二點是,圖像生成在 ChatGPT 中非常受歡迎,我們會繼續優先投資。之所以能做到這一點,是因為我們的圖像生成並非基於擴散模型分支,而是基於 GPT 架構。雖然資料分佈不同,但底層核心技術是統一的。這就是 AGI 奇妙的地方:語音互動、圖像生成、文字、科學研究和程式設計,這些看起來迥異的應用,其實都可以在同一個技術框架內實現。我們正在努力實現技術上的最大統一,因為這項技術將驅動整個經濟體。雖然我們無法獨自完成所有事情,但我們會盡力做好核心部分。(關於超級應用形態)我心目中的超級應用將把程式設計、瀏覽器和 ChatGPT 結合在一起。我們要建構一個終端應用,讓你真正體驗到 AGI 的通用力量。現在的對話功能將演變成你的個人 AGI 助手,它瞭解你、與你目標一致且值得信賴,在數字世界中代表你。目前的 Codex 可能更像是一個面向軟體工程師的工具,但它正在進化為面向每個人的工具,讓任何人都能通過它指揮電腦完成任務。它不再僅僅關乎軟體,而是關乎如何使用電腦。比如我想設定筆記本的複雜選項,直接告訴 Codex,它就會幫我完成。這才是電腦該有的樣子:順應人類的習慣,而不是讓人類去適應電腦。想像一下,一個應用就能處理你對電腦的所有需求。它內建了瀏覽器功能,AI 能夠實際操作網頁,並讓你負責監督。無論是聊天、程式碼還是知識工作,所有的對話都將統一,AI 擁有記憶並深刻地瞭解你。但這只是冰山一角。更重要的是技術底層的統一。現在不再僅僅是模型本身的問題,而是框架的問題。模型如何獲取背景資訊、如何與世界連接、能採取什麼行動,以及互動的循環如何運作。這些環節我們原本有多個不同的實現,現在正在進行融合。最終我們會形成一個強大的 AI 層,通過非常輕量化的方式指向特定的應用。你可以為金融或法律領域建構外掛或介面,但通常情況下,你只需要這個功能極度廣泛的超級應用。(關於應用場景)兩者兼顧。這正是它的核心。就像你的筆記型電腦一樣,它既是生產力工具,也是生活工具。它是你的個人機器,為你提供了一個進入數字世界的介面。04競爭白熱化的當下,OpenAI 追趕並反超的機會在那?Anthropic 已經通過 Claude 建構了屬於自己的超級應用,並搶佔了先機。你認為 Anthropic 敏銳察覺到了那些你們此前忽略的痛點?在競爭白熱化的當下,OpenAI 追趕並反超的機會在那裡?Greg Brockman: 回看過去一年多,我們一直將程式設計視為核心領域。在各類高難度程式設計競賽中,我們的模型表現始終處於頂尖水平。但我們此前在應用落地的最後一公里上投入不足。儘管AI 非常聰明,能解決複雜的競賽題目,但它從未接觸過現實世界中雜亂的程式碼庫,真實環境遠不如競賽環境那樣純淨,這正是我們之前的短板。(關於追趕進度)但從去年年中開始,我們開始認真解決這個問題。專門的團隊在研究現實世界的複雜性,包括如何獲取訓練資料、建構訓練環境,讓 AI 體驗真實的軟體工程流程,應對各種異常幹擾。目前我們已經追趕了上來。在與競爭對手的直接對比中,使用者往往更傾向於我們的產品。這證明了擁有優秀模型的同時,不能只盯著競爭對手。如果只關注對手的位置,當你到達時,對方已經移動了。現在情況發生了逆轉,很多人在盯著我們的位置,而我們已經邁向了下一步。我非常看重公司內部的這種合力。以前我們將研究和部署視為獨立環節,現在我們實現了深度整合。目前的狀態讓我感到踏實。外界的評價往往毀譽參半,但我們始終保持著穩健的節奏。在模型生產的核心環節,我對路線圖和研究投入充滿信心。在產品側,全公司的能量正匯聚在一起,將成果交付給世界。05下一代模型揭秘自2022 年以來 OpenAI 雖是領導者但競爭已白熱化,公司內部是否已進入“戰時模式”並取消了無關副業?傳聞中已完成預訓練的 Spud 模型到底是什麼?它與 Sam Altman 所說的“幾周內面世的強大模型”有何關聯?相比GPT-4 剛發佈時公眾的遲鈍,你認為下一代模型是會讓某些行業產生巨變,還是那種每個人都能感受到的普遍提升?它能做到那些今天模型做不到的事?Greg Brockman: 對我個人而言,最令人警惕的時刻是ChatGPT 發佈後的節日派對,當時全公司都瀰漫著勝利的氣息。但我從未有過那種感覺,我始終認為我們是挑戰者。在這個領域,競爭對手都是擁有雄厚資本、人才和資料的巨頭。OpenAI 能夠參與競爭,很大程度上是因為我們從不自滿,始終保持危機感。看到市場中出現競爭對手,看到敘事方式發生轉變,讓團隊每個成員都意識到這一點,其實是非常健康的,我非常歡迎這種變化。(關於 Spud 模型及個人投入)這個名字很有意思,我不會證實或否認具體的名稱。但這不僅僅關乎某一個模型。我們的開發流程是先進行預訓練,產生新的基礎模型,以此作為後續改進的根基。這需要全公司巨大的協作投入。在過去 18 個月裡,我個人的大部分精力其實都花在了 GPU 基礎設施上,全力支援團隊在大規模訓練任務中擴展架構,這是支撐這一切的底層基石。隨後是強化學習過程。AI 會應用學到的知識,接著通過後訓練過程來打磨其行為和可用性。你可以將 Spud 理解為一個凝聚了過去兩年研究成果的全新預訓練基礎。使用者將感受到能力的提升。單一版本的發佈並不是終點,它只是我們持續進化過程中的一步。我們正建構一個不斷加速的進化引擎,Spud 只是其中的一個階段。(關於模型能力的提升)新模型將能解決更難的問題,處理細節也更細膩。它對指令和上下文的理解會深刻得多。當模型真正變得更聰明時,會更順應使用者的意圖。如果 AI 不理解問題,還需要使用者反覆解釋,那種體驗是很糟糕的。這種提升是定性的。以前你可能因為 AI 不夠聰明而放棄某些場景,但現在你會不假思索地去使用。這種提升是全方位的。我非常期待它能如何拉高能力的上限。我們已經看到了在物理學等領域的應用。未來,它將能解決更多開放性、長周期的問題。同時,它也能提高能力的底線,讓任何任務都變得更加高效。(關於使用者感知的差異)我覺得情況會類似(GPT-4 剛發佈時)。剛發佈時,一部分人會覺得它帶來了翻天覆地的變化。但在某些不以智能為瓶頸的應用場景中,這種提升可能就沒那麼明顯。隨著時間推移,這種變化會深入人心,因為它從根本上改變了使用者對系統的依賴程度。使用者與 AI 互動時的心理模型更新較慢。直到它完成了一些超出想像的事,使用者才會意識到它的潛力。比如在醫療領域,有人通過 AI 研究出了癌症的治療思路,並在醫生無能為力的情況下獲得了治療方案。這需要使用者對 AI 有信任基礎,才會投入精力去挖掘。未來,AI 在各個領域的輔助作用會變得更加顯而易見。這既是技術的進步,也是人類認知的追趕。06自動化研究員與技術“騰飛”OpenAI 預計在今年秋天發佈的“自動化研究員”具體是什麼?它如何實現技術“騰飛”並反哺 AI 的進化?你是否擔心這種勢不可擋的進化處理程序會失控?Greg Brockman: 我們正處於技術騰飛的早期階段。騰飛意味著隨著AI 沿著指數曲線進化,我們可以利用 AI 來反哺,讓 AI 變得更強,從而加速開發處理程序。這種騰飛也體現在現實影響力上。技術研發正在飛速積聚動力,晶片廠商投入了大量資源,經濟生態也在蓬勃發展。AI 正在從邊緣輔助變成經濟增長的主引擎。這不僅僅是 OpenAI 圍牆內的事,而是全球經濟在共同推動技術的進步。(關於自動化研究員細節)自動化研究員將承擔更多原本由人類處理的任務。我們可以讓它自主運行,但這並不意味著放任不管。我們依然會深度參與管理。就像指導初級研究員,放任不管可能會誤入歧途。資深研究員即使不親自動手,也可以通過提供反饋、審查結果和指明方向來發揮作用。這個系統將極大地加速我們生產模型和實現研究突破的速度,讓模型在現實世界中更加實用。簡單來說,它能夠接管研究科學家完整的端到端工作流程,並在電腦模擬環境(in silico)中完成。(關於進化速度與風險)我覺得機遇和風險並存。我們必須在追求技術紅利的同時,深刻思考風險中的防範。在技術層面,我們在安全和保障上投入了巨大精力,比如防禦提示注入。必須確保 AI 不會被惡意指令誤導。我們將人類容易受欺騙或忽略背景資訊的特點引入開發過程,確保 AI 與人類對齊。這需要綜合考慮社會和經濟等宏觀問題。我不僅在推動技術進步,也在思考如何確保其潛能轉化為積極的影響。07AGI 的進度條:完成了70% 到 80%黃仁勳認為AGI 已經基本實現,你認同嗎?OpenAI 內部對 AGI 的定義是否發生了演變?在你的視角裡,我們距離那個“無可爭議”的臨界點還有多遠?Greg Brockman: 每個人對AGI 的定義都不盡相同,肯定有很多人認為我們現狀已達成了 AGI。這雖然可以辯論,但有趣的是,當下的技術表現呈現出明顯的鋸齒狀。AI 在許多工上表現出絕對的超人水平,例如編寫程式碼,AI 能夠直接完成任務並顯著消除創作過程中的阻礙。然而,在一些人類看來非常基礎的任務上,AI 依然表現掙扎。因此,這取決於你如何劃定界限。在某種程度上,這更多是一種感官上的直覺判斷,而非硬性的客觀標準。OpenAI 在 2017 年曾對 AGI 下過內部定義,目前的成果早已遠遠超越了那個標準。但人們的目標也在不斷演進,正如曾經被視為終極標準的圖靈測試,當我們的模型通過測試時,大家反而覺得這雖然有趣,但還不足以定義 AGI。我確實認為我們正在接近大眾認知中的 AGI,但我不認為我們已經完全抵達終點,真正的科學進步仍有待突破。我將 AGI 視為經濟模式全面轉型的時刻,即你可以直接引入一個系統,讓它真正具備勝任幾乎任何人類工作的能力。目前我們尚未完全達到這一水平,只有到了那一刻,AGI 的實現才會成為無可爭議的事實。在最後這幾步中會發生什麼是一個有趣的問題,但我確信我們終將達到一個讓所有人產生共鳴的臨界點。回顧過去十年我與這項技術打交道的經驗,以前我們通過數學計算來預測 Scaling Law 及其前景,我雖然在理性上堅信不疑,但內心並沒有實感。直到 GPT-4 問世,我第一次真切地感受到了它的力量。那一刻我意識到,這不再僅僅是一個智力構想,而是真實的科學突破。如果你在五年前向我展示現在的系統,我會認為這就是我們追求的目標,但真實的體驗卻與我們曾經想像的完全不同。我們必須相應地調整自己的心理模型。(關於實現進度)我認為大約完成了 70% 到 80%,我們已經非常接近了。未來幾年內,我們顯然會擁有 AGI。雖然它的能力分佈可能依然不均,但它處理智力任務的下限將極大提升,幾乎任何在電腦上進行的操作,AI 都能勝任。我現在很難給出確切答案,因為這裡存在一種類似測不準原理的情況。從我個人的定義來看,我們已近在咫尺,只要再往前邁出一小步就絕對會實現。08AI 從錦上添花的邊緣工具躍升為重構工作流的核心引擎回顧2022 年底,是什麼讓模型實現了從 20% 到 80% 的任務覆蓋跳升?有使用者利用 Codex 輔助視訊編輯,它自動為 Adobe Premiere 建構了外掛、劃分章節並開始剪輯。這種非技術人員的自發應用,是否改變了你認為 Codex 僅限程式設計師使用的看法?Greg Brockman: 新模型的發佈讓AI 能處理的任務佔比從 20% 直接跳升至 80%。這是一個巨大的轉變,AI 從一個錦上添花的工具,變成了你必須圍繞其重新建構工作流的核心。我有一個沿用多年的測試提示詞:幫我建一個網站。當年我學程式設計時,花了好幾個月才做出來。2020 年或 2021 年時,AI 通常需要四小時並經過反覆提示才能搞定。但在 12 月那次,它一次性就完成了任務,而且質量非常出色。這很大程度上歸功於更優的基礎模型。OpenAI 在改進預訓練技術方面深耕已久,那一刻我們只是預先窺見了未來的變革。但這並非單點技術的突破,而是在創新的每一個維度上不斷推動的結果。這些模型的神奇之處在於,雖然你期望進步是線性的,但它有時表現為飛躍,有時又表現為連續的演進。它不是從 0 跳到 80,而是從 20 提升到 80。在後續的每一個小版本更新中,我們都看到了這種持續的改進。在 GPT-4 和 GPT-4.5 之間,我的一位負責硬核底層系統工程的同事發現,AI 從完全無法幫忙變成了得力助手。他給 AI 一份設計文件,AI 就能完成實現、加入指標和可觀測性、運行性能分析器(Profiler)並進行最佳化,直到產出完全符合預期的成果。這種進步通常是極其緩慢地積累,然後突然在某一刻爆發,而這一切在目前的技術進展中早有預兆。在一年甚至更短時間內,它將變得極其可靠。(關於 Adobe Premiere 外掛案例)關於你提到的那個視訊編輯案例,這正是我最想聽到的反饋。Codex 最初是為程式設計師設計的,對非技術人員來說門檻其實還很高。比如遇到報錯時,開發者知道怎麼修,但普通人會覺得莫名其妙。即便如此,我們依然看到很多從未程式設計過的人在用它建構網站、自動化辦公。最難的部分,也就是建構一個聰明且有能力的 AI,我們已經完成了。現在的任務是完成那個相對簡單的部分:消除准入門檻,讓它變得真正通用。(關於 Codex 普及)我之前一直關注 Codex,認為它是給程式設計師準備的。考慮到 OpenAI 內部很多都是為自己開發工具的工程師,這種慣性思維很自然。但隨著技術演進,我們意識到其底層技術的本質並非關於程式碼,而是關於解決問題。它關乎如何管理上下文、利用測試框架(Harnesses)以及思考 AI 應該如何深度整合到工作中。這意味著,那怕是寫程式碼,普通人也能上手,因為你現在管理的是一個能真正幹活的實體。只要你有願景和目標,描述出意圖,AI 就能幫上幫。這也引發了我的反思,為什麼只盯著寫程式碼呢?在 Excel 表格處理或幻燈片製作中,其實有大量機械化的技能。只要 AI 掌握了背景資訊,它現在的原生智能足以高水平地完成這些任務。只要我們降低門檻,Codex 就不再僅僅屬於程式設計師,而是屬於每一個人。09人類將任務委派給 Agent,但必須保持對核心細節的敏銳掌控與最終問責矽谷出現了Open Claw 現象,人們授權 AI 訪問桌面、郵件、日曆並由其代勞。OpenAI 招攬其創始人是否意味著你們的願景是讓 AI 深度管理生活?當你像首席執行長一樣指揮成千上萬個 Agent 艦隊為你工作時,這種新的模式是否會讓你覺得對問題的敏銳掌控正在消失?Greg Brockman: 這項技術的核心難點在於發掘它的用處、使用者的使用偏好、AI Agent 的願景以及它如何融入日常生活。我觀察了多代技術的發展,發現那些全身心投入、充滿好奇心和遠見的人,才真正擁有一種極具價值的新興技能。Open Claw 的創始人 Peter 就擁有非凡的眼光和創造力。這在某種程度上關乎特定技術,但更多時候是關於我們如何轉化這些能力,找到它們在人們生活中的位置。作為技術人員,我對此感到興奮。而作為一個致力於提供實用工具的人,這是我們正在加倍投入的方向。(關於能動性與掌控)我認為這有利有弊。我們需要做的是發揮這些工具的優勢並規避其弱點。它給人們提供了槓桿和能動性,讓你有願景就能指揮 Agent 艦隊去實現。但歸根結底,必須有一個負責方。如果你建網站時 Agent 辦砸了並影響了使用者,那不是 Agent 的錯,而是你的錯。為了用好這些工具,你必須意識到人的能動性和問責制是系統的核心,人如何使用 AI 是極其根本的問題。作為這些 AI Agent 的使用者,你不能推卸責任,不能當甩手掌櫃。(關於失去掌控的風險)對我來說,這兩者是緊密相連的。如果你作為 CEO 卻脫離了細節,對實際情況失去了敏銳的觸覺,那是不會有好結果的。我並非認為人類不瞭解現狀是好事。有些細節是可以信任的,比如你找建築承包商蓋房子,很多細節你確實不需要操心,因為你相信他們能處理好。但最終如果細節出了錯,你必須在乎並保持知情。這是一個微妙但重要的區別。你不能盲目地接受失去對實際情況的掌控。相反,我們需要深入其中,為了真正理解優勢和弱點而保持敏銳。當你從那些低等級的機械性事務中抽身時,應當是因為你已經通過建立信任,確認了系統能出色地完成任務。10未來 AI 將通過電腦操控能力實現跨領域的創造力大爆發模型在工具使用後的下一步進化方向是什麼?如果AI 能操控桌面,它能為普通人帶來什麼?既然模型已經如此強大,為什麼這種變革還沒有全面發生?另外,對於 Peter Thiel 提到的數學型人才面對 AI 衝擊更危險的觀點,你作為數學俱樂部成員是否感到擔心?Greg Brockman: 我們正身處一個機器能力和深度持續增長的世界。除了工具使用,我們現在還需要建構強大的配套設施。比如電腦使用能力,如果AI 能真正操控桌面,它就具備了人類能做的一切能力。同時,我們也得為機器進行針對性的建構,例如在企業環境中,憑證管理、審計追蹤和可觀測性如何實現。我們要建構大量技術,才能跟上核心模型本身的能力。整體發展方向包括極佳的語音互動介面,讓你能自然地與電腦交流。它理解你,執行需求,並給出建議。它能主動反饋工作進展,甚至能為你經營一家公司。我認為創業的民主化時代絕對正在到來。它會提醒你,這裡有些問題,有位客戶不太高興,他們想和真人溝通,你應該去跟進一下。這些都會變為現實。提高人類雄心的天花板,解決更具挑戰性的難題,也是這項技術的下一步。我們正處於這種趨勢的最前沿。未來一年,我們將看到人們利用這種能力實現大爆發。我最期待的是,就像當年 AlphaGo 的第 37 手一樣,那一招任何人類棋手都想不出來,它充滿了創造力並改變了人類對博弈的認知。這種現象將發生在科學、數學、物理、化學、材料學、生物學、醫療和藥物研發等每一個領域,甚至文學和詩歌。它將以我們現在無法想像的方式,釋放人類的創造力、認知和構思。(關於效能滯後)模型的潛在能力與其實際應用之間存在一種效能釋放滯後。我們對模型潛力的理解仍在不斷加深,即便技術不再進步,現有的存量技術也足以引發巨大的經濟變革。由算力驅動的經濟模式終將到來。目前我們非常擅長在可衡量的任務上訓練模型,比如數學題和程式設計題,這些都有完美的校驗器。要把這種能力引入更開放的問題,關鍵在於擴大可評分的範圍。AI 本身就能幫上忙,如果你給它一個評分準則,它就能評估任務完成的好壞。當然,像創意寫作這類事情,評分要難得多。目前我們教導 AI 學習這類事物的能力還較弱,但這一切都在改變,目標已經非常清晰。(關於數學與人文)人總是更容易看到失去了什麼,而很難看到得到了什麼。我們對自己熟悉的東西被 AI 取代有著深刻的危機感,但驅動人類進步的從來不是數學競賽本身。如果你看我們現在的工作方式,躲在盒子後面敲字其實並不自然。我們被捲入了這個數字世界,但這並非人類存在的真諦。做人的真諦在於當下、在於臨場感、在於人與人之間的連接。我們將看到,AI 將釋放出大量的時間,讓我們去增強人際連接,建立更深的情感紐帶。這才是讓我感到無比興奮的地方。11算力經濟邏輯與 Scaling Law 的乘數效應當重心轉向推理應用,是否還需要進行大規模訓練和購買輝達GPU?建設資料中心的數學邏輯是什麼?你們籌集 1100 億美元的邏輯如何回報投資者?面對 Dario Amodei 關於“基礎設施豪賭可能導致破產”的警告,你作何回應?Greg Brockman: 我認為這種觀點(預訓練已足夠)忽略了技術發展中非常關鍵的一點。模型生產鏈條的每一個環節都有乘數效應,因此必須改進所有環節。我們發現,只要改進了預訓練,後續的所有步驟都會變得簡單得多。這很好理解,因為預訓練出的模型學習速度更快。由於起步能力更強,模型在嘗試新想法和從錯誤中學習時的效率就更高,而且能通過Scaling Law 更有效地減少錯誤。過去我們認為只是在獨立訓練一個大腦系統,然後讓它越變越大,但現在的重大轉變是:你需要讓模型去嘗試、去理解現實世界中人們的使用方式,並將這些反饋整合回訓練中。但這並不意味著預訓練研究不再重要。另一個變化是,過去我們只關注原始的預訓練能力,而不太考慮推理效率。這是過去兩年的一個大變化,我們意識到需要一種平衡。基礎模型可以擁有各種優異屬性,但你必須保證它的推理效率,因為你需要進行強化學習,需要面向全球提供服務。這意味著你不一定非要追求極致的規模,因為你必須考慮下游的實際應用。你真正想要的是智能與成本的最佳平衡點,並同時最佳化這兩者。(關於輝達)絕對需要。原因有很多。首先,即便推理和訓練的比例在變,但除了將算力集中在單一問題上進行大規模訓練,目前還沒有其他路徑。我們投入到預訓練模型中的算力量只會持續上升。雖然部署端的規模會大幅增長,但當你進行超大規模預訓練時,依然需要極其密集的算力。此外,Nvidia 團隊非常出色,做了非常了不起的工作,我們之間的合作非常緊密。(關於預訓練上限)這就像在問,是不是等人類解決了眼前的所有問題,我們就可以止步不前了。我們的願景非常宏大,也許在過去 50 年裡人們有些退縮了。看看那些顯而易見的問題,比如我們能否實現全民醫療,而且不是等病了才治,而是真正的預防性醫療。不只是建議生活方式,而是如何在大病發生前檢測到潛在疾病。我認為更智能的模型能解決這些問題。也許達到某個水平後能解決這個問題,那時你會問,我還需要模型再聰明兩倍嗎?但還會有其他更難的問題需要更強的模型。(關於 1100 億籌資邏輯)邏輯很簡單,我們面臨的最大支出就是算力。但你可以把算力看作收入中心,而不是成本中心。這就像雇銷售,你想雇多少人?只要產品賣得出去,只要銷售模式可擴展,銷售人員越多,收入就越高。現實情況是,我們發現算力的建設速度永遠趕不上需求。自那以來每年都是如此。挑戰在於,購買算力需要提前 18 到 24 個月甚至更久鎖定訂單,這意味著你必須具備超前的預判。目前我們大部分收入來自消費者訂閱,這很重要。但新的機會顯然是知識工作。我們看到各大企業都意識到這項技術真實有效,為了保持競爭力,他們必須採用。無論是軟體工程師的自發使用,還是企業內部各種知識工作的滲透,付費意願和收入增長都非常明確。我們能看到一些外界看不到的趨勢,即這些模型改進的明確路徑。綜合來看,整個經濟的增長,其核心驅動力都將圍繞 AI 展開,取決於你利用 AI 的程度,以及支援運行的算力儲備。(關於企業端反超)企業端的增長非常迅速,而且企業端的定義也在演變,本質上是人們將其用於高效的知識型工作。在定價方面,以 Codex 為例,如果你有 OpenAI 帳號或 ChatGPT 訂閱就能使用。我認為未來的界限不會那麼死板,核心在於使用者擁有了一個通往數字世界的門戶,這才是收入的根本來源。(關於破產風險警告)我不認同(Dario 的觀點)。我們一直很清醒,也看到了未來的趨勢。今年大家就會發現,所有參與者都會面臨算力短缺。我們是最早預見到這一趨勢並提前佈局的。其他玩家可能去年底才反應過來,開始到處找算力,但那時已經沒貨了。發表評論很容易,但事實是大家都意識到這項技術是玩真的。軟體工程只是開端,我們目前的瓶頸完全在於算力不足。我們有更多的緩衝餘地。如果你擔心下行風險,這確實是個好問題。但在某種程度上,這不只是對某一家公司的豪賭,而是對整個行業的信心。關鍵在於,你是否相信這項技術能產生我們預見的巨大價值。看看軟體工程吧,如果你沒試過,你很難想像它的變革性。它徹底改變了寫程式碼的方式,而這種改變正在發生在所有領域。12公眾的AI偏見、能源轉型與個體的未來準備你平時怎麼使用AI Agent?為什麼 AI 在公眾中並不討喜?看空 AI 的人遠多於看好的。面對人們對失業、能源、環境污染和電費上漲的恐懼,你認為他們錯了嗎?以及給普通人的未來建議。Greg Brockman: 我用它為團隊開發內部工具,比如同步視訊進度和縮圖設計。我還用它整合YouTube 資料,根據縮圖預測視訊表現,這相當於為我定製了一個我原本絕不會花錢去買的軟體。這就是目前的有趣之處,雖然軟體可以大規模普及,但很多細節並不是為你量身定製的。而 AI 讓我們能以更自然的方式與軟體互動。這是關鍵。現在的電腦其實是把我們拉進了一個生硬的數字世界,你需要不停地刷手機、點按鈕。為什麼非要這樣?AI 的本質是讓機器更貼近人,實現個性化,理解你的意圖。流行文化裡那種能對話、能替你辦事的電腦正成為現實,這種奇妙的體驗必須親自嘗試才能理解,我們正處於一個非常特殊的時刻。(關於公眾偏見)我們需要向公眾展示 AI 到底能給他們帶來什麼好處,而不僅僅是宏觀經濟或生產總值的增長。我每天都聽到很多真實感人的案例。比如有一個家庭,孩子生病需要做核磁共振卻被保險公司拒絕,他們用 ChatGPT 研究症狀,找到了申訴理由並成功拿到了檢查機會,結果發現了腦腫瘤並救了孩子的命。這樣的故事還有很多,人們的生活正因為與 AI 合作而發生翻天覆地的改變。但這些故事沒有被廣泛傳播。相反,大量流行文化充斥著對 AI 的負面想像。但當人們真正開始使用它,他們會發現它的價值。我確實擔心我們還沒能讓大家理解,這股技術浪潮是為了改善生活和人類聯絡。這關係到未來的經濟和國家安全,關乎國家競爭力。在全球範圍內,不同地區對 AI 的應用方向和治理理念存在差異。我們必須確保這項技術能讓每個人受益。(關於能源與環境擔憂)關於資料中心確實存在誤讀。比如耗水,我們在 Abilene 的超級電腦,其用水量其實僅相當於一個普通家庭的一年用量,幾乎可以忽略不計。關於電費,我們承諾會承擔自己的用電成本,不推高民眾的負擔。作為行業成員,我們有責任回饋當地社區,創造稅收和就業。引入更多電力並不意味著更多污染。目前的電網中存在大量無法利用的擱置電力,且傳輸系統急需升級。由我們來承擔這些升級費用,而不是讓納稅人買單,這對社區是有利的。在北達科他州,因為資料中心的入駐和對公用事業的投資,當地居民的電費反而下降了。(關於未來建議)對那些害怕 AI 的人,最重要的一點是去試用這些工具。只有親身體驗,你才能理解它能為你做什麼。它能賦予從未建過網站的人建站的能力,能幫創業者處理繁瑣的後台流程,能幫你管理健康、賺錢省錢。人們往往更容易看到變動帶來的危機,而忽略了潛在的收益。核心是保持好奇心。從技術中獲益最多的人,往往是那些敢於在工作流中嘗試的人。要克服面對空白輸入框的迷茫,培養自己的主體性,把自己定位為管理者,去設定方向、委派任務並進行監督。這種管理技能在未來至關重要。我們開發 AI 是為了讓人類有更多時間做自己想做的事。所以,看清自己真正想要什麼,並利用 AI 去實現它,這就是最重要的事。 (數字開物)
在IPO前夕調整業務戰略,OpenAI關閉Sora
2022年,OpenAI憑藉其廣受歡迎的生成式人工智慧(GenAI)工具ChatGPT在科技界乃至全社會引發了一場連鎖反應。自那時起,公司推出了幾款面向消費者的應用程式,如其視訊生成平台Sora,該平台於2024年12月向付費使用者推出。但現在,情況發生了變化。本周,公司宣佈將關閉Sora。"我們要向Sora應用告別。對於所有用Sora創作、分享它並圍繞它建立社區的人們:謝謝你們。你們用Sora創造的作品很重要,我們知道這個消息令人失望。"該公司周二在X平台上發帖稱,並補充說,稍後將提供有關關閉時間表以及使用者如何保存平台上先前作品的更多細節。關閉迄今帶來的最大後果是OpenAI與迪士尼之間價值十億美元交易的告吹。這筆為期三年的交易於去年12月達成,包括對OpenAI的10億美元投資,以及在使用Sora生成視訊時獲得約200個迪士尼角色授權許可。據路透社報導,迪士尼對這一決定"感到措手不及",在兩家公司舉行一次Sora相關會議僅30分鐘後才得知此事。這家媒體巨頭隨後取消了該交易。"隨著新興AI領域的快速發展,我們尊重OpenAI退出視訊生成業務並將優先順序轉向其他領域的決定。"迪士尼在一份聲明中表示。"我們要感謝我們團隊之間的建設性合作以及從中獲得的經驗,我們將繼續與AI平台接觸,尋找新的方式在粉絲所在的地方與他們互動,同時負責任地擁抱尊重智慧財產權和創作者權利的新技術。"究竟發生了什麼?一些人推測,OpenAI正尋求保護其聲譽。與迪士尼交易中斷表明,公司正在從技術要求高且法律複雜的應用類別中撤出。媒體生成系統運行在一個由版權擔憂、許可談判和品牌敏感性所塑造的環境中。通過撤下旗艦視訊產品,OpenAI可能正在減少這些挑戰,同時將注意力重新定向到它可以更快行動並擁有更大控制權的領域。其他假設指向運行Sora的價格標籤。《福布斯》11月的一份報告估計,該應用的推理成本高達每天1500萬美元,即每年54億美元,儘管該媒體承認其估計依賴於"動態目標",如GPU價格、推理效率、使用者數量和每天生成的視訊數量。10月,OpenAI Sora負責人Bill Peebles在X上的一串帖子中表示,視訊平台的"經濟性完全不可持續"。一些人推測,OpenAI的IPO雄心可能也與這一決定有關,並可以解釋為什麼投入產出不再可持續。公司去年5月聘請前Instacart首席執行長Fidji Simo領導其應用業務,據CNBC報導,隨著公司準備備受期待的、據稱將於今年某個時候進行的首次公開募股,她一直在推動"產品專注和紀律"。公司最近召開了一次全體員工會議,旨在向員工明確其優先事項。CNBC報導稱,Simo表示,OpenAI正在"積極向高生產力用例傾斜"。當一家公司準備在美國進行IPO時,它必須向SEC提交註冊聲明,其中包括經審計的財務報表以及有關其成本結構、風險和收入的詳細披露。這一過程,通常通過S-1檔案進行,迫使許多私營公司達到前所未有的透明度水平,特別是在特定產品線的經濟性方面。在OpenAI的案例中,走向IPO可能會對Sora等計算密集型系統的成本概況帶來更嚴格的審查。這種暴露會影響內部關於那些產品在規模上是可持續的,那些可能難以向公開市場投資者證明其合理性的決策。如果Sora現在已不在考慮範圍內,OpenAI的新優先事項是什麼?CNBC稱,在全體員工會議上,Simo告訴員工,公司正專注於其企業業務,並讓ChatGPT使用者更具生產力。ChatGPT目前擁有超過9億周活躍使用者,OpenAI正尋求通過將其Atlas網路瀏覽器、ChatGPT應用和Codex編碼應用合併為一個單一桌面"超級應用"來簡化使用者體驗。Simo和OpenAI總裁Greg Brockman將主導這一努力。"我們現在的機會是將這9億使用者轉化為高計算使用者,"根據CNBC審查的全體員工會議部分記錄,Simo表示。"我們將通過將ChatGPT轉變為生產力工具來實現這一點。"除了超級應用,OpenAI正在開發一個"AI研究員",其被描述為一個多智能體系統,可以自主執行完整的研究工作流程來解決複雜問題。據《麻省理工科技評論》報導,公司新的"北極星"是建構一個"自主研究實習生",它可以在9月之前解決更小、更具體的研究問題,作為"公司計畫於2028年推出的全自動多智能體研究系統的前奏"。該媒體報導稱,這些任務包括數學和物理問題,如建立新證明或猜想,以及生命科學、商業和政策用例。OpenAI首席科學家Jakub Pachocki在接受《麻省理工科技評論》採訪時將"AI研究員"項目定位為將當前模型擴展到可以推理、規劃和在長時間範圍內迭代的系統的努力,而不僅僅是生成響應。他描述的目標是建構可以在問題的多個步驟中操作的智能體,使用程式碼執行和資訊檢索等工具,同時持續改進其方法。Pachocki表示,這種目標導向的行為是邁向更廣泛智能的必要步驟,儘管他也承認,大型語言模型的可靠性和評估仍然是一個開放的挑戰。OpenAI最近向智能體系統和面向企業工具的轉向,反映了一種針對Anthropic的戰略,後者專注於生產力用例和緊密整合的應用程式,而不是消費者實驗。Anthropic對可靠性、編碼和工作流支援的強調,有助於將其模型確立為日常知識工作的實用基礎設施。此外,向"AI研究員"的推進並非OpenAI獨有。它反映了整個行業向推理系統發展的更廣泛趨勢,這些系統可以在有限監督下執行多步驟科學和技術任務。像Ai2和FutureHouse這樣的組織一直是這一方向的早期建構者,推進基於智能體的科學框架的開放研究,旨在使AI系統能夠更多地瞭解物理世界並支援現實世界的問題解決。目前,OpenAI近期的決策表明其大幅縮小了關注範圍。公司正從其最可見的面向消費者的應用之一和主要媒體合作中撤出,同時加速其在智能體系統和企業平台方面的工作。結果可能是其研究議程與商業戰略之間更清晰的一致。這種轉變反映的是暫時性調整還是更持久的戰略變化,還有待觀察。 (Ai時代前沿)