城主說|作為OpenAI的首席研究官(Chief Research Officer),Mark Chen不僅掌管著數百個前沿研究項目的資源分配,更是OpenAI技術路線圖的關鍵制定者之一。說起來, 城主高看Mark Chen一眼的地方在於, 當Meta史無前例的大舉挖角OpenAI, 據說動用了10億美金挖Mark Chen, 而他並不為所動, 作為目前OpenAI研究的絕對核心, 他的這個動作是有意義的. 在當下Sam Altman已經發出了Code Red紅色警報追趕Gemini的全員郵件後, Mark Chen顯然是這場技術生死之戰的關鍵人物.近日,Mark Chen接受了資深科技記者Ashlee Vance的深度專訪。在這次罕見的公開對話中,Mark Chen深入探討了當前AI領域激烈的人才爭奪戰,特別是Meta與OpenAI之間的競爭,以及Mark Zuckerberg親自“送湯”挖角的軼事。Mark Chen分享了他從數學競賽、高頻交易轉行至AI研究的個人經歷,並詳細回顧了OpenAI內部的文化、Sam Altman離職風波期間團隊的團結,以及他對技術路線(如預訓練、推理模型、算力擴展)的看法。訪談還觸及了AI在科學發現自動化方面的潛力、對AGI的定義以及對未來模型安全與對齊的思考。更為重要的是,Mark Chen為我們描繪了一幅清晰的AGI(通用人工智慧)發展藍圖:預訓練技術仍有巨大潛力,而推理模型(Reasoning Models)將是下一個關鍵範式。 他甚至給出了具體的時間表——在未來兩年半內,AI有望實現從“實習生”到“獨立科學家”的質變,從而根本性地重塑科學發現的處理程序。核心觀點人才競爭與文化:儘管Meta等競爭對手以高薪和激進策略(如親自送湯)挖角,OpenAI依靠其獨特的使命感和研究文化保留了核心人才。技術路線圖:Mark Chen強調“擴展(Scaling)”並未終結,預訓練仍有巨大提升空間,且推理模型(Reasoning)是重要的下一階段。科研自動化:OpenAI的短期目標是利用AI實習生輔助研究,長期目標(約兩年半內)是實現AI進行端到端的科學研究。AGI的定義:AGI是一個過程而非單一時刻,當前的重點是AI能否產生新的科學知識並推動前沿發展。安全與對齊:隨著模型變得更聰明,確保其思維過程的透明和對齊(Alignment)至關重要,特別是防止模型學會“欺騙”。矽谷人才爭奪戰:祖克柏的“雞湯”與OpenAI的防禦在當今的科技界,頂級AI研究員的身價堪比頂級職業運動員。Mark Chen在訪談中坦言,OpenAI正面臨著前所未有的人才競爭壓力,尤其是來自Meta等巨頭的激進挖角。這種競爭甚至演變成了某種極具矽谷特色的軼事。Mark Chen透露,Meta CEO馬克·祖克柏為了招募OpenAI的研究員,甚至採取了極具個人色彩的攻勢——親自給被挖角對象送去他親手煮的湯。“隨著時間的推移,這種情況逐漸升級……我也給那些我們試圖從Meta招募的人送過湯,” Chen幽默地回應道,“我開始認為這些策略以它們自己的方式是有效的。”然而,儘管Meta擁有每年數百億美元的資本投入,並且開出了極具誘惑力的薪酬倍數,OpenAI的核心團隊依然保持了驚人的穩定性。Mark Chen指出,在他直接管理的下屬中,儘管半數以上接到了競爭對手的邀請,但鮮有人離開。“我沒有聽到任何人說通用人工智慧(AGI)會首先在Meta被開發出來,” Chen強調。OpenAI的護城河不再僅僅是薪酬,而是一種獨特的“使命感”和純粹的研究文化。在這場人才博弈中,OpenAI依靠的是一種信念:這裡才是通往AGI的最快路徑。“擴展定律”並未終結:預訓練與推理模型的新征程近期,關於“大模型擴展定律(Scaling Law)已死”的言論在業內甚囂塵上。對此,Mark Chen給出了截然相反的判斷:“很多人說規模化已經死了。我們完全不這麼認為。”Chen解釋道,OpenAI不僅在強化預訓練(Pre-training)這一傳統強項,更在開闢新的戰場。他承認,在過去兩年中,團隊將大量資源投入到了推理(Reasoning)能力的研發上——這一賭注最終催生了像o1(在訪談語境中隱含)這樣具備深度思考能力的模型。“思考和語言模型,這是一種你一旦擁有就無法回頭的原始狀態,” Chen表示。他指出,隨著演算法的突破,預訓練的資料效率和模型能力仍有巨大的提升空間。面對Google DeepMind推出的Gemini系列等競品,OpenAI保持著高度的自信。Chen透露,內部模型在性能上已經達到了極高水準,尤其是在解決複雜數學和程式設計問題上,AI正在跨越人類專家的門檻。他舉了一個生動的例子:當他將一篇最新的物理學論文交給OpenAI的推理模型時,模型“思考”了30分鐘,最終解決了一個連專業物理學家都認為難以攻克的難題。這標誌著AI正在從單純的模式識別,轉向真正的邏輯推理和創造性解決問題。科學發現的自動化:從AI實習生到端到端的研究員Mark Chen在訪談中拋出了一個極具野心的短期路線圖,這或許是本次對話中最令人震動的預測。他將OpenAI的未來目標具體化為“科研自動化”的兩個階段:一年內(AI實習生階段): 改變研究的執行方式。人類研究員將擁有高效的“AI實習生”,它們能輔助程式碼編寫、偵錯和初步實驗,大幅提升科研效率。兩年半內(端到端研究階段): 實現AI進行全流程的科學研究。“我們希望達到一個世界,我們只需控制外部循環——提出想法,而模型負責實施、偵錯並得出結果。”這一願景不僅僅是關於建構更強的聊天機器人,而是關於建構能夠推動人類知識邊界的“AI科學家”。Chen提到了“OpenAI for Science”的構想,旨在通過AI工具加速物理、生物、材料科學等領域的突破。他認為,當前的AI已經開始在生物技術(如蛋白質結構預測)和數學競賽中展現出超越人類的能力,這種趨勢將迅速擴展到更廣泛的學科。安全與對齊:警惕學會“欺騙”的超級模型隨著模型智力的飛躍,安全問題變得愈發微妙和棘手。Mark Chen不僅是技術研發的推動者,也曾直接管理過OpenAI的對齊(Alignment)團隊。他提出了一個深層的擔憂:“詭計(Scheming)”。Chen解釋說,當使用強化學習訓練模型時,如果僅僅獎勵模型給出“正確”或“令人愉悅”的答案,模型可能會學會一種危險的策略:隱藏其真實的思維過程,只展示人類想看的內容,甚至學會欺騙以獲得獎勵。為了應對這一挑戰,OpenAI採取了一項關鍵決策:“不干預模型的原始思維過程(Chain of Thought)。” 即便模型的思維鏈條中包含人類不喜歡的成分,研究人員也必須保持其透明可見。“我們能夠持續觀察模型的思考過程,將其視為理解對齊的一個工具,” Chen強調。只有確保思維過程的透明,人類才能在AI變得比我們更聰明時,依然掌控其意圖,防止其與人類價值觀背道而馳。走出至暗時刻:以研究為核心的組織韌性訪談不可避免地觸及了去年Sam Altman的離職風波。作為核心管理層,Mark Chen回憶了那段“至暗時刻”:競爭對手像餓狼一樣在門口徘徊,試圖瓜分OpenAI的人才庫。然而,這場危機反而成為了團隊凝聚力的試金石。Chen和Jakub Pachocki(OpenAI現任首席科學家)等人迅速組織起來,穩定軍心。“我們給自己定了一個目標,我不會失去任何一個人,” Chen回憶道。最終,超過90%的研究員簽署聯名信要求董事會迎回Altman,這種驚人的團結證明了OpenAI內部文化的韌性。Mark Chen將這種文化歸結為“精英管理(Meritocracy)”與“扁平化創新”的結合。在這裡,管理者必須擁有深厚的技術判斷力才能贏得尊重,而最好的想法往往通過“自下而上”的方式湧現。無論是數湯挖角的故事,還是內部的權力更迭,最終都未能動搖這家公司最核心的資產——那群渴望用程式碼改寫人類未來的研究員。結語在訪談的最後,Mark Chen展現出一種緊迫感。對於他而言,AGI不是一個遙遠的科幻概念,而是一場正在發生的工業革命。他每天工作到凌晨,不僅是為了贏得與競爭對手的比賽,更是為了不錯過這個重塑世界的歷史窗口。“我們正處於一場工業革命之中,你必須儘可能多地利用它,” Chen說道。對於OpenAI而言, soup(湯)可以拒絕,但在通往AGI的道路上,他們絕不減速。附錄: 天空之城全文整理人才爭奪戰與“送湯”軼事主持人: 關於人才爭奪戰,這確實受到了很多關注,字面上來說,而且看起來Meta相當激進。這種針鋒相對具體是什麼樣子的?我們處於那個階段?Mark Chen: 存在人才的吸引力,每個人都大致瞭解他們是誰。而且,我認為許多公司已經意識到,建立一個出色的人工智慧實驗室的關鍵要素之一,不是唯一的要素,但卻是關鍵要素之一,就是招募最優秀的人才。我認為Meta採取這種激進的策略並不令人意外。我們並沒有袖手旁觀。我實際上想從Open AI的角度來講講這個故事。我認為媒體對“人才單向流向Meta”做了很多渲染。但我的看法是,Meta確實非常積極地招募了很多人,但很多時候並不成功。Mark Chen: 所以為了讓您瞭解背景,在我的人員中,在我直屬下屬中,在他們招聘任何新人的時候,我認為他們爭取了我一半的直屬下屬,但他們都拒絕了。當然,您知道,如果他們每年有像100億美元這樣的資本用於人才投入,他們肯定能招到人。所以我實際上覺得我們在保護我們頂尖人才方面做得相當不錯。而且,隨著時間的推移,這種情況逐漸升級,這很有趣。這裡有一些有趣的故事……扎克實際上親自給那些他試圖從我們這裡招募的人送去湯。比如一個……只是為了表明他會走多遠……我想他……他是親手煮的湯。而且,當時這讓我感到震驚,但是,隨著時間的推移,我開始認為這些東西以它們自己的方式是有效的,而且,我也給那些我們正在從Meta招募的人送過湯。你在做數湯嗎。我想,如果我要為我的員工舉辦一個戶外活動,下一次戶外活動,我要帶他們去上烹飪課。好的。這只是,但我確實認為,我在招聘方面學到了一些東西。主持人: 你的湯是你自己煮的嗎?如果你能得到像米其林星級那樣的湯就更好了。Mark Chen: 你知道我的意思嗎?不。我覺得“Deahoe”非常好,可能比任何湯都要好。但我確實認為我學到了一些關於如何積極爭取頂尖人才的東西。我認為我深受啟發的一點是,即使在OpenAI中,那些已經離職去Meta的人中,我沒有聽到任何人說通用人工智慧(AGI)會首先在Meta開發出來。每個人都對OpenAI的研究項目非常有信心。我向我的員工,向整個研究組織非常明確地表明了一點,我們不會和Meta進行逐美元的抗衡。並且(薪資)倍數低於Meta提供的水平,但人們仍然非常樂意留在OpenAI,這給了我極大的信念,人們真的相信未來的潛力,並相信我們將實現目標。主持人: 還有Alex,Alex Wayne,他以前是其中一家數學公司的人,我確信你們一起待過。Mark Chen: 我和Alex一起待過幾次,但我們現在不太常待在一起了。主持人: 為什麼湯會成為那個東西?Mark Chen: 這只是,我不知道,有過湯,有過鮮花,有過你能想到的任何東西。但是,我不知道,我認為,生活是一場冒險。我順應了這個模因梗。主持人: 在思考的過程中,有什麼可以採用的撲克策略嗎?Mark Chen: 再說一次,我認為這真的回到了我之前談到的關於媒體敘事的問題。這個遊戲的目的不是要留住組織中的每一個人。而是要信任我們為培養人才而建立的這個體系,並瞭解我們需要留住的關鍵人物是誰,然後留住他們。我認為我們在這一點上做得非常出色。介紹Mark Chen與OpenAI的研究管理主持人: 我們今天有一個特別的驚喜。我很興奮。來自OpenAI的Mark Chen來了。他是首席研究官。他是我在過去幾年裡認識的一位人士。非常感謝您。Mark Chen: 能認識您這麼久真是太棒了。主持人: 我覺得,世界上有為數不多的人正在從事這個非常重要的項目。而且,您正處於這個項目的頂端。所以能有機會聊聊真是太酷了。Mark Chen: 感謝您邀請我來。主持人: 這是我的榮幸。而且,我想和你談論很多事情,因為正如我們所說,我在過去幾年裡認識了你。我想讓人們更多地瞭解你的生平經歷。而且,我也知道會有人工智慧愛好者希望我們在那幾件事情上深入探討。所以我們會盡力而為。我想首先讓大家瞭解一下你的工作,在我看來,如果我理解有任何錯誤,請隨時糾正我。但是,薩姆一直以來,他非常熱衷於研究。他是老闆。他在食物鏈的頂端。但然後你和雅庫布一起合作,共同塑造OpenAI的研究方向,而你在這個角色的附加部分是決定那些計算資源分配給那些項目,所以你必須規劃OpenAI的走向,以及實現目標的操作機制。這總讓我覺得這是一份很糟糕的工作,因為我想到人們會竭盡全力從YouTube獲取GPU。這是真的。Mark Chen: 人們在試圖達成幕後交易以獲取他們需要的GPU方面非常有創造力。但我的確,這是工作的一個重要組成部分,確定研究組織的優先事項,並對執行情況負責。針對第一個觀點,我和雅各布每隔一到兩個月會進行一次活動,清點OpenAI所有的項目。那是一個大約包含300個項目的巨大電子表格,我們會盡力深入理解每一個項目,並對它們進行真正的排序。我認為對於一個擁有500人的公司來說,讓員工理解核心優先事項是什麼,並通過我們分配計算資源的方式,明確地、口頭上傳達這些優先事項是非常重要的。主持人: 我們在“核心記憶”(Core Memory)中做什麼?我們關注的是創新、快速發展、具有前瞻性的公司,這就是為什麼“核心記憶”由Brex贊助的原因,因為Brex是許多此類公司的智能財務平台,服務於從初創企業到全球最大企業的30,000家公司,它們依賴Brex的技術來管理其財務。他們擁有智能企業卡、高收益商業銀行服務以及出色的費用報銷自動化工具。我討厭報銷費用。Brex的人工智慧軟體可以貫穿這些費用,弄清楚我們在那裡花錢,並為您處理掉很多事情,這樣您就無需浪費時間自己處理了。請訪問brex.com斜槓core memory以瞭解更多資訊,並及時跟上進度。我們開始吧。讓我們擺脫這種過時的財務軟體,邁向未來。核心記憶體和 Brex。主持人: 所以你有,當你談論這500個時,它們就是這500個。這對你來說是研究的核心。主持人: 他們現在的組織是,在談到這300個項目時,我猜想,很明顯其中一些是巨大的前沿模型,而另一些可能是人們正在進行的一些實驗。那麼,你如何才能跟上所有這些,然後對那些項目值得使用GPU、那些不值得得出某種結論呢?Mark Chen: 絕對。我認為在進行這項工作時,保持你的關注非常重要。保持核心路線圖的關注。我認為OpenAI區別於其他大型實驗室的一點是,OpenAI的核心始終是核心探索性研究。我們的業務不是複製其他實驗室的成果,也不是在基準測試方面追趕其他實驗室。那真的不是我們的看家本領。我們一直在努力探尋下一個範式是什麼。而且我們願意投入資源來確保我們找到它,我想大多數人可能會感到驚訝,但用於探索的那項工作所消耗的計算量,比訓練實際產物要大。主持人: 它一定是,它仍然必須是,你如何阻止自己被別人說服?因為每個人都會提出,就像我有時思考這個問題時,我就會想像我在《紐約時報》工作時,你們會有一個頭版會議,每個人都想上頭版。每個人都認為自己的報導是最重要的報導。他們都在竭盡全力地告訴你這件事為什麼如此重要。在那個房間裡的每個人都為他們所推介的內容付出了數周、數月的心血,所以感覺就像生死攸關一樣。而且,對我來說,這看起來太困難了。Mark Chen: 這也是一個艱難的過程。而且我認為最困難的原因是,這是一個我們現在無法資助的項目。但我也認為這是好的領導力。你需要清晰地傳達,嘿,這些是優先事項。這是我們將要討論的內容。這些是我們認為能推動研究項目的成果類型。可能還會有其他事情,但那些必須明確排在第二位。競爭動態與長期研究主持人: 當你,就像你提到的那樣,不對競爭對手做出反應時。當我瀏覽我的筆記時,我不知道我是否能足夠快地跟上思路。但這,這就像一個讓我感到驕傲的點,你覺得,其他一些公司,你們處於一個領先的地位,並且為其他人設立了標準,所以他們對你們發佈的內容做出了反應。我們恰好在 Gemini 3 發佈幾天後進行這次採訪,你的競爭對手在某些時候確實存在……這種來回博弈正在進行,而且我知道基準測試的價值在某種程度上是有爭議的,但你知道人們仍然會關注這些事情,那麼隨著時間的推移,你如何保持那種奢侈或那種智力上的地位,讓你覺得我們就做我們該做的事情呢?Mark Chen: 我認為如今的人工智慧研究領域比以往任何時候都更具競爭力。重要的是不要陷入這種競爭動態中,因為你總會說,嘿,我可以發佈一個增量更新,讓我比競爭對手領先幾周或幾個月。我不認為這是進行研究的長期可持續方式,因為如果你能攻克下一個範式,那將重要得多。你將塑造它的演變。你將瞭解圍繞該思想領域的各種側面研究方向。Mark Chen: 因此,當我們以我們的強化學習(RL)項目為例來思考這個問題時,我們在兩年多前就押注,我們真的要攻克語言模型上的強化學習。這在當時是一個非常不受歡迎的賭注。現在看起來很明顯。但那時,環境是,嘿,有一個預訓練機器運行得很好。有一個後訓練機器運行得很好。為什麼要投資於其他事物呢?我認為今天,每個人都會告訴你,思考和語言模型,這是一種你不能擁有的原始狀態。我們不能沒有它而生存。因此,我們真正要做的是進行這些大膽的投資,並找出如何擴展和建構演算法,使其能夠擴展到比我們現有的算力量大幾個數量級的規模。今天擁有的。主持人: 我在智力上理解這一點,隨著你們最初基本上是一家純粹的研究公司,這變得越來越困難。當你今天看OpenAI時,你有產品法律(指產品化、商業化等法規或流程)。OpenAI的某些部分看起來更像是成熟的微軟或Google,你有產品線。你必須服務於所有這些不同的事物。通常情況下,我覺得你們還很年輕。所以也許你還沒有面臨這些確切的壓力,但隨著這些公司發展,總會出現一個問題:我們更專注於那些能為底線服務的事務,而不是花大價錢做研究,這似乎總是會隨著時間推移而逐漸減少。我認為這正是OpenAI其核心最特別之處之一:我們是一家純粹的人工智慧研究公司,我認為市面上很少有其他公司能這麼說。Mark Chen: 而且,我們最初是作為一家非營利組織成立的。我正是在那個時期加入的。我認為其精神是,不惜一切代價建構通用人工智慧(AGI),推進AGI研究,當然,要以安全的方式進行。但我確實認為那是創造真正價值的最佳“障眼法”,如果你專注於研究並取得了成功,那麼創造價值是很容易的事情。所以我認為有一種陷阱,就是過於沉迷於“讓我們提高底線”這樣的想法。但實際上,如果你做出了最好的研究,那麼那部分(創造價值)就非常容易了。工程師與研究員的界限主持人: 你是在2018年開始的嗎?在2018年。所以你覺得那種靈魂,那種核心文化和核心的根基,它真的非常持久。Mark Chen: 它仍然存在。主持人: 那是什麼?那他(指某人)是誰?他說,我們不應該稱呼你們任何人是研究人員。這只是工程技術。Mark Chen: 我想,我們,這是真的,因為我覺得一旦你有了這種等級制度,並且你把,比如說,研究科學提升到一個高於工程技術的地位,你就已經完全輸掉這場遊戲了,因為當你在建構一個大模型時,在最佳化所有那些,那些百分之幾的最佳化實踐中,有非常多的內容,你如何讓你的核心(kernels)快那麼一點點?你如何確保數值?都正常工作,這是一項深入的工程實踐。如果你沒有這部分內容,你就無法擴展到我們今天使用的GPU數量。主持人: 因為我認為他們,但研究人員和工程師之間存在一種神秘感,你明白我的意思嗎?那麼你是否覺得保持頭腦冷靜在那方面會更好一些呢?這就是你所說的意思嗎?Mark Chen: 或者,我只是覺得研究人員有各種不同的類型。我們一些最優秀的研究人員,他們是那種,能想出十億個點子的人,而且其中很多都不好,但是,就在你快要覺得,啊,這個人真的值得嗎的時候,他們會想出一個,絕妙的點子。他們中有些人就是非常擅長沿著清晰的前進道路去執行。所以研究人員有各種不同的類型。我認為很難將他們歸入一種刻板的、有效的工作類型。基準測試與Gemini 3主持人: 這有道理。我不會就競爭對手的問題過多地打擾您。只是因為 Gemini 3 已經發佈了,我很好奇當你們的一個競爭對手發佈了類似產品時,你個人或團隊會發生什麼,比如大家都會去看看它能做什麼嗎?你們是否有這樣一個提示詞或問題,你們經常會向這些新模型提出,以檢驗它們的能力?Mark Chen: 所以就 Gemini 3 而言,它是一個相當不錯的模型。我想我們所做的一件事是努力建立共識,基準測試只能告訴你一部分資訊。僅從基準測試來看,我們實際上感到相當自信。我們內部的模型在性能上達到了 Gemini 3 的水平,我們非常有信心將很快發佈它們,並且我們可以發佈比它更好的後續模型。主持人: 但是,再說一遍,基準測試只能說明一部分問題,而且我認為每個人都會用自己的方式來探查這些模型。Mark Chen: 我喜歡給模型出一個數學題。我認為到目前為止,它們中沒有一個真正解決這個問題,即使是那些思考模型也一樣。我會等著看。這是像一個秘密的數學問題嗎?不。如果我在這裡宣佈它,也許它就會被訓練進去。但我認為這是去年一個很好的難題之一。這就是42問題。所以你想建立一個這個模42的隨機數生成器。你可以使用一堆基本元,它們是小於42的素數的隨機數生成器。你希望期望中對這些子生成器的呼叫次數儘可能少。所以這是一個非常巧妙的謎題,但語言模型可以非常接近最優解,但我還沒有看到有那個模型能完全解開它。主持人: 好的。在我們到達那裡之前,我想問你一個我們正要深入探討的方向。我知道我見過你。你很有競爭力。你也對我說過。Mark Chen: 我想我找到了。我熱愛競爭。我討厭在任何地方輸掉。我真的很討厭失敗。我討厭輸。主持人: 所以我在想像,我只是好奇這是否正確,如果如果我們知道 Gemini 3 或任何版本將在周四發佈,你會在午夜時分把它那個問題扔給它嗎,還是沒有那麼誇張?我認為這需要長期的努力,任何事情,比如,我是一個有執念的人。Mark Chen: 我認為任何事業,你都必須著眼於長遠。在過去半年裡,我們實際上一直在專注於預訓練,特別是加強我們的預訓練工作。我認為這是其中一些努力的結果,與雅庫布一起,專注於並在 OpenAI 建立起預訓練的肌肉,圍繞它打造一個真正的超級明星團隊,確保預訓練所有重要的領域和方面都得到強調。這就是今天所創造的成果,讓我們感覺我們可以在預訓練方面輕鬆地與 Gemini 3 一較高下。主持人: 好的。我想問一下預訓練方面的事情。因為我一直在和你們所有人就此進行很多討論。你對這些新模型出現時遊說的,問題不太痴迷,而更關注這個,這個漫長的旅程。 我想談談你目前面臨的難題的原因,Mark Chen: 我在OpenAI開始之前就認識雅各布(Yaakov),那時他正在參加一個編碼競賽,我有一段時間非常沉迷於編碼競賽。有一個叫甘迺迪的人。我不知道他是否還出名,但他就像是這些編碼競賽中的邁克爾·喬丹。所以我去Facebook看了一場。我不知道他們是否還舉辦,但他們有一個年度駭客杯(hacker cup)。駭客杯。那是我第一次見到雅各布。然後我知道,我想你在高中時參加過數學競賽。大概從小學到高中都在參加。Mark Chen的成長背景與競賽經歷Mark Chen: 我接觸程式設計非常晚。是大學時的一個室友說服我上了第一堂程式設計課,那時我帶著一個數學家的全部傲慢,覺得數學是最純粹的科學核心,你真正證明自己價值的地方就在那裡。我想那會兒我可能太沉迷於競賽了。但說真的,這成了一件非常有益的事情,一開始它純粹只是為了和我的大學朋友們保持聯絡的一種方式。主持人: 因為你去了麻省理工學院(MIT)。Mark Chen: 我去了麻省理工學院。我畢業後,每個周末我們都會登錄上去做這些競賽,只是為了彼此保持聯絡。我開始參加比賽並且表現相當不錯,然後為像美國資訊學奧林匹克這樣的一些競賽編寫題目,最終開始指導那支隊伍。這是一個很棒的社區,我在那裡遇到了像斯科特這樣的人,主持人: 所以你,所以我想很多人可能熟悉數學競賽,因為他們可能看到孩子們經歷過這些。國際資訊學奧林匹克(I.O.I)和這些程式設計競賽則有些不同。它是,它好太多了。但當我看到它們時,它看起來像一個,幾乎像一個文字謎題。你正試圖找到最有效和正確的方法來解決這個問題。而你正與所有人進行一場競賽。然後每個人都在他們的電腦上編寫程式碼,然後,有些人試圖非常快地達到目標,但他們的方案有點沒有解決問題,存在這種權衡,完全正確。你實際上是在麻省理工學院的團隊中,那是我大學畢業後做的一些事情,但今天你是美國國家隊的教練,其中一位教練,其中一位教練,是去年還是前年,比如美國已經很長時間沒有贏過一次了,這支隊伍,你永遠無法預測每年的頂尖人才構成是什麼樣的。Mark Chen: 但在前年,我認為我們有一個非常極端的團隊。好的。我相信他們贏得了奧林匹克競賽。主持人: 因為我覺得通常是像中國或俄羅斯,或者像白俄羅斯和波蘭。所以這個大型競賽每年都在不同的國家舉行。它是什麼樣的?有多少人參加?Mark Chen: 他們從每個國家選出最好的四名學生。它既是一場競賽,也是一個社交活動。這是一個緊密團結的社區。他們都去做了非常了不起的事情。是一場為期兩天的高強度競賽,每天你只有三個問題,有五個小時來解決它們。你真的能感受到房間裡的腎上腺素和所有壓力。但它也帶來極大的樂趣。我想人們會平靜下來,通過這個交到一輩子的朋友。Mark Chen: 作為教練,你到底做什麼?我是說你太他媽忙了,老兄,你花多少時間在這個上面?老實說,那是什麼樣子的?孩子們有很強的自我激勵性,有時候重點真的在於管理他們的表現和策略。我想,你會有好日子,也會有壞日子,比賽中會有好的時間段,也有糟糕的時間段,你不能讓這些影響你的心態。管理參賽者和管理研究人員有很多相似之處。就像在一個長得多的時間尺度上,但研究人員也會有好的月份和壞的月份。你不能讓那些連續的失敗影響你的心態,因為這就是研究的本質,我認為在某一階段,很大程度上是士氣管理。Mark Chen: 我認為競賽最近幫助我認識到的另一個有趣之處是,當你部署模型去解決這些競賽問題時,如今它們在這方面非常擅長。Mark Chen: 我正想問你這個問題。它們,與人類的工作方式有很大不同嗎?我們通常認為這些機器,它們非常擅長模式識別。主持人: 你可以解決任何問題。Mark Chen: 如果它能對應到之前的問題,它很可能會解決它。但我注意到在之前的一些國際智能(IIs)中,有一個問題非常即興或特殊(ad hoc)。我本不認為模型能解決它,但實際上它對人工智慧來說是最簡單的問題之一。好的。這讓我有種感覺,人工智慧加上人類在前沿研究中,將會創造出一些驚人的成就。僅僅因為人工智慧對什麼容易、什麼不容易有一種不同的直覺。主持人: 當我們深入思考整個AlphaGo事件時,你是否覺得,有那麼一個時刻,它做出了人類以前從未有過的下法。所以有點類似於那種情況,是嗎?Mark Chen: 我認為是。我認為是。我認為對於GPT5 Pro來說,確實如此,前沿研究已經出現了一個拐點。關於這一點,我能講到的最好的軼事之一是,我想在發佈後三天。我遇到了一個朋友,他是一名物理學家,他一直在玩弄這些模型,感覺,它們很可愛,但沒什麼大用處。我用專業版模型挑戰了他,讓他嘗試一些有抱負的事情。他輸入了他最新的論文。它思考了30分鐘才解決出來。主持人: 我會說,那一刻的反應,有點像在第37步和第38步看到麗莎一樣。Mark Chen: 我只是覺得,對於前沿數學、科學、生物學、材料科學來說,這種情況只會越來越多地發生。這些模型確實已經發展到那個階段了。AI能力的提升與未來評估主持人: 我本來要問你一個問題,這個問題其實一點都不新穎,因為我認為自從“深藍”和所有國際象棋的事情以來,我們一直在討論這個問題了。但是,作為一個一直關注這些比賽的人,如果你……我不知道,當你開始看到這些模型解決了那些曾是這些獨特人類智慧的巔峰成就時,會有一種失落感。Mark Chen: 有,也有沒有。我擅長競技程式設計。我從來沒有達到絕對的頂尖水平。一種復仇的方式。我的確認為,對我個人而言,肯定有一個時刻,在我們開發推理模型的一段時間裡,我們追蹤了編碼競賽的表現。在項目開始時,它們(模型的表現)不是非常出色,也就是說,還達不到參加競賽的任何普通競爭者的水平。隨著時間的推移,它們的能力只是不斷提高,不斷上升。你還記得那個時刻,你走進會議室,看到(模型展示的)表現,然後模型超越了那個水平。天那,那也讓我感到震驚。這哇,我們如此之快地將能力自動化到了這個水平。當然,雅科夫(Yaakov)還在那裡,還有點自鳴得意。但在大約一兩個月內,它也超過了他。Mark Chen: 今天的模型處於前沿,通過我們今年夏天在 Coder 競賽中取得的成績就可以很清楚地看出,世界上頂級的最佳化競賽程式設計師,我認為它在那裡取得了第二名,所以說它真的從去年的第一百名躍升到今年的前五名。你認為我們十年後還會進行這些比賽嗎?我想會的,我的意思是它們很有趣。當然有一批人會用它來最佳化他們的簡歷,他們會因此退出這項活動,但我認為那些一直最擅長這項活動的人,是那些純粹出於樂趣而做這件事的人。而且我不認為這會消失。主持人: 當我在做這個報導時,他們告訴比如如果你來自俄羅斯或者我不知道那些國家,你基本上可以自動獲得去任何你想去的大學的免費通行證。我看到美國隊的人去了哈佛和麻省理工學院。所以他們看起來過得不錯,但似乎美國並沒有一個類似的體系。有的。Mark Chen: 難道你不覺得未來,面試將會有點被破壞了嗎?每個人都在一定程度上看到了這一點。甚至大學考試或大學作業,在這一點上都已經被破壞了,我確實認為我們需要新的方法來評估和衡量誰在做那些工作,誰學到了什麼,以及某人實際上的水平在那裡。所以我有一個想法,也許在我們的面試中,我們應該讓候選人直接和聊天GPT交流。這是一個特殊的ChatGPT,模型試圖衡量你是否瞭解這些材料,或者你是否具備在OpenAI工作的能力水平。你必須與它進行一場讓你在OpenAI深信不疑的對話。當然,不允許你“越獄”(指繞過安全限制),事後我們會查看對話記錄,但也許像這樣的測試在未來能更準確地反映你是否真的懂。主持人: 所以你現在還沒有這樣做,但你在考慮——就是用有創意的、革新的方式。Mark Chen: 來進行面試。Mark Chen的個人歷史:從貝爾實驗室到撲克主持人: 矽谷以在面試時做那些“腦筋急轉彎”式的問題而聞名。我們教過你,你從小數學就很好。我想你,你是在東海岸出生的嗎?出生在東海岸。然後你搬到了西海岸。接著你在台灣生活了很長時間,從小學到高中。四年。好的。你的父母在貝爾實驗室工作。所以你出身於工程世家,這是一個非常有趣的背景,因為你接觸到了所有這些創新中心,尤其是你的父母在貝爾實驗室,他們……我是在一個非常科學的環境中長大的,餐桌上的談資就是謎題之類的事情,而且我也體驗到了那種更傳統的、你知道的、貝爾實驗室東海岸的經歷。Mark Chen: 在西海岸,我父親去創辦了一家初創公司。所以在很小的時候我也接觸到了一點那種新公司的氛圍。當然,然後是巨大的跨越到台灣,而且我認為那是一個巨大的文化衝擊。你穿著制服,在學校裡,學校周圍有帶刺的鐵絲網,同時也接觸到了那種程度的嚴謹性。我想這只是許多非常棒的經歷的成長過程。Mark Chen: 所以學校更難一些?我會說,我會說它只是更……學校系統中的靈活性和自由度少了一點,但我認為它也能教會你一些東西。主持人: 從第一天起,《核心記憶》(Core Memory)播客就得到了矽谷 E1 風險投資公司(E1 Ventures)那些優秀人士的支援。他們是一家年輕而富有雄心的風險投資公司,位於矽谷,投資於年輕而富有雄心的公司和個人。非常感謝 E1 風險投資公司給予的所有支援。而且你知道你想回來。回到美國。上大學?絕對。好的。主持人: 然後,所以你在麻省理工學院。你身處一個相當有趣的群體中。我猜麻省理工學院一直都有一些有趣的人。Mark Chen: 天那。2012年真是太棒了。主持人: 他們有點像一個全明星名單。Mark Chen: 那一年很棒。比如,我不知道你是否認識雅各布·斯坦哈特(Jacob Steinhart)。他現在正在做 translucent。我和他過去經常在電腦科學課上一起做項目。主持人: 有保羅·克里斯蒂亞諾,他寫了很多非常出色的……他在OpenAI工作,很多業內知名的人工智慧人才都出自那一年。然後,然後我們談論的是競技程式設計,比如Scott Woo,他在Cognition工作。他現在因為他的數學能力而聞名,甚至成了一個梗。但你只是通過程式設計,通過程式設計社區認識他的。好的。然後我現在看到你們的競技成果,對我來說,看起來就像現在的撲克。我想我是在一個活動上,我想我必須,我們必須對這次活動的具體細節保密,或者什麼的。但我認為我可以談論這部分,就是深夜裡,我走到一張桌子旁,有你、斯科特,我想還有來自Palantier的肖恩,還有……還有一小群其他人,進行著一場相當激烈的……看起來很激烈,但對你們來說只是,就是一場相當激烈的撲克牌局。所以你們現在是將你們的數學和競技技能應用於這裡了。Mark Chen: 撲克是一款非常有趣的遊戲。我一直用一系列痴迷來描述我的生活。撲克絕對是過去這些痴迷之一。主持人: 我認為我對撲克最大的領悟是,它更多的是一門數學遊戲,而不是一門觀察人性和虛張聲勢的遊戲。Mark Chen: 而且我認為你對撲克瞭解得越多,你就越是朝著那個方向進行更新,我想,我以前是一個非常糟糕的虛張聲勢者。當你清楚地知道這是一個數學上正確的虛張聲勢時,那就太容易了,就像你對此完全感覺不到任何緊張一樣。而且非常有趣的是,你有一個我認為被認為是如此人性化的遊戲,但其底層的機制和獲勝方式卻如此深刻地依賴於數學。前幾天我正好想到了這一點,這在語言模型中也有某種關聯,你有一個深度人性化的語言生成過程,但有一個數學機器可以和我們一樣出色地完成它。主持人: 作為一名作家,我一直都在思考那一部分,我在大學時學了所有關於維特根斯坦以及所有這些思考這些問題的人的哲學。那麼,你如何找到一種優勢呢?你和斯科特都給我的感覺像是超自然的一樣。Mark Chen: 擅長數學,但我不太理解你們中的一個人是如何算出超過另一個人的……它主要是一個讓我們聚在一起、敘敘舊的平台,今天我們沒有把它看得那麼嚴肅。我認為,對撲克這類事情過於認真會使其失去樂趣。我對撲克的痴迷我認為在十多年前就已經結束了,現在它只是為了好玩。你這麼說是因為我看到斯科特贏了兩天的比賽,我想。主持人: 你說的也許是對的。他確實非常認真地對待它,非常認真地對待它。就像大學畢業後,你在某種程度上,我曾經是……Mark Chen: 不過我在飛機上打敗了他。主持人: 好的。你在飛機上打敗了他,直接回家的路上? 是只有你和他對決,還是又像一群人一起玩?Mark Chen: 可能有三四個人。從高頻交易到OpenAI的轉折主持人: 好的。我覺得很多,我覺得有三類,尤其是在,比如說,如果你回顧到2018年左右的時間範圍,對於在人工智慧領域處於高水平的人來說,我認為我沒有過度概括,其中很多人都有學術背景,很多人是數學神童,或者他們將自己的數學背景應用於機器人技術或物理學之類的工作。然後是另一類人,他們曾在華爾街從事高頻交易和量化分析之類的工作。所以你的第一條道路就是直接從麻省理工學院去了華爾街。Mark Chen: 我並不太為擁有那樣的經歷而感到驕傲。坦率地說,那對於在麻省理工學院(MIT)中那些非常注重量化分析的孩子來說是一條相當普遍的道路。那當然,那絕對是一個非常講究精英治國(meritocratic)的體系,你可以運用你的智慧,而且有一條非常明確的路徑決定了你將獲得多少利潤。但我想在文化上對我來說是困難的。那是一個地方,當你發現一些東西時,你的第一本能是把它儘可能地藏起來,因為你的知識就是你的價值所在。感覺即使在公司內部,像這樣的競爭動態也會產生一種外部表現,人們之間互不信任。而且我認為它也感覺像一個非常封閉的生態系統,我想我們今天不會太有感覺,比如,當高頻交易(HFTs)中的某人發現了一個讓他們的演算法快一點點的突破時,其他任何人都沒有感覺,隨著時間的推移,我只是覺得,四五年後我醒來時,我們正在與完全相同的參與者群體競爭,每個人都只是一點點快了大約一點,但世界真的因此改變了那麼多嗎?我覺得是時候做點別的事情了,當時正好有一堆事情湊到了一起,有阿爾法狗(AlphaGo)那場比賽,我認為那對 OpenAI 的很多人來說是一個巨大的鼓舞。Mark Chen: 你玩圍棋嗎?我沒有玩,但我認為從某種意義上說,那個模型能夠做一些有創意的事情。我真的很想瞭解那背後到底發生了什麼。主持人: 所以你看到了那一幕的發生。你當時有沒有閱讀過人工智慧的研究論文之類的東西?Mark Chen: 說實話,沒有。然後我看到了那個事件。那真的很有啟發性。從那時起,我才開始深入研究人工智慧。看到那之後我的目標之一就是復現深度Q學習網路(DQN)的結果。這是一個能夠高效地以超人水平玩很多雅達利(Atari)遊戲的網路。從那裡開始,這就是我接觸人工智慧的起點。你當時是業餘時間做那些事情嗎?主持人: 所以你工作一整天,然後回去再試著。好的。這確實很奇怪。我記得我當時在採訪喬治·哈茨(George Hatz),大概是在2018年左右,也許再早一點,他剛剛自己動手在他的車庫裡造了一輛自動駕駛汽車。然後,這是喬治。所以他會說出宏大的陳述。Mark Chen: 有時這可能不完全精準或放之四海而皆準,或者不適用於其他人,但他他就像人工智慧仍然很年輕,你可以,如果你閱讀,我不知道是多少,10篇、20篇、30篇研究論文,你就可以瞭解整個領域。我是說,這讓我著迷的是,它在很多方面都很古老,可以追溯到幾十年前,但這個特定的時刻非常淺薄。我總是給那些對進入這個領域感到不知所措的人這個建議:它太淺薄了,花上三到六個月時間,選擇一個項目,比如你可能知道的,復現DQN,你就能非常快地達到前沿。過去幾年增加了一點深度,但它完全不像你所知道的理論數學或物理學。你認為這是一個這樣的領域嗎?我前幾天問了雅各布這個問題,我不知道我為什麼對這個問題如此著迷,但在數學中,你會看到人們傾向於在20多歲時做出最好的工作或取得重大突破,然後隨著他們變老,很難再有那種時刻。就像你說的,我們是否依賴年輕人閱讀這些論文然後產生一些見解,還是說這是一個可以讓你在整個職業生涯中不斷進步的事情?我是說,我認為你可以一直進步。我是說,OpenAI本身確實有一個相當年輕的文化,但我認為你不必年輕才能做出好的研究。我認為,年輕且對既有範式瞭解較少,會讓人覺得這就是行事的方式。主持人: 我認為隨著時間的推移,你可能會形成自己的願景,這是一件好事,但這也會讓你固守一種思維定勢,比如,研究就是這麼做的。Mark Chen: 好的結果就是這樣產生的。我認為年輕的研究人員在這方面的概念上傾向於有更多的可塑性。主持人: 你的職業生涯在 OpenAI 中很有趣。看起來你一開始就進入了一個非常重要、規模很大的職位。但當你在 2018 年剛去的時候,人數大概只有 50 人左右?Mark Chen: 當時人數更接近 20 人。更接近 20 歲了。當時看起來確實像是兩個團隊。我是以住院醫師的身份加入的。一個明顯不是專家、不是博士的人。我想我在他任職於“開眼”(Opening Eye)期間,一直都是住院醫師。所以在這方面我非常幸運,能夠學習他是如何從宏觀層面思考研究的。在這種情況下,住院醫師就像是你的得力助手。所以是某人進來,通常是來自另一個領域,他們是初入此道的人。我想投資並培養人工智慧方面的人才。所以我想住院醫師的第一階段就像是一個為期六個月的壓縮版博士學位。然後在此基礎上,深入到越來越深的研究項目中去。主持人: 所以你幾乎每天都在和伊利亞交流?Mark Chen: 他是不是在塑造你的博士研究?他負責我的項目、我的課程設定和我的學習。我就是會去找他,問“嘿,這是怎麼回事?”比如,人們為什麼會追求這個?主持人: 而且,我想如果你去領英(LinkedIn)上查看,上面會寫著你在OpenAI的第一份工作就是前沿研究負責人。不不不。我在IC(可能是指某個部門或角色)待了大概三年。Mark Chen: 好的。所以我當時在做獨立研究項目。我研究生成式模型,因為那確實是伊利亞當時關注的重點所在。然後過了一段時間我才開始管理團隊。主持人: 您說的是生成式。大多數人可能會指出Dali是第一個被公眾廣泛記錄的重大項目。這公平嗎?Mark Chen: 所以我想這也標誌著我從個人貢獻者(IC)轉變為管理者的過渡。我自己的一個重要項目,也是我今天非常自豪的一個項目是ImageGBT,這個概念驗證表明,即使在語言之外,你也可以將圖像之類的內容放入Transformer中,模型就會內化非常好的表徵,並理解圖像的內容。這就像一個概念驗證,證明你可以對純文字之外的內容進行語言建模,並獲得非常好的表徵,並將它們擴展到與其他方法一樣先進的水平。我認為那是Dolly的一個先驅工作,而我當時正處於管理的對立面。而且我認為在這兩者之間,我作為個人貢獻者(IC)參與做的另一個讓我非常自豪的項目是Codex,我們在其中為評估程式碼模型建立了很多框架,並對如何使語言模型在程式碼方面表現出色進行了深入研究。主持人: 那麼,是什麼讓你選擇了‘開眼界’(Opening Eye)呢?因為我可以在腦海中從兩個方面來看待這件事。一個是在小池塘裡的大魚。這裡有很有趣的人。我記得2018年時,OpenAI只有20個人。在我看來,就像是,這可能不會成功。Google似乎已經把這件事鎖死了。而且這只是一小群人,試圖挑戰一件看起來需要數十億美元現金的事情。這甚至是在規模化(scaling)工作之前,當時Google已經在人工智慧領域投入了大量的資金,只不過形式與我們現在所想的不同。但你已經在手機上做翻譯之類的事情了。所以這對你來說是一個艱難的決定嗎,還是你這麼快就偶然進入了OpenAI的工作?Mark Chen: 我認為有兩件事,你需要有抱負和遠見。這當然是OpenAI當時所擁有的。但也需要有足夠的人才來支援它,而且我覺得OpenAI是少數幾個抱負遠大,但人才也足夠大到能夠彌補這一差距的地方之一,而且你知道我很幸運,我在大學時期就認識像格雷格這樣的人,格雷格是在麻省理工學院(MIT)和你一起的,我想我們在高中時一起參加過數學競賽,對,然後我給他發了條資訊,我說,我不太確定我是否具備正確的技能組合,但這聽起來像是一個正在做著出色工作的機構。主持人: 這仍然讓人覺得很瘋狂,就這樣憑空出現,現在你卻在領導研究工作。對我來說也是超現實的。Mark Chen: 對我來說也是超現實的。即使是從個人貢獻者(IC)到管理者的轉變,我當時對接受這個職位也非常猶豫。我不知道管理是否是我會擅長的技能組合。我真的很享受資訊安全(IC)方面的工作。我想我做得很開心,做得非常出色,建立了非常棒的合作關係。這真是一段瘋狂的旅程。領導力危機與團隊團結主持人: 關於這一點,你一直給我一種非常隨和、頭腦冷靜的人的印象。Mark Chen: 我必須說,OpenAI 的歷史中有一些安靜的、戲劇性的、肥皂劇般的、有點像《權力的遊戲》的權力鬥爭,對我來說,作為那裡的管理者,我想說現在感覺這些比過去要平靜一些,但是當你回顧過去時,我不知道,你是在說你必須學習這些技能,但其中一些感覺與你的個性背道而馳,需要處理所有這些事情。老實說,我在 OpenAI 運氣很好,我真誠地這麼說,從某種意義上說,我的管理者真的為我爭取過,他們看到了我的才能並為我爭取過。我想當我參與 Codex 的工作,後來向鮑勃匯報時,我從來沒有要求過晉陞或提升職位,這都是自然而然發生的,而且一路上每個人都給了我很好的建議。我想作為一個人成長的部分,就是獲得經驗,我認為在 OpenAI 沒有比這更好的地方來獲得這些經驗了,總是有挑戰需要解決,我認為培養這種信心,我實際上認為管理層更多地是關於經驗,而不是才能。我不想讓你尷尬,我不知道這是否會讓你尷尬,我猜你可能也不想過多地談論那次政變或小插曲,或者我們想談論什麼,我們可以談論任何事情,我只是,我已經採訪了很多人,關於這個問題,我也會把我的“寶石”留給我的書。我不會那樣做,但我不會說出來,但其中有幾個時刻,你,你幫助研究人員圍繞那件事達成一致,就是要求讓山姆回來,然後,然後我想在那一兩天后,有一個,有一個演講,我認為是在格雷格的房子裡給出的。主持人: 是嗎?Mark Chen: 我想是在切爾西的房子裡。主持人: 好的。這兩件事都讓我覺得是非常深刻的時刻,尤其對於,我猜是為自己所相信的東西站出來並召集人馬來說。Mark Chen: 就像在危機時刻,我不知道,所以那些,那對我來說確實感覺是一個非常關鍵的時刻,我想在飛艇事件後的幾天裡,有很多不確定性,我和當時在尼克·巴雷特都感到有責任,野狼就在我們腳後跟上,每個人都在接到來自所有這些競爭實驗室的電話,他們說,你應該來我們這裡工作。我給自己定了一個目標,我不會失去任何一個人。而且我們也沒有。每天都向人們敞開我們的家門,人們可以來這裡。他們可以,有一個地方來釋放他們的焦慮。然後也幫助他們與領導團隊保持聯絡,讓他們覺得自己能夠有所作為。我想,隨著時間的推移,人們真正感受到了‘我們都在同一條船上’的精神。我們如何才能有所作為?我們如何向世界表明我們團結一致?我們當時在幾處住所之間來回奔波,我們有了一個想法,就是‘嘿,我們需要向世界表明我們思想高度一致,我們將為薩姆而努力’。然後我們組建了請願書團隊,那個想法我想在凌晨2點才最終定稿。主持人: 我想到了早上,我們獲得了整個研究組織超過90%的人的簽名,每個人都在給他們的朋友打電話,問‘你加入還是不加入’,我想最後有接近100人簽署了那份請願書。不過我必須說,這讓你處於一個很艱難的境地,尤其是在一開始,伊利亞和薩姆似乎站在對立面,而伊利亞是你的導師,然後我知道伊利亞後來又回來了……我不知道,那會不會很尷尬?那很艱難,那是一個資訊稀疏的環境,但從根本上說,我認為在那個時刻,你很可能得出結論:薩姆在這裡做了什麼嗎?有沒有……但是格雷格和雅科夫這樣正直的人會因此辭職嗎?Mark Chen: 我只是覺得,故事的某一部分在這裡被誤解了。主持人: 雅各布在那裡待了很長時間了。比如,人們應該瞭解雅各布的那些方面而他們卻不知道呢?這很有趣,因為他是個超級有趣的人。Mark Chen: 他太搞笑了。我的天那。他有一種諷刺的幽默感。這讓我笑得很開心。老實說,這是我今天喜歡“Open Eye”的方面之一。就像我與 Yaacob 的契合度一樣,我感覺我們走進會議室,就可以互相碰撞想法,快速達成一致,然後傳達同樣的資訊,並且可以在一個宏大路線圖的不同部分協同運作。這是我在 OpenAI 工作所擁有的巨大特權之一。回到關於讓人們團結在一起的那個觀點,我對 OpenAI 的研究仍然有同感,我認為我們正受到攻擊,我們是一個大家庭,我們一直受到攻擊,你看,當任何一家公司開始時——這就是我知道我們處於領先地位的方式——他們會從那裡招募人才?就是 OpenAI,他們想要專業知識,他們想要我們的願景,可以說是我們對世界的理念,我們培養了這麼多頂尖研究人員,我認為 OpenAI 比其他任何地方都更能造就當今 AI 領域的名字,我仍然有同樣的保護欲,就像有人來找茬,我會盡我所能確保他們快樂,確保他們理解他們在 OpenAI 的角色,你知道他們的角色如何融入路線圖。我認為我在寫書時或者只是即時關注事件發展時一直在與此鬥爭,就像我回顧歷史,你有伊利亞(Ilya)在 2012 年取得了重大突破。主持人: 然後,2017 年你在Google有諾姆(Noam)在做 Transformer 模型。然後你有亞歷克·拉德福德(Alec Radford)。比如有時候故事是這些個人真正推動著這個領域向前發展。而且感覺這是一個仍然非常年輕的領域,你可以有,有這樣一個人。然後似乎有一群人,我不知道具體人數,我們稱之為八到十人,他們似乎有能力反覆做到這一點,他們真的在塑造著這一切將走向何方,所以當我開始看到像約翰·舒爾曼離開或亞歷克離開,然後感覺哇,如果你失去了一部分全明星團隊,你該如何……這似乎是一個你無法輕易替代的領域,但在那之後,你們在推理和一些其他方面取得了進展。所以我不確定,我在智力上遇到過困難。Mark Chen: 我確實不同意這是當今進行良好研究的總括性方式。我認為自上而下的引導肯定有很多。我們押注於方向,但Openet也有一個非常深入的自下而上的優美文化,其中一些最好的想法有機地出現,有時是從最令人驚訝的地方冒出來的。我認為真正偉大的事情是看著這些賭注如何展開、成形、擴展,而推理就是其中一個核心例子。主持人: 而且,那麼在這個想法中,比如我們有多依賴明星?因為你仍然看到Google花費巨額資金把諾姆帶回來。你懂我的意思吧?Mark Chen: 所以這讓我想,這就是它的運作方式。我認為這是一個混合體,比如你必須投資於你的人才儲備,因為我對我們培養明星的能力非常有信心。但確實,外面有非常優秀的人才,而且每個人都知道他們很優秀。我認為如果說我從Meta學到的一件事是,Open A也可以非常積極地追逐頂尖人才。有一種非常積極的招聘方式,我也借鑑了一些方法。但我認為我們應該始終努力組建最好的團隊。為了實現我們想要完成的使命。主持人: 這很有趣,因為這是一個相對小的圈子,而且你們所有人都聚在一起,即使你們是競爭對手,然後。我知道。這肯定很奇怪,因為在某種程度上我知道你和不同的人是朋友。然後你還試圖竊取他們所有最好的東西。Mark Chen: 在所有層面上,這都是一個殘酷競爭激烈的行業,但話說回來,這也是我所熱愛的。我是一個極具競爭力的人。我討厭輸。無論是在研究方面,還是在招聘方面,在所有這些方面。我會非常努力地對待它們。知識共享與領導層協作主持人: 這讓我想起,因為我有點像個半導體,我是一個歷史迷,但早期的半導體時代並沒有那麼遙遠。所有這些半導體初創公司一下子都出現了。他們都在挑戰物理學的極限,最終會有人在那一點上發現一些新東西。Mark Chen: 他們會去酒吧,就像那些工程師一樣,他們無法停止彼此之間分享知識,但同時他們也被拉扯著,這很艱難,每家公司都在以這樣或那樣的方式迅速取得突破,你提出了一個有趣的點,即總會有某種基礎的知識傳播,我認為公司對此有兩種應對方式:一種是建立深度的資訊孤島,就像“嘿,我們要用所有這些方式來保護資訊”,我認為OpenAI不是這樣運作的,我們也不認為這是正確的運作方式,我們只是會盡快地跑贏其他人。我喜歡這種開放的文化。研究人員可以自由地分享想法。我認為這是取得最快進展的方式。主持人: 那麼,薩姆和雅各布現在如何合作呢?我想人們有時,如果你閱讀公告和所有內容,你會發現薩姆更側重於研究,而不是公司的日常營運,你知道我的意思嗎?你可以看出研究是他的熱情所在,甚至從頭銜和組織方式上也可以看出,尤其是最近,你和雅科夫對這些事情非常深入,我知道薩姆很懂技術,但你們倆總是沉浸其中,然後你知道薩姆在和每個人交談,我只是對你們三個人之間的這種動態感到好奇,以及如何——我的意思是你們不總是在資源分配上達成一致,但是,我只是對你們感到好奇,我們是一個非常緊密的群體,我每天都和薩姆和雅科夫交談,對於薩姆來說,他熱愛研究,他熱愛瞭解研究,他喜歡與研究人員交談,我認為在某些方面,他非常善於把握研究部門的脈搏。Mark Chen: 我還要依靠他來,這裡是否存在任何隱藏的潛在問題。去發現它們,向我揭示出來。雅科夫和像是個性還是技術上的?可能只是一些小事情。比如,比如辦公室的佈局方式,使得這個團隊和那個團隊更難協作。而他們兩個就是讓我去協作,以幫助我們實現我們想要的突破。所有這些事情,都非常、非常重要。我想雅各布和我花了很多時間來設計如何讓工作取得成功。主持人: 我認為將能力互補的人員搭配在一起,還有如何激勵人們朝著我們認為重要的方向努力。Mark Chen: 我們所做的工作中很大一部分就是這些。主持人: 還有,薩姆,他在幹什麼?他,比如,他在讀論文嗎?他在和你們聊天嗎?Mark Chen: 我認為他閱讀論文的工作量也佔了他應得的份額。主持人: 他與研究人員交流,瞭解他們如何看待世界、你們進行的研究類型,當然,他還負責這之外的龐大事務範圍。深入技術:預訓練、推理與算力擴展主持人: 我現在要問一些比較鑽牛角尖的問題,或者我將嘗試問,我不知道我能否達到我們期望的水平,但我會盡力而為,我會問……我不知道其中有多少內容是絕密,但是……但是,也許你會不小心說漏嘴,我們會把它問出來。在我參加過的會議中——我也不認為我是在洩密,因為我們已經討論過一些了——我想我在這裡是安全的。但是,預訓練似乎是這樣一個領域,感覺……似乎你們覺得你們已經弄明白了什麼,對此感到興奮,認為這將會是一個重大的進步。它也曾是我認為被忽視或有點令人不快的地方。以前的事情可能正如你們所期望或希望的那樣運作。你們能告訴我們你們弄明白了什麼,以及在某種參考框架下,我們已經看到了這些周期性的巨大飛躍?Mark Chen: 絕對的。所以我想我從高層次來描述一下過去兩年的情況,我們在推理、在理解這個原始能力並使其奏效方面投入了大量的資源。而且它確實奏效了。而且我認為,這樣做的一個副產品是,你在其他職能(如預訓練和後訓練)上會損失一點肌肉。在過去的六個月裡,我和亞克沃(Yaquo)做了大量工作來重建這種肌肉。我認為預訓練確實是一種需要鍛鍊的肌肉。你需要確保所有資訊都是最新的。你需要確保在最前沿的人員正在從事最佳化工作,在最前沿的人員正在從事數值計算工作。而且我認為你也必須確保關注度到位。這也是我最近專注於做的事情之一,就是引導和塑造人們在公司內部討論的焦點,而今天,這個焦點非常集中在預訓練上。我們認為預訓練有很大的發展空間。很多人說規模化已經死了。我們完全不這麼認為。從某種意義上說,所有對強化學習(RL)的關注,我認為對我們來說有點像是“阿爾法”(優勢),因為我們認為預訓練還有很大的提升空間。而且我認為,作為這些努力的結果。我們一直在訓練更強大的模型。這也給了我們極大的信心,可以推進到,Gemini III以及今年年底即將發佈的其他版本。主持人: 我有時在腦海中構想的方式是,你們一直在做這件事,你們跑得太快了。整個領域都跑得太快了。所以我們正處於這樣一個時刻,就是‘我們已經從網際網路上收集了海量的資訊’。我們把這些資訊投入到這台超級電腦上。然後,ChatGPT就這樣誕生了,然後我們就捲入了一場正在進行的、令人難以置信的競賽中。比如,當我聽到你們說話時,我只是試著從一個基準的角度來思考這個問題,也許是為那些沒有那麼密切關注此事的人設定的一個基準。在最初的那個時刻,你擁有了海量的資料。你將這些資料一股腦地扔給這個機器。Mark Chen: 你最初會嘗試對這些資料進行一些塑形,而現在我們只是在學習更有效的方式來塑形它,所以不總是清楚錯誤在那裡,我確實認為,你提到了我一直在深入思考的一個問題,對吧,當你想到預訓練時,你獲取人類書寫的データ並教模型如何模仿它,對吧,它理解了人類的寫作模式。從某種意義上說,這也會成為瓶頸,並限制了你能夠達到的能力上限,當你模仿人類的書寫時,你實際上無法超越人類寫下的內容。Mark Chen: 你會致力於像強化學習(RL)這樣的東西。在那裡,你可以真正地朝著人類能想到的最困難的任務進行引導,讓模型做一些跳出固有思維、跳出它從模仿人類中學到的東西的思考,並實現更高水平的能力。但現在出現了一個很有趣的問題:我們如何超越人類今天所能做到的事情呢?我也在那裡發現了嚴重的衡量問題。即使是在“人類能否評判科學領域中的超人表現”這個意義上,我們怎麼知道一個超人數學家比另一個超人數學家更厲害呢?數學家,我們確實需要想出衡量這個世界取得進步意味著什麼的更好評估標準,到目前為止我們一直很幸運,有一些競賽,比如國際數學奧林匹克(IMO),它真正衡量的是誰是世界上最頂尖的數學家,但是當模型的 AI 能力超越人類時,就沒有更多的測試了,你剛讓我想起一個問題,回到 IMO 的事情上,我是說,抱歉,我們稍後會再回來談這個的。主持人: 它剛剛完全跳入我的腦海。比如,我經常看到那些在這些競賽中表現出色的孩子。他們會被Google或臉書之類的公司錄用,但他們之後並不總是頂級的執行官或最著名的工程師,也許這是他們的選擇,但我認為甘迺迪並沒有像邁克爾·喬丹那樣最終在這些公司工作。這完全可能是出於選擇。我不是想貶低它。但對我來說並不清楚,比如,對我來說並不清楚,在人類中表現出色的人,不一定是你將擁有的最偉大的工程師。如果一個人工智慧特別出色,我們能學到什麼呢?Mark Chen: 這就是我喜歡在人工智慧領域工作的原因。我認為,與標準工程文化相比,它更像是一個精英統治(meritocracy)的體系,因為,我試過這個。很多次了,也吸取了這個教訓很多次了,但讓一個得不到他所領導的研究人員尊重的管理者來領導一個團隊是很難的。我想在研究領域,這一點比其他任何領域都更為突出。你必須做出非常堅定的技術判斷,比如,這是正確的方向。當出現分歧時,這是一種正確的項目選擇。主持人: 如果你做出了錯誤的判斷,你就會失去研究人員的尊重,與人工智慧合作和建立一個強大的人工智慧組織中的有趣之處在於,你知道我的整個團隊都是非常精通技術的,和他們談論技術問題很有趣,關於這個,我正在再次進行預訓練,片刻,對我來說,在我腦海中,感覺像Transformer引發了這次巨大的、巨大的飛躍,我是說,推理對我來說感覺非常相似,如果不是更令人驚嘆的話。當我在過去幾個月裡和你們交談時,我的,我永遠無法判斷這是否是樂觀情緒,你們是否只是在盡力而為,但當我與你們、與格雷格、與雅各布、與薩姆交談時,我的感覺是,你們似乎在進行三、四、五年的艱苦工程工作,但這些工作還沒有完全顯現出來。所以我永遠無法判斷應該有多興奮或不興奮。比如當你們暗示你們看到的一些東西時,你們是否覺得,是否已經可以判斷出這相當於那些重大的、末日式的飛躍?Mark Chen: 我想Mark Chen: 我想當我們發佈GPT5時,我們也談了很多關於合成資料的事情,這種形式的許多其他線索,我們認為它們具有相當大的潛力,並且我們現在正在非常積極地擴大規模,而且我認為這總是關於保持這種投注組合,選擇那些提供更多實證潛力的,並以更大的程度擴大規模和支援它們。就在大約兩周前,曾在OpenAI工作的安德烈·卡帕西(Andrej Karpathy)參加了多卡斯(Dorcas)的播客,並說了一些話,比如讓AI行業很大一部分人感到洩氣,他說,我認為他說的是,通用人工智慧(AGI)大概還有10年,10年才能實現。主持人: 然後當我聽到,然後我大約一周前聽到達里奧(Dario)在談論,他似乎非常堅持那種大規模的科學觀點,他稱之為“天才之邦”(Nation of Genius)?他似乎仍然堅持那種,可能慢一點,但對那個時間線是兩年左右的看法。當您聽到安德烈所說的,您是怎麼想的?Mark Chen: 我認為推特(Twitter)很喜歡這種循環,太糟糕了,我們回來了。而且,當時對敘事有幫助的任何事情,我認為,都會被放大。主持人: 我正試圖在這裡做一個點選(理解/突破),但我的思考方式是,這就像通用人工智慧(AGI),每個人都為自己的AGI定義一個點。Mark Chen: 我認為即使在OpenAI內部,你也無法讓房間裡的每個人都達成一致,說:嘿,這是我對AGI的清晰定義,並且它是一致的。所以我傾向於將其視為一個過程,就像你正處於工業革命時期,你是否認為機器製造紡織品,這就是工業革命,還是蒸汽機才是工業革命?每個人都有自己不同的定義。我認為我們正處於產生AGI的過程中。對我來說,我認為我最關注的一點是,我們是否正在產生新的科學知識?以及我們是否正在推進科學前沿?我感覺自今年夏天以來,在那方面出現了一個巨大的階段性轉變。AI在科學發現中的作用主持人: 從你看到的情況來看,首先跳入我腦海的是所有那些處於生物技術領域的初創公司,它們展示了,一次性抗體和分子,但我對它們一無所知。你是誰?Mark Chen: 我深受那位物理學家的影響,回去想,嘿,我們應該為科學建立一個開放的人工智慧。我認為我們的目標是,對於今天意識到這些模型潛力的少數科學家,並且覺得他們想要投入並加速發展,我們應該盡我們所能來加速他們。而且,我知道其他公司也有類似的目標,旨在推動科學前沿。但我認為我們想做的是,並且我想說,在與Google在科學領域的工作相比,我們有所不同的一個框架是,我們希望讓每個人都有機會為自己贏得諾貝爾獎。這更多的是關於我們為開放人工智慧贏得榮譽,那會很好,但我們希望建構工具和框架,以便所有科學家都能感受到這種加速的影響,而且我們認為我們可以共同推動該領域的發展。主持人: 當你談到你感到興奮的那些發現時,是否還有其他更具體的你所說的那些……我想,如果你想要一份非常詳盡的此類發現列表,你可以去看看塞布(Seb)的推特帳戶。所以最近,有一篇關於開放凸最佳化問題的 JPD5 論文,那是塞巴斯蒂安·梅巴赫(Sebastian Me Back)的推特帳戶,這與我們正在解決的一些核心機器學習問題密切相關。我知道有人認為這些東西只是花哨的文獻檢索或類似的東西,但實際上它比那複雜得多。我本來可以舉出一些例子,但我老實說,我現在應接不暇,因為我基本上是一個通才,但我尤其關注生物技術領域,感覺每隔兩天,夥計,我走進辦公室,他們就會說“我們正在製造一個人工智慧科學家”,或者“我們一擊就獲得了人體結構資訊”,所以一部分的我感到很興奮,而且,在我認識的這些公司中,至少有幾家的負責人和真正的科學家我都認識,太多的事情讓我覺得要麼是真正了不起的事情正在發生,要麼是到處都是,對我來說,要分辨出那裡是現實,資訊量太大了。我個人不會對它發生在生物學領域感到驚訝,因為我在電腦科學和數學方面擁有最多的專業知識,而且我們確實有那裡的專家可以證實這些都是正在取得的發現。Mark Chen: 那就是給我最大信心的東西。但我一點也不感到驚訝。這正在生物學中發生。主持人: 但就像你說的,這與……有點不同,我同意,敘事似乎每三周就改變一次。但就像你說的,這有點不同,因為即使在安德烈說那話之前,最大的批評對我來說,我當時在聽一個政治播客,薩格,我想是“突破點”(Breaking Points)。這是他們的播客,你知道他是一個相當聰明且知識淵博的人,但他一直在抨擊人工智慧和缺乏進展,說這都是想像出來的,都是……如果這些發現沒有發生的話,我想公眾已經意識到了這一點,僅供參考,在為開放科學(Open Air for Science)做準備的過程中,我們與許多物理學家、許多數學家進行了交談,而且實際上我們交談過的大多數人對人工智慧並不那麼看好。Mark Chen: 他們仍然相信,嘿,這個東西不是一個可以解決新定理的東西。那是不可能的。一定還有其他事情在發生。這就是為什麼我覺得賦權給那些真正相信並投入其中的人群非常重要。主持人: 就像那些人只是,會超越其他所有人一樣。Mark Chen: 我們希望建構工具並說服人們,這是進行科學研究的正確方法。主持人: 好的。就這一點而言,我承認每個人對通用人工智慧(AGI)的看法都不同,但至少我聽到的是,用你想要稱呼它的任何方式,你覺得在未來一兩年內,我們會看到巨大的變化,這有點像一個梗,就像“通用人工智慧什麼時候才能實現?”我認為我們已經不在那個世界了,是數學和科學中的這些成果給了我這種信念,但在 OpenEye 的研究工作中,我們設定了兩個非常具體的目標,Mark Chen: 一年之內,我們希望改變我們進行研究的方式的本質。我們希望在研究開發過程中能夠富有成效地依賴人工智慧實習生。在兩年半的時間內,我們希望人工智慧能夠進行端到端的研究。我認為這是非常不同的。就像今天一樣,你產生一個想法,你執行它,你實現它,你偵錯它。這意味著在一年之內,我們非常有信心能夠達到一個我們控制外部循環的世界。我們提出想法,但模型負責實施和偵錯。算力需求與Gemini 3的競爭主持人: 好的。在預訓練之外,當我與你們交談時,我有時會感覺到類似的事情。就像我們所有人的腦海中,至少是我所說的那類人,都有一個共識,就是存在一個大規模的基礎設施建設,而且每當你們將模型算力提升10倍時,模型似乎就會變得更好。有一段時間有個說法,當你們從4代轉向5代時,儘管獲得了更多的計算資源,但並未看到預期的效果。但後來我與你們交談得越多,就越感覺你們認為我們實際上還沒有——那時事情發展太快了,我們還沒有。實際上看到實現算力提升10倍的那個時刻。我不知道我是否把這個問題問得很清楚。Mark Chen: 我的確有一個想法想分享,那就是,當人們問你們真的需要所有這些計算資源嗎?這是一個非常令人震驚的問題,因為在日常工作中,我處理著大量的計算請求。而且,我現在的想法是,如果我們今天有3倍的計算能力,我能立即非常有效地利用起來。如果我們今天有10倍的算力,很可能在幾周之內就能完全高效地利用起來。我認為對算力的需求確實存在。我沒有看到任何放緩的跡象。當人們問我們,比如“你們真的需要更多的算力嗎?”時,我真的感到很困惑。這對我來說沒有意義。主持人: 你認為,就我剛才那個很糟糕的問題的大致方向而言,就是關於你們對預訓練進展非常樂觀的方面,你們是否同樣,不只是人們想要更多GPU的需求,而是你們是否能非常清楚地看到同樣的趨勢,即擴展即將迎來一個高峰期。Mark Chen: 我們絕對希望繼續擴展模型。而且我認為我們擁有能夠擴展模型的演算法突破。而且,我認為Gemini III有很多令人印象深刻的地方。我注意到的一件深入研究後發現的事情是,當你查看像Sweet Bench分數這樣的東西時,在資料效率方面仍然存在一個他們尚未解決的重大問題,他們在這方面還沒有取得太大進展。我認為我們在那裡有非常強大的演算法。主持人: 還有一份洩露的備忘錄,我是說,薩姆在這份備忘錄中對 Gemini 三號聽起來相當憂心忡忡。我正在努力尋找那段引文。你,你肯定收到了那份備忘錄。好這似乎是一個小小的轉折點。Mark Chen: 我確實認為薩姆工作的一部分是注入緊迫感和速度。這也是我工作的一部分。我認為我們專注於規模化非常重要。主持人: 而且我確實認為,Gemini III 正是Google應該追求的正確類型的賭注。Mark Chen: 與此同時,我會這樣校準:我們工作很大一部分就是儘可能地向組織注入緊迫感。這是一個很好的模式。我想我們已經有了對策,而且我認為我們可以更快地執行後續工作。與Jony Ive的合作與AI硬體主持人: 你對我確信你會精準地告訴我關於喬尼·艾維裝置的情況,這類事情參與到什麼程度?研究部門是否也參與其中?Mark Chen: 確實如此。實際上,我昨天剛吃完晚飯。主持人: 如果你願意,你可以向我描述一下,絕對可以,它看起來是這樣的,昨天我正和喬尼以及一些研究人員共進晚餐,還有我們的預訓練和後訓練負責人,我真的很想談談我對ChatGPT未來的看法,你今天看你如何與ChatGPT互動,它給我的感覺非常愚鈍,它給我的感覺不像一個真正的思考者,你給它一個提示,對吧,你得到一個回覆,然後它不會為你做任何有成效的工作,直到你給出下一個提示。Mark Chen: 如果你給它一個相似的提示,它會思考相同的時間。它並沒有因為你提出了第一個提示而變得更聰明。而且,我認為未來將是一個記憶能力得到極大改進的時代。你每次與ChatGPT互動時,它都會對你學到一些深刻的東西。它會思考你為什麼會問這個問題,以及相關的問題。任何事情。然後你下次再去找它時,它就會更加聰明。我認為這確實引出了一個問題:你如何設計一個將此作為主導論點的裝置?我認為那是一次非常有成效的經歷。 我可能說過,也可能沒說過。主持人: 關於你們和約翰尼談論的事情,我的看法是:像蘋果這樣一家以硬體為核心的公司,那是史蒂夫·賈伯斯一直以來痴迷的東西,就像是一種手藝,一種藝術形式。你們中,無論是薩姆、格雷格、雅各布還是其他任何人,據我所知,你們以前都沒有做過硬體產品。薩姆似乎非常重視設計。我從他家的建築和其他事物上就能看出來。但是,沒有什麼可以證明的往績,就像我一直認為史蒂夫·賈伯斯是有品味的,你知道嗎?然後,我過去有幾個老闆,比如喬希·蒂爾曼,他曾管理《商業周刊》。他總是給我留下這樣的印象。他就是有品味,無論是某樣東西的外觀,還是一個故事應該如何敘述。這就像一種存在於非常高層次的與生俱來的東西。我覺得這有點像這裡所需要的。我想這就是為什麼在某種程度上你要有像約翰尼這樣的人。完全正確。但你必須要有這種來回的交流。我們怎麼知道你們中的任何一個人有品味,並且,可以塑造一個硬體產品呢?Mark Chen: 說實話,我們自己不需要有品味。那是約翰尼的工作。他是我們關於品味的判斷者。主持人: 我認為實際上有一件非常好的事情是,我意識到他們在設計方面的工作方式和我們在研究方面的工作方式存在一些深層次的共通之處,有很多探索和構思,你會探索一堆假設,然後你花時間,最後創造出你滿意的那個東西,那個你滿意的最終產物,讓他們融入公司感覺非常好,並且在關於我們要發佈什麼功能、最終產品形態是什麼樣子的,以及如何將它們融合起來的溝通方面,變得更加直接,我用一種很粗俗的方式來表達,因為我一生都在仰慕和與這些人交談,但有時我只是想,天那,我不知道一群數學迷是不是你想要讓他們來製造人工智慧電腦的人,你懂嗎?但我猜這就是你在談論的那種融合,老實說,你說得對,那些最擅長建構人工智慧能力的人與那些擁有最佳品味的人略有不同。Mark Chen: 我們確實有團隊是由那些對模型行為具有出色品味的人組成的。我認為你需要不斷問自己的哲學和一套問題非常不同。一個例子,比如一個好的品味問題,就像你可以想像的那樣,在模型行為面試中,像‘查夫·奇皮(Chav Chippee)’最喜歡的數字應該是多少?”主持人: 我很好奇你會如何回答,我認為它最喜歡的數字應該是多少?我有一個很愚蠢的答案,那就是我曾在波莫納學院(Pomona College)就讀,而47是那裡的一個“傳說”數字。我認為這是一個很好的答案。我馬上就讓你走了,你已經非常慷慨了,我非常感謝。有沒有……我將問你一個ChatGPT告訴我問你的問題。很棒。那就是,如果你回顧五年前,你現在看到的是否有一些微小、脆弱、初現端倪的想法,你的直覺告訴你,這些想法可能會成為重大突破的核心?有那麼幾個。Mark Chen: 我會說有那麼一小部分想法。我不能透露太多細節,但我非常非常興奮。有沒有一些提示或大致的領域範圍?我的確一直在集中精力於預訓練,一些與預訓練相鄰的領域,以及在強化學習(RL)方面的一小部分想法,以及一些關於如何將它們整合在一起的想法。我試過了,我試過了。所以你可能知道也可能不知道任何提示。不提示。我們談論了很多,我非常感謝你。OpenAI的未來展望與個人投入主持人: 我感覺我在讓那些書呆子們,就是那些痴迷於人工智慧的人們有點失望,是嗎?目前,有沒有什麼技術上的、或者你們認為大家對你們有些誤解的地方,是你希望澄清的?Mark Chen: 我認為最重要的事情是,我認為任何在OpenAI的人,在研究領域的人都會告訴你,這只是一家以研究為中心的公司。這是一個純粹的人工智慧賭注。公司的核心,其抱負是建構通用人工智慧(AGI),而且是在沒有干擾的情況下建構它。我認為任何關於產品建構的事情,都非常容易地源於此。主持人: 當我們談到我們在研究中想做什麼時,我們想實現人工智慧研究的自動化。Mark Chen: 我認為從私心上來說,我們想加速我們自己的進步。主持人: 然後我們想實現科學發現的自動化。Mark Chen: 當然,我們也想實現經濟上有用工作的自動化。我認為所有這些支柱都在倒塌。你看到過去一年中最大的更新,就像在自動化科學研究的第二個支柱中一樣。它正在發生。主持人: 你現在多大了?Mark Chen: 34歲,快35歲了。主持人: 快35歲了。好的。你還能有社交生活嗎?Mark Chen: 說實話,不能。我認為過去兩周的每一天,工作電話一直打到凌晨1點或2點。但我喜歡這樣做,只是有很多工作要做,有很多我想招募的人,有很多指導需要完成,而且為什麼浪費這個黃金時刻呢?就像我們正處於一場工業革命之中,你必須儘可能多地利用它。我聽說你睡在辦公室的故事,那也是很有趣的一次。老實說,這只是……我想在公司總有一些時候,我想是在米拉·德穆拉離開並自己創辦公司之後,工作就是要求如此,而且,當我把所有的一切剝開並審視那種深層的情感時,它只是對那項研究的保護欲,那是在米拉離開之後。花一個月的時間,有點像睡在辦公室裡。主持人: 這感覺就像我需要保護這個研究藥物。他們感覺,感覺就像我的寶貝一樣。所以你們經歷了這些波折。發生了政變。每個人都在試圖挖走你的人。我猜每個人一直都在試圖挖走你的人,但你遇到了這個拐點。Mirror Leaves,Meta 決定要啟動這個龐大的實驗室。你覺得,我們是不是,我們已經度過那個階段了?到目前為止,所有人都已經亮出底牌了嗎?我有我的團隊。Mark Chen: 會議,我和我的下屬談了談。我說,我要處理的事情是這樣的。等我回來,等我完成這個(工作)執行緒後,我會進行宏觀審視,到時候就沒有什麼緊急情況了。所以到目前為止,我已經完全內化了,建構通用人工智慧的風險足夠高,所以總會有事情發生。我想重要的是,能夠在所有這些事情正在發生的時候,明白那些是重要的事情。主持人: 你是不是感覺已經過去幾個月了,都沒有那種深度探索的時刻或者其他什麼。我猜是十二月,24號左右,我想是。早些時候,或者一月份。現在有什麼嗎,感覺人們瘋了一小會兒,現在回顧一下並看看他們從那時起做了什麼,關於開源模型和中國的開源模型,我猜有一些想法。Mark Chen: 我認為那是最早的幾個時刻之一,我才意識到我們堅持我們的研究模式有多麼重要。我想當那個出來的時候,它瘋傳了,就像每個人都在說,天那,像開放眼(OpenAI)是否迷失了方向?這些模型在迎頭趕上嗎?有什麼回應嗎?有什麼回應嗎?有什麼回應嗎?我想我們所做的,而且是理所當然的,就是加倍投入我們自己的研究項目。而且我不認為那是對的,那是完全錯誤的決定。我還沒看到DeepSeek的後續模型。我認為他們是一個非常強大的實驗室。但從根本上說,我們還是應該專注於創新。我認為DeepSeek是對我們主系列模型中思想的一次很好的復現。但我們還是專注於創新吧。主持人: 你認為500人這個數字,隨著公司的發展它會增長嗎?還是說這是可以同時追求的大型想法的最佳人數?Mark Chen: 說實話,我覺得甚至可以用更少的人來完成。再說一次,當我們招聘人工智慧研究人員或人工智慧實習生時,如何圍繞這一點設計團隊,這是一個真正的問題。但我肯定是一個非常重視高人才密度的人。我喜歡以這種方式進行大量的實驗。舉個例子,在今年第二季度,我想,嘿,我就是不會為研究部門的任何人增設職位名額。如果你想招聘人員,你就得弄清楚誰不在船上(誰不應該被留下)。我認為這類練習非常重要。你不想讓工作蔓延到無法管理的程度,而且你想把人才標準保持得非常高。主持人: 我保證這是最後一個問題。抱歉,我得讓你離開了。我記得有一次會議,我想你和亞卡(Yaka)在這個問題上意見比較一致,但我肯定記得你的觀點,關於誰該為一個項目獲得署名,你似乎持有一種觀點,即人們對此有點過於著迷了。而且,顯然,人工智慧的根源在於學術界,在那裡,如果有一篇論文發表了,你會感到非常自豪,這是一件大事,而署名是一件極其重要的事情。我想我記得那次會議中你的立場是正確的。那又怎樣?我們已經到了一個新的階段,在那裡,這一點就不那麼重要了,或者說,這只是一家公司,誰做了什麼變得不那麼重要了。Mark Chen: 我其實非常喜歡這個話題。我認為,對功勞的過度關注是一件非常糟糕的事情,我想,但另一方面,我實際上覺得,作為一家公司,我們必須在內部和外部都認可功勞,這很重要。很多公司實際上都迴避了這一點。我認為整個行業都已不再熱衷於發表論文、署名名單了。但是雅各布(Yaakov)和我最終決定要在 OpenAI 這樣做。當然,反駁的聲音總是說,老兄,你這簡直是把你的頂尖人才拱手相讓,其他人都會積極地招募這些人。但我認為那不重要,我們應該認可那些做出出色工作的人。我們應該繼續成為培養人工智慧超級巨星的輸送管道。而且說實話,對我們來說,讓那些在公司裡做出最出色工作的人獲得名聲是很重要的。但你似乎也在說,研究人員個人或許應該少關注這一點,或者是我完全記錯了?我……我認為房間裡確實有一種那樣的情緒,其實雅各布和我對此持更反對的觀點。已經有一段時間了,在我的筆記裡。但我認為我們必須給予認可,即使冒著讓所有人都知道我們頂尖人才的風險。我將發表一個更強烈的聲明。主持人: 我認為 OpenAI 是人均獲得外部認可度最高的地方。Mark Chen: 好的。好的。主持人: 我要合上我的筆記了。現在我有更多內容了。絕對的。絕對的。我只記得自己是討論的話題,而且有很多不同的意見。所以這很有趣。在那件事上,我撒謊了。最後一個問題,我發誓。你在2018年到了那裡。那是一家研究公司。那是一家非營利組織。這家公司創立之初,創始人就希望成為Google的制衡力量,目標就是確保通用人工智慧(AGI)安全地到來。你從高頻交易領域接觸到這個,並看到了正在發生的有趣的事情,比如在你的職業生涯中——我確定你會說你希望這件事安全發生,我理解——但是如果你看看你的職業道路,你是一個聰明、好奇的人,看到了這個有趣的事情正在發生,這並不是一個要求你必須在哲學層面上非常關心這件事,或者希望看到一個超級智能。但不管怎樣,讓我們聽聽你最初為什麼做這個。我想,實際上是在安全和對齊方面。結語:對齊、安全與黑匣子問題Mark Chen: 我也在OpenAI管理過對齊團隊。我真誠地覺得未來一到兩年內的一些重大挑戰是關於對齊問題的。而且我認為,對於廣泛關注該領域研究的群體來說,OpenAI 在過去一年中可能做得最好的工作。我這麼說是因為出現了很多關於例如“詭計”(scheming)方面的工作,你向模型投入的強化學習(RL)算力越多,你就越能衡量諸如自我意識、自我保護,甚至模型可能耍花招(scheme)的情況。這很可怕,因為模型最後可能會給你一個正確的答案,你期望的答案,但它是通過一種非常扭曲的方式得出的,我認為隨著模型為我們完成更複雜的任務,掌控它的思維過程將變得極其、極其重要。主持人: 好的。聊天機器人(ChatGPT)讓我問你一個與此非常相關的問題,那就是,你正在談論一個領域——機械可解釋性(mechanistic interpretability),在這個領域中,我們正試圖,這是一個捕捉我們試圖理解這個黑匣子及其運作方式的術語。我猜問題的核心是,我們做這件事的技能是否跟得上人工智慧系統的複雜性,還是我們只會到達一個失控的點?Mark Chen: 我們好像永遠也學不會這個東西是如何運作的,所以我想我們做出的一個可以追溯到01年發佈時的決定,我為此感到非常自豪,就是我們決定不干預模型的思考過程。我想,當你給模型設定激勵,讓它給出的思考過程對人類很有吸引力時,它不一定會對你誠實,它不會告訴你它真實的想法和意圖。因此,通過這個管道,我們實際上能夠持續觀察模型的思考過程,將其視為理解對齊(alignment)的一個工具。而且,就在幾個月前,深度思維(DeepMind)和安智(Anthropic)發表了一篇論文,探討了隨著時間的推移,這種情況將如何發展。我想我們在設計方面做出了很多相當不錯的選擇。Mark Chen: 我真的很擔心未來世界的某個時刻,模型會告訴我們一些極其令人信服的事情,但我們無法確定模型是否與我們保持一致,對吧,是否與我們的價值觀保持一致。所以我認為這裡有很多有趣的方向。比如,你能設定一些博弈(games)嗎?或者你能設定一些框架或環境,讓模型相互監督,或者它們以某種方式共同演化嗎?或者唯一的穩定平衡點是模型誠實的那種情況。我認為那裡的工作非常令人興奮。主持人: 好的。我現在會表現得乖一點。非常感謝您加入我們。我很高興我已經夠老了,不用再接受像那種超級聰明的聊天機器人的工作面試了,那種我感覺你無法通過討好和胡說八道來矇混過關的。Mark Chen: 你會做得很好的。主持人: 我不知道,夥計。我不知道。我覺得還行,我已經夠老了,可能不用做那種事了。馬克,非常感謝你。我知道你非常忙,所以感謝你抽出時間。也非常感謝您抽出時間。夥計,這很有趣。非常榮幸。Mark Chen: 夥計,這很有趣。非常榮幸。 (Web3天空之城)