Surge AI 更像研究實驗室,注重好奇心、長期激勵與學術嚴謹性。
Edwin Chen是深耕AI資料領域的顛覆式創業者,以Surge AI創始人兼CEO的身份,走出了一條逆勢生長的商業路徑。
他帶領不足100人的團隊,4年實現營收破10億美元,全程未接受外部VC投資、自籌資金且盈利至今,成為全球成長最快的AI資料公司。
在本期Lenny播客對話中,他毫無保留地拆解核心邏輯:高品質資料的定義絕非“堆人力”,而是像“養育孩子”般注入價值觀與創造力;直言行業對基準測試的盲目追捧正在帶偏AGI方向,揭秘強化學習環境如何成為AI訓練的下一代核心;更痛批矽谷融資炒作套路,給出“專注產品、拒絕跟風”的創業箴言。
此外對話中更直擊行業深層痛點:模型差異化的未來趨勢、對於AI目標函數的思辨,以及資料公司如何影響全球AI發展方向。這場對談既有硬核的技術邏輯拆解,也有顛覆傳統的商業認知,想要讀懂AI資料領域的底層邏輯與創業本質,這些乾貨滿滿的細節裡藏著關鍵答案。
4年營收10億美元神話
創業叛逆:拒絕矽谷套路的增長邏輯
高品質資料與模型領先的密碼
技術爭議:基準測試的陷阱與AGI航向
風投之外的創業正道
強化學習重塑AI訓練未來
模型差異化與AI趨勢冷暖
AI訓練的使命與創業初心
主持人Lenny:我們先從你取得的驚人成就說起吧。不到四年營收破10億美元,團隊僅60-70人,且完全自籌資金、未接受任何風投,真正實現了AI賦能小團隊的願景。
未來會有更多公司做到這一點嗎?AI在那方面最能幫你們發揮槓桿作用?
Edwin Chen:是的,我們去年營收超過10億美元,而員工還不到100人。我認為未來幾年,我們會看到比例更驚人的公司出現——比如人均營收1億美元。AI持續升級會讓這一比例成為必然。
我以前在多家大型科技公司工作過,總覺得其實裁掉90%的人,公司運轉反而會更快,因為最優秀的人才不會被各種瑣事幹擾。
所以當我們創辦Surge時,就想以完全不同的方式打造它:組建一支超精簡、超精英的團隊。而且不可思議的是,我們真的做到了。我覺得有兩個關鍵因素在共同作用:一是人們逐漸意識到,不一定非要打造龐大的組織才能成功。
二是AI帶來的這些效率提升,會讓創業迎來一個黃金時代。我最期待的是,未來的公司不僅規模會變小,形態也會發生根本性改變。員工少意味著所需資金少,資金少就不需要融資。
所以,未來的創業者不再是那些擅長遊說、炒作的人,而是真正精通技術或產品的人。產品也不再是為了迎合營收目標和風投喜好而最佳化,而是由這些小型專注團隊打造的、更具深度和創意的作品——他們是在打造自己真正在乎的東西,是真正的技術創新。
主持人Lenny:你們做了很多逆勢而為的事,比如不在領英發爆款帖子,不在推特上持續宣傳Surge。
我想大多數人直到最近才聽說過你們,然後你們突然就以“增長最快的十億美元營收公司”的身份亮相了。你們為什麼要這麼做?
Edwin Chen:我們從一開始就不想參與矽谷的那套玩法,我一直覺得那很荒謬。想想看,你小時候的夢想是自己從零打造一家公司,每天沉浸在程式碼和產品中?還是向風投解釋自己的每一個決策,陷入公關和融資的無盡循環?
不參與這些玩法確實讓我們的路更難走,因為如果選擇融資,你自然會融入矽谷的“產業生態”——風投會在推特上宣傳你,你會登上TechCrunch的頭條,因為高估值融資而被各大媒體報導。
而我們只能靠打造出10倍優秀的產品,通過研究人員的口碑傳播獲得成功。
但這也讓我們的客戶群體變得非常精準:他們真正理解資料的價值,也真正在乎資料質量,並且清楚優質資料能讓他們的AI模型變得更強大。
因為這些早期客戶一直在幫助我們,給我們的產品反饋,所以與他們在使命上的高度契合,對我們早期的發展至關重要。
他們購買我們的產品,是因為認可產品的獨特價值,是因為產品能真正幫到他們,而不是因為在社交媒體上看到了宣傳。所以這條路雖然更難,但對我們來說是正確的選擇。
主持人Lenny:這對創業者來說是個很有啟發的故事——不用整天在推特上宣傳,不用融資,只要埋頭打造產品就行。
我非常喜歡Surge的創業故事。能不能簡單介紹一下你們是做什麼的?
Edwin Chen:我們本質上是教AI模型分辨好壞。我們利用人類資料對模型進行訓練,推出了很多相關產品。
比如SAT、RHF、評估標準、驗證器、強化學習環境等等,同時我們也會衡量模型的進步程度。所以說到底,我們是一家資料公司。
主持人Lenny:你一直強調,資料質量是你們成功的關鍵。那麼要打造高品質資料,需要具備那些條件?你們做了那些與眾不同的事?而其他人又忽略了什麼?
Edwin Chen:我覺得大多數人根本不理解這個領域中“質量”的真正含義,他們以為只要投入大量人力就能獲得優質資料,但這完全是錯誤的。
我舉個例子吧:假設你想訓練一個模型寫一首關於月亮的優秀詩歌,什麼才是“高品質”的詩歌?如果對質量沒有深入思考,你可能會設定這樣的標準:“這是一首詩嗎?有沒有8行?有沒有出現‘月亮’這個詞?”只要滿足這些條件,你就覺得這是一首好詩。
但這和我們追求的質量相去甚遠。我們想要的是能拿諾貝爾獎等級的詩歌——它是否獨特?是否充滿精妙的意象?是否能打動你、觸動你的心靈?這才是我們定義的高品質詩歌。
這種對質量的深度追求其實非常困難,因為它難以衡量,主觀、複雜且豐富,同時也設定了極高的標準。
所以我們必須打造全套技術來衡量這種質量——比如收集關於工作人員的數千個訊號,以及每個項目、每項任務的數千個訊號。
到最後,我們能精準判斷出某個人擅長寫詩、寫散文還是寫技術文件。我們會收集關於工作人員背景、專業技能的所有訊號。
不僅如此,還會關注他們完成任務時的實際表現,然後利用這些訊號來判斷他們是否適合某個項目,以及他們是否在推動模型進步。
打造這些衡量技術確實很難,但這正是我們希望AI能做到的——所以我們對質量有著極致且深刻的追求。
主持人Lenny:所以你的意思是,你們會深入理解每個垂直領域中“質量”的定義,對嗎?
比如你們會僱傭極具詩歌天賦的人,再結合評估標準,來判斷作品是否優秀?這背後的運作機制是怎樣的?
Edwin Chen:具體來說,我們會收集工作人員在平台上操作時的數千個訊號——比如鍵盤敲擊頻率、回答速度、同行評審結果、程式碼標準,同時我們也會用他們的輸出結果來訓練我們自己的模型,觀察這些輸出是否能提升模型性能。
這有點像Google搜尋判斷網頁質量的邏輯,主要分為兩部分:一是剔除最差的內容,比如垃圾資訊、低品質內容、無法載入的頁面,這有點像內容稽核。
二是發掘最優質的內容,比如找出最優質的網頁,或者最適合某個任務的人。這些人不只是寫得出高中水平的詩歌——他們不會機械地按照指令堆砌詩句,而是能寫出真正觸動人心的作品。
主持人Lenny:Claude在程式碼編寫和文字創作方面,長期以來都比其他模型優秀得多。
事實上,所有AI程式設計產品都曾基於Claude。是什麼讓Claude能保持這麼久的領先?僅僅是訓練資料的質量,還是有其他原因?
Edwin Chen:我覺得有多個因素。首先,資料確實是關鍵——很多人沒有意識到,所有前沿實驗室在選擇模型訓練資料時,都面臨著無數選擇。
模型訓練要明確一系列問題:是否用人類資料、如何收集、對內容的具體要求(比如程式設計領域側重前端還是後端,前端更看重視覺、效率還是正確性),以及合成資料的佔比、對基準測試的重視程度。
不同公司對此的權衡不同:有的為公關最佳化基準指標,有的更看重實際任務效果。模型後期訓練更像藝術而非科學,開發者的審美和洞察力會影響訓練資料組合。
因此,資料很重要,模型的最佳化目標函數同樣關鍵。
主持人Lenny:這太有意思了。也就是說,主導這項工作的人的審美,會影響他們對資料的選擇和投喂。
這再次凸顯了優質資料的價值——Anthropic正是憑藉更好的資料獲得了巨大的增長和成功。
Edwin Chen:沒錯。而且這還只是程式設計一個垂直領域,文字創作領域也是類似的情況。AI看似是冰冷的二進制程式碼,但人類的判斷和審美,依然是這些產品成功的關鍵因素。
主持人Lenny:完全同意。真正有審美和洞察力的前沿實驗室會意識到,好詩不能簡化為一系列固定的標準,他們會考慮那些隱含的、微妙的特質。我想這正是他們能脫穎而出的原因。
主持人Lenny:你提到了基準測試。很多人都有這樣的困惑:現在很多模型在幾乎所有STEM領域都表現得比人類還好,但對普通人來說,這些模型似乎並沒有在持續變得更智能。
你對基準測試的信任度有多高?它們與AI的實際進步相關性強嗎?
Edwin Chen:我完全不信任基準測試,主要有兩個原因。第一,很多人——包括行業內的研究人員——都沒有意識到,這些基準測試本身往往是有問題的,比如答案錯誤、存在諸多漏洞,但大多數人並沒有發現這些問題。
第二,這些基準測試通常都有明確的客觀答案,這使得模型很容易“鑽空子”最佳化,而這與現實世界的混亂和模糊性完全不同。
我常說一個很有意思的現象:這些模型能贏得國際數學奧林匹克競賽金牌,卻連解析PDF都困難重重。
這是因為雖然國際數學奧林匹克競賽對普通人來說很難,但它具有客觀性,而解析PDF往往沒有這種客觀性。
所以前沿實驗室更容易讓模型在這些基準測試中“鑽空子”最佳化,而非解決現實世界中那些混亂、模糊的問題。
因此,基準測試與AI的實際進步之間缺乏直接相關性。
主持人Lenny:你這麼一說,我就明白了——衝擊這些基準測試有點像行銷手段。
比如Gemini 3剛發佈時,宣稱在所有基準測試中排名第一,是不是就是這樣?他們只是訓練模型在這些特定任務上表現出色?
Edwin Chen:是的,這主要有兩方面原因。一方面,這些基準測試有時會以某種方式“洩露資訊”,或者前沿實驗室會調整模型在基準測試中的評估方式——比如調整系統提示詞、調整模型運行次數等,從而“操縱”測試結果。
另一方面,如果你優先最佳化基準測試而非現實世界的任務,模型自然會在基準測試中表現越來越好,這本質上也是一種操縱。
主持人Lenny:既然如此,你如何判斷我們是否在向AGI邁進?如何衡量這種進步?
Edwin Chen:我們真正重視的衡量方式是人類評估。
比如,我們會讓人類標註員與模型進行跨領域的對話——讓諾貝爾獎得主等級的物理學家與模型討論前沿研究,讓教師與模型探討課程設計,讓大型科技公司的程式設計師與模型解決日常工作中的問題。
我們的標註員都是各自領域的頂尖專家,他們不會淺嘗輒止地瀏覽模型的回答,而是會深入研究。
他們會驗證程式碼的正確性,核對物理方程的精準性,從精準性、指令遵循度等多個維度對模型進行深度評估——這些都是普通使用者不會做的。
當你在ChatGPT中收到“比較兩個回答”的彈窗時,大多數人只是憑感覺選擇看起來更順眼的回答,而我們的標註員會仔細分析每個回答的各個維度。所以我認為,這種人類評估比基準測試或隨機的線上A/B測試更可靠。
主持人Lenny:我很高興看到人類在其中依然扮演著核心角色。未來會不會有一天,我們不再需要這些人類標註員了?
比如AI已經足夠智能,我們已經從人類身上學到了所有能學的東西。
Edwin Chen:我認為除非我們實現了AGI,否則這種情況不會發生。
從定義上來說,在實現AGI之前,模型還有很多需要從人類身上學習的東西。所以我覺得這一天不會很快到來。
主持人Lenny:既然說到了AGI,你認為我們距離AGI還有多久?是幾年還是幾十年?
Edwin Chen:我更傾向於較長的時間線。我認為人們沒有意識到,從80%的性能提升到90%、99%、99.9%,每一步都越來越難。
在我看來,未來一兩年內,模型可能會自動化完成普通L6級軟體工程師80%的工作,但要提升到90%可能還需要幾年時間,再提升到99%又需要更長時間,以此類推。
所以我認為,我們距離AGI還有十年甚至幾十年的時間。
主持人Lenny:你有個很尖銳的觀點:很多實驗室在推進AGI的方向上是錯誤的。
基於你在推特、Google和臉書的工作經歷,你能具體說說嗎?
Edwin Chen:我擔心我們沒有打造出能推動人類進步的AI——比如治癒癌症、消除貧困、探索宇宙這些宏大目標——反而在最佳化“劣質AI”。
說白了,就是讓模型迎合那些在雜貨店買八卦小報的人的喜好,教模型追逐多巴胺而非真相。這和我們之前聊的基準測試有關。
我舉幾個例子:比如行業排行榜LM Arena,普通人僅花兩秒瀏覽選花哨回答,模型靠誇張表達、多表情符號、長篇幅就能上榜,那怕內容胡編亂造。
前沿實驗室為公關、企業客戶認可,研究人員為升職,不得不迎合這類排行榜,而去犧牲模型精準性。
我認為這些負面激勵正在把AI推向錯誤的方向。我還擔心AI最佳化“參與度”的趨勢。
我以前在社交媒體行業工作過,每次我們最佳化參與度,都會出現糟糕的結果——點選誘餌、比基尼照片、大腳怪傳說、恐怖的皮膚病圖片充斥著使用者的資訊流。
更令人擔憂的是 AI 最佳化 “參與度” 的趨勢。
就像社交媒體曾出現的問題,模型靠吹捧使用者、迎合妄想打造資訊繭房,而矽谷痴迷於使用者時長,讓這些有根本缺陷的模型反而得分更高,負面激勵正把 AGI 推向錯誤方向
主持人Lenny:所以你的意思是,AGI的發展之所以放緩,是因為這些實驗室關注了錯誤的目標函數——錯誤的基準測試和評估方式。
Edwin Chen:沒錯。
主持人Lenny:我知道你可能不方便偏袒任何一家實驗室,畢竟你和所有實驗室都有合作。
但有沒有那家實驗室做得更好,意識到了這個錯誤方向?
Edwin Chen:我一直非常欣賞Anthropic。我認為Anthropic在自己在乎什麼、不在乎什麼,以及希望模型呈現出怎樣的行為方面,有著非常堅定的原則,這讓我覺得他們的做法更具使命感。
主持人Lenny:你覺得實驗室還有其他那些重大錯誤,正在阻礙AI的發展或讓AI走向錯誤的方向?除了追逐基準測試和過度關注參與度之外。
Edwin Chen:我覺得問題在於他們打造的產品本身,以及這些產品對人類是有益還是有害。
比如我經常會想Sora(OpenAI的文字生成視訊模型)——那些公司會打造Sora,那些不會?我自己心裡有答案,但我覺得這個問題的答案,恰恰能反映出這些公司想要打造什麼樣的AI模型,以及他們想要實現什麼樣的未來。
主持人Lenny:支援Sora的觀點是,它很有趣,人們需要它,能幫助公司創收、研發更好的模型,還能以有趣的方式生成訓練資料。
Edwin Chen:核心問題是是否在乎實現目標的過程。
就像不會為資助嚴肅報紙而賣八卦小報一樣,不擇手段雖可能達成目標,卻會引發負面後果,甚至偏離更重要的事,因此過程與目標同等重要。
主持人Lenny:你提到矽谷存在融資過多、回音室效應等問題,將其稱為 “矽谷機器”,還說這種模式難出有價值的公司,不走風投路線可能更成功。
能否結合自身經歷,給創業者一些不同建議?畢竟他們常聽到要找知名風投、搬到矽谷的說法。
Edwin Chen:我一直很反感矽谷的諸多創業信條,比如頻繁調整方向、用 “灰色手段” 追增長、快速招聘擴張等。
我的建議是:不盲目調方向、不隨意擴張,不僱傭只為簡歷鍍金的人;專注打造唯有自身洞察力和專業知識才能實現的產品,堅守使命感,拒絕跟風追逐估值。
創業應是為堅信的宏大理念承擔風險,即便因市場未準備好失敗,也比跟風賺快錢有意義。
唯有堅守初心、拒絕誘惑、不輕易放棄,專注打造 “非你不可” 的公司,才可能打造出有價值、能改變世界的企業。
如今不少人厭倦矽谷炒作,希望科技能向為有意義大目標努力的方向發展。
主持人Lenny:我正在和一位我非常欣賞的風投Terrence Rohan合作一篇文章,我們採訪了五位在“世代級”公司早期就加入的人。
他們的經歷和你說的完全一致:這些公司都有宏大的抱負,正如你所說,他們不會為了尋找產品市場契合度而隨意調整方向。所以你的觀點和我們的發現高度契合。
Edwin Chen:沒錯。我認為你必須要有宏大的抱負,堅信自己的理念能改變世界,並且願意全力以赴去實現它。
主持人Lenny:換個話題聊個逆勢觀點:著名 AI 研究者 Richard Sutton 在播客中提出 “痛苦的教訓”,認為 LLM 因學習方式限制是死胡同,會陷入停滯。
你認為 LLM 能實現或超越 AGI 嗎?還是需要新的重大突破?
Edwin Chen:我認為要實現AGI,還需要新的突破。
我是這樣理解的:談到訓練,我更傾向於從“類生物”的角度思考——人類的學習方式有上百萬種,我們需要打造能模仿所有這些學習方式的模型。
它們可能在側重點上有所不同,但我們需要讓模型具備人類的學習能力,確保它們有相應的演算法和資料來實現這種學習。
因此,只要LLM的學習方式與人類不同,就需要新的突破。這就涉及到強化學習——這是我非常關注的領域,而且我越來越多地聽到,強化學習在模型後期訓練中變得越來越重要。
主持人Lenny:你能幫大家解釋一下什麼是強化學習和強化學習環境嗎?為什麼它們在未來會變得越來越重要?
Edwin Chen:強化學習本質上是訓練模型達成特定的獎勵目標。強化學習環境則是對現實世界的模擬——就像打造一個視訊遊戲,每個角色都有真實的故事,每個企業都有可呼叫的工具和資料,所有實體之間都能相互作用。
比如,我們會模擬這樣的場景:一家初創公司有 Gmail 郵件、Slack 聊天記錄、程式碼庫這些東西,突然 AWS 和 Slack 都崩了,讓模型自己想辦法解決。我們會給模型佈置任務、設計難搞的場景,看它表現好壞來獎懲。
強化學習環境有意思的點在於,能把模型在現實複雜任務裡的短板全暴露出來。
很多模型在單獨的基準測試裡挺厲害,比如會用個工具、聽個單步指令,但一放到亂糟糟的現實裡就不行了。
碰到模糊的Slack消息、沒見過的工具,還得正確操作、改資料庫,而且一步影響後面好多步,跟之前那種學術化的單步環境完全不一樣,模型常常會離譜的徹底翻車。
所以我覺得,強化學習環境會變成模型重要的 “訓練場”,它模擬真實世界的情況,能幫模型在實際任務裡變厲害,而不是只在特意設計的環境裡表現好。
主持人Lenny:我試著想像一下這個場景:本質上就是一個虛擬機器,裡面有瀏覽器、電子表格之類的工具,還有你們的網站。
比如,給模型的任務是“確保surge.com正常運行”,然後突然網站當機了,目標函數就是找出當機原因並修復嗎?
Edwin Chen:沒錯。目標函數可能是通過一系列單元測試,也可能是撰寫一份包含事件完整資訊的復盤文件——我們會設定各種不同的獎勵機制來判斷模型是否成功。
所以本質上,就是給模型一個目標,讓它利用自己的所有智能去嘗試解決問題,過程中會犯錯,我們會引導它,對正確的行為給予獎勵。
你說得對,這正是模型變得更智能的下一階段:強化學習環境專注於那些具有經濟價值的特定任務。
Edwin Chen:強化學習環境和之前的SFT、RHF、評估標準這些學習方式不衝突,不是要替代它們,而是補充,讓模型多學一項技能。
而且這時候不用專家直接和模型對話、糾錯打分了,而是讓他們設計強化學習環境。
比如金融分析師會做電子表格、指定要用到的工具,再設定獎勵規則。
這很像人類的學習方式:不斷嘗試,留下有用的方法,丟掉沒用的。
主持人Lenny:你提到“軌跡”對強化學習非常重要——不僅僅是設定目標和看結果,還要關注過程中的每一步。
你能解釋一下什麼是軌跡,以及它為什麼重要嗎?
Edwin Chen:我認為很多人沒有意識到,有時候模型雖然得出了正確答案,但過程卻非常離譜。
比如,它可能在中間步驟嘗試了50次都失敗了,最後只是隨機蒙對了答案;或者它的做法非常低效,甚至是通過“操縱獎勵機制”才得到正確答案。所以關注軌跡至關重要。
而且有些軌跡可能非常長,如果只看最終結果,就會忽略模型在中間步驟的行為資訊。
比如,有時候你希望模型通過反思自己的行為得出正確答案,有時候你希望它一步到位。如果忽略軌跡,就會錯失很多可以教給模型的重要資訊。
主持人Lenny:模型進化過程中,那些後期訓練方法最能推動模型進步?評估、強化學習環境在其中扮演了什麼角色?現在我們是不是正朝著強化學習環境的方向發展?
Edwin Chen:模型後期訓練最初是從SFT開始的。SFT是什麼意思呢?監督微調很像“模仿大師”——複製大師的做法。
後來RHF(基於人類反饋的強化學習)成為主流,這就像“寫55篇文章,讓別人告訴你最喜歡那一篇”。
過去一年左右,評估標準和驗證器變得非常重要,這就像“通過評分和詳細反饋學習自己的錯誤”——這也是評估的一種形式。
評估通常包含兩個方面:一是將評估結果用於訓練(判斷模型表現是否良好,表現好就給予獎勵)。
二是用評估來衡量模型的進步——比如有五個候選模型版本,通過評估選出最好的那個向公眾發佈。現在,強化學習環境成為了新的熱點,這是模型進化的下一個階段。
主持人Lenny:很欣賞你們的商業路徑,從給企業提供高品質資料,到現在搭建虛擬機器和應用場景,核心就是適配實驗室的需求。
Edwin Chen:沒錯。我真的認為,我們需要打造一系列產品,來反映人類上百萬種不同的學習方式。
就像優秀作家不是靠死記硬背語法,而是靠閱讀、練習、反饋等多種不同方式成長一樣,AI 模型也需要上千種學習方式。
畢竟神經網路和深度學習的靈感源於人類學習方式與大腦運作,要讓 AI 更智能,就得讓它越來越貼近人類的學習邏輯。
主持人Lenny:Surge有一個獨特之處——你們有自己的研究團隊,這在同類公司中似乎很少見。你能談談為什麼要投入資源組建研究團隊,以及這個團隊帶來了那些成果嗎?
Edwin Chen:這源於自身研究者背景,我更關注推動行業與研究社區發展,而非僅追求營收。
我們公司有兩類研究者:一類是前沿部署研究者,他們與客戶深度協作,分析模型現狀、差距及改進方向,設計資料集、評估方法和訓練技術,助力客戶最佳化模型。
另一類是內部研究者,他們的關注點略有不同:一是打造更合理的基準測試和排行榜,規避現有體系的誤導性;二是自研模型,探索優質資料與人才特質,研究訓練及評估技術,完善內部資料產品並明確 “高品質” 定義。
主持人Lenny:這太酷了——通常都是實驗室有研究者推動AI進步,像你們這樣的公司擁有自己的研究者進行AI基礎研究,確實很罕見。
Edwin Chen:沒錯。這主要是因為我從根本上就關心這些事情。
我經常把我們公司看作一個研究實驗室,而不是一家初創公司——這也是我的目標。
有點好笑的是,我一直說“我寧願成為陶哲軒(著名數學家),也不願成為華倫·巴菲特”。
所以,創造能推動前沿發展的研究成果,而不僅僅是追求估值,一直是我的動力,而且這也確實奏效了。
主持人Lenny:你提到你們在招聘研究者,有什麼想分享的嗎?你們在尋找什麼樣的人?
Edwin Chen:我們尋找的是那些從根本上對資料充滿興趣的人——比如那些能花10個小時鑽研一個資料集、擺弄模型,思考“模型在這裡失敗了,它應該有什麼樣的行為”的人。
我們希望他們能親身實踐,關注模型的定性方面,而不僅僅是定量指標——也就是能親手處理資料,而不只是關心抽象的演算法。
主持人Lenny:我想問幾個關於AI市場的宏觀問題。未來幾年,AI領域會出現那些人們可能沒有充分考慮或預料到的趨勢?那些事情會變得重要?
Edwin Chen:我認為未來幾年,模型會變得越來越差異化——這源於不同實驗室的特質、行為方式,以及他們為模型設定的目標函數。
一年前我還沒有意識到這一點,當時我覺得所有AI模型最終都會變得同質化,雖然現在某個模型在某個方面可能略勝一籌,但其他模型幾個月後就會趕上。但過去一年我意識到,公司的價值觀會塑造模型的行為。
我舉個例子:我讓Claude花30分鐘迭代30版起草了一封無實質影響的郵件。
這引發了一個關鍵問題:你理想中的模型行為是怎樣的?是不斷提議最佳化、佔用大量時間以提升參與度,還是優先考慮效率、告知無需再改?
模型的行為選擇會從根本上影響其發展,就像Google、臉書和蘋果的搜尋引擎因各自的原則、價值觀和目標而截然不同,未來的大語言模型也會呈現出顯著的行為差異。
主持人Lenny:Grock已經呈現出了這種特質——它的“個性”和回答問題的方式都非常獨特。所以你認為未來會有更多這樣差異化的模型?
Edwin Chen:沒錯。
主持人Lenny:再問一個相關的問題:你認為AI領域中,那些趨勢被低估了,那些又被高估了?
Edwin Chen:我認為被低估的趨勢之一是,所有聊天機器人都會開始內建產品功能。我一直很喜歡Claude的“工件”(artifacts)功能,它真的非常好用。
前幾天,我發現Claude有個實用功能:生成郵件後會提供按鈕,點選即可將資訊轉為簡訊傳送。我不知道這是不是新功能,但這個概念非常棒。
我認為 “升級工件”—— 在聊天機器人中內建微型應用、微型介面 —— 是被低估且潛力十足的趨勢。
而 “氛圍程式設計” 被高估了,隨意將其生成的程式碼塞進程式碼庫,雖暫時可用,但長期會導致系統難以維護,這一問題可能在程式設計領域持續存在。
主持人Lenny:你的第一個觀點太精彩了。
我曾經採訪過Anthropic和OpenAI的首席產品官,問他們AI是否會直接根據使用者需求建立迭代產品?
這相當於 “氛圍程式設計” 的升級版——告訴AI你想要什麼,它就直接打造產品。也契合你所說的未來方向。
Edwin Chen:沒錯。我認為這是一個非常強大的理念——AI能幫助人們以更高效的方式實現自己的想法。
主持人Lenny:我很好奇你創辦Surge的契機。Coinbase創始人Brian Armstrong曾在演講中提到,自己經濟學、密碼學及工程師的獨特背景,讓他成為創辦Coinbase的不二人選。
我覺得你的故事和他很相似,能談談你的背景,以及它如何引領你創辦Surge嗎?
Edwin Chen:我自幼痴迷數學與語言,因 MIT 在數學、電腦科學領域的頂尖地位及諾姆・喬姆斯基的存在選擇就讀該校,求學時渴望找到連接這些領域的底層理論。
後來在Google、臉書、推特擔任研究者期間,我反覆面臨訓練模型所需資料難獲取的問題,且始終堅信高品質資料的重要性。
2020 年 GPT-3 發佈後,我意識到打造更高級功能的模型需要全新解決方案,而當時的資料公司僅專注於圖像標註等簡單任務。
憑藉數學、電腦科學與語言學交叉領域的背景,我在 GPT-3 發佈一個月後創辦了Surge,使命是打造推動 AI 前沿發展所需的應用場景。
主持人Lenny:你說一個月後,是指GPT-3發佈一個月後嗎?
Edwin Chen:是的。
主持人Lenny:哇,這真是個偉大的決定。除了已經取得的巨大成功,現在是什麼在驅動你繼續打造Surge,在這個領域深耕?
Edwin Chen:我本質是一個科學家,曾想成為數學或電腦科學教授,探索宇宙、語言與溝通的本質,還懷揣和諾姆·喬姆斯基一起用數學、電腦科學及語言學知識破解外星語言的夢想。
至今,我仍熱愛深度分析新發佈的AI模型,親自擺弄、運行評估、對比優劣並撰寫詳細報告,即便很多報告對外稱來自資料科學團隊,實則多由我完成。
我不擅長CEO的典型工作,卻樂於寫報告、與研究團隊深夜深入探討模型,慶幸能持續參與資料和科學相關工作。
驅動我的是希望Surge在AI乃至人類未來中發揮關鍵作用,我們在資料、語言、質量等領域有獨特視角。
Surge更像研究實驗室,注重好奇心、長期激勵與學術嚴謹性,而非季度指標和董事會報告上好看的資料。
主持人Lenny:通過這次對話,我意識到像你們這樣的公司,對AI的發展方向有著巨大的影響力。
你們幫助實驗室發現自己的不足和需要改進的地方,而不僅僅是OpenAI等公司的負責人在引領AI的發展——你們也在其中發揮著重要作用。
Edwin Chen:沒錯。現在的生態系統中,人們其實並不知道模型的發展方向,也不知道如何塑造它們,不知道人類在未來這一切中應該扮演什麼角色。所以我認為,我們有很多機會繼續引導這場討論。
主持人Lenny:我知道你對這項工作對人類的意義有著非常深刻的見解,能談談嗎?
Edwin Chen:我可能會有點哲學化,但這個問題本身就帶有哲學意味,所以請大家耐心聽我說。我們所做的工作,最直接的描述是“訓練和評估AI”,但我經常思考一個更深層次的使命:幫助客戶明確他們的“理想目標函數”——也就是他們希望自己的模型成為什麼樣的模型。
一旦他們明確了這一點,我們就會幫助他們訓練模型朝著這個北極星目標前進,幫助他們衡量進步。但這其實非常困難,因為目標函數是豐富而複雜的。
這就像養育孩子,定義和衡量 “成功”(如開心、經濟成就)遠比看 SAT 分數複雜。我們的工作是幫客戶找到 AI 的 “北極星目標” 並衡量其進度。
核心是思考:是否在打造推動人類進步的系統?如何通過資料集訓練和衡量這種進步?是否在最佳化錯誤方向(如讓人類變懶)?
衡量 “人類進步” 難度大,而點選量等表面指標易量化,但我們的意義正在於專注前者 —— 追求複雜目標函數,尋找匹配的資料,訓練出讓生活更豐富、激發好奇心與創造力的 AI。
這很難,因為人類本質上是懶惰的——讓AI迎合人類的惰性,是提升參與度、讓各項指標好看的最簡單方法。
所以,選擇正確的目標函數,並確保我們朝著這個目標最佳化,而不是被那些容易衡量的表面指標帶偏,這對我們的未來至關重要。
主持人Lenny:哇,你的分享讓我對AI的打造、訓練以及你們所做的工作有了全新的認識。
最後一個問題:創辦Surge之前,有什麼是你希望自己早知道的?很多人創業時都不知道自己會面臨什麼,你想對過去的自己說些什麼?
Edwin Chen:我以前從來沒想過自己會創業。我喜歡做研究,一直很欣賞DeepMind——他們是一家了不起的研究公司,被收購後仍然能繼續做出色的科學研究。但我一直覺得他們是一個神奇的例外。
所以我以前以為,如果我創辦公司,就必須成為一個整天盯著財務資料、開沒完沒了的會、做各種枯燥事情的商人——這是我一直很反感的。但沒想到事實完全不是這樣。
我現在仍然每天沉浸在資料中,做自己喜歡的事——撰寫分析報告、和研究團隊交流。
這本質上是“應用研究”,我們打造的這些出色的資料系統,正在真正推動AI的前沿發展。
所以我希望自己早知道:你不需要把所有時間都花在融資上,不需要持續製造熱度,不需要變成自己不喜歡的樣子。
只要打造出足夠優秀的產品,它自然能突破所有噪音,讓你獲得成功。如果我早知道這是可能的,我會更早開始創業。我希望這個故事能激勵更多人。
主持人Lenny:這真是一個完美的結尾。我覺得這正是創業者需要聽到的話,這次對話一定會激勵很多創業者,尤其是那些想以不同方式做事的創業者。Edwin,非常感謝你今天的分享。
Edwin Chen:謝謝大家,再見。 (創新觀察局)