Google如何建構“AI護城河”優勢？伊隆·馬斯克又為何對其進行“復仇”？

2025/11/19

•

很多人都知道DeepMind是Google旗下的公司，但很少有人知道伊隆·馬斯克和彼得·泰爾是DeepMind的早期投資人。

正是這家起初名不經傳的小型研究室，攪動了矽谷科技圈大佬們之間的暗流湧動。

該篇是目前整個Google系列最精彩的環節，其中涉及到了科技界大佬之間樸實無華的商戰、馬斯克明目張膽的復仇、黃仁勳的天降好運、Google錯失AI窗口……

(註：系列文章，翻譯自Acquired播客，系列文章及資料來源連結已放在文末，Ben & David是播客的主持人）

Ben：我挺喜歡你把DeepMind形容為：“AI界的YouTube”。Google當初把它買了下來時（收購價我們稍後再談），未曾想過它如今的估值可達五千億美元。我的意思是，就“史上最佳收購”而言，它不遜於Instagram或YouTube。

所以我記得這筆交易發生時的情景，就像我記得Instagram那筆交易一樣——因為當時那個數字真夠大的。

David：確實很大，但我記住它是因為別的原因，那感覺就像Facebook買下Instagram時一樣——“天哪，哇，這簡直是科技版圖的一次構造級位移。”

Ben：2014年1月，我記得在TechCrunch上看到一條隨機新聞。當時心裡很疑惑：“Deep……什麼來著？”說的是Google打算花一大筆錢去收購一家在倫敦的、我從未聽過、做人工智慧的公司。

這恰好說明了，當時AI在主流科技圈之外有多邊緣。你再仔細看看，會發現這家公司當時似乎沒有任何產品。它的網站上也幾乎沒說DeepMind到底是什麼，唯寫著自己是一家“尖端人工智慧公司”。

David：等等，你是用網際網路檔案館（Wayback Machine）翻出來看的？

Ben：對。我看到上面寫著：他們“為模擬、電子商務和遊戲建構通用學習演算法”。這是2014年的話。當時看，會完全不理解，乾脆也記不住。

David：模擬、電子商務，還有遊戲？

Ben：是的，看起來像是隨手撒的一把點子。但事實證明，那段對DeepMind的描述其實相當準確。而且，這家公司以及Google對它的收購，就是那隻“搧動翅膀的蝴蝶”，直接引出了OpenAI、ChatGPT、Anthropic，基本上引出了今天的一切。

David：當然也包括我們熟知的Gemini。

Ben：對，Gemini在今天的AI世界裡就是一個直接的結果，考慮到Elon（伊隆·馬斯克）的參與，xAI大概也算在內。

David：是啊，當然還有xAI。從某種奇妙的角度說，這事兒還多少促成了特斯拉的自動駕駛。

Ben：是的，那就讓我們來講講這樁故事。DeepMind成立於2010年，創始人是神經科學博士Demis Hassabis（德米斯·哈薩比斯），他此前創辦過一家電子遊戲公司；還有倫敦大學學院（UCL）的博士後Shane Legg（謝恩·萊格）；第三位聯合創始人是Demis自小一起長大的朋友Mustafa Suleyman（穆斯塔法·蘇萊曼）。這組合，至少可以說，是很不尋常的。

David：後來這組合竟然“產出”了一位爵士和一位諾獎得主。

Ben：沒錯。CEO Demis是國際象棋界的神童，後來轉做遊戲開發。1994年，也就是他17歲時被劍橋大學錄取，但因為年齡太小，學校對他說：“嘿，先休學一年再來吧。”

於是，他決定去一家叫Bullfrog Productions的遊戲工作室工作一年。在那兒，他做了那款叫“主題公園（Theme Park）”的遊戲，你要是記得的話。

它就像是“主題公園版”的《模擬城市》。這是一款大作，商業上非常成功。《過山車之星》（Roller Coaster Tycoon）某種意義上算它的“克隆”，後來出了很多很多續作。

David：哦，那我可玩了很多。

Ben：是啊，它在90年代中期賣了1500萬套，就很誇張。之後他去劍橋學了電腦科學。

從劍橋畢業後，他又回到遊戲行業，創立了另一家遊戲工作室Elixir，但最終失敗了。於是他決定：我要去讀神經科學的博士。就是這樣，Demis到了倫敦大學學院，並在那裡他遇到了做博士後的Shane Legg（謝恩·萊格）。

當時，Shane自稱是AI社區的“狂熱邊緣（lunatic fringe）”成員——他相信（這是在2008、2009、2010年）AI會年復一年變得更強，強到會超過人類智能。Shane也是把“人工通用智能（AGI）”這個術語推廣開來的人之一。

David：哦，很有意思。

Ben：當然，如今很多人都在談AGI，但當時幾乎沒有人瞭解它。你也就能舉出像Nick Bostrom（尼克·波斯特羅姆）那樣的人物，但真正去思考“超智能”或“奇點”的人少之又少。

在這之中，Elon Musk（伊隆·馬斯克）除外，因為Demis讓Elon意識到了這件事。於是Demis和Shane一拍即合，並把Demis的童年好友Mustafa也拉了進來。Mustafa本身也極聰明，他去了牛津大學，我記得後來是19歲就輟學去做其他創業相關的事。

三個人決定創辦一家公司，叫DeepMind。這個名字當然是在致敬“深度學習”——也就是Geoff Hinton（傑弗裡·辛頓）在多倫多大學的工作與研究成果。

這三個人的目標，是要用深度學習真正“創造一個智能的心智”。像Jeff、Ilya和Alex那時還沒真的這樣想。就像我們說的，這在當時還是“狂熱邊緣”的想法。

David：對。AlexNet、“貓論文”那一派，關注的是如何更好地分類資料、更好地歸納模式。從那一步跨到“我們要創造智能”，跨度巨大。

Ben：我想，當時確實有人——幾乎可以肯定在Google——在想“我們能做出在某些任務上超過人的狹義智能”。比如，計算器在某些任務上不就比人強嗎？

但我不認為當時有多少人在想：“哦，這將會是通用智能，而且比人還聰明。”於是他們決定把公司的標語定為：“解決智能，並用它來解決其他一切問題（solve intelligence and use it to solve everything else）。”這幾位在“市場敏銳度”上也很不俗。

DeepMind早期投資人：彼得·泰爾 & 伊隆·馬斯克

David：不過，要實現他們想做的事，有一個問題。

Ben：沒錯。問題就是錢。

從很多方面來說都是錢的問題。但比起2010年代的其他創業公司，這個問題對他們更難：又不是說創立雲端運算，做個App就能上架應用程式商店。他們想建構非常、非常、非常、非常、非常大的深度學習神經網路，需要“Google級”的算力。

不過有趣的是，他們當時其實還不需要那麼多錢。彼時的AI就是搞幾塊GPU，遠沒到訓練巨型LLM的時代。那時最終的是“雄心”，但眼下他們只需要籌上幾百萬美元。

可當你沒有商業計畫，只是想“解決智能”，誰會給你幾百萬？你得去找些“瘋子”。

於是2010年6月，Demis和Shane設法受邀去加州舊金山的“奇點峰會”（Singularity Summit），因為在倫敦募資根本行不通。

David：沒有這個環境，在那邊肯定不行。

Ben：我想他們也許嘗試過幾個月，意識到那條路走不通。這個峰會由Ray Kurzweil（雷·庫茲韋爾——後來成了Google的首席未來學家）組織，出席的有Eliezer Yudkowsky（埃利澤·尤德科夫斯基）和Peter Thiel（彼得·泰爾）。

Demis和Shane拿到邀請後很興奮，覺得這大概是我們唯一的融資機會。於是他們想方設法，讓Demis能在峰會上台演講。最好是pitch到Peter（彼得·泰爾）說：“能給你路演嗎？”

David：這是典型的“駭客式”打法。

Ben：他們想，“太好了，這就是我們的Hack（駭客式）。演講會成為我們向Peter（彼得·泰爾）和Founders Fund的路演。”那會兒Peter剛創立Founders Fund。你懂的，他是“PayPal黑幫”的成員，財力雄厚。

David：我覺得更準確的說法是：他當時有個很大的Roth IRA（稅後退休帳戶）。

Ben：對，他用Roth IRA投了Facebook，是Facebook的第一位投資人。他是完美的目標。他們把峰會演講的結構打造成，直接面向Peter（彼得·泰爾）的“隱性路演”。Shane（謝恩·萊格）在Parmy Olson關於DeepMind的那本好書《Supremacy》中有段話（我們講述DeepMind這段故事用了很多該書的素材）。

Shane說：“我們需要一個瘋到願意資助AGI公司的投資人。他得有不在乎幾百萬的資源，還得喜歡超級雄心勃勃的東西。”他還得極度逆向，因為他去找的每一位教授都會明確告訴他：“絕對不要考慮資助這個。”這個維恩圖聽起來很像彼得·泰爾。

於是他們到了會場，Demis要上台演講。他走上台，朝台下一看：Peter不在。Peter其實並不怎麼參與這次大會。

David：他很忙嘛。他是聯合創辦人和聯合組織者。

Ben：兩人心想：糟了，機會沒了。怎麼辦？然後運氣來了。他們得知Peter當晚在舊金山家裡辦了個Afterparty。

他們想辦法進了那個派對。Demis去找Peter——Demis極其聰明，聽過他講話的人立刻就能感受到。

他選擇不直接“硬懟式”路演，而是迂迴切入：他跟Peter聊起了國際象棋，因為他知道（大家都知道）彼得·泰爾愛下棋。Demis少年時在U14組曾是世界排名第二，並且深諳棋道。

於是Peter說：“嗯，我喜歡你。你看起來很聰明。你是做什麼的？”Demis解釋，他有一家AGI創業公司，他們就是為此而來，他還在大會上做了演講，大家對此挺興奮。

Peter說：“好吧，明天到Founders Fund來，給我正式路演。”他們就去了，做了路演，效果不錯。

Founders Fund領投了DeepMind約200萬美元的種子輪。對比如今AI公司種子輪，世界已發生了天翻地覆的變化。想像一下，曾經可以用不到200萬美元就能領投DeepMind的種子輪。

通過Peter和Founders Fund，他們又被引薦去見“PayPal黑幫”的另一位——Elon Musk（伊隆·馬斯克）。

事情的開始很平常，Peter：“嘿，Elon，你應該見見這個人。他很聰明，正在思考人工智慧。”Elon說：“好。來SpaceX吧，我帶你參觀。”

於是Demis過來吃了午飯，參觀了工廠。當然，Demis覺得特斯拉的工廠很酷，但他真正想做的是把話題轉到人工智慧上。我來讀一段《衛報》上關於這件事的報導：“馬斯克告訴Demis，他的首要任務是把人類送上火星，作為地球出問題時的備份行星“。

我認為Elon當時對AI並沒有太多的想法。

Demis指出了Elon計畫中的一個漏洞說：“如果能讓地球出現問題的就是AI呢？那去了火星也幫不了你。因為如果AI已經在這兒搞定了我們，它當然也能輕易通過我們的通訊系統之類的‘去’那裡。”他之前沒想過。他沉默了片刻，心想：嗯，大概是真的。不久之後，馬斯克也成了DeepMind的投資人。

希芙：優秀的人如何得到更優秀的人的支援，投其所好僅僅只是一個敲門磚，更關鍵的是你如何在別人關注的思維上提供更多、更好的價值。Demis找投資的方式，完全是開闢了另一個途徑。

David：我覺得太神奇了——喚醒Elon意識到“就算在火星，也未必能免於AI的威脅”的，某種程度上竟然是Demis。

Ben：對。我之前也沒考慮過這點。於是，這是Elon第一次“位元翻轉”的時刻：我們真的需要為人類福祉搞出安全、可控的AI。這顆種子就這樣種在了他腦中。

David：這當然也是DeepMind的抱負：我們以科學家、同行評審的方式，做造福人類的研究。

Ben：對，我覺得這些都成立。並且，在Demis與Elon會面、Elon投資DeepMind後的數月到一年裡，Elon也開始對AI的近期能力，尤其是對特斯拉的AI能力，變得極度興奮且深信不疑。

像Elon世界中的其他一切一樣，一旦“位元翻轉”、他興趣被點燃，他就會完全改變看世界的方式，徹底拋棄既有的思路與行動，變成：我該怎麼做，才能最大限度擁抱這個新世界觀？

David：而且在那時，其他人其實已經在做“用AI來駕駛”的事了。

Ben：是啊。聽起來對特斯拉來說是個不錯的主意。

於是Elon開始儘可能多地招募AI研究者、機器視覺與機器學習專家加入特斯拉。接著AlexNet橫空出世。它在識別和分類圖像方面太厲害了——YouTube上的貓視訊、推薦資訊流裡處處顯威。

那麼，這跟從一輛行駛中的車上採集的視訊流、理解其中正在發生什麼，真的有那麼不同嗎？我們能不能做即時處理，並比較幀與幀之間的差異？

也許控制汽車並沒那麼不同。於是Elon對AI的熱情，開始迅速升溫。與此同時，倫敦這邊，DeepMind也在埋頭苦幹。

他們在招研究員，訓練模型；他們也向投資人發出一些關於產品的模糊訊號：也許我們能在購物上做點事，也許做點遊戲相關的，就像收購時網站上的描述那樣。但他們真正渴望的，還是把模型做出來，研究“智能”。

然而，在2013年末的一天，他們接到了馬克·祖克柏的電話。他想買下這家公司。AlexNet之後，馬克被Google正在發生的一切“拍醒”了——AI在YouTube上對社交資訊流推薦的作用，以及它在Facebook和Instagram上的可能性。

他找來了Yann LeCun（楊立昆，與辛頓一道是AI與深度學習的“教父”級人物），並真正讓“摺積神經網路（CNN）”成為AI領域的下一個熱點。

在LeCun的帶領下，他們建立了FAIR（Facebook AI Research），是Facebook內部與Google Brain相對標的團隊。再想想，Facebook的第一位投資人是誰、且當時仍在董事會？Peter，而他也是DeepMind的領投人。

David：你覺得馬克是從Peter哪兒知道DeepMind的？

Ben：不，我不能確定。但想想看，馬克還能如何知道一家在倫敦的小創業公司？倒是有一個很棒的故事，講的是賴利·佩吉是怎麼知道它的。

馬克打來電話，提出要收購公司。關於價格有各種傳聞，但據Parmy Olson在她的書《Supremacy》裡所言，報價最高到8億美元——一家沒有產品、距離AGI還很遙遠的公司。

這與Cade Metz在書中的說法相符：如果接受Facebook的報價，創始人們賺到的錢會是接受Google報價的兩倍左右。

當然，Demis把這個消息帶回了投資人圈。但順便說一句，這其實與公司成立時的一切初衷相牴觸。公司的整體目標，以及他對團隊的承諾，是DeepMind將保持獨立，做研究，並在學術界發表論文。

他們曾許諾不會被某家資本主義機構的意志俘獲、被其擺佈。所以，若要推進這筆與馬克和Facebook的交易，就必須在條款上有大量博弈。

但，那時的馬克非常渴望。他願意在很多大條款上讓步，比如，允許Yann LeCun留在紐約、在NYU繼續營運他的實驗室，繼續做教授——在一些事情上他很靈活。

可，有一件事上，他並不靈活：如果他買下DeepMind，就不允許Demis繼續掌控DeepMind。

Demis卻認為：我們需要保持獨立、要有獨立的監督委員會，一旦DeepMind不再遵循其使命，該委員會可以介入。

而馬克的態度是：“不，你們要成為Facebook的一部分。”當然，“你們會賺很多錢”。

在這場談判進行的同時，DeepMind的投資人當然也都知道了。Elon得知後，立刻打電話給Demis，說：“我現在就用特斯拉股票把公司買下。”

這是2013年末、2014年初，特斯拉的市值約200億美元。從那時到今天，特斯拉股價大約漲了70倍。

Demis、Shane和Mustafa會想：“哇，眼下的局面真是熱鬧。”但就像你說的，他們對Elon和特斯拉也有與對Mark類似的問題：Elon想讓他們來做特斯拉的自動駕駛；他們並不想做自動駕駛——至少不想只做這個。

意外來客：賴利·佩吉“截胡”DeepMind

Ben: 然後，Demis接到了第三通電話，來自賴利·佩吉的。你想聽聽賴利是怎麼知道這家公司的故事嗎？

David：當然想聽。

Ben：好，這還在DeepMind很早的階段，故事還沒走到收購這一步。有一次，Elon Musk與“PayPal黑幫”的成員、DeepMind的天使投資人Luke Nosek坐同一架私人飛機。

他們正在讀Demis發來的一封郵件，匯報DeepMind取得的一個突破：AI在Atari遊戲“Breakout（打磚塊）”裡，展現了一種巧妙的取勝方法。

它在沒有任何人類策略提示的情況下，發現可以把球從磚塊的邊緣“繞”上去，然後在頂部來回反彈、快速清空上方的磚塊——不需要你在底部那塊擋板上進行大量操作，這樣能更快贏下比賽。

他們共同觀看了這段“太聰明”的視訊，包括與他們同行的賴利·佩吉。當然，那是Elon和賴利的關係還非常好。

賴利問：“等等，你們在看什麼？這家公司叫什麼？”他就是這麼知道的。我敢說Elon對這一切，曾經肯定氣瘋了。

更讓人意想不到的是，賴利與Demis之間的惺惺相惜。我認為，這是促成Google能買下DeepMind的關鍵。兩人一見面，簡直“如膠似漆”。

畢竟，在賴利心中，一直把Google視為一家AI公司。Demis更甚：他對AI執念強到，在抵達AGI之前，他甚至不想讓DeepMind做任何產品。

賴利對DeepMind的一切使命完全認可。而Google還有一件非常“便利”的事：他們已經有Brain了。所以，賴利不需要Demis、Shane、Mustafa和DeepMind來給Google的產品線“打工”。

因為，Brain已經在為產品工作了。Demis也就能相信賴利所說的：“不，你們留在倫敦，繼續研究智能，做你們正在做的事。我不需要你們來給Google的產品工作。”

Brain反而是在主動和各產品組接洽，挨個兒去問：“嘿，怎麼把神經網路用進你的產品，讓它更好？”這就是他們存在的意義。所以他們很高興地同意了，而且這套做法確實行得通。

Brain與神經網路開始整合進搜尋、廣告、Gmail裡，整合進一切。這對DeepMind來說是完美的歸宿——可謂“異地的家”。

還有第三個原因，說明明Google是DeepMind的完美歸屬：基礎設施。Google有你能想到的一切算力，隨取隨用——至少當時在CPU層面上是這樣。

David：那交易究竟是怎麼達成的？

Ben: 在收購DNN Research（辛頓團隊的公司）之後，時任Google工程負責人Alan Eustace下定決心，要儘可能把最頂尖的深度學習研究人才都招進Google，而且他有清晰的路徑。

幾個月前，賴利·佩吉在南太平洋的一個小島上開了一次戰略會。賴利認為深度學習將徹底改變整個行業。所以他對團隊說：“讓我們真的大幹一場吧。”這等於給了Alan一張“空白支票”，去把最好的研究員都拿下。

於是2013年，他決定要在12月份去見DeepMind團隊。這裡還有個有趣的故事：辛頓那會兒在Google，但他腰背出了點問題，不能坐，只能站或者躺，橫跨大洋的長途飛行難度太大。

但是，創業公司調查一定得有辛頓。畢竟，要買一家深度學習的公司，需要辛頓來協作其評估。於是Alan決定包一架私人飛機，並且定製一套奇特的固定裝置，好讓辛頓在起飛與降落時躺在平板上，不會滑來滑去。

他們飛到倫敦，做了盡調，並敲定了交易，成交金額5.5億美元。Demis與賴利的確惺惺相惜，雙方設立了一個獨立監督委員會，以確保DeepMind的使命與目標真正得到遵循。

今天DeepMind是Google持有的一項資產——如果它是獨立的，我認為它值五千億美元。你知道收購後被請進倫理委員會的另一位“PayPal黑幫”是誰嗎？

David：Reid Hoffman（裡德·霍夫曼）。

Ben：就是他——考慮到他後來與OpenAI的牽連，這也很應景。我們稍後還會回到Reid。

收購後，一切進展得又好又快。著名的“資料中心冷卻”就是DeepMind派出團隊，作為“使節”去和Google協作的項目。且，該項目很快就有了結果，2016年7月，Google宣佈資料中心冷卻的能耗降低了40%。

要知道，Google有那麼多資料中心，冷卻能耗直接降了40%。可想而知，這是多大的成本節約。這也論證了神經網路在Google內部最顯而易見的效果，同時，也幾乎把收購的成本價賺了回來。

然後“人機下棋對決”，結局就像“完全的天才之作”。現在，反過來，是人類開始從DeepMind下棋的策略中學習，發現新策略。

為什麼是圍棋？圍棋相較國際象棋要複雜得多。國際象棋在任何一個開局回合大概有20種走法，中局時大概有30到40種選擇。

而圍棋在任何一回合大概有200種選擇。從組合論的角度看，棋盤可能的狀態數比宇宙中的原子數還多。

Demis曾說：即使把全世界的電腦都跑上一百萬年（以2017年的算力計），也不足以窮盡所有可能。

所以它很酷：這是個無法“暴力窮舉”的問題。你必須用類似神經網路的東西。而這片“空白地”足以讓你發揮創造力、深入探索。

於是，它就成了一個絕佳的“孵化場”，讓我們得以“觀看”一個神經網路如何在與人類對弈時展現創造性。

當然，這也完全契合Demis的個人背景和公司的DNA——玩遊戲。你知道Demis是國際象棋冠軍。圍棋之後，他們又打了《星海爭霸》，對吧？

David：哦，真的？我還真不知道。

Ben：對。那是他們下一個攻克的遊戲：《星海爭霸》，一款與對手即時對戰的策略遊戲。我們在講述OpenAI對弈另一個“對手”時呼應到這一點。

那麼，Google收購DeepMind帶來的優勢是什麼呢？

伊隆·馬斯克的“復仇”

Ben: 有一個人對此極其、極其、極其不爽——也許把馬克·祖克柏也算上，就是兩個人，不過馬克更擅長把情緒藏起來。毫無疑問，Elon Musk（伊隆·馬斯克）對這筆收購非常不爽。

當Google“截胡”買下DeepMind時，Elon簡直氣炸。我們說過，Elon與賴利曾經非常親密。如今，Elon已經開始對Google有些“酸了”——他在努力招AI研究員，而你這邊Alan Eustace滿世界飛，把所有AI研究員都“吸進”Google；Elon投資了DeepMind，想把DeepMind帶進特斯拉自己的AI團隊，結果被搶走了。

於是，這引出了一頓足以改變矽谷歷史走向的晚宴：2015年夏天，在Sand Hill Road上的Rosewood酒店。

當然了，在矽谷辦晚宴還能在哪兒？當然是Rosewood。這頓飯由當時矽谷最具號召力的兩人組織：Elon Musk(伊隆·馬斯克）與Sam Altman（山姆·奧爾特曼）。

當時Sam還是Y Combinator的總裁。那麼這頓飯的目的是什麼？他們要向那些被Google（以及在較小程度上被Facebook）“吸走”的AI研究員們推銷；那時，這兩家基本形成了“二元壟斷”的局面。

再說一次，Google與Facebook的商業模式——資訊流推薦器、分類器——被證明現金流“印鈔機”。所以他們可以（現在回頭看這麼說很有趣）給這些人付很多很多錢，很多錢，動輒“百萬美元級”，把他們從學術界挖出來，放進公司內部“賣廣告的資本主義研究實驗室”裡。

於是Elon和Sam向這桌研究者拋出的問題/推銷是：要怎樣，才能讓你離開Google？他們繞桌一圈，幾乎所有人的答案都是：沒可能。你們做不到。我們為什麼要走？

我們拿的錢遠超想像。很多人還能保留學術職位與頭銜，還能在Google彼此切磋，“鐵磨鐵，自然鋒利”。這是世界上最頂尖的一批頭腦，在最前沿做研究，有海量資源與硬體任其使用。太棒了。

並且，還有世界上最好的基礎設施和Jeff Dean，沒有什麼能說服我們離開Google。除了有一個人，被“勾起了興趣”。當時Cade Metz在《連線》上寫了一篇了不起的報導（他後來寫了《Genius Makers》）。其中有這麼一段：

“麻煩在於，最有資格解決這些問題的人已經在Google工作。而，即便有Musk和Altman撐腰，晚宴上的人也不確定這些思想家願不願意跳槽去一家新創公司。但至少有一位關鍵人物對‘跳船’持開放態度。”接下來是那位關鍵人物的引語：“我覺得這裡面有風險，但也覺得這會是一次非常有意思的嘗試。”

這句話簡直是“最伊利亞”的一句話。沒錯，這個人就是Ilya Sutskever（伊利亞·蘇茨凱維爾）——AlexNet與DNN Research的那位，Google出身，即將成為OpenAI的聯合創始人兼首席科學家。

Elon和Sam給這些研究員的“提案”是：讓我們創辦一家新的非營利AI研究實驗室，我們可以把研究全部公開。在不受Facebook和Google的力量影響、獨立於它們的控制之外，自由地發表。

David：對，你不必做“產品”。

Ben：你只做研究，可以發表論文，並且它將是開放的，它將為人類福祉服務。所有這些不可思議的進步、我們相信即將到來的智能，都將造福所有人，而不是只屬於Google和Facebook。

對某位研究員而言，這聽起來好得令人難以置信。所以他們其實本沒打算做這事，因為不認為會有人真的一起做。

這像是一個“動員”的問題：一旦Ilya說，“好，我加入。”而且他說，“順便說一句，Google給了很大的還價，大概是你們的兩倍”，我想是Jeff Dean親自給他遞的，但Ilya說：“不，我就幹這個。”——這對帶動其他頂級研究員跟上，影響巨大。

當然，離開Google加入這件事的遠非所有頂尖研究員，但這已足夠。有大約七位研究員離開Google，加入Elon和Sam，再加上從Stripe（金融科技獨角獸）過來的Greg Brockman，一起創辦了OpenAI。

由於，“提案”就是：我們要“開放地”做這件事。所以，OpenAI的使命宣言是：“以最有可能造福全人類的方式推進數字智能的發展，不受產生財務回報需求的束縛。”這沒問題——只要你為完成使命所需的，不是“數十億美元級”的投入。

那他們怎麼籌資？一開始承諾有10億美元。這筆錢來自Elon Musk、Sam Altman、Reid Hoffman、Jessica Livingston（YC聯合創始人）和Peter Thiel，Founders Fund後來也會向OpenAI主體投下巨額資金。

有趣的是，後來報導說那10億美元並沒有真的全部到位，實際到賬的只有大約1.3億美元，用來資助這個非營利組織。

頭幾年這筆錢足夠他們支副研究員的薪酬和算力需求。雖然不及Google和Facebook，但對這些人來說，一年也有一兩百萬美元吧。

早期，一切都很順利。一直都在招人、招研究員，在2016年初很快又迎來一個大勝：Dario Amodei（達里奧·阿莫代伊）離開Google，加入OpenAI，與Ilya匯合——夢之隊正在組建

接下來幾年，他和Ilya一起營運OpenAI的大部分工作，當然後來他離開創辦了Anthropic。但離Anthropic、Claude、ChatGPT、Gemini以及今天的一切，還有幾年路。

至少在最初的一兩年，OpenAI的計畫基本就是：看看DeepMind在做什麼，向研究共同體證明，作為一間新實驗室，我們也能做他們做的那些不可思議的事，甚至做得更好。

他們開始訓練模型去玩遊戲，最著名的是Dota，大型線上多人競技場（MOBA）遊戲。他們心想：“好，DeepMind你們打《星海爭霸》，那我們就打Dota 2。更複雜、更即時。”

就像圍棋裡的“湧現性質”一樣，模型會想出一些人類少見的獨特戰術。顯然這不是“人類把自己喜歡的策略和規則寫進了程式碼”，而是“湧現”。

他們還做了一個叫Universe的項目，用來訓練電腦去玩上千款遊戲，從Atari到像《俠盜獵車手》這樣的開放世界遊戲，他們還教模型復原魔方。

總之，這是一個多樣化的項目組合，但看起來並沒有“凝聚成一個顯而易見的‘大東西’”。這就是研究，DeepMind在做的也是這類事。

回想一下，Elon是DeepMind的投資人，被Google“截胡”收購很不高興——這就說得通了。我認為在OpenAI成立之初，Elon為這件事“背書”所付出的名聲與時間，功不可沒。很多重量級的人才招聘，都是因為Elon在背後“壓陣”：“我願意押注。”

這就是OpenAI那邊在發生的事：做很多像DeepMind的事，一堆項目，但沒有一個“單一、顯然的大方向”去凝聚。還沒到ChatGPT的時刻。

黃仁勳的“天降”大運與GoogleTPU的崛起

我們回到Google，他們買了DeepMind，但也被挖走了一些人才。不過別因為有人去了OpenAI就誤解了Google的處境。

回到2013年，當Alex Krizhevsky（亞歷克斯·克里熱夫斯基）與Jeff Hinton、Ilya Sutskever（伊利亞·蘇茨凱維爾）一道加入Google時，他震驚地發現：他們所有現有的機器學習模型都在CPU上跑。

過去大家也提過想要GPU，因為機器學習負載很適合併行，但Google的基礎設施團隊反對：這會增加複雜性，擴充並多樣化“機隊”……咱們保持簡單。

引用《Genius Makers》中的話：他入職頭幾天（這是說Alex），就從本地一家電子商店買了一台帶GPU的機器，塞在他工位外走廊的一個儲物間裡，接上網路，就開始在這台“孤零零的硬體”上訓練他的神經網路——就像他在學術界那樣，只不過這回電費Google買單。

顯然，一塊GPU遠遠不夠，尤其當越來越多的Googler想用它時。而且Jeff Dean與Alan Eustace也得出結論：Dist Belief（Google早期的分佈式深度學習系統）雖然很棒，但必須重構為在GPU上運行，而不是CPU。

於是2014年春天到了。

Jeff Dean與John Giannandrea（約翰·詹南德里亞）坐下來，制定了一個計畫：如何正式把GPU納入Google資料中心的“標準機隊”。這是件大事，是一次重大變更。但他們從神經網路帶來的反響裡看得很清楚——必須這麼做。

AlexNet之後，只是時間問題。於是他們決定向輝達訂購四萬塊GPU，費用預計1.3億美元。

這個金額足以把申請權限一路提到賴利·佩吉那裡。儘管財務部門想砍單，可賴利還是親自批准了，因為他說：Google的未來在深度學習。

希芙：從翻譯Google系列資料來看，賴利·佩吉是一位非常有遠見且果斷的領導。他的好幾次獨特的收購都為Google帶來了深遠的影響。比如，收購Android，就是他親自拍板的，甚至這事連當時GoogleCEO史密斯都不清楚。但Android系統，成為我們這個時代，手機中最不可或缺的軟體作業系統。

順便看看當時的輝達：這是一個極其巨大的訂單。他們的總營收才40億美元。這一個訂單就1.3億美元。

那會兒輝達主要還是一家消費級顯示卡公司，市值一百億美元。幾乎就像Google“悄悄告訴”輝達一個秘密：嘿，這玩意不只是像ImageNet那樣的研究競賽裡奏效；對我們這樣的企業而言，它的價值足以讓我們此刻就毫不猶豫地拍板投下一億多美元。

於是，Google上下徹底“醒來”，把它實實在在地放進了產品裡。Google Photos上線；Gmail開始提供“輸入聯想”的打字建議。

就像先前指出的，Google龐大的AdWords業務也找到越來越多用深度學習賺錢的方式。尤其是當它被整合進去後，他們可以開始預測“使用者將來會點哪些廣告”。

於是，除了那1.3億美元，Google又花了幾億美元買GPU，但很快就靠廣告系統“賺了回來”。

接著，“買儘可能多的GPU”成了一個越來越理所當然的決策。但一旦神經網路開始奏效，任何使用它的人，尤其在Google這種規模上，都會遇到一個問題：

只要有人想用它，我們就需要做海量的矩陣乘法。矩陣乘法基本就是你在神經網路層與層之間做傳播的方式。

於是你會遇到這樣的問題：一方面是效率；另一方面是業務——這看起來像是我們在可預見的未來，每年都會給輝達“運”去數億美元，很快就是數十億美元。

有一個精彩的時刻：Google剛在Nexus手機上推出語音識別（神經網路的最新用例），因為他們還沒有足夠的基礎設施在所有Android手機上部署，但，這功能迅速大受歡迎。

Jeff Dean掰著指頭一算：如果使用者每天用上——我也不知道——三分鐘，我們再推向十億台Android手機，我們就需要把Google所有資料中心的數量翻一倍，才能扛得住。

那段裡還有一句很棒的話：Jeff去找Urs Hölzle（烏爾斯·霍爾茨勒）說，“我們需要再來一個Google（的資料中心）。”

或者，正如你建議的，另一個選項是我們自己造一種新晶片，專為我們的資料定製——矩陣乘法、張量乘法，你可以叫它“張量處理器（Tensor Processing Unit，TPU）”。

巧的是，Google的一位工程師Jonathan Ross當時用他的“20%時間”在做一個涉及FPGA的項目——FPGA本質上是昂貴但可程式設計的晶片，能帶來極佳的效果。

於是，他們決定正式立項，把那項工作與其他一些現有工作結合，做一個定製的ASIC（專用積體電路）。

正如你說的，張量處理器TPU登場了——專為神經網路打造，比當時的GPU效率高得多，代價是它幾乎不能幹別的：不適合圖形處理，也不適合很多其他GPU工作負載，只適合矩陣乘法與神經網路。但它能讓Google的資料中心規模化，而不用把整體機房翻倍。

如果你想知道TPU背後的核心洞見是什麼，那就是“降低計算精度”。比如把4586.8272這樣的數字，四捨五入成4586.8，甚至乾脆就是4586（小數點後啥也沒有）。

這聽上去有點反直覺：為什麼要用“不那麼精確”的數字去做複雜數學？答案是效率。如果你能在軟體架構裡把“重活”做好，或者通過所謂的“量化（quantization）”來適配，那麼你就可以把資訊用“不那麼精確”的格式儲存，用同樣的功耗、同樣的記憶體、同樣數量的晶片電晶體，每秒做更多的計算。

另一件必鬚髮生的事是：它得立刻生效。因為語音轉文字已經成為“殺手級”應用；Google其他一產品的需求量也在瞬間“爆表”。

而我們還沒到LLM呢。僅僅是“照片裡的電腦視覺”也好，“語音識別”也好，大家開始“理所當然”地期待這些功能。所以，TPU從設計、驗證、製造到部署進資料中心，前後只用了15個月。

它不是那種“研究項目，幾年慢慢整”，而是“頭髮著火”般地立刻開干。他們懂得一個非常聰明的舉措是：先用FPGA作為“過渡方案”。儘管單價太高，但他們可以先把它作為“測試機隊”跑起來，確認所有數學都對，再把真正的ASIC交給代工廠流片（也許是台積電），出片上線。

另一件聰明的事是，他們把TPU做成“硬碟的形狀尺寸”，這樣它就能直接插進現有的伺服器機架。你把一個硬碟抽出來，塞一個TPU進去，不需要任何物理層面的重構。

David：哇，太絕了。這是自“軟木板機櫃”以來最“Google味”的基礎設施故事。

Ben：完全是。另外，這一切不是在山景城完成的，而是在Google的一個衛星辦公室——威斯康星州的麥迪遜。

David：為什麼是麥迪遜？

Ben：那裡有一位很特別的教授，學校裡也有很多學生可以招。反正他們畢業大概也就是去Epic（當地大公司）或別處。

還有，他們一直把這事捂著。整個項目至少保密了一整年，直到在Google I/O上宣佈。

還有一點：TPU按時趕上了AlphaGo的比賽。那場比賽跑在Google雲上一台裝了四塊TPU的機器上。這一仗告捷，當然也給了Google更多信心，去大規模量產。

這就是TPU。按各方說法，V1（第一代）並不算好。現在已經是V7或V8了，強太多。TPU與GPU如今看起來也比過去相似許多，彼此採納了不少特性。今天據估計，Google內部有200萬到300萬顆TPU。

做個參照：輝達2024年大約出貨了400萬塊GPU（外界並不確定具體數字）。大家談AI晶片，好像這只是輝達一家的賽馬。

但Google內部有一個接近輝達規模的“自用體系”，在為自家（以及Google雲客戶）造芯——我認為很多人都沒有意識到TPU在AI中的份量之大。

這也是令OpenAI和Elon抓狂的“極具諷刺意味”的一幕：OpenAI在2015年成立，目標是“把人才從Google裡‘震’出來、讓賽道公平”；結果Google反而“起了加速度”。

他們還做了TensorFlow——由Google Brain打造，用來使研究者能夠建構、訓練、部署機器學習模型的框架。他們把它做得非常“可移植”，不僅能在TPU上跑，甚至無需改寫，就能在GPU、乃至CPU上跑。

它取代了舊的Dist Belief系統，成了他們面向內部與外部研究者的通用ML框架。

有點“悖論”地，在OpenAI成立後的這些年，確實有一些了不起的研究員被“抽走”了，但Google Brain在這段時期也“火力全開”：在Google的商業目標上左右開弓，持續交付，同時在眾多方向上把技術前沿往前推進了一大截。

Transformer論文發表：Google 向左，OpenAI 向右

Ben: 到了2017年，Google Brain團隊的八位研究員“悄然”發了一篇論文。這八位顯然對論文非常興奮，也對它的內容、意義與潛在影響高度看好，覺得它會很大。

Google內部的態度是：嗯，挺酷，這應該是我們語言模型工作的“下一迭代”。這對我們很重要。

但，他們有點懷疑這是“下一個Google”嗎？畢竟，他們還有一堆別的東西，似乎更有可能成為“下一個Google”。

然而，這篇論文及其發表，實際上給了OpenAI一個機會——“接住球，一路狂奔”，去打造“下一個Google”。這就是那篇Transformer論文。

那麼Transformer從何而來？Google在語言模型上當時的最新路線是什麼？

自Franz Och在Google Translate上的成功起（大約在2007年前後的2000年代後期），他們不斷迭代翻譯系統。

等到Jeff Hinton加入、AlexNet橫空出世後，他們把翻譯系統切換為“基於神經網路”的語言模型，效果顯著更好。

這還引發了一次巨大的“文化事件”：研究員們再次“空降”，由Jeff Dean帶隊，說：“我很確定我們的神經網路能比過去十年的經典方法好得多。”

“要不我們花幾個月做個驗證？”他們最終把整個舊程式碼庫給扔了，徹底切換到神經網路。《紐約時報雜誌》在2016年寫過非常精彩的報導。我記得我讀的時候都看愣了。

“神經網路是件大事。”而這還是在Transformer論文發佈的前一年。

在Transformer之前，他們把Google Translate重寫成基於循環神經網路（RNN），當時是最先進的，進步很大。但隨著Google Brain與Google Translate團隊持續打磨，問題也浮現：

用今天“Transformer世界”的話說：它們的“上下文窗口”很短。語言模型在處理文字時，需要“記住”已經讀過的一切，這樣當它需要在後文改一個詞、或者預測下一個詞時，它能調出整段文字的記憶來做判斷。

Google改進它的一種方法，是採用“長短期記憶網路”（LSTM）。LSTM的思路是，讓模型有一種“持久/短時的記憶”——你得稍微動動腦子去理解它——以便模型在跨越許多步時仍能保留上下文。

LSTM起初讓人們挺興奮。有人覺得，哦，LSTM將把語言模型、乃至大語言模型帶入主流。

確實，它在2016年被整合進Google Translate，把錯誤率降低了60%。這是巨大的飛躍。

但LSTM的問題是：有效，卻非常吃算力，平行性也不理想。而從AlexNet到TPU，整個趨勢都是“平行化”——這正是我們讓AI真正奏效的路徑。LSTM在這兒成了一個“路障”。

於是，Google Brain裡有個團隊開始尋找更好的架構：既保留LSTM的優點（不容易“忘上下文”），又能更好地平行、更好地擴展，吃滿這些新架構的紅利。

研究員Jakob Uszkoreit（雅各布·烏什科雷特）開始琢磨擴大語言處理中的“注意力”（attention）範圍：與其只盯著“眼前的詞”，不如告訴模型：“請關注整段文字的全部語料，而不只是接下來的幾個詞。”

看完整體，再基於整個上下文——把注意力給到全域——來預測“下一句譯文中的詞應該是什麼”。順便說一句，職業的人類譯者恰恰就是這麼翻譯文字的，不是“逐詞直譯”。我大學上過翻譯課，挺有意思，你要先通讀原文，體會原作的語境，然後再回過頭，在整體語境下開始翻譯。

這會非常耗算力，但極易平行。

於是Jakob開始與Brain團隊的幾位同事合作，大家對它越來越興奮。他們決定把這項新技術叫作“Transformer”。

其一，這是它在做的事：把一整塊資訊輸入、處理、理解，然後“變換”（transform）。其二，他們小時候也很喜歡“變形金剛”（Transformers），名字多少有點“童年濾鏡”。

它把巨大的語料輸入，並以“壓縮格式”儲存。我之所以提這一點，是因為這正是之前在2000/2001年微型茶水間與Noam Shazeer（諾姆·沙齊爾）談話時用的那套說法：壓縮即理解。Noam正是這篇論文的共同作者之一。

說到Noam Shazeer，他知道了這個項目，決定加入——“我在這方面有些經驗，這聽起來挺酷。LSTM問題確實不少，這方向很有戲。我來和大家一起幹。”

David: 這太重要了，因為在Noam加入之前，團隊雖然已經寫出一個可運行的Transformer實現，但它並沒有比LSTM給出更好的結果。

Ben: Noam加入後，幾乎“上演了Jeff Dean式的操作”：把整個程式碼庫從零重寫。寫完後，Transformer就“碾壓”了基於LSTM的Google Translate方案。更重要的是：模型做得越大，效果越好。它的伸縮性看起來好得驚人。

Steven Levy在《連線》寫過一篇回顧這段歷史的文章。文章裡團隊成員留下這樣的評價：“Noam是魔術師”、“Noam是巫師”。Noam把問題拿過去，一回來就說：“它現在好用了。”

現在，你也就明白了，為何今天Noam與Jeff Dean在一起做下一代Gemini。Noam和Jeff，真是“天作之合”。

我們還與Google Brain的聯合創始人Greg Corrado（格雷格·科拉多）聊過一次，很有意思。他著重強調了Transformer的“優雅”。他說它太優雅，以至於人們的第一反應常常是：“這不可能，這太簡單了。Transformer幾乎稱不上神經網路架構。”

David：這確實是對“AlexNet—辛頓譜系”那一脈神經網路的又一次巨大變革。

Ben：對。這甚至改變了我們看世界的方式。Greg指出，在自然界，事物往往以“最節能”的方式運轉——因為它們對資源的利用效率最高。

你可以把這一觀念“移植”到電腦科學裡。他說，他在研究室裡形成了一個“模式識別”：當一個方案“非常簡單、非常高效”時，你八成抓對了方向，而不是那些“複雜的點子”。

我覺得這非常真實。你知道那種場景吧：你對著一個棘手問題，來回爭論、白板推演，列了一堆方案，最後突然“啊哈”：原來答案那麼簡單。而它往往就是對的。

Transformer就有這種“優雅”。這是現代AI的開端——“喂給它更多資料”。

Rich Sutton的名文“The Bitter Lesson”（“苦澀的教訓”）曾寫道：我們AI研究者總覺得自己很聰明，以為我們的工作是再發明一個偉大的演算法；但事實上，在語言、電腦視覺、象棋等各個領域，真正奏效的做法是：先找到一個可伸縮的架構，然後“資料越多，贏面越大”。

也就是“無限伸縮”：更多資料、更多算力、更好結果。而這正是這一刻的開始：我們找到了一個可伸縮的架構；接下來差不多十年，就是“更多資料、更多能耗、更多算力，效果持續提升”。

於是Google團隊，尤其是Noam，說：“喂，這玩意潛力太大了。這不僅是把翻譯做得更好，我們真的可以把它用到很多地方。”

David：對，這絕不只是更好的Google Translate。

Ben：Google的其他部分，卻慢了半拍才意識到它的潛力。他們在一年內做出了一些東西：比如BERT，一個大語言模型。外界有個“偽敘事”，說Google在論文發表後什麼都沒做。

其實他們做了不少。事實上，BERT就是最早的一批LLM之一。Transformer論文發出後，Google在基於Transformer的大語言模型上做了很多。他們沒有做的，是把它當作一次“平台級的技術範式遷移”。他們做了像BERT，還有另一個叫MUM的模型，把它們“嵌”進搜尋結果質量裡。

他們把它融入核心業務，就像Google Brain每次搞出好東西時做的那樣。於是，也許這是在人類價值上“最偉大”的決策之一，但在公司層面卻可能是Google“最糟糕”的決策之一：Google允許這8位研究員以“Attention Is All You Need”（只需注意力，亦向披頭士那首關於“愛”的經典致意）的標題發表論文。

這篇論文目前是21世紀被引次數排名第七的論文。我想排在它前面的論文，大多更早發表。

當然，在論文發表後的幾年裡，Transformer論文的八位作者無一例外，都離開了Google，要麼去創業，要麼加入AI創業公司，包括OpenAI。

當然還有Noam創辦了Character.AI；最後他通過某種許可、智慧財產權與招聘協議，以“數十億美元等級”的方式又回到了Google。

對Google來說，這是非常、非常昂貴的錯誤。可以說，2017年之後的5年裡，Google沒有充分把握，由Transformer創造出來的機會窗口。

說到“把握機會”，這段時間OpenAI在做什麼呢？ (希芙的星空)