Google如何建構“AI護城河”優勢?伊隆·馬斯克又為何對其進行“復仇”?
很多人都知道DeepMind是Google旗下的公司,但很少有人知道伊隆·馬斯克和彼得·泰爾是DeepMind的早期投資人。
正是這家起初名不經傳的小型研究室,攪動了矽谷科技圈大佬們之間的暗流湧動。
該篇是目前整個Google系列最精彩的環節,其中涉及到了科技界大佬之間樸實無華的商戰、馬斯克明目張膽的復仇、黃仁勳的天降好運、Google錯失AI窗口……
(註:系列文章,翻譯自Acquired播客,系列文章及資料來源連結已放在文末,Ben & David是播客的主持人)
Ben:我挺喜歡你把DeepMind形容為:“AI界的YouTube”。Google當初把它買了下來時(收購價我們稍後再談),未曾想過它如今的估值可達五千億美元。我的意思是,就“史上最佳收購”而言,它不遜於Instagram或YouTube。
所以我記得這筆交易發生時的情景,就像我記得Instagram那筆交易一樣——因為當時那個數字真夠大的。
David:確實很大,但我記住它是因為別的原因,那感覺就像Facebook買下Instagram時一樣——“天哪,哇,這簡直是科技版圖的一次構造級位移。”
Ben:2014年1月,我記得在TechCrunch上看到一條隨機新聞。當時心裡很疑惑:“Deep……什麼來著?”說的是Google打算花一大筆錢去收購一家在倫敦的、我從未聽過、做人工智慧的公司。
這恰好說明了,當時AI在主流科技圈之外有多邊緣。你再仔細看看,會發現這家公司當時似乎沒有任何產品。它的網站上也幾乎沒說DeepMind到底是什麼,唯寫著自己是一家“尖端人工智慧公司”。
David:等等,你是用網際網路檔案館(Wayback Machine)翻出來看的?
Ben:對。我看到上面寫著:他們“為模擬、電子商務和遊戲建構通用學習演算法”。這是2014年的話。當時看,會完全不理解,乾脆也記不住。
David:模擬、電子商務,還有遊戲?
Ben:是的,看起來像是隨手撒的一把點子。但事實證明,那段對DeepMind的描述其實相當準確。而且,這家公司以及Google對它的收購,就是那隻“搧動翅膀的蝴蝶”,直接引出了OpenAI、ChatGPT、Anthropic,基本上引出了今天的一切。
David:當然也包括我們熟知的Gemini。
Ben:對,Gemini在今天的AI世界裡就是一個直接的結果,考慮到Elon(伊隆·馬斯克)的參與,xAI大概也算在內。
David:是啊,當然還有xAI。從某種奇妙的角度說,這事兒還多少促成了特斯拉的自動駕駛。
Ben:是的,那就讓我們來講講這樁故事。DeepMind成立於2010年,創始人是神經科學博士Demis Hassabis(德米斯·哈薩比斯),他此前創辦過一家電子遊戲公司;還有倫敦大學學院(UCL)的博士後Shane Legg(謝恩·萊格);第三位聯合創始人是Demis自小一起長大的朋友Mustafa Suleyman(穆斯塔法·蘇萊曼)。這組合,至少可以說,是很不尋常的。
David:後來這組合竟然“產出”了一位爵士和一位諾獎得主。
Ben:沒錯。CEO Demis是國際象棋界的神童,後來轉做遊戲開發。1994年,也就是他17歲時被劍橋大學錄取,但因為年齡太小,學校對他說:“嘿,先休學一年再來吧。”
於是,他決定去一家叫Bullfrog Productions的遊戲工作室工作一年。在那兒,他做了那款叫“主題公園(Theme Park)”的遊戲,你要是記得的話。
它就像是“主題公園版”的《模擬城市》。這是一款大作,商業上非常成功。《過山車之星》(Roller Coaster Tycoon)某種意義上算它的“克隆”,後來出了很多很多續作。
David:哦,那我可玩了很多。
Ben:是啊,它在90年代中期賣了1500萬套,就很誇張。之後他去劍橋學了電腦科學。
從劍橋畢業後,他又回到遊戲行業,創立了另一家遊戲工作室Elixir,但最終失敗了。於是他決定:我要去讀神經科學的博士。就是這樣,Demis到了倫敦大學學院,並在那裡他遇到了做博士後的Shane Legg(謝恩·萊格)。
當時,Shane自稱是AI社區的“狂熱邊緣(lunatic fringe)”成員——他相信(這是在2008、2009、2010年)AI會年復一年變得更強,強到會超過人類智能。Shane也是把“人工通用智能(AGI)”這個術語推廣開來的人之一。
David:哦,很有意思。
Ben:當然,如今很多人都在談AGI,但當時幾乎沒有人瞭解它。你也就能舉出像Nick Bostrom(尼克·波斯特羅姆)那樣的人物,但真正去思考“超智能”或“奇點”的人少之又少。
在這之中,Elon Musk(伊隆·馬斯克)除外,因為Demis讓Elon意識到了這件事。於是Demis和Shane一拍即合,並把Demis的童年好友Mustafa也拉了進來。Mustafa本身也極聰明,他去了牛津大學,我記得後來是19歲就輟學去做其他創業相關的事。
三個人決定創辦一家公司,叫DeepMind。這個名字當然是在致敬“深度學習”——也就是Geoff Hinton(傑弗裡·辛頓)在多倫多大學的工作與研究成果。
這三個人的目標,是要用深度學習真正“創造一個智能的心智”。像Jeff、Ilya和Alex那時還沒真的這樣想。就像我們說的,這在當時還是“狂熱邊緣”的想法。
David:對。AlexNet、“貓論文”那一派,關注的是如何更好地分類資料、更好地歸納模式。從那一步跨到“我們要創造智能”,跨度巨大。
Ben:我想,當時確實有人——幾乎可以肯定在Google——在想“我們能做出在某些任務上超過人的狹義智能”。比如,計算器在某些任務上不就比人強嗎?
但我不認為當時有多少人在想:“哦,這將會是通用智能,而且比人還聰明。”於是他們決定把公司的標語定為:“解決智能,並用它來解決其他一切問題(solve intelligence and use it to solve everything else)。”這幾位在“市場敏銳度”上也很不俗。
DeepMind早期投資人:彼得·泰爾 & 伊隆·馬斯克
David:不過,要實現他們想做的事,有一個問題。
Ben:沒錯。問題就是錢。
從很多方面來說都是錢的問題。但比起2010年代的其他創業公司,這個問題對他們更難:又不是說創立雲端運算,做個App就能上架應用程式商店。他們想建構非常、非常、非常、非常、非常大的深度學習神經網路,需要“Google級”的算力。
不過有趣的是,他們當時其實還不需要那麼多錢。彼時的AI就是搞幾塊GPU,遠沒到訓練巨型LLM的時代。那時最終的是“雄心”,但眼下他們只需要籌上幾百萬美元。
可當你沒有商業計畫,只是想“解決智能”,誰會給你幾百萬?你得去找些“瘋子”。
於是2010年6月,Demis和Shane設法受邀去加州舊金山的“奇點峰會”(Singularity Summit),因為在倫敦募資根本行不通。
David:沒有這個環境,在那邊肯定不行。
Ben:我想他們也許嘗試過幾個月,意識到那條路走不通。這個峰會由Ray Kurzweil(雷·庫茲韋爾——後來成了Google的首席未來學家)組織,出席的有Eliezer Yudkowsky(埃利澤·尤德科夫斯基)和Peter Thiel(彼得·泰爾)。
Demis和Shane拿到邀請後很興奮,覺得這大概是我們唯一的融資機會。於是他們想方設法,讓Demis能在峰會上台演講。最好是pitch到Peter(彼得·泰爾)說:“能給你路演嗎?”
David:這是典型的“駭客式”打法。
Ben:他們想,“太好了,這就是我們的Hack(駭客式)。演講會成為我們向Peter(彼得·泰爾)和Founders Fund的路演。”那會兒Peter剛創立Founders Fund。你懂的,他是“PayPal黑幫”的成員,財力雄厚。
David:我覺得更準確的說法是:他當時有個很大的Roth IRA(稅後退休帳戶)。
Ben:對,他用Roth IRA投了Facebook,是Facebook的第一位投資人。他是完美的目標。他們把峰會演講的結構打造成,直接面向Peter(彼得·泰爾)的“隱性路演”。Shane(謝恩·萊格)在Parmy Olson關於DeepMind的那本好書《Supremacy》中有段話(我們講述DeepMind這段故事用了很多該書的素材)。
Shane說:“我們需要一個瘋到願意資助AGI公司的投資人。他得有不在乎幾百萬的資源,還得喜歡超級雄心勃勃的東西。”他還得極度逆向,因為他去找的每一位教授都會明確告訴他:“絕對不要考慮資助這個。”這個維恩圖聽起來很像彼得·泰爾。
於是他們到了會場,Demis要上台演講。他走上台,朝台下一看:Peter不在。Peter其實並不怎麼參與這次大會。
David:他很忙嘛。他是聯合創辦人和聯合組織者。
Ben:兩人心想:糟了,機會沒了。怎麼辦?然後運氣來了。他們得知Peter當晚在舊金山家裡辦了個Afterparty。
他們想辦法進了那個派對。Demis去找Peter——Demis極其聰明,聽過他講話的人立刻就能感受到。
他選擇不直接“硬懟式”路演,而是迂迴切入:他跟Peter聊起了國際象棋,因為他知道(大家都知道)彼得·泰爾愛下棋。Demis少年時在U14組曾是世界排名第二,並且深諳棋道。
於是Peter說:“嗯,我喜歡你。你看起來很聰明。你是做什麼的?”Demis解釋,他有一家AGI創業公司,他們就是為此而來,他還在大會上做了演講,大家對此挺興奮。
Peter說:“好吧,明天到Founders Fund來,給我正式路演。”他們就去了,做了路演,效果不錯。
Founders Fund領投了DeepMind約200萬美元的種子輪。對比如今AI公司種子輪,世界已發生了天翻地覆的變化。想像一下,曾經可以用不到200萬美元就能領投DeepMind的種子輪。
通過Peter和Founders Fund,他們又被引薦去見“PayPal黑幫”的另一位——Elon Musk(伊隆·馬斯克)。
事情的開始很平常,Peter:“嘿,Elon,你應該見見這個人。他很聰明,正在思考人工智慧。”Elon說:“好。來SpaceX吧,我帶你參觀。”
於是Demis過來吃了午飯,參觀了工廠。當然,Demis覺得特斯拉的工廠很酷,但他真正想做的是把話題轉到人工智慧上。我來讀一段《衛報》上關於這件事的報導:“馬斯克告訴Demis,他的首要任務是把人類送上火星,作為地球出問題時的備份行星“。
我認為Elon當時對AI並沒有太多的想法。
Demis指出了Elon計畫中的一個漏洞說:“如果能讓地球出現問題的就是AI呢?那去了火星也幫不了你。因為如果AI已經在這兒搞定了我們,它當然也能輕易通過我們的通訊系統之類的‘去’那裡。”他之前沒想過。他沉默了片刻,心想:嗯,大概是真的。不久之後,馬斯克也成了DeepMind的投資人。
希芙:優秀的人如何得到更優秀的人的支援,投其所好僅僅只是一個敲門磚,更關鍵的是你如何在別人關注的思維上提供更多、更好的價值。Demis找投資的方式,完全是開闢了另一個途徑。
David:我覺得太神奇了——喚醒Elon意識到“就算在火星,也未必能免於AI的威脅”的,某種程度上竟然是Demis。
Ben:對。我之前也沒考慮過這點。於是,這是Elon第一次“位元翻轉”的時刻:我們真的需要為人類福祉搞出安全、可控的AI。這顆種子就這樣種在了他腦中。
David:這當然也是DeepMind的抱負:我們以科學家、同行評審的方式,做造福人類的研究。
Ben:對,我覺得這些都成立。並且,在Demis與Elon會面、Elon投資DeepMind後的數月到一年裡,Elon也開始對AI的近期能力,尤其是對特斯拉的AI能力,變得極度興奮且深信不疑。
像Elon世界中的其他一切一樣,一旦“位元翻轉”、他興趣被點燃,他就會完全改變看世界的方式,徹底拋棄既有的思路與行動,變成:我該怎麼做,才能最大限度擁抱這個新世界觀?
David:而且在那時,其他人其實已經在做“用AI來駕駛”的事了。
Ben:是啊。聽起來對特斯拉來說是個不錯的主意。
於是Elon開始儘可能多地招募AI研究者、機器視覺與機器學習專家加入特斯拉。接著AlexNet橫空出世。它在識別和分類圖像方面太厲害了——YouTube上的貓視訊、推薦資訊流裡處處顯威。
那麼,這跟從一輛行駛中的車上採集的視訊流、理解其中正在發生什麼,真的有那麼不同嗎?我們能不能做即時處理,並比較幀與幀之間的差異?
也許控制汽車並沒那麼不同。於是Elon對AI的熱情,開始迅速升溫。與此同時,倫敦這邊,DeepMind也在埋頭苦幹。
他們在招研究員,訓練模型;他們也向投資人發出一些關於產品的模糊訊號:也許我們能在購物上做點事,也許做點遊戲相關的,就像收購時網站上的描述那樣。但他們真正渴望的,還是把模型做出來,研究“智能”。
然而,在2013年末的一天,他們接到了馬克·祖克柏的電話。他想買下這家公司。AlexNet之後,馬克被Google正在發生的一切“拍醒”了——AI在YouTube上對社交資訊流推薦的作用,以及它在Facebook和Instagram上的可能性。
他找來了Yann LeCun(楊立昆,與辛頓一道是AI與深度學習的“教父”級人物),並真正讓“摺積神經網路(CNN)”成為AI領域的下一個熱點。
在LeCun的帶領下,他們建立了FAIR(Facebook AI Research),是Facebook內部與Google Brain相對標的團隊。再想想,Facebook的第一位投資人是誰、且當時仍在董事會?Peter,而他也是DeepMind的領投人。
David:你覺得馬克是從Peter哪兒知道DeepMind的?
Ben:不,我不能確定。但想想看,馬克還能如何知道一家在倫敦的小創業公司?倒是有一個很棒的故事,講的是賴利·佩吉是怎麼知道它的。
馬克打來電話,提出要收購公司。關於價格有各種傳聞,但據Parmy Olson在她的書《Supremacy》裡所言,報價最高到8億美元——一家沒有產品、距離AGI還很遙遠的公司。
這與Cade Metz在書中的說法相符:如果接受Facebook的報價,創始人們賺到的錢會是接受Google報價的兩倍左右。
當然,Demis把這個消息帶回了投資人圈。但順便說一句,這其實與公司成立時的一切初衷相牴觸。公司的整體目標,以及他對團隊的承諾,是DeepMind將保持獨立,做研究,並在學術界發表論文。
他們曾許諾不會被某家資本主義機構的意志俘獲、被其擺佈。所以,若要推進這筆與馬克和Facebook的交易,就必須在條款上有大量博弈。
但,那時的馬克非常渴望。他願意在很多大條款上讓步,比如,允許Yann LeCun留在紐約、在NYU繼續營運他的實驗室,繼續做教授——在一些事情上他很靈活。
可,有一件事上,他並不靈活:如果他買下DeepMind,就不允許Demis繼續掌控DeepMind。
Demis卻認為:我們需要保持獨立、要有獨立的監督委員會,一旦DeepMind不再遵循其使命,該委員會可以介入。
而馬克的態度是:“不,你們要成為Facebook的一部分。”當然,“你們會賺很多錢”。
在這場談判進行的同時,DeepMind的投資人當然也都知道了。Elon得知後,立刻打電話給Demis,說:“我現在就用特斯拉股票把公司買下。”
這是2013年末、2014年初,特斯拉的市值約200億美元。從那時到今天,特斯拉股價大約漲了70倍。
Demis、Shane和Mustafa會想:“哇,眼下的局面真是熱鬧。”但就像你說的,他們對Elon和特斯拉也有與對Mark類似的問題:Elon想讓他們來做特斯拉的自動駕駛;他們並不想做自動駕駛——至少不想只做這個。
意外來客:賴利·佩吉“截胡”DeepMind
Ben: 然後,Demis接到了第三通電話,來自賴利·佩吉的。你想聽聽賴利是怎麼知道這家公司的故事嗎?
David:當然想聽。
Ben:好,這還在DeepMind很早的階段,故事還沒走到收購這一步。有一次,Elon Musk與“PayPal黑幫”的成員、DeepMind的天使投資人Luke Nosek坐同一架私人飛機。
他們正在讀Demis發來的一封郵件,匯報DeepMind取得的一個突破:AI在Atari遊戲“Breakout(打磚塊)”裡,展現了一種巧妙的取勝方法。
它在沒有任何人類策略提示的情況下,發現可以把球從磚塊的邊緣“繞”上去,然後在頂部來回反彈、快速清空上方的磚塊——不需要你在底部那塊擋板上進行大量操作,這樣能更快贏下比賽。
他們共同觀看了這段“太聰明”的視訊,包括與他們同行的賴利·佩吉。當然,那是Elon和賴利的關係還非常好。
賴利問:“等等,你們在看什麼?這家公司叫什麼?”他就是這麼知道的。我敢說Elon對這一切,曾經肯定氣瘋了。
更讓人意想不到的是,賴利與Demis之間的惺惺相惜。我認為,這是促成Google能買下DeepMind的關鍵。兩人一見面,簡直“如膠似漆”。
畢竟,在賴利心中,一直把Google視為一家AI公司。Demis更甚:他對AI執念強到,在抵達AGI之前,他甚至不想讓DeepMind做任何產品。
賴利對DeepMind的一切使命完全認可。而Google還有一件非常“便利”的事:他們已經有Brain了。所以,賴利不需要Demis、Shane、Mustafa和DeepMind來給Google的產品線“打工”。
因為,Brain已經在為產品工作了。Demis也就能相信賴利所說的:“不,你們留在倫敦,繼續研究智能,做你們正在做的事。我不需要你們來給Google的產品工作。”
Brain反而是在主動和各產品組接洽,挨個兒去問:“嘿,怎麼把神經網路用進你的產品,讓它更好?”這就是他們存在的意義。所以他們很高興地同意了,而且這套做法確實行得通。
Brain與神經網路開始整合進搜尋、廣告、Gmail裡,整合進一切。這對DeepMind來說是完美的歸宿——可謂“異地的家”。
還有第三個原因,說明明Google是DeepMind的完美歸屬:基礎設施。Google有你能想到的一切算力,隨取隨用——至少當時在CPU層面上是這樣。
David:那交易究竟是怎麼達成的?
Ben: 在收購DNN Research(辛頓團隊的公司)之後,時任Google工程負責人Alan Eustace下定決心,要儘可能把最頂尖的深度學習研究人才都招進Google,而且他有清晰的路徑。
幾個月前,賴利·佩吉在南太平洋的一個小島上開了一次戰略會。賴利認為深度學習將徹底改變整個行業。所以他對團隊說:“讓我們真的大幹一場吧。”這等於給了Alan一張“空白支票”,去把最好的研究員都拿下。
於是2013年,他決定要在12月份去見DeepMind團隊。這裡還有個有趣的故事:辛頓那會兒在Google,但他腰背出了點問題,不能坐,只能站或者躺,橫跨大洋的長途飛行難度太大。
但是,創業公司調查一定得有辛頓。畢竟,要買一家深度學習的公司,需要辛頓來協作其評估。於是Alan決定包一架私人飛機,並且定製一套奇特的固定裝置,好讓辛頓在起飛與降落時躺在平板上,不會滑來滑去。
他們飛到倫敦,做了盡調,並敲定了交易,成交金額5.5億美元。Demis與賴利的確惺惺相惜,雙方設立了一個獨立監督委員會,以確保DeepMind的使命與目標真正得到遵循。
今天DeepMind是Google持有的一項資產——如果它是獨立的,我認為它值五千億美元。你知道收購後被請進倫理委員會的另一位“PayPal黑幫”是誰嗎?
David:Reid Hoffman(裡德·霍夫曼)。
Ben:就是他——考慮到他後來與OpenAI的牽連,這也很應景。我們稍後還會回到Reid。
收購後,一切進展得又好又快。著名的“資料中心冷卻”就是DeepMind派出團隊,作為“使節”去和Google協作的項目。且,該項目很快就有了結果,2016年7月,Google宣佈資料中心冷卻的能耗降低了40%。
要知道,Google有那麼多資料中心,冷卻能耗直接降了40%。可想而知,這是多大的成本節約。這也論證了神經網路在Google內部最顯而易見的效果,同時,也幾乎把收購的成本價賺了回來。
然後“人機下棋對決”,結局就像“完全的天才之作”。現在,反過來,是人類開始從DeepMind下棋的策略中學習,發現新策略。
為什麼是圍棋?圍棋相較國際象棋要複雜得多。國際象棋在任何一個開局回合大概有20種走法,中局時大概有30到40種選擇。
而圍棋在任何一回合大概有200種選擇。從組合論的角度看,棋盤可能的狀態數比宇宙中的原子數還多。
Demis曾說:即使把全世界的電腦都跑上一百萬年(以2017年的算力計),也不足以窮盡所有可能。
所以它很酷:這是個無法“暴力窮舉”的問題。你必須用類似神經網路的東西。而這片“空白地”足以讓你發揮創造力、深入探索。
於是,它就成了一個絕佳的“孵化場”,讓我們得以“觀看”一個神經網路如何在與人類對弈時展現創造性。
當然,這也完全契合Demis的個人背景和公司的DNA——玩遊戲。你知道Demis是國際象棋冠軍。圍棋之後,他們又打了《星海爭霸》,對吧?
David:哦,真的?我還真不知道。
Ben:對。那是他們下一個攻克的遊戲:《星海爭霸》,一款與對手即時對戰的策略遊戲。我們在講述OpenAI對弈另一個“對手”時呼應到這一點。
那麼,Google收購DeepMind帶來的優勢是什麼呢?
伊隆·馬斯克的“復仇”
Ben: 有一個人對此極其、極其、極其不爽——也許把馬克·祖克柏也算上,就是兩個人,不過馬克更擅長把情緒藏起來。毫無疑問,Elon Musk(伊隆·馬斯克)對這筆收購非常不爽。
當Google“截胡”買下DeepMind時,Elon簡直氣炸。我們說過,Elon與賴利曾經非常親密。如今,Elon已經開始對Google有些“酸了”——他在努力招AI研究員,而你這邊Alan Eustace滿世界飛,把所有AI研究員都“吸進”Google;Elon投資了DeepMind,想把DeepMind帶進特斯拉自己的AI團隊,結果被搶走了。
於是,這引出了一頓足以改變矽谷歷史走向的晚宴:2015年夏天,在Sand Hill Road上的Rosewood酒店。
當然了,在矽谷辦晚宴還能在哪兒?當然是Rosewood。這頓飯由當時矽谷最具號召力的兩人組織:Elon Musk(伊隆·馬斯克)與Sam Altman(山姆·奧爾特曼)。
當時Sam還是Y Combinator的總裁。那麼這頓飯的目的是什麼?他們要向那些被Google(以及在較小程度上被Facebook)“吸走”的AI研究員們推銷;那時,這兩家基本形成了“二元壟斷”的局面。
再說一次,Google與Facebook的商業模式——資訊流推薦器、分類器——被證明現金流“印鈔機”。所以他們可以(現在回頭看這麼說很有趣)給這些人付很多很多錢,很多錢,動輒“百萬美元級”,把他們從學術界挖出來,放進公司內部“賣廣告的資本主義研究實驗室”裡。
於是Elon和Sam向這桌研究者拋出的問題/推銷是:要怎樣,才能讓你離開Google?他們繞桌一圈,幾乎所有人的答案都是:沒可能。你們做不到。我們為什麼要走?
我們拿的錢遠超想像。很多人還能保留學術職位與頭銜,還能在Google彼此切磋,“鐵磨鐵,自然鋒利”。這是世界上最頂尖的一批頭腦,在最前沿做研究,有海量資源與硬體任其使用。太棒了。
並且,還有世界上最好的基礎設施和Jeff Dean,沒有什麼能說服我們離開Google。除了有一個人,被“勾起了興趣”。當時Cade Metz在《連線》上寫了一篇了不起的報導(他後來寫了《Genius Makers》)。其中有這麼一段:
“麻煩在於,最有資格解決這些問題的人已經在Google工作。而,即便有Musk和Altman撐腰,晚宴上的人也不確定這些思想家願不願意跳槽去一家新創公司。但至少有一位關鍵人物對‘跳船’持開放態度。”接下來是那位關鍵人物的引語:“我覺得這裡面有風險,但也覺得這會是一次非常有意思的嘗試。”
這句話簡直是“最伊利亞”的一句話。沒錯,這個人就是Ilya Sutskever(伊利亞·蘇茨凱維爾)——AlexNet與DNN Research的那位,Google出身,即將成為OpenAI的聯合創始人兼首席科學家。
Elon和Sam給這些研究員的“提案”是:讓我們創辦一家新的非營利AI研究實驗室,我們可以把研究全部公開。在不受Facebook和Google的力量影響、獨立於它們的控制之外,自由地發表。
David:對,你不必做“產品”。
Ben:你只做研究,可以發表論文,並且它將是開放的,它將為人類福祉服務。所有這些不可思議的進步、我們相信即將到來的智能,都將造福所有人,而不是只屬於Google和Facebook。
對某位研究員而言,這聽起來好得令人難以置信。所以他們其實本沒打算做這事,因為不認為會有人真的一起做。
這像是一個“動員”的問題:一旦Ilya說,“好,我加入。”而且他說,“順便說一句,Google給了很大的還價,大概是你們的兩倍”,我想是Jeff Dean親自給他遞的,但Ilya說:“不,我就幹這個。”——這對帶動其他頂級研究員跟上,影響巨大。
當然,離開Google加入這件事的遠非所有頂尖研究員,但這已足夠。有大約七位研究員離開Google,加入Elon和Sam,再加上從Stripe(金融科技獨角獸)過來的Greg Brockman,一起創辦了OpenAI。
由於,“提案”就是:我們要“開放地”做這件事。所以,OpenAI的使命宣言是:“以最有可能造福全人類的方式推進數字智能的發展,不受產生財務回報需求的束縛。”這沒問題——只要你為完成使命所需的,不是“數十億美元級”的投入。
那他們怎麼籌資?一開始承諾有10億美元。這筆錢來自Elon Musk、Sam Altman、Reid Hoffman、Jessica Livingston(YC聯合創始人)和Peter Thiel,Founders Fund後來也會向OpenAI主體投下巨額資金。
有趣的是,後來報導說那10億美元並沒有真的全部到位,實際到賬的只有大約1.3億美元,用來資助這個非營利組織。
頭幾年這筆錢足夠他們支副研究員的薪酬和算力需求。雖然不及Google和Facebook,但對這些人來說,一年也有一兩百萬美元吧。
早期,一切都很順利。一直都在招人、招研究員,在2016年初很快又迎來一個大勝:Dario Amodei(達里奧·阿莫代伊)離開Google,加入OpenAI,與Ilya匯合——夢之隊正在組建
接下來幾年,他和Ilya一起營運OpenAI的大部分工作,當然後來他離開創辦了Anthropic。但離Anthropic、Claude、ChatGPT、Gemini以及今天的一切,還有幾年路。
至少在最初的一兩年,OpenAI的計畫基本就是:看看DeepMind在做什麼,向研究共同體證明,作為一間新實驗室,我們也能做他們做的那些不可思議的事,甚至做得更好。
他們開始訓練模型去玩遊戲,最著名的是Dota,大型線上多人競技場(MOBA)遊戲。他們心想:“好,DeepMind你們打《星海爭霸》,那我們就打Dota 2。更複雜、更即時。”
就像圍棋裡的“湧現性質”一樣,模型會想出一些人類少見的獨特戰術。顯然這不是“人類把自己喜歡的策略和規則寫進了程式碼”,而是“湧現”。
他們還做了一個叫Universe的項目,用來訓練電腦去玩上千款遊戲,從Atari到像《俠盜獵車手》這樣的開放世界遊戲,他們還教模型復原魔方。
總之,這是一個多樣化的項目組合,但看起來並沒有“凝聚成一個顯而易見的‘大東西’”。這就是研究,DeepMind在做的也是這類事。
回想一下,Elon是DeepMind的投資人,被Google“截胡”收購很不高興——這就說得通了。我認為在OpenAI成立之初,Elon為這件事“背書”所付出的名聲與時間,功不可沒。很多重量級的人才招聘,都是因為Elon在背後“壓陣”:“我願意押注。”
這就是OpenAI那邊在發生的事:做很多像DeepMind的事,一堆項目,但沒有一個“單一、顯然的大方向”去凝聚。還沒到ChatGPT的時刻。
黃仁勳的“天降”大運與GoogleTPU的崛起
我們回到Google, 他們買了DeepMind,但也被挖走了一些人才。不過別因為有人去了OpenAI就誤解了Google的處境。
回到2013年,當Alex Krizhevsky(亞歷克斯·克里熱夫斯基)與Jeff Hinton、Ilya Sutskever(伊利亞·蘇茨凱維爾)一道加入Google時,他震驚地發現:他們所有現有的機器學習模型都在CPU上跑。
過去大家也提過想要GPU,因為機器學習負載很適合併行,但Google的基礎設施團隊反對:這會增加複雜性,擴充並多樣化“機隊”……咱們保持簡單。
引用《Genius Makers》中的話:他入職頭幾天(這是說Alex),就從本地一家電子商店買了一台帶GPU的機器,塞在他工位外走廊的一個儲物間裡,接上網路,就開始在這台“孤零零的硬體”上訓練他的神經網路——就像他在學術界那樣,只不過這回電費Google買單。
顯然,一塊GPU遠遠不夠,尤其當越來越多的Googler想用它時。而且Jeff Dean與Alan Eustace也得出結論:Dist Belief(Google早期的分佈式深度學習系統)雖然很棒,但必須重構為在GPU上運行,而不是CPU。
於是2014年春天到了。
Jeff Dean與John Giannandrea(約翰·詹南德里亞)坐下來,制定了一個計畫:如何正式把GPU納入Google資料中心的“標準機隊”。這是件大事,是一次重大變更。但他們從神經網路帶來的反響裡看得很清楚——必須這麼做。
AlexNet之後,只是時間問題。於是他們決定向輝達訂購四萬塊GPU,費用預計1.3億美元。
這個金額足以把申請權限一路提到賴利·佩吉那裡。儘管財務部門想砍單,可賴利還是親自批准了,因為他說:Google的未來在深度學習。
希芙:從翻譯Google系列資料來看,賴利·佩吉是一位非常有遠見且果斷的領導。他的好幾次獨特的收購都為Google帶來了深遠的影響。比如,收購Android,就是他親自拍板的,甚至這事連當時GoogleCEO史密斯都不清楚。但Android系統,成為我們這個時代,手機中最不可或缺的軟體作業系統。
順便看看當時的輝達:這是一個極其巨大的訂單。他們的總營收才40億美元。這一個訂單就1.3億美元。
那會兒輝達主要還是一家消費級顯示卡公司,市值一百億美元。幾乎就像Google“悄悄告訴”輝達一個秘密:嘿,這玩意不只是像ImageNet那樣的研究競賽裡奏效;對我們這樣的企業而言,它的價值足以讓我們此刻就毫不猶豫地拍板投下一億多美元。
於是,Google上下徹底“醒來”,把它實實在在地放進了產品裡。Google Photos上線;Gmail開始提供“輸入聯想”的打字建議。
就像先前指出的,Google龐大的AdWords業務也找到越來越多用深度學習賺錢的方式。尤其是當它被整合進去後,他們可以開始預測“使用者將來會點哪些廣告”。
於是,除了那1.3億美元,Google又花了幾億美元買GPU,但很快就靠廣告系統“賺了回來”。
接著,“買儘可能多的GPU”成了一個越來越理所當然的決策。但一旦神經網路開始奏效,任何使用它的人,尤其在Google這種規模上,都會遇到一個問題:
只要有人想用它,我們就需要做海量的矩陣乘法。矩陣乘法基本就是你在神經網路層與層之間做傳播的方式。
於是你會遇到這樣的問題:一方面是效率;另一方面是業務——這看起來像是我們在可預見的未來,每年都會給輝達“運”去數億美元,很快就是數十億美元。
有一個精彩的時刻:Google剛在Nexus手機上推出語音識別(神經網路的最新用例),因為他們還沒有足夠的基礎設施在所有Android手機上部署,但,這功能迅速大受歡迎。
Jeff Dean掰著指頭一算:如果使用者每天用上——我也不知道——三分鐘,我們再推向十億台Android手機,我們就需要把Google所有資料中心的數量翻一倍,才能扛得住。
那段裡還有一句很棒的話:Jeff去找Urs Hölzle(烏爾斯·霍爾茨勒)說,“我們需要再來一個Google(的資料中心)。”
或者,正如你建議的,另一個選項是我們自己造一種新晶片,專為我們的資料定製——矩陣乘法、張量乘法,你可以叫它“張量處理器(Tensor Processing Unit,TPU)”。
巧的是,Google的一位工程師Jonathan Ross當時用他的“20%時間”在做一個涉及FPGA的項目——FPGA本質上是昂貴但可程式設計的晶片,能帶來極佳的效果。
於是,他們決定正式立項,把那項工作與其他一些現有工作結合,做一個定製的ASIC(專用積體電路)。
正如你說的,張量處理器TPU登場了——專為神經網路打造,比當時的GPU效率高得多,代價是它幾乎不能幹別的:不適合圖形處理,也不適合很多其他GPU工作負載,只適合矩陣乘法與神經網路。但它能讓Google的資料中心規模化,而不用把整體機房翻倍。
如果你想知道TPU背後的核心洞見是什麼,那就是“降低計算精度”。比如把4586.8272這樣的數字,四捨五入成4586.8,甚至乾脆就是4586(小數點後啥也沒有)。
這聽上去有點反直覺:為什麼要用“不那麼精確”的數字去做複雜數學?答案是效率。如果你能在軟體架構裡把“重活”做好,或者通過所謂的“量化(quantization)”來適配,那麼你就可以把資訊用“不那麼精確”的格式儲存,用同樣的功耗、同樣的記憶體、同樣數量的晶片電晶體,每秒做更多的計算。
另一件必鬚髮生的事是:它得立刻生效。因為語音轉文字已經成為“殺手級”應用;Google其他一產品的需求量也在瞬間“爆表”。
而我們還沒到LLM呢。僅僅是“照片裡的電腦視覺”也好,“語音識別”也好,大家開始“理所當然”地期待這些功能。所以,TPU從設計、驗證、製造到部署進資料中心,前後只用了15個月。
它不是那種“研究項目,幾年慢慢整”,而是“頭髮著火”般地立刻開干。他們懂得一個非常聰明的舉措是:先用FPGA作為“過渡方案”。儘管單價太高,但他們可以先把它作為“測試機隊”跑起來,確認所有數學都對,再把真正的ASIC交給代工廠流片(也許是台積電),出片上線。
另一件聰明的事是,他們把TPU做成“硬碟的形狀尺寸”,這樣它就能直接插進現有的伺服器機架。你把一個硬碟抽出來,塞一個TPU進去,不需要任何物理層面的重構。
David:哇,太絕了。這是自“軟木板機櫃”以來最“Google味”的基礎設施故事。
Ben:完全是。另外,這一切不是在山景城完成的,而是在Google的一個衛星辦公室——威斯康星州的麥迪遜。
David:為什麼是麥迪遜?
Ben:那裡有一位很特別的教授,學校裡也有很多學生可以招。反正他們畢業大概也就是去Epic(當地大公司)或別處。
還有,他們一直把這事捂著。整個項目至少保密了一整年,直到在Google I/O上宣佈。
還有一點:TPU按時趕上了AlphaGo的比賽。那場比賽跑在Google雲上一台裝了四塊TPU的機器上。這一仗告捷,當然也給了Google更多信心,去大規模量產。
這就是TPU。按各方說法,V1(第一代)並不算好。現在已經是V7或V8了,強太多。TPU與GPU如今看起來也比過去相似許多,彼此採納了不少特性。今天據估計,Google內部有200萬到300萬顆TPU。
做個參照:輝達2024年大約出貨了400萬塊GPU(外界並不確定具體數字)。大家談AI晶片,好像這只是輝達一家的賽馬。
但Google內部有一個接近輝達規模的“自用體系”,在為自家(以及Google雲客戶)造芯——我認為很多人都沒有意識到TPU在AI中的份量之大。
這也是令OpenAI和Elon抓狂的“極具諷刺意味”的一幕:OpenAI在2015年成立,目標是“把人才從Google裡‘震’出來、讓賽道公平”;結果Google反而“起了加速度”。
他們還做了TensorFlow——由Google Brain打造,用來使研究者能夠建構、訓練、部署機器學習模型的框架。他們把它做得非常“可移植”,不僅能在TPU上跑,甚至無需改寫,就能在GPU、乃至CPU上跑。
它取代了舊的Dist Belief系統,成了他們面向內部與外部研究者的通用ML框架。
有點“悖論”地,在OpenAI成立後的這些年,確實有一些了不起的研究員被“抽走”了,但Google Brain在這段時期也“火力全開”:在Google的商業目標上左右開弓,持續交付,同時在眾多方向上把技術前沿往前推進了一大截。
Transformer論文發表:Google 向左,OpenAI 向右
Ben: 到了2017年,Google Brain團隊的八位研究員“悄然”發了一篇論文。這八位顯然對論文非常興奮,也對它的內容、意義與潛在影響高度看好,覺得它會很大。
Google內部的態度是:嗯,挺酷,這應該是我們語言模型工作的“下一迭代”。這對我們很重要。
但,他們有點懷疑這是“下一個Google”嗎?畢竟,他們還有一堆別的東西,似乎更有可能成為“下一個Google”。
然而,這篇論文及其發表,實際上給了OpenAI一個機會——“接住球,一路狂奔”,去打造“下一個Google”。這就是那篇Transformer論文。
那麼Transformer從何而來?Google在語言模型上當時的最新路線是什麼?
自Franz Och在Google Translate上的成功起(大約在2007年前後的2000年代後期),他們不斷迭代翻譯系統。
等到Jeff Hinton加入、AlexNet橫空出世後,他們把翻譯系統切換為“基於神經網路”的語言模型,效果顯著更好。
這還引發了一次巨大的“文化事件”:研究員們再次“空降”,由Jeff Dean帶隊,說:“我很確定我們的神經網路能比過去十年的經典方法好得多。”
“要不我們花幾個月做個驗證?”他們最終把整個舊程式碼庫給扔了,徹底切換到神經網路。《紐約時報雜誌》在2016年寫過非常精彩的報導。我記得我讀的時候都看愣了。
“神經網路是件大事。”而這還是在Transformer論文發佈的前一年。
在Transformer之前,他們把Google Translate重寫成基於循環神經網路(RNN),當時是最先進的,進步很大。但隨著Google Brain與Google Translate團隊持續打磨,問題也浮現:
用今天“Transformer世界”的話說:它們的“上下文窗口”很短。語言模型在處理文字時,需要“記住”已經讀過的一切,這樣當它需要在後文改一個詞、或者預測下一個詞時,它能調出整段文字的記憶來做判斷。
Google改進它的一種方法,是採用“長短期記憶網路”(LSTM)。LSTM的思路是,讓模型有一種“持久/短時的記憶”——你得稍微動動腦子去理解它——以便模型在跨越許多步時仍能保留上下文。
LSTM起初讓人們挺興奮。有人覺得,哦,LSTM將把語言模型、乃至大語言模型帶入主流。
確實,它在2016年被整合進Google Translate,把錯誤率降低了60%。這是巨大的飛躍。
但LSTM的問題是:有效,卻非常吃算力,平行性也不理想。而從AlexNet到TPU,整個趨勢都是“平行化”——這正是我們讓AI真正奏效的路徑。LSTM在這兒成了一個“路障”。
於是,Google Brain裡有個團隊開始尋找更好的架構:既保留LSTM的優點(不容易“忘上下文”),又能更好地平行、更好地擴展,吃滿這些新架構的紅利。
研究員Jakob Uszkoreit(雅各布·烏什科雷特)開始琢磨擴大語言處理中的“注意力”(attention)範圍:與其只盯著“眼前的詞”,不如告訴模型:“請關注整段文字的全部語料,而不只是接下來的幾個詞。”
看完整體,再基於整個上下文——把注意力給到全域——來預測“下一句譯文中的詞應該是什麼”。順便說一句,職業的人類譯者恰恰就是這麼翻譯文字的,不是“逐詞直譯”。我大學上過翻譯課,挺有意思,你要先通讀原文,體會原作的語境,然後再回過頭,在整體語境下開始翻譯。
這會非常耗算力,但極易平行。
於是Jakob開始與Brain團隊的幾位同事合作,大家對它越來越興奮。他們決定把這項新技術叫作“Transformer”。
其一,這是它在做的事:把一整塊資訊輸入、處理、理解,然後“變換”(transform)。其二,他們小時候也很喜歡“變形金剛”(Transformers),名字多少有點“童年濾鏡”。
它把巨大的語料輸入,並以“壓縮格式”儲存。我之所以提這一點,是因為這正是之前在2000/2001年微型茶水間與Noam Shazeer(諾姆·沙齊爾)談話時用的那套說法:壓縮即理解。Noam正是這篇論文的共同作者之一。
說到Noam Shazeer,他知道了這個項目,決定加入——“我在這方面有些經驗,這聽起來挺酷。LSTM問題確實不少,這方向很有戲。我來和大家一起幹。”
David: 這太重要了,因為在Noam加入之前,團隊雖然已經寫出一個可運行的Transformer實現,但它並沒有比LSTM給出更好的結果。
Ben: Noam加入後,幾乎“上演了Jeff Dean式的操作”:把整個程式碼庫從零重寫。寫完後,Transformer就“碾壓”了基於LSTM的Google Translate方案。更重要的是:模型做得越大,效果越好。它的伸縮性看起來好得驚人。
Steven Levy在《連線》寫過一篇回顧這段歷史的文章。文章裡團隊成員留下這樣的評價:“Noam是魔術師”、“Noam是巫師”。Noam把問題拿過去,一回來就說:“它現在好用了。”
現在,你也就明白了,為何今天Noam與Jeff Dean在一起做下一代Gemini。Noam和Jeff,真是“天作之合”。
我們還與Google Brain的聯合創始人Greg Corrado(格雷格·科拉多)聊過一次,很有意思。他著重強調了Transformer的“優雅”。他說它太優雅,以至於人們的第一反應常常是:“這不可能,這太簡單了。Transformer幾乎稱不上神經網路架構。”
David:這確實是對“AlexNet—辛頓譜系”那一脈神經網路的又一次巨大變革。
Ben:對。這甚至改變了我們看世界的方式。Greg指出,在自然界,事物往往以“最節能”的方式運轉——因為它們對資源的利用效率最高。
你可以把這一觀念“移植”到電腦科學裡。他說,他在研究室裡形成了一個“模式識別”:當一個方案“非常簡單、非常高效”時,你八成抓對了方向,而不是那些“複雜的點子”。
我覺得這非常真實。你知道那種場景吧:你對著一個棘手問題,來回爭論、白板推演,列了一堆方案,最後突然“啊哈”:原來答案那麼簡單。而它往往就是對的。
Transformer就有這種“優雅”。這是現代AI的開端——“喂給它更多資料”。
Rich Sutton的名文“The Bitter Lesson”(“苦澀的教訓”)曾寫道:我們AI研究者總覺得自己很聰明,以為我們的工作是再發明一個偉大的演算法;但事實上,在語言、電腦視覺、象棋等各個領域,真正奏效的做法是:先找到一個可伸縮的架構,然後“資料越多,贏面越大”。
也就是“無限伸縮”:更多資料、更多算力、更好結果。而這正是這一刻的開始:我們找到了一個可伸縮的架構;接下來差不多十年,就是“更多資料、更多能耗、更多算力,效果持續提升”。
於是Google團隊,尤其是Noam,說:“喂,這玩意潛力太大了。這不僅是把翻譯做得更好,我們真的可以把它用到很多地方。”
David: 對,這絕不只是更好的Google Translate。
Ben:Google的其他部分,卻慢了半拍才意識到它的潛力。他們在一年內做出了一些東西:比如BERT,一個大語言模型。外界有個“偽敘事”,說Google在論文發表後什麼都沒做。
其實他們做了不少。事實上,BERT就是最早的一批LLM之一。Transformer論文發出後,Google在基於Transformer的大語言模型上做了很多。他們沒有做的,是把它當作一次“平台級的技術範式遷移”。他們做了像BERT,還有另一個叫MUM的模型,把它們“嵌”進搜尋結果質量裡。
他們把它融入核心業務,就像Google Brain每次搞出好東西時做的那樣。於是,也許這是在人類價值上“最偉大”的決策之一,但在公司層面卻可能是Google“最糟糕”的決策之一:Google允許這8位研究員以“Attention Is All You Need”(只需注意力,亦向披頭士那首關於“愛”的經典致意)的標題發表論文。
這篇論文目前是21世紀被引次數排名第七的論文。我想排在它前面的論文,大多更早發表。
當然,在論文發表後的幾年裡,Transformer論文的八位作者無一例外,都離開了Google,要麼去創業,要麼加入AI創業公司,包括OpenAI。
當然還有Noam創辦了Character.AI;最後他通過某種許可、智慧財產權與招聘協議,以“數十億美元等級”的方式又回到了Google。
對Google來說,這是非常、非常昂貴的錯誤。可以說,2017年之後的5年裡,Google沒有充分把握,由Transformer創造出來的機會窗口。
說到“把握機會”,這段時間OpenAI在做什麼呢? (希芙的星空)