在AI時代,我們所熟悉的公司都有它自身的獨特優勢,比如:輝達:GPU + 開發者平台微軟: 雲端運算OpenAI: 大語言模型但,有那麼一家公司同時擁有這3者:雲 + TPU + 大模型。不僅如此,它還壟斷了網際網路上絕大部分廣告業務。這家公司就是從沉睡中覺醒的“獅子”——Google。在上幾期的分享中(連結在文末),討論了Google崛起的歷史。本期,我們將邁入Google的AI時代,瞭解它的前世今生,探討改變世界的AI技術是如何誕生在Google?以及為什麼它們並沒有最先商業化?(註:本文1.3萬字,閱讀時長約40分鐘)Ben:想像一下你有一家盈利的公司,每條業務線都能產生巨大的利潤,而且你所在的市場也同樣巨大,可以說是全球最大的市場之一。但更幸運的是,你還是這個巨大市場中的壟斷者,市佔率90%,而且使用者鎖定效應很強。David:當你說壟斷,是按照美國政府的定義嗎?Ben:沒錯。但再想像這樣一件事:在你的研究實驗室裡,你那些才華橫溢的科學家搞出了一項發明。這項發明再加上其他天才科學家此前的一大堆發明,組合起來居然能做出一個在大多數用途上都比你現有產品好得多的新產品。於是你應該基於這項新發明推出了新產品。David:對。Ben:尤其是因為出於純粹的“善意”,你的科學家們已經發表論文,介紹這項新發明有多棒,而且此前的很多發明也都發了論文。所以,現在有新的初創競爭者迅速把這項發明商業化了。那麼當然,David,你會把你的整個產品線都改成基於這個新東西,對吧?David:呃,這聽起來像電影。Ben:但問題來了。也許你不應該推出那個新產品。David,這對我來說像是一個相當典型的兩難困境。這說的當然是今天的Google。在也許是最經典的“創新者的窘境”教科書案例中,我們當下身處的整場AI革命,是由2017年GoogleBrain團隊發明Transformer所奠定的。想想OpenAI和ChatGPT、Anthropic、輝達股價創歷史新高,如今所有這些瘋狂的事情都依賴於Google在2017年發表的那一篇研究論文。而且不光如此。十年前,Google擁有全世界最密集的AI人才陣容,促成了這次突破;而今天,他們幾乎擁有你能想像到的最佳資產組合。他們有頂級的大模型Gemini;他們不需要依賴公共雲來託管模型,而是有自己的Google Cloud,如今營收已經達到500億美元,具有真正的規模;他們還是一家晶片公司,擁有自家的TPU(張量處理器),除了輝達GPU之外,全球只有這一套AI晶片在真正大規模部署。也許AMD也算一點,但這兩家肯定是最頂的。有人在採訪裡對我說,如果你沒有一個基礎的前沿大模型,或者沒有一款AI晶片,你可能在AI市場裡就只是大宗商品。而Google是唯一兩者兼備的公司。David:Google目前依然有誇張強悍的人才儲備。Ben:儘管ChatGPT已經有點成了這個時代的“克林克斯”(紙巾代名詞),但Google仍然掌控著那個“文字框”——那個在絕大多數人任何時候只要想在網上搜點什麼都要用到的網際網路大門口。但問題依然是:Google在戰略上該怎麼做?他們是否應該孤注一擲,靠著自己的“嫡長子繼承權”去贏下AI?還是為了保護搜尋帶來的海量利潤而束手束腳,讓AI浪潮從身邊掠過?或許我們首先要回答的問題是:Google是怎麼走到今天這一步的?如果把時間撥回到今天的10年前,在Transformer論文發表之前,以下所有這些人(我們之前也談到過)都是Google員工:Ilya Sutskever,OpenAI的創始首席科學家,他與Geoff Hinton(辛頓)和Alex Krizhevsky在AlexNet上做出了奠基性工作,幾年前剛剛發表。Dario Amodei,Anthropic的創始人;Andrej Karpathy,直到最近都是特斯拉的首席科學家;Andrew Ng;Sebastian Thrun;Nam Shazeer。DeepMind的所有人:Demis Hassabis、Shane Legg、Mustafa Suleyman——Mustafa如今除了曾是DeepMind的創始人外,還在微軟負責AI。基本上,AI領域所有有名有姓的人都在Google工作過,唯一的例外是Yann LeCun(楊立昆),他在Facebook工作。David:是啊,現在很難去追溯一家大的AI實驗室,而不會發現它的起源故事裡有Google。Ben:對,這個類比就像在電腦時代曙光之際,有一家像IBM這樣的公司把所有會寫程式碼的人都雇了。於是如果別人想寫個程序,哦,對不起,做不了。因為,所有會程式設計的人都在IBM。而,2010年代中期的AI領域,Google就是這樣的存在。不過,學會程式設計相對容易;但是,想要成為一名AI研究者就難太多了。這是非常特定的博士項目才能做的事情,導師群體很有限,而且領域內部對研究方向有很多內鬥:什麼是正統、什麼是異端幾乎到了宗教之爭的地步。那麼Google怎麼走到這一步的?這要回到公司創立之初。拉里·佩奇一直把Google看成一家人工智慧公司。事實上,拉里的父親就是電腦科學教授,在密歇根大學拿的博士,研究方向是機器學習和人工智慧,那在當年電腦科學裡並不熱門。David:對。很多人認為專攻AI是在浪費時間,因為三十年前的一些大理論到了那個時期都被證明靠不住,或者至少大家覺得被推翻了。所以拉里父親把一生和事業都押在AI上,是一個相當逆向的決定。Ben:這也影響了拉里。如果你眯著眼看,Google的基石演算法PageRank就是一種統計方法,從電腦科學的分類看,它可以算作AI的一部分。而拉里當然一直有更大的夢想。我們之前在節目裡引用過他2000年的一句話——也就是Google成立兩年後——拉里說,人工智慧將是Google的終極版本。如果我們有一個終極搜尋引擎,它會理解整個網路,它會精準理解你想要什麼,然後給你正確的東西。這顯然就是人工智慧。我們現在離那還差得遠。不過,我們可以逐步接近,而這基本上就是我們在這裡所做的。Google一直就是一家AI公司。那是在2000年。當年晚些時候或2001年初,Google工程師Gor Heric和Ben Gomes(後來領導搜尋)以及一個相對新入職的工程師Gnome Shazir聊天,三個人吃飯時,George隨口說起他讀博時的一個理論:資料壓縮在技術上其實等價於理解資料。Gor是Google前10號員工之一,非常厲害的工程師。就像拉里父親一樣,他在密歇根大學的博士是機器學習。即使在他就讀的時候,這在電腦科學裡還是相當少見而逆向的分支。思路是這樣的:如果你能把某段資訊變小,存起來,然後在之後把它恢復成原始形態,那麼唯一可能做到這件事的方式就是作用於資料的那個“力”真的理解資料的含義。因為你在壓縮時丟失了資訊,然後還能重建回來。就像你在學校,讀了一本很長的教科書,把資訊存進記憶,然後考試時看你是否真的理解了材料。如果你能重建那些概念,那就說明你真正理解了。David:這有點預示了今天的大型語言模型是在把全世界的知識壓縮到若干TB裡,變成一個被壓得扁扁的小向量集合。Ben:相對於全世界的資訊量來說當然“小”。但就是這個思路:你能把世界的資訊存進一個AI模型裡,形式很難理解、幾乎不可解釋;但當你“解壓”時,便可以把知識大致還原。David:是的。Ben:這些模型能體現“理解”,對吧?David:它們真的懂嗎?Ben:這是問題。它們當然在模仿“理解”。David:這段對話正在發生……Ben:你知道的,這已是25年前的事了。新來的那位年輕人Gnome愣住了,說:“哇,如果這是真的,那太深刻了。”David:這是在Google的茶水間裡嗎?Ben:他們在吃午飯。David:你從那看到這個的?Ben:在《In the Plex》裡。Steven Levy寫的那本關於Google的好書,我們講Google系列都頻繁參考它。裡頭有一小段關於這個的描寫,因為這本書在ChatGPT和AI大熱之前出版。所以Gnome就“黏”上了George,圍繞這個想法一直碰撞。接下來幾個月,這兩個人決定用最“Googly”的方式:他們停下手頭一切活,去研究這個點——語言模型、資料壓縮,看看是否能用資料生成機器“理解”,如果能做到,對Google就很有用。我覺得這也恰好趕上了2001年那段時間拉里把工程組織的所有經理都開了,於是大家都在干自己想幹的事。David:有意思。書裡還有一段Gor的名言。Ben:很多人覺得讓我們倆(指Gnome和他)把才華用在這上面是個很糟的主意,但Sanjay Ghemawat——當然就是Jeff Dean出名的編碼搭檔——覺得這很酷。於是George就對任何懷疑者說:Sanjay覺得這是個好主意,而世界上沒人比Sanjay更聰明。所以,為什麼我們要接受你“這是個壞主意”的看法呢?總之,這把Gnome和George帶進了自然語言的機率模型兔子洞。意思是:對於網際網路上出現的任何一個詞序列,另一個特定詞序列跟在後面的機率是多少?今天瞭解LLM的人聽起來應該很熟悉。David:哦,就像下一個詞預測。Ben:或者如果推廣一點,就是下一個token預測。David:對。所以他們用這項工作做的第一件事,就是在Google搜尋裡做“你是不是要找:Did you mean”拼寫糾錯。哦,原來是從這出來的。Ben:對,Gnome做的。David:這對Google太重要了,因為當你把查詢打錯然後不得不再打一遍時,使用者體驗很差。Ben:而且這也會攻擊Google的基礎設施:每次拼錯的查詢發出去,系統都要去處理並返回結果,而這些結果是沒用的,很快就被新查詢覆蓋。這個問題又非常聚焦:比如有80%的機率,使用者打“god groomer”其實是想找“dog groomer”,然後他們會重打。若我們很有信心,就乾脆直接幫他改正,再給他一個退出選項,而不是讓他選擇“啟用”。這是一個很棒的特性,也是這個方向的很好首次用例。於是他們拿下這波勝利,繼續做,最後他們做了一個相當大的——對當時來說的“大”——語言模型,暱稱“Phil”,全稱是“probabilistic hierarchical inferential learner”(機率分層推理學習器)。David:這些AI研究者最愛造首字母縮略詞的諧音梗。Ben:快進到2003年,Susan Wojcicki和Jeff Dean在準備上線AdSense。他們需要一種方法去理解第三方網頁(出版商頁面)的內容,好把Google的廣告語料庫投放上去。Phil就是他們用的工具。我之前完全不知道語言模型參與了這個。於是Jeff Dean把Phil借來,在一周之內就寫出了AdSense。然後,砰——AdSense。這幾乎是一夜之間給Google帶來數十億美元新收入,因為就是同一套廣告語料、同一批AdWords搜尋廣告,現在能投在第三方網站上了。他們一下子把系統裡已有廣告的庫存擴張到巨量。好吧,這時候我們得停一下,來點“Jeff Dean Facts”。整集裡他都是那條貫穿線:Google怎麼做到的?Jeff Dean怎麼就周末回家重寫了一個巨型分佈式系統,順手把Google所有問題都解決了?在“查克·諾裡斯段子”流行的時候,Google內部也流行“Jeff Dean段子”。我最喜歡的一條是:真空中的光速原本大約是每小時35英里,然後Jeff Dean花了一個周末最佳化了物理。所以,語言模型確實有效,確實能為Google帶來巨大價值,並且它們非常漂亮地契合了Google“組織全世界資訊並讓其普遍可及且有用”的使命:如果你能理解世界資訊、把它壓縮,然後再重建,這就對上了。在 2000年代中期,Phil佔用了Google整個資料中心基礎設施的15%,我猜很大一部分是AdSense廣告投放,還有“Did you mean”和公司內部開始用它做的其他東西。好,現在來到2007年——對我們故事來說非常非常重要的一年。Google剛剛發佈了Google Translate。這是Google那些偉大產品密集出現的時代:地圖、Gmail、Docs,隨後還有Chrome和Android。他們有一段長達10年的輝煌期,除了搜尋,基本把你今天熟悉的所有Google產品都在那10年裡發佈了。然後在那之後大約10年(從2013年開始),他們基本沒再發佈你聽說過的新產品,直到我們來到Gemini,這是很有意思的現象。但2003到2013這段時間就是一波接一波的爆款。其中一個就是Google Translate。也許使用者規模或對世界的影響不如Gmail或地圖,但仍是一個神奇的產品。Translate的首席架構師是另一位機器學習博士,名叫Franz O。Franz的背景是NLP和機器學習,他在德國拿的博士。於是Google和Franz把他引入,Franz打造了一個更大的語言模型,在當年的DARPA挑戰賽中橫掃對手(這是2006或2007年)。他拿到了當時天文數字的BLEU分數(BLEU:用於評估機器翻譯質量的演算法標竿),遠超其他一切。Jeff Dean聽說了Franz和翻譯團隊的工作,說太棒了。這個模型裡“gram”是指詞的n元組,在Google搜尋索引的兩兆詞語料上訓練。東西大到翻譯一句話需要12個小時。所以DARPA這次比賽的規則是:周一給你一組句子,你必須在周五之前提交機器翻譯的結果。David:伺服器有大把時間可以跑。Ben:他們想的是:“好,我們從周一到周五有若干小時。用儘可能多的算力翻完這幾句就行了。學會規則並利用它。”於是作為“工程界的查克·諾裡斯”,Jeff說,把程式碼給我看看。Jeff空降到翻譯團隊,和他們一起幹了幾個月。他把演算法重構成平行地處理詞和句子,而不是順序處理。因為當你翻譯一個句子集合或一個句子中的詞時,不一定要按順序來。你可以把問題拆成若幹部分,獨立處理,可以平行化。David:當然你不會得到完美的翻譯。Ben:但是想像你只是逐詞翻譯——至少可以同時把每個詞都翻了,再把句子拼回去,基本能明白原意。而且Jeff太清楚了,因為是他和Sanjay、Zhozha一起搭了Google的基礎設施,那是極度可平行、分佈式的。你可以把負載拆成小塊,扔到Google各個資料中心裡,最後重組,把結果返還給使用者。David:他們是在全世界範圍內把CPU工作負載跨多個資料中心平行化做得最好的公司。Ben:我們還在說CPU哦。Jeff和團隊的工作成果是,把平均單句翻譯時間從12小時降到了100毫秒。然後,他們就把它上線Google Translate。效果很驚人。David:這聽起來像一條“Jeff Dean段子”。Ben:是啊,曾經要12小時,Jeff花了幾個月,現在100毫秒。所以這是第一個在Google產品裡生產級使用的“大”語言模型。他們看到效果這麼好,就想,嗯,也許我們可以把它用於其他事情,比如輸入時的搜尋詞預測;當然也別忘了Google的皇冠明珠:廣告質量分(AdWords的ad quality)其實就是對給定廣告文案的點選率預測。你很容易看出,一個擅長攝取資訊、理解並據此做預測的“大模型”,對計算廣告質量會非常有用——這直接關聯Google的利潤底線。語言模型線這邊很棒。我剛說2007年是個大年。也是在2007年,幾位電腦科學教授在Google園區的“宿命交匯”開始了。2007年4月,拉里·佩奇邀請史丹佛的Sebastian Thrun來Google,先是兼職,隨後全職,做機器學習的應用。Sebastian是史丹佛SAIL(人工智慧實驗室)的負責人。這個傳奇實驗室在上世紀六七十年代AI第一波浪潮中大放異彩——那時拉里的父親也活躍在該領域;實驗室後來曾關閉一段時間,在2000年代初復興,Sebastian成了負責人。有個關於Sebastian的趣事:他怎麼來Google的?他也跟我們聊過,我之前不知道這幾乎是一次“人才併購”。他和一些(好像是)研究生正要創業,拿到了Benchmark和紅杉的term sheet。然後拉里來了,說:“要不我們就用獎金的方式,在公司成立之前就把你們‘收購’了?”對他們來說,這可能是個非常明智的決定。SAIL不僅擁有世界上最厲害的教授和博士AI研究者,還有一條史丹佛本科生“人才流”,在讀本科時就能進去做研究(CS、Symbolic Systems之類專業的學生)。其中一位後來是Meta的首席產品官Chris Cox,他就是這麼入門AI的。當然Facebook/Meta等會也要在故事裡回歸。在Sebastian在任時,還有另一位在SAIL呆過的大一/大二本科生,後來從史丹佛輟學去創業,參加了2005年夏天YC的第一期。時間來到2007年4月,Sebastian從SAIL來到Google。接下來幾個月,他做的第一批事之一是Google Maps的Ground Truth項目,基本上就是重造Google Maps的底層資料。在Ground Truth之前,Maps產品已經存在,但底圖資料要從Tele Atlas買。David:我記得當時有兩家。Ben:是的,雙寡頭。另一家是Navteq(Navtech)。David:這是一套大家都用的、質量不怎麼樣的地圖真源資料。你也很難比別人做得更好,因為大家都用同一套資料。Ben:質量不高還很貴。Tele Atlas和Navteq都是市值數十億美元的公司,我記得可能有一家或兩家都曾經上市,後來被收購,總之營收很高。而Sebastian的第一個大項目就是Street View(街景)。主要用自家街景的照片重建Tele Atlas的資料。他們也引入了其他資料,比如人口普查等,一共用了四十多個資料來源,把它們融合在一起。Ground Truth是一個非常宏大的工程,從零開始做一套新地圖。David:尤其是當你雇了一千名印度員工幫你篩查資料差異,實際上把地圖手動畫出來的時候。Ben:對,那時AI自動化還不多。所以在Ground Truth大獲成功的基礎上,Sebastian開始遊說拉里和謝爾蓋:我們應該多做這種事。比如把AI教授、學者請進Google,兼職也行,不一定要他們全職,讓他們保留學術職位,同時來這裡參與我們的產品項目。他告訴兩位創始人:教授們的工作能被數以億計的使用者使用;我們付他們錢、給他們Google股票、他們還能繼續當教授。如你所料,拉里和謝爾蓋說:“好主意,干,多來點。”於是2007年12月,Sebastian請來了一位來自多倫多大學、當時相對小有名氣的機器學習教授Geoff Hinton(傑佛瑞·辛頓)到Google做技術演講,還不是聘用,只是來給大家講講他們在做的“用神經網路開闢新路”的研究。傑佛瑞·辛頓——如果有人還不熟這個名字——如今被稱為“神經網路之父”,也可以說是現代AI整體方向的“教父”。David:在那個時候,他還是“邊緣學者”。神經網路當時不是AI裡被尊敬的分支。Ben:對,完全不是。部分原因是三四十年前圍繞神經網路有一波炒作,但沒有兌現。於是大家把它當成被“證偽”的東西,至少是冷門。David:你還記得我們輝達那幾期裡我最喜歡的Hinton冷知識嗎?Ben:他曾祖父是George Boole。他是George和Mary Boole的玄孫,Boolean代數和Boolean邏輯的發明者。這就很有意思了,因為那是符號邏輯、確定性電腦科學邏輯的基礎。而神經網路的搞笑之處在於,它不是符號AI,不是那種“我給你具體規則,然後你沿著一棵巨大的if-then樹走”。它是非確定性的,恰恰是那個領域的反面。David:這再次強調了這支機器學習/電腦科學分支在當時有多“異端”。正如你之前說的,神經網路不是新點子,理論上前景巨大,但實踐上算力太不夠,沒法做多層。那時,一個電腦神經網路最多隻能有一層或個位數層。而Geoff和他的前博士後Yann LeCun開始在社區里布道:嘿,如果我們能搞出多層、深層神經網路,也就是“深度學習”,就能兌現承諾。不是思路不對,而是實現需要海量算力,去做層層傳遞時的乘法運算,去檢測、理解、儲存模式。如果我們真的能做到,一個大型多層神經網路會非常有價值,甚至能跑起來。Ben:來到2007年,中後期。摩爾定律讓算力增長到足以開始驗證這些理論。於是Geoff來Google做了這場演講。Google的職員,Sebastian、Jeff Dean和我們提到的其他人都非常興奮,因為他們已經在翻譯和語言模型裡做了類似的事情——雖然不是用Geoff的深度神經網路。這裡出現了一個全新的架構思路:如果能跑起來,會讓他們的模型更好地工作、識別更複雜的模式、把資料理解得更深入。非常有前景。David:當然,這一切當時都還只是“理論上”。Ben:Sebastian在這次演講後,把Geoff Hinton帶進了Google,先是顧問,接下來幾年,這件事更有意思:後來Geoff從技術上講成為了Google“實習生”。這是他們繞過兼職/全職政策的方式。(PS:他主要職業是在大學任教)2011或2012年某個夏天,他在Google當了“實習生”。注意這時他大概60歲了。接下來的幾年裡,Sebastian把機器學習學者引進Google、讓他們保留學術職位的模式進行得非常順利。到2009年末,Sebastian、拉里和謝爾蓋決定:我們干脆在Google內部單獨起一個新部門,於是有了Google X“登月工廠”。Google X的第一個項目由Sebastian親自帶隊。我先不說它的名字,稍後會回到它。但對我們的故事至關重要的,是第二個項目,不僅關乎我們這一集,更關乎全世界——它改變了整個AI世界。這個項目叫Google Brain。當Sebastian離開史丹佛全職加入Google後,當然得有人接手SAIL。接手的是另一位電腦科學教授、才華橫溢的人,Andrew Ng。David:這真是“AI全明星”一集。Ben:對,全是AI大咖。那麼Sebastian做了什麼?他把Andrew招來做兼職,每周在Google園區待一天。這恰好跟X的啟動和Sebastian把這個部門正式化的時間點重合。於是2010或2011年的某一天,Andrew來Google“上一天班”,碰到了誰?Jeff Dean。Jeff向Andrew講他和Franz在語言模型上的工作,和Geoff Hinton在深度學習上的推進。當然,Andrew都知道。Andrew也在講他和SAIL在史丹佛做的研究。然後他們決定:也許時機到了,可以在Google內部來一次真正的大跨步,基於Geoff Hinton講的路線,在Google高度可平行的基礎設施上,建一個巨大的深度神經網路模型。要強調一下,Google之前試過兩次,都沒成功。他們試了一個叫“Brains on Borg”的東西(Borg是Google內部用來跑基礎設施的系統),還試了“Cortex”項目,但都沒起來。所以在Google研究組裡,對“大規模神經網路到底能不能在Google基礎設施上跑”是有些疤痕記憶的。於是Andrew Ng和Jeff Dean把Greg Corrado拉進來,他是神經科學博士,出色的研究員,已在Google工作。資訊流公司搶先一步邁入“AI時代”2011年,他們三人啟動了X裡的第二個正式項目,十分貼切地命名為Google Brain。三人開始動手,搭建一個非常非常大的深度神經網路模型。要做這個,你需要一套能跑它的系統。Google擅長把前沿研究“系統化工程化”,讓它真正在生產環境跑起來。Jeff在做這套基礎設施系統,他決定把它命名為“Dist Belief”,既是“分佈式”的諧音,也暗含“懷疑、不信”。因為幾乎沒人相信它能工作。業內大多數人不信,Google內部大多數人也不信。當時的研究都指出,你需要“同步式”的——也就是在一台機器上以很高的平行度進行計算,就像GPU那樣;最好所有計算都在一個地方發生,這樣你在邁出下一步前很容易查到系統裡其他部分的最新計算值。Jeff寫的Dist Belief恰恰相反:它分佈在一大堆CPU核上,可能跨一個資料中心,甚至不同的資料中心。理論上,這很糟,因為這意味著每台機器都要不停地等其他機器同步參數,才能繼續往下算。但Dist Belief實際上以“非同步”方式工作,不去糾結是否拿到了其他核的最新參數。也就是說你在用“過期的資料”更新參數。照理說這應該不行,但瘋狂的是——它能行。Dist Belief有了,接下來幹啥?做研究試試看能不能用上它。於是他們在2011年底發表一篇論文,標題先報一下:《Building high-level features using large-scale unsupervised learning》(用大規模無監督學習建構高層特徵),但大家都叫它“貓論文”。David:“貓論文”?Ben:你去問Google或AI圈裡任何人,他們都會說“哦,對,貓論文”。他們訓練了一個有9層的大型神經網路,用的是YouTube視訊裡的無標籤幀,目標是識別“貓”,用了1,000台機器上的16,000個CPU核心。之後他們又在TGIF上介紹了“貓論文”的結果。你去問Google的人,他們會說:“那次TGIF,天啊,一切都變了。”它證明了大型神經網路在無監督、無標籤資料的情況下,可以學到有意義的模式。不僅如此,它還能在Google自建的分佈式系統上跑起來。這是巨大的進步。Google有龐大的基礎設施資產。我們能否把研究者提出的這個理論電腦科學思路,借助Dist Belief在我們的系統上跑起來?答案是:能。這項驚人的技術成就,帶來的深遠影響,不僅僅是其商業成就。我覺得不誇張地說,“貓論文”在接下來的十年裡,為Google、Facebook、字節跳動帶來了數千億美元的營收。David:這就是資料裡的識別模式。Ben:當時YouTube有個大問題:使用者會不斷上傳視訊,量巨大,但使用者非常不擅長描述自己視訊裡有什麼。YouTube正試圖變成“目的地網站”,讓大家看更多視訊,打造資訊流,提高停留時長。然而推薦系統要決定“喂什麼”,只能看使用者給視訊寫的標題和描述。無論是你在搜尋視訊,還是平台要挑下一個推薦,它都需要知道視訊裡是什麼。“貓論文”證明了,你可以用這項技術——跑在Dist Belief上的深度神經網路——去深入理解YouTube視訊庫裡的視訊內容,然後再用這些資料決定要給使用者推薦什麼視訊。David:如果你能回答“有貓/無貓”,你也能回答很多更多的問題。Ben:這是Jeff Dean的一段話:“我們建構了一套系統,通過模型和資料的平行化,使我們能訓練非常大的神經網路。我們在隨機選取的1000萬張YouTube幀上做了無監督學習。它會基於嘗試用高層表徵來重構幀,從而建構無監督的表徵。我們讓它在2000台機器、16000個核心上訓練。沒過多久,模型在最高層會形成一種表徵:某個神經元會對貓的圖像興奮。”它從來沒被告知什麼是貓,但它在訓練資料裡看到了足夠多“貓臉正面”的樣本,於是那個神經元會對“貓”觸發,而對其他大多數東西不會觸發。這就是無標籤資料、無監督學習裡最瘋狂的部分——系統在從未被明確告知“什麼是貓”的情況下學會了“貓”,而且還出現了“貓神經元”。於是之後就有“iPhone神經元”“舊金山巨人隊神經元”,以及YouTube用來推薦的一切特徵……David:更別提識別版權、以及幫助版權方的分成了。Ben:對,這引向了YouTube的一切。基本上把YouTube放上了通往今天的道路——成為網際網路上最大的內容平台和地球上最大的媒體公司。“貓論文”開啟了2012年到2022年11月30(ChatGPT發佈)的新紀元:AI已經在塑造我們的生活,並帶來數千億美元的收入。它先是在YouTube的資訊流裡,然後被Facebook借鑑。他們挖來了Yann LeCun,創立了FAIR,再帶到Instagram;接著TikTok和字節跳動拿去做,後來又通過Reels和Shorts“回流”到Facebook和YouTube。David:這是我最喜歡的“David Rosenthal主義”。Ben:公眾喜歡把2022年以後叫“AI時代”。事實上,對任何能好好利用推薦和分類系統的公司而言,“AI時代”是從2012年開始的。David:的確,AI時代始於2012年,其中一部分就是“貓論文”。Google買下辛頓的DNN Research 公司Ben:另一部分是黃仁勳在輝達口中的AI“宇宙大霹靂時刻”——AlexNet。我們之前說到Geoff Hinton在多倫多大學。在這段時間他有兩個研究生:Alex Krizhevsky和Ilya Sutskever(後來是OpenAI的聯合創始人兼首席科學家)。三人計畫用Geoff的深度神經網路思路和演算法,去參加電腦視覺領域著名的ImageNet競賽。這是史丹佛的Fei-Fei Li(李飛飛)主導的年度機器視覺演算法競賽。它的競賽規則是:李飛飛收集了一個1400萬張圖片的資料庫,已經有人對這些圖片全部打好了標籤。那個團隊,在不看標籤的前提下,能寫出演算法,僅憑圖片,識別的正確最多(精準率最高)。2012年的比賽結果是,AlexNet橫空出世。它的錯誤率是15%。儘管還是偏高,但從此前25%錯誤率到15%,一年之內下降10個百分點,這在此之前從未發生過。David:比第二名好40%。Ben: Geoff、Alex和Ilya知道,深度神經網路很有潛力,摩爾定律讓你能用CPU堆出幾層。他們有個靈感:如果我們不在CPU上跑,而是改用另一類天生高度平行的計算晶片呢?那就是當時領先公司輝達做的——用於電子遊戲的圖形顯示卡。對當時而言並不顯而易見,尤其是把最前沿的學術電腦科學研究(通常跑在超級電腦上、依賴強大的CPU)搬到這些零售價1000美元的“玩具”顯示卡上——當時還更便宜,只要幾百美元。多倫多團隊跑到本地Best Buy之類的店,買了兩塊輝達頂級遊戲卡GeForce GTX 580。團隊把他們的神經網路演算法用CUDA(輝達的程式語言)重寫,靠這兩塊零售GTX 580訓練出了他們的深度神經網路,在ImageNet比賽裡把第二名甩開40%。所以當黃仁勳說那是AI的“宇宙大霹靂時刻”,他是對的。它向所有人展示:天啊,如果兩塊零售GTX 580就能做到這樣,想像一下更多顯示卡,或者專用晶片能做到什麼。並且,這件事把輝達從一家有些掙扎的PC遊戲配件廠商帶上了AI浪潮的道路,成為今天全球最有價值的公司。這也展示了AI研究的常見模式:某個突破帶來一個大台階躍遷,然後是多年最佳化的過程,收益逐漸遞減:前半截進步一瞬間發生,後半截要花很多年打磨。當你有一個想法,做出來,然後意識到:“天那,我剛剛找到了推動這個領域的下一個大飛躍”,那一定既罕見又酷斃了。David:就像解鎖了下一關。Ben:AlexNet之後,整個電腦科學界都沸騰了。這時人們也開始不再懷疑神經網路。多倫多的三個人——Geoff Hinton、Alex Krizhevsky和Ilya Sutskever——做了很自然的一件事:他們成立了一家公司,叫DNN Research(深度神經網路研究)。這是一家只有AI研究員,沒有產品的公司。如你所料,它幾乎立刻被Google收購了。這裡有件很瘋狂的事,第一個出價其實來自BU公司,出價1200萬美元。Geoff Hinton並不清楚該怎麼給公司估值,也不確定這是否公平。於是他做了任何一位學者會做的事來確定公司的市場價值:他說“非常感謝,我現在要搞一個拍賣”,而且是高度結構化的:每次有人出價,計時器重設,再給其他人一小時出新價。並且,他還諮詢了所有在大公司作研究的學者朋友,問他們: “嘿,我們在那兒繼續做研究會更好?”當時,競價的公司包括BU、Google、微軟,還有另一家…David:Facebook?Ben:哦,等等,不包括Facebook。想想年份,這是2012年。Facebook還沒真正入局AI,他們還在籌建自己的AI實驗室。因為Yann LeCun和FAIR是2013年才開始的。David:OpenAI還要過好幾年才成立。那家公司略早於OpenAI,做幾乎同樣的使命?Ben:就藏在眼皮底下——DeepMind。他們是DNN Research四方競購裡的第四家。當然,競價一開始,DeepMind就不得不退出——他們是初創公司,沒錢買。David:我壓根沒想到會有DeepMind,我第一個問題就是:他們從那弄錢?他們沒錢。Ben:不過Geoff已經認識並尊敬Demis了,儘管他當時“只是在做一家叫DeepMind的初創公司”。David:等等,DeepMind都在競拍裡,Facebook卻不在?Ben:競拍和當年的一個大會同時進行,當時叫NIPS(現在叫NeurIPS)。Geoff在太浩湖的Harrah’s賭場酒店房間裡主持了這場拍賣。我們得感謝Cade Metz,他寫的《Genius Makers》(AI簡史)這本書,我們這集會頻繁引用。出價一路抬升,微軟一度退出,又回來。DeepMind退出。最後剩BU和Google死磕。最後某一刻,三位研究者互相看了看,說:我們真正想去那兒?我們想去Google。於是他們把競價停在4400萬美元,說:“Google,這足夠多了,我們選你們。”David:我知道大概是4000萬,但我不知道整個故事。這簡直像Google自己在IPO裡搞的“荷蘭式拍賣”一樣,對吧?太貼合Google的DNA了。Ben:是的,特別貼合。還有個細節:三個人本該各拿三分之一。但Alex和Ilya去找Geoff說:“我覺得你該多拿一些,你40%,我們各30%。”最後就這麼定了。這讓三人直接加入Google Brain,給那裡的所有工作加上了加速器。劇透一下,幾年後,接替Sebastian管理Google X的Astro Teller,在紐約時報的一篇Google X人物特寫裡說:Google Brain給Google核心業務——搜尋、廣告、YouTube——帶來的收益,遠遠超過他們在Google X及公司其他地方做過的所有“登月”投資。但Google的AI歷史不止於此。還有一塊非常重要的拼圖來自公司外的收購。就像YouTube之於Google的意義在AI領域的對應物。我們剛才提到過的——DeepMind。 (希芙的星空)