近日,很少拋頭露面的Google創始人謝爾蓋·布林在GoogleI/O大會之後,罕見地連續接受了兩次個人專訪。
在接受知名播客Catherine採訪時,布林和主持人談論了那個車庫開發的網際網路時代與 2025 年的人工智慧時刻的比較。深入探討了人工智慧是發現還是發明、網際網路誕生與生成式人工智慧興起之間的巨大差異、建構有朝一日可能超越我們的工具的真實感受,以及像 Gemini 這樣的人工智慧模型會設計自己的繼任者的可能性。
布林將當前的AI熱潮與網際網路的早期進行了對比,認為網際網路雖然輝煌,但並非技術上的革命性突破,更多是一種組織和共享資訊的工具,其發展路徑在早期即可預見。而AI則完全不同,我們甚至不知道智能的上限在那裡,其發展速度和潛力都超出了許多人的預期,甚至可能正在“測試宇宙的極限”。他認為,AI更像是一種“發現”,而非單純的“發明”,因為它揭示了我們對智能未知邊界的認知。
布林認為,在未來10年內,Gemini很有可能在人類的指導下,自我改進並創造出新一代的自身,這一過程甚至有可能在3-4年內實現。
主持人:我很想請您將我們現在所處的 2025 年與網際網路的早期進行比較。我將這個問題設定為:“AI 之於 2025 年,就像網際網路之於那一年?”
謝爾蓋·布林:嗯,好的。網際網路歷史,我想 70 年代有 Arpanet 之類的。但 Web,我個人認為它誕生於 93 年左右 Mosaic 瀏覽器推出的時候,如果我沒記錯的話,然後 Netscape 又過了幾年。我想,在某些方面,你可以進行類比。我不知道,你可以說 2017 年的 Transformer 模型,是我們新型語言模型的最初萌芽。但我認為它在很多方面都非常不同。
首先,網際網路是輝煌的,它促成了許多事情,但它在技術上並非革命性的。 Tim Berners-Lee 在歐洲核子研究中心(CERN)發明全球資訊網時,他們只是在組織和共享科學家的資料和資料。他們做得很好,它作為一個病毒式的組織工具傳播開來,而且非常了不起,別誤會我。但它不像,沒人會質疑這在五年前是否在物理上可能。沒有真正的限制。
在這種情況下,我們真的不知道智能是什麼。我們不知道我們能把它發展到多遠。我認為很多人,包括我自己,都對它發展得如此之快、如此之遠感到驚訝。所以這是一個重要的區別。我們甚至不知道可能的頂峰在那裡。就像網際網路一樣,你可以想像每個人都可以高速與其他人交流。每家公司都會有一個網站,現在它們確實有。但你可以在 1990 年左右真實地想像到這一點。甚至在那之前也有類似的東西,比如 Gopher,我可能在暴露年齡,但 Web 之前也有類似的東西。但是對於人工智慧,你不知道它的頂峰在那裡,或者根本沒有頂峰。
所以這是一個重要的區別。另一個重要的區別是,無論是好是壞,人工智慧現在已經獲得了深刻的國際關注。投入到人工智慧的資源、資金、計算能力和能源是驚人的。你知道,在 Web 的早期,我們是一家初創公司,我們獲得了一筆不到一百萬美元的種子貸款,然後就開始了。我想我們在風險投資輪中獲得了大約 1000 萬美元,就這樣了。現在,公司正在花費數十億數十億美元來建構世界上最好的人工智慧模型。這既是好事也是壞事,但它絕對不同。所以我只是覺得,儘管有相似之處,但我認為我們不知道它會走向何方。
主持人:既然如此,您是否認為人工智慧從根本上更像是一種發現,而不是一項發明?您是否覺得這是宇宙的某種新興特性,我們只是偶然發現它,還是這是人類創造力的終極考驗?
謝爾蓋·布林:嗯,我想你說的這兩種情況都與 Web 不同。我的意思是,是的,我認為它是一種發現,因為我們根本不知道智能的極限是什麼。沒有那條定律規定,你可以比愛因斯坦聰明 100 倍嗎?你可以聰明 10 億倍嗎?你可以比Google聰明數兆倍嗎?沒有,我不知道,我認為我們根本不知道支配這些的定律是什麼。所以,是的,我想你可以稱之為一種發現。也許一個類比是量子計算,你不知道你到底能從宇宙中獲得多少計算能力。量子力學的基本定律表明,這個數字非常高,但你不知道在實踐中是否存在你現在不知道的其他限制。
主持人:是的,是的,是的。這真令人著迷。但您最終認為人工智慧比網際網路更具劃時代的發現或發明嗎?
謝爾蓋·布林:是的,我認為網際網路非常重要,但它更像是一種社會發展,比如每個人都同意使用這些協議,然後讓他們的資料和系統對其他人開放,通過 TCP/IP,然後是 HTML、HTTP,只是通過約定協議,讓它成長和繁榮。嗯,也許類似於幾千年前貨幣的發明,它讓人們真正地進行交易,但它不像,無論是貨幣還是網際網路,都沒有在測試宇宙的極限。
主持人:但人工智慧正在測試?
謝爾蓋·布林:但人工智慧正在測試。是的,因為我們不知道事物能有多智能,我們不知道。我們對大腦瞭解一些,大概有 1000 億個神經元,100 兆個突觸,它們運行得非常快。但你知道,用我們的電腦,我們能模擬它嗎?我們能超越它嗎?能走多遠?那會是什麼樣子?是的,我們只是不知道。
主持人:我覺得,在這種情況下,關於我們如何處理這個問題,我們應該建造什麼,誰應該參與這些問題,既是哲學問題,也是技術或經濟問題。
謝爾蓋·布林:百分之百是。是的。意識是另一個被引入的問題。你知道,網際網路並沒有引發意識問題,但如果這個人工智慧足夠智能和自我意識,那又有什麼關係?那意味著什麼?我不知道。
主持人:您於 1998 年在門洛帕克的車庫裡與拉里·佩奇共同創立了Google,這是眾所周知的事。當時你們只是兩個小夥子,因為看到了機會而試圖創造一些東西。現在,Google是一家市值 2 兆美元的公司,我希望我沒說錯,擁有 18 萬名員工。嗯,也許有增有減,您也瞭解。駕馭人工智慧浪潮,擁有所有這些基礎設施,有很多優勢。但我好奇的是,您是否有一小部分(也許只有 1%)希望自己能回到 20 歲,剛從斯坦福大學畢業,只是車庫裡的兩個小夥子?
謝爾蓋·布林:嗯,這是個好問題。我的意思是,看,我只是感激,作為電腦科學家,能在任何年齡段活在這個時代。我想如果你走到街對面,我不知道,也許你可以說服一些人讓你稍後去做,你會看到所有的人工智慧研究人員都聚集在咖啡機旁等等,每個人都很興奮。我的意思是,這確實是一種非常像初創公司的感覺。它顯然不是一個車庫。不過技術上講,我們開始的時候確實有一個車庫和幾間臥室。
主持人:好的。所以就像是…
謝爾蓋·布林:但我們確實有車庫,但不僅僅是車庫。
主持人:我最擔心的是弄錯歷史細節,所以我很高興現在解決了。
謝爾蓋·布林:不不不,我們講的故事就像一個車庫。我的意思是,但也有另外幾間房間,這很有幫助。這很好。但是,我的意思是,有一種非常強烈的創業精神。我想考慮到目前在前沿競爭所需的計算要求,以及其中涉及的科學量,作為車庫裡的兩個人,很難取得很大的進展,至少在基礎模型方面。很多車庫裡的人可以使用這些模型來創造新的和令人驚奇的東西。我不想否定有人會有一個絕妙的想法,即使只有兩個人也能完成的可能性。但看起來,前沿正在由像我們這樣的大公司推動。我認為我們現在處於前沿,我為我們去年取得的產品進展感到非常自豪。所以,老實說,我非常感激能夠成為其中的一部分。所以我認為我不會選擇那種時光倒流到年輕時的傳送。
主持人:是的。您真正相信的最具科幻色彩的事情是什麼,您認為在未來 10 年內有很大機會成為現實?
謝爾蓋·布林:我認為最令人興奮的事情將是 Gemini 對自身做出一些實質性的貢獻,在機器學習思想方面,它提出想法,也許自己實現,並開發出下一個版本的自己。我們已經大量使用 Gemini,比如一些人工智慧研究員會說:“哦,我需要你為我偵錯這段程式碼。”或者“幫我解決這個數學問題。”或者諸如此類的零星任務。但作為一種真正實質性的、某種新的、重要的突破,由人工智慧本身創造,我認為對我來說那是科幻小說,但我認為它很可能發生。
主持人:如果您要粗略估計一下,您認為 Gemini 何時會創造出下一個版本的 Gemini?
謝爾蓋·布林:我的意思是,就像我說的,它已經在提供幫助了,這已經發生了。但從某種意義上的從零開始的重寫……我不知道,這是個難題。我不知道,我不知道這在某種程度上是不是一個很高的優先順序,因為我們可以在某種程度上指導它。在什麼程度上它是可能的?也許三年,比如說三四年。我不知道它自己創造的版本是否會和它自身一樣好。
但如果你想想我們的新視訊模型 V3,順便說一句,它在演示區讓我感動得流淚,是好的方面,非常好的方面。
主持人:好的,只是確認一下。
謝爾蓋·布林:是的,是的。聲音,有些東西就是。是的,聲音是如此重要,直到有了它我才意識到自己錯過了多少,它都在那裡,它就像一塊巨石擊中了我。
主持人:哦,謝謝。
謝爾蓋·布林:但你知道,理論上,我想我從來沒有嘗試過這個,但首先,你不需要,我不知道我們在使用者介面中是否支援這一點,但你不需要給它一個提示。它會直接生成一個視訊,我們的使用者介面可能不支援不給提示。但是那樣你就會不知道它會做什麼。你可以說“製作一個好的視訊”,我想。那將是模型自己運行,但通常我認為當它由人指導時,你可能會得到很好的結果,我想你就是這樣做的,你給了它一些提示,一些目標。所以我想說的是,如果 Gemini 創造了下一個偉大的 Gemini 版本,我認為在可預見的未來,如果有人在某種高層次上指導它,它可能會做得更好。我的意思是,它有一天可能會完全空白,做所有事情而沒有任何指導。但是,是的,那是科幻等級,我認為我們還沒有達到。
主持人:明白了。所以,在可預見的未來,您確實預見到一個世界,Google員工會幫助人工智慧建構 Gemini 的下一個版本,以及我們將要迎來的未來。
謝爾蓋·布林:是的,是的,沒錯。
主持人:嗯,我很好奇您花了多少時間和精力在人工智慧的這些更深層次、更實質性的哲學問題上,而不是您確信所有的技術問題、實際問題、商業問題。鑑於我們正在發現宇宙某種基本底層能力的同時,也在建構很酷的技術,您的精力有多少投入到所有這些方面?
謝爾蓋·布林:是的,我的意思是,就實際情況而言,可能沒有太多時間花在哲學問題上。只是因為在達到目標的過程中,有太多的技術細節需要解決。是的。你知道,我正在為我們能否註冊 Ultra 和 B3 以及所有那些不太順利的事情而煩惱。我現在正在催促工程師和產品經理解決所有這些小問題。我的意思是,退一步思考當然很好。
一些哲學問題確實是從技術細節中浮現出來的,比如,我們有一個新模型,我們如何評估它?比如說,模型好是什麼意思?我們有某種標準基準和指標,在某個時候,模型在這些基準上會表現得非常好。嗯,每次你需要重新設計時,你確實會從哲學角度退一步思考,試圖弄清楚什麼是重要的。當你擁有新型人工智慧模型時,例如你現在可以玩轉的擴散模型,文字擴散,這並不是一個蘋果對蘋果的比較。所以現在我們正在問,我們如何比較一個不從左到右,而是同時生成整個東西的東西?是的。我們如何衡量它與我們常規的自回歸模型相比?所以很多這些事情都帶來了一些哲學問題。
但是你非常腳踏實地,埋頭苦幹地回答它們。是的。
主持人:嗯,這根植於如此多的實用性。您實際上,它不是關於其他人正在做什麼的理論,而是在實驗室裡真正建構。
謝爾蓋·布林:是的,是的。所以我不知道。也許我能花更多時間在一些哲學問題上會很棒,但是有很多事情正在發生。
主持人:有很多。是的。嗯,我不知道我們還有多少時間,但我確實想確保有機會問一個問題:您希望像我這樣的採訪者更多地問您什麼問題或話題?您希望人們問我什麼問題或話題?哦,天那。嗯,好吧。如何將其表述為一個問題?我想,我想我可以直接回答這個問題,也許會更容易。
謝爾蓋·布林:我想這是一種整體的觀念,人們對比如說新的人工智慧公告做出反應。我們昨天宣佈了一些事情,現在,你可以用這些東西做什麼?有很多很酷的事情你可以用這些東西來做。然後有很多事情你不能做,或者不是完全正確。但我認為有趣的問題是,你將在下一代,一年後,兩年後,能夠用這些東西做什麼?那會帶來各種各樣令人興奮的問題。我的意思是,兩年前的語言模型會犯很多非常尷尬的錯誤。就像“哦,哇,這個東西竟然做得這麼正確,這太酷了!”這與“哦,天那,我竟然可以用它作為工具來做任何事情”非常不同,因為我知道,如果它只有 20% 的時間是正確的,我可以,你知道,用它發一條推特,這很酷。但我不能每天都用它。然而,當你看看這個趨勢時,你可能會在每天都以合理的可靠性使用它。
所以我想,當人們思考他們將把這些工具應用到他們正在嘗試做的任何事情中時,你知道,你正在製作一部電影。VO 很有趣,而且現在有聲音了。你知道,大約一年前你可能會說:“嗯,它沒有聲音,那會很麻煩。”我們已經為角色連續性等做了一些工作,但它仍然,我們實際上有一些正在用它製作的電影,但它可能仍然不適合製作兩小時的電影。當然。
但儘管如此,我認為當你看看這些工具在過去幾年裡取得了多大進展時,你知道,所有這些,視訊模型,不僅僅是我們的,而是所有這些,如果你再預測幾年,你將能夠用它們做很多非常有趣的事情。所以,我能給一些例子嗎?
主持人:嘿,那麼人工智慧視訊只是一台“大腦腐蝕機”嗎?因為我聽到的一個論點是,視訊是迄今為止計算成本最高的。如果你看看這裡所有不同的模態,視訊的計算成本最高。那麼它的實際應用是什麼?YouTube 上的有趣視訊,TikTok 上的“人工智慧腐蝕”。關於為什麼我們要投入如此多的時間和精力去做它,除了它真的很酷之外,有很多爭議或討論。您能分享一些這些視訊模型的其他實際應用嗎?
謝爾蓋·布林:是的,我的意思是,就像我說的那樣,我認為它就像是一個酷炫的玩具和一種有用的工具之間的區別,你知道,時間問題,它會逐漸發生。嗯,我們有一些電影製作人在這裡。我想達倫·阿羅諾夫斯基可能已經發言了,我不知道他是否參加了小組討論什麼的,但他正在製作一個視訊。我的一位親密朋友達斯汀正在製作一個視訊。但你看,一些真正的藝術家正在使用這些工具,但現在還處於早期階段。我的意思是,他們顯然正在處理一些兩年後電影導演會覺得好笑的東西。但他們正在忍受它,以便處於前沿,我認為這些模型將能夠製作出真正引人注目的視訊。它們將能夠與人類導演、人類演員等等協同工作。我認為阿羅諾夫斯基的電影確實結合了真實表演和人工智慧生成,以一種非常酷的方式。
但你知道,今天我們顯然有工業光魔,所有盧卡斯影業,他們做所有的特效。我們已經使用技術來生成電影。這只是這方面的一個新維度,顯然還處於早期階段,也許它的解析度不是最好的,長時間的連續性也不是最好的,但我想你會看到所有這些都會出現。所以我們正在努力推動極限,讓這些東西成為真正的工具,而不僅僅是玩具。
主持人:是的,是的。我總是在我的平台上說的一件事是,無論你今天對它有什麼看法,它都是它最糟糕的樣子。
謝爾蓋·布林:是的,沒錯。完全正確。嗯,好的。我得到了一個訊號,還有一個問題。所以我會代表所有那些對這個時刻感到興奮但不是Google員工,不在前沿實驗室工作的人來問這個問題。您是否會給這些人指明方向,無論他們是否具有軟體工程背景,或者只是一個瞭解這個時刻的深度和重要性並希望參與其中的人?您會給他們指明一個方向,說“從這裡開始”嗎?或者您會說“不要走那條路,不要浪費時間”嗎?
謝爾蓋·布林:嗯,有很多很棒的想法,所以我不會阻止任何人做任何事情,因為你永遠不知道。嗯,我想實際上有越來越多的非常有趣的學術工作,甚至在大實驗室之外。我認為這種情況隨著推理模型的出現而發生,這更多地發生在我們在訓練後稱之為強化學習的步驟中,這對於許多學術機構或小型公司所擁有的計算資源來說更易於管理。而且實際上有很多開放權重模型,包括我們的 Java 模型,你可以用它們來實驗。我想你越來越多地會看到來自頂級模型的一些強化學習 API,這樣你就可以把你的問題傳送給我們,也許帶有正確的解決方案或評分器,你知道,我們可以將你的問題加入到混合中,如果你希望模型擅長那個。所以我認為這種事情正在發生。是的,我實際上認為這是一個很好的時機,能夠在不訓練基礎模型的情況下產生影響。
在接受知名播客洛根採訪時,對話從Google剛開完的I/O大會開始。布林覺得這次大會發佈的東西相當不錯,比如搜尋裡的虛擬試衣功能,連他自己都覺得眼前一亮,市場反響也h很好。不過布林也認為要實現已宣佈的功能,還有大量工作要做。
跳出具體產品,布林也談了談他對AI發展大方向的一些看法。他說,現在看到的AI發展,跟他幾年前理論上推演的“奇點”很不一樣,人工智慧現在的發展道路有些出乎意料:
從技術架構層面,布林提到,其實很多不同的AI模型,它們的底層設計思路比我們想像的要接近得多,那怕是像視訊處理那種看起來差異很大的模型。模型的“培養方式”也在進化。現在,“後訓練階段”(比如微調、強化學習)佔的比重越來越大,在這個階段給模型加入使用工具的技能後能讓它們變得更強大。
聊到推理擴展,特別是“DeepThink”的項目時,布林說,Google的目標是讓模型能花更長時間去琢磨複雜問題——可能幾小時,幾天,甚至幾個月——然後給出更靠譜的答案。難度不亞於之前攻克超長上下文的挑戰。
最後,關於Google的AI戰略和創新步伐,布林認為,公司需要定期進行自我重塑,並且在某些方面,Google一直是一家人工智慧公司,這根植於公司的DNA中。他對當前的進展感覺很好。
主持人: 大家好,感謝你們的加入。我們有一個 I/O 特別節目。謝爾蓋·布林,我們正在談論有關Google的一切。感謝你抽出時間來聊天。
謝爾蓋·布林:謝謝你,洛根。而且,你和我一直在聊天空間和各種產品中,但在現實生活中一起出去玩也很愉快。
主持人: 是的。我在加州的經歷總是非常有趣。我昨天和今天花了很多時間和團隊(Korea)在一起,當你與每個人面對面相處時,你會感受到人工智慧進步的溫暖和人性。所以這真的非常有趣。但是我們坐在 I/O 這裡,我認為全世界的普遍情緒以及內部團隊的情緒,對於 Google 來說都是無比偉大的一天。 我們所有產品的模型都取得了巨大的進步。你的看法是什麼? 你的反應是什麼?顯然,我們還有很多事情要做,但是你的心思在那兒?
謝爾蓋·布林:嗯,是的,我認為這絕對是一系列非凡的發佈。老實說,我可能都不知道其中的30%左右。你知道,時間有限,而且我一直深入研究 Gemini,我甚至都不知道,比如,Google搜尋中的虛擬試穿(virtual fit)產品。我都沒意識到我們發佈了那個。所以有很多事情也讓我感到驚訝,這很棒。我認為反響很好。不過,我認為有很多事情需要一段時間讓人們去探索,去理解。顯然,我們現在正忙於交付所有這些東西,整個過程中都充滿了活力,確保一切都能順利發佈,人們能夠註冊 Ultra,獲得所有這些新功能等等。
主持人:我感覺IO對很多人來說是很多工作的開始。對一些團隊來說是終點線,但對另一些團隊來說又是起跑線。
主持人:顯然我們發佈了更多內容,有很多關於 Gemini 的公告,Gemini Diffusion 我們稍後會詳細討論,還有 DeepThink 在持續推動推理模型的邊界。我經常看到你敦促大家繼續推動前沿。你怎麼看待你的關注點,以及像 DeepMind 團隊在 Veo、Imagen 方面的關注點——我們有一整套生成媒體模型,剛剛宣佈了音樂模型 LIA。與此同時,還有核心的 Gemini 主模型。你目前是更多地參與生成媒體方面的工作,還是主要雷射般地專注於 Gemini?
謝爾蓋·布林:我主要關注 Gemini,即核心文字模型。主要是因為我認為這將幫助我們更好地編碼和開發人工智慧背後的科學,實現自我改進。這是我最關注的重點。同時,生成媒體也非常令人驚嘆,感覺像是超人。
使用文字模型,你知道,有一些數學問題我可能能夠解決但它會出錯,或者在一段程式碼上卡住,雖然這種情況越來越少,實際上我現在依靠 Gemini 來做一些編碼、數學等等。但無論如何,它還是在人類的能力範圍內。鑑於我的藝術天賦,我根本不可能創作出圖像或視訊。我的意思是,如果我是一名專家,比如攝像師、3D 渲染師或特效師,那麼我可以想像這需要做大量的工作。那可能需要整整一個月的工作才能得到我幾分鐘內就能得到的東西。而且,它在視覺上非常引人注目,它會吸引你,你無法逃脫。
主持人:Veo 中的音訊部分讓它感覺……我個人歷史上一直認為生成視訊很棒之類的,但總感覺有點花哨。我想當我昨天在舞台上看到 Veo (V3) 中的音訊時,那一刻讓我覺得,好吧,這實際上很多人都能夠做到。因為實際上從歷史上看,你可以生成視訊,但然後你必須去想,音訊從那裡來?你怎麼同步所有內容?現在你可以讓人類說話和進行對話,而且它做得很好,這真是讓我大吃一驚。
謝爾蓋·布林:是的,你說得對。我一直是它的忠實粉絲。我個人不是一個非常……我想我不是一個非常聽覺型的人,但是這些年來,特別是像Google眼鏡這樣的產品,我的意思是,當我們加入一些聲音時,那簡直……聲音增添了如此多的豐富性。我的意思是,加入音訊比加入例如3D效果更好,儘管一些3D的東西也很酷,如果你玩過那個大型可穿戴裝置的話。但無論如何,是的,當你讓音訊工作時,這只是一個令人難以置信的感知變化。我知道我看到了模型在過去一兩個月裡進行訓練,而且,你知道,我只是從一個檢查點看到另一個檢查點,我知道,哇,這感覺會完全不同。
主持人:是的,看看這些能力的融合會如何發展將會很有趣,因為它看起來確實與主流 Gemini 模型有很多相似之處。顯然我們在 I/O 上為主流 Gemini 模型和 Veo 都實現了原生音訊支援。我今天早上與 Tulsi 進行了交談,討論這些是相似的突破還是不同的。從技術角度來看,這聽起來實際上在技術上非常不同,但很酷的是,我們有其他途徑來進行這項創新,理想情況下,所有這些都以某種方式回溯到 Gemini。
謝爾蓋·布林:是的,老實說,我認為我們花了很長時間才在 Gemini 中發佈原生音訊。它已經在那裡(基礎模型中)存在一年了——基礎模型中包含的音訊已經訓練了至少一年了。我不知道,總是有……老實說,我認為只是有太多的事情要做,太多的東西要發佈,以至於沒有人,出於某種原因,把它推出來。我的意思是,原生的音訊輸入、原生的音訊輸出。我認為原生音訊輸入存在的時間更長。但是要通過所有這些小障礙讓它真正運行良好,我認為需要很長時間。但是,它終於出來了。我不認為這和 Veo 做的方式一樣。我相信 Veo 的音訊也是通過 Diffusion 來實現的,就像視訊一樣。
事實上,如果你在訓練過程中觀察,你實際上可以看到它生成的視訊,比如進行到百分之幾的時候,形狀不太正確,文字也有點扭曲之類的東西。但後來它成形並行展,直到在運行結束時你就得到了你今天所看到的東西。我很確定那是基於 Diffusion 的音訊。Diffusion 是一種非常強大的技術。正如你所知,我們為小規模早期測試發佈了文字 Diffusion。我認為這是我很感激的事情之一,我們擁有一批機器學習研究人員,可以同時在不同的模態下探索不同的基礎技術。
主持人:是的,到目前為止,Gemini Diffusion 的結果看起來非常有希望。我希望模型能夠取得進展,並且一切能夠完全發揮作用,因為演示是有效的。我們在鏡頭外交談,演示看起來真的很棒。所以希望它的能力能夠很好地轉化,並且從這個角度來看一切都能正常運作。但是你之前提到過關於觀看訓練過程的事情,我實際上還沒見過這是什麼樣子的。那麼觀看訓練運行究竟意味著什麼呢?
謝爾蓋·布林:哦,好吧。嗯,也許你已經看到了我們的文字模型,但是,你知道,我們能夠測試中間的檢查點,比如訓練了10%,20%等等。在那些時候模型還比較弱,但你可以大致瞭解它的發展軌跡。所以,你知道,通常情況下,特別是當你有一個大型的訓練任務,你投入了大量的計算資源,並且抱有很高的期望時,你會在整個運行過程中以各種方式多次測試它。所以你會對它有望達到的效果有一個很好的瞭解。文字模型是這樣,Veo 的擴散視訊模型也是這樣。是的,所有這些模型都有這些中間結果,你可以看一看。如果你真的深入其中,你肯定會檢查它們,因為你既緊張又興奮,想知道它到底會產生什麼。
主持人:我當時正在聽 Sundar (GoogleCEO)和Dave Freeberg 的對話,Sundar 評論說,甚至 15 年前,你和 Larry (Google另一位創始人拉里·佩奇)以及他就在談論,就像Google的團隊也在談論這個面向未來的人工智慧時刻會是什麼樣子?這與你們10 或 15 年前談論的內容非常相似。我很好奇,此刻最讓你驚訝的事情是什麼?如果你想看看搜尋或技術,我們可以將其應用於產品,或者看看什麼是令人驚訝的,什麼是幾乎如你所料會發生的?
謝爾蓋·布林:是的。你知道,我認為從智力的角度來看,你可以通過奇點來推理。著名的雷·庫茲韋爾(Ray Kurzweil)就做過這樣的事,但那是幾十年前的事了。我不記得他說的是那一天,是2037 年嗎?我不記得了。他根據自己的推斷確定了一些日期。今天看來也許有點保守,我不知道,但是你可以通過理智來推理它。我認為看到它的發生是完全不同的。我認為當你談論大約15 年前的事情時,我不會說你是在開玩笑。你真的在談論它,但你有點像想像科幻的未來,但它幾乎就像一個遊戲,就像你只是與其他對此感興趣的人聊天。我覺得這很有趣。但是正如我所說的,看到它真正開始發生,感覺非常不同。
當然,事情發生的方式相當令人驚訝。我可以給你舉個例子。語言模型似乎就是人工智慧現在的發展方式。我認為15 年前你不一定知道這一點。事實上,DeepMind在過去,甚至現在在一定程度上,都非常看重這種物理基礎,認為擁有一個物理世界作為基礎是很重要的,而且我們顯然正在做這方面的實驗,比如Genie等等。但這些語言模型已經發展到這個程度的事實並不明顯。而且有一個有趣的副作用,特別是對於思維模型而言,它們也具有令人驚訝的可解釋性。就像你可以看透這些思維模型之一的想法以及它是如何得出結論的。如果沒有大量的工具,你就不可能檢查模型的權重並嘗試從中推斷出一些東西。但是你可以用非常容易理解的術語來理解它的大部分推理過程。
所以我認為這是15 年前你不一定能想到的。這是一個有趣的驚喜,我認為這給人很大的安慰——當然不是無限的安慰,我不是說我們應該忽視它——但從安全的角度來看,這些東西在某種程度上確實表達了它們的想法,我認為這是一個很大的優點。是的,有一些論文討論它們是如何撒謊之類的,但我認為影響相對較小。
主持人:就你目前對模型訓練過程的瞭解而言,當模型從文字輸入、詞元輸出或文字輸出轉變為實際系統時,這個過程看起來有多麼不同或多麼相似?我認為我們實際上已經把它當作了 Gemini 的下一步,比如搜尋是原生的,程式碼執行是原生的,就像模型在過程中學習這些一樣。你是否認為訓練基礎設施或我們對模型的思考方式會發生根本性的變化,因為它們不再僅僅是模型,而是我們為人們建構的完整系統?
謝爾蓋·布林:我認為這是幾件事的匯合。有一點非常引人注目,那就是所有不同模型在架構上是多麼的相似,例如 Veo,你可能會認為視訊擴散與某些文字語言模型非常不同,但從架構上講,它們有大量的共同之處。令人吃驚的是,共享的內容如此之多,其中很多都以 Transformers 為核心,這要感謝 Noam 和團隊,我們擁有它已接近十年了。現在我們正在加入諸如工具使用之類的內容。
這些事情大多發生在我們所謂的後期訓練(post-training)期間。目前,後訓練在整體訓練中所佔的比例越來越大。以前一切都像是99%的預訓練(pre-training),現在有點轉變了,也許是 90% 或80% 等等。這種後訓練,有些人稱之為微調(fine-tuning),但它包括我們所做的強化學習(RL)類型的工作,以前這只是你最後做的一點點塑造。但是現在,它越來越重要(material),而你提到的像工具使用這樣的東西,就是在現在這個大得多的階段中出現的,這讓模型變得更加強大。
主持人:是的,我還有兩個問題,因為我想讓你回到辦公室工作,以便我們能夠繼續取得模型進展。第一個是關於推理能力的擴展,我想我們宣佈並展示了 DeepThink 的結果,它有點像繼續擴大 2.5 Pro 版並讓它推理更長時間並具有某種平行的思維過程。你對此的總體反應是什麼?我們似乎還處於這個擴展範式的早期階段,將會有大量額外的解鎖,但你顯然深入參與其中,所以我很好奇你的想法是什麼?
謝爾蓋·布林:嗯,是的,有趣的是,我們大約有五種不同的方法來做那種事情,它們都彙集到了這個 DeepThink 上。所以,很高興看到所有這些人和這些團隊聚集在一起。你知道,有時我們會分散精力,需要很長時間,但在這種情況下,我們採納了所有這些想法中最好的部分,一次性地結合起來。是的,它確實產生了更強的結果,很明顯。我認為這種情況持續發生得越多,就越像是一種超能力。如果你能擁有這些模型——我知道很多頂級人工智慧實驗室都在談論這個問題——但如果你能讓這些模型,而不是只花一分鐘思考就能得出答案,如果你可以讓它們運行一個小時、一天或一個月,它們實際上能讓你對一個非常重要的問題給出更好的答案,這將是非常有價值的。
這有點新,而且並不簡單。這有點像,我們破解了輸入的長上下文。我們之前就這樣做過,而且我們已經有一年半左右的時間掌握了超過一百萬的上下文。現在,我們需要無限的上下文,所以必須繼續努力。我不是說一百萬就夠了,但這種泛化能力並不簡單。對於一個模型來說,這就像你要經歷《土撥鼠之日》一樣,你只是一遍又一遍地以個人身份體驗同一天。你嘗試這個,嘗試那個,現在突然間你的生活就開始了,事情日復一日、周復一周、月復一月地發生著。這是一種非平凡的(non-trivial)概括。但我們已經知道該怎麼做了。
在輸出方面,這也是不簡單的。如果你所做的只是解決一些簡短的小數學問題,那麼從這個角度來看,這有點像我們面試人時,我們會問他們10 個面試問題或其他問題,然後我們希望他們在幾個月內建立這些大型系統,但不清楚這是否真的是測試一個人的正確方法。但是在人工智慧模型上,我們已經這樣做了一百萬次。就像我們只訓練它們做一些簡短的、聰明的數學問題、編碼之類的。然後從那裡開始的期望是,它們實際上可以花很長時間來開發一些新的東西,這需要花上好幾天的時間去思考。這很不簡單,但這是一個我們正在開始克服的差距,這是一個巨大的飛躍。
主持人:是的,你給出的這個關於我們如何測試和評估模型的例子,一直在提醒我,生活中的很多事情——這個人工智慧時刻教會了我,生活中的很多事情實際上就像一個評估問題。甚至像面試人、試圖建立一個偉大的團隊這樣的挑戰,所有這些事情的核心都是一個評估問題。而我們人類還沒有解決這個問題,所以我並不奇怪我們也沒有解決人工智慧評估問題。做到這一點並不是一件容易的事。
我要問你的最後一個問題是,這就像是對我們所看到的一切以及 I/O 和創新步伐的再次回應。Sundar 在螢幕上展示了一張幻燈片——實際上是 Demis(GoogleDeepMind CEO戴米斯·哈薩比斯)展示的——其中展示了我們在 2024 年發佈的所有產品,以及到目前為止我們在 2025 年發佈的所有產品。而且我很確定 2025 年的部分比 2024 年的部分要大,因此就像發生明顯的加速。至少從我個人角度來說,加入Google感覺我已經在這裡待了差不多一年或一年多一點了。對我來說,加入Google確實感覺像是一次創業經歷,我很好奇你對此的反應。但同時,在看到Google成長和擴張以及過去 20 年發生的一切之後,你對此有何看法?
謝爾蓋·布林:很好的問題。首先,我認為公司需要定期進行自我重塑。有不同的重要技術轉變,我想你知道我們最初是一家網路公司,我們必須讓移動裝置運轉起來;老實說,我們從來都不擅長社交。現在我們處於人工智慧領域,我認為從那裡開始它是令人興奮的,因為在某些方面Google一直是一家人工智慧公司。我們一直致力於大規模資料和分析。我們也是許多現代大型機器學習的誕生地,從Google大腦(Google Brain)到Transformer等等。我的意思是,這是公司的 DNA。 所以,這是我們應該做好充分準備去實現的轉變。
任何轉變對於任何公司來說可能都是困難的。但我對此感覺非常好,而且我認為從 2024年——老實說,我們在很多層面上都還在追趕——到2025年,特別是隨著 Gemini 2.5 Pro的推出,是的,我的意思是,那就像是一個明顯的飛躍。我知道無論在不同的基準上,也許我們在它之前是某個數字的第一名,但2.5 Pro是一個巨大的進步,幾乎是全方位的。甚至到目前為止,它仍然在大多數排行榜上排名第一,無論是否有風格控制,不管你怎麼衡量它。所以這真的是一個非常令人興奮的飛躍。我認為這既是我們背後科學引擎的因果,也是其結果。它將幫助我們前進,也正因為我們過去一年來所做的所有科學研究,我們最終才能夠生產出這個模型。
此後不久,又發生了很多其他事情。我們已經經歷了2.5 Pro 型號的幾次不同迭代。我不知道大家是否注意到昨天我們推出了新的2.5 Flash。你是否注意到,實際上在許多測量中,它都排在2.5 Pro之後,排名第二。因此,憑藉 Gemini 2.5 Flash 模型,我們現在在許多不同的排行榜上都名列前茅。我認為,在所有其他公告中,很多人可能都忽略了這一點。它被埋沒了,但它就像一個超級快速的模型,非常強大。我認為它會對很多用例有吸引力。是的,但確實,有了今年 2.5 Pro 的基石,我認為我們能夠在此基礎上繼續發展並保持這種勢頭,這真的令人興奮。 這將是偉大的一年。
主持人:謝爾蓋,感謝你抽出時間。我感謝你對大家的大力推動。看到這一切真的很有趣。我們為你準備了一份特別的禮物,我很想看到你拆箱,然後有人會在一秒鐘內把它帶給我們。
謝爾蓋·布林:嗯,謝謝你,洛根。在他們拿過來的時候,我只想說謝謝你,洛根。我的意思是,我看到你一直在努力工作,讓你所有的客戶和合作夥伴都滿意,並追蹤可能出現的數百萬個問題。我的意思是這並不那麼容易。你知道,擁有這些如此多的人和企業都想要的模型,並將它們部署出去,確保TPU不會熔燬,處理從函數呼叫到快取等所有數以百萬計的細微差別。我看到你非常擅長把客戶放在第一位,將需求傳達給團隊,真正地掌控一切。
主持人:團隊現在正在努力,謝謝。團隊正在全力以赴。為你準備一份特別的禮物。
謝爾蓋·布林:好的。謝謝。我現在就拆箱嗎?
主持人:是的,是的,你必須立即拆箱。我們必須抓住它……正如這次談話的主線之一,除了Google內部所有使這一切成為可能的人之外,還有我們的……
謝爾蓋·布林:這是我們的TPU V4,順便說一句,在內部我們稱之為 Pufferfish。我可能不……這可能不是什麼太大的秘密。我想 Pufferfish 是 V4,對吧?我從來不知道外部的名稱,我們只叫這些……我的意思是,這些是一兩年前最熱門的東西,我們現在已經進入了新一代。但我們仍然在這上面做很多工作。所以這很棒。
主持人:希望我們能在 MK 為團隊準備很多這樣的東西。這真的很酷。這是一個真的,他們必須將其從某個資料中心取出。它沒有被使用,我們沒有佔用計算資源……
謝爾蓋·布林:真的嗎?我們確實需要TPU。有時一些早期的樣品有點缺陷,也許這就是其中之一。但我很感激。這太好了。
主持人:當然,我給你放大看看。謝謝。
謝爾蓋·布林:謝謝,謝謝。感謝各位收聽,正在收聽的朋友們,這是 Release Notes,感謝收看。 (星獸)