專訪GoogleCEO皮查伊：Gemini只是起步，微調還能讓它更強

2023/12/07

•

美國當地時間週三，Google發布了其最新一代的人工智慧模型Gemini。這個新模型體現了Google執行長桑達爾·皮查伊（Sundar Pichai）多年努力的成果。

皮查伊此前曾負責Google的Chrome和安卓業務，向來以痴迷產品而聞名。早在2016年，他就開始為Google的人工智慧發展定下了基調。在他擔任執行長的首份創辦人信中，他預測：「我們將從行動優先的世界轉向人工智慧優先的世界。」從那時起，皮查伊開始逐步推動谷歌所有產品的人工智慧化，從安卓設備到雲端運算，無一不包。

然而，儘管Google在人工智慧領域有著深厚的基礎，但其風頭近來逐漸被OpenAI蓋過。OpenAI去年推出的DALL-E和GPT-3.5，以及今年的GPT-4，無疑在人工智慧產業掀起了龐大的波瀾，引發了新創公司和科技巨頭之間的激烈競爭。

Gemini的誕生，無疑地讓Google在這場競爭中重新獲得了強大地位。該系統由GoogleDeepMind推出，這是由德米斯·哈薩比斯（Demis Hassabis）領導的新整合部門。現在，用戶可以在Google的聊天機器人Bard中體驗到Gemini的功能，Google預計將在2024年將其全面整合到自家產品線中。

在Gemini發布前夕，《麻省理工學院技術評論》雜誌在谷歌位於加州山景城的辦公室採訪到了皮查伊，與他討論了Gemini對谷歌、其產品、人工智慧以及整個社會的深遠影響。

以下為專訪全文：

Q：Gemini為何如此引人注目？能否分享一下你對人工智慧的整體看法？它的潛力、應用以及其在Google所有產品中的發展前景？

皮查伊：Gemini之所以令人矚目，其中一個重要原因是它從根本上就是一個多模態模型。就像人一樣，它不僅從文字中學習，還能透過視訊、音訊和程式碼進行學習。因此，這個模型天生就具備了更強大的能力，我相信這將推動我們開發更多新功能，並推動該領域的進步。這確實令人振奮。

另一個令人興奮的原因在於，在32個主要基準測試中，Gemini在30個中都是最佳表現，尤其是在多模態基準測試中。在MMLU（大規模多任務語言理解）測驗中，它更是取得了巨大的進步。我個人認為，作為領先基準之一的MMLU，Gemini跨越了90%的門檻，這是一個意義重大的里程碑。回想兩年前，當時的水平只有30%，然後是40%。這充分展示了該領域所取得的巨大進步。在57項測試中，Gemini的表現有89%與人類專家相當。這是第一個達到這標準的模型。

我自己也感到很激動，因為Gemini終於要應用在我們的產品上了。它將向開發者開放。人工智慧是一個深刻的平台變革，比網路或行動變革還要深遠。因此，這對我們來說代表著邁出了重要的一步。

Q：讓我們來談談這些基準測試。雖然Gemini似乎在幾乎所有測試中都領先GPT-4，但領先優勢並不明顯。而GPT-4本身就是一個巨大的飛躍。我們是否開始觸及這些大語言模型技術的極限，或者你認為仍然存在巨大的提升空間？

皮查伊：首先，展望未來，我們確實看到了巨大的提升空間。有些基準已經很高了。但我們必須意識到，當你試圖從85%開始突破時，你已經處於曲線的末端。雖然看起來進展不大，但確實意味著我們仍在取得進展。我們還需要開發新的基準測試，這也是我們研究MMLU多模態基準的部分原因。對於其中一些新的基準，目前的技術水準仍然很低，未來還有很大的提升空間。比例定律仍然有效：隨著模型的擴大，我們會看到更多的進展。從整體來看，我真的覺得我們才剛開始探索人工智慧的潛力。

Q：在你看來，Gemini的關鍵創新是什麼？這些創新將如何實際應用？

皮查伊：人們可能很難想像即將到來的種種突破。我們正在提供應用程式開發介面（API），使人們能夠以前所未有的方式體驗它。我相信多模態基準將取得巨大的進展。隨著我們教會這些模型進行更多的推理，將會出現越來越大的突破，而且更深遠的突破還在後頭。

以Gemini Pro為例，它在基準測試中的表現非常好。但當我們將其整合到Bard中時，我可以親身感受到它的優勢。我們一直在對它進行測試，所有類別任務的好評率都有顯著的提升。因此，我們將其稱為迄今為止最大的升級之一。當我們進行平行評估時，它的表現確實令人印象深刻。因此，這些更好的模型在基準上不斷改進，並取得了顯著的進展。我們將繼續訓練和學習。

然而，我迫不及待地想將Gemini應用於我們的產品中。這些模型具有強大的能力。在接下來的幾個月裡，設計出能夠充分利用這些模型優勢的產品體驗將是令人興奮的挑戰。

Q：雖然Gemini在各方面都略微領先GPT-4，但你認為從GPT-4的發布中學到了什麼？在這段時間裡，有哪些方法改變了？

皮查伊：至少在我看來，這並不是零和遊戲。想想看，向人工智慧的轉變是多麼深刻，我們還處於早期階段，前方充滿了無限的機會。

關於你的具體問題，這是我們都在快速進步的領域。我們發表了很多文章，研究像GPT-4這樣的模型在現實世界中是如何運作的。我們從中學到了很多經驗教訓。安全是一個重要的領域。因此，在Gemini計畫中，我們已經學習並改進了一些安全技術，這些技術是基於模型在現實世界中的運作方式而改進的。它顯示了微調等各種技術的重要性。我們在Med-PaLM 2中展示的一個例子是，採用像PaLM這樣的模型，並對其進行微調以適應特定的領域，結果表明它可以勝過最先進的模型。這就是我們學習到微調的方式之一。

當我們研發Gemini時，許多這樣的經驗都被應用到了其中。我們花費更多時間研發Gemini Ultra（更先進的Gemini將於明年推出）的部分原因是為了確保我們對其進行了嚴格的安全測試。同時，我們也在對其進行微調，以充分發揮其潛能。

Q：當這些模型在現實世界中應用時，有時會出現產生幻覺或洩漏訓練資料中私人資訊的情況。考慮到模型所使用的數據，如果這是不可避免的，那麼這在技術中有多少是固有的？如果無法避免，你們會採取哪些措施來限制這種情況的發生？

皮查伊：你提出的問題非常關鍵。事實上，我們最近發表了一篇論文，揭示了這些模型如何透過一系列提示洩漏訓練資料。雖然目前還沒有解決幻覺問題的方案，但我認為我們都在朝著這個方向努力，只是還需要做更多的工作。我們需要克服一些基本的限制。舉個例子，如果我們使用Gemini Ultra，我們正在積極與外部第三方合作，他們是這些領域的專家。

在多模態等方面，我們希望能夠更大膽、更負責任。在推出多模態模型時，我們會更加謹慎，因為錯誤用例的可能性更高。但是，你指出的問題仍然是開發中科技所面臨的挑戰，它們並不適用於所有情況。在搜尋中，我們會更仔細地考慮如何使用它、何時使用、在哪裡使用以及何時觸發。這些模型具有驚人的能力，但也存在明顯的缺陷。這是我們所有人都需要解決的艱鉅挑戰。

然而，未來的人工智慧系統可能與我們今天所擁有的系統截然不同，就像有人曾經認為電腦無法裝進口袋一樣。同樣地，對於這些系統，如果有人說無法設計出更好的系統，我並不同意這種觀點。目前正在進行許多研究探索，思考如何解決這些問題。

Q：你認為人工智慧將帶來深刻的改變。然而，在最近的一些轉變中，例如向行動裝置的轉變，生產率的提高並不一定是必然的，甚至在很長一段時間內都保持不變。有觀點認為，這甚至可能加劇了收入不平等。谷歌正在進行哪些工作來確保這種轉變對社會更有益？

皮查伊：這是一個非常重要的問題。我從幾個角度思考這個問題。在谷歌，我們一直關注的一件事是：如何讓科技盡可能廣泛地使用？即使在行動領域，我們利用安卓作業系統做了很多工作，但仍有數億人無法使用手機。我們正在努力推出一款價格合理的智慧型手機，價格可能低於50美元。因此，讓人工智慧對每個人都有所幫助是我考慮的重點之一。我們嘗試讓盡可能多的人接觸這些技術。

同時，我們正在深入思考如何將人工智慧應用於對人們有益的用例中。以洪水預報為例，我們早期投入該領域的原因是我們意識到可以探測到模式並做得很好。我們也將人工智慧用於翻譯1000種語言。我們現在確實在嘗試用不同的語言提供內容，否則你將無法存取這些內容。

這並不能解決你提到的所有問題。但我們要慎重考慮何時何地專注於解決什麼樣的問題。以AlphaFold等領域為例，我們為世界各地的病毒提供了一個開放的資料庫。但是，誰會先使用它呢？人工智慧不會神奇地讓某些更困難的問題變得更好，例如不平等問題或它可能會加劇這種情況？

重要的是確保每個人都能使用科技。在早期開發階段就讓人們接觸到技術並參與對話中，這樣社會就可以幫助測試技術並適應它。在這方面我們肯定比其他公司更早參與其中。最近我們參加了英國人工智慧安全論壇，並與美國國會和政府合作，我們正在嘗試建立更多的公私合作夥伴關係，以更早吸引非營利組織和學術機構參與。至於對就業等領域的影響，還需要深入研究，但我確實認為會帶來驚喜。

我可以舉很多例子來說明手機帶來的好處，我認為人工智慧技術也是如此。我們已經在糖尿病視網膜病變等領域展示了這一點，畢竟世界上許多地方沒有足夠的醫生來檢測這種疾病。就像我覺得讓世界各地的人們都能使用谷歌搜尋一樣，我認為這是擴大人工智慧使用範圍的一種方式。

Q：有些技術，如編程，明顯提高了效率，但其普及也對就業市場構成了威脅。你如何看待這個問題？

皮查伊：科技的確在推動效率提升，但我們也不能忽視它對就業的潛在影響。然而，問題的答案並非非黑即白。以臉部辨識技術為例，儘管我們公司沒有提供相關的API，但其他公司已經開發了這樣的技術。技術發展的腳步並不會因為某一家公司的決策而停止。這是一個比單一公司決策更為複雜的社會議題。如果我們不採用這些新技術，可能會影響我們的經濟競爭力，甚至可能導致更多的工作流失。

我認為，我們應該以負責任的態度來部署這些技術，同時思考如何減輕其可能帶來的負面影響。新的工作類型將會隨著科技的發展而出現，人們將有機會從重複性的工作中解脫出來，有更多的時間和空間去進行深入思考和創造性表達。當然，這也會使得某些工作變得不再必要。作為一個社會，我們需要思考如何對這些受到影響的人進行再培訓，以幫助他們找到新的工作機會。

Q：對於人工智慧的發展，人們的看法出現了分歧。有的人支持安全第一，有的人則認為商業用例應該優先。有人支持加速開發，也有人擔心出現世界末日。你如何看待這種分歧？

皮查伊：我是個科技樂觀主義者，我相信人類可以利用科技來造福社會。人工智慧確實具有兩面性，但我們不能因為恐懼而停止前進的腳步。我們需要大膽地向前邁進，同時也需要社會制定出相應的框架來應對可能出現的問題，例如深度造假、工作被取代等。這將是我們未來十年需要努力解決的最大問題之一。

Q：圍繞人工智慧的法律法規也是一個懸而未決的問題。例如，有關於合理使用、版權保護等問題。對於知識產權來說，這似乎將是一件大事。你如何確保那些使用你產品的人有種安全感，不必擔心為自己所做的事情而被起訴？

皮查伊：並不是所有的問題都有簡單的答案。在人工智慧之前，我們在開發搜尋、YouTube等產品時，就一直在努力實現正確的價值交換。人工智慧也是如此。我們將專注於確保我們的訓練資料符合法律規定，同時讓人們有機會選擇退出。還有一個層面是關於什麼是合理使用。為原創內容的創造者創造價值是很重要的。

隨著時間的推移，會有新的法律框架出現。我們將努力遵守法律，並與內容提供者保持良好的關係。這是一個充滿爭議的領域，但我們正在努力尋找解決方案。我們必須創造一個雙贏的生態系統，讓所有這些元素都能長期共存並發揮作用。

Q：如今，許多人對網路未來的擔憂集中在搜尋領域。當有一種技術能夠根據網路資訊為你提供答案時，有人擔心人們可能不再需要訪問這些網站了。這對谷歌會有影響嗎？你是否在考慮自己的業務？

皮查伊：在搜尋領域，Google的獨特價值在於幫助用戶發現和學習新事物，並找到答案，同時始終專注於分享網路上豐富多樣的觀點。這也是我們產品開發的重要原則之一。我們相信人們在搜尋時並不僅僅想要一個簡單的答案，而是希望透過探索和學習，深入了解更多資訊。因此，我們一直致力於提供高品質的搜尋結果，並確保我們所做的事情是正確的。在這個過程中，保持平衡至關重要。

當然，我們也需要考慮商業價值。從桌上型電腦到行動設備，我們一直在面對類似的問題。但是，透過深入了解用戶需求和對高品質廣告的反應，我們對未來充滿信心。以YouTube為例，我們已經推出了訂閱模式，並且取得了很好的效果。

Q：隨著這些產品逐漸進入市場並開始與使用者互動，你認為明年人們的體驗會發生怎樣的變化？

皮查伊：我認為，從現在開始的一年裡，使用Google Docs的人將會期待一些不同的體驗。如果我們為他們提供了全新的功能，然後再讓他們回到2022年版本的Google Docs，他們會發現舊版已經過時了。這就像我的孩子一樣，如果他們使用的Google Docs沒有拼字檢查功能，他們就會認為出了問題。同時，與其他公司相比，我們在搜尋中融入了更多的人工智慧技術，使得自動功能成為許多產品中理所當然的存在。這也是我們多年來學到的一個重要經驗：讓使用者相信這些功能的存在是理所當然的。

隨著我們開發多模態能力，人們將能夠以以前無法做到的方式完成更複雜的任務。這將帶來真正的用例和更強大的功能。總的來說，我們將繼續努力改進我們的產品和服務，以滿足用戶的需求和期望。（騰訊科技）

科技