祖克柏最新訪談:Meta最強開源模型Llama 3憑什麼值百億美金

Meta祖克柏最新訪談:自研晶片將訓練大模型,AI終將能夠理解並表達情感

騰訊科技訊4月19日消息,根據國外媒體報道,美國當地時間週四,Facebook母公司Meta重磅推出了其迄今最強大的開源人工智慧(AI)模型——Llama 3,意圖在激烈的產業競爭中追趕領先者OpenAI。此次發表的Llama 3模型,包括80億和700億參數的兩個版本,而未來也將推出超過4000億參數的頂配版,凸顯了Meta在AI領域的雄心壯志。

據悉,Llama 3在多項行業基準測試中表現出卓越的性能,並新增了諸多功能,如改進的推理能力等。 Meta計劃將Llama 3深度整合到其虛擬助理Meta AI中,這款助理已廣泛應用於Facebook、Instagram、WhatsApp和Messenger等熱門應用,並即將迎來新一輪的更新,為用戶帶來更加智能、便捷的體驗。

此外,Meta也宣布Llama 3將很快在亞馬遜AWS、Google雲端、IBM的雲端平台WatsonX、微軟雲端Azure和英偉達的NIM等平台上推出,並得到了AMD、戴爾、英特爾、英偉達等硬體巨頭的支持。這一系列的合作與整合,無疑將進一步加速Llama 3在全球的普及與應用。

在Meta發布Llama 3的重要時刻,該公司執行長馬克·祖克柏(Mark Zuckerberg)接受了知名科技播客主持人達瓦克什·帕特爾(Dwarkesh Patel)的專訪。他們圍繞著Llama 3、通用人工智慧(AGI)、能源瓶頸問題、人工智慧技術的戰略意義、開源的潛在風險、元宇宙(Metaverse)等主題展開了深入的探討。同時,祖克柏也分享了開源100億美元模型和客製化晶片原始碼的決策過程。

以下為此專訪實錄:




Llama 3頂配版正在訓練中


帕特爾:馬克,非常榮幸能夠邀請你來到我們的播客節目。

祖克柏:感謝你的邀請,帕特爾。很高興能來,我一直都很喜歡你們的播客節目。


帕特爾:太好了,謝謝!現在,先來聊聊Llama 3吧!請給我分享一些關於這個最新大模型和Meta AI的亮點和令人興奮的新進展。

祖克柏:我想大多數人可能會更關注Meta AI的新版本,但實際上,我們在模型升級所做的努力才是重中之重。我們正在推出Llama 3。我們既將其作為開源專案提供給開發者社區,也將用它來支援Meta AI。關於Llama 3,我相信我們會有很多有趣的話題可以聊。但我認為,最重要的是,現在我們相信Meta AI是最聰明、最自由可用的AI助手,人們可以隨時隨地使用它。

此外,我們也整合了Google和必應的即時知識,讓AI助理能夠提供更準確、更全面的資訊。我們計劃讓它在我們的應用程式中變得更加顯眼,例如在Facebook和Messenger的頂部,你將能夠直接使用搜尋框來提出任何問題。除了這些,我們也增加了一些全新的創作功能,我認為這些功能非常酷,相信大家一定會喜歡。

尤其是動畫功能,你可以輕鬆地將任何圖片製作成動畫,這非常有趣。這裡有一個令人驚奇的功能,就是它能夠在你打字的同時,即時生成並更新高品質圖像。你只需要輸入查詢內容,例如“給我展示一張在田野裡吃澳洲堅果、喝啤酒的場景,背景裡有奶牛、有山”,它就會根據你的輸入實時更新圖像,這種體驗簡直太神奇了。我相信大家會喜歡這個功能。

這就是大多數人將會看到的一些明顯變化。我們正在逐步推出這些新功能,雖然目前還不是全球範圍內都可用,但我們會先從一些國家開始,並在接下來的幾週和幾個月內逐步擴大範圍。

我認為這將是一個非常大的突破,我很高興能讓大家體驗它。但如果你想深入了解的話,Llama 3無疑是我們最具技術趣味性的部分。我們正在訓練三個不同規模的Llama 3模型,包括80億參數、700億參數以及4050億參數版本。

目前,前兩個版本已經準備就緒,而最大規模的模型仍在訓練中。雖然今天我們不能立即發布4050億參數的版本,但我對80億和700億參數模型的表現充滿信心。它們在各自的規模上均處於行業領先地位,我們也將透過部落格文章詳細公佈它們的基準測試結果,讓大家能夠深入了解它們的表現。

當然,Llama 3是開源的,這意味著開發者將有機會親自嘗試並探索它的潛力。我們還有一系列精心規劃的發布路線圖,將帶來多模態、更多語言支援以及更長的上下文視窗(Context Window,是指語言模型在生成文字時,所考慮的文字片段的大小範圍)等功能。預計在今年晚些時候,我們將推出那款令人期待的4,050億參數版本。根據目前的訓練進展,它的MMLU(跨模態學習理解)得分已經接近85,我們預期它將在眾多基準測試中展現出卓越的表現。

至於700億參數的模型,它同樣表現出色。今天我們正式發布它,它的MMLU得分約為82,並在數學和推理方面取得了不俗的成績。我相信,讓使用者能夠體驗這款模型將會非常有趣且有意義。

我想強調的是,即使是80億參數的模型,其性能幾乎與我們之前發布的Llama-2版本相媲美。這意味著,即使是「最小」的Llama-3,在功能上也幾乎與「最大」的Llama-2一樣強大。


帕特爾:在我們深入剖析這些模型之前,我想回溯一下歷史。我記得,在2022年,Meta面臨股價的大幅下滑,當時人們對你們採購英偉達H100晶片的大筆投資充滿了疑惑。元宇宙的概念並未得到市場的廣泛認可,我猜想,你那時投資H100的決策,是出於何種考量呢?你是如何預知這些GPU的需求的?

祖克柏:我想,當時我們正處於Reels專案的開發階段。我們始終堅信,要預留足夠的容量來應對那些尚未預見的創新,而Reels專案正是這樣的例子。我們發現,為了訓練模型,我們需要更多的GPU。這是一個巨大的轉變,因為我們的服務不再僅僅基於你所關注的人或頁面來排列內容,而是開始大力推薦所謂的「未連接內容」——那些來自你未關注的人或頁面的內容。

因此,我們可能展示的內容候選集已經從數千個激增到了數億個。這自然需要一個全新的基礎設施來支撐。我們已經在建造這樣的基礎設施,但在追趕TikTok的步伐時,我們遇到了瓶頸,無法迅速達到我們的期望。看到這種情況,我意識到:「我們必須確保自己不再陷入這種被動局面。所以,我們不僅訂購了足夠完成Reels和內容排序工作的GPU,而且訂購量還翻了一番。」我們始終堅守的原則是,未來總會有我們無法預見的新事物出現,我們必須為此做好準備。


帕特爾:你知道那會是人工智慧嗎?

祖克柏:我們原本以為這應該跟訓練大模型有關。但隨後我意識到,它與內容推薦更為緊密相關。經營公司,就像在打遊戲,總有新的挑戰出現。當時,我全心投入Reels和其他內容推薦功能的開發中,希望它們能發揮巨大作用。如今,Instagram和Facebook能夠向用戶展示他們感興趣的內容,即使這些內容來自他們未曾關注的人,這無疑是一個巨大的飛躍。回顧過去,那個決定無疑是明智的,它源自於我們曾經落後的教訓。這並不是說我們曾經「遙遙領先」過,實際上,很多決定之所以現在看來正確,是因為我們曾經犯過錯誤,並從中汲取了教訓。


帕特爾:2006年,你拒絕了10億美元的收購提議,但我想,應該有一個價格,你會考慮出售Facebook,對吧?你心中有沒有一個估值,覺得「這才是Facebook真正的價值,而他們並沒有給這個價錢?」我知道,如果給你開出5萬億美元,你一定會欣然接受。那麼,你如何看待這個決定,是基於怎樣的考量呢?

祖克柏:我認為,這主要是個人選擇的問題。回首當年,我並不確定自己是否已經夠成熟來做這樣的決策。周圍有很多人都在討論10億美元的價格,他們基於各種理由進行分析,例如預期的收入和規模。但這些都遠遠超出了我們當時所處的階段。說實話,我當時並沒有足夠的財務知識來參與這樣的討論,但我內心深處對我們所做的事情有著堅定的信念。

我也做過一些簡單的分析,例如「如果我不做這個,我會去做什麼?其實,我很喜歡創造新東西,喜歡幫助人們進行溝通,喜歡了解人們的動態以及人與人之間的互動。很多重大決定,其實都是基於我們的信念和價值觀。實際上,透過分析來準確預測未來是非常困難的。




通往AGI之路


帕特爾:Facebook人工智慧研究所(FAIR)歷經了漫長的歲月,如今它似乎已深深嵌入到你們公司的核心之中。我想請教一下,在何時,建構通用人工智慧(AGI)或你們所追求的那個宏偉目標,成為了Meta的首要任務?

祖克柏:其實,這個轉變已經悄悄發生了一段時間。大約在10年前,我們創立了FAIR。當時的初衷是,在邁向通用人工智慧或其他類似目標的道路上,會有許多創新湧現,而這些創新將持續推動我們各項業務的進步。因此,我們並沒有將FAIR作為一個獨立的產品來構思,而是作為一個研究團隊來組成。在過去的10年裡,FAIR創造了許多獨特的成果,為我們所有的產品帶來了顯著的改進。它推動了多個領域的發展,並為這些領域內的其他創新者提供了靈感,它也因此創造了更多改進我們產品的技術。這讓我感到非常振奮。

近年來,隨著ChatGPT的崛起以及影像創作領域擴散模型的湧現,我們明顯感受到了一股巨大的變革之風。這些新技術令人嘆為觀止,它們將深刻影響人們與各個應用程式的互動方式。因此,我們決定組建第二個團隊——通用人工智慧團隊,旨在將這些前沿技術融入我們的產品中,並建立​​能夠支援所有不同產品的領先基礎模型。

當我們開始這項探索時,我們最初的想法是,我們所做的許多事情都具有很強的社交屬性。它幫助人們與創作者互動,幫助人們與企業溝通,也幫助企業銷售產品或提供客戶服務。此外,它還可以作為智慧助手,整合到我們的應用中、智慧眼鏡以及虛擬實境中。因此,我們起初並不完全確定是否需要一個完整的通用人工智慧來支援這些用例。然而,隨著我們在這些細微之處深入工作,我逐漸意識到,實際上通用人工智慧的支援是必不可少的。例如,在開發Llama-2時,我們並沒有優先考慮編碼功能,因為人們並不會在WhatsApp上向Meta AI提出大量的編碼問題。


帕特爾:現在他們會嗎?

祖克柏:我不知道,也不確定WhatsApp、Facebook或Instagram是否會成為用戶提出大量編碼問題的介面。或許是在我們即將上線的Meta.AI網站上,編碼問題會更為普遍。然而,在過去18個月裡,我們驚訝地發現,編碼實際上在眾多領域中都扮演著至關重要的角色,而不僅限於程式設計產業。即使使用者並未直接提出與編碼相關的問題,對模型進行編碼訓練也有助於它們更為精確地回答問題,並在不同領域的推理中展現出卓越的能力。以Llama-3為例,我們專注於透過大量的程式設計訓練來優化它,因為這將使其在各方面都表現出色,即便用戶的主要關注點並非編碼問題。

推理能力則是另一個絕佳的例子。設想一下,當你與創作者交流,或作為企業試圖與客戶互動時,這種互動遠非簡單的「你發送訊息,我回覆」模式。它涉及一個多步驟、深層的思考過程,需要我們思考「如何更好地實現這個人的目標?」很多時候,客戶並不清楚自己真正需要什麼,或如何準確地提出問題。因此,僅僅回答問題並非人工智慧的全部工作。我們需要更全面、更深入地思考,這實際上已轉化為推理問題。如果某個團隊在推理方面取得了重大突破,而我們仍停留在基礎的聊天機器人階段,那麼我們的產品與其他團隊所建立的產品相比,將顯得黯然失色。最終,我們意識到,為了保持領先,我們必須全力解決通用智慧問題,因此我們加大了賭注和投資,以確保能夠取得這項突破。


帕特爾:那麼,能夠解決所有這些使用者用例的Llama版本,是否足夠強大到可以替代這棟大樓裡所有程式設計師的水平呢?

祖克柏:我認為,隨著時間的推移,這些技術將逐步成熟並展現出巨大的潛力。然而,關於Llama-10或未來的版本是否能完全取代程式設計師,這是一個複雜的問題。我並不認為我們是在試圖取代人類,而是希望透過這些工具,賦予人們更強大的能力,讓他們能夠完成更多以前難以想像的工作。


帕特爾:假設我們的程式設計師未來在使用Llama-10後,他們的工作效率會提升10倍嗎?

祖克柏:我對此抱有極高的期望。我深信,人類的智慧並非只由單一標準來衡量,因為每個人都有獨特的技能和才華。在某個時刻,人工智慧可能會在某些方面超越大多數人類的能力,但這完全取決於模型的強度。然而,我認為這是一個逐步演進的過程,通用人工智慧並非一蹴可幾的事。我們其實是在逐步為模型增加不同的能力。

目前,多模態是我們重點關注的領域,從最初的照片、圖像和文本,未來還將涉及影片。鑑於我們對元宇宙的濃厚興趣,3D技術也顯得格外重要。此外,我特別關注的一個模態是情感理解,這是我在業界很少看到其他團隊深入研究的領域。畢竟,人類大腦的大部分功能都致力於理解他人、解讀表情和情緒。我堅信,如果我們能夠在這方面取得突破,使人工智慧能夠真正理解並表達情感,那麼人與機器之間的互動將會變得前所未有的自然和深入。

你可能會認為這只是影片或圖像的範疇,但實際上,它們是人類情感表達非常專業的一個版本。因此,除了提升模型在推理和記憶方面的能力外,我們還需要關注許多其他不同的能力。我相信,在未來,我們不會僅僅滿足於將問題輸入一個查詢視窗來尋求答案。我們將會有不同的記憶儲存方式或客製化模型,這些模型將更個人化地服務於人們。這些都是人工智慧所需發展的不同能力。當然,我們還需要解決模型的大小問題。我們既關心大型模型,也關心如何在有限的空間中運行小型模型。例如,如果你正在運行類似Meta AI這樣的大型服務,那麼它主要依賴伺服器端的強大運算能力。然而,我們也期待這些先進的技術能融入小巧的設備中,例如智慧眼鏡。由於智慧眼鏡的空間非常有限,因此我們需要開發一種高效且輕量級的解決方案來適應這一環境。


帕特爾:假設我們投入100億美元,甚至最終高達1000億美元,用於在工業規模上實施智慧推理,那麼這些資金將用於哪些具體用例呢?是類比技術嗎?還是元宇宙中的人工智慧應用?我們該如何有效利用資料中心來支援這些用例?

祖克柏:根據我們的預測,智慧推理將深刻改變幾乎所有的產品形態。我認為,未來我們將看到一種Meta AI通用助理產品的出現。這種產品將從傳統的聊天機器人逐漸演變而來,從簡單地回答問題,發展到能夠接收並執行更複雜的任務。這將需要大量的推理能力,同時也將引發對運算能力的巨大需求。

此外,與其他智慧主體(Agent,是指人工智慧系統所具備的智慧能力和行為表現,包括感知、認知、推理、決策和行動等方面,從而在人機互動的環境中擔任主導角色,實現與人類的智慧互動)的互動,也將成為我們工作的重要部分,無論是為企業或創作者服務。我認為,人類不會只與一個通用的人工智慧互動,每個企業都將希望擁有代表其利益的人工智慧。這些人工智慧不會主要用來銷售競爭對手的產品,而是透過獨特的方式與企業、創作者和消費者互動。

特別值得一提的是,創作者將成為受益於此技術的重要群體。我們平台上擁有約2億創作者,他們普遍覺得每天的時間不夠用,而他們的社群又渴望與他們互動。如果我們能夠開發出一種技術,讓創作者能夠訓練自己的人工智慧,並藉助它與社群保持互動,那將是非常強大的功能。

這些只是消費者用例的一部分。以我和我的妻子經營的陳-祖克柏基金會為例,我們正在科學領域進行許多工作,而人工智慧無疑將在推動科學、醫療保健等領域的進步中發揮關鍵作用。最終,智能推理將影響幾乎每一個產品和經濟領域。


帕特爾:你提及了能夠執行多步驟任務的人工智慧,這不禁讓我好奇,這是否意味著我們需要一個更龐大的模型來實現這項功能?例如,對於Llama-4,我們是否需要一個擁有700億參數的版本,只要在正確的資料上進行訓練,它就能展現出驚人的能力?目前,我們的進展主要表現在哪些方面?是模型規模的擴大嗎?還是如您之前所說,是保持模型大小不變,但功能和應用場景更加多元?

祖克柏:關於這個問題,我們目前可能還沒有明確的答案。但我觀察到的一個明顯趨勢是,我們有一個基礎的Llama模型,然後圍繞它建立一些特定於應用程式的程式碼。這些程式碼有些是針對特定用例的微調,但也有一些是關於如何讓Meta AI與Google、必應等工具協作以獲取即時知識的邏輯,這些並不是Llama基礎模型的一部分。在Llama-2的開發過程中,我們嘗試將一些這樣的功能融入模型,但更多是透過手工的方式。對於Llama-3,我們設定了一個目標,那就是將更多的這類功能內嵌到模型本身。當我們開始探索更多類似智慧主體的行為時,我認為其中一些功能仍然需要以手工方式進行最佳化。而對於Llama-4,我們的目標是將更多的這些功能自然融入模型中。

在每一步的進展中,你都能感受到未來可能的發展方向。我們開始嘗試各種可能性,並圍繞模型進行各種實驗。這有助於我們更深入地理解,哪些功能應該被納入下一個版本的模型中。這樣,我們的模型就能變得更加通用,因為顯然,任何透過手工編碼實現的功能雖然可以解鎖一些用例,但本質上都是脆弱且不夠通用的。我們的目標是讓模型能夠自我學習、自我進化,以適應各種複雜多變的場景。


帕特爾:你提到的“將更多內容納入模型本身”,能否具體解釋一下,您是如何透過訓練將這些期望的功能融入模型中的?你所說的「納入模型本身」具體指的是什麼?

祖克柏:以Llama-2為例,它的工具使用功能相對具體且有限。而到了Llama-3,我們欣喜地發現其工具使用能力得到了顯著提升。現在,我們不必再手動編碼所有內容來使其能夠使用谷歌進行搜索,它已經能夠獨立完成這些任務。同樣,在程式設計、運行程式碼以及其他一系列任務上,Llama-3也展現了出色的能力。一旦我們獲得了這種能力,就可以預見我們接下來可以開始探索哪些新的可能性。我們不必等到Llama-4的出現才開始建立這些能力,因此我們可以提前圍繞它進行各種嘗試和實驗。雖然這些手工編碼的過程可能會使產品暫時變得更好,但它也為我們指明了在下一個版本的模型中應該建造哪些內容的方向。


帕特爾:在開源社群對Llama-3進行的微調中,你最期待看到哪些用例?也許不是對你最有實用價值的那個,而是你最感興趣、最想嘗試的那個。例如,我聽說有人對古代歷史方面進行了微調,使得我們可以直接與古羅馬詩人維吉爾(Virgil)等歷史人物進行對話。

祖克柏:我認為這類事物的魅力就在於它總是能帶給我們驚喜。任何我們認為有價值的特定應用案例,都有可能嘗試建構。我相信我們會看到更多精簡版本的模型出現。我也期待看到一個參數更少、更輕量級的模型,例如一個只有10億到20億參數的模型,甚至是一個5億參數的模型,看看它們能帶來哪些有趣且高效的應用。如果一個80億參數的模型幾乎與最大的Llama-2模型一樣強大,那麼10億參數的模型應該也能在某些領域展現出其獨特的價值。它們可以用於分類任務,或用於在人們理解使用者查詢意圖並將其傳遞給更強大的模型進行精確處理之前的預處理工作。我認為這將是社區可以發揮巨大作用的一個領域,幫助我們填補這些模型在應用上的空白。當然,我們也在考慮對這些模型進行精簡和最佳化,但目前我們的所有GPU資源主要用於訓練4050億參數的模型。


帕特爾:你之前提到的GPU數量,我記得你說年底前會達到35萬個。

祖克柏:對,那是我們的總目標。目前,我們已經建立了兩個大型的GPU集群,每個集群擁有約22000到24000個GPU,它們主要用於訓練大型的模型。當然,這些集群也承擔著我們公司其他許多重要的訓練任務,例如Reels模型、Facebook新聞推送和Instagram推送的訓練等。推理對我們來說確實是一個巨大的挑戰,因為我們需要為龐大的使用者群體提供服務。與其他從事類似工作的公司相比,我們所需的推理計算與訓練計算的比例可能要高得多,這主要是因為我們所服務的社區規模極其龐大。


帕特爾:我注意到,在你們之前分享的材料中,有一個非常引人注目的點,那就是你們在訓練模型時使用的數據量實際上超過了僅用於訓練時的計算最優數據量。考慮到推理對你們和整個社區的重要性,擁有一個包含數萬億個token的模型確實非常有意義。

祖克柏:關於700億參數的模型,我們觀察到一個有趣的現象。原本以為隨著資料量的增加,模型的效能提升會逐漸趨於飽和。然而,我們訓練了大約15兆個token後,發現模型仍在持續學習。即使在訓練的最後階段,它仍然展現了強大的學習能力。我們或許還可以繼續給它輸入更多的token,以進一步提高其效能。

但身為公司的經營者,我們需要在某個時刻做出決策:是否應該繼續將GPU資源用於進一步訓練這個700億參數的模型?還是應該轉向其他方向,例如開始為Llama-4測試新的假設?我們需要在這兩者之間找到平衡。目前,我認為我們在這個版本的700億參數模型上已經取得了不錯的平衡。當然,未來我們還會推出其他版本,例如700億參數的多模態版本,這將在接下來的一段時間內與大家見面。但有一點非常令人著迷,那就是目前的模型架構竟然能夠容納如此龐大的資料量。




能源瓶頸


帕特爾:這確實引人深思。那麼,對於未來的模型來說,這意味著什麼?你之前提及Llama-3的80億參數版本在某些方面甚至超越了700億參數的Llama-2。

祖克柏:不、不,我可不想誇大其詞。它們的表現其實相當接近,數量級上非常相似。


帕特爾:那麼,我們是否可以期待Llama-4的700億參數版本能夠與Llama-3的4050億參數版本相媲美呢?未來的發展趨勢又會是怎麼樣的呢?

祖克柏:這確實是一個大問題。說實話,沒人能確切預測。世界上最難預測的事情之一就是指數級成長的趨勢。它會持續多久?我堅信,我們將會繼續向前邁進。我認為,投入100億美元,甚至1000億美元以上來建造基礎設施是非常值得的。假設這種成長趨勢能夠持續,我們將會得到一些真正令人震撼的成果,從而創造出令人驚嘆的產品。但業內沒有人能確切地告訴你,它一定會以那個速度繼續擴展。從歷史上看,我們總會在某個時刻遇到發展的瓶頸。但如今,人們對這個領域寄予了極高的期望,或許這些瓶頸很快就會被克服。這確實是一個值得我們深入思考的問題。


帕特爾:假設沒有這些瓶頸,世界會呈現什麼樣的面貌呢?儘管這似乎不太可能,但如果技術進步真的能夠繼續以這種速度發展下去呢?

祖克柏:無論如何,總是會有新的挑戰和瓶頸出現。在過去的幾年裡,GPU的生產就是一個明顯的問題。即使有錢購買GPU的公司,也往往難以獲得所需的數量,因為供應受到限制。但這種情況似乎正在逐步改善。如今,我們看到越來越多的公司正在考慮投入大量資金來建造生產GPU的基礎設施。我認為這種情況還會持續一段時間。

此外,資本投入也是一個需要考慮的問題。在什麼時候,投入更多的資本就不再具有性價比了呢?實際上,我認為在我們遇到資本投入問題之前,能源問題會率先出現。據我所知,目前還沒有人能夠建造出一個千兆瓦特的單一訓練集群。我們會遇到一些在全球範圍內都會變得日益困難的事情,例如取得能源許可。這不僅僅是一個軟體問題,它涉及政府的嚴格監管,我認為這比我們許多技術界人士所感受到的還要嚴格。當然,如果你是從小公司起步的,也許這種感覺就沒那麼強烈。但當我們與不同的政府部門和監管機構打交道時,我們需要遵守大量的規則,並確保我們在全球範圍內都做得合規。但毫無疑問,能源方面將是我們面臨的一個主要限制。

如果你談論的是建造大型新發電廠或大型建築,並需要跨越其他私人或公有土地來建造輸電線路,那麼這將是一個受到嚴格監管的計畫。你需要考慮的是多年的前置時間。如果我們想要建立一個龐大的設施,為其提供動力將是一個長期而複雜的項目。我相信人們會努力實現這一目標,但我不認為這會像達到某種人工智慧水平、獲得大量資本並投入其中那樣簡單和神奇,然後突然之間模型就會有飛躍式的進步。


帕特爾:在推動人工智慧發展的道路上,我們是否會遇到一些連Meta這樣的公司都無法獨自克服的瓶頸?是否存在某些項目,即使是像Meta這樣的公司也沒有足夠的資源去完成?即使你們的研發預算或資本支出預算增加10倍,仍無法實施?這是否是你心中所想,但鑑於目前的Meta,你們甚至無法透過發行股票或債券來籌集足夠的資金?

祖克柏:能源問題無疑是其中的一大挑戰。我堅信,如果我們能夠解決能源供應的問題,我們完全有可能建造出比現在規模更大的算力集群。


帕特爾:那麼,這從根本上來說是資金瓶頸的限制嗎?

祖克柏:資金確實是其中一個方面,但我認為時間也是一個不可忽視的因素。目前,許多資料中心的規模大約在50兆瓦到100兆瓦之間,大型的可能會達到150兆瓦。假設你擁有一個完整的資料中心,並配備了所有必要的訓練設備,你建造了目前技術允許的最大叢集。我認為很多公司都已經接近或達到了這樣的水平。但是,當我們談論建造300兆瓦、500兆瓦甚至1吉瓦的資料中心時,情況就完全不同了。目前,還沒有人嘗試過建造1吉瓦的資料中心。我相信這將成為可能,只是需要時間的累積。然而,這不會發生在明年,因為其中涉及的許多事情需要數年時間來完成。從這個角度來看,我認為一個1吉瓦規模的資料中心將需要一個相當於核電廠的能源供應來支援模型訓練。


帕特爾:亞馬遜是否已經在這方面有所嘗試?他們似乎有一個950兆瓦的設施。

祖克柏:關於亞馬遜的具體做法,我並不是非常了解,你可能需要直接向他們詢問。


帕特爾:訓練不一定要侷限在單一地點,對吧?如果分散式訓練是有效的,那麼其實我們可以考慮將它分散到多個地方進行。

祖克柏:我認為這是一個非常重要的問題,關乎未來訓練大型模型的方式。從目前的發展趨勢來看,透過推理產生合成數據,再將這些數據用於模型的訓練,似乎是一個很有潛力的方向。雖然目前我還不清楚這種合成資料與直接訓練之間的比例會是多少,但我相信合成資料的產生在某種程度上已經越來越接近推理的過程。顯然,如果這種方式被用於訓練模型,那麼它將成為整個訓練流程中不可或缺的一部分。


帕特爾:所以,這仍然是一個懸而未決的問題,關於如何找到這種平衡,以及它未來的發展方向。那麼,這種趨勢有可能在Llama-3,甚至Llama-4及以後的版本上實現嗎?也就是說,如果你們發布了模型,那些擁有強大運算能力的實體,例如科威特或阿聯酋,他們就可以利用這類模型,讓某些應用程式變得更聰明。

祖克柏:我完全同意這種可能性。確實,我認為將來會有這樣的動態發展。但同時,我也認為模型架構本身有某些根本的限制。以Llama-3為例,儘管我們已經取得了顯著的進步,但我相信其架構仍有進一步優化的空間。正如我之前所說,我們感覺到透過提供更多的數據或某些關鍵步驟的迭代,模型的效能還可以繼續提升。

事實上,我們已經看到許多公司基於Llama-2的700億參數模型架構建構了新的模型。然而,像Llama-3的700億或4050億參數這樣的模型,要進行世代改進並非易事,目前還沒有類似的開源模型出現。我認為這是一個巨大的挑戰,但也是一個巨大的機會。然而,我仍然認為,基於現有的模型架構,人們能夠建構出的東西並不是無限可擴展的。在達到下一個技術飛躍之前,我們可能只能在現有基礎上進行一些優化和改進。



AI會在一夜之間失控嗎?


帕特爾:以下讓我們從更宏觀的角度來看,你認為未來幾十年來人工智慧技術會如何發展?它會讓你覺得像另一種技術,例如元宇宙或社交技術,還是你覺得它在人類歷史上具有根本性的不同?

祖克柏:我認為人工智慧將會是非常基礎的技術。它更像電腦的發明,將催生一系列全新的應用。就像網路或手機的出現,使得許多以前不可能的事情變得可能,人們開始重新思考這些體驗。因此,我認為人工智慧將會帶來類似的變革,但它是一種更深層的創新。我的感覺是,它就像是從沒有計算機到有計算機的轉變。然而,要準確預測它究竟會如何發展,確實很難。從更長的宇宙時間跨度來看,這項變革將會很快發生,可能就在幾十年內。有些人確實擔心它會迅速失控,一夜之間從某種程度的智慧變得極其聰明。但我認為,由於存在許多物理限制,這種情況不太可能發生。我並不認為我們會一夜之間面臨人工智慧失控的局面。我相信我們將有足夠的時間去適應。但人工智慧將真正改變我們的工作方式,為人們提供創新的工具去做不同的事情。它將使人們能夠更自由地追求他們真正想做的事情。


帕特爾:也許不是一夕之間,但從宇宙時間的角度來看,你認為我們可以這樣看待這些里程碑嗎?人類進化了,然後人工智慧出現了,接著它們可能走向銀河系。這可能需要幾十年,也可能需要一個世紀,但這是你眼中正在發生的宏偉計劃嗎?我指的是像電腦甚至是火這樣的其他技術,但人工智慧本身的發展是否與人類最初的進化一樣重要?

祖克柏:我認為這很難判斷。人類的歷史基本上是一部逐漸認識到我們在某些​​方面並不獨特,但同時又意識到人類仍然非常特別的歷程。我們曾經認為地球是宇宙的中心,但事實並非如此,然而人類依然保持著非凡的特質,對吧?我認為人們經常存在另一種偏見,即認為智能與生命在某種程度上有著緊密的聯繫,但事實並非如此。我們還沒有對意識或生命有足夠清晰的定義來全面理解這個問題。有許多科幻小說描述了智慧生命的創造,這些智慧開始展現出各種人類般的行為等。但目前的趨勢似乎表明,智能可以相當獨立於意識、能動性和其他特質存在,這使得它成為一個非常有價值的工具。



開源的危險


祖克柏:預測這些事物隨時間發展的方向極具挑戰性,因此,我認為任何人都應避免以教條的方式規劃它們的開發或用途。每次發布新產品時,我們都需要重新評估。我們非常支持開源,但並不代表我們會公開所有成果。我傾向於認為,開源對社群和我們自己都是有益的,因為這將促進創新。然而,如果某個時刻,這些技術的能力發生了質的變化,而我們覺得開源是不負責任的,那麼我們會選擇不公開。這一切都充滿了不確定性。


帕特爾:當你們研發Llama-4或Llama-5時,有沒有可能出現某種具體的質的變化,讓你們考慮是否應該開源?

祖克柏:這個問題很難從抽象的角度來回答,因為任何產品都可能有潛在風險,關鍵在於我們如何有效管理和緩解這些風險。在Llama-2中,我們已經面臨了一些挑戰,並投入了大量資源來確保它不會被用於不良目的,例如暴力行為等。這並不意味著它已經成了智慧主體,只是因為它擁有大量有關世界的知識,能夠回答一系列可能帶來風險的問題。因此,我認為問題在於如何識別並緩解其潛在的不良行為,而非行為本身。

在我看來,評估事物的好壞涉及多個維度,很難事先列舉所有可能性。以社群媒體為例,我們已經處理了多種類型的危害行為,並將它們分為18或19個類別。我們建立了人工智慧系統來識別這些行為,以減少它們在我們平台上的發生。隨著時間的推移,我相信我們會進一步細化這些分類。這是我們一直在努力研究的問題,因為我們希望確保對此有深入的理解。


帕特爾:我認為廣泛部署人工智慧系統,讓每個人都有機會使用它們是非常重要的。如果未來的人工智慧系統沒有廣泛應用,我會感到失望。同時,我也希望更深入地了解如何緩解潛在風險。如果緩解措施主要是微調,那麼開放模型權重的好處在於,人們可以基於這些能力進行更深入的調整。目前,這些模型還遠遠未達到那個水平,更像是高級搜尋引擎。但如果我能向它們展示我的培養皿,並讓它們解釋為什麼我的天花樣本沒有生長以及如何改進,那麼在這種情況下,如何確保安全和有效地使用這些模型?畢竟,有人可能會對這些模型進行微調以滿足自己的需求。

祖克柏:確實,這是一個複雜的問題。我認為,大多數人會選擇直接使用現成的模型,但也有一些心懷不軌的人可能會試圖利用這些模型進行不良行為。因此,這個問題確實值得我們深思。從哲學角度來看,我之所以如此支持開源,是因為我認為未來如果人工智慧過度集中化,其潛在風險可能不亞於它的廣泛傳播。許多人都在思考:「如果我們能夠做到這些,那麼這些技術在社會上的廣泛應用是否會成為壞事?」同時,另一個值得思考的問題是,如果一個機構擁有比其他所有人更強大的人工智慧,這是否也是一件壞事?

我可以用安全領域的一個類比來解釋。想像一下,如果你能夠提前了解並利用某些安全漏洞,那麼你幾乎可以輕鬆入侵任何系統。這並不僅限於人工智慧領域。因此,我們不能單純依賴一個高度智慧的人工智慧系統來識別並修復所有漏洞,儘管這在理論上似乎可行。那麼,我們社會是如何面對這問題的呢?開源軟體在其中扮演了重要角色。它使得軟體的改進不再局限於單一公司的範圍,而是能夠廣泛應用於各種系統,包括銀行、醫院和政府機構。隨著軟體的不斷完善,得益於更多的人可以參與查看和測試,關於這些軟體如何運作的標準也逐漸建立。當需要升級時,全世界可以迅速共同行動。我認為,在一個人工智慧廣泛部署的世界中,隨著時間的推移,這些人工智慧系統會逐步得到加固,所有不同的系統都將以某種方式得到控制。

在我看來,這種分散式、廣泛部署的方式比集中化的方式更為健康。當然,各方面都存在風險,但我認為人們並沒有充分討論這種風險。確實存在人工智慧系統被用於不良行為的風險。然而,我更擔心的是,一個不可信的實體擁有超級強大的人工智慧系統,我認為這可能是一個更大的風險。


帕特爾:他們會不會因為擁有別人沒有的武器而試圖推翻我們的政府?還是只是製造大量的混亂?

祖克柏:直覺告訴我,出於經濟、安全和其他多種原因,這些技術最終會變得非常重要和有價值。如果我們的敵人或我們不信任的人獲得了更強大的技術,那麼這確實可能成為一個嚴重的問題。因此,我認為最好的緩解方式可能是推動好的開源人工智慧的發展,讓它成為行業的標準,並在多個方面發揮領導作用。


帕特爾:開源人工智慧系統確實有助於建立一個更公平、更平衡的競技場,這在我看來是極為合理的。如果這種機制能夠成功運作,那無疑是我所期待的未來。然而,我想進一步探討的是,從機制層面來看,開源人工智慧是如何防止有人利用他們的人工智慧系統製造混亂的?比如說,如果有人試圖製造生物武器,我們是否可以透過在全球進行大量的研發,以極快的速度開發出相應的疫苗來應對?這其中的具體運作機制是怎麼樣的呢?

祖克柏:從我之前提及的安全角度來看,我認為擁有較弱人工智慧系統的人試圖入侵受更強人工智慧保護的系統,其成功率會相對較低。


帕特爾:但是,我們如何確保世界上的所有事情都能像這樣得到妥善處理呢?比如說,生物武器的情況可能並非如此簡單。

祖克柏:確實,我無法斷言世界上的所有事情都能如此順利解決。生物武器是那些對此類問題深感憂慮的人們所關注的焦點之一,我認為這種擔憂是有道理的。儘管存在一些緩解措施,例如嘗試不在模型中訓練某些知識,但我們必須認識到,在某些情況下,如果遇到了極其惡劣的行為者,且沒有其他人工智慧來製衡他們並了解威脅的嚴重性,那麼這確實可能成為一個風險。這是我們必須高度重視的問題之一。


帕特爾:在部署這些系統時,你有沒有遇過一些出乎意料的情況?例如,在訓練Llama-4的過程中,它可能出於某種原因對你說謊。當然,對於Llama-4這樣的系統,這種情況可能並不常見,但你有沒有考慮過類似的情況?例如,你會非常擔心系統的欺騙性,以及這個系統的數十億個副本在野外自由傳播可能帶來的問題?

祖克柏:目前,我們已經觀察到許多幻覺現象。我認為,如何區分幻覺和欺騙是一個值得深入探討的問題。確實,存在許多風險和需要考慮的因素。在經營我們的公司時,我試圖至少平衡這些長期的理論風險與我認為目前確實存在的實際風險。因此,當談到欺騙時,我最擔心的是有人可能會利用這種技術製造錯誤訊息,並透過我們的網路或其他網路傳播。為了對抗這種有害內容,我們正在建構比敵對系統更智慧的人工智慧系統。

這構成了我對此事的部分理解。透過觀察人們在社群網路上造成或試圖造成的不同類型的傷害,我發現其中有些傷害並非極具對抗性。舉例來說,仇恨言論在某種層面上並非高度對抗性,因為人們並沒有因為網路言論而變得更加種族歧視。在這一方面,我認為人工智慧在處理這些問題時通常比人類更為複雜和迅速。然而,我們雙方都存在問題。人們可能出於各種目的做出不當行為,無論是試圖煽動暴力還是其他不當行為,但我們也不得不面對大量的誤報情況,即我們可能錯誤地審查了一些本不應審查的內容。這種情況無疑讓許多人感到困擾。因此,我相信隨著人工智慧在這方面變得越來越精確,情況將會逐漸改善。

無論是Llama-4還是未來的Llama-6,我們都需要深入思考我們觀察到的行為,而且不僅僅是我們。你選擇將這個計畫開源,部分原因也是因為有眾多的研究者也致力於此。因此,我們希望能夠與其他研究者分享觀察結果,共同探索可能的緩解策略,並在確保一切安全的前提下,考慮將其開源。在可預見的未來,我樂觀地認為我們能夠做到這一點。同時,在短期內,我們也不能忽視人們今天試圖利用模型進行不當行為的問題。即使這些行為並非毀滅性,但在經營我們的服務時,我們也深知一些相當嚴重的日常危害。


帕特爾:我發現合成數據的事情真的非常有趣。使用目前的模型,透過重複利用合成數據,可能會存在一個性能漸近線,這是有理論基礎的。但假設這些模型變得更加聰明,能夠利用你在論文或即將發布的部落格文章中提到的那種技術,找到最正確的思維鏈。那麼,你為何認為這不會導致一個循環,即模型變得更聰明,產生更好的輸出,進而變得更聰明,如此往復呢?當然,這種變化不會一夜之間發生,但經過數月或數年的持續訓練,模型的確有可能變得更加聰明。

祖克柏:我認為,在模型架構的參數範圍內,這種循環提升是有可能發生的。然而,就目前的80億參數模型而言,我並不認為它們能夠達到與那些擁有數百億參數、並融入了最新研究成果的先進模型相同的水平。


帕特爾:關於這些模型,它們也將是開源的,對吧?

祖克柏:是的,確實如此。但是,這一切的前提是我們必須成功解決先前討論過的那些挑戰和問題。我們當然希望如此,但我也深知在建立軟體的每個階段,儘管軟體本身有著巨大的潛力和可能性,但在某種程度上,其運作仍然受到晶片性能的物理限制。因此,我們總是面臨各種物理層面的約束。模型能夠變得多大,實際上取決於我們所能獲得並用於推理的能量有多少。我對於人工智慧技術的未來持非常樂觀的態度,相信它們將繼續迅速發展和改進。同時,我也比一些人更為謹慎。我並不認為失控的情況會特別容易發生,但我們仍然需要保持警惕,並認真考慮各種可能的風險。因此,我認為保持開放選擇是非常有意義的。



凱撒大帝與元宇宙


帕特爾:好的,讓我們轉向另一個話題──元宇宙。在人類歷史的長河中,哪個時期你最想深入探索?是從西元前10萬年到現在,你只是想一窺那時的風貌嗎?這個探索必須侷限於過去嗎?

祖克柏:確實,我比較傾向於探索過去。美國歷史、古典歷史以及科學史都深深吸引我。我認為,能夠觀察並理解那些重大歷史進步是如何發生的,將會是一件非常有趣的事。然而,我們所能依賴的,只是那些有限的歷史記載。對於元宇宙來說,想要完全重現那些我們沒有記錄的歷史時期,恐怕會非常困難。實際上,我並不認為回到過去會是元宇宙的主要應用之一,雖然這樣的功能在歷史教學等方面可能會很有用,但對我而言,最主要的事情是,無論我們身處世界的哪個角落,都能與他人即時互動、共同存在,我堅信這才是殺手級應用。

在先前關於人工智慧的對話中,我們深入探討了許多背後的物理限制。科技教導我們的一個寶貴經驗是,我們應該努力將更多事物從物理束縛中解放出來,轉移到軟體領域,因為軟體不僅更容易建構和進化,而且更容易普及。畢竟,不是每個人都能擁有資料中心,但很多人都能編寫程式碼、取得開源程式碼,並對其進行修改和最佳化。元宇宙正是實現這目標的理想平台。

這將是一個顛覆性的巨大變革,它將極大改變人們對聚集和互動的認知。因此,人們將不再覺得為了完成許多事情而必須親自聚在一起。當然,我也深信在某些情境下,親自相聚仍然具有無可取代的價值。這並非是一種非此即彼的選擇,元宇宙的出現並不意味著我們要完全放棄面對面的交流。然而,它確實為我們提供了一個全新的維度,讓我們能夠更便利、更有效率地進行社交、建立聯繫、完成工作,並在工業、醫學等眾多領域發揮巨大的作用。


帕特爾:我們之前提到過一件事,你並沒有以十億美元的價格出售公司。對於元宇宙,你顯然也有著堅定的信念,儘管市場對此有所質疑。我很好奇,這種信心的來源是什麼?你說過“哦,我的價值觀,我的直覺”,但這樣的說法似乎有些籠統。你能具體說說與你自己有關的某些特質,或許我們能更能理解你為何對元宇宙如此有信心。

祖克柏:我認為這涉及到幾個不同的問題。首先,關於是什麼驅動我不斷前進?我們已經討論了很多主題。我熱愛創造,特別是圍繞著人們如何溝通、表達自己和工作的創造。在大學時,我主修電腦科學和心理學,這兩個領域的交集對我來說一直是非常關鍵的。這也是我強烈的驅動力。我不知道該如何解釋,但我內心深處總覺得,如果我不去創造一些新東西,那我就做錯了什麼。即使在我們為投資1000億美元於人工智慧或元宇宙制定商業計劃時,我們的計劃已經相當清楚地表明,如果這些項目成功,將會帶來巨大的回報。

但當然,你不能從一開始就確定一切。人們總會有各種爭論和質疑。就像「你怎麼會有足夠的信心去做這件事?」對我來說,如果有一天我停止嘗試創造新東西,那我就失去了自我。我會去別的地方繼續創作。從根本上說,我無法想像自己只是經營某樣東西,而不去嘗試創造我認為有趣的新事物。對我來說,我們是否要嘗試建造下一個東西,這不是問題。我就是無法停止創造。不僅在科技領域,我在生活的其他方面也是如此。例如,我們家在考艾島建了一個牧場,我親自參與了所有建築的設計工作。當我們開始養牛時,我就想:「好吧,我要養出世界上最好的牛。」然後我們開始規劃,如何建立起我們需要的一切來實現這個目標。這就是我!


帕特爾:我一直對一件事感到好奇:在高中和大學時期,年僅19歲的你就閱讀了大量的古代和古典書籍。我想知道,你從這些書中學到了哪些重要的教訓?不僅是你覺得有趣的內容,更重要的是,考慮到你當時所接觸的知識範圍畢竟有限。

祖克柏:有一件事情讓我深感著迷,那就是凱撒奧古斯都如何成為皇帝,並努力建立和平。在那個時候,人們對和平並沒有真正的概念,他們所理解的和平,只不過是在敵人再次攻擊之前的短暫間歇。他有著改變經濟從依賴僱傭軍和軍事主義到實現正和遊戲的遠見,這在當時是非常新穎的想法。這反映了一個非常基本的事實:人們在當時所能想像到的合理工作方式的邊界。

這個觀念既適用於元宇宙,也適用於人工智慧這樣的領域。許多投資者和其他人難以理解我們為什麼要開源這些技術。他們可能會說:「我不明白,既然開源了,那你們製作專有技術的時間豈不是會縮短?」但我認為,這在技術領域是一個深刻的觀念,它實際上創造了更多的贏家。我不想過度強調這個類比,但我確實認為,很多時候,人們難以理解建構事物的模型,難以理解這對人們為什麼會是一件有價值的事情,或者為什麼這會是世界上合理的狀態。實際上,合理的事情比人們想像的要多得多。


帕特爾:這真的很有意思。可以分享一下我的想法嗎?或許有些離題,但我覺得,這也許是因為歷史上一些重要人物在年輕時就已經嶄露頭角。例如,凱撒·奧古斯都在19歲時就已經成為羅馬政治界的重要人物,他領導戰鬥,並建立了同盟。我想知道,19歲的你是不是也有過類似的想法:“既然凱撒·奧古斯都做到了,那麼我也能做到。”

祖克柏:這確實是一個有趣的觀察,它不僅來自豐富的歷史,也與我們美國的歷史相呼應。我很喜歡畢卡索說的一句話:「所有孩子都是藝術家,挑戰在於長大後如何保持藝術家的身份。」年輕時,我們更容易擁有瘋狂的想法。在你的生活、公司或你所建立的任何事物中,都存在著一種與創新者困境類似的類比。在職業生涯的早期階段,你更容易調整方向,接受新想法,而不會因為對其他事物的承諾而受阻。我認為,這也是經營公司的一個有趣部分:如何保持活力,如何持續創新?



開源價值100億美元的模型


帕特爾:讓我們回到投資者和開源的話題。設想一下,我們擁有一個價值高達100億美元的模型,而這個模型經過了嚴格的安全評估。同時,評估者們也能對模型進行微調。那麼,你會開源價值100億美元的模型嗎?

祖克柏:只要這對我們有利,那麼開源就是值得考慮的選項。


帕特爾:但你真的會這麼做嗎?畢竟,這是投入了100億美元研發成本的模型,現在卻要將其開源。

祖克柏:這是一個我們隨著時間流逝而需要仔細權衡的問題。我們有著悠久的開源軟體傳統。通常來說,我們不會將產品直接開源,例如Instagram的程式碼。然而,我們確實會開源許多底層的基礎設施。例如,我們史上最大的開源專案之一便是開放運算專案(Open Compute Project),我們將伺服器、網路交換器和資料中心的設計全部開源。最終,這為我們帶來了巨大的益處。儘管很多人都能夠設計伺服器,但如今整個產業基本上都以我們的設計為標準。這意味著整個供應鏈都是圍繞著我們的設計建立起來的,從而提高了生產效率,降低了成本,為我們節省了數十億美元。這實在是太好了。

開源可以以多種方式幫助我們。其中一種方式是,如果人們能夠找到更經濟高效地運行模型的方法,那麼這對我們來說將是一個巨大的利好。畢竟,我們在這上面的投入將達到數十億,甚至數百億美元。因此,如果我們能夠提高10%的效率,那麼我們將能夠節省數十億或數百億美元。而且,如果市場上還有其他競爭模型存在,我們的開源行為並不會給予某個模型瘋狂的優勢。相反,它將促進整個行業的進步和發展。


帕特爾:你如何看待模型訓練是否會走向商品化的趨勢?

祖克柏:我認為訓練的發展有多種可能性,其中商品化確實是其中之一。商品化意味著隨著市場上選擇的增多,訓練的成本將大大降低,變得更加親民。另一種可能性是品質的提升。你提到了微調,目前對於許多大型模型來說,微調的選項仍然相當有限。雖然有些選擇存在,但通常並不適用於最大的模型。如果我們能夠克服這項挑戰,實現更廣泛的微調功能,那麼不同應用或特定用例中將能夠展現出更多樣化的功能,或將這些模型整合到特定的工具鏈中。這不僅可以加速開發進程,還可能促成品質上的差異化。

這裡,我想用一個類比來說明。在行動生態系統中,一個普遍存在的問題是存在兩家守門人公司——蘋果和谷歌,它們對開發者建構的內容施加限制。從經濟層面來看,這就像我們在建構某樣東西時,它們會收取高額費用。但更讓我擔憂的是品質層面。很多時候,我們想要發布某些功能,但蘋果會拒絕,這確實令人沮喪。因此,我們需要思考的是,我們是否正在為人工智慧設定一個由少數幾家運行封閉模型的公司主導的世界,它們控制著API,從而決定開發者能夠建立什麼?就我們而言,我可以肯定地說,我們建立自己的模型是為了確保不會陷入這種境地。我們不希望其他公司來限制我們的創新能力。從開源的角度來看,我認為許多開發者也不希望受到這些公司的限制。

因此,關鍵問題在於圍繞這些模型所建構的生態系統會呈現出什麼樣的面貌?將會湧現哪些有趣的新事物?它們能在多大程度上改進我們的產品?我相信,如果這些模型的發展最終能夠像我們的資料庫、快取系統或架構一樣,社群將能夠為其貢獻寶貴的價值,使我們的產品更加出色。當然,我們仍將努力保持獨特性,不會受到太大影響。我們將能夠繼續專注於我們的核心工作,並從中受益。同時,隨著開源社群的發展,所有的系統,無論是我們自己的還是社群的,都將得到改進和提升。

然而,也存在一種可能性,即模型本身最終可能會成為產品。在這種情況下,是否選擇開源就需要進行更為複雜的經濟考量。因為一旦選擇開源,就相當於在很大程度上將自己的模型商品化。但從我目前所觀察到的情況來看,我們似乎還沒有達到那個階段。


帕特爾:你期待透過向雲端供應商授權你的模型來獲得可觀的收入嗎?也就是說,你希望他們支付費用以便在其平台上提供模型服務。

祖克柏:是的,我們確實期待與雲端供應商達成這樣的授權協議,並期望從中獲得可觀的收入。這基本上就是我們為Llama所設定的授權協議。在多個維度上,我們採取了非常寬容的開源授權策略,為社群和開發者提供了廣泛的使用權限。但我們對使用它的最大公司設定了限制。這樣的限制設定並非出於阻止他們使用模型的目的,而是希望他們在打算直接利用我們所建立的模型進行轉售並從中獲取商業利益時,能夠與我們進行溝通和協商。如果是像微軟Azure或亞馬遜AWS這樣的雲端服務供應商,打算將我們的模型作為你們的服務的一部分進行轉售,那麼我們期望能夠從中獲得一定的收入分成。


帕特爾:你關於權力平衡的觀點非常合理,我們確實需要思考如何透過更好的技術對齊或其他方法來消除潛在的危害。我希望Meta能夠建立一個明確的框架,就像其他實驗室所做的那樣,明確在某些具體情況下,開源甚至潛在的部署都是不可行的。這樣的框架不僅有助於公司為潛在的風險做好準備,也能讓人們對此有所期待。

祖克柏:你說得對,關於存在性風險的問題確實值得我們深入關注。然而,目前我們更關注的是內容風險,即模型可能被用於製造暴力、詐欺或其他傷害他人的行為。儘管討論存在性風險可能更具吸引力,但實際上,我們目前更需要投入精力去減輕的是這種更常見的危害。對於目前的模型,甚至可能是下一代模型,我們需要確保它們不會被用於欺詐等惡意行為。作為一家大公司,Meta有責任確保我們在這方面做得足夠好。當然,我們也有能力同時處理這兩方面的問題。


帕特爾:就開源而言,我感到好奇的是,你認為PyTorch、React、Open Compute等開源專案對世界的影響,是否有可能超越Meta在社群媒體上的影響?我曾與這些服務的用戶交流過,他們認為這種可能性是存在的,畢竟網路的大部分運作都依賴這些開源專案。

祖克柏:我們的消費產品確實在全球擁有龐大的使用者基礎,幾乎涵蓋了全世界一半的人口。然而,我認為開源正成為一種全新的、強大的建構方式。它可能會像貝爾實驗室一樣,最初他們研發電晶體是為了實現長途通話,這一目標確實實現了,並為他們帶來了可觀的利潤。但5到10年後,當人們回顧他們最引以為傲的發明時,可能會提到其他更有深遠影響的技術。我堅信,我們建構的許多項目,如Reality Labs、某些AI項目以及一些開源項目,都將對人類的進步產生持久而深遠的影響。雖然具體的產品會隨著時間的推移而不斷發展、出現和消失,但它們對人類社會的貢獻卻是持久的。這也是我們身為技術從業人員能夠共同參與的、令人振奮的部分。


帕特爾:關於你們的Llama模型,它何時會在你們自己的客製化晶片上進行訓練?

祖克柏:很快,我們正在努力推動這項進程,但Llama-4可能不是第一個在客製化晶片上進行訓練的模型。我們的策略是先從處理排名、推薦等類型的推理任務開始,例如Reels、新聞推播廣告等,這些任務之前消耗了大量的GPU資源。一旦我們能夠將這些任務轉移到我們自己的晶片上,我們就能將更昂貴的英偉達GPU用於訓練更複雜的模型。我們期望在不久的將來,能夠使用自己的晶片首先訓練一些相對簡單的模型,並最終拓展到訓練這些龐大的模型。目前,這個計畫正在順利進行中,我們有一個清晰且長遠的規劃,正有條不紊地推進。



假設成為Google+的CEO


帕特爾:最後一個問題:如果你被任命為Google+的CEO,能否帶領它成功?

祖克柏: Google+?噢,我不知道。


帕特爾:好吧,那麼真正的最後一個問題將是:當Google推出Gemini時,你們是否感受到了壓力?

祖克柏:問題在於,Google+並非沒有CEO,它只是Google公司內部的一個部門。在我看來,對於大多數公司,尤其是達到一定規模的企業而言,專注才是至關重要的。新創公司或許在資金上捉襟見肘,它們正在驗證一個想法,可能並未擁有全部所需資源。但隨著業務的發展,企業會跨越某個門檻,開始建立更多的元素,並在這些元素之間創造更多的價值。然而,企業中總是會發生一些出乎意料又令人驚喜的事情,這些都是寶貴的。但總的來說,我認為公司的能力在很大程度上受限於CEO和管理團隊所能監督和管理的事務範圍。因此,對我們來說,保持主要事務的優先地位,並盡可能專注於關鍵事項,是極為重要的。正如風投家本·霍洛維茨(Ben Horowitz)所言:「保持主要的事情才是主要的事情」。 (騰訊科技)