天空之城城主 Web3天空之城 2024-04-19 03:45 中國香港
Web3天空之城
美好, 有趣的, 值得紀念的
109篇原創內容
公眾號
未經授權不得轉載,保留原文出處及公眾號傳送按鈕
文: 天空之城·城主
這或許是小札很久以來最重要的訪談。
Llama3今夜發布,無數AI從業者無眠。
Llama3有三個版本,80億參數,700億參數和4050億參數。最新測試已經表明,已經公佈的Llama3 700億模型性能優於所有已知開源大模型。而最強大的4050億參數版本還在路上...小札也親自確認,最小參數的Llama3 80億和最大參數的上一代Llama2 700億模型性能是同一量級。
這是妥妥的王炸,毫無疑問Llama3的開源進一步深刻影響這個世界AI大模型的格局。
這個關於Meta大模型的長篇訪談在Llama3發布的今天同步發出,說沒有預先計劃是不可能的。這就是Meta小札向全世界的宣言。
在這個長達80分鐘2萬字的訪談裡,基本上所有內容都圍繞著Llama3 展開。大家可想而知這裡包含多少乾貨內容。
為什麼一定要開源最強大的模型?Me ta如何從開源模式賺錢?小札做出這些重大開源決定的初心是什麼?如果考慮開源模型的風險問題?
有太多值得關注的問題在這個訪談裡得到了詳細的解答。
所有關心AI的人都不應該錯過這個採訪。強烈推薦。
Web3天空之城
,贊71
B站傳送門:【【精校】馬克‧祖克柏:Llama3,價值百億美金的開源模型|最新訪談完整版2024.4.19【中英】-嗶哩嗶】
https://b23.tv/tp6ZtBb
在這個訪談裡,祖克柏首先介紹了Meta.ai的最新進展,包括模型升級、新的創作功能以及即時知識的整合。他重點推出了Llama 3模型,認為這是最聰明的AI助理,並且可以免費使用。談到Meta.ai的發展歷程,他提到了購買H100的決定以及如何處理資訊流推薦的挑戰。此外,他也討論了Meta的估值問題,以及如何基於個人信念和價值觀做出重大決策。
祖克柏強調,AI已成為Meta的核心,並創建了FAIR(Facebook人工智慧研究)來推動創新,改善所有產品。他提到,ChatGPT和圖像創建模型的出現改變了人們與應用程式的互動方式。儘管人們可能並未直接向模型提出編碼問題,但對模型進行編碼訓練可以幫助它們更嚴謹地回答問題,推理出許多不同領域的問題。
談到Llama 3,祖克柏強調了大量編碼訓練的重要性,即使人們的主要問題並非編碼。他認為,AI的任務不僅僅是回答問題,而是需要更全面地思考,這實際上已經變成了一個推理問題。他也提到,AI在大多數方面超越人類的可能性取決於模型的強大程度,並強調了多模態性和情感理解的重要性。
對於Llama模型的未來發展,祖克柏提到了Llama 4的可能性,以及他對社區微調最興奮的部分的看法。他也討論了對模型大小的看法,以及使用GPU訓練大型模型的想法,強調了推理計算的重要性,尤其是在服務大規模社區時。
在AI模型的訓練和發展方面,扎克伯格提到已經使用了大量數據進行訓練,並發現即使在訓練了700億個Token後,模型仍在學習和改進。他也討論了訓練過程中需要做出的決策,如GPU的使用、是否繼續訓練模型或開始測試新假設等。他指出,訓練大型AI模型可能面臨資本和能源限制等挑戰。
展望AI的未來,扎克伯格認為AI將像計算的創造一樣從根本上改變我們的生活,帶來許多以前不可能的新應用。然而,他也指出這個過程可能會遇到許多物理限制,不太可能在一夜之間發生。
在談到AI對人類社會的影響時,祖克柏認為AI的出現與人類演化同等重要,可能會改變人類的獨特性。他認為,AI可能發展成為一個與意識和行為完全分離的有價值工具。他強調了開源的重要性,認為它對社區和我們都有好處,因為我們會從創新中受益。但如果AI的能力發生了質的變化,開源可能是不負責任的。
祖克柏也討論了AI可能帶來的風險,包括AI的負面行為,以及被不信任的人或對手掌握的風險。他認為,擁有優秀的開源AI,使其成為標準,可能是緩解這種情況的最佳方法。他也提到了生物武器的風險,以及可能的緩解措施。
在公司營運方面,祖克柏討論了風險平衡,以及如何透過AI系統打擊網路上的有害內容。他提到AI在處理仇恨言論和誤報問題上的優勢和潛力,以及AI在應對國家級網絡幹預方面的策略。
除了AI,祖克柏也談到了元宇宙的概念及其在歷史教育、社交、工作等方面的潛力。他強調了創新的重要性,以及如何將事物從物理約束領域轉移到軟體中。
最後,祖克柏分享了他19歲時對古代和古典作品的閱讀,特別是從羅馬皇帝奧古斯都試圖建立和平的故事中學到的重要課程。他強調了開源對科技領域和投資者理解的影響,以及年輕人創新思維的重要性。他還討論了開源模型的可能性、商品化和品質改進,以及如何透過協調技術消除開源的潛在危害。
祖克柏認為,像是PyTorch、React、Open Compute等開源專案可能對世界的影響甚至超過Meta在社群媒體上的影響。他還透露了在定制晶片上訓練Llama模型的計劃,以提高處理排名和推薦類型內容推理任務的效率。
在管理方面,祖克柏強調了執行長和管理團隊組織能力的重要性,引用了本·霍洛維茨的話,強調了把主要的事情放在首位,並儘量專注於關鍵優先事項的重要性。
總體而言,祖克柏在這次訪談中全面闡述了他對AI發展的看法,以及Meta在AI領域的佈局和規劃。他既看到了AI的巨大潛力,也意識到了其中的風險和挑戰。他強調了開源和創新的重要性,同時也提出了一些應對AI風險的策略。此外,他也分享了自己的感悟和管理心得,全面展現了一位科技領袖的深度思考。
=以下是訪談全文的天空之城書寫整理版=
主持人:馬克,歡迎你參加播客節目。
祖克柏:嘿,謝謝你的邀請。我非常喜歡你的播客。
哦,謝謝你。你這麼說真是太好了。
好的,讓我們先談談這次採訪結束後將發布的版本。告訴我關於模型的事情。告訴我關於Meta.ai的事情。有什麼新的東西?它們有什麼令人興奮的地方?
是的,當然。我認為世界上大多數人將看到的主要內容是Meta.ai的新版本。我們正在做的最重要的事情是升級模型。我們正在推出Llama 3。我們既將其作為開源軟體提供給開發者社區,現在它也將為Meta.ai提供支援。所以,我相信我們會圍繞Llama 3進行大量討論。
但我認為最重要的是,有了Llama 3,我們現在認為Meta.ai是人們可以免費使用的最聰明的AI助理。我們還整合了Google和Bing以獲取即時知識。我們將在我們的應用程式中使其更加突出。因此,基本上,在WhatsApp、Instagram、Facebook和Messenger的頂部,你只需使用那裡的搜尋框即可提出任何問題。
我們添加了許多新的創作功能,我認為這些功能非常酷,人們會喜歡。我認為動畫是一個很好的功能。你基本上可以拍攝任何圖像並為其製作動畫。但我認為人們會發現它非常瘋狂的一點是它現在可以如此快速地產生高品質的圖像。我不知道你是否有機會玩這個,它實際上在你輸入時生成並即時更新。所以你就像輸入查詢一樣,它有點像磨練。而且,好吧,給我看一張牛在田野裡的照片,背景是山脈。就像一切都很流行。吃澳洲堅果。是的,吃澳洲堅果,喝啤酒。而且就像即時更新影像一樣。這很瘋狂。
我認為人們會喜歡的。我認為世界上大多數人都會看到這一點。我們正在進行全球推廣,但並非一蹴而就,而是從少數國家開始,預計在未來幾週和幾個月內將擴展到更多的國家。我認為這將是一項重大的工作,我非常高興能將其推向市場。這是MetAI向前邁進的一大步。然而,如果你想深入了解,我認為Llama 3在技術上最引人入勝。
對於我們的首個版本,我們實際上訓練了三個版本,分別是80億、700億和4050億的密集模型,其中4050億的模型仍在訓練中,因此我們今天並未發布。然而,對於80億和700億的模型,我對其結果感到非常興奮。它們在規模方面處於領先地位。我們將發布一篇包含所有基準的部落格文章,以便人們可以自行查看。顯然,它是開源的,因此人們有機會使用它。
我們有一個新版本的路線圖,這些新版本將為現有版本帶來多模態性、更多語言性和更大的上下文視窗。然後,我們希望在今年稍後推出4050億的車型,儘管它仍在訓練中,但就目前的訓練水平而言,它已經達到約85 MMLU。我們預計它將在許多基準測試中擁有領先的基準。因此,我對所有這些都感到非常興奮。 700億的模型也非常出色,我們今天發布了它。它大約是82 MMLU,在數學和推理方面擁有領先的分數。因此,我認為只要把它交到人們手中,它就會非常瘋狂。
有趣的是,這是我第一次聽到這樣的基準測試,這真是令人印象深刻。
是的,80億的車型幾乎與我們發布的最大版本的Llama2一樣強大。因此,最小的Llama 3基本上與最大的Llama2一樣強大。
在我們深入研究這些模型之前,我實際上想回到過去。我假設2022年是你開始購買這些H100的時候。你可以告訴我什麼時候。是的,你覺得股價正在遭受重創。人們想知道,所有這些資本支出發生了什麼?人們沒有購買元宇宙。你可能正在用這些資本支出來購買這些H100。那時,你怎麼知道要買H100?你怎麼知道我們需要GPU?
我想是因為我們想研究資訊流推薦,我們陷入了一種情況,我們總是希望有足夠的能力來建立一些我們尚無法預見的東西。我們進入了這種境地,需要更多的GPU來訓練模型,這對我們的服務來說是一個巨大的進步,我們不再只是對你關注的人、你的朋友和你關注的任何頁面的內容進行排名,我們大力推廣所謂的無關聯內容。基本上,就是來自你未追蹤的人或頁面的內容。因此,現在我們可以向您展示的內容候選語料庫已經從數千個擴展到數億個。因此,基礎設施完全不同,我們已經開始著手處理這個問題。我們受到基礎設施的限制,必須盡快趕上TikTok的發展速度。
我仔細考慮了一下,然後想到,我們必須確保我們永遠不會再遇到這種情況。因此,我們需要購買足夠的GPU來完成我們在滾動、內容和資訊流排名方面需要做的事情。但我們也需要將其翻一番,因為,再次強調,就像我們的正常原則一樣,地平線上總是會出現一些我們目前無法看到的東西。
你是否知道這會是人工智慧?
我們認為這會是與訓練大型模型有關的事情。但當時,我認為這可能與內容有關。但我並不確定,這幾乎只是模式匹配,經營公司總是有其他事情要處理。所以我什至不確定當時我是否深入研究,只是試圖讓推薦適用於滾動和其他內容。
這對Instagram和Facebook來說是一個很大的解鎖,現在能夠向人們展示他們感興趣的內容,這些內容來自他們甚至沒有關注的人。但是,回想起來,我認為這最終是一個非常好的決定。
這個決定源自於我們之前的落後。所以那時我並不是遙遙領先。實際上,我認為大多數時候我們做出一些最終看起來不錯的決定是因為我們之前搞砸了某件事,只是不想重複這個錯誤。
這可能有些離題,但我實際上想趁此機會問一下這個問題。我們稍後再回到人工智慧的話題。所以你並沒有損失10億美元,但你可能會以某個價格出售,對嗎?你有沒有在腦中寫下,我認為Facebook當時的實際估值是這個,而他們實際上並沒有得到正確的估值?
到了5兆美元,當然你會選擇賣。我真的不知道。我認為其中一些事情只是個人問題。我當時不知道我是否夠老練來做那種分析。
但我周圍的人都在爭論,十億美元到底是多少,這就是我們需要賺取的收入。這就是我們需要達到的規模。而且,這顯然是未來很多年的事。它遠遠超出了我們當時的水平。而且我不知道,我真的沒有足夠的財務知識來真正參與這種辯論。
我只是,我想我內心深處相信我們正在做的事情。我做了一些分析。我想,如果我不做這個,我會做什麼?我真的很喜歡建造東西。我喜歡幫助人們交流。我喜歡了解人們正在發生的事情以及人與人之間的動態。因此,我在思考,如果我將現有的公司出售,我可能會去創立另一家類似的公司。我對我現在擁有的公司有一種特殊的熱愛。那麼,為什麼會這樣呢?我也不清楚。人們往往會基於自己的信念和價值觀來做重大的決策。實際上,嘗試分析並將這些因素聯繫起來通常是非常困難的。
你已經對Facebook的人工智慧進行了長期的研究。現在,它似乎已經成為你們公司的核心。那麼,在什麼時候,製造AGI或其他的東西,無論你如何看待這個使命,這成為Meta正在做的事情的關鍵優先事項了呢?
是的,這已經是一件大事了。
大約10年前,我們創立了FAIR。我們的想法是,在通用智慧或人工智慧(如全人工智慧)的道路上,無論你想叫它什麼,都可以有各種各樣的創新,這將改善我們所做的一切。因此,我們並沒有把它設想成一種產品,而是更像一個研究小組。在過去的10年裡,它創造了很多不同的東西,基本上改進了我們所有的產品,並推動了該領域的發展,允許該領域的其他人創造一些東西,也改進了我們的產品。因此,我認為這很棒。但顯然有很大的變化。
在過去的幾年裡,隨著ChatGPT的出現,圍繞著影像創建的模型也隨之出現。這是一些非常瘋狂的東西,我認為它們顯然會影響人們與每個應用程式的互動方式。因此,在那時,我們成立了第二個小組,即Gen AI小組,目標是將這些東西引入我們的產品。因此,建立領先的基礎模型,為所有這些不同的產品提供動力。
最初,當我們開始這樣做時,最初的理論是,嘿,我們做的很多事情都非常社交化。因此,幫助人們與創作者互動,幫助人們與企業互動,以便企業可以銷售產品或提供客戶支援。或者基本的助手功能,無論是用於我們的應用程式、智慧眼鏡、VR還是所有這些不同的東西。因此,最初,我們並不完全清楚是否需要完整的AGI才能支援這些用例。但是,透過研究它們,我認為實際上已經很清楚你需要。
所有這些微妙的方式。例如,對於Llama 2,當我們在開發它時,我們沒有優先考慮編碼。我們沒有優先考慮編碼的原因是因為人們不會在WhatsApp中向Meta AI詢問很多編碼問題。
不,他們會。
我不知道。我不確定WhatsApp是否是人們會問很多編碼問題的UI。所以,我們好吧,看,就那些…或Facebook或Instagram或那些不同的服務而言。也許是網站,我想是我們正在推出的Meta.ai。
然而,我認為在過去的18個月裡,有一個令人驚訝的發現,那就是編碼在許多領域都顯得至關重要,而不僅限於編碼本身,因此,即使人們並未直接向模型提出編碼問題,對模型進行編碼訓練也能幫助它們更嚴謹地回答問題,推理出許多不同類型的領域。
以Llama 3為例,我們確實專注於使用大量編碼來訓練它,因為即使人們主要的問題並非關於編碼,這種訓練方式也能使其在各個方面的表現更加出色。
我認為推理是另一個例子。例如,你可能想要與創作者進行交談,或者作為一家企業,你可能想要與客戶互動。這種互動不僅僅是對方給你發了一條訊息,你只是回复,這是一種多步驟的互動,你需要仔細思考,如何實現對方的目標?
很多時候,當客戶來的時候,他們可能不清楚他們在尋找什麼,也可能不知道如何提問。所以,人工智慧的任務並不僅僅是回答問題。你需要更全面地思考這個問題。這實際上已經變成了一個推理問題,
因此,如果其他人已經解決了推理問題或在推理方面取得了很大進步,而我們只是坐在這裡開發一個基本的聊天機器人,那麼我們的產品與其他人的產品相比就顯得很差勁。
所以,我們最終意識到我們必須解決通用智能問題。我們只是加大了賭注和投資,以確保我們能夠做到這一點。
那麼,Llama的版本是否能夠為使用者解決所有這些用例,這個版本是否強大到足以取代這棟大樓裡的程式設計師?
我認為所有這些都會隨著時間的推移而進步。
但是,如果是Llama 10呢?
我認為這個問題有很多層面。我不確定我們是在取代人,還是在為人們提供工具來做更多的事情。
在Llama 10之後,這棟大樓裡的程式設計師的生產力是否會提高10倍?
我希望能提高更多。但是,我並不認為人類存在一個單一的智力門檻,因為人們擁有不同的技能。
在某種程度上,我認為人工智慧可能會在大多數方面超越人類,這取決於模型的強度。但我認為這是一個漸進的過程。我並不認為AGI(人工通用智能)是一蹴可幾的。我認為你基本上是在添加不同的功能。
因此,多模態性是我們現在關注的關鍵問題,最初是照片、圖像和文本,但最終是影片。然後,因為我們非常關注元宇宙,所以3D類型的東西很重要。
我非常關注的一種模態,我還沒有看到業內其他人關注這一點,那就是情感理解。
人類大腦的大部分都致力於理解人,理解你的表情和情緒。我認為這就像它自己的整個模態,你可以說,好吧,也許它只是視頻或圖像,但它顯然是這兩個的非常專業的版本。
所以你基本上想要訓練模型專注於所有這些不同的能力,同時也要提高推理能力和記憶能力,我認為這本身就是一個整體。未來我們不會主要依賴將上下文或其他資訊填入查詢上下文視窗以提出更複雜的問題。我預見到,我們可能會有不同的記憶儲存方式或不同的自訂模型,這些模型可能更適合人們的需求。然而,我並不確定,我只是認為這些都是不同的可能性。顯然,我們會根據需要對這些可能性進行擴大或縮小。
我們關注這些問題,因為我們希望,如果你運行的是類似META AI這樣的系統,我們就有能力處理,這主要是基於伺服器的。但我們也希望它能在智慧眼鏡上運行,而智慧眼鏡的空間有限。因此,你需要一個非常有效率的系統。
如果你在工業規模上使用智慧進行價值數百億美元,甚至最終價值數千億美元的推理,那麼用例是什麼?是模擬嗎?是元宇宙中的人工智慧嗎?我們將如何利用資料中心?我們預計這將改變所有產品,
因此,我認為會有META AI通用助理產品。我認為這將從一個類似聊天機器人的形式轉變為你只需提出一個問題,它就能給出答案的形式,你可以給它更複雜的任務,它會去完成這些任務。因此,這需要大量的推理,也需要大量的計算和其他方式。
我們要做的很大一部分就是與其他人的代理人互動。無論是企業還是創作者,我認為我的理論主要是,你不會只與單一的人工智慧互動。因為我認為每個企業都希望有一個代表他們利益的人工智慧。他們不會想主要透過一個銷售競爭對手產品的人工智慧與你互動。
是的,我認為創作者將會是一個很大的群體。我們的平台上大約有2億創作者。他們基本上都有一種模式,他們希望與他們的社區互動,但他們的時間有限。因此,如果你能創造一些東西,讓創造者基本上可以擁有人工智慧,並以他們想要的方式訓練它,並讓他們的社區參與進來,我認為這也會非常強大。所以我認為所有這些事情都會有大量的參與。
但這些只是消費者用例。當你想到這樣的東西時,我和妻子經營著我們的基金會,一個陳·祖克柏計劃,我們在科學上做了很多事情。顯然,我認為許多人工智慧工作都會推動科學和醫療保健以及所有這些事情的發展。所以我知道,我認為這最終會影響到產品和經濟的每個領域。
你提到的AI可以為你做一些多步驟的事情。這是一個更大的模型嗎?你會製作像Llama4這樣的版本,它仍然是70B,但你只需在正確的數據上訓練它,它就會非常強大。進展是什麼樣的?它會擴展嗎?它只是大小相同,但像你所說的那樣有不同的區分嗎?
我不知道我們是否知道答案。所以我認為似乎是一種模式,那就是你有Llama模型,然後你圍繞它構建某種其他特定於應用程式的程式碼,所以其中一些是針對用例的微調,但其中一些只是邏輯,好吧,例如,我們應該如何整合MetAI,或者它應該如何與Google 或Bing 等工具配合使用以帶來即時知識。這並不是基本Llama模型的一部分。對於Llama2,我們設計了一些這樣的功能,這些功能更像是手工設計的。然後,我們的目標之一是將更多這樣的功能帶入Llama3 的模型本身。
然而,對於Llama3,隨著我們開始更多地研究這些類似代理的行為,我認為其中一些將更加手工設計。然後,我認為我們對Llama4 的目標將是將更多這樣的功能帶入模型。因此,我認為在每個階段,就像沿途的每一步,你都會對未來可能發生的事情有一種感覺。你開始擺弄它並破解它。然後我認為這有助於你磨練你的直覺,了解你想嘗試訓練到模型本身的下一個版本中的內容,這使得它更加通用,因為很明顯,你手工編碼的任何東西都可以解鎖一些用例,但它本質上是脆弱的和非通用的。
當您說進入模型本身時,您會根據模型本身中想要的東西進行訓練。但是您所說的進入模型本身是什麼意思?
我認為就像我為Llama2舉的例子一樣,我們真的…對於Llama 2,工具的使用非常非常具體。而Llama 3 有能力…有更好的工具使用,所以我們不必手動編寫所有內容以使其使用Google 進行搜尋。它只是可以做到這一點。所以,對於編碼和運行程式碼以及諸如此類的東西也是如此。
一旦你掌握了這種能力,你就會知道,好吧,我們接下來可以做什麼?好吧,我不一定想等到Llama 4 出現後才開始建立這些功能,所以讓我們開始破解它。這樣你就可以進行大量的手動編碼,這會使產品在過渡期內變得更好。但這也有助於展示我們想要嘗試建立到模型的下一個版本中的方式。
您對Llama 3社群微調中最讓您興奮的部分是什麼?這可能不是對您最有用的部分,但您會非常喜歡嘗試和玩耍它。他們喜歡在古物上微調,那麼,您對什麼感到興奮?
我其實並不確定。你可能會對我們可能構建的任何有價值的具體事物感到驚訝,因此,我認為你可能會得到一個精簡版,一個更小的版本。我認為有一件事是…80億,對於許多用例來說,這個數字可能還不夠小,隨著時間的推移,我很想看到一個擁有十億參數的模型,或者一十億參數的模型,甚至可能是一個五億參數的模型,看看我們能用它做些什麼。
因為當他們開始擁有80億個參數時,我們的模型基本上就和最大的Llama2模型一樣強大了。那麼,如果有了10億個參數,你應該可以做一些有趣的事情,對嗎?而且速度更快,這對於分類或理解用戶查詢意圖並將其提供給最強大的模型以磨練提示等基本任務都非常有利。
所以我不確定,我認為這是社區可能可以幫助我們解決的問題。但我們也在考慮自己去提煉其中的一些。但現在,我們正在用GPU訓練4050億參數Llama3。
好的,所以你有所有這些GPU。我記得你說到今年年底會有35萬個。
那是我們的整個艦隊。我們建立了24,000個集群,這些集群是我們用於訓練大型模型的單一集群。顯然,在我們做的很多事情中,很多資源都用於訓練,例如Reels模型、Facebook新聞提要和Instagram提要。然後推理對我們來說是一件大事,因為我們服務的用戶非常多。因此,由於我們服務的社區規模龐大,我們所需的推理計算與訓練的比率可能比大多數其他做這些事情的公司高得多。
是的,他們之前與我分享的材料非常有趣,你們用比訓練時計算最優值更多的數據來訓練它,因為推理對你們和社區來說都是一件大事,所以有這個東西並在裡面放一兆個Token是有意義的。
是的,是的。我們發現的一個有趣的事情是,即使有700億個Token,我們也認為它會變得更加飽和。就像我們在大約15萬億個Token上訓練它一樣。我想我們一開始的預測是它會越來越接近,但即使到了最後,它仍然在學習,對嗎?就像我們可能可以給它更多的Token,它會變得更好一些。
但在某個時候,你在經營一家公司,你需要解決這些元推理問題,例如,好吧,我應該如何使用我們的GPU來進一步訓練700億個模型?我們是否應該繼續進行下去,以便開始測試Llama 4的假設?因此,我們需要做出這個決定。我認為我們已經做到了。我認為我們在這個700億的版本中取得了合理的平衡。
未來還會有其他版本,700億的多模式版本將在下一階段推出。然而,目前的架構能夠處理如此大量的數據,這真是令人著迷。
這確實非常有趣。那麼,這對未來的模型意味著什麼?你提到Llama 3 8B比Llama2 70B好嗎?
它幾乎一樣好。我並沒有誇大其詞,它們在同一個數量級。
但是,這是否意味著Llama 4 70B將與Llama 4050B一樣好?
這是一個很好的問題,我認為沒有人知道。這是世界上最難規劃的事情之一,當你面對的是指數曲線時,它會持續多久?我認為它很可能會繼續下去,值得投資100億或1000多億美元來建造基礎設施,假設如果這種情況持續下去,你將會得到一些真正令人驚嘆的東西,這些東西將製造出令人驚嘆的產品。
但我認為業內沒有人能真正告訴你它肯定會以這種速度繼續擴大。一般來說,在歷史上,你會在某些時候遇到瓶頸。現在人們投入瞭如此多的精力,也許這些瓶頸很快就會被打破。但我不知道。我認為這是一個有趣的問題。
如果沒有這些瓶頸,世界會是什麼樣子?假設進步以這種速度繼續下去,這似乎是合理的,就像縮小一樣。會有不同的瓶頸。所以如果不是訓練,就是基礎建設。
我認為在過去幾年的某個時候,我認為有GPU生產的問題。因此,即使有錢購買GPU的公司也不一定能得到他們想要的數量,因為有所有這些供應限制。現在我認為供應量正在減少。所以現在我認為你看到很多公司在想,哇,我們應該真的投入大量資金來建立這些東西。
我認為這種情況會持續一段時間。我認為有一個資本問題,例如,好吧,什麼時候投入資本不再值得?但我認為在我們達到這一點之前,你會遇到能源限制。因為我認為還沒有人建造過千兆瓦的單一訓練集群。然後你會遇到這些最終在世界上變得更慢的事情,例如獲得能源許可就像一個受到嚴格監管的政府職能。
對,所以一方面,你要從軟體開始,軟體在某種程度上受到監管。它受到的監管比科技界許多人認為的要多,儘管如果你創辦一家小公司,情況顯然會有所不同。如果你是一家大公司,你可能會感覺不那麼受監管。我們只是與人互動,不同的政府和監管機構,我們有很多規則需要遵守,確保我們在世界各地做得很好。毫無疑問,能源產業與我們正在討論的問題有許多相似之處。如果你要建造大型新發電廠或大型建築,然後建造穿越其他私人或公共土地的輸電線路,這無疑是一件受到嚴格監管的事情。因此,你需要準備多年的時間。如果我們想建立一個大型設施來供電,我認為那是一個非常長期的專案。
我不知道人們是否會這麼做。我不認為這是一件神奇的事情,你獲得了一定程度的人工智慧,獲得了大量資本,然後投入其中。然後突然之間,模型就會變得像它一樣,我認為你在這過程中會遇到不同的瓶頸。
我想問,是否有一個項目,可能與人工智慧有關,也可能無關,甚至像Meta 這樣的公司也沒有資源來做?例如,如果你的研發預算或資本支出預算是現在的10 倍,那麼你就可以追求它。這個項目可能在你的腦海中,但今天的Meta,也許你會喜歡,因為你甚至不能為它發行股票或債券。它就像你的預算的10 倍。
我認為能源是其中的一部分。如果我們能夠獲得能源來做到這一點,我們可能會建立比現在更大的集群。所以我認為這根本就是資金瓶頸。例如如果你有一萬億美元,我認為是時候了,
如果你從這個角度來看,但這取決於指數曲線的走向,許多公司正在努力,我認為很多資料中心的功率都在50 兆瓦或100 兆瓦左右,或者像一個大數據中心可能達到150 兆瓦。所以你拿一整個資料中心,把你需要做的所有訓練的東西都填滿它,然後你就可以建立最大的叢集。我認為很多公司都在做這樣的事情。
但當你開始建造一個300 兆瓦、500 兆瓦或1 千兆瓦的資料中心時,還沒有人建造過一個千兆瓦的資料中心。所以我認為這會發生,這只是時間問題,但不會是明年。我認為其中的一些事情需要花費幾年的時間才能完成。
然後問題是,如果你把這個放在一個角度來看,我認為千兆瓦,就像一個有意義的核電廠的大小,只用來訓練一個模型。亞馬遜不是這樣做了嗎?他們有一個950 千兆瓦的東西。我不太確定做了什麼。你必須問他們,他們做了什麼。但它不必在同一個地方,如果分散式訓練有效,它可以是分散式的。我認為這是一個大問題。
對,基本上就是它將如何運作。我確實認為,在未來,我們所說的這些大型模型的訓練似乎更有可能沿著推理生成合成資料的路線前進,然後將其輸入到模型中。因此,我無法確定這個比例會是多少,但如今,合成資料的產生更依賴推理,而非訓練。然而,顯然如果你的目的是為了訓練模型,那麼它就成為了更廣泛的訓練過程的一部分。
我不確定,這是一個待解的問題,即平衡點在哪裡,以及它如何發揮作用。
如果是這樣,那麼Llama-3是否也可能如此?也許在Llama-4等之後,你推出了它,如果有人擁有大量的運算能力,那麼他們就可以使用你推出的模型,使這些東西變得更聰明。例如,科威特、阿聯酋或其他任何擁有大量運算能力的國家,他們實際上可以使用Llama-4來使某些事物更聰明。
我確實認為會有這樣的動態存在。但我也認為,網路架構或模型架構存在根本的限制。
因此,我認為我們用Llama-3架構訓練的700億模型可以變得更好。它可以繼續發展。正如我所說,我們認為如果我們繼續向它輸入更多的資料或再次輪換高價值Token,它就會繼續變得更好。
我們已經看到,世界各地的許多人和不同的公司基本上都在使用Llama-2的700億基礎,例如採用該模型架構,然後建立新模型。當你對Llama-3的700億或Llama-3的405進行代際改進時,情況仍然如此,今天還沒有開源的類似產品。這是一個巨大的步驟函數,我認為人們在其基礎上能夠建立的東西不能無限地從那裡發展。我認為在你進入下一個步驟函數之前,可以進行一些最佳化。
是的。好的,讓我們稍微縮小一下具體模型,甚至看一下獲得能源批准等所需的多年準備時間。從大局來看,未來幾十年,人工智慧會發生什麼事?它感覺像是另一種技術,如元宇宙或社交,還是感覺像是人類歷史進程中完全不同的東西?
我認為它將是非常根本的。我認為它將更像最初計算的創造。
因此,你會得到所有這些新應用程序,就像你得到網絡或手機一樣,你會覺得人們基本上重新思考了所有這些體驗,很多以前不可能的事情現在都成為可能。
我認為這會發生。但我認為這是一種基礎創新。在我看來,這更像是從沒有電腦的人到有電腦的人。
但我不知道,很難推斷出這究竟是如何進行的。我傾向於認為,在宇宙尺度上,顯然,它會在幾十年內迅速發生。有些人擔心,它真的只是在一夜之間從有點聰明變成非常聰明。所有這些物理限制使得這種情況不太可能發生。我真的不認為那會發生。
所以我認為你會有時間去適應一點,但它確實會改變我們的工作方式,並為人們提供所有這些創造性的工具來做不同的事情,是的,我認為它將真正使人們能夠做他們更想做的事情,這是我的觀點。
好吧,也許不是一夜之間,但你認為在宇宙尺度上,如果你認為人類進化了,然後人工智慧出現了,然後他們穿越了銀河系,或者可能需要幾十年,也許需要一個世紀,但就就像現在歷史上正在發生的事情一樣,這是不是宏偉的計劃?
儘管存在其他技術,例如計算機,甚至像火這樣的發明,但我認為人工智慧的出現與人類進化的重要性相當。
這個問題我覺得很複雜。我認為人們喜歡研究人類歷史,他們基本上認為人類在某些方面是非常獨特的,然後開始接受這樣一個事實,即人類並不像我們想像的那樣獨特,但實際上,人類仍然具有很多特殊之處。是的,就像我們曾經認為地球是宇宙的中心。事實證明並非如此,但人類仍然是非常了不起的,而且我們也是非常獨特的。
我認為人們有另一種偏見,那就是他們認為智能在某種程度上與生命有著根本的連結。但實際上,我們並不清楚這是否真的如此,
人們可能會認為,我們對於意識或生命的定義並不夠清晰,無法完全探討這一點。但我知道有很多科幻小說都描述了這樣的情景,即你創造了智能,然後它開始表現出所有這些類似人類的行為。但實際上,我認為所有這些東西的當前形態,至少在某種程度上,它們正在朝著一個方向發展,即智能可以與意識和行動等東西完全分離,我認為這只是讓它變得非常有價值的工具。所以我不知道。很明顯,很難預測這些東西隨著時間的推移會朝什麼方向發展,這就是為什麼我認為任何人都不應該教條式地認為他們計劃如何開發它或他們計劃做什麼。
我認為你應該關注每個版本,我們顯然非常支持開源。是的。但我還沒有承諾我們會發布我們所做的每一件事。但基本上,我通常非常傾向於認為開源對社群和我們都有好處,因為我們會從創新中受益。
但如果在某個時候,某樣東西的能力發生了一些質的變化,我們覺得開源是不負責任的,那麼我們就不會開源。但我不知道。這一切都很難預測。
什麼是質變,例如一個具體的事物,你正在訓練Llama4,你已經看到了這一點,即不確定是否要開源它。
從抽象的角度回答這個問題有點困難,因為任何產品都可能表現出負面行為,只要你能減輕它的影響,那就沒問題了, 所以,社交媒體有一些不好的地方,我們會努力減輕, Llama2 也有一些不好的地方,我們花了很多時間試圖確保它不會幫助人們實施暴力行為或類似的事情,
這並不意味著它是一種自主或智慧的代理。這只是意味著它對世界了解很多,它可以回答一系列我們認為對它沒有幫助的問題。所以我不知道。我認為問題不是它會表現出什麼行為,而是在它表現出這些行為之後,我們無法減輕任何行為。
好壞參半的方式太多了,很難一一列舉。如果你看看我們在社群媒體上遇到的各種危害,你會發現人們所做的有害事情有18 或19 類。我們基本上已經建立了人工智慧系統,試圖識別人們正在做的事情,並盡可能確保這種情況不會發生在我們的網路上。
所以,是的,我認為隨著時間的推移,你可以將其分解成更多的分類法。我認為這也是我們花時間研究的事情,因為我們想確保我們理解這一點。在我看來,如果未來人工智慧系統沒有廣泛部署,而且不是每個人都能使用它們,我會感到失望。同時,我也希望能更深入了解緩解措施。因為如果緩解只是微調,那麼開放權重的全部意義就在於你可以去除微調,而微調往往只是這些能力的表面現象。
如果這就像在Slack 上與生物學研究人員交談,我認為模型與此相去甚遠。現在,它們就像谷歌搜尋。但我可以向他們展示我的培養皿,他們可以解釋,這就是你的天花樣本沒有生長的原因。這就是需要改變的地方。你如何緩解這種情況?因為有人可以在那裡微調它,
我認為很多人基本上會使用現成的模型。而一些基本上不誠實的人會試圖去除所有不好的東西。所以我認為這是一個問題。另一方面,這也是我如此支持開源的原因之一,我確實認為未來人工智慧的集中化可能會像人工智慧的廣泛傳播一樣危險。
我認為很多人都在思考這樣的問題:如果我們能做這些事情,那麼讓它們廣泛使用是否不好?我認為另一個版本是,如果一個機構擁有的人工智慧比其他機構的人工智慧強大得多,那可能也很糟糕。
我想到的一個安全類比是,不只是人工智慧,很多不同的東西都有安全漏洞。如果你能回到一年或兩年前,那就不是人工智慧。就像你只是比現在多了一兩年的安全漏洞知識。
這幾乎就像任何系統一樣容易被駭客入侵,因此,相信一個非常聰明的人工智慧可能能夠識別一些漏洞,並且基本上像人類一樣,有可能回到一兩年前並破壞所有這些系統,這並不是太牽強。那麼,我們作為一個社會應該如何應對這個問題呢?
開源軟體是解決這個問題的一個重要部分,它使得當對軟體進行改進時,它不會僅限於一家公司的產品,而是可以廣泛部署到許多不同的系統中,無論是銀行、醫院還是政府系統。而且,隨著軟體的強化,每個人都可以喜歡,這是因為更多的人可以看到它,更多的人可以攻擊它。而且這些東西的工作原理是有標準的。世界有可能在短時間內共同升級。在一個人工智慧被廣泛部署的世界中,隨著時間的推移,它會逐漸變得更加強大,所有不同的系統都會受到控制。在我看來,這種情況比一個人工智慧更集中的世界要健康得多。
然而,這其中也存在風險。這是一種風險,但人們很少討論它。有一種風險,那就是,如果人工智慧系統做了壞事怎麼辦?我更擔心的是,如果有一些你不信任的人,無論他們在哪裡,如果他們擁有超強的人工智慧,無論是其他政府,還是我們國家的對手,或者你不信任的公司,或者其他什麼。我認為這可能是一個更大的風險。
他們可能會利用這種超強的人工智慧來推翻我們的政府,因為他們擁有別人沒有的武器,這可能會造成很多混亂。我認為直覺是,這些東西最終會變得非常重要,而且對經濟、安全和其他方面都有價值。我不知道,我只是覺得,如果你不信任的人或你的對手得到了更強大的東西,那麼我認為這可能是一個問題。
我認為緩解這種情況的最佳方法可能是擁有優秀的開源人工智慧,使其成為標準。在很多方面,它可以成為領導者。這樣一來,它就確保了這是一個更公平、更平衡的競爭環境。是的,這對我來說似乎是可行的。如果成功的話,那將是我喜歡的未來。
我想從機制上理解,如果有人要用人工智慧系統製造混亂,世界上還有其他開源系統這一事實如何防止這種情況發生,例如有人帶著生物武器來襲?是我們會在世界其他地方進行大量研發,以便快速研發出疫苗?發生了什麼事?
如果你以電腦為例,我剛才談到的安全問題,我認為一個人工智慧較弱的人試圖入侵一個受人工智慧較強保護的系統,成功率會更低。所以,這就像是……我們怎麼知道世界上的一切都是這樣?
不,我不知道世界上的一切都是這樣。我想,這是其中之一……生物武器是我認為最擔心這個問題的人關注的領域之一。而且,我認為考慮這一點很有意義。
我認為有一些緩解措施,你可以嘗試不將某些知識訓練到模型中,有不同的事情。但是,這是某種程度的。如果你遇到了一個足夠糟糕的演員,而你沒有其他人工智慧可以平衡他們,了解正在發生的事情和威脅,那麼,這可能是一個風險。所以我認為這是我們需要注意的事情之一。
嗯。在這些系統的部署中,你能看到什麼嗎?你觀察到,就像你在訓練Llama4 一樣,它好像在騙你,因為它以為你沒注意到什麼?你會想,哇,這是怎麼回事?
這可能不太可能發生在Llama4 測試系統中。
但你能想像這樣的事情嗎?你會真正擔心欺騙性嗎?如果有數十億份東西在野外傳播?
確實,我並不認為這一定是……目前,我們看到了許多幻覺。是的,確實如此。因此,我認為我們需要更深入地探討。我認為如何區分幻覺和欺騙是一個有趣的問題。但是,是的,我認為存在許多風險和需要考慮的事項。
另一方面,也存在許多……在經營我們的公司時,我試圖至少在我認為的長期理論風險和我認為當前存在的相當現實的風險之間找到平衡。
因此,當你提到欺騙時,我最擔心的是人們利用它來製造錯誤訊息,然後將其灌輸到我們的網路或其他網路中。因此,我們主要透過建立比對抗系統更聰明的人工智慧系統來打擊大量此類有害內容。
這在某種程度上也反映了我的理論,如果你觀察人們透過社群網路造成的或試圖造成的各種傷害,你會發現有些傷害並不是非常具有對抗性的。例如,我認為仇恨言論並不是非常對抗性的,因為人們並沒有變得更善於種族主義。然而,如果你這樣認為,我認為人工智慧在這些問題上通常比人類更快變得更加複雜。
因此,我們雙方都有問題。就像人們做壞事一樣,無論他們是試圖煽動暴力還是其他什麼。但我們也有很多誤報,因此,我們基本上審查了我們不應該審查的內容,我認為這讓很多人感到惱火是可以理解的。因此,我認為擁有一個在這方面越來越精確的人工智慧,隨著時間的推移,這將是一件好事。
但讓我再舉一個例子,就像民族國家試圖干涉選舉。他們絕對擁有尖端技術,而且每年都在進步。因此,我們阻止了一些技術,他們學習了我們的做法,然後使用不同的技術來對付我們。這不像是有人試圖說刻薄的話,他們基本上有一個目標,他們很老練,他們擁有很多技術。在這種情況下,我仍然認為,讓我們的人工智慧系統以比他們的更快的速度發展和成熟,這是一場軍備競賽,但我認為我們至少目前贏得了這場軍備競賽。
我不知道,我認為那是,但這就像我花時間思考的很多東西,例如,好吧,無論是Llama4 還是Llama5 或Llama6,是的,我們都需要考慮我們正在觀察什麼行為。
我認為你們將其開源的部分原因是還有很多人也在研究這個問題。
所以,是的,我們想看看其他人在觀察什麼,我們在觀察什麼,我們可以減輕什麼。然後我們會評估是否可以將其開源。但我認為在可預見的未來,我對我們能夠做到這一點持樂觀態度。
在短期內,我不想忽視人們今天試圖使用這些模型的實際壞事,即使它們不是存在的,但它們就像我們熟悉的和運行我們的服務的相當嚴重的日常危害。實際上,我認為這也是我們必須花費大量時間的事情。
實際上我發現合成數據的事情真的很奇怪。我實際上感興趣的是為什麼你不像目前的模型那樣思考,為什麼一遍又一遍地進行合成資料可能會有漸近線是有道理的。如果他們變得更聰明,並採用我在論文或部落格文章中提到的那種技術,這些技術將在發布當天被廣泛應用,它將引領正確的思維鏈條。為什麼這不會形成一個循環呢?
當然,這不會在一夜之間發生,而是需要經過數月甚至數年的訓練。可能會使用更聰明的模型,它會變得更聰明,產生更好的輸出,然後變得更聰明,如此循環。我認為這是在模型架構的參數範圍內可以實現的。
在某種程度上,我並不確定,我認為就像今天的80億參數模型一樣,我並不認為你能夠像最先進的數千億參數模型那樣好,這些模型將新的研究融入架構本身中。但這些模型也會是開源的,但我認為這取決於我們剛才討論的所有問題。
我們希望情況會是這樣。然而,在每個階段,就像你在開發軟體時,你可以用軟體做很多事情,但在某種程度上,你會受到運行它的晶片的限制,所以總是會有不同的物理限制。模型的大小會受到你可以獲得和用於推理的能量的限制。所以我同時非常樂觀地認為這些東西會繼續快速改進。
我比有些人更謹慎,我只是認為失控的情況不太可能發生。我認為保持選擇的開放是有意義的。我們面臨的未知事物太多了。有一種情況是,保持權力平衡真的很重要。你不想開源架構,因為中國可以用它來趕上美國的人工智慧。就像有一場智力爆炸。他們喜歡贏得勝利。很多事情似乎都是可能的。就像保持你的選擇開放一樣,考慮所有的選擇似乎是合理的。
是的,我們來談談其他事情。好的,元宇宙。你最想進入人類歷史上的哪個時期?西元前10萬年到現在。你只是想看看它是什麼樣子。它必須是過去嗎?
嗯?它必須是過去嗎?
哦,是的,它必須是過去。
我不知道。我有我感興趣的時期。我對美國歷史和古典歷史非常感興趣。我對科學史也很有興趣。所以我實際上認為看到並試圖更多地了解一些重大進步是如何產生的。我們所擁有的只是關於其中某些內容的有限的文字。
我不確定元宇宙是否會讓你這樣做。因為我們無法,很難回到過去,回憶那些我們沒有記錄的事情。但是,我實際上不確定回到過去對他們來說是否是一件重要的事情。我認為這對於歷史課之類的東西來說會很酷。
但是,這可能不是我對元宇宙最興奮的用例。我認為最重要的是無論你身在何處,都能感受到與人同在的能力。我認為這將是一項非常棒的事情。在我們進行的人工智慧對話中,許多討論都是關於物理限制的,這些限制是所有這些討論的基礎,如果你想要進行創新,技術的一個教訓就是你應該盡可能地將事物從物理約束領域轉移到軟體中。因為軟體的建置和發展要容易得多。此外,你可以讓它更民主化,因為並非每個人都有能力擁有一個資料中心。然而,許多人可以編寫程式碼,獲取開源程式碼並對其進行修改。
元宇宙版本能夠實現真實的數位存在,這將是一個巨大的區別。它使人們感覺他們不必為了很多事情而親自在一起。現在,我認為親自在一起會更好。所以,這些事情並非二元的。它並不意味著,好吧,現在,你不需要再這樣做了。但是,總的來說,我認為這對於社交、與人建立聯繫、工作來說都非常強大。對於我不知道的部分產業、醫學,對於很多事情來說。
我想回到你在談話開始時說的一件事,你沒有以10億美元的價格出售公司。還有,例如元宇宙,你知道我們會這樣做,即使市場為此而打擊你。然後我真的很好奇,例如,這種優勢的來源是什麼?你說,哦,價值觀。我有這種直覺。但是,每個人都這麼說,例如,如果你必須說一些對你來說很特別的話呢?是什麼,你會如何表達它?例如,你為什麼如此相信元宇宙?
我認為那些是不同的問題。
所以,什麼東西能帶給我那種力量?我想我們已經討論了很多事情。所以,我真的很喜歡建造東西。我特別喜歡圍繞人們如何交流以及了解人們如何表達自己和人們如何工作來建構事物。我上大學的時候,學的是電腦科學和心理學。我認為這個行業裡還有很多人學的是電腦科學,所以,對我來說,這一直是這兩件事的交集。但我認為這也是一種非常深層的驅動力。
我不知道該如何解釋,但我只是覺得,從本質上講,如果我不創造新的東西,我就做錯了。所以即使我們在製定商業案例,例如在人工智慧上投資一十億美元,或是在元宇宙上投入巨額資金。是的,我們有計劃,我認為這些計劃非常明確,如果我們的東西有效,那將是一項很好的投資。但你不能從一開始就知道。而且,人們有各種各樣的爭論,無論是與顧問還是不同的人。好吧,你怎麼能,你怎麼有足夠的信心去做這件事?
好吧,當我停止嘗試建造新事物的那一天,我就完了。我要去別的地方建造新事物。我從根本上無法經營某件事或經營自己的生活,也無法嘗試建造我認為有趣的新事物。對我來說,這甚至不構成一個問題。我們是否會嘗試創造下一個新事物?我無法不去嘗試。在我生活的各個方面,都是如此。就像我們建造了這個,就像我的家人在考艾島上建造了這個牧場,我只是設計了所有這些建築。我有時會想,我們開始養牛了,我想,好吧,我想養出世界上最好的牛。那麼,我們該如何設計它呢?這樣我們就可以弄清楚,然後建立和呼叫我們需要的東西,嘗試這樣做。所以,我不知道,這就是我。那麼,問題的另一部分是什麼呢?
我不確定,但我實際上對其他事情很好奇…
19歲的馬克讀了很多古代和古典作品,包括高中和大學期間。你從中學到了什麼重要的一課?不只是你發現的有趣的東西,而且像是…到你19歲的時候,你消耗的Token並不多。其中很多都是關於經典的。顯然,這在某種程度上很重要。
我不知道,這是個好問題。
我認為真正有趣的事情之一是……所以,當奧古斯都第一次當皇帝時,他試圖建立和平。當時並沒有真正的和平概念。人們對和平的理解是……這是敵人不可避免地再次攻擊你之間的暫時時間。所以你得到了短暫的休息。他有這樣一種觀點,看,我們想改變經濟……而不是如此唯利是圖和軍國主義……實際上是這種正和的東西。在當時,這是一個非常創新的想法。
我不確定,但我認為其中包含了一些非常基本的元素。這就像是當時人們能夠想像的極限,是合理的工作方式。我想回到這個主題,這適用於元宇宙和人工智慧。但是,許多投資者和其他人卻無法理解我們為什麼要開源。這就像開源一樣,這只是你暫時擁有事物的時間。但實際上,我認為這就像是科技領域的一種深刻概念。實際上,它創造了許多贏家。
我不確定,我不想過度強調這個比喻。我確實認為,有很多時候,你可以像建造模型一樣建造事物。人們甚至無法理解這對他們來說是一件有價值的事情,或是一個合理的世界狀態。實際上有比人們想像的更多合理的事情。這非常有趣,我可以告訴你我當時的想法嗎?
當然,你可能已經從中找到了答案,這可能完全不對。這些人有些人非常年輕,他們在帝國中扮演著非常重要的角色。就像凱撒·奧古斯都,到他19歲時,他實際上已經非常了不起,他是羅馬政壇最傑出的人物之一。他領導戰爭並組建了第二個三頭執政聯盟。我想知道你是否喜歡這樣的例子,一個19歲的孩子會說,我真的可以做到。我認為這是一個有趣的例子,兩者都來自歷史,包括美國歷史。
我最喜歡的名言之一是畢卡索的這句話:「所有的孩子都是藝術家,挑戰在於你長大後如何保持藝術家的身份?」基本上,因為當你年輕的時候,你更容易產生瘋狂的想法。你的生活中存在著所有這些與創新者困境的類比,以及你的公司或你所建立的任何東西。所以,你在你的軌跡上有點早期,更容易轉變並接受新的想法,而不會破壞你對不同事物所做的其他承諾。
我不確定,但我認為這是經營公司的一個有趣的部分,你如何保持活力?回到開源投資者,100億美元的模式,假設它是完全安全的,你已經做了這些評估。與此不同,評估人員也可以對模型進行微調。你希望未來的模型也能如此嗎?
你會開源100億美元的模型嗎?
只要它對我們有幫助,那麼是的。
但會嗎? 100億美元的研發費用現在開源了嗎?
我想,這是一個問題,隨著時間的推移,我們也必須對此進行評估。我們在開源軟體方面有著悠久的歷史,但我們不傾向於開源我們的產品,我們不會將Instagram的程式碼開源。我們採用了大量的基礎設施,並將其開源。在我們的歷史上,最大的項目可能是開放運算項目,我們將所有的伺服器、網路交換器和資料中心的設計開源。這個項目最終證明非常有價值,因為雖然很多人都可以設計伺服器,但現在產業已經對我們的設計進行了標準化。這意味著供應鏈基本上都是圍繞著我們的設計建立的。隨著數量的增加,對每個人來說都更便宜了,為我們節省了數十億美元。這是不是很棒?
我認為開源可以透過多種方式幫助我們。首先,如果人們能找到更便宜的運行模型的方法,我們將在所有這些事情上花費數百億甚至一千億美元或更多。因此,如果我們能更有效地做到這一點,例如提高10%,我們將節省數十億或數百億美元。這本身可能就值很多錢,特別是如果有其他競爭模型。我們的東西並不是放棄某種瘋狂的優勢。
你問我是否認為訓練將被商品化。我認為有很多方法可以實現這一點,這只是其中之一。另一個是商品化意味著它會變得非常便宜,因為有很多選擇。這可能朝另一個方向發展,即品質改進。
你提到了微調,對嗎?就像現在,你能對其他主流模型進行微調的能力非常有限。也有一些選擇,但通常不適用於最大的模型。因此,我認為能夠做到這一點,能夠做不同的應用程式特定的事情或用例特定的事情,或將它們建置到特定的工具鏈中,不僅可以實現更有效率的開發,還可以實現品質上不同的事情。
我想給你一個類比。我認為行動生態系統普遍糟糕的一件事是,有兩家守門人公司,蘋果和谷歌,它們可以告訴你允許建造什麼。在我們的歷史上有很多次,有經濟版本,我們建造了一些東西,他們就要拿走你一大筆錢。但還有定性版本,這實際上讓我更心煩意亂。很多時候,當我們發布或想要發布新功能時,蘋果說,不行,你不會發布這個功能。我當時想,這太糟糕了。
所以問題是,我們是否已經為這樣的人工智慧世界做好了準備,在那裡,你將得到少數幾家運行這些封閉模型的公司,這些公司將控制API,因此將能夠告訴你可以建造什麼?首先,我可以說,我們自己去建立一個模型,以確保我們不會處於那種境地,這是值得的。例如,我不希望其他任何公司告訴我們可以建造什麼。但從開源的角度來看,我認為很多開發人員也不希望這些公司告訴他們可以建構什麼。
所以問題是,圍繞這個建構的生態系統是什麼?什麼是有趣的新事物?這對我們的產品有多大改善?我知道有很多情況下,如果這最終成為我們的資料庫或快取系統或架構,我們將從社群獲得寶貴的貢獻,這將使我們的產品更好。然後,我們所進行的特定應用程式的工作仍然具有如此大的差異性,以至於它實際上並不重要,對嗎?
我們將能夠繼續做我們所做的事情。我們將從所有系統中受益。無論是我們自己的還是社群的,都會因為它是開源的而變得更好。然而,也存在著一個可能的世界,模型最終可能會成為產品本身。在這種情況下,我認為是否開源就成了更複雜的經濟計算,因為這樣做在很大程度上就是將自己商品化。但從我目前所看到的情況來看,我們似乎還沒有達到那個水準。
您是否希望透過將模型授權給雲端提供者來獲得可觀的收入?他們必須向您支付費用才能真正提供該模型嗎?
我們希望有這樣的安排,但我不知道它會有多重要。我們有這個…這基本上是我們對Llama的許可證。在很多方面,這是一個非常寬鬆的開源許可證,只是我們對使用它的最大公司有一個限制。這就是我們設定這個限制的原因。我們並不是想阻止他們使用它。我們只是希望他們來和我們談談,因為如果他們只是拿走我們建造的東西並轉售它並從中賺錢,那麼好吧,如果你是像微軟、Azure或亞馬遜這樣的公司,那麼是的,如果你要轉售該模型,那麼我們應該從中獲得一些收入份額。所以在你這樣做之前先來和我們談談。這就是事情的發展方式。
所以對於Llama 2,我們基本上與所有這些主要的雲端公司都有交易,Llama2作為所有這些雲端上的託管服務提供。隨著我們發布越來越大的模型,這會成為一件大事。這不是我們的主要工作,但我認為如果這些公司要銷售我們的模型,我們應該以某種方式分享其中的好處。
是的。關於其他開源危險,我認為你關於權力平衡的觀點確實合理,而且由於我們擁有更好的協調技術等,你可以消除潛在的危害。我希望Meta有某種框架。其他實驗室也有這種框架,他們說,如果我們看到這個具體的東西,那麼開源甚至部署都行不通。只是把它寫下來,這樣公司就可以做好準備。人們對它有期望等等。是的。我認為這是生存風險的一個公平觀點。
現在,我們更關注我們今天看到的風險類型,這些風險更像是內容風險。我們有底線,我們不希望模型基本上做一些幫助人們實施暴力或欺詐或以不同方式傷害人們的事情。因此,在實踐中,對於今天的模型,我想下一代,甚至可能是下一代,我認為雖然談論生存風險在智力上可能更有趣,我實際上認為,真正需要付出更多精力來減輕的危害是,有人會採用模型,用今天的參數和我們今天看到的更平凡的危害類型來傷害他人。例如人們互相欺詐,諸如此類。所以我不想忽視這一點。我認為我們有責任確保我們在這方面做得很好。
是的,Meta是一家大公司,你可以同時處理這兩件事。
是的。
關於開源,我非常好奇,你是否認為像PyTorch、React、Open Compute 這樣的開源專案對世界的影響甚至超過了Meta 在社群媒體方面的影響。我曾與使用這些服務的人進行過交談,他們認為這是可能的,因為網路的很大一部分都在運行這些項目。
這是一個有趣的問題。我認為幾乎一半的世界都在使用我們的產品。這是一個很好的觀點。因此,我認為很難超越它。但我認為開源作為一種新的構建事物的方式確實非常強大。
是的,這是可能的。它可能是這些項目之一,我不確定,例如貝爾實驗室,他們正在研究晶體管,因為他們想要實現長途通話。他們成功了。最終,他們實現了長途通話,這給他們帶來了真正的利潤。
如果你問他們,五到十年後,他們發明的最有用的東西是什麼?他們可能會回答,我們實現了長途通話,現在所有人都在打長途電話。但如果你問100 年後,答案可能就不同了。所以我認為我們正在建造的很多東西都是如此,
就像現實實驗室、一些人工智慧的專案、一些開源的項目,我認為具體的產品不斷發展,有時來來去去。但我認為人類的進步是持續的,這是我們所有人都能做的很酷的一部分。
Llama 模型什麼時候會在你自己的客製化晶片上進行訓練?
很快,不是Llama 4。我們的方法是,首先,我們基本上建立了可以處理排名和推薦類型內容推理的客製化晶片。所以捲軸、新聞提要、廣告,這些都消耗了大量的GPU。但是當我們能夠將其轉移到我們自己的晶片上時,我們現在能夠使用更昂貴的NVIDIA GPU 進行訓練。所以在某個時候,我們希望有自己的晶片,我們可以用它來先訓練一些簡單的東西,然後最終訓練這些非常大的模型。但同時,我想說這個專案進展得相當順利。我們正在有條不紊地推出這項計劃,並製定了長期路線圖。
最後一個問題。這完全出乎意料:如果您成為Google+ 的首席執行官,您能讓它發揮作用嗎?
Google Plus?哦。好吧,我不知道。我不知道。這是一個非常困難的反事實。
好的,那麼真正的最後一個問題是,當Gemini 推出時,辦公室裡有人有沒有可能說XXX?
不,我認為我們現在更溫和了。
很酷。太棒了,馬克。
是的,我不知道。這是個好問題。我不知道。問題是Google+ 沒有執行長。它就像是公司內部的一個部門。
我認為你之前問過,什麼是最稀缺的商品。我實際上認為對於大多數公司來說,它都是這種規模,至少它是重點,就像當你剛成立一家公司時,你可能會受到更多資金的限制。您可能只是在探索一個想法,而且可能沒有所有的資源。我認為在某個時刻,你會跨越一些門檻,你所做的事情的性質將決定你在建立多個專案時,如何在它們之間創造更多的價值。然而,你會變得更加受限,無法控制如何順利進行。總是會有一些情況,組織中會發生一些隨機的、令人驚喜的事情,這些事情我甚至無法預測。
這是一件好事。但我認為總的來說,組織的能力在很大程度上受到執行長和管理團隊能夠監督和管理的內容的限制。我認為這一直是我們關注的重點。我想引用本·霍洛維茨的話,我們應該把主要的事情放在首位,並儘量專注於你的關鍵優先事項。
非常好,非常感謝。馬克,你做得太棒了。