在矽谷叫一輛Uber,極大機率司機會跟你聊到AI。
如今鋪天蓋地的資訊轟炸,營造出生成式人工智慧步入全盛時代的氛圍。而對於真正身處其中、手搓大模型的開發者來說,他們思考的卻是現實世界中仍待解決的技術挑戰與邊界。
GenAI 舊金山高峰會第一天,xAI聯合創始人Tony Wu,Llama 2和Llama 3聯合作者Sharan Narang,以及Mistral AI研究科學家Devendra Chaplot同場的小組討論異常火爆,吸引了眾多矽谷AI開發者。
三位都是資深技術專家,也都是業界頂尖模型的締造者,各自帶領一支炙手可熱的AI團隊:馬斯克旗下xAI剛宣布完成史上最大的60億美元B輪融資,估值180億美元風頭正盛;Llama獨自頂起開源模型半邊天,蓄勢待發的Llama3-400B被視為「可能改寫人工智慧生態版圖」;而歐洲最火AI公司Mistral憑實力獲得微軟垂青,在較小尺寸模型的開發上馬不停蹄、一路狂奔。
在這場 40分鐘、主題為「A Deep Dive into the State-of-Art LLMs」的分享中,Tony、Sharan和Devendra透露了各自公司的最新動向,深入討論了模型預訓練、數據質量及合成資料、多模態模型挑戰和Transformer創新替代架構,預測2025年的人工智慧突破,也對觀眾關於小模型企業用例、杜絕幻覺與偏見和Mamba架構的提問進行了解答。
重點總結:
以下為矽星人整理的現場對話實錄:
Sharan Narang:我是Llama團隊的研究經理,領導Llama預訓練工作,並參與了Llama 2、Llama 3及後續計畫的開發。非常高興能在這裡和大家討論。
Devendra Chaplot:我是Mistral AI的研究員,參與了Mistral AI發布的所有模式。最近一直在研究多模態模型。
Tony Wu:我來自xAI。加入xAI之前從事數學推理工作,現在xAI也是如此,但更多是在基礎方面。
Minfa Wang(主持人,CTO of 1Gen Labs):太棒了。我想先從一些個人故事和成就開始。首先是Tony。最近xAI剛剛宣布了60億美元的B輪融資,恭喜你們。能談談這次融資將如何推動xAI的下一步發展嗎?
Tony Wu:是的,我們非常幸運地獲得了這次融資,這是很大一筆錢,所以我們想要非常明智地使用它。我想現在唯一明智的花錢方式就是把錢給NVIDIA對吧?所以我們將建造一個資料中心,這是公開訊息,我們將在未來幾個月內建造這個資料中心,它將擁有大約10萬個H100晶片。這將是迄今為止最大的單一資料中心,由包含10萬個晶片的單一叢集組成。這將使我們能夠訓練出我認為是最強的模型。
Minfa Wang:謝謝分享。 Devendra,上個月Mistral AI發布了Mixture 8x22B,這是Mistral AI迄今為止發布的最大和最新的模型。可以簡單介紹一下這個新模型的關鍵功能和亮點,以及你和Mistral AI接下來的重點工作嗎?
Devendra Chaplot:上個月我們發布了基於稀疏混合專家架構的Mixture 8x22B模型。我們設計這個模型的主要目的是優化每個參數的效能。因此,我認為我們的模型在性價比方面是最優的。其實我們今早也發表了一個新模型,叫Codestral,這是一個專門為程式設計訓練的模型,掌握了80種程式語言。它可以用於指令或人類聊天提示,也可以進行程式碼補全。這意味著你可以在編輯器中將其作為編碼助手使用。它與VS Code和JetBrains集成,並且在發布當天可以在我們的API上免費使用八週。
Minfa Wang:這很酷。那麼這個模型會演化成某種垂直基礎模型嗎?例如,它是否會作為基礎設施層為從事AI軟體工程的公司服務?
Devendra Chaplot:是的,我們希望為開發人員和AI建構者提供最好的體驗,以便他們能開發出下一代AI應用程式。這是我們創建一個強大的程式碼模型的動機,不僅在程式設計時幫助開發人員,還可以使用這個模型建立新的代理技術應用。
Minfa Wang: 接下來是Sharan,現在Llama3已經成為新聞焦點,感謝你和團隊為開源社群的傑出貢獻。能簡單介紹一下Llama3的關鍵特性和用例嗎?還有關於神秘的400B參數模型,有什麼可以分享的嗎?
Sharan Narang: Llama3是一個非常出色的團隊合作成果。我們希望在許多方面推動邊界。從小模型開始,我們希望看看能將它們訓練到多遠,能提高多少。 8B和70B參數的模型現在向所有人開放,我認為它們在計算規模上非常強大。所有三個模型都是非常好的通用模型。我們的目標是建立最好的基礎模型,所以希望它們在所有方面都表現出色。我們正在開發400B 參數的模型,這是一段冒險之旅,團隊做得非常棒,我們很快就會有更多的消息分享。我們希望發布一篇研究論文,詳細介紹它,以便社區從中學習。所有這些都即將發布,我希望它能為所有在這個領域工作的人帶來啟發。
1. 資料收集與品質:
Minfa Wang:我們期待這篇研究報告。接下來我想深入探討一些技術主題。在模型建構工作流程中,資料是所有模型研究的基石,也是發現擴展法則的前提。談到資料收集,既要考慮質量,也要考慮數量。在預訓練中,我們顯然需要大量的數據。在後訓練中,品質也是關鍵。各位有沒有關於如何獲取高品質和大規模數據的技術可以分享?你們使用哪些技術,如何做到?
Sharan Narang:我可以先談談預訓練。在預訓練中,我們考慮資料的數量、品質和多樣性。我認為這三者都很重要。用大量低品質的資料訓練出一個糟糕的模型其實很容易。因此,考慮這些因素非常重要。這裡的挑戰在於數量是一個可以量化的指標,很容易報告出來,大家也會關注這個指標。而多樣性和品質則複雜得多。在Meta,我們非常重視後兩者。我們依賴擴展法則和數據消融來確保我們數據集的品質和多樣性都達到標準。資料是任何模型的基礎,我們希望建立最佳的資料集來訓練這些大型語言模型。
Devendra Chaplot:我認為人們往往低估了資料質量,尤其是在預訓練期間。人們認為只要投入更多數據,它就會變得更好,但我們發現數據品質在預訓練中也扮演著非常重要的角色。如果你想讓一個特定規模的模型表現最佳,品質是最重要的。如果你以更好的形式整理數據,你可以從一個非常小的模型中提升效能。
Tony Wu:是的,補充前兩位的分享,我認為有兩點要注意。首先,評估在確保數據品質方面非常重要。你需要有某種回饋機制,以迭代地提高資料質量,這對預訓練和後訓練都適用。定義評估標準是一個非同尋常的問題。特別是對預訓練來說,這是一個更普遍的任務,人們重視學術基準,但這些基準可能會受到污染。因此,這些都需要認真考慮。第二點是,一旦你有了一些初始模型,你也可以用它來改善資料品質。這也是一個迭代過程,你可以使用較舊、效能較差的模型來整理資料集,從而獲得更高品質的數據,然後訓練出更好的模型。這是一種自我改進的循環。
Minfa Wang:謝謝分享。作為一個曾經從事微調工作的人,我理所當然地認為預訓練模型會有很好的質量,覺得預訓練只需要數量,但顯然多樣性和質量也非常重要。這非常有見地,還有評估過程。接下來我想問關於專有數據和特定應用數據的問題。這可能更與Tony相關,考慮到xAI與x.com的特殊關係,xAI可能有某種推特資料的存取權。這種專門數據會帶來優勢嗎?
Tony Wu:這是個好問題。我不負責法律方面的問題,所以在法律方面可能有更合適的人來回答。但就這些數據帶來的好處而言,我認為有兩點。首先最大的優勢是這些數據可以讓我們的模型存取最新、最鮮活的X平台資訊。我們與X公司合作,建立了Grok,能夠檢索相關的推文或帖子,為用戶提供最新的資訊。第二點是,在推理期間,你可以讓模型檢索和總結訊息,但也有可能是你想將某些特定功能內建到模型權重中,例如讓模型理解X上的特定內容。所有這些知識可以透過微調甚至預訓練過程來獲取,以便模型更好地理解平台上的動態。所以,總結來說,我認為我們有特權存取的資料使我們能夠向使用者提供更新鮮的結果。
Sharan Narang: 我同意Tony的觀點,將專有數據添加到預訓練中很棘手,除非數據已經經過審核且品質保證。預訓練非常昂貴,相較之下,在後期訓練中添加特定應用資料更容易。
Minfa Wang:有相關的問題是,如果有特定應用資料並在後期訓練中微調,會不會損害模型的通用知識,例如通用推理能力?如何權衡模型能力的不同面向?
Tony Wu:這取決於你是否需要模型仍然具有通用能力。如果有非常具體的應用,有時不需要模型具有那麼廣泛的通用性。另一方面,如果你有一個非常好的基礎模型,雖然運行成本會更高,但這個模型在微調後仍然會非常通用。
Sharan Narang: 你可以透過微調添加一些能力,而不會失去預訓練期間所獲得的通用規劃或推理能力。但謹慎的後期訓練非常重要。
2. 數據稀缺問題、怎麼看待合成數據
Minfa Wang:以下是一個相對有爭議的話題,隨著我們幾乎用盡網路上的數據,是否會遇到數據稀缺的問題?合成資料會是解決這個問題的方法嗎?
Devendra Chaplot:我認為我們短期內不會遇到資料稀缺的問題。目前訓練的模型幾乎只用了開放網路上一小部分的數據,我們現在只是在玩文字資料。還有大量的圖像、視訊、音訊數據,然後當我們能夠擴展到所有這些多模態模型時,還有數位行為、物理行為等可以利用。所以我認為短期內不會有資料數量的問題,但我仍然認為合成資料在提升整體資料集品質方面是有用的。你也可以使用半合成數據,透過模型來改進你的原始數據,例如進行分類、重述、摘要等操作,以提高數據品質。
Tony Wu:我對這個問題有比較強烈的看法。我在合成數據方面工作了一段時間,我確實認為這是通往AGI的道路。儘管從長遠來看,我們可以從開放網路獲取更多的tokens,但考慮到當前的擴展速度,每年運算能力(flops)可能會增加10倍,至少也會增加5倍,而資料成長可能需要以平方根的速度增加,也就是兩到三倍。因此需要收集、爬取和處理大量資料。我個人認為,如果能找到一種方法讓合成數據在預訓練中起作用,意味著它可以很好地擴展,那麼我們就不需要一直從互聯網收集更多數據,或總是遇到數據短缺的問題。這個問題已經迫使我們思考。 X.AI正在建立一個擁有10萬個H100晶片的資料中心集群,預訓練需要大量資料。因此,我們必須投入大量精力來使合成數據發揮作用。
Sharan Narang:我同意他們兩位的觀點,數據量很大,合成數據可以發揮很大的作用。我認為在產生合成資料時,需要非常小心,因為很容易將先前訓練模型的偏見和錯誤傳播到下一個模型中。因此擁有一個良好的策劃流程,並確保你能捕捉到先前模型的錯誤和偏見是非常重要的,否則我們可能會陷入同樣的困境。
Tony Wu:再補充一點,如果我們有一天希望這些模型或機器真正具備像人類甚至超越人類的智能,它需要能夠產生非常新穎、原創的內容,以某種方式成為自我改進過程的一部分。那麼我認為,你不能從人類大規模地獲取高品質的推理數據,唯一的生成方式是透過合成數據。
Minfa Wang:對於合成資料生成,你們認為會有人類參與其中,還是完全由模型自我生成、自我改進?現在社群中也有一些懷疑論者,他們認為如果模型純粹為自己產生數據,就沒有真正的新資訊輸入模型中。
Tony Wu: 我認為有不同類型的合成數據。如同先前所提到的,我們可以進行簡單的、半合成的資料生成,例如重寫、重述,這幾乎是相同的資訊內容。但這幾乎可以被視為一種不同的資料增強方法,只是增加資料量以使模型更壯大。但最終,一旦超越這一點,我認為某種回饋循環需要發生。無論是來自人類的回饋,還是來自機器本身或其他驗證工具的回饋,這是產生大量高品質數據的真正途徑。
Sharan Narang: 我們已經在後期訓練中看到這一點了,對吧?我們用於RLHF(強化學習獎勵模型)循環的資料都是由人類驗證的合成資料。因此在預訓練中進行某種回饋也是非常有價值的。
3. Transformer架構與替代創新
Minfa Wang:謝謝分享。接下來我想談談模型的問題。 Transformer模型是在2017年那篇《Attention Is All You Need》論文中出現的,自那以後,它就佔據了整個產業的主導地位。現在它已經無所不在,大家都在使用它。然而,不時會有一些創新的模型架構被提出,挑戰Transformer的地位。你們是否進行過關於Transformer替代方案或模型架構搜尋的研究?你們覺得這值得繼續探索嗎,還是認為Transformer足以引領我們最終實現AGI?
Devendra Chaplot: Mistral AI確實在新架構研究方面做了不少工作。例如稀疏專家混合模型,這仍然是基於Transformer架構,但在某些方面有很大不同,因為它幫助你在記憶體需求和推理速度之間取得平衡。學術界定期會提出新的架構,那些看起來有前途的我們也會嘗試。關於Transformer是否是最終的解決方案,我認為不是。我認為在我們實現AGI之前,這個領域會有更多的創新。
Sharan Narang: 我可能會分享一些不同的看法。我花了大約兩年時間與一個相當大的團隊一起努力嘗試建立更好的架構,但我們得出的結論是,Transformer是最適合擴展的模型。我認為所有新的架構都值得在學術界進行探索,但在它們能夠擴展並與Transformer競爭之前,還有很多工作要做。人們應該繼續研究這些新架構,並且要考慮擴展法則,不僅要在簡單任務上顯示評估改進,還要涵蓋廣泛的任務。展示這些改進不僅在小規模上有效,在大規模上也能保持優勢,才可以與Transformer相比。至於Transformer是否能帶我們實現AGI,這取決於你對AGI的定義。有些人可能會認為我們已經實現了某種形式的AGI。但如果你說的是高度智慧的通用代理,那麼可能我們還需要更多。
Devendra Chaplot:我明白這個觀點,但我也理解那些建構新架構的人的感受。人們總是將新架構與Transformer進行比較,但Transformer已經過了多年優化,我們有專門為Transformer架構構建的硬件,推理過程、訓練過程中的超參數等都已優化過。因此,如果有人提出一個新架構,你必須將其與2017年或2018年的Transformer進行比較。這在今天是很難做到的,因為這個領域競爭非常激烈,人們總是想要最好的東西,而不願意投入時間去優化一個替代架構,這可能會有很大的風險,同時商業需求又很高。所以我認為我們處於某種局部最小值。我們有一個高度最佳化的架構,它工作得非常好,在達到飽和之前,還有很長的路要走。但一旦我們達到飽和,替代架構仍然很難出現,除非我們擺脫這個局部最小值。
4. 強化學習與自回歸學習、如何提升模型的長效推理能力
Minfa Wang:希望在這個領域會有持續的研究,總有創新架構被提出。下一個主題是,隨著我們邁向AGI,我們需要更強的規劃和推理能力。目前大多數LLM仍然圍繞著預測下一個詞的目標,有人質疑它是否能真正帶我們實現AGI。對此你們有任何想要分享的內容嗎?
Devendra Chaplot: 我們已經在使用強化學習,這是一種長期反饋機制,因為模型在長生成過程中獲得獎勵,而不僅僅是在預測下一個單字時獲得獎勵。我之前在機器人學領域也使用強化學習,它對學習規劃或推理非常有用。到目前為止,我們在語言或其他任務中使用的獎勵模型都是基於人類資料訓練的,但在數學或程式設計等任務中,我們可以有形式驗證或程式測試作為模型的外部回饋,這在某種程度是自動化的,也具有長期性,因此模型可以基於這種回饋來優化推理和規劃。
Sharan Narang:我認為提高規劃和推理能力的一種方法是將其更多地納入預訓練中。正如Tony之前提到的,我們從網路上取得的推理資料有限,我們如何擴展資料集?我們如何使用合成數據?我們能在多大程度上改進基礎模型?另一個關於下一個詞預測目標的考慮是,如果你仔細想想,對於任何一個人來說,預測句子裡的下一個詞其實非常複雜,即使你非常了解某人。因此,這個目標本身就具有一些長期規劃的性質。但如Devendra所提到的,在後期訓練階段使用強化學習確實也可以改善規劃能力。
5. 多模態模型
Minfa Wang:接下來我想談談多模態大模型。 X.ai最近宣布了其多模態模型。到目前為止,開源版的Llama和Mistral還不是多模態的,但顯然你們正在朝這個方向努力。我想知道你們在研究多模態模型時遇到的最大挑戰是什麼?有哪些關鍵技術可以讓它們成功?
Devendra Chaplot: 是的,其中一個最大挑戰是多模態模型計算量成長非常快。即使是一張圖片也可以包含數千個tokens。如果你訓練數十億張圖片,計算量就變得非常巨大。而且因為你想在這些圖片中進行推理,或者在圖片和文字之間交織數據,你還需要增加模型的上下文窗口,以便模型能接受多張圖片,進行推理並使用一些文字。所以當你增加上下文視窗時,它再次增加了計算強度。這只是圖片,如果涉及視頻,計算量會增加一個數量級。因此,我認為現在的多模態模型仍然處於其能力的初級階段。它們可以擴展10倍、100倍,仍然可以獲得大量的效能提升。因此,挑戰在於如何使其在數據效率方面更高,以便我們不需要100倍的運算能力來使用100倍的數據。
Sharan Narang:我同意。語音也是一個非常複雜的問題,因為當你考慮到文字轉語音時,延遲就成了一個問題。而且,正如Devendra所提到的,數據非常重要,尤其是當你嘗試獲取圖文或視頻文本的交織數據時,如果視頻很長而文本本身很短,這將變得非常有挑戰性。多模態模型的設計空間實際上非常廣闊,有許多不同的方法可以在預訓練、後製訓練中使用。我認為這些技術現在正在起飛,所以看看下一波多模態模型會帶來什麼將會非常有趣。
6. 未來預期
Minfa Wang:在我們進入觀眾提問環節之前,先讓我先問一個問題。 2024年被稱為多模態模型之年,我們確實看到了多模態模型和其產品化的突破。如果你們要對2025年做一個預測,你們認為大型語言模型或基礎模型的下一個重大里程碑會是什麼?
Devendra Chaplot: 我認為會是數位和實體代理。我有機器人學背景,對具身智能非常有熱情。今年在初創領域圍繞構建通用類人機器人有很多興奮情緒。我認為它們可能會在明年或兩年後開始起飛,變得有用。此外,我認為數位代理方面,例如軟體工程代理或可以執行操作的代理,像預訂航班或叫車,這些也將在明年變得非常成熟。
Sharan Narang:這個領域同時發生了這麼多事情,很難預測。但我會說兩件事。首先,我認為我們會看到擴展帶來的持續改進。例如現有模型的階梯式改進,小模型和大模型之間的差距也會縮小,因為我們在嘗試使用蒸餾、量化等技術來訓練更強大的小模型。其次,我希望能找到一些技術來超越當前的Scaling Law趨勢,無論是透過創新模型,還是透過合成數據或高參數等技術,來做得比現在更好。
Tony Wu:我的賭注在於合成數據。
觀眾提問:
Q1:對於企業用例來說,許多非結構化資料都存在於文字中。且大多數是基於RAG(檢索增強生成)和一些微調。所以我的問題是,你們的公司是否在研究更適合語言能力和推理能力的小模型,可能並不需要大量數據和多模態數據,以便我們能處理更長的上下文並回答問題?
Tony Wu:是的,首先,我實際上認為企業用例仍然有一些多模態的需求。如果你考慮X.ai的情況,我們正在與特斯拉和X平台合作,X平台上有許多圖像。我認為我們可以嘗試理解這些圖像。在特斯拉的情況下,我們希望幫助自動駕駛和機器人工作,很多這些都需要多模態能力。第二點,是的,我們確實在做小模型。我們正在努力降低API成本,這是我們的工作,提供好服務的同時降低客戶成本。為此我們需要訓練非常小的模型,這些模型可以非常快速地運行,成本非常低。
Devendra Chaplot: Mistral AI專注於小模型,因為我們希望將效能與成本的比率推到最高。我們去年9月發布的7B模型在企業和開發人員中很受歡迎,他們部署到筆記型電腦、手機等設備上運行,或在數據處理管道中使用它進行摘要或某種自動化。我們也聽說很多企業在內部使用它,雖然它很小,但它在特定用例中仍然非常強大,運行成本也非常低。
Q2:非常感謝你們分享這些非常有啟發性和資訊豐富的討論。我的問題是,迄今為止調試大語言模型的最佳策略是什麼?例如很多人都遇過的幻覺問題。我很好奇你們如何調試LLM,特別是在看到這些故障案例時。第二個問題是,身為一般用戶,我們能做些什麼來應對這些故障案例?除了RAG技術,還有其他補救措施嗎?還是我們給你們當啦啦隊,希望你們解決問題?謝謝。
Sharan Narang:我認為幻覺是一個大問題。解決事實準確性的問題非常棘手。例如,你問一個基礎模型任何問題,很難知道它是否在產生幻覺。而且事實也在改變。不過,像RAG和改進的微調技術可以幫助減少模型幻覺。總的來說,調試LLM非常具有挑戰性,無論是預訓練還是後期訓練,調試LLM的故事甚至可以寫一本書。我無法詳細介紹所有內容,但我認為投資於一個好的微調和RAG管道可以大大減少幻覺。
Q3:謝謝你們深入探討如何透過預訓練和合成資料來提升資料品質。除了防止幻覺,我對這些方法如何防止模型中潛在的偏見和錯誤訊息感到困惑,特別是當我們開始使用像推文這樣的專有數據時。我想聽聽你們如何確保未來的AI模型保留道德標準並包含多樣化的觀點,特別是在涉及推理、情感和意見時。
Devendra Chaplot:這是我們訓練模式時的優先事項之一。我們有學術基準測試,它們專門測試種族、民族、性別等方面的偏見。無論是預訓練還是微調時,我們都會關注模型在這些基準測試上的表現。這也作為一種模型選擇方法。如果某個模型在這些基準測試上表現不好,我們就會避免使用那個資料集或訓練技術,透過這種方法可以大幅減少模型的偏差。
Sharan Narang: 除了一些基準測試,我們還可以改進基準測試。因為在預訓練期間捕捉和測量偏見非常棘手,數據多樣性也很難衡量。在Meta我們非常重視這一點。還有一個是在後期訓練階段,我們加入了許多緩解措施,有許多團隊在研究如何改善後期訓練階段以減少偏見。合成資料的一個主要問題是它是否會迭代傳播偏見。安全性是一個非常重要的主題,我們需要更多的人關注和研究。
Q4:我有兩個問題,都是關於前沿模型的。第一個問題是關於Transformer的替代方案,你們怎麼看待Mamba?它在過去一兩年裡非常火爆。第二個問題是關於視訊生成模型。我們在GPU上優化影片產生時遇到了很多計算和記憶體頻寬的挑戰。不知道是否有一些前沿的研究方向可以改變影片生成的設計?
Sharan Narang:我來嘗試回答。我不是影片生成方面的專家,所以沒有答案。關於第一個問題,Mamba,我認為這是一個有前途的架構,但還有很多工作要做才能與Transformer相比。正如Devendra所提到的,Transformer非常優化,而且在它的工作方面非常有效率。 Mamba來自RNN世界,但經過了簡化和改進。不過,我認為還有很多工作要證明Mamba可以與Transformer架構相提並論。
Minfa Wang:希望這回答了你的問題。由於時間限制,我們只能到此為止。再次感謝所有演講者慷慨分享他們的觀點。期待你們在未來推動科技前沿的發展。謝謝。(矽星人Pro)