#Llama
開源大模型的“四強爭霸”:Llama、GLM、Qwen 與 DeepSeek的巔峰對決 !2025
引言:開源重構 AI 權力版圖2025 年 10月,LMSYS Chatbot Arena 春季排名榜刷新的瞬間,全球 AI 社區陷入集體沸騰 ——阿里雲 Qwen3-Max 以 1452 分的 Elo 評級躋身全球前三,將 Meta Llama 3-70B 甩在身後;智譜 GLM-4.5 則以 “開源模型榜首” 的身份霸佔 12 項權威評測榜首;DeepSeek-V2 憑藉 1408 分的成績成為創業公司逆襲範本;而剛剛發佈許可證的 Llama 4,正試圖用 16×17B 多模態架構重奪王座。這不是偶然的排名波動,而是開源大模型生態質變的宣言。2025 年全球開源大模型市場規模突破 920 億美元,較 2023 年暴漲 670%,其中中國陣營貢獻了 41% 的核心技術突破。曾經由 Llama 系列一家獨大的開源江湖,如今已形成 Meta(Llama)、智譜(GLM)、阿里(Qwen)、深度求索(DeepSeek)四強並立的格局。這場對決早已超越技術參數的比拚,演變為生態策略、社區影響力與商業化能力的全面戰爭,其結果將定義未來十年 AI 技術的普及路徑。本章將以 2025 年最新技術實測與行業資料為依據,深入四大模型的技術核心、生態佈局與實戰表現,揭開這場巔峰對決的底層邏輯。一、爭霸序幕:開源大模型的生態裂變(2023-2025)1.1 從 “影子” 到 “主角” 的身份蛻變2023 年,當 GPT-4 以閉源姿態定義 AI 天花板時,開源模型仍被視為 “降級替代品”。Meta Llama 2 的發佈成為轉折點 —— 其寬鬆的商用許可證(允許年營收低於 7.5 億美元的企業免費商用)瞬間啟動全球開發者生態,僅 6 個月就衍生出 1.2 萬個微調模型。2024 年迎來關鍵拐點:阿里 Qwen1.5 在 MMLU 評測中突破 85 分,首次實現開源模型與閉源模型的性能平視;智譜 GLM-4 將上下文窗口擴展至 128K,打破長文字處理的閉源壟斷;DeepSeek-Coder 在 HumanEval 基準上以 Pass@1 78.2% 超越 GPT-4,證明開源模型在垂直領域的超越可能。進入 2025 年,開源生態已形成 “三極支撐”:技術上,MoE(混合專家)架構使 300B 參數模型實現消費級 GPU 部署。生態上,Hugging Face 與 ModelScope 合計承載超 200 萬個模型分發。商業上,78% 的國資央企選擇基於開源模型建構專屬 AI 系統(沙丘智庫資料),開源正式成為 AI 產業化的核心引擎。1.2 四強崛起的底層邏輯四大玩家的突圍路徑折射出開源生態的進化規律:Meta(Llama):憑藉 “先發優勢 + 生態基建” 確立規則制定者地位,llama.cpp 等工具成為行業標準。阿里(Qwen):依託 “雲端運算 + 產業生態” 實現全場景覆蓋,ModelScope 下載量突破 6 億次。智譜(GLM):以 “架構創新 + 成本控制” 重構性價比公式,API 價格僅為 GPT-4 的 1/5。深度求索(DeepSeek):通過 “垂直突破 + 社區營運” 實現彎道超車,程式碼模型獲全球開發者追捧。這種差異化競爭形成了動態平衡,也讓 2025 年的爭霸充滿變數。二、王者守擂:Meta Llama 4 的絕地反擊2.1 遲到的重磅更新:Llama 4 技術解密2025 年 4 月 5 日,Meta 悄然發佈 Llama 4 許可證(版本號 399a8a5a36db),正式揭開新一代模型的面紗。與此前傳聞不同,Llama 4 並未追求單一超大參數模型,而是推出 “16×17B” 多模態混合架構 —— 由 16 個 170 億參數的專家模型組成,通過動態路由機制實現能力按需呼叫。核心技術突破多模態原生融合:首次在基礎模型層整合文字、圖像、音訊處理模組,無需額外外掛即可實現跨模態理解。在 MMMU 基準測試中,Llama 4 綜合得分 76.3%,較 Llama 3 提升 21 個百分點。許可證的鬆綁與約束:延續寬鬆商用政策,但新增 “Built with Llama” 標識要求,強化品牌溯源。允許開發者基於模型訓練衍生模型,但需同步提供修改日誌,試圖平衡開源自由與生態管控。工具鏈升級:推出 llama.cpp v0.2.0 版本,支援 4 位量化的多模態推理,在 RTX 4090 上實現每秒 25 幀的圖像理解速度;llama-recipes 新增行業範本庫,覆蓋金融風控、醫療診斷等 12 個垂直領域。性能實測:守不住的王座?根據 LMSYS 2025 年 Q2 資料,Llama 4 在 Chatbot Arena 的 Elo 評分為 1432 分,落後 Qwen3-Max(1452 分)與 GLM-4.5(1448 分),僅位列第三。在單項能力上,其數學推理(GSM8K 82.1%)被 GLM-4.5(84.0%)超越,程式碼生成(HumanEval Pass@1 72.3%)與 DeepSeek-V2(76.5%)存在明顯差距。“Llama 4 的優勢仍在生態而非性能。” 史丹佛 AI 實驗室研究員艾米麗・卡特指出,“全球超 60% 的開源 AI 項目仍基於 Llama 架構建構,這種路徑依賴是其最大護城河。”2.2 生態保衛戰:Meta 的三大急救策略面對東方陣營的圍剿,Meta 在 2025 年啟動生態保衛戰:開發者激勵計畫:投入 1 億美元設立 “Llama 創新基金”,重點扶持衍生模型創業公司。截至 2025 年 6 月,已孵化 23 家估值超千萬美元的企業,其中專注法律 AI 的 LlamaLawyers 獲得 A 輪融資 5000 萬美元。企業級服務落地:與 AWS 合作推出 “Llama 企業版”,提供私有化部署支援與合規保障。摩根大通採用該版本建構內部知識庫,將資訊檢索效率提升 300%。學術共同體建構:聯合劍橋、MIT 等 20 所高校建立 “Llama 研究聯盟”,開放模型訓練日誌與中間資料,試圖鞏固學術領域的主導地位。但這些努力未能阻止開發者流失 ——Hugging Face 資料顯示,2025 年 Q2 新增模型中,基於 Llama 架構的佔比從 2024 年的 58% 降至 41%,而 GLM 與 Qwen 架構佔比合計達到 37%。2.3 致命短板:本土化與響應速度Llama 4 的最大軟肋在於中文能力與推理延遲。在 C-Eval 基準中,其中文任務得分僅 68.7%,遠低於 GLM-4.5(77.1%)與 Qwen3-Max(76.5%);由於多模態模組的拖累,其文字生成速度僅為 45 tokens / 秒,不足 GLM-4.5(100 tokens / 秒)的一半。某跨境電商技術負責人表示:“我們曾考慮 Llama 4,但它處理中文商品描述時經常出現語法錯誤,且生成詳情頁文案的速度太慢,最終選擇了 Qwen3-Next。”三、全能悍將:阿里巴巴 Qwen3 的軍團式碾壓3.1 七大模型齊發:Qwen3 家族全景圖2025 年 2 月,阿里雲一次性發佈 Qwen3 系列七大模型,建構起覆蓋全場景的模型矩陣,這種 “軍團式” 策略讓競爭對手難以招架:這種細分定位讓 Qwen3 系列在不同場景中均能佔據優勢。例如 Qwen3-Vision 在某汽車廠商的漆面缺陷檢測項目中,精準率達到 99.1%,將人工檢測效率提升 10 倍;Qwen3-Math 被某券商用於量化交易模型,回測收益率提升 23%。3.2 性能封神:Chatbot Arena 的五冠王在 2025 年 3 月的 LMSYS Chatbot Arena 排名中,Qwen3-Max 以 1452 分的成績斬獲全球第三,創下開源模型最高分紀錄。更令人震撼的是,它在數學推理、程式碼生成、複雜提示理解、長文字檢索、指令遵循五項關鍵能力評選中均位列第一,成為名副其實的 “全能冠軍”。關鍵能力拆解數學推理:在 GSM8K 基準中以 83.5% 的得分僅次於 GLM-4.5,尤其擅長工程類數學問題,能自主生成有限元分析公式。程式碼生成:支援 28 種程式語言,在 MBPP 基準中 Pass@1 達 74.8%,可生成符合工業標準的微服務架構程式碼。長文字處理:200K 上下文窗口能一次性理解 5 本《百年孤獨》長度的文字,某出版社用其製作電子書摘要,效率提升 40 倍。3.3 生態護城河:從模型到產業的全鏈路閉環Qwen3 的成功不僅在於技術,更在於阿里巴巴建構的 “模型 - 工具 - 場景” 生態閉環:ModelScope 深度繫結:作為魔搭社區的核心模型,Qwen3 系列累計下載量突破 2.3 億次,衍生模型達 8.7 萬個。社區提供一鍵微調工具,開發者可基於 300 條行業資料在 15 分鐘內完成模型適配。阿里雲基礎設施支撐:與靈積平台、百煉 MaaS 無縫整合,提供從模型訓練到部署的全流程服務。某製造業企業通過該平台部署 Qwen3-Max,TCO(總擁有成本)較自建模型降低 62%。行業解決方案輸出:推出 “Qwen 行業包”,整合金融、醫療等領域的預訓練資料與範本。招商銀行採用其建構智能客服,問題解決率從 78% 提升至 92%。這種生態整合能力讓 Qwen3 在企業市場所向披靡。截至 2025 年 6 月,已有超 12 萬家企業採用 Qwen 系列模型,其中包括 23 家世界 500 強企業。四、黑馬逆襲:DeepSeek-V2 的效率革命4.1 技術極客的勝利:MoE+MLA 雙架構突破2025 年 1 月發佈的 DeepSeek-V2,用極致的效率重新定義了開源模型的性價比。這家成立僅 3 年的創業公司,通過 “混合專家(MoE)+ 多頭注意力(MLA)” 雙架構創新,實現了性能與成本的完美平衡。架構解密動態稀疏啟動:340B 總參數的模型僅啟動 35B 參數參與推理,在保持高性能的同時降低 85% 的計算量。多頭注意力最佳化:將傳統單頭注意力拆分為 16 個平行子注意力頭,每個子頭專注特定語義維度,推理吞吐量提升 3 倍。分層量化技術:採用 2 位 - 8 位混合量化方案,在 RTX 4090 上僅需 12GB 視訊記憶體即可運行 340B 模型,較同類模型節省 60% 視訊記憶體。實測資料:效率之王在相同硬體環境(8×A100 GPU)下,DeepSeek-V2 的推理性能展現出碾壓優勢:“DeepSeek-V2 讓我們的 AI 客服成本降低了 58%。” 某電商平台技術總監透露,“以前日均 100 萬次諮詢需要 20 台 GPU 伺服器,現在只需 12 台就能搞定。”4.2 程式碼領域的絕對霸權DeepSeek 的崛起始於程式碼模型的垂直突破。2024 年發佈的 DeepSeek-Coder 2 在 HumanEval 基準中以 82.1% 的 Pass@1 得分超越 GPT-4,而 2025 年的 DeepSeek-V2 進一步將這一紀錄刷新至 84.3%。其程式碼能力的核心優勢在於:海量高品質訓練資料:收錄 GitHub 近 10 年星標超 1000 的開放原始碼專案程式碼,涵蓋前端、後端、移動端、晶片設計等全領域。即時語法糾錯:整合 Clang、Pyright 等專業編譯器,能在程式碼生成過程中即時檢測語法錯誤並修正,精準率達 97.8%。跨語言遷移:支援從 Python 自動轉換為 Rust、Go 等語言,轉換精準率超 85%,某區塊鏈公司用其快速實現多鏈適配。這種程式碼能力為 DeepSeek 積累了龐大的開發者基礎。截至 2025 年 6 月,其 GitHub 星標數突破 15 萬,成為最受歡迎的開放原始碼模型。4.3 社區營運的教科書級案例作為創業公司,DeepSeek 深諳社區營運的重要性,其 2025 年初的官方 App 登頂 140 多個國家和地區的蘋果應用程式商店榜首,堪稱開源模型推廣的教科書案例。社區營運三板斧開發者激勵計畫:推出 “DeepSeek Contributor” 認證體系,貢獻程式碼或反饋 BUG 可兌換 API 額度,已吸引超 50 萬開發者參與。透明化開發處理程序:每周發佈模型訓練日誌,公開參數調整細節與失敗案例,增強社區信任。垂直社區滲透:在 Stack Overflow、掘金等平台建立官方技術社區,針對開發者痛點推出 “程式碼偵錯助手” 等工具,活躍度穩居同類模型第一。這種社區向心力讓 DeepSeek 在資源有限的情況下實現了跨越式發展。2025 年 Q2,其模型呼叫量環比增長 210%,遠超行業平均增速。五、破局者:智譜 GLM-4.5 的成本顛覆5.1 架構革命:原生智能體的黃金三角2025 年 5 月發佈的 GLM-4.5,以 “原生融合推理、編碼、智能體三大能力” 的架構創新,徹底打破了傳統模型的能力邊界。智譜 AI 首席科學家唐傑將其比作 “全科醫生”:“傳統模型是專科醫生,而 GLM-4.5 既能診斷病情(推理),又能開藥方(編碼),還能親自手術(智能體執行)。”核心架構解析三能力原生融合:在 Transformer 基礎層設計三條平行能力通道,分別負責邏輯推理、程式碼生成與工具呼叫,通過注意力共享機制實現能力協同。雙模式推理引擎:思考模式:針對數學證明、科學計算等複雜任務,採用 “長鏈式思維(CoT)+ 自我驗證” 策略,推理步驟可達 500 步以上。直答模式:針對聊天、翻譯等簡單任務,採用 “注意力聚焦” 技術,生成速度提升至 100 tokens / 秒。MoE 參數效率最佳化:滿血版 3550 億總參數僅啟動 320 億參與推理,輕量版 GLM-4.5-Air(1060 億參數)啟動 120 億,參數利用率較同類模型提升 4 倍。5.2 性能與成本的雙重顛覆GLM-4.5 的發佈,讓 “高性能 = 高成本” 的行業定律成為歷史。其在 12 項權威評測中拿下開源模型榜首,同時 API 價格僅為 GPT-4 Turbo 的 1/5、Claude 的 1/10。性能封神時刻綜合能力:LMSYS Chatbot Arena Elo 評分 1448 分,僅次於 Qwen3-Max;12 項權威評測綜合得分 79.3 分,位列全球第三、開源第一。中文能力:C-Eval 基準 77.1% 的得分超越所有開源模型,在古漢語理解、中國法律解讀等本土化任務中精準率超 90%。智能體能力:在 AgentBench 基準中以 86.2% 的得分奪冠,能自主完成 “規劃旅行 + 預訂機票 + 生成行程” 全流程任務,無需人工干預。成本屠夫的底氣智譜通過三大創新實現成本控制:稀疏訓練技術:採用 “重要性採樣 + 增量訓練” 模式,訓練資料量減少 60%,成本降低 75%。國產化算力適配:深度最佳化昇騰 910B 晶片,推理效率較輝達 A100 提升 20%,擺脫對進口算力的依賴。API 分層定價:推出 “基礎版 + 企業版 + 定製版” 三級定價,中小企業可享受 0.8 元 / 百萬 tokens 的輸入成本,僅為行業均價的 1/3。這種性價比優勢迅速轉化為市場份額。截至 2025 年 6 月,GLM-4.5 API 呼叫量突破 100 億 tokens,服務超 8 萬家企業客戶,其中不乏華為、小米等科技巨頭。5.3 行業落地:從實驗室到生產線GLM-4.5 的原生智能體能力使其在行業落地中表現出獨特優勢,以下三個案例展現了其顛覆性價值:案例 1:製造業工藝升級某汽車零部件廠商採用 GLM-4.5 建構工藝知識圖譜,將 200 名老師傅的經驗轉化為 3.6 萬條可執行規則。通過智能體自主分析生產資料,最佳化銲接參數,產品合格率從 92% 提升至 98.5%,年節約成本 1.2 億元。案例 2:金融合規審查某股份制銀行部署 GLM-4.5 企業版,用於信貸合同合規審查。模型可自動識別 237 項風險點,審查時間從 3 天壓縮至 2 小時,精準率達 99.2%,較人工審查效率提升 36 倍。案例 3:全端開發自動化某 SaaS 公司使用 GLM-4.5 進行全端開發,僅需輸入產品需求文件,模型即可自動生成前端程式碼、後端介面與資料庫設計。一個中型項目的開發周期從 3 個月縮短至 2 周,人力成本降低 70%。六、巔峰對決:四大模型實戰橫評(2025 Q2)6.1 評測體系:科學度量的 “雙重標準”2025 年的模型評測已形成 “客觀基準 + 主觀對戰” 的雙重體系,我們綜合 LMSYS、SuperCLUE 等權威平台資料,從六大維度對四大模型進行全面評估。評測基準說明客觀基準:MMLU(知識廣度)、GPQA(深度推理)、GSM8K/MATH(數學能力)、HumanEval/MBPP(程式碼能力)、MMMU(多模態)、C-Eval(中文能力)。主觀對:LMSYS Chatbot Arena Elo 評分(10 萬 + 使用者投票)、SuperCLUE 琅琊榜綜合評分(500 人專家團盲評)。6.2 全維度性能橫評表 1:客觀基準核心得分(%)表 2:主觀體驗與綜合能力評分6.3 優勢領域與適用場景基於評測資料,四大模型的能力邊界清晰可見:Llama 4:適合需要全球化部署、依賴成熟生態的項目,尤其在英文場景與學術研究中仍具優勢。Qwen3-Max:全場景無短板,推薦企業級通用 AI 項目,多模態與長文字處理能力突出。DeepSeek-V2:程式碼生成領域的不二之選,適合開發者工具、軟體開發自動化等場景,性價比極高。GLM-4.5:中文場景與智能體應用的最佳選擇,金融、製造等垂直行業落地能力最強。6.4 實戰案例:四大模型同場競技我們選取三個典型場景進行實戰測試,還原真實應用中的模型表現:場景 1:金融年報分析任務:解析某上市公司 2024 年年報(300 頁 PDF),生成財務風險評估報告並提出投資建議。Llama 4:完成時間 45 分鐘,識別出 3 項風險點,建議較為籠統,存在 2 處中文術語錯誤。Qwen3-Max:完成時間 32 分鐘,識別出 5 項風險點,建議具體,圖表分析精準。DeepSeek-V2:完成時間 28 分鐘,識別出 4 項風險點,生成 Python 分析指令碼輔助驗證。GLM-4.5:完成時間 25 分鐘,識別出 6 項風險點,結合中國會計準則提出合規建議,精準率最高。場景 2:全端應用開發任務:根據需求文件生成一個電商商品管理系統(前端 + 後端 + 資料庫)。Llama 4:生成程式碼完整性 75%,需手動修復 12 處語法錯誤,無部署文件Qwen3-Max:生成程式碼完整性 88%,需修復 3 處錯誤,提供基礎部署指南DeepSeek-V2:生成程式碼完整性 95%,零錯誤,自動生成單元測試與 Docker 配置GLM-4.5:生成程式碼完整性 92%,零錯誤,支援一鍵部署至阿里雲伺服器場景 3:醫療影像診斷任務:分析肺部 CT 影像,識別病變區域並給出初步診斷建議。Llama 4:識別精準率 82%,漏診 1 處微小病灶,建議過於保守。Qwen3-Max:識別精準率 91%,無漏診,提供 3 篇相關醫學文獻支援。DeepSeek-V2:識別精準率 88%,漏診 1 處,生成影像分析程式碼供醫生驗證。GLM-4.5:識別精準率 90%,無漏診,結合患者病史給出個性化治療建議。七、生態博弈:分發平台的雙雄會與社區戰爭7.1 Hugging Face vs ModelScope:全球與本土的角力模型的競爭背後是分發平台的較量。2025 年,全球最大 AI 社區 Hugging Face 與中國本土的 ModelScope 形成 “雙雄會” 格局,它們的戰略選擇深刻影響著四大模型的傳播路徑。平台生態資料對比(2025 Q2)Hugging Face 憑藉全球化優勢仍是 Llama 4 與 DeepSeek-V2 的主要分發管道,而 ModelScope 依託阿里雲生態,成為 Qwen 與 GLM 系列的 “主場”。2025 年 5 月,ModelScope 推出 “模型即服務(MaaS)” 專區,企業可直接呼叫微調後的 Qwen3 與 GLM-4.5 模型,上線首月服務量突破 1000 萬次。7.2 社區營運的生死戰四大模型的社區影響力直接決定其生命力。根據 GitHub 與 Hugging Face 資料,2025 年 Q2 社區活躍度排名如下:DeepSeek:GitHub 星標 15 萬,Hugging Face 下載量 9800 萬次,社區貢獻者超 8 萬人。Qwen:GitHub 星標 12 萬,Hugging Face 下載量 1.3 億次,企業貢獻者佔比 42%。Llama:GitHub 星標 18 萬(歷史積累),Hugging Face 下載量 1.2 億次,學術貢獻者佔比 58%。GLM:GitHub 星標 10 萬,Hugging Face 下載量 8500 萬次,行業解決方案貢獻超 2000 個。DeepSeek 的社區活躍度得益於其開發者導向策略,而 Qwen 與 GLM 則憑藉企業客戶優勢實現商業閉環,Llama 則在學術領域保持傳統優勢。八、未來戰局:2025 下半年三大懸念8.1 技術拐點:多模態與智能體的終極融合2025 下半年,四大玩家將聚焦 “多模態 + 智能體” 深度融合。據業內傳聞,Meta 正研發 Llama 4 Ultra,計畫整合即時視訊處理能力;智譜則準備推出 GLM-4.5 Pro,支援工業機器人的端到端控制。一旦實現突破,開源模型將從 “認知智能” 邁入 “行動智能” 新階段。8.2 商業格局:中小企業的選擇決定終局目前四大模型在不同客戶群體中形成分化:Llama 4 主導歐美中小企業市場,Qwen 與 GLM 壟斷中國大企業市場,DeepSeek 則在全球開發者群體中快速滲透。2025 下半年,隨著輕量化模型的普及(如 Qwen3-Next 1.8B、GLM-4.5-Air),中小企業的選擇將成為決定市場份額的關鍵。8.3 規則制定:中國力量的話語權爭奪2025 年,中國開源模型在全球榜單前五佔據三席(Qwen3-Max、GLM-4.5、DeepSeek-V2),但在國際標準制定中仍處弱勢。智譜與阿里正聯合申請 ISO/IEC 開源模型評測標準,若能成功,將打破 Meta 主導的規則體系,重塑全球開源 AI 格局。九、開發者指南:如何選擇最適合的 “神兵利器”9.1 選型三要素:場景、成本與技術堆疊場景匹配度:通用場景優先 Qwen3-Max,程式碼場景選 DeepSeek-V2,中文與智能體場景選 GLM-4.5,全球化場景考慮 Llama 4。成本控制:中小團隊優先 DeepSeek-V2 與 GLM-4.5,大企業可承受 Qwen3-Max 的生態成本。技術堆疊適配:Python 生態選 Llama 4/DeepSeek,阿里雲技術堆疊優先 Qwen,國產化算力適配 GLM。9.2 快速上手教學:四大模型部署實戰(一)DeepSeek-V2 本地部署(RTX 4090)安裝依賴:pip install deepseek-ai transformers accelerate模型下載:huggingface-cli download deepseek-ai/deepseek-v2推理程式碼:(二)GLM-4.5 API 呼叫申請 API 金鑰:https://open.bigmodel.cn/呼叫程式碼:9.3 性能最佳化技巧量化壓縮:採用 GPTQ 量化 Llama 4,視訊記憶體佔用減少 70%。推理加速:使用 vLLM 部署 Qwen3-Max,吞吐量提升 4 倍。微調策略:小樣本任務採用 LoRA 微調 DeepSeek-V2,訓練成本降低 90%。多模型協同:複雜任務採用 “GLM-4.5(推理)+DeepSeek-V2(程式碼)” 組合。結語:開放原始碼的勝利,創新的共贏2025 年的 “四強爭霸” 沒有失敗者,這場激烈的競爭推動開源大模型的能力邊界不斷突破 —— 推理延遲從秒級降至毫秒級,部署成本從百萬級降至千元級,應用場景從實驗室走向生產線。Llama 的生態奠基、Qwen 的全端整合、DeepSeek 的效率革命、GLM 的架構創新,共同構成了開源 AI 的繁榮圖景。對於開發者而言,這是最好的時代。前所未有的技術選擇、極低的准入門檻、活躍的社區支援,讓每個人都能成為 AI 創新的參與者。而對於整個社會,開源大模型正以普惠之力,推動 AI 技術從少數巨頭的壟斷走向全民共享的新時代。這場爭霸仍在繼續,2025 下半年的技術更新將帶來更多驚喜。但無論最終格局如何變化,開源精神所孕育的創新活力,終將成為驅動 AI 時代前行的核心動力。 (AI雲原生智能算力架構)表 1 2025 年開源大模型“四強爭霸”格局分析
OpenAI:把所有戰船連在了一起
像曹操把所有戰船連在了一起,OpenAI然後揮舞著天價支票,都指向了台積電。OpenAI領先於競爭對手最先開出的、數千億美元的支票讓台積電無法拒絕,從而牢牢鎖定了台積電3nm、2nm先進製程產能。人工智慧的戰場如火如荼,宣佈與AMD合作,OpenAI將這場資源整合的大戰推到了全新的高度。OpenAI揮舞巨額支票,聯合甲骨文、輝達、AMD,甚至將台積電(TSMC)的先進製程產能悉數收入囊中,宛如曹操將戰船鐵鏈相連,試圖以規模碾壓一切對手。這場豪賭的背後,是大模型差異化日益縮小的體現,以及對馬斯克的Grok和Anthropic的Claude的強勢回應。OpenAI能否憑藉“連環戰船”稱霸AI?讓我們拭目以待。資源帝國的建構:OpenAI的豪橫佈局OpenAI的戰略堪稱AI界的“軍備競賽”,每一筆交易就是在下一盤資源整合的大棋,牢牢將把所有戰船連在了一起。首先,OpenAI與甲骨文簽下了一份為期5年、總值3000億美元的超級協議,目標是打造全球最大規模的AI資料中心網路。這不僅為ChatGPT的訓練和推理提供了海量雲端運算支援,還通過甲骨文的高性能雲服務(如OCI Supercluster)確保了低延遲和高吞吐量,完美適配大模型的複雜計算需求。接著,OpenAI與輝達達成1000億美元的合作,OpenAI將部署至少10GW的輝達系統,包含數百萬顆GPU,而輝達將在這些算力逐步上線時,向OpenAI持續投資,投資總額最高達1000億美元。同時,雙方也宣佈將於2026年下半年,部署首個基於輝達Vera Rubin平台的GW等級資料中心。然後,為了避免對單一供應商的依賴,OpenAI又拉來AMD。10月6日晚,OpenAI與AMD宣佈達成一項價值數百億美元的合作協議,共同開發基於AMD處理器的 AI 資料中心,根據該協議的條款,AMD將在為期四年的協議中,向OpenAI提供數十萬塊人工智慧晶片。OpenAI承諾將購買價值 6GW的AMD 晶片,從2026年開始將首先購買 MI450 晶片。 此外,OpenAI獲得AMD認股權證,允許其以每股1美分的價格收購AMD最多10%的股份。所有這些佈局,都指向了台積電。OpenAI領先於競爭對手最先開出的數千億美元的支票讓台積電無法拒絕,從而牢牢鎖定了台積電3nm、2nm先進製程產能。台積電作為全球先進晶片製造的“命脈”,其產能直接決定了全球AI晶片的供給能力。OpenAI此舉等於卡住了硬體源頭,建構了一條從雲到晶片的“全鏈條帝國”。這套“連環戰船”戰略,不僅展示了OpenAI的財大氣粗,更暴露了它對資源壟斷的野心和戰略能力。源自大模型的日益同質化:資源決定勝負OpenAI為何如此不惜血本?答案在於AI大模型競爭的“紅海”趨勢。曾經,ChatGPT憑藉技術領先獨步江湖,但如今,Transformer架構的普及、開源社區的演算法共享、資料預處理的標準化,讓大模型的性能差距迅速縮小。無論是Google的Gemini、Meta的Llama,還是新興的玩家,技術壁壘正在被逐步拆解。模型參數從百億到兆,性能提升的邊際效益卻在下降,單純靠演算法創新已不足以維持領先。在這種背景下,OpenAI選擇了一條“以量取勝”的道路:通過資源壟斷,構築競爭對手難以踰越的壁壘。算力方面,輝達和AMD的GPU叢集讓OpenAI的訓練速度和模型規模遙遙領先;雲端運算方面,甲骨文的3000億協議提供了全球分佈式的算力網路,降低單位成本的同時確保了高可用性;晶片製造方面,台積電的3nm、2nm產能為OpenAI的定製AI晶片(如潛在的推理加速器)提供了保障。這種“資源霸王拳”,不僅是為了加速AGI(通用人工智慧)的研發,更是為了在競爭白熱化的AI市場中,搶佔先發優勢。OpenAI深知,未來的AI大戰,算力資源將是決定勝負的“硬通貨”。Grok與Claude的挑戰:對手的“火攻”來襲OpenAI的“戰船”雖氣勢磅礴,卻並非無敵。馬斯克的Grok和Anthropic的Claude正從不同方向發起“火攻”。Grok,xAI的這匹黑馬背靠X平台的海量使用者和即時資料流,堪稱一個“情報之王”。X平台每天生成數億條帖子,涵蓋全球熱點、使用者情緒和社會動態,Grok通過深度整合這些資料,能提供即時、親民的回答。相比之下,ChatGPT的靜態資料集顯得有些“老學究”,在即時性和“辣味”回答上稍遜一籌(相信很多使用者都有這種感受)。更別提X平台的流量優勢,馬斯克隨便發條推,就能讓Grok的曝光量暴增,吸引大量使用者嘗試其“宇宙視角”的對話體驗。Grok的另一個殺手鐧是其與xAI生態的協同,比如與SpaceX和Tesla的資料聯動,賦予了它在跨領域任務中的獨特優勢。另一個競爭對手Anthropic的Claude則在企業市場殺出一條血路。2025年9月24日,微軟宣佈將Claude引入Microsoft 365 Copilot,直接切入辦公場景,如文件生成、資料分析和團隊協作。Claude以安全性和價值對齊見長,強調AI的可控性和道德性,特別討好那些對資料隱私和合規性要求苛刻的企業客戶。微軟的生態加持,讓Claude在企業市場的滲透力直逼ChatGPT。Grok的“野生流量”和Claude的“企業精準打擊”,成了OpenAI必須正視的“東風”。Grok的即時資料流讓它在資訊獲取上更勝一籌,而Claude的企業級最佳化則在辦公場景中搶佔先機。OpenAI若不能在技術創新和使用者體驗上持續領先,資源堆砌可能淪為“面子工程”。回想赤壁之戰,曹操的戰船規模空前,卻因靈活性不足被周瑜的火攻一舉擊潰。OpenAI的“戰船”若過於依賴資源優勢,而忽視模型的差異化最佳化和使用者需求的精準捕捉,恐有翻船之虞。反過來,若OpenAI能將資源優勢轉化為技術突破,比如推出更高效的推理演算法或更貼近使用者需求的場景應用,這場豪賭或許真能改寫AI格局。AI江湖的未來:誰主沉浮?OpenAI的“連環戰船”是一場all-in的豪賭,試圖用算力、雲、晶片的鐵鏈,鎖住通往AGI的未來。然而,這場AI大戰遠未塵埃落定。馬斯克的Grok憑藉X平台的即時資料流和龐大使用者基礎,正以“情報之王”的姿態迅速崛起,其“宇宙視角”和親民的回答風格吸引了大量使用者,挑戰著ChatGPT的公眾認知度。Anthropic的Claude則在企業市場悄然發力,依託微軟365 Copilot的生態支援,精準鎖定辦公場景,憑藉安全性和合規性優勢,搶佔了企業客戶的高地。這兩股“東風”讓OpenAI的“戰船”面臨雙重夾擊。資源可以堆砌戰船,但AI江湖的勝負從來不是單一維度的較量。使用者體驗、場景適配、技術迭代、生態協同,這些都是決定成敗的關鍵變數。OpenAI若能將資源優勢轉化為更智能、更貼近使用者需求的模型,比如在即時資訊處理上追趕Grok,或在企業場景中對抗Claude,或許能鞏固霸主地位。反之,若過於沉迷於“戰船”的規模,而忽視靈活性和創新性,可能重蹈曹操覆轍,被對手的“火攻”燒得片甲不留。AI江湖的最終勝負,讓我們拭目以待,這場“赤壁之戰”的現代演繹,將如何書寫AI的未來。 (少數派觀點局)
輝達再破世界紀錄,每秒1000 token!剛剛,全球最快Llama 4誕生
輝達,親手打破了自己的天花板!剛剛,Blackwell單使用者每秒突破了1000個token,在Llama 4 Maverick模型上,再次創下了AI推理的世界紀錄。在官博中,團隊放出了不少絕密武器。你以為,AI推理的速度已經夠快了?不,輝達還能再次顛覆你的想像——就在剛剛,他們用Blackwell創下了AI推理的新紀錄。光是採用單節點(8顆Blackwell GPU)的DGX B200伺服器,輝達就實現了Llama 4 Maverick模型每秒單一使用者產生1000個token(TPS/user)的驚人成績!單節點使用8塊B200 GPU這項速度記錄,由AI基準測試服務Artificial Analysis獨立測量。而且,更令人咋舌的是,單台伺服器(GB200 NVL72,配備72顆Blackwell GPU)的整體吞吐量,已經達到了72,000 TPS!GB200 NVL72液冷機架原型機這場速度革命的幕後,是一整套精心佈置的技術組合拳頭——使用TensorRT-LLM優化框架和EAGLE-3架構訓練推測解碼草稿模型;在GEMM、MoE及Attention計算中全面應用FP8資料格式,有效縮小模型體積並提升計算效率;應用CUDA核心優化技術(如空間分區、GEMM權重重排、Attention核心平行優化、程序化依賴啟動(PDL)等);運算融合(如FC13+SwiGLU、FC_QKV+attn_scaling、AllReduce+RMSnorm融合)。由此,Blackwell的性能潛力徹底被點燃,一舉實現了4倍加速,直接把之前的最強Blackwell基線甩在身後!迄今測試最快Maverick實現這次優化措施在保持響應精準度的同時,顯著提升了模型效能。輝達針對GEMM(通用矩陣乘法)、MoE(混合專家模型)及Attention(注意力)運算運用了FP8資料類型,旨在減小模型體積,並充分利用Blackwell Tensor Core技術所帶來的高FP8吞吐量優勢。如下表所示,採用FP8資料格式後,模型在多項評估指標上的精準度可與Artificial Analysis採用BF16資料格式(進行測試)所達到的精準度相媲美:為何減少延遲至關重要?大部分用生成式AI的場景,都要在吞吐量(throughput)和延遲(latency)之間找一個平衡點,好讓很多用戶同時使用時,都能有個「還不錯」的體驗。但是,有些關鍵場景,例如要迅速做出重要決策的時候,「響應速度」就變得特別重要,即使一點延遲都可能帶來嚴重後果。無論你想要的是同時處理盡可能多的請求,還是希望既能處理很多請求、響應又比較快,還是只想最快地服務單個用戶(即最小化單個用戶的延遲),Blackwell的硬體都是最佳選擇。下圖概述了輝達在推理過程中應用的核心優化和融合(以紅色虛線框標示)。輝達實現了若干低延遲GEMM核心,並應用了各種核心融合(如FC13+SwiGLU、FC_QKV+attn_scaling以及AllReduce+RMSnorm),從而使Blackwell GPU在最小延遲場景下表現出色。CUDA核心優化與整合在核心優化與融合方面,輝達採用了以下幾項關鍵技術:空間分區與高效率內存載入利用空間劃分(也稱為warp專業化)並設計GEMM核心,可以高效的方式從內存中加載數據,從而最大限度地利用NVIDIA DGX所提供的巨大內存帶寬——總計64TB/s。GEMM權重重排將GEMM權重以一種優化的swizzled格式進行重排。由此可以確保在使用Blackwell第五代Tensor Core完成矩陣乘法計算後,從Tensor記憶體載入計算結果時能夠獲得更理想的資料佈局。Attention核心平行優化透過沿著K和V張量的序列長度維度對計算進行劃分,優化了Attention核心的效能,使得計算任務能夠在多個CUDA線程塊上並行執行。此外,還利用分佈式共用內存機制,在同一線程塊叢集內的不同線程塊之間高效地進行結果規約,從而避免了訪問全域內存的需要。運算融合透過啟用不同運算之間的融合,來減少核心執行間的開銷以及記憶體載入/儲存的次數。例如,將AllReduce運算與緊接而來的RMSNorm運算及量化(Quantize)運算整合成單一的CUDA核心,以及將SwiGLU運算與其前置的GEMM運算進行融合。程序化依賴啟動(PDL)程式化依賴啟動(PDL)是一項CUDA功能,它能夠減少同一CUDA流上兩個連續CUDA核心執行之間的GPU空閒時間,甚至允許這兩個核心部分重疊執行。預設情況下,當多個核心在同一個CUDA流上啟動時,第二個核心必須等待第一個核心執行完畢後才能開始。這種機制會導致兩個主要的效能問題:其一,兩個連續的核心執行之間會產生微小的間隙(如下圖所示),在此期間GPU處於閒置狀態。其二,當第一個核心的執行接近尾聲時,它可能仍會佔用一部分流式多處理器(SM)來完成剩餘的CUDA塊計算,這使得GPU上的其他SM處於空閒,從而導致GPU整體計算能力的利用率不足。透過在CUDA中運用程式化依賴啟動API,輝達允許次級核心(secondary kernel)在主核心(primary kernel)仍在執行階段就開始執行。在初始準備階段(preamble period),次級核心可以執行那些不依賴主核心執行的計算任務,並載入相應的資料。這不僅消除了兩個連續核心之間的執行間隙,也顯著提升了GPU的使用率;因為當主核心僅佔用GPU上的部分SM時,其餘空閒的SM便可以開始運行次級核心。推測解碼推測解碼(Speculative Decoding)是一種廣受歡迎的技術,用於在不犧牲生成文字品質的前提下,加速LLM的推理速度。該技術透過一個規模更小、速度更快的「草稿」模型來預測一個推測token序列,然後由規模更大(通常也更慢)的LLM平行驗證這些token。其加速效果源於:在目標模型的一次迭代中,有機會產生多個token,代價是草稿模型帶來的一些額外開銷。端到端的工作流程首先,在目標模型完成上下文階段(此階段也會產生token t1)之後,草稿模型會迅速產生一系列潛在的token(例如d2-d4)。隨後,目標模型進入生成階段,在這一階段,它會針對整個草稿序列,一次地平行驗證(或生成)每個位置的下一個token。如圖所示,如果草稿token與目標模型本身將要產生的token相匹配,目標模型便可能「接受」其中的若干token(如d2、d3),同時「拒絕」其他的token(如d4)。這個循環不斷重複:被接受的token得以保留;若發生拒絕(例如,在d4被拒絕後),目標模型會提供正確的下一個token(如t4);然後,草稿模型會產生一個新的推測序列(例如d5-d7)。透過平行驗證多個token——而不是依賴(速度較慢的)目標模型逐個產生它們——並充分利用草稿模型的快速推測能力,系統能夠實現顯著的速度提升,尤其是當草稿模型的預測準確率較高時。「接受長度(AL)」定義為在單次驗證步驟中,平均能夠成功產生的token數量。AL值越高,加速效果越顯著。對此,輝達採用了一種基於EAGLE3的架構作為其推測解碼方法,主要透過調整推測層中前饋網絡(FFN)的大小來優化接受長度(AL)。在推理過程中,需要在目標模型的前向傳播階段記錄低、中、高三個層級的特徵(即初始、中間及末端解碼層輸出的隱藏狀態)。之後,再將這些隱藏狀態與token嵌入結合,並將結果輸入到推測層。此推測層隨後以自回歸方式產生一個草稿token序列,供目標模型進行平行驗證。推測層的開銷雖然不大,但也不可忽視。因此,關鍵的挑戰在於如何在草稿長度與端到端加速效果之間取得理想的平衡。草稿長度越長,AL通常也越高,但相應地,運行草稿模型所產生的額外成本也會增加。根據輝達在下方實驗中所展示的結果,當草稿長度設定為3時,可獲得最佳的加速效果。通過CUDA Graph和重疊調度器減少主機端開銷推測解碼的另一個挑戰在於減少主模型與草稿模型之間的通訊和同步開銷。如果輝達將採樣/驗證邏輯置於主機端,便會在主機與裝置之間引入額外的同步點,進而破壞CUDA Graph的完整性。因此,輝達選擇將驗證邏輯保留在裝置端,從而能夠將目標模型的前向傳播、驗證邏輯以及草稿模型的前向傳播都整合到同一個CUDA Graph中。此外,輝達還啟用了TensorRT-LLM的重疊調度器,以進一步讓當前迭代的模型前向傳播與下一次迭代的輸入準備及CUDA Graph啟動過程實現重疊。使用torch.compile()優化草稿模型層由於驗證邏輯是採用Torch原生操作在裝置端實現的,這導緻輝達最終產生了大量細小的Torch原生核心。手動融合這些核心不僅複雜,容易出錯。為此,輝達採用torch.compile(),借助OpenAI Triton的能力來自動完成這部分核心的融合,並產生優化的版本。這項舉措幫助輝達將草稿模型的開銷從25%成功降低到了18%(當草稿長度為3時)。總結總的來說,這一創世界紀錄的速度,是強大Blackwell架構、自CUDA層面起直至上層應用的深度軟件優化,以及輝達量身定製的推測解碼實現所帶來的顯著加速三者結合的成果,它直接響應了下一代AI互動應用對低延遲的迫切需求。正如輝達所展示的那樣,這些技術進步確保了即便是超大規模模型,也能夠提供足夠的處理速度和響應能力,以支援無縫的即時用戶體驗和復雜的AI智能體部署場景。作者介紹Yilin FanYilin Fan是輝達的高級深度學習工程師,專注於TensorRT/TensorRT-LLM的表現。他擁有卡內基美隆大學的軟件工程碩士學位和北京航空航天大學的學士學位。在加入輝達之前,他曾在小馬智行工作,負責優化部署自動駕駛汽車上的深度學習模型。Po-Han HuangPo-Han Huang是輝達的深度學習軟件工程師。在過去六年多的時間裡,他一直致力於透過TensorRT和CUDA優化來加速已訓練深度神經網絡模型的推理。他擁有伊利諾伊大學厄巴納-香檳分校的電子與電腦工程碩士學位,專業知識涵蓋深度學習加速、電腦視覺和GPU架構。Ben HammBen Hamm是輝達的技術產品經理,專注於LLM推理性能與優化。此前,他曾在亞馬遜擔任產品經理,負責Alexa的喚醒詞檢測機器學習棧。之後加入OctoAI並擔任LLM託管服務的產品經理。隨著公司被收購,他也跟著一起來到了輝達。有趣的是,身為電腦視覺的愛好者,他甚至還發明了一款AI驅動的貓門。 (新智元)
Llama 4兆巨獸延期,80%核心元老集體辭職?
2兆Llama 4巨獸一再推遲,又傳出了80%團隊辭職的驚人消息!目前,發言人已闢謠資訊不精準,Meta或許迎來了至暗時刻。Llama 4團隊約80%的人集體辭職?昨天,來自AI明星初創Prime Intellect的機器學習研究員一則驚天爆料,徹底點燃了AI圈。就連WSJ幾天前的獨家報導,也被人們翻了出來。文章稱,Meta旗艦AI模型「Behemoth」一再推遲發佈,內部對公司數十億美元AI戰略的質疑達到頂峰。而且,文中還給出了更多人員流失的細節:Llama 1初始團隊中,原來14人中已有11人從Meta離職。對此,Meta高管Dave Arnold立即闢謠,80%員工逃離的消息不精準。他還特別強調,這些離職的僅是發表Llama 1團隊的人,並非後續的團隊。與此同時,OpenAI昨日上線了超強編碼智能體Codex。下周,GoogleI/O大會上還將發佈Veo、Flow等一系列爆款。這場風波,讓行業不禁發出靈魂拷問:Meta在這場AI競賽中,是否已陷入瓶頸?2兆巨獸「滑鐵盧」按照原計畫,Meta會在4月首屆AI開發者大會上,正式上線2兆參數Behemoth。當時,知情人士表示,由於模型性能未達預期,發佈時間被推遲至6月。如今,將會延至到今年秋季,甚至更晚。Llama 4發佈當天,Meta曾首次介紹了這款模型,仍在訓練中。它是Maverick協同蒸餾的教師模型,使用30T多模態token在32K個GPU上進行預訓練(FP8)。Behemoth是Meta大模型與OpenAI、Google、Anthropic等抗衡的重要武器。然而,工程師們在提升其性能方面遇到困難,內部甚至質疑其改進是否足以支撐公開發佈。甚至,Behemoth的開發困境讓高管們,對Llama 4開發團隊的表現感到失望。在內部,他們正考慮對AI產品團隊進行重大最佳化調整。Meta慌了,招募AI大佬帶隊Llama 5?Meta的AI之路並非一帆風順。其首款Llama模型,曾由AI研究團隊(FAIR)開發。該團隊以學術研究為主,成員大多是博士。2023年初,Llama 1及相關論文發佈後,在業界贏得了廣泛的好評。論文地址:https://arxiv.org/pdf/2302.13971然而,自那以後,原始論文的14名研究者中有11人已離開公司,新一代Llama模型由另一團隊接手。今年,Meta還計畫投資高達720億美元,大部分用於AI的研發、基礎設施投入。然而,上個月,Llama 4模型的上線,卻讓人們大失所望。因其在LMArena上,用了非公開版模型去刷榜,模型排名衝到TOP 3。一時間,全網質疑Meta造假聲愈演愈烈。最後,LMSYS決定重新評估,結果Llama 4真實排名跌倒了30開外。在所有對手快速迭代的強壓之下,Meta實屬慌了。Hyperbolic聯創兼CTO Yuchen Jin稱,自己收到了Meta招募資訊——帶領Llama 5團隊。另一張來自@kalomaze截圖顯示,Meta發出多個英雄帖,在美國不同地區大量招募軟體工程師。幾天前,Yuchen Jin用Meta AI測試Llama 4後,體驗感極差。截圖後讓模型去理解圖片內容,但Meta AI拒絕了回覆。當他去登錄帳號時,也失敗了。他直言道,「這不僅僅是Llama 4的問題,而是Meta的技術問題」。Scaling Law又一次撞牆?Meta當下的困境並非個例。當前,其他頂級AI公司同樣在下一代模型的開發中遇到了瓶頸。先拿OpenAI來說吧,他們原計畫於2024年中發佈GPT-5,至今仍未推出,最新版本僅為GPT-4.5。不過,在昨天AMA Reddit線上問中,OpenAI副總裁透露,多個產品整合到GPT-5中。而且,據稱,GPT-5將完全基於尚未發佈的模型建構。另外,Anthropic Claude 3.5 Opus模型自去年宣佈以來,至今未發佈,對外僅表示「即將推出」。紐約大學資料科學中心助理教授Ravid Shwartz-Ziv指出,「目前,所有實驗室和模型的進步都相當有限」。這一現象表明,AI模型的未來發展可能比過去慢得多,且成本高昂。儘管Behemoth的發佈一再推遲,Meta仍有可能選擇提前推出一個功能有限的版本,以緩解外部壓力。 (新智元)
傳言:Llama 4 團隊80%成員集體辭職!
有爆料稱Llama 4 團隊正集體跑路?有一條爆炸性消息聲稱:據說Meta的Llama 4團隊約80%的成員已經集體遞交辭呈!這消息一出,整個AI圈都炸開了鍋。到底發生了什麼事?為什麼會出現這麼大規模的人才出走?爆料訊息最早來自X使用者@kalomaze的一則簡短推文:「得到消息:Meta的Llama 4團隊約80%已辭職」。這條推文迅速在社群媒體上引起軒然大波,各路科技部落客紛紛轉發評論。Taufiq 直言:我喜歡LLAMA,但為了在LLM排行榜上獲得優勢而操縱自己的分數,會激怒那些與這個決定無關的開發者/研究人員。Gorilla 則稱:LlaMa 模型實在太垃圾了!有趣的是,不少人直接把矛頭指向了Meta首席AI科學家Yan LeCun。Dshoopy 指出了LeCun 對LLM 的「鄙視」。Mini Trader則表示:當@ylecun說LLMs不行,而競爭對手卻在不斷推進技術時,情況能有多好?他為什麼還在那裡?反轉消然而,事情很快就出現了反轉!Meta員工Dave Arnold站出來澄清:這是不精準的。昨天WSJ的文章指的是發表最初Llama研究論文的研究人員,而不是隨後發布所有Llama模型的團隊。看來,事情似乎如傳言所說!Hugging Face 工程師Vaibhav (VB) Srivastav 也表示:堅定長期看好Meta!真相到底是什麼?仔細梳理各方訊息,我們發現:這場「80%團隊辭職」的流言,主要源自社群媒體和論壇的二手爆料,至今沒有任何權威媒體證實。從最早的爆料時間來看,這消息出現在5月16日(美西時間),隨後被大量轉發擴散。值得注意的是,在Reddit和1point3acres論壇上,先前確實有自稱「GenAI員工」的使用者發文稱因管理層要求把benchmark測試集混入訓練資料而辭職,並聲稱「有高階主管和多名研究員已離開」。但這些貼文相互引用,均未提供可核實的姓名、人事手續或SEC檔案,屬於單一來源的網傳資訊。而同時,LinkedIn 上展示的職位列表顯示,Meta公司在過去24小時內發布的多條 Software Engineer (Technical Leadership) - Machine Learning 的招聘資訊。資訊顯示:公司: Meta(即Facebook的母公司)職位: Software Engineer(Technical Leadership) - Machine Learning薪資範圍:213K−293K / 年地點: 提供多個工作地點,包括Remote(遠端)、Bellevue, WA、Washington, DC、Menlo Park, CA、New York, NY 等。發佈時間: 全部是6到7小時前發布的。而這也顯示大規模辭職確有可能,因為:1. 大量集中發佈技術崗位這種在短時間內大規模同步發佈多個相同職位的行為,通常出現在公司正在重建某一團隊或填補突然出現的空缺。2. 職位涉及技術領導“Technical Leadership”,表示這些崗位不只是一般的工程師,而是具備較強技術影響力或帶團隊能力的人才,這種人選的招聘需求通常是戰略性的。而如果團隊核心成員離職或被裁,這類崗位會優先補充。3. 結合Meta近期歷史Meta從2022年到2024年期間,已經曆數輪裁員,尤其集中在Reality Labs、AI、基礎設施等部門。若近期有新的AI方向或機器學習團隊調整,發佈這類職位說明公司正在重組或擴展這些技術領域。Meta 的內憂外患雖然「80%團隊集體辭職」的說法可能有誇大成分,但Meta和Llama 4項目確實面臨諸多問題:1. Joelle Pineau(FAIR/開源派領軍人物)宣佈5月30日離職,這被視為高層動蕩的信號。2. 據《華爾街日報》獨家報導,旗艦版Llama 4「Behemoth」再次延期,管理層「對團隊表現失望,或將調整架構​​」。報導中提到「原始Llama核心14名研究員已有11人離開」——約78%,但這是跨度兩年的資料,並非「一夜80%」。3. TechCrunch報導,Meta VP Ahmad Al-Dahle否認「故意用測試集刷分」的指控,但承認對外模型品質參差不齊。這說明內部確實存在對Benchmark爭議與品質壓力。Panda在評論中透露了一些內部情況:核心團隊仍在那裡。顯然Mark和Chris Cox正在向核心團隊投錢讓他們留下來。正在進行大規模重組,試圖組建100人的核心小團隊。辭職的人可能是不在這個核心團隊的人。另一位網友Dandandan指出:FAIR(Meta的基礎AI研究團隊)很好,GenAI(負責生成式AI產品的團隊)現在一團糟。人們都知道這一點,他們會確保你知道他們與GenAI無關。空穴來風?而這種大規模辭職的傳言,為何會出現並且迅速傳播呢?我梳理了下背後的可能原因:指標壓力與最後期限:《華爾街日報》、SiliconANGLE均提到4月底/6月是原定交付點,性能未達預期,管理層「非常不滿」。社區測試發現公開版Llama 4 Maverick與內部評測差距大,助長了「刷榜」猜測。人員流動與組織分拆:原Llama 1/2的FAIR研究員多數已去OpenAI、Anthropic、Mistral等競爭對手;GenAI新組團隊經驗參差不齊。公開離職案例(如Pineau)放大解讀成「整個團隊都跑了」。社群媒體放大效應:由於Llama系列一直以「開源」與「社區友善」著稱,來自內部的任何負面爆料都更容易被二次傳播。可能的深層原因假設真的有大規模離職(雖然可能沒有80%那麼誇張),背後的原因可能有:過度激進的時間表與KPI:Meta 2025年資本開支高達720億美元,多次在公開場合宣稱要「超越GPT-4.5」;項目目標與資源配置可能存在失衡。組織重組與文化衝突:FAIR(科研)與GenAI(產品)兩套文化碰撞,決策權集中在KPI導向的產品線,可能導致研究人員流失。開源vs商業化路線之爭:開源派強調「只發布可複現模型」,商業派希望搶時間窗口,可能誘發倫理與合規摩擦。外部挖角:Mistral、xAI等新興公司給出極高股權包,吸引Meta資深工程師。不少網友對此表達了自己的看法:ja感嘆道:很高興聽到大公司裡還有熱情的人snats則調侃:想像一下,我們會再得到一個MistralCrossProduct建議:不確定為什麼他們必須辭職,只需重組並讓llama3.3再次變得偉大,只是加入推理能力Cao Nguyên Tùng幽默地總結:你得到了lecun,所有其他實驗室都得到了你的研究人員,相當公平的交易。啟示無論傳言是否屬實,這或許能為我們帶來了一些思考:頂尖AI 人才爭奪:大模型公司開始「復合薪酬+研究自由」雙向競爭,人才流動加劇。開源大模型信任:若刷榜或訓練資料不透明成為事實,社區對「開源即可信」的預設將被削弱。產品節奏放緩:《華爾街日報》指出OpenAI、Anthropic也在推遲新旗艦;這顯示SOTA效能的邊際收益正在遞減,難度卻在遞增。監管與合規:若涉嫌欺騙Benchmark,將被SEC或FTC視為潛在誤導投資者、開發者的行為。後續跟蹤是否真如爆料所言近80% 人員辭職,目前尚未有明確證據。而關於事情的真相,我們可以關注這些後續發展:6-7月人事變動:Meta若真失去大量核心成員,SEC 8-K或歐洲/加州WARN法規都可能留下紀錄。下一個公開技術報告:若技術報告作者名單大幅改變,可間接驗證人員留存率。社區benchmark對比:追蹤LM Arena等平台未來對Llama 4不同版本的實測差異。目前的證據只能證明Llama 4項目受挫、人員持續流失、管理層失望,但「80%一夜之間集體辭職」更像是社群媒體的放大性謠言。這也再次提醒我們在AI這個高度競爭的領域,人才、文化、倫理與商業壓力的平衡有多麼重要。AI 賽道上,「人才大戰」,遠比模型大戰還要激烈! (AGI Hunt)
Meta宣戰OpenAI!發ChatGPT超強平替App,語音互動聯動AI眼鏡,Llama API免費用
Llama API免費體驗,獨立App正式上線。Meta和OpenAI全面開戰了!智東西4月30日報導,今天,在首屆LlamaCon開發者大會上,Meta正式發佈了對標ChatGPT的智能助手Meta AI App,並宣佈面向開發者提供官方Llama API服務的預覽版本。Meta AI App是一款智能助手,基於Llama模型打造,可通過社交媒體帳號瞭解使用者偏好、記住上下文。與ChatGPT一樣,Meta AI App支援語音和文字互動,並額外支援了全雙工語音互動(Full-duplex,允許在接收語音的同時平行處理和響應,支援邊聽邊說、即時打斷等功能)。Meta AI App可作為Meta RayBan AI眼鏡的配套應用程式,使用者能通過該眼鏡直接與Meta AI App對話。同場發佈的Llama API提供了包括Llama 4在內的多款模型,這一API與OpenAI SDK相容,使用OpenAI API服務的產品可無縫切換至Llama API。同時,Meta在新API中提供了用於微調和評估的工具,開發者可以打造符合自身需求的定製化模型,還可使用由AI晶片創企Cerebras和Groq提供的快速推理服務。值得一提的是,過去數年中,Llama相關發佈僅作為Meta Connect開發者大會上的一個環節,此次專門辦會足見他們對AI業務的重視。Meta CEO祖克柏並未出現在發佈會現場,會後其將參與2場對談。關於價格,開發者可通過申請獲取Llama API免費預覽版的使用權限。未來,這一API或將採取收費模式,具體價格表尚未發佈。Meta AI App及Web版本均已上線,免費可用。Meta AI Web端:https://www.meta.ai/Llama API文件:https://llama.developer.meta.com/docs/overview01.Llama模型下載量已超12億Meta AI App主打語音互動Meta首席產品官Chris Cox在LlamaCon大會上分享了Meta開源AI的最新進展。Cox稱,2年前,Meta內部對開放原始碼的商業化前景和優先順序問題都持有懷疑態度,但如今開源AI已成為行業大勢所趨。2個半月前,Meta宣佈Llama及其衍生模型已經實現了10億的下載量,今天,這一數字已迅速增長至12億。在開源平台Hugging Face上,Llama的大部分下載量均來自衍生模型,有數千名開發者參與貢獻,數萬個衍生模型被下載,每月被使用數十萬次。目前,Llama模型已被運用至Meta旗下的諸多App,包括WhatsApp、Instagram等等。在這些場景中,Llama模型經過了定製處理,以滿足特定用例需求,例如對話性、簡潔性(尤其是移動場景)和幽默感。為提供更豐富的AI體驗,Llama推出了獨立智能助手App——Meta AI。Meta AI App十分重視語音互動體驗,可提供低延遲、富有表現力的語音。Meta AI還可連接使用者的Facebook和Instagram帳戶,根據使用者互動歷史大致瞭解其興趣,並記憶使用者的相關資訊。這一App內建全雙工語音實驗模式。相關模型使用人與人之間的自然對話資料進行訓練,能提供更為自然的音訊輸出。全雙工意味著通道是雙向開放的,使用者可以聽到自然的打斷、笑聲等,就像真正的電話對話一樣。全雙工語音實驗模式還處於早期階段,沒有工具使用、網路搜尋等能力,無法瞭解新近發生的時事。Meta AI App中融入了社交元素,使用者可在發現頁面分享提示詞、生成結果等。這一App能與Meta Ray Ban智能眼鏡配合使用。使用者將能在眼鏡上開始對話,然後從應用程式或網路的“歷史記錄”選項卡中訪問它,以從上次中斷的地方繼續。02.一行程式碼就能呼叫可線上完成模型微調會上,Meta負責Llama業務的副總裁Manohar Paluri與Llama研究團隊成員Angela Fan共同發佈了由Meta託管的Llama API服務。Llama API提供簡單的一鍵式API金鑰建立,一行程式碼就能呼叫。支援輕量級的Python和Typescript SDK開發者以及OpenAI SDK。在API服務網頁中,Meta提供了互動式遊樂場。開發者可在其中嘗試不同的模型,更改模型設定,比如系統指令或溫度,以測試不同的組態。▲Llama API介面此外,開發者還可以使用多項預覽功能,包括基於JSON的結構化響應、工具呼叫等。Paluri認為,定製化才是開源模型真正應該領先的地方。Llama API提供了便捷的微調服務,目前支援對Llama 3.3 8B進行自訂。開發者可在微調標籤頁上傳用於微調的資料,或是使用Meta提供的合成資料工具包生成後訓練資料。▲Llama API模型微調介面資料上傳完成後,開發者可將資料的一部分切分出來,用於評估定製模型的表現。在Llama API平台上,可隨時查看訓練進展情況,微調完成後的模型可供下載,開發者可在任何場景中運行這一模型。大會上,Meta宣佈了與Cerebras和Groq的合作。這兩家企業可提供Llama 4 API服務所需的算力支援,其算力能實現更快的推理速度。03.結語:Llama探索商業化新道路自2023年Llama 1發佈以來,Llama系列模型已歷經四個主要版本,開源了數十款不同參數規模、不同架構的模型。不過,動輒數千億乃至兆參數量的模型,意味著巨大的投入——外媒爆料稱,過去一年內,Meta已經主動與微軟、亞馬遜等公司接洽,希望建立合作關係,共同分擔開發成本。本次,Llama API與Meta AI App的發佈,標誌著Meta開始積極探索Llama系列開源模型商業化的新道路。雖然目前的相關服務均處於免費狀態,但未來,Meta有望以開源模型為入口,引導企業和使用者使用關聯的雲服務,或是利用App實現商業化變現。在講完技術普惠和創新的故事之後,商業化或許是所有開源模型廠商們都需要共同面對的問題。 (智東西)
Llama 4革命:原生多模態AI的創新時代
昨天發佈Llama 4系列模型全面擁抱MoE<溫習>,在 MoE 模型中,單個 token 僅啟動總參數的一小部分。MoE 架構在訓練和推理方面的計算效率更高,並且在給定固定訓練 FLOPs 預算的情況下,與密集模型相比,可提供更高的質量。在Llama4系列中有兩個高效的模型,一個是Llama 4 Scout,一個由16位專家組成的17B的啟動參數模型,另一個是Llama 4 Maverick,一個由128位專家組成的17B個啟動參數模型。前者適用於單個H100 GPU(Int4量化),後者適用於單個H100主機。MoE 層使用 128 個路由專家和一個共享專家組合而成。當然這個系列中還有一個教師模型Llama 4 Behemoth(2T參數的巨獸),它在以STEM為核心的基準測試(如MATH-500和GPQA Diamond)上的表現優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4 Behemoth仍在訓練中,但已經可以看到其中的很多技術細節。Llama 4 Scout是一個109B的參數規模,其中17B的啟動參數,由 16 位專家組成,據說是世界上同類產品中最好的多模態模型,比所有上一代 Llama 模型都更強大,同時適合單個 H100 GPU。Llama 4 Scout提供了行業領先的10M上下文窗口,並且在熱門的基準測試中提供了比Gemma 3、Gemini 2.0 Flash-Lite和Mistral 3.1更好的結果。它採用創新的iRoPE(交錯旋轉位置嵌入)架構來增強長上下文泛化,而且表現不俗。在大模型處理中長視訊任務時,NLL(負對數似然)基準是一種常用的評估指標,用來衡量模型對視訊內容建模的精準性。它反映的是模型在預測視訊中下一幀、下一動作或下一事件時的“信心”。NLL值越低,說明模型對視訊的理解和預測越準確。在中長視訊場景下,這種基準可以幫助判斷模型是否具備捕捉長時間依賴關係和複雜時序結構的能力,因此被廣泛用於大模型在視訊生成、視訊理解等任務中的性能對比和調優。Llama 4 Maverick的參數規模為400B,其中17B個啟動參數,擁有128名專家,是同類產品中最好的多模態模型,在廣泛報導的基準測試中擊敗了GPT-4o和Gemini 2.0 Flash,同時在推理和編碼方面取得了與新的DeepSeek v3相當的結果——而且啟動參數不到一半。Llama 4 Maverick提供一流性價比,實驗性聊天版本在LMArena上的ELO得分為1417。DeepSeek v3.1暫時不支援多模態Llama 4 Maverick主要歸功於Llama 4 Behemoth的蒸餾,Llama 4 Behemoth具有2T的總參數,288B個啟動參數模型,擁有 16 位專家。Llama 4 Behemoth在多項STEM基準測試中優於GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。Llama 4模型採用原生多模態設計,結合早期融合,將文字和視覺標記無縫整合到統一的模型主幹中。早期融合是向前邁出的一大步,它聯合大量未標記的文字、圖像和視訊資料進行預訓練模型的訓練,尤其是這個過程中它還改進了Llama 4中的視覺編碼器(基於MetaCLIP)。訓練過程中還採用一種新的訓練技術,姑且稱之為 MetaP。它能夠可靠地設定關鍵的模型超參數,例如每層學習率和初始化規模。所選的超參數在不同的批次大小、模型寬度、深度和訓練標記值之間遷移特性良好。Llama 4 通過對200種語言進行預訓練,其中包括100多種語言,每種語言的令牌超過10億個,總體上是Llama 3的10倍。 Llama 4模型群的推出標誌著AI研究和應用的變革時刻。Llama 4結合了多模態智能、高效的MoE 架構、廣泛的預訓練和強大的訓練後策略,樹立了新的基準。 (魯班模錘)
輝達253B開源新王登場,Llama 4三天變陪襯!直逼DeepSeek-R1成推理天花板
【新智元導讀】Llama 4剛出世就被碾壓!輝達強勢開源Llama Nemotron-253B推理模型,在數學編碼、科學問答中精準率登頂,甚至以一半參數媲美DeepSeek R1,吞吐量暴漲4倍。關鍵秘訣,就在於團隊採用的測試時Scaling。Llama 4誕生不過3天,反手就被超越了。剛剛,輝達官宣開源「超大杯」Llama Nemotron推理模型,共有253B參數,基於Llama-3.1-405B微調而來。在多項基準測試中,Llama Nemotron一舉擊敗了兩款Llama 4模型。而且僅用一半的參數,性能直逼DeepSeek R1。尤其是,在複雜數學推理AIME(2024/2025)、科學推理GPQA Diamond、編碼LiveCodeBnech中,新模型取得SOTA。相比DeepSeek R1 671B,它的推理吞吐量提升了4倍。Llama-3.1-Nemotron-Ultra-253B-v1經過後期訓練,專注於推理、人類聊天偏好和任務,如RAG(檢索增強生成)和工具呼叫。它能支援128Ktoken的上下文長度,且能夠在單個8xH100晶片節點上進行推理。這個模型之所以能達到如此強的推理性能,是因為在模型精度和效率之間取得了良好平衡,讓效率(吞吐量)直接轉化為成本節省。通過採用一種新穎的神經架構搜尋(NAS)方法,研究者大大減少了模型的記憶體佔用,從而支援更大的工作負載,並減少了在資料中心環境中運行模型所需的GPU數量。現在,該模型已準備好支援商用。Llama Nemotron超大杯上線,推理開源天花板今年3 月,輝達首次亮相了Llama Nemotron系列推理模型。它一共包含三種規模:Nano、Super 和 Ultra,分別針對不同場景和計算資源需求,供開發者使用。· NanoNano(8B)基於Llama 3.1 8B微調而來,專為PC和邊緣裝置而設計。如下圖,Llama Nemotron Nano在GPQA Diamond、AIME 2025、MATH-500、BFCL、IFEval、MBPP和MTBench等多項基準測試中,展現出領先性能。圖 1. Llama Nemotron Nano在一系列推理和智能體基準測試中提供同類最佳性能· SuperSuper(49B)是從Llama 3.3 70B蒸餾而來,針對資料中心GPU進行了最佳化,便可實現最高吞吐量下的最佳精準性。下圖顯示,Llama Nemotron Super在GPQA Diamond、AIME 2024/2025、MATH-500、MBPP、Arena Hard、BFCL和IFEval等多項基準測試,取得了最優性能。圖 2. Llama Nemotron Super在一系列推理和智能體基準測試中提供領先性能· UltraUltra(253B)是從Llama 3.1 405B蒸餾而來,專為多GPU資料中心打造最強智能體而設計,圖表顯示,採用FP8精度的Llama Nemotron Ultra 253B在GPQA、Complex Math、BFCL、LiveCodeBench以及IFEval上表現出色。圖3. FP8精度的Llama Nemotron Ultra提供同類最佳的推理和智能體基準測試性能Llama Nemotron家族模型均是基於開源 Llama建構,並採用輝達稽核後的資料集合成資料,因此全部可以商用。秘密武器:測試時Scaling輝達是如何訓練出性能如此卓越的模型的?背後的關鍵,就在於「測試時scaling」(或稱推理時scaling)和「推理」。測試時scaling這項技術,會在模型推理階段投入更多計算資源,用以思考和權衡各種選項,來提升模型響應質量,這就使得模型在關鍵下游任務上的性能得以提升。對問題進行推理是一項複雜的任務,而測試時投入的計算資源,正是使這些模型能達到前述需推理水平的關鍵因素。它能讓模型在推理期間利用更多資源,開闢更廣闊的可能性空間,從而增加模型建立起必要關聯、找到原本可能無法獲得的解決方案的機率。儘管「推理」和「測試時scaling」對智能體工作流如此重要,但有一個共同問題,卻普遍困擾著如今最先進的推理模型——開發者無法選擇何時讓模型進行推理,也就是說,做不到在「推理開啟」和「推理關閉」之間自由切換。而Llama Nemotron系列模型則攻破了這一難題,用「系統提示詞」來控制推理開關!如何建構?Llama 3.3 Nemotron 49B Instruct以Llama 3.3 70B Instruct為基礎模型,經歷了一個廣泛的後訓練階段後,不僅模型尺寸減小,還讓原始能力保留甚至增強了。三個後訓練階段如下。1. 通過神經架構搜尋 (NAS) 和知識蒸餾進行蒸餾。2. 監督微調:使用了由輝達建立的600億Token 合成資料(代表了所生成的 3000萬樣本中的400萬),以確保在「推理關閉」和「推理開啟」兩種模式下內容的高品質。在此階段,團隊利用了NVIDIA NeMo框架,有效且高效地擴展了後訓練流程。3. 強化學習:這個階段是利用NVIDIA NeMo完成的,模型的對話能力和指令遵循性能得以增強,從而在廣泛的任務中都能提供高品質的響應。第一個階段(步驟1和2)已在神經架構搜尋 (NAS) 技術報告中詳細闡述。簡而言之,該階段可被視為通過多種蒸餾和NAS方法,依據特定的旗艦硬體,將各模型的參數量「調整至合適尺寸」,從而達到預選的最優值。模型後訓練的第二個階段(步驟3和4)則涉及由合成資料驅動的監督微調,目的在於實現幾個關鍵目標。首要目標,就是提升模型在多種任務上的非推理性能。後訓練流程的這一環節(步驟3)利用了團隊精選的提示詞,通過基線模型 (Llama 3.3 70B Instruct) 以及Qwen2.5 7B Math和Coder模型生成合成資料。這些資料隨後經過團隊的精選與稽核,用於增強模型在聊天、數學和程式碼任務上的「推理關閉」模式下的性能。同時,團隊也投入大量精力,確保在此階段,「推理關閉」模式下的指令遵循和函數呼叫性能達到同類最佳水平。第二個目標(步驟4)是通過在精選的DeepSeek-R1資料(僅限數學、程式碼和科學領域)上進行訓練,打造出同類最佳的推理模型。每一個提示詞和響應都經過嚴格篩選,確保在推理能力增強過程中僅使用高品質資料,並輔以NVIDIA NeMo框架的支援。這就能確保團隊可以選擇性地從 DeepSeek-R1中蒸餾出它在優勢領域所具備的強大推理能力。「推理開啟」/「推理關閉」兩種模式的訓練(步驟3和4)是同時進行的,兩者唯一的區別在於系統提示詞。這意味著,最終生成的模型既能作為推理模型運行,也能作為傳統的LLM運行,並通過一個開關(即系統提示詞)在兩種模式間切換。這種設計,使得組織機構能夠將單個尺寸適宜的模型同時用於推理任務和非推理任務。最後一個階段(步驟5和6)則採用了強化學習來更好地對齊使用者意圖與期望。模型首先利用REINFORCE演算法和基於啟髮式的驗證器,針對指令遵循和函數呼叫這兩個任務進行RL以提升性能(步驟5)。隨後,採用RLHF技術,結合HelpSteer2資料集和NVIDIA Llama 3.1 Nemotron獎勵模型,對最終模型進行面向聊天應用場景的對齊(步驟6)。最終,這些後訓練步驟打造出了同類最佳的推理模型,並且通過提供在兩種範式(推理與非推理)間切換的機制,確保了模型在函數呼叫和指令遵循方面的性能不受影響。模型則能高效支援智能體AI工作流中的各個,同時還能保持針對旗艦級輝達硬體最佳化的最佳參數量。性能刷新SOTA,吞吐量最高5倍提升· Llama Nemotron SuperLlama Nemotron融合了DeepSeek-R1等模型強大的推理能力,以及Llama 3.3 70B Instruct具備的強大世界知識與對可靠工具呼叫及指令遵循,最終打造出在關鍵智能體任務上表現領先的模型。結果顯示,Llama Nemotron 49B精準性最高,且吞吐量提升達5倍。圖 5. Llama Nemotron Super為智能體任務提供了最高的精準性和吞吐量,從而降低了推理成本· Llama Nemotron Ultra 253BLlama Nemotron Ultra總參數量僅為253B,但其推理性能已達到甚至超越DeepSeek-R1等頂級開放推理模型。與此同時,憑藉最佳化的模型尺寸實現了顯著更高的吞吐量,並保留了優秀的工具呼叫能力。這種卓越推理能力與毫不妥協的工具呼叫能力的結合,使其成為智能體工作流領域的同類最佳模型。除了應用Llama Nemotron Super的完整後訓練流程外,Llama Nemotron Ultra還額外經歷了一個專注的RL階段,旨在進一步增強其推理能力。結果表明,相較於DeepSeek-R1 671B,Llama Nemotron Ultra的吞吐量提升高達4倍,並且在GPQA、AIME 2024、AIME 2025、BFCL、LiveCodeBench、MATH500和IFEval的等權重平均精準性方面取得最高分。圖6. Llama Nemotron Ultra同時提供卓越的精準性和驚人的吞吐量打造多智能體系統,搞定複雜任務由Llama 3.3 Nemotron 49B Instruct驅動的多智能體協作系統,在Arena Hard 基準測試中,拿下了驚豔的92.7分。傳統的測試時計算scaling方法,大多聚焦於那些有明確答案的問題,比如數學題、邏輯推理、程式設計競賽。現實中,許多重要任務缺乏可驗證的解決方案,比如提出創新研究思路、撰寫學術論文,或是為複雜的軟體產品開發有效的交付策略。這些問題,往往更具挑戰性,也更貼近實際需求。Llama Nemotron測試時計算scaling系統正是為此而生,它模仿了人類解決複雜問題寫作模式,通過以下幾個步驟實現:1. 集思廣益:針對問題初步構思一個或多個解決方案。2. 獲取反饋:就初步方案徵求朋友、同事或其他專家的意見。3. 編輯修訂:根據收集到的反饋對初步方案進行修改。4. 擇優選取:在整合修訂意見後,選出最具潛力的最終解決方案。這種方法使得測試時計算scaling技術能夠應用於更廣泛的通用領域任務。要形象地理解這個多智能體協作系統,可以將其類比為一個團隊協同工作,為一個沒有標準答案的開放式問題尋找最佳解決方案。與之相對,「長思考」則好比訓練單個人深度、持久地鑽研一個問題,最終得出一個可以對照標準答案進行驗證的結果。因此,多智能體系統強大之處在於,不僅提升解決複雜問題效率,還能通過協作挖掘更多可能性。 (新智元)