#R1
DeepMind CEO:中國AI落後西方約六個月,DeepSeek R1 反應過度/DeepSeek 新模型 MODEL1 程式碼曝光
DeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度/X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流/DeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流要點一:演算法技術架構與工作原理X(原 Twitter)於 2026 年 1 月 20 日在 GitHub 上開源了其核心推薦系統程式碼,該系統完全依賴於 xAI 的 Grok Transformer 模型來學習使用者參與序列的相關性。系統通過分析使用者的互動歷史(點選、點贊等行為),結合網路內帖子和利用機器學習分析"網路外"內容,為使用者生成個性化資訊流。演算法會過濾被遮蔽帳戶、靜音關鍵詞以及暴力或垃圾內容,然後根據相關性、內容多樣性以及使用者可能的互動行為(點贊、回覆、轉發等)對內容進行排序。系統採用 RecsysBatch 輸入模型,使用統一的 AI 驅動 Transformer 架構,完全實現自動化推薦,無需人工特徵工程。TechCrunch要點二:開源背景與爭議此次開源履行了馬斯克一周前的承諾,承諾每四周提供演算法透明度更新。然而,X 當前正面臨多重監管壓力:歐盟監管機構因其驗證系統違反《數字服務法》透明度義務對其處以 1.4 億美元罰款;加州總檢察長辦公室和國會議員正在審查 Grok 被用於製作女性和未成年人的性化內容問題。批評人士認為這是"透明度作秀",因為 2023 年首次開源時被批評"不完整",未能揭示組織內部運作或程式碼工作原理。值得注意的是,自馬斯克 2022 年收購以來,X 從上市公司轉為私有公司,透明度報告從每年多次減少至 2024 年 9 月才發佈首份報告。TechCrunchNetflix Q4 業績強勁:付費使用者突破 3 億,2025 年收入預期上調要點一:Q4 財務資料與使用者增長Netflix 於 2025 年 1 月 21 日公佈的 2024 年第四季度財報顯示,營收同比增長 16% 至 102.5 億美元,超過市場預期的 101.1 億美元;每股收益 4.27 美元,超過預期的 4.20 美元。公司在該季度新增 1900 萬付費會員,創下季度最大增長記錄,使全球付費會員總數達到 3.0163 億(301.63 million),超過預期的 2.909 億。淨利潤達 18.7 億美元,而上年同期為 9.38 億美元。包括"額外會員帳戶"在內,Netflix 全球觀眾估計超過 7 億。Q4 的成功得益於《魷魚遊戲》第二季、Jake Paul 對 Mike Tyson 拳擊賽以及聖誕節 NFL 比賽等內容的推動。聯席 CEO Ted Sarandos 表示,為體育賽事而來的使用者留存率與其他熱門內容使用者相當。CNBC要點二:2025 年展望與業務戰略Netflix 將 2025 全年收入預期從此前預測上調約 5 億美元,調整至 435-445 億美元區間,同時宣佈部分套餐價格上漲 1-2 美元/月。公司表示將增加內容投入,2026 年內容支出計畫增長 10%。廣告支援套餐表現強勁,在提供該選項的國家中佔註冊量的 55% 以上,會員數環比增長約 30%。Netflix 表示有望在 2025 年在所有廣告業務國家達到充足規模,大幅增長廣告業務是 2025 年首要任務。這是 Netflix 最後一次按季度報告付費訂戶數,未來將在第二和第四季度發佈"參與度報告"。2025 年將推出《怪奇物語》和《星期三》回歸,以及《利刃出鞘 3》、Adam Sandler 的《快樂吉爾莫 2》等重磅內容。公司強調其優勢在於專注核心業務,沒有管理衰退的線性網路等分心因素。CNBC馬斯克起訴 OpenAI 案內部檔案曝光:微軟與 OpenAI 十年合作關係細節披露要點一:微軟-OpenAI 關係演變與關鍵轉折點最新法庭檔案揭示了微軟與 OpenAI 長達十年的合作關係內幕。2015 年 12 月 OpenAI 成立時,微軟 CEO 納德拉發現 AWS 已成為捐助方而驚訝詢問團隊。2016 年,在馬斯克支援下(稱貝索斯"有點工具人"),微軟以 5000 萬美元計算資源贏得合作。2019 年,微軟投資 10 億美元,獲得 OpenAI 商業許可和獨家雲端運算權,以及對"重大決策"的批准權(包括結構變更、合併等),當時微軟出資佔總投資 85%,實際擁有否決權。微軟 CFO Amy Hood 評論 OpenAI 的利潤上限"實際上比 90% 的上市公司都大,並不太受約束"。2022 年 11 月 ChatGPT 發佈時董事會從社交媒體上得知,微軟隨後在 2023 年 1 月追加 100 億美元投資。2023 年 11 月 Altman 被解僱危機中,微軟在 24 小時內成立 Microsoft RAI Inc. 子公司準備接收 OpenAI 團隊,估算成本 250 億美元,並在新董事會遴選中發揮關鍵作用。GeekWire要點二:最新訴訟進展與公司治理轉變馬斯克於 2026 年 1 月尋求從 OpenAI 和微軟獲得 790-1340 億美元賠償,指控 OpenAI 背離非營利使命欺騙了他。聯邦法官已裁定此案將於今春進行陪審團審判,OpenAI 和微軟未能逃避審判。OpenAI 反駁稱馬斯克在 2017 年就同意需要營利性結構,談判破裂是因為 OpenAI 拒絕給他完全控制權。2024 年 12 月 27 日,OpenAI 宣佈解除限制利潤結構,內部稱為"Project Watershed"。2025 年 9 月簽署諒解備忘錄,45 天內完成條款。微軟的"重大決策"批准權涵蓋此次重組,雖無董事會席位和投票權,但重組無法在未經微軟批准下進行。Morgan Stanley 估值 1220-1770 億美元,Goldman Sachs 估值 3530 億美元,最終以 5000 億美元估值完成(軟銀領投),微軟股權從 32.5% 稀釋至 27%,但 OpenAI 承諾未來在 Azure 上支出 2500 億美元。同時微軟失去新雲工作負載優先權,但 IP 權利延長至 2032 年。2025 年 11 月,OpenAI 與 AWS 簽訂 7 年 380 億美元基礎設施協議,實現雲服務商多元化。GeekWireDeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度要點一:對中國 AI 能力的評估Google DeepMind CEO Demis Hassabis 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時表示,中國 AI 公司目前落後領先西方實驗室約六個月。他認為市場對 2025 年發佈的 DeepSeek R1 模型的反應是"大規模過度反應"(massive overreaction)。Hassabis 表示中國公司"非常擅長追趕前沿水平,並且越來越有能力做到這一點",但並未實現科學突破。他此前在 2025 年 2 月曾評價 DeepSeek 的 AI 模型"可能是中國最好的工作",但補充說這不是科學進步,炒作被"誇大了"。這一評估與業界對中國 AI 快速發展的擔憂形成對比,Hassabis 試圖平息內部員工對 DeepSeek 的焦慮情緒。Bloomberg要點二:技術競爭態勢分析Hassabis 的評估反映了西方 AI 領導者對中國追趕速度的謹慎樂觀。雖然承認中國在快速進步,但強調其主要優勢在於"追趕"而非創新性突破。DeepSeek 作為中國 AI 初創公司,以遠低於美國競爭對手的成本開發出具有競爭力的 AI 模型,引發了對美國高額 AI 投資必要性的質疑。然而 Hassabis 的言論暗示,儘管 DeepSeek 展現了成本效率,但在技術前沿性和創新能力上,西方實驗室仍保持領先。這一觀點與當時市場因 DeepSeek 發佈而出現的恐慌情緒形成鮮明對比,試圖重新定位競爭格局的真實狀態。值得注意的是,Hassabis 的評估也可能帶有戰略性考量,旨在穩定投資者信心並維持西方在 AI 領域的主導敘事。BloombergAnthropic CEO:向中國出售 AI 晶片如同"向朝鮮出售核武器"要點一:國家安全警告與政策批評Anthropic CEO Dario Amodei 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時,強烈批評川普政府允許向中國出售先進 AI 晶片的決定,將其比作"向朝鮮出售核武器"。Amodei 表示美國在晶片製造能力上領先中國"許多年",向中國出口這些晶片可能幫助北京縮小差距,具有"令人難以置信的國家安全影響"。他描繪了 AI 的未來場景:"一個資料中心裡的天才之國",想像"1 億個比任何諾貝爾獎得主都聰明的人,它將受某一個國家的控制"。Amodei 表示中國在 AI 發展上仍然落後,並受到晶片禁運的制約。美國工業和安全域(BIS)上周修訂了向中國出售晶片的許可政策,川普隨後宣佈對 Nvidia 計畫運往中國的晶片(如 H200)徵收 25% 的關稅。Axios要點二:行業內部分歧與政治博弈Amodei 在業界對政府政策的批評中較為突出,儘管試圖緩和緊張關係,但並非孤立聲音。在國會山,眾議院外交事務委員會主席 Brian Mast 等共和黨高層正在推動立法,阻止中國獲取敏感美國技術。MAGA 影響者 Laura Loomer 和 AI 與加密貨幣主管 David Sacks 則為總統政策辯護。Amodei 在採訪中避免直接批評 Sacks(被廣泛視為川普 AI 政策背後的策劃者),僅表示"這一特定政策並不明智"。目前某些先進 AI 晶片(如 Nvidia H200、AMD MI325X)向中國出口的各項準備工作正在落實。這一爭議凸顯了商業利益、國家安全考量與政治立場之間的複雜博弈,以及 AI 行業領導者在公共政策制定中日益重要的發聲角色。Amodei 此前撰文強調需要加強對華晶片出口管制,此次公開批評進一步表明他在這一議題上的堅定立場。Axios百度文心助手月活使用者突破 2 億,與京東美團等平台深度整合要點一:使用者規模與生態整合百度旗下 AI 助手"文心一言"(Ernie Assistant)月活躍使用者數已突破 2 億大關,這一里程碑標誌著中國科技巨頭在 AI 助手領域競爭的顯著進展。根據《華爾街日報》2026 年 1 月 20 日報導,文心一言已與京東(JD.com)、美團(Meituan)和攜程(Trip.com)等廣泛使用的應用程式實現連結整合,使得該 AI 助手能夠幫助使用者預訂機票、訂購外賣等實際服務。這種深度生態整合使文心一言不再僅是獨立的聊天機器人,而是嵌入到使用者日常生活場景的智能助手。百度股價因這一消息上漲,反映了市場對其 AI 業務增長的積極預期。除活躍使用者基數外,文心一言每日 API 請求量也達到 2 億次,顯示其在企業客戶中的廣泛應用。百度還擁有超過 85,000 家企業客戶使用其 AI 服務。Wall Street Journal要點二:中國 AI 競爭格局隨著中國科技巨頭在 AI 領域競爭的加劇,百度、阿里巴巴、騰訊等公司都在爭奪 AI 助手市場份額。百度的文心一言現已整合到其旗艦搜尋引擎中,並在 PC 端可用,重塑了使用者搜尋和互動方式,從傳統關鍵詞搜尋轉向 AI 驅動的對話式搜尋。這一轉變體現了百度將自身從傳統搜尋引擎轉型為 AI 平台的戰略。與競爭對手相比,百度在中文語言模型和本土化服務整合方面具有優勢。文心一言與京東、美團等電商和生活服務平台的整合,使其能夠直接參與交易環節,而不僅僅提供資訊查詢。這種"AI+服務"的模式代表了中國 AI 應用的獨特路徑,與美國市場以通用對話為主的 ChatGPT 等產品形成差異。2 億月活使用者的規模雖然顯著,但在中國龐大的網際網路使用者基數中仍有巨大增長空間,預示著 AI 助手市場的激烈競爭將持續升級。Wall Street Journal字節跳動擴張雲業務:AI 雲市場份額近 13%,挑戰阿里巴巴主導地位要點一:市場份額與擴張戰略根據《金融時報》2026 年 1 月 20 日報導及 IDC 資料,字節跳動旗下火山引擎(Volcano Engine)在 2025 年上半年佔據中國 AI 雲服務市場近 13% 的份額,營收約 3.9 億美元,而阿里巴巴保持約 23% 的市場領先地位。字節跳動正在通過招聘銷售人員和降低價格策略積極擴張其雲業務,成為增長最快的挑戰者。公司依託其短影片平台抖音(TikTok)和今日頭條積累的海量資料和 AI 技術優勢,向企業客戶提供 AI 驅動的雲服務。字節跳動宣稱每日處理 30 兆 tokens,佔據 49.2% 的 token 消費份額,而阿里巴巴則以 334 億元人民幣的雲收入和更成熟的企業客戶基礎作為反擊。儘管雙方在 2025 年上半年的市場份額都略有下滑,但字節跳動的快速崛起仍對阿里巴巴長期主導的雲端運算市場構成威脅。Financial Times要點二:雲端運算市場競爭格局演變中國 AI 雲基礎設施競爭已進入白熱化階段,字節跳動和阿里巴巴成為最激進的競爭者。分析師指出,字節跳動在 AI 雲市場的挑戰對阿里巴巴構成顯著壓力,特別是在 AI 原生應用和新興企業客戶群體中。阿里巴巴雖然保持整體市場領先(約 35.8% 的 AI 雲市場份額,超過其後三家競爭對手的總和),但面臨增長放緩壓力。字節跳動的優勢在於其在消費網際網路領域積累的 AI 技術和演算法能力,以及願意提供更有競爭力的價格。市場研究機構預測,中國雲端運算市場規模將從 2025 年的 504.7 億美元增長至 2031 年的更大規模。這場競爭的背後是對未來 AI 經濟基礎設施控制權的爭奪:兩家公司都聲稱在中國 AI 領域處於領先地位,但採取不同的戰略路徑——阿里巴巴強調企業雲收入和成熟的商業模式,而字節跳動則突出技術處理能力和消費者應用經驗。此次雲業務擴張也被視為字節跳動多元化戰略的一部分,在面臨 TikTok 在海外監管壓力的背景下,拓展 B2B 企業服務市場。Financial TimesOpenAI 將於 2026 年下半年推出首款硬體裝置,無螢幕可穿戴形態要點一:產品時間表與形態特徵OpenAI 全球事務主管 Chris Lehane 於 2026 年 1 月 19 日在達沃斯 Axios House 活動中透露,公司"正按計畫"在 2026 年下半年推出首款硬體裝置。這一時間表與去年 5 月 CEO Sam Altman 收購前蘋果設計總監 Jony Ive 公司時的暗示一致,Ive 公司當時發佈的宣傳視訊中寫道"期待明年與您分享我們的作品"。根據多方報導,OpenAI 正在開發小型無螢幕裝置原型,可能是可穿戴形式,將通過互動方式與使用者溝通。Altman 此前表示該裝置將比智慧型手機更"平和",使用者會對其簡潔性感到震驚。Lehane 將"裝置"列為 OpenAI 2026 年的重要看點之一,但拒絕透露具體細節,包括是別針、耳機還是其他形態。他表示將在"今年晚些時候"分享消息,強調這是"最可能"的時間表,但"我們會看看事情如何進展"。Lehane 並未承諾裝置今年一定上市銷售,暗示發佈可能僅是產品展示而非正式商業化。Axios要點二:AI 硬體市場前景與競爭態勢儘管早期 AI 裝置如 Humane 的 AI Pin 基本失敗,但 2026 年預計將迎來眾多 AI 硬體新嘗試。高通 CEO Cristiano Amon 在同一活動中透露,目前每年約有 1000 萬台 AI 智能眼鏡出貨,預計今年或明年將增至 1 億台。他表示 AI 裝置將採取多種形式,包括帶攝影機的耳塞和珠寶,高通晶片將為大多數產品提供動力,但 AI 智能眼鏡可能是銷量最大的品類。關於 OpenAI 裝置是否使用高通晶片,Amon 較為謹慎地表示"我會說我們一直在與他們合作,所以我們對正在做的事情感到興奮,但他們會談論自己的裝置"。這暗示雙方可能存在某種合作關係。OpenAI 進軍硬體市場代表著從純軟體/API 提供商向垂直整合的戰略轉變,類似於蘋果的軟硬體一體化模式。與 Jony Ive 的合作更強化了這一願景,利用 Ive 在蘋果創造 iPhone、iPad 等革命性產品的經驗。然而,AI 硬體市場尚未找到真正的產品市場契合點,OpenAI 面臨的挑戰是如何創造出既有實用價值又能提供超越智慧型手機的獨特體驗的裝置。Axios字節跳動 AI 平台 Coze 發佈 2.0 版本,支援長期自主規劃與智能辦公要點一:核心功能升級與技術突破字節跳動旗下 AI Agent 開發平台 Coze(中文名"扣子")於 2026 年 1 月 19 日發佈 2.0 版本,實現從"AI 輔助工具"到"主動執行的 AI 工作夥伴"的重大升級。新版本具備三大核心能力:Agent Skills(技能封裝)、Agent Plan(長期規劃)和 Agent Office(智能辦公)。Agent Skills 功能允許將複雜工作流封裝為可呼叫的技能包,通過簡單的自然語言指令即可執行多步驟任務,例如一句話完成從資料收集到可視化的全流程。Agent Plan 實現了從"單次對話"到"長期服務"的跨越,使用者只需設定宏觀目標(如管理社交媒體帳戶),AI Agent 就能自主分解步驟、執行任務並持續最佳化,支援複雜目標的閉環管理和長期任務的自主執行。Agent Office 增強了深度上下文理解能力,可輔助生成報告、製作 PPT、梳理會議紀要等職場辦公場景,與 WPS、飛書等辦公軟體深度整合。扣子程式設計功能支援雲端協作開發,使用者可使用 Python、JavaScript 等語言編寫自訂邏輯。Readhub要點二:應用場景與市場定位扣子 2.0 主要應用於行銷文案、長期計畫管理、職場辦公等場景。歷經 700 多天迭代,扣子已積累上千萬使用者。此次升級通過"技能封裝"和"長期計畫"等功能,試圖解決 AI 在複雜工作流中執行力不足的問題。與初版相比,2.0 版本不再侷限於單純的對話互動,而是強調 AI Agent 的自主規劃和持續執行能力。例如在行銷場景中,Agent 可以持續監測市場趨勢、自動生成內容、最佳化投放策略;在項目管理中,可以跟蹤進度、協調資源、提醒風險。扣子 2.0 的發佈體現了字節跳動在企業級 AI 應用領域的戰略佈局,與其消費級 AI 產品(如豆包)形成互補。作為低程式碼甚至零程式碼的 AI Bot 開發平台,扣子降低了企業和開發者建構定製化 AI 智能體的門檻。這一戰略與微軟的 Copilot Studio、OpenAI 的 GPTs 等產品形成競爭,但扣子更強調"長期規劃"和"自主執行"能力,試圖在 AI Agent 市場中建立差異化優勢。平台支援可視化工作流、自主編排、自動規劃等多種智能體建構方式,並可分發到多個管道。ReadhubDeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈要點一:MODEL1 程式碼細節與技術特徵DeepSeek 在 GitHub 上更新的 FlashMLA 程式碼庫中,橫跨 114 個檔案有 28 處提到了神秘的"MODEL1"識別碼,這被認為是下一代旗艦模型的開發代號。程式碼分析顯示,MODEL1 與現有的 V32(DeepSeek-V3.2)架構並列出現,暗示這是一個全新的模型架構。具體技術差異體現在 KV 快取佈局、稀疏性處理和 FP8 解碼等方面,顯示該模型在記憶體最佳化上進行了多處改進。MODEL1 可能整合了最佳化的殘差連接、Engram 記憶模組與 mHC 流形約束技術等創新。開發者推斷 MODEL1 很可能是 DeepSeek-V4 的內部開發代號或首個工程版本。此前《The Information》月初爆料稱,DeepSeek 將在 2026 年 2 月中旬農曆新年期間推出新一代旗艦 AI 模型 DeepSeek V4,將具備更強的寫程式碼能力。MODEL1 在開放原始碼中的意外現身,類似於 DeepSeek 發佈前的慣例,增加了 2 月發佈的可能性。IT之家要點二:發佈時機與市場影響DeepSeek-R1 發佈剛滿一周年之際,MODEL1 的曝光引發行業高度關注。如果按照預期在 2026 年 2 月發佈,DeepSeek V4 將成為中國 AI 公司在農曆新年期間推出的重磅產品。DeepSeek 以低成本高效能著稱,其 R1 模型曾在 2025 年引發全球關注(儘管 DeepMind CEO 認為反應"過度")。新模型如果在程式碼能力上實現顯著提升,將進一步鞏固 DeepSeek 在開源 AI 領域的地位,並加劇與 OpenAI、Anthropic 等西方公司的競爭。MODEL1 程式碼中對記憶體最佳化、稀疏性處理等方面的改進,暗示 DeepSeek 繼續追求"用更少資源實現更強性能"的技術路線,這對受美國晶片出口限制的中國 AI 公司尤為重要。不少行業分析人士認為,MODEL1 在開放原始碼中的提前曝光可能是 DeepSeek 的一種預熱策略,類似其以往的發佈模式。如果 DeepSeek V4 如期在 2 月發佈並展現顯著進步,將對全球 AI 市場格局產生重要影響,特別是在程式碼生成和開發者工具領域。這也將考驗 Demis Hassabis"中國落後六個月"論斷的精準性。IT之家香港 IPO 市場強勁開局:新能源、AI、電動車和生物科技驅動增長要點一:2026 年開局表現與融資資料根據香港交易所(HKEX)CEO 陳穎婷(Bonnie Chan)在 2026 年 1 月達沃斯世界經濟論壇前夕發表的文章,2026 年前三周已有 11 家公司在香港上市,融資近 40 億美元。目前有 50 份新上市申請提交,超過 300 家公司正在排隊等待上市批准。這延續了 2025 年的強勁勢頭:2025 年共有 114 家公司在主機板上市,融資 372.2 億美元,同比增長 230%,推動香港重回自 2019 年以來全球最大 IPO 市場的位置。寧德時代的 53 億美元 IPO 是 2025 年香港最大的上市項目。陳穎婷表示,新能源、人工智慧、電動汽車和生物技術公司將繼續成為未來幾年香港 IPO 市場的驅動力。她寫道:"過去一年,數十家綠色能源、自動化和其他領域的新公司在香港上市,使它們能夠擴大研究規模和全球影響力。"South China Morning Post要點二:市場前景與戰略定位陳穎婷強調 HKEX 的角色是"幫助更快地翻開這個故事的篇章,使更清潔的能源、變革性的醫療保健和更高的生活水平從承諾走向實踐"。她表示,從上市申請管道來看,她的樂觀情緒得到了"穩定流動的變革性創意"的支援,"下一章進步正由這些富有遠見的公司、他們大膽的創意以及賦能它們的市場書寫"。香港 IPO 市場的復甦得益於多重因素:中國經濟復甦預期、科技和新能源行業的強勁增長、以及香港作為連接中國內地與國際資本市場橋樑的獨特地位。特別是在 AI、電動車和生物科技等高增長領域,許多中國公司選擇香港作為上市地,以獲得國際投資者的認可和資金支援。陳穎婷的表態反映了 HKEX 對 2026 年市場的信心,預計科技創新類企業將繼續主導香港資本市場。這一趨勢與中國政府推動"新質生產力"、支援科技創新和綠色轉型的政策方向高度一致,香港正在鞏固其作為亞洲科技企業首選上市地的地位。South China Morning Post (AI Daily Insights)
DeepSeek R1 發佈一周年,不卷功能、不融資、不著急,硬控了科技世界
「伺服器繁忙,請稍後再試。」一年前,我也是被這句話硬控的使用者之一。DeepSeek 帶著 R1 在一年前的昨天(2025.1.20)橫空出世,一出場就吸引了全球的目光。那時候為了能順暢用上 DeepSeek,我翻遍了自部署教學,也下載過不少號稱「XX - DeepSeek 滿血版」的各類應用。一年後,說實話,我打開 DeepSeek 的頻率少了很多。豆包能搜尋、能生圖,千問接入了淘寶和高德,元寶有即時語音對話和微信公眾號的內容生態;更不用說海外的 ChatGPT、Gemini 等 SOTA 模型產品。當這些全能 AI 助手把功能列表越拉越長時,我也很現實地問自己:「有更方便的,為什麼還要守著 DeepSeek?」於是,DeepSeek 在我的手機裡從第一屏掉到了第二屏,從每天必開變成了偶爾想起。看一眼 App Store 的排行榜,這種「變心」又似乎不是我一個人的錯覺。免費應用下載榜的前三名,已經被國產網際網路大廠的「御三家」包攬,而曾經霸榜的 DeepSeek,已經悄悄來到了第七名。在一眾恨不得把全能、多模態、AI 搜尋寫在臉上的競品裡,DeepSeek 顯得格格不入,51.7 MB 的極簡安裝包,不追熱點,不卷宣發,甚至連視覺推理和多模態功能都還沒上。但這正是最有意思的地方。表面上看,它似乎真的「掉隊」了,但實際是 DeepSeek 相關的模型呼叫仍是多數平台的首選。而當我試圖總結 DeepSeek 過去這一年的動作,把視線從這個單一的下載榜單移開,去看全球的 AI 發展,瞭解為什麼它如此地不慌不忙,以及即將發佈的 V4,又準備給這個行業帶來什麼新的震動;我發現這個「第七名」對 DeepSeek 來說毫無含金量,它一直是那個讓巨頭們真正睡不著覺的「幽靈」。掉隊?DeepSeek 有自己的節奏當全球的 AI 巨頭都在被資本裹挾著,通過商業化來換取利潤時,DeepSeek 活得像是一個唯一的自由球員。看看它的競爭對手們,無論是國內剛剛港股上市的智譜和 MiniMax,還是國外瘋狂捲投資的 OpenAI 和 Anthropic。為了維持昂貴的算力競賽,就連馬斯克都無法拒絕資本的誘惑,前幾天剛剛才為 xAI 融了 200 億美元。但 DeepSeek 至今保持著「零外部融資」的紀錄。年度私募百強榜,按照公司平均收益排名,幻方量化位於第七名,百億以上規模排名第二|圖片來源:https://www.simuwang.com/news/285109.html在這個所有人都急著變現、急著向投資人交作業的時代,DeepSeek 之所以敢掉隊,是因為它背後站著一台超級「印鈔機」,幻方量化。作為 DeepSeek 的母公司,這家量化基金在去年實現了超高的 53% 回報率,利潤超過 7 億美元(約合人民幣 50 億元)。梁文鋒直接用這筆老錢,來供養「DeepSeek AGI」的新夢。這種模式,也讓 DeepSeek 極其奢侈地擁有了對金錢的掌控權。沒有資方的指手畫腳。沒有大公司病,許多拿了巨額融資的實驗室,陷入了紙面富貴的虛榮和內耗,就像最近頻頻爆出有員工離職的 Thinking Machine Lab;還有小扎的 Meta AI 實驗室各種緋聞。只對技術負責, 因為沒有外部估值壓力,DeepSeek 不需要為了財報好看而急於推出全能 App,也不需要為了迎合市場熱點去捲多模態。它只需要對技術負責,而不是對財務報表負責。App Store 的下載量排名,對於一家需要向 VC 證明「日活增長」的創業公司來說是命門。但對於一家只對 AI 發展負責、不僅不缺錢還不想被錢通過 KPI 控制的實驗室來說,這些有關市場的排名掉隊,或許正是它得以保持專注、免受外界噪音干擾的最佳保護色。更何況,根據 QuestMobile 的報告,DeepSeek 的影響力完全沒有「掉隊」改變生活,也影響了世界 AI 軍備競賽即便 DeepSeek 可能根本不在意,我們是否已經選擇了其他更好用的 AI 應用,但它過去這一年帶來的影響,可以說各行各業都沒有錯過。矽谷的「DeepSeek 震撼」最開始的 DeepSeek,不僅僅是一個好用的工具,更像是一個風向標,用一種極其高效且低成本的方式,打碎了矽谷巨頭們精心編織的高門檻神話。圖片來源:https://openaiglobalaffairs.substack.com/p/deepseek-at-1如果說一年前的 AI 競賽是比誰的顯示卡多、誰的模型參數大,那麼 DeepSeek 的出現,硬生生把這場競賽的規則改寫了。在 OpenAI 及其內部團隊(The Prompt) 的最近發佈總結回顧中,他們不得不承認,DeepSeek R1 的發佈在當時給 AI 競賽帶來了「極大的震動(jolted)」,甚至被形容為一場「地震級的衝擊(seismic shock)」。DeepSeek 一直在用實際行動證明,頂尖的模型能力,不需要天價的算力堆砌。根據 ICIS 情報服務公司最近的分析,DeepSeek 的崛起徹底打破了算力決定論。它向世界展示了,即使在晶片受到限制、成本極其有限的情況下,依然可以訓練出性能比肩美國頂尖系統的模型。AI 競賽正在演變成一場漫長的馬拉松|圖片來源:https://www.icis.com/asian-chemical-connections/2026/01/a-year-on-from-deepseek-us-versus-china-in-the-ai-race/這直接導致了全球 AI 競賽從「造出最聰明的模型」,轉向了「誰能把模型做得更高效、更便宜、更易於部署」。微軟報告裡的「另類」增長當矽谷巨頭們還在爭奪付費訂閱使用者時,DeepSeek 也開始在被巨頭遺忘的地方紮根。在微軟上周發佈的《2025 全球 AI 普及報告》中,DeepSeek 的崛起被列為 2025 年「最意想不到的發展之一」。報告揭示了一個有意思的資料:非洲使用率高:因為 DeepSeek 的免費策略和開源屬性,消除了昂貴的訂閱費和信用卡門檻。它在非洲的使用率是其他地區的 2 到 4 倍。佔領受限市場: 在那些美國科技巨頭難以觸達或服務受限的地區,DeepSeek 幾乎成了唯一的選擇。資料顯示,它國內的市場份額高達 89%,在白俄羅斯達到 56%,在古巴也有 49%。微軟在報告裡也不得不承認,DeepSeek 的成功更加確定了,AI 的普及不僅取決於模型有多強,更取決於誰能用得起。全球南方地區 AI 普及的程度還有很大的提升空間|https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/下一個十億級 AI 使用者,可能不會來自傳統的科技中心,而是來自 DeepSeek 覆蓋的這些地區。歐洲:我們也要做 DeepSeek不僅是矽谷,DeepSeek 的影響跨越了整個地球,歐洲也不例外。歐洲一直是被動地使用美國的 AI,雖然也有自己的模型 Mistral,但一直不溫不火。DeepSeek 的成功讓歐洲人看到了一條新路,既然一家資源有限的中國實驗室能做到,歐洲為什麼不行?據連線雜誌最近的一篇報導,歐洲科技界正在掀起一場「打造歐洲版 DeepSeek」的競賽。不少來自歐洲的開發者,開始打造開源大模型,其中一個叫 SOOFI 的歐洲開放原始碼專案更是明確表示,「我們將成為歐洲的 DeepSeek。」DeepSeek 過去這一年的影響,也加劇了歐洲對於「AI 主權」的焦慮。他們開始意識到,過度依賴美國的閉源模型是一種風險,而 DeepSeek 這種高效、開放原始碼的模式,正是他們需要的參照。關於 V4,有這些資訊值得關注影響還在繼續,如果說一年前的 R1 是 DeepSeek 給 AI 行業的一次示範,那麼即將到來的 V4,會不會又是一次反常識的操作。根據前段時間零零散散的爆料,和最近公開的技術論文,我們梳理了關於 V4 最值得關注的幾個個核心訊號。1. 新模型 MODEL1 曝光在 DeepSeek-R1 發佈一周年之際,官方 GitHub 程式碼庫意外曝光了代號為「MODEL1」的全新模型線索。在程式碼邏輯結構中,「MODEL1」是作為與「V32」(即 DeepSeek-V3.2)並列的獨立分支出現的,這一細節意味著「MODEL1」並不共享 V3 系列的參數配置或基礎架構,而是一個全新的、獨立的技術路徑。結合之前的爆料和洩露的程式碼片段,我們梳理了「MODEL1」可能存在的技術特徵:程式碼顯示其採用了與現行模型完全不同的 KV Cache 佈局策略,並在稀疏性(Sparsity)處理上引入了新機制。在 FP8 解碼路徑上有多處針對性的記憶體最佳化調整,預示著新模型在推理效率和視訊記憶體佔用上可能有更好的表現。此前爆料稱,V4 的程式碼表現已超越 Claude 和 GPT 系列,並且具備處理複雜項目架構和大規模程式碼庫的工程化能力。業界普遍推測,DeepSeek 近期發表的兩篇重磅論文——關於最佳化殘差連結的 「mHC」 以及 AI 記憶模組 「Engram」,極有可能被整合進「MODEL1」的架構中,從而解決長上下文記憶和計算效率的核心痛點。此前有傳聞稱,DeepSeek 計畫在 2 月中旬(春節前後) 發佈下一代旗艦模型 V4。此次 GitHub 程式碼的提前部署,在時間線上與該傳聞高度吻合。如果屬實,這將是繼 R1 之後,DeepSeek 推出的第二個重要模型。值得一提的是,全球最大的 AI 開源社區 Hugging Face 最近也專門發文復盤了 R1 發佈這一年的影響,核心觀點就是「中國 AI 真的站起來了」。他們認為 R1 的出現是個分水嶺,證明了那怕算力受限,靠開源也能實現技術上的彎道超車,讓中國 AI 產業從封閉走向了開源爆發。在他們看來,R1 的真正價值在於降低了門檻:技術上: 公開推理細節,讓高級能力可復用。 ·應用上: 寬鬆協議(MIT)讓模型迅速融入商業落地。心理上: 建立了中國 AI 從「追隨」到「引領」的自信。 2025 年,中國開源模型的下載量在全球都佔據了主導地位,不僅國內的大廠和創業公司都在全面擁抱開源,甚至國外現在很多所謂的新模型,實際上都建立在中國開源模型的基礎之上。附上部落格地址:https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment2. 復刻「春節突襲」DeepSeek 似乎偏愛在農曆新年這個時間節點搞事情。有消息透露,DeepSeek 計畫在 2 月中旬(農曆新年前後)發佈新一代旗艦模型 V4。去年的 R1 也是在這個時間節點發佈,隨後在春節假期引爆了全球關注。不得不說,這種時機選擇避開了歐美科技圈的常規發佈擁堵期,還充分用到了長假期間使用者的嘗鮮心理,確實能為病毒式的傳播埋下種子。3. 核心能力是卷程式碼和超長上下文在通用對話已經趨於同質化的今天,V4 選擇了一個更硬核的突破口:生產力等級的程式碼能力。據接近 DeepSeek 的人士透露,V4 並沒有止步於 V3.2 在基準測試上的優異表現,而是在內部測試中,讓其程式碼生成和處理能力,直接超越了 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。更關鍵的是,V4 試圖解決當前程式設計 AI 的一大痛點:「超長程式碼提示詞」的處理。這意味著 V4 不再只是一個幫我們寫兩行指令碼的助手,它試圖具備理解複雜軟體項目、處理大規模程式碼庫的能力。為了實現這一點,V4 也改進了訓練流程,確保模型在處理海量資料模式時,不會隨著訓練深入而出現「退化」。4. 關鍵技術:Engram比起 V4 模型本身,更值得關注的是 DeepSeek 在上周聯合北京大學團隊發表的一篇重磅論文。這篇論文揭示了 DeepSeek 能夠在算力受限下持續突圍的真正底牌,是一項名為 「Engram(印跡/條件記憶)」 的新技術。HBM(高頻寬記憶體)是全球 AI 算力競爭的關鍵領域之一,當對手都在瘋狂囤積 H100 顯示卡來堆記憶體時,DeepSeek 再次走了一條不尋常的路。計算與記憶解耦: 現有的模型為了獲取基本資訊,往往需要消耗大量昂貴的計算力來進行檢索。Engram 技術能讓模型高效地查閱這些資訊,而不需要每次都浪費算力去計算 。省下來的寶貴算力,被專門用於處理更複雜的高層推理。研究人員稱,這種技術可以繞過視訊記憶體限制,支援模型進行激進的參數擴張,模型的參數規模可能進一步擴大。在顯示卡資源日趨緊張的背景下,DeepSeek 的這篇論文好像也在說,他們從未把希望完全寄託在硬體的堆砌上。DeepSeek 這一年的進化,本質上是在用反常識的方式,解決 AI 行業的常識性難題。它一年進帳 50 億,能夠用來訓練出上千個 DeepSeek R1,卻沒有一味卷算力,卷顯示卡,也沒有傳出要上市,要融資的消息,反而開始去研究怎麼用便宜記憶體替代昂貴的 HBM。過去一年,它幾乎是完全放棄了全能模型的流量,在所有模型廠商,每月一大更,每周一小更的背景下,專注推理模型,一次又一次完善之前的推理模型論文。這些選擇,在短期看都是「錯的」。不融資,怎麼跟 OpenAI 拼資源?不做多模態的全能應用,生圖生視訊,怎麼留住使用者?規模定律還沒失效,不堆算力,怎麼做出最強模型?但如果把時間線拉長,這些「錯的」選擇,可能正在為 DeepSeek 的 V4 和 R2 鋪路。這就是DeepSeek的底色,在所有人都在卷資源的時候,它在卷效率;在所有人都在追逐商業化的時候,它在追逐技術極限。V4 會不會繼續這條路?還是會向「常識」妥協?答案或許就在接下來的幾周。但至少現在我們知道,在 AI 這個行業裡,反常識,有時候才是最大的常識。下一次,還是 DeepSeek 時刻。 (愛范兒)
30年整機廠商被海爾選中,首發人形機器人!
資本喧囂、巨頭卡位,滾燙了一整年的人形機器人行業,在年終迎來一位重磅玩家。12月29日,新時達正式發佈首款人形機器人SYNDA R1,同時這也是行業首個“工規級”具身智慧型手機器人。如字面所示,“工規級”意味著SYNDA R1生來就不是為了炫技,而是作為可靠的新質生產力,直面工業現場最嚴苛的挑戰。SYNDA R1採用全尺寸擬人設計,身高為178cm,本體具有24個自由度,單臂負載從3KG/5KG/12KG可選,最長臂展可達2050mm,作業直徑可覆蓋1950mm。通過輪式底盤+腰部折疊升降方案,SYNDA R1可以完成舉高、彎腰、下蹲等方式,垂直作業高度可覆蓋0至2.1米,滿足產線中複雜空間作業需求。SYNDA R1在7自由度手臂末端搭載了11自由度靈巧手,具備毫米級作業精度,已在工廠中初步實現自適應抓取、倉儲物料搬運、柔性PCB板卡質檢、協同裝配等典型任務。人形機器人是2025年海爾集團入主新時達後的重要戰略佈局,SYNDA R1 將以海爾集團旗下覆蓋全產業鏈的163家智能工廠作為“天然測試場”,直面工業場景的振動、噪聲、跨環境、跨工種、多工干擾的挑戰。以“工規級”樹立製造業可靠性標竿過去一年裡,從人形機器人扭秧歌、翻觔斗等商業表演領域掀起的具身智能熱潮,已在商業導覽、科研教育等碎片化場景率先跑通商業化,但規模化、系統化的工業場景落地依然如空中樓閣。一個關鍵悖論擺在從業者面前——實驗室的靈巧演示與工業現場的嚴苛要求之間存在巨大鴻溝,市面多數產品的穩定性、可靠性、作業精度存疑,行業缺乏“工業適配”的統一標準。什麼是“工規級”?新時達以30年的工控技術積累、場景應用Know-How,率先提出了“工規級具身智能”的定義:在真實工業與製造場景中,長期、穩定、連續運行,具備可複製、可規模化生產能力的具身智慧型手機器人。SYNDA R1正是這一標準的具象化落地。新時達機器人事業部總經理田永鑫表示,SYNDA R1在正式發佈前已在新時達產線、海爾旗下工廠進行驗證和迭代,有著真實而又豐厚的工業基因,在產品設計環節就考慮了安全、穩定性、工藝性能、工業流程適配等因素,這種“生於工廠、用於工廠”的模式,讓資料積累、演算法迭代、工程最佳化始終和工業需求同頻。在感知層面,SYNDA R1底盤採用全向四舵輪設計,配有2組3D雷射雷達、8個超聲波雷達,實現從10毫米到40米距離的精準感知和360°無死角覆蓋,通過雷射SLAM、視覺等多模態資訊完成路徑即時全域規劃和自主避障,穩定移動速度達1.2m/s,保障人機協作安全。同時,SYNDA R1 面部和手臂腕部配有多組深度RGBD相機,滿足工業場景的掃描識別、精細裝配、質檢等任務需求。新時達SYNDA R1用於物料質檢在任務執行層面,SYNDA R1 搭載了新時達自研的一體化多層異構控製器,具備感知、規劃、運控的一體化閉環能力,SYNDA R1雙臂搭載了自研輕量化、高剛性關節模組,內建精度補償和全頻段振動抑制技術,結合靈巧手或工裝夾爪,可以實現毫米級的精密操作。新時達SYNDA R1雙臂協同裝配工業場景對穩定作業連續性有著嚴格要求,SYNDA R1採取雙電池設計,支援熱插拔自主換電、自動回充等功能,打破續航限制,2分鐘內即可完成換電上崗,實現7*24小時全天候連續作業。自研肌肉、骨骼、小腦,四大具身產品線陸續上新SYNDA R1的問世,不只是一款產品的發佈,更是新時達從工控領域向具身智能戰略升維的“宣言書”。在發佈會現場,新時達CEO劉長文表示,新時達確立了具身智能戰略,可以簡要概括成十六字——“場景驅動、硬體先行、軟硬一體、開放生態”。在核心硬體上,新時達已經開發出全端自研的高性能關節模組、具身智能控製器等工規級產品,並率先應用在旗下人形機器人產品中。在現場展示區,新時達首秀了全端自研的HJLE1系列高性能人形關節模組,該系列初期已研發6個型號,採取19位雙編碼器,峰值扭矩可實現450N·m,具備輕量化、高性能、高扭矩密度等優勢,可適配人形機器人上半身的肩頸、手腕、腰髖等關節部位。新時達自研高性能人形關節模組在結構設計上,通過單板驅動和減速器的高度整合、諧波減速器軸承超薄設計等巧思,關節模組整體重量相較傳統方案減輕20%,無框電機採用多極多槽方案,扭矩密度提升20%,實現“既輕又強”。“軟硬一體”是具身智慧型手機器人的顯著特徵,不論多麼強勁的本體硬體,都需要軟體這一靈魂進行智能驅動。控制演算法是新時達30年技術積澱中最為拿手的“看家本領“,基於網路高速匯流排同步技術,讓機器人的幾十個關節實現匯流排納秒級同步,以一鍵自整定技術讓每一個關節模組完成瞬時動作的執行。SYNDA R1搭載的具身智能控製器,採用”快慢腦”的分層架構設計,保障決策層、規劃層、控制層、介面層等計算資源的最優配置,確保在複雜動態環境下的自主決策和精準執行。真實可控、高品質的資料是人形機器人能力進化的核心燃料,在工業場景,稀缺的不止是精細化操作、原子技能資料,更複雜的還有千千萬萬道工藝資料。一方面,新時達打通“場景-資料-演算法-模型”的進化閉環,結合真實工業場景資料沉澱,搭建工業場景Sim2Real的模擬模擬平台來強化機器人的感知、決策、規劃能力,通過基於全身動作捕捉、VR真機遙操的模擬學習、強化學習等來強化高頻、剛需的操作技能,實現任務快速落地。支援全身動捕和VR遙操數采另一方面,新時達與阿里雲、輝達、字節跳動等企業在雲端運算、AI算力和具身大模型開發框架等領域展開合作,彙集全球頂尖資源,積極建構合作生態,推動“工規級”人形機器人產業化處理程序“加速跑”。新時達在具身智能領域形成了協作機器人、移動複合機器人、輪式人形機器人、雙足人形機器人四大產品線。其中,3-30KG負載的協作機器人已於今年9月正式推出,雙足人形機器人將於2026年在工業和商業場景驗證迭代後正式上市。目前,擁有智能製造示範工廠的新時達,年產能已突破至10000台,提供了量產交付的底氣。在海爾集團龐大製造鏈條和工業合作夥伴的協同支援下,新時達具身智慧型手機器人已經真正走入工業生產的核心環節。寫在最後:回顧過去幾十年,中國工業機器人的發展呈現出中國國產替代、成本領先的鮮明特色,而人形機器人尚處於起步階段,展望未來,具身智能產業將由中國企業來制定和引領規則,同樣也將隨著中國國產硬體供應鏈和人工智慧的融合創新及技術博弈帶來突破。正是基於這種判斷,新時達從傳統工業自動化領域,全力佈局具身智能賽道,直面“資料荒漠”和“應用鴻溝”,推進工規級具身智慧型手機器人的產業化落地。通過本次發佈的模組化、平台化的具身智能產品矩陣,以及未來將旗下六軸多關節機器人、SCARA機器人、半導體機器人等與多模態AI深度融合的”工業機器人+AI“的戰略,新時達既能為製造業使用者提供覆蓋高節拍、高精度的剛性生產,也能滿足終端對人機協作柔性生產、混線生產、跨場景作業的需求。面對外界對具身智能產業價值的拷問,新時達拋去傳統對單一性能指標突破考量的價值標尺,交出一份“工規級”的創新答卷。接下來,新時達將在幾大垂類工業場景完成具身智能工作站的搭建,在技術效率最優解領域進行突破,推動具身智慧型手機器人任務執行能力的智能躍遷。放眼未來,新時達將以工規級標準奠定可靠性基石,以真實場景資料驅動持續進化,以開放產業生態凝聚跨越式力量,推動中國製造業完成深刻轉型,助力中國國產人形機器人,在全球範圍內實現具身智能賽道的規則領跑。 (高工人形機器人)
輝達開源最新VLA,能否破局L4自動駕駛?
隨著大模型深度融入汽車行業,行業競爭正從功能實現轉向高階智駕能力的比拚,而VLA(Vision-Language-Action Model,視覺語言行動模型)被視為下一代技術競爭的關鍵變數。圖片由AI生成當地時間12月1日,輝達(NVIDIA)宣佈正式開源其最新自動駕駛“視覺—語言—行動”(VLA)模型 Alpamayo-R1,該模型能夠同時處理車輛攝影機畫面、文字指令,並輸出行車決策,已在GitHub和Hugging Face平台開源,並同步推出Cosmos Cookbook開發資源包。這是行業內首個專注自動駕駛領域的開源VLA模型,輝達此舉旨在為L4級自動駕駛落地提供核心技術支撐。值得注意的是,輝達Alpamayo-R1相較於傳統黑盒式自動駕駛演算法,主打“可解釋性”,能夠給出自身決策的理由,有助於安全驗證、法規審查與事故責任判定。而輝達同時發佈“Cosmos Cookbook”等配套工具,能夠支援企業和開發者快速訓練、評估與部署。業內認為,輝達試圖通過開放核心技術,降低自動駕駛開發門檻,加速軟體棧標準化,打破原來Robotaxi昂貴的“全端自研”模式,從而轉變為可快速組裝的“Android式”生態。不過也有業內人士向筆者表示,此次輝達Alpamayo-R1開源與百度Apollo開源類似,對自動駕駛領域的入門選手來說有價值,但對專業公司來說意義不大。目前,VLA正成為智能駕駛領域公認的下一代核心技術,相關企業都在加碼佈局。國內理想汽車、小鵬汽車、長城汽車(已搭載於魏牌藍山)、元戎啟行等都已在VLA上實現量產落地。解決傳統“端到端”模型痛點傳統的端到端模型像一個“黑盒”,可能“看得見但看不懂”,在面對違規左轉、行人闖入等長尾場景時容易“翻車”。而相較於傳統“端到端”模型,VLA通過引入語言模態作為中間層,將視覺感知轉化為可解釋的邏輯鏈,從而具備了處理長尾場景和複雜突發狀況的潛力,讓機器像人類一樣“觀察、推理、決策”,而不僅僅是海量資料的簡單對應。自動駕駛領域的VLA(視覺-語言-動作)大模型,代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作,其核心好處是,讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機互動與信任建構、更自然的車控方式等。此次輝達開放原始碼的VLA模型Alpamayo-R1,基於全新的 “因果鏈”(Chain of Causation, CoC) 資料集訓練。每一段駕駛資料不僅標註了車輛“做了什麼”,更註明了“為什麼這樣做”。例如,“減速並左變道,是因為前方有助動車等紅燈,且左側車道空閒”。這意味著模型學會的是基於因果關係的推理,而非對固定模式的死記硬背。同時,基於模組化VLA架構,輝達Alpamayo-R1將面向物理人工智慧應用預訓練的視覺語言模型Cosmos-Reason,與基於擴散模型的軌跡解碼器相結合,可即時生成動態可行的規劃方案;以及多階段訓練策略,先通過監督微調激發推理能力,再利用強化學習(RL)最佳化推理質量——借助大型推理模型的反饋,並確保推理與動作的一致性。輝達公佈的資料顯示:Alpamayo-R1在複雜場景下的軌跡規劃性能提升了12%,近距離碰撞率減少25%,推理質量提升 45%,推理-動作一致性增強37%。模型參數從0.5B擴展至7B的過程中,性能持續改善。車載道路測試驗證了其即時性表現(延遲99毫秒)及城市場景部署的可行性。也因此,輝達Alpamayo-R1有望給L4自動駕駛帶來能力的躍遷,Robotaxi有望安全地融入真實、混亂的公開道路。成為自動駕駛賽道的“Android”從這次開源Alpamayo-R1,可以再次看出輝達在自動駕駛領域的野心,已經不滿足於只是“硬體供應商”,而是要做成自動駕駛賽道的“Android”。其實,早在今年10月份,輝達就對外低調發佈了Alpamayo-R1大模型。而在華盛頓GTC大會上,輝達發佈了自動駕駛平台——NVIDIA DRIVE AGX Hyperion 10。Hyperion 10被認為是輝達自動駕駛的“身體”,而Alpamayo-R1則是自動駕駛的大腦。值得注意的是,Hyperion 10實現了“從模擬到實車”的閉環:在雲端,DGX超級電腦使用DRIVE Sim生成高保真模擬資料,用於訓練DRIVE AV模型;在車端,Hyperion 10的感測器資料與Thor晶片無縫對接。因此,如果一家車企想快速推出具備L4級能力的車型,不需要再分別組建龐大的硬體整合、軟體演算法和資料訓練團隊,採用輝達的整套方案可以快速實現上車。同時,輝達也在建構一個“Android式”的Robotaxi生態,並對外公佈了明確的落地時間表:2027年起部署10萬輛Robotaxi。目前,輝達已宣佈與Uber、奔馳、Stellantis、Lucid等公司合作,共同打造“全球最大L4級自動駕駛車隊”。截至2025年10月,輝達的雲端平台已積累超過500萬小時的真實道路資料。輝達的入場,正在將Robotaxi的競爭從單一的技術比拚,引向生態模式的對決。封閉模式除了導致重複的研發投入,更深刻的弊端是形成了“資料孤島”。Waymo的美國道路經驗難以惠及中國車企,每個玩家都在獨立而緩慢地跨越技術曲線。輝達的開放生態,有機會在確保資料隱私和安全的前提下,推動生態內玩家共享經過匿名化處理的特徵資料。例如,A車企在特定路口遇到的極端場景資料,可以轉化為脫敏後的訓練特徵,幫助B車企的模型更快地識別類似風險。如果輝達能夠成為自動駕駛領域的“Android”,將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享,更是成本共擔。共同應對長尾場景這一行業最大難題的邊際成本,將隨著生態的擴大而持續降低。元戎啟行CEO周光預測,VLA帶來的可能是 “斷層式的領先”,並成為下一代競爭的關鍵變數。DeepWay深向CTO田山告訴筆者,VLA是目前自動駕駛行業非常火的一項技術,研究者眾多,能極好地提高自動駕駛模型的泛化能力及推理能力,輝達開源Alpamayo-R1,使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究並做出貢獻,能積極推進VLA技術的發展和落地,而這項技術也能應用在具身智能等物理AI的場景中。隱形門檻仍在前方不過,Alpamayo-R1目前要滿足車規級時延,還需要在RTX A6000 ProBlackwell等級的卡上運行——這張卡的INT8算力高達4000T,是Thor的6倍左右。輝達的商業模式決定了,其開源是為了更好地銷售其硬體和全端解決方案。Alpamayo-R1模型與輝達的晶片(如Thor)及開發平台(如Drive)深度繫結,能實現更高的算力利用率。這意味著,選擇輝達生態在獲得便利的同時,也意味著在核心算力上與其深度繫結。另外,DeepWay深向CTO田山向筆者指出,VLA是不是最佳的自動駕駛技術,目前還在實踐過程中,而Alpamayo-R1模型工具鏈基於輝達的平台,對很多開發者來說也是一種限制,所以也有很多其他的技術和其他的計算平台在推進自動駕駛技術發展。在田山看來,多數公司應該更聚焦技術落地,也就是技術的工程化實現,解決實際場景的問題,早日實現智駕技術的商業化閉環更有益於行業的長久健康發展。此外,L4自動駕駛的落地或者說Robotaxi的規模化商業化,還與政策與法規息息相關。同時,如何在合規框架內營運、如何通過安全評估、如何在資料利用與隱私保護間取得平衡,這些能力的重要性,並不亞於技術本身。輝達的黃仁勳一直將Robotaxi視為“機器人技術的首個商業化應用”,輝達一直要做的不是一輛無人計程車,而是讓所有玩家都能做出無人計程車的技術底座。如今,他正試圖通過開源VLA,為這個應用打造一條可以快速複製的生產線。但最終能否通過開源降低准入門檻,加速推動L4自動駕駛到來,讓技術的潮水湧向更廣闊的商業海岸,輝達Alpamayo-R1模型的開源,只是遊戲的開始,後面還有門檻要邁,還需要市場來驗證。 (鈦媒體AGI)
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)
DeepSeek登上Nature封面!梁文鋒帶隊回應質疑,R1訓練真29.4萬美金
DeepSeek榮登Nature封面,實至名歸!今年1月,梁文鋒帶隊R1新作,開創了AI推理新範式——純粹RL就能激發LLM無限推理能力。Nature還特發一篇評論文章,對其大加讚賞。剛剛,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發佈,如今成功登上全球頂刊封面。通訊作者梁文鋒帶隊,用RL為大模型推理能力開闢了全新路徑。論文地址:https://www.nature.com/articles/s41586-025-09422-z在封面推薦中,Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。開源之後,R1在Hugging Face成為最受歡迎的模型,下載量破1090萬次。關鍵是,它是全球首個經過同行評審的主流大模型。值得一的是,補充材料首次公開了R1訓練成本——294000美元,數字低到驚人。即便是加上約600萬美元的基礎模型成本,也遠低於OpenAI、Google訓練AI的成本。從一篇arXiv論文到Nature封面,DeepSeek團隊再次用實力為AI推理的未來鋪路。R1被認為是首個經歷同行評審過程的主流LLM。審稿人Lewis Tunstall表示:這是一個非常值得歡迎的先例。若不公開分享大部分研發過程,我們將難以評估這些系統是否存在風險。針對同行評審意見,DeepSeek減少了擬人化描述,並增加了技術細節說明,包括模型訓練資料類型和安全性能。審稿人Huan Sun表示:通過嚴格同行評審過程,有助於驗證模型的有效性和實用性,其他公司也應效仿。DeepSeek-R1-Zero誕生研究團隊的出發點大膽而純粹:徹底拋開對人類推理軌跡的依賴。人類定義的推理模式,可能反而是一種束縛。他們選擇了一個強大的基礎模型DeepSeek-V3 Base,跳過了傳統的SFT階段。取而代之的,是一個極其簡潔的強化學習框架,只告訴模型兩件事:1. 任務格式:回答必須包含兩部分,一個是被<think>標籤包裹的「思考過程」,另一個是被<answer>標籤包裹的「最終答案」。2. 獎勵訊號:根據最終答案是否正確來給予獎勵,不管採用什麼樣的思考方法。在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1-Zero開始了它的「野蠻生長」。在整個訓練過程中,R1-Zero的推理能力發生了質的飛躍。以AIME 2024為例,它的平均解題精準率(pass@1)從最初的15.6%,一路狂飆至77.9%。如果再配合「自洽解碼」技術,精準率更是高達86.7%——這一成績遠超AIME競賽中所有人類選手的平均水平。AI「頓悟時刻」更令人著迷的,是它在能力提升過程中展現出的自我進化行為。「思考時間」自主增加隨著訓練的進行,模型在<think>標籤內生成的文字長度穩步增加。它自發地學會了用更長的「思維鏈」來探索和最佳化解題策略,有時甚至會生成成百上千個token來反覆推敲一個問題。高級推理策略的湧現模型不再是線性地一步步解題,而是開始展現出「自我反思」和「系統性探索替代解法」等高級策略。它會驗證自己的中間步驟,甚至會主動探索「如果我用另一種方法會怎麼樣?」一個有趣「頓悟時刻」在訓練的某個階段,研究人員觀察到了一個清晰的「頓悟時刻」(Aha Moment)。也就是,模型在反思過程中,使用「wait」(等等)這個詞的頻率突然急劇增加。這一時刻,標誌著DeepSeek-R1-Zero在推理模式上發生了明顯轉變,清晰地揭示了它的自我進化過程。而這種進化,也完美詮釋了強化學習的魅力:不必教它如何解題,只需提供正確的激勵,它就能自主地發展出比人類教的更高級的策略。DeepSeek-R1之路儘管DeepSeek-R1-Zero展現了神級的推理能力,但由於其訓練完全以推理為導向,它存在可讀性差、偶爾會在中英文之間混亂切換的問題,並且在寫作、開放域問答等通用能力上表現平平。為瞭解決R1-Zero的問題,並讓其強大的推理能力能被更廣泛地應用,研究團隊設計了一套精密的多階段訓練流程,並啟動了第二階段的「精煉」計畫:1. 冷啟動(Cold Start):首先,用數千條高品質的、符合人類對話習慣的資料對模型進行初步微調,教它「好好說話」。2. 第一輪強化學習(RL):再次應用強化學習,但這次的目標不僅是提升推理,也包括保持語言的一致性和對話的流暢性。3. 大規模監督微調(SFT):團隊將推理資料與海量的非推理資料(如寫作、通用問答、程式碼工程)混合在一起,進行大規模的監督微調。這極大地擴展了模型的知識面和通用能力。4. 第二輪強化學習(RL):最後,再進行一輪全面的強化學習,利用一個更複雜的獎勵模型,進一步增強模型的有用性、無害性,並使其行為與人類偏好對齊。經過多輪煉丹,DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和使用者偏好的基準上,性能提升了17%-25%,而且還在數學、程式設計等高難度推理任務上保持了頂尖水準。揭秘DeepSeek-R1「煉丹爐」接下來,就讓我們深入這個「煉丹爐」的內部,一探究竟。GRPO演算法在AI訓練的賽道上,強化學習演算法PPO(近端策略最佳化)長期以來都是大語言模型訓練的「標配賽車」。它雖然強大,但也以資源消耗巨大和實現複雜而著稱。DeepSeek團隊選擇了一條更聰明的路,他們採用了GRPO(組相對策略最佳化)演算法作為核心驅動引擎。PPO就像一位極其謹慎的教練,它在每次訓練更新時,都會嚴格限制新策略與舊策略的偏離程度,以防模型「跑偏」導致訓練崩潰。這種謹慎是有代價的,它需要大量的計算來維持穩定。而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是:在每次訓練時,讓模型針對同一個問題,生成一組(比如16個)不同的答案。然後,它不只是簡單地獎勵最好的那個,而是根據這一組答案的「相對好壞」,來整體最佳化模型。具體來說,它會計算出每個答案相對於這一組答案平均水平的「優勢」(Advantage),優勢大的(即表現更好的)答案會得到更大的激勵權重,而表現差的則會被抑制。這種「組內競爭、擇優而學」的機制,簡化了PPO複雜的約束過程,不僅顯著降低了資源消耗,還被證明在實踐中同樣穩定高效。獎勵設計強化學習的本質,就是通過獎勵(Reward)來塑造模型的行為。它決定了模型將朝著那個方向進化。為此,DeepSeek團隊設計了一套雙軌制的獎勵系統。1. 基於規則的獎勵對於推理任務(數學、程式設計、邏輯),團隊採用了一套極其嚴格的基於規則的獎勵系統。精準率獎勵:最終答案對不對?對於數學題,答案必須和標準答案完全一致;對於程式設計題,程式碼必須通過所有預設的測試用例。格式獎勵:思考過程是否符合規範?所有的思考過程都必須封裝在<think>和</think>標籤內。這裡,有一個關鍵的決定:在推理任務上,完全不使用基於神經網路的獎勵模型。因為團隊發現,AI在長時間、大規模的強化學習中,會找到獎勵模型本身的漏洞並加以利用,即所謂的「獎勵投機(Reward Hacking)」。2. 基於模型的獎勵然而,世界並非非黑即白。對於通用任務比如寫作、對話,大多隻有好壞之分。於是,DeepSeek團隊引入了基於模型的獎勵,從而讓模型更符合人類的偏好。有用性獎勵模型:專門負責評判模型的回答對使用者是否有用、切題。它通過比較大量的「好答案」與「壞答案」對(由DeepSeek-V3生成並篩選)來學習人類的偏好。有趣的是,它只評估最終的摘要部分,而不去幹涉底層的推理過程,給予模型在思考上的充分自由。安全獎勵模型:負責檢查模型的全部輸出,包括思考過程,以識別和懲罰任何潛在的有害、偏見或危險內容。如此一來,模型在保持強大推理能力的同時,也學會了如何生成更有用、更安全、更符合人類習慣的內容。訓練細節DeepSeek的訓練並非一蹴而就,而是分為多個精心設計的階段,每個階段都有不同的側重點和巧妙的參數調整。最開始的訓練完全聚焦於數學、程式設計等推理任務,僅使用基於規則的獎勵。一個有趣的現象發生在訓練進行到第8,200步時:研究人員將模型處理的最大文字長度從32,768個Token猛增到65,536個Token。這一改變帶來了立竿見影的效果,模型的性能和回答長度都出現了「大幅躍升」。其他參數設定如下:學習率:3×10⁻⁶KL散度係數:0.001GRPO裁剪比率ϵ:10推理採樣溫度:1每個訓練步包含32個獨立問題,每步的批大小為512。每400步,用最新的策略模型替換參考模型。第一強化學習階段在這一階段,訓練資料變得更加多樣化。團隊遇到了一個意想不到的挑戰:模型的「思維鏈」(<think>標籤內的內容)中頻繁出現中英夾雜的「語言混合」現象。雖然這不一定影響最終答案的正確性,但極大地影響了可讀性。為瞭解決這個問題,他們創造性地引入了一個「語言一致性獎勵」:如果模型在處理中文問題時,思維鏈中中文詞彙的比例越高,獲得的獎勵就越多。儘管實驗表明,強行「矯正」語言會導致模型性能微乎其微的下降,但為了輸出結果更符合人類閱讀習慣,這個犧牲是值得的。第二強化學習階段在這一階段,研究人員結合了獎勵訊號和多樣化的提示詞分佈來訓練模型。推理資料使用基於規則的獎勵,通用資料則啟用基於模型的獎勵。獎勵可以公式化為:其中第二階段保留了第一階段的大部分參數,但將溫度降至0.7,以防因為係數過高造導致生成內容不連貫。此外,這裡還有一個關鍵操作:基於模型的獎勵(有用性和安全性)僅在最後400個訓練步中才被引入,從而避免獎勵投機的產生。挑戰與未來DeepSeek-R1的誕生,為AI發展帶來了深刻的啟示,也伴隨著新的挑戰。能力侷限在結構化輸出和工具使用(如呼叫計算器、搜尋引擎)方面,目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感,不適合複雜的少樣本提示,在零樣本直接提問時效果最佳。此外,由於強化學習在耗時長的軟體工程任務上效率不高,R1在該領域的提升有限。獎勵投機純強化學習的成功,完全依賴於可靠的獎勵訊號。在數學、程式設計這類有明確對錯答案的領域,這很容易實現。但對於像「寫一首優美的詩」這樣主觀的任務,則很難設計完美的獎勵模型。如果獎勵訊號本身有漏洞,策略模型就會像一個聰明的學生鑽考試規則的空子一樣,「投機取巧」、騙取高分,而不是真正提升能力。年初,DeepSeek-R1發佈後,OpenAI感覺不可思議,指責DeepSeek「可能使用了ChatGPT的輸出來訓練R1」。在與審稿人的交流中,DeepSeek表示,R1並非通過複製OpenAI模型生成的推理示例來學習。不過,與大多數其他大語言模型一樣,R1的基礎模型是在網路上訓練的,因此它會吸收網際網路上已有的AI生成的內容。俄亥俄州立大學AI研究員Huan Sun表示,這一解釋「與我們在任何出版物中看到的一樣令人信服」。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall補充說,其他實驗室的複製嘗試表明,DeepSeek推理方法已經足夠好,不需要這樣做。他說:「我認為現在的證據相當明確,僅使用強化學習就可以獲得非常高的性能。」Lewis Tunstall說,其他研究人員現在正試圖應用建立R1的方法來改進現有大語言模型的類似推理能力,並將其擴展到數學和編碼以外的領域。他補充說,通過這種方式,R1「開啟了一場革命」。 (新智元)
剛剛,梁文鋒發Nature了!
DeepSeek-R1開創歷史!首登《自然》封面,梁文鋒團隊正面回應蒸餾質疑、發佈詳盡安全報告。昨晚,DeepSeek再度開創歷史!智東西9月18日報導,9月17日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權威期刊《自然(Nature)》的封面。DeepSeek-R1論文首次公開了僅靠強化學習,就能激發大模型推理能力的重要研究成果,啟發全球AI研究者;這一模型還成為全球最受歡迎的開源推理模型,Hugging Face下載量超1090萬次。此番獲得《自然》的認證,可謂是實至名歸。與此同時,DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。《自然》在社論中高度評價道:幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白“終於被DeepSeek打破”。《自然》認為,在AI行業中,未經證實的說法和炒作已經“司空見慣”,而DeepSeek所做的一切,都是“邁向透明度和可重複性的可喜一步”。▲《自然》雜誌封面標題:自助——強化學習教會大模型自我改進發表在《自然》雜誌的新版DeepSeek-R1論文,與今年1月未經同行評審的初版有較大差異,披露了更多模型訓練的細節,並正面回應了模型發佈之初的蒸餾質疑。▲發表在《自然》雜誌的DeepSeek-R1論文在長達64頁的同行評審檔案中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的資料全部來自網際網路,雖然可能包含GPT-4生成的結果,但絕非有意而為之,更沒有專門的蒸餾環節。DeepSeek也在補充材料中提供了訓練過程中減輕資料污染的詳細流程,以證明模型並未在訓練資料中有意包含基準測試,從而提升模型表現。此外,DeepSeek對DeepSeek-R1的安全性進行了全面評估,證明其安全性領先同期發佈的前沿模型。《自然》雜誌認為,隨著AI技術日漸普及,大模型廠商們無法驗證的宣傳可能對社會帶來真實風險。依靠獨立研究人員進行的同行評審,是抑制AI行業過度炒作的一種有效方式。01.新版論文披露多個重要資訊R1安全性獲全面評估在瞭解新版論文的變化前,我們有必要先回顧下DeepSeek-R1論文的核心內容。DeepSeek-R1的研究出發點,是當時困擾AI業內的一個重大問題。眾所周知,推理能提升大語言模型的能力,但讓模型在後訓練階段通過資料學習思維鏈軌跡,嚴重依賴人工標註,限制了可擴展性。DeepSeek嘗試通過強化學習,讓模型自我演化發展出推理能力。在DeepSeek-V3 Base的基礎上,DeepSeek使用GRPO作為強化學習框架,僅使用最終預測結果與真實答案的正確性作為獎勵訊號,未對推理過程施加限制,最終建構出DeepSeek-R1-Zero。DeepSeek-R1-Zero通過強化學習成功掌握了改進的推理策略,傾向於生成更長的回答,每個回答中包含驗證、反思和探索備選方案。▲DeepSeek-R1-Zero答題正確率隨著推理長度提升,模型訓練中總體回答長度也不斷提升DeepSeek在DeepSeek-R1-Zero的基礎上,採用多階段訓練結合RL、拒絕採樣和監督微調,開發出DeepSeek-R1,使模型既具備強推理能力,又能更好貼合人類偏好。此外,團隊還蒸餾出小型模型並公開發佈,為研究社區提供了可用資源,推動思維鏈推理模型的發展與應用。除了上述主要科研成果外,在最新版的論文和其他材料中,DeepSeek新增了不少補充資訊,讓外界更深入地瞭解到模型訓練和運作的細節。基準測試資料污染是一個極為敏感的問題——如果廠商在訓練時有意或無意包含了基準測試和相關答案,就很有可能導致模型在相關測試上的得分異常偏高,影響基準測試評分的公正性。DeepSeek透露,為了防止基準測試資料污染,其已對DeepSeek-R1的預訓練和後訓練資料都實施了全面的去污染措施。以數學領域為例,僅在預訓練資料中,DeepSeek的去污染流程就識別並刪除了約六百萬條潛在文字。在後訓練階段,數學相關的資料均來自2023年之前的競賽,並採用與預訓練相同的過濾策略,確保訓練資料與評測資料完全不重疊。這些措施保證了模型評測結果能夠真實反映其解決問題的能力,而非對測試資料的記憶。不過,DeepSeek也承認這種去污染方法無法完全防止對測試集的改寫,因此在2024年之前發佈的部分基準測試仍可能存在污染問題。DeepSeek還為DeepSeek-R1新增了一份全面的安全報告。報告提到,DeepSeek-R1在服務部署中引入了外部風險控制系統,不僅可以基於關鍵詞匹配識別不安全對話,還使用DeepSeek-V3直接進行風險審查,判斷是否應拒絕響應。DeepSeek建議開發者在使用DeepSeek-R1時,部署類似的風險控制系統。在公開安全基準測試和內部安全研究中,DeepSeek-R1在大多數基準上超過了Claude-3.7-Sonnet、GPT-4o等前沿模型。開源部署版本的安全性雖不及具備外部風險控制系統的版本,但仍擁有中等水平的安全保障。DeepSeek-R1發佈之初,曾有傳聞稱該模型使用了OpenAI的模型進行蒸餾,這也出現在審稿人的提問中。對此,DeepSeek做出了正面回應,稱DeepSeek-V3-Base的預訓練資料全部來源於網路,反映自然資料分佈,“可能包含由先進模型(如GPT-4)生成的內容”,但DeepSeek-V3-Base並沒有引入在合成資料集上進行大規模監督蒸餾的“冷卻”階段。DeepSeek-V3-Base的資料截止時間為2024年7月,當時尚未發佈任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。更重要的是,DeepSeek-R1論文的核心貢獻,也就是R1-Zero,不涉及從先進模型進行蒸餾。其強化學習(RL)元件是獨立訓練的,不依賴於GPT-4或其他類似能力模型的輸出或指導。02.R1論文開創大模型科研新範式《自然》盛讚其填補空白在社論中,《自然》詳細地分析了DeepSeek-R1經歷完整同行評審流程,並登上期刊的價值。大模型正在迅速改變人類獲取知識的方式,然而,目前最主流的大模型都沒有在研究期刊中經歷過獨立的同行評審,這是一個嚴重的空白。同行評審出版物有助於闡明大模型的工作原理,也有助於業內評估大模型的表現是否與廠商宣傳的一致。DeepSeek改變了這一現狀。DeepSeek在今年2月14日將DeepSeek-R1論文提交至《自然》,而直到7月17日才被接收,9月17日正式發佈。在這一過程中,有8位外部專家參與了同行評審,對這項工作的原創性、方法和魯棒性進行了評估。在最終發佈的版本中,審稿報告與作者回覆都被一併披露。智東西也深入研讀了DeepSeek-R1論文的審稿意見與作者回覆。這份檔案長達64頁,接近論文字身篇幅的3倍。▲DeepSeek同行評審材料封面8位審稿人共提出上百條具體意見,既包括對單詞單複數等細節的修改,也涵蓋對論文中將AI“擬人化”的警示,以及對資料污染和模型安全性問題的關注。例如,在下方修改意見中,審稿人敏銳地捕捉到了“將DeepSeek-R1-Zero開源”這一表述的模糊性,並提醒DeepSeek,“開源”這一概念的界定仍存爭議,在使用相關表述時需要格外注意。這位審稿人還要求DeepSeek在論文中附上SFT和RL資料的連結,而不僅僅是提供資料樣本。▲一位審稿人的部分修改意見DeepSeek認真回應了審稿人提出的每一個問題,前文提到的多個章節與補充資訊,正是在審稿人的建議下新增的。雖然DeepSeek也曾在今年1月發佈DeepSeek-R1的技術報告,但《自然》認為,此類技術文件與實際情況之間的差距可能很大。相比之下,在同行評審中,外部專家並不是被動接收資訊,而是能夠在獨立第三方(編輯)的主持和管理下,通過協作提出問題,並要求論文作者補充資訊。同行評審能夠提升論文的清晰度,並確保作者對其主張作出合理的論證。這一流程並不一定會對文章內容帶來重大修改,但卻能增強研究的可信度。對AI開發者而言,這意味著他們的工作會更為紮實,並更具說服力。03.結語:DeepSeek開源模式或成行業典範作為國產開源 AI 模型走向世界的代表,DeepSeek-R1在全球開源社區擁有極高的口碑。而在本次登上《自然》雜誌封面後,DeepSeek又補充了這一模型的更多資訊,為開源社區提供了科研參考、模型復現思路以及應用支援。《自然》雜誌呼籲更多的AI公司將其模型提交給同行進行評審,確保其聲明經過驗證和澄清。在這一背景下,DeepSeek的開源模式不僅展示了國產AI的技術實力,也有望成為全球AI行業在科研透明度方面的參考典範。 (智東西)