#DeepSeek-R1 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#DeepSeek-R1

字節Seed用化學思想搞AI，把DeepSeek-R1的腦回路拆成了分子結構

字節Seed都開始用化學思想搞大模型了——深度推理是共價鍵、自我反思是氫鍵、自我探索是范德華力？！傳統的大模型長思維鏈推理基本把AI的思考過程等同於線性結構。但很多情況下，後續的一個關鍵結論，可能需要回過頭去驗證早早提出的假設。CoT把這種非線性的依賴關係忽略了。字節Seed在論文《The Molecular Structure of Thought》中首次給大模型的長鏈思維定義了分子式結構。在這種分子拓撲中，三種鍵是怎麼相互配合的？好的推理像分子結構團隊把DeepSeek-R1、gpt-OSS等強推理模型的長鏈思維拆成一步一步的，然後給每一步之間的“跳躍”打上標籤。打完標籤發現，所有有效的長鏈思維裡，其實就三種基礎動作來回組合。第一種叫深度推理，像共價鍵一樣結實。通俗來說就是類似“因為A所以B，因為B所以C”的硬邏輯推進。團隊在語義空間裡做了一個很形象的量化分析，把模型的每一步思考都當成一個點，看這些點最後會散成多大一個圈。圈子越小，說明模型越沒跑題，思考越聚焦。結果發現，加上深度推理之後，這個散點圈直接縮水22%。深度推理確實起到了收束雜念、鎖定核心邏輯的關鍵作用。第二種叫自我反思，像氫鍵一樣有彈性但穩定。類似於“等等，我剛才那步是不是想錯了”“讓我重新檢查一下前面的假設”，能把後面的思考拐回來跟前面的節點呼應上，形成一種折疊感。團隊測了模型自我反思時的思維軌跡，把每一步思考都看成語義空間裡的一個點，然後計算反思時會跳回多遠、落在那裡。發現81.72%的反思步驟，都會精準落回之前已經形成的靠譜思路區域裡。還對比了反思前後的思維範圍，反思前，語義空間體積是35.2，反思後，直接壓縮到31.2。再看聚類結果就更清楚了，反思之後，同一類正確思路的點會緊緊抱團，而那些零散、跑偏的分支會被自動推開。也就是說，自我反思氫鍵能把靠譜邏輯揉得更緊實、把跑偏想法篩出去、穩住整個推理大局，讓長鏈思考不再鬆散混亂。第三種叫自我探索，像范德華力一樣弱，但覆蓋面廣。這個就類似於“要不咱們試試這個角度”“有沒有另一種可能性”，在語義空間裡找新的解題路徑。量化分析顯示，加上探索行為之後，模型在語義空間裡的思維覆蓋範圍能從23.95擴大到29.22。雖然思路一打開穩定性就會下降，容易跑偏想歪，但能讓模型跳出死胡同，不卡在局部最優解裡，真正找到全新的解題路線。研究發現，所有強推理模型的三種思維行為比例和轉換規律都高度一致，相關性超過0.9，說明有效長鏈推理存在通用的穩定拓撲結構。你可能覺得“共價鍵”“氫鍵”只是個比喻，但論文發現，這個比喻背後藏著嚴格的數學對應。在Transformer裡，注意力權重的計算方式長這樣：眼熟嗎？這和統計力學裡的玻爾茲曼分佈一模一樣：如果把負注意力分數看作能量，那麼注意力權重就是模型在語義空間裡按“能量”高低選擇路徑的機率就是能量越低，被選中的機率越高。論文進一步分析了三種行為對應的“注意力能量”。深度推理通常發生在相鄰步驟之間，能量最低;自我反思會跳回較遠的步驟，能量中等;自我探索跳得更遠，能量最高.這就解釋了為什麼強推理模型的三種鍵比例如此穩定。因為模型的注意力機制本身就在追求最低能量的推理路徑，而深度推理、反思、探索正好對應了不同距離下的能量層級。語義同分異構體和智能熵減接著團隊還拋出了語義同分異構體的概念。這詞兒是借的化學，同樣的分子式，原子連接方式不同，就能搞出性質完全不同的物質。放到推理裡就是，同樣的題目，同樣的概唸點，用不同的”化學鍵“組合去解，出來的推理鏈條可以完全不一樣，但都能解對。但不是所有異構體都適合拿來教模型。這裡就要引入一個關鍵概念熵減。在熱力學裡，孤立系統總是自發走向混亂（熵增），而一個有效的長鏈推理過程，本質上就是在語義空間裡不斷降低不確定性——從一堆可能的方向中，逐步收斂到唯一正確的答案。這個過程就是“熵減”。而“注意力能量”機制，正是模型實現熵減的工具。模型的注意力天然偏好能量更低的路徑。當深度推理（低能量）被反覆選中，反思（中等能量）把前後邏輯折疊起來，探索（高能量）偶爾探路但不喧賓奪主，整個系統的“推理熵”就會快速下降，邏輯火速收斂。這如論文裡說的，只有那些能推動熵快速降低的“化學鍵”組合，才是模型真正能學會、能持續進化的穩定態。這在實驗中有個很典型的現象，從R1和OSS兩個不同強推理模型中蒸餾出的推理軌跡，語義層面的內容相似度高達95%，但混在一起訓練，模型反而崩潰了。這說明，長鏈推理的關鍵是思路結構必須穩定、統一，模型才能學得會。MoLE-Syn：從零合成穩定推理結構發現問題就要解決問題。基於這一整套發現，團隊搞了個叫MoLE-Syn的方法，來從零合成穩定的推理結構。具體操作就兩步。第一步，從強推理模型（比如R1、QwQ、gpt-OSS）的推理鏈裡，抽出一張行為轉移機率圖。這張圖裡每個節點是一種推理行為（化學鍵），每條邊是從一個行為跳到另一個行為的機率。第二步，拿著這張圖，讓普通的指令模型照著圖上畫的機率去生成推理鏈。用這個方法從零合成的訓練資料，喂給Llama或者Qwen，效果逼近直接蒸餾R1的水平。而且這麼做有一個大好處就是成本低。只要拿到那張行為轉移圖，普通模型就能自己生產合格的長鏈推理資料。團隊把用MoLE-Syn初始化過的模型拿去做強化學習，發現跑起來還特別穩。相比直接用蒸餾資料初始化的模型，MoLE-Syn版的在RL過程中收益持續增長，震盪也小得多。這說明一開始植入的思維結構夠穩，後面的強化學習就不會出現邏輯偏移。這項研究的負責人為字節Seed演算法專家黃文灝，曾在微軟亞洲研究院擔任研究員。第一作者是哈爾濱工業大學博士、字節Seed實習研究員陳麒光。合作單位還包括北京大學、2077AI Foundation、南京大學、M-A-P、中南大學。不得不說，這波操作有點當年薛定諤拿物理學公式推生物學那味兒了。給大模型推理這個捲得飛起的領域，開了個挺清爽的新腦洞。 (量子位)

國產大模型Kimi K2.5全球多榜單領先，推動AI向智能體演進

當前，全球AI大模型的技術焦點正從“對話互動”轉向“自主執行”。在這一趨勢中，國產大模型正展現出獨特的價值與影響力。近日，人工智慧企業月之暗面正式發佈並開源新一代大模型Kimi K2.5。作為該公司迄今最智能、最全能的模型，K2.5在視覺理解、程式碼生成與Agent叢集協作等方面實現重要突破，被AI業界視為國產人工智慧發展的又一標誌性產品。2025年初，DeepSeek-R1憑藉極高的推理效率火遍全球。一年後，月之暗面通過原生多模態與智能體能力的深度融合，進一步體現了國產基座模型在提升智能“密度”與實用效能方面的進階。隨著以Kimi K2.5為代表的AI大模型加速賦能千行百業，其廣泛的應用潛力越發凸顯。KimiK2.5模型全球多榜單領先自2023年成立以來，月之暗面先以“長文字”功能打開市場，隨後推出基於強化學習的K系列模型。這次K2.5的發佈，意味著公司在基礎模型研發上再進一步。相比2025年7月發佈的K2模型，Kimi K2.5模型意義重大。多項測試表明，K2.5在程式設計、視覺、推理和Agent（智能體）任務等多個領域達到國際先進水平。K2.5讓AI更“親民”。通過融合視覺、推理、程式碼和Agent能力，使用者現在只需拍照、截圖或錄屏，就能讓Kimi理解複雜需求，大大降低了與AI的互動門檻。發佈不到一周，來自美國、英國、德國、西班牙、新加坡等近20個國家超50家主串流媒體對Kimi K2.5進行了報導。該模型發佈後，迅速登上多個權威評測榜單前列。在第三方評測機構Artificial Analysis的最新榜單中，Kimi K2.5綜合性能位列全球前五，僅次於GPT-5.2、Claude Opus 4.5、GPT-5.2 Codex和Gemini 3 Pro Preview這四款閉源模型，在開源模型中居首。圖為評測機構Artificial Analysis發佈的最新模型排名Kimi K2.5還進一步提升了開源模型的程式碼水平，尤其是在前端開發領域，通過融合視覺能力降低了程式設計的門檻。比如，K2.5能自動拆解錄屏背後的互動邏輯，用程式碼進行完整復現。開發者社區的反響也十分熱烈。大模型聚合平台OpenRouter平台資料顯示，K2.5的呼叫量已進入全球前三，且仍在快速增長。LMArena榜單也顯示，其程式碼能力在開源模型中居首，總榜排名前三，是前十名中唯一的中國模型。知名程式設計工具Kilo Code近期資料顯示，K2.5已成為平台上呼叫量最高的模型。在程式設計的實際應用中，因具備視覺理解能力，Kimi K2.5模型也成為多家頭部大廠的首選，展現出廣泛的行業適配性。對普通使用者來說，Kimi K2.5模型將Agent能力擴展到日常辦公領域，它已具備處理Word、Excel、PPT、PDF等常用軟體的高階技能，能幫助使用者直接交付准專業水平的辦公文件。更值得關注的是，Kimi K2.5首次引入了“Agent叢集”能力，可以自主建立多達100個的數字“分身”，按需組成不同角色的團隊，平行工作，團隊作戰，獲得效率的極大提升。例如，使用者輸入40篇論文後，K2.5會先通讀全文，再派生子Agent分別撰寫不同章節，最後由主Agent整合成一份完整的PDF報告。這種“團隊作戰”模式極大提升了效率。圖為評測平台Design Arena發佈的榜單，Kimi K2.5位列第一最新資料顯示，Kimi K2.5已登上評測平台Design Arena榜單首位。該平台主要評測AI大模型的“視覺+互動+創意”能力，此結果印證了K2.5在“設計智能體”領域的綜合領先優勢。隨著應用場景的持續拓展與技術的穩步迭代，Kimi K2.5有望在全球範圍內推動AI應用走向更廣、更深的落地，為各行各業的智能化轉型提供切實助力。國產AI大模型影響力持續提升Kimi K2.5模型的快速破圈，不僅是國產AI模型的一次“實戰測試”，更是中國開源模式憑藉技術能力和性價比優勢在全球舞台嶄露頭角的重要體現。從DeepSeek-R1以強化學習最佳化實現“效率革命”，到月之暗面Kimi K2.5實現原生多模態與智能體叢集能力的融合突破，國產大模型在技術體繫上完成了從單點突破到系統化創新的範式躍遷，影響力持續提升。大模型能力是人工智慧走向規模化應用的核心基石。Kimi K2.5的發佈，體現了人工智慧行業將加速從“聊天互動”轉向以“自主執行”為目標的智能體新階段。以“Agent叢集”為例，過去工程師需要逐行編寫程式碼的複雜流程，如今僅憑一條自然語言指令，即可調度上百個智能體協同作業、平行處理。業內分析認為，這一從“單一模型智能”向“多智能體群體協作”的躍遷，是企業級AI開發的下一個前沿。當前，智能體技術正逐漸從實驗室走向實際應用，進入規模化落地階段。在政策引導與產業鏈協同創新的雙輪驅動下，中國在場景、資料與工程化方面的優勢持續釋放，為AI產業形成全球競爭力奠定了基礎。在市場與資本的雙重助推下，頭部企業正將資源聚焦於下一代技術的攻堅。月之暗面創始人楊植麟表示，下一代模型將採用Kimi Delta Attention新型線性注意力機制，進一步提升短長文字任務性能與速度。同時，未來的大模型還將具備更多“審美”和“價值觀”，擺脫同質化發展。“我們致力於在未來十年、二十年，推動K系列模型從K4、K5到K100實現代際跨越。”楊植麟表示，當前多款中國開源模型已成為事實上的行業基準，“中國技術不僅要好用，還要參與制定規則”。 (瞭望財經)

DeepMind CEO:中國AI落後西方約六個月,DeepSeek R1 反應過度/DeepSeek 新模型 MODEL1 程式碼曝光

DeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度/X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流/DeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈X 開源核心推薦演算法:基於 Grok 的 Transformer 模型驅動資訊流要點一:演算法技術架構與工作原理X(原 Twitter)於 2026 年 1 月 20 日在 GitHub 上開源了其核心推薦系統程式碼,該系統完全依賴於 xAI 的 Grok Transformer 模型來學習使用者參與序列的相關性。系統通過分析使用者的互動歷史(點選、點贊等行為),結合網路內帖子和利用機器學習分析"網路外"內容,為使用者生成個性化資訊流。演算法會過濾被遮蔽帳戶、靜音關鍵詞以及暴力或垃圾內容,然後根據相關性、內容多樣性以及使用者可能的互動行為(點贊、回覆、轉發等)對內容進行排序。系統採用 RecsysBatch 輸入模型,使用統一的 AI 驅動 Transformer 架構,完全實現自動化推薦,無需人工特徵工程。TechCrunch要點二:開源背景與爭議此次開源履行了馬斯克一周前的承諾,承諾每四周提供演算法透明度更新。然而,X 當前正面臨多重監管壓力:歐盟監管機構因其驗證系統違反《數字服務法》透明度義務對其處以 1.4 億美元罰款;加州總檢察長辦公室和國會議員正在審查 Grok 被用於製作女性和未成年人的性化內容問題。批評人士認為這是"透明度作秀",因為 2023 年首次開源時被批評"不完整",未能揭示組織內部運作或程式碼工作原理。值得注意的是,自馬斯克 2022 年收購以來,X 從上市公司轉為私有公司,透明度報告從每年多次減少至 2024 年 9 月才發佈首份報告。TechCrunchNetflix Q4 業績強勁:付費使用者突破 3 億,2025 年收入預期上調要點一:Q4 財務資料與使用者增長Netflix 於 2025 年 1 月 21 日公佈的 2024 年第四季度財報顯示,營收同比增長 16% 至 102.5 億美元,超過市場預期的 101.1 億美元;每股收益 4.27 美元,超過預期的 4.20 美元。公司在該季度新增 1900 萬付費會員,創下季度最大增長記錄,使全球付費會員總數達到 3.0163 億(301.63 million),超過預期的 2.909 億。淨利潤達 18.7 億美元,而上年同期為 9.38 億美元。包括"額外會員帳戶"在內,Netflix 全球觀眾估計超過 7 億。Q4 的成功得益於《魷魚遊戲》第二季、Jake Paul 對 Mike Tyson 拳擊賽以及聖誕節 NFL 比賽等內容的推動。聯席 CEO Ted Sarandos 表示,為體育賽事而來的使用者留存率與其他熱門內容使用者相當。CNBC要點二:2025 年展望與業務戰略Netflix 將 2025 全年收入預期從此前預測上調約 5 億美元,調整至 435-445 億美元區間,同時宣佈部分套餐價格上漲 1-2 美元/月。公司表示將增加內容投入,2026 年內容支出計畫增長 10%。廣告支援套餐表現強勁,在提供該選項的國家中佔註冊量的 55% 以上,會員數環比增長約 30%。Netflix 表示有望在 2025 年在所有廣告業務國家達到充足規模,大幅增長廣告業務是 2025 年首要任務。這是 Netflix 最後一次按季度報告付費訂戶數,未來將在第二和第四季度發佈"參與度報告"。2025 年將推出《怪奇物語》和《星期三》回歸,以及《利刃出鞘 3》、Adam Sandler 的《快樂吉爾莫 2》等重磅內容。公司強調其優勢在於專注核心業務,沒有管理衰退的線性網路等分心因素。CNBC馬斯克起訴 OpenAI 案內部檔案曝光:微軟與 OpenAI 十年合作關係細節披露要點一:微軟-OpenAI 關係演變與關鍵轉折點最新法庭檔案揭示了微軟與 OpenAI 長達十年的合作關係內幕。2015 年 12 月 OpenAI 成立時,微軟 CEO 納德拉發現 AWS 已成為捐助方而驚訝詢問團隊。2016 年,在馬斯克支援下(稱貝索斯"有點工具人"),微軟以 5000 萬美元計算資源贏得合作。2019 年,微軟投資 10 億美元,獲得 OpenAI 商業許可和獨家雲端運算權,以及對"重大決策"的批准權(包括結構變更、合併等),當時微軟出資佔總投資 85%,實際擁有否決權。微軟 CFO Amy Hood 評論 OpenAI 的利潤上限"實際上比 90% 的上市公司都大,並不太受約束"。2022 年 11 月 ChatGPT 發佈時董事會從社交媒體上得知,微軟隨後在 2023 年 1 月追加 100 億美元投資。2023 年 11 月 Altman 被解僱危機中,微軟在 24 小時內成立 Microsoft RAI Inc. 子公司準備接收 OpenAI 團隊,估算成本 250 億美元,並在新董事會遴選中發揮關鍵作用。GeekWire要點二:最新訴訟進展與公司治理轉變馬斯克於 2026 年 1 月尋求從 OpenAI 和微軟獲得 790-1340 億美元賠償,指控 OpenAI 背離非營利使命欺騙了他。聯邦法官已裁定此案將於今春進行陪審團審判,OpenAI 和微軟未能逃避審判。OpenAI 反駁稱馬斯克在 2017 年就同意需要營利性結構,談判破裂是因為 OpenAI 拒絕給他完全控制權。2024 年 12 月 27 日,OpenAI 宣佈解除限制利潤結構,內部稱為"Project Watershed"。2025 年 9 月簽署諒解備忘錄,45 天內完成條款。微軟的"重大決策"批准權涵蓋此次重組,雖無董事會席位和投票權,但重組無法在未經微軟批准下進行。Morgan Stanley 估值 1220-1770 億美元,Goldman Sachs 估值 3530 億美元,最終以 5000 億美元估值完成(軟銀領投),微軟股權從 32.5% 稀釋至 27%,但 OpenAI 承諾未來在 Azure 上支出 2500 億美元。同時微軟失去新雲工作負載優先權,但 IP 權利延長至 2032 年。2025 年 11 月,OpenAI 與 AWS 簽訂 7 年 380 億美元基礎設施協議,實現雲服務商多元化。GeekWireDeepMind CEO:中國 AI 公司落後西方約六個月,DeepSeek R1 反應過度要點一:對中國 AI 能力的評估Google DeepMind CEO Demis Hassabis 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時表示,中國 AI 公司目前落後領先西方實驗室約六個月。他認為市場對 2025 年發佈的 DeepSeek R1 模型的反應是"大規模過度反應"(massive overreaction)。Hassabis 表示中國公司"非常擅長追趕前沿水平,並且越來越有能力做到這一點",但並未實現科學突破。他此前在 2025 年 2 月曾評價 DeepSeek 的 AI 模型"可能是中國最好的工作",但補充說這不是科學進步,炒作被"誇大了"。這一評估與業界對中國 AI 快速發展的擔憂形成對比,Hassabis 試圖平息內部員工對 DeepSeek 的焦慮情緒。Bloomberg要點二:技術競爭態勢分析Hassabis 的評估反映了西方 AI 領導者對中國追趕速度的謹慎樂觀。雖然承認中國在快速進步,但強調其主要優勢在於"追趕"而非創新性突破。DeepSeek 作為中國 AI 初創公司,以遠低於美國競爭對手的成本開發出具有競爭力的 AI 模型,引發了對美國高額 AI 投資必要性的質疑。然而 Hassabis 的言論暗示,儘管 DeepSeek 展現了成本效率,但在技術前沿性和創新能力上,西方實驗室仍保持領先。這一觀點與當時市場因 DeepSeek 發佈而出現的恐慌情緒形成鮮明對比,試圖重新定位競爭格局的真實狀態。值得注意的是,Hassabis 的評估也可能帶有戰略性考量,旨在穩定投資者信心並維持西方在 AI 領域的主導敘事。BloombergAnthropic CEO:向中國出售 AI 晶片如同"向朝鮮出售核武器"要點一:國家安全警告與政策批評Anthropic CEO Dario Amodei 於 2026 年 1 月 20 日在達沃斯世界經濟論壇接受 Bloomberg 採訪時,強烈批評川普政府允許向中國出售先進 AI 晶片的決定,將其比作"向朝鮮出售核武器"。Amodei 表示美國在晶片製造能力上領先中國"許多年",向中國出口這些晶片可能幫助北京縮小差距,具有"令人難以置信的國家安全影響"。他描繪了 AI 的未來場景:"一個資料中心裡的天才之國",想像"1 億個比任何諾貝爾獎得主都聰明的人,它將受某一個國家的控制"。Amodei 表示中國在 AI 發展上仍然落後,並受到晶片禁運的制約。美國工業和安全域(BIS)上周修訂了向中國出售晶片的許可政策,川普隨後宣佈對 Nvidia 計畫運往中國的晶片(如 H200)徵收 25% 的關稅。Axios要點二:行業內部分歧與政治博弈Amodei 在業界對政府政策的批評中較為突出,儘管試圖緩和緊張關係,但並非孤立聲音。在國會山,眾議院外交事務委員會主席 Brian Mast 等共和黨高層正在推動立法,阻止中國獲取敏感美國技術。MAGA 影響者 Laura Loomer 和 AI 與加密貨幣主管 David Sacks 則為總統政策辯護。Amodei 在採訪中避免直接批評 Sacks(被廣泛視為川普 AI 政策背後的策劃者),僅表示"這一特定政策並不明智"。目前某些先進 AI 晶片(如 Nvidia H200、AMD MI325X)向中國出口的各項準備工作正在落實。這一爭議凸顯了商業利益、國家安全考量與政治立場之間的複雜博弈,以及 AI 行業領導者在公共政策制定中日益重要的發聲角色。Amodei 此前撰文強調需要加強對華晶片出口管制,此次公開批評進一步表明他在這一議題上的堅定立場。Axios百度文心助手月活使用者突破 2 億,與京東美團等平台深度整合要點一:使用者規模與生態整合百度旗下 AI 助手"文心一言"(Ernie Assistant)月活躍使用者數已突破 2 億大關,這一里程碑標誌著中國科技巨頭在 AI 助手領域競爭的顯著進展。根據《華爾街日報》2026 年 1 月 20 日報導,文心一言已與京東(JD.com)、美團(Meituan)和攜程(Trip.com)等廣泛使用的應用程式實現連結整合,使得該 AI 助手能夠幫助使用者預訂機票、訂購外賣等實際服務。這種深度生態整合使文心一言不再僅是獨立的聊天機器人,而是嵌入到使用者日常生活場景的智能助手。百度股價因這一消息上漲,反映了市場對其 AI 業務增長的積極預期。除活躍使用者基數外,文心一言每日 API 請求量也達到 2 億次,顯示其在企業客戶中的廣泛應用。百度還擁有超過 85,000 家企業客戶使用其 AI 服務。Wall Street Journal要點二:中國 AI 競爭格局隨著中國科技巨頭在 AI 領域競爭的加劇,百度、阿里巴巴、騰訊等公司都在爭奪 AI 助手市場份額。百度的文心一言現已整合到其旗艦搜尋引擎中,並在 PC 端可用,重塑了使用者搜尋和互動方式,從傳統關鍵詞搜尋轉向 AI 驅動的對話式搜尋。這一轉變體現了百度將自身從傳統搜尋引擎轉型為 AI 平台的戰略。與競爭對手相比,百度在中文語言模型和本土化服務整合方面具有優勢。文心一言與京東、美團等電商和生活服務平台的整合,使其能夠直接參與交易環節,而不僅僅提供資訊查詢。這種"AI+服務"的模式代表了中國 AI 應用的獨特路徑,與美國市場以通用對話為主的 ChatGPT 等產品形成差異。2 億月活使用者的規模雖然顯著,但在中國龐大的網際網路使用者基數中仍有巨大增長空間,預示著 AI 助手市場的激烈競爭將持續升級。Wall Street Journal字節跳動擴張雲業務:AI 雲市場份額近 13%,挑戰阿里巴巴主導地位要點一:市場份額與擴張戰略根據《金融時報》2026 年 1 月 20 日報導及 IDC 資料,字節跳動旗下火山引擎(Volcano Engine)在 2025 年上半年佔據中國 AI 雲服務市場近 13% 的份額,營收約 3.9 億美元,而阿里巴巴保持約 23% 的市場領先地位。字節跳動正在通過招聘銷售人員和降低價格策略積極擴張其雲業務,成為增長最快的挑戰者。公司依託其短影片平台抖音(TikTok)和今日頭條積累的海量資料和 AI 技術優勢,向企業客戶提供 AI 驅動的雲服務。字節跳動宣稱每日處理 30 兆 tokens,佔據 49.2% 的 token 消費份額,而阿里巴巴則以 334 億元人民幣的雲收入和更成熟的企業客戶基礎作為反擊。儘管雙方在 2025 年上半年的市場份額都略有下滑,但字節跳動的快速崛起仍對阿里巴巴長期主導的雲端運算市場構成威脅。Financial Times要點二:雲端運算市場競爭格局演變中國 AI 雲基礎設施競爭已進入白熱化階段,字節跳動和阿里巴巴成為最激進的競爭者。分析師指出,字節跳動在 AI 雲市場的挑戰對阿里巴巴構成顯著壓力,特別是在 AI 原生應用和新興企業客戶群體中。阿里巴巴雖然保持整體市場領先(約 35.8% 的 AI 雲市場份額,超過其後三家競爭對手的總和),但面臨增長放緩壓力。字節跳動的優勢在於其在消費網際網路領域積累的 AI 技術和演算法能力,以及願意提供更有競爭力的價格。市場研究機構預測,中國雲端運算市場規模將從 2025 年的 504.7 億美元增長至 2031 年的更大規模。這場競爭的背後是對未來 AI 經濟基礎設施控制權的爭奪:兩家公司都聲稱在中國 AI 領域處於領先地位,但採取不同的戰略路徑——阿里巴巴強調企業雲收入和成熟的商業模式,而字節跳動則突出技術處理能力和消費者應用經驗。此次雲業務擴張也被視為字節跳動多元化戰略的一部分,在面臨 TikTok 在海外監管壓力的背景下,拓展 B2B 企業服務市場。Financial TimesOpenAI 將於 2026 年下半年推出首款硬體裝置,無螢幕可穿戴形態要點一:產品時間表與形態特徵OpenAI 全球事務主管 Chris Lehane 於 2026 年 1 月 19 日在達沃斯 Axios House 活動中透露,公司"正按計畫"在 2026 年下半年推出首款硬體裝置。這一時間表與去年 5 月 CEO Sam Altman 收購前蘋果設計總監 Jony Ive 公司時的暗示一致,Ive 公司當時發佈的宣傳視訊中寫道"期待明年與您分享我們的作品"。根據多方報導,OpenAI 正在開發小型無螢幕裝置原型,可能是可穿戴形式,將通過互動方式與使用者溝通。Altman 此前表示該裝置將比智慧型手機更"平和",使用者會對其簡潔性感到震驚。Lehane 將"裝置"列為 OpenAI 2026 年的重要看點之一,但拒絕透露具體細節,包括是別針、耳機還是其他形態。他表示將在"今年晚些時候"分享消息,強調這是"最可能"的時間表,但"我們會看看事情如何進展"。Lehane 並未承諾裝置今年一定上市銷售,暗示發佈可能僅是產品展示而非正式商業化。Axios要點二:AI 硬體市場前景與競爭態勢儘管早期 AI 裝置如 Humane 的 AI Pin 基本失敗,但 2026 年預計將迎來眾多 AI 硬體新嘗試。高通 CEO Cristiano Amon 在同一活動中透露,目前每年約有 1000 萬台 AI 智能眼鏡出貨,預計今年或明年將增至 1 億台。他表示 AI 裝置將採取多種形式,包括帶攝影機的耳塞和珠寶,高通晶片將為大多數產品提供動力,但 AI 智能眼鏡可能是銷量最大的品類。關於 OpenAI 裝置是否使用高通晶片,Amon 較為謹慎地表示"我會說我們一直在與他們合作,所以我們對正在做的事情感到興奮,但他們會談論自己的裝置"。這暗示雙方可能存在某種合作關係。OpenAI 進軍硬體市場代表著從純軟體/API 提供商向垂直整合的戰略轉變,類似於蘋果的軟硬體一體化模式。與 Jony Ive 的合作更強化了這一願景,利用 Ive 在蘋果創造 iPhone、iPad 等革命性產品的經驗。然而,AI 硬體市場尚未找到真正的產品市場契合點,OpenAI 面臨的挑戰是如何創造出既有實用價值又能提供超越智慧型手機的獨特體驗的裝置。Axios字節跳動 AI 平台 Coze 發佈 2.0 版本,支援長期自主規劃與智能辦公要點一:核心功能升級與技術突破字節跳動旗下 AI Agent 開發平台 Coze(中文名"扣子")於 2026 年 1 月 19 日發佈 2.0 版本,實現從"AI 輔助工具"到"主動執行的 AI 工作夥伴"的重大升級。新版本具備三大核心能力:Agent Skills(技能封裝)、Agent Plan(長期規劃)和 Agent Office(智能辦公)。Agent Skills 功能允許將複雜工作流封裝為可呼叫的技能包,通過簡單的自然語言指令即可執行多步驟任務,例如一句話完成從資料收集到可視化的全流程。Agent Plan 實現了從"單次對話"到"長期服務"的跨越,使用者只需設定宏觀目標(如管理社交媒體帳戶),AI Agent 就能自主分解步驟、執行任務並持續最佳化,支援複雜目標的閉環管理和長期任務的自主執行。Agent Office 增強了深度上下文理解能力,可輔助生成報告、製作 PPT、梳理會議紀要等職場辦公場景,與 WPS、飛書等辦公軟體深度整合。扣子程式設計功能支援雲端協作開發,使用者可使用 Python、JavaScript 等語言編寫自訂邏輯。Readhub要點二:應用場景與市場定位扣子 2.0 主要應用於行銷文案、長期計畫管理、職場辦公等場景。歷經 700 多天迭代,扣子已積累上千萬使用者。此次升級通過"技能封裝"和"長期計畫"等功能,試圖解決 AI 在複雜工作流中執行力不足的問題。與初版相比,2.0 版本不再侷限於單純的對話互動,而是強調 AI Agent 的自主規劃和持續執行能力。例如在行銷場景中,Agent 可以持續監測市場趨勢、自動生成內容、最佳化投放策略;在項目管理中,可以跟蹤進度、協調資源、提醒風險。扣子 2.0 的發佈體現了字節跳動在企業級 AI 應用領域的戰略佈局,與其消費級 AI 產品(如豆包)形成互補。作為低程式碼甚至零程式碼的 AI Bot 開發平台,扣子降低了企業和開發者建構定製化 AI 智能體的門檻。這一戰略與微軟的 Copilot Studio、OpenAI 的 GPTs 等產品形成競爭,但扣子更強調"長期規劃"和"自主執行"能力,試圖在 AI Agent 市場中建立差異化優勢。平台支援可視化工作流、自主編排、自動規劃等多種智能體建構方式,並可分發到多個管道。ReadhubDeepSeek 新模型 MODEL1 程式碼曝光,預示新架構最快 2 月發佈要點一:MODEL1 程式碼細節與技術特徵DeepSeek 在 GitHub 上更新的 FlashMLA 程式碼庫中,橫跨 114 個檔案有 28 處提到了神秘的"MODEL1"識別碼,這被認為是下一代旗艦模型的開發代號。程式碼分析顯示,MODEL1 與現有的 V32(DeepSeek-V3.2)架構並列出現,暗示這是一個全新的模型架構。具體技術差異體現在 KV 快取佈局、稀疏性處理和 FP8 解碼等方面,顯示該模型在記憶體最佳化上進行了多處改進。MODEL1 可能整合了最佳化的殘差連接、Engram 記憶模組與 mHC 流形約束技術等創新。開發者推斷 MODEL1 很可能是 DeepSeek-V4 的內部開發代號或首個工程版本。此前《The Information》月初爆料稱,DeepSeek 將在 2026 年 2 月中旬農曆新年期間推出新一代旗艦 AI 模型 DeepSeek V4,將具備更強的寫程式碼能力。MODEL1 在開放原始碼中的意外現身,類似於 DeepSeek 發佈前的慣例,增加了 2 月發佈的可能性。IT之家要點二:發佈時機與市場影響DeepSeek-R1 發佈剛滿一周年之際,MODEL1 的曝光引發行業高度關注。如果按照預期在 2026 年 2 月發佈,DeepSeek V4 將成為中國 AI 公司在農曆新年期間推出的重磅產品。DeepSeek 以低成本高效能著稱,其 R1 模型曾在 2025 年引發全球關注(儘管 DeepMind CEO 認為反應"過度")。新模型如果在程式碼能力上實現顯著提升,將進一步鞏固 DeepSeek 在開源 AI 領域的地位,並加劇與 OpenAI、Anthropic 等西方公司的競爭。MODEL1 程式碼中對記憶體最佳化、稀疏性處理等方面的改進,暗示 DeepSeek 繼續追求"用更少資源實現更強性能"的技術路線,這對受美國晶片出口限制的中國 AI 公司尤為重要。不少行業分析人士認為,MODEL1 在開放原始碼中的提前曝光可能是 DeepSeek 的一種預熱策略,類似其以往的發佈模式。如果 DeepSeek V4 如期在 2 月發佈並展現顯著進步,將對全球 AI 市場格局產生重要影響,特別是在程式碼生成和開發者工具領域。這也將考驗 Demis Hassabis"中國落後六個月"論斷的精準性。IT之家香港 IPO 市場強勁開局:新能源、AI、電動車和生物科技驅動增長要點一:2026 年開局表現與融資資料根據香港交易所(HKEX)CEO 陳穎婷(Bonnie Chan)在 2026 年 1 月達沃斯世界經濟論壇前夕發表的文章,2026 年前三周已有 11 家公司在香港上市,融資近 40 億美元。目前有 50 份新上市申請提交,超過 300 家公司正在排隊等待上市批准。這延續了 2025 年的強勁勢頭:2025 年共有 114 家公司在主機板上市,融資 372.2 億美元,同比增長 230%,推動香港重回自 2019 年以來全球最大 IPO 市場的位置。寧德時代的 53 億美元 IPO 是 2025 年香港最大的上市項目。陳穎婷表示,新能源、人工智慧、電動汽車和生物技術公司將繼續成為未來幾年香港 IPO 市場的驅動力。她寫道:"過去一年,數十家綠色能源、自動化和其他領域的新公司在香港上市,使它們能夠擴大研究規模和全球影響力。"South China Morning Post要點二:市場前景與戰略定位陳穎婷強調 HKEX 的角色是"幫助更快地翻開這個故事的篇章,使更清潔的能源、變革性的醫療保健和更高的生活水平從承諾走向實踐"。她表示,從上市申請管道來看,她的樂觀情緒得到了"穩定流動的變革性創意"的支援,"下一章進步正由這些富有遠見的公司、他們大膽的創意以及賦能它們的市場書寫"。香港 IPO 市場的復甦得益於多重因素:中國經濟復甦預期、科技和新能源行業的強勁增長、以及香港作為連接中國內地與國際資本市場橋樑的獨特地位。特別是在 AI、電動車和生物科技等高增長領域,許多中國公司選擇香港作為上市地,以獲得國際投資者的認可和資金支援。陳穎婷的表態反映了 HKEX 對 2026 年市場的信心,預計科技創新類企業將繼續主導香港資本市場。這一趨勢與中國政府推動"新質生產力"、支援科技創新和綠色轉型的政策方向高度一致,香港正在鞏固其作為亞洲科技企業首選上市地的地位。South China Morning Post (AI Daily Insights)

DeepSeek R1 發佈一周年，不卷功能、不融資、不著急，硬控了科技世界

「伺服器繁忙，請稍後再試。」一年前，我也是被這句話硬控的使用者之一。DeepSeek 帶著 R1 在一年前的昨天（2025.1.20）橫空出世，一出場就吸引了全球的目光。那時候為了能順暢用上 DeepSeek，我翻遍了自部署教學，也下載過不少號稱「XX - DeepSeek 滿血版」的各類應用。一年後，說實話，我打開 DeepSeek 的頻率少了很多。豆包能搜尋、能生圖，千問接入了淘寶和高德，元寶有即時語音對話和微信公眾號的內容生態；更不用說海外的 ChatGPT、Gemini 等 SOTA 模型產品。當這些全能 AI 助手把功能列表越拉越長時，我也很現實地問自己：「有更方便的，為什麼還要守著 DeepSeek？」於是，DeepSeek 在我的手機裡從第一屏掉到了第二屏，從每天必開變成了偶爾想起。看一眼 App Store 的排行榜，這種「變心」又似乎不是我一個人的錯覺。免費應用下載榜的前三名，已經被國產網際網路大廠的「御三家」包攬，而曾經霸榜的 DeepSeek，已經悄悄來到了第七名。在一眾恨不得把全能、多模態、AI 搜尋寫在臉上的競品裡，DeepSeek 顯得格格不入，51.7 MB 的極簡安裝包，不追熱點，不卷宣發，甚至連視覺推理和多模態功能都還沒上。但這正是最有意思的地方。表面上看，它似乎真的「掉隊」了，但實際是 DeepSeek 相關的模型呼叫仍是多數平台的首選。而當我試圖總結 DeepSeek 過去這一年的動作，把視線從這個單一的下載榜單移開，去看全球的 AI 發展，瞭解為什麼它如此地不慌不忙，以及即將發佈的 V4，又準備給這個行業帶來什麼新的震動；我發現這個「第七名」對 DeepSeek 來說毫無含金量，它一直是那個讓巨頭們真正睡不著覺的「幽靈」。掉隊？DeepSeek 有自己的節奏當全球的 AI 巨頭都在被資本裹挾著，通過商業化來換取利潤時，DeepSeek 活得像是一個唯一的自由球員。看看它的競爭對手們，無論是國內剛剛港股上市的智譜和 MiniMax，還是國外瘋狂捲投資的 OpenAI 和 Anthropic。為了維持昂貴的算力競賽，就連馬斯克都無法拒絕資本的誘惑，前幾天剛剛才為 xAI 融了 200 億美元。但 DeepSeek 至今保持著「零外部融資」的紀錄。年度私募百強榜，按照公司平均收益排名，幻方量化位於第七名，百億以上規模排名第二｜圖片來源：https://www.simuwang.com/news/285109.html在這個所有人都急著變現、急著向投資人交作業的時代，DeepSeek 之所以敢掉隊，是因為它背後站著一台超級「印鈔機」，幻方量化。作為 DeepSeek 的母公司，這家量化基金在去年實現了超高的 53% 回報率，利潤超過 7 億美元（約合人民幣 50 億元）。梁文鋒直接用這筆老錢，來供養「DeepSeek AGI」的新夢。這種模式，也讓 DeepSeek 極其奢侈地擁有了對金錢的掌控權。沒有資方的指手畫腳。沒有大公司病，許多拿了巨額融資的實驗室，陷入了紙面富貴的虛榮和內耗，就像最近頻頻爆出有員工離職的 Thinking Machine Lab；還有小扎的 Meta AI 實驗室各種緋聞。只對技術負責，因為沒有外部估值壓力，DeepSeek 不需要為了財報好看而急於推出全能 App，也不需要為了迎合市場熱點去捲多模態。它只需要對技術負責，而不是對財務報表負責。App Store 的下載量排名，對於一家需要向 VC 證明「日活增長」的創業公司來說是命門。但對於一家只對 AI 發展負責、不僅不缺錢還不想被錢通過 KPI 控制的實驗室來說，這些有關市場的排名掉隊，或許正是它得以保持專注、免受外界噪音干擾的最佳保護色。更何況，根據 QuestMobile 的報告，DeepSeek 的影響力完全沒有「掉隊」改變生活，也影響了世界 AI 軍備競賽即便 DeepSeek 可能根本不在意，我們是否已經選擇了其他更好用的 AI 應用，但它過去這一年帶來的影響，可以說各行各業都沒有錯過。矽谷的「DeepSeek 震撼」最開始的 DeepSeek，不僅僅是一個好用的工具，更像是一個風向標，用一種極其高效且低成本的方式，打碎了矽谷巨頭們精心編織的高門檻神話。圖片來源：https://openaiglobalaffairs.substack.com/p/deepseek-at-1如果說一年前的 AI 競賽是比誰的顯示卡多、誰的模型參數大，那麼 DeepSeek 的出現，硬生生把這場競賽的規則改寫了。在 OpenAI 及其內部團隊（The Prompt）的最近發佈總結回顧中，他們不得不承認，DeepSeek R1 的發佈在當時給 AI 競賽帶來了「極大的震動（jolted）」，甚至被形容為一場「地震級的衝擊（seismic shock）」。DeepSeek 一直在用實際行動證明，頂尖的模型能力，不需要天價的算力堆砌。根據 ICIS 情報服務公司最近的分析，DeepSeek 的崛起徹底打破了算力決定論。它向世界展示了，即使在晶片受到限制、成本極其有限的情況下，依然可以訓練出性能比肩美國頂尖系統的模型。AI 競賽正在演變成一場漫長的馬拉松｜圖片來源：https://www.icis.com/asian-chemical-connections/2026/01/a-year-on-from-deepseek-us-versus-china-in-the-ai-race/這直接導致了全球 AI 競賽從「造出最聰明的模型」，轉向了「誰能把模型做得更高效、更便宜、更易於部署」。微軟報告裡的「另類」增長當矽谷巨頭們還在爭奪付費訂閱使用者時，DeepSeek 也開始在被巨頭遺忘的地方紮根。在微軟上周發佈的《2025 全球 AI 普及報告》中，DeepSeek 的崛起被列為 2025 年「最意想不到的發展之一」。報告揭示了一個有意思的資料：非洲使用率高：因為 DeepSeek 的免費策略和開源屬性，消除了昂貴的訂閱費和信用卡門檻。它在非洲的使用率是其他地區的 2 到 4 倍。佔領受限市場：在那些美國科技巨頭難以觸達或服務受限的地區，DeepSeek 幾乎成了唯一的選擇。資料顯示，它國內的市場份額高達 89%，在白俄羅斯達到 56%，在古巴也有 49%。微軟在報告裡也不得不承認，DeepSeek 的成功更加確定了，AI 的普及不僅取決於模型有多強，更取決於誰能用得起。全球南方地區 AI 普及的程度還有很大的提升空間｜https://www.microsoft.com/en-us/corporate-responsibility/topics/ai-economy-institute/reports/global-ai-adoption-2025/下一個十億級 AI 使用者，可能不會來自傳統的科技中心，而是來自 DeepSeek 覆蓋的這些地區。歐洲：我們也要做 DeepSeek不僅是矽谷，DeepSeek 的影響跨越了整個地球，歐洲也不例外。歐洲一直是被動地使用美國的 AI，雖然也有自己的模型 Mistral，但一直不溫不火。DeepSeek 的成功讓歐洲人看到了一條新路，既然一家資源有限的中國實驗室能做到，歐洲為什麼不行？據連線雜誌最近的一篇報導，歐洲科技界正在掀起一場「打造歐洲版 DeepSeek」的競賽。不少來自歐洲的開發者，開始打造開源大模型，其中一個叫 SOOFI 的歐洲開放原始碼專案更是明確表示，「我們將成為歐洲的 DeepSeek。」DeepSeek 過去這一年的影響，也加劇了歐洲對於「AI 主權」的焦慮。他們開始意識到，過度依賴美國的閉源模型是一種風險，而 DeepSeek 這種高效、開放原始碼的模式，正是他們需要的參照。關於 V4，有這些資訊值得關注影響還在繼續，如果說一年前的 R1 是 DeepSeek 給 AI 行業的一次示範，那麼即將到來的 V4，會不會又是一次反常識的操作。根據前段時間零零散散的爆料，和最近公開的技術論文，我們梳理了關於 V4 最值得關注的幾個個核心訊號。1. 新模型 MODEL1 曝光在 DeepSeek-R1 發佈一周年之際，官方 GitHub 程式碼庫意外曝光了代號為「MODEL1」的全新模型線索。在程式碼邏輯結構中，「MODEL1」是作為與「V32」（即 DeepSeek-V3.2）並列的獨立分支出現的，這一細節意味著「MODEL1」並不共享 V3 系列的參數配置或基礎架構，而是一個全新的、獨立的技術路徑。結合之前的爆料和洩露的程式碼片段，我們梳理了「MODEL1」可能存在的技術特徵：程式碼顯示其採用了與現行模型完全不同的 KV Cache 佈局策略，並在稀疏性（Sparsity）處理上引入了新機制。在 FP8 解碼路徑上有多處針對性的記憶體最佳化調整，預示著新模型在推理效率和視訊記憶體佔用上可能有更好的表現。此前爆料稱，V4 的程式碼表現已超越 Claude 和 GPT 系列，並且具備處理複雜項目架構和大規模程式碼庫的工程化能力。業界普遍推測，DeepSeek 近期發表的兩篇重磅論文——關於最佳化殘差連結的「mHC」以及 AI 記憶模組「Engram」，極有可能被整合進「MODEL1」的架構中，從而解決長上下文記憶和計算效率的核心痛點。此前有傳聞稱，DeepSeek 計畫在 2 月中旬（春節前後）發佈下一代旗艦模型 V4。此次 GitHub 程式碼的提前部署，在時間線上與該傳聞高度吻合。如果屬實，這將是繼 R1 之後，DeepSeek 推出的第二個重要模型。值得一提的是，全球最大的 AI 開源社區 Hugging Face 最近也專門發文復盤了 R1 發佈這一年的影響，核心觀點就是「中國 AI 真的站起來了」。他們認為 R1 的出現是個分水嶺，證明了那怕算力受限，靠開源也能實現技術上的彎道超車，讓中國 AI 產業從封閉走向了開源爆發。在他們看來，R1 的真正價值在於降低了門檻：技術上：公開推理細節，讓高級能力可復用。 ·應用上：寬鬆協議（MIT）讓模型迅速融入商業落地。心理上：建立了中國 AI 從「追隨」到「引領」的自信。 2025 年，中國開源模型的下載量在全球都佔據了主導地位，不僅國內的大廠和創業公司都在全面擁抱開源，甚至國外現在很多所謂的新模型，實際上都建立在中國開源模型的基礎之上。附上部落格地址：https://huggingface.co/blog/huggingface/one-year-since-the-deepseek-moment2. 復刻「春節突襲」DeepSeek 似乎偏愛在農曆新年這個時間節點搞事情。有消息透露，DeepSeek 計畫在 2 月中旬（農曆新年前後）發佈新一代旗艦模型 V4。去年的 R1 也是在這個時間節點發佈，隨後在春節假期引爆了全球關注。不得不說，這種時機選擇避開了歐美科技圈的常規發佈擁堵期，還充分用到了長假期間使用者的嘗鮮心理，確實能為病毒式的傳播埋下種子。3. 核心能力是卷程式碼和超長上下文在通用對話已經趨於同質化的今天，V4 選擇了一個更硬核的突破口：生產力等級的程式碼能力。據接近 DeepSeek 的人士透露，V4 並沒有止步於 V3.2 在基準測試上的優異表現，而是在內部測試中，讓其程式碼生成和處理能力，直接超越了 Anthropic 的 Claude 和 OpenAI 的 GPT 系列。更關鍵的是，V4 試圖解決當前程式設計 AI 的一大痛點：「超長程式碼提示詞」的處理。這意味著 V4 不再只是一個幫我們寫兩行指令碼的助手，它試圖具備理解複雜軟體項目、處理大規模程式碼庫的能力。為了實現這一點，V4 也改進了訓練流程，確保模型在處理海量資料模式時，不會隨著訓練深入而出現「退化」。4. 關鍵技術：Engram比起 V4 模型本身，更值得關注的是 DeepSeek 在上周聯合北京大學團隊發表的一篇重磅論文。這篇論文揭示了 DeepSeek 能夠在算力受限下持續突圍的真正底牌，是一項名為「Engram（印跡/條件記憶）」的新技術。HBM（高頻寬記憶體）是全球 AI 算力競爭的關鍵領域之一，當對手都在瘋狂囤積 H100 顯示卡來堆記憶體時，DeepSeek 再次走了一條不尋常的路。計算與記憶解耦：現有的模型為了獲取基本資訊，往往需要消耗大量昂貴的計算力來進行檢索。Engram 技術能讓模型高效地查閱這些資訊，而不需要每次都浪費算力去計算。省下來的寶貴算力，被專門用於處理更複雜的高層推理。研究人員稱，這種技術可以繞過視訊記憶體限制，支援模型進行激進的參數擴張，模型的參數規模可能進一步擴大。在顯示卡資源日趨緊張的背景下，DeepSeek 的這篇論文好像也在說，他們從未把希望完全寄託在硬體的堆砌上。DeepSeek 這一年的進化，本質上是在用反常識的方式，解決 AI 行業的常識性難題。它一年進帳 50 億，能夠用來訓練出上千個 DeepSeek R1，卻沒有一味卷算力，卷顯示卡，也沒有傳出要上市，要融資的消息，反而開始去研究怎麼用便宜記憶體替代昂貴的 HBM。過去一年，它幾乎是完全放棄了全能模型的流量，在所有模型廠商，每月一大更，每周一小更的背景下，專注推理模型，一次又一次完善之前的推理模型論文。這些選擇，在短期看都是「錯的」。不融資，怎麼跟 OpenAI 拼資源？不做多模態的全能應用，生圖生視訊，怎麼留住使用者？規模定律還沒失效，不堆算力，怎麼做出最強模型？但如果把時間線拉長，這些「錯的」選擇，可能正在為 DeepSeek 的 V4 和 R2 鋪路。這就是DeepSeek的底色，在所有人都在卷資源的時候，它在卷效率；在所有人都在追逐商業化的時候，它在追逐技術極限。V4 會不會繼續這條路？還是會向「常識」妥協？答案或許就在接下來的幾周。但至少現在我們知道，在 AI 這個行業裡，反常識，有時候才是最大的常識。下一次，還是 DeepSeek 時刻。 (愛范兒)

揭秘楊植麟，技術理想主義的孤島還是燈塔

很多個“楊植麟”，組成了月之暗面。圖片來源｜視覺中國“在月之暗面（以下簡稱‘月暗’），天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是，“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”，技術大佬之間溝通直率，也充滿壓力。他們“坦白、激烈、高效”，會當面批評同事，也會把建議無情斃掉。交鋒中，“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後，一切又能像沒發生過。但他認為在月暗“別人‘噴’你，都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高，“大廠裡三五十人團隊干的事，在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”，但月暗仍有獨樹一幟的氣質。“（他們）文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底，楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司，被推到風口浪尖。2025年初，月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年，月暗一度淡出公眾視野，Kimi的C端月活也不斷下滑。據QuestMobile資料，截至2025年9月，豆包MAU突破1.72億，DeepSeek為1.45億，Kimi的MAU僅為967萬。但到7月，Kimi-K2模型的推出，讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔，更在各類基準性能測試上拿下SOTA成績。9月開始直到11月，Kimi又相繼發佈Agent模式“OK Computer”；混合線性注意力架構Kimi Linear；月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性，獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示，已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成？上半年，“大模型六小虎”的核心團隊發生不同程度的動盪，但月暗的聯創與技術梯隊整體穩定。雖然叫停投流，選擇在“模型即產品”上孤注一擲，讓月暗增加了商業化未知數；但在投資人眼中，楊植麟對AGI的偏執，仍讓其成為被追逐的標的。近日媒體獲悉，月之暗面正在進行新一輪融資，規模大約在6億美元，投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金，但在算力、人才消耗上，每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少，大家都在收斂，技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義，對衝擊AGI更加堅定。雖然他們有過商業化的波折，仍然是很稀缺的資產。”01 聚焦絕對性能回頭看，DeepSeek-R1的上線，既給月暗帶去了壓力，也是其重新聚焦技術長板的分水嶺——R1上線前，Kimi還沉浸在投流大法中。據《中國企業家》瞭解，Kimi的投流由張予彤主導，員工將她形容為精力極其旺盛，好像“永動機”。2024年10月、11月，Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包，向Kimi封鎖管道。Kimi只好猛攻B站，把CPA（使用者轉化人均成本）報價從年初的30元拉到了50元。“那時網際網路流量越來越貴，Kimi有趁著品牌紅利期，佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷，便成為國民應用的表現，讓楊植麟警醒。2025年2月中旬，他親自叫停投放，將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈，路線也跟DeepSeek的強化學習一致，但被R1意外“截胡”後，楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅，月暗用連續發佈一系列模型和突破技術，重回大模型牌桌。2025年7月11日，月暗發佈Kimi-K2“超大架構”模型，參數高達1T。目前，全球有實力研發1T參數的大模型公司屈指可數：除了海外的OpenAI、Google，僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T，達到了兆參數。9月底，月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日，月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破，該架構對算力成本實現了極大程度的降低，並能在短上下文、長上下文、強化學習擴展機制等場景中，超越同梯隊全注意力機制模型的表現。簡而言之，能讓使用者“花小錢，辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示：MiniMax的M2模型或由於對“多跳推理”的測試不足，又退回了全注意力機制。而月暗完成了突破，核心在於對線性注意力模組Kimi Delta Attention（KDA）的設計，在每3層KDA中，插入1層全注意力層；並通過更細粒度的門控機制，更有效地利用了有限狀態下的RNN（循環神經網路）記憶體。從而確保性能不掉點的情況下，最大程度節省算力。相比月暗，DeepSeek採用的是“稀疏注意力機制”。近期，DeepSeek也為行業提供了一種新思路——OCR路線研究（純像素輸入模型），把文字渲染成圖片，用視覺模態當壓縮媒介。有趣的是，月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間（Feature Space）裡下功夫，去找到更通用，並且與具體模態無關（Modality-agnostic）的方法，來提升模型效率。”11月11日，月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答（AMA）活動上，如此評價DeepSeek。11月6日，月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入，該模型訓練成本據傳僅為460萬美元。在技術層面，Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”，對MoE元件應用進行INT4權重量化，而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外，對推理硬體的相容性更強，對輝達低端GPU和國產加速計算晶片，也更加友好。雖然對460萬美元這個數字，楊植麟和兩位聯合創始人都下場闢謠：訓練成本很難量化，其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化，是顯而易見的。月暗表示：該模型是在有限數量的H800 GPU上訓練而來，他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平，且持續發佈，價格又足夠便宜，已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年，月暗為何可以衝出重圍？這由模型行業的人才特性決定。“這是個高精尖科技領域，堆人是沒有用的。沒有一個天才帶隊，來多少高級人才都沒用。”今年6月，Meta在矽谷開出了“1億美元”年薪，瘋狂挖角OpenAI的員工。但短短幾個月，被挖走的人又紛紛離開Meta，讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人，但多數都是做輔助工作。核心團隊就44個人，真正能主導技術路線的，應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同，人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家，越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承，在模型公司的人才招攬中變得格外重要。對月暗來說，最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系，獲得卡內基梅隆大學電腦博士學位，師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間，楊植麟便是一位學術風雲人物，拿遍了國內外各類獎項。他後來也曾在清華任職講師，“楊（植麟）老師的《自然語言處理（NLP）》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外，楊植麟對AGI的追求，也被視為“追求技術理想”的代表。“他非常有號召力，如果覺得清華某個實驗室的研究課題好，會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集，讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊，每人只說幾句話，大家就散了。”當然，簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外，底層基座、前後期資料的每一個環節，如果誰掉了鏈子，會很明確地感覺出來，一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化，已經開始有商業化、增長，乃至官僚的幾種文化混雜，但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”，有相當的容忍度。例如，Kimi的關鍵人物之一蘇劍林，在內部被稱為“蘇神”。他提出的RoPE（旋轉位置編碼），以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題，既保持了計算效率，又實現了更好的外推能力，如今已是絕大多數大語言模型的標配技術之一。因此，“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”，月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等，由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於，楊植麟並不是個“書呆子”。他在清華讀書期間，便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室，也以各種知名樂隊命名。創始人的趣味投射到產品中，也讓Kimi與市場的效率產品相比，更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為，K2的產品頁面設計極簡，“國內大模型廠商開始在頁面加入推薦產品，但K2仍然克制。”對於競爭對手，月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述，面試問題之一是：“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時，月暗的觀點與海拉魯的判斷一樣：“在程式設計能力上，Claude是一個很懂技術的產品經理，但Codex是一個真正的軟體工程師。”有使用者表示，K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥？”K2 Thinking會有理有據地，將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格，是月暗團隊刻意設計。為此，團隊在預訓練階段編碼了先驗知識（Priors），又在後訓練（Post-training）階段為其增添了獨特的“風味”（Flavor）。為了確保K2的智能“上限”，月暗在大模型追求效率之時，也反其道行之。許多使用者反映：K2-Thinking思考很慢，有時比同類產品甚至要慢5～10倍。月暗對此解釋：目前版本優先確保性能和精準性，在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑，犧牲了些速度，是為了讓模型能真正完成複雜推理。”雖然未來，團隊有可能會最佳化“令牌效率”（token-efficiency），讓 Kimi “想得少一點，答得快一點”。03 商業化仍是難題“往山頂，我們又走了一段距離。”K2發佈後，楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”，MiniMax和階躍星辰抓緊多模態；智譜紮根本土，走to B/to G的路線；百川智能和零一萬物減少了基礎模型迭代，專注於場景落地。越來越多公司放棄了對基座模型的追求，行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中，競爭卻沒有變得更容易。攀登技術高峰的同時，更殘酷的商業化命題擺在眼前。如何活下去，楊植麟也在尋找答案。2024年月暗投流掀起軒然大波，也證明楊植麟並非不問世事的天真極客。2024年6月，月暗決定：要用巨量投入，快速獲得市場，佔領使用者心智。據《中國企業家》瞭解，彼時月暗覆蓋了大量管道，“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下，月暗在2024年9月前後，使用量明顯領先對手。同時，公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”，讓楊植麟蒙受了巨額損失。到2024年12月，月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫，與更優質的機構和個人合作。但彼時，朱嘯虎對月暗發起訴訟，將計畫打斷。今年2月，DeepSeek-R1上線後，讓月暗痛下決心，砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁，負責增長開發，“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後，月暗更聚焦在極客群體中的影響力。據悉，K2模型發佈時，月暗未如過去一般高頻直播，而是選擇更多在社區營運，讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著，月暗破解了商業化難題。一方面，Kimi模型龐大，固然架構創新、技術最佳化可以降低部署成本，但客戶的儲存、傳輸成本仍然不低。另一方面，放棄投流後，Kimi的C端量級還在與大廠拉開距離。2025年9月，Kimi開啟了會員付費訂閱，將Kimi-reseahcher、OK Computer等能力打包分層，設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為，Kimi按照請求次數來計費的方法顯得“性價比不高”。對此，月暗回應：這符合他們的後端成本結構，也表示將考慮改進（比如按提問或按字數計費）。與大廠纏鬥，畢竟是一場非對稱戰爭，“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資，估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資，估值達到300億元。月暗融資後，是否將發起IPO計畫，楊植麟還有一些時間思考。當下，他的做法是，先用技術突破獲得資本市場認可，同時繼續向AGI行進。目前，月暗已經在思考用“模型訓模型”的可行性。8月，楊植麟在採訪中談到，希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態？月暗給出的答案是：公司已在研究K2的VL（視覺-語言）版本。 (中國企業家雜誌)

AI自己學會思考！DeepSeek-R1震撼全球

深夜刷屏，被DeepSeek-R1的消息炸醒了嗎？😱 這傢伙簡直顛覆了我們對AI的認知！想像一下：沒有人教它怎麼思考，它自己就學會了反思、驗證、甚至自我糾錯！就像一個天才少年，從懵懂無知到數學奧賽冠軍，只用了幾千個訓練步驟！💡更震撼的是什麼？在美國數學邀請賽（AIME）上，DeepSeek-R1從15.6%的精準率飆升到77.9%，直接碾壓人類平均水平！這可是連數學博士都頭疼的題目啊！"等等，我想再驗證一下這個答案…" 這是DeepSeek-R1在訓練過程中突然冒出的一句話，科學家們稱之為"頓悟時刻"。從這一刻起，它學會了質疑自己，學會了深度思考！🤯更牛的是，它完全是通過強化學習自己摸索出來的！沒有標準答案範本，沒有人類示範，純粹靠"做題-反饋-改進"的循環，就像我們小時候做數學題一樣！現在，DeepSeek-R1不僅在數學競賽中稱霸，程式設計比賽、物理化學難題都不在話下。矽谷大佬們都在熬夜研究，這波AI突破到底意味著什麼？最關鍵的是，它還開源了！這意味著每個開發者都能用上這個"會思考的AI大腦"！想想看，當AI真正學會獨立思考，我們的工作、學習、生活會發生怎樣的變化？你覺得會思考的AI會帶來什麼改變？🔥 (澤問科技)

DeepSeek登上Nature封面！梁文鋒帶隊回應質疑，R1訓練真29.4萬美金

DeepSeek榮登Nature封面，實至名歸！今年1月，梁文鋒帶隊R1新作，開創了AI推理新範式——純粹RL就能激發LLM無限推理能力。Nature還特發一篇評論文章，對其大加讚賞。剛剛，DeepSeek-R1登上了Nature封面！今年1月，DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發佈，如今成功登上全球頂刊封面。通訊作者梁文鋒帶隊，用RL為大模型推理能力開闢了全新路徑。論文地址：https://www.nature.com/articles/s41586-025-09422-z在封面推薦中，Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。開源之後，R1在Hugging Face成為最受歡迎的模型，下載量破1090萬次。關鍵是，它是全球首個經過同行評審的主流大模型。值得一的是，補充材料首次公開了R1訓練成本——294000美元，數字低到驚人。即便是加上約600萬美元的基礎模型成本，也遠低於OpenAI、Google訓練AI的成本。從一篇arXiv論文到Nature封面，DeepSeek團隊再次用實力為AI推理的未來鋪路。R1被認為是首個經歷同行評審過程的主流LLM。審稿人Lewis Tunstall表示：這是一個非常值得歡迎的先例。若不公開分享大部分研發過程，我們將難以評估這些系統是否存在風險。針對同行評審意見，DeepSeek減少了擬人化描述，並增加了技術細節說明，包括模型訓練資料類型和安全性能。審稿人Huan Sun表示：通過嚴格同行評審過程，有助於驗證模型的有效性和實用性，其他公司也應效仿。DeepSeek-R1-Zero誕生研究團隊的出發點大膽而純粹：徹底拋開對人類推理軌跡的依賴。人類定義的推理模式，可能反而是一種束縛。他們選擇了一個強大的基礎模型DeepSeek-V3 Base，跳過了傳統的SFT階段。取而代之的，是一個極其簡潔的強化學習框架，只告訴模型兩件事：1. 任務格式：回答必須包含兩部分，一個是被<think>標籤包裹的「思考過程」，另一個是被<answer>標籤包裹的「最終答案」。2. 獎勵訊號：根據最終答案是否正確來給予獎勵，不管採用什麼樣的思考方法。在沒有解題步驟的對錯評判，沒有思維方式的引導下，DeepSeek-R1-Zero開始了它的「野蠻生長」。在整個訓練過程中，R1-Zero的推理能力發生了質的飛躍。以AIME 2024為例，它的平均解題精準率（pass@1）從最初的15.6%，一路狂飆至77.9%。如果再配合「自洽解碼」技術，精準率更是高達86.7%——這一成績遠超AIME競賽中所有人類選手的平均水平。AI「頓悟時刻」更令人著迷的，是它在能力提升過程中展現出的自我進化行為。「思考時間」自主增加隨著訓練的進行，模型在<think>標籤內生成的文字長度穩步增加。它自發地學會了用更長的「思維鏈」來探索和最佳化解題策略，有時甚至會生成成百上千個token來反覆推敲一個問題。高級推理策略的湧現模型不再是線性地一步步解題，而是開始展現出「自我反思」和「系統性探索替代解法」等高級策略。它會驗證自己的中間步驟，甚至會主動探索「如果我用另一種方法會怎麼樣？」一個有趣「頓悟時刻」在訓練的某個階段，研究人員觀察到了一個清晰的「頓悟時刻」（Aha Moment）。也就是，模型在反思過程中，使用「wait」（等等）這個詞的頻率突然急劇增加。這一時刻，標誌著DeepSeek-R1-Zero在推理模式上發生了明顯轉變，清晰地揭示了它的自我進化過程。而這種進化，也完美詮釋了強化學習的魅力：不必教它如何解題，只需提供正確的激勵，它就能自主地發展出比人類教的更高級的策略。DeepSeek-R1之路儘管DeepSeek-R1-Zero展現了神級的推理能力，但由於其訓練完全以推理為導向，它存在可讀性差、偶爾會在中英文之間混亂切換的問題，並且在寫作、開放域問答等通用能力上表現平平。為瞭解決R1-Zero的問題，並讓其強大的推理能力能被更廣泛地應用，研究團隊設計了一套精密的多階段訓練流程，並啟動了第二階段的「精煉」計畫：1. 冷啟動（Cold Start）：首先，用數千條高品質的、符合人類對話習慣的資料對模型進行初步微調，教它「好好說話」。2. 第一輪強化學習（RL）：再次應用強化學習，但這次的目標不僅是提升推理，也包括保持語言的一致性和對話的流暢性。3. 大規模監督微調（SFT）：團隊將推理資料與海量的非推理資料（如寫作、通用問答、程式碼工程）混合在一起，進行大規模的監督微調。這極大地擴展了模型的知識面和通用能力。4. 第二輪強化學習（RL）：最後，再進行一輪全面的強化學習，利用一個更複雜的獎勵模型，進一步增強模型的有用性、無害性，並使其行為與人類偏好對齊。經過多輪煉丹，DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和使用者偏好的基準上，性能提升了17%-25%，而且還在數學、程式設計等高難度推理任務上保持了頂尖水準。揭秘DeepSeek-R1「煉丹爐」接下來，就讓我們深入這個「煉丹爐」的內部，一探究竟。GRPO演算法在AI訓練的賽道上，強化學習演算法PPO（近端策略最佳化）長期以來都是大語言模型訓練的「標配賽車」。它雖然強大，但也以資源消耗巨大和實現複雜而著稱。DeepSeek團隊選擇了一條更聰明的路，他們採用了GRPO（組相對策略最佳化）演算法作為核心驅動引擎。PPO就像一位極其謹慎的教練，它在每次訓練更新時，都會嚴格限制新策略與舊策略的偏離程度，以防模型「跑偏」導致訓練崩潰。這種謹慎是有代價的，它需要大量的計算來維持穩定。而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是：在每次訓練時，讓模型針對同一個問題，生成一組（比如16個）不同的答案。然後，它不只是簡單地獎勵最好的那個，而是根據這一組答案的「相對好壞」，來整體最佳化模型。具體來說，它會計算出每個答案相對於這一組答案平均水平的「優勢」（Advantage），優勢大的（即表現更好的）答案會得到更大的激勵權重，而表現差的則會被抑制。這種「組內競爭、擇優而學」的機制，簡化了PPO複雜的約束過程，不僅顯著降低了資源消耗，還被證明在實踐中同樣穩定高效。獎勵設計強化學習的本質，就是通過獎勵（Reward）來塑造模型的行為。它決定了模型將朝著那個方向進化。為此，DeepSeek團隊設計了一套雙軌制的獎勵系統。1. 基於規則的獎勵對於推理任務（數學、程式設計、邏輯），團隊採用了一套極其嚴格的基於規則的獎勵系統。精準率獎勵：最終答案對不對？對於數學題，答案必須和標準答案完全一致；對於程式設計題，程式碼必須通過所有預設的測試用例。格式獎勵：思考過程是否符合規範？所有的思考過程都必須封裝在<think>和</think>標籤內。這裡，有一個關鍵的決定：在推理任務上，完全不使用基於神經網路的獎勵模型。因為團隊發現，AI在長時間、大規模的強化學習中，會找到獎勵模型本身的漏洞並加以利用，即所謂的「獎勵投機（Reward Hacking）」。2. 基於模型的獎勵然而，世界並非非黑即白。對於通用任務比如寫作、對話，大多隻有好壞之分。於是，DeepSeek團隊引入了基於模型的獎勵，從而讓模型更符合人類的偏好。有用性獎勵模型：專門負責評判模型的回答對使用者是否有用、切題。它通過比較大量的「好答案」與「壞答案」對（由DeepSeek-V3生成並篩選）來學習人類的偏好。有趣的是，它只評估最終的摘要部分，而不去幹涉底層的推理過程，給予模型在思考上的充分自由。安全獎勵模型：負責檢查模型的全部輸出，包括思考過程，以識別和懲罰任何潛在的有害、偏見或危險內容。如此一來，模型在保持強大推理能力的同時，也學會了如何生成更有用、更安全、更符合人類習慣的內容。訓練細節DeepSeek的訓練並非一蹴而就，而是分為多個精心設計的階段，每個階段都有不同的側重點和巧妙的參數調整。最開始的訓練完全聚焦於數學、程式設計等推理任務，僅使用基於規則的獎勵。一個有趣的現象發生在訓練進行到第8,200步時：研究人員將模型處理的最大文字長度從32,768個Token猛增到65,536個Token。這一改變帶來了立竿見影的效果，模型的性能和回答長度都出現了「大幅躍升」。其他參數設定如下：學習率：3×10⁻⁶KL散度係數：0.001GRPO裁剪比率ϵ：10推理採樣溫度：1每個訓練步包含32個獨立問題，每步的批大小為512。每400步，用最新的策略模型替換參考模型。第一強化學習階段在這一階段，訓練資料變得更加多樣化。團隊遇到了一個意想不到的挑戰：模型的「思維鏈」（<think>標籤內的內容）中頻繁出現中英夾雜的「語言混合」現象。雖然這不一定影響最終答案的正確性，但極大地影響了可讀性。為瞭解決這個問題，他們創造性地引入了一個「語言一致性獎勵」：如果模型在處理中文問題時，思維鏈中中文詞彙的比例越高，獲得的獎勵就越多。儘管實驗表明，強行「矯正」語言會導致模型性能微乎其微的下降，但為了輸出結果更符合人類閱讀習慣，這個犧牲是值得的。第二強化學習階段在這一階段，研究人員結合了獎勵訊號和多樣化的提示詞分佈來訓練模型。推理資料使用基於規則的獎勵，通用資料則啟用基於模型的獎勵。獎勵可以公式化為：其中第二階段保留了第一階段的大部分參數，但將溫度降至0.7，以防因為係數過高造導致生成內容不連貫。此外，這裡還有一個關鍵操作：基於模型的獎勵（有用性和安全性）僅在最後400個訓練步中才被引入，從而避免獎勵投機的產生。挑戰與未來DeepSeek-R1的誕生，為AI發展帶來了深刻的啟示，也伴隨著新的挑戰。能力侷限在結構化輸出和工具使用（如呼叫計算器、搜尋引擎）方面，目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感，不適合複雜的少樣本提示，在零樣本直接提問時效果最佳。此外，由於強化學習在耗時長的軟體工程任務上效率不高，R1在該領域的提升有限。獎勵投機純強化學習的成功，完全依賴於可靠的獎勵訊號。在數學、程式設計這類有明確對錯答案的領域，這很容易實現。但對於像「寫一首優美的詩」這樣主觀的任務，則很難設計完美的獎勵模型。如果獎勵訊號本身有漏洞，策略模型就會像一個聰明的學生鑽考試規則的空子一樣，「投機取巧」、騙取高分，而不是真正提升能力。年初，DeepSeek-R1發佈後，OpenAI感覺不可思議，指責DeepSeek「可能使用了ChatGPT的輸出來訓練R1」。在與審稿人的交流中，DeepSeek表示，R1並非通過複製OpenAI模型生成的推理示例來學習。不過，與大多數其他大語言模型一樣，R1的基礎模型是在網路上訓練的，因此它會吸收網際網路上已有的AI生成的內容。俄亥俄州立大學AI研究員Huan Sun表示，這一解釋「與我們在任何出版物中看到的一樣令人信服」。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall補充說，其他實驗室的複製嘗試表明，DeepSeek推理方法已經足夠好，不需要這樣做。他說：「我認為現在的證據相當明確，僅使用強化學習就可以獲得非常高的性能。」Lewis Tunstall說，其他研究人員現在正試圖應用建立R1的方法來改進現有大語言模型的類似推理能力，並將其擴展到數學和編碼以外的領域。他補充說，通過這種方式，R1「開啟了一場革命」。 (新智元)

剛剛，梁文鋒發Nature了！

DeepSeek-R1開創歷史！首登《自然》封面，梁文鋒團隊正面回應蒸餾質疑、發佈詳盡安全報告。昨晚，DeepSeek再度開創歷史！智東西9月18日報導，9月17日，由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文，登上了國際權威期刊《自然（Nature）》的封面。DeepSeek-R1論文首次公開了僅靠強化學習，就能激發大模型推理能力的重要研究成果，啟發全球AI研究者；這一模型還成為全球最受歡迎的開源推理模型，Hugging Face下載量超1090萬次。此番獲得《自然》的認證，可謂是實至名歸。與此同時，DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。《自然》在社論中高度評價道：幾乎所有主流的大模型都還沒有經過獨立同行評審，這一空白“終於被DeepSeek打破”。《自然》認為，在AI行業中，未經證實的說法和炒作已經“司空見慣”，而DeepSeek所做的一切，都是“邁向透明度和可重複性的可喜一步”。▲《自然》雜誌封面標題：自助——強化學習教會大模型自我改進發表在《自然》雜誌的新版DeepSeek-R1論文，與今年1月未經同行評審的初版有較大差異，披露了更多模型訓練的細節，並正面回應了模型發佈之初的蒸餾質疑。▲發表在《自然》雜誌的DeepSeek-R1論文在長達64頁的同行評審檔案中，DeepSeek介紹，DeepSeek-V3 Base（DeepSeek-R1的基座模型）使用的資料全部來自網際網路，雖然可能包含GPT-4生成的結果，但絕非有意而為之，更沒有專門的蒸餾環節。DeepSeek也在補充材料中提供了訓練過程中減輕資料污染的詳細流程，以證明模型並未在訓練資料中有意包含基準測試，從而提升模型表現。此外，DeepSeek對DeepSeek-R1的安全性進行了全面評估，證明其安全性領先同期發佈的前沿模型。《自然》雜誌認為，隨著AI技術日漸普及，大模型廠商們無法驗證的宣傳可能對社會帶來真實風險。依靠獨立研究人員進行的同行評審，是抑制AI行業過度炒作的一種有效方式。01.新版論文披露多個重要資訊R1安全性獲全面評估在瞭解新版論文的變化前，我們有必要先回顧下DeepSeek-R1論文的核心內容。DeepSeek-R1的研究出發點，是當時困擾AI業內的一個重大問題。眾所周知，推理能提升大語言模型的能力，但讓模型在後訓練階段通過資料學習思維鏈軌跡，嚴重依賴人工標註，限制了可擴展性。DeepSeek嘗試通過強化學習，讓模型自我演化發展出推理能力。在DeepSeek-V3 Base的基礎上，DeepSeek使用GRPO作為強化學習框架，僅使用最終預測結果與真實答案的正確性作為獎勵訊號，未對推理過程施加限制，最終建構出DeepSeek-R1-Zero。DeepSeek-R1-Zero通過強化學習成功掌握了改進的推理策略，傾向於生成更長的回答，每個回答中包含驗證、反思和探索備選方案。▲DeepSeek-R1-Zero答題正確率隨著推理長度提升，模型訓練中總體回答長度也不斷提升DeepSeek在DeepSeek-R1-Zero的基礎上，採用多階段訓練結合RL、拒絕採樣和監督微調，開發出DeepSeek-R1，使模型既具備強推理能力，又能更好貼合人類偏好。此外，團隊還蒸餾出小型模型並公開發佈，為研究社區提供了可用資源，推動思維鏈推理模型的發展與應用。除了上述主要科研成果外，在最新版的論文和其他材料中，DeepSeek新增了不少補充資訊，讓外界更深入地瞭解到模型訓練和運作的細節。基準測試資料污染是一個極為敏感的問題——如果廠商在訓練時有意或無意包含了基準測試和相關答案，就很有可能導致模型在相關測試上的得分異常偏高，影響基準測試評分的公正性。DeepSeek透露，為了防止基準測試資料污染，其已對DeepSeek-R1的預訓練和後訓練資料都實施了全面的去污染措施。以數學領域為例，僅在預訓練資料中，DeepSeek的去污染流程就識別並刪除了約六百萬條潛在文字。在後訓練階段，數學相關的資料均來自2023年之前的競賽，並採用與預訓練相同的過濾策略，確保訓練資料與評測資料完全不重疊。這些措施保證了模型評測結果能夠真實反映其解決問題的能力，而非對測試資料的記憶。不過，DeepSeek也承認這種去污染方法無法完全防止對測試集的改寫，因此在2024年之前發佈的部分基準測試仍可能存在污染問題。DeepSeek還為DeepSeek-R1新增了一份全面的安全報告。報告提到，DeepSeek-R1在服務部署中引入了外部風險控制系統，不僅可以基於關鍵詞匹配識別不安全對話，還使用DeepSeek-V3直接進行風險審查，判斷是否應拒絕響應。DeepSeek建議開發者在使用DeepSeek-R1時，部署類似的風險控制系統。在公開安全基準測試和內部安全研究中，DeepSeek-R1在大多數基準上超過了Claude-3.7-Sonnet、GPT-4o等前沿模型。開源部署版本的安全性雖不及具備外部風險控制系統的版本，但仍擁有中等水平的安全保障。DeepSeek-R1發佈之初，曾有傳聞稱該模型使用了OpenAI的模型進行蒸餾，這也出現在審稿人的提問中。對此，DeepSeek做出了正面回應，稱DeepSeek-V3-Base的預訓練資料全部來源於網路，反映自然資料分佈，“可能包含由先進模型（如GPT-4）生成的內容”，但DeepSeek-V3-Base並沒有引入在合成資料集上進行大規模監督蒸餾的“冷卻”階段。DeepSeek-V3-Base的資料截止時間為2024年7月，當時尚未發佈任何公開的先進推理模型，這進一步降低了從現有推理模型中無意蒸餾的可能性。更重要的是，DeepSeek-R1論文的核心貢獻，也就是R1-Zero，不涉及從先進模型進行蒸餾。其強化學習（RL）元件是獨立訓練的，不依賴於GPT-4或其他類似能力模型的輸出或指導。02.R1論文開創大模型科研新範式《自然》盛讚其填補空白在社論中，《自然》詳細地分析了DeepSeek-R1經歷完整同行評審流程，並登上期刊的價值。大模型正在迅速改變人類獲取知識的方式，然而，目前最主流的大模型都沒有在研究期刊中經歷過獨立的同行評審，這是一個嚴重的空白。同行評審出版物有助於闡明大模型的工作原理，也有助於業內評估大模型的表現是否與廠商宣傳的一致。DeepSeek改變了這一現狀。DeepSeek在今年2月14日將DeepSeek-R1論文提交至《自然》，而直到7月17日才被接收，9月17日正式發佈。在這一過程中，有8位外部專家參與了同行評審，對這項工作的原創性、方法和魯棒性進行了評估。在最終發佈的版本中，審稿報告與作者回覆都被一併披露。智東西也深入研讀了DeepSeek-R1論文的審稿意見與作者回覆。這份檔案長達64頁，接近論文字身篇幅的3倍。▲DeepSeek同行評審材料封面8位審稿人共提出上百條具體意見，既包括對單詞單複數等細節的修改，也涵蓋對論文中將AI“擬人化”的警示，以及對資料污染和模型安全性問題的關注。例如，在下方修改意見中，審稿人敏銳地捕捉到了“將DeepSeek-R1-Zero開源”這一表述的模糊性，並提醒DeepSeek，“開源”這一概念的界定仍存爭議，在使用相關表述時需要格外注意。這位審稿人還要求DeepSeek在論文中附上SFT和RL資料的連結，而不僅僅是提供資料樣本。▲一位審稿人的部分修改意見DeepSeek認真回應了審稿人提出的每一個問題，前文提到的多個章節與補充資訊，正是在審稿人的建議下新增的。雖然DeepSeek也曾在今年1月發佈DeepSeek-R1的技術報告，但《自然》認為，此類技術文件與實際情況之間的差距可能很大。相比之下，在同行評審中，外部專家並不是被動接收資訊，而是能夠在獨立第三方（編輯）的主持和管理下，通過協作提出問題，並要求論文作者補充資訊。同行評審能夠提升論文的清晰度，並確保作者對其主張作出合理的論證。這一流程並不一定會對文章內容帶來重大修改，但卻能增強研究的可信度。對AI開發者而言，這意味著他們的工作會更為紮實，並更具說服力。03.結語：DeepSeek開源模式或成行業典範作為國產開源 AI 模型走向世界的代表，DeepSeek-R1在全球開源社區擁有極高的口碑。而在本次登上《自然》雜誌封面後，DeepSeek又補充了這一模型的更多資訊，為開源社區提供了科研參考、模型復現思路以及應用支援。《自然》雜誌呼籲更多的AI公司將其模型提交給同行進行評審，確保其聲明經過驗證和澄清。在這一背景下，DeepSeek的開源模式不僅展示了國產AI的技術實力，也有望成為全球AI行業在科研透明度方面的參考典範。 (智東西)