#DeepSeeK
估值破兆,1845億梁文鋒和他的DeepSeek近況如何?
“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”在近日公佈的《2025全球獨角獸企業500強報告》中,DeepSeek憑藉1.05兆元的估值,力壓阿里雲、螞蟻集團等一眾企業,成為了僅次於字節跳動的中國第二大、全球第六大獨角獸企業。早在今年初,就有外媒曾預測DeepSeek的估值最高可達1500億美元,雖然DeepSeek目前的收入可能不高,但考慮到其未來增長和研究實力,其值得高估值。回看DeepSeek的出圈之路,對於AI行業來說,DeepSeek頗像一條鯰魚,其用“開源+高性價比”的組合拳,進一步推動了整個行業的快速發展。值得一提的是,年初爆紅出圈後,DeepSeek的月活隨即在一眾國產AIGC App中強勢登頂,但DeepSeek的優勢地位並不穩固,其月活一度被豆包反超。不過,11月中旬,在全球生成式AI工具中,DeepSeek的網路流量份額有所回升。而近日DeepSeek發佈的DeepSeek-V3.2,其推理能力更是達到GPT-5水平,並與Gemini-3.0-Pro接近。事實上,DeepSeek的成功,離不開其創始人梁文鋒的卓越領導。梁文鋒身上濃厚的“極客”屬性,更為DeepSeek賦予了“創新”“技術為先”的獨特基因。得益於DeepSeek超高的估值表現,梁文鋒的身家也隨之暴漲。在此前公佈的《2025新財富雜誌500創富榜》上,梁文鋒首次入榜便以1846.2億元的身家傲居榜單第10位。01估值破兆躋身全球第六大獨角獸據公眾號“全球獨角獸企業500強”消息,12月3日,在2025全球獨角獸企業500強大會上,獨角獸工程院院長、全球獨角獸企業500強大會秘書長解樹江發佈了《2025全球獨角獸企業500強報告》。我們注意到,在該榜單排名前十的企業中,有四家中國企業上榜,它們分別是字節跳動、DeepSeek、阿里雲和螞蟻集團。讓人眼前一亮的是,以大模型研發、智能基礎設施為核心業務的DeepSeek,憑藉高達1.05兆元的估值其躋身全球第六大獨角獸企業。而在中國企業中,其更是成為了僅次於字節跳動的第二大中國獨角獸。▲資料來源/全球獨角獸企業資料庫(Unicorn500)天眼查顯示,DeepSeek關聯的杭州深度求索人工智慧基礎技術研究有限公司,成立於2023年7月。而以黑馬之姿從大模型賽道殺出重圍的AI助手——DeepSeek,則問世於今年1月。換言之,DeepSeek估值破兆,距離其公司正式成立不過短短兩年多時間,甚至其核心產品的推出至今都還未滿一年。事實上,早在今年年初DeepSeek爆火之時,多家外媒就討論過DeepSeek的估值以及其創始人梁文鋒的財富。據彭博社2月消息,根據七位創業公司創始人及人工智慧專家估算,DeepSeek的估值在10億美元到1500億美元以上不等。根據彭博億萬富翁指數,按區間中間值計算,DeepSeek估值在20億美元到300億美元之間,而梁文鋒持有的84%股份價值介於16.8億美元到252億美元,這將使其躍居亞洲最富有科技大亨行列。美國風投公司Glasswing Ventures的創始人Rudina Seseri表示,“即使保守估算,DeepSeek憑藉現有的僅僅幾百萬美元收入就能輕鬆獲得數十億美元的估值,更不用說再考慮未來成長空間了。”加拿大電信公司Sweat Free Telecom的創始人Chanakya Ramdev則更為樂觀,他當時就認為DeepSeek的估值能達到1500億美元。據此估算,梁文鋒持有的股份價值將達到1260億美元。D.A. Davidson分析師Alexander Platt認為,DeepSeek可以說是“目前全球排名前五的人工智慧實驗室”之一,考慮到其強大的研發實力(這些實力未必能轉化為實際收益),其價值應該更高。在今年6月揭曉的《2025新財富雜誌500創富榜》上,憑藉DeepSeek的卓越表現,梁文鋒以1846.2億元的身家首次上榜,且初次亮相其在該榜單上便闖進第10名的高位。02行業競爭愈發激烈月活曾短期出現下滑DeepSeek的爆火始於2025年初。當時,這個一度“出口轉內銷”的AI模型,成了許多國人接觸生成式AI的“初體驗”。據QuestMobile資料,在今年2月的AIGC App行業月活躍使用者規模TOP10榜單中,DeepSeek App好似一匹黑馬,上線次月便勢如破竹,月活躍使用者規模一舉突破1.8億。同時,在DeepSeek大模型的加持下,騰訊元寶、奈米AI搜尋的日活躍使用者規模也顯著提升,躋身TOP5行列。進入3月,DeepSeek繼續保持領先優勢,憑藉1.94億的月活躍使用者數,在AI原生App使用者規模TOP榜中再度稱雄,緊隨其後的是1.16億月活躍使用者的豆包和4164萬月活躍使用者的騰訊元寶。不過,在火爆出圈後,DeepSeek的月活一度出現下滑:今年5月,其月活使用者縮水至1.69億。9月,DeepSeek月活躍使用者規模再度降至1.45億,排名被月活1.72億的豆包反超。事實上,前述變化的背後,是國內AI行業日益白熱化的競爭。豆包、千問背後的網際網路巨頭們,正不斷加大在AI領域的投入,試圖在這片充滿機遇的賽道中搶佔更多份額。其中,此前在大模型新機遇面前一度“掉隊”的字節跳動,近來勢頭十分迅猛。據浙商證券報告,字節跳動2024年在AI上的資本開支高達800億元,接近百度、阿里巴巴和騰訊三巨頭的總和(約1000億元)。浙商證券預測,2025年,字節跳動在AI上的投入預計將翻倍至1500-1600億元,其中900億元用於AI算力卡採購,700億元投向資料中心基礎設施建設及配套硬體。在9月的雲棲大會上,阿里巴巴的掌門人吳泳銘也重申了公司發力AI的決心:阿里正在積極推進三年3800億的AI基礎設施建設計畫,並將會持續追加更大的投入。而放眼國外,美國的AI巨頭們也動作頻頻。據媒體報導,微軟、Google和Meta在第三季度合計投入780億美元用於資本支出,同比增長89%。據悉,其中大部分資金用於建設資料中心,以及採購圖形處理器(GPU)和相關硬體裝置。同時,三家公司還均上調了對未來支出的預測。而Google近期發佈的多模態大模型Gemini 3和圖像生成模型Nano Ba-nana Pro等重磅產品,也吸引了外界無數目光。面對同行發起的猛烈攻勢,DeepSeek也做出了“反擊”。12月1日,DeepSeek同步發佈兩款正式版模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale。其中,前者在推理測試中達到GPT-5水平,僅略低於Gemini-3.0-Pro,而後者在IMO 2025等四項國際頂級競賽中斬獲金牌。值得注意的是,據資料分析公司Similar Web發佈的最新報告,在全球範圍內,DeepSeek的訪問量正在回暖,在全球生成式AI工具流量佔比中,DeepSeek的份額從10月中旬的3.7%回升至11月中旬的4.2%。03“極客”梁文鋒化身AI賽道“鯰魚”據36kr,多位行業人士和DeepSeek研究員這麼描述梁文鋒——他是當下中國AI界非常罕見的“兼具強大的infra工程能力和模型研究能力,又能調動資源”,擁有“令人恐怖的學習能力”,同時又“完全不像一個老闆,而更像一個極客”。天眼查顯示,梁文鋒是杭州深度求索人工智慧基礎技術研究有限公司的實際控制人,其通過直接、間接形式持有公司約84%的股份。這意味著梁文鋒是這家兆估值AI公司的絕對靈魂,而其身上的“極客”屬性也深深影響著DeepSeek。據公開資料,梁文鋒1985年生於廣東湛江,從小成績便十分優異。2002年,17歲的梁文鋒以吳川一中高考狀元的成績考上浙大本科電子資訊工程專業,之後又繼續攻讀浙大資訊與通訊工程專業研究生。2008年,全球金融危機肆虐,許多人紛紛逃離市場。彼時,還在讀研的梁文鋒看到了隱藏的機遇,開始研究如何使用機器學習等技術探索全自動量化交易。2013年,梁文鋒和浙江大學校友徐進等人創立了以德國數學家卡爾·雅可比命名的投資公司——杭州雅克比投資管理有限公司。兩年後,梁文鋒又創立了幻方量化,致力於通過數學和人工智慧進行量化投資。2016年10月,幻方第一個由深度學習演算法模型生成的股票倉位上線實盤交易,使用GPU進行計算。至2017年底,公司幾乎所有的量化策略都已經採用AI模型計算。2018年,幻方確立以AI為公司的主要發展方向。2019年,幻方AI(幻方人工智慧基礎研究有限公司)註冊成立,致力於AI的演算法與基礎應用研究。同年,幻方量化管理規模突破百億。2020年,總投資近2億元、搭載1100加速卡的“螢火一號”正式投用,為幻方的AI研究提供算力支援。2023年7月,幻方量化宣佈成立大模型公司DeepSeek,正式進軍通用人工智慧領域。次年5月,DeepSeek發佈DeepSeekV2。據悉,DeepSeek V2的開源模型擁有超高性價比:其推理成本被降到每百萬token僅1塊錢,約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。同年12月末,DeepSeek-V3面世。在DeepSeek-V3的定價上,API定價為輸入每百萬tokens 0.5元(快取命中)/2元(快取未命中),輸出每百萬tokens 8元,與字節Doubao-pro-256k定價輸入每百萬tokens 5元,輸出每百萬tokens 9元的水平相當,在國產模型中性價比較高。緊接著,DeepSeek於今年1月正式發佈DeepSeek-R1模型,一經問世便在行業內引發廣泛熱議。憑藉“開源”、“極致性價比”等特色,DeepSeek更是化身為一條鯰魚,攪動著整個AI行業。對此,梁文鋒在與媒體對話時表示,“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚”。梁文鋒坦言,“沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後核算成本定價。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”而對於DeepSeek的全面開源和創新,梁文鋒有自己的理解,“在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”在梁文鋒看來,把價值沉澱在團隊上,員工在這個過程中得到成長,積累更多經驗和知識,形成可以創新的組織和文化,這才是他們的護城河。在瞬息萬變的AI大戰中,梁文鋒後續能否再創財富新高?我們將持續關注。 (快刀財經)
DeepSeek 與 Google 的暗戰:誰會最先找到通往 AGI 的鑰匙?
自從 2022 年 ChatGPT 3.5 橫空出世,讓世人領略到 AI 的非凡魅力;再到 2024 年底 DeepSeek 驚豔登場,給國人帶來了巨大的驚喜與自信。如今,各類大模型(LLM)及 AI 應用已經深刻地改變了我們的生活。AI 每天都在增強功能。昨天做不到的事,今天已經能做;前天做不好的題,今天已經可以輕鬆解決。我們彷彿回到了蒸汽機投入實用後的那段時間——新技術、新發明以肉眼可見的速度狂飆突進。然而,在這波 AI 浪潮的狂歡背後,科技界仍存爭議:LLM 真的是通往 AGI(通用人工智慧)的正確方向嗎? 或者說,僅靠當前的 LLM 就足夠了嗎?答案其實很清晰:不夠。Transformer 是一次偉大的突破,但要讓機器真正“理解世界”,我們仍需要更多類似 Transformer 等級的全新核心技術。凍結的知識快照不是智能我們知道,當前大模型的訓練方法,本質是讓 Transformer 在大量文字裡尋找“詞與詞的關係”,並基於這些統計關係預測下一個詞。訓練完成後,所有知識都被壓縮排最終的權重檔案裡,像一張凝固的“知識快照”。 但之後它不會自動學習新知識,除非重新訓練或微調。明天產生的新知識無法自動融入,換言之,LLM 本身沒有即時的學習能力。從上面你很快能就發現當前基於LLM的AI的兩個“死穴”:其一,LLM只是一個機率模型,它知道“E=mc²”後面大機率跟著“愛因斯坦”,也知道怎麼用這句話造句,但它不知道這公式是怎麼推匯出來的,也不知道如果光速改變了世界會怎樣。它學到的是知識的“投影”(文字),而不是知識的“本體”(邏輯與因果)。其二,它的知識是靜態的。正因為它沒有一個知識的生產過程,所以它不知道這些知識是如何產生的,為什麼會形成這個知識,這些知識為什麼對,為什麼錯。正如X上有某位大佬所言:“當前 AI 水平離真正的 AGI 還差好幾個 Transformer 等級的創新。” 但遺憾的是,現在還沒有可以取代Transformer的新架構。在這一點上,中美其實“站在同一片荒原上”,未來怎麼走,大家都在摸索。理解知識的積累過程,是智能的前提嗎?回想一下人類的學習方式:從小到大,知識是一點一滴積累的,對同一個知識點的理解也是層層遞進的。相比之下,LLM 生成即“凍結”,缺失了進化的過程,所以它“知道”,但它不“理解”。那麼,將知識的積累過程保留下來,會不會是通往 AGI 的一個方向?如果 AI 能復現人類對某個現象的認識過程,是否就能理解其背後的原理,從而舉一反三?至少,可以將這個認識過程當作一種“元模式”記錄下來,在處理新問題時按部就班地套用。當然,這個觀點也存在爭議。因為許多科學突破是“斷層式”的——先是天才的“靈光一閃”,後人再通過邏輯去填補證據。不過,從人類的普適經驗來看,模擬知識的積累過程,肯定有助於 AI 達到人類智能的平均水準。我們不指望 AI 頓悟成愛因斯坦,但達到專家的水平是完全可期的。這個過程可以從兩個角度來分析一是知識的層級性,高階知識依賴並建立在前導知識(基礎概念、技能)之上。比如說,一個人學習流體力學前,需掌握微積分與線性代數。二是學習的漸進性,對具體知識的理解和記憶,是一個從模糊、具體到清晰、抽象的動態過程。對於個人來說,對新概念的掌握,會從最初的生硬記憶,逐漸內化為可靈活運用的直覺。Google的思考:結構化與記憶針對第一個維度(層級性),Google 試圖將模型的知識結構化為不同時間尺度、相互巢狀的層級,提出了“巢狀學習”(Nested Learning)與記憶框架。(參見論文:https://abehrouz.github.io/files/NL.pdf)。“巢狀學習”的核心是將一個複雜的AI模型,視為一系列相互巢狀的最佳化問題。簡單來說,模型的不同部分可以像人的不同記憶一樣,以不同的“速度”學習和更新。簡單舉例,一般的LLM訓練,對於一個文字來說,可以理解成一個平面,從上而下,流式分佈。然後訓練過程相當於找出每個字之間的關係機率,因為處理窗口的關係,如果算到了後面的內容,往往與前面的文字關係就小了,計算時用的權重也就低了。如同一篇小說,即使作者費盡心機在結尾時回應了開頭處的一個梗,填了開始的一個坑,對於AI來說,也是拋媚眼給瞎子看。AI早就忘記了。而Google的巢狀學習,則是對同一篇文章,除正常的訓練方式外,還對文章先在不同的層次上進行預處理。比如先做一個文章梗概,先過一遍文章,把所有作者預埋的“坑”提取出來……,這樣一篇文字就變成了n篇不同維度文字,然後在訓練時,這些文字都參與訓練,可以平行處理,只是訓練參數和訓練方法不同。能根據性質選擇不同精度和速度的計算,而且訓練出的成果是可以疊加的,不再是單一固定的權重檔案。上面的圖就是一個例子,左邊是普通的深度學習訓練過程,而右邊則是巢狀學習的例子,你能看出對於同一個內容,根據進行多次訓練,只是廣度和精度各不相同。此外,Google 的 ReasoningBank 記憶框架(相關論文:https://arxiv.org/abs/2509.25140 )則更進一步。它的思路是讓AI智能體從以往的成功與失敗經驗中,主動提煉出結構化的“記憶項”。每個“記憶項”包含策略標題、描述和推理內容,本質上是對低級經驗的抽象總結。當面對新任務時,AI會檢索並應用這些抽象原則來指導行動,這模擬了人類專家運用已有知識框架去解決新問題的過程。DeepSeek的嘗試:多維感知與自驗證推理針對第二個維度(漸進性),DeepSeek 在感知與推理兩個層面都展現了對人類思維模式的深度模擬。首先在視覺感知層面,以 DeepSeek-OCR 為例,他們採用了一種獨特的“多解析度訓練”思路:不僅僅是對圖像進行簡單的向量化,而是試圖模擬人類的視覺認知過程——即 “從模糊到清晰” 的動態掃描。對同一張圖片(場景),模型會同時學習其低解析度的宏觀輪廓與高解析度的微觀細節(相關技術細節可參看此前的公眾號文章)。這種策略暗合了人類大腦處理視覺資訊的生物學模式:先建立全域印象,再填充局部細節。不僅在感知上發力,DeepSeek 更試圖在推理層面重現人類的“反思”能力。DeepSeek 不僅在基礎大模型上發力,向各個專家模型演進(如 DeepSeekMath-V2),更在某些領域嘗試模擬人類的“記憶狀態”。在 2025 年 11 月 27 日剛剛發佈的 DeepSeekMath-V2(論文:https://arxiv.org/pdf/2511.22570 )中,DeepSeek 引入了突破性的 “自驗證”(Self-Verification) 機制。這相當於讓 AI 進化出了“自我監考”的能力。傳統的模型像是一個只顧填答題卡的考生,只在乎最終答案是否命中;而 DeepSeekMath-V2 則像是一個嚴格的老師,它不僅檢查答案的對錯,更會一步步審視 解題過程(Process) 的邏輯鏈條。通過這種方式,模型不再是“蒙”對了一個答案,而是真正確信自己“理解”了這道題。這種從“結果導向”向“過程導向”的轉變,是 AI 邁向深度邏輯推理的關鍵一步。DeepSeek 的“自驗證”機制構成了一個自我完善的智能閉環:它不僅能評估解題過程,更能主動生成推理步驟並對其驗證。這模仿了人類的元認知與自我學習能力。古人倡導“吾日三省吾身”,而 AI 則可實現瞬時、高頻的自我審視與迭代最佳化。如下圖(論文中的附圖)所示,隨著驗證次數(最高達7次)的增加,模型解決問題的能力顯著提升,充分體現了通過“反覆自學”實現能力進化的潛力。雖然上述分別列舉了兩家公司的例子,但在技術演進的洪流中,它們並非孤立存在。Google 的巢狀學習涉及不同清晰度資料的處理,而 DeepSeek 的多專家系統(MoE)及多層次資料訓練,本質上也是在對知識進行結構化拆解。結尾:AGI的未來方向,也許正在悄悄顯現從 Google 到 DeepSeek,我們正在看到一個趨勢越來越明確:真正的智能,不是更大的模型,而是更“結構化”的學習過程。未來的 AI,可能會具備:能分層理解知識結構的能力能保持多時間尺度記憶的能力能自主總結“經驗規則”的能力能在模糊與清晰之間漸進切換的能力能記錄“知識的進化史”而不是只記錄結論這些能力加在一起,不是“下一代更大的 Transformer”,而是:一種能夠像人一樣“成長”的架構。我們或許距離 AGI 仍有數個重要突破,但路徑正在變得越來越清晰:不是簡單堆算力、堆資料,而是讓模型獲得“理解知識如何生成”的能力。或許,真正的智能不是一夜之間的奇蹟,而是一次又一次讓機器“重走人類認知之路”的漫長積累。而現在,我們正在走在這條路的最前面。 (亍雲旁觀)
開源和閉源模型的差距在拉大:這是 DeepSeek 論文揭示的殘酷真相
12月2日,DeepSeek 發佈了 V3.2 技術報告。在這篇論文裡,他們做了一件罕見的事:明確指出開源大模型與閉源模型的性能差距不是在縮小,而是在擴大。這是基於大量實測資料的冷靜判斷。差距正在拉大,這是事實2024年,當 DeepSeek、Qwen、GLM 等開源模型接連發佈時,社區充滿樂觀情緒。"8個月時間差"的說法廣為流傳,許多人相信開源正在追上閉源。但進入2025年,情況發生了變化。DeepSeek 在論文引言部分直言不諱地寫道:“過去幾個月出現了明顯的分化。雖然開源社區持續進步,但閉源專有模型的性能提升速度顯著更快。結果是,兩者的差距非但沒有縮小,反而在擴大,閉源系統在複雜任務上展現出越來越強的優勢。”這個觀察有資料支撐。論文對比了 DeepSeek V3.2 與 GPT-5、Gemini 3.0 Pro 在多個基準測試上的表現。在 MMLU-Pro(多學科知識測試)中,DeepSeek V3.2 得分 85.0,GPT-5 是 87.5,而 Gemini 3.0 Pro 達到了 90.1。在 GPQA Diamond(研究生等級科學問題)測試中,三者的得分分別是 82.4、85.7 和 91.9。更明顯的差距體現在 HLE(Human Last Exam,極難的文字推理測試)中。DeepSeek V3.2 的得分是 25.1,GPT-5 是 26.3,而 Gemini 3.0 Pro 高達 37.7——這個差距已經不是"接近"能形容的了。值得注意的是,DeepSeek V3.2 已經是目前最強的開源模型,在大部分開源模型的對比中都處於領先位置。但即便如此,它與頂級閉源模型之間仍然存在明顯差距,尤其是在需要深度推理和複雜任務處理的場景中。差距為何在拉大?三個結構性問題論文通過系統分析,識別出限制開源模型在複雜任務上能力的三個關鍵缺陷。這些不是表面問題,而是深層次的結構性困境。第一個問題在於架構層面。開源模型普遍依賴傳統的 vanilla attention 機制,這種機制在處理長序列時效率極低。論文指出,這種架構上的依賴"嚴重限制了長序列的效率,對可擴展部署和有效的後訓練構成了實質性障礙"。當閉源模型已經在探索更高效的注意力機制時,開源模型還在用五年前的技術架構,這本身就是一個巨大的劣勢。第二個問題是資源投入的鴻溝,尤其體現在後訓練階段。後訓練是讓模型從"會說話"變成"會思考"的關鍵環節,需要通過強化學習讓模型學會推理、工具使用和遵循複雜指令。論文透露,DeepSeek V3.2 的後訓練計算預算超過了預訓練成本的 10%。要知道,預訓練本身就是天價投入,而大部分開源模型的後訓練預算可能連 1% 都不到。這種資源投入上的差距,直接導致了性能上的代際差異。第三個問題是 AI Agent 能力的滯後。在真實應用場景中,開源模型的泛化能力和指令理解能力明顯落後。論文引用了三個關鍵的 Agent 測評基準:在 MCP-Mark 中,DeepSeek V3.2 得分 45.9,Gemini 3.0 Pro 是 51.0;在 MCP-Universe 中,前者是 80.3,後者是 87.9;在 Tool-Decathlon 中,差距更加明顯。這些數字背後反映的是開源模型在複雜多輪互動、工具呼叫、長期規劃等場景下的能力不足。論文總結道:"開源模型在泛化能力和指令跟隨能力方面展現出明顯滯後,這阻礙了它們在實際部署中的有效性。"這是一個誠實且殘酷的判斷。DeepSeek 的應對:技術路線的根本性改變認識到問題後,DeepSeek 沒有選擇簡單地堆砌參數或增加資料量,而是在三個核心維度上進行了根本性的技術創新。在架構層面,DeepSeek 引入了 DSA(DeepSeek Sparse Attention)機制。傳統注意力機制的計算複雜度是 O(L²),序列長度翻倍,計算量就要翻四倍。DSA 通過"閃電索引器"(Lightning Indexer)快速計算每個 token 的重要性評分,然後只選擇 top-k 個最重要的 token 參與注意力計算(論文中 k=2048),將複雜度從 O(L²) 降至 O(L×k)。這個改進不僅僅是理論上的最佳化。論文通過實測資料表明,在 128K 上下文長度下,DSA 大幅降低了推理成本,而性能幾乎沒有損失。更令人意外的是,在 AA-LCR(長文字推理基準)和 Fiction.liveBench(小說理解測試)中,V3.2 的表現甚至優於使用傳統注意力機制的 V3.1。這證明 DSA 不僅更快,在某些場景下質量還更好。在資源投入層面,DeepSeek 做出了超常規的決定。論文明確寫道:"近幾個月來,性能提升與擴展的 RL 訓練預算持續相關,該預算已超過預訓練成本的 10%。"這個數字在開源界極為罕見。具體來說,DeepSeek 為數學、程式設計、推理、Agent 等六大領域分別訓練了專家模型,每個都單獨進行大規模強化學習訓練。在持續預訓練階段,模型經歷了 943.7B tokens 的訓練(在 128K 上下文長度下),然後採用 GRPO(Group Relative Policy Optimization)演算法進行混合訓練,整合推理、Agent 和人類對齊三類任務。在 Agent 能力強化方面,DeepSeek 開發了系統化的任務合成流程。他們合成了超過 1800 個多樣化環境和 85,000 條複雜提示,涵蓋各種真實場景。具體包括 24,667 個程式碼 Agent 任務、50,275 個搜尋 Agent 任務、4,417 個通用 Agent 任務和 5,908 個程式碼直譯器任務。這些合成資料不是隨機生成的,而是通過冷啟動階段學習推理與工具使用的統一模式,然後在規模化階段系統地生成高品質訓練場景。效果是顯著的。在 Agent 相關的測試中,DeepSeek V3.2 顯著縮小了與閉源模型的差距,在 MCP-Universe 上達到了 80.3% 的成功率,雖然仍低於 Gemini 的 87.9%,但已經是開源模型中的最佳表現。論文總結說:“DeepSeek V3.2 成為 Agent 場景中極具成本效益的選擇,顯著縮小了開源與前沿閉源模型之間的性能差距。”論文最後寫了一句耐人尋味的話:"如果 Gemini 3.0 證明了持續擴展預訓練的潛力,DeepSeek V3.2-Speciale 則證明了在大規模上下文環境中強化學習的可擴展性。"言下之意很明顯:閉源巨頭有資源堆預訓練,但開源可以找到自己的路——通過更高效的架構和更科學的後訓練,用更少的資源實現接近的效果。這或許是開源 AI 唯一的生存之道:不是硬碰硬拚資源,而是拼技術路線的創新。至少在這一次,DeepSeek 證明了這條路是走得通的。 (矽星人Pro)
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
DeepSeek V3.2雙模型震撼發佈,對標GPT-5,70%成本降幅重塑競爭格局
開源之戰全面升級。就在業界聚焦GPT-5與Gemini的技術鴻溝之際,中國AI創業公司DeepSeek攜DeepSeek-V3.2系列雙模型登場,其在數學、程式設計等核心基準上逼近甚至超越閉源頂尖模型的表現,引發行業震動。官方技術報告顯示,這兩款模型在數學、程式設計和長上下文等核心基準上已經接近甚至在部分任務上超越閉源領先模型。更具顛覆性的是,DeepSeek選擇以MIT許可完全開源全部權重,對全球AI產業格局構成重大衝擊,向世界展示了中國AI的硬實力。兩大模型:通用與專業的明確分工DeepSeek V3.2系列採用 “雙軌平行” 策略,兩款6850億參數模型精準覆蓋不同場景需求,既兼顧日常實用性,又突破極限推理天花板。DeepSeek-V3.2:高效全能的日常推理助手定位為 “高效實用型智能夥伴”,核心優勢是平衡推理能力與使用成本。相較於同類模型,其輸出長度減少30%–50%,在加快響應速度的同時,將128k token(約 300 頁書籍)的解碼成本壓縮至每百萬token0.70美元,較前代降低超 70%,完美適配問答互動、通用智能體等日常場景的大規模部署。DeepSeek-V3.2-Speciale:專攻極限推理的學術專家聚焦複雜問題與競賽級任務,是追求推理極致性的 “專業選手”。通過延長推理路徑、強化邏輯驗證能力,在IMO、IOI、ICPC、CMO四大頂級賽事中斬獲全金牌,部分競賽成績躋身全球前十,尤其擅長數學證明、高階邏輯分析等硬核場景。需注意的是,該版本暫不支援工具呼叫,未針對日常對話最佳化,僅聚焦專業領域能力突破。DeepSeek-V3.2系列與主流前沿模型在推理能力與智能體能力基準上的對比表現。(圖片來源:DeepSeek)技術革命:突破長上下文計算瓶頸DeepSeek V3.2系列最關鍵的技術突破來自自研的DeepSeek Sparse Attention(DSA)稀疏注意力機制。傳統模型處理長文字時需要對所有token進行兩兩計算,複雜度為O(L²),導致成本高、推理速度慢,是長文字推理面臨的最大瓶頸。DSA通過“閃電索引器”篩選與當前任務最相關的token,僅對核心部分進行密集計算,將複雜度降低為近似線性的O(Lk),有效突破了長上下文算力限制。實際測算中,處理128k token的解碼成本從V3.1-Terminus的2.4美元下降至V3.2的0.7美元。更重要的是,在ChatbotArena和多個長上下文測試中,該機制未導致性能下降,使模型實現了“成本下降、能力提升”的雙向突破。DeepSeek V3.2注意力架構:DSA稀疏機制以 “閃電索引 + Top-k篩選” 聚焦關鍵 token,實現長文字處理降本增效。(圖片來源:DeepSeek)性能全面狂飆:對標頂尖閉源模型在核心能力評測中,DeepSeek V3.2系列展現出對標GPT-5與Gemini的硬實力。標準版V3.2在權威基準測試中表現亮眼:AIME 2025數學競賽93.1%通過率僅略低於GPT-5的94.6%,HMMT 2025中92.5% 的得分反超GPT-5的88.3%,LiveCodeBench程式碼評測83.3%的表現與GPT-5基本持平。實用場景中,V3.2在SWE-Verified真實bug修復任務中達成73.1%的成功率,接近GPT-5-High的74.9%;更在Terminal Bench 2.0複雜工作流測試中以46.4%的精準率,大幅領先GPT-5-High的35.2%,凸顯紮實的工程實用性。極限推理版Speciale則在高階競賽中再創佳績:IMO斬獲35/42分金牌、IOI以492/600分位列全球第10、ICPC國際大學生程式設計競賽全球總決賽解決10/12題獲亞軍、CMO高分奪冠,四大頂級賽事全金牌的戰績,使其建立了接近專業選手的能力壁壘,充分釋放了模型在複雜邏輯推理領域的極限潛力。DeepSeek-V3.2與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗Tokens總量約數)。(圖片來源:DeepSeek)思考能力與工具使用的深度融合以往的模型往往在“深度思考”和“工具呼叫”之間難以兼得,而DeepSeek-V3.2是該公司首個實現深度推理與工具使用融合的模型。V3.2的上下文管理機制能夠在多輪工具呼叫過程中保留思考鏈路,讓模型在解決複雜任務時不必重複推理,大幅提升任務流暢度。在旅行規劃、跨檔案程式碼修復、多語言網路搜尋等實際場景中,V3.2能夠以類似“智能體”的方式持續推進任務。為了建構這一能力,DeepSeek使用了包含1800多個任務環境與85,000多條複雜指令的合成資料體系,使模型即便沒有針對特定測試工具做額外訓練,也能在智能體評測中達到開源模型的領先水平,顯著縮小了與閉源前沿模型的能力差距。上圖為思考模式下進行工具呼叫的API請求示意圖。(圖片來源:DeepSeek)開源震撼,重構 AI 產業生態最具顛覆性的舉措來自開源策略。DeepSeek將兩款6850億參數規模的大模型以MIT協議完全開源,提供模型權重、訓練程式碼與完整文件,並同步上線至Hugging Face。企業和開發者不僅可以免費下載與本地化部署,還能基於開源模型進行二次訓練或深度定製,而官方還提供OpenAI相容格式的遷移指令碼,大幅降低替換成本。在這種策略下,傳統閉源模型的API收費模式受到直接衝擊,大量企業能夠以更低成本獲得接近GPT-5的能力,同時保持資料安全與部署靈活性。然而,由於DeepSeek的公司背景,部分海外市場在資料合規、隱私保護與監管政策方面仍可能存在現實限制,這是其全球推廣必須面對的挑戰。DeepSeek-V3.2與其他模型在各類智能體工具呼叫評測集上的得分。(圖片來源:DeepSeek)中國AI的開源突圍之路儘管成績亮眼,DeepSeek在技術報告中也坦誠模型的不足,包括世界知識廣度仍弱於Gemini 3.0 Pro,部分任務需要更長的推理鏈才能達到閉源模型的最佳表現,且在部分領域仍需進行更廣泛的訓練資料補充。但通過“專家蒸餾 + 混合式強化學習”的後訓練方法,模型在多項能力上實現了相對均衡的提升。值得關注的是,在美國對中國的晶片出口管制背景下,DeepSeek依然能保持快速迭代,並讓模型適配華為、寒武紀等國產晶片,這顯示了中國AI在逆境中的韌性與自主創新能力。目前,V3.2已全面上線官方網站、App和API,而V3.2-Speciale則通過臨時API供研究使用,後續將逐步與主線版本整合。(圖片來源:Unsplash)DeepSeek-V3.2系列展示了中國AI在結構創新、推理能力與工程最佳化上的快速躍升,不依賴算力堆疊,而是通過稀疏注意力(DSA)、任務化訓練和工具思維實現了對閉源巨頭的快速追趕甚至部分超越。開源策略正在重塑行業生態,使得頂尖AI能力不再被少數閉源模型壟斷。當高性能與低成本同時成為可能,全球AI應用的門檻被大幅降低,也預示著新一輪技術革新即將到來。AI的新時代已經來臨,而DeepSeek正在成為這場浪潮中不可忽視的重要力量。 (創新觀察局)
“大交易”:一場遲到的美國AI戰略自救
前不久,前白宮人工智慧特別顧問本·布坎南(Ben Buchanan)在《外交事務》雜誌上拋出了他的“大交易”設想,華盛頓的政策圈似乎又找到了一個新的敘事框架。這位在2021至2025年間負責協調拜登政府AI政策的核心人物,試圖為美國AI發展勾勒一幅宏大藍圖:科技行業必須要與政府達成戰略協議,前者獲得能源基礎設施、人才管道和國家安全保護,後者則將AI整合進國防體系並確保其不破壞所謂的民主價值。這個提議聽起來既務實又理想主義——問題恰恰在於,它可能過於理想主義了。更令人玩味的是,就在布坎南構想這份“大交易”之後不久,DeepSeek正在以一種近乎諷刺的方式,拆解著他所依賴的核心假設。這家被美國晶片出口管制嚴密封鎖的公司發佈了DeepSeek V3.2,實測在開源模型中達到全球最高水平,與海外頂級閉源模型的差距縮小至約一個季度。該模型分為普通版和特別版:普通版性能對標 GPT-5,特別版則媲美 Gemini 3.0 Pro,尤其在數學與推理能力上表現突出。這不僅是一次技術突破,更是對美國“晶片遏制”戰略的一記響亮耳光。晶片政策的分歧:遏制還是“上癮”?在理解布坎南“大交易”的困境之前,我們必須先釐清美國AI戰略界內部一個長期存在但鮮被公開討論的根本分歧——關於對華晶片政策,決策圈內實際上存在著兩種截然不同的哲學。本·布坎南(Ben Buchanan)第一派可稱為“技術依賴派”或“上癮派”。這派觀點認為,應當允許中國大陸在一定程度上獲取美國的先進AI晶片,使其AI生態系統建立在美國技術基礎之上,形成一種戰略性依賴。這種策略的邏輯類似於毒品販子的手法:先讓對方上癮,然後控制供應鏈就能控制對方的技術發展節奏。輝達最初對中國大陸市場的態度——不斷推出降級版晶片如H800、H20來規避出口管制——某種程度上體現了這種思路。這一派相信,只要中國大陸市場的AI產業離不開美國晶片,華盛頓就永遠掌握著關閘的權力。第二派則是布坎南所代表的“全面遏制派”。在他們看來,任何對中國大陸的技術滲透都是危險的,必須在製造端實施最嚴格的封鎖,不給中國大陸任何獲取先進算力的機會。這種觀點在2022年10月拜登政府大幅擴展晶片管制時達到高峰,不僅限制先進晶片出口,還限制晶片製造裝置,甚至禁止美國公民為中國大陸半導體公司提供技術支援。布坎南在文中對中國大陸“軍民融合”戰略的惡毒指控,都清晰地顯示出他屬於這一陣營。然而諷刺的是,DeepSeek的成功恰恰證明了兩種策略可能都已失效。“上癮派”的夢想破滅了——中國大陸AI企業並沒有因為依賴美國晶片而束手就擒,反而在被斷供後激發出了驚人的技術創新能力。而“遏制派”的策略同樣遭遇挫敗——即便在最嚴格的出口管制下,中國大陸企業仍通過演算法最佳化、架構創新和可能的走私管道,實現了技術突破。正如智庫Stimson Center的分析所言,出口管制的“卡脖子”假設本身就是一個謬誤——每一次限制都會留下縫隙和漏洞,而目標國家的適應和創新能力往往被嚴重低估。更值得警惕的是,這種封鎖正在催生一個危險的結果:“設計出去”(designing out)。當美國技術被完全排除在外時,中國大陸企業別無選擇,只能開發完全繞過美國技術的替代方案。華為用麒麟9000s晶片替代高通,導致高通2024年損失6000萬套晶片銷售,就是一個典型案例。長期來看,這種“設計出去”將永久性地侵蝕美國在全球半導體生態系統中的地位——當中國大陸建立起完整的國產替代體系後,即便美國日後放鬆管制,市場份額也難以奪回。布坎南的“大交易”建立在全面遏制戰略能夠成功的假設之上,但現實已經在反覆證明,這個假設正在崩塌。能源幻覺與基礎設施的政治死結“大交易”的第一個支柱是政府為AI產業提供充足的能源基礎設施。布坎南在文中引用的資料令人震撼:到2028年,美國AI產業僅新增電力需求就將達到500億瓦,相當於整個阿根廷的用電量,資料中心可能消耗美國電力產量的12%。與此形成鮮明對比的是,中國大陸每年新增電力容量達12%,而美國在2005至2020年間幾乎沒有新增淨電力。這個對比看似有力,實則掩蓋了一個更深層的問題:為什麼美國在過去二十年間幾乎沒有新增電力?答案並非技術能力不足,而是美國社會在能源政策上陷入了一個幾乎無解的政治死結。一方面,任何大規模的新建電廠項目——無論是傳統化石能源還是核電——都會面臨環保團體、地方社區和監管機構的多重阻撓。美國的環境影響評估流程可以讓一個電廠項目耗費十年以上時間仍無法開工。另一方面,即便是清潔能源項目,也面臨著“不要建在我家後院”(NIMBY)效應的困擾。加州在可再生能源方面走在全美前列,但其電網卻經常因為峰值負荷而陷入危機,而新建輸電線路的項目同樣被環保和土地糾紛困住。布坎南樂觀地認為,AI驅動的能源繁榮將創造就業、加速清潔能源開發,實現“無碳化營運”。但這種敘事忽略了一個殘酷現實:在美國當前的政治生態下,任何大規模基礎設施建設都會遭遇曠日持久的黨派爭鬥、司法訴訟和監管審批。川普政府宣佈的5000億美元Stargate項目看起來宏大,但如果我們回顧川普第一任期內承諾的基礎設施投資有多少真正落地,就不難理解這些承諾的可信度。美國電力短缺狀況(@華盛頓大學)更諷刺的是,當前美國政治氛圍下,對AI的態度本身就充滿分裂。一部分人將AI視為新的經濟引擎和國家安全工具,另一部分人則擔心AI導致失業、隱私侵犯和社會不平等。在這種背景下,要求政府為AI產業大規模投資能源基礎設施,本身就可能引發激烈的政治反彈。那些在鏽帶州失去工作的選民,那些被高房價和生活成本壓得喘不過氣的中產階級,憑什麼要為矽谷科技巨頭買單,幫助他們獲得更多電力來訓練AI模型?中國大陸的優勢恰恰在於其政治體制能夠快速調動資源實施大規模基礎設施建設。當決策者確定AI是戰略重點時,電廠、資料中心和配套設施能夠以驚人的速度上馬。這不是單純的技術問題,而是治理模式的差異。布坎南的“大交易”假設美國政府能夠提供類似的支援,但這個假設本身就忽視了美國政治體制的結構性制約。人才政策的內在矛盾“大交易”的第二個支柱是維持國際人才管道。布坎南正確地指出,70%的頂級在美AI研究人員出生在國外,65%的領先美國AI公司至少有一位移民聯合創始人。但他對人才政策面臨的困境卻語焉不詳。川普政府在移民政策上的立場與布坎南的設想存在根本衝突。將H-1B簽證費用提高到10萬美元,大幅收緊國際學生入學政策(2025年可能導致國際學生入學率下降30%-40%),這些措施的政治邏輯與“保持AI人才流入”完全相悖。但問題的關鍵在於:這些移民政策並非出於無知或短視,而是回應了美國社會中一股強大的民粹主義情緒。對許多美國選民而言,保護美國就業、防止移民搶走機會是比維持AI領先地位更直觀、更緊迫的關切。當布坎南談論引進更多外國AI人才時,政治現實是,這種政策會被解讀為“讓外國人來搶美國人的工作”。技術精英和政策制定者可以用國家安全和經濟競爭力來論證開放移民的必要性,但這套話語在政治市場上的說服力遠不如美國優先來得有力。更深層的矛盾在於,布坎南一方面希望政府幫助AI產業獲得更多國際人才,另一方面又主張將AI深度整合進國家安全體系。但任何有過安全審查經驗的人都知道,涉及國防和情報的項目對人員背景有極其嚴格的要求。當AI越來越多地被用於軍事和情報用途時,如何平衡人才開放性和安全審查的嚴格性?那些來自對手國家的研究人員——包括大量來自中國大陸的AI專家——是否還能參與最前沿的AI研發?布坎南似乎希望魚與熊掌兼得:既要保持美國作為全球AI人才磁石的地位,又要加強對AI技術的國家安全管控。但這兩個目標存在內在張力。中國大陸正在積極招募AI專家回國,而美國日益收緊的移民政策和日益政治化的科研環境,可能會加速這種人才回流。當美國大學裡的中國大陸留學生發現自己無論多麼優秀都難以獲得工作簽證,當他們的研究因為敏感性而受到限制時,選擇回國就成了理性選擇。而這正是布坎南所擔心的人才外流。政府-產業合作的結構性障礙“大交易”設想的核心是政府與科技行業建立深度合作關係。但這個設想面臨一個尷尬的現實:雙方之間存在著深刻的互不信任。從科技行業的角度看,政府意味著繁瑣的監管、緩慢的決策流程和對商業創新的束縛。矽谷文化崇尚“快速行動,打破陳規”(Move fast and break things),而政府系統的特點恰恰是謹慎、官僚和風險規避。更重要的是,科技公司擔心與政府深度合作會限制它們的商業自由。如果將AI系統深度整合進國家安全體系,這意味著更嚴格的出口管制、更多的安全審查、更少的國際市場機會。對那些在全球營運的科技巨頭而言,這是一個巨大的代價。從政府的角度看,科技公司則是一群難以管束、唯利是圖、不考慮國家安全的商業實體。OpenAI、Google、Meta這些公司都曾因為與軍方和情報機構的合作項目引發內部員工抗議。2018年,Google員工成功迫使公司退出了與國防部的Maven項目。這種企業內部對軍事合作的牴觸,讓政府對科技公司的可靠性深表懷疑。布坎南在白宮任職期間主導的一些政策,恰恰體現了這種張力。拜登的AI行政命令要求科技公司自願做出安全承諾,但這些承諾大多停留在原則層面,缺乏強制約束力。而當政府試圖實施更嚴格的監管時,科技公司又會動用強大的遊說力量來阻撓。這種貓捉老鼠的遊戲,很難想像能夠昇華為布坎南所設想的“大交易”式的戰略夥伴關係。更根本的問題在於,“大交易”假設政府和產業能夠就AI的發展方向達成一致。但實際上,雙方對許多核心問題存在嚴重分歧:AI應該多大程度上開放?誰應該控制最強大的AI系統?AI帶來的經濟收益應該如何分配?AI技術應該向那些國家和實體出口?在這些問題上,政府和科技公司的利益遠非完全一致,而且內部也存在嚴重分歧。要在這樣的基礎上達成一個覆蓋能源、人才、國家安全等多個維度的“大交易”,難度之大可想而知。時間的殘酷性與政策的惰性布坎南正確地指出,AI進步速度極快,政策制定者必須在極短時間內做出重大決策。但他的“大交易”卻要求完成一系列在美國政治體制下通常需要數年甚至數十年才能實現的任務:大規模能源基礎設施建設、移民政策根本性改革、政府-產業關係的深刻重構、國家安全體系的全面AI化。這裡存在一個根本性的時間錯配:AI技術的演進以月為單位,而美國政治體制的變革以年甚至十年為單位。在拜登任期內,布坎南主導的AI行政命令確實取得了一些進展,建立了AI安全研究所等機構,推動了一些自願承諾。但這些成就與“大交易”設想的宏大目標相比,幾乎微不足道。而現在,川普政府正在系統性地拆除拜登時期建立的許多AI治理框架,包括放鬆晶片出口管制——這正是布坎南最擔心的事情。政治周期的不穩定性使得任何長期戰略都難以為繼。一個政府費盡心力建立的政策框架,可能在下一個政府上台後被全盤推翻。在這種情況下,要求政府和產業就一個需要十年、二十年才能見效的“大交易”達成共識,無異於痴人說夢。中國大陸的體制優勢恰恰在於其政策的連續性和長期性——當中國大陸將AI確定為戰略重點時,這個戰略可以持續數十年不變,資源投入也能夠保持穩定。美國的民主制度有其獨特價值,但在需要長期戰略規劃的技術競爭中,這種制度的弱點暴露無遺。布坎南的“大交易”本質上是一個防禦性戰略,它的出發點是“防止失去領先地位”而非“創造新的突破”。這種心態本身就反映了一種焦慮和不自信。當一個國家的AI戰略主要由防止對手超越而非創造革命性創新驅動時,它實際上已經喪失了先機。中國大陸的AI戰略雖然也包含趕超美國的目標,但更重要的是建立自主創新能力和獨立的技術生態。DeepSeek的成功正是這種戰略思維的體現——與其被動等待美國放鬆封鎖,不如主動探索新的技術路徑。難以癒合的裂痕最終,“大交易”之所以難以實現,根源在於它試圖彌合的那些裂痕可能本就無法癒合。美國社會在AI問題上的分裂是深層次的。技術精英認為AI是下一個增長引擎,必須不惜一切代價保持領先;普通民眾擔心AI導致失業和不平等;環保主義者反對為AI建設消耗巨量資源的資料中心;民族主義者要求限制移民和技術出口;國際主義者強調開放合作的重要性。這些立場之間的矛盾,不是一個“大交易”就能調和的。政府和科技公司之間的不信任是結構性的。科技公司希望政府提供支援但不要干預,政府希望科技公司服從國家利益但又不完全信任它們。這種關係更像是一種脆弱的共生而非穩固的夥伴關係。美國和中國大陸的競爭是長期的、全方位的,不可能通過單一的技術封鎖或單一的政策框架來解決。中國大陸的制度優勢在於能夠集中資源和長期規劃,美國的制度優勢在於創新活力和市場機制。但當競爭進入到需要國家動員和長期規劃的階段時,美國的制度優勢可能反而成為劣勢。布坎南的“大交易”建立在一個過於樂觀的假設之上:只要政府和產業達成正確的協議,美國就能夠延續其在AI領域的領先地位。但現實可能更加殘酷——不是美國不夠努力,不是政策不夠好,而是歷史的鐘擺正在擺向另一邊。技術霸權從來不是永恆的,曾經的領先者往往會在新的技術範式轉換中失去優勢。AI可能正是這樣一次範式轉換,而“大交易”式的修補方案,或許只是延緩衰落而非逆轉趨勢。在DeepSeek證明封鎖無效、川普政府拆除拜登時期的AI治理框架、美國社會在移民和能源政策上陷入僵局的當下,布坎南的“大交易”更像是一個精緻的政策幻想,而非可行的戰略方案。這並非說布坎南的診斷不對——美國在AI領域確實面臨能源、人才、安全整合等多重挑戰。問題在於,他開出的藥方需要一個在當前美國政治現實中幾乎不存在的條件:高度共識、長期承諾、政府效率和超黨派合作。當這些前提條件都不具備時,“大交易”就只能停留在紙面上,成為又一個華盛頓政策圈裡的美好願景,而非能夠真正塑造現實的戰略行動。 (心智觀察所)
V3.2逼近Gemini 3,DeepSeek硬氣喊話:接下來我要堆算力了
就在上周,OpenAI前首席科學家、現SSI CEO Ilya Sutskever在最新播客訪談中拋出一個重磅觀點,過去五年的“age of scaling”正在走到頭,預訓練數據是有限的,單純用更多GPU堆更大模型,那怕再放大100 倍,也未必能帶來質變。所以我們又回到了以研究為核心的時代,只不過這次有了巨大的算力”,這一表態被視作對Scaling Law撞牆論的強力佐證。然而僅過了幾天,12月1日,DeepSeek用V3.2和V3.2-Speciale的發布,給了一個不同的答案。模型發布後,DeepSeek研究員Zhibin Gou在X上發文:「如果Gemini-3證明了持續擴展預訓練的可能性,DeepSeek-V3.2-Speciale則證明了​​在大規模上下文環境中強化學習的可擴展性。我們花了一年時間將DeepSeek-V3推向極限,得出的經驗是:訓練後的瓶頸需通過優化方法和數據來解決,而不是僅等待更好的基礎模型。」他還補了一句:“持續擴大模型規模、數據量、上下文和強化學習。別讓那些'遭遇瓶頸'的雜音阻擋你前進。”這是DeepSeek團隊少有的發聲,而這一幕頗有意味,當業界在討論Scaling Law是否撞牆時,DeepSeek用實打實的模型喊話,想證明Scaling沒死,只是換了戰場。雖然業界普遍認同後訓練的重要性,但敢把相當於預訓練成本10%以上的算力預算砸在RL上的企業仍屬少數。 DeepSeek是真正把這條路線工程化、規模化的代表。這次發布的兩個模型正是這條路線的產物,V3.2定位日常主力,對標GPT-5;Speciale定位極限推理,對標Gemini 3.0 Pro,並拿下四枚國際競賽金牌。技術報告Introduction部分有句話值得注意,「過去幾個月,開源社群雖然在持續進步,但閉源模型的性能軌跡正在以更陡峭的速度加速。差距不是在縮小,而是在擴大。」同時點出了當前開源模型的三個核心短板:過度依賴普通注意力機制導致長序列效率低、後訓練算力投入不足、Agent場景下的泛化能力差。但DeepSeek的態度很明確,問題有解,而V3.2就是他們給的答案。1V3.2:高效主力,把自我進化用在通用效率上V3.2是9月發布的實驗版V3.2-Exp的正式繼任者,目標是平衡推理能力與輸出成本。在推理類Benchmark測驗中,V3.2達到了GPT-5水準:AIME 2025數學競賽93.1%(GPT-5為94.6%),HMMT 2025二月賽92.5%(GPT-5為88.3%),LiveCodeBench二月評測83.3%(GPT-5為88.3%),LiveCodeBench二月評測83.3%(GPT-5%)。相較於Kimi-K2-Thinking,V3.2在保持相近性能的同時,輸出Token量大幅降低-嚴格的Token約束和長度懲罰讓它更省、更快、更便宜。V3.2在架構上的核心改變是引入了DeepSeek Sparse Attention(DSA)。這項技術在9月的V3.2-Exp中首次亮相,用稀疏注意力取代傳統的全量注意力,將計算複雜度從O(L²)降到O(Lk)。V3.2-Exp上線兩個月後,DeepSeek透過多個維度確認了DSA的有效性:標準Benchmark與V3.1-Terminus基本持平,ChatbotArena的Elo評分接近,第三方長上下文評測反而高出4分。這意味著DeepSeek在底層架構創新上走對了路,稀疏注意力可以在不損失效能的前提下大幅提升效率。V3.2還有一個重要突破,這是DeepSeek首個將「思考」與「工具調用」融合的模型。先前的推理模型(包括OpenAI的o系列)在思考模式下無法調用工具,V3.2打破了這個限制,同時支持思考模式和非思考模式的工具調用。技術報告中篇幅最大的部分是Agent能力的訓練方法。 DeepSeek建構了一套大規模的Agent任務合成管線,涵蓋1800+環境和85000+複雜指令。這套流水線的核心設計哲學是「難解答,容易驗證」。以報告中的旅行規劃任務為例:複雜限制組合讓搜尋空間龐大,但驗證方案是否符合限制卻很簡單。這種特性天然適合強化學習,模型可以透過大量嘗試獲得明確的對錯回饋,不需要人工標註。效果驗證很有說服力,只用合成資料做RL的模型,在Tau2Bench、MCP-Mark等Agent基準上顯著提升,而只在真實環境做RL的模型,這些指標幾乎沒有變化。值得注意的是,官方特別強調,V3.2並沒有針對這些測試集的工具進行特殊訓練,但在Agent評測中仍達到開源最高水準。這說明模型的泛化能力是真實的,不是靠刷榜優化出來的。2V3.2-Speciale:極限推理,把自我驗證用在高階邏輯上Speciale是V3.2的"長思考增強版"。如果說V3.2透過嚴格的Token約束來優化效率,Speciale則反其道而行-放寬長度限制,鼓勵模型進行更深度的推理。技術報告中的Table 3很有趣:同樣的任務,Speciale的輸出Token量顯著高於其他模型。例如在AIME 2025上,GPT-5 High輸出13k tokens,Gemini 3.0 Pro輸出15k,而Speciale輸出23k;在Codeforces上差距更大,Speciale輸出77k tokens,是Gemini的3.5倍。雖然Speciale的Token輸出量極大,但得益於DeepSeek的定價策略和DSA帶來的效率提升,即便算上這些額外的"思考過程",其最終使用成本依然碾壓對手:比GPT-5便宜約25倍($0.4 vs $10),比Gemini 3.0 Propus Pro30約25倍($0.4 vs $10),比Gemini 3.0 Propus Pro30約30 月($25454545)。Speciale的意義不只是“讓模型想更久”,而是驗證了一個重要的假設,對推理“過程”的監督,能否從數學證明泛化到更廣泛的領域?上周剛發布的DeepSeekMath-V2提出了「生成器-驗證器」雙模型架構,生成器負責產出證明,驗證器評估證明的嚴謹性和完整性,驗證結果作為reward訊號回饋給生成器。這套機制的關鍵創新在於如何保持“生成-驗證差距”,當生成器變強後,驗證器也需要同步提升。 DeepSeek的解決方案是動態擴展驗證計算,以更多計算資源自動標註「難以驗證」的證明,持續合成高難度訓練數據,實現模型的可持續自我進化。Speciale整合了Math-V2的資料集和獎勵方法,不僅追求最終答案正確,更追求推理過程的嚴謹性和完整性。它將這套原本用於數學定理證明的“過程監督”,成功地遷移到了程式碼生成和通用邏輯任務。 這意味著「自我驗證」不是數學領域的特例,而是一種可泛化的能力提升範式。結果也相當不錯:3不缺算力的DeepSeek會帶來什麼?有網友評論說,每篇DeepSeek論文最重要的部分永遠是「結論、限制與未來工作」部分。這次的技術報告也不例外,他們說:“首先,由於總訓練FLOPs較少,DeepSeek-V3.2 的世界知識廣度仍落後於領先的閉源模型。我們計劃在後續版本中,通過擴大預訓練算力來彌補這一知識差距。”報告中承認,由於總訓練FLOPs 較少,V3.2 的世界知識廣度仍落後於Gemini 3.0 Pro。但DeepSeek 的選擇並不是等待一個更大的基礎模型,而是先把方法論打磨到極致,用一年時間,透過合成資料、自我驗證和大規模RL,把後訓練的上限真正跑出來。從這次的發布也能看出這條路線的成果:V3.2 將「自我進化式工程」(高RL 預算、合成資料閉環)應用在通用效率上;Speciale 則把過程獎勵與自我驗證機制推向高階邏輯推理。兩者共同指向同一個方向:未來的模型不再依賴人力堆砌,而是依靠自我博弈來實現持續演進。下一步就是擴大預訓練算力來彌補知識差距。這也讓人聯想,一是DeepSeek真把算力補上來,會發生什麼事?二是,這些新的算力資源從那裡來?回頭看過去一年的技術路徑,Janus的多模態統一架構、OCR的視覺壓縮記憶、NSA的長上下文效率、Math-V2的自我驗證……這些創新都是在V3這個基座上迭代出來的。那麼,一個參數更大、訓練FLOPs 更多的V4,再疊加這些已經驗證有效的方法論,會出現怎樣的化學反應?一個合理、甚至是大膽的預期是,當V4 或R2 到來時,我們看到的可能已經不是傳統意義上的“更強語言模型”,而是一個能夠感知多模態環境、具備更長期記憶、並能在真實交互中持續進化的系統。如今發生在合成環境中的自我博弈,未來可能會延伸到真實環境的線上學習。而在算力上,在今天輝達頻繁形容其中國市場份額已經歸零的背景下,繼續scaling需要的算力資源看起來不太能夠靠H800們提供,下一代模型會用什麼樣的更大的算力資源訓練,如果這些算力缺口可以被補齊,完全形態的DeepSeek下一代模型會是什麼樣?這些顯然更重要,也更讓人產生聯想。(矽星人PRO)
硬剛Gemini 3.0 Pro! DeepSeek V3.2實測性能確實猛,但這三個「硬傷「不得不防
矽谷早晨驚醒,發現追兵已至。當中國對手拿出了旗鼓相當的產品,卻打出「完全免費」的底牌時,這場仗該怎麼打?12月1日,DeepSeek帶著他們的全新“雙子星”—— DeepSeek-V3.2正式版(日常推理的“打工仔”)和DeepSeek-V3.2-Speciale(專攻推理的“頂流學霸”)殺回來了:奧賽金牌手軟,推理能力比肩,直接開啟了AIAI客戶時代的“谷歌免費”。「人們以為DeepSeek只是一次性突破,但我們以更大規模回歸。」計畫貢獻者陳方在社群媒體上的這句「豪言」,無異於向全球AI圈下了一封「硬核戰書」。網路上瞬間“炸鍋”,無數用戶湧入評論區,甚至有人高呼:“ChatGPT安息吧!”YouTube知名SEO部落客朱利安·戈爾迪(Julian Goldie)在評測後直言,這款剛發布的模型,在幾乎每一項頂級推理和編程測試中,都對那些收費昂貴、壁壘森嚴的閉源巨頭發起了強有力的挑戰。DeepSeek-V3.2不僅在程式設計競賽中榮獲金牌,更輕鬆解決奧賽級數學難題。更瘋狂的是:它完全開源,支援直接本地運行,成本甚至僅為GPT-5的1/25。正如網友所驚呼:「有些人還沒意識到這次發布的分量有多重!」它不僅是一項技術突破,更是對「開源比閉源落後8個月」這一說法的當頭棒喝。現在,讓我們一起研讀「剛剛宣布」的白皮書和技術報告,看看這個V3.2究竟是如何成為「頂級AI時代的免費入場券」的。有網友評論認為:中國在頂尖模型應用層的「追趕窗口」已經基本關閉,中美AI競賽已進入「貼身肉搏」的白熱化階段。你還在支付昂貴的API費用?不好意思,別人已經開著免費的「頂配超跑」上路了。性能狂飆:頂級「學霸」Speciale的「奧賽金牌收割機」模式戈爾迪表示,這次發布的焦點無疑是DeepSeek-V3.2-Speciale。這個擁有6850億參數的“大聰明”,直接帶著一疊金光閃閃的“成績單”登場,讓所有閉源模型都感受到了來自“別人家孩子”的壓力。它在幹什麼?它在「收割金牌」中:· 2025年國際數學奧林匹克競賽(IMO):Speciale豪取35/42分,穩拿金牌· 國際資訊學奧林匹克競賽(IOI):拿下492/600分,再度拿下金牌· ICPC世界總決賽:一口氣解出10/12題,直接鎖定總排名第二有網友看到這串成績直接“原地起飛”:“IMO、CMO、ICPC金牌?🏅 DeepSeek的Speciale不僅僅是突破極限——它簡直是顛覆極限!這種競技成就足以引起整個領域的關注。絕對震撼!🚀”在與閉源巨頭的正面PK中,Speciale 更是打出了“王牌”,直接把GPT-5和Gemini 3.0 Pro“摁在地上摩擦”。它用事實證明:開源模型也能成為頂尖層次的代名詞。· 在美國數學競賽AIME 2025上:Speciale 變體通過率達96.0% ,高於GPT-5-High 的94.6% 和Gemini-3.0-Pro 的95.0%· 在哈佛-麻省理工HMMT 數學競賽:Speciale 得分99.2%,超越Gemini 的97.5%同時,標準版V3.2模型在AIME 和HMMT 分別得分93.1% 和92.5%,雖略低於前沿模型,但在計算資源消耗上顯著較少。在程式設計基準測試中,DeepSeek-V3.2在SWE-Verified 上成功解決了73.1% 的真實軟體錯誤,與GPT-5-High 的74.9%旗鼓相當。在衡量複雜編碼工作流程的Terminal Bench 2.0上,其得分為 46.4%,顯著高於GPT-5-High 的35.2%。這意味著它在處理實際複雜程式碼工作流程時,思路更清晰、效率更高,簡直就是程式設計師的「頂級外掛」。有網友評論道,DeepSeek 的新模型非常強大,性能已經能和GPT-5、Gemini 3.0這些頂級閉源模型正面競爭了。尤其是它在數學競賽等推理任務上的表現,標誌著開源模型達到了新高度。既然免費開源的模型已經這麼好,再花錢用閉源API 就不划算了,這宣告了開源時代的全面到來。科技白皮書「大揭密」:打破性能魔咒的三大突破DeepSeek 團隊在白皮書中坦誠了一個核心痛點:儘管開源社群在努力,但閉源專有模型(如Anthropic、OpenAI)的效能提升速度更快,二者之間的效能差距非但沒有縮小,反而看似在擴大。但V3.2就是來終結這個「魔咒」的。它的成功並非靠簡單堆疊算力,而是基於三大革命性的技術突破。戈爾迪對此進行了總結:1. 更聰明的注意力機制傳統大模型在閱讀長文件時之所以“慢且貴”,是因為它們必須採用更複雜的注意力機制,時刻關注所有內容,導致成本呈指數級暴增。 DeepSeek 的解決方案是稀疏注意力(DSA)配合“閃電索引器”。DSA 不再掃描所有Token,而是透過「閃電索引器」快速檢索並只挑選最重要的部分進行聚焦。這就像是AI 快速瀏覽一本厚書,只抓住精華要點,而不是逐字閱讀。因此,即使在處理128K 的超長上下文時,推理速度也提升了約3.5倍,記憶體佔用減少70%,同時Token 消耗量顯著降低,大大提升了成本效益。2. 「砸錢」後訓練大多數AI 公司在模型主訓練(預訓練)完成後,只會投入一小部分預算進行後訓練(微調)。而DeepSeek 直接「財大氣粗」地將其預訓練總預算的10% 以上,全部投入了基於強化學習的後訓練中。這種大規模的投入和專門的強化學習技術,大大提升了模型的穩定性和最終能力。他們不再滿足於“能用”,而是追求“專家級性能”。3. 智能體合成訓練:拒絕“金魚記憶”V3.2的Speciale 模型是專為智能體(Agent)能力而生的。它的核心優勢是「思考鏈」方法,可以多次呼叫工具而不必重新開始。這種訓練的目的是消除傳統AI 在跨工具調用時「丟失思路」的頑疾。為了實現目標,DeepSeek 創建了一個專門的合成訓練流程,旨在改善工具使用能力。這使得V3.2原生支援「推理加工具使用」,完美適用於複雜的多步驟工作流程。親身體驗:免費跑「金牌模型」的誘惑與現實戈爾迪認為,最瘋狂的部分在於,你完全可以在當地運行它。DeepSeek V3.2在託管網站Hugging Face 上已經完整開源,模型權重、聊天模板、本地運行指南一應俱全。對於文件助理建構者、智能體系統開發者和長上下文聊天機器人設計師來說,這簡直是天降橫福。極客硬派可以直接去Hugging Face 或GitHub,使用VLLM、Kaggle、Google Colab 或Transformers 函式庫,動手折騰程式碼,本地運行。嚐鮮體驗派則可造訪DeepSeek 官網,直接在網頁端體驗V3.2的「深度思考」與「非深度思考」模式。然而,我們也要保持清醒:如實測所見,目前V3.2還沒完全整合到像Ollama 或Open Router 這樣方便的第三方平台。如果你不是“代碼狂魔”,你必須經歷“複雜的編碼工作”才能本地部署,那麼它的便利性確實打了折扣。戈爾迪吐槽道:“老實說,對我來說,如果使用起來不那麼方便——比如必須去Hugging Face,然後折騰代碼等等——我可能不會經常使用,因為這會耗費我大量時間。”但如果它能直接整合在聊天介面裡,戈爾迪表示會很有興趣測試並看看它的表現。優勢與限制:五大爽點與三大局限當然,再強的模型也有其「成長的煩惱」。戈爾迪總結了DeepSeek V3.2的五大優勢(爽點):能夠處理超大上下文(DSA 機制紅利)、推理高效(速度快如閃電),在推理和工具使用方面表現卓越(Agent 能力強大),具備專家級性能(基準測試中擊敗付費模型),並且完全開源。不過,它也有三大限制:在近期世界知識方面仍有滯後(需要外部檢索RAG 來「補課」),標記效率不夠優化,且在極其複雜的推理上仍需打磨。在戈爾迪看來,V3.2應該被視為“推理和工作流引擎”,而不是知識問答機。如果你是文件助理建構者、智能體系統開發者或長上下文聊天機器人設計師,它就是你苦候多時的「神兵利器」!DeepSeek V3.2的發布,不僅是一個新模型,更是一個歷史性的轉捩點。它用實打實的效能數據和慷慨的開源策略,宣告了:開源與閉源之間的效能差距正在迅速抹平。(網易科技)