#Deepseek
V4 發佈前的 DeepSeek:特質、組織和梁文鋒的獨特目標
有人離開,更多人留下。DeepSeek 正處在一個變化的關口,從 2025 年下半年至今,明確已離開、找到新去處的 DeepSeek 成員有:去年底被騰訊姚順雨挖走的王炳宣,他是 DeepSeek LLM(DeepSeek 第一代大語言模型)的核心作者,此後參與歷代模型訓練。約在春節前後離開的魏浩然,他是 DeepSeek-OCR 系列的核心作者,可能會入職某大廠。近期正式離職的郭達雅,他是 DeepSeek-R1 的核心作者,可能會入職某大廠。以及 2025 年早些時候離職進入退休狀態的阮翀,他在今年 1 月官宣加入自動駕駛創業公司元戎啟行;阮翀是從幻方時期就加入的老成員,是 Janus-Pro 等 DeepSeek 多模態成果的核心貢獻者。DeepSeek 此前並未融資,沒有明確的公司估值。當其它 AI 公司市值或估值高漲,梁文鋒正在想辦法回答團隊成員的疑問:公司到底值多少錢?這關係著員工簽的期權協議到底價值幾何。從 2025 年秋天起,梁文鋒也開始更多提產品化和商業化。DeepSeek 已有小數十人的產品團隊,但尚未涉足 AI 程式設計、通用 Agent 等熱門應用方向,在 C 端仍只有典型的 Chatbot 產品。梁文鋒的新課題還有管理規模。DeepSeek 的人數已超過幻方,是他管過的最大的組織。籠罩以上多重變化的是,DeepSeek V4 仍未正式發佈。其實在 26 年 1 月左右,V4 的一個小參數版本已給到了一些開源框架社區開始做適配。按此前相對樂觀的預期,大參數版的 V4 原本可能在 2 月中旬春節前後發佈和開源。據瞭解,DeepSeek V4 有可能會在 4 月發佈。有人離開,更多人選擇留下。DeepSeek 在調整,但也有諸多不變的特質。它是全球僅有的 “不卷” 的核心 AI Lab。當 Google、OpenAI、xAI、字節跳動等中美公司的核心 AI 開發人員每周工作 70~80 小時時,平日裡 DeepSeek 的多數員工會在下午 6 點~7 點左右離開公司,他們早上也不打卡。梁文鋒認為,一個人一天能高品質輸出的時間很難超過 6~8 小時。DeepSeek 沒有明確的績效考核和 DDL(截止時間)。這個精簡而人才密度極高的組織依然延續 “自然分工”,研究員可自由組隊或獨自鑽研一些新想法。“除了主線之外,DeepSeek 也有人在做一些可能一年都不會有成效的長期研究。”“DeepSeek 是一個真心想做研究的人,在國內,甚至全球能找到的最好的地方。” 有接近 DeepSeek 的人士說。當然,DeepSeek 還有一個特點:神秘。尤其 2025 年之後,除了公開發佈技術報告外,從創始人梁文鋒到團隊成員集體 “沉默”,在 AI 從業者活躍的社交媒體或社區裡很難聽到他們的聲音。這篇報導裡,我們呈現了從各種管道瞭解到的 DeepSeek 的特點、工作重心、組織運轉方式,和這個不到 200 人的組織正在發生的變化。這一切的源頭,都是梁文鋒為 DeepSeek 設立的獨特目標。梁文鋒其人:做少數事,做到極致梁文鋒的 AI 目標遠早於 DeepSeek 成立的 2023 年。2016 年,AGI 的提出者、DeepMind 創始人哈薩比斯曾組建量化交易團隊,試圖給當時想從 Google 獨立的 DeepMind 創收,結果沒賺到錢。同一年,浙大本碩畢業的梁文鋒做量化投資已經 8 年。他在 2015 年創立幻方,2016 年開始用 GPU 跑深度學習實盤交易,在 2017 年底實現 “幾乎所有交易策略 AI 化”,在 2019 年開始建立幻方的第一個算力叢集,有 1100 張 GPU 的 “螢火 1 號”。也是 2019 年,幻方 AI(幻方人工智慧基礎研究有限公司)正式註冊成立。現在在小米負責 AI 的羅福莉和近期加入元戎的阮翀都是在這之後加入幻方,後在 2023 年轉入 DeepSeek。作為一個不到 30 歲就財富自由的人,梁文鋒的生活簡單而神秘。在周圍人的印象中,他會好多天穿同一件衣服。他在杭州曾長期住酒店,在多數 DeepSeek 研發人員所在的北京則租房住。他身材精瘦、有運動習慣,被人所知的愛好是徒步等戶外運動。黃仁勳會邀請輝達員工去家裡做客,喝小酒、聊家常,開心地展示跑車。而梁文鋒不參與季度團建活動,很少和成員聚餐,年底大團建也只在講話時露面,不會參與全程。2022 年,幻方一位員工 “一隻平凡的小豬” 個人向慈善機構捐助 1.38 億元。後來很多人猜這只小豬就是梁文鋒。幻方工作人員的回覆是:“員工捐款均是匿名,公司內部也不知道小豬的真實身份。”在工作範疇裡,梁文鋒只做少數事。他不做多數初創公司 CEO 做的一些事,如融資。2023 年,梁文鋒小範圍見過一些投資人。但據我們瞭解,他提出了一個不常規的要求:類似 OpenAI 與微軟的投資協議,梁文鋒希望投資方接受一個回報上限。這一輪見下來,沒有機構投資 DeepSeek。之後兩年,中國大模型融資洶湧,頻現數億美元大單輪,梁文鋒卻不再見投資人了,甚至不建立新的聯絡。即使不在融資窗口,大部分創始人也不會拒絕認識一下一線機構合夥人,而梁文鋒拒絕了多數此類請求。梁文鋒幾乎把所有時間投入到他認為應該聚焦的少數事上,做得細緻、做到極致。DeepSeek 此前成功的關鍵之一是 “力出一孔”,明確以語言模型為更高優先順序,沒有做多模態生成等熱門方向。在選定的主線上,梁文鋒會 “hands on” 地深入細節。他從不同背景的團隊成員身上學習演算法、架構、Infra、資料的知識,會自己參與模型和產品的細節討論。見過梁文鋒的不少人提到,他沒有 CEO 或所謂天才的 “氣場”,更像一個研究員,他和人談論最多的是具體技術問題。綠洲資本創始合夥人張津劍曾在《那些活出來的人中》分享了一個小故事,他問自己投資的 MiniMax 創始人閆俊傑:“有比你更專注的人嗎?” 閆俊傑說有一次約一位沒見過的朋友吃飯,到早了,看到一位穿 T 恤的小哥,以為是助理。對方開始沒有自我介紹,問了閆俊傑很多技術問題。過了半小時,閆俊傑說:“梁總什麼時候來?” 對方說:“我就是梁文鋒”。DeepSeek 組織:扁平、交叉分工、不加班與梁文鋒的風格相應,DeepSeek 的組織極其扁平、各環節交叉分工、謹慎擴張規模、不加班。創立幻方時,梁文鋒有合夥人,而 DeepSeek 沒有二把手,尤其在研究團隊,只有梁文鋒和其他研究員兩個層級。梁文鋒做重大決定,承擔最多結果。這部分研究團隊現在約有 100 多人,它像一個大型實驗室。主要在 2000 年前後出生的 DeepSeek 研究員們習慣稱 1985 年出生的梁文鋒為 “梁老闆”。這個老闆更接近導師:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。梁文鋒本人參與最多的是基模架構團隊,會與團隊深入討論後確定每一代基模的架構定版。這個團隊有小幾十人,他們是預訓練的主力。與基模架構密切相關的是 Infra 和資料團隊,各有小幾十人。Infra 團隊在一些公司裡更像完成演算法需求的 “內部乙方”, 而 DeepSeek 的 Infra 團隊會在模型訓練前的定版階段就參與討論、給出建議。這幾個模組間的緊密合作使 DeepSeek 的團隊界限沒那麼涇渭分明,形成了 “交叉分工”。這其實是最符合模型訓練特點的協作形式,因為在模型實驗和定版階段,就要考慮資料選擇和 Infra 實現。梁文鋒是串起這些不同模組的探測器和粘合劑,他會出席每一個團隊各自的會議,瞭解全域進度和卡點。DeepSeek 大部分團隊的周會也向其它團隊的人開放,可跨組參會。深入細節的一號位風格和自發形成的緊密協作都很難在大組織裡實現。所以 DeepSeek 會很謹慎地擴大核心研發團隊的規模。在全球 AI 圈都非常特異的一點是,DeepSeek 不加班。他們不打卡、沒有明確的績效考核,平日多數成員會在 6 點~7 點左右離開公司。DeepSeek 給員工免費提供一些下班後福利,如球類課程、運動場地報銷等。梁文鋒認為:一個人每天能高品質工作的時間很難超過 6~8 小時。加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源,得不償失。在人員構成上,DeepSeek 此前幾乎不社招,以應屆生和實習生留任為主。2025 年初,《晚點》曾梳理當時參與過 DeepSeek 三代模型(LLM、V2、V3&R1)的 172 名研究者(包括實習生),並找到了其中 84 人的履歷:超 7 成的人是本科生和碩士生,超 7 成的人小於 30 歲。在 V3 和 R1 之前,DeepSeek 是以大廠約 1/10 的人數,約 1/2 的人均工作時間,以極高的專注和聚焦,躋身全球大模型第一梯隊。但隨著觸達頂尖 AI 能力需要探索的方向越來越多,繼續保持這種組織規模、溝通方式和協作氛圍已越來越難。過去 15 個月,DeepSeek 繼續做自己,而外部世界急劇變化2025 年初 V3 和 R1 爆火後,DeepSeek  並沒有乘勝追擊放大招,而是沿著他們專注的方向繼續研發,已經公開的成果大致有三類:一是效率最佳化:極致壓榨 GPU 算力,提高單位算力能產出的智能。這包括 DeepSeek 在 2025 年初的開源周釋放的一整套訓練與推理 Infra,涵蓋推理 kernel、通訊庫、矩陣乘法庫和資料處理框架。(註:kernel 是在 GPU 上執行最底層計算的程式碼,用來實現矩陣乘法等核心運算。)還有對 “注意力機制” 的持續改進:如 25 年初的 NSA(原生稀疏注意力)和後續的 DSA(動態稀疏注意力)。加上更早時 V2 中的 MLA(多頭潛在注意力),它們的共同目標,是在不大幅增加算力的前提下處理更長的上下文。從 25 年 9 月底更新的 DeepSeek-V3.2 中還可以看到,DeepSeek 甚至把底層的算子庫從主流的 CUDA 和 Triton 語言換成了 TileLang。CUDA 是輝達提供的最底層語言,Triton 由 OpenAI 開源,TileLang 則是北京大學楊智團隊發起的開放原始碼專案。二是模型架構改進,如 26 年初發佈的 mHC(流行約束超連接),旨在提升大規模訓練中的穩定性;和在模型之外建構長期記憶的 Engram。外界普遍認為,mHC 會被用到 V4 的訓練中。三是一些 “非主流” 探索,如把文字轉成圖片,再輸入給模型的 DeepSeek-OCR,這個思路是讓模型按更接近人類 “看文字” 的方式理解段落與層級,提升對複雜文件的理解力。在 DeepSeek 內部,還有更多進行中的此類嘗試,包括持續學習、自主學習等。梁文鋒還在 2025 年招募了一些神經科學和腦科學背景的顧問,想探索更接近人腦的學習機制。而同期,外部 AI 環境在 2025 年至今急劇變化,最受關注的競爭主線有兩條:一是以 coding 能力為基礎的 Agentic 模型和應用。這是 Anthropic 和 OpenAI 目前競爭最激烈的主戰場,形成了 Opus 4.6 vs GPT-5.4 兩個最新模型,和 Claude Code vs Codex 兩個產品的對陣。年初至今爆火的 OpenClaw 小龍蝦也是 Agentic 應用的最新形態。二是多模態生成,這個領域因 “魔法效果” 屢次出圈:2025 年春天的 OpenAI GPT-4o ,秋天的 Google NanoBanana,再到 2026 年春節前的字節 Seedance 2.0。而視訊生成也與一個更前沿的方向有關,即 “世界模型”。DeepSeek 首先沒怎麼投入多模態生成,因為梁文鋒認為多模態生成不是智能的主線。在 Agent 方向上,DeepSeek-V3.2 強化了 Agent 能力,但 DeepSeek 的整體迭代頻次低於 R1 之後一度深感焦慮其它小虎。2025 年初至今,智譜、MiniMax、Kimi 分別已更新了 5 版、4 版和 3 版模型,針對 Agent 或 coding 強化。據 OpenRouter 資料,過去 30 天(2 月 24 日-3 月 26 日),通過 OpenRouter 呼叫的 OpenClaw 應用的模型 token 消耗前 10 中,6 個模型來自中國,DeepSeek-V3.2 排在第 12。(註:OpenRouter 更反映個人和中小開發者的使用情況,只能作為整體 Token 消耗的參考。)DeepSeek 的目標不是最主流的,有人離開、有人留下DeepSeek 的 “特立獨行”,和梁文鋒認同的 AGI 目標有關,除了追求大模型的智能上限外,他認為還有兩個很重要的工作:一是基於國產生態來做大模型。DeepSeek 會投入對國產 GPU 的適配,以解決高性能 GPU 供給受限的現實。比如他們在去年 8 月更新 V3.1 後提及,DeepSeek 採用的 UE8M0 FP8——這是一種資料壓縮格式——“是針對下一代國產晶片設計”。前文提到的用國產開放原始碼的 TileLang 替代 Triton 也是這類工作,能在基礎層更有主動權。在與 AI 從業者交流時,梁文鋒也曾提過這樣的假設:“能不能用現存的一部分算力,就實現現在所有的智能?”二是 “原創式創新”,做一些大廠或其它創業公司不會去試,不願去試的方向。比如 2024 年下半年,DeepSeek 就開始了 Janus 系列,嘗試統一多模態的理解和生成。DeepSeek 也做過 Prover 系列,探索形式化證明。還有 25 年的 OCR,以及內部在繼續做的持續學習和仿生人腦的探索。作為創始人,梁文鋒最在意的,不僅是模型效果本身,也包括追求效果的路上那些更本質、原創的發現。但這與外界現在對 DeepSeek 的部分期待並不匹配:一些人希望 DeepSeek 每次出手都像 R1 那樣石破天驚,這有些強人所難,也不符合技術規律。梁文鋒可以不在意外部期待,但他必須面對和處理內部期待。對更多年輕的研究員來說,做更多前沿研究,也需要承擔更多不確定性。更保險的路,是持續參與業界最強模型,在那些被關注的技術報告上署名,以及能有豐富的 GPU 資源支撐實驗和探索。除了榮譽和影響力,外界對 DeepSeek 成員的吸引力還有高額的財富承諾。DeepSeek 的絕對薪資不低,但外面給的更高。一些獵頭告訴我們,競爭對手開出了 “難以拒絕的數字”,“翻 2 到 3 倍問題不大”,“其他公司開出 8 位數(算股票或期權)總包”。新變化還有,MiniMax 和智譜上市、股價高漲,階躍、Kimi 的 IPO 也提上日程。這也讓一些 DeepSeek 成員對手中那份沒有明確標價的期權產生更多疑問。面對巨額邀約,更多人選擇留下。他們認可梁文鋒追求 AGI 的方式,願意做並非競爭驅動的探索;也習慣了 DeepSeek 相對寬鬆、從容的研究氛圍。近期外界的一些傳聞並不精準,DeepSeek 團隊雖有變化,但並沒有成組流失。“留下的人多少還是有些理想的。” 有接近 DeepSeek 的人士說,梁文鋒覺得在提升模型效率和性能的主線外,需要做一些當下回報不明確的方向,因為 “國外那些算力更多的公司,如 Google、OpenAI,內部肯定在試各種方向”。至今,DeepSeek 相對小的團隊和成立以來的透明、扁平的氛圍,讓成員之間依然可以自然分工:有時開始一個新方向,就是因為有三五個人都覺得一個 idea 不錯,然後就一起做了。這與梁文鋒 2024 年接受《暗湧》採訪時的描述相呼應:“我們一般不前置分工”,“每個人有自己獨特的成長經歷,都是自帶想法的,不需要 push 他……不過當一個 idea 顯示出潛力,我們也會自上而下地去調配資源。”“DeepSeek 是一個真心想做研究的人,在國內,甚至是全球能找到的最好的地方。” 有接近 DeepSeek 的人士說。改變世界,也被世界改變對 AGI 目標的獨特認知和拆解,是 DeepSeek 的可貴之處,也是它如今面臨內部張力的原因。因為梁文鋒看重的生態建設和原創探索,與業界普遍把 “保持最強” 視為第一優先順序,是重合但並非完全一致的目標。而且大模型發展到今天,“強” 和 “原創性” 的標準越來越模糊而主觀。Benchmark 分數已不能完全衡量模型水平。尤其進入 Agentic 模型競爭後,產品觸手及其帶來的長尾使用案例與多樣化資料變得更重要了,這恰恰是專注於模型研發的 DeepSeek 此前沒有太多投入的地方。即將發佈的 V4,大機率仍是開源最強模型,但很難是碾壓級的強。因為現在不同場景的不同開發者和使用者對 “強” 的標準和體感已越來越多元。什麼是原創的、有價值的新探索,則向來眾說紛紜,取決於不同研究者的經驗、判斷和直覺,所謂 “技術品味”。驗證品味的方式是實驗,而實驗的數量和規模又受限於 GPU 資源。相對於同行,DeepSeek 並沒有那麼多算力。最後,不管是大模型的生態基礎,還是在追求模型效果的過程中,探索其它團隊不一定會試的方向,這些梁文鋒看重的工作的回報都極不明確。前沿研究本該承擔這種不確定性,但它與算力資源有限的事實,與外界對 DeepSeek 能持續驚豔甚至 “碾壓” 的期待不完全匹配。梁文鋒意識到了要改變,近期他開始想辦法給公司估值,給團隊成員更多確定的預期。DeepSeek 也將更多投入產品。我們梳理了 DeepSeek 一位 HR 在社交媒體上從 2024 年 12 月至今發佈的所有招聘啟示,在今年 3 月中旬的最新招聘中,DeepSeek 第一次提及其它具體產品的名稱,要招募 Agent 方向 “模型策略產品經理”:持續跟蹤行業前沿,熟悉並深度使用過 Claude Code、OpenClaw、Manus 等知名 agent……接下來,肯定會看到 DeepSeek 在 Agent 產品上的更多動作。2025 年初,DeepSeek 以慷慨的開源精神和以小博大的奇蹟,震撼了中國和世界,也改變了世界:讓一批同行投入更多精力到模型技術本身,啟發了 Kimi K2 和 K2-thinking 等後續模型,也直接催生了一些新團隊,如陳天橋出資支援的 MiroMind。奇蹟之所以是奇蹟,就是因為它不常發生,是小機率事件。在中國這個崇尚競爭和結果說話的環境裡,敢於追求獨特目標的 DeepSeek 的存在本身,是一個令人驚喜的小機率事件。接觸梁文鋒的人評價:“他是一個特別抗噪音的人。”2025 年 R1 爆火後,梁文鋒顯示了對追捧的淡然。而現在,他面臨另一種情形的考驗:在外部競爭加劇時,分辨噪音與訊號,堅持該堅持的,改變要改變的。“低頭做事的人也許不一定能在浮躁的市場洪流裡笑到最後,但是只有更多 DeepSeek 這樣的公司出現,中國科技才有從 ‘復刻’ 到領跑的可能。” 一位從業者說。這是屬於梁文鋒和 DeepSeek 的工作。而曾被這家公司震動過的更多人,能做的很簡單:卸下爽文敘事,用更多平常心去看待一家公司和技術創新。 (晚點LatePost)
Kimi沒有DeepSeek的命
2024或許你還記得,在並不遙遠的2024 年,Kimi是中國AI當紅炸子雞:10億美金融資、Kimi概念股多次漲停、200萬字輸入碾壓GPT、激進的投流推廣策略。但他們當時獲得的曝光度,遠超自己的技術影響力。事實上,那個200萬字的模型,後來能用到的人微乎其微。後來瞭解到,那是個實驗性模型,每次運行成本接近 3 位數,完全不具備大規模服務使用者的可能性。那時的技術圈,對 Kimi 是不屑一顧的。但是靠著200萬字的噱頭,Kimi還是站住了“長文字”標籤和使用者心智。頭圖來自:AI生成20252025 年初,DeepSeek 橫空出世,真正靠技術實力成為中國AI技術的代言人。到了 2025年中,Kimi 已快一年沒任何融資的消息。被“唱衰”成為主旋律,員工開始流失,業內基本給這個創業項目判了死刑。如果你從2025年年中開始,閉關了 9 個月,到2026年3月看到新聞:Kimi 最新估值 1200 億;Kimi 20 天收入超過去一年;Kimi的模型被3500億估值的最火AI程式設計工具Cursor套殼並實錘(你閉關了9個月,所以不知道最火的AI程式設計工具已經是 Claude Code了,Cursor已成老二);Kimi新模型被承載了網際網路20%流量、市值超過 5000 億Cloudflare引入為主力模型;Kimi新模型成為全球最大獨立AI搜尋應用Perplexity唯一引入的開源模型和中國模型;Kimi新技術“注意力殘差”開始改造深度學習架構10多年來的地基,並得到前OpenAI的聯合創始人Andrej Karpathy、OpenAI推理模型之父 Jerry Tworek 以及馬斯克稱讚;楊植麟成為輝達2026 GTC年度大會唯一受邀做演講的全球獨立大模型公司代表……你很可能會驚掉下巴。大家說“AI 一天,人間一年”,AI 領域 9 個月確實發生了很多事情。但歸根結底是一件事情,AI技術的範式發生了變化。這個變化最常見、最偷懶的概括是從 Chat 到 Agent。對全世界的 3000萬程式設計師來說,變化是,最受推崇的工具從Cursor 變成 Claude Code。對總是率先擁抱新技術的 early adopter 來說,變化是更頻繁地打開那個類似 DOS 系統的黑白命令列終端……對AI公司來說,變化是大家陸續發現:更會聊天的模型,遠不如會寫程式碼和呼叫工具的模型有價值。最酷的產品從ChatGPT變成Claude Code,最酷的創業公司也從 OpenAI 變成了 Anthropic。回到 2025 年初的中國市場。DeepSeek R1 因為復刻並開源了 OpenAI o1 的“深度思考”能力爆火,另一個“通用 Agent”產品 Manus 也橫空出世……彼時的中國AI公司,大多數在忙著復現 DeepSeek R1,推出能“深度思考”的新模型。少數公司意識到 Manus 背後的那個模型,才是更值得花資源“復現”的東西。或者意識到了,但沒有分配到足夠的資源,或找到方法。Manus的一個很大的價值,就是可視化呈現了Claude模型的多輪工具呼叫能力。正如一位大模型公司的技術專家在自己的部落格中寫到,“絕大多數 Agent 產品,離了 Claude 以後,什麼都不是。”直到 2025年7月,中國第一個主打Agent能力的模型才悄然出現。7月11日,Kimi K2 發佈,喊的是 Open Agentic Intelligence。這裡顯然藏著他們的野心:復現 Claude 模型的 Agent 能力,並開源出去。就像 DeepSeek R1 復現 OpenAI o1並開源出去。發佈 5 天後,7月16日,英國的 Nature 自然雜誌發現了這個模型的價值,用“另一個DeepSeek時刻”來形容。發佈10天後,7月21日,Anthropic聯合創始人Jack Clark在自己的部落格中介紹了 K2,評價稱:在我看來,Kimi 是一款還不錯的模型,落後美國最前沿幾個月,延續了 DeepSeek 的軌跡。其編碼和工具呼叫分數已足夠高,我預計現實中會有人真正用它,因此觀察其採用率能折射競爭力。7 月底,楊植麟在播客專訪中,解釋了 K2 為什麼沒有先做“深度思考”,而是在 Agent 需要的程式設計和工具呼叫能力上發力。他用“缸中之腦”來形容主打深度思考的模型。對了,楊植麟這篇採訪值得多看幾遍,他講了很多技術層面更本質的東西,比如程式設計和Agent的關係,思考和工具呼叫的關係。因為 K2 和後續 K2 Thinking 模型的表現,Kimi 的融資在年底終於續上了,5 億美金,IDG和幾家老股東繼續加持。20262026 年春節前後,這個瘋狂的大模型發佈季,Kimi 是第一個交卷的選手。可能也是讓同行們最難受的一個,因為 K2.5兆參數、圖片和視訊的多模態理解能力,支援思考和非思考模式。其他創業公司同行發佈的都是純文字模型。有實力把多模態能力融入旗艦模型的,只有大廠的閉源模型。3月16號,Kimi團隊發佈了Attention Residuals的技術論文,挑戰已有 10 年歷史的神經網路底層殘差連接機制。OpenAI的聯合創始人Andrej Karpathy銳評Kimi“讓我們意識到根本沒有把Attention is All You Need理解透徹”,要知道,Attention is All You Need就是開啟大模型時代的聖盃,那怕考慮到AI圈的通詞膨脹,這個評價也是前所未有的高。據說,論文第一作者是一位僅 17歲的高中生,天才出少年,真是令人感慨。3月17號,Kimi 模型繼年初的 CES 2026 之後,在黃仁勳的 GTC 2026 主旨演講中再度成為輝達展示下一代晶片和推理性能的御用模型。3月18號,作為輝達的GTC年度大會唯一受邀的中國獨立大模型公司代表,楊植麟的現場演講全是乾貨,上來就把最佳化器、注意力機制、殘差連接三大核心模組比作有8-11年歷史的陳舊技術標準,是繼續Scaling的障礙,用新的技術突破表明“每一項基礎技術都值得重新思考”。然後是這幾天人盡皆知的“Cursor醜聞”,誰能想到,估值500億美金的全球最大程式設計助手Cursor,重磅推出的新一代程式設計模型Composer 2——跑分超過Claude Opus 4.6——竟然是套的Kimi K2.5的殼⋯⋯身為Token中介定位的Cursor之所以要發力“自研”,主要還是為了擺脫它對Anthropic和OpenAI的高度依賴,卡脖子這事兒可不分國界,Anthropic也真的曾經斷供Windsurf這類程式設計工具,在既當裁判員又當運動員的環境下,Cursor希望獨立自主的心情,完全可以理解。只是能力和願景之間的巨大鴻溝,讓Cursor選擇了抹掉來自Kimi的底座模型名字,靠代筆求融資,事情最後也算是體面收場,Cursor的聯合創始人公開道歉,在技術報告中給除了選擇 Kimi K2.5 作為底座模型的詳細理由,而Kimi官方也回應表示,很高興Cursor使用Kimi K2.5作為基座,雙方通過推理服務商 Fireworks AI 做了技術授權。根據小道消息, 2026 年春節前後,Kimi 陸續以投前 48 億美元、60 億美元、100億美元的估值完成總額近 20 億美元的融資,3月份開啟的 180 億美元輪次份額也要排隊才能拿到。這當然也受益於兩個同行在港股的超常表現,但更重要的還是靠自己的 K2和後續的模型實際表現,包括前文題庫的 Cursor、Cloudflare、Perplexity、黃仁勳、馬斯克、馬克·安德森、查馬斯等不斷髮來的“金水”,以及K2.5發佈後20天收入超過過去一年的財務表現。一位 Kimi 的朋友在私下聊天裡說,制約業務發展的只有算力,現在至少還有 10 倍的需求沒有滿足。有多少卡,就能有多少收入。據我跟另一個大廠工作的朋友瞭解,現在有些大廠在程式設計工具中接入的Kimi模型,甚至要通過預購才能拿到足夠的額度。這 9 個月,Kimi 算是完成了一次逆天改命。命Kimi和DeepSeek,到底誰更強?DeepSeek V3不是一天煉成的。其背後的幻方量化基因,決定了他們從 2023 年起就走上了一條與矽谷截然不同的極致能效比之路。在 2023 到 2024 年的大部分時間裡,他們游離於主流敘事之外,潛心自研 MLA(多頭潛在注意力機制) 與 DeepSeekMoE 架構,試圖在有限的算力下壓榨出超越物理極限的性能。直到 2025 年成就自己,也給其他AI創業公司帶來信心。所有人都在期待 DeepSeek 的下一代模型繼續驚豔全場,但媒體上三番五次的“狼來了”把戲只會消磨大家的注意力。技術突破,那是那麼容易的事情,我們完全有理由更有耐心地等待 DeepSeek 團隊的下一個作品。Kimi K2 也不是一天煉成的。他們實際上跟 DeepSeek R1同一天發佈了無人問津的K1.5模型,被OpenAI官方認為是率先復現o1的兩個公司之一。他們在被唱衰最厲害的2025年初發佈了Moonlight系列小型MoE模型,用來驗證下一代二階最佳化器技術,並且最終應用到兆的K2模型上。現在Muon已取代已經用了10年的標準技術Adam,成為Kimi、GLM-5、DeepSeek Engram在內的新模型都開始採用的新標準。正所謂,“出來混,總要還的。”Kimi 在2024年提前享受了C位和曝光,2026年沒再復現該屬於自己的流量。各有各的命。作為兩家幾乎同時起步的創業公司,我佩服他們那種從來不認為市場格局已定、相信技術才是最大變數、敢於追逐AGI 的勇氣和年輕生猛、戰績可查、永遠相信細水長流的力量。即使站在 2026年3月底這個時間節點看,2022年底開始的這場AI革命也才進行了3年半的時間,一切才剛剛開始。為什麼下一個 OpenAI 和 Anthropic 不能是一家中國公司? (虎嗅APP)
「日本最強AI」塌房了!扒開程式碼全是DeepSeek,日本網友集體破防
「終於到日本用中國 AI 來冒充日本產 AI 的時代了」最近這件事在日本的 X 討論炸了,起因是昨天日本一家科技公司樂天集團(Rakuten)在日本經濟產業省(METI)的 GENIAC 項目(日本 AI 政府資助項目)支援下,高調發佈了號稱「日本最大、性能最強」的 7000 億參數大模型 Rakuten AI 3.0。但發佈後不久,開源社區就迅速扒出,該模型的底層架構實際上是來自我們的 DeepSeek-V3,樂天僅僅是做了日文資料的微調。在知名的 AI 開源庫 Hugging Face 上,Rukuten AI 3.0 赫然在自己的配置檔案裡面寫著架構來自 DeepSeek V3。而在 Rakuten AI 3.0 模型的發佈新聞稿裡,絲毫沒有提到任何關於 DeepSeek 的資訊,只是含糊的說「它融合了開源社區的精華」,讓一眾網友以為這款模型就是日本自主研發的。更致命的是,樂天為了掩蓋這一事實,在開源時偷偷刪除了 DeepSeek 的 MIT 開源協議檔案。在被社區實錘後,才灰溜溜地以「NOTICE」檔案名稱重新補上。在 Hugging Face 上能看到項目檔案的提交歷史,顯示修改日本網友紛紛表示,「這讓人無法接受」,拿著日本政府補貼,竟然只是微調了一波中國的 DeepSeek,還有人說,用 DeepSeek 就算了,還要偷偷藏藏真的很遜。掩耳盜鈴的「日本最強」單看 Rakuten 公司發佈的公關稿,這個模型確實算得上是日本在 LLMs 領域的一次比較有實力的發佈。這是一款擁有約 7000 億參數的混合專家(MoE)模型,經開源社區確認,是和 DeepSeek V3 一樣的 671B 總參數,啟動 37B。樂天首席 AI 官 Ting Cai 將其形容為「資料、工程和創新架構在規模上的傑出結合」。Ting Cai 這名字一聽就不像是日本當地人,有日本網友在評論區說,用 DeepSeek 很過分,更過分的是,主導這個模型的大老闆,是個徹頭徹尾的移民強硬派。我們發現 Ting Cai 曾在美國 Google、蘋果公司工作過,並在微軟待了超過 15 年,本科在美國石溪大學,電腦科學就讀。他曾在採訪中表示,十八歲他第一次出國,去的就是日本,確實是個「移民強硬派」。關於 Rakuten AI 3.0 的模型表現,在官方公佈的各項基準測試中,它在日語文化知識、歷史、研究生水平推理、甚至競技數學和指令遵循等維度上,得分表現都極其優異,大有橫掃日本本土大模型圈的架勢。不過,用來對比的模型,是已經被下架了的 GPT 4o、只有 1200 億參數的 GPT OSS,還有日本的新興另一個 AI 開發企業 ABEJA 基於千問推出的 ABEJA QwQ 32b 模型。7000 億和最多 1200 億比,Rakuten AI 3.0 確實是贏了不少。同時作為經產省 GENIAC 項目的重點扶持對象,樂天獲得了大量的算力資源支援。GENIAC 這個項目設立的初衷,正是為了建立日本本土的生成式 AI 生態,緩解對海外巨頭技術依賴的焦慮。日本最大的參數規模,再加上這層「國家隊」的濾鏡,讓 Rakuten AI 3.0 一出場就戴上了「全村希望」的光環。還得是 DeepSeek但光環褪去得比想像中更快。先不說 7000 億參數、MoE 架構,這幾個關鍵詞組合在一起,在當今的開源大模型圈子裡,指向性實在太強了。等到開源社區的開發者們,到 Hugging Face 上一看詳細的程式碼配置檔案,竟然直接就寫著 DeepSeek V3。從底層邏輯來看,這就是「中國架構 + 日本微調」。DeepSeek 提供了那套被全球驗證過、極其高效的底層架構和推理能力,而樂天則利用其本土優勢,用高品質的日文語料對其進行了微調,讓它變得更懂日本文化。客觀來說,拿開源模型做本土化微調,在技術圈是一件極其正常且合理的事情。就像他們拿來作為對比的 ABEJA QwQ 32b 模型一樣,連代號都不改,直接用 Qwen 的 QwQ。日經新聞曾報導,日本公司開發的前十大模型裡,有 6 個都是基於 DeepSeek 或 Qwen 進行二次開發如果樂天這次也坦坦蕩蕩地承認使用了 DeepSeek 的底座,頂多是一次缺乏新意的「套殼」發佈,興許還能蹭一波 DeepSeek 的熱度。但他們偏偏選擇了掩藏。之前我們分享美團瀏覽器使用開放原始碼專案時,曾提到不同的開源協議,其中 DeepSeek 採用的 MIT 協議,堪稱開源界「最卑微、最寬容」的協議。它允許使用者免費拿去商用、修改、甚至閉源賺錢。它唯一的請求只有一個:在項目裡,保留原作者的版權聲明和許可聲明。Rakuten 模型發佈新聞稿|https://global.rakuten.com/corp/news/press/2026/0317_01.html而樂天不僅在模型發佈部落格中對 DeepSeek 絕口不提,更是直接在程式碼庫裡抹除了這份協議檔案,還高調宣佈自己採用的是 Apache 2.0 協議開源。雖然 Apache 2.0 同樣是對商業極度友好的開源協議,但它更正式,常被大廠用來建立自己的開源生態和專利護城河。不同開源協議對比,MIT 協議比 Apache 協議更寬鬆、更簡短,Apache 2.0 在賦予自由的同時,明確包含了專利授權保護和更嚴謹的責任免除條款,適合更大型、法律風險規避更嚴格的商業項目|圖片來自網際網路樂天的算盤打得很精,抹掉 DeepSeek 的名字,套上自己的 Apache 2.0 協議,再把自己包裝成「慷慨開源 7000 億參數大模型」的日本 AI 救世主。喊了一年多的歐洲版 DeepSeek、美國版 DeepSeek,最後好像都沒有做出來。樂天也想做日本版 DeepSeek,但在算力和訓練成本的壓力下,在當前全球大模型飛速發展的局面下,既想要中國技術的極致性價比,又放不下打造「本土巨頭」的身段,顯然是難上加難。不如和我們一起等等 DeepSeek V4 吧。 (APPSO)
DeepSeek預測:10年後的中國,很可能出現這10種生活變化
DeepSeek預測:10年後的中國,很可能出現這10種生活變化01、手機徹底隱形化手錶、眼鏡甚至戒指都能替代手機,掃碼支付只需抬抬手。比如買菜時,對著攤位眨眨眼就完成付款,再也不用擔心忘帶手機。02、快遞無人機送貨上門快遞小哥可能變成“空中飛人”,無人機精準投遞到陽台。像點外賣一樣,半小時內從天而降一盒熱乎的奶茶。03、AI家庭醫生成標配馬桶能檢測健康資料,鏡子提醒你“今天血壓偏高”。感冒時,AI直接連線藥房配藥,機器人送藥到家。04、虛擬與現實難分真假周末“穿越”到唐朝逛街,全息投影的店員向你推銷絲綢。朋友聚會變成線上虛擬海島,沙灘夕陽和現實一模一樣。05、新能源汽車充電像加油快充電5分鐘跑500公里,高速服務區全是無線充電板。老張吐槽:“以前排隊充電,現在排隊洗車!”06、農村變身“智慧田園”大棚種菜用機器人巡邏,手機APP控制澆水施肥。城裡人周末組團去農家樂,體驗AI採摘草莓。07、退休年齡?工作到80歲65歲的李阿姨在元宇宙教廣場舞,70歲程式設計師遠端寫程式碼。壽命延長,退休金不夠花,打工反而成潮流。08、方言翻譯耳機走紅上海阿姨和東北大叔吵架,耳機即時翻譯成普通話。旅遊時對著藏族老奶奶說話,耳機秒變“語言橋樑”。09、垃圾箱比你還聰明扔錯垃圾自動報警:“親,蝦殼是廚餘垃圾哦!”清潔工轉型成“垃圾AI訓練師”,工資翻倍。10、結婚先簽“AI管家協議”新婚夫妻領證時,政府附贈智能管家,調解吵架、記帳、提醒紀念日。老王炫耀:“我家AI上周阻止了三次離婚!”未來已來,你做好準備了嗎? (老付成長筆記)
高盛:為什麼中國AI並非泡沫?
1. AI boost to economic growth(AI推動經濟增長)生成式AI對中國經濟的核心拉動體現在勞動生產率的實質性提升,且帶來的經濟價值具備明確的量化支撐,未被當前股價充分反映。- 十年維度看,生成式AI將為中國勞動生產率帶來累計8%的提升,對應1.6兆美元的當期經濟增值(美國為累計15%、4.5兆美元),中國企業AI相關勞動生產率年均提升0.8個百分點。- 綜合AI帶來的效率提升和新商業機會,高盛測算中國AI相關經濟收益的現值達6-7兆美元;按50%資本份額、15%加權平均資本成本的假設進行折現,其中3兆美元現值將成為中國企業的資本收入,若AI帶來的勞動力替代效應加劇,資本份額或勞動生產率提升超預期,該數值仍有上行空間。- 從市值匹配度看,DeepSeek時刻後中國AI股市值的增長,與AI推動經濟增長帶來的潛在價值相比表現溫和,未出現價格遠超價值的泡沫特徵。2. New revenue opportunities generated by AI(AI創造新的收入機會)AI為中國企業打開了全新的市場空間,覆蓋21個AI相關行業的全球市場規模具備長期增長潛力,且中國企業能從中獲得的盈利現值具備紮實測算基礎,當前估值未反映該增量。- 高盛行業團隊測算,21個AI導向型行業2035年全球總可觸達市場(TAM)將達16兆美元;考慮到中國在全球AI版圖中的比較優勢,假設中國企業佔全球TAM的30%(高於中國GDP約20%的全球佔比),其可觸達的市場規模具備顯著優勢。- 按中國AI科技企業15%的淨利率(非AI企業為10%、美國科技企業為25%)、10%的股權資本成本現值折現測算,中國企業從AI新收入機會中獲得的潛在盈利現值約2.4兆美元。- 該測算仍屬保守參考,因21個AI相關行業並未涵蓋AI技術可能滲透的所有領域,未來隨著AI應用場景拓展,盈利現值測算存在向上修正的空間。3. Potential corporate earnings uplift from AI(AI推動企業盈利提升)AI通過成本節約/效率提升、新市場機會兩大路徑,為中國企業帶來持續的盈利增量,A股上市企業的盈利增值現值明確,且AI類股盈利增速顯著優於非AI類股,市值未反映該盈利增長潛力。- 未來十年,AI的廣泛應用將通過勞動力成本降低等成本節約/提效方式(貢獻2%)、中國超大規模企業AI資本開支帶來的供應鏈盈利傳導等新市場機會(貢獻1%),推動中國企業年盈利提升3個百分點;若考慮AI與非AI企業的增長差異,AI類股對全市場上市企業的增量利潤貢獻達6個百分點。- 按10%的股權成本測算,A股上市企業由AI帶來的盈利增值現值達8000億美元,該數值雖會隨AI落地和技術顛覆程度出現上下修正,但為企業盈利增長提供了明確的量化支撐。- 盈利增速層面,中國AI企業未來十年的盈利復合增速達15%,非AI企業為10%,十年間AI企業盈利增長將遠超非AI企業140個百分點;AI類股盈利在全市場上市企業中的佔比,將從當前的37%升至2030年的超40%、2035年的47%,盈利端的核心增長優勢未被當前估值充分定價。 (海外君)總結:
DeepSeek預測加密行情:XRP上看8美元、以太坊挑戰10000 下個百倍幣是這個!
加密市場在連續數月承壓之後,關於2026年的價格想像開始回到主流視野。近期有市場文章引用DeepSeek人工智能的推演結果,對XRP、比特幣與以太坊提出偏樂觀的路徑假設,甚至認為未來10個月內存在再創新高的可能。這類預測的價值,往往不在於精準命中某個數字,而在於它把市場關心的核心變數整理成更容易理解的框架,例如監管清晰度、機構資金進場、供給收縮與鏈上應用的擴張速度。需要強調的是,加密資產屬高風險類別,任何模型輸出都不等同結論,更不構成投資建議。AI預測的定位與可信度邏輯把AI輸出當作行情指南很容易走偏,較合理的用法是把它視為情境整理器。DeepSeek在預測中透過經過校準的提示,給出對3個主流資產的目標價,同時也補上推動因素與可能的催化劑。若這些因素在未來逐步落地,價格就可能沿著更強的趨勢前進,反之則會回到震盪或下修。換句話說,預測數字只是尾端結果,真正影響市場的是中間那串條件是否被實現。在XRP部分,預測提到Ripple重申XRP在長期戰略中的核心地位,目標是把XRP Ledger推向全球採用的企業級支付網路。XRPL的優勢被描述為結算速度快、交易費用低與基礎設施成熟,並可能受益於穩定幣與現實世界資產代幣化兩個成長領域。這種敘事的關鍵在於需求是否能外溢到鏈上交易量與企業整合,若僅停留在口頭合作,對估值支撐會相對有限。價格層面,預測指出XRP現價約1.37美元,DeepSeek給出的2026年目標為8美元,約為現水位6倍。技術指標描述上,RSI約40偏中性,價格走勢貼近30日均線,暗示長時間盤整可能接近尾聲。推動上行的潛在事件則包含美國上市的XRP ETF若能推出,可能引發機構關注度提升,Ripple國際合作若持續擴大也可能帶來信心加分。監管面方面,若美國CLARITY法案在年內獲通過,市場對合規邊界的想像會更具體,風險折價也可能下調。比特幣的目標價:供給收縮與機構採用比特幣部分,DeepSeek把目標價設定在266000美元附近,並延續比特幣作為數字黃金的定位,強調其對抗通膨與宏觀風險的吸引力。回顧比特幣曾在10月6日創下126080美元高點,之後進入回調;在市值結構上,比特幣約占2.4兆美元加密總市值中的1.3兆美元。從歷史高點回落後,跌幅約48%,現階段價格約66000美元,並提到地緣政治不確定性曾引發2次較明顯拋售。驅動比特幣再走強的理由主要集中在2個面向,第一是機構採用加速,第二是減半後新增供給下降。機構採用若持續擴張,會把買盤從週期型資金轉向長期配置,進而提高市場底部的穩定度。供給端若在減半後變得更緊,需求只要維持就更容易造成價格擡升。預測還加入一個更具爆發性的政策變數,美國若推動戰略比特幣儲備,將會改變部分市場參與者對長期需求的想像,並可能提高估值上限。不過,政策承諾到實際執行之間存在時間差,也存在路徑變動風險,因此更適合作為情境,而非必然事件。以太坊的10000預期:結算層與機構部署以太坊部分,預測把ETH定位為領先的智能合約公鏈與DeFi主要底層。數據引用顯示以太坊市值約2350億美元,DeFi鎖定資金超過530億美元,仍是鏈上交易的重要結算層。它被看好的理由包含安全記錄、穩定幣領域的主導地位,以及在現實世界資產代幣化方面較早啟動的進展。若機構需要一個更成熟的智能合約平台來部署資本,以太坊往往是優先選項之一。DeepSeek提出以太坊瞄準10000美元的方向,但也承認關鍵門檻在監管清晰度。預測直接把CLARITY法案視為重要條件,因其可能提供機構部署所需的確定性。價格結構方面,ETH目前約2000美元,5000美元被描述為主要阻力區,並引用去年8月曾到4946.05美元的歷史高點。若能突破5000美元並站穩,上行路徑可能加速,甚至在聖誕節前推進到7500美元的區間想像。這類推演的核心仍是資金是否願意把以太坊當作長期金融基礎設施配置,而不只是短線波動工具。而DeepSeek提出此時也是布局下個百倍幣良機,市場正關注以下新幣預售。Bitcoin Hyper加速崛起引爆Layer2新敘事Bitcoin Hyper($HYPER)代幣的預售在尚未結束前已累積突破3166萬美元,這個數字不僅代表資金高度集中,也顯示出比特幣Layer2敘事在2025的強勢回歸。其采用Solana虛擬機設計,使比特幣主網能首次以極低成本與高速度處理智能合約、遊戲、支付與模因相關應用。這種結構上的融合,使比特幣長期以來的不可編程限制得到突破,讓BTC真正具備跨鏈價值捕捉能力。Bitcoin Hyper在技術路線上選擇透過非托管橋接方式帶入BTC,避免了中心化跨鏈橋長期存在的安全隱患。這種設計提升資金的流動效率,使BTC的Layer2部份具備可拓展的使用場域。從交易費支付到跨鏈交互,乃至治理與節點運行,HYPER將成為整個網絡的能源基底。這些特性不僅提升使用彈性,也擴大比特幣生態向DeFi與遊戲化應用延伸的空間。其代幣HYPER目前價格為0.0136763美元,並采用每3天自動調漲模型,近日有鯨魚更一次過用近9萬美元掃入,使預售具備節奏性,促使早期參與具有明確優勢。新版經濟模型將質押年化調整為37%,使獎勵結構更接近長期可持續性,取代過往許多預售項目過度激進的高收益陷阱。主網計畫於2026年第1季啟動,屆時Bitcoin Hyper將從敘事階段正式轉入落地階段,市場對其的預期也將從情緒層面轉為體驗層面。官網購買Bitcoin Hyper代幣結論DeepSeek對2026年的推演,用XRP上看8美元、比特幣目標266000美元與以太坊挑戰10000美元,描繪出一張偏樂觀的加密市場地圖。其背後依賴的條件大致可歸納為監管清晰度提升、機構採用深化、供給端收縮,以及代幣化與穩定幣等應用擴張。另一方面,Bitcoin Hyper等預售則代表另一條高波動路徑,以較小市值換取更大的倍數想像。當市場同時存在成熟資產的結構性敘事與新項目的注意力競爭,最重要的差異不在口號,而在風險承受能力與資金期限是否匹配。免責聲明加密貨幣投資風險高,價格波動大,可能導致資金損失。本文僅供參考,不構成投資建議。請自行研究(DYOR)並謹慎決策。
DeepSeek V4 炸場發佈:中國晶片算力大爆發,終結輝達壟斷GPU時代
這兩天,DeepSeek V4 炸了的消息一個接著一個的。中國的人工智慧可能無需依賴輝達了!DeepSeek V4 的試行版本 Sealion-lite 洩露,其上下文窗口已擴展至 100 萬個 token,具備原生的多模態推理能力。根據提前洩露的測試樣本,其程式碼最佳化和邏輯組織能力超越了 V3.2,能夠與 Claude Opus 4.6 和 Gemini 3.1相媲美。更令人驚訝的是,DeepSeek 這次V4的測試權限提前給予華為等國內晶片製造商,而沒有開放測試權限給輝達和 AMD。這次的真正關鍵不是 1M token,而在於“誰最先適配晶片”了。01. 顛覆行業這真是顛覆了整個行業的慣例。此前,無論是 OpenAI 還是 Google,在發佈之前都會先與輝達共享預發佈版本進行適配最佳化。而這一次,DeepSeek V4版本直接跳過了這一過程,使得華為昇騰等國產晶片提前獲得了幾周適配最佳化的機會。據稱,提前適配可以使模型性能提高超過 30%。這可以被視為一個重要訊號。在過去三年裡,美國對算力的封鎖策略非常明確:限制GPU的出口,使得中國的人工智慧無法取得突破。A100、H100都不允許出售,即使是削減版的H800也要受到管控。然而,DeepSeek去年通過R1證明了以低成本同樣能夠訓練出世界級的模型,這導致輝達單日市值蒸發近6000億美元。02. 美國市場為什麼緊張?如果DeepSeek V4與華為的組合效果良好,意味著我們不僅能成功訓練模型,還能夠在不依賴於你GPU的晶片的情況下運作。非常巧合的是,前天輝達的股價下跌了 5.5%。儘管主要原因是財報發佈後投資者的預期過高,導致的不滿,但 DeepSeek 跳過輝達並選擇華為的舉動,顯然也對市場情緒產生了影響。據多個消息源透露,DeepSeek  V4 將在一周內上線,目前至少有一家推理服務商已經簽署了保密協議,獲得了測試權限。等發佈後我們會第一時間進行實測~03. DeepSeek  V4功能劇透同時,DeepSeek V4 Lite的一張對比圖在國外引起了廣泛關注!與現有的Deepseek V3.2思考模型相比,DeepSeek V4 Lite在不開啟思考模式的情況下,生成的SVG影像品質顯著提升。如果 DeepSeek  V4 確實能夠在百萬 token 的上下文中穩定進行倉庫級的推理,這意味著你可以將整個程式碼倉庫或《三體》三部曲這樣的書籍全部放進去讓它一次性理解。同時,保持 DeepSeek 一貫的低價(傳聞比 GPT-4.5 便宜 20 至 50 倍,且是 MIT 開放原始碼的),這對於所有使用 AI 進行Vibe Coding 程式設計的朋友們來說都是個好消息。寫在最後:DeepSeek這次V4版本優先測試權限給華為等國內晶片廠商,沒給 NVIDIA 和 AMD 測試權限。這意味著什麼訊號?AI大模型公司提早探索改善算力依賴的結構,而不是一直停留在輝達NVIDIA 生態系中。 (AI共生紀)
春節AI大戰退潮,Claude被封殺Anthropic「單挑」中美,全民養「龍蝦」|Hunt Good 周報
所有人都在等 DeepSeek,春節來,下周來,還是沒來。從免費安裝 DeepSeek,到現在是付費安裝 OpenClaw一場為了全面「狙擊」 DeepSeek,搶奪流量,但是 DeepSeek 都沒出現的春節大戰,就在一輪又一輪的紅包奶茶裡轟轟烈烈地結束了。根據《晚點》的春節 AI 全記錄報導,阿里的千問砸了 30 億,冠名四家衛視春晚,讓 1.3 億人用 AI 搶到了免費的奶茶和機票,甚至一度讓系統崩潰、外賣訂單限流。騰訊的元寶狂擲 10 億發紅包,試圖重現 2015 年微信紅包的社交裂變奇蹟。字節的豆包則霸佔了央視春晚,除夕夜單日互動量飆到恐怖的 19 億次……喧囂過後,留給大廠的卻是一個極其現實的「節後綜合徵」。用真金白銀砸出來的上億日活,在打卡任務結束後,迅速迎來了不可避免的回落。圖片來源:月狐資料都想要成為未來的終局之王,但它絕不會是那個在春晚上發錢最多的 App。大概只有那個像現在的 OpenClaw 一樣,不斷進化,讓我們在某天清晨突然驚覺,「我已經好幾個月沒有自己動手做過這件事了」的殺手級產品,才能獲得最後的勝利。於是乎,在廣袤的工作流配置、電腦桌面和生活交易中,新的戰爭又開始了。這期 Hunt Good 周報,APPSO 帶你穿透春節的喧囂,理清春節假期到這周來,海內外的 AI 行業,又發生了怎樣的變化。春節 AI 大戰結束,相關資料顯示一眾大廠行銷耗資累計超百億,復盤拉新和留存,模型成了最有話語權的代表。Anthropic 熱搜不斷,先是衝擊軟體股,然後挑起蒸餾風波,再是和五角大樓的對抗。AI 軟體產品形態都在「龍蝦化」,阿里開源 CoPaw,Kimi 和 MiniMax 相繼推出 Kimi Claw、MaxClaw,主打一鍵部署龍蝦。「樸素的」國內春節 AI 大戰,發紅包、送奶茶這大概是一場前所未有的「全民 AI 掃盲運動」。一邊是瘋狂的撒錢,一邊是春節過後回覆正常的水平,這場賽博春節後的冰與火,形成了一個逃不掉的問題,留存之困。巨頭們都很清楚,用紅包堆起來的日活,就像沙灘上的城堡。騰訊元寶在除夕夜 DAU 沖上 5000 萬的高光時刻,很快面臨著流量回落的陣痛。元寶試圖用「元寶派」打造一個 AI 陪人玩的社交空間,甚至被微信接連封禁了分享連結。但殘酷的現實是,如果使用者不知道為什麼要用 AI,拉再多群也留不住人。阿里千問用「25 元買一個新使用者」的代價,強行培養使用者「用 AI 點奶茶」的習慣。這確實比純聊天更進了一步,但它依然依賴於阿里的電商生態輸血。大家都殊途同歸地發現了一個真相:打江山易,守江山難。1 億日活的背後,是每天幾千萬元的驚人推理成本。如果 AI 僅僅是一個「陪聊工具」或「高級搜尋引擎」,它根本無法支撐起如此龐大的算力開銷。留存的終極解法或許還是得看最後的產品,好的模型、好的產品。🤺 最好的行銷,是單純的燒錢?我們在春節前的周報裡曾寫到,當時佔據 App Store 排行榜的前三名,剛好就是豆包、元寶和千問,DeepSeek 排在第七名。一輪春節大戰下來,豆包和千問還在前三,但是元寶已經來到了第九名。大概元寶本也想著 DeepSeek 能更新的話,它還能和 2025 年春節一樣,再弄一個 DeepSeek 滿血版,拉來一波新使用者。現實很殘酷,在《晚點》的報導裡提到,一位騰訊的工作人員說,「我們很清楚,春節過後,那些沖高的日活會開始逐漸下降」,他們不指望一場春晚、一個春節就能讓產品發生質變,但「防守總好過完全放棄」。在這場春節 AI 大戰中,騰訊率先啟動了「分 10 億」類現金紅包活動,通過現金紅包 + 社交裂變,像元寶派等進行節前預熱和行銷。緊接著是阿里開啟千問「請客計畫」,以免單形式聯動阿里旗下多項業務。有第三方機構估算和媒體復盤,提到此次的請客計畫,30 億元起步、後續被估算加碼到 60 億元。字節則是拿下春晚冠名,利用春晚節點聯動和內容生成互動(頭像、祝福等),在春晚播放期間,也送出了大量紅包和 10 萬份科技好禮。螞蟻阿福,在春節期間也開啟了新使用者得無門檻 16.8 元紅包活動。百度文心也在春節期間,發出了 5 億紅包……就這麼把白花花的銀子花出去了,也成功激起了一些水花。根據 QuestMobile 和各 AI 廠商官方的統計資料,在這場撒錢大戰,千問「一句話下單」近 2 億次,DAU 日活峰值 7352 萬、增幅達到 940%。字節的豆包,在除夕當晚,產生了 AI 互動 19 億、生成頭像 5000 萬張、祝福 1 億條。元寶的 DAU 也超過 5000 萬,MAU 月活來到了 1.14 億……儘管春節期間這些資料暴漲,但整個 AI 行業還是普遍面臨「補貼退潮後使用者留存」的難題。例如在春節期間,豆包的日活躍使用者最高來到了 1.4 億,千問和元寶分別有 5000 萬和 4000 萬;但在春節假期結束的前一天,元寶幾乎是回到春節活動之前的日活規模,千問和豆包有明顯提升,但與春節期間的高峰對比,仍差距較大。(詳見上圖 3)無論是點了一杯免費的奶茶、領了一個無門檻的紅包就解除安裝,還是真實地開始用豆包/千問/元寶,這個春節顯然是把大量使用者第一次帶進了 AI 對話方塊裡。當補貼退潮,面對一個空白的 AI 對話方塊,又有多少普通人知道該聊些什麼?🎯 紅包留不住使用者,一個好用的模型可以雖然阿里、騰訊、MiniMax、智譜都有在春節 AI 大戰這期間發佈產品,但最後都沒能敵過字節的 Seedance 2.0,說它是今年的「DeepSeek」一點都不為過。阿里在除夕當天正式發佈 Qwen3.5,並推出 Qwen3.5 系列的第一款模型 Qwen3.5-397B-A17B 的開放權重版本,Qwen3.5-Plus 為該模型的 API 版本。Qwen3.5-Plus 採用混合架構,總參數量雖達 3970 億,但啟動參數僅為 170 億。此外,Qwen3.5-Plus 實現了從純文字到原生多模態的升級。模型基於視覺和文字混合 Token 進行預訓練,還新增了大量 STEM 和推理資料,登頂多個開源模型榜單。智譜 GLM-5 生成的 Word 文件智譜在春節假期前兩天,也正式發佈了 GLM-5,並且開源。GLM-5 採用 MoE 架構,總參數量達 744B,但啟動參數僅為 40B。核心性能方面,GLM-5 展現了較強的 Coding 與 Agent 能力,開源 SOTA 表現已無限逼近 Claude Opus 4.5。而就在這天,MiniMax 也正式上線了最新旗艦程式設計模型 MiniMax M2.5,M2.5 最大的突破在於打破了高昂的算力成本限制,MiniMax 宣稱這是首個「不需要考慮使用成本」的前沿模型,直接對標 Claude Opus 4.6。但這些發佈,都沒能搶走這一整個春節 AI 大戰裡,Seedance 2.0 的風頭。字節在假期前兩天正式發佈了新一代視訊創作模型 Seedance 2.0,採用了統一的多模態音視訊聯合生成架構,核心突破在於允許使用者同時輸入多達 9 張圖片、3 段視訊、3 段音訊以及自然語言指令。Seedance 2.0 的生成質量和物理精準度均大幅提升,徹底點燃了海內外社交媒體。在 X 上,一大波老外發帖在問怎麼註冊即夢,怎麼接收 +86 的手機簡訊驗證碼。緊接著,字節在 13 號發佈了 Seedream 5.0 Lite 統一編輯與生成的圖像創作模型,14 號發佈通用大語言模型 Seed 2.0。Seed 2.0 顯著強化了多模態理解與指令遵循能力,針對大規模生產環境下的使用需求做了系統性最佳化。國外 Anthropic 霸榜熱搜,馬斯克、奧特曼頻繁發聲矽谷沒有紅包大戰,但 Anthropic 卻憑藉硬核的「產品力」,直接霸榜了科技圈的熱搜。前腳 Anthropic 指出多家國產 AI 「蒸餾」Claude 模型的回答,後腳馬斯克就在 X 上回覆,你 Anthropic 到處偷資料,蒸餾了人類的資料,還好意思叫自己 Anthropic。之前馬斯克就在 X 上,給這些 AI 大廠的名字來了一波新的解釋,說 OpenAI 是 CloseAI、Stability 是不穩定,所以 Anthropic 也不是人類學,是厭世。這次,馬斯克也是連發多條 X 反駁 Anthropic,再次說他們是 MisAnthropic。「蒸餾」的控訴告一段落,Anthropic 和美國五角大樓的矛盾又沸沸揚揚。奧特曼、Ilya 都在 X 發文支援 Anthropic 堅持 AI 模型使用必須有邊界的觀點。但尷尬的是,奧特曼前腳才說支援 Anthropic 的反對,馬上就又發文和五角大樓達成合作。在紛紛擾擾的輿論場之外,Anthropic 也更新了 Claude Code 的遠端控制功能,以及 Claude Cowork 的定時任務、多個企業高效外掛等。🥅 「AI 的使用必須要有邊界」這次的矛盾主要在於 AI 的應用邊界。Anthropic 在去年就曾獲得五角大樓一份價值 2 億美元的合同,其模型 Claude 甚至獲得了處理機密資料的安全許可。然而,雙方關係在近期急劇惡化。主要原因就是在這份合同裡,Anthropic 堅決拒絕修改使用條款,明確禁止 Claude 被用於「任何合法目的」。Anthropic CEO 在接受採訪時表示,除非軍方解決公司對 AI 濫用的擔憂,否則他們絕不會在其設定的「紅線」上退讓。整個矽谷對這件事議論紛紛,Google的一百多名員工本周簽署請願書,呼籲公司拒絕配合五角大樓的部分 AI 無限制使用;來自亞馬遜、微軟和Google的員工也聯名發表公開信,敦促領導層在面對五角大樓時守住 AI 底線。Anthropic 之所以敢硬剛,底氣或許源於其並不依賴這份訂單。雙方爭執的合同價值約 2 億美元,而 Anthropic 去年的年化營收已達到 80 億至 100 億美元。有意思的是,這件事裡 OpenAI 的操作成為了最耐人尋味的轉折點。雖然奧特曼也曾公開聲援 Anthropic,在內部備忘錄中表示「儘管有分歧,但我信任他們,他們真心關心安全」,也重申了 AI 不應被用於致命武器等方面的立場。但就在美國政府下令聯邦機構停用 Anthropic 技術的當晚,OpenAI 卻宣佈已與五角大樓達成協議,將為其機密系統提供 AI 支援。OpenAI 聲稱找到了一種方法,能在滿足五角大樓需求的同時植入安全護欄,防止 AI 系統被濫用。前一天,OpenAI 還宣佈完成 1100 億美元新一輪融資,投前估值高達 7300 億美元。具體來看該筆融資:軟銀投 300 億美元、輝達投 300 億美元、亞馬遜投 500 億美元。擁有了該筆融資後的 OpenAI,估值直逼特斯拉。丟了 2 億美元訂單的 Anthropic 也表示這件事沒畫上句號,他們會對五角大樓認定的「供應鏈風險」提起訴訟。⏳ Anthropic「蒸餾」了人類最大的知識庫周二,Anthropic 發文公開指控 DeepSeek、月之暗面(Moonshot AI)和 MiniMax 三家國產 AI 實驗室利用名為「九頭蛇叢集」的分佈式網路,控制約 2.4 萬個虛假帳號,非法獲取 Claude 模型輸出以進行「蒸餾」訓練。據 Anthropic 統計,這些帳號繞過檢測生成了超過 1600 萬次對話,內容涵蓋程式碼生成、複雜任務編排等 Claude 的核心優勢領域。消息一發佈,馬斯克率先站出來表示 Anthropic 有問題。Anthropic 自身曾因大規模抓取盜版書籍,像是建立「巴拿馬」項目掃描全球書籍訓練模型而支付巨額版權和解金。對此,馬斯克是直接嘲諷,「Anthropic 竊取了訓練資料,這是事實。」知名博主 Nathan Lambert 也發表深度分析指出,這件事並不是像 Anthropic 挑起的輿論渲染般嚴重。Lambert 認為,雖然蒸餾(讓弱模型學習強模型輸出)能幫助模型快速「熱身」,但真正頂尖的模型能力,尤其是面對未知問題的推理路徑,還是高度依賴強化學習中的自我探索與試錯,這是單純模仿 API 輸出無法習得的。他強調,中國 AI 公司擁有優秀的基礎設施和人才,其技術突破更多源於紮實的工程創新,而非僅僅依靠 Anthropic 說的「走捷徑」。💥 一場發佈會,上兆美元市值消失,還有人周二,Anthropic 發佈了其企業級產品 Cowork 的重大更新,市場反應卻出乎意料地違背了「軟體末日」的劇本。不同於先前 Claude Cowork 發佈時,直接導致軟體股暴跌,這次發佈後,部分軟體服務公司像 Salesforce 股價反而上漲 4%,Thomson Reuters 大漲 11%,Figma 也上漲了 10%。這種略顯反常的現象,或許還標誌著市場邏輯的微妙轉變。投資者開始意識到,新一代 AI 工具的定位,不是替代「軟體」,而是替代操作軟體的「員工」。Claude Cowork 這次更新的核心,在於將 Cowork 轉化為能深入企業各部門的專業智能體,並推出了 10 個針對 HR、設計、工程、金融等具體場景的外掛範本。與 OpenAI 此前宣稱 AI 將取代 Salesforce 等軟體的激進態度不同,Anthropic 選擇了與現有 SaaS 巨頭深度整合的合作,大多數外掛能深度連接 Google Workspace、Slack、Salesforce 等主流應用。這意味著企業仍需為基礎軟體付費,AI 只是接管了原本由初級員工完成的點選和輸入工作。例如,這次新增的金融系外掛,已經能覆蓋從財務建模到推介材料生成的全鏈條,而這也正是初級分析師的核心工作。當 AI 逐漸接手基礎執行工作,這種軟體公司的緩衝期可能是打工人的陣痛期。🔗 相關閱讀:4900 萬人圍觀的 Claude Cowork 又殺瘋了,10 個頂級外掛上線,這些打工人危Agent 之後「Claw」成為新的 AI 產品風向標無論是春節大戰裡,千問的「一句話點奶茶」,還是國外 Claude Code 能力太強引起的系列衝突,都說明著 AI 開始長出手腳,從一個聊天框,變成能真正辦事的產品。就連曾經 AI 產品的頂流 Cursor,現在除了程式設計師朋友,一般關注 AI 的玩家好像都很少提到這個應用。因為真正長出手腳的工具,在幾個月的時間,變成了 OpenClaw。這只龍蝦一躍而上,成了全新的 AI 應用最佳實踐。相關 AI 的產品潮流,都離不開「龍蝦」這個概念。Cursor CEO Micheal Truell 前幾天在 X 發文,提到我們來到了 AI 應用開發的第三個時代。第一時代是 Tab 鍵程式碼補全,第二時代是人類引導的同步 AI Agent(一問一答),而第三時代則是能獨立在雲端虛擬機器長時間運行、自主解決複雜問題並提交最終製品的「雲端自主 Agent」。他說,目前在 Cursor 內部 35% 的 PR(程式碼合併請求)已由這類 Agent 獨立完成。換句容易引起 AI 焦慮的話來說,就是「如果你現在還在靠狂按 Tab 鍵來讓 AI 補全程式碼,那你可能已經落後於時代了。」知名 AI 大神 Andrej Karpathy 也轉發了這篇文章,他提到AI 程式設計正在進化,從無 AI -> Tab 補全 -> Agent 代理 -> 平行 Agent -> Agent 團隊這一路線的轉變。針對這種工具的焦慮,他也分享了自己的「二八理論」,花 80% 的時間在你感到舒適、且確實有效的工作流中完成工作;留 20% 的時間去探索下一步可能的方向,即使它目前還行不通。從春節開始到現在,相關的 AI 工具確實一直在更新。有人說 OpenClaw 就是一個 Claude Code,也有人部署了 OpenClaw 真實地提升了工作效率。但無論如何,能在 GitHub 上一個月的時間裡面突破將近 24 萬 Stars,和在社交媒體上的廣泛討論,足以證明這是一個現象級的產品。Claude Code 看到龍蝦的爆火,尤其是這只龍蝦被 OpenAI 「收編」後,也接連推出了一系列最佳化功能,例如能讓我們在手機上就操作 Claude Code,以及推出了面向企業團隊的 10 個頂級外掛。國內廠商也馬不停蹄的更新對 OpenClaw 的支援和適配,在春節前,各大雲服務提供商還只是說,「我們的雲服務開源一鍵部署龍蝦」,到現在是「我們正式推出了自己的龍蝦。」🐾 CoPaw:阿里版 OpenClaw,釘釘、飛書、iMessage 都能連接昨天,阿里通義實驗室在 X 官方帳號發文宣佈,其開發的個人 AI 夥伴引擎 CoPaw 正式開源。和 OpenClaw 主打的超級個人助理一樣,阿里推出的 CoPaw 同樣是一個可以部署在本地或雲端的「協同個人智能體工作台」(Co Personal Agent Workstation)。CoPaw 最吸引人的特點在於其可視化的 UI 友好互動,以及強大的連接能力。它支援接入釘釘、飛書、QQ、Discord 以及 iMessage 等主流即時通訊軟體。我們無需切換應用,在最常用的聊天窗口就可以與 AI 互動。在功能應用上,CoPaw 展現了極高的可擴展性。通過內建的定時任務和自訂 Skills,它既能每日自動抓取小紅書、Reddit 的熱帖或 B 站、YouTube 的新視訊生成摘要,節省我們的瀏覽時間;也能協助整理郵件、管理本地檔案,甚至作為內容創作的輔助工具,從選題到素材蒐集提供全流程支援。向左滑動查看更多內容,CoPaw 本地控制台|圖片來源:CoPaw 官網值得一提的是,CoPaw 在技術架構上主打「本地優先」與「終極模型自由」。它原生支援 Ollama、llama.cpp 以及蘋果晶片的 MLX 框架;模組化的「樂高式」架構讓我們可以像搭積木一樣輕鬆加入自訂模型提供商,或私有 API 端點,以及接入 MCP 等。阿里的官方路線圖顯示,未來 CoPaw 還將解鎖語音和視訊支援,不再侷限於鍵盤互動。🦞 MaxClaw:一鍵雲端部署的龍蝦和阿里的 CoPaw 主打開源、主打本地不同,MiniMax 推出的 MaxClaw 是為瞭解決繁瑣的本地部署,直接讓我們一鍵部署 OpenClaw 在它們的伺服器上。前幾天,MiniMax 升級了自家的 Agent 平台,帶來了 Experts 社區和一個名為 MaxClaw 的新模式。簡單來說,它做的事情,就是把原本需要極客才能部署的 OpenClaw,變成了「一鍵安裝」的傻瓜包。MaxClaw 也打通了 OpenClaw 生態,允許使用者將 AI 接入飛書、釘釘、Telegram 等即時通訊軟體。並且,我們不僅不需要承擔額外的 API 費用,還能直接呼叫 MiniMax Agent 內預置的專家智能體,在 IM 軟體中執行複雜任務。例如要求 AI 自動抓取新聞並整理成早報傳送到飛書對話方塊。雖然不需要自己專門配置 API,但也需要購買 MiniMax Agent 推出的最低 39 元/月的會員訂閱服務。🤖 Kimi Claw:率先引爆國產版龍蝦大戰OpenClaw 當時爆火之後,Kimi K2.5 的模型呼叫量在 OpneRouter 上直接超過了 Gemini 3 Flash、Claude Sonnet 4.5 等海外頂尖模型,登頂 AI 智能體類別的榜首。就在春節,Kimi 自己也緊鑼密鼓的推出了 Kimi Claw。和 MaxClaw 一樣,Kimi Claw 主打的也是一鍵部署,幾秒鐘就能在 Kimi 的伺服器上雲端部署一個 7x24h 的個人 AI 助手。雖然不需要硬體,也不需要配置 API,要想直接在 Kimi 上一鍵養龍蝦,也是一樣有門檻的,我們需要訂閱 199 元/月起的 Allegretto 高級套餐,才能在 Kimi 的網頁上建立。Kimi Claw 的核心在於它強大的擴展能力與儲存空間。它內建了 ClawHub 技能庫,包含超過 5000 個社區貢獻的技能,我們可以通過無程式碼的方式,直接呼叫和編排這些工具。對於資料密集型任務,Kimi 也大方地提供了 40GB 的專用雲端儲存空間。這不僅打破了傳統對話介面的上下文限制,還讓我們能夠上傳大型資料集和程式碼庫,更好地提高工作效率。💻 Claude CoWork:職場外掛全家桶和遠端控制全端上來Anthropic 在這周二宣佈為 Claude Cowork(Claude 的桌面協作功能)推出一系列預建構外掛,讓 AI 能夠深度介入金融、HR、營運等專業領域的工作流程。這些新外掛通過與全球大型企業合作開發,本質上將 Claude 轉變為具備特定工具和指導能力的「智能體」,它不再只是一個聊天框,而是能夠像人類員工一樣在電腦上建立檔案、處理資料並操作應用程式。此次更新的外掛覆蓋了企業運作的核心環節。在金融端,新外掛支援從市場研究、投行交易檔案審查,到財富管理資產再平衡等一系列複雜任務。在 HR 和營運方面,它能生成從 Offer 到供應商提案摘要的各類文件;甚至還能與 Figma 聯動生成設計簡報。周三,Anthropic 又為 Claude Code 增加了一項名為「Remote Control」的新功能。這項工具允許使用者通過智慧型手機、平板電腦或瀏覽器,直接遠端控制本地電腦上的 Claude Code 命令列介面。這和 OpenClaw 部署 Telegram 聊天機器人的想法幾乎是一樣的,我們只需要確保電腦上,即本地的 Claude Code 終端一直處於開啟狀態,就能使用遠端對話,讓 AI 持續給我們幹活。更新還沒停止,周四,Claude  又給 Cowork 增加了定時任務的功能。Claude 彷彿在說,OpenClaw 的功能我也全部都要有。 (APPSO)