#deepseek
DeepSeek-V4技術報告暗藏的10個神級彩蛋,“煉丹玄學”也被寫進論文
DeepSeek在“省錢”和“省資源”上達到了變態的程度。DeepSeek-V4總算來了。4月24日,DeepSeek官方帳號發佈了一篇名為《DeepSeek-V4 預覽版:邁入百萬上下文普惠時代》的文章。文章中正式宣佈,“全新系列模型 DeepSeek-V4 的預覽版本正式上線並同步開源。”同時,還介紹:DeepSeek-V4 擁有百萬字超長上下文,在 Agent 能力、世界知識和推理性能上均實現國內與開源領域的領先。模型按大小分為兩個版本:發佈後,測評、討論已非常充分,不再贅述。盒飯財經關注到,DeepSeek同步發佈了一篇關於DeepSeek-V4 技術報告。地址如下:https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf這份名為《DeepSeek-V4:Towards Highly Efficient Million-Token Context Intelligence》的技術報告,共55頁,從架構、通用基礎設施、預訓練、訓練後等6個部分介紹了V4。而這份高度專業的技術報告中,隱藏了10個有意思的小彩蛋。彩蛋一:“Think Max”模式,絕不允許走捷徑的“壓榨”指令位置:第30頁,Table 3原文為:Reasoning Effort: Absolute maximum with no shortcuts permitted. You MUST be very thorough in your thinking... rigorously stress-testing your logic against all potential paths, edge cases, and adversarial scenarios.翻譯過來,大概的意思就是:推理投入度:絕對最大化,不容許任何捷徑。你的思考必須極其徹底,全面拆解問題以觸及根本原因,並針對所有可能的路徑、邊緣案例及對抗性場景,對你的邏輯進行嚴苛的壓力測試。要明確寫出完整的深思過程,記錄每一個中間步驟、考慮過的替代方案以及被否決的假設,確保絕對沒有任何未經審視的預設。這段話是模型開啟 Think Max(極致思考模式)時,後台偷偷塞給大模型的“系統提示詞(System Prompt)”。寫得極具壓迫感,像是一個嚴厲的導師在逼學生榨乾腦力,不準有任何偷懶。DeepSeek為其式設定了一套極為嚴苛的系統提示詞。用詞極具壓迫感,還全部使用了絕對祈使句:“絕對最大化”“不許走捷徑”“必須徹底”“嚴酷地壓力測試”“不放過任何一個假設”。它還顯式地命令模型“禁止走捷徑”,要求記錄每一個被拒絕的假設和中間步驟。通過這種極度嚴厲的工程化Prompt,榨乾大模型在 1M Context(百萬上下文)裡的算力去驗證程式碼和邏輯錯誤。這就像是給模型戴上了“邏輯緊箍咒”,確保在處理複雜邏輯或程式碼時,模型不會因為追求速度而忽略細節。彩蛋二:給硬體廠商的“公開信”:別瞎忙活頻寬了位置:第16頁,Section 3.1原文為:Once bandwidth meets this threshold, it ceases to be the bottleneck, and devoting additional silicon area to further bandwidth brings diminishing returns. We encourage future hardware designs to target such balance points rather than scale bandwidth unconditionally.意思是:一旦頻寬達到該閾值,便不再是瓶頸,此時將更多的晶片面積用於進一步提升頻寬,會帶來邊際收益遞減。我們鼓勵未來的硬體設計瞄準這樣的平衡點,而非一味地無條件擴展頻寬。DeepSeek在報告中反客為主,給輝達和華為等硬體廠商開出了“方子”。體面表達了他們在硬體方面的觀點:盲目提升頻寬對現在的AI訓練效率提升有限,建議廠商把晶片面積留給更能提高計算通訊比的地方。彩蛋三:極致效率,1M長度下僅需V3.2的10%快取位置:摘要,Abstract原文:In the one-million-token context setting, DeepSeekV4-Pro requires only 27% of single-token inference FLOPs and 10% of KV cache compared with DeepSeek-V3.2.意思是:在百萬級token上下文設定下,與DeepSeek-V3.2相比,DeepSeek-V4-Pro僅需其27%的單token推理FLOPs,以及10%的KV快取。DeepSeek在“省錢”和“省資源”上達到了變態的程度。通過 CSA(壓縮稀疏注意力)和 HCA(重度壓縮注意力)技術,它在處理100萬字的長文字時,佔用的記憶體竟然只有前代版本的十分之一。這意味著未來個人電腦甚至手機運行百萬超長文字分析將成為可能。彩蛋四:坦誠的“煉丹玄學”:知其然不知其所以然位置:第26頁,Section 4.2.3原文為:Although a comprehensive theoretical understanding of their underlying mechanisms remains an open question for now, we are sharing them openly to foster further exploration by the community.意思是:儘管目前對其底層機制的全面理論理解仍是一個懸而未決的問題,但我們將其公開分享,以推動社區的進一步探索。在Mitigating Training Instability 緩解訓練不穩定性章節中,DeepSeek團隊分享了兩個解決兆參數模型訓練崩潰的獨門絕技,Anticipatory Routing和SwiGLU Clamping。技術報告中,他們也非常耿直地承認:這種“雖然我不知道原理是啥,但它跑起來確實有用,大家拿去用吧”的坦誠,可以說是AI煉丹界的真實寫照了,非常有開源精神。彩蛋五:“快指令”(Quick Instruction)特供Token位置:第33頁,Table 5<|action|> (判斷是否搜網), <|title|> (生成標題), <|query|> (生成搜尋詞)。為了讓Chatbot響應更快,DeepSeek在模型內部植入了一系列專用Token“暗號”。V4之所以能這麼快,是因為它直接復用了已經算好的長文字 KV Cache(快取)。不用像以前那樣把幾十萬字重新喂給另一個小模型去判斷,從而徹底消除了“冗餘的預填充(redundant prefilling)”,這樣使用者的等待時間就能大幅縮短。彩蛋六:Codeforces全球排名第23位位置:第39頁,Section 5.3.2原文為:On the Codeforces leaderboard, DeepSeek-V4-Pro-Max currently ranks 23rd among human candidates.這句話的意思是,在 Codeforces 排行榜上,DeepSeek-V4-Pro-Max 當前在人類參賽者中位列第23名。這個“彩蛋”極具含金量。在純人類參與的全球頂級程式設計競賽Codeforces排名中,DeepSeek-V4的預估分值(3206分)足以排到全球第23名。這意味著它已經超越了絕大多數頂級程式設計師,進入了人類程式設計智力的最頂端一小撮。彩蛋七:內部“員工大調查”,52%的人已離不開它位置:第44頁,Section 5.4.4原文為:In a survey asking DeepSeek developers and researchers (𝑁= 85) — all with experience of using DeepSeek-V4-Pro for agentic coding in their daily work— whether DeepSeek-V4-Pro is ready to serve as their default and primary coding model compared to other frontier models, 52% said yes, 39% leaned toward yes, and fewer than 9% said no.翻譯過來是:在一項面向DeepSeek開發者和研究人員的調查(N=85)中,這些受訪者均有在日常工作中使用DeepSeek-V4-Pro進行智能體編碼的經驗。當被問及與其他前沿模型相比,DeepSeek-V4-Pro是否已準備好成為他們默認且主要的程式設計模型時,52%給出了肯定回答,39%傾向於肯定,而表示否定的不足9%。DeepSeek非常罕見地公開了公司內部85名頂尖研究員的真實反饋。超過一半的DeepSeek內部核心人員已經將其作為日常首選程式設計工具。這種“吃自己的狗糧”的行為比跑分資料更能說明模型在實際生產中的情況。彩蛋八:內部員工的真實“吐槽”被寫進技術報告位置:第44頁,Section 5.4.4原文:Respondents find DeepSeek-V4-Pro to deliver satisfactory results across most tasks, but note trivial mistakes, misinterpretation of vague prompts, and occasional over-thinking.翻譯過來就是:受訪者認為DeepSeek-V4-Pro在大多數任務上都能給出令人滿意的結果,但也指出它存在一些細小的錯誤、對模糊提示的理解偏差,以及偶爾的過度思考。這句話緊挨著上一條“內部員工調查”的彩蛋,DeepSeek選擇把內部員工的吐槽也寫了進去。彩蛋九:親民的“中國特色”評測題位置:第43頁,Figure 13為了展示模型在複雜長文字白領工作中的能力,DeepSeek放出的示例任務非常親民。“寫一份某知名奶茶品牌與北京地鐵的聯名行銷策劃”“UGC傳播與社交裂變設計”,比起國外大模型測寫全英文的莎士比亞詩歌,DeepSeek的評測題真的很懂國內打工人的日常PPT需求。彩蛋十:致謝名單裡的神秘測試Dolly Deng位置:第55頁,附錄 A.2 致謝部分附錄 A.2 致謝(Acknowledgment)部分,除了全體作者外,團隊特別單獨點名感謝了一位非作者人士:“We would like to thank Dolly Deng and other testers for their valuable suggestions and feedback...”翻譯過來就是,我們要感謝 Dolly Deng 及其他測試人員,就DeepSeek-V4系列模型的能力所提出的寶貴建議與反饋。能在這樣一份AI基礎模型技術報告中被單獨拎出來感謝的測試(或外部反饋者),不知道他在V4內測期間提交了怎樣關鍵的Bug或改進建議。 (盒飯財經)
梁文鋒和楊植麟的默契:AGI不是終點,定義規則才是
484天的沉默,換來一場1.6兆參數的爆發。4月24日,DeepSeek V4-Pro正式發佈,總參數1.6兆、百萬token上下文、首次將華為昇騰與輝達GPU並列寫進硬體驗證清單。而就在4天前,與DeepSeek相距僅1.4公里的月之暗面剛開源了Kimi K2.6,SWE-Bench Pro得分58.6,首次讓國產開源模型站上全球程式碼評測之巔。兩家公司在五天內連發兩款兆級模型,這不是巧合,是海淀區知春路上兩個男人——梁文鋒與楊植麟,長達一年半的默契共振終於公開化。先說一個被大多數媒體忽略的真相:DeepSeek和Kimi的"技術撞車",恰恰是開源生態最理想的進化方式。2025年初,DeepSeek在V3中推出的MLA多頭潛在注意力機制,Kimi直接沿用;2025年7月,Kimi在兆參數K2中率先規模化驗證自研Muon二階最佳化器,訓練成本降低50%以上,而這次DeepSeek V4的技術報告裡,也跟進採用了Muon。表面上看是路線同質化,實際上這是兩家公司在兆參數無人區裡的"交叉驗證"。你探一步,我確認一步,共同把國產大模型的技術水位抬到全球第一梯隊。它們是在互相兜底。這種默契,比單打獨鬥更難得。更關鍵的是,DeepSeek V4的發佈證明了一件事:中國AI已經具備了"晶片-模型-系統"全端自主的能力。技術報告裡那行關於昇騰950的備註,很多人讀出了"算力受限"的焦慮,但我讀出了另一種訊號:DeepSeek敢於在發佈當天就把國產晶片的適配進度寫進官方文件,這意味著"芯模協同"不再是PPT概念,而是正在發生的工程現實。下半年昇騰950超節點批次上市後,V4-Pro的價格會大幅下調,到時候國產模型的性價比優勢將進一步放大。當然,挑戰也是真實存在。DeepSeek近300人的研發團隊中,已有10位核心成員標註"已離職",包括初代LLM核心作者王炳宣、R1核心研究員郭達雅等,分別流向騰訊、字節跳動。人才流失倒逼DeepSeek打破"零融資"的執念,融前估值已達3000億人民幣,計畫增資500億,50億起投。騰訊、阿里正在爭搶入局。但換個角度看,這恰恰說明DeepSeek的技術實力已經強到讓大廠無法忽視。挖不走整個團隊,就挖核心骨幹;投不了整個公司,就搶份額入局。這裡有一個反常識的判斷:DeepSeek和Kimi越是被資本追捧,中國AI的"去中心化"生態反而越穩固。梁文鋒曾拒絕所有外部投資,擔心喪失決策權;楊植麟去年12月還在內部信裡說"短期內不著急上市"。智譜和MiniMax在港股上市後的暴漲並沒有讓這兩家公司跟風IPO,而是選擇了更靈活的一級市場融資。有意思的是,當國內為DeepSeek和Kimi的融資歡呼時,美國那邊Anthropic的ARR已經突破300億美元,15個月翻了30倍,正式超越OpenAI的240億美元。OpenAI剛完成1220億美元融資,估值8520億美元。相比之下,中國大模型的融資額"顯得小情小調"。但體量差距背後,是商業模式的代際差異。Anthropic 80%收入來自企業端,30萬家企業客戶,財富十強裡八家在用Claude。而DeepSeek至今堅持模型全部開源,C端產品免費。這不是不會賺錢,是主動選擇用開源換生態。Kimi雖然月活使用者從巔峰期的3600萬回落至1000-1500萬,但海外API收入四個月翻了四倍。Cursor套殼Kimi事件更讓全球開發者意識到:中國開源模型的性能已經不輸閉源旗艦。中國大模型公司不是在重複網際網路時代的"燒錢換規模"劇本,而是在走一條更硬核的路:先用技術實力打開全球市場,再用生態粘性鎖定長期價值。歷史正在寫下新的註腳。當DeepSeek把昇騰寫進技術報告,當Kimi的模型ID出現在Cursor的API呼叫裡,當馬斯克親自轉發評價"Impressive work from Kimi"。這些訊號都在指向同一個趨勢:中國AI不再只是"本土童話",而是全球開源生態的規則制定者之一。朱嘯虎去年說"大模型已經變成水電煤,沒有超額利潤"。目前來看,他錯了一半:大模型確實在變成基礎設施,但超額利潤沒有消失,只是從閉源壟斷轉移到了開源生態的規模化營運。DeepSeek和Kimi的估值飆漲,本質上不是泡沫,是資本對"開源即權力"這一新範式的提前下注。DeepSeek和Kimi的"知春路雙雄"敘事,不是精緻的本土童話,而是正在發生的全球級技術事件。它們的結局也不只有兩種:被資本收編,或在獨立與規模之間找到平衡。還有第三種可能,用開源生態的廣度,避險閉源壟斷的深度,最終在全球AI格局中佔據不可替代的位置。AGI不是終點,定義規則才是。 (識焗)
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
DeepSeek升級,氣到了黃仁勳
接下來,黃仁勳的無奈和氣憤大機率還將繼續。“不誘於譽,不恐於誹,率道而行,端然正己。”這是上周DeepSeek-V4發佈稿的結尾,DeepSeek自己引用的一句話。字面意思是,不被讚譽誘惑,不被誹謗嚇到,按自己認定的道往前走,端正自己。過去一年多,同行動作頻頻,而DeepSeek除了零散的更新,幾乎毫無動靜,繼而引發不少質疑,但DeepSeek沒有回應過一次。DeepSeek淡定地做自己,輝達卻不能從容了。DeepSeek已明確表示,V4在下半年將正式支援華為算力。巧合的是,在此之前不久,黃仁勳在一檔播客節目裡提到:“如果像DeepSeek這樣頂尖的模型優先在華為晶片上運行,對我們來說將是‘可怕的後果’。”過去兩年,黃仁勳一直苦口婆心地勸告美國:“如果中國不能從美國購買(高端晶片),他們就會自己建造。”但勸告無果,他只能眼睜睜地看著輝達在中國的市場份額從2024年的70%降到2025年的55%。接下來,黃仁勳的無奈和氣憤大機率還將繼續。黃仁勳心裡的意難平,份量越來越重了AI時代之前,黃仁勳只是眾多遊戲宅眼裡刀法精準的“黃狗”。到了AI時代,黃仁勳迎來人生巔峰,輝達市值一路突破5兆美元,全球第一。逆襲背後,靠的是一次豪賭。2006年,輝達推出CUDA開發平台,能夠降低GPU程式設計門檻,讓多個GPU平行運算,從而大幅提升計算性能。但當時除了輝達,誰都沒把它當回事。一名輝達深度學習團隊的成員說道:“在CUDA推出十年以來,整個華爾街一直在問輝達,為什麼你們做了這項投入,卻沒有人使用它?他們對我們的市值估值為0美元。”CUDA十年無人問津,輝達雖然痛苦,但也獲得了先發優勢。所以當AI大潮轟然而至,輝達一飛衝天。時至今日,輝達的GPU更是變成了原油般的存在,幾乎所有大模型都奔跑在輝達的算力晶片上。豪賭成功的黃仁勳,如今不論到那兒都是意氣風發。如果說他還有什麼意難平,恐怕只有中國市場了。黃仁勳在2023年年底接受媒體採訪時表示,中國市場佔輝達銷售額的大約20%。騰訊、阿里、字節等巨頭的訓練叢集,清一色的輝達GPU。此外,在發展得如火如荼的中國智駕市場裡,彼時有超過80%的輔助駕駛晶片也來自輝達。然而一紙禁令,徹底攪了輝達在中國市場的美夢。輝達的高端晶片無法繼續給中國的AI大業添磚加瓦,後來專門為中國市場開發的閹割版的A800和H800也沒能繞開管制,黃仁勳一邊鬱悶一邊絞盡腦汁。2023年11月,矽谷DealBook峰會上,黃仁勳在對著全息演示屏上的中國地圖重申:“失去這個市場,我們沒有Plan B。”2024年1月,黃仁勳來華,在北京、上海、深圳三地的年會連軸轉。上海那一場,他脫下黑皮衣,換上東北大花馬甲,扭起了大秧歌;11月在港科大的講台上,他又動之以理“開放研究是全球合作的最終形式”。進入2025年,黃仁勳一方面繼續向中國市場示好,身著“唐裝”用生硬中文讚揚中國科技發展,一邊對著大洋彼岸曉之以利:“中國是一個不可替代的市場,服務這裡符合美國的利益。”可惜任憑他做足了各種姿態,說盡好賴話,還是事與願違。輝達在中國市場一家獨大的格局一去不復返,華為昇騰、阿里平頭哥、百度崑崙芯和寒武紀,毫不客氣地瓜分了它空出來的位置。到嘴的鴨子越飛越遠,黃仁勳忍不了了。DeepSeek-V4,戳中輝達的命門2026年4月15日,黃仁勳做客美國知名播客節目。面對主持人的一連串追問,其中還夾帶著指責他為了利益不顧國家安全的暗示,黃仁勳罕見地發飆了。他表示,管制的邏輯“極其愚蠢”,是典型的“失敗者心態”。在黃仁勳看來,如果是強者心態,一開始就不該關注要不要限制高端晶片出口。他曾公開表示:“無論有沒有美國晶片,中國的人工智慧技術都在快速發展。問題不是中國是否會擁有人工智慧,它已經擁有了。真正的問題是,世界上最大的人工智慧市場之一是否將運行在美國的平台上。”所以,黃仁勳反覆呼籲放開對華晶片銷售。他不只是怕少賣幾塊GPU,更擔心的是輝達的生態地位被挑戰。一直以來,他真正在意的是CUDA生態。有人比喻,如果把輝達GPU看作“電腦主機”,CUDA就是“Windows系統”。只要該生態能讓大部分人離不開,輝達就立於不敗之地。截至2025年,全球超過450萬開發者在使用CUDA。幾乎整個AI圈子的人都習慣在CUDA上寫程式碼、開發應用。他們所有的學習成本、項目程式碼、工程經驗,全都有輝達的印記。要離開這個生態也不是不行,但那就意味著程式碼重寫,工具鏈重搭,工程師重新培訓。有業內測算指出,非輝達平台上開發周期可能延長6個月,成本增加40%。所謂“賣產品不如賣品牌,賣品牌不如賣標準”,科技行業同樣如此。因此輝達不怎麼操心誰家的AI強不強,只關心他們的AI在不在自家生態裡黃仁勳對於DeepSeek的態度,就是一個例子。去年DeepSeek發佈R1,直接衝擊了行業對算力堆疊的路徑依賴,業內突然意識到原來搞頂級AI可能不需要海量GPU,於是輝達股價大跌,短短三天蒸發了6000億美元。但當時黃仁勳對外沒有顯出一點慌亂,還宣稱DeepSeek及其開源推理模型所帶來的能量“令人無比興奮”,並且篤定這種技術創新反而會帶來更多算力需求。那時他確實有底氣。畢竟R1再怎麼驚豔,終究是跑在輝達的GPU上,活在CUDA的生態裡。DeepSeek-V4的出現,則是把他最擔心的事變成了現實。V4預覽版上線的文件裡有一行小字寫著:“受限於高端算力,目前Pro的服務吞吐十分有限,預計下半年昇騰950超節點批次上市後,Pro的價格會大幅下調。”言外之意是,等下半年華為昇騰950鋪開了,V4不但會更流暢,價格還能再砍幾刀。V4的存在也是在告訴其他人:離開輝達的晶片和生態,也能幹旗艦模型的活。輝達的生態壁壘就此裂出了一條縫,雖然還微不足道,但對於喜歡把“輝達離倒閉只有30天”之類的話掛嘴邊的黃仁勳,不得不警惕。“全面替代”的口號,不是說說而已想挑戰輝達的遠不止國內企業。2024年,AMD、英特爾、Meta、微軟、Google等9家科技巨頭成立了一個UALink聯盟,針對的就是輝達的護城河——NVLink。OpenAI則是推出Triton編譯器,試圖繞開CUDA的“語言壟斷”。所以段永平曾表達過對輝達的一個顧慮:輝達的護城河雖然很強大,但這麼多巨頭針對它,不能改變一些什麼嗎?對此,輝達見招拆招,收效頗豐。客戶和競爭對手想在NVLink之外另起爐灶,輝達乾脆直接開放NVLink,讓出一部分權限,讓客戶可以把其他品牌的晶片也混進算力叢集裡。中國這邊全然不同,局勢促使我們堅定自研,歷史也反覆證明了爹有娘有不如自己有,必須把輝達從“唯一選擇”變成“備選之一”,那怕中國的晶片在許多方面還暫時落後。這也成了許多中國企業的共識。科大訊飛是一個典型案例,明知遷移成本極高,用輝達方案一個月能完成的任務,遷移到昇騰可能需要三個月,但其董事長劉慶峰直言:“這一步非走不可。”這種不計代價的投入,大概才是真正會讓黃仁勳頭疼的東西。更何況,中國同行也有不少與輝達對壘的底氣。一個是基建優勢。在播客裡,主持人認為輝達如果把高端晶片賣給中國企業,會幫助對手開發出頂尖AI模型。黃仁勳當即反駁道,頂尖的AI模型,不一定要最頂尖的晶片才能訓練出來。中國企業的解決方案是“芯海戰術”,通過相關技術把數百甚至數千顆國產晶片高速互聯,形成一個龐大的算力叢集,用數量優勢彌補單點性能的不足。叢集模式功耗巨大,但好消息是,中國不缺能源。還有市場優勢。晶片和AI好不好用,需要在市場裡驗證和迭代。中國不僅內需市場足夠龐大,中國頭部AI公司還普遍採用開源策略,大幅降低了開發者和企業的使用和二次開發門檻,疊加成本優勢,中國的AI模型能輕易觸達全球使用者。例如2024年初,Meta的大模型Llama下載量為1060萬次,而阿里的大模型Qwen下載量只有50萬次。但到了2025年10月,Qwen的累計下載量為3.853億次,超過了Llama的3.462億次。就像最近很火的何潤東版項羽說的“打仗靠的是決心和勇氣”,挑戰輝達也需要實力、動力和決心。還好這些我們也都不缺。國產晶片“能用”了,“好用”還會遠嗎? (36氪)
DeepSeek連夜刪新論文,梁文鋒到底怕什麼
5月1日消息,今天AI領域的最大事件,無疑是DeepSeek刪論文的消息。昨天,DeepSeek多模態團隊負責人陳小康宣佈灰度基於多模態模型技術的“識圖模式”,以及在GitHub平台上傳了一篇長達25頁的多模態研究論文:《Thinking with Visual Primitives》(用視覺基元思考)。然而,到了今晨,陳小康的推文刪了,這篇多模態研究論文也撤了、GitHub庫也404了。在未刪除之前,我把這篇論文下載並且讀完了。我靜下心把整篇內容捋完之後,反倒有了不一樣的感受。你以為,這是簡單DeepSeek的識圖模式論文,但其實,這篇論文對應出DeepSeek揭露了行業的發展趨勢:多模態AI模型的下一階段競爭重點,可能從單純的“看得更清”轉向“思考時能精確指向”。通過將坐標嵌入思維鏈,多模態模型模仿了人類“邊指邊想”的協同機制,為解決複雜空間結構化推理提供了一條新穎路徑——最終其實也要走向世界模型。值得一提的是,就在8小時前,DeepSeek正式公佈了Agent接入指南,親手教大家接入OpenClaw、Hermes等方式,深入到Agent技術層面。所以,在我看來,DeepSeek連夜刪論文,刪除的原因不是“論文有問題”,實際可能是灰度下重新修正“識圖模式”的能力,以及這篇論文可能太超前,透露太多了。很多資料需要重新進行查驗和修正,並且有望重新上傳到arxiv上。越往後深入瞭解,越能體會到這次DeepSeek V4以及多模態新模型的含金量,也真切感覺到AI行業的技術迭代。實際上,梁文鋒一直都在悄悄提速,AI技術的真正核心突破往往都藏在這種技術論文裡。DeepSeek新論文到底講了什麼?先做總結。這篇DeepSeek已撤回的多模態研究論文《Thinking with Visual Primitives》,核心在於探討自然語言模型到視覺等多模態模型的瓶頸和變化,從而揭示DeepSeek多模態領域的新研究方向:從單純的“看得更清”,轉向“推理思考時能精確指向”。換句話說,未來模型既有AI聊天和深度研究,而且還能用AI大模型技術(非OCR)識別圖像視訊中的核心資訊。而通過將坐標嵌入思維鏈,DeepSeek的多模態模型模仿了人類“邊指邊想”的協同機制,這將解決世界模型、3D空間的結構化推理等方向。提供了一條新穎而有效的路徑。下面再基於這篇已刪新技術報告,具體看看DeepSeek、北京大學、清華大學又創造了怎樣的奇蹟。首先,大型語言模型(LLMs)與電腦視覺的融合,開啟了多模態大型語言模型時代,使其具備了複雜的場景理解能力。然而,當我們推動這些模型進行複雜的推理,當前範式的一個根本性侷限便顯現出來。儘管這些模型的內部推理(通常以思維鏈的形式呈現)在語言領域已變得越來越穩健,但它與視覺領域在很大程度上仍然是割裂的。而當前多模態模型主要解決的是感知差距。然而,“看見”不等於“推理”。即使擁有完美的感知能力,多模態大模型在處理涉及複雜空間佈局或密集物體互動的任務時,仍常常遭遇邏輯崩潰。在密集計數或多步驟空間推理等場景中,模型的“語言”思維會失去對其試圖指代的視覺實體的追蹤,從而導致連鎖幻覺。因此,DeepSeek聯合北京大學和清華大學,提出一種範式轉變:基於視覺基元進行思考。團隊超越將視覺定位視為次要任務或最終輸出的傳統做法,將空間標記——點和邊界框——提升為“思維的最小單元”,直接交錯嵌入模型的推理軌跡中。這一機制從人類的認知過程中汲取靈感。當人類在複雜迷宮中導航或清點密集物體時,會自然地運用指示性指針(例如手勢)來降低認知負荷並保持邏輯一致性。這項工作以DeepSeek剛發佈的V4-Flash為語言主幹。該模型混合專家模型(MoE)擁有284B 總參數、推理時啟動 13B 參數,視覺編碼部分則使用DeepSeek自研的視覺Transformer ViT,支援任意解析度輸入。通過將視覺基元交錯融入思考過程,這個模型模仿了這種“指向‑推理”的協同作用,有效地將抽象的語言思維錨定到具體的空間坐標上。此外,該模型框架建立在架構高效的基礎之上,專為高吞吐、長上下文的多模態互動而設計。與依賴海量視覺標記序列來彌補視覺缺陷的傳統方法不同,我們的模型利用壓縮稀疏注意力技術,它將每個視覺標記的鍵值快取壓縮為單一條目。總結這個研究報告的三個創新點:第一大核心創新,是重構視覺推理邏輯,把坐標與邊界框做成可即時參與思考的思維單元。傳統模型先推理、後補坐標,屬於事後標註;但該模型全程在思維鏈中同步框選、打點定位,用空間錨點鎖定邏輯路徑,避免推理跑偏,同時配套點、框兩類標準視覺原語,適配各類複雜視覺場景定位需求。第二項硬核創新為超高倍率視覺輕量化壓縮,通過圖像分塊編碼、多層空間降採樣與壓縮稀疏注意力聯動最佳化,整體達成7056倍視覺資訊壓縮。大幅削減KV快取佔用,視訊記憶體開銷遠低於同類旗艦模型,做到看得準、開銷低,高效平衡視覺表徵精度與推理落地算力成本。第三項關鍵創新,是全流程的高校資料定製化搭建,搭配專屬進階訓練體系。團隊嚴控資料來源篩選雙重稽核標準,首先爬取了近 10 萬個與目標檢測相關的資料集,經過兩輪嚴格篩選(語義稽核和幾何質量稽核),最終保留約 3.17 萬個高品質資料來源,生成超過 4000 萬條訓練樣本。在針對性設計的計數、多跳空間問答、迷宮導航、曲線路徑追蹤四個任務中,該模型專門補齊拓撲空間推理短板。而且,團隊採用先分訓專家模型、再統一強化微調的分體融合訓練策略,搭配多維精細化獎勵機制與線上策略蒸餾最佳化,穩步提升模型視覺理解穩定性,強化複雜場景下的綜合推理適配能力。測試成果層面,DeepSeek團隊在11個基準測試上進行了評測,與GoogleGemini-3-Flash、GPT-5.4、Claude Sonnet 4.6、GoogleGemma4-31B、阿里Qwen3-VL-235B等主流模型對比,DeepSeek新的視覺模型,與其他海外模型差距懸殊,並且超越了阿里Qwen3-VL-235B。DeepSeek多模態識別的圖片顯示,DeepSeek視覺模型在Pixmo-Count(精確匹配)上得分89.2%,超過Gemini-3-Flash的88.2%、GPT-5.4的76.6%和Claude Sonnet 4.6的68.7%。在空間推理的多個基準上,整體表現與頭部模型持平或略有超越,在 MIHBench(85.3%)和 SpatialMQA(69.4%)上均排名第一。在拓撲推理的迷宮導航(DS_Maze_Navigation)任務上,該模型得分66.9%,而GPT-5.4為50.6%、Gemini-3-Flash為49.4%、Claude Sonnet 4.6 為 48.9%,新模型提升了約17個百分點。不過目前,DeepSeek灰度“識圖模式”功能的使用者太少,包括我在內都沒辦法使用,只能說用普通模式、專家模型識別一些簡單圖片。猜測五一假期之後,DeepSeek可能還會上很多新功能。梁文鋒想的AGI到底是什麼:物理世界AI總結來說,這篇論文完全體現出DeepSeek未來發展節奏,絕對不是單純的多模態視覺識別,而是瞄準了更大的發展前奏——物理世界AI。最近,世界模型和物理AI是模型層新的發展趨勢。我也是總結了最近幾天發佈的模型,發現大家10天發佈了10款AI基礎模型,其中80%來自中國企業。20日:Kimi K2.6發佈;Qwen3.6 27B系列模型測試結果陸續出來。21日:螞蟻Ling 2.6 Flash模型發佈;Qwen3.6 35B A3B推理和非推理模型開始在各大算力平台測試;23日:OpenAl GPT-5.5模型公佈,小米Xiaomi MiMo-V2.5系列大模型正式開啟公測;騰訊混元Hy3-preview 推理模型發佈;24日:DeepSeek V4 Pro和DeepSeek V4 Flash系列模型發佈;28日:IBM Granite 4.1模型基準測試公佈;小米Mimo-V2.5 Pro正式發佈。30日:Ling 2.6 -1T基礎模型正式開源;DeepSeek上線識圖模式開啟灰測。目前來看,無論是Kimi K2.6,還是DeepSeek V4系列,顯示出今年基礎模型層最大的三個方向:Agent智能體、Coding程式設計能力、多模態和世界模型技術。一個例子就是Kimi。近期,月之暗面Kimi發佈並開放原始碼的Kimi K2.6模型,在通用Agent、程式碼、視覺理解等綜合能力全面提升,在多個基準測試優於或持平GPT-5.4、Claude Opus 4.6和Gemini 3.1 Pro等閉源模型。而Kimi K2.6長程編碼能力得到顯著提升,在測試中可不間斷編碼13小時,編寫或修改超過4000行程式碼。同時大幅增強了Agent自主化執行能力,由 K2.6 模型驅動的Agent叢集架構,支援300個子Agent平行完成4000個協作步驟,實現更大規模的平行化。針對高負載工作流與OpenClaw、Hermes Agent等主動式Agent框架,K2.6具備自動化任務處理能力,支援長達5天的持續自主運行。簡單來說,現在很多模型,增加了Agent和世界物理AI的功能和適配。但DeepSeek這套視覺多模態模型其實還比較落後,原因在於DeepSeek之前沒往多模態層面考量,更多還是在語言模型層面實現AGI。值得一提的是,論文也提出了一些侷限性:1、受限於圖片輸入解析度,模型在超高精細視覺場景中表現不佳,容易出現坐標、點位等視覺思維單元標註不准的問題,後續可結合感知缺口最佳化演算法聯動最佳化補足短板。2、核心視覺思維推理能力依賴專屬觸發詞才能啟用,無法自主讀懂場景需求、主動呼叫坐標框選推理機制,智能自適應適配性有待提升。3、用單點坐標處理高難度複雜拓撲推理難題時能力偏弱,跨場景泛化穩定性不足,同類能力很難靈活適配多樣化複雜空間任務,也是後續技術迭代重點攻堅方向。因此,新的研究成果並非真正意義的物理AI、世界模型,也不是完全的多模態識別,其頂多是DeepSeek OCR 2和V4的結合體。這或許是DeepSeek提前撤下論文的原因之一。2500年前,古希臘哲學家普羅泰戈拉提出:“人是萬物的尺度。”這句話的真正含義是,世界本身沒有固有價值,所有意義與判斷,都由人的感知與思考來定義。而DeepSeek這篇論文想要揭示的核心趨勢,正是 AI 視覺能力的一次本質躍遷:從只會 “看清畫面”,升級為思考時精準定位、理解空間、判斷價值。未來十年,AI一定會深度重塑工作方式、改變產業格局、重構生活節奏。但無論技術如何進化,人類獨有的情感、經驗創造力與同理心,永遠無法被演算法替代。人的價值,來自真實的生活閱歷;人與人之間的情感連接,才是我們願意彼此關心、持續前行的根本理由。因此,無論 AI 如何飛速發展,有一件事永遠不會改變:我們依然需要珍惜身邊真實的關係,保有真實的內心感受,理性適應技術變化,不斷去探索人類最本質的力量 ——創造價值、感知意義、彼此相連。五一節快樂。 (智能紀元AGI)
允許梁文鋒再「偉大一次」
一個技術理想主義者,如何被中國AI的“工程現實”重新定義。過去幾年,梁文鋒幾乎拒絕了所有網際網路時代熟悉的劇本。別人融資,他拒絕;別人搶入口,他開源;別人卷參數,他卷效率;別人把AI當成生意,他卻一直在談AGI。DeepSeek因此看起來更像一家“研究機構”,而非創業公司。直到2026年春天,事情開始變化。GPT-5.5發佈不到24小時,DeepSeek-V4預覽版上線。發佈後不到五天,接連三次降價,昨天,DeepSeek“識圖模式”又開始灰度測試,補上了多模態這塊缺失最久的拼圖。DeepSeek多模態團隊研究員陳小康在X上的發帖與此同時,那個長期拒絕騰訊、阿里和頂級VC的梁文鋒,第一次主動打開了融資的大門。一邊把價格打到骨折,一邊卻伸手拿錢;一邊叫苦算力吃緊,一邊承諾還要降價,梁文鋒這位把AGI掛在嘴邊的人,是向商業現實“繳械投降”,還是在醞釀一場更大的風暴?01. “反常識”的72小時4月24日,GPT-5.5發佈不到二十四小時後,DeepSeek-V4預覽版悄然上線。沒有發佈會,就像這家公司的一貫作風:事情做完了,放出來,你們自己看。V4-Pro發佈後,最先引發討論的不是能力,而是價格。相比前代V3.2,這一次V4-Pro的定價看起來明顯更高。很多人第一反應是DeepSeek終於開始走向“正常商業化”了。但很快,事情又出現反轉。不到一天,官網低調更新價格,直接打到2.5折。隨後又一次更新:快取命中價格永久降至發佈價的十分之一。研究員甚至在社交媒體上直接打出“AGI for Everyone”的標籤,強調這是永久價格,而非促銷活動。更耐人尋味的,是官網價格頁面裡那行不起眼的小字:“受限於高端算力,目前Pro服務吞吐有限,預計下半年昇騰950超節點批次上市後,Pro價格會大幅下調。”這意味著DeepSeek公開承諾未來還會繼續降價,且這次價格下調繫結的,不再只是DeepSeek自己的技術最佳化,還有中國國產高端算力的量產節奏。與此同時,DeepSeek還啟動了成立以來的首次外部融資,目標估值從100億美元迅速抬升至200億美元乃至更高,騰訊、阿里相繼被傳洽談入局。降價、又融資,看起來很矛盾,但回看DeepSeek的發展歷程,會發現到它的野心從不只是“做模型”。過去兩年,全球大模型行業的默認邏輯一直是模型越強,成本越高,能力越強,價格越貴。OpenAI、Anthropic都建立在這套邏輯之上。但DeepSeek-V4要做的不是“賣更貴的智能”,而是不斷降低“智能”的邊際成本,實現AGI平權。這種對“邊際成本”的執念,從DeepSeek的前身幻方量化就已經開始了。2021年,當大多數科技公司還在討論AI概念時,幻方已經囤積了上萬張A100,自建了“螢火”算力叢集。在高度競爭的市場裡,成本結構本身就是護城河,這是梁文鋒在幻方時便想明白的,這套理念也被完整地繼承到了DeepSeek。DeepSeek V4-Pro約5.22美元,快取命中後進一步降至3.6美元左右。同等輸入輸出量下,GPT-5.5的API成本約35美元,Claude Opus 4.7約30美元。V4-Flash更激進,成本不到競爭對手的2%。這已經不是簡單的價格差,而是“量級差”了。“超低價”背後是模型架構、推理系統與算力調度共同最佳化後的結果。V4-Pro支援100萬token上下文,在部分長文字場景下,單token推理所需算力相比前代明顯下降,KV Cache佔用也大幅減少。過去行業處理長上下文,很多時候依賴的是持續堆視訊記憶體、堆頻寬;DeepSeek嘗試通過架構最佳化減少一部分無效計算與資源浪費。當然,效率上的突破並不等於全面超越。DeepSeek內部的真實評測顯示,V4目前已成為公司員工日常使用的Agentic Coding模型,使用體驗優於Sonnet 4.5,交付質量接近Opus 4.6的非思考模式,但與Opus 4.6的思考模式仍存在一定差距。開源和低價建立了影響力,可“一分錢一分貨”的道理,在頂級閉源模型身上依然成立。某種程度上,V4真正改變的,其實不是模型能力,而是行業對“智能應該值多少錢”的認知。極客肖恩·多納霍在Facebook發帖稱,自己把部分程式設計工具切換到DeepSeek之後,月帳單下降了90%以上,效果卻並未明顯下降。科技博主 Simon Willison 每次 DeepSeek 發佈新版本,他都會用同一句提示詞 生成一張鵜鶘騎自行車的 SVG。這次也一樣,測試之後他稱DeepSeek-V4-Pro 是“大型前沿模型中最便宜的一款”。上:DeepSeek-V4-Flash 版 下:DeepSeek-V4-Pro 版這幾位開發者或許只是個例,但他們背後折射出的趨勢值得關注:當價格差拉到“量級差”,開發者重新分配算力預算的動機也會增強。而當越來越多應用、Agent和開發工具開始基於同一種模型生態建構時,真正形成護城河的,未必只是模型能力本身,還包括開發者習慣、呼叫路徑以及整個生態的成本慣性。Deepseek想用極致的性價比,成為那個被開發者“持續依賴”的選項。02. DeepSeek 的“二度奇襲”2025年1月,Deepseek R1發佈,引發全球震動。Deepseek應用很快登頂蘋果中國和美國地區App Store免費榜首,Nvidia單日市值蒸發約6000億美元,美國風投家馬克·安德森稱之為AI領域的"斯普特尼克時刻"。一個杭州的量化團隊,用560萬美元的訓練成本,做出了對標OpenAI頂級模型的效果,並且開源了。彼時,世界對梁文鋒的理解,是"用更少的錢做更好的模型"。很多人後來把R1理解成“受限條件下的逆襲”,但其實並不完全精準。早在行業真正意識到大模型價值之前,幻方就已經開始大規模採購算力、建設叢集。後來外界看到的“低成本奇蹟”,更像一次長期積累後的集中爆發。梁文鋒真正厲害的地方,是他比大多數人更早意識到未來AI競爭的核心,不只是模型能力,還有算力效率。但隨著DeepSeek從技術黑馬變成核心玩家,新的問題也開始浮現。過去的DeepSeek,很像一個隱秘的研究組織,幻方量化在背後輸血,梁文鋒不缺錢,研究員埋頭做模型。Deepseek在X上的簽名都是“用好奇心揭開通用人工智慧的奧秘,用長遠的眼光回答根本問題”,學術味兒十足。但AI行業不會長期尊重“隱士”,尤其當你手裡真的有“真經”的時候。從2025年底到2026年,多位DeepSeek核心成員相繼離開。V3架構關鍵開發者羅福莉去了小米,第一代大語言模型核心作者王炳宣去了騰訊,R1核心研究員郭達雅被字節跳動以傳聞中“近億元的總包”帶走,多模態方向核心研究員阮翀轉投元戎啟行。過去,大模型公司的目標相對統一:訓練更強的基礎模型,到了2026年,行業開始迅速分化,Agent、多模態、端側AI、機器人、自動駕駛,陸續變成新的戰場。這時候,一個研究員如果想做Agent,去字節會面對真實月活場景;想讓AI理解物理世界,去自動駕駛公司顯然更有吸引力。DeepSeek太專注把模型本身做到極致,這種組織文化,能夠吸引最純粹的研究者,卻很難長期承載所有方向。它最強的地方,在這一刻成為它最大的桎梏。主流AI公司搶的是有經驗的工程師,梁文鋒卻更青睞頂尖高校的年輕博士生,因為在他看來這些人"渴望證明自己","可以完全不帶功利地投入去做一件事"。初期DeepSeek的確可以用技術理想主義吸引天才,但很難長期用理想主義支付機會成本,尤其在同行已經開始形成市場估值的時候。近兩年,OpenAI、Anthropic不斷刷新融資數字,投後估值高達8400億、3800億美元,國內的智譜、MiniMax相繼掛牌港交所,市值一度突破4000億和3800億港元。大廠給的是有行權價、有IPO預期、有內部回購機制的期權,而不融資的DeepSeek,沒有“度量衡”。在競爭白熱化的AI人才市場裡,沒有市場化估值錨點的期權,等於一張無法兌現的期票。梁文鋒或許也是意識到了這一點,所以開放了融資。但這依然是一個極具“梁式色彩”的融資方案。此次融資目標募集金額不低於3億美元,計畫以不低於200億美元的估值進行。與此同時,工商資訊顯示,梁文鋒在增資後直接持股佔比由1%提升至34%,其作為實際控制人的最終受益股份仍為84.29%,表決權比例仍為100%。他用大約3%的股權,換來了市場對這家公司的價值認證。董事會的控制權,一票未讓。對比同行,這個數字更加意味深長。OpenAI 2026年完成的最新一輪融資,募集1220億美元,投後估值8520億美元;Anthropic 2026年2月完成300億美元G輪融資,投後估值3800億美元。3億美元,放在今天的AI賽道里,甚至比不上同行一輪融資的零頭。梁文鋒選擇用這個體量融資,就是為給員工手中的期權,建立起相對清晰的估值錨點和兌現預期,穩住人才,同時讓公司不被短期增長所裹挾。03. 允許梁文鋒再“偉大一次”R1證明了中國AI可以做出世界級模型,V4之後,梁文鋒試圖證明中國AI可以建立起自己的“底座標準”,那怕這條路,很難。有個細節,V4發佈後,華為昇騰生態官方帳號,專門為DeepSeek-V4做了一場直播。晶片廠商親自下場給一款模型站台,並不常見。它釋放的訊號超出產品本身:DeepSeek第一次公開地,把自己的模型路線與國產算力的量產節奏綁在一起。過去幾年,中國AI行業有個默認順序,模型可以開源,演算法可以追趕,但輝達的生態護城河最難撼動。CUDA是輝達二十年攢下的工具鏈、算子庫、開發框架和開發者習慣,全球AI幾乎默認運行在這套底座之上。要脫離它,可不是“換塊顯示卡”那麼簡單。尤其在兆級參數模型上,難度會被進一步放大。參數越大,對視訊記憶體頻寬、通訊效率、叢集穩定性的要求就越高。模型團隊不僅需要針對國產晶片重寫和最佳化核心算子,甚至還需要自研確定性算子,保證長時間訓練過程中的精確可復現。更現實的問題是在萬卡叢集裡,硬體故障不是意外,而是必然。於是,訓練框架必須同時具備完整的檢測、容錯與恢復能力。如果效率跑不上去,成本就只是空談。V4延期超過十五個月,遷移代價是原因之一。目前V4的細粒度專家平行方案已經同時在輝達GPU和華為昇騰NPU兩個平台上完成驗證,在通用推理場景中實現了1.5到1.96倍的加速。推理層面跑通了,但開放原始碼主體仍基於CUDA,底層工具鏈尚未完全轉移,原因在於昇騰950超節點尚未批次上市,現有產能撐不起V4-Pro的大規模服務。不過DeepSeek已經把下一輪降價,公開寫進了國產算力的量產時間表裡。昇騰950PR單卡算力達到輝達H20的2.87倍,是目前國內唯一支援FP4低精度推理的產品,HBM容量112GB。規格是真實的,只等工業化落地。梁文鋒當年從幻方量化的GPU叢集起家,把算力當作研究的彈藥。如今他讓中國模型和中國晶片的命運,在商業上深度捆綁,並在所有人面前承諾,這是梁文鋒在晶片封鎖的現實下,做出的務實選擇。但這條路有個前提:模型能力必須始終足夠硬。V4把1M上下文做成標配、對Agent能力做專項最佳化、推出三檔推理強度,這些不是給評測榜單準備的,是給真實企業工作流準備的。只有先在真實生產場景裡證明自己不可替代,Deepseek的“底座”敘事才能成立。未來,梁文鋒和Deepseek要走的路還很長,國產算力的工業化時間表能否如期兌現,模型能力能否在閉源頂級模型高速迭代的壓力下保持競爭力,開發者生態能否形成足夠的黏性……它們像棋盤上尚未閉合的“氣眼”,每一個都關乎生死,可這些問題,現在都還沒有答案。Deepseek爆火後,被問及"商業公司做無限投入的研究性探索是否瘋狂"時說,梁文鋒曾說過一句話:"我們終其一生所渴望的,就是找到自己,然後成為自己。"這句話在R1發佈後的語境裡讀,是一個創始人的理想宣言。如今再讀,份量更重了些。AI競爭的上半場,他用技術效率、定價顛覆和算力豪賭,贏得了繼續下棋的資格,成就了Deepseek的"偉大"。下半場,允許梁文鋒再“偉大一次”,不是因為他已經攻下了某個技術的山頭,而是他正在為一場漫長的遠征搭建底座。不誘於譽,不恐於誹,率道而行,端然正己。這是荀子的精神,也是Deepseek的信條。 (奇點研究社)
Deepseek融資估值一周漲4倍,還要挑VC背後的LP?律師分析股權融資要點
萬眾期待的Deepseek,終於在2026年4月24日更新了DeepSeek-V4版本。一、Deepseek融資的消息多次變化Deepseek融資的消息,一個星期內多次刷新。4月17日首次曝出,以不低於100億美元的估值融資。4月22日媒體報導,騰訊、阿里洽談投資,估值上調至超過200億美元,但相關方表示不知情?4月23-24日再次曝出,投前估值3000億人民幣(約440億美元),就是一個星期翻四倍?其實就算是3000億元估值,還是比智譜要低。最新融資消息由白鯨實驗室於2026年4月23日16:46傳出。文章說是接近DeepSeek的一線機構投資人士告知:(1)DeepSeek融前估值3000億人民幣,約合440億美元。(2)計畫融資500億元,內部自投200億元,對外融資300億元。(3)參與投資的機構必須50億元起投。(4)對VC背後的LP也有要求,一家一線投資機構因LP有許多個人投資人未達標,被拒之門外。公司融資,有必要稽核VC背後的LP嗎?盧慶華律師用事實告訴你,有必要,有公司就因為VC背後的LP而影響上市了。二、因投資人問題影響上市的案例案例1,瀚天天成,被投資人背後的股東阻攔上市丙投資人對瀚天天成有兩筆投資,第一筆投資1000萬元,第二筆投資4000萬元,兩年後公司回購了第二筆投資4000萬元,丙投資人仍持有第一筆投資,還是公司的股東。三年後公司拿到華為、華潤微等的融資,公司估值大漲,而四年前已退出第二筆投資的丙投資人背後的小股東X開始搞事情。X起訴想拿回四年前已回購的股權,花兩年時間打官司後,瀚天天成贏了官司,才於2023年12月提交科創板上市申請,但問詢半年都沒有回覆,在2024年6月撤回申請了。公司申請上市前,需要先從有限責任公司改製為股份有限公司。而股改時,丙投資人不出席創立大會,不簽發起人協議以及股份有限公司章程,意味著股份有限公司成立的合法性都存疑?而且X還於2024年9月再次起訴股東資格糾紛。撤回科創板申請後,公司於2025年4月改申請港股上市。不知道是不是創始人花錢解決問題了?丙投資人終於同意在2025年4月簽署確認函,公司於2026年3月30日成功在港股上市。案例2,因敏感LP問題影響上市影石創新申請上市時,投資人背後好幾層的LP有證監系統離職人員,公司的上市處理程序因此被耽誤三年,最後創始人回購了敏感人員的股權後才能上市。案例3,藍城兄弟,創始人被迫出局融資時給了投資人一票否決權,上市前投資人不簽字,創始人被迫與投資人簽回購協議,才放公司上市。上市後股價先漲後跌,漲時投資人不賣,跌下來後投資人要求創始人回購股權,創始人最終被迫出局了。案例4,森峰雷射,投資人退出多年還能阻攔上市公司曾因業績不達標,甲投資人要求退出。創始人找到投資人B等收購了甲投資人的股權,甲投資人拿到10%年化收益後退出了。公司申請上市時,被問涉及公司的對賭協議是否已徹底清理,是否自始無效,是否符合相關規定。回覆說,甲投資人已經賣股權退出,特殊權利的協議已自動終止履行,但甲投資人不同意接受訪談。再被問詢,甲投資人是否享有業績補償請求權等。盧慶華律師說,甲投資人賣股權退出後,之前與公司以及創始人簽署的對賭協議是不會自動終止的,需要另外再簽終止協議。而投資人賣股權退出時並沒有簽終止協議。為了拿到甲投資人的確認書,創始人最終同意向甲投資人支付3500萬元作為補償,而且當天先付300萬元,甲投資人才同意簽確認書。已經退出三年的投資人還能影響公司上市,原因是投資人退出時的操作不專業留下把柄,最後創始人要自掏腰包3500萬元才解決。這代價多大呀,創始人自己沒錢,還要借錢付給投資人。還有的公司因為投資人股權被凍結,無法進行股改,也就無法上市,還要創始人回購股權。因為投資人而影響上市的案例,在盧慶華律師寫的另一篇文章裡有更詳細介紹。在有條件時,可以按照以下原則選擇投資人:(1)按照投資人的資金實力選擇比如深圳領存要求投資人在盡職調查前支付1000萬元保證金。比如網傳Deepseek要求投資人50億元起投。比如大疆要求投資人配套提供無息借款…這些做法都能從側面體現投資人的資金實力,降低股權被凍結影響上市的可能性。深圳領存要求投資人支付保證金,曾經在創投圈引起軒然大波,有投資人還表示要拉黑深圳領存。但在工程行業,要求參與投標的建築公司提供投標保證金是非常普遍的操作。誰有優勢誰就有機會定立規則,由於大部分融資項目都比較弱勢,或者創始人沒有經驗,投資人強勢慣了,才會因為支付保證金事件讓整個投資圈都炸鍋了。(2)投資人的人品問題比如瀚天天成、森峰雷射都是在回購投資人股權多年後,還因為投資人問題影響公司上市。根本原因是投資人退出後,發現股權漲價了,投資人後悔了,想要更多。而創始人早期的操作不專業,給已退出的投資人留下可以要挾的空間。公司融資時,很難判斷投資人的人品。無法選擇人品,但可以請專業人士在操作上做得更專業,避免留下漏洞被投資人利用。那些要求被投企業支付盡職調查費的投資人,本質就是太小氣,利用優勢地位欺壓弱者,這不只是錢的問題,其實是人品問題。這樣的投資人,在你遇到困難時,也許不是同舟共濟,而是趁你病要你命。比如很多企業經營遇上困難時,本來還有機會翻身的,可是被投資人要求回購股權,就加速死亡了。(3)敏感人群入股問題大部分公司融資都沒機會對投資人做反向盡職調查,無法判斷投資人背後是否有敏感人群。可以在合同約定,如果存在違反法律或證監會等規定的人員持股,可由創始人決定以0元價格回購股權。用這樣的條款給投資人壓力,讓他們自己去核查背後的LP有沒有問題。三、因投資人問題影響企業發展創始人把企業當兒子養,投資人把企業當豬養,雙方目標不同,容易發生矛盾。有的公司還沒走到上市那步,在早期就被投資人掐死了。3.1 關於一票否決權比如否決權殺死ofo,曾經被眾多投資人追捧,一年5輪融資,一年估值漲200倍,但最後卻發生了否決權殺死ofo的悲劇。戴威說,開始融資時條款都不砍,覺得投資人都投錢了,太感謝了,還談什麼條款?而融資的合同條款,就是後來投資人用來掐你脖子的那把刀。投資人的刀藏在合同裡,很多創始人都看不出來。比如賈躍亭曾說,股權和經濟利益都可以讓步,但公司控制權絕不能出讓,因為這是FF的生命線。在FF拿恆大融資時就設了AB股,賈躍亭有88%的投票權,但還是被恆大掐住融資的路。恆大在合同裡設的“融資同意權”就是一票否決權的其中一種形式,賈躍亭看不出來這就是否決權?還有人評論說,梁文鋒融資出讓3%的股權,投資人那會有否決權?這樣認知的人非常多,所以就踩坑了。盧慶華律師在《公司控制權》書裡介紹了法院判決的案例,有大股東持股99%也無法控制公司,因為小股東有一票否決權。公司章程寫經全體股東同意通過,沒有持股1%的小股東同意,事情就無法通過。這也是否決權的另一種表現形式,《公司控制權》書裡介紹了否決權有五種形式。控制權是用來開路的,否決權是用來擋路的,別人有否決權,你的路就被堵死了。對於不負責公司經營的投資人來說,有否決權就已經擁有超越股權比例的權力了。但對於負責公司經營,承擔經營責任的創始人來說,只有否決權是遠遠不夠的,有否決權只能擋路,但無法開路。創始人想控制公司,需要給自己設計控制權,還不能給別人有一票否決權。3.2 關於回購條款很多創始人因為回購條款變成老賴,有的創始人創業失敗後連點外賣的錢都沒有。而有的創始人,自己已經被迫退出公司三年後,還被投資人要求付錢回購股權,最後房子都要被拍賣了。(1)關於創始人無限責任藍城兄弟的創始人被迫出局後反思說,如果知道簽的回購條款是無限連帶責任,也許就不會簽了。盧慶華律師告訴你,只要簽了個人回購,就是無限責任了。創始人作為股東身份,承擔的是有限責任。但創始人在融資合同上籤的個人回購條款,那個是合同責任,不是股東責任,合同責任就是無限責任,因為成年人要對自己的行為承擔無限責任。(2)關於融資的回購條款有創始人說,投資人同意創始人不用個人承擔連帶責任,但後來創業失敗,由於合同條款模糊,創始人被判承擔無限責任,房子被拍賣了。他還說,融資時請了很專業的律師,是當地最大律所的老闆,當地IPO項目大部分都是那個律師做的。可見這位創始人並不懂得如何判斷律師是否專業。既然投資人同意創始人個人不用承擔責任,如果足夠專業,就不應該因為合同條款模糊而導致個人承擔連帶責任。最後卻發生了合同條款模糊而要個人承擔責任,說明投資人的律師比創始人的律師專業,投資人律師用模糊條款讓創始人以為不用個人承擔責任,最後卻被法院判決創始人個人要承擔責任。創始人以為IPO律師最專業,其實IPO律師與融資合同律師的工作重點不同。IPO律師主要是對照上市規則和證監會要求,審查公司的操作是否符合規則,發現不符合規則的幫助公司完善,並在申請上市過程就問詢問題進行專業解釋,以說服稽核人員。上市規則和證監會要求更多是為了保護公眾股東和小散戶的利益,防止被實控人坑害。IPO律師的直接對手方是證監會、交易所和規則,間接對手方是公眾股東和小散戶,證監會、交易所的審查間接也是為了保護公眾股東和小散戶的利益,因為公眾股東和小散戶比較弱勢。而融資過程中,創始人方的律師的對手方是投資人的律師。創始人的律師與投資人的律師博弈,保護公司和創始人的利益,防止被投資人挖坑。融資雙方的律師,努力利用規則留下的空間,把公平線往自己這邊挪動。而對於IPO律師而已,公平線就如木樁固定不變,IPO律師幫助企業站到木樁上面。IPO律師需要站在證監會角度審查實控人不給散戶挖坑,而融資律師則需要幫助創始人不被投資人挖坑。兩者的工作重點完全不同,需要的能力也不同。藍城兄弟的創始人被迫出局後反思說,當時沒有選一個好的財務負責人,財務負責人給挖了很多坑,給自己簽了奇奇怪怪的協議。可是投資人有專業律師,怎能指望你的CFO比對方律師更專業呢? 這對CFO的要求是不是太高了?(3)關於以股權為限有創始人以為,融資合同簽了個人回購條款,寫上 “回購金額以個人股權價值為限”,到時大不了把股權都給投資人,自己就不用承擔責任了。這完全是對法律的誤解,有法院判決的案例,就算有如此約定,房產等眾多財產還是被凍結了。盧慶華律師說,“回購金額以創始人個人的股權價值為限”,這句話說的是用多少錢去回購股權,不是用什麼去回購。“個人股權價值”只是用來衡量付多少錢回購股權的尺子,並不是用來回購股權的標的物本身。在否決權殺死ofo時,有人說國內的律師都不太專業,可是你知道怎麼判斷律師是否專業嗎?國內大部分律師都是以打官司為主的,而打官司是已經掉進坑裡了,雙方找幫手在井下博弈,看誰能先打倒對方跳出坑來。如果一個成年男性面對一個嬰兒,不需要博弈技巧也是成年男性贏,只有在雙方勢均力敵時才需要拼博弈技巧。而你是成年男性還是嬰兒,在掉進坑裡之前已經定局了,也許就是你以前簽的合同決定你是成年男性還是嬰兒,而大部分人在簽合同時都是不以為然的。好的合同,需要在任何事情都還沒發生時,提前預判未來有多少種可能性,那些地方可能有坑,提前設計方案避開可能存在的坑,萬一遇到坑要有預備馬上跳起來,不要掉進坑下再博弈。處理融資合同與打官司,需要的是不同的能力。打官司更多需要博弈技巧,處理合同更多需要提前預判和設計預案。打官司是問題已發生,定向解決問題;處理合同是不知道未來會發生什麼問題,需要預判和做全方位的防護。而未來不可知,對方如何出招也難以預判。盧慶華是以不打官司解決問題為主業的股權律師,花很多時間去研究別人的案例,就是為了更多的瞭解別人是怎麼踩坑的,對方可能會怎麼出招,在合同裡如何提前設計預防方案等。四、Deepseek可以不融資嗎?4.1 不融資能免費拿50億元按照現在的股權架構,梁文鋒從幻方量化賺錢需要先交20%的個人所得稅,剩下的錢才能投到深度求索。如果投入200億元,需要先交50億元的個人所得稅【200/(1-20%)】=250億元,就是25%的錢拿去交稅。其實這種情況國家是有免稅政策的,《企業所得稅法》第26條規定,符合條件的居民企業之間的分紅免稅。這是鼓勵老闆們把賺到的錢繼續投入生產領域,不分到個人不用交稅。對於梁文鋒而已,只需要調整股權架構,就能多出這50億元。(1)成立一家控股公司,不能是合夥企業,合夥企業不能享受免稅政策。(2)用控股公司作為幻方量化和深度求索的共同股東。(3)梁文鋒個人在控股公司上面持股。從幻方量化分紅到控股公司,不分到梁文鋒個人就不用交稅,再把錢從控股公司把錢投到深度求索。這樣調整之後,投入200億元能多出50億元,如果投1000億元就能多出250億元,根本不用找投資人融資。但如果未來打算賣股權,這樣的股權架構會導致多交一倍稅。在股權律師盧慶華寫的《股權進階》書裡,介紹了適合不同情況的四種股權架構,需要結合持股目的和業務規劃考慮股權架構設計。4.2 銀行貸款如果調股權架構多出來的錢還不夠,可以找銀行貸款。像深度求索這樣的公司,銀行肯定願意代款。銀行貸款沒有不平等條約,不要否決權,不派董事,不干預企業經營。4.3 關於股權融資如果實在需要股權融資,一定要注意選擇投資人和重視合同條款,像Deepseek這麼有優勢的項目,有足夠的談判優勢。(1)如果投資人做直接股東,可以要求投資人放棄表決權。盧慶華律師遇到過有傳統企業老闆,都能要求投資人放棄表決權,像Deepseek這樣的明星項目肯定有機會這麼做。不過那家公司在辦理工商手續時,當地工商局不同意放棄表決權版本的公司章程,最終換了一種方式通過工商備案,保證創始人不管持股多少都有控制權。(2)可以要求投資人在有限企業持股,投資人做間接股東。不要覺得這樣不可能,有的傳統企業就是這麼做的。像Deepseek這麼有優勢的項目更有機會這麼做,創始人要敢想敢幹,才有機會實現,如果連想都不敢想,怎麼可能做到呢?(3)可以主動約定回購投資人的股權可以像張雪那樣,主動約定回購投資人的股權,但利率不能太高。比如張雪第二輪融資時,與投資人約定回購30%股權,利率是6%-7%。以Deepseek這麼有優勢的項目,也許可以拿到更好的條件。(4)關於合同條款如果要做股權融資,一定要重視融資合同條款。投資人再多的甜言蜜語,如果不落實到合同條款都是耍流氓,合同條款就是最能代表投資人態度的。投資人起草的融資協議,有的幾十頁幾百頁,90%的內容都是用來保護投資人,給創始人挖坑的。Deepseek這麼有優勢的項目,可以不用投資人提供的合同條款,自己起草兩頁紙的簡版融資協議,約定融資金額、價格、怎麼付款、怎麼計算股權、如何辦理工商登記就可以了。投資人作為股東的權利在公司法有規定,很多不是VC的普通投資人都沒有VC這些複雜的條款,依據公司法主張股東權利。像梁文鋒這樣有遠大追求、有能力帶領中國企業走到世界前列、價值觀又正的創始者非常少,希望不要被融資帶歪了。大疆在八年前融資就能打破陳規陋習,不給投資人做盡職調查,還要投資人提供無息借款。梁文鋒完全可以訂立新規,掌握融資的主動權。4.4 關於留住員工在盧慶華律師寫的另一篇文章裡,有好些人留言說,近期深度求索人才流失,融資是為了估值,給員工期權一個市場價格。這種說法也許有一定的道理,這麼做也是最容易解決員工價值錨定的方法,但容易做的方法可能後患無窮。華為沒有融資、沒有上市,但在科創板開始的前三年,多家公司因為拿過華為的投資而估值飛漲,一家非上市公司可以帶飛多家上市公司。如果華為融資了、上市了,還能做成今天的華為嗎?會不會被投資人逼著走歪了?任正非曾說,華為不需要資本進來,因為資本貪婪的本性會破壞華為實現理想。華為沒有融資,沒有上市,也能通過股權激勵留住員工。另一家公司帆軟軟體,也是沒有融資,沒有上市。媒體報導說,帆軟軟體到無錫時,提出的條件就是不要引薦投資人到帆軟,不要給帆軟介紹客戶,就算是無錫國資也沒能投資帆軟。帆軟的創始人說,他們不以股東為中心,而是以勞動為中心,投資人拿不到分紅,也等不到上市,投資了也沒用。帆軟沒有採用華為那種大規模的股權激勵,而是採用利潤共享的方式對突出貢獻的員工進行二次分配, “為更高比例的同學提供業內領先的綜合收入”。任正非曾經說,企業管理最難的工作是如何分錢,錢分好了,一大半的管理問題就解決了。大疆的創始人汪滔說,如果做產品的難度是1分,做管理的難度就是10分。對Deepseek來說,如果不融資、不上市,怎麼做好員工的激勵?這就考驗梁文鋒的管理能力了。作者,股權律師盧慶華,管理專業出身,20多年前考取律師資格,出版兩本書《股權進階》和《公司控制權》。(1)擅長用管理思維、結合法律手段進行股權設計,管理思維助企業發展,法律手段防範風險。(2)結合上市規則做股權規劃,為企業未來上市提前鋪路,申請上市時股權問題需要從公司成立第一天開始核查。(3)擅長用不打官司的方式解決控制權問題,曾有百億營收企業找了清華、北大、人大、政法等專家+紅圈所律師,打多場官司沒解決,後來找過來用不打官司的方式解決的。(4)工作超過20年,擅長從底層邏輯分析、從企業全域設計方案,不擅長行銷,追求實操落地,走陽光路線。(股權道)