#開源
DeepSeek多模態上線開源:給AI裝上"數字手指",視覺推理碾壓GPT-5.4
DeepSeek正式發佈多模態大模型及技術報告《Thinking with Visual Primitives》。同日,GitHub開源上線,網頁端與App端"識圖模式"灰度發佈。5月1日,核心技術免費商用。這意味著什麼?DeepSeek首次在多模態領域拿出主戰場級成果,提出了一個被長期忽視的根本問題:"看見"和"指准"是兩件事。01. 從"看不見"到"指不准":多模態的真正瓶頸給GPT-5.4一張密集人群的照片,問"圖裡有多少人",它很可能數錯。給Claude Sonnet 4.6一張複雜迷宮圖,問"從起點到終點有沒有路",正確率接近50%——和擲硬幣差不多。圖:傳統多模態模型在複雜視覺任務中容易"指錯對象"這不是模型"看不清"的問題。它們能識別出圖片裡的每個元素,但一旦開始用語言"思考",邏輯就崩了。你說"左邊那個紅色的",在擁擠的場景裡,這個"紅色的"到底指那一個?模型的注意力在推理過程中像沒拴住的船,慢慢漂移,最後得出錯誤結論。DeepSeek將這個問題命名為"指代鴻溝"(Reference Gap):看見和能說清楚在說那個,是兩件完全不同的事。業界此前的思路,是讓模型"看得更清":提高圖片解析度、動態切割分塊。這解決的是"感知鴻溝"(Perception Gap)——確保模型能看見細節。但論文指出:感知能力再好,也無法解決"指不准"的問題。02. 視覺原語思考:給AI裝上"數字手指"DeepSeek的解法簡單粗暴:讓模型"邊想邊指"。它不再只用文字思考,而是把點坐標和邊界框變成了思維鏈的基本單位。圖:AI在推理過程中同步輸出坐標,像人"用手指著思考"舉個例子,它的思考過程會這樣呈現:找到一隻熊[452,23,804,411],正在爬樹,排除。再往左下看,找到另一隻[50,447,647,771],站在岩石邊緣,符合條件。這裡的坐標不再是事後標註的答案,而是推理過程中消除歧義的空間錨點。每提到一個對象,就用一個"圖釘"把它釘死在圖像的物理位置上。這套機制有兩種"視覺原語"(Visual Primitives):邊界框(Bounding Box):用於錨定對象,定位物體範圍。適合計數、屬性對比、多物體空間推理。點坐標(Point):用於追蹤軌跡,描畫路徑。適合迷宮導航、曲線追蹤等連續空間描述任務。03. 7056倍壓縮:極致的效率藝術讓模型每一步思考都帶坐標,聽起來計算量會爆炸。但DeepSeek通過壓縮稀疏注意力(Compressed Sparse Attention,CSA)機制,實現了極致的效率。圖:7056倍壓縮流程示意架構基於DeepSeek V4-Flash:284B總參數,13B啟動參數(MoE架構)。視覺壓縮流程:① 圖片經ViT處理,生成2916個圖像塊token② 3×3空間壓縮,合併為324個token③ CSA機制壓縮4倍,最終只剩81個視覺KV條目端到端壓縮比:7056倍。論文的核心論點:不需要"看更多",而需要"指更準"。04. 跑分屠榜:在"最難"的題上碾壓對手在11個benchmark橫評中,DeepSeek展現了強大實力。圖:11個基準測試性能對比最具代表性的差距出現在拓撲推理上:迷宮導航任務中,GPT-5.4、Claude、Gemini的正確率在48.9%至50.6%之間——幾乎就是在隨機猜。DeepSeek達到66.9%,提升約17個百分點。模型解迷宮時會一邊走一邊把當前位置point出來,遇到死路就回溯,一步步走出來的。這種"邊推理邊落點"的形態,是純語言CoT做不到的。05. 訓練哲學:先專家化,後統一DeepSeek的訓練策略可以用一句話概括:先讓專家各司其職,再合併成全科醫生。圖:從專家模型到統一模型的訓練流程預訓練階段:團隊從近10萬個目標檢測資料集中篩選,經過語義稽核和幾何質量稽核,最終保留約3.17萬個高品質資料來源。生成超過4000萬條訓練樣本,覆蓋計數、空間推理、迷宮導航、路徑追蹤四類任務。冷啟動資料設計:團隊故意構造了一批"看似可解實則不可解"的迷宮。破壞點放在中段而非起終點附近,逼模型完整搜尋而不是憑直覺判斷。專門化訓練:先分別訓練邊界框專家和點坐標專家兩個"專科醫生"。經強化學習最佳化後,通過線上策略蒸餾合併為統一模型。RL階段還有一個細緻設計:訓練資料按N次rollout的正確數分Easy/Normal/Hard三檔,只用Normal檔訓練。06. 開源與時間線:48小時完整動作閉環這次發佈的節奏乾淨利落,48小時內完成全域覆蓋。圖:DeepSeek多模態GitHub開源倉庫4月29日:DeepSeek多模態組負責人陳小康在X平台發佈"Now, we see you"預告,暗示識圖功能即將上線。4月30日:GitHub正式發佈模型權重+技術報告《Thinking with Visual Primitives》,網頁端/App端灰度上線"識圖模式"。5月1日:核心技術開源,免費商用,引發全球開發者熱議。開源策略:無隱藏後門、無強制雲端繫結、無商用額度鎖。開發者僅需基礎適配硬體,即可完成本地離線完整部署。值得注意的是,論文曾短暫被刪除後恢復。有分析認為可能因技術細節曝光度較高,團隊進行了內容稽核調整。此外,模型同步完成輝達通用算力、華為昇騰國產算力雙生態深度適配最佳化,兼顧效率與安全合規。07. 侷限與展望:多模態競賽的新起點論文坦誠列出了當前的三條侷限:圖:多模態AI的未來發展方向第一:坐標精度有限。極細粒度場景(如數手指)下,視覺原語的輸出可能不夠精確。第二:需要觸發詞啟動。"用視覺原語思考"的能力依賴於顯式的觸發詞才能啟用。第三:泛化能力待提升。跨場景的通用性仍在探索中。但從更宏觀的視角看,這篇論文標誌著多模態競賽從"廣度"轉向"深度"。別人卷"看更多像素",DeepSeek這次卷的是"看更少像素,但思考時手指點得更準"。競爭焦點正在從"看更多像素"轉向"指更準坐標"。DeepSeek產品矩陣趨於完整:快速模式+專家模式+視覺模式。低價策略極可能延伸至多模態,掀起新一輪價格戰。從純文字強者到多模態全能選手,DeepSeek用硬核技術打破行業痛點,補上國產AI關鍵短板。這不僅是DeepSeek的里程碑,更是國產AI從單點突破到全面開花的新起點。 (熱火AI)
實測!DeepSeek V4-pro是第一個接近Claude開源模型,前Meta研究員震驚
DeepSeek V4-pro是第一個接近Claude開源模型DAIR.AI創始人、前Meta AI研究員Elvis最近花了幾個小時,用DeepSeek-V4-Pro在Pi這個Agent框架裡搭了一個LLM知識庫。結果他直接被整震驚了。開箱即用他用的是Pi,一個基礎的Agent腳手架,沒有做任何特殊配置,直接把DeepSeek-V4-Pro接進去,就跑起來了。他特別強調這一點:這是他第一次見到一個開源模型,可以就這樣插進一個基礎框架,什麼都不用調,直接工作。以前遇到的模型,基本都需要大量的配置和前期準備工作。能做到這一步,本身就已經很罕見了。推理服務跑在Fireworks AI上。Agent幹了什麼這個Agent承擔的任務並不輕鬆,是一次覆蓋面很廣的知識密集型多步研究任務:從Anthropic、OpenAI、Google、Stripe、Meta、Modal、DeepSeek、Mistral、Cohere等多家公司的官方文件裡,抓取Agent工程的最佳實踐;同時搜尋並消化Reddit和Hacker News上的相關討論帖;總結arXiv上的學術論文;挖掘GitHub上的熱門倉庫。最後,把所有這些來源的內容彙總,提煉成分類清晰、可以直接落地執行的建議,組成一整個知識庫Wiki。Wiki已經開源,可以直接查看:https://github.com/dair-ai/dair-workshops/tree/main/agentic-engineering-wikiElvis對成品質量的評價是:真的很好。模型在整個過程中沒有出任何問題多步研究查詢、為腳手架生成程式碼、跨多個來源的重度上下文推理,全部流暢完成,沒有卡頓,沒有中斷。他對DeepSeek-V4-Pro的判斷是兩點:第一,在開源模型裡,它在Agent程式設計任務上可能是最強的;第二,它在知識密集型、需要推理的任務上同樣表現出色,不只是會寫程式碼。在程式設計能力這件事上,他給出了一個更直接的評價:這是他見過的第一個開源模型,真正能讓人感受到接近Codex或Claude Code的體驗。不是說能力差不多,而是在實際的多輪Agent任務裡,它能真正比肩這兩個產品。他也提到,這是他第一次感受到,有一個開源模型的推理能力真正達到了Claude和Codex的水平,同時還以一種經濟實惠的方式實現了對100萬token上下文長度的支援。跑得快,背後有架構原因整個Agent循環之所以響應迅速,有兩個因素。一個是Fireworks AI的推理速度,Elvis認為這是目前市場上最快的,並且Fireworks在上線模型之前會在系統層面做驗證,沒有出現推理鏈損壞的問題,迭代穩定可靠。另一個是DeepSeek-V4-Pro自身的架構設計。它採用了混合CSA和HCA注意力機制,在100萬token的上下文長度下,KV快取只有原來的10%,推理所需的FLOPs降低了近4倍。這兩點加在一起,讓Agent循環在實際使用中足夠快、足夠便宜,真正可以跑起來。給一直在等的開發者Elvis最後說,對於那些一直在觀察開源模型能否真正追上閉源模型、但始終沒找到一個能在實踐中真正交付的人來說,DeepSeek-V4-Pro是他目前見過最接近那個答案的模型。 (AI寒武紀)
DeepSeek V4:是AI開源大事件,更是產業變革新開端
推理效率提升74%、KV快取壓縮90%、API定價不及閉源競品1%。當大模型的邊際成本趨近於零,AI產業的真正變局才剛剛開始。2026年4月24日,DeepSeek在沉寂長達15個月後,正式發佈並開源新一代旗艦模型DeepSeek-V4。這不是一次常規的模型迭代,而是一次從架構底層到價格體系、從算力生態到產業邏輯的全方位重塑。如果說過去兩年AI圈的競爭是“誰能做出更聰明的模型”,那麼從這一天開始,競爭正在轉向:“誰能讓AI變成人人用得起的水電煤”。一、暴力破解的終結:當AI開始“聰明地花算力”DeepSeek-V4系列包含兩款模型:V4-Pro(1.6兆總參數,每次推理啟動490億參數)和V4-Flash(2840億總參數,每次推理啟動130億參數),兩者均原生支援100萬token超長上下文。1M上下文從此不再是一個“高端功能”——一年前它還是Gemini獨家的王牌,如今被DeepSeek直接挪成了行業標配的“水電煤”。這組資料之所以震驚業界,不是因為參數大,而是因為效率做到了前所未有的極致。在100萬token的極端長度下,V4-Pro的單token推理FLOPs僅為上一代V3.2的27%,KV快取佔用僅為10%。V4-Flash則更進一步,只需要10%的單token FLOPs和7%的KV快取。這意味著什麼?處理同樣長度的超長文件,V4不僅讀得更多,而且讀得更快、更省、更穩。效率提升的核心來自一系列值得深挖的架構創新:壓縮稀疏注意力(CSA) :每4個token合併成一個壓縮條目,然後用閃電索引器快速篩選出最相關的少量塊進行注意力計算——“拿著放大鏡找關鍵線索的偵探”。重度壓縮注意力(HCA) :以高達128倍的壓縮率濃縮全域資訊——“站在山頂俯瞰全景的指揮官”。兩者交錯部署在模型的各層中,形成精準定位與全域把握的互補。流形約束超連接(mHC) :給訊號傳播加上“安全閥”,從根本上保證訓練穩定性。Muon最佳化器:取代業界標配的AdamW,進一步降低訓練成本。這一切的底層哲學,不是“堆參數”,而是“每瓦特算力的最大產出”。DeepSeek V4把注意力機製做了一次“手術級”的改造,讓超長上下文從實驗室裡的“高端展示”變成了普通開發者也能跑得動的日常工具。這種效率革命帶來的是價格上的斷崖式下降。DeepSeek V4-Flash每百萬token輸出價僅0.279美元,而同期OpenAI發佈的GPT-5.5 Pro輸出價高達180美元——價差整整645倍。V4-Pro輸出端成本則僅為GPT-5.5 Pro的2%。如果把V4-Pro考慮折扣後的API輸入價壓到0.25元/百萬詞元,與GPT-5.5 Pro加權平均價格30美元/百萬token相比,價差超過700倍。更直觀地說:V4呼叫一次的價格,還不到對手的千分之一。 在推理效率層面,華為昇騰950超節點的測試資料顯示,V4-Pro單卡Decode吞吐可達4700TPS,V4-Flash在8K長序列場景下單卡Decode吞吐1600TPS。DeepSeek V4的回答是:快,是能力的下限;省,才是格局的起點。二、一扇門打開,另一扇門關上當DeepSeek V4以700倍的價格差距直插市場時,它激發的連鎖反應遠遠超出模型本身。開源vs閉源:矽谷在“造牆”,中國在“修路”。矽谷的頭部玩家們不約而同地選擇了閉源路線。OpenAI、Anthropic、Google的Gemini,當前沿技術創新被鎖死在各自的資料中心裡,玩家們不可避免地陷入了零和博弈的“權力遊戲”。就在V4發佈前夕,一場圍繞新模型的輿論狙擊戰剛剛上演——4月16日Anthropic剛發佈Claude Opus 4.7,OpenAI兩個多小時後便宣佈Codex大幅更新;隨後又圍繞營收資料互相拆台,敵意滲透進每一個決策環節。而DeepSeek走了一條完全不同的路。它聚焦基礎模型的核心能力攻堅,進一步築牢了全球開源大模型的性能天花板,為全行業提供了性能比肩閉源旗艦的基礎底座。巧合的是,就在V4發佈前後,國內的Kimi也開源了K2.6,兩個兆參數模型同時亮相,卻沒有一絲互掐,甚至還在技術底層進行了“換防”。正如大量評論所指出的,這背後是中美AI路線的一次分岔:矽谷在“造牆”,守住既得利益;中國在“修路”,走開源協同之路。這種路線的分野,背後是根本邏輯的差異。閉源路線的本質是技術作為“護城河”和賺錢的工具,一旦共享就會失去競爭優勢;而開放原始碼的邏輯是模型越開放,生態越繁榮,蛋糕才能越做越大。網際網路巨頭:戰火從“參數比拚”燒向“應用落地”。DeepSeek V4發佈僅一天後,阿里雲百煉就火速上線,API價格與官網一致;國家超算網際網路同步上線服務。科大訊飛、中關村科金、華為昇騰等廠商也在第一時間完成了適配對接。對於騰訊、字節跳動、阿里這樣的巨頭來說,V4的衝擊更多是戰略層面的:以前大家的競爭焦點是“誰的模型參數更大、榜單更高”,現在V4用700倍的成本優勢提醒所有人——接下來真正決定勝負的戰場,是誰能在真實業務場景中用模型創造價值。誰先學會“用好V4”,誰就可能在下一階段佔據卡位優勢。各行各業:一次從“能不能用”到“用不用得起”的跨越。在此之前,企業引入大模型最大的瓶頸不是技術夠不夠好,而是成本夠不夠低。一次API呼叫幾十上百美元的成本,對中小企業來說等於把AI鎖在實驗室裡。V4的出現改變了這一切。在金融行業,國泰海通率先完成DeepSeek-V4基於昇騰的本地化部署,將依託模型實現在智能投行、智能投研、智能投顧、智能風控等八大業務領域的全面突破。保險行業聚焦投保、核保、理賠查勘等高重複性、知識密集型和互動高頻度場景展開部署。在醫療領域,深圳市南山區人民醫院基於昇騰率先部署V4,全面升級了政策諮詢、醫保監管、門診病歷質控等30余項應用,全方位覆蓋醫療全流程。廣西移動落地部署V4,聚焦行銷服務、研發設計等核心領域,全面賦能16個業務場景。河北交投智能科技公司在行業內率先完成V4本地化部署,建構了“自主創新算力+頂尖大模型”的全端自主創新AI底座。從金融到醫療,從通訊到交通——DeepSeek V4發佈後24小時內,各行業頭部企業就火速跟進部署。這本身就是最好的訊號:當AI足夠便宜,企業就不再觀望。“用得起”的真正意義,在於讓AI從實驗室資源變成基礎設施,從而催生前所未有的創新。三、AI便宜到人人敢用,模式才敢真變如果說過去兩年AI的變革是“天變了”,那麼V4之後,我們才第一次站在真正的變局起點上。為什麼這麼說?因為模式創新的土壤不是技術能力本身,而是足夠低的試錯成本。當一個團隊可以毫不心疼地跑十次不同提示詞、對比輸出質量而不是在意API帳單,產品經理可以大膽設想的每個互動都即時呼叫AI,企業可以把AI植入到那些“不太重要但希望更好的環節”——這才是模式創新真正開始的時候。DeepSeek V4的Agent能力經過了專門最佳化。在Agentic Coding評測中,V4-Pro已達到當前開源模型最佳水平,交付質量接近Claude Opus 4.6非思考模式;在世界知識測評中大幅領先其他開源模型,僅稍遜於頂尖閉源模型Gemini-Pro-3.1;在數學、STEM、競賽型程式碼等推理任務中超越所有已公開評測的開源模型。V4-Pro還在Codeforces程式設計任務中拿下3206分的測評成績,位列全球活躍使用者第23位。這意味著,過去只有頂級閉源模型才具備的強大執行能力,現在以1/700的價格向所有人開放。中小企業可以部署自動處理客戶問題的7×24小時AI客服系統;個體開發者建構的Agent能自主呼叫API完成多步任務;創業公司可以在產品中“鋪滿AI”,讓大模型程式碼改寫、文件生成、資料清洗成為功能的默認組成部分。當AI便宜到可以和“發一條簡訊”比較成本的時候,所有行業都值得重新問自己一個問題:如果AI呼叫幾乎是免費的,我的產品應該長什麼樣?四、Token經濟的興起:當消耗量三年增長一千多倍在把模型做得更高效、更便宜的同時,一個更深層的經濟變革正在發生。Token——大模型的基本計量單位——正在從後台技術參數變成AI經濟的前台結算單位。商湯科技大裝置產品總經理盧國強在2026中國生成式AI大會上提出的“AI Token Factory”概念,精準概括了這一趨勢:行業正在從“AI原生”邁向“Agent原生”,Token替代Flops成為新的度量衡,AI系統的核心使用者將從人轉向Agent。Token消耗量的增長數字令人震撼。國家資料局公佈的資料顯示,到2026年3月,中國日均Token呼叫量已超過140兆,相比2024年初的1000億增長了1000多倍,相比2025年底的100兆,短短三個月又增長了40%以上。中國工程院院士鄭緯民指出,AI產業的競爭核心正從MaaS(模型即服務)向TaaS(Token即服務)躍遷,從比拚算力叢集規模轉向比拚每瓦Token生產效率。圍繞Token經濟的整套產業邏輯正在逐步成型:生產層:對應算力、晶片、資料中心與推理引擎,把Token作為核心產品來組織基礎設施。分發層:對應雲平台、大模型廠商與API服務商,將底層能力打包按量計費分發。轉化層:對應各行業的AI原生應用和Agent系統,將Token轉化為實際的業務結果。阿里巴巴已正式成立Alibaba Token Hub事業群,騰訊雲將MaaS平台升級為TokenHub,行業從藍海迅速變為紅海。Token兩年激增千倍,智能體市場規模2025年達78.4億元,預計2026年將達135.3億元,增速超過70%。Token正從技術參數,變成AI時代最核心的生產資料和度量衡。誰能高效生產Token、精準分發Token、有效轉化Token,誰就能在智能經濟的新賽道上佔據先機。五、變局中的挑戰與耐心V4帶來的不可能全是好消息。巨大的機遇背後,挑戰同樣不容迴避。安全邊界重構需要時間。 當模型能夠讀取百萬token的超長上下文,風險不再只存在於使用者的當前問題中,而可能藏在龐大材料的某個角落——長長的郵件鏈的腳註裡、PDF的不可見區域中、程式碼註釋裡或歷史聊天記錄中。攻擊者可以把惡意指令藏在這些地方,在模型執行複雜的跨文件推理時“潛伏發動”。強制長上下文安全做前置治理,對使用者指令和外部資料做來源標註和風險掃描,已經成為迫在眉睫的工程需求。落地到用好有個過程。 企業部署了V4並不等於馬上獲得商業價值。從部署到真正融入核心業務流程創造收益,中間還有漫長的產品化、場景適配和組織變革之路。Token成本大幅下降後,產品經理如何在AI能力邊界內重新設計功能,才是決定成敗的關鍵因素之一。地緣政治與算力安全需要關注。 DeepSeek-V4首次在官方技術報告中,將華為昇騰與輝達GPU並列寫進硬體驗證清單,這是中國大模型首次將國產晶片與進口晶片放到了同等戰略高度。適配的昇騰新款推理晶片採購價格僅為輝達晶片的1/4,端到端延遲比原有叢集降低35%。輝達CEO黃仁勳此前警告稱:“如果頂尖的AI模型被最佳化在華為晶片上運行,對美國而言將是可怕的後果”。V4的發佈標誌著中國AI基礎設施的重心正從依賴美國半導體轉向本土化算力底座建構。但技術代差客觀存在,DeepSeek也坦承其能力整體落後於同期主要閉源對手約3至6個月。六、變局的開端才剛剛到來回到標題的那個判斷:DeepSeek V4是AI開源大事件,更是產業變革新開端。是的,事件已經發生——V4-Pro和V4-Flash雙雙開源,百萬上下文成為標配,API定價低至全球閉源競品的1/700,Agent能力逼近頂尖水平。但真正的變革才剛剛開始。因為V4真正的意義,不在於它本身有多強,而在於它重新定義了什麼才是AI產業真正的“兵家必爭之地” 。V4向行業宣告:當模型能力開始逐步趨同(開源會逐步追平閉源),真正決定勝負的將是:誰能讓AI更便宜、更易用、更快地融入真實世界。從長遠來看,AI產業的終極形態是:大模型成為像電力一樣的基礎設施,上面的Agent和智能應用才是創造價值的核心。而DeepSeek V4用700倍的成本優勢一次性把基礎設施的“電費”降到了幾乎可以忽略不計的水平。接下來,誰能在上面建造出更有創造力的智能應用,誰才是真正的贏家。2026年4月24日以前,AI還在比拚“能力的天花板”。從這一天開始,AI產業的真正競賽才剛剛開始。 (數字新財報)
馬斯克大戰奧特曼,開庭了!
AI時代最貴的一場內訌,開庭了。一邊是馬斯克,SpaceX、xAI背後那個仍在不斷製造超級IPO想像的人;另一邊是山姆·奧特曼,帶著OpenAI衝向兆美元估值神話的男人。當地時間4月28日,馬斯克在加州奧克蘭聯邦法院出庭作證,把自己對OpenAI的訴訟稱為“捍衛慈善捐贈”。他說,如果允許掠奪慈善機構,美國慈善捐贈的基礎都會被摧毀。這場官司的核心,圍繞一個老問題:OpenAI到底是誰的?馬斯克認為,OpenAI創立時就是一個服務公共利益、造福人類的非營利組織。他聲稱,創意、名字、關鍵人才、啟動資金都來自自己,OpenAI最初被設計成慈善事業,不能讓任何個人從中獲利。庭上,馬斯克直言自己本來可以把它做成營利公司,但當時特意沒有這麼做。他的訴求也足夠激烈:要求OpenAI恢復非營利性質,罷免奧特曼、Greg Brockman等高管,還要求從OpenAI和微軟獲得巨額賠償,並把賠償給OpenAI的慈善實體。路透報導提到,馬斯克尋求1500億美元賠償,Business Insider則稱其訴求最高約1340億美元。OpenAI和奧特曼一方的反擊同樣直接。OpenAI律師William Savitt在開場陳述中告訴陪審團,馬斯克並不是在保護公益,而是在未能取得控制權後提起訴訟。他說馬斯克想要“王國的鑰匙”,真正關心的是自己能不能繼續站在最前面。OpenAI方面還強調,2019年成立營利性實體,是為了購買計算能力、支付頂尖科學家薪酬,繼續和GoogleDeepMind競爭。這也是整場庭審最關鍵的分歧。馬斯克說自己捐錢、出力、招人,是為了讓AI造福人類;OpenAI則說,沒有商業化結構,就沒有足夠算力,也留不住人才,更不可能撐起ChatGPT之後的規模爆發。這兩套說法都有各自的道理,也都有各自的私心。筆者認為,這場訴訟的複雜之處就在這裡:它不是簡單的“理想主義者大戰資本家”。馬斯克本人早已不是純粹旁觀者,他有自己的xAI;OpenAI也早已不是當年那個小型非營利實驗室,它已經成為估值超過8500億美元、可能衝擊兆美元IPO的AI巨頭。雙方都在講公益,爭的卻是AI時代的權力入口。這場官司的時間點非常敏感。OpenAI正站在資本市場門口。路透此前報導,OpenAI估值已達到8520億美元,並完成了1220億美元融資;同時,潛在IPO估值可能達到1兆美元。OpenAI的問題恰恰在這裡。最初是非營利組織,後來引入營利實體,再與微軟深度繫結,最終形成一個在公益使命、商業融資、技術擴張之間不斷折中的複雜架構。OpenAI律師在庭上稱,非營利董事會仍然控制OpenAI技術,營利實體只是為了完成使命所需的融資工具。微軟律師也表示,微軟是在完成盡調後入局,並不知道馬斯克所謂“永遠非營利”的限制條件。問題在於,資本市場不喜歡模糊。如果馬斯克在訴訟中部分勝訴,OpenAI的公司架構、領導層、融資路徑和上市節奏都可能被重新審視。即便最終沒有徹底推翻現有結構,庭審中曝光的郵件、簡訊、內部爭議,也會讓投資者重新評估這家公司:它到底是一家使命驅動的AI機構,還是一家披著公益外衣的超級商業機器?這對OpenAI很要命。因為它正在用極高估值要求市場相信一個極長周期的故事:未來AI會成為生產力底座,OpenAI會成為其中最重要的基礎設施公司之一。可一旦治理問題被放大,資本市場就會問一個更現實的問題:如果這家公司連“誰控制它、誰受益、誰承擔責任”都說不清,它憑什麼承載兆美元估值?馬斯克當然知道這一點。他選擇在OpenAI衝刺資本市場的關鍵階段把爭議推向陪審團,殺傷力遠高於普通輿論戰。庭上,法官Yvonne Gonzalez Rogers還提醒馬斯克和奧特曼減少社交媒體交鋒。原因也不難理解,馬斯克此前在X上稱奧特曼為“Scam Altman”,OpenAI則反擊這場訴訟是出於嫉妒和阻撓競爭對手。這已經不是兩家公司在打官司,更像兩個流量巨頭把社交媒體戰火搬進了法庭。而法庭恰恰是一個最不適合講段子的地方。AI巨頭的“公益外衣”正在接受現實審判這場訴訟最有價值的地方,不在誰罵得更狠,而在它把AI行業長期迴避的問題攤開了。過去幾年,AI公司最喜歡講“使命”:造福人類、通用智能、安全對齊、文明未來。這些詞足夠宏大,也足夠好用。融資時,它能打動資本;招人時,它能打動科學家;面對監管時,它又能塑造道德高度。但現實世界的AI競賽,早就離不開三樣東西:算力、資本、市場。OpenAI當年選擇引入營利實體,確實有現實壓力。訓練先進模型需要天價算力,頂尖研究者薪酬極高,基礎設施投入像黑洞一樣吞錢。靠捐贈和理想主義,很難支撐今天這個規模。今天,AI不是普通消費網際網路項目。它涉及資訊、生產力、軍事、教育、就業、科學研究,甚至國家競爭。一家AI公司如果同時掌握技術入口、資本入口和公共敘事入口,社會就必然會追問:它到底為誰負責?與此同時,馬斯克自己的AI棋局也在變大。2月,SpaceX收購xAI的交易被報導估值達到1.25兆美元,其中SpaceX估值1兆美元、xAI估值2500億美元;4月,路透又報導稱SpaceX已提交IPO註冊,潛在估值可能超過1.75兆美元。也就是說,馬斯克在法庭上控訴OpenAI背離公益使命的同時,自己也正在把AI併入一個更龐大的商業帝國。這個反差非常矽谷,也非常現實。今天的AI戰爭,已經不是“開源理想”和“商業貪婪”的二元對立。它更像一場資本、技術、權力和話語的混合戰爭。每個人都在說人類,每個人也都在算自己的帳。 (電商天下)
輝達開源全能AI模型,效率暴漲9倍!AI Agent終於有了「感官大腦」
輝達開源全能AI模型,效率暴漲9倍!AI Agent終於有了「感官大腦」昨天(4月28日),輝達幹了一件大事——發佈了開源全模態模型 Nemotron 3 Nano Omni。這不是又一個「能聊天的AI」,而是一個能讓AI Agent同時「看、聽、說、做」的全能模型,官方稱推理效率最高提升9倍。為什麼這件事重要?因為之前的AI Agent就像一個只會打字的員工——能寫郵件、能查資料,但你看不了螢幕、聽不了會議、處理不了視訊。現在,AI Agent終於有了「眼睛、耳朵和嘴巴」,而且輝達把它開源了。✦🔬 前沿解讀:Nemotron 3 Nano Omni 到底是什麼?1. 一個模型搞定四種感官——不再「拼積木」傳統的多模態AI,說白了就是在「拼積木」:一個視覺模型負責看圖,一個語音模型負責聽聲音,一個文字模型負責理解文字,然後用膠水程式碼把它們粘在一起。Nemotron 3 Nano Omni 的做法完全不同——它用一個模型原生支援文字、圖像、音訊、視訊四種輸入,在同一個架構內完成理解與推理。打個比方:以前的多模態AI像一個翻譯團隊,英語翻譯、日語翻譯、法語翻譯各幹各的,需要一個人在中間協調;Nemotron 3 Nano Omni 像一個真正的多語言者,直接用一種思維理解所有語言。這意味著什麼?減少了跨模型呼叫的資訊損耗和延遲,Agent在複雜任務中的一致性和穩定性大幅提升。2. 300億參數隻啟動3億——MoE架構的「省錢魔法」Nemotron 3 Nano Omni 總參數量約300億(30B),但採用了混合專家(MoE)架構,推理時只啟動約**3億(3B)**參數。類比一下:這就像一個300人的顧問團,遇到不同問題只叫3個最擅長的人出來回答。你不用養300個人全天候待命,但每次都能得到專業答案。效果呢?推理效率最高提升9倍,視訊推理吞吐量比同類開源模型快9.2倍,同時大幅降低算力消耗。在6個主流基準測試(文件智能、視訊理解、音訊理解等)中拿下榜首。3. 誰在用它?富士康、甲骨文、帕蘭蒂爾已上車這不是畫餅。輝達公佈的首批使用者包括:富士康:用Nemotron做智能製造場景的Agent甲骨文(Oracle):企業級AI Agent部署帕蘭蒂爾(Palantir):資料分析與決策智能此外,Nemotron 3系列(Nano/Super/Ultra)過去一年累計下載量已突破5000萬次。輝達不是在做一個模型,而是在建一個Agent生態。✦🛠️ 實用性拆解:對「我」有什麼用?怎麼用?對普通開發者的價值場景1:智能客服升級——從文字客服到全管道客服以前的AI客服只能處理文字。有了全模態模型,使用者可以:發一張產品圖片,AI識別問題並給出方案語音描述故障,AI自動理解並轉工單上傳視訊演示Bug,AI直接定位問題環節場景2:內容理解——一鍵讀懂長視訊/多頁PDFNemotron 3 Nano Omni 支援百萬Token上下文,加上原生視訊/音訊理解能力:丟一個1小時的會議錄影,自動提取關鍵議題和決策丟一份100頁的掃描PDF,自動理解圖表和文字丟一個產品演示視訊,自動生成功能清單場景3:自動化辦公Agent——讓AI真正操作電腦結合Nemotron的介面操作能力,可以建構:自動讀取螢幕內容→理解介面→執行操作的Agent全高畫質螢幕錄影的即時解讀與數字環境互動怎麼用?3步上手Step 1:下載模型前往Hugging Face搜尋「Nemotron-3-Nano-Omni」,模型權重、訓練配方和資料集全部開源。也可以通過 build.nvidia.com 直接呼叫NIM微服務。Step 2:選擇部署方式本地部署:適合對資料隱私要求高的企業,單卡GPU即可運行(30B MoE只啟動3B)雲端呼叫:通過NVIDIA NIM微服務、OpenRouter或25+合作夥伴平台混合部署:Nemotron做本地感知,雲端大模型做深度推理Step 3:建構Agent應用Nemotron 3 Nano Omni 支援工具呼叫(Tool Use)和介面操作能力,可以:作為Agent的「感知層」,負責看/聽/讀把理解結果傳給更強的雲端模型做決策執行操作指令,形成感知→理解→決策→執行的閉環⚠️ 避坑指南別指望它替代GPT-5.5做深度推理:Nemotron定位是Agent的「感官大腦」,不是「思考大腦」。複雜推理任務仍需配合大模型硬體要求:雖然只啟動3B參數,但完整模型仍需30B的視訊記憶體。推薦使用A100/H100,消費級顯示卡可能捉襟見肘開源≠免費商用:注意查看輝達的開源協議條款,企業商用前確認授權範圍✦🌊 行業影響分析AI Agent賽道的分水嶺Nemotron 3 Nano Omni的發佈,釋放了一個明確訊號:大模型競爭正在從「誰的模型更聰明」轉向「誰的Agent更實用」。輝達不做最聰明的大模型——那是OpenAI和Anthropic的戰場。輝達做的是Agent的基礎設施:算力晶片→模型底座→部署工具→應用生態,一條龍通吃。這就像智慧型手機時代的晶片廠商:高通不造手機,但每一部Android手機都離不開驍龍。輝達不做ChatGPT,但未來每一個AI Agent可能都跑在Nemotron+NVidia GPU上。那些領域最先受益?企業客服/銷售:全管道AI Agent,7×24小時值守智能製造:富士康已在用,視覺質檢+語音互動+文件理解醫療健康:Eka Care(印度醫療科技公司)已接入,多模態病歷理解資料分析:帕蘭蒂爾模式,視訊/文件/資料多源融合分析普通人的機會如果你是開發者,現在就是上車AI Agent的最佳時機:模型開源免費,門檻降到最低全模態能力讓Agent的場景想像空間10倍放大輝達生態意味著大量企業需要懂Nemotron的人才✦💡 金句總結AI Agent的競賽,已經從「誰更聰明」變成了「誰更全能」。能看、能聽、能理解——這不是錦上添花,而是Agent從「聊天機器人」進化為「數字員工」的入場券。 (捭闔思享)
商湯發佈多模態“效率怪獸”,開源即SOTA!最小僅8B,比肩商用
實測:15秒出高密度資訊圖,還能圖文一步到位。當GPT images 2.0又再一次搶佔頭條,人們對多模態模型的關注也在悄然變化:“畫得好”已經不再是問題了,我們還想要“速度快、效率高、成本低”。過去很長一段時間裡,視覺理解與圖像生成,往往被拆分為兩套體系:前者負責“看懂”,後者負責“畫出”,中間通過不同模組進行銜接。這種在底層邏輯上的割裂,是阻礙模型效率的核心。商湯這次的思路,是從架構層面直接處理這個問題。他們剛剛開源了原生理解生成統一模型SenseNova U1,便基於自研的NEO-unify架構,將圖像與文字的理解與生成能力統一到同一體系中,沒有了“中間商”之後,效率得到大幅提升。在圖像理解與生成的多項基準測試中,SenseNova U1 Lite在同量級開源模型中達到SOTA水平,並在多項指標上逼近商業閉源模型表現。以8B參數規模,實現接近更大模型的能力,得到“以小搏大”的表現。▲高密度資訊圖(en)▲高密度資訊圖(zh)目前,使用者可以在Hugging Face、GitHub獲取開源模型。同時,商湯AI辦公智能體“辦公小浣熊3.0”也即將接入SenseNova U1,使用者可直接體驗相關能力。01. 不堆參數,靠效率取勝:8B模型拿下開源SOTA本次開源包含兩個版本:SenseNova-U1-8B-MoT與SenseNova-U1-A3B-MoT,均基於統一的多模態理解、推理與生成架構,面向圖文理解、生成及複雜互動任務。如果從測評結果來看,SenseNova U1最突出的優勢,在於整體效率——在理解、生成、推理與圖文交錯多個維度上,用更小的模型規模,跑出了接近甚至逼近商業閉源模型的表現。在理解側,SenseNova-U1-8B-MoT在AI2D、IFBench等基準上均取得領先表現,例如在AI2D上達到91.7分。結合空間理解相關測試,可以看到模型在複雜結構與關係判斷等任務中表現穩定,具備一定的邏輯推理能力。在生成側,模型在GenEval、OneIG、LongTextBench等任務中表現穩定,能夠同時兼顧複雜結構生成與文字一致性。尤其是在資訊圖生成(Infographics)任務中,平均得分達到50.7,是開源模型最強,媲美部分閉源商業模型。進一步看編輯與圖文交錯能力,在Editing、Visual Reasoning等任務中,SenseNova U1在WISE、VBVR、OpenING、GEdit-Bench等測試中表現突出。例如在OpenING相關任務中達到91分,在視覺推理任務中也明顯優於傳統圖像生成模型。但相比這些分項成績,更關鍵的是它的“性能—效率比”。從對比結果來看,在資訊圖生成與長文字等任務中,SenseNova U1在約15秒延遲下即可取得接近60分的平均成績,整體屬於“高性能、低延遲”。對比Qwen-Image 2.0 Pro、Seedream 4.5等模型,其在生成質量接近商業閉源模型的同時,響應速度更快。▲Generation Latency vs. Averaging Performance on Infographic Benchmarks, i.e., BizGenEval (Easy, Hard), and IGenBench▲Generation Latency vs. Averaging Performance on OneIG (EN, ZH), LongText (EN, ZH), BizGenEval (Easy, Hard), CVTG and IGenBench這些性能表現背後,主要還是來自底層架構的優勢。SenseNova U1基於商湯自研的NEO-unify原生統一架構,在設計上減少了中間環節帶來的資訊損耗,因此在資料利用效率和推理開銷上更有優勢。最終呈現出來的,才得以是“以小搏大”的優勢:僅用8B參數規模,在多個維度達到同量級開源模型SOTA,並在部分任務上逼近商業閉源模型。從測評結果來看,這種優勢已經比較清晰。至於落到真實使用場景中,SenseNova U1是否同樣穩定、好用,我們來實測一番。02. 一手實測揭秘:從立體排版到“言出法隨”智東西選取了多個不同類型的任務進行測試,覆蓋高密度資訊圖、趣味創意圖以及技術流程圖等典型場景。創作資訊圖可以說是最能“精準擊中”職場人的能力。使用者只需要輸入文章、資料或文字說明,模型就能將其中的關鍵資訊提煉出來,並生成一張具備結構、層級和視覺重點的資訊圖。在“蘇超出圈之路”這一案例中,模型就生成了一張多層蛋糕式資訊圖。不同階段以立體分層形式呈現,文字隨著結構自然分佈在不同空間層級中,而不是簡單平鋪。這背後其實反映的是模型對結構的理解能力。更關鍵的是,在這種複雜排版下,整張圖沒有出現明顯的文字錯位、遮擋或渲染錯誤,整體可讀性很高。換一個更複雜的文字場景來看,模型對富文字結構的理解能力,體現得更明顯:那些資訊需要突出,那些適合做流程,那些更適合用圖表表達,那些需要用圖示輔助理解。“龍蝦使用指南”這個案例,就更能體現細節處理能力。這一任務中包含大量中英文混排、不同字號文字以及情緒化表達。模型不僅把“禁止模糊指令”“禁止無限重試”這些核心文案寫對了,還自動匹配了對應的圖示和帶情緒的畫面,比如龍蝦被“壓榨”、被“投喂指令”等。不同模組之間的文字大小、間距和佈局都處理得較為合理,沒有擠在一起,已經達到直接商用的水準了。在人物與指令理解方面,“馬斯克vs奧特曼”這一案例更具代表性。在提示詞中僅輸入“奧特曼”這一暱稱,模型直接生成了一個穿西裝的“奧特曼形象”,與旁邊的馬斯克形成對比,既符合語義又帶有明顯的趣味性。與此同時,馬斯克的表情、動作以及整個對峙氛圍也都比較到位,可見模型在人物理解和場景建構上具備較強的語義對齊能力。到了技術表達這一步,難度其實更高。在“SenseNova U1技術解讀”這一案例中,模型需要生成的是一張邏輯清晰的技術流程圖。從結果來看,整體結構層級清晰,資訊分區明確、表達直觀,對於非技術讀者也較為友好。一輪實測下來,另一個比較直觀的感受是速度。這類圖像的生成基本都在十幾秒內完成,有點接近“言出法隨”的感覺。在這樣的生成效率下,各種應用場景也不在話下。目前,SenseNova U1可生成資訊圖譜、專業簡歷、生活指南、產品說明、百科知識、漫畫創作等多種內容。對行銷、辦公、設計、商業分析等場景來說,這類能力直接對應的是內容生產效率提升。03. 告別“縫合”,NEO-unify架構如何成為理解與生成的“通才”?測評整合績有優勢,實測效果也毫不遜色,這個原生框架究竟好在那裡,我們來拆解一下。過去,多模態模型的工作方式更像是“分工協作”:視覺編碼器負責理解圖像,變分自編碼器負責生成圖像。前者看圖,後者畫圖,中間再通過不同模組完成銜接。理解與生成更像兩條平行的流程,能配合,但很難真正融合,所以SenseNova U1這次選擇直接推倒重建,從底層架構上直接改掉這套“拼接式”體系。其採用的自研NEO-unify架構,不再把語言和視覺當作需要中間轉換的兩種訊號,而是從一開始就把它們當作同一類資訊來建模。換句話說,語言與視覺不再各走各路,在同一套表徵體系裡共同參與理解、推理和生成。這種設計本質上回到了“多模態AI第一性原理”:不同模態之間本來就是內在關聯的。在具體實現上,模型儘量減少中間壓縮與轉換環節,直接從接近原始的像素和文字資訊中學習,讓資訊在傳遞過程中損耗更小。同時,它的資料和推理效率也更高。這也是SenseNova U1值得關注的地方:並不是單純靠堆參數規模換效果,而是在底層架構上重新處理多模態模型的協作方式。04. 當AI學會“帶圖思考”展開空間智能更多想像不同於GPT-image2單純圖像上的“卷王體質”,SenseNova U1也展示了另一種可能:讓圖像成為邏輯的一部分,並在推理過程中引入對空間結構的理解。這也是其“連續性圖文創作輸出”的能力核心。SenseNova U1是業內首個能夠在單一模型上進行連貫圖文交錯生成的模型。這意味著,在處理複雜任務時,模型可以一邊解釋邏輯,一邊生成對應的示意圖、流程圖、草圖或設計圖。例如在教學、在繪本故事等場景中,它可以讓文字敘事、插圖風格、人物事件等保持一致性與連貫。同時,SenseNova U1並不是先生成一段完整文字,再去“補圖”,而是從材料準備或構圖草稿開始,一步步輸出關鍵操作,並同步生成對應畫面。整個生成過程是連續的:步驟之間有承接關係,圖像之間保持風格一致,文字和視覺內容也始終圍繞同一上下文展開。這種連貫性,在過去依賴多模型串聯的方案中很難穩定實現,往往會出現風格漂移或資訊斷裂。本質上,這得益於SenseNova U1所具備的原生圖文理解生成能力,能天然將圖像和文字底層融合訊號完整的保留上下文中,在統一表徵空間進行高效連貫思考。這也讓它和空間智能產生了更直接的聯絡。空間智能關注的是模型如何理解位置、方向、佈局、關係和結構,而這些能力恰恰會在圖像生成、高密度資訊圖排版、流程圖建構和場景示意中反覆出現。如果繼續往後看,這類能力也可能成為具身智能的重要基礎。機器人要在真實環境中完成任務,不僅要“看見”物體,還要理解物體之間的關係、判斷行動路徑,並根據任務目標做出連續決策。從這個角度看,SenseNova U1的意義不只是生成更好看的圖,而是在單一模型中嘗試打通理解、推理和視覺表達。它距離真正成為機器人的“具身大腦”還有距離,但這類統一架構,至少提供了一條更接近多模態閉環的技術路徑。05. 結語:理解與生成走向統一多模態模型進入分岔口從底層架構的NEO-unify創新,到應用層面的原生圖文交錯與高密度資訊圖生成,商湯的全面開源,不僅是參數規模上的“以小搏大”,更是對多模態第一性原理的深度回歸。當行業還在討論生圖模型的真實邊界時,SenseNova U1已經通過理解與生成的統一,為AGI的到來鋪就了一條更具效率的路徑。開放原始碼的力量將讓這種原生多模態能力迅速滲透進每一個垂直行業,我們正在見證的是一個“圖文同構、思畫合一”的全新時代的開啟。在大模型全球競賽的下半場,國產模型正在輸出屬於自己的硬核解法。 (智東西)
DeepSeek-V4開源SOTA!總參數1.6T,最大開源模型;Flash版輸出僅0.28 美元/百萬token;與OpenClaw無縫整合
千呼萬喚始出來,ChatGPT-5.5還剛發佈不久,國產之光DeepSeek-V4也終於露面了!就在今天上午 11 點 24 分,DeepSeek 在 X 上官宣:DeepSeek-V4 預覽正式上線並開源!這次預覽共有2個版本,總參數 1.6T 和啟動參數 49B 的DeepSeek-V4 Pro 和總參數 284B 和啟動參數 13B 的DeepSeek-V4 Flash。DeepSeek宣稱前者性能可與全球頂級閉源型號媲美,後者是快速、高效且經濟的選擇。1.6T 的總參數,是目前最大的開源模型!與此同時,其官網也發佈了 DeepSeek-V4 Flash 和 Pro 版本的定價表,輸入輸出 token 價格極低,Flash 版輸出僅 0.28 美元/百萬 token,遠低於主流競品。X上網友都很興奮,紛紛刷屏:“鯨魚回來了”!還有人做了一張梗圖,把V4 Pro放在一眾強大的閉源模型之中。不過 DeepSeek 的目標顯然也確實是成為開源人工智慧領域的領軍企業。基準測試:開源SOTA對於DeepSeek-V4-Pro,在Agentic編碼基準測試中,它達到了開源SOTA水平,Agentic能力顯著增強。在世界知識豐富程度上,它在開源界難逢敵手,目前也就僅次於 Gemini-3.1-Pro 一點點。在數學/STEM/程式設計領域,它超越了所有的現有開源模型,邏輯推理能力已經媲美頂級閉源模型。對於DeepSeek-V4-Flash,它的推理能力接近V4-Pro,在在簡單的代理任務上表現與 V4-Pro 相當,但是參數更小,響應更快,API定價極具成本效益。在X上,還有人發佈了V4在自有Vibe Code基準測試中表現如何。結果顯示,V4不僅排名第一,而且把排名第二的(Kimi K2.6)遠遠甩在身後,甚至超過了像 Gemini 3.1 Pro 這樣的前沿閉源型號。與Claude Code、OpenClaw 等無縫整合在今年的Agentic潮流下,DeepSeek也針對Agent功能進行了專門的最佳化。V4已經與Claude Code、OpenClaw 和 OpenCode 等領先的 AI Agent無縫整合。同時,DeepSeek內部也已經推動Agent編碼工作。官方還展示了使用V4-Pro生成的PDF示例。API也已上線!使用者可以保留 base_url,只需將模型更新為 deepseek-v4-pro 或 deepseek-v4-flash。同時兩種模型都相容 OpenAI/Anthropic API 格式,並支援 100 萬 token 上下文和最高 38.4 萬 token 輸出,並且都具備思考模式和工具呼叫等特性。架構創新:新奇的注意力機制DeepSeek-V4為什麼這麼強?因為它在模型架構上玩出了新花樣。在架構創新方面,DeepSeek-V4 在 DeepSeek-V3 的基礎上引入了三項關鍵架構升級:流形約束超連接、混合注意力機制和DeepSeekMoE最佳化。其中,最新奇的是,他們提出了基於token的壓縮和DSA(DeepSeek 稀疏注意力)的混合注意力機制。混合注意力包括壓縮稀疏注意力(CSA)和重度壓縮注意力(HCA)兩種,二者會交替使用,這大幅降低了長文字場景下的計算 FLOPs 和 KV 快取佔用。另外,在訓練方法上,通過 FP4 量化感知訓練 MoE 權重,減少了記憶體佔用並加速了計算,未來硬體支援後可進一步提升效率 。還有一個值得注意的細節是,V4模型中新增了 "Max"(最大推理努力)模式。它通過擴展推理 token 和增加思考預算,使模型在處理高難度程式碼和推理任務時達到了 SOTA 水平。就這樣通過創新核心技術和最佳化訓練方法,DeepSeek-V4 在 1M token 上下文設定下,V4-Pro 的單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 快取大小僅為 10%。換句話說,V4 達到了世界領先的長下文容量,並大幅降低了記憶體成本。V4 讓“中國開源普惠路徑”越來越香1M上下文意味著模型能一口氣讀完一本書、啃完整個程式碼庫。配合白菜價API,全球開發者都能玩轉頂級AI。世界正分裂成"西方閉源收費路徑和"中國開源普惠路徑”,而V4讓後者越來越香。但 DeepSeek-V4 的意義遠不止“好用不貴”和研發出了更強的模型,更在於三個層面的證明:在技術層面上,他的存在意味著開源模型可以追上頂級閉源模型;在產業層面上,它意味著在國內已有算力條件下,依然可以支撐頂級模型的研發;在戰略層面上,它意味著中國AI已經走出了獨立且可擴展的路徑! (51CTO技術堆疊)