#R2
DeepSeek神秘操作!R1突然消失,R2要來了?
昨天DeepSeek又搞神秘操作了!這家讓矽谷巨頭夜不能寐的中國AI公司,悄悄在微信群裡發佈了V3.1更新,但更詭異的是——R1推理模型的標識突然從聊天介面消失了!😱V3.1的升級挺實在:上下文窗口直接拉到128K,相當於能"記住"300頁書的內容,聊天體驗更絲滑。但問題來了,為何官方X帳號和其他社交媒體都沒發聲?只在微信群裡低調宣佈?更讓人好奇的是,DeepSeek悄悄把聊天機器人的"深度思考"功能裡的R1標識刪了個乾淨!要知道,R1可是今年1月震驚全球的推理模型,直接引爆了中國開源AI浪潮。現在突然"消失",這是要幹什麼大事?💡業內人士猜測紛紛:要麼是R2推理模型即將登場,要麼是DeepSeek在整合產品線,把所有能力統一到一個超級模型裡。畢竟,這家由量化交易大佬梁文鋒創立的公司,向來喜歡"不鳴則已,一鳴驚人"。從去年12月的V3到今年1月的R1,DeepSeek每次出手都能掀起行業地震。現在這波神秘操作,感覺暴風雨前的寧靜啊!🚀想想也是,當全世界都在關注你的一舉一動時,任何小動作都能引發無限遐想。DeepSeek這招"欲語還休",吊足了所有人的胃口!你覺得DeepSeek這次是在憋什麼大招?R2會比R1更炸裂嗎?快留言說說你的猜測,或者轉發讓更多AI迷一起圍觀這場懸疑劇! (澤問科技)
DeepSeek R2 推遲內幕曝光:聯手華為憋大招,工程師團隊駐場攻堅
DeepSeek R2 遲遲不發佈的原因找到了。據金融時報報導,DeepSeek 本來要在 5 月份發佈新模型 R2,結果拖到現在,原因竟然是...晶片「不給力」?事情是這樣的:在沒有足夠的 H20 晶片的情況下,DeepSeek 原本想用華為昇騰晶片來訓練新模型,以減少對輝達技術的依賴。🤯 然而在實際應用中,團隊遇到了一些技術障礙,據知情人士透露,華為專門派了一支工程師團隊到 DeepSeek 辦公室駐場。報導稱,即便有現場支援,也還未能實現穩定的訓練運行。DeepSeek 團隊最終不得不採用混合方案:使用輝達晶片進行訓練,而將華為晶片用於推理環節。簡單解釋一下,訓練是指讓 AI 模型從海量資料中學習的過程,而推理則是訓練完成的模型執行具體任務的階段,比如響應使用者查詢。不過,儘管訓練環節遇挫,DeepSeek 並未放棄與華為的合作,雙方仍在努力讓 R2 模型在推理環節能夠「跑通」昇騰晶片。👀 另據瞭解,DeepSeek 創始人梁文鋒對 R2 的進展很不滿意,一直在推動團隊投入更多時間來完善模型,加上資料標註也比預期耗時更長,所以發佈時間就這樣一拖再拖。值得注意的是,雖然近期市場傳言 DeepSeek R2 將於本月中下旬發佈,但騰訊科技援引接近該公司的消息源確認,這一傳言並不屬實,DeepSeek R2 在 8 月內確實沒有發佈計畫。截至發稿前,DeepSeek 和華為均未對上述報導作出回應。 (APPSO)
DeepSeek R2要來了!大摩率先曝光,參數翻倍、推理成本暴降88%
DeepSeek R2模型終於有新消息了!最近,頂級投行摩根士丹利發佈了一則研報,提前曝光了DeepSeek即將發佈的全新一代模型——R2。這篇研報篇幅不長,但資訊龐大。話不多說!快跟著烏鴉君一起來看看。/ 01 / 兩大核心亮點:參數翻倍,價碼暴跌88%這次R2的核心變化有兩個:參數翻倍和成本下降。先說前者,R2 模型的體積直接飆升到1.2兆參數,是之前R1 的兩倍多,活躍參數也從370億漲到了780億,推理時呼叫更多“腦細胞”,意味著模型思考得更深,輸出質量自然也水漲船高。這種思路,其實和Google 的Gemini、Anthropic 的Claude 類似——透過增加每次呼叫中參與運算的參數量來增強推理品質。例如,Gemini 2.5 Pro使用的Token比R1-0528多30%。雖然這會提升計算成本,但對於終端使用者來說,換來的是更聰明、更會「想事」的模型,價值了。另一個大變動是,模型成本更便宜了。根據大摩消息,R2的每百萬Token輸入成本只有0.07美元,比R1的0.15-0.16美元下降了一半還多;輸出成本更厲害,從原先R1模型的其每百萬Token2.19美元,大幅下降到0.27美元。這個價格遠低於OpenAI的GPT-4o等最先進的模型。 GPT-4o的API定價為輸入每1百萬個Token2.50美元,輸出每1百萬個Token 10.00美元。也就是說,R2的價格比GPT-4o等最先進的模型便宜了97%。對新創公司、開發者、企業來說,這無疑是巨大誘惑:不僅推理效果強,還能把使用成本打到地板價,商業化空間大大拓寬。除了參數和價格,R2還有三大升級亮點:1)多語言推理和程式碼產生能力大幅提升。據說,DeepSeek正在優先提升R2的編碼能力,以及英語以外語言的能力,以擴大該模型對全球受眾的潛在影響和適用性;2)引進了更有效率的MoE混合專家架構,推理效率更高,活化參數選擇更聰明。該架構將人工智慧模型分成獨立的子網,這些子網路根據輸入選擇性地啟動。這種方法可以顯著降低預訓練的計算成本,並實現更快的推理效能;3)多模態支援更強,視覺能力也比之前更上一個台階;簡單來說,R2不僅“想得更深”,還能“看得更清楚”。在效能提升的同時,DeepSeek也正在擺脫對H100的依賴,實現本土算力突破。據大摩透露,這次DeepSeek 並沒有依賴傳統的NVIDIA H100 晶片,而是用上了華為的升騰910B晶片叢集。雖然生態上華為仍追不上輝達,但這已經是國產晶片參與大模型實戰的重要突破了。DeepSeek正在努力建立一個本地硬體供應鏈,以減少對美國製造的晶片的依賴。時至今日,R2模型背後已經形成了一個強大的本土供應鏈體系。/ 02 / 版本最佳化剛完成,R2還得等等?目前,DeepSeek的模型家族主要有三大產品:V系列(V1~V4):一般大模型,全面涵蓋推理、效率、Agent能力;R系列(R1 → R2):專注深度推理、數學、工具鏈整合等能力;Prover-V2:一個為數學產生專門最佳化的模型;其中,DeepSeek-Prover-V2於今年4月發佈的新模型。 Prover-V2並非通用的模型,而是一個高度專業化的數學證明模型,基於DeepSeek V3,採用了改進的MoE架構和壓縮的kV快取以減少記憶體消耗。撇開新發佈的數學證明模型,DeepSeek的大模型升級路線主要有條:V4:作為通用模型主線的全面迭代,強調推理表現、效率與Agent 化能力的提升;R2:作為Reasoner 專線的強化升級,對標OpenAI的o3後續迭代模型和Gemini 2.5 Pro 0605&正式版&未來的Gemini 3,進一步提升數理+工具鏈+多步驟推理表現;從過去看,DeepSeek的模型迭代節奏比較固定,基本上遵循「2小1大」的規律:即每兩個月會有一個小版本更新,接著進行一個大版本換代。以通用模型V1為例,V1是在2023年11月發佈,V2的發佈時間是2024年5月,而V3的發佈時間則到了2024年12月。依照這個節奏,2025年6、7月份,DeepSeek會有一個比較大的版本更迭。就在R2發佈前不久(同樣是5月29日),DeepSeek也發佈了一個沒改版本號但改得不小的強化版—— R1-0528。雖然架構沒動,但這個版本引入了強化學習訓練(RLHF),推理深度明顯加強。官方評估顯示:花了9,900萬個token完成評測任務,比原來的R1多了40%,思考更深、過程更複雜,表現當然更好。成績單也很漂亮:AIME 2024(數學競賽):+21分LiveCodeBench(程式碼產生):+15分GPQA Diamond(科學推理):+10分Humanity's Last Exam(知識推理):+6分使用者回饋也很正面,特別是在邏輯、程式設計和互動能力上提升顯著。這次R1-0528 升級得這麼猛,很多人開始懷疑:這是不是傳說中的R2?不過目前官方並沒有正面回應,這個說法還沒實錘。雖然大摩說R2快來了,但以DeepSeek 一貫的節奏推測,真正的R2 估計還得再等等。這波升級,更像是「壓線偷跑」的大版本最佳化,而不是正代更新。 (烏鴉智能說)
DeepSeek最新模型顛覆數學推理! R2參數或將達1.2兆,徹底擺脫輝達GPU晶片
萬萬沒想到,DeepSeek五一假期間有了新動作。4月30日晚,AI開源社群Hugging Face突然湧入百萬流量。中國AI公司DeepSeek悄悄上線的DeepSeek-Prover-V2模型。這款參數規模達6710億的數學推理大模型,不僅以「核彈級」參數量刷新開源領域紀錄,更在數學定理證明任務中交出驚人成績單:MiniF2F測試通過率88.9%,遠超同類模型,甚至解決Putnam數學競賽中49道高難度題目378。更令開發者興奮的是,DeepSeek此次同步開源了7B和671B兩個版本。其中,671B版本基於DeepSeek-V3-Base架構打造,支援16.38萬tokens超長上下文,可處理複雜數學證明鏈條;而7B版本則擴展至32K tokens上下文長度,兼顧推理效率與性能246。DeepSeek R1帶來了「啊哈時刻」,Prover-V2也有令人意想不到的能力。具體來說,在普特南測試中,參數量較小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解決了13個671B模型未能解決的問題。這一組合拳下來,直接將數學推理大模型的戰場推向新維度。DeepSeek-Prover-V2到底是什麼?一句話總結就是:一款專為「數學AI程式語言」Lean4打造的開源大語言模型,專注於形式化定理證明。Prover-V2透過融合非形式化推理與形式化證明,推動AI從「內容生成」向「邏輯驗證」跨越,被視為通往通用人工智慧(AGI)的重要進展。重點君剛到Hugging Face看完了文章原文,跟大家總結一下:1 、DeepSeek-Prover-V2DeepSeek-Prover-V2 671B版本是前代7B車型的近百倍升級版。該模型專注於形式化數學推理,支援產生符合Lean 4等證明助手的嚴謹邏輯程式碼,旨在解決從初等數學到高等數學的複雜定理證明問題。2 、核心技術亮點混合專家架構(MoE):基於DeepSeek-V3架構,每層包含256個路由專家和1個共享專家,每個輸入token僅啟動8個專家,顯著提升運算效率。支援FP8、BF16、F32等計算精度,最佳化訓練和推理資源消耗。遞迴+強化學習訓練策略:冷啟動資料合成:利用DeepSeek-V3拆解複雜定理為子目標,由7B模型產生子目標的Lean 4證明,再組合為完整證明鏈。強化學習最佳化:透過GRPO演算法從32種候選方案中擇優,結合「正確/錯誤」回饋提升推理泛化能力。超長上下文處理:支援最長163840 tokens的輸入窗口,適配多步驟、長邏輯鏈的數學證明任務。3 、具體性能表現MiniF2F-test :通過率達88.9%,解決PutnamBench中49道高難度題目。形式化證明能力:在Lean、Isabelle、Coq等系統中表現優異,如Lean4基準測試通過率89.2%,遠超通用模型(如GPT-4o的63.4%)。ProverBench資料集:包含325題目,涵蓋AIME競賽題(15題)及初等代數、微積分等教材題(310題),系統性評估模型推理能力。4 、應用場景數學研究與教育:輔助數學家驗證猜想、產生詳細證明步驟,或作為教學工具分解複雜定理。形式化驗證:應用於軟體正確性驗證、密碼學協議安全證明及硬體設計規範驗證。工程與科學計算:支援物理模型數學基礎驗證與演算法正確性證明。如果需要更多技術細節,大家可以點選原文連結,一鍵傳送:DeepSeek-Prover-V2-7B 連結:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-7BDeepSeek-Prover-V2-671B 連結:https://huggingface.co/deepseek-ai/DeepSeek-Prover-V2-671B另外,一直備受關注的DeepSeek R2也傳出最新消息。根據媒體通報,R2大模型將採用更先進的混合專家模型(MoE),總參數量較前代R1提升約1倍,預計達1.2兆(R1總參數量為6710億),單位推理成本較GPT-4大減97.4%。R2規模與ChatGPT的GPT-4 Turbo以及Google的Gemini 2.0 Pro相當,也將結合更智慧的門控網路層(Gating Network ),進而最佳化高負載推理任務的效能。消息指出,R2將徹底擺脫NVIDIA晶片,訓練全程均未使用NVIDIA顯示卡,全部基於升騰910B(Ascend910B)晶片叢集平台,在FP16精度下,計算性能達到512 PetaFLOPS,晶片利用率高達82% ,整體性能約為NVIDIA上一代A100叢集A100 。市場預期,這可望降低中國對海外高階AI晶片的依賴,華為全新的升騰910C晶片也開始進入大規模量產階段。 (劃重點KeyPoints)
如果deepseek R2定價繼續通縮
API通縮之路也是應用放量之路各種網傳版本,對於deepseek R2發佈預熱拉滿,具體參數、演算法細節只有等發佈才真正知道,但毫無疑問有一點可以明確的是,R2的定價一定會繼續走低,API token通縮的路是必由之路。OpenAI的很多模型的價格與上一代模型相比已經大幅度下跌,未來API的通縮之路還在途中。價格到底降了多少?——從 GPT-4(2023) → o3 / 4.1 mini / 4.1 nano 的對比三年內高階模型輸入單價從 $30 → $2,下跌 93 %;中檔模型甚至壓進 $0.10 區間,逼近傳統全文檢索 API 成本。價格雪崩背後是技術與規模的雙向飛輪,只要 MoE + FP8 + 高 PUE 機房等變數仍有改進空間,$M/token 還會被繼續壓。OpenAI 最新價表只是再次佐證算力正在商品化,API 單價有望逼近雲函數等級。“Token 通縮” 不是口號,而是一條物理+產業雙重驅動的必由之路規律:推理單價 ≈ 電費+攤銷+維運硬體效率×模型稀疏度×負載率\dfrac{電費 + 攤銷 + 維運}{硬體效率 × 模型稀疏度 × 負載率}。任何能讓分母增大或讓分子降低的技術和營運改進都會繼續把 $/token 往下壓。結合過去 36 個月的價降斜率,若 R2 以 $ 0.5–1 /M tokens 發佈並不意外;再往後 12 – 18 個月觸及 $ 0.1 /M 也有物理空間。未來 12-18 個月,贏家將是——掌握獨家資料 + 深嵌行業流程 + 能把 Token 成本與業務成果緊耦合 的應用層公司。開發者和投資者都需要把視角 從 GPU → Data → Workflow,才能在“Token 通縮”浪潮裡捕獲下一段 Alpha。硬體浪潮:供需剪刀差已在股價充分兌現兩年漲幅高β已見頂:GPU 與資料中心基礎設施龍頭的股價在 2023-24 經歷“產能滯後 + ASP 抬升”連按兩下——Nvidia 2023 股價翻了三倍、2024 再翻一倍,累計約 5-6 倍 ;液冷/UPS 代表 Vertiv 兩年上漲 10×。估值擴張已透支:半導體鏈龍頭的 EV/EBITDA 由 25× 抬升至 50×+,對應的新增訂單增速卻在 2025Q1 出現環比放緩跡象。未來邊際驅動力將更多來自服務化收入,而非純硬體 ASP。推理成本雪崩:應用浪潮的底層邏輯,“通縮型 AI”成為董事會新 KPI成本-優先的預算組態,關稅推高投入品價格、利率維持高位,CFO/審計委員會要求“以技術換毛利”,優先批 AI/自動化項目。ServiceNow 把“AI=降本”講成了可量化指標(Pro Plus ×4 收單),搶佔了 Narrative 高地。從serviceNOW的財報可以看到,將功能打包 → 減少採購行數(line-item consolidation),平台與整合成本可核算 → CFO 最容易批。為何“通縮型 AI”會晉陞為董事會級 KPI?49 %的技術領袖已將 AI “深度嵌入核心業務策略”,CFO 調研中 52 % 將“成本削減”列為引入 GenAI 的首要動機。 (2025 AI Business Predictions - PwC, More Than 40% of Companies Are Experimenting With GenAI, CFO Survey Shows)ServiceNow 案例:如何把“AI = 降本”講成能落地的財務故事?來源:ServiceNow ’25Q1 電話會Narrative 把握:管理層在 call 中 9 次提到 “deflation(ary)” 與 “cost-takeout”,明確把 AI 推向 CFO 的 P/L 改善 維度,而非模糊的創新願景。“成本-優先”預算的新採購邏輯是什麼?ROI 決策門檻,12 個月回本:與租賃、融資租賃的平均報酬期持平。ΔGross Margin ≥ +200 bp或 ΔOperating Margin ≥ +150 bp。Line-Item Consolidation,每減少 1 個 SKU,可降低 3-6 % 合規與審批時間(內部審計資料顯示)。打包後使 IT、財務、營運預算可一次性核銷,縮短 CAPEX-to-OPEX 轉換流程。平台可核算,內建 TCO Dashboards:自動拉取工單工時、雲實例用量、重工率,即時對應到“已驗證節省($)”—— CFO 審計最看重的欄位。對於SaaS公司要不斷調整產品以匹配當前CXO等級的核心訴求銷售 Demo 中即預填行業基準,現場調參數 → 直接得出 ΔGross Margin、ΔFCF → CFO 當場拍板。Narrative 是武器:把 AI 明確定位為 “Deflation Engine” 而非“增收玩具”,讓 CFO/董事會在價值鏈最左端(成本)就看見硬指標。產品層面:少 SKU、多 ROI;把“省錢”寫進合約,再用即時儀表盤證明;並提供漸進式 Outcome-based 計費以鎖定中長期黏性。組織層面:採購思維從“功能買單”轉向“財務成果買單”;產品必須自帶測量、驗證與迭代閉環,否則 Narrative 難長期站得住。這樣,才能真正搶佔下一輪 IT 預算分配的 “通縮型 AI” 高地。“API 單價雪崩”對應用層的四重影響DeepSeek-R2(1.2 T MoE,總啟動 78 B)傳言訓練+推理成本較 GPT-4 再低 97%,本質上只是將既有 “LLMflation” 曲線再向下壓一個量級:過去 3 年推理單價已呈 ≈10×/年 的跌速,很多 A16Z 報告把它比作新的 “摩爾定律”  (Welcome to LLMflation - LLM inference cost is going down fast ⬇️, GenAI costs follow a Moore's Law-style curve, VC claims - The Stack)。不論 R2 真偽,這種加速的價格下行對上層產品意味著:架構層:多檔模型棧成為默認選擇動態路由:先用低成本模型做 MPT(“Minimal Passing Task”),僅在置信度不足時提升到高階模型;快取 + 檢索:Embedding 檢索命中率提升 10 %,即省下 10 % 高階模型呼叫費。商業模式層:Seat → Usage 的遷移加速成本、收入對齊:當 API 單價 <0.5 $/M tokens 時,按席位打包的溢價空間被壓縮;客戶更願意“用多少算多少”。波動性治理:Usage 模式易導致 MRR/SaaS 報表波動;主流做法是 “Hybrid 定價”:基礎訂閱費(鎖定最低 ARPU) + AI Token 錢包(按量自動充值) (AI is changing how software companies charge customers. Welcome to the pay-as-you-go future.)競爭格局層:Infra 毛利向“私域資料 + 縱深工作流”搬遷往下遊走:把 LLM 變成“發動機”而非“整車”;價值捆綁在任務完成(為什麼要往下遊走,具體參見前期文章:OpenAI的社交媒體與消費網際網路之夢)。守護專屬資料:當模型廉價且同質化,專有資料資產成為Alpha 之源。產品/體驗層:高頻、長上下文、即時場景正式可行當基礎推理成本以幾何級數下墜,應用端的護城河將不再是“會調模型”,而是“掌握獨特資料 + 深嵌業務流程 + 對結果計價”。 現在就要把“模型成本敏感度”寫進產品 KPI,把“資料-工作流-收益”三件事擰成一體,才能在 API 價格雪崩時代佔得先機。估值範式切換:從 EBITDA → 資料+留存自 2H25 起,市場對應用類公司很有可能給 10-15× ARR,一旦 Rule of 40 >50% 有望拓到 20×;同時需對 token 成本做動態敏感性壓力測試。所以:硬體估值已 Price-in 供需剪刀差,進一步 β 收益有限;價值重心正加速向“掌握專有資料+深嵌工作流”的應用層遷移;投資框架必須從 EBITDA 轉向 ARR 留存與資料飛輪強度。抓住“精而深”的垂直 SaaS、AI 代理與多模型路由整合者,才可能在第二波浪潮中繼續享受 Alpha。 (貝葉斯之美)
爆料!DeepSeek R2即將發佈:1.2兆參數,成本暴跌97%,真王炸,還是空歡喜?
DeepSeek 這是要搞一波大的了?一條關於 DeepSeek 新模型的消息在 AI 圈裡炸開了鍋。什麼?DeepSeek-R2,混合專家模型,5.2 PB 訓練資料,1.2 兆總參數,780 億動態啟動參數,最最炸裂的是,R2 的訓練和推理成本比 GPT-4 還要低 97.3%?!上面這條在 X 平台瘋傳的帖子,經我調查,源頭來自一個叫“韭研公社”的投資平台。根據“韭研公社”的爆料,DeepSeek-R2 模型採用混合專家 3.0(Hybrid MoE 3.0)架構,總參數規模達到驚人的 1.2 兆,其中動態啟動 780 億;單位 token 推理成本比起 GPT-4 Turbo 下降 97.3%,硬體適配上實現了昇騰 910B 晶片叢集 82% 的高利用率,算力接近 A100 叢集。然而,先別急著開香檳,爆料的真實性仍待 DeepSeek 官方確認。“熱心”的外國網友甚至根據這則爆料製作出了下面這份 DeepSeek-R2 概念股(DeepSeek R2 Concept Stocks)的盤點圖。一個字,絕!中文翻譯版在這裡。此外,無獨有偶,Hugging Face(抱抱臉)CEO Clément Delangue 也在幾小時前發佈了一條耐人尋味的“謎語”帖。帖子內容僅有三個 👀 小表情,以及 DeepSeek 在 Hugging Face 的倉庫連結(按照慣例,DeepSeek 的開源模型會第一時間發佈在 Hugging Face 倉庫)。該說不說,留給 DeepSeek 的時間不多了。距離轟動全球的 DeepSeek-R1 模型發佈已經過去了 3 個月。在這期間,有太多比 R1 強的新模型湧現:北美“御三家”有近期剛發佈的 o3 + o4-mini、曾一度霸榜且免費的 Gemini 2.5 Pro、程式碼之王 Claude 3.7 Sonnet,以及背靠大金主馬斯克的 Grok 3。大模型排行榜的前幾位已經看不到 DeepSeek 的身影。結語坦白說,這條坊間的傳言有幾分真幾分假,沒人知道。但即使只有一半的資料是真的,也足以引起轟動了。這個五一假期,AI 圈註定不平靜。 (AI資訊Gap)
傳言:DeepSeek R2參數暴漲至1.2兆、便宜97.3%!美股或將巨震!
DeepSeek R2細節流出,參數直接飆到1.2兆,還把成本砍到了骨折價!剛剛,一份來自韭研公社的爆料刷屏了整個AI圈——DeepSeek R2被曝即將發佈,參數規模達到驚人的1.2兆,並首次採用Hybrid MoE 3.0架構,實現了動態啟動780億參數。而成本呢?相比GPT-4 Turbo暴降97.3%,這幾乎是AI模型的白菜價了。Aliyun的實際測試資料指出,DeepSeek R2在長文字推理任務中,每單位token的成本大幅下降,真是AI界的降維打擊。Aryan Pandey(@AryanPa66861306) 對此性能表現表示了極度的興奮:DeepSeek R2將單位成本削減97.3%,即將發佈。自主研發的分佈式訓練框架,把華為Ascend 910B晶片叢集利用率推到了82%,FP16精度算力實測達到512PetaFLOPS,接近同規模A100叢集91%的性能(華為實驗室資料)。不僅參數猛增,DeepSeek R2這次的多模態能力更是驚人:視覺理解模組採用ViT-Transformer混合架構,在COCO資料集物體分割任務中精準度達到92.4% mAP,超過CLIP模型整整11.6個百分點。此外,工業質檢場景方面也表現搶眼。它採用自適應特徵融合演算法,在太陽能EL缺陷檢測中的誤檢率降到了極低的7.2E-6,甚至醫療診斷能力也已超過人類專家,胸部X光片多病種識別精準率高達98.1%,完勝協和醫院專家組的96.3%。最不可思議的是,DeepSeek R2在8bit量化壓縮模式下,還能將模型體積壓縮83%,精度損失小於2%,這為終端部署打開了大門。這些亮眼的資料讓推特炸開了鍋,紛紛稱為瘋狂、大東西、太猛了!不過,自稱最權威的DeepSeek粉絲 Teortaxes▶️ (DeepSeek 推特🐋鐵粉 2023 – ∞)(@teortaxesTex) 卻給狂熱的氣氛潑了點冷水:我已經說過,除了確認這些公司存在並可能與DeepSeek有合作外,其它爆料我並不相信。而最初分享這一消息的 Deedy(@deedydas) 也承認了這點:這些只是傳言,圖片內容實際上是用Claude翻譯自洩露檔案。但即使傳言屬實度待確認,這也阻止不了網友們開始瘋狂想像。Jeff Brines(@JeffBrines) 就對美國企業表示擔憂:如果是真的,這會不會對Nvidia造成巨大衝擊?Alice Le Portier(@SeekingAlphaQ) 更加直白:如果中國的半導體供應鏈變得有競爭力,美國的半導體公司可能會稀釋,嚴重限制美企從AI大潮中獲得的壟斷收益。甚至有網友 Subba Reddy(@PostPCEra) 直接斷言:如果是真的,Nvidia和美股周一可能遭遇一波暴擊。畢竟A100的GPU卡售價大約1萬美元,而華為的Ascend 910B年底可能只要A100三分之一的價格。當然,也有網友直接將DeepSeek R2定義為「AI冷戰」的新武器。LIGHT ⇌ SIGNAL//FORM(@AITrailblazerQ) 評論得十分激烈:DeepSeek R2不僅是便宜的模型,更是一場主權壓縮戰,背後有官方的支援,其目的是瓦解美國AI優勢。Haha Packet(@haha_packet) 也是秀起了語言的藝術進行嘲諷:對啊,開源模型都很邪惡。快來保護那些閉源的億萬富豪吧!而AI圈著名樂觀派 çelebi(@celebi_int) 的觀點很簡單:如果是真的,這才是正確的世界線!雖然眾說紛紜,但DeepSeek R2如果真的能在技術和成本上達成這些突破,這無疑會是AI行業的一次重大洗牌。或許,AI大戰的序幕正悄然拉開。這個五一,或將不同尋常! (AGI Hunt)