#DeepSeek-R1
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)
DeepSeek登上Nature封面!梁文鋒帶隊回應質疑,R1訓練真29.4萬美金
DeepSeek榮登Nature封面,實至名歸!今年1月,梁文鋒帶隊R1新作,開創了AI推理新範式——純粹RL就能激發LLM無限推理能力。Nature還特發一篇評論文章,對其大加讚賞。剛剛,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發佈,如今成功登上全球頂刊封面。通訊作者梁文鋒帶隊,用RL為大模型推理能力開闢了全新路徑。論文地址:https://www.nature.com/articles/s41586-025-09422-z在封面推薦中,Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。開源之後,R1在Hugging Face成為最受歡迎的模型,下載量破1090萬次。關鍵是,它是全球首個經過同行評審的主流大模型。值得一的是,補充材料首次公開了R1訓練成本——294000美元,數字低到驚人。即便是加上約600萬美元的基礎模型成本,也遠低於OpenAI、Google訓練AI的成本。從一篇arXiv論文到Nature封面,DeepSeek團隊再次用實力為AI推理的未來鋪路。R1被認為是首個經歷同行評審過程的主流LLM。審稿人Lewis Tunstall表示:這是一個非常值得歡迎的先例。若不公開分享大部分研發過程,我們將難以評估這些系統是否存在風險。針對同行評審意見,DeepSeek減少了擬人化描述,並增加了技術細節說明,包括模型訓練資料類型和安全性能。審稿人Huan Sun表示:通過嚴格同行評審過程,有助於驗證模型的有效性和實用性,其他公司也應效仿。DeepSeek-R1-Zero誕生研究團隊的出發點大膽而純粹:徹底拋開對人類推理軌跡的依賴。人類定義的推理模式,可能反而是一種束縛。他們選擇了一個強大的基礎模型DeepSeek-V3 Base,跳過了傳統的SFT階段。取而代之的,是一個極其簡潔的強化學習框架,只告訴模型兩件事:1. 任務格式:回答必須包含兩部分,一個是被<think>標籤包裹的「思考過程」,另一個是被<answer>標籤包裹的「最終答案」。2. 獎勵訊號:根據最終答案是否正確來給予獎勵,不管採用什麼樣的思考方法。在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1-Zero開始了它的「野蠻生長」。在整個訓練過程中,R1-Zero的推理能力發生了質的飛躍。以AIME 2024為例,它的平均解題精準率(pass@1)從最初的15.6%,一路狂飆至77.9%。如果再配合「自洽解碼」技術,精準率更是高達86.7%——這一成績遠超AIME競賽中所有人類選手的平均水平。AI「頓悟時刻」更令人著迷的,是它在能力提升過程中展現出的自我進化行為。「思考時間」自主增加隨著訓練的進行,模型在<think>標籤內生成的文字長度穩步增加。它自發地學會了用更長的「思維鏈」來探索和最佳化解題策略,有時甚至會生成成百上千個token來反覆推敲一個問題。高級推理策略的湧現模型不再是線性地一步步解題,而是開始展現出「自我反思」和「系統性探索替代解法」等高級策略。它會驗證自己的中間步驟,甚至會主動探索「如果我用另一種方法會怎麼樣?」一個有趣「頓悟時刻」在訓練的某個階段,研究人員觀察到了一個清晰的「頓悟時刻」(Aha Moment)。也就是,模型在反思過程中,使用「wait」(等等)這個詞的頻率突然急劇增加。這一時刻,標誌著DeepSeek-R1-Zero在推理模式上發生了明顯轉變,清晰地揭示了它的自我進化過程。而這種進化,也完美詮釋了強化學習的魅力:不必教它如何解題,只需提供正確的激勵,它就能自主地發展出比人類教的更高級的策略。DeepSeek-R1之路儘管DeepSeek-R1-Zero展現了神級的推理能力,但由於其訓練完全以推理為導向,它存在可讀性差、偶爾會在中英文之間混亂切換的問題,並且在寫作、開放域問答等通用能力上表現平平。為瞭解決R1-Zero的問題,並讓其強大的推理能力能被更廣泛地應用,研究團隊設計了一套精密的多階段訓練流程,並啟動了第二階段的「精煉」計畫:1. 冷啟動(Cold Start):首先,用數千條高品質的、符合人類對話習慣的資料對模型進行初步微調,教它「好好說話」。2. 第一輪強化學習(RL):再次應用強化學習,但這次的目標不僅是提升推理,也包括保持語言的一致性和對話的流暢性。3. 大規模監督微調(SFT):團隊將推理資料與海量的非推理資料(如寫作、通用問答、程式碼工程)混合在一起,進行大規模的監督微調。這極大地擴展了模型的知識面和通用能力。4. 第二輪強化學習(RL):最後,再進行一輪全面的強化學習,利用一個更複雜的獎勵模型,進一步增強模型的有用性、無害性,並使其行為與人類偏好對齊。經過多輪煉丹,DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和使用者偏好的基準上,性能提升了17%-25%,而且還在數學、程式設計等高難度推理任務上保持了頂尖水準。揭秘DeepSeek-R1「煉丹爐」接下來,就讓我們深入這個「煉丹爐」的內部,一探究竟。GRPO演算法在AI訓練的賽道上,強化學習演算法PPO(近端策略最佳化)長期以來都是大語言模型訓練的「標配賽車」。它雖然強大,但也以資源消耗巨大和實現複雜而著稱。DeepSeek團隊選擇了一條更聰明的路,他們採用了GRPO(組相對策略最佳化)演算法作為核心驅動引擎。PPO就像一位極其謹慎的教練,它在每次訓練更新時,都會嚴格限制新策略與舊策略的偏離程度,以防模型「跑偏」導致訓練崩潰。這種謹慎是有代價的,它需要大量的計算來維持穩定。而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是:在每次訓練時,讓模型針對同一個問題,生成一組(比如16個)不同的答案。然後,它不只是簡單地獎勵最好的那個,而是根據這一組答案的「相對好壞」,來整體最佳化模型。具體來說,它會計算出每個答案相對於這一組答案平均水平的「優勢」(Advantage),優勢大的(即表現更好的)答案會得到更大的激勵權重,而表現差的則會被抑制。這種「組內競爭、擇優而學」的機制,簡化了PPO複雜的約束過程,不僅顯著降低了資源消耗,還被證明在實踐中同樣穩定高效。獎勵設計強化學習的本質,就是通過獎勵(Reward)來塑造模型的行為。它決定了模型將朝著那個方向進化。為此,DeepSeek團隊設計了一套雙軌制的獎勵系統。1. 基於規則的獎勵對於推理任務(數學、程式設計、邏輯),團隊採用了一套極其嚴格的基於規則的獎勵系統。精準率獎勵:最終答案對不對?對於數學題,答案必須和標準答案完全一致;對於程式設計題,程式碼必須通過所有預設的測試用例。格式獎勵:思考過程是否符合規範?所有的思考過程都必須封裝在<think>和</think>標籤內。這裡,有一個關鍵的決定:在推理任務上,完全不使用基於神經網路的獎勵模型。因為團隊發現,AI在長時間、大規模的強化學習中,會找到獎勵模型本身的漏洞並加以利用,即所謂的「獎勵投機(Reward Hacking)」。2. 基於模型的獎勵然而,世界並非非黑即白。對於通用任務比如寫作、對話,大多隻有好壞之分。於是,DeepSeek團隊引入了基於模型的獎勵,從而讓模型更符合人類的偏好。有用性獎勵模型:專門負責評判模型的回答對使用者是否有用、切題。它通過比較大量的「好答案」與「壞答案」對(由DeepSeek-V3生成並篩選)來學習人類的偏好。有趣的是,它只評估最終的摘要部分,而不去幹涉底層的推理過程,給予模型在思考上的充分自由。安全獎勵模型:負責檢查模型的全部輸出,包括思考過程,以識別和懲罰任何潛在的有害、偏見或危險內容。如此一來,模型在保持強大推理能力的同時,也學會了如何生成更有用、更安全、更符合人類習慣的內容。訓練細節DeepSeek的訓練並非一蹴而就,而是分為多個精心設計的階段,每個階段都有不同的側重點和巧妙的參數調整。最開始的訓練完全聚焦於數學、程式設計等推理任務,僅使用基於規則的獎勵。一個有趣的現象發生在訓練進行到第8,200步時:研究人員將模型處理的最大文字長度從32,768個Token猛增到65,536個Token。這一改變帶來了立竿見影的效果,模型的性能和回答長度都出現了「大幅躍升」。其他參數設定如下:學習率:3×10⁻⁶KL散度係數:0.001GRPO裁剪比率ϵ:10推理採樣溫度:1每個訓練步包含32個獨立問題,每步的批大小為512。每400步,用最新的策略模型替換參考模型。第一強化學習階段在這一階段,訓練資料變得更加多樣化。團隊遇到了一個意想不到的挑戰:模型的「思維鏈」(<think>標籤內的內容)中頻繁出現中英夾雜的「語言混合」現象。雖然這不一定影響最終答案的正確性,但極大地影響了可讀性。為瞭解決這個問題,他們創造性地引入了一個「語言一致性獎勵」:如果模型在處理中文問題時,思維鏈中中文詞彙的比例越高,獲得的獎勵就越多。儘管實驗表明,強行「矯正」語言會導致模型性能微乎其微的下降,但為了輸出結果更符合人類閱讀習慣,這個犧牲是值得的。第二強化學習階段在這一階段,研究人員結合了獎勵訊號和多樣化的提示詞分佈來訓練模型。推理資料使用基於規則的獎勵,通用資料則啟用基於模型的獎勵。獎勵可以公式化為:其中第二階段保留了第一階段的大部分參數,但將溫度降至0.7,以防因為係數過高造導致生成內容不連貫。此外,這裡還有一個關鍵操作:基於模型的獎勵(有用性和安全性)僅在最後400個訓練步中才被引入,從而避免獎勵投機的產生。挑戰與未來DeepSeek-R1的誕生,為AI發展帶來了深刻的啟示,也伴隨著新的挑戰。能力侷限在結構化輸出和工具使用(如呼叫計算器、搜尋引擎)方面,目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感,不適合複雜的少樣本提示,在零樣本直接提問時效果最佳。此外,由於強化學習在耗時長的軟體工程任務上效率不高,R1在該領域的提升有限。獎勵投機純強化學習的成功,完全依賴於可靠的獎勵訊號。在數學、程式設計這類有明確對錯答案的領域,這很容易實現。但對於像「寫一首優美的詩」這樣主觀的任務,則很難設計完美的獎勵模型。如果獎勵訊號本身有漏洞,策略模型就會像一個聰明的學生鑽考試規則的空子一樣,「投機取巧」、騙取高分,而不是真正提升能力。年初,DeepSeek-R1發佈後,OpenAI感覺不可思議,指責DeepSeek「可能使用了ChatGPT的輸出來訓練R1」。在與審稿人的交流中,DeepSeek表示,R1並非通過複製OpenAI模型生成的推理示例來學習。不過,與大多數其他大語言模型一樣,R1的基礎模型是在網路上訓練的,因此它會吸收網際網路上已有的AI生成的內容。俄亥俄州立大學AI研究員Huan Sun表示,這一解釋「與我們在任何出版物中看到的一樣令人信服」。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall補充說,其他實驗室的複製嘗試表明,DeepSeek推理方法已經足夠好,不需要這樣做。他說:「我認為現在的證據相當明確,僅使用強化學習就可以獲得非常高的性能。」Lewis Tunstall說,其他研究人員現在正試圖應用建立R1的方法來改進現有大語言模型的類似推理能力,並將其擴展到數學和編碼以外的領域。他補充說,通過這種方式,R1「開啟了一場革命」。 (新智元)
剛剛,梁文鋒發Nature了!
DeepSeek-R1開創歷史!首登《自然》封面,梁文鋒團隊正面回應蒸餾質疑、發佈詳盡安全報告。昨晚,DeepSeek再度開創歷史!智東西9月18日報導,9月17日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權威期刊《自然(Nature)》的封面。DeepSeek-R1論文首次公開了僅靠強化學習,就能激發大模型推理能力的重要研究成果,啟發全球AI研究者;這一模型還成為全球最受歡迎的開源推理模型,Hugging Face下載量超1090萬次。此番獲得《自然》的認證,可謂是實至名歸。與此同時,DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。《自然》在社論中高度評價道:幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白“終於被DeepSeek打破”。《自然》認為,在AI行業中,未經證實的說法和炒作已經“司空見慣”,而DeepSeek所做的一切,都是“邁向透明度和可重複性的可喜一步”。▲《自然》雜誌封面標題:自助——強化學習教會大模型自我改進發表在《自然》雜誌的新版DeepSeek-R1論文,與今年1月未經同行評審的初版有較大差異,披露了更多模型訓練的細節,並正面回應了模型發佈之初的蒸餾質疑。▲發表在《自然》雜誌的DeepSeek-R1論文在長達64頁的同行評審檔案中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的資料全部來自網際網路,雖然可能包含GPT-4生成的結果,但絕非有意而為之,更沒有專門的蒸餾環節。DeepSeek也在補充材料中提供了訓練過程中減輕資料污染的詳細流程,以證明模型並未在訓練資料中有意包含基準測試,從而提升模型表現。此外,DeepSeek對DeepSeek-R1的安全性進行了全面評估,證明其安全性領先同期發佈的前沿模型。《自然》雜誌認為,隨著AI技術日漸普及,大模型廠商們無法驗證的宣傳可能對社會帶來真實風險。依靠獨立研究人員進行的同行評審,是抑制AI行業過度炒作的一種有效方式。01.新版論文披露多個重要資訊R1安全性獲全面評估在瞭解新版論文的變化前,我們有必要先回顧下DeepSeek-R1論文的核心內容。DeepSeek-R1的研究出發點,是當時困擾AI業內的一個重大問題。眾所周知,推理能提升大語言模型的能力,但讓模型在後訓練階段通過資料學習思維鏈軌跡,嚴重依賴人工標註,限制了可擴展性。DeepSeek嘗試通過強化學習,讓模型自我演化發展出推理能力。在DeepSeek-V3 Base的基礎上,DeepSeek使用GRPO作為強化學習框架,僅使用最終預測結果與真實答案的正確性作為獎勵訊號,未對推理過程施加限制,最終建構出DeepSeek-R1-Zero。DeepSeek-R1-Zero通過強化學習成功掌握了改進的推理策略,傾向於生成更長的回答,每個回答中包含驗證、反思和探索備選方案。▲DeepSeek-R1-Zero答題正確率隨著推理長度提升,模型訓練中總體回答長度也不斷提升DeepSeek在DeepSeek-R1-Zero的基礎上,採用多階段訓練結合RL、拒絕採樣和監督微調,開發出DeepSeek-R1,使模型既具備強推理能力,又能更好貼合人類偏好。此外,團隊還蒸餾出小型模型並公開發佈,為研究社區提供了可用資源,推動思維鏈推理模型的發展與應用。除了上述主要科研成果外,在最新版的論文和其他材料中,DeepSeek新增了不少補充資訊,讓外界更深入地瞭解到模型訓練和運作的細節。基準測試資料污染是一個極為敏感的問題——如果廠商在訓練時有意或無意包含了基準測試和相關答案,就很有可能導致模型在相關測試上的得分異常偏高,影響基準測試評分的公正性。DeepSeek透露,為了防止基準測試資料污染,其已對DeepSeek-R1的預訓練和後訓練資料都實施了全面的去污染措施。以數學領域為例,僅在預訓練資料中,DeepSeek的去污染流程就識別並刪除了約六百萬條潛在文字。在後訓練階段,數學相關的資料均來自2023年之前的競賽,並採用與預訓練相同的過濾策略,確保訓練資料與評測資料完全不重疊。這些措施保證了模型評測結果能夠真實反映其解決問題的能力,而非對測試資料的記憶。不過,DeepSeek也承認這種去污染方法無法完全防止對測試集的改寫,因此在2024年之前發佈的部分基準測試仍可能存在污染問題。DeepSeek還為DeepSeek-R1新增了一份全面的安全報告。報告提到,DeepSeek-R1在服務部署中引入了外部風險控制系統,不僅可以基於關鍵詞匹配識別不安全對話,還使用DeepSeek-V3直接進行風險審查,判斷是否應拒絕響應。DeepSeek建議開發者在使用DeepSeek-R1時,部署類似的風險控制系統。在公開安全基準測試和內部安全研究中,DeepSeek-R1在大多數基準上超過了Claude-3.7-Sonnet、GPT-4o等前沿模型。開源部署版本的安全性雖不及具備外部風險控制系統的版本,但仍擁有中等水平的安全保障。DeepSeek-R1發佈之初,曾有傳聞稱該模型使用了OpenAI的模型進行蒸餾,這也出現在審稿人的提問中。對此,DeepSeek做出了正面回應,稱DeepSeek-V3-Base的預訓練資料全部來源於網路,反映自然資料分佈,“可能包含由先進模型(如GPT-4)生成的內容”,但DeepSeek-V3-Base並沒有引入在合成資料集上進行大規模監督蒸餾的“冷卻”階段。DeepSeek-V3-Base的資料截止時間為2024年7月,當時尚未發佈任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。更重要的是,DeepSeek-R1論文的核心貢獻,也就是R1-Zero,不涉及從先進模型進行蒸餾。其強化學習(RL)元件是獨立訓練的,不依賴於GPT-4或其他類似能力模型的輸出或指導。02.R1論文開創大模型科研新範式《自然》盛讚其填補空白在社論中,《自然》詳細地分析了DeepSeek-R1經歷完整同行評審流程,並登上期刊的價值。大模型正在迅速改變人類獲取知識的方式,然而,目前最主流的大模型都沒有在研究期刊中經歷過獨立的同行評審,這是一個嚴重的空白。同行評審出版物有助於闡明大模型的工作原理,也有助於業內評估大模型的表現是否與廠商宣傳的一致。DeepSeek改變了這一現狀。DeepSeek在今年2月14日將DeepSeek-R1論文提交至《自然》,而直到7月17日才被接收,9月17日正式發佈。在這一過程中,有8位外部專家參與了同行評審,對這項工作的原創性、方法和魯棒性進行了評估。在最終發佈的版本中,審稿報告與作者回覆都被一併披露。智東西也深入研讀了DeepSeek-R1論文的審稿意見與作者回覆。這份檔案長達64頁,接近論文字身篇幅的3倍。▲DeepSeek同行評審材料封面8位審稿人共提出上百條具體意見,既包括對單詞單複數等細節的修改,也涵蓋對論文中將AI“擬人化”的警示,以及對資料污染和模型安全性問題的關注。例如,在下方修改意見中,審稿人敏銳地捕捉到了“將DeepSeek-R1-Zero開源”這一表述的模糊性,並提醒DeepSeek,“開源”這一概念的界定仍存爭議,在使用相關表述時需要格外注意。這位審稿人還要求DeepSeek在論文中附上SFT和RL資料的連結,而不僅僅是提供資料樣本。▲一位審稿人的部分修改意見DeepSeek認真回應了審稿人提出的每一個問題,前文提到的多個章節與補充資訊,正是在審稿人的建議下新增的。雖然DeepSeek也曾在今年1月發佈DeepSeek-R1的技術報告,但《自然》認為,此類技術文件與實際情況之間的差距可能很大。相比之下,在同行評審中,外部專家並不是被動接收資訊,而是能夠在獨立第三方(編輯)的主持和管理下,通過協作提出問題,並要求論文作者補充資訊。同行評審能夠提升論文的清晰度,並確保作者對其主張作出合理的論證。這一流程並不一定會對文章內容帶來重大修改,但卻能增強研究的可信度。對AI開發者而言,這意味著他們的工作會更為紮實,並更具說服力。03.結語:DeepSeek開源模式或成行業典範作為國產開源 AI 模型走向世界的代表,DeepSeek-R1在全球開源社區擁有極高的口碑。而在本次登上《自然》雜誌封面後,DeepSeek又補充了這一模型的更多資訊,為開源社區提供了科研參考、模型復現思路以及應用支援。《自然》雜誌呼籲更多的AI公司將其模型提交給同行進行評審,確保其聲明經過驗證和澄清。在這一背景下,DeepSeek的開源模式不僅展示了國產AI的技術實力,也有望成為全球AI行業在科研透明度方面的參考典範。 (智東西)
上海,大消息!歷史性的一刻!
歷史性的一刻,剛剛降臨!現在全球科技圈都已經被上海交通大學引爆,所有人都在議論紛紛。台北時間2025年7月9日,上海交大傳來了一條轟動全球的消息,在短短24小時內就直接刷屏了全球科技圈,特別是人工智慧領域更是炸翻了天。你們知道上海交大做出了什麼嗎?他們人工智慧學院的幾位學生,加上深勢科技的團隊;使用DeepSeek-R1作為基礎,然後弄出了一套加強版的工具增強推理智能體X-Master、以及多智能體工作流系統X-Masters。然後一舉在人類最後的考試中,拿下32.1分!直接刷新了此前的世界紀錄。可能有人會說,不就是一場考試嗎?考30多分有什麼了不起?錯,大錯特錯!你們現在熟悉的美國超級巨頭,包括Google,包括蘋果,那怕是最厲害的OpenAI都只能考到20多分;現在你們看到的成績,是全球第一次有AI能夠考30分以上,而且是由中國人,中國團隊創造的!你們知道為什麼要叫人類最後的考試嗎?因為,一旦得分達到100分,就意味著人工智慧徹底形成了自己的思維,自己的大腦。就跟人類一樣,會獨立思考,會獨立幹活了。這場全球都在關注的考試,是由全球各國約500名專家與學者,從數學道化學,到物理,到醫學,生物,地理等等100多個學科,一起彙總!然後設計出來的3000道不同的題目,涉及全球無數國家的知識;任何一道題,都是此前從沒有出現過的超級難題。那怕你只是回答對了一道題,都能獲得幾千美元的獎金。這場考試的難度,超越了歷史上任何一次選拔考試。簡直就是地獄等級!而依託deepseek的基礎,進化出來的X-Masters卻一舉打破世界紀錄,拿下32.1分,隨後更是直接將相關技術直接開源,向全球展示!如果不是全球都在報導這件事,我都不敢相信我們會創造如此超凡的成績!而且創造了歷史之後,還直接向全球開源,展示給全球頂級人才看,這樣的底氣,真的無與倫比,沒有任何語言能夠形容!上海交通大學人工智慧學院,以及深勢科技,還有壓艙石一般的deepseek,這一次真的太霸氣!太揚眉吐氣了!!這背後代表的,不僅僅是你們現在看到的人工智慧大進步;更重要的是這是我們中國團隊,中國企業做到的!deepseek打響了第一槍之後,現在我們全國各地,彷彿雨後春筍一般,頂級的團隊一個接一個的創新,一個接一個的世界級技術,破土而出! (王晶華說科技)
DeepSeek重磅升級,影響太大,沖上熱搜
沉默了兩個月後,DeepSeek出手就是王炸。在端午節來臨前夕,DeepSeek悄悄完成了一次小版升級,目前版本為DeepSeek-R1-0528。迄今為止,DeepSeek最震動世界的動作還是1月發佈R1。而之後DeepSeek的熱度就開始下降,使用率也有所回落,並引發了一些質疑。今年3月,DeepSeek放出了 DeepSeek-V3-0324 模型。時隔兩個月,DeepSeek再次進行模型更新。我們不禁好奇,這次更新又會帶給我們怎樣的驚喜?圖源:微博1. 四大實用升級,一般人也能使用根據DeepSeek官方公告,DeepSeek-R1-0528使用2024年12月所發佈的DeepSeek V3 Base模型作為基座,但在後訓練過程中投入了更多算力,顯著提升模型的思維深度與推理能力。這次更新,DeepSeek主要升級了幾個十分實用的功能。第一,DeepSeek的思考能力深化。根據官方介紹,更新後的 R1 模型在數學、程式設計與通用邏輯等多個基準評估中取得了當前國內所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。圖源:DeepSeek官網最左邊那欄是測試集,可以看到DeepSeek-R1-0528 在各項評測集上均取得了優異表現。並且,相較於舊版 R1,新版模型在複雜推理任務中的表現有了顯著提升。例如在 AIME 2025 測試中,新版模型精準率由舊版的 70% 提升至 87.5%。舉個例子,DeepSeek-R1-0528現在也能做對數字新難題「9.9-9.11=?」了。圖源:DeepSeek要知道,這種看似簡單的數學題目能難倒o3、Gemini 2.5 pro、Claude 4等一眾頂流大模型。另外,這次更新中,上下文長度擴展至164K tokens,支援單任務最長60分鐘的深度思考,這意味著處理複雜任務的能力提升了。DeepSeek表示,DeepSeek-R1-0528的思維鏈對於學術界推理模型的研究和工業界針對小模型的發展都將具有重要意義。第一,新版 DeepSeek R1 針對「幻覺」問題進行了最佳化。「 AI幻覺」(AIHallucination)這個現象,表現為模型輸出與輸入無關、違反事實或邏輯的內容,例如虛構事實、編造引用、錯誤資料等。在一定測試樣本中,AI輸出包含幻覺內容的比例就是幻覺率。我相信不少人在網路上都看過這樣的吐槽:本來想要藉助DeepSeek寫文章,結果發現它給的參考文獻根本不存在!這就是AI幻覺。AI幻覺常見表現就是捏造不存在的研究論文或作者,或提供錯誤的歷史事件、日期或科學結論,以及產生與上下文無關的矛盾回答。原因有三個面向:訓練資料雜訊或偏差;模型過度依賴統計模式而非真實理解;提示模糊或引導不當。總而言之,幻覺率是評估AI可靠性的重要指標。而舊版相比,更新後的模型在改寫潤飾、總結摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右,能夠有效地提供更為準確、可靠的結果。不得不說,這是很實用的一大進步。第二,新版 DeepSeek R1在創意寫作、代碼生角色扮演等功能上有了極大的優化。在舊版 R1 的基礎上,更新後的 R1 模型針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。圖源:DeepSeek官網而在程式評估中,R1-0528與OpenAI的o3-high版本表現接近,部分任務甚至超越Claude 4 Sonnet等頂尖模型。例如,產生帶有動畫效果的天氣卡代碼時,R1的設計細節和互動動畫完成度都優於Claude。圖源:微博圖源:微博第四,DeepSeek-R1-0528 支援工具呼叫(不支援在 thinking 中進行工具呼叫)。根據官方介紹,目前模型 Tau-Bench 測評成績為 airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當,但與 o3-High 以及 Claude 4 Sonnet 仍有差距。圖源:DeepSeek官網總結一下,根據中國經濟網報導,升級主要有四個面向。首先,響應品質優化。對複雜推理、多步驟計算更準確;長文理解與產生更連貫、邏輯更清晰;數學、程式設計等專業性輸出更可靠。其次,響應速度小幅提升。在網頁端、App、API 介面中回應更敏捷,尤其在處理超長文字輸入時,延遲有所降低(約提升 10%~20%)。再次,對話穩定性增強。情境記憶較穩定,尤其在超長對話中,並且減少偶爾「遺忘設定」或「偏離」的情況。最後,API 和介面相容性保持穩定。如公告所說:API 呼叫方式、參數、返回結構完全不變,使用者無需調整現有整合,即可無縫使用新版本。換句話說,日常生活中,現在的DeepSeek-R1-0528 已經足夠應對大多數問題,而在學習和工作中,DeepSeek-R1-0528的可靠性大大提升、使用體驗也變好了。2. 強如DeepSeek,叫板國外AI大模型在現在這個人人都在卷AI的時候,DeepSeek還保留著獨特的優勢。首先,在開源策略上,更新後的DeepSeek-R1依然選擇開源。DeepSeek採用MIT協議開源,允許免費商用,甚至不用公開自己的修改程式碼,大大降低了AI應用門檻。其次,DeepSeek成本優勢顯著,開發者狂喜。其API價格僅為OpenAI o1的1/50(輸入token)至1/27(輸出token),也就是同樣處理字數的文字,用R1需要的成本比用OpenAI低很多,因此,在性價比方面,DeepSeek稱第二,沒人敢稱第一。最後,DeepSeek與國內應用市場的適合度很高。目前DeepSeek已經接入許多應用,例如華為小藝、騰訊元寶等,有著廣泛的使用者基礎。且國產硬體,如華為升騰910B晶片已完成適配,支援本地化部署,徹底擺脫對輝達的依賴。然而,DeepSeek還有許多可以最佳化的空間。圖源:微博一方面,評估顯示,R1在程式設計能力上與o3-high接近,數學推理優於Gemini 2.5 Pro,但工具呼叫能力仍有差距。另一方面,暫不支援圖片、語音等多模態輸入,在日常使用上有限制。另外,在創意寫作、多輪對話等場景,R1和頂級模型仍有差距。儘管幻覺率降低,模型在長文字對話中仍可能出現邏輯錯誤,並且部分使用者反饋服務響應存在延遲,“伺服器繁忙,請稍後重試”恐怕也是人們對DeepSeek的重要印象之一。圖源:微博3. 迄今為止,DeepSeek最震動世界的動作還是1月發佈R1。3月DeepSeek放出的 DeepSeek-V3-0324 模型,主要最佳化了程式碼方面的功能。此模型全面超越 Claude-3.7-Sonnet,在數學、程式碼類相關評測集上超過 GPT-4.5。而當前,市場最關心的還是R2模型發佈。4月初,DeepSeek聯手清華大學發佈一篇論文,提出名為自我原則點評調優(SPCT)的新學習方。同時,研究者引入了元獎勵模型(meta RM),進一步提升推理擴展效能。上述論文引發了DeepSeek的R2是否很快面世的猜測。而這次版本升級,再次激起了人們對R2的期待。有人認為,這次的小版升級可能意味著,R2還遠遠沒有準備好推出。也有人認為,這次最佳化這麼多功能都只是一次“小版本升級”,那麼R2如果出來,其影響力想必不會輸給R1。圖源:微博DeepSeek-R1的升級像一場靜水深流的變革——它沒有渲染「顛覆世界」的野心,卻用更長的思考時間、更低的犯錯率、更貼近普通人的成本,悄悄改寫了「強者恆強」的AI敘事。這次,我們看到的不是參數競賽的喧囂,也不是資本遊戲的狂歡,而是一個樸素的真相:真正的進步,往往藏在「夠用就好」的克制裡。科技的光芒,本來就該照進這些具體而微的生活褶皺裡。 (科技頭版)
DeepSeek R1新版本,幻覺驟降50%
中國國產大模型DeepSeek R1-0528悄悄完成重大升級,核心突破在於幻覺率大幅降低45%-50%。在改寫潤飾、摘要產生、閱讀理解等場景中,新版R1的準確度顯著提升,提供使用者更可靠的輸出。此次升級並非簡單“打補丁”,而是基於深度思考能力強化的後訓練優化。模型在數學、程式設計等複雜任務中表現特別亮眼:在權威數學測驗AIME 2025中,準確率從舊版的70%飆升至87.5%,解題過程平均消耗token量從12K增至23K,說明其思考深度與邏輯嚴謹性顯著增強。更令人驚訝的是,新版R1展現了技術普惠的野心:透過蒸餾自身思維鏈訓練出的8B小模型(DeepSeek-R1-0528-Qwen3-8B),在AIME 2024測試中性能直逼Qwen3-235B大模型,為工業界輕量化部署提供新可能。寫作能力也同步升級。針對議論文、小說等文體,R1可生成結構更完整、文風更貼近人類的長篇內容,同時支援JSON輸出與工具調用(如網頁總結、代碼生成),實用性大幅提升。目前大模型競爭已進入「可靠性攻堅戰」階段。使用者對幻覺的容忍度持續走低,尤其在學術、商業等嚴肅場景。先前SuperCLUE評量顯示,中文推理模型的平均幻覺率高達22.95%(非推理模型為13.52%),而舊版R1的幻覺率約21%。DeepSeek R1的幻覺問題曾經是其最大軟肋。 2025年初的測試顯示,其幻覺率(14.3%)顯著高於前代V3模型(3.9%),根源在於強化推理與創造力的副作用:任務錯配:長思維鏈設計本為提升複雜問題解決能力,卻導致簡單任務(如摘要)被過度複雜化,滋生虛構內容;獎勵機制偏差:文科類任務訓練中,系統更偏好創造性輸出,弱化了事實查核。此次升級透過定向優化後訓練流程,在保留強推理能力的同時,對事實性任務施加約束,實現「創造力」與「真實性」的再平衡。橫向對比全球頂尖模型,新版R1展現出差異化競爭力:可見,R1在數學與程式碼領域已逼近o3,幻覺控制躍居國產模型首位,但工具呼叫能力仍落後頂尖閉源模型。DeepSeek R1-0528的升級,不僅是技術參數的提升,更是國產大模型從「能用」到「可靠」的關鍵轉折。幻覺率驟降50%的背後,是團隊對使用者痛點的精準洞察與複雜技術矛盾的巧妙平衡。儘管在工具調用等場景仍需追趕國際頂尖水平,但其在推理深度、事實性保障上的突破,已讓開源模型首次具備與閉源巨頭「掰手腕」的底氣。大模型的競爭終將回歸價值本質——誰更能為用戶提供穩定、可信賴的智慧服務,誰就能贏得未來。而DeepSeek這次「低調卻硬核」的進化,無疑為這場持久戰注入了新的變數。 (智創獅)
這一夜,中國AI徹底翻身了:DeepSeek R1讓全世界刮目相看 | 深度評測
這一張圖,改變了中國的歷史!01 程式碼生成能力:一次成功,完勝Claude 3.7先說程式碼層面的表現。熟悉我的朋友都知道,黃叔之前寫過一本AI程式設計藍皮書,裡面有大量的實戰案例,基本都是用Claude 3.5、3.7跑出來的。即使是一些相對簡單的案例,比如:- 給老外起中文名的AI網頁- 善思flomo瀏覽器外掛用Windsurf+Claude 3.5的組合,往往都需要偵錯幾次,出現各種小bug才能最終搞定。但是!新DeepSeek R1直接一次成功!我測試了給川普起中文名的功能,R1居然給出了"推特神獸"、"川普大帝"這樣的神翻譯,簡直笑死我了!還有flomo瀏覽器外掛,R1也是一次性生成成功,而且可以直接一鍵同步到flomo,完全沒有任何問題:正當我準備繼續測試更多功能的時候,晚上10點多,API就掛了...看來大家都在瘋狂測試啊!當然,R1也不是完美無缺當然,黃叔必須得說一句,新R1在Coding能力的全面性上還是有欠缺的,體現在:客觀地說,新R1在程式設計能力的全面性上還是有些不足:1. 思考過程太冗長:R1需要很長的thinking過程來彌補推理能力,導致響應速度比較慢:2. 缺少多模態能力:不能像Claude那樣通過截圖來描述程式碼錯誤,偵錯起來比較麻煩但即便如此,新R1在程式碼生成方面已經穩穩站在了Claude 3.7和Claude 4之間的水平!02 前端設計審美:已達Claude 4水準這裡第一張圖我們先不說明那個是Claude4.0生成的,那個是Deepseek R1生成的,大家可以看一下兩份設計圖,能否像之前Claude3.7對比其他模型那樣一眼完成識別。揭曉答案:繼續,我測試更多的UI介面設計:大家可以自行對比!在雜誌風格卡片的測試中,我用自己的文章《2個月漲粉10000+,多篇文章閱讀過萬!黃叔是如何在AI浪潮中找到清晰方向的?》作為素材。有趣的是,新R1甚至在某些方面略勝一籌!比如我在提示詞中明確要求使用偏棕色的背景色,R1嚴格按照要求執行,而Claude 4雖然設計質量很高,但在提示詞遵從度上有些偏差。就像老闆給員工佈置任務,員工完成得很好,但和老闆想要的不太一樣——這種情況我在開發其他產品時也遇到過。當然這種情況還是少數,更多情況下可以很好的完成要求,就像下面這樣:這兩個卡片是用我另一篇文章《我用了一個月Dia瀏覽器,已經徹底拋棄了Chrome!》生成的,左側卡片在提示詞的雜誌感要求方面更強一些,右側卡片在提示詞要求的其他細節如背景元素等方面略勝一籌。繼續換個風格看一下,這次我們用日本平面設計風格:特別值得一提的是,在測試日本平面設計風格時,我只是簡單地在提示詞中寫了"日本平面設計風格":DeepSeek R1在推理過程中,竟然先詳細分析了"日本平面設計風格到底是什麼風格",然後才輸出設計稿!這種自主學習和推理的能力,真的讓人刮目相看。下面是一個美漫風格的卡片:這兩張卡片對比下來左側的明顯更符合美漫風格,設計質量也更好,這裡不知道是不是因為Claude 4的訓練資料更多的是英文資料所以對美漫風理解更深刻?有懂的朋友歡迎留言確認一下是否有這方面的影響。最後是一張二次元科幻風的卡片對比:這個案例Claude4.0在顏色搭配和光影效果上做的更好一些,新R1相對簡單了一些,使用單色還是比較難體現出科幻的氛圍和光影感。經過和一位設計師朋友的深度討論,我們得出了一個重要結論:頂級AI模型的前端設計能力,已經進入了需要專業設計師才能區分質量差異的階段!對於我這樣的非設計師來說,第一感覺就是"差不多"、"都挺好",已經很難評價Claude 4和新DeepSeek R1的輸出質量了。再結合新R1在功能程式碼上的巨大進步,這真的要出大事了!頂級模型的前端設計能力,已經進入了一個需要專業設計師去區分設計質量的階段!再結合新R1在功能程式碼上的進步,真的出大事了!03 為什麼說這改變了中國的歷史?從多個評測案例來看,新DeepSeek R1確實接近Claude 4的水平。這一點我和歸藏以及其他朋友交流後,大家都比較認同。退一步說,即使只是達到Claude 3.7的水平,這也已經超級牛逼了!國產AI的歷史性突破黃叔一直有個觀點:今年國內大模型在程式設計能力上會追平Claude 3.5的水準。如果真的實現了,那意味著:- 無需魔法:國內使用者可以直接使用- 價格低廉:成本優勢明顯- 本土化服務:更適合中國使用者需求這樣的組合,一定會引爆國內AI市場!因為程式設計的價值實在太大了!真沒想到,還沒到6月份,甚至是在輝達發財報的前夜,中國之光DeepSeek就用一個"小"更新,直接擊穿了所有人的預期!這種感覺就像是:你以為自己在追趕,結果一不小心就超車了!寫在最後哎,這個世界變化真的太快了!再保守就要錯過更多機會了。 (AI產品黃叔)