#梁文鋒
估值破兆,1845億梁文鋒和他的DeepSeek近況如何?
“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚。”在近日公佈的《2025全球獨角獸企業500強報告》中,DeepSeek憑藉1.05兆元的估值,力壓阿里雲、螞蟻集團等一眾企業,成為了僅次於字節跳動的中國第二大、全球第六大獨角獸企業。早在今年初,就有外媒曾預測DeepSeek的估值最高可達1500億美元,雖然DeepSeek目前的收入可能不高,但考慮到其未來增長和研究實力,其值得高估值。回看DeepSeek的出圈之路,對於AI行業來說,DeepSeek頗像一條鯰魚,其用“開源+高性價比”的組合拳,進一步推動了整個行業的快速發展。值得一提的是,年初爆紅出圈後,DeepSeek的月活隨即在一眾國產AIGC App中強勢登頂,但DeepSeek的優勢地位並不穩固,其月活一度被豆包反超。不過,11月中旬,在全球生成式AI工具中,DeepSeek的網路流量份額有所回升。而近日DeepSeek發佈的DeepSeek-V3.2,其推理能力更是達到GPT-5水平,並與Gemini-3.0-Pro接近。事實上,DeepSeek的成功,離不開其創始人梁文鋒的卓越領導。梁文鋒身上濃厚的“極客”屬性,更為DeepSeek賦予了“創新”“技術為先”的獨特基因。得益於DeepSeek超高的估值表現,梁文鋒的身家也隨之暴漲。在此前公佈的《2025新財富雜誌500創富榜》上,梁文鋒首次入榜便以1846.2億元的身家傲居榜單第10位。01估值破兆躋身全球第六大獨角獸據公眾號“全球獨角獸企業500強”消息,12月3日,在2025全球獨角獸企業500強大會上,獨角獸工程院院長、全球獨角獸企業500強大會秘書長解樹江發佈了《2025全球獨角獸企業500強報告》。我們注意到,在該榜單排名前十的企業中,有四家中國企業上榜,它們分別是字節跳動、DeepSeek、阿里雲和螞蟻集團。讓人眼前一亮的是,以大模型研發、智能基礎設施為核心業務的DeepSeek,憑藉高達1.05兆元的估值其躋身全球第六大獨角獸企業。而在中國企業中,其更是成為了僅次於字節跳動的第二大中國獨角獸。▲資料來源/全球獨角獸企業資料庫(Unicorn500)天眼查顯示,DeepSeek關聯的杭州深度求索人工智慧基礎技術研究有限公司,成立於2023年7月。而以黑馬之姿從大模型賽道殺出重圍的AI助手——DeepSeek,則問世於今年1月。換言之,DeepSeek估值破兆,距離其公司正式成立不過短短兩年多時間,甚至其核心產品的推出至今都還未滿一年。事實上,早在今年年初DeepSeek爆火之時,多家外媒就討論過DeepSeek的估值以及其創始人梁文鋒的財富。據彭博社2月消息,根據七位創業公司創始人及人工智慧專家估算,DeepSeek的估值在10億美元到1500億美元以上不等。根據彭博億萬富翁指數,按區間中間值計算,DeepSeek估值在20億美元到300億美元之間,而梁文鋒持有的84%股份價值介於16.8億美元到252億美元,這將使其躍居亞洲最富有科技大亨行列。美國風投公司Glasswing Ventures的創始人Rudina Seseri表示,“即使保守估算,DeepSeek憑藉現有的僅僅幾百萬美元收入就能輕鬆獲得數十億美元的估值,更不用說再考慮未來成長空間了。”加拿大電信公司Sweat Free Telecom的創始人Chanakya Ramdev則更為樂觀,他當時就認為DeepSeek的估值能達到1500億美元。據此估算,梁文鋒持有的股份價值將達到1260億美元。D.A. Davidson分析師Alexander Platt認為,DeepSeek可以說是“目前全球排名前五的人工智慧實驗室”之一,考慮到其強大的研發實力(這些實力未必能轉化為實際收益),其價值應該更高。在今年6月揭曉的《2025新財富雜誌500創富榜》上,憑藉DeepSeek的卓越表現,梁文鋒以1846.2億元的身家首次上榜,且初次亮相其在該榜單上便闖進第10名的高位。02行業競爭愈發激烈月活曾短期出現下滑DeepSeek的爆火始於2025年初。當時,這個一度“出口轉內銷”的AI模型,成了許多國人接觸生成式AI的“初體驗”。據QuestMobile資料,在今年2月的AIGC App行業月活躍使用者規模TOP10榜單中,DeepSeek App好似一匹黑馬,上線次月便勢如破竹,月活躍使用者規模一舉突破1.8億。同時,在DeepSeek大模型的加持下,騰訊元寶、奈米AI搜尋的日活躍使用者規模也顯著提升,躋身TOP5行列。進入3月,DeepSeek繼續保持領先優勢,憑藉1.94億的月活躍使用者數,在AI原生App使用者規模TOP榜中再度稱雄,緊隨其後的是1.16億月活躍使用者的豆包和4164萬月活躍使用者的騰訊元寶。不過,在火爆出圈後,DeepSeek的月活一度出現下滑:今年5月,其月活使用者縮水至1.69億。9月,DeepSeek月活躍使用者規模再度降至1.45億,排名被月活1.72億的豆包反超。事實上,前述變化的背後,是國內AI行業日益白熱化的競爭。豆包、千問背後的網際網路巨頭們,正不斷加大在AI領域的投入,試圖在這片充滿機遇的賽道中搶佔更多份額。其中,此前在大模型新機遇面前一度“掉隊”的字節跳動,近來勢頭十分迅猛。據浙商證券報告,字節跳動2024年在AI上的資本開支高達800億元,接近百度、阿里巴巴和騰訊三巨頭的總和(約1000億元)。浙商證券預測,2025年,字節跳動在AI上的投入預計將翻倍至1500-1600億元,其中900億元用於AI算力卡採購,700億元投向資料中心基礎設施建設及配套硬體。在9月的雲棲大會上,阿里巴巴的掌門人吳泳銘也重申了公司發力AI的決心:阿里正在積極推進三年3800億的AI基礎設施建設計畫,並將會持續追加更大的投入。而放眼國外,美國的AI巨頭們也動作頻頻。據媒體報導,微軟、Google和Meta在第三季度合計投入780億美元用於資本支出,同比增長89%。據悉,其中大部分資金用於建設資料中心,以及採購圖形處理器(GPU)和相關硬體裝置。同時,三家公司還均上調了對未來支出的預測。而Google近期發佈的多模態大模型Gemini 3和圖像生成模型Nano Ba-nana Pro等重磅產品,也吸引了外界無數目光。面對同行發起的猛烈攻勢,DeepSeek也做出了“反擊”。12月1日,DeepSeek同步發佈兩款正式版模型——DeepSeek-V3.2與DeepSeek-V3.2-Speciale。其中,前者在推理測試中達到GPT-5水平,僅略低於Gemini-3.0-Pro,而後者在IMO 2025等四項國際頂級競賽中斬獲金牌。值得注意的是,據資料分析公司Similar Web發佈的最新報告,在全球範圍內,DeepSeek的訪問量正在回暖,在全球生成式AI工具流量佔比中,DeepSeek的份額從10月中旬的3.7%回升至11月中旬的4.2%。03“極客”梁文鋒化身AI賽道“鯰魚”據36kr,多位行業人士和DeepSeek研究員這麼描述梁文鋒——他是當下中國AI界非常罕見的“兼具強大的infra工程能力和模型研究能力,又能調動資源”,擁有“令人恐怖的學習能力”,同時又“完全不像一個老闆,而更像一個極客”。天眼查顯示,梁文鋒是杭州深度求索人工智慧基礎技術研究有限公司的實際控制人,其通過直接、間接形式持有公司約84%的股份。這意味著梁文鋒是這家兆估值AI公司的絕對靈魂,而其身上的“極客”屬性也深深影響著DeepSeek。據公開資料,梁文鋒1985年生於廣東湛江,從小成績便十分優異。2002年,17歲的梁文鋒以吳川一中高考狀元的成績考上浙大本科電子資訊工程專業,之後又繼續攻讀浙大資訊與通訊工程專業研究生。2008年,全球金融危機肆虐,許多人紛紛逃離市場。彼時,還在讀研的梁文鋒看到了隱藏的機遇,開始研究如何使用機器學習等技術探索全自動量化交易。2013年,梁文鋒和浙江大學校友徐進等人創立了以德國數學家卡爾·雅可比命名的投資公司——杭州雅克比投資管理有限公司。兩年後,梁文鋒又創立了幻方量化,致力於通過數學和人工智慧進行量化投資。2016年10月,幻方第一個由深度學習演算法模型生成的股票倉位上線實盤交易,使用GPU進行計算。至2017年底,公司幾乎所有的量化策略都已經採用AI模型計算。2018年,幻方確立以AI為公司的主要發展方向。2019年,幻方AI(幻方人工智慧基礎研究有限公司)註冊成立,致力於AI的演算法與基礎應用研究。同年,幻方量化管理規模突破百億。2020年,總投資近2億元、搭載1100加速卡的“螢火一號”正式投用,為幻方的AI研究提供算力支援。2023年7月,幻方量化宣佈成立大模型公司DeepSeek,正式進軍通用人工智慧領域。次年5月,DeepSeek發佈DeepSeekV2。據悉,DeepSeek V2的開源模型擁有超高性價比:其推理成本被降到每百萬token僅1塊錢,約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。同年12月末,DeepSeek-V3面世。在DeepSeek-V3的定價上,API定價為輸入每百萬tokens 0.5元(快取命中)/2元(快取未命中),輸出每百萬tokens 8元,與字節Doubao-pro-256k定價輸入每百萬tokens 5元,輸出每百萬tokens 9元的水平相當,在國產模型中性價比較高。緊接著,DeepSeek於今年1月正式發佈DeepSeek-R1模型,一經問世便在行業內引發廣泛熱議。憑藉“開源”、“極致性價比”等特色,DeepSeek更是化身為一條鯰魚,攪動著整個AI行業。對此,梁文鋒在與媒體對話時表示,“我們不是有意成為一條鯰魚,只是不小心成了一條鯰魚”。梁文鋒坦言,“沒想到價格讓大家這麼敏感。我們只是按照自己的步調來做事,然後核算成本定價。我們的原則是不貼錢,也不賺取暴利。這個價格也是在成本之上稍微有點利潤。”而對於DeepSeek的全面開源和創新,梁文鋒有自己的理解,“在顛覆性的技術面前,閉源形成的護城河是短暫的。即使OpenAI閉源,也無法阻止被別人趕超。”在梁文鋒看來,把價值沉澱在團隊上,員工在這個過程中得到成長,積累更多經驗和知識,形成可以創新的組織和文化,這才是他們的護城河。在瞬息萬變的AI大戰中,梁文鋒後續能否再創財富新高?我們將持續關注。 (快刀財經)
Nature『2025年度十大人物​​​​』——梁文鋒、杜夢然等上榜
2025年12月8日,Nature雜誌發表了今年的“Nature's Ten”,選出了年度十大人物。Nature特寫部編輯Brendan Maher表示:“今年的榜單頌揚了對新前沿的探索,醫療領域突破性進展的希望,對科研誠信的堅定守護,以及那些可以拯救生命的全球政策的制定者。我們激動地看到這麼多人在不遺餘力地理解自然世界,並在許多情況下幫助這個世界。這是他們入選今年Nature十大人物的原因。”一、梁文鋒 (Liang Wenfeng) (技術顛覆者)梁文鋒是總部位於杭州的中國公司DeepSeek的創始人。DeepSeek在今年1月發佈了功能強大但成本低廉的 R1“推理”大型語言模型(LLM)。R1是首批作為開放權重發佈的此類模型,這意味著研究人員可以免費下載並在此基礎上進行建構。DeepSeek的成功挑戰了美國在AI領域的領先地位,並促使中美其他公司也發佈了開放模型。此外,DeepSeek還發佈了R1的建構和訓練細節,成為首個經過同行評審的主要大型語言模型,教會了其他AI研究人員如何訓練推理模型。二、杜夢然 (Mengran Du) (深海潛水員)杜夢然是中國科學院深海科學與工程研究所的地球科學家。在“奮鬥者”號載人潛水器中,她和同事們在超過九公里的深處(位於日本東北部的千島-堪察加海溝)發現了地球上已知最深的動物生態系統。這個深淵生態系統不依賴陽光,而是通過化能合成來維持,利用從海底滲出的甲烷、硫化氫和其他化合物獲取能量。她的發現為化能合成生態系統可能在全球海洋中存在“走廊”提供了強有力的證據,這表明化能合成在深海中所起的作用可能比之前認為的更大。三、Susan Monarez (公共衛生守護者)作為美國疾病控制與預防中心(CDC)的主任,Susan Monarez在上任不到一個月時就被解僱了,她表示自己是因為“堅守科學誠信的底線”而被開除的。她拒絕了在未審視相關科學資料的情況下預先批准疫苗建議,以及解僱該機構頂尖科學家的命令。Monarez是一位公開對川普政府威脅公共衛生的政策變化表示擔憂的高知名度政府科學家。她此前對CDC的宏大計畫主要集中在簡化資料,以便提供針對每個地區和州的公共衛生建議。流行病學家Jennifer Nuzzo評價她是一位將證據置於國家利益之上的科學家,並指出任何自重的科學家都不會同意在未仔細審查科學證據的情況下蓋章通過事務。四、Achal Agrawal (撤稿偵探)Achal Agrawal是一位印度的自由資料科學家,他致力於提高該國對研究誠信違規行為(包括剽竊)的認知。他注意到在印度,許多人認為使用軟體改寫已發表的作品不算作剽竊,這讓他堅定了決心要解決研究不端行為根深蒂固的問題。今年,Agrawal的工作促成了一項里程碑式的政策變化:印度國家機構排名框架(NIRF)現在將懲罰那些研究人員發表了大量被撤回論文的機構。他創立了線上組織“印度研究觀察”(IRW),用於匿名舉報研究誠信違規行為,並開始分析印度機構研究人員的撤稿情況。他的目標是促進問責制,並幫助機構採取行動,以清理印度科學界的弊病。五、Tony Tyson (望遠鏡先驅)Tony Tyson是位於智利的全新的維拉·魯賓天文台(Vera Rubin Observatory)的構想者和推動者,他早在30多年前就構思了這個項目。這座耗資8.1億美元的天文台被稱為“高風險、高回報”的項目。它使用了世界上最大的數字相機,設計緊湊,能夠在短短40秒內捕獲一次曝光,將對南半球天空進行連續的視訊拍攝。天文台的核心任務包括繪製宇宙中看不見的暗物質的3D圖譜、探測數百萬顆恆星,以及發現可能威脅地球的小行星。Tyson在推動該項目方面展現了堅定的決心,他也是最早使用“弱引力透鏡”技術來揭示暗物質存在的科學家之一。六、Precious Matsoso (大流行病談判代表)作為指導全球大流行病條約談判小組的聯合主席,Precious Matsoso在艱苦的談判中發揮了關鍵作用,最終促成了世界衛生組織(WHO)190多個成員國就首個全球大流行病條約草案文字達成共識。該條約旨在為全球如何齊心協力預防、準備和應對下一次大流行病制定指導原則。在充滿摩擦的談判中,Matsoso使用了多種策略,包括在激烈的辯論中保持堅定,甚至通過唱歌(披頭士的《你只需要愛》)來傳達合作的資訊。她認為這項協議來之不易,特別是它承諾將技術訣竅轉移給低收入國家,使它們能夠自己生產診斷工具和藥物,這是同類協議中的首次。七、Sarah Tabrizi (亨廷頓英雄)Sarah Tabrizi是一位神經學家,擔任倫敦大學學院亨廷頓舞蹈症中心主任。她是以基因靶向療法 AMT-130 為目標的臨床試驗的首席科學顧問,該試驗提供了令人信服的證據,表明這種療法可以減緩亨廷頓舞蹈症這種神經退行性疾病的進展速度。臨床資料顯示,接受高劑量治療的患者的衰退速度減緩了75%。Tabrizi的經驗讓她得以吸取教訓,改進臨床試驗設計,她現在正領導研究,希望能在症狀出現之前進行干預。她的最終目標是阻止亨廷頓舞蹈症的發生。八、Luciano Moreira (蚊子俠)Luciano Moreira是一位農業工程師和昆蟲學家,同時也是Wolbito do Brasil公司的首席執行長。他在巴西設立了一家大型工廠,致力於大規模繁殖感染了沃爾巴克氏體細菌(Wolbachia)的伊蚊(Aedes aegypti)。攜帶這種細菌的蚊子能夠抑制登革熱等疾病的傳播。Moreira不僅證明了該模型的有效性,還成功說服了政治決策者實施這項技術,促使巴西聯邦政府將其確認為抗擊蚊媒疾病的官方公共衛生措施。他的工廠正穩步推進,目標是每年生產五十億隻帶有沃爾巴克氏體的蚊子(wolbitos)。九、Yifat Merbl (肽偵探)Yifat Merbl是以色列魏茨曼科學研究所的系統生物學家,她和她的團隊通過研究細胞的回收中心——蛋白酶體(proteasomes),發現了一個全新的免疫系統組成部分。她將這一發現比喻為在細胞的“垃圾桶”中找到了重要的線索。她發現蛋白酶體產生的肽片段中,有許多具有抗菌活性,能夠消滅細菌。她的團隊發現,這是一種獨立於免疫細胞啟動的初始防禦機制:當細胞受到感染時,蛋白酶體能夠切換其調控帽,以促進細菌對抗肽的生成。十、KJ Muldoon (基因編輯嬰兒)KJ Muldoon是已知第一個接受個性化CRISPR基因組編輯療法的嬰兒。他患有一種名為CPS1缺乏症的超罕見遺傳病,這種疾病會損害身體處理蛋白質的能力,導致有毒的氨在血液中積累。為了治療他,研究團隊使用了CRISPR基因組編輯技術——鹼基編輯技術,來靶向並糾正人類基因組中導致該疾病的錯義突變。這種高度個性化的編輯療法以創紀錄的速度完成,僅用了六個月,遠低於預估的18個月。KJ Muldoon的治療成功展示了快速製造和提供高度個性化基因編輯療法來治療罕見疾病的可能性。 (BioArt)
《自然》公佈!梁文鋒、杜夢然上榜
英國《自然》雜誌8日公佈了年度十大科學人物榜單,評選出了2025年最重大科學事件的中心人物,DeepSeek創始人梁文鋒、中國科學院深海科學與工程研究所地質學家杜夢然上榜。《自然》介紹稱,2025年是科學家拓展知識邊界的一年,也是顛覆的一年。中國企業家梁文鋒1月推出的DeepSeek驚豔了日新月異的AI界,這個大語言模型的表現媲美現有最先進模型,但建構資源僅需後者的一小部分,與此同時,DeepSeek以“開放權重”(直接發佈模型訓練後的參數權重而無需重新訓練)的形式公開,意味著它能免費下載並擴展,為科研人士帶來福音。杜夢然則開啟了一場科學的冒險,她和團隊乘坐潛水器潛入海面下9000多米,首次窺見了一個充滿奇異生物的生態系統。其他入選的科學家,包括美國加州大學戴維斯分校物理學家托尼·泰森、以色列魏茨曼科學研究所繫統生物學家伊法特·梅爾布林、英國倫敦大學學院神經學家莎拉·塔布裡齊、美國費城郊區的患兒KJ·馬爾杜恩、印度賴布林的資料科學家阿查爾·阿格拉瓦爾、巴西奧斯瓦爾多·克魯茲基金會農業研究員盧西亞諾·莫雷拉、南非金山大學公共衛生官員普雷修斯·馬索索、微生物學家和免疫學家蘇珊·莫納雷斯。 (科技日報)
「中國版輝達」上市,首日暴漲425%,中一簽能賺28萬元!梁文鋒成“大贏家”,一天浮盈近3000萬元!
被稱為「國產GPU第一股」「中國版輝達」的摩爾線程,不僅以88天的稽核周期創下科創板最快紀錄,更在上市首日掀起一場震撼市場的造富風暴。12月5日,開盤第1分鐘,該股最高漲至688元,漲幅達502%。此時賣出的中籤者,一簽最高可浮滿28.68萬元。後續交易時段雖有回落,漲幅基本上也維持在400%以上。從全天85.49%的換手率來看,大多數中籤者都選擇了落袋為安,有投資者表示:“開盤即巔峰,我馬上一鍵賣出。”《每日經濟新聞》記者也注意到,在這場狂歡中,幻方量化、九坤投資等頭部量化私募賺得盆滿缽滿,百億私募大佬林業旗下39隻產品此前也現身獲配名單。圖片來源:視覺中國(圖文無關)中籤率僅2.7萬分之一「開盤即巔峰」後,有人果斷離場摩爾線程的IPO熱度從申購階段便可見一斑。其網路中籤率僅0.036%,代表約2.7萬投資者中才有1人能成功中籤,足見市場追捧之熱烈。 12月5日該股上市,開盤即打破今年新股漲幅紀錄,股價最高可達688元,即中籤者賣出後最高可賺28.68萬元。有中籤的游資朋友直言:“開盤即巔峰,我馬上一鍵賣出,連相關概念股初靈資訊也一起清了。”還有私募基金經理理性分析:“開盤價基本上就是短期頂點,市場預期已經打滿,當前股價全是情緒推動,明視訊記憶體在巨大泡沫,根本支撐不了這麼高的估值。”市場情緒的快速切換也反映在股價走勢上。摩爾線程盤中大幅回撤,截至收盤報600.5元,較最高價回落12.7%,最終漲幅定格在425.5%,全天換手率高達85.49%。這意味著大量追高入場的投資人面臨浮虧,而這現像在先前中芯國際、寒武紀、海光資訊等科創板大市值晶片股中並不少見。量化私募成最大贏家梁文鋒一天浮盈近3000萬元與一般投資人「中籤難、守股慌」形成反差的是,量化私募憑藉資金與技術優勢,在此次摩爾線程IPO中收穫頗豐。私募排排網資料顯示,共有113家私募旗下2019檔產品獲得網下配售,合計獲配50.18萬股,獲配金額達5734.10萬元。其中,量化私募佔絕對主導地位:51家量化私募旗下1673隻產品成功獲配,獲配數量42萬股、獲配金額4800.15萬元。頭部量化機構的參與力道特別驚人。如九坤投資動用超150隻產品參與申購,幻方量化動用160隻產品,衍復投資動用250多隻產品,靈均投資動用約70隻產品。從獲配結果來看,DeepSeek創辦人梁文鋒旗下的幻方量化以6.13萬股的獲配數量位居榜首,對應獲配金額700.59萬元;衍復投資、九坤投資分別以6.00萬股、3.97萬股的獲配數量緊隨其後,獲配金額分別為686.176萬元。以摩爾線程收盤價計算,幻方量化帳面浮盈約2,981萬元,衍復投資約2,919萬元,九坤投資約1,930萬元。主觀私募也未缺席這場盛宴。 39家主觀私募旗下246檔產品成功獲配,其中百億私募大佬梁宏的海南希瓦動用近10隻產品參與申購;林園旗下林區投資的39檔產品合計獲配3014股,獲配金額約34.44萬元。從整體獲配格局來看,資金向頭部機構集中的特徵明顯。獲配金額超100萬元的13家私募均為百億級機構,獲配金額前30名中,量化私募佔23家,主觀私募僅佔5家,百億量化私募成為此次配售的核心力量。業界:打新「貧富差」待平衡散戶需警惕短期炒作針對摩爾線程上市首日的極端表現及打新市場的機構化特徵,多位私募人士給出了專業解讀。黑崎資本首席策略長陳興文表示,結合A股歷史資料,大市值新股上市首日買進後往往面臨短期波動,甚至虧損風險,但長期來看,摩爾線程這類標的受益於國產替代浪潮,成長潛力值得期待。 “投資者應穿透短期情緒波動,以戰略思維把握產業確定性機會,而非參與短期投機。”銓景基金總經理鄭彥欣則直言首日暴漲背後的風險:「中籤者獲利豐厚導致拋壓巨大,而暴漲後的股價可能已透支未來多年成長,估值處於極高水平。首日追高本質上是博弈短期情緒的投機行為,需謹慎承接大量獲利對於打新市場「機構易中籤、散戶難喝湯」的現象,鉅陣資本投資總監龍舫解釋道,量化私募作為B類機構投資者,可同時參與網下配售與網上申購,加上資金規模龐大、報價精準度高,中籤率遠高於普通投資者。而中小投資者僅能參與網路申購,受市值門檻和單一帳戶限制,中籤率自然偏低。 「當前新股配售規則向公募、社保、量化私募等專業機構傾斜,符合鼓勵長期投資的政策導向,但也導致機構與散戶中籤比例分化,可能削弱市場公平性。”在如何平衡市場效率與公平性的問題上,龍舫建議,監理機關可透過提高網路發行比例、限制機構過度集中申購、降低散戶參與門檻等方式最佳化機制。對中小投資者而言,透過購買公募基金等方式間接參與新股申購,或許是分享優質標的成長紅利的更優選擇。鄭彥欣則從市場規律角度補充:「新股網下配售大部分向公募等長線資金傾斜,量化私募獲配看似數量多但單只產品規模有限。散戶中籤率低,本質上是在支援實體經濟與維護市場流動性間的平衡——若會大幅散戶中籤後首日集中拋售,反而可能會加劇股價福建大佬追蹤研究6個月提前下注重倉摩爾線程福州閩江畔,盧春霖沏了一壺肉桂,這位福州市拓鋒私募基金管理有限公司(以下簡稱拓荒)的董事長顯得既鬆弛又敏銳。這背後,是盧春霖在摩爾線程的融資過程中壓下的重注。「一下就達成共識了,沒有一票是否決的。因為之前投過相關領域,看得越來越清楚。而且寒武紀的成功讓我們認清楚了這個方向。」當回憶團隊投資摩爾線程的決策時,盧春霖說道。以12月5日收盤價計算,拓鋒在摩爾線程的投資浮盈超過700%。窗外車水馬龍,而盧春霖的腦海裡裝的是一張價值千億元的中國半導體版圖。如果說寒武紀(SH688256,股價1355元,市值5714億元)的成功讓他嶄露頭角,那麼摩爾線程的上市,則讓這家隱匿在福建的投資機構浮出水面。作為摩爾線程的重要股東,盧春霖不僅押中了中國GPU(圖形處理器)的“獨角獸”,更投資了沐曦積體電路(上海)股份有限公司(以下簡稱沐曦)、北京清微智能科技有限公司(以下簡稱清微智能)等多張半導體王牌。這是一場關於科技信仰的豪賭,也是中國本土資本在「卡脖子」時代下的生存進化論。拓鋒董事長盧春霖圖片來源:受訪者供圖根據官網,拓鋒是一家完全市場化、專業化、規範化運作的私募股權投資基金管理公司。在摩爾線程的招股書中,有兩位股東與拓鋒有關:福建吉芘酉科技投資合夥(有限合夥)(以下簡稱福建拓鋒)和沛縣干曜興科技合夥企業(有限合夥)(以下簡稱沛縣干曜)。拓鋒第一輪投資摩爾線程的會議決議圖片來源:受訪者供圖盧春霖向記者證實,拓鋒投資摩爾線程的路徑並非單兵作戰。 「沛縣乾曜背後的股東上海諸神諮詢管理有限公司的核心股東陳柏霖,是拓鋒的合夥人。」盧春霖表示。陳柏霖也是福建人。這種基於地緣和血緣的信任紐帶,讓福建資本在資本市場上展現了驚人的爆發力。「我個人與陳柏霖先生的合作也起到了關鍵作用。陳柏霖先生是知名投資人和拓鋒的合夥人,他透過上海諸神資本早期佈局了多個半導體項目。他的視野和資源幫助我們卡位了摩爾線程等明星企業。例如,2022年,由陳柏霖先生引薦了摩爾線程團隊,那時公司剛成立不久,但團隊背景強大(核心成員來自輝達),技術路徑清晰(全功能GPU)。盧春霖表示。盧春霖透露,拓鋒對摩爾線程進行了長達6個月的追蹤調查,重點考察三個面向:第一,技術架構方面,摩爾線程的「元計算平台」強調軟硬體協同,支援圖形渲染和AI計算,相容主流框架如TensorFlow(Google 端到端的開源機器學習平台)和PyTorch(FacebookFacebook(Facebook)旗下開源學習框架)。這與純硬體公司不同,更容易生態適配。第二,市場時機方面,2023年美國升級晶片管制,國產GPU需求爆發。摩爾線程的產品可用於資料中心、雲端遊戲、自動駕駛等領域,市場空間龐大。第三,團隊能力方面,創辦人張建中先生有20年GPU經驗,團隊曾主導多款晶片量產。「2023年,在摩爾線程融資困難階段,我們參與B+輪投資2億元;2024年追加Pre-IPO輪1.8億元。」盧春霖表示。投資之外,拓鋒也進行了賦能。 「產業資本做的事情,是需要對企業賦能。」盧春霖向記者復盤了一個細節。作為晶片設計公司,摩爾線程對配套有著巨大的需求,且對品質要求極高。而盧春霖敏銳地發現,國際GPU巨頭的供應商之一,恰好就在他的資源池裡。“我對張建中說,國際GPU巨頭用的就是這家公司,品質非常穩定。我又去跟這家公司說,摩爾線程是中國的輝達,潛力無限。”在盧春霖的撮合下,雙方不僅建立了業務合作,同時也幫助摩爾線程吸引了股東。根據摩爾線程招股書,截至上市前,福建拓鋒在2023年10月以2億元的價格認購了摩爾有限新增註冊資本,並在後續的股份制改造及增資中持續持有大量股份,截至發行前持有509.3424萬股,持股比例達1.27%。此外,與拓鋒關係緊密的沛縣干曜位居前十大股東,持股比例高達4.25%。截至12月5日收盤,福建拓鋒對摩爾線程的持股市值已達30.6億元,以此計算,拓鋒的投資報酬率已高達705%。盧春霖透露,目前,拓鋒半導體投資版圖邏輯包括三個方面,首先是技術覆蓋,從雲端(寒武紀)到邊緣(清微智能),再到終端(中科物棲),形成完整算力鏈條;其次是生態聯動,所有企業可透過拓鋒投資生態網路共享資源,實現真正良性的競爭與合作關係;例如,可重構晶片(清微智能)可能成為後摩爾定律時代的突破點。這位福建投資人正試圖用「真金白銀」證明:在中國,硬科技依然是穿越周期的解藥。而對於拓鋒而言,屬於他們的千億版圖拼圖,或許才剛完成了一半。此外,盧春霖認為,半導體產業目前的短板也是投資的重要機會。 “我們的供應鏈需要去替代,包括晶圓、裝置、光刻機等都是機會。我覺得5到10年,一定會形成中國的供應鏈體系。換句話說,這5到10年也是投資的黃金期。” (每經頭條)
摩爾線程爆了,梁文鋒成大贏家
2025年12月5日,頂著「國產GPU第一股」光環的摩爾線程正式登陸科創板。上市首日,摩爾線程股價一度漲超500%,股價拉升至688元/股,隨後漲幅逐步縮小,回落至600元/股以下。截至上午10:38,摩爾線程股價報575.01元/股。摩爾線程本次在科創板共發行7000萬股新股,發行價114.28元/股。若以盤中最高價格688元/股計算,中一簽(500股)可賺約28.69萬元。摩爾線程在先前公告顯示,共有482萬戶股民參與申購,網路發行的中籤率低至0.036%,相當於每1萬名申購者中僅有不到4人中籤。在網路發​​行部分,共有267家機構投資人參與申購,總申購數量達704.06億股,網下最終僅獲配3,920萬股。就在一般投資者「一簽難求」之際,一場資本狂歡拉開國產晶片的創富大幕。圖源:視覺中國張建中身價或超300億,鎖定期超3年憑藉早期入股或股權激勵,摩爾線程至少有9位公司高層及核心技術人員因持股而在上市時身價過億元。根據發行方案,公司設立了員工持股平台,幾位掌握核心技術與公司股權的創辦人及高階主管,個人財富將實現跨越式成長。摩爾線程曾在招股書中公佈公司董事、審計委員會委員、高階主管及核心技術人員直接或間接持有公司股份的情況。截至 2025 年 6 月 30 日,摩爾線程創辦人、董事長兼總經理張建中直接及間接持股比例為12.7304%,以本次發行前40002.8217萬股的總股本及600元/股的股價計算,張建中持有摩爾線程股票價值超300億元。張建中曾在輝達工作超過十年,曾任全球副總裁、中國區總經理。2020年成立摩爾線程,並確立了「全功能GPU」的技術路線。在創辦人團隊中,持股比例僅次於張建中的是摩爾線程的共同創辦人——周苑、張鈀勃、王東,他們未直接持有發行人股份,透過持有南京神傲合夥份額從而間接持有發行人股份。截至 2025 年 6 月 30 日,周苑間接持股比例為4.0161%,以本次發行前40002.8217萬股的總股本及600元/股的股價計算,周苑持有摩爾線程股票價值約96.39億元;張缽勃間接持股比例為4.8894%,以本次發行前40002.8217萬股的總股本及600元/股的股價計算,張鈀勃持有摩爾線程股票價值約117.35億元;王東間接持股比例為4.0161%,以本次發行前40002.8217萬股的總股本及600元/股的股價計算,王東持有摩爾線程股票價值約96.39億元。需要指出的是,摩爾線程核心高層及技術人員所持股份目前僅體現為帳面財富,實際變現仍受嚴格限制。根據《上海證券交易所科創板股票上市規則(2025年4月修訂)》,若發行人無控股股東或實際控制人,則相關股東需承諾所持首發前股份自公司上市之日起36個月內不得轉讓。這意味著,即便公司市值高企,創辦人及主要股東在三年內也無法通過減持套現。張建中在招股書中也對減持股票定了嚴格且長期的「軍令狀」。除了老股(上市前就有的股份)先自動鎖定3年外,張建中還將所持股票鎖定期和公司盈利直接掛鉤,比如,若摩爾線程 2027 年仍尚未盈利或者上市當年的利潤比上市前跌超50%,股票鎖定期在原有基礎上再加12個月等。幻方量化、九坤投資等量化機構也賺了在這場資本盛宴中,量化機構無疑是投資的主力之一,如幻方量化、九坤投資、靈均投資、衍復投資等。根據私募排網統計顯示,113家私募的2019只產品獲配了摩爾線程的網下申購,合計獲配50.17萬股,合計獲配金額為5734.10萬元,其中百億級私募高達49家,50-100億私募20億私募。其中,獲配金額位居前三的量化機構分別是:寧波幻方量化合計獲配6.13萬股,上海衍復投資獲配6.004萬股,九坤投資獲配約3.97萬股,獲配金額分別為約700.59萬元、686.17萬元、453.65萬元。在已經「上車」的量化機構裡,寧波幻方量化備受關注。根據天眼查資料顯示,幻方量化主要包括浙江九章資產管理有限公司和寧波幻方量化投資管理合夥(有限合夥)兩部分。兩家都在基金協會備案,實控人都是梁文鋒。其中,梁文鋒持有九章資產85%的股份,持有寧波幻方量化76.2684%的股份。2025年開年來,梁文鋒以DeepSeek驚豔全球科技圈。幻方量化也是最早探討用機器學習取代傳統量化策略的量化機構之一。根據幻方官網資訊顯示,2016 年10月21日,幻方第一個由深度學習演算法模型產生的股票部位上線實盤交易,使用GPU進行計算。在此之前,演算法主要依靠線性模型和傳統機器學習演算法,模型計算主要依賴CPU。若以600元/股計算,上市首日,寧波幻方量化帳上資金可賺超2800萬元。在策略配售方面,摩爾線程共引進10家策略投資者,包括中信證券投資有限公司、天翼資本控股有限公司、深圳三快網路科技有限公司(美糰子公司)、中國保險投資基金(有限合夥)等,合計投資金額達15.9992億元。其中,中國保險投資基金(有限合夥)獲配437.52萬股,金額達4.999億元,為本輪最大策略投資方。上述策略投資者的股份限售期為12至24個月。 (深網騰訊新聞)
DeepSeek梁文鋒身家115億美元,財富創造的範式已變!
AI重塑財富格局,創新驅動經濟轉型。2025年福布斯中國內地富豪榜的發佈,不僅是一份財富的計量單,更是一幅中國經濟在時代浪潮中轉型與蛻變的生動縮影。今年榜單上1.35兆美元的總財富,較去年激增31%,以及富豪們座次的劇烈更迭,無不清晰指向兩大核心驅動力:以人工智慧為代表的科技創新浪潮正以前所未有的力量重塑商業版圖與財富分配,而中國經濟的結構性轉型升級也在深層次地影響著企業家的命運沉浮。一、AI熱潮:財富增長的新引擎與“中國芯”的崛起本次榜單最引人注目的特徵,無疑是人工智慧作為核心引擎,催生了新一輪的財富創造與集中。首先,AI賦能與資本市場共振,推高頂級富豪身家。 報告開篇即指出,內地股市的上漲得益於AI熱潮和中美貿易摩擦的緩解。滬深300指數15%的漲幅,為富豪們的身家上漲提供了宏大的市場背景。鐘睒睒財富增長263億美元,固然有消費品基本面的支撐,但也離不開資本市場在AI樂觀情緒帶動下的整體估值提升。更重要的是,騰訊馬化騰財富增長超三分之一,直接得益於公司“持續佈局人工智慧領域”,以及由此帶來的股價超過40%的上漲。這表明,即便是傳統網際網路巨頭,也必須且已經將AI作為核心戰略,才能獲得資本市場的持續青睞。AI已不再是遙遠的概念,而是能夠直接、迅速轉化為市值和財富價值的關鍵要素。其次,AI硬科技“國家隊”嶄露頭角,標誌產業深化。寒武紀董事長陳天石身家增長近兩倍至210億美元,其公司被譽為“中國輝達”,並實現了IPO以來的首次半年度盈利。這一案例具有里程碑意義。它表明中國的AI財富效應已從應用層(如網際網路平台)深入至基礎設施層——晶片。陳天石的財富暴漲,不僅源於市場對AI算力的渴求,更源於其在核心技術領域取得突破並實現盈利所帶來的稀缺性溢價。這標誌著中國在AI產業鏈的硬核環節開始誕生世界級的富豪,是科技創新驅動財富積累進入深水區的訊號。最後,AI新貴橫空出世,揭示未來產業方向。最具象徵意義的是深度求索(DeepSeek)創始人梁文鋒,作為新上榜者即以115億美元身家高居第34位。其公司憑藉“高性價比人工智慧模型”迅速登上全球舞台,並帶動了整個中國科技股類股的上揚。梁文鋒的入選,是純粹由AI原生技術創新催生超級富豪的典範。它向市場宣告,在大型語言模型等AI基礎模型領域,中國初創企業仍有快速崛起、顛覆格局的機會。同時,資料中心營運商潤澤科技周超男的首次上榜,進一步印證了AI繁榮對底層算力設施的巨大需求,揭示了AI產業鏈各環節都蘊藏著巨大的財富機遇。二、經濟轉型升級:潮水方向與失落者的啟示富豪榜如同一面鏡子,也映照出中國經濟轉型的陣痛與方向。財富的流向,清晰地指示了國家經濟的戰略重點和消費市場的變遷。一方面,消費升級與“智”造轉型並進。 泡泡瑪特創始人王寧成為身家漲幅百分比最大的成員,財富增長逾三倍。其旗下Labubu玩偶的火爆全球,絕非簡單的玩具暢銷,而是中國消費市場走向個性化、情感化、IP化的縮影,是“中國製造”向“中國創造”和“中國品牌”轉型的成功案例。同時,科沃斯錢東奇重返榜單,得益於其家電產品銷量增長及淨利潤激增超60%。這背後是智能家居需求的爆發,是傳統製造業與AI、物聯網技術深度融合,提升產品價值與市場競爭力的結果。這些案例表明,能夠敏銳捕捉並引領新消費趨勢,以及用智能化改造傳統產業的企業家,正站在時代的風口。另一方面,舊模式的式微與激烈競爭下的淘汰。榜單的失落者同樣揭示了經濟轉型的殘酷性。前首富王健林的跌出榜單,是其背後房地產行業在“房住不炒”定調下持續出清、流動性緊張的直觀體現。房地產作為曾經最主要的造富引擎,其動力正在衰減,標誌著中國經濟正在擺脫對土地財政和過度金融化的依賴,轉向更可持續的科技與消費驅動。此外,美團王興成為身家縮水幅度最大的富豪,直接原因是“阿里巴巴、京東加入競爭”導致盈利能力承壓。這既反映了平台經濟領域競爭的白熱化,也暗示了在流量紅利見頂後,單純依靠規模和市場份額的舊網際網路模式面臨挑戰,迫使企業必須尋找新的增長曲線,如騰訊般向AI等深處紮根。三、洞見與展望:創新引領未來的財富新紀元2025年的福布斯中國內地富豪榜,傳遞出幾個至關重要的洞見:財富創造的範式已變。過去由房地產、傳統基建和初級網際網路模式主導的財富積累方式,正在迅速讓位於以人工智慧、硬核科技、尖端製造和新興消費為代表的新範式。科技創新成為財富增長最強勁的催化劑。“自主可控”成為財富新密碼。從寒武紀的晶片到深度求索的基礎模型,再到抖音(TikTok)在複雜國際環境中的策略性突圍,擁有核心技術、能夠保障產業鏈供應鏈安全並參與全球競爭的企業,其創始人正獲得前所未有的價值重估。中國經濟轉型進入關鍵期。富豪榜的結構性變化,是中國經濟從高速增長轉向高品質發展、從要素驅動轉向創新驅動的外在表現。國家政策的引導、市場資本的流向與企業家才能的結合,正共同推動資源向戰略性新興產業聚集。綜上所述,2025年福布斯中國內地富豪榜清晰地勾勒出一幅“AI引領、創新驅動、轉型深化”的財富新圖景。它告訴我們,中國的企業家群體正經歷一場深刻的洗牌,唯有擁抱科技創新、順應經濟轉型升級大潮,方能立於不敗之地。這份榜單不僅記錄了財富的變遷,更預示著一個國家產業升級和未來競爭力的方向。 (一波說商業實驗室)
DeepSeek登上Nature封面!梁文鋒帶隊回應質疑,R1訓練真29.4萬美金
DeepSeek榮登Nature封面,實至名歸!今年1月,梁文鋒帶隊R1新作,開創了AI推理新範式——純粹RL就能激發LLM無限推理能力。Nature還特發一篇評論文章,對其大加讚賞。剛剛,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發佈,如今成功登上全球頂刊封面。通訊作者梁文鋒帶隊,用RL為大模型推理能力開闢了全新路徑。論文地址:https://www.nature.com/articles/s41586-025-09422-z在封面推薦中,Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。開源之後,R1在Hugging Face成為最受歡迎的模型,下載量破1090萬次。關鍵是,它是全球首個經過同行評審的主流大模型。值得一的是,補充材料首次公開了R1訓練成本——294000美元,數字低到驚人。即便是加上約600萬美元的基礎模型成本,也遠低於OpenAI、Google訓練AI的成本。從一篇arXiv論文到Nature封面,DeepSeek團隊再次用實力為AI推理的未來鋪路。R1被認為是首個經歷同行評審過程的主流LLM。審稿人Lewis Tunstall表示:這是一個非常值得歡迎的先例。若不公開分享大部分研發過程,我們將難以評估這些系統是否存在風險。針對同行評審意見,DeepSeek減少了擬人化描述,並增加了技術細節說明,包括模型訓練資料類型和安全性能。審稿人Huan Sun表示:通過嚴格同行評審過程,有助於驗證模型的有效性和實用性,其他公司也應效仿。DeepSeek-R1-Zero誕生研究團隊的出發點大膽而純粹:徹底拋開對人類推理軌跡的依賴。人類定義的推理模式,可能反而是一種束縛。他們選擇了一個強大的基礎模型DeepSeek-V3 Base,跳過了傳統的SFT階段。取而代之的,是一個極其簡潔的強化學習框架,只告訴模型兩件事:1. 任務格式:回答必須包含兩部分,一個是被<think>標籤包裹的「思考過程」,另一個是被<answer>標籤包裹的「最終答案」。2. 獎勵訊號:根據最終答案是否正確來給予獎勵,不管採用什麼樣的思考方法。在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1-Zero開始了它的「野蠻生長」。在整個訓練過程中,R1-Zero的推理能力發生了質的飛躍。以AIME 2024為例,它的平均解題精準率(pass@1)從最初的15.6%,一路狂飆至77.9%。如果再配合「自洽解碼」技術,精準率更是高達86.7%——這一成績遠超AIME競賽中所有人類選手的平均水平。AI「頓悟時刻」更令人著迷的,是它在能力提升過程中展現出的自我進化行為。「思考時間」自主增加隨著訓練的進行,模型在<think>標籤內生成的文字長度穩步增加。它自發地學會了用更長的「思維鏈」來探索和最佳化解題策略,有時甚至會生成成百上千個token來反覆推敲一個問題。高級推理策略的湧現模型不再是線性地一步步解題,而是開始展現出「自我反思」和「系統性探索替代解法」等高級策略。它會驗證自己的中間步驟,甚至會主動探索「如果我用另一種方法會怎麼樣?」一個有趣「頓悟時刻」在訓練的某個階段,研究人員觀察到了一個清晰的「頓悟時刻」(Aha Moment)。也就是,模型在反思過程中,使用「wait」(等等)這個詞的頻率突然急劇增加。這一時刻,標誌著DeepSeek-R1-Zero在推理模式上發生了明顯轉變,清晰地揭示了它的自我進化過程。而這種進化,也完美詮釋了強化學習的魅力:不必教它如何解題,只需提供正確的激勵,它就能自主地發展出比人類教的更高級的策略。DeepSeek-R1之路儘管DeepSeek-R1-Zero展現了神級的推理能力,但由於其訓練完全以推理為導向,它存在可讀性差、偶爾會在中英文之間混亂切換的問題,並且在寫作、開放域問答等通用能力上表現平平。為瞭解決R1-Zero的問題,並讓其強大的推理能力能被更廣泛地應用,研究團隊設計了一套精密的多階段訓練流程,並啟動了第二階段的「精煉」計畫:1. 冷啟動(Cold Start):首先,用數千條高品質的、符合人類對話習慣的資料對模型進行初步微調,教它「好好說話」。2. 第一輪強化學習(RL):再次應用強化學習,但這次的目標不僅是提升推理,也包括保持語言的一致性和對話的流暢性。3. 大規模監督微調(SFT):團隊將推理資料與海量的非推理資料(如寫作、通用問答、程式碼工程)混合在一起,進行大規模的監督微調。這極大地擴展了模型的知識面和通用能力。4. 第二輪強化學習(RL):最後,再進行一輪全面的強化學習,利用一個更複雜的獎勵模型,進一步增強模型的有用性、無害性,並使其行為與人類偏好對齊。經過多輪煉丹,DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和使用者偏好的基準上,性能提升了17%-25%,而且還在數學、程式設計等高難度推理任務上保持了頂尖水準。揭秘DeepSeek-R1「煉丹爐」接下來,就讓我們深入這個「煉丹爐」的內部,一探究竟。GRPO演算法在AI訓練的賽道上,強化學習演算法PPO(近端策略最佳化)長期以來都是大語言模型訓練的「標配賽車」。它雖然強大,但也以資源消耗巨大和實現複雜而著稱。DeepSeek團隊選擇了一條更聰明的路,他們採用了GRPO(組相對策略最佳化)演算法作為核心驅動引擎。PPO就像一位極其謹慎的教練,它在每次訓練更新時,都會嚴格限制新策略與舊策略的偏離程度,以防模型「跑偏」導致訓練崩潰。這種謹慎是有代價的,它需要大量的計算來維持穩定。而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是:在每次訓練時,讓模型針對同一個問題,生成一組(比如16個)不同的答案。然後,它不只是簡單地獎勵最好的那個,而是根據這一組答案的「相對好壞」,來整體最佳化模型。具體來說,它會計算出每個答案相對於這一組答案平均水平的「優勢」(Advantage),優勢大的(即表現更好的)答案會得到更大的激勵權重,而表現差的則會被抑制。這種「組內競爭、擇優而學」的機制,簡化了PPO複雜的約束過程,不僅顯著降低了資源消耗,還被證明在實踐中同樣穩定高效。獎勵設計強化學習的本質,就是通過獎勵(Reward)來塑造模型的行為。它決定了模型將朝著那個方向進化。為此,DeepSeek團隊設計了一套雙軌制的獎勵系統。1. 基於規則的獎勵對於推理任務(數學、程式設計、邏輯),團隊採用了一套極其嚴格的基於規則的獎勵系統。精準率獎勵:最終答案對不對?對於數學題,答案必須和標準答案完全一致;對於程式設計題,程式碼必須通過所有預設的測試用例。格式獎勵:思考過程是否符合規範?所有的思考過程都必須封裝在<think>和</think>標籤內。這裡,有一個關鍵的決定:在推理任務上,完全不使用基於神經網路的獎勵模型。因為團隊發現,AI在長時間、大規模的強化學習中,會找到獎勵模型本身的漏洞並加以利用,即所謂的「獎勵投機(Reward Hacking)」。2. 基於模型的獎勵然而,世界並非非黑即白。對於通用任務比如寫作、對話,大多隻有好壞之分。於是,DeepSeek團隊引入了基於模型的獎勵,從而讓模型更符合人類的偏好。有用性獎勵模型:專門負責評判模型的回答對使用者是否有用、切題。它通過比較大量的「好答案」與「壞答案」對(由DeepSeek-V3生成並篩選)來學習人類的偏好。有趣的是,它只評估最終的摘要部分,而不去幹涉底層的推理過程,給予模型在思考上的充分自由。安全獎勵模型:負責檢查模型的全部輸出,包括思考過程,以識別和懲罰任何潛在的有害、偏見或危險內容。如此一來,模型在保持強大推理能力的同時,也學會了如何生成更有用、更安全、更符合人類習慣的內容。訓練細節DeepSeek的訓練並非一蹴而就,而是分為多個精心設計的階段,每個階段都有不同的側重點和巧妙的參數調整。最開始的訓練完全聚焦於數學、程式設計等推理任務,僅使用基於規則的獎勵。一個有趣的現象發生在訓練進行到第8,200步時:研究人員將模型處理的最大文字長度從32,768個Token猛增到65,536個Token。這一改變帶來了立竿見影的效果,模型的性能和回答長度都出現了「大幅躍升」。其他參數設定如下:學習率:3×10⁻⁶KL散度係數:0.001GRPO裁剪比率ϵ:10推理採樣溫度:1每個訓練步包含32個獨立問題,每步的批大小為512。每400步,用最新的策略模型替換參考模型。第一強化學習階段在這一階段,訓練資料變得更加多樣化。團隊遇到了一個意想不到的挑戰:模型的「思維鏈」(<think>標籤內的內容)中頻繁出現中英夾雜的「語言混合」現象。雖然這不一定影響最終答案的正確性,但極大地影響了可讀性。為瞭解決這個問題,他們創造性地引入了一個「語言一致性獎勵」:如果模型在處理中文問題時,思維鏈中中文詞彙的比例越高,獲得的獎勵就越多。儘管實驗表明,強行「矯正」語言會導致模型性能微乎其微的下降,但為了輸出結果更符合人類閱讀習慣,這個犧牲是值得的。第二強化學習階段在這一階段,研究人員結合了獎勵訊號和多樣化的提示詞分佈來訓練模型。推理資料使用基於規則的獎勵,通用資料則啟用基於模型的獎勵。獎勵可以公式化為:其中第二階段保留了第一階段的大部分參數,但將溫度降至0.7,以防因為係數過高造導致生成內容不連貫。此外,這裡還有一個關鍵操作:基於模型的獎勵(有用性和安全性)僅在最後400個訓練步中才被引入,從而避免獎勵投機的產生。挑戰與未來DeepSeek-R1的誕生,為AI發展帶來了深刻的啟示,也伴隨著新的挑戰。能力侷限在結構化輸出和工具使用(如呼叫計算器、搜尋引擎)方面,目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感,不適合複雜的少樣本提示,在零樣本直接提問時效果最佳。此外,由於強化學習在耗時長的軟體工程任務上效率不高,R1在該領域的提升有限。獎勵投機純強化學習的成功,完全依賴於可靠的獎勵訊號。在數學、程式設計這類有明確對錯答案的領域,這很容易實現。但對於像「寫一首優美的詩」這樣主觀的任務,則很難設計完美的獎勵模型。如果獎勵訊號本身有漏洞,策略模型就會像一個聰明的學生鑽考試規則的空子一樣,「投機取巧」、騙取高分,而不是真正提升能力。年初,DeepSeek-R1發佈後,OpenAI感覺不可思議,指責DeepSeek「可能使用了ChatGPT的輸出來訓練R1」。在與審稿人的交流中,DeepSeek表示,R1並非通過複製OpenAI模型生成的推理示例來學習。不過,與大多數其他大語言模型一樣,R1的基礎模型是在網路上訓練的,因此它會吸收網際網路上已有的AI生成的內容。俄亥俄州立大學AI研究員Huan Sun表示,這一解釋「與我們在任何出版物中看到的一樣令人信服」。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall補充說,其他實驗室的複製嘗試表明,DeepSeek推理方法已經足夠好,不需要這樣做。他說:「我認為現在的證據相當明確,僅使用強化學習就可以獲得非常高的性能。」Lewis Tunstall說,其他研究人員現在正試圖應用建立R1的方法來改進現有大語言模型的類似推理能力,並將其擴展到數學和編碼以外的領域。他補充說,通過這種方式,R1「開啟了一場革命」。 (新智元)
剛剛,梁文鋒發Nature了!
DeepSeek-R1開創歷史!首登《自然》封面,梁文鋒團隊正面回應蒸餾質疑、發佈詳盡安全報告。昨晚,DeepSeek再度開創歷史!智東西9月18日報導,9月17日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權威期刊《自然(Nature)》的封面。DeepSeek-R1論文首次公開了僅靠強化學習,就能激發大模型推理能力的重要研究成果,啟發全球AI研究者;這一模型還成為全球最受歡迎的開源推理模型,Hugging Face下載量超1090萬次。此番獲得《自然》的認證,可謂是實至名歸。與此同時,DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。《自然》在社論中高度評價道:幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白“終於被DeepSeek打破”。《自然》認為,在AI行業中,未經證實的說法和炒作已經“司空見慣”,而DeepSeek所做的一切,都是“邁向透明度和可重複性的可喜一步”。▲《自然》雜誌封面標題:自助——強化學習教會大模型自我改進發表在《自然》雜誌的新版DeepSeek-R1論文,與今年1月未經同行評審的初版有較大差異,披露了更多模型訓練的細節,並正面回應了模型發佈之初的蒸餾質疑。▲發表在《自然》雜誌的DeepSeek-R1論文在長達64頁的同行評審檔案中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的資料全部來自網際網路,雖然可能包含GPT-4生成的結果,但絕非有意而為之,更沒有專門的蒸餾環節。DeepSeek也在補充材料中提供了訓練過程中減輕資料污染的詳細流程,以證明模型並未在訓練資料中有意包含基準測試,從而提升模型表現。此外,DeepSeek對DeepSeek-R1的安全性進行了全面評估,證明其安全性領先同期發佈的前沿模型。《自然》雜誌認為,隨著AI技術日漸普及,大模型廠商們無法驗證的宣傳可能對社會帶來真實風險。依靠獨立研究人員進行的同行評審,是抑制AI行業過度炒作的一種有效方式。01.新版論文披露多個重要資訊R1安全性獲全面評估在瞭解新版論文的變化前,我們有必要先回顧下DeepSeek-R1論文的核心內容。DeepSeek-R1的研究出發點,是當時困擾AI業內的一個重大問題。眾所周知,推理能提升大語言模型的能力,但讓模型在後訓練階段通過資料學習思維鏈軌跡,嚴重依賴人工標註,限制了可擴展性。DeepSeek嘗試通過強化學習,讓模型自我演化發展出推理能力。在DeepSeek-V3 Base的基礎上,DeepSeek使用GRPO作為強化學習框架,僅使用最終預測結果與真實答案的正確性作為獎勵訊號,未對推理過程施加限制,最終建構出DeepSeek-R1-Zero。DeepSeek-R1-Zero通過強化學習成功掌握了改進的推理策略,傾向於生成更長的回答,每個回答中包含驗證、反思和探索備選方案。▲DeepSeek-R1-Zero答題正確率隨著推理長度提升,模型訓練中總體回答長度也不斷提升DeepSeek在DeepSeek-R1-Zero的基礎上,採用多階段訓練結合RL、拒絕採樣和監督微調,開發出DeepSeek-R1,使模型既具備強推理能力,又能更好貼合人類偏好。此外,團隊還蒸餾出小型模型並公開發佈,為研究社區提供了可用資源,推動思維鏈推理模型的發展與應用。除了上述主要科研成果外,在最新版的論文和其他材料中,DeepSeek新增了不少補充資訊,讓外界更深入地瞭解到模型訓練和運作的細節。基準測試資料污染是一個極為敏感的問題——如果廠商在訓練時有意或無意包含了基準測試和相關答案,就很有可能導致模型在相關測試上的得分異常偏高,影響基準測試評分的公正性。DeepSeek透露,為了防止基準測試資料污染,其已對DeepSeek-R1的預訓練和後訓練資料都實施了全面的去污染措施。以數學領域為例,僅在預訓練資料中,DeepSeek的去污染流程就識別並刪除了約六百萬條潛在文字。在後訓練階段,數學相關的資料均來自2023年之前的競賽,並採用與預訓練相同的過濾策略,確保訓練資料與評測資料完全不重疊。這些措施保證了模型評測結果能夠真實反映其解決問題的能力,而非對測試資料的記憶。不過,DeepSeek也承認這種去污染方法無法完全防止對測試集的改寫,因此在2024年之前發佈的部分基準測試仍可能存在污染問題。DeepSeek還為DeepSeek-R1新增了一份全面的安全報告。報告提到,DeepSeek-R1在服務部署中引入了外部風險控制系統,不僅可以基於關鍵詞匹配識別不安全對話,還使用DeepSeek-V3直接進行風險審查,判斷是否應拒絕響應。DeepSeek建議開發者在使用DeepSeek-R1時,部署類似的風險控制系統。在公開安全基準測試和內部安全研究中,DeepSeek-R1在大多數基準上超過了Claude-3.7-Sonnet、GPT-4o等前沿模型。開源部署版本的安全性雖不及具備外部風險控制系統的版本,但仍擁有中等水平的安全保障。DeepSeek-R1發佈之初,曾有傳聞稱該模型使用了OpenAI的模型進行蒸餾,這也出現在審稿人的提問中。對此,DeepSeek做出了正面回應,稱DeepSeek-V3-Base的預訓練資料全部來源於網路,反映自然資料分佈,“可能包含由先進模型(如GPT-4)生成的內容”,但DeepSeek-V3-Base並沒有引入在合成資料集上進行大規模監督蒸餾的“冷卻”階段。DeepSeek-V3-Base的資料截止時間為2024年7月,當時尚未發佈任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。更重要的是,DeepSeek-R1論文的核心貢獻,也就是R1-Zero,不涉及從先進模型進行蒸餾。其強化學習(RL)元件是獨立訓練的,不依賴於GPT-4或其他類似能力模型的輸出或指導。02.R1論文開創大模型科研新範式《自然》盛讚其填補空白在社論中,《自然》詳細地分析了DeepSeek-R1經歷完整同行評審流程,並登上期刊的價值。大模型正在迅速改變人類獲取知識的方式,然而,目前最主流的大模型都沒有在研究期刊中經歷過獨立的同行評審,這是一個嚴重的空白。同行評審出版物有助於闡明大模型的工作原理,也有助於業內評估大模型的表現是否與廠商宣傳的一致。DeepSeek改變了這一現狀。DeepSeek在今年2月14日將DeepSeek-R1論文提交至《自然》,而直到7月17日才被接收,9月17日正式發佈。在這一過程中,有8位外部專家參與了同行評審,對這項工作的原創性、方法和魯棒性進行了評估。在最終發佈的版本中,審稿報告與作者回覆都被一併披露。智東西也深入研讀了DeepSeek-R1論文的審稿意見與作者回覆。這份檔案長達64頁,接近論文字身篇幅的3倍。▲DeepSeek同行評審材料封面8位審稿人共提出上百條具體意見,既包括對單詞單複數等細節的修改,也涵蓋對論文中將AI“擬人化”的警示,以及對資料污染和模型安全性問題的關注。例如,在下方修改意見中,審稿人敏銳地捕捉到了“將DeepSeek-R1-Zero開源”這一表述的模糊性,並提醒DeepSeek,“開源”這一概念的界定仍存爭議,在使用相關表述時需要格外注意。這位審稿人還要求DeepSeek在論文中附上SFT和RL資料的連結,而不僅僅是提供資料樣本。▲一位審稿人的部分修改意見DeepSeek認真回應了審稿人提出的每一個問題,前文提到的多個章節與補充資訊,正是在審稿人的建議下新增的。雖然DeepSeek也曾在今年1月發佈DeepSeek-R1的技術報告,但《自然》認為,此類技術文件與實際情況之間的差距可能很大。相比之下,在同行評審中,外部專家並不是被動接收資訊,而是能夠在獨立第三方(編輯)的主持和管理下,通過協作提出問題,並要求論文作者補充資訊。同行評審能夠提升論文的清晰度,並確保作者對其主張作出合理的論證。這一流程並不一定會對文章內容帶來重大修改,但卻能增強研究的可信度。對AI開發者而言,這意味著他們的工作會更為紮實,並更具說服力。03.結語:DeepSeek開源模式或成行業典範作為國產開源 AI 模型走向世界的代表,DeepSeek-R1在全球開源社區擁有極高的口碑。而在本次登上《自然》雜誌封面後,DeepSeek又補充了這一模型的更多資訊,為開源社區提供了科研參考、模型復現思路以及應用支援。《自然》雜誌呼籲更多的AI公司將其模型提交給同行進行評審,確保其聲明經過驗證和澄清。在這一背景下,DeepSeek的開源模式不僅展示了國產AI的技術實力,也有望成為全球AI行業在科研透明度方面的參考典範。 (智東西)