#R1
輝達開源最新VLA,能否破局L4自動駕駛?
隨著大模型深度融入汽車行業,行業競爭正從功能實現轉向高階智駕能力的比拚,而VLA(Vision-Language-Action Model,視覺語言行動模型)被視為下一代技術競爭的關鍵變數。圖片由AI生成當地時間12月1日,輝達(NVIDIA)宣佈正式開源其最新自動駕駛“視覺—語言—行動”(VLA)模型 Alpamayo-R1,該模型能夠同時處理車輛攝影機畫面、文字指令,並輸出行車決策,已在GitHub和Hugging Face平台開源,並同步推出Cosmos Cookbook開發資源包。這是行業內首個專注自動駕駛領域的開源VLA模型,輝達此舉旨在為L4級自動駕駛落地提供核心技術支撐。值得注意的是,輝達Alpamayo-R1相較於傳統黑盒式自動駕駛演算法,主打“可解釋性”,能夠給出自身決策的理由,有助於安全驗證、法規審查與事故責任判定。而輝達同時發佈“Cosmos Cookbook”等配套工具,能夠支援企業和開發者快速訓練、評估與部署。業內認為,輝達試圖通過開放核心技術,降低自動駕駛開發門檻,加速軟體棧標準化,打破原來Robotaxi昂貴的“全端自研”模式,從而轉變為可快速組裝的“Android式”生態。不過也有業內人士向筆者表示,此次輝達Alpamayo-R1開源與百度Apollo開源類似,對自動駕駛領域的入門選手來說有價值,但對專業公司來說意義不大。目前,VLA正成為智能駕駛領域公認的下一代核心技術,相關企業都在加碼佈局。國內理想汽車、小鵬汽車、長城汽車(已搭載於魏牌藍山)、元戎啟行等都已在VLA上實現量產落地。解決傳統“端到端”模型痛點傳統的端到端模型像一個“黑盒”,可能“看得見但看不懂”,在面對違規左轉、行人闖入等長尾場景時容易“翻車”。而相較於傳統“端到端”模型,VLA通過引入語言模態作為中間層,將視覺感知轉化為可解釋的邏輯鏈,從而具備了處理長尾場景和複雜突發狀況的潛力,讓機器像人類一樣“觀察、推理、決策”,而不僅僅是海量資料的簡單對應。自動駕駛領域的VLA(視覺-語言-動作)大模型,代表了將視覺感知、語言理解與決策控制深度融合的技術方向。它能直接輸出車輛的駕駛動作,其核心好處是,讓機器有了更強的環境理解與推理能力、更高效的一體化決策、更強大的長尾場景應對、更透明的人機互動與信任建構、更自然的車控方式等。此次輝達開放原始碼的VLA模型Alpamayo-R1,基於全新的 “因果鏈”(Chain of Causation, CoC) 資料集訓練。每一段駕駛資料不僅標註了車輛“做了什麼”,更註明了“為什麼這樣做”。例如,“減速並左變道,是因為前方有助動車等紅燈,且左側車道空閒”。這意味著模型學會的是基於因果關係的推理,而非對固定模式的死記硬背。同時,基於模組化VLA架構,輝達Alpamayo-R1將面向物理人工智慧應用預訓練的視覺語言模型Cosmos-Reason,與基於擴散模型的軌跡解碼器相結合,可即時生成動態可行的規劃方案;以及多階段訓練策略,先通過監督微調激發推理能力,再利用強化學習(RL)最佳化推理質量——借助大型推理模型的反饋,並確保推理與動作的一致性。輝達公佈的資料顯示:Alpamayo-R1在複雜場景下的軌跡規劃性能提升了12%,近距離碰撞率減少25%,推理質量提升 45%,推理-動作一致性增強37%。模型參數從0.5B擴展至7B的過程中,性能持續改善。車載道路測試驗證了其即時性表現(延遲99毫秒)及城市場景部署的可行性。也因此,輝達Alpamayo-R1有望給L4自動駕駛帶來能力的躍遷,Robotaxi有望安全地融入真實、混亂的公開道路。成為自動駕駛賽道的“Android”從這次開源Alpamayo-R1,可以再次看出輝達在自動駕駛領域的野心,已經不滿足於只是“硬體供應商”,而是要做成自動駕駛賽道的“Android”。其實,早在今年10月份,輝達就對外低調發佈了Alpamayo-R1大模型。而在華盛頓GTC大會上,輝達發佈了自動駕駛平台——NVIDIA DRIVE AGX Hyperion 10。Hyperion 10被認為是輝達自動駕駛的“身體”,而Alpamayo-R1則是自動駕駛的大腦。值得注意的是,Hyperion 10實現了“從模擬到實車”的閉環:在雲端,DGX超級電腦使用DRIVE Sim生成高保真模擬資料,用於訓練DRIVE AV模型;在車端,Hyperion 10的感測器資料與Thor晶片無縫對接。因此,如果一家車企想快速推出具備L4級能力的車型,不需要再分別組建龐大的硬體整合、軟體演算法和資料訓練團隊,採用輝達的整套方案可以快速實現上車。同時,輝達也在建構一個“Android式”的Robotaxi生態,並對外公佈了明確的落地時間表:2027年起部署10萬輛Robotaxi。目前,輝達已宣佈與Uber、奔馳、Stellantis、Lucid等公司合作,共同打造“全球最大L4級自動駕駛車隊”。截至2025年10月,輝達的雲端平台已積累超過500萬小時的真實道路資料。輝達的入場,正在將Robotaxi的競爭從單一的技術比拚,引向生態模式的對決。封閉模式除了導致重複的研發投入,更深刻的弊端是形成了“資料孤島”。Waymo的美國道路經驗難以惠及中國車企,每個玩家都在獨立而緩慢地跨越技術曲線。輝達的開放生態,有機會在確保資料隱私和安全的前提下,推動生態內玩家共享經過匿名化處理的特徵資料。例如,A車企在特定路口遇到的極端場景資料,可以轉化為脫敏後的訓練特徵,幫助B車企的模型更快地識別類似風險。如果輝達能夠成為自動駕駛領域的“Android”,將有望帶動整個生態的技術迭代速度從線性轉變為指數級提升。這不僅是技術共享,更是成本共擔。共同應對長尾場景這一行業最大難題的邊際成本,將隨著生態的擴大而持續降低。元戎啟行CEO周光預測,VLA帶來的可能是 “斷層式的領先”,並成為下一代競爭的關鍵變數。DeepWay深向CTO田山告訴筆者,VLA是目前自動駕駛行業非常火的一項技術,研究者眾多,能極好地提高自動駕駛模型的泛化能力及推理能力,輝達開源Alpamayo-R1,使得這項很火且很有前途的自動駕駛技術有更多的人可以參與研究並做出貢獻,能積極推進VLA技術的發展和落地,而這項技術也能應用在具身智能等物理AI的場景中。隱形門檻仍在前方不過,Alpamayo-R1目前要滿足車規級時延,還需要在RTX A6000 ProBlackwell等級的卡上運行——這張卡的INT8算力高達4000T,是Thor的6倍左右。輝達的商業模式決定了,其開源是為了更好地銷售其硬體和全端解決方案。Alpamayo-R1模型與輝達的晶片(如Thor)及開發平台(如Drive)深度繫結,能實現更高的算力利用率。這意味著,選擇輝達生態在獲得便利的同時,也意味著在核心算力上與其深度繫結。另外,DeepWay深向CTO田山向筆者指出,VLA是不是最佳的自動駕駛技術,目前還在實踐過程中,而Alpamayo-R1模型工具鏈基於輝達的平台,對很多開發者來說也是一種限制,所以也有很多其他的技術和其他的計算平台在推進自動駕駛技術發展。在田山看來,多數公司應該更聚焦技術落地,也就是技術的工程化實現,解決實際場景的問題,早日實現智駕技術的商業化閉環更有益於行業的長久健康發展。此外,L4自動駕駛的落地或者說Robotaxi的規模化商業化,還與政策與法規息息相關。同時,如何在合規框架內營運、如何通過安全評估、如何在資料利用與隱私保護間取得平衡,這些能力的重要性,並不亞於技術本身。輝達的黃仁勳一直將Robotaxi視為“機器人技術的首個商業化應用”,輝達一直要做的不是一輛無人計程車,而是讓所有玩家都能做出無人計程車的技術底座。如今,他正試圖通過開源VLA,為這個應用打造一條可以快速複製的生產線。但最終能否通過開源降低准入門檻,加速推動L4自動駕駛到來,讓技術的潮水湧向更廣闊的商業海岸,輝達Alpamayo-R1模型的開源,只是遊戲的開始,後面還有門檻要邁,還需要市場來驗證。 (鈦媒體AGI)
揭秘楊植麟,技術理想主義的孤島還是燈塔
很多個“楊植麟”,組成了月之暗面。圖片來源|視覺中國“在月之暗面(以下簡稱‘月暗’),天才也是分三六九等的。”月暗前員工宋凱對《中國企業家》說。用公司的說法是,“Kimi無閒人”。宋凱將月暗的文化概括為“和諧的暴躁”,技術大佬之間溝通直率,也充滿壓力。他們“坦白、激烈、高效”,會當面批評同事,也會把建議無情斃掉。交鋒中,“你這個傻X”照樣會從天才的嘴裡冒出來。十幾分鐘後,一切又能像沒發生過。但他認為在月暗“別人‘噴’你,都是有理由的”。令人厭惡的“摘桃子”現象不可能出現。這裡人效比極高,“大廠裡三五十人團隊干的事,在Kimi可能就兩個人做”。雖然大模型公司往往天才“扎堆”,但月暗仍有獨樹一幟的氣質。“(他們)文化更統一、人員更精簡、追求更純粹。”一位接近月暗的投資人對《中國企業家》說。2024年底,楊植麟曾因Kimi的激進投流以及與投資人朱嘯虎的官司,被推到風口浪尖。2025年初,月暗的新模型又被DeepSeek-R1打亂了發佈節奏。上半年,月暗一度淡出公眾視野,Kimi的C端月活也不斷下滑。據QuestMobile資料,截至2025年9月,豆包MAU突破1.72億,DeepSeek為1.45億,Kimi的MAU僅為967萬。但到7月,Kimi-K2模型的推出,讓人們重新見到了楊植麟的技術底牌。K2在編碼、Agent、數學推理任務均表現驚豔,更在各類基準性能測試上拿下SOTA成績。9月開始直到11月,Kimi又相繼發佈Agent模式“OK Computer”;混合線性注意力架構Kimi Linear;月暗的首個推理模型K2 Thinking——這些產品因各自的技術原創性,獲得了業內好評。美國知名企業家、矽谷投資人查馬斯表示,已將大量工作從Grok遷到Kimi K2。美國《自然》雜誌用“又一個DeepSeek時刻”來形容K2的表現。月暗絕地反攻如何完成?上半年,“大模型六小虎”的核心團隊發生不同程度的動盪,但月暗的聯創與技術梯隊整體穩定。雖然叫停投流,選擇在“模型即產品”上孤注一擲,讓月暗增加了商業化未知數;但在投資人眼中,楊植麟對AGI的偏執,仍讓其成為被追逐的標的。近日媒體獲悉,月之暗面正在進行新一輪融資,規模大約在6億美元,投前估值約38億美元。前述投資人對《中國企業家》證實了月暗新融資“即將關閉”的說法。“他們去年從阿里拿到了很多現金,但在算力、人才消耗上,每年的花費還在10億~20億元等級。”“全球現在可以提供底座能力的廠商越來越少,大家都在收斂,技術寡頭會更有機會贏得超額利潤的未來。團隊有技術理想主義,對衝擊AGI更加堅定。雖然他們有過商業化的波折,仍然是很稀缺的資產。”01 聚焦絕對性能回頭看,DeepSeek-R1的上線,既給月暗帶去了壓力,也是其重新聚焦技術長板的分水嶺——R1上線前,Kimi還沉浸在投流大法中。據《中國企業家》瞭解,Kimi的投流由張予彤主導,員工將她形容為精力極其旺盛,好像“永動機”。2024年10月、11月,Kimi的月均廣告投放金額超過2億元。彼時抖音已開始全力扶植豆包,向Kimi封鎖管道。Kimi只好猛攻B站,把CPA(使用者轉化人均成本)報價從年初的30元拉到了50元。“那時網際網路流量越來越貴,Kimi有趁著品牌紅利期,佔領先發優勢的考慮。”前述投資人對月暗去年的商業化衝刺表示理解。但DeepSeek-R1未用任何行銷,便成為國民應用的表現,讓楊植麟警醒。2025年2月中旬,他親自叫停投放,將目光聚焦於基礎演算法和模型能力的升級與突破。本來Kimi-K2計畫在2025年上半年發佈,路線也跟DeepSeek的強化學習一致,但被R1意外“截胡”後,楊植麟將模型最佳化目標更多對準了Agentic能力。經過近半年攻堅,月暗用連續發佈一系列模型和突破技術,重回大模型牌桌。2025年7月11日,月暗發佈Kimi-K2“超大架構”模型,參數高達1T。目前,全球有實力研發1T參數的大模型公司屈指可數:除了海外的OpenAI、Google,僅有阿里的Qwen3-Max、螞蟻集團發佈的百靈大模型Ling-1T,達到了兆參數。9月底,月暗灰度測試Kimi的Agent模式“OK Computer”。10月31日,月暗開源混合線性注意力架構Kimi Linear。依靠在混合線性注意力上的重要突破,該架構對算力成本實現了極大程度的降低,並能在短上下文、長上下文、強化學習擴展機制等場景中,超越同梯隊全注意力機制模型的表現。簡而言之,能讓使用者“花小錢,辦大事”。曾在混合線性注意力這條路上試水的公司不止月暗。MiniMax的M1模型、通義千問都曾在這條路線上摸索。參與月暗技術論文創作的MIT在讀博士楊松琳在採訪中表示:MiniMax的M2模型或由於對“多跳推理”的測試不足,又退回了全注意力機制。而月暗完成了突破,核心在於對線性注意力模組Kimi Delta Attention(KDA)的設計,在每3層KDA中,插入1層全注意力層;並通過更細粒度的門控機制,更有效地利用了有限狀態下的RNN(循環神經網路)記憶體。從而確保性能不掉點的情況下,最大程度節省算力。相比月暗,DeepSeek採用的是“稀疏注意力機制”。近期,DeepSeek也為行業提供了一種新思路——OCR路線研究(純像素輸入模型),把文字渲染成圖片,用視覺模態當壓縮媒介。有趣的是,月暗的研究員對DeepSeek的設計不以為然。“我個人覺得有點太刻意了。我更傾向繼續在特徵空間(Feature Space)裡下功夫,去找到更通用,並且與具體模態無關(Modality-agnostic)的方法,來提升模型效率。”11月11日,月之暗面聯合創始人吳育昕在社交媒體平台Reddit的有問必答(AMA)活動上,如此評價DeepSeek。11月6日,月暗又發佈了K2系列的首個推理模型Thinking。相比於海外OpenAI動輒數千萬美元的投入,該模型訓練成本據傳僅為460萬美元。在技術層面,Kimi K2 Thinking最引人注目的是在後訓練階段加入了“量化感知”,對MoE元件應用進行INT4權重量化,而非大多數產品使用的FP4精度。這一技術創新除了提升生成速度之外,對推理硬體的相容性更強,對輝達低端GPU和國產加速計算晶片,也更加友好。雖然對460萬美元這個數字,楊植麟和兩位聯合創始人都下場闢謠:訓練成本很難量化,其中很大一部分用於研究和實驗。但INT4的創新帶來的成本最佳化,是顯而易見的。月暗表示:該模型是在有限數量的H800 GPU上訓練而來,他們“把每一張卡都利用到了極致”。“最近日本客戶對月暗的產品關注和美譽度很高。他們的技術一直維持在高水平,且持續發佈,價格又足夠便宜,已經形成了很好的品牌調性。”前述投資人說。02 i人公司、i人模型蟄伏半年,月暗為何可以衝出重圍?這由模型行業的人才特性決定。“這是個高精尖科技領域,堆人是沒有用的。沒有一個天才帶隊,來多少高級人才都沒用。”今年6月,Meta在矽谷開出了“1億美元”年薪,瘋狂挖角OpenAI的員工。但短短幾個月,被挖走的人又紛紛離開Meta,讓挖角變成了一場鬧劇。“Meta超級智能實驗室號稱有3000人,但多數都是做輔助工作。核心團隊就44個人,真正能主導技術路線的,應該只有幾個人。”一位大模型投資人對《中國企業家》談道。與網際網路、電商等不同,人工智慧的高級人才不會單純被“鈔能力”打動。越頂尖的專家,越需要願景和志同道合的團隊。這也讓科技領袖的學術號召力、師門傳承,在模型公司的人才招攬中變得格外重要。對月暗來說,最寶貴的資產便是楊植麟本人。他畢業於清華大學電腦系,獲得卡內基梅隆大學電腦博士學位,師從蘋果公司現任AI負責人Ruslan Salakhutdinov。在清華大學求學期間,楊植麟便是一位學術風雲人物,拿遍了國內外各類獎項。他後來也曾在清華任職講師,“楊(植麟)老師的《自然語言處理(NLP)》課在學生中很有名。”一位清華姚班的畢業生告訴《中國企業家》。學術成績之外,楊植麟對AGI的追求,也被視為“追求技術理想”的代表。“他非常有號召力,如果覺得清華某個實驗室的研究課題好,會把實驗室‘連鍋端’到月暗。”宋凱說。天才的聚集,讓月暗保持著簡潔、高效的組織文化。“大家開會前先把文件對齊,每人只說幾句話,大家就散了。”當然,簡潔也因為大模型創業容不得“摸魚”。“除了演算法之外,底層基座、前後期資料的每一個環節,如果誰掉了鏈子,會很明確地感覺出來,一個人就可以拉崩整條供應鏈。”“有些模型創業公司除了技術文化,已經開始有商業化、增長,乃至官僚的幾種文化混雜,但月暗的文化還是比較純粹。”前述投資人說。這也讓月暗對於員工和技術“大神”,有相當的容忍度。例如,Kimi的關鍵人物之一蘇劍林,在內部被稱為“蘇神”。他提出的RoPE(旋轉位置編碼),以簡潔的數學形式解決了Transformer在處理長序列時的位置資訊問題,既保持了計算效率,又實現了更好的外推能力,如今已是絕大多數大語言模型的標配技術之一。因此,“蘇神”也是月暗裡唯一可以居家辦公的員工。考慮到研發人員多為“i人”,月暗還專門設計了一個點菜機器人。員工們將周圍的外賣分類到“難吃”“一般”“可以吃”“好吃”等,由機器人幫員工決定中午吃什麼。月暗文化的特別之處還在於,楊植麟並不是個“書呆子”。他在清華讀書期間,便和聯合創始人、演算法負責人周昕宇一起組過搖滾樂隊。如今月暗的會議室,也以各種知名樂隊命名。創始人的趣味投射到產品中,也讓Kimi與市場的效率產品相比,更具極客和文藝的風味。科技博主“海拉魯程式設計客”認為,K2的產品頁面設計極簡,“國內大模型廠商開始在頁面加入推薦產品,但K2仍然克制。”對於競爭對手,月暗有其獨立的價值觀判斷。海拉魯談到月之暗面的相關職位描述,面試問題之一是:“請說出Claude Code為什麼不如OpenAI的Codex。”當多數技術人員更推崇Claude Code的極致效應時,月暗的觀點與海拉魯的判斷一樣:“在程式設計能力上,Claude是一個很懂技術的產品經理,但Codex是一個真正的軟體工程師。”有使用者表示,K2在輸出答案時“絕不諂媚”的特點讓他們覺得有趣。“問K2 Thinking我帥還是吳彥祖帥?”K2 Thinking會有理有據地,將“為何吳彥祖帥”的推理過程展示出來。這種不拍馬屁的人格,是月暗團隊刻意設計。為此,團隊在預訓練階段編碼了先驗知識(Priors),又在後訓練(Post-training)階段為其增添了獨特的“風味”(Flavor)。為了確保K2的智能“上限”,月暗在大模型追求效率之時,也反其道行之。許多使用者反映:K2-Thinking思考很慢,有時比同類產品甚至要慢5~10倍。月暗對此解釋:目前版本優先確保性能和精準性,在推理階段更細緻、更耗時。“我們故意保留了更長的思考路徑,犧牲了些速度,是為了讓模型能真正完成複雜推理。”雖然未來,團隊有可能會最佳化“令牌效率”(token-efficiency),讓 Kimi “想得少一點,答得快一點”。03 商業化仍是難題“往山頂,我們又走了一段距離。”K2發佈後,楊植麟對著媒體回顧了他這一年的感受時總結道。2024年曾與月暗齊頭並進的“大模型六小虎”,MiniMax和階躍星辰抓緊多模態;智譜紮根本土,走to B/to G的路線;百川智能和零一萬物減少了基礎模型迭代,專注於場景落地。越來越多公司放棄了對基座模型的追求,行業不需要那麼多“基座”也成為共識。對手在減少、賽道在集中,競爭卻沒有變得更容易。攀登技術高峰的同時,更殘酷的商業化命題擺在眼前。如何活下去,楊植麟也在尋找答案。2024年月暗投流掀起軒然大波,也證明楊植麟並非不問世事的天真極客。2024年6月,月暗決定:要用巨量投入,快速獲得市場,佔領使用者心智。據《中國企業家》瞭解,彼時月暗覆蓋了大量管道,“管道商的資料也五花八門”。在瘋狂砸錢、衝刺資料的背景下,月暗在2024年9月前後,使用量明顯領先對手。同時,公司內部也爆發出了大規模的管道商欺詐事件。很多人給月暗送“假料”,讓楊植麟蒙受了巨額損失。到2024年12月,月暗一度準備啟動面向專業使用者的會員結合API呼叫的商業化計畫,與更優質的機構和個人合作。但彼時,朱嘯虎對月暗發起訴訟,將計畫打斷。今年2月,DeepSeek-R1上線後,讓月暗痛下決心,砍掉了“幾乎70%的投流”。楊植麟也從騰訊挖來了付強任技術副總裁,負責增長開發,“教團隊如何用系統、體系化方法做增長”。只保留最基礎的行銷後,月暗更聚焦在極客群體中的影響力。據悉,K2模型發佈時,月暗未如過去一般高頻直播,而是選擇更多在社區營運,讓技術研發團隊在即刻、知乎、小紅書上分享觀點。不過這些並不意味著,月暗破解了商業化難題。一方面,Kimi模型龐大,固然架構創新、技術最佳化可以降低部署成本,但客戶的儲存、傳輸成本仍然不低。另一方面,放棄投流後,Kimi的C端量級還在與大廠拉開距離。2025年9月,Kimi開啟了會員付費訂閱,將Kimi-reseahcher、OK Computer等能力打包分層,設定了49 元/月、99 元/月、199元/月三檔付費模式。但外界認為,Kimi按照請求次數來計費的方法顯得“性價比不高”。對此,月暗回應:這符合他們的後端成本結構,也表示將考慮改進(比如按提問或按字數計費)。與大廠纏鬥,畢竟是一場非對稱戰爭,“這是創業公司很難完成的事。”投資人士告訴《中國企業家》。智譜AI近半年完成了多輪融資,估值已達到400億元。MiniMax不久前也剛完成一筆3億美元融資,估值達到300億元。月暗融資後,是否將發起IPO計畫,楊植麟還有一些時間思考。當下,他的做法是,先用技術突破獲得資本市場認可,同時繼續向AGI行進。目前,月暗已經在思考用“模型訓模型”的可行性。8月,楊植麟在採訪中談到,希望K2能參與到K3的開發。而K3是否會突破語言大模型進入多模態?月暗給出的答案是:公司已在研究K2的VL(視覺-語言)版本。 (中國企業家雜誌)
DeepSeek登上Nature封面!梁文鋒帶隊回應質疑,R1訓練真29.4萬美金
DeepSeek榮登Nature封面,實至名歸!今年1月,梁文鋒帶隊R1新作,開創了AI推理新範式——純粹RL就能激發LLM無限推理能力。Nature還特發一篇評論文章,對其大加讚賞。剛剛,DeepSeek-R1登上了Nature封面!今年1月,DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning論文發佈,如今成功登上全球頂刊封面。通訊作者梁文鋒帶隊,用RL為大模型推理能力開闢了全新路徑。論文地址:https://www.nature.com/articles/s41586-025-09422-z在封面推薦中,Nature毫不吝嗇地讚揚了DeepSeek-R1的成就。開源之後,R1在Hugging Face成為最受歡迎的模型,下載量破1090萬次。關鍵是,它是全球首個經過同行評審的主流大模型。值得一的是,補充材料首次公開了R1訓練成本——294000美元,數字低到驚人。即便是加上約600萬美元的基礎模型成本,也遠低於OpenAI、Google訓練AI的成本。從一篇arXiv論文到Nature封面,DeepSeek團隊再次用實力為AI推理的未來鋪路。R1被認為是首個經歷同行評審過程的主流LLM。審稿人Lewis Tunstall表示:這是一個非常值得歡迎的先例。若不公開分享大部分研發過程,我們將難以評估這些系統是否存在風險。針對同行評審意見,DeepSeek減少了擬人化描述,並增加了技術細節說明,包括模型訓練資料類型和安全性能。審稿人Huan Sun表示:通過嚴格同行評審過程,有助於驗證模型的有效性和實用性,其他公司也應效仿。DeepSeek-R1-Zero誕生研究團隊的出發點大膽而純粹:徹底拋開對人類推理軌跡的依賴。人類定義的推理模式,可能反而是一種束縛。他們選擇了一個強大的基礎模型DeepSeek-V3 Base,跳過了傳統的SFT階段。取而代之的,是一個極其簡潔的強化學習框架,只告訴模型兩件事:1. 任務格式:回答必須包含兩部分,一個是被<think>標籤包裹的「思考過程」,另一個是被<answer>標籤包裹的「最終答案」。2. 獎勵訊號:根據最終答案是否正確來給予獎勵,不管採用什麼樣的思考方法。在沒有解題步驟的對錯評判,沒有思維方式的引導下,DeepSeek-R1-Zero開始了它的「野蠻生長」。在整個訓練過程中,R1-Zero的推理能力發生了質的飛躍。以AIME 2024為例,它的平均解題精準率(pass@1)從最初的15.6%,一路狂飆至77.9%。如果再配合「自洽解碼」技術,精準率更是高達86.7%——這一成績遠超AIME競賽中所有人類選手的平均水平。AI「頓悟時刻」更令人著迷的,是它在能力提升過程中展現出的自我進化行為。「思考時間」自主增加隨著訓練的進行,模型在<think>標籤內生成的文字長度穩步增加。它自發地學會了用更長的「思維鏈」來探索和最佳化解題策略,有時甚至會生成成百上千個token來反覆推敲一個問題。高級推理策略的湧現模型不再是線性地一步步解題,而是開始展現出「自我反思」和「系統性探索替代解法」等高級策略。它會驗證自己的中間步驟,甚至會主動探索「如果我用另一種方法會怎麼樣?」一個有趣「頓悟時刻」在訓練的某個階段,研究人員觀察到了一個清晰的「頓悟時刻」(Aha Moment)。也就是,模型在反思過程中,使用「wait」(等等)這個詞的頻率突然急劇增加。這一時刻,標誌著DeepSeek-R1-Zero在推理模式上發生了明顯轉變,清晰地揭示了它的自我進化過程。而這種進化,也完美詮釋了強化學習的魅力:不必教它如何解題,只需提供正確的激勵,它就能自主地發展出比人類教的更高級的策略。DeepSeek-R1之路儘管DeepSeek-R1-Zero展現了神級的推理能力,但由於其訓練完全以推理為導向,它存在可讀性差、偶爾會在中英文之間混亂切換的問題,並且在寫作、開放域問答等通用能力上表現平平。為瞭解決R1-Zero的問題,並讓其強大的推理能力能被更廣泛地應用,研究團隊設計了一套精密的多階段訓練流程,並啟動了第二階段的「精煉」計畫:1. 冷啟動(Cold Start):首先,用數千條高品質的、符合人類對話習慣的資料對模型進行初步微調,教它「好好說話」。2. 第一輪強化學習(RL):再次應用強化學習,但這次的目標不僅是提升推理,也包括保持語言的一致性和對話的流暢性。3. 大規模監督微調(SFT):團隊將推理資料與海量的非推理資料(如寫作、通用問答、程式碼工程)混合在一起,進行大規模的監督微調。這極大地擴展了模型的知識面和通用能力。4. 第二輪強化學習(RL):最後,再進行一輪全面的強化學習,利用一個更複雜的獎勵模型,進一步增強模型的有用性、無害性,並使其行為與人類偏好對齊。經過多輪煉丹,DeepSeek-R1不僅在AlpacaEval 2.0和Arena-Hard等衡量通用指令遵循和使用者偏好的基準上,性能提升了17%-25%,而且還在數學、程式設計等高難度推理任務上保持了頂尖水準。揭秘DeepSeek-R1「煉丹爐」接下來,就讓我們深入這個「煉丹爐」的內部,一探究竟。GRPO演算法在AI訓練的賽道上,強化學習演算法PPO(近端策略最佳化)長期以來都是大語言模型訓練的「標配賽車」。它雖然強大,但也以資源消耗巨大和實現複雜而著稱。DeepSeek團隊選擇了一條更聰明的路,他們採用了GRPO(組相對策略最佳化)演算法作為核心驅動引擎。PPO就像一位極其謹慎的教練,它在每次訓練更新時,都會嚴格限制新策略與舊策略的偏離程度,以防模型「跑偏」導致訓練崩潰。這種謹慎是有代價的,它需要大量的計算來維持穩定。而GRPO則像一位更高效、更相信「集體智慧」的教練。它的核心思想是:在每次訓練時,讓模型針對同一個問題,生成一組(比如16個)不同的答案。然後,它不只是簡單地獎勵最好的那個,而是根據這一組答案的「相對好壞」,來整體最佳化模型。具體來說,它會計算出每個答案相對於這一組答案平均水平的「優勢」(Advantage),優勢大的(即表現更好的)答案會得到更大的激勵權重,而表現差的則會被抑制。這種「組內競爭、擇優而學」的機制,簡化了PPO複雜的約束過程,不僅顯著降低了資源消耗,還被證明在實踐中同樣穩定高效。獎勵設計強化學習的本質,就是通過獎勵(Reward)來塑造模型的行為。它決定了模型將朝著那個方向進化。為此,DeepSeek團隊設計了一套雙軌制的獎勵系統。1. 基於規則的獎勵對於推理任務(數學、程式設計、邏輯),團隊採用了一套極其嚴格的基於規則的獎勵系統。精準率獎勵:最終答案對不對?對於數學題,答案必須和標準答案完全一致;對於程式設計題,程式碼必須通過所有預設的測試用例。格式獎勵:思考過程是否符合規範?所有的思考過程都必須封裝在<think>和</think>標籤內。這裡,有一個關鍵的決定:在推理任務上,完全不使用基於神經網路的獎勵模型。因為團隊發現,AI在長時間、大規模的強化學習中,會找到獎勵模型本身的漏洞並加以利用,即所謂的「獎勵投機(Reward Hacking)」。2. 基於模型的獎勵然而,世界並非非黑即白。對於通用任務比如寫作、對話,大多隻有好壞之分。於是,DeepSeek團隊引入了基於模型的獎勵,從而讓模型更符合人類的偏好。有用性獎勵模型:專門負責評判模型的回答對使用者是否有用、切題。它通過比較大量的「好答案」與「壞答案」對(由DeepSeek-V3生成並篩選)來學習人類的偏好。有趣的是,它只評估最終的摘要部分,而不去幹涉底層的推理過程,給予模型在思考上的充分自由。安全獎勵模型:負責檢查模型的全部輸出,包括思考過程,以識別和懲罰任何潛在的有害、偏見或危險內容。如此一來,模型在保持強大推理能力的同時,也學會了如何生成更有用、更安全、更符合人類習慣的內容。訓練細節DeepSeek的訓練並非一蹴而就,而是分為多個精心設計的階段,每個階段都有不同的側重點和巧妙的參數調整。最開始的訓練完全聚焦於數學、程式設計等推理任務,僅使用基於規則的獎勵。一個有趣的現象發生在訓練進行到第8,200步時:研究人員將模型處理的最大文字長度從32,768個Token猛增到65,536個Token。這一改變帶來了立竿見影的效果,模型的性能和回答長度都出現了「大幅躍升」。其他參數設定如下:學習率:3×10⁻⁶KL散度係數:0.001GRPO裁剪比率ϵ:10推理採樣溫度:1每個訓練步包含32個獨立問題,每步的批大小為512。每400步,用最新的策略模型替換參考模型。第一強化學習階段在這一階段,訓練資料變得更加多樣化。團隊遇到了一個意想不到的挑戰:模型的「思維鏈」(<think>標籤內的內容)中頻繁出現中英夾雜的「語言混合」現象。雖然這不一定影響最終答案的正確性,但極大地影響了可讀性。為瞭解決這個問題,他們創造性地引入了一個「語言一致性獎勵」:如果模型在處理中文問題時,思維鏈中中文詞彙的比例越高,獲得的獎勵就越多。儘管實驗表明,強行「矯正」語言會導致模型性能微乎其微的下降,但為了輸出結果更符合人類閱讀習慣,這個犧牲是值得的。第二強化學習階段在這一階段,研究人員結合了獎勵訊號和多樣化的提示詞分佈來訓練模型。推理資料使用基於規則的獎勵,通用資料則啟用基於模型的獎勵。獎勵可以公式化為:其中第二階段保留了第一階段的大部分參數,但將溫度降至0.7,以防因為係數過高造導致生成內容不連貫。此外,這裡還有一個關鍵操作:基於模型的獎勵(有用性和安全性)僅在最後400個訓練步中才被引入,從而避免獎勵投機的產生。挑戰與未來DeepSeek-R1的誕生,為AI發展帶來了深刻的啟示,也伴隨著新的挑戰。能力侷限在結構化輸出和工具使用(如呼叫計算器、搜尋引擎)方面,目前的DeepSeek-R1尚有欠缺。它對提示詞非常敏感,不適合複雜的少樣本提示,在零樣本直接提問時效果最佳。此外,由於強化學習在耗時長的軟體工程任務上效率不高,R1在該領域的提升有限。獎勵投機純強化學習的成功,完全依賴於可靠的獎勵訊號。在數學、程式設計這類有明確對錯答案的領域,這很容易實現。但對於像「寫一首優美的詩」這樣主觀的任務,則很難設計完美的獎勵模型。如果獎勵訊號本身有漏洞,策略模型就會像一個聰明的學生鑽考試規則的空子一樣,「投機取巧」、騙取高分,而不是真正提升能力。年初,DeepSeek-R1發佈後,OpenAI感覺不可思議,指責DeepSeek「可能使用了ChatGPT的輸出來訓練R1」。在與審稿人的交流中,DeepSeek表示,R1並非通過複製OpenAI模型生成的推理示例來學習。不過,與大多數其他大語言模型一樣,R1的基礎模型是在網路上訓練的,因此它會吸收網際網路上已有的AI生成的內容。俄亥俄州立大學AI研究員Huan Sun表示,這一解釋「與我們在任何出版物中看到的一樣令人信服」。Nature審稿人、Hugging Face機器學習工程師Lewis Tunstall補充說,其他實驗室的複製嘗試表明,DeepSeek推理方法已經足夠好,不需要這樣做。他說:「我認為現在的證據相當明確,僅使用強化學習就可以獲得非常高的性能。」Lewis Tunstall說,其他研究人員現在正試圖應用建立R1的方法來改進現有大語言模型的類似推理能力,並將其擴展到數學和編碼以外的領域。他補充說,通過這種方式,R1「開啟了一場革命」。 (新智元)
剛剛,梁文鋒發Nature了!
DeepSeek-R1開創歷史!首登《自然》封面,梁文鋒團隊正面回應蒸餾質疑、發佈詳盡安全報告。昨晚,DeepSeek再度開創歷史!智東西9月18日報導,9月17日,由DeepSeek團隊共同完成、梁文鋒擔任通訊作者的DeepSeek-R1推理模型研究論文,登上了國際權威期刊《自然(Nature)》的封面。DeepSeek-R1論文首次公開了僅靠強化學習,就能激發大模型推理能力的重要研究成果,啟發全球AI研究者;這一模型還成為全球最受歡迎的開源推理模型,Hugging Face下載量超1090萬次。此番獲得《自然》的認證,可謂是實至名歸。與此同時,DeepSeek-R1也是全球首個經過同行評審的主流大語言模型。《自然》在社論中高度評價道:幾乎所有主流的大模型都還沒有經過獨立同行評審,這一空白“終於被DeepSeek打破”。《自然》認為,在AI行業中,未經證實的說法和炒作已經“司空見慣”,而DeepSeek所做的一切,都是“邁向透明度和可重複性的可喜一步”。▲《自然》雜誌封面標題:自助——強化學習教會大模型自我改進發表在《自然》雜誌的新版DeepSeek-R1論文,與今年1月未經同行評審的初版有較大差異,披露了更多模型訓練的細節,並正面回應了模型發佈之初的蒸餾質疑。▲發表在《自然》雜誌的DeepSeek-R1論文在長達64頁的同行評審檔案中,DeepSeek介紹,DeepSeek-V3 Base(DeepSeek-R1的基座模型)使用的資料全部來自網際網路,雖然可能包含GPT-4生成的結果,但絕非有意而為之,更沒有專門的蒸餾環節。DeepSeek也在補充材料中提供了訓練過程中減輕資料污染的詳細流程,以證明模型並未在訓練資料中有意包含基準測試,從而提升模型表現。此外,DeepSeek對DeepSeek-R1的安全性進行了全面評估,證明其安全性領先同期發佈的前沿模型。《自然》雜誌認為,隨著AI技術日漸普及,大模型廠商們無法驗證的宣傳可能對社會帶來真實風險。依靠獨立研究人員進行的同行評審,是抑制AI行業過度炒作的一種有效方式。01.新版論文披露多個重要資訊R1安全性獲全面評估在瞭解新版論文的變化前,我們有必要先回顧下DeepSeek-R1論文的核心內容。DeepSeek-R1的研究出發點,是當時困擾AI業內的一個重大問題。眾所周知,推理能提升大語言模型的能力,但讓模型在後訓練階段通過資料學習思維鏈軌跡,嚴重依賴人工標註,限制了可擴展性。DeepSeek嘗試通過強化學習,讓模型自我演化發展出推理能力。在DeepSeek-V3 Base的基礎上,DeepSeek使用GRPO作為強化學習框架,僅使用最終預測結果與真實答案的正確性作為獎勵訊號,未對推理過程施加限制,最終建構出DeepSeek-R1-Zero。DeepSeek-R1-Zero通過強化學習成功掌握了改進的推理策略,傾向於生成更長的回答,每個回答中包含驗證、反思和探索備選方案。▲DeepSeek-R1-Zero答題正確率隨著推理長度提升,模型訓練中總體回答長度也不斷提升DeepSeek在DeepSeek-R1-Zero的基礎上,採用多階段訓練結合RL、拒絕採樣和監督微調,開發出DeepSeek-R1,使模型既具備強推理能力,又能更好貼合人類偏好。此外,團隊還蒸餾出小型模型並公開發佈,為研究社區提供了可用資源,推動思維鏈推理模型的發展與應用。除了上述主要科研成果外,在最新版的論文和其他材料中,DeepSeek新增了不少補充資訊,讓外界更深入地瞭解到模型訓練和運作的細節。基準測試資料污染是一個極為敏感的問題——如果廠商在訓練時有意或無意包含了基準測試和相關答案,就很有可能導致模型在相關測試上的得分異常偏高,影響基準測試評分的公正性。DeepSeek透露,為了防止基準測試資料污染,其已對DeepSeek-R1的預訓練和後訓練資料都實施了全面的去污染措施。以數學領域為例,僅在預訓練資料中,DeepSeek的去污染流程就識別並刪除了約六百萬條潛在文字。在後訓練階段,數學相關的資料均來自2023年之前的競賽,並採用與預訓練相同的過濾策略,確保訓練資料與評測資料完全不重疊。這些措施保證了模型評測結果能夠真實反映其解決問題的能力,而非對測試資料的記憶。不過,DeepSeek也承認這種去污染方法無法完全防止對測試集的改寫,因此在2024年之前發佈的部分基準測試仍可能存在污染問題。DeepSeek還為DeepSeek-R1新增了一份全面的安全報告。報告提到,DeepSeek-R1在服務部署中引入了外部風險控制系統,不僅可以基於關鍵詞匹配識別不安全對話,還使用DeepSeek-V3直接進行風險審查,判斷是否應拒絕響應。DeepSeek建議開發者在使用DeepSeek-R1時,部署類似的風險控制系統。在公開安全基準測試和內部安全研究中,DeepSeek-R1在大多數基準上超過了Claude-3.7-Sonnet、GPT-4o等前沿模型。開源部署版本的安全性雖不及具備外部風險控制系統的版本,但仍擁有中等水平的安全保障。DeepSeek-R1發佈之初,曾有傳聞稱該模型使用了OpenAI的模型進行蒸餾,這也出現在審稿人的提問中。對此,DeepSeek做出了正面回應,稱DeepSeek-V3-Base的預訓練資料全部來源於網路,反映自然資料分佈,“可能包含由先進模型(如GPT-4)生成的內容”,但DeepSeek-V3-Base並沒有引入在合成資料集上進行大規模監督蒸餾的“冷卻”階段。DeepSeek-V3-Base的資料截止時間為2024年7月,當時尚未發佈任何公開的先進推理模型,這進一步降低了從現有推理模型中無意蒸餾的可能性。更重要的是,DeepSeek-R1論文的核心貢獻,也就是R1-Zero,不涉及從先進模型進行蒸餾。其強化學習(RL)元件是獨立訓練的,不依賴於GPT-4或其他類似能力模型的輸出或指導。02.R1論文開創大模型科研新範式《自然》盛讚其填補空白在社論中,《自然》詳細地分析了DeepSeek-R1經歷完整同行評審流程,並登上期刊的價值。大模型正在迅速改變人類獲取知識的方式,然而,目前最主流的大模型都沒有在研究期刊中經歷過獨立的同行評審,這是一個嚴重的空白。同行評審出版物有助於闡明大模型的工作原理,也有助於業內評估大模型的表現是否與廠商宣傳的一致。DeepSeek改變了這一現狀。DeepSeek在今年2月14日將DeepSeek-R1論文提交至《自然》,而直到7月17日才被接收,9月17日正式發佈。在這一過程中,有8位外部專家參與了同行評審,對這項工作的原創性、方法和魯棒性進行了評估。在最終發佈的版本中,審稿報告與作者回覆都被一併披露。智東西也深入研讀了DeepSeek-R1論文的審稿意見與作者回覆。這份檔案長達64頁,接近論文字身篇幅的3倍。▲DeepSeek同行評審材料封面8位審稿人共提出上百條具體意見,既包括對單詞單複數等細節的修改,也涵蓋對論文中將AI“擬人化”的警示,以及對資料污染和模型安全性問題的關注。例如,在下方修改意見中,審稿人敏銳地捕捉到了“將DeepSeek-R1-Zero開源”這一表述的模糊性,並提醒DeepSeek,“開源”這一概念的界定仍存爭議,在使用相關表述時需要格外注意。這位審稿人還要求DeepSeek在論文中附上SFT和RL資料的連結,而不僅僅是提供資料樣本。▲一位審稿人的部分修改意見DeepSeek認真回應了審稿人提出的每一個問題,前文提到的多個章節與補充資訊,正是在審稿人的建議下新增的。雖然DeepSeek也曾在今年1月發佈DeepSeek-R1的技術報告,但《自然》認為,此類技術文件與實際情況之間的差距可能很大。相比之下,在同行評審中,外部專家並不是被動接收資訊,而是能夠在獨立第三方(編輯)的主持和管理下,通過協作提出問題,並要求論文作者補充資訊。同行評審能夠提升論文的清晰度,並確保作者對其主張作出合理的論證。這一流程並不一定會對文章內容帶來重大修改,但卻能增強研究的可信度。對AI開發者而言,這意味著他們的工作會更為紮實,並更具說服力。03.結語:DeepSeek開源模式或成行業典範作為國產開源 AI 模型走向世界的代表,DeepSeek-R1在全球開源社區擁有極高的口碑。而在本次登上《自然》雜誌封面後,DeepSeek又補充了這一模型的更多資訊,為開源社區提供了科研參考、模型復現思路以及應用支援。《自然》雜誌呼籲更多的AI公司將其模型提交給同行進行評審,確保其聲明經過驗證和澄清。在這一背景下,DeepSeek的開源模式不僅展示了國產AI的技術實力,也有望成為全球AI行業在科研透明度方面的參考典範。 (智東西)
【WAIC 2025】最懂管錢的AI?這個剛剛發佈的金融推理大模型,專業測試超DeepSeek
在社交平台上,「AI 幫我選基金,結果賺了 8%」、「AI 自動炒股,秒殺巴菲特?」之類的帖子不時刷屏,炒股機器人、對話式理財助手有關的 Agent 也不斷湧現。AI 彷彿成了新時代的理財顧問。 但當你真的準備把自己的錢交給它時,一個更現實的問題擺在眼前:它真的懂金融嗎?炒股、風控、合規,這些任務不是「回答問題」那麼簡單,而是要理解業務邏輯、完成任務鏈條,還不能出錯。7 月 28 日,在世界人工智慧大會上,螞蟻集團旗下的科技子公司螞蟻數科給出了新的答案:正式發佈金融推理大模型 Agentar-Fin-R1。這不僅僅是一個新模型,更是一個為銀行、證券、保險等金融場景量身打造的「專業中樞」,主打「可靠、可控、可最佳化」 。Agentar-Fin-R1 基於 Qwen3 研發,在 FinEval1.0、FinanceIQ 等權威金融大模型評測基準上超越 Deepseek-R1 等同尺寸開源通用大模型以及金融大模型。在通用大模型已高度同質化的今天,為什麼還要再造一個金融大模型?螞蟻的回答是:要解決真實金融任務,需要更強的金融專業性、推理能力以及安全合規能力。業內最系統、最真實的真實資料集過去一年,隨著大模型向各行各業滲透,金融成為少數對模型能力提出複雜要求的行業,既要專業知識深、也要邏輯推理強,同時還必須合規、安全、低幻覺。「通用大模型和產業之間仍存在知識鴻溝,尤其在金融領域。」螞蟻數科 CEO 趙聞飆在大會上表示,建構專業金融大模型,是推動金融智能體真正落地的必由之路。這不僅是科技挑戰,更直接關係金融機構在未來的智能競爭中是否擁有核心抓手。為了填補這一鴻溝,Agentar-Fin-R1 從「出生」開始就沉浸在金融世界裡。研發團隊為其建構了一套業內極為全面和專業的金融資料語料。一個覆蓋了銀行、證券、保險、基金、信託等全場景的金融任務體系,包含 6 大類、66 個細分場景,構成了業內最系統、最真實的金融資料集。更特別的是,訓練中還引入「原則類合成資料」,讓模型天然遵守金融監管紅線,比如資料合規、身份校驗、反洗錢等細節。Agentar-Fin-R1 資料合成流程基於這套框架,模型在千億級的金融專業資料語料中進行訓練,並通過可信資料合成技術及專家標註的金融長思維鏈(CoT)來打磨處理複雜任務的能力,真正做到「天生懂金融,出廠即專家」 。具備「金融環境感知能力」的模型結構但對於想要應用 AI 的金融機構來說,成本和效率是兩大核心關切。Agentar-Fin-R1 採用了創新的加權訓練演算法,這就像一個聰明的學習方法,能夠動態地發現模型的薄弱環節並針對性地進行強化。這樣做的好處是,在後續的業務應用中,可以顯著減少二次微調所需的資料和算力,有效降低了企業部署大模型的門檻和成本。Agentar-Fin-R1 開發流程更重要的是,它還是一個能夠自主進化的大模型。金融市場瞬息萬變,新的政策、產品層出不窮。依靠動態更新的金融任務體系和加權訓練機制,Agentar-Fin-R1 可以不斷吸收最新的金融政策、監管條例和市場變化,發現自身盲點並補齊能力短板,確保其知識和能力始終跟上行業變化的腳步,在真實業務中不斷變強。32B 參數的模型超過了 671B首先,Agentar-Fin-R1 在通用能力上就表現出較高水準。如 32B 版本在MATH上獲得93.80分,在GPQA上獲得68.18分,這些性能水平與具有相當參數量的通用推理模型相匹配或超越。Agentar-Fin-R1 和 Qwen3 模型(8B 和 32B 版本)在金融基準測試和一般推理基準測試(MATH:MATH-500,GPQA:GPQA-diamond)上的性能比較。而金融能力表現則更是突出,在兩大金融基準測試 FinEval1.0 和 FinanceIQ 上,32B 模型全面超越 DeepSeek-R1、GPT-o1 等高參數通用模型,不僅精準率高、穩定性強,在合規與幻覺抑制能力上也明顯更穩。Agentar-Fin-R1-32B 在多個專業評估測試集上表現均是最佳不僅如此,螞蟻數科還牽頭打造了一個專門為金融智能體評測的新基準,Finova,涵蓋智能體能力、複雜推理能力和安全合規三大維度。這個評測由螞蟻與工行、寧波銀行、北金所、上海人工智慧行業協會等共同制定,並已在 GitHub 上開源。在 Finova 的評測中,Agentar-Fin-R1-32B 拿下了最高分,甚至超越了參數規模達 671B 的 DeepSeek-R1。這不僅說明專業模型在特定行業的巨大優勢,也意味著未來金融模型的競爭,將轉向「誰能把推理做得更專業」。Finova 基準的全面概覽圖,由三個組成部分構成:代理能力、複雜推理以及安全與合規。目前,Agentar-Fin-R1 推出了 32B 和 8B 兩種參數版本,此外還有基於百靈大模型的 MOE 架構模型以及 14B 和 72B 的非推理版本,以滿足不同機構和場景的部署需求。從為上海某銀行打造「對話即服務」的 AI 手機銀行,推動老年客戶滿意度顯著提升,月活使用者同比增長 25%;到累計服務 100% 的國有和股份制銀行,螞蟻數科正加速將大模型技術落地到真實的金融場景中。正如趙聞飆所說,未來,金融大模型的應用深度將成為金融機構競爭力的關鍵要素。而 Agentar-Fin-R1 的出現,無疑為這場競賽增添了一個重量級的專業選手。 (APPSO)
上海,大消息!歷史性的一刻!
歷史性的一刻,剛剛降臨!現在全球科技圈都已經被上海交通大學引爆,所有人都在議論紛紛。台北時間2025年7月9日,上海交大傳來了一條轟動全球的消息,在短短24小時內就直接刷屏了全球科技圈,特別是人工智慧領域更是炸翻了天。你們知道上海交大做出了什麼嗎?他們人工智慧學院的幾位學生,加上深勢科技的團隊;使用DeepSeek-R1作為基礎,然後弄出了一套加強版的工具增強推理智能體X-Master、以及多智能體工作流系統X-Masters。然後一舉在人類最後的考試中,拿下32.1分!直接刷新了此前的世界紀錄。可能有人會說,不就是一場考試嗎?考30多分有什麼了不起?錯,大錯特錯!你們現在熟悉的美國超級巨頭,包括Google,包括蘋果,那怕是最厲害的OpenAI都只能考到20多分;現在你們看到的成績,是全球第一次有AI能夠考30分以上,而且是由中國人,中國團隊創造的!你們知道為什麼要叫人類最後的考試嗎?因為,一旦得分達到100分,就意味著人工智慧徹底形成了自己的思維,自己的大腦。就跟人類一樣,會獨立思考,會獨立幹活了。這場全球都在關注的考試,是由全球各國約500名專家與學者,從數學道化學,到物理,到醫學,生物,地理等等100多個學科,一起彙總!然後設計出來的3000道不同的題目,涉及全球無數國家的知識;任何一道題,都是此前從沒有出現過的超級難題。那怕你只是回答對了一道題,都能獲得幾千美元的獎金。這場考試的難度,超越了歷史上任何一次選拔考試。簡直就是地獄等級!而依託deepseek的基礎,進化出來的X-Masters卻一舉打破世界紀錄,拿下32.1分,隨後更是直接將相關技術直接開源,向全球展示!如果不是全球都在報導這件事,我都不敢相信我們會創造如此超凡的成績!而且創造了歷史之後,還直接向全球開源,展示給全球頂級人才看,這樣的底氣,真的無與倫比,沒有任何語言能夠形容!上海交通大學人工智慧學院,以及深勢科技,還有壓艙石一般的deepseek,這一次真的太霸氣!太揚眉吐氣了!!這背後代表的,不僅僅是你們現在看到的人工智慧大進步;更重要的是這是我們中國團隊,中國企業做到的!deepseek打響了第一槍之後,現在我們全國各地,彷彿雨後春筍一般,頂級的團隊一個接一個的創新,一個接一個的世界級技術,破土而出! (王晶華說科技)
DeepSeek重磅升級,影響太大,沖上熱搜
沉默了兩個月後,DeepSeek出手就是王炸。在端午節來臨前夕,DeepSeek悄悄完成了一次小版升級,目前版本為DeepSeek-R1-0528。迄今為止,DeepSeek最震動世界的動作還是1月發佈R1。而之後DeepSeek的熱度就開始下降,使用率也有所回落,並引發了一些質疑。今年3月,DeepSeek放出了 DeepSeek-V3-0324 模型。時隔兩個月,DeepSeek再次進行模型更新。我們不禁好奇,這次更新又會帶給我們怎樣的驚喜?圖源:微博1. 四大實用升級,一般人也能使用根據DeepSeek官方公告,DeepSeek-R1-0528使用2024年12月所發佈的DeepSeek V3 Base模型作為基座,但在後訓練過程中投入了更多算力,顯著提升模型的思維深度與推理能力。這次更新,DeepSeek主要升級了幾個十分實用的功能。第一,DeepSeek的思考能力深化。根據官方介紹,更新後的 R1 模型在數學、程式設計與通用邏輯等多個基準評估中取得了當前國內所有模型中首屈一指的優異成績,並且在整體表現上已接近其他國際頂尖模型,如 o3 與 Gemini-2.5-Pro。圖源:DeepSeek官網最左邊那欄是測試集,可以看到DeepSeek-R1-0528 在各項評測集上均取得了優異表現。並且,相較於舊版 R1,新版模型在複雜推理任務中的表現有了顯著提升。例如在 AIME 2025 測試中,新版模型精準率由舊版的 70% 提升至 87.5%。舉個例子,DeepSeek-R1-0528現在也能做對數字新難題「9.9-9.11=?」了。圖源:DeepSeek要知道,這種看似簡單的數學題目能難倒o3、Gemini 2.5 pro、Claude 4等一眾頂流大模型。另外,這次更新中,上下文長度擴展至164K tokens,支援單任務最長60分鐘的深度思考,這意味著處理複雜任務的能力提升了。DeepSeek表示,DeepSeek-R1-0528的思維鏈對於學術界推理模型的研究和工業界針對小模型的發展都將具有重要意義。第一,新版 DeepSeek R1 針對「幻覺」問題進行了最佳化。「 AI幻覺」(AIHallucination)這個現象,表現為模型輸出與輸入無關、違反事實或邏輯的內容,例如虛構事實、編造引用、錯誤資料等。在一定測試樣本中,AI輸出包含幻覺內容的比例就是幻覺率。我相信不少人在網路上都看過這樣的吐槽:本來想要藉助DeepSeek寫文章,結果發現它給的參考文獻根本不存在!這就是AI幻覺。AI幻覺常見表現就是捏造不存在的研究論文或作者,或提供錯誤的歷史事件、日期或科學結論,以及產生與上下文無關的矛盾回答。原因有三個面向:訓練資料雜訊或偏差;模型過度依賴統計模式而非真實理解;提示模糊或引導不當。總而言之,幻覺率是評估AI可靠性的重要指標。而舊版相比,更新後的模型在改寫潤飾、總結摘要、閱讀理解等場景中,幻覺率降低了 45~50% 左右,能夠有效地提供更為準確、可靠的結果。不得不說,這是很實用的一大進步。第二,新版 DeepSeek R1在創意寫作、代碼生角色扮演等功能上有了極大的優化。在舊版 R1 的基礎上,更新後的 R1 模型針對議論文、小說、散文等文體進行了進一步優化,能夠輸出篇幅更長、結構內容更完整的長篇作品,同時呈現出更加貼近人類偏好的寫作風格。圖源:DeepSeek官網而在程式評估中,R1-0528與OpenAI的o3-high版本表現接近,部分任務甚至超越Claude 4 Sonnet等頂尖模型。例如,產生帶有動畫效果的天氣卡代碼時,R1的設計細節和互動動畫完成度都優於Claude。圖源:微博圖源:微博第四,DeepSeek-R1-0528 支援工具呼叫(不支援在 thinking 中進行工具呼叫)。根據官方介紹,目前模型 Tau-Bench 測評成績為 airline 53.5% / retail 63.9%,與 OpenAI o1-high 相當,但與 o3-High 以及 Claude 4 Sonnet 仍有差距。圖源:DeepSeek官網總結一下,根據中國經濟網報導,升級主要有四個面向。首先,響應品質優化。對複雜推理、多步驟計算更準確;長文理解與產生更連貫、邏輯更清晰;數學、程式設計等專業性輸出更可靠。其次,響應速度小幅提升。在網頁端、App、API 介面中回應更敏捷,尤其在處理超長文字輸入時,延遲有所降低(約提升 10%~20%)。再次,對話穩定性增強。情境記憶較穩定,尤其在超長對話中,並且減少偶爾「遺忘設定」或「偏離」的情況。最後,API 和介面相容性保持穩定。如公告所說:API 呼叫方式、參數、返回結構完全不變,使用者無需調整現有整合,即可無縫使用新版本。換句話說,日常生活中,現在的DeepSeek-R1-0528 已經足夠應對大多數問題,而在學習和工作中,DeepSeek-R1-0528的可靠性大大提升、使用體驗也變好了。2. 強如DeepSeek,叫板國外AI大模型在現在這個人人都在卷AI的時候,DeepSeek還保留著獨特的優勢。首先,在開源策略上,更新後的DeepSeek-R1依然選擇開源。DeepSeek採用MIT協議開源,允許免費商用,甚至不用公開自己的修改程式碼,大大降低了AI應用門檻。其次,DeepSeek成本優勢顯著,開發者狂喜。其API價格僅為OpenAI o1的1/50(輸入token)至1/27(輸出token),也就是同樣處理字數的文字,用R1需要的成本比用OpenAI低很多,因此,在性價比方面,DeepSeek稱第二,沒人敢稱第一。最後,DeepSeek與國內應用市場的適合度很高。目前DeepSeek已經接入許多應用,例如華為小藝、騰訊元寶等,有著廣泛的使用者基礎。且國產硬體,如華為升騰910B晶片已完成適配,支援本地化部署,徹底擺脫對輝達的依賴。然而,DeepSeek還有許多可以最佳化的空間。圖源:微博一方面,評估顯示,R1在程式設計能力上與o3-high接近,數學推理優於Gemini 2.5 Pro,但工具呼叫能力仍有差距。另一方面,暫不支援圖片、語音等多模態輸入,在日常使用上有限制。另外,在創意寫作、多輪對話等場景,R1和頂級模型仍有差距。儘管幻覺率降低,模型在長文字對話中仍可能出現邏輯錯誤,並且部分使用者反饋服務響應存在延遲,“伺服器繁忙,請稍後重試”恐怕也是人們對DeepSeek的重要印象之一。圖源:微博3. 迄今為止,DeepSeek最震動世界的動作還是1月發佈R1。3月DeepSeek放出的 DeepSeek-V3-0324 模型,主要最佳化了程式碼方面的功能。此模型全面超越 Claude-3.7-Sonnet,在數學、程式碼類相關評測集上超過 GPT-4.5。而當前,市場最關心的還是R2模型發佈。4月初,DeepSeek聯手清華大學發佈一篇論文,提出名為自我原則點評調優(SPCT)的新學習方。同時,研究者引入了元獎勵模型(meta RM),進一步提升推理擴展效能。上述論文引發了DeepSeek的R2是否很快面世的猜測。而這次版本升級,再次激起了人們對R2的期待。有人認為,這次的小版升級可能意味著,R2還遠遠沒有準備好推出。也有人認為,這次最佳化這麼多功能都只是一次“小版本升級”,那麼R2如果出來,其影響力想必不會輸給R1。圖源:微博DeepSeek-R1的升級像一場靜水深流的變革——它沒有渲染「顛覆世界」的野心,卻用更長的思考時間、更低的犯錯率、更貼近普通人的成本,悄悄改寫了「強者恆強」的AI敘事。這次,我們看到的不是參數競賽的喧囂,也不是資本遊戲的狂歡,而是一個樸素的真相:真正的進步,往往藏在「夠用就好」的克制裡。科技的光芒,本來就該照進這些具體而微的生活褶皺裡。 (科技頭版)