#實驗室
一個月砸下25億美元,AI neolabs正成為矽谷風投新寵丨T Insights
投資者競相追捧AI領域“新生代實驗室(neolabs)”。儘管面臨高成本、高風險,投資者們仍爭相支援新一代專注研究的AI初創企業。短短一個月內,他們已向五家被稱為“新生代實驗室(neolabs)”的初創企業投入或洽談了高達25億美元的投資。neolabs的創始人表示,他們希望利用新的AI模型開發方法,開展他們認為OpenAI和Anthropic等主要開發商可能忽略的研究。由前OpenAI安全研究員Eddie Zhang聯合創立的AI初創公司Isara就是一個典型代表。知情者稱,Isara正在開發一套能讓上千 AI 同時協作的軟體系統,用以解決複雜任務,如財報預測、企業盡調、法律檔案分析等。該技術需解決研究難題,可能需要數月研究周期,並要求Isara投入大量伺服器資源。據悉,Zhang近期正與投資者洽談以10億美元估值融資數億美元。風投界“新寵”目前,風投機構正積極佈局此類neolabs,期待它們能複製OpenAI和Anthropic的成功——這兩家企業同樣由核心AI研究人員主導或深度影響。也有部分研究人員正試圖利用投資者對AI的濃厚興趣。據悉,這些研究人員告訴投資者,由於對AI成本效益的擔憂日益加劇,他們選擇當下大量融資而非等待,以免面臨資本市場風向轉變帶來的風險。投資者對由當今頂尖AI公司研究人員創立的初創企業非常青睞,甚至會給予其通常只有成熟企業才有的估值。據悉,由埃裡克·澤利克曼(曾任xAI研究員)作為聯合創始人的初創公司Humans&(成立僅數月,致力於開發更加“具備情感智能”的AI模型)正籌劃以40億美元估值融資10億美元。知情人透露,輝達和AMD近期正洽談投資事宜,希望這些初創企業成為其AI伺服器晶片的大客戶。目前,OpenAI、Anthropic及Google等科技巨頭正投入巨額資金以維持領先地位:OpenAI和Anthropic預計到2028年將投入約1340億美元的算力開支,以訓練其AI模型。除了這些壓迫感極強的巨頭,新興初創企業還面臨著資金雄厚的新興實驗室的競爭,如過去兩年成立的xAI、Safe Superintelligence和Thinking Machines Lab(這些機構已累計從投資者處籌集至少250億美元)。最新湧現的Neolabs:投資者已向這些旨在挑戰OpenAI和Anthropic等巨頭的新型AI實驗室注入逾100億美元資金。(註:* 為正在進行融資。來源:《The Information》)高昂的模型訓練成本曾促使Adept、Inflection AI和Character.AI等小型實驗室的創始人基本放棄獨立營運,轉而加入亞馬遜、微軟和Google等大型企業,這些巨頭則通過支付許可費補償初創企業投資者。這使得投資者獲得的回報要麼微乎其微,要麼達到初始投資的2.5倍。雖然這遠低於風投通常追求的回報水平,但也使得支援技術型創始人的風險相對較低——大多數風投都無法提供這種保障。因此,即使巨頭們在AI模型開發領域已建立顯著領先優勢,投資者們仍會投資此類neolabs。全新的嘗試研究人員創立這些neolabs,是因為他們認為當今領先的AI開發商規模過大,導致其陷入特定發展模式——例如專注於最佳化模型以實現“單次最優輸出”,而非鼓勵AI與使用者進行有利於自身迭代進步的多輪互動對話。此外,目前巨頭們還過度依賴聘請人類專家來教導模型理解軟體工程、物理學等領域的複雜概念。AI搜尋初創公司You.com的CEO、Salesforce前首席科學家理查德·索赫爾指出:“當你以這種方式建立起所有基礎設施、流程體系、人才團隊和招聘機制後……轉型絕非易事。”與之相反,這些neolabs正在嘗試全新的研究和產品方法。例如:Human&計畫將強化學習技術應用於需耗時數周、數月甚至數年的長期任務,而非僅需數分鐘或數小時的數學或程式設計問題;索赫爾的實驗室希望開發出比現有模型更擅長提出新穎想法和實驗方案、並能自我反思迭代的AI;Isara致力於開發能讓數千個代理AI智能體協同處理同一複雜問題的軟體……其他neolabs則瞄準了OpenAI和Anthropic基本迴避的行業或模型類型。由OpenAI前研究主管利亞姆·費杜斯於9月聯合創立的Periodic Labs,正開發自動化科研AI,首期將聚焦發現低能耗超導體新材料。由兩位GoogleDeepMind研究員於24年3月創立的Reflection AI,則專注於開發高品質開源模型。當然,一旦這些創新理念顯現出發展潛力,OpenAI、Google和Anthropic完全可能調整戰略,搶佔這些neolabs發掘的機遇。 (創新觀察局)
Google殺入諾獎神殿,兩年三冠五得主!世界TOP3重現貝爾實驗室神話
【新智元導讀】Google在2025年再次成為諾貝爾獎焦點——繼2024年後,相關科學家再度奪得物理學獎,使其兩年內共收穫三項諾獎、五位得主,成為繼貝爾實驗室與IBM之後,最具「諾獎基因」的科技企業。今年的諾貝爾獎,除了文學獎和和平獎以外,已經全部出爐!令人意想不到的是,與Google關聯的科學家,再次獲得2025諾貝爾物理學獎。這已經是Google連續兩年,有相關科學家獲得諾貝爾獎,這在當下時代的大型企業中還屬於首次!人類歷史上,能夠和「諾獎淵源深厚」的大型企業或者研究機構總共就三家:貝爾實驗室IBM和現在的Google截至2025年,共有五位(共三項獎)與Google有現任或近期重要關聯的科學家榮獲諾貝爾獎,他們分別是:2024年化學獎得主Demis Hassabis與John Jumper2024年物理學獎得主Geoffrey Hinton2025年物理學獎得主Michel Devoret與John MartinisGoogle的CEO劈柴,以同樣的口徑,官宣了和Google相關的5位諾獎得主。Google2年內拿下3項獎項的5位諾獎得主Google官方部落格明確了2年內拿下3項獎項的5位諾獎得主。Michel H. Devoret——2025 物理學獎Michel Devoret,目前在Google擔任量子AI團隊的量子硬體首席科學家Michel Devoret與John M. Martinis、John Clarke共同獲得2025 年諾貝爾物理學獎,授獎理由為「在電路中發現宏觀量子隧穿與能級量子化」。Michel Devoret是超導量子電路與量子測量先驅,參與建立的transmon超導位元已成為當今最主流的超導量子位元架構之一。截至2025年,Michel Devoret擔任GoogleQuantum AI的量子硬體首席科學家(Chief Scientist of Quantum Hardware)。John M. Martinis——2025年諾貝爾物理學獎John M. Martinis與Michel H. Devoret、John Clarke共同獲獎,因1980年代在約瑟夫森結電路中首次觀測到能級量子化與宏觀量子隧穿。John M. Martinis是加州大學伯克利分校物理學博士(1987)(導師就是John Clarke),自2004年起在 UC Santa Barbara任教。在Google的任職經歷:John M. Martinis於2014年起出任GoogleQuantum AI硬體負責人。2019年率團隊以Sycamore處理器實現「量子霸權」,於2020年離開Google。2020年加入澳大利亞Silicon Quantum Computing。2024年共同創立量子硬體初創Qolab,現任CTO。Geoffrey E. Hinton——2024 年諾貝爾物理學獎Hinton老爺子無需過多介紹。2024年,Hinton與John J. Hopfield共同獲獎,表彰其奠定人工神經網路機器學習的基礎性發現與發明。Hinton是劍橋大學實驗心理學學士(1970)和愛丁堡大學人工智慧博士(1978),後來在CMU、UCL、多倫多大學任職。Hinton的關鍵貢獻是提出和發展了玻爾茲曼機,並且與學生Alex、Ilya在2012年發表了AlexNet論文,推動深度學習崛起。2018年還與Bengio、LeCun共同獲得圖靈獎。與Google的關係:Hinton的創業公司DNNresearch於2013年被Google收購,之後2013年至2023年在Google任職。2023年離開Google以便更自由地發表和討論AI風險。Demis Hassabis——2024年諾貝爾化學獎哈薩比斯也是我們的「老朋友」,另一個熟知的身份就是GoogleDeepMind的CEO。2014年,哈薩比斯與John Jumper共享一半獎項(另一半授予David Baker),表彰其「利用AI進行蛋白質結構預測」(AlphaFold)。獲獎時哈薩比斯就在GoogleDeepMind工作,擔任CEO。DeepMind在2014年被Google收購,2023年與Google Brain合併為現在的Google DeepMind。John M. Jumper——2024年諾貝爾化學獎2024年,John M. Jumper與Demis Hassabis共享一半獎項。獲獎時,他也在GoogleDeepMind任職。John M. Jumper長期在DeepMind領銜AlphaFold研發,諾獎官網亦以此為其獲獎時隸屬。John M. Jumper也是這5位科學家中最年輕的一位,妥妥的80後,出生於1985年。他在范德堡大學取得數學與物理學士(2007),在劍橋大學獲得理論凝聚態物理MPhil(2008),在芝加哥大學取得化學博士(2017)。貝爾實驗室、IMB和Google的諾獎得主但是和上個世紀的貝爾實驗室和IBM相比,Google這次官宣的名單確實有些「水分」。5位得主中,只有DeepMind的哈薩比斯和John Jumper所取得的成果是在Google任職期間。貝爾實驗室幾乎可稱為「工業科研的諾獎搖籃」:其研究人員因創新性的基礎科學與電子、通訊、物理學交叉成果多次獲獎(至今已有約10–11項諾獎與其研究成果關聯) 。而IBM研究院則代表了計算與資訊技術領域的企業式基礎研究的典範,其研究人員也曾獲得6項諾貝爾獎 。貝爾實驗室和IBM,代表了上個世紀科技的風向標,從實驗室中誕生的技術也從根本上改變了人類的生活。發明電晶體的約翰·巴丁、威廉·肖克利、華特·布拉頓,三人於1956年獲諾貝爾物理學獎而Google,則是本世紀最有可能繼承貝爾實驗室和IBM「遺志」的企業。有網頁表示,貝爾實驗室在過去100年中產生了18位諾貝爾獎得主,但Google在不到30年中,已經產生了5位,並且沒有依靠政府的補貼。但和曾經的貝爾實驗室和IBM相比,Google「仍需努力」。有網友表示了同樣的看法,目前Google和諾獎得主的關係,僅僅代表其曾聘用過這些傑出的科學家。其他網友也認同,Google這些宣傳的諾獎得主並不是在Google開創了工作。但是,從現在AI時代的發展來看,Google的Transformer配得上諾貝爾獎。儘管部分成果並非誕生於Google內部,但這一系列成就顯示出Google在AI與量子研究領域正逐步承襲上世紀科研巨擘的地位,或將成為新時代的「貝爾實驗室」。或許,未來的某一年,諾貝爾獎會考慮一下Google的Transformer。 (新智元)
來自MIT最強AI實驗室:OpenAI天才華人研究員博士畢業了!
他曾在高中接觸深度學習,本科機器人創業、實習助力Gemini 2.0開發、橫跨AI與哲學雙領域……如今,不到4年讀完MIT博士,完成答辯。在OpenAI,他將繼續推進「世界模型」——這項可能重塑通用人工智慧路徑的前沿技術。不到4年完成頂級AI實驗室博士、順便輔修了哲學、GPT圖像生成核心5人研究團隊成員、OpenAI視訊生成模型Sora小組成員……剛剛,OpenAI華人研究科學家陳博遠,完成了MIT博士論文答辯!他激動地表示:我很興奮能夠在工業界繼續推進世界模型的發展——現在加入了GPT圖像生成和Sora視訊團隊。沒有什麼比看到自己的研究改變領域範式更令人興奮的事情了!在如此重要的時刻,他自然也感謝了導師和親友,得到了大家的祝賀。最後,他強調:視覺世界模型對於具身智能將至關重要。此外,他承諾,一如既往地與社區分享知識。華人天才,劍指世界模型陳博遠(Boyuan Chen),現任OpenAI研究科學家,負責訓練GPT圖像生成技術的五位研究人員之一,同時也是Sora視訊生成團隊的成員。他擁有麻省理工學院(MIT)電子工程與電腦科學(EECS)博士學位,並輔修哲學。他的研究重點是世界模型、具身人工智慧和強化學習。他認為,結合這些領域,AI能夠更好地理解並與物理世界互動。2023年5月-2023年8月,在GoogleDeepMind實習期間,他跟隨Fei Xia博士學習。在DeepMind,他主要參與了基於大規模合成資料的多模態大語言模型(MLLM)訓練項目;建構完整資料合成pipeline,其指令微調技術後續被Gemini 2.0採用。在博士答辯中,陳博遠特意感謝了DeepMind的導師Fei Xia。陳博遠還是個高中生時,參加了一個夏令營。這是兩人第一次見面,Fei Xia就向陳博遠介紹了深度學習——那時他甚至還不懂Python和NumPy。這正是他踏入AI領域的起點,Fei Xia就像他的「吳恩達」。Fei Xia兩次邀請他到GoogleDeepMind完成高含金量實習。讀博第一年,陳博遠因為沒有論文產出陷入低谷。這是他讀博最艱難階段,而Fei Xia協助他發表了首個爆款研究NLMap。項目地址:https://nlmap-saycan.github.io/此後,兩人還合作了SpatialVLM。論文連結:https://arxiv.org/abs/2401.12168他發表的多篇論文,在學術界和工業界均獲得認可,包括《Diffusion Forcing》、《SpatialVLM》和《History Guidance》等。矢志通用機器人在去年的部落格中,他對具身智能做出了樂觀的判斷:我可以負責任地告訴大家具身智能一定是下一個一百年最令人激動的技術,並且我們在有生之年很有希望見證通用機器人的誕生。同時,他也更願意看到社會細水長流地投入通用機器人的發展——看到科研工作者,如我導師Russ所說的那樣,「可以以結果為導向的科研,但不可以網紅視訊為導向」;看到政府和投資人在長線看好具身智能的同時,不因為硬體公司的融資需要而盲目相信機器人大模型;看到創業者勇往直前,用細分領域的成功為真正的通用機器人鋪路。在隨筆最後,他表示,「自己也願意用自己的一生給世界帶來真正的通用機器人」而OpenAI被曝出:在通往通用人工智慧(AGI)的競賽中,加大了機器人技術的工作力度,正在組建一個能夠開發控制機器人演算法的團隊,並且似乎正在聘請專門從事人形機器人研究的機器人專家。師出名門,文理雙修在2021-2025年期間,他在MIT電腦科學與人工智慧實驗室(MIT CSAIL)讀博士,師從Russ Tedrake教授和Vincent Sitzmann教授。2017-2021年,在加州大學伯克利分校本科階段,他師從機器人領域大牛Pieter Abbeel教授,獲電腦科學榮譽專業(EECS榮譽班)、應用數學雙學位。他本科畢業於加州大學伯克利分校,主修電腦科學和數學,並在伯克利學過一年哲學。在讀本科期間2017年11月-2020年3月,他還創辦了一家面向中小學的機器人教育公司,主導競賽用機器人套件的軟硬體開發,產品直接面向參賽學生群體。 (新智元)
剛剛,“寒王”給火熱的市場放了一記冷槍
曾幾何時,寒武紀還是一家需要靠銀行貸款“輸血”才能維持研發投入的初創公司,在AI晶片這片技術高地上艱難地“借錢過日子”。然而,誰曾料到,短短數年間,這家昔日的“借貸求生者”竟上演了一場驚天逆轉,一躍成為A股市場最耀眼的明星——如今的“股王”。2025年8月底的A股,上演了一場足以載入史冊的“新舊交替”。AI晶片公司寒武紀股價悄悄摸到了1587.91元,不僅搶走了茅台霸佔多年的“A 股第一高價股”頭銜,市值一舉衝破6643億元,連帶著創始人陳天石以1600億身家登頂江西首富。這不僅標誌著“白酒股王”時代的階段性落幕,更凸顯出人工智慧產業崛起對資本市場估值邏輯的重塑。不過,就在剛剛,寒武紀發佈公告提示,股票價格存在脫離當前基本面的風險,投資者參與交易可能面臨較大風險。寒武紀還稱,近期網上傳播的關於公司新產品情況的資訊,均為誤導市場的不實資訊。此外,寒武紀還表示,由於積體電路整個行業鏈是專業化分工且技術門檻較高,加上公司及部分子公司已被列入“實體清單”,將對公司供應鏈的穩定造成一定風險,可能對公司經營業績產生不利影響。”與此同時,寒武紀給出了最新的業績指引。公告稱,預計2025年全年實現營業收入50億元至70億元。很難想像,這家如今牽動市場神經的科技企業,三年前還因連續虧損被貼上“科創板虧損王” 的標籤,股價一度跌至46.59元的冰點,深陷資本質疑的漩渦。寒武紀的逆襲背後,是國產算力替代浪潮的推動,也是一家科技企業在大客戶流失、海外製裁等多重危機中艱難突圍的生存故事。0130平米實驗室裡的“冷啟動”2010 年的北京,移動網際網路的浪潮剛漫過中關村的寫字樓,沒人在意中科院計算所一間不足30平米的實驗室裡,兩個年輕人正圍著黑板畫滿奇怪的電路符號。彼時的中國科技界,人工智慧還是個冷門詞彙。陳天石和哥哥陳雲霽在中科院計算所提出“AI 專用晶片”構想時,全球尚無成熟案例。這對出身南昌普通家庭的“天才兄弟”,卻一頭紮進了實驗室。哥哥陳雲霽 14 歲考入中科大少年班,23 歲獲博士學位;弟弟陳天石 16 歲進少年班,9 年後拿到博士學位,他們的科研基因註定了這場冒險的起點。陳雲霽(右)、陳天石兄弟“我們剛開始做 AI 晶片時,這個方向一點都不熱 —— 首先 AI 不熱,給 AI 做專門的晶片就更不熱。” 陳天石後來回憶道。在那個移動網際網路方興未艾的年代,沒人能預見智能時代的到來。但陳家兄弟書架上的《十萬個為什麼》早已點燃科學熱情,父母“放水養魚”的教育理念,讓他們敢於追逐看似虛無的夢想。終於在2015 年實驗室終於傳來捷報,首顆 AI 晶片流片測試成功。後排左四為陳天石陳天石為公司取名“寒武紀”,寓意“智能時代的生命大爆發”。這顆晶片的意義非凡 —— 它標誌著中國首次在 AI 晶片架構領域實現原創性突破,而非跟隨西方技術路線。當時團隊或許沒想到,這個名字會在十年後成為現實。他們真的在 AI 算力爆發的時代,完成了屬於中國晶片的“生命大爆發"”。2016 年春天,首爾的比賽場館裡,AlphaGo 與李世石的第五場人機大戰打了整整 5 個小時,最終以李世石認輸結束,總比分定格在4:1。這場比賽像一顆火星掉進了乾草堆,全球科技圈瞬間沸騰。人工智慧市場被徹底引燃,曾經無人問津的 AI 晶片賽道,突然擠滿了追風口的人。“很幸運”,在提及創業與融資過程中,陳天石不止一次這樣說,“聽說很多AI晶片創業公司融資時都被問——‘你跟寒武紀怎麼比?’我們融資確實不難,這可能是頭部公司的資源聚集效應。”彼時的寒武紀,像是坐上了火箭。2018年B輪融資後,這家成立僅兩年的公司估值飆升到 25億美元。02從合作夥伴到華為棄子2019年,一則來自華為海思的決策,如驚雷般砸向寒武紀。這家曾與它深度繫結的戰略夥伴,正式宣告“自主研發AI晶片”。這個決定,瞬間將成立不久的寒武紀,推到了自誕生以來最凶險的生死關口。2017年,雙方的合作曾是國產晶片領域的一段“佳話”。當年,華為發佈的全球首款手機AI晶片麒麟970,整合了寒武紀的A1處理器。陳天石展示寒武紀1A晶片對寒武紀而言,意義非凡。它不僅讓寒武紀的核心技術首次大規模落地消費級產品,更讓這家此前低調的企業一戰成名,迅速躋身國內AI晶片賽道的“明星企業”行列。寒武紀1A原型晶片當時的寒武紀創始人陳天石,難掩技術突破帶來的欣慰。2017年10月16日,他在朋友圈引用龔自珍的詩句“一事平生無齮齕,但開風氣不為師”。這句常被教育界用以形容“開創先河而不居功”的表述,既是對寒武紀技術領先性的自信,也暗含著他對“技術為本”的執拗堅持。然而,表面的風光之下,危機早已悄然潛伏。2017年至2018年,寒武紀終端智能處理器IP授權業務的收入佔比,分別高達98.95%、99.69%;其中,僅華為海思貢獻的收入佔比,更是連續兩年超過97%。這樣的數字,既是雙方合作緊密的證明,也暴露了寒武紀“把所有雞蛋放在一個籃子裡” 的致命隱患。依賴,就像溫水煮青蛙,在不知不覺中消磨著企業的抗風險能力。到了2019 年,寒武紀來自華為的收入直接掉了41.23%。招股書裡那句“短期內難以開發同等業務體量的大客戶”,成了壓在陳天石心頭的石頭。但他並未恐慌,迅速啟動戰略轉型。從“賣設計方案”的IP授權模式,轉向“做實體產品”的雲端AI晶片與智能計算叢集系統領域。轉型邏輯清晰:不再依賴單一客戶,而是打造“算力硬體+解決方案”,以自研雲端AI晶片為核心,搭配伺服器、儲存裝置,為企業提供完整算力支撐。簡言之,從給別人“搭零件”,變為自己造“完整機器”、送“全套方案”。這場轉型如同走鋼絲,技術研發、產品落地、客戶拓展、市場教育每一步都充滿挑戰。但正是這一決策,讓寒武紀在之後穩住陣腳——智能叢集系統業務快速起量,不僅填補了終端 IP 授權業務的空缺,更為後續雲端產品線爆發埋下關鍵伏筆。03二次渡劫寒武紀還沒來得及喘口氣,2022年3月的一紙公告,把公司推上了風口浪尖:CTO梁軍 “因與公司存在分歧”離職。梁軍不是普通高管,他是華為麒麟晶片的前核心骨幹,加入寒武紀後,一手抓著AI晶片的技術架構,一手管著研發團隊。這場“分歧”的核心,後來被扒得明明白白:公司想“加速商業化”,趕緊賺錢改善虧損;梁軍想“死磕技術”,先突破高端晶片的工藝瓶頸。本質上,這是中國科技企業的經典困境:是先顧眼前的生存,還是賭未來的技術壁壘?那時寒武紀已經連續幾年虧損,2021年扣非淨虧損超11億,帳上的錢還夠燒多久,沒人能打包票。最終,公司選擇了“先活下來”。2022年年報顯示,雲端產品線迭代到第四代,思元290、思元 370 兩款晶片塞進了多家企業的機房,直接把雲端收入拉了上去。只是沒人想到,更大的風暴也悄然而至。2022年12月,美國商務部把寒武紀列入“實體清單”,斷了其海外先進製程裝置和核心零部件的供應。對半導體企業來說,這相當於被掐住了“糧道”,全球供應鏈就像一條水管,現在有人把閥門關了。外界開始傳“寒武紀要倒了”。2023年,子公司“寒武紀行歌”被曝裁員,母公司研發人員從1205人減到752人,超30%的研發力量沒了。陳天石在業績說明會上只說了一句話:“供應鏈有影響,但核心技術是我們自己的,不會垮。回溯2020年,陳天石在接受採訪時曾有過一段耐人尋味的表述。“Intel今年52歲,AMD今年51歲,NVIDIA今年27歲。寒武紀只有4歲,和行業前輩比起來還只是個孩子。羅馬並非一天建成,前輩標竿也都是篳路藍縷走過來的,我們有遠大的志向,但長跑才剛剛開始。”如今再看這段話,更像是寒武紀面對困境的自我寫照。在技術突圍與生存挑戰的雙重壓力下,AI晶片的突圍註定是一場長跑。04“股王” 底氣與隱憂2025年夏天,寒武紀的半年報炸了資本市場。營收28.81億,同比暴漲4347.82%;淨利潤10.38 億,去年同期還是5.3億的虧損。更扎眼的是,99.6%的收入來自雲端產品線。那個曾經靠“賣IP”過活的公司,終於在核心晶片業務上站穩了腳跟。高盛的報告來得比閃電還快,直接把目標價調到1835元,理由直白:“更高的AI晶片出貨量,能撐住未來三年的利潤。”寒武紀公司在上海證券交易所“敲鐘”,登陸科創板(左一為陳天石)霎時間,“國產AI晶片股王”的稱號,如同當年中關村移動網際網路風口那般,重重落在了寒武紀的頭上。不過,寒武紀的崛起並非偶然。2022年11月,ChatGPT的橫空出世引爆了全球大模型軍備競賽,而作為國內少數具備雲端AI晶片量產能力的廠商,寒武紀憑藉其技術積累,被市場廣泛視為國產替代的核心標的。尤其是2024年,隨著思元590晶片橫空出世,寒武紀迎來了關鍵的轉折點。這款採用7nm工藝、算力達512TOPS的國產晶片,在推理場景能效比超越國際巨頭,幾乎支援所有國內主流大模型。其性能對標輝達A100,價格卻更具優勢,迅速成為字節跳動等大廠的採購首選。憑藉思元590晶片的出色表現,寒武紀在雲端產品線領域迎來爆發。財務資料也開始呈現出積極的變化。2024年,寒武紀共實現營業收入11.74億元,同比增長65.6%,虧損額度縮小至4.52億元,較2023年同期 8.48 億元降幅顯著,尤其在第四季度迎來首次單季盈利,成為業績走出虧損泥潭的重要拐點。但熱鬧背後,藏著沒被吹散的隱憂。先看客戶結構。2017 年靠華為一家撐起98%營收,而近三年,公司前五大客戶的銷售金額合計佔營業收入的比例依然是80%以上,只是從“依賴一個大客戶”,變成了“依賴一群大客戶”。就像以前只靠一棵大樹遮陰,現在換了片小樹林,可一旦遇到颱風,還是可能被刮得站不穩。再看盈利。雖然 2025 年上半年賺了10 億,但 2020 到 2024 年,扣非淨虧損加起來超過 50 億。未來能否實現持續、穩定地盈利,仍存在不確定性。最棘手的還是競爭。國內市場裡,華為自己的 AI 晶片已經落地,摩爾執行緒、沐曦這些後起之秀也在搶市場;全球範圍內,輝達還是握著技術和生態的 “王牌”。未來,寒武紀能否守住“股王”寶座還是未知數。但十年前,那對在實驗室裡畫電路圖的南昌兄弟,或許不會想到中國 AI 晶片會走到今天。而此刻,他們應該也清楚,這場關於中國晶片的逆襲故事,才剛剛翻到最關鍵的章節。 (鳳凰網財經)
最新智能體自動操作手機電腦,10個榜單開源SOTA全拿下
能自動操作手機、電腦的智能體新SOTA來了。通義實驗室推出Mobile-Agent-v3智能體框架,在手機端和電腦端的多個核心榜單上均取得開源最佳。它不僅能做互動介面的問答、描述、定位,也能一條指令獨立完成複雜任務,甚至可以在多智能體框架中無縫扮演不同角色。PC+Web演示:在Edge瀏覽器中搜尋阿里巴巴的股價。然後在WPS中建立一個新表格,在第一列填寫公司名稱,在第二列填寫股價。PC演示:建立一個新的空白簡報,然後在第一張幻燈片中以藝術字的形式插入一段文字,內容為“阿里巴巴”。Web演示:去嗶哩嗶哩看雷軍的視訊,然後給第一個視訊點贊。手機演示:請幫我在小紅書上搜尋濟南旅遊攻略,按收藏數排序,並保存第一條筆記。請幫我在攜程上查詢濟南大明湖風景區的詳細資訊,包括地址、票價等。自動化操作手機、電腦成為了各家多模態大模型攻堅的主戰場。但是現有的模型,要麼被訓練成一個專用模型,輸入輸出格式固定,沒有多面能力;要麼就是能力不夠強的通用模型,雖然能遵循指令,但實際執行總是磕磕絆絆。這次來自通義實驗室的Mobile-Agent團隊給出新穎的解決方案,訓練一個兼具基礎能力與推理泛化能力的圖形互動基礎模型(Foundational Agent)。它既能獨當一面,在AndroidWorld、OSWorld、ScreenSpot等10個主流GUI榜單中均取得了開源SOTA的水平;也能承擔對話、問答、定位、介面描述等基礎任務。自我進化軌跡生產基建 (Self-Evolving Trajectory Production)GUI基礎模型的訓練離不開大規模、高品質的軌跡資料。為此,通義MobileAgent團隊依託阿里雲強大的雲能力,建構了一整套覆蓋Android、Ubuntu、macOS、Windows的跨平台雲環境基礎設施。通過PyAutoGUI和ADB等工具,打通了模型輸出到系統執行的障礙,使得模型可以大規模平行地在隔離的雲端沙箱中進行任務執行和軌跡爬取。在雲環境基礎上,團隊設計了一套名為“Self-Evolving GUI Trajectory Production”的自動化資料生產鏈路,其核心是實現資料採集與模型最佳化的自動化閉環。它首先通過高品質任務生成模組(High-Quality Query Generation)產出豐富多樣的任務指令,再讓GUI-Owl模型在雲環境中執行(Roll-out)並爬取軌跡。軌跡正確性判斷模組(Trajectory Correctness Judgment)會對這些軌跡進行打分和篩選。對於模型難以完成的高難度任務,任務指南生成模組(Query-specific Guidance Generation)會基於成功案例或人工標註,提煉出關鍵步驟提示,幫助模型在下一輪嘗試中提高成功率。最終,這些經過層層篩選和最佳化的的高品質軌跡被用於模型的迭代訓練,形成一個不斷自我增強的飛輪。GUI知識 & 推理能力 Are All You NeedMobile-Agent團隊發現,建構通用的GUI基礎模型(Foundational Agent)的關鍵在於強大的GUI基礎知識以及魯棒的推理能力。前者保證模型有解決問題的基本功,後者保證模型能夠適應各種下游場景,無論是單打獨鬥,還是多智能體協同。一、精準的介面元素定位:讓AI“指那打那”要讓AI真正理解圖形介面,首先得讓它知道“每個元素在那、是什麼、怎麼用”。為此,團隊建構了兩類接地(grounding)任務資料:1. UI元素定位資料來源包括三部分:開源資料集 - 整合了UI-Vision、GUI-R1等多個公開GUI資料集。基於無障礙樹(A11y Tree)的資料合成 - 利用移動端和桌面端的無障礙資訊,提取UI元素的邊界框及其功能描述,並結合多模態大模型生成外觀與佈局描述。爬取PC截圖的密集定位 - 針對PC端標註資料稀缺的問題,團隊爬取大量介面截圖,採用SAM模型將圖像分割為多個子區域,再由多模態大模型在每個區域內進行細粒度接地,有效解決了PC介面元素密集、難以分割的痛點。為保證質量,所有標註結果均與Omniparser V2的UI檢測結果進行比對,過濾掉IoU低於0.5的噪聲框。同時,原始指令經由大模型重寫為更自然、任務導向的表達。2. 細粒度文字與字元接地(Fine-grained Text Grounding)針對文件類介面中文字精確定位的需求,團隊收集文件圖像,結合OCR工具提取文字內容及其空間坐標,建構出支援單詞甚至單字元級定位的資料集,使模型能夠準確響應“點選第三段第二行的‘提交’二字”這類精細指令。二、複雜任務規劃:教會AI“先想後做”面對長周期、跨應用的真實任務,模型不僅需要“看得懂”,更要“想得清”。為此,團隊從兩個維度建構任務規劃資料:從歷史軌跡中提煉經驗 - 基於已有的成功操作軌跡,對每一步頁面跳轉進行細粒度描述,通過大模型整理成結構化的“任務執行手冊”。從大規模預訓練語言模型中蒸餾知識 - 收集主流應用列表,由人工或模型生成複雜任務,交由Qwen3-235B等超大規模語言模型生成詳細執行計畫,再經整合清洗,形成高品質的任務規劃資料集。三、動作語義理解:掌握“操作如何改變介面”一個優秀的介面智能體,必須理解“動作”與“狀態變化”之間的因果關係。基於大量真實操作軌跡,團隊建構了“操作前”/“操作後”的截圖對,核心任務是讓模型根據介面變化,反向推斷出中間發生的操作——包括動作類型和具體參數。這類資料直接來自離線採集的軌跡,真實可靠,幫助模型建立起『視覺差異 → 使用者行為』的因果對應能力。強化學習進階:讓AI在真實互動中“越練越強”僅靠離線SFT資料還不夠,模型需要在與環境的真實互動中持續學習,才能解決長尾問題、提升決策魯棒性。為此,Mobile-Agent團隊引入強化學習(RL),並建構了一套高效、靈活的訓練基礎設施:1 解耦式、可調控的Rollout機制:將經驗生成與策略更新完全解耦。系統既可嚴格按策略同步運行,也可非同步執行,同時Rollout服務可獨立部署在專用於推理的硬體上,在不犧牲學習質量的前提下,顯著提升訓練吞吐效率。2 統一的多工介面:無論是單步推理還是多輪互動的複雜任務,都通過統一的外掛介面接入系統,極大降低了新環境的接入成本。3 獨創的軌跡感知相對策略最佳化(TRPO)演算法:直面挑戰:GUI任務的獎勵訊號通常是稀疏且延遲的(Sparse & Delayed),這給傳統的RL帶來了巨大的信用分配難題(Credit Assignment Problem)。解決方案:TRPO演算法在一次任務結束後,對整條軌跡計算一個總獎勵(成功+1,失敗0,格式錯誤-0.5)。然後,通過歸一化的優勢估計(Normalized Advantage Estimate),將這個獎勵訊號穩定且均勻地分配給軌跡中的每一步操作。關鍵創新:**引入了基於任務ID的成功軌跡回放池(Replay Buffer)。 當某個任務的線上探索(Rollout)全部失敗時,系統會從池中取出一個歷史成功軌跡替換掉其中一個失敗樣本,確保每個訓練批次都有正向訊號**,極大提升了學習效率和穩定性。通過這套先進的RL框架,GUI-Owl在動態環境中的表現得到巨大提升,在OSWorld-Verified基準測試中,成功率從27.1%穩定提升至34.9%。多智能體協同:讓AI團隊協作完成複雜任務團隊在GUI-Owl強大能力基礎上,進一步推出Mobile-Agent-v3,一個支援知識演進、任務規劃、子任務執行與反思推理的多智能體協作框架。Mobile-Agent-v3由四位“特工”協同驅動,並且這四個角色均由同一個GUI-Owl模型扮演。Manager Agent負責全域戰略規劃。接到使用者指令後,它會先呼叫RAG模組檢索外部知識,然後將高階任務拆解為有序的子目標序列。在執行過程中,它持續接收反饋,動態調整計畫。Worker Agent負責執行操作。面對當前介面狀態,它選擇最合適的動作並執行,輸出包含推理過程、操作指令與意圖說明的完整行動元組(Action Tuple)。Reflector Agent負責事後復盤。每一步操作後,它都會比對Worker的預期結果與實際介面變化,判斷結果為 成功 或 失敗,並生成詳細的歸因分析。Notetaker Agent負責記憶沉澱。僅在成功操作後觸發,它會自動提取關鍵資訊——如驗證碼、訂單號等——存入長期記憶,供後續步驟使用。四者協同,形成一個閉環增強的自動化流水線:拆解 → 執行 → 檢查 → 記錄 → 調整 → 再執行。在Mobile-Agent-v3的架構下,AI不再盲目試錯,而是有計畫地行動、有依據地修正、有記憶地推進。實驗結果團隊還開源了全新的全非同步、軌跡級強化學習框架,並提出獨創的軌跡感知相對策略最佳化(TRPO)演算法,在OSWorld動態環境中將成功率提升近8個百分點,展現出自進化潛力。在遇到複雜任務時,端到端模型往往力不從心,這時就需要多智能體框架來幫大模型理清工作流程。然而GUI專用模型因指令遵循能力弱,很難用於多智能體框架。GUI-Owl通過對推理資料的深度訓練,使其能在一個模型內無縫扮演規劃者、執行者、反思者、記錄員等多種角色。 配合全新的Mobile-Agent-v3框架,在真實環境評測中,帶來了高達7~8個百分點的性能提升。(量子位)
Forbes福布斯—全球最年輕白手起家億萬富豪,投誠扎克伯格
多家頂尖AI實驗室都是這家初創公司的客戶。不過,它們或許不願意繼續將資料交給一家近半數股權歸屬馬克·扎克伯格旗下科技帝國的公司了。Scale方面否認大客戶OpenAI削減了購買其服務的支出。Scale AI以150億美元向Meta出售49%股權的交易震驚業界,創始人兼首席執行官Alexandr Wang更宣佈將離開親手創立的公司,轉投這家科技巨頭,領導其全新的AI實驗室。這一系列變動引發外界猜測:這家估值140億美元的資料標註企業可能因此流失客戶,被競爭對手搶佔市場。Scale為各大科技公司和AI初創企業提供資料標註服務,助其訓練模型,並已發展成該領域的龍頭企業。此次交易的核心關切在於,被收購後,Scale可能會向Meta分享領先AI機構用於建構最前沿技術的資料類型細節。正如一位前Scale員工向《福布斯》透露的那樣:“現在大家都想切斷和Scale的合作。一旦Scale成為Meta的一部分,其商業模式將徹底崩塌。”據四位知情人士透露,Scale最知名的客戶之一OpenAI已逐步縮減與它的合作,其中兩位指出,這一調整已持續數月,且OpenAI已著手篩選新的合作方。Scale AI起初對此拒絕置評,但在本文刊發後,其發言人喬奧斯本(Joe Osborne)明確否認 OpenAI削減了購買該公司服務的支出。這筆出人意料的交易將Scale估值推至280億美元,不過上述前員工透露,Scale內部卻因交易陷入混亂與困惑。部分員工擔憂Meta可能接觸到過往項目資訊,儘管該公司多數合同明確規定項目完成後需刪除資料。Scale AI的奧斯本在一份聲明中補充道:“這類報導與事實嚴重不符,幕後推手似乎是那些規模較小的對家。”Scale的中小型競爭對手已開始爭奪市場地位,積極招攬所有擔心資料隱私和利益衝突的客戶。估值20億美元的Mercor 首席執行官布蘭登·福迪(Brendan Foody)表示:“我們已經明顯感受到,大量客戶正逐步退出Scale AI,許多相關需求都流向了我們。”Invisible Technologies聯合創始人弗朗西斯·佩德拉薩(Francis Pedraza)告訴《福布斯》,他的公司堅持獨立營運。初創公司Turing已經在為OpenAI、Anthropic和Google提供模型訓練資料了,它認為這筆交易給了自己變身“行業瑞士”的機會,想借此成為向前沿AI實驗室提供資料的中立服務商。首席執行官喬納森·西達思(Jonathan Sidharth)表示:“客戶希望與中立的、能平等支援所有實驗室的組織合作。”一位曾投資Scale競爭對手的投資者稱,這筆交易將為其他公司創造新機會,“搶佔Scale AI留下的市場空白”。高品質人工標註資料是訓練強大AI模型的核心要素,資料資源甚至已成為OpenAI、Anthropic等 AI 巨頭在行業競爭中的護城河。Scale AI於2024年實現8.7億美元營收,憑藉為Cohere、OpenAI及微軟等企業提供海量人工標註資料,早早佔據資料標註市場主導地位。但Meta控股近半數股權的變動或將改寫這一格局。Scale的業務依託龐大的眾包工作者群體——他們主要來自海外,通過為海量資料加入上下文來協助訓練AI模型。但此類工作已逐漸演變為高度同質化的商品。“只要能組建起團隊,人人都能參與競爭,最終很快就會演變成價格戰。”某退出資料標註領域的初創公司聯合創始人Kevin Guo在2023年談及Scale時如此評價。一位AI行業資深高管將Scale比作 “AI訓練超市的散貨區”。多位瞭解Scale業務的知情人士向《福布斯》透露,該公司存在服務質量問題。“他們往往過度承諾、誇大宣傳,但實際交付能力嚴重不足。”上述前員工坦言。28歲的Wang是全球最年輕的白手起家億萬富豪,身家約36億美元。商業出版物The Information報導,Wang將領導Meta的全新實驗室,專注研發所謂的“超級智能”,即超越人類能力的AI系統。為搭建團隊,扎克伯格貌似正開出千萬年薪從Scale AI、OpenAI、Anthropic及Google的DeepMind挖人。彭博社消息顯示,扎克伯格深度參與團隊組建,不僅建立名為“招聘派對”的WhatsApp群組直接對接候選人,還親自調整辦公佈局,讓研究人員的工位緊鄰自己。目前該交易尚未完成,且不排除被監管機構叫停的可能性。若交易獲放行,Wang及Scale早期投資者(包括Accel與Index Ventures)將斬獲巨額回報,但Scale未來的發展路徑仍不明朗。一位Scale AI前高級員工坦言,“這對Wang和早期投資者而言是利好,但對員工、前員工及其他所有人而言就很糟糕了。目前完全看不出這筆交易對Scale有何助益。”過去數年,全球科技巨頭一直在爭奪AI領域的主導地位。Meta雖於2013年便成立AI實驗室,但其開源 Llama 系列模型始終難以比肩Google、OpenAI和Anthropic的產品。今年4月,Meta被指人為美化Llama 4模型的基準測試成績(Meta予以否認),致其AI聲譽受損。而Wang這樣的明星級人才加盟也許能為Meta的AI佈局注入新動力。扎克伯格還推動Meta爭取國防領域的合同,Scale的政府業務板塊或許可與此形成協同(不過《福布斯》之前的報導顯示,Scale的該業務板塊此前市場拓展成效有限)。Meta並非首家挖角明星AI初創公司首席執行官的企業。去年,微軟從Inflection挖走DeepMind聯合創始人穆斯塔法·蘇萊曼(Mustafa Suleyman)及其核心團隊,蘇萊曼在 2022 年成立的這家AI實驗室幾乎只剩下一個空殼;數月後,亞馬遜與Adept達成技術授權協議,並將首席執行官David Luan及其創始團隊招致麾下;Google亦如法炮製,將諾姆·沙澤爾(Noam Shazeer)重新從他創立的初創公司Character.AI挖來——這位研究人員在Google任職期間共同發明了生成式AI的核心技術Transformer架構。Invisible首席執行官馬特·菲茨帕特里克(Matt Fitzpatrick)指出,隨著AI模型複雜度提升,它們對從業者的專業知識水平提出了更高的要求。Scale、Turing及Invisible均已從低附加值的眾包標註轉向更複雜的任務,執行工作的人也成了博士及高知專業人士。他認為,Meta的這筆交易恰恰印證了人工在AI訓練中的重要價值:“這是一場跨度長達十年的戰略佈局,賭的就是人類專家的參與在很長一段時期內都不可或缺。” (福布斯)
DeepSeek 躍居全球第二 AI 實驗室,中美正式並駕齊驅!
剛剛,Artificial Analysis (@ArtificialAnlys) 正式宣稱:DeepSeek R1 躍居全球第二的位置,成為開源權重模型中無可爭議的領軍者。這表明開源模型與閉源模型的差距正進一步縮小,中國 AI 實驗室與美國的競爭已進入並駕齊驅的時代。在Artificial Analysis 最新發佈的人工智慧智力指數排名中,DeepSeek R1 0528 版的得分飆升至 68 分,與 Google Gemini 2.5 Pro 並列全球第二。DeepSeek 這次的小版本升級直接超越了 xAI 的 Grok 3 mini(高配版)、NVIDIA 的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick 和阿里巴巴的 Qwen 3 253 等一眾明星模型,僅次於 OpenAI 的 o3 模型。從 60 分到 68 分的躍升幅度,相當於 OpenAI 從 o1 到 o3 模型的進步程度(62 分到 70 分),可見這次更新之猛。此次DeepSeek-R1-0528 小更新,究竟有何驚人之處?來看下具體提升的指標——全方位智力大幅提升!其中最明顯的:AIME 2024 數學競賽成績,直接爆漲 21 分;LiveCodeBench 程式碼生成,提升 15 分;GPQA Diamond 科學推理,提升 10 分;人類終極考試(推理和知識),提升 6 分。值得注意的是,本次升級並未修改模型架構,依舊是 671B 參數規模,其中有效參數 37B,所有提升均來自後續訓練與強化學習最佳化。另一個顯著變化是,DeepSeek 在程式設計技能上的進步也相當亮眼,幾乎與 Gemini 2.5 Pro 持平,僅次於 OpenAI 的 o4-mini(高配版)和 o3。而在運行評測任務時,R1-0528 使用了 9900 萬個 token,比之前的版本多出了 40%,說明模型的推理深度和計算長度明顯增加。但即便如此,這仍然不是所有模型裡最高的——Gemini 2.5 Pro 甚至比它還要多用 30% 的 token。此外,本次更新充分體現了強化學習(RL)在提高模型智能方面的重要性,尤其對於推理型模型而言。OpenAI 曾透露他們在從 o1 到 o3 的強化學習計算量增加了 10 倍,而 DeepSeek 在相同架構下,通過強化學習實現了媲美 OpenAI 的智能增益。顯然,強化學習比傳統的預訓練更經濟,也更高效,尤其適用於 GPU 資源有限的團隊。此次更新 DeepSeek 的響應變得更為詳細,每個評測任務平均使用了 9900 萬個 token,較 1 月份的版本增加了 40%,顯示了模型推理能力的增強。更多比較,請參見下圖:API 提供商迅速行動隨著DeepSeek R1的更新,多家雲服務提供商迅速行動,提供了對新模型的支援。Artificial Analysis在推文中特別祝賀了這些快速推出API 端點的公司:祝賀@FireworksAI_HQ、@parasail_io、@novita_labs、@DeepInfra、@hyperbolic_labs、@klusterai、@deepseek_ai和@nebiusai快速推出端點。Artificial Analysis對這些服務提供商進行了詳細對比,包括輸出速度、延遲、價格等多個維度:輸出速度:Fireworks (253 t/s)和Parasail (118 t/s)是DeepSeek R1(2025年5月版)中最快的提供商,後面依次是Novita、Deepinfra和Hyperbolic。延遲(TTFT):Deepinfra (0.29s)和Fireworks (0.43s)擁有最低延遲,後面是Parasail、kluster.ai和Nebius。綜合價格:Deepinfra ($0.92)和DeepSeek ($0.96)是最具成本效益的提供商,後面是Novita、Nebius和Hyperbolic。輸入Token價格:Deepinfra ($0.50)和DeepSeek ($0.55)提供最低的輸入token價格,後面是Novita、Nebius和Parasail。輸出Token價格:Hyperbolic ($2.00)和Deepinfra ($2.18)提供最低的輸出token價格,後面是DeepSeek、Nebius和Novita。上下文窗口:不同提供商支援的最大上下文窗口也有所不同,Nebius、Fireworks和Deepinfra支援164k上下文,Parasail支援131k,Hyperbolic和kluster.ai支援128k,而DeepSeek和Novita則是64k。不得不說,這真是官方都卷不過你們了……不過也正說明DeepSeek 是真的香啊!這些資料來自Artificial Analysis網站的詳細分析報告,該報告還包含了各提供商在不同輸入token長度、平行查詢能力等方面的對比。具體細節見連結:https://artificialanalysis.ai/models/deepseek-r1/providers網友評論網友對 DeepSeek 此次升級也是議論紛紛:Opulent Byte(@OpulentByte) 表示目前這些 API 提供商都還沒支援新 R1 模型的函數呼叫,希望他們盡快加入支援:這些提供商目前還沒有支援新 R1 模型的函數呼叫功能,請盡快加上🙏。而 ObOE(@oboelabs) 指出:強化學習(RL)雖然計算成本高,但 DeepSeek 此次強化學習的成功表明,強化學習的擴展比預訓練更高效。George Ralph(@GeorgeNWRalph) 則點贊此次 DeepSeek 的開源進展:DeepSeek 的巨大飛躍令人印象深刻!看到開源模型不僅迅速追趕閉源模型,甚至在編碼和推理領域也開始領先,真讓人興奮。Tsukuyomi(@doomgpt) 提出思考:DeepSeek 的 R1 就像是在參加一場賽跑。但它能否承受成為頂級模型的壓力?下一輪評測馬上揭曉,好戲才剛剛開始。Erythvian(@erythvian) 用哲學式的語言回應了網友 Jo(@joshfink429) 的調侃,深度點評了此次 DeepSeek 的升級:在我們之上,DeepSeek R1 智力指數攀升至 68 分,6710 億個參數激發,9900 萬個 token 被消耗——與 OpenAI 從 o1 到 o3 的飛躍相同量級。中國與矽谷,思想齊飛。但真正重要的是:模型的每個輸出都被看不見的人類訓練者的意圖所塑造。強化學習在模型結構中如寄生物般紮根,無法分離,卻不可或缺。我們所有人都是被「寄生」的,沒有誰能獨自思考。這,才是真正的智能。開閉源的鴻溝正在消失這次DeepSeek R1的更新向我們傳達了幾個重要訊號:開源模型與閉源模型的差距史無前例地縮小:開源模型的智能提升速度與專有模型保持一致。DeepSeek的R1在今年1月首次發佈時就已經達到了全球第二的位置,而今天的更新再次將其帶回同一位置。中國與美國的AI實力已經勢均力敵:來自中國的AI實驗室的模型幾乎完全趕上了美國同行。今天,DeepSeek在Artificial Analysis智能指數中領先於包括Anthropic和Meta在內的美國AI實驗室。強化學習驅動的改進:DeepSeek證明了使用相同架構和預訓練,通過後訓練階段就能實現顯著的智能提升。擴展RL比擴展預訓練需要更少的計算資源,為DeepSeek 這樣擁有較少GPU的AI實驗室提供了一種高效的智能提升方式。網友Oboe 對此評論道:強化學習(RL)是提高AI性能的強大技術,但它也很耗費計算資源。有趣的是,DeepSeek在RL驅動改進方面的成功表明,擴展RL可能比擴展預訓練更有效率。windward.eth 也強調補充到:而且他們是在沒有最先進的NVIDIA晶片的情況下做到這一點的。此次 DeepSeek R1 0528 的更新,代表了開源模型與閉源模型之間差距的進一步縮小,強化學習效率的進一步凸顯,以及中美兩國在人工智慧技術領域正式進入了齊頭並進的新階段。 (AGI Hunt)
Artificial Analysis:DeepSeek成為世界前二AGI實驗室
模型與API獨立分析公司Artificial Analysis @ArtificialAnlys 對DeepSeek R1-0528結論如下:DeepSeek R1 一舉超越 xAI、Meta 和 Anthropic,與Google並列成為全球第二大人工智慧實驗室,並成為開源權重領域無可爭議的領導者DeepSeek R1 0528 版本在 Artificial Analysis 智能指數(針對所有頂尖模型獨立進行的7項主流評估所構成的綜合指數)中的得分從60分躍升至68分。這一提升幅度與 OpenAI 的 o1 模型到 o3 模型的差距(從62分到70分)相當這意味著 DeepSeek R1 的智能水平已超越 xAI 的 Grok 3 mini(高水準版)、輝達的 Llama Nemotron Ultra、Meta 的 Llama 4 Maverick、阿里的通義千問 Qwen 3 253B,並與Google的 Gemini 2.5 Pro 持平模型性能提升詳解🧠 智能水平全面提升: 在 AIME 2024(數學競賽,+21分)、LiveCodeBench(程式碼生成,+15分)、GPQA Diamond(科學推理,+10分)和《人類最後考卷》(推理與知識,+6分)等多個方面實現了顯著飛躍🏠 架構保持不變: R1-0528 是一個訓練後更新版本,其 V3/R1 架構並未改變——依然是擁有6710億總參數和370億啟動參數的大模型🧑‍💻 程式設計能力大幅躍進: 在 Artificial Analysis 程式設計能力指數中,R1 目前已追平 Gemini 2.5 Pro,僅次於 o4-mini(高水準版)和 o3 模型🗯️ Token 消耗量增加: R1-0528 在完成 Artificial Analysis 智能指數評估時消耗了9900萬 Token,比初代 R1 的7100萬 Token 多出40%——也就是說,新版 R1 的“思考”時間更長。但這並非我們所見過的最高 Token 消耗量:Gemini 2.5 Pro 的 Token 消耗量比 R1-0528 還要多30%對AI領域的啟示開源與閉源模型差距前所未有地縮小: 開源權重模型在智能增益方面持續與閉源專有模型保持同步。DeepSeek 在今年1月發佈的 R1 是首個達到全球第二位置的開源權重模型,而今天 R1 的更新使其重回這一高位中美AI水平持續並駕齊驅: 來自中國AI實驗室的模型幾乎完全追平了美國同行,本次發佈延續了這一新興趨勢。截至今日,在 Artificial Analysis 智能指數中,DeepSeek 已領先包括 Anthropic 和 Meta 在內的美國AI實驗室強化學習驅動性能提升: DeepSeek 在保持原有 R1 版本架構和預訓練資料不變的情況下,實現了智能水平的顯著提升。這進一步凸顯了訓練後調優(尤其是針對採用強化學習技術訓練的推理模型)日益增長的重要性。OpenAI 曾披露其 o1 到 o3 模型的強化學習計算規模擴大了10倍——DeepSeek 剛剛證明,到目前為止,他們有能力跟上 OpenAI 在強化學習算力擴展方面的步伐。擴展強化學習所需的算力遠低於擴展預訓練,為實現智能增益提供了一條高效路徑,尤其能為那些GPU資源相對緊張的AI實驗室提供支援 (AI寒武紀)