輝達H20也不能用了。中國大模型還能好嗎?能。就在今天,最新中國深度推理大模型升級更新,算力構成全國產化,在模型參數比業界同類模型小一個數量級的情況下,實現了整體效果對標業界最高水平。這就是訊飛星火,最新升級的推理模型X1。一方面是通用任務效果顯著提升,在通用任務效果評測中全面對標OpenAI o1和DeepSeek R1,尤其在數學、知識問答等方面表現突出。(測試集合來源:自建測試集主要來自真實的大模型請求任務資料,來源分佈包括訊飛星火APP、星火大模型API、業界主流任務資料等;公開測試集主要以數學、答題、推理、程式碼等外部典型測試集為主。)另一面值得關注的,它還是業界唯一一個基於全國產算力訓練的推理模型。在波雲詭譎的當下,尤其算力新一波打壓H20被禁之後,這樣的模型展現出來的效果和實力顯得尤為受到關注。此外,升級後的星火X1私有化部署簡便,定製門檻低——4張910B即可部署滿血版星火X1,16張910B即可完成行業定製最佳化,再次印證全端自主可控大模型,具備登頂高水平的實力和持續創新的潛力。星火X1升級:長思維鏈升級、快慢思考混合訓練此次訊飛星火X1升級的一大亮點在於長思維鏈。相信隨著推理模型的進展,大家對於長思維鏈有所感知。它可以在大模型處理複雜問題的時候,通過生成多步驟、連貫且細緻的推理過程來逐步解決問題的機制,而非直接輸出答案。這樣的一個過程,相當於讓模型來模擬人類面對複雜任務時的邏輯分解與遞進思考。通過“長思維鏈”,大模型正逐步逼近人類處理複雜任務的深度和靈活性,成為解決現實難題的重要工具。具體來看。首先讓星火挑戰一下基礎的深度分析、數學推理等任務。比如上周末在北京召開的機器人馬拉松大賽,對於具身智能行業股票有什麼影響呢?將這個問題拋給它。從思考到理解再到回答「行動」,整個不超過一分鐘。從答案上面看,它從技術突破、政策強化以及市場等維度來分析行業影響,並從短期、中長期給出了投資建議,算得上是一個很全面綜合的結果。再來看它的思考過程。首先它理解到了問題的意圖,並且使用「聯網搜尋工具」,然後就是它一整個分析過程。值得一提的是,旁邊有一條很清晰的思考脈絡,可以完整地看出大模型的思考步驟。這一點在當前推理模型中相對少見,但如果延伸到更多的應用場景其實是很關鍵的一環,尤其像一些醫療、教育、法律等這種對決策透明度和可靠性要求極高的場景中。它通過暴露中間步驟便於人類理解模型決策邏輯,來增強AI的可解釋性。要是發現某一步推理錯誤可以輔助診斷,幫助大模型在過程中不斷修正和迭代。那好,再來考驗一下它的數學邏輯推理題。據官方介紹,數學能力與o1、R1對標。一個外星人來到地球後,第一天有相等的可能選擇以下四件事中的一件完成:1,自我毀滅;2,分裂成兩個外星人;3,分裂成三個外星人;4,什麼都不做。此後每天,每個外星人均會做一次選擇,且彼此之間相互獨立,求地球上最終沒有外星人的機率。將這道題同時扔給星火X1和OpenAI的o1。先來看結果,兩個都答對了:√2-1,(o゜▽゜)o☆[BINGO!]。再來看他們分別的解答過程。o1給我一種很強的「炫技」之感,不管是思考還是解答過程都很簡單。而星火X1速度就慢了些,但它的慢是在於思考和解答步驟過於詳實:問題理解—分析思路—建立模型—遞推關係—計算期望和方差—極限行為分析—滅絕機率計算……從整個大框架看,每個步驟都有對應的解釋和解答,“不僅知其然,更知其所以然”。除了在這些深度分析、數學推理等基本任務上展現不俗的實力之外,星火X1在解決一些現實難題上還很「好用」。比如前陣子很火的懸疑推理劇王寶強主演的《棋士》,當時有個熱議情節:「崔業當棄子」,很多人糾結於是否是他主動選擇。把這個問題拋給星火呢?它給出的答案是主動選擇。嗯跟大多數懸疑迷的看法一致。除此之外,它還給出了犯罪路徑、人物的複雜抉擇以及人性博弈等等,有理有據。再來看一下法律問題,能不能難倒它:結婚時TA騙了我,能不能告TA騙婚?從思考過程上看,它引用了國內專業資料《民法典》和《刑法》,談到了騙婚如何界定,接著又給出了一些具體的執行建議。回答如下:可以看到的,此次從模型表現上以「長思維鏈」為亮點從而展現出了推理模型在解決日常難題上的可能性。那麼技術層面是如何做到的呢?那就值得說道說道。三大技術創新突破大模型能力邊界據科大訊飛透露,此次升級主要有三個方面的技術創新。首先是大規模多階段強化學習訓練方法。傳統強化學習常因訓練樣本量覆蓋度低及難度分佈不均導致模型“偏科”,而星火X1提出基於問題難度的大規模多階段強化學習框架,在複雜推理、數學、程式碼、語言理解等場景全面提升模型效果及泛化性;同時提出強化學習動態更新演算法,基於樣本採樣長度動態調整強化學習更新速度,進一步提升深度思考強化學習效率及效果——當採樣到超長邏輯鏈樣本時,自動提升梯度更新幅度,避免思維鏈過長帶來的更新過慢問題。其次是基於快慢思考的統一訓練方法。模仿人類“快思考(直覺反應)”與“慢思考(深度分析)”雙系統,星火X1通過快慢思考混合訓練技術,實現模型在速度與深度間的自由切換。快思考資料(如百科問答、即時翻譯)與慢思考資料(如數學證明、法律條文解析)混合訓練,使模型既能快速響應簡單指令,又能對複雜問題啟動“深度思考模式”。這樣一來,充分發揮快慢思考資料相互促進作用,實現基於系統指令控制模型是否深度思考,支撐下游更高效便捷地部署使用。最後就是工程技術系統上面的創新,來保障基於國產算力的高效長穩訓練。他們實現了多項創新,包括不限於視訊記憶體動態解除安裝技術、訓推共卡協同技術以及推理引擎冬眠機制——視訊記憶體動態解除安裝技術大幅提升長文字推理並行、訓推共卡協同實現高效訓推資源轉換、推理引擎冬眠機制實現快速拉起和恢復,從而實現國產算力平台上高效和穩定的強化學習訓練全流程。也正因這三大核心突破讓訊飛星火重新拓寬了大模型的創新邊界:以比業界同類模型小一個數量級的參數量實現了媲美頂尖模型的水平。最直觀的展現就是就是定製化部署成本和門檻的雙重降低,進一步實現AI行業普惠。當“輕量化”模型撕掉“高投入、高壁壘”的行業標籤,AI技術得以向中小微企業、個體開發者及公共服務領域加速滲透,更多行業場景都可以加速用起來。比如像教育、醫療、司法等場景,已經展現了領先於行業的水平。以司法場景為例,可以看到,針對一些專業需求,比如根據材料總結案件事實以及判決理由,星火X1可以詳細分析案件爭議點,快速定位材料中的關鍵資訊,精準輸出內容。為了讓更多企業使用更便捷,除了大模型本身,此次星火X1為AI落地提供了雙重支援。一個是快思考、慢思考統一模型的首發。一個模型支援兩種思考模型,可以滿足更多樣化需求,並且4張卡(華為910B)即可部署滿血版星火X1,私有化部署起來更加簡便。另一個則是模型定製最佳化工具鏈的全新升級,支援SFT、強化學習兩種模型定製最佳化方案,16張卡(華為910B)即可完成行業定製最佳化,定製門檻低。這樣一來,更多企業都可以用起來了。大模型的全國產化之路“枝繁葉茂並且生生不息”此次訊飛星火X1升級再次印證,全國產化之路正在枝繁葉茂並且生生不息。而且相較於從年初到現在頻頻的國產化進展,從DeepSeek領銜到現在火熱的人形機器人,訊飛星火所代表的全國產之路具備更深層次的產業意義。目前,在整個中國的大模型產業中還是主要依靠海外算力,國產算力平台尚處拓荒期時,多數企業因技術門檻高、投入風險大而卻步,科大訊飛作為先行者選擇了一條“硬核突圍”之路——時至今日,訊飛星火仍是唯一由全國產化算力平台訓練的通用大模型。我們都知道,由於要實現全端技術自研,從晶片指令集最佳化,到超大規模叢集穩定性保障,技術複雜度呈指數級攀升。對於企業而言,也是對長期投入的戰略定力的考驗,全算力國產化需要持續多年的高強度投入,多數企業難免更傾向於選用現成方案,這種路徑依賴導致其訓練算力環節始終受制於人。但一旦實現這種國產AI生態協同,就會產生遠超預期的“化學反應”。飛星一號、飛星二號就是例證。2023年10月24日,訊飛華為聯合發佈國內首個全國產算力平台"飛星一號"。隨後僅過去一年,國產超大規模智算平台"飛星二號"發佈。而訊飛星火作為底座模型能持續迭代並且達到業界一流水平,獲得行業玩家的青睞,背後也是有賴於全國產算力平台的保障。除了底座模型之外,一些創新性進展也在國產算力探索過程中迸發。最近有兩個進展就備受行業關注。一個是聯合華為率先實現國產算力叢集上MoE模型的大規模跨節點專家平行叢集推理。這是繼DeepSeek公佈其MoE模型訓練推理方案後,業界首個基於國產算力的全新解決方案。另一個則是“飛星一號”上實現MoE模型大規模專家平行叢集推理性能飛躍,並在近期實現了大規模專家平行叢集推理性能翻番,並且已逼近國產算力上MoE叢集推理的性能上限。如今在風起雲湧的通用人工智慧浪潮,科大訊飛董事長劉慶峰認為,有沒有自主可控的國產底座能力做支撐,這決定了我們在這條路上能走多遠,決定了在通用人工智慧這一波浪潮中,我們能不能享受這波紅利,能不能成為美國之後全球智慧湧現的第二極。AGI的前景迷人,但對於中國玩家來說,也必須放棄幻想——正如劉慶峰一直對外強調的,中國企業必須堅持自主可控的技術路線,不斷提升自身的技術實力,才能在未來的競爭中佔據有利位置。同時,產業分工更加明確,應用場景也將更加豐富,企業能夠從容應對外在各種不確定性。這是訊飛成立和發展壯大的核心原因,全球化不可逆,但這幾年的現實告訴我們,永遠需要有人隨時能做好備份和全自主模式。需要時刻準備著。 (量子位)