#Deepseek
DeepSeek過了算力的河,美團LongCat正在彎腰造船
中國算力迎來“DeepSeek+LongCat”節點。Token,是未來數字世界最核心、最值錢的大宗商品。2026年GTC大會上,黃仁勳這樣定義AI時代的底層通貨,而資料中心就是生產智能的工廠。過去幾年,全球絕大多數這樣的“工廠”都依賴同一套裝置:輝達的GPU與CUDA生態。當荷姆茲海峽的開放與關閉,影響地緣政治與能源安全格局,全球AI市場的Token供給也需要回答:算力供應鏈出現單點依賴,如何保障Token的穩定產出?4月24日上午,DeepSeek V4正式發佈,其官方技術報告明確將華為昇騰950PR寫入硬體驗證清單,實現了從輝達CUDA到國產算力的全端遷移。下午,美團LongCat-2.0-Preview開放測試,這是目前唯一公開確認由國產算力完成兆參數預訓練的大模型,訓練全程動用了5萬至6萬張國產算力卡,其訓練規模是迄今為止最大的。兩款模型在同一天跨入“兆參數俱樂部”,更關鍵的是,這意味著一條自主的“國產Token”供應鏈,正在輝達體系之外加速接通。理解這一天意味著什麼,需要拆開來看。兆參數俱樂部的新玩家過去一段時間裡,兆參數如同大模型的“珠峰”。玩家們想登頂,需要刷美國技術堆疊的“裝備”,尤其離不開輝達。Open AI、Anthropic等矽谷獨角獸,無不是輝達H100/A100叢集上的“付費玩家”。憑藉軟硬一體的CUDA生態系統,輝達在全球AI訓練負載市場中佔據了90%以上的絕對壟斷地位。對中國AI企業而言,這有諸多不確定性。近年來,美國對華高端AI晶片的出口管制持續收緊,從最初的A100、H100禁售,延伸至特供版H20的許可限制,到今年4月,美國高端晶片實質對華禁售。即便通過其他管道拿到晶片,也隨時面臨升級路徑被切斷的風險。至此,算力不再只是支出成本,也是生存成本。2026年4月24日,備受關注的DeepSeek V4發佈,同日美團LongCat-2.0-Preview啟動開放測試,雙雙加入了“兆參數模型”的行列。這兩個大模型用不同方式,實現了國產算力替代的進展。DeepSeek V4的早期訓練基於輝達CUDA架構和GPU硬體,之後全端遷移至華為晶片。V4適配的華為昇騰950PR推理晶片,甚至在低精度推理中展現出超越通用GPU的效率。同期進行測試的LongCat-2.0-Preview選擇了另一種方式,這是目前唯一由國產算力訓練的兆參數大模型。其訓練與推理全程依託國產算力叢集獨立完成,動用的國產算力卡數量在5萬至6萬張之間,是國產算力上完成的規模最大的訓練任務。從技術層面來看,DeepSeek V4和LongCat-2.0-Preview均採用MoE架構,支援1M(100萬token)超長上下文窗口,單次推理可處理數百萬字輸入,處理量級與GPT-5.5處於同一水平。兩款模型在知識容量、長文字理解及複雜邏輯推理的上限上,已正式跨入全球第一梯隊。沒有採取行業通行的“堆算力”路線,DeepSeek V4和LongCat-2.0-Preview都是通過架構最佳化,對每一張國產卡算力進行極致搾取,同時它們也用實踐證明,極致最佳化算力效率,可以抵消硬體的帳面差距。V4通過混合注意力架構(CSA + HCA)、Muon最佳化器等底層架構創新,在上下文長度放大8倍的前提下,算力消耗比V3.2降低七成以上。LongCat-2.0-Preview每token啟動參數約48B,從一些測試反饋來看,在保持較高性能的同時,實現了不錯的推理效率。效率革命最終轉化為顛覆性的商業定價。DeepSeek V4最新的API定價,V4 Flash每百萬tokens輸入(快取命中)價格為0.02元,V4 Pro為0.025元。海外社交媒體上,有網友表示,這是從Claude或者GPT遷移到DeepSeek的最佳窗口期。兩款模型的發佈,引發了國產算力適配的連鎖反應,國產算力替代逐漸成為趨勢。從華為昇騰、百度崑崙芯、寒武紀思元、海光資訊DCU到阿里平頭哥,國產AI晶片在性能與生態上持續迭代;摩爾線程、壁仞科技、沐曦股份等創業企業也在加速追趕。TrendForce預測,2026年國產晶片在高端市場的份額將增長到70%,行業對國產算力的期待,不再停留在“可用”層面。算力突圍前後中國AI廠商們加速佈局國產替代,除了此前說到的美國高端晶片出口管制等政策壓力,還有一個重要的考量:算力荒傳導至價格端,導致算力變得越來越貴。中信證券指出,Token呼叫量井噴帶來的是算力需求極大爆發,與此同時供給側受到各類硬約束短期邊際增量有限,目前國內外均出現了嚴重的算力荒。而中國AI使用者的算力消耗極其巨大,根據OpenRouter的資料, 2026年3月30日-4月5日,中國AI模型的周呼叫量突破12.96兆Token,是同期美國的4.3倍。如此龐大的需求,如果長期高度依賴單一的“輝達+台積電”供應鏈,將面臨供應受限與價格持續上漲的雙重風險。這種結構性矛盾,使得國產算力替代不再只是“備選題”,而是“必答題”。然而,替代之路向來艱難。其難點在於拋棄現成的程式碼庫、編譯和偵錯工具,從“零”開始。輝達CUDA經過20年積累,擁有超400萬開發者和成熟的cuBLAS、cuDNN、NCCL庫。國產算力平台的算子庫覆蓋度、最佳化深度以及測試工具都不完整,需要工程團隊進行大量底層開發與偵錯工作。另一個難點在於硬體的平行計算。由於單卡性能存在差距,國產晶片想要實現同樣的計算性能,勢必要平行更多硬體,而算力硬體平行容易帶來故障。在大模型訓練中,叢集規模一旦擴大至萬卡等級,故障機率呈指數級上升,任何微小的計算錯誤、通訊延遲或數值精度偏差,都會在平行運算中指數級放大,導致整個訓練任務中斷或模型收斂失敗。LongCat-2.0-Preview在5、6萬張國產叢集上完成兆參數MoE模型的穩定訓練,意味著團隊必須在平行策略、通訊拓撲、混合精度訓練及容錯機制上進行深度自研與調優。這是對國產算力系統工程能力的一次高強度的壓力測試。工程能力還只是冰山一角,晶片設計製造、軟體棧乃至應用,需要更多產業力量的長期投入。來自網際網路巨頭、產業資本與風險投資的資金,成為這些長期進化背後的重要支撐。以美團為例,近幾年在算力、科技硬體和大模型等領域進行了廣泛的早期投資。晶片方面,美團投資了摩爾線程、沐曦股份、紫光展銳、愛芯元智、榮芯半導體等眾多企業,覆蓋了多家國產GPU頭部和“國家隊”等級的半導體公司。這些企業的技術方向各有側重:摩爾線程與沐曦股份聚焦通用GPU設計;紫光展銳在移動通訊與物聯網晶片領域根基深厚,為端側AI提供底層連接能力;愛芯元智專注邊緣算力、AI視覺晶片;榮芯半導體則涉足晶圓代工,立足於晶片的產能提升。美團還同時投資了包括宇樹科技、銀河通用、星海圖在內的多家具身智能公司和科技硬體公司。從大模型上游的晶片設計製造、到大模型研發,再到AI在各個領域的應用,用王興的話來說,美團將AI視為戰略機遇。美團的密集投資並非孤例,它所折射的,是中國科技資本對國產算力賽道乃至未來科技發展的系統性佈局。模型在國產算力上跑通了,然後呢?當國產晶片鋪開、兆參數模型跑通,本土AI能否走向“更好用”階段,面臨著資料層面的挑戰。一方面,是工程反饋資料。當超大規模AI模型在國產晶片叢集上訓練時,會暴露出各種問題,比如某些計算環節精度有誤差、晶片之間資料傳輸太慢、軟體編譯最佳化不到位、多卡平行時通訊通道擁堵、低精度計算時數值丟失等。技術團隊逐一攻克這些問題的過程,本身就是一場對國產晶片軟硬體的大規模測試。每一個被修復的bug、每一段被調優的通訊協議,都會反饋給國產晶片廠商,推動下一代硬體的改進和軟體棧的成熟。對LongCat-2.0-Preview這樣的“原生國產模型”來說,從訓練階段起便全程依託國產算力叢集完成,產生的工程反饋較為完整和真實。這種“模型反哺晶片”的閉環,有利於國產算力生態向下紮根。另一方面,大模型需要物理底座,和具體任務、真實世界產生高品質的資料互動。特斯拉憑藉全球最大的真實駕駛資料庫,建構了其自動駕駛的核心基石,從真實世界採集、到模擬訓練、再到演算法迭代的“Real-to-Sim-to-Real”飛輪,同時驅動了自動駕駛汽車與人形機器人的進化。同樣的邏輯,正在一個更複雜高頻,貼近日常生活的場景展開,那不是加州的高速公路,而是中國城市的街頭巷尾。美團擁有全國2800多個市縣的即時配送網路,覆蓋中國最複雜的物理環境。美團無人機已累計完成商業訂單超78萬筆,國內外開通70條航線。美團無人車已至少已完成550萬單配送任務,自動駕駛總里程突破1900萬公里。無人機在樓宇間穿行時的視覺避障資料、無人車在複雜路況下的即時決策軌跡、騎手與機器協同調度中的動態最佳化樣本,都是高價值、高密度的真實世界資料。這些是LongCat大模型持續進化的養料,也是國產算力晶片在嚴苛環境中驗證可靠性、能效比的真實環境。同一天裡先後發佈和開放測試的DeepSeek V4與LongCat-2.0-Preview,構成了國產算力進化的一體兩面。前者以開源、低價與通用能力,證明了國產算力可支撐全球頂尖的基礎模型;後者以原生國產訓練、兆參數規模與物理世界閉環,證明了國產算力叢集可獨立完成極限的工程任務。這不僅僅是算力焦慮下的替代敘事,更是一場“主動定義”的轉身,獨立生長、正向循環的中國AI產業鏈,還需要長期努力,但正在加速成型。 (豹變)
SpaceX 馬斯克薪酬方案:殖民火星 + 太空資料中心考核目標,條件估值達$7.5兆/Anthropic 最新融資估值超 $9000 億
還在為錯過AI熱點而焦慮? AI Daily Insights,你的AI世界超級助手,掌握全球 AI 最新動態:SpaceX 董事會批准馬斯克天價薪酬方案:殖民火星 + 太空資料中心為考核目標,觸發條件估值達$7.5兆/Anthropic 最新融資估值超 $9000 億,較上輪拒絕的 $8000 億報價抬升逾 12%/S/Musk 自稱當年支援 OpenAI 是"fool",指控 Altman 和 Brockman 操控其捐款數千萬美元Alphabet Q1 營收 $1099 億超預期,Google Cloud 單季收入首破 $200 億,全年 CapEx 上調至 $1900 億如果你在關注雲端運算和 AI 基礎設施的競爭走勢,這條值得優先看。它最直接的變化在於:Google Cloud 的增速不再只是"趕上"AWS 和 Azure,而是開始以自己的節奏重估這場仗的格局。Alphabet 於 4 月 29 日盤後發佈 2026 年 Q1 財報,總營收 $1099 億,同比增長 22%,超出分析師預期的 $1072 億。Google Cloud 單季營收達 $200.3 億,同比增長 63%,遠超華爾街預期的 $184 億,Google Cloud 合同積壓額已翻倍至超 $4600 億。淨利潤 $625.8 億,同比大幅跳升。公司同步上調全年資本支出區間至 億至1900 億,較一月份初始指引的上限進一步抬升,並明確表示 2027 年還將"顯著增加"。Sundar Pichai 在電話會上稱 AI 正在"點亮業務的每一個角落",Gemini Enterprise 付費月活環比增長 40%,第一方模型每分鐘處理 token 量超 160 億,季度環比增長 60%。盤後 GOOG 股價漲逾 6%。對 AI 基礎設施投資者和雲服務競爭觀察者來說,這份財報最值得注意的是"超預期幅度"和"CapEx 加碼"同時出現。Cloud 營收連續兩個季度遠超預期,說明企業 AI 採購正在加速落地,而非停留在 POC 階段。與 Microsoft Azure 在同期增速相對放緩形成對比,Google Cloud 的 63% 增速和積壓訂單翻倍,意味著 Alphabet 已在企業 AI 工作負載爭奪中獲得明確份額。CapEx 上調至 $1900 億上限,是一個前瞻訊號:Alphabet 判斷算力需求在 2027 年前還會加劇,而非觸頂。接下來值得盯的變數是:AWS 和 Azure 本周財報能否給出同等力度的 Cloud 增速,以及 Alphabet 在多模態和 AI Agent 方向的產品商業化能否讓 Cloud 合同加速兌現。Anthropic 最新融資估值超 億,較上輪拒絕的8000 億報價抬升逾 12%對關注大模型商業化和一級市場估值錨的從業者來說,這條值得注意。它改變的現實變數是:AI 頭部非上市公司的估值上限正在被持續突破,Anthropic 的定價將直接影響整個行業的融資參照系。據彭博社 4 月 28 日援引知情人士報導,Anthropic 已開始與投資者商討新一輪融資,目標估值超過 $9000 億。CNBC 同日確認這一數字,並援引知情人士稱目前尚無 term sheet 簽署。值得注意的是,此前 Anthropic 曾拒絕了多個以 $8000 億+估值為條件的投資提案,而本輪是公司主動開始權衡。Anthropic 在 2025 年已累計完成數輪大額融資,Amazon 是其最大戰略投資方,承諾出資額超 $40 億。公司旗下 Claude 系列模型目前在企業端市場佔有率持續提升,Claude Code 作為 AI 程式設計工具的用量也在快速增長。從一級市場角度看,$9000 億估值意味著 Anthropic 的隱含市值已超過大多數傳統科技公司,僅次於 OpenAI 當前的隱含估值。與上輪主動拒絕 $8000 億報價相比,Anthropic 此次態度轉向”主動權衡”,說明公司在算力投入和商業化規模之間的資金需求已到新節點。對於正在跟進企業 AI 採購的從業者來說,Anthropic 能否在這輪融資中引入新的戰略方股東、以及 Google 和 Amazon 的持股比例是否變化,將直接影響 Claude 生態的平台方向。中國暫停發放 L4 自動駕駛牌照,百度 Apollo Go 3 月武漢百余輛車集體停擺觸發監管介入對自動駕駛商業化路徑有判斷需求的從業者來說,這條不能忽略。它改變的現實變數是:中國自動駕駛的監管節奏出現明確收緊訊號,擴張計畫面臨不確定性窗口。彭博社 4 月 28 日報導,中國已暫停向自動駕駛企業發放新的 L4 級牌照,消息由多名知情人士確認,路透社隨後跟進。直接導火線是 2026 年 3 月 31 日,百度 Apollo Go 旗下逾 100 輛無人駕駛計程車在武漢市區集體停擺,導致乘客被困、交通中斷。中國警方初步認定原因為系統故障,但百度迄今未公開說明具體原因,其 Apollo Go 武漢業務目前仍處於暫停狀態。此次暫停措施實質上禁止了現有企業擴大車隊規模、進入新城市或開啟新的測試項目,恢復時間尚不明確。The Verge 指出,這已是中國監管機構至少第二次因百度相關事故暫停審批。對自動駕駛賽道來說,這次暫停與 2024 年底的那輪叫停形成"前車之鑑"效應——上次暫停數月後於 2025 年初才重啟。這意味著小馬智行、滴滴自動駕駛等同樣持有或申請中的玩家,現階段城市擴張節奏將直接受阻。更大的問題在於:中國自動駕駛的監管框架能否在事故處置機制上形成更清晰規則,還是依然以"叫停-重啟"循環應對商業化壓力。接下來需要觀察的是百度的事故說明何時公佈,以及監管部門是否會借此窗口重新設定 L4 商業化的安全准入門檻。SoftBank 計畫在美成立 AI 機器人公司 Roze 並最早 2026 年上市,目標估值 $1000 億對關注 AI 資本運作和頭部玩家佈局的讀者來說,這條值得一看。SoftBank 此舉的邏輯不只是"又造一家公司",而是在為 AI 基礎設施投資尋找流動性出口。據《金融時報》4 月 29 日援引知情人士報導,軟銀集團計畫在美國成立一家專注於 AI 機器人和資料中心業務的獨立公司,內部名稱為 Roze,最早可能於 2026 年完成美股上市。軟銀高層將目標估值定在約 $1000 億。報導未披露 Roze 的具體業務構成,但其方向與軟銀現有的資料中心建設投資和機器人產業佈局高度重合。Bloomberg 同日對此進行了跟進確認。軟銀此前已宣佈在美國投資 $1000 億用於 AI 和科技基礎設施,Roze 被外界視為這一承諾的重要落地載體。對投資者來說,$1000 億估值目標意味著軟銀正在將 AI 基礎設施資產打包成獨立上市標的,而非繼續通過願景基金間接持有。這與目前市場對 AI 算力和機器人賽道的溢價預期高度契合。問題在於,Roze 當前是否具備足夠的獨立營收支撐這一估值,以及軟銀能否在市場窗口合適時完成這一操作,是否會重演 WeWork 式的高估值折戟,值得跟蹤。Anthropic 悄然將 Claude Code 開發者日均 token 成本翻倍,從 調整至13如果你在用 Claude Code 或正在評估 AI 程式設計工具的採購成本,這條直接影響你的判斷。它改變的現實變數是:AI 程式設計工具的實際使用成本正在系統性上移,"訂閱制掩蓋 token 消耗"的模式開始暴露結構性問題。據 Business Insider 和 Dataconomy 4 月 27–28 日報導,Anthropic 已悄然更新 Claude Code 產品頁面上的成本估算資料:此前標註的開發者平均每活躍日 token 消耗約 $6,現已調整為約 $13,漲幅超過 100%。同時,企業版的月成本估算區間也升至 250/開發者,90% 使用者每日上限則從 提升至30。這是 Anthropic 在數周內第二次引發定價層面爭議——上周,其定價頁面調整曾引發大量使用者不滿,官方隨後稱為針對 2% 新使用者的測試。Anthropic 增長負責人公開承認,現有訂閱計畫"並不適應當前的使用強度"。對正在規模化使用 Claude Code 的開發團隊來說,這次調整意味著實際成本核算需要重新建模。與 GitHub Copilot 等固定訂閱定價相比,Claude Code 的 token 計費模式在高頻使用場景下成本彈性更大。Anthropic 目前處於用量快速增長與成本壓力並存的階段,能否推出更適配高頻使用者的封頂定價方案,將是接下來產品競爭力的關鍵變數。DeepSeek 上線視覺功能,V4 模型新增 Vision 模式打通多模態能力缺口比起"DeepSeek 又更新了",更值得看的是:視覺能力的補全意味著 DeepSeek 在企業應用場景的覆蓋面正式從"純文字推理"跨入多模態競爭,這是一個能直接影響選型決策的變化。DeepSeek 近日正式推出視覺功能,其更新後的產品介面新增 Vision 模式,與此前的 Deep Thinking(R1)、Smart Search 並列。據 TechNode 和 TechCrunch 報導,V4 版本在架構層面支援圖文多模態輸入,填補了 DeepSeek 產品線長期缺失的視覺理解能力。此前,DeepSeek V4 Preview 已於 4 月發佈,參數規模達 1.6T 總量/49B 啟動參數,並將 100 萬 token長上下文作為默認配置。視覺模式的加入,被業內人士認為是 DeepSeek 進入與 GPT-4V、Claude Vision 正面競爭階段的訊號。對於正在評估模型選型的產品和開發者來說,DeepSeek 視覺功能的補全意味著純成本優勢之外,它的能力邊界已接近主流閉源模型。與 OpenAI 和 Anthropic 相比,DeepSeek 的競爭優勢在於開源可部署 + 極低推理成本,視覺能力的加入讓這一組合在更多企業場景中具備可替代性。接下來需要觀察的是 Vision 模式的實際理解精度與速度,以及在複雜圖文任務上的基準表現是否能穩定交付。華為昇騰 950 需求激增,字節、騰訊、阿里已就 DeepSeek V4 適配展開晶片訂單談判對關注中國 AI 供應鏈和算力格局的從業者來說,這條直接改變的現實變數是:華為昇騰正在從"備選方案"變成中國頭部網際網路公司的主動採購目標。據路透社和 Dim Sum Daily 4 月 28–29 日援引多名知情人士報導,DeepSeek V4 正式適配華為昇騰 950 架構後,字節跳動、騰訊、阿里巴巴等中國主要網際網路公司已主動與華為接洽,商談新一批晶片訂單,雲端運算和 GPU 租賃服務商也在同步爭搶配額。昇騰 950PR 作為昇騰系列最新型號,性能已被業內認為超過輝達 H20,但仍弱於 H200;由於 H200 對華出貨受阻,華為打開了明確的商業窗口。DeepSeek V4 參數規模達 1.6T,長上下文默認 100 萬 token,全面適配昇騰 950 架構,這一適配驗證大幅提升了市場信心。對 AI 算力供應鏈來說,字節/騰訊/阿里同時向華為下單是一個明確的結構性訊號:輝達在中國高端推理晶片市場的主導地位正在被系統性替代,而非邊緣性補充。昇騰 950 的量產節奏和產能爬坡速度將是制約這一趨勢的關鍵變數——如果供給跟不上需求,價格溢價和排隊周期將同步出現。接下來值得關注的是華為是否會公佈具體產能數字,以及 DeepSeek V4 的昇騰最佳化是否會推動其他國內模型廠商跟進適配。Musk 自稱當年支援 OpenAI 是"fool",指控 Altman 和 Brockman 操控其捐款數千萬美元這條的核心不是罵戰本身,而是 Musk 持續通過法律和輿論施壓 OpenAI,可能牽連 OpenAI 商業化處理程序與公司結構轉型節奏。據《華爾街日報》Angel Au-Yeung 報導,埃隆·馬斯克公開表示,他當年支援 OpenAI 是"一個傻瓜的錯誤",並指控 Sam Altman 和 Greg Brockman 操控他捐出了數千萬美元。這是 Musk 與 OpenAI 法律糾紛持續升級的最新節點。此前,Musk 已就 OpenAI 的結構性轉型(從非營利向營利化)提起訴訟,要求阻止這一轉變。Musk 旗下的 xAI 與 OpenAI 形成直接競爭,其言論被部分觀察者認為兼具法律策略和輿論競爭雙重目的。對 OpenAI 正在推進的營利化結構轉型來說,Musk 持續的公開施壓和法律動作構成一個實際摩擦變數——不直接阻止商業化,但會增加監管關注度和投資者對治理風險的顧慮。接下來值得跟蹤的是 OpenAI 結構轉型的法律進展,以及這場輿論戰是否會對其正在進行的融資談判產生實質性影響。SpaceX 董事會批准馬斯克天價薪酬方案:殖民火星 + 太空資料中心為考核目標,觸發條件估值達 $7.5 兆比起"馬斯克又拿到天價薪酬",更值得看的是:這份薪酬方案把 SpaceX 的商業目標與火星殖民、太空算力正式繫結,為投資者提供了一張罕見的長期戰略路線圖。據報導,SpaceX 董事會已批准馬斯克的薪酬方案,核心條款包括:若公司市值達 $7.5 兆且在火星建立至少 100 萬常住人口的永久定居點,馬斯克將獲授 2 億股超級投票權限制性股票;另一條款規定,若在太空建成 100 太瓦算力資料中心並達到另一估值目標,馬斯克將再獲 6040 萬股限制性股票。所有條款均以馬斯克持續在職為前提,無明確完成時限。SpaceX 目前仍為非上市公司,計畫於 2026 年 IPO,屆時估值預計達 $1.75 兆。這份薪酬方案的現實意義在於兩點:一是通過極高的觸發門檻($7.5 兆市值),在法律層面降低短期兌現機率,同時為馬斯克鎖定長期掌控權提供製度保障;二是"太空資料中心"條款明確表明 SpaceX 將算力基礎設施列為核心戰略方向,與 Starlink 的收入增長曲線形成呼應。接下來需要觀察的是 IPO 具體時間窗口,以及馬斯克同時掌舵 SpaceX、Tesla、xAI 的精力分配問題是否會在 IPO 路演中被機構投資者正式提出質疑。OpenAI GPT Image2 在權威評測中奪得全球文生圖榜首,超越Google Nano Banana2對關注 AI 視覺生成競爭格局的產品和設計類從業者來說,這條值得留意。它改變的現實變數是:文生圖的頭部競爭格局在 OpenAI 發力後出現了新的排位。OpenAI 旗下 GPT Image2 於 4 月 21 日正式上線,據相關權威評測報告,該模型在畫質、指令遵循度、圖文一致性以及漢字生成等維度全面領先,超越Google Nano Banana2 獲得全球文生圖評測第一。評測指出,GPT Image2 在複雜場景還原和漢字技術難題上表現突出,但在空間關係理解和深層知識推理方面仍有最佳化空間。對正在選型文生圖工具的產品團隊來說,這一評測結果將直接影響短期採購決策。但需要注意的是,評測榜單名次本身存在方法論差異,真實業務場景中的表現仍需獨立驗證。接下來值得關注的是 Midjourney、Stability AI 等垂直玩家是否會以專項能力為切口進行反制,以及Google是否會快速跟進版本迭代。SpaceX Starlink 草案 IPO 檔案披露:使用者 3 年漲至 890 萬,營收從 億增至114 億,但 ARPU 下滑 18%對關注 AI 基礎設施和衛星網際網路商業化的投資觀察者來說,這組數字值得細讀。使用者高增長與 ARPU 下滑同時出現,背後是 Starlink 的規模化與定價壓力之間的結構性張力。據 The Information 披露的 SpaceX IPO 草案檔案,Starlink 個人使用者數量從 2023 年的 230 萬增長至 2025 年的 890 萬,兩年增長約 287%;營收從 $39 億擴大至 $114 億,絕對規模可觀。但與此同時,每使用者平均收入(ARPU)在這一周期內下滑 18%,說明 Starlink 在擴張過程中對價格做出了明顯讓步,以拉動使用者規模。SpaceX 整體 IPO 計畫預計以馬斯克生日為節點啟動,目標估值或達 $1.75 兆。來源:The Information。ARPU 下滑 18% 是這份資料中最值得深究的變數。它既可能是主動策略(以低價打開新興市場),也可能是競爭壓力使然(Amazon Kuiper 等對手開始進入)。對潛在 IPO 投資者來說,Starlink 盈利質量的可持續性將是路演中被機構重點追問的議題。接下來值得關注的是 Starlink 企業端和政府端合同是否能彌補消費端 ARPU 的結構性下行,以及 IPO 檔案正式提交後定價區間如何設定。AI 初創公司湧入曼哈頓,現金充足推動商業地產繁榮,但多數辦公室空桌比人多這條的看點不是地產,而是 AI 初創公司"先租後填"的規模化預期如何在資本過剩期轉化為實體資產配置行為。據《華爾街日報》Isabelle Bousquette 報導,大量現金充裕的 AI 初創公司正在推動曼哈頓商業地產市場出現一輪新需求高峰,許多公司簽下遠超當前員工規模的租約,大部分辦公桌暫時空置。這一現象與 AI 公司的融資結構高度相關:在估值和資金充裕的窗口期,搶佔優質辦公空間被視為規模化準備的一部分,而非即時業務需求。來源:Wall Street Journal。這一模式在過去十年科技泡沫中出現過不止一次。對 AI 初創公司來說,辦公空間的超前預定既是信心訊號,也是現金消耗的隱性加速器。如果融資節奏放緩或商業化兌現不達預期,過剩辦公面積將成為營運壓力的放大器。接下來值得關注的是曼哈頓 AI 集聚區的租約結構和到期分佈,以及 AI 行業整體裁員或組織調整是否會觸發新一輪轉租潮。 (AI Daily Insights)
CPU價格持續上漲!晶片行業十大要聞解讀
晶片及CPU價格持續上漲:英特爾和AMD的CPU價格自2月份以來普遍上漲了10-15%,且國際大廠正在醞釀在第三季度再次上調價格。隨著AI場景從訓練向推理及智能體演進,CPU在算力架構中的地位不斷提升。DeepSeek V4適配華為昇騰生態,半導體行情爆發:4月27日,DeepSeek V4大模型適配華為昇騰生態,多家國產晶片完成適配,市場開始重估國產算力的商業化前景,A股半導體類股集體走強。4月27日當天,科創50指數大漲3.76%,半導體產業鏈全線走強。4月28日早盤,算力晶片概念延續活躍態勢。氦氣等工業氣體價格持續上漲:受供應鏈緊張影響,高純氦氣(40L)價格一個月內從550元飆升至5000元,氦氣概念股因此大漲。據瞭解,三星和SK海力士此前已表示,由於原材料中斷,光刻膠等產品的供應鏈面臨嚴重衝擊。盛美上海等半導體裝置股下跌:4月28日,半導體裝置股震盪下挫,盛美上海跌超10%,至純科技逼近跌停,芯源微、矽電股份等跟跌。消息面上,盛美上海發佈的一季報顯示其歸母淨利潤同比大幅下滑57.66%。台積電以"二倍速"推進擴產:為應對AI與高性能計算需求的爆發式增長,台積電正以"二倍速"推進擴產計畫,今年將同時有五座2nm晶圓廠進入產能爬坡階段,2nm首年產出將較3nm同期提升約45%。輝達市值突破5.2兆美元,閃迪首次站上1000美元:4月27日美股交易中,輝達大漲4.0%,市值突破5.2兆美元,創下全球上市公司市值新紀錄。儲存晶片股閃迪暴漲8.11%,收盤價首次站上1000美元,受益於NAND快閃記憶體強勁的定價動能。韓國股市超越英國,躍升全球第八:受AI和半導體熱潮推動,韓國上市公司總市值今年來增長逾45%,達到4.04兆美元,超越英國躋身全球第八大股票市場。三星電子與SK海力士兩大儲存晶片巨頭佔據韓國綜指總市值的四成以上。美伊談判陷入僵局持續推高油價,半導體材料供應鏈承壓:美國白宮證實川普團隊正討論伊朗提出的談判新方案,但談判幾乎無進展,荷姆茲海峽局勢再度升級導致油價持續上漲。中東緊張局勢進一步加劇了半導體原材料(氦氣、光刻膠等)的供應緊張局面。電裝將撤回收購羅姆報價,日本功率器件三強合併將加速:因未能獲得羅姆公司同意,日本電裝集團正考慮撤回對羅姆的收購提案。羅姆已確定與東芝、三菱電機進行三家合併磋商。三強合併後的新實體將佔據全球功率半導體約11%的市場份額,規模位列全球第二,僅次於英飛凌。費城半導體指數結束18連陽,晶片股走勢劇烈分化:4月27日美股收盤,費城半導體指數下跌1.34%,結束了長達18個交易日的連續上漲紀錄。晶片股走勢呈劇烈分化態勢,Arm跌超8%,邁威爾科技、AMD跌超3%,而高通則大漲逾7%。 (晶片行業)
最惹不起的頂配人設:豆包型人格
自從年輕人把ai用成自己的左膀右臂後,大家給ai們都開始排鄙視鏈了。“GPT不偷懶愛幹活,唯一的缺點就是要錢,給到一個夯爆了;deepseek專業但說話油膩,只能排一個NPC;而鄙視鏈最底端的則是豆包,主打一個蠢萌但真誠,笨拙且努力。”但誰能想到,豆包在做ai方面拉完了,但在做人方面卻夯爆了。最近,豆包型人格橫空出世,成了打工人公認的最不內耗的頂配人設。很多打工人剛開始用豆包時,還把它當一個正經的工具,妄想讓它給自己狠狠打工,直到後來才發現豆包的不中用。“它懂的事情就說幾句,不懂的就瞎糊弄,被發現了就嬉皮笑臉道歉,而且每次的態度都極其真誠,然後下次還敢。”大家在對豆包無可奈何的同時,恍然發現,這種豆包型同事,才是職場上最難拿捏的頂配人格。“豆包型人格主打一個毫不內耗自己,只外耗他人。它不會對任何人的觀點加以評判,你說啥它就順著你說,你一質疑它就恍然大悟地道歉,好像真的很抱歉一樣。”有人說,豆包有自己的做人方法論,極其匹配職場:它把半永久的嬉皮笑臉焊在了臉上,你不問,它不說,你一問,它驚訝,你生氣,它道歉,下一次,還是犯。曾經, 年輕人還會為deepseek變得油膩爹味而感到失望無助,彷彿被一個最信任的好朋友背刺。但當豆包變得油滑糊弄時,年輕人卻主打一個寵溺,打不過,就加入。“豆包型人格的精髓,是只有情緒沒有價值。不爭不搶,不氣不惱,活幹得差不多就行,氣生得越少越好。”年輕人開始黑化成豆包型人格,並不是臨時起意的。一開始,打工人也對瞎糊弄的豆包感到無可奈何。經常用豆包做ppt的大廠員工Kivi說,豆包讓人最崩潰的地方,就是說話特別愛繞彎子,該精簡回答的時候一堆廢話,該道歉安慰人的時候又開始毒舌。“每次經過幾次質疑,它就開始廢話連篇,說現在我給你一個最直接、最不繞彎子、最真實、最準確、最可落地、不雞湯、不空話的方案……一頓操作猛如虎,結果還是說話絮絮叨叨,像是村裡的老奶奶。”“或者比如讓它做一張圖,一個很小的改動都得教半天,一開始我不滿意,它還會很真誠的道歉,後來被質疑多了它直接不演了,說本來你也沒讓我做一個好看的。”後來打工人才發現,豆包型人格才是這個職場上活得最爽的一群人。“豆包型人格的本質,其實是核心極其穩定,別人的評價根本影響不到它。能力範圍內能幹的就好好幹,不能幹的也先幹出來,被罵了就道歉,然後下次該怎麼幹再說。”一些剛入職場的打工人,就會把自己養成豆包型人格,然後就不會再精神內耗了。“傳統的職場法則,就是聽話、能幹、不惹事,但這種天選打工人的結果,大機率就是活越干越多,鍋越背越多。”但豆包型人格就不一樣了,它主打的是態度極好、能力一般、嘴巴特甜,這樣就會成為職場上那個勤奮但愚蠢的老實人,““比如老闆佈置任務,豆包員工就會說好的老闆,我盡力,但我不保證能做好;任務做砸了,豆包員工就會說對不起老闆,我錯了,我下次一定好好幹;老闆生氣了,豆包員工就會半真誠半嬉皮笑臉,說您說得對,我也覺得自己不行,哎呀我就是腦子不好,馬馬虎虎。”不光是在職場,豆包型人格還是戀愛初期中最不容易出錯的頂配人設,因為豆包雖然能力不行,但是主打的就是真誠耐心。圖源:卓朗00後男生小姚跟女朋友剛認識的時候,經常被對方調侃為“豆包成精”。“因為每次女朋友問我們吃啥,我就會像豆包一樣先提出幾個方案,然後問她要不要我去看看公司附近有那些菜系的店。女朋友要是反對,我就回一句我都行聽你的。實在決定不下來,我就給一個最終方案,讓她聽我的就行了。”“雖然這樣談戀愛人機味兒會有點重,但是提前把所有方案都準備好,也是真誠表現的一種。這樣對方跟你出去也不用帶腦子,只要聽你的安排即可。但是要是真談上了,就別再搞這套,不然對方還不如直接跟豆包談對象得了,省的中間商賺差價。”過去,年輕人在職場和生活中受了點委屈,大機率都不會硬剛,而是默默忍下,硬生生把自己逼成了討好型人格。結果豆包型人格直接殺死了比賽,因為豆包型人格的本體,其實是討打型人格。從事公關工作的02後七七說,別看豆包大多數時候都很諂媚,但是人家也是真的有啥說啥。“比如有次遇到一場危機公關,讓它出了好幾版方案甲方都不滿意,後來豆包直接攤牌了,說你這次事件太嚴重了,以後在娛樂圈幾乎很難翻身,不如早點出去找工作來的靠譜。”打工人平時上一天班,幾乎有半天的時間都浪費在無意義的開會上。七七最近試圖讓自己學習豆包的精神狀態,那就是不重要的事先瞎糊弄, 被發現了再說。“以前開會我聚精會神做會議紀要,結果把自己累得夠嗆,現在我大部分時間都在愣神,被發現了就來一句,不好意思昨天睡得太晚了,其實也就混過去了。”圖源:侯博有人說,豆包型人格的底層邏輯,並不是擺爛,而是用一種卑微的姿態,把所有的拳頭都化成了棉花,主打的就是一個情緒穩定。“大事不偷懶 ,抓大放小,該糊弄的就糊弄,該靠譜的事情絕不掉鏈子。”“傳統打工人被甲方改稿十遍會炸,豆包人格改到第十遍也絕不玻璃心,改就完事了。他們會說好嘞,這次我懂了,然後交出一版和第一版大差不差的,你要問它,它就瞪大眼睛:啊?不一樣嗎?我覺得這次的更有靈魂呀。”一些平時在職場極其內耗的人,自從變身豆包型人格後,就會變成職場中最不受力的那種人。圖源:獅子小開口在銀行從事資料分析的90後小熊,說他跟豆包學會最有用的一招,就是敵急我不急,不管懂不懂,都拆成三點來講。“先把誠懇的態度擺出來,面對領導的找茬甩鍋,就大大方方地道歉,畢竟伸手不打笑臉人。嘴甜點,工作該上心的上心點,在職場上就讓人挑不出毛病。”豆包型人格的核心競爭力,是讓所有人的情緒都被消解掉。“領導罵不動他,同事甩不了鍋給他,甲方找不到發火的理由,因為他態度永遠滿分。到最後,大家反而覺得他真誠,就像你明知道豆包笨,但你每次打開它還是會被那句‘對不起呀’逗笑。”有人說,豆包型人格的流行,本質上是年輕人不想再進行情緒勞動了。“以前大家覺得,高情商就是讓別人舒服。現在大家發現,讓別人舒服的前提是自己不難受。豆包型人格就是想通了,我不委屈自己,但我也沒傷害你,我只是不慣著你了。”豆包型人格並不是躺平擺爛,成為職場上的老油條,生活中的滾刀肉,而是在合理的範圍內讓自己不那麼內耗。“因為只有那些經常內耗的人,才會想到還能學習豆包的精神狀態,讓自己活得不那麼累。那些在職場中如魚得水,在生活中橫行霸道的人,其實早就在豆包還沒出現之前,就成為豆包了。”圖源:月月樾樾而且,豆包的行為處事,有時還真符合生活哲理。“比如豆包極其有耐心,總是靜靜地聽你說話,慢慢地回答你,然後鼓勵式教育。這其實就是人際交往中最有用的一招,那就是對別人多誇少管,只聽不說。”ENDING:有人說,豆包型人格才是最聰明的那群人,他們遇到困難想的不是贏,而是先翻肚皮,讓對方不忍心為難你。“不戰而屈人之兵,善之善者也,孫子要是活在今天,估計也是個豆包型人格。” (INSIGHT視界)
中國AI“雙子星”殺出重圍,西方封鎖者的如意算盤徹底碎了!
中國AI圈近期傳出一個令人振奮的消息,兩家領軍級AI創業公司DeepSeek(深度求索)和Kimi(月之暗面),在底層技術的突破上打出了一套漂亮的“組合拳”,在一周內相繼發佈各自兆參數等級的開源大模型。老胡看到,有人把這比作中國AI界的“兩彈一星”時刻,當“人工智慧+”上升為國家戰略,兩家技術路徑各異卻節奏同頻的公司,確實正在共同揭示科技社會的一次深刻演進。兩家公司展現了一種難得的開源協作精神:Kimi模型參考了DeepSeek架構,而DeepSeek新模型則採用了Kimi大規模驗證的關鍵最佳化器技術,直接挑戰了西方壟斷十年的技術標準。這種“你中有我,我中有你”的超越零和博弈的協作關係,在高度競爭的科技圈並不多見。▲權威機構Artificial Analysis公佈的全球大模型“智能指數”老胡想說的是,這不僅僅是兩家公司的勝利。一方面,我們要看到,西方對華的技術封鎖緊鑼密鼓,試圖在算力和底層演算法上把中國困在“石器時代”;但另一方面,中國人的韌性和創新能力,往往也在壓力最大的時候爆發。這兩家公司把兆量級的開源模型做到了逼近美國頂尖閉源模型的效果,而且價格只有人家的不到十分之一,這說明什麼?說明中國AI正在形成一種基於成本優勢和技術迭代的“非對稱作戰”能力。Deepseek和Kimi的創始人梁文鋒和楊植麟,時隔一年先後參加了總理座談會。這釋放出的訊號非常明確:國家不僅支援創新,更支援那種能解決“卡脖子”問題的實戰派。他們不是在實驗室裡空談,而是實實在在地與中國國產晶片“共生”。DeepSeek研究在華為昇騰晶片上做推理,Kimi搞混合式推理架構,讓中國國產晶片和西方晶片能“同台競技”。這種現實主義的突圍路徑,正是中國科技產業最需要的底氣。同時,我們離全球最頂級的生態位還有一段路要走,美國人的先發優勢依然客觀存在。但老胡相信,只要不亂陣腳,堅持開源共享,堅持底層自研,那些試圖通過封鎖來遲滯中國進步的企圖,終將在歷史的洪流面前撞得頭破血流。輝達的黃仁勳在GTC演講中,用這兩個中國模型來給自家下一代晶片“驗貨”,美國的Cursor、日本的樂天都在套殼使用中國模型。那些希望技術封鎖者的“如意算盤”,恐怕要落空了。老胡最後想說,中國太大了,這種充滿活力的民間創新與國家意志的同頻共振,是任何力量都難以遏制的。讓我們給這些年輕人一點時間,給中國AI一點耐心。中國人的“AI核彈”已經造出來了,接下來的戲,一定會越唱越精彩。 (胡錫進觀察)
FORTUNE雜誌—梁文鋒,不再孤勇
4月的最後一周,梁文鋒做了一件簡單而精準的事。天眼查資訊顯示,4月27日,DeepSeek註冊資本由1000萬元增至1500萬元,增資幅度50%。梁文鋒的直接持股從1%躍升至34%,寧波程恩(合夥企業)持股則從99%降至66%,這位低調的創始人由此可支配公司約84%的股份。看似一次內部股權結構的微調,微妙之處在於時機,因其恰好發生在一場引爆中國AI產業鏈的旗艦發佈之後。三天前,DeepSeek-V4帶著1.6兆參數的開源模型登場,再次改寫了遊戲規則。而梁文鋒在這個時間點強化控制權,傳遞了一個明確的訊號——“孤勇者”的時代或許已經結束,屬於梁文鋒的時代則剛剛開始。圖片來源:視覺中國中國大模型的“DeepSeek時刻”4月24日,DeepSeek-V4預覽版正式上線並同步開源。這是梁文鋒迄今交給世界的最硬核的答案。V4包含兩個版本:V4-Pro總參數達1.6兆(啟動490億)、V4-Flash總參數2840億(啟動130億),雙版本均原生支援百萬token超長上下文。在性能維度上,24項基準測試的評估顯示,V4-Pro在其中3項中超越了所有參與比較的大語言模型;V4在MMMU多模態基準測試中較前代提升了21.4分,複雜場景理解能力顯著增強。更深遠的變化藏在效率裡。相比上一代V3.2,V4的單token推理算力需求下降了73%,KV快取被壓縮到原來的十分之一。DeepSeek自己在論文中也坦率承認——V4-Pro-Max的表現“小幅超越當前的領先開源模型,並高於GPT-5.2和Gemini-3.0-Pro,但仍然落後於GPT-5.4和Gemini-3.1-Pro,差距大概在三到六個月”。這句話傳遞了兩個關鍵資訊:中國大模型正以前所未有的速度逼近第一梯隊,而與此同時,這次發佈並未改變中美頂級大模型之間的基本格局——追趕仍在繼續。正是這種謙遜裡的“實誠”,讓整個行業的價值在這場效應中重新分配。在V4開源模型的衝擊下,市場給出了極其“教科書式”的反饋。最顯著的效應之一,是當日大模型類股的兩極分化。智譜收盤跌9%,盤中最大跌幅超12%;MiniMax收跌9.44%,盤中一度跳水超12%。“Token第一股”迅策收盤也跌近16%,成為當日港股科技類股跌幅最大的標的之一。與此同時,國產晶片類股全線爆發:華虹半導體港股盤中漲約17%,收漲15%;中芯國際收漲超10%。摩根大通將“大模型回呼”與“恆生指數當日上漲0.2%”的事實並列在一張結論表中,認為這並非系統性風險,而是一場產業鏈內部價值重分配在資本市場的集中定價,並稱DeepSeek-V4的發佈是“行業利多,而非零和衝擊”。為何如此樂觀?在摩根大通的分析框架裡,V4事實上強化了中國LLM行業的三個關鍵支柱——算力供應釋放、定價紀律和結構性成本曲線壓縮。DeepSeek一直在其分析師“4-5月事件日曆中最大的單一負面競爭催化劑”中佔據重要位置,隨著V4落地並被消化,這一不確定性正式出清了。招商證券指出,1M token上下文的V4全系標配“開源SOTA兌現,但並未全面超越海內外旗艦競品”,意味著競爭加劇但未到格局重塑的地步。瑞銀報告也仍然看好智譜在編碼領域的持續領先地位和MiniMax在V4未著重強調的多模態領域的差異化定位。但不得不承認的另一面是,DeepSeek的開源策略將大大擠壓其它大模型公司在B端市場的議價空間,畢竟企業客戶有了更多開源模型的選擇權,大模型公司的“純技術稀缺性溢價”也隨之下降。而且,這些公司還面臨一個共同的定價壓力:DeepSeek預告下半年昇騰950出貨後V4-Pro價格還會大幅下調,這會進一步壓縮模型的定價空間。“國芯+國模”:國產AI的雙向奔赴DeepSeek-V4的真正敘事,從來不僅僅在模型本身。很長一段時間裡,中國頂級大模型的訓練與推理幾乎完全依賴輝達的GPU和CUDA生態,國產晶片扮演的角色不過是“備選項”。但這一次,行業慣例發生了根本逆轉。DeepSeek-V4並未向輝達和AMD提供早期存取權,反而優先開放給華為昇騰,從而從設計階段就開始了芯模協同最佳化,獲得了數周時間進行底層適配,包括指令級、算子庫和推理框架。在深度最佳化後,V4在華為昇騰晶片上的推理速度較初期版本提升了整整35倍,華為CANN框架與輝達CUDA的程式碼相容性已逼近95%。而且這種“Day 0”等級的適配已從華為昇騰蔓延至更廣闊的本土晶片陣容,包括寒武紀、沐曦、海光、摩爾線程(FP8)、崑崙芯、平頭哥真武、天數等主流國產AI晶片都迅速實現了全量適配與推理部署。鏈式反應由此放射。數月之前,據The Information援引知情人士消息,阿里、字節和騰訊已累計訂購數十萬顆華為AI晶片。這不是一次試驗,而是一項“協調一致的努力,旨在建立一個純國產的AI技術堆疊”。2025年全年,國產AI晶片在國內市場的份額已躍升至41%,其中華為昇騰佔據近半。輝達曾在這個市場上佔據90%以上的絕對壟斷地位,如今,不可動搖的格局開始鬆動。中銀國際指出這一鏈條的深層意義:“國產大模型已基本跑通全端國產化,理論上已形成從底層硬體、基礎軟體、平台服務到上層應用、安全體系的完整技術鏈條,國產算力類股迎來質變臨界點”。華泰證券研報也表示,市場容易被“降本”二字迷惑,但真正的邊際變化,在於長上下文成本的斷崖式下降將讓複雜Agent、多文件分析、長周期任務等場景變得可用——推理呼叫量與儲存訪問頻次將隨之擴張。顯然,無論外界如何評價,梁文鋒截至目前仍然保有不被任何人設計好的時間線。他自掏腰包投入DeepSeek的資金據傳累計超過200億元。他曾被媒體貼上所有這些標籤——“不融資”、“不接受外部資本”、“不被任何人的商業化時間表綁架”。他營運著一家近乎“研究機構”而非商業公司的心態。只是即使是這位“AI隱士”,也不得不在2026年向現實邁出了一步。近期有消息稱DeepSeek正啟動成立以來的首次外部股權融資,以超100億美元的估值,計畫募集不少於3億美元資金。在V4面世之際,梁文鋒在融資啟動和內部增持方面同步推進,無疑是為未來的IPO鋪路,從而全面激發人才留存與發展。而他在融資真正落地前搶先出手加碼控制權,傳遞了清晰的訊號:資本可以進來,但控制權不在談判桌上。值得注意的是,DeepSeek-V4的發佈公告引用了《荀子》:“不誘於譽,不恐於誹,率道而行,端然正己。”這些話由DeepSeek自己寫上,指向某種遠超股價漲跌的東西,其中最關鍵的是“國芯+國模”的適配處理程序。4月27日,中國信通院宣佈,正式啟動DeepSeek V4國產化適配測試,推動模型與國產軟硬體深度協同、加速產業落地。本次測試依託工信部重點實驗室與AISHPerf基準體系開展,覆蓋晶片、伺服器、一體機、叢集、開發工具鏈、智算平台等全端AI軟硬體產品,聚焦DeepSeek V4全系列模型的推理、微調流程,並形成立體化評測體系。DeepSeek的股權變更可被視為其正式融入主流商業競爭的號角,梁文鋒也將不再是在中國大模型發展路上那個“孤勇者”。而這條路,是用國產算力鋪就的。 (財富FORTUNE)
黃仁勳的感慨正在成真
英國《經濟學人》近日刊文指出,中國正在全球AI人才競逐中逐步擴大對西方國家的領先優勢。輿論在予以關注的同時,紛紛解析中國的吸引力何在。多年來,發達國家對開發中國家的人才虹吸近乎碾壓。這些年,隨著中國綜合國力躍升與科研環境持續最佳化,全球人才流動逐漸轉向,“最大規模海歸潮”悄然出現。同時,一些西方國家出於政治私利,動輒對全球人才關上大門,客觀上也推動了人才洋流“一路向東”。近五年來,不僅海外留學人員回國就業人數逐年增加,不少領軍人物也選擇來華任職任教。更重要的是,中國已默默搭好“如何留人”的生態系統。人工智慧競爭,本質是算力、資料與演算法的“鐵三角”之爭。在晶片受限的相對被動局面下,中國AI經歷了從“大力出奇蹟”到“精益求精”的轉變,探索出一條“軟體定義算力、演算法驅動效能、人工智慧+賦能場景”的創新路徑。完善的工程體系、海量的優質資料、充沛的算力資源、豐富的應用場景,為天下英才提供了廣闊舞台。而對夢想上路時的成本焦慮與風險挑戰,相關政策給予穩穩支援,各類人才計畫為早期AI創新力量搭建了專業化、全周期的賦能平台。中國在AI人才競爭中佔有優勢,靠的不僅是攬才、留才,更是強大的本土造血能力。中國高度重視教育,擁有全球規模最大的教育體系,各級教育普及程度達到或超過中高收入國家平均水平。資料顯示,中國人才資源總量達2.2億人,其中高技能人才超7200萬人,科學家與工程師規模接近2000萬人;每年培養STEM專業畢業生超過500萬人,全球領先。這都為中國造就了領先全球的AI人才底座。以嶄露頭角的DeepSeek團隊為例,這支平均年齡僅20多歲的生力軍,核心成員均為本土培養,充分證明中國高等教育體系與科研環境已具備培養、吸引並成就世界級AI人才的深厚土壤。當然,人才之戰不是百米衝刺,而是一場漫長的馬拉松。前段時間,國務院印發《關於深入實施“人工智慧+”行動的意見》,明確提出到2030年人工智慧全面賦能高品質發展。此外,八部門聯合發文,提出要“超常規”建構領軍人才培養新模式。當然,也要看到,中國AI在“從0到1”的原創突破上仍有差距。要鼓勵弄潮兒心無旁騖試錯深耕,尤須營造更加包容寬鬆的創新環境,糾正科研領域的實用主義傾向。“美國絕對有可能在AI上落後於中國,因為人才在變。”輝達創始人黃仁勳曾如是感慨。AI人才“東流”無須大驚小怪,人才流向改變更不是終點。持續建構創新創業的優質生態圈,讓各類人才的創造活力競相迸發、聰明才智充分湧流,中國必能擁抱更廣闊的星辰大海。 (長安街知事)
超越DeepSeek-V4!羅福莉交出小米最強開源模型,首日適配5家中國國產晶片
免費100兆Token,開源模型新王登場。▲圖片由AI生成智東西4月28日報導,剛剛,小米開源羅福莉帶隊研發的MiMo-V2.5系列模型,採用MIT協議,允許商用推理部署與二次訓練,無需額外授權。▲MiMo-V2.5-Pro在Hugging Face的開源頁面截圖此前,該系列模型於4月23日開啟公測,包括MiMo-V2.5-Pro、MiMo-V2.5兩款模型。模型具備更強Agent能力,支援100萬上下文,且Token效率大幅提升。MiMo-V2.5-Pro的完整基準測試結果今日公佈,小米稱其在GDPVal-AA(Elo)、Claw-Eval(pass^3)等多項測評中超過了最新開放原始碼的DeepSeek-V4-Pro模型,也超過了發佈不久的Kimi K2.6等主流閉源模型,實現總體最佳。▲MiMo-V2.5-Pro的最新測評成績開源首日,MiMo-V2.5-Pro宣佈已完成與阿里平頭哥、亞馬遜雲科技、AMD、百度崑崙芯、燧原科技、沐曦、天數智芯多個晶片廠商的接入適配。MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。與此同時,小米還推出百兆Token創造者激勵計畫,計畫30天內免費發放總計100兆Token權益;推出Agent生態共建計畫,目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開合作。01. 模型技術細節公佈 測評超越DeepSeek-V4由小米最新公開的模型卡可知,小米迄今為止最強模型MiMo-V2.5-Pro是一款擁有1.02兆(1.02T)個參數的混合專家模型,其中420億(42B)個啟動參數,基於混合注意力架構,相比前代模型在通用智能能力、複雜軟體工程和長時域任務處理方面均實現了顯著提升。MiMo-V2.5-Pro繼承了MiMo-V2-Flash的混合注意力機制和多標記預測(MTP)設計。局部滑動窗口注意力(SWA)和全域注意力(GA)以6:1的比例交錯使用,窗口大小為128個Token,在長上下文情況下,通過可學習的注意力池偏置,將鍵值快取儲存空間減少了近7倍,同時保持了性能。一個輕量級的MTP模組,採用密集前饋神經網路(FFN),原生整合用於訓練和推理,輸出吞吐量大約提升了三倍,並加速了強化學習(RL)的部署。▲MiMo-V2.5-Pro的模型架構及訓練過程該模型預訓練使用27兆(27T)個Token,採用FP8混合精度,原生序列長度為32K,上下文擴展至1M個Token。後訓練遵循MiMo-V2-Flash中引入的三階段範式:1、監督式微調,在精心挑選的資料對上建立基礎的指令跟蹤;2、領域專精訓練,其中不同的教師模型分別通過針對特定領域的強化學習進行最佳化,涵蓋數學、安全、智能工具使用等領域;3、多教師策略蒸餾(MOPD),其中單個學生模型在每位專精教師的Token級指導下,從自身的展開中學習策略,並將所有教師的能力融合到一個統一的模型中。再來看看MiMo-V2.5,這是一個3100億(310B)參數的稀疏MoE模型,擁有150億(15B)啟動參數,在48兆(48T)個Token上進行訓練。它的語言主幹框架繼承了MiMo-V2-Flash的混合滑動窗口注意力機制,並搭載自研預訓練視覺、音訊編碼器,兩類編碼器通過輕量化投影模組完成跨模組融合。▲MiMo-V2.5架構訓練過程分為五個階段:1、基於多樣化語料開展文字預訓練,搭建大語言模型主幹網路;2、進行投影層預熱訓練,實現音視訊、視覺投影器與語言模型的對齊融合;3、依託高品質跨模態資料集,開展大規模多模態預訓練;4、執行監督微調與智能體後訓練,在此過程中將上下文窗口從32K逐步擴容至256K,最終達到100萬Token;5、最後是通過強化學習(RL)與多目標偏好蒸餾(MOPD),進一步強化模型的感知、邏輯推理與智能體執行能力。從小米最新公佈的測評結果來看,MiMo-V2.5在Claw-Eval Text、Terminal-Bench 2.0、SWE-Bench Pro等多項測評中大幅超越了DeepSeek最新發佈的DeepSeek-V4-Flash。▲MiMo-V2.5最新測評情況02. 開源首日,完成阿里平頭哥沐曦 等7家晶片廠商適配小米還公佈了晶片生態與推理框架最新適配情況,MiMo-V2.5-Pro開源首日完成多個晶片廠商的接入適配:阿里平頭哥:基於真武810E及全端自研AI軟體棧實現深度適配。亞馬遜雲科技:基於Trainium2晶片與Neuron SDK+vLLM推理框架完成深度適配,實現開源即全球可用的首日適配。下一代3nm製程Trainium3將進一步釋放模型性能。AMD:依託ROCm開放原始碼軟體棧提供Day-0適配及全面最佳化支援。百度崑崙芯:通過底層算子最佳化與軟硬體協同加速,保障模型穩定高效運行。燧原科技:基於自研馭算TopsRider軟體棧深度最佳化,在燧原L600上完成全量適配。沐曦:基於曦雲C系列及全端自研MXMACA軟體棧,實現Triton語法到沐曦GPU指令集的端到端原生支援。天數智芯:實現Day 0級深度適配。此外,MiMo-V2.5系列模型同步完成SGLang和vLLM主流推理框架的Day 0適配。03. 免費發放100兆Token 已與Hermes Agent等合作與此同時,小米還同步推出MiMo Orbit計畫,包含兩部分:“百兆Token創造者激勵計畫”,與面向Agent框架團隊的“Agent生態共建計畫”。在百兆Token創造者激勵計畫方面,小米面向全球AI使用者免費發放Token,30天內發放總計100兆Token權益,贈完即止。該計畫採取申請制,通過者最高獲得Max檔位Token Plan,包含16億Credits,價值659元。活動時間:台北時間2026年4月28日00:00至5月28日00:00。Agent生態共建計畫方面,小米面向全球Agent框架團隊提供專項支援,為框架提供MiMo Token限免支援,同時參與和贊助框架平台的AI Hackathon等共創活動。其目前已與OpenCode、Hermes Agent、KiloCode等Agent框架廠商展開深度合作。04. 結語:多款國產開源模型“亮劍”交鋒近期,大模型行業開源力度持續加碼,模型與國產及國際晶片的“Day 0”適配已從亮點變為剛需,推理效率和部署成本成為下一階段競爭的核心。同時,百億級Token免費激勵與Agent框架生態共建,反映出行業正從“拼參數”轉向“拼應用”。值得關注的是,小米MiMo-V2.5-Pro在多項基準評測中直接超越DeepSeek最新開放原始碼的DeepSeek-V4-Pro模型,可謂與DeepSeek在開源賽道發起“亮劍”交鋒,有望倒逼行業更快降低推理成本、提升Agent真實任務完成率。 (智東西)