阿里突然甩出“王炸”!5nm晶片性能炸裂,外媒:這仗沒法打了
就在3月24日,半導體圈子裡炸開了鍋。阿里達摩院默默放了個大招——全球性能最強的RISC-V CPU,來了。名字叫玄鐵C950。這次不是PPT發佈,不是概念晶片,是真真切切能跑起來的硬傢伙。咱們先看幾個硬核參數。5nm製程,主頻3.2GHz,64位多核架構。這些數字放在行業裡是什麼水平?簡單說,就是直接對標全球主流廠商最頂級的量產CPU。但真正讓業內震驚的,是它的跑分資料。SPECint2006基準測試突破70分,這個成績刷新了全球RISC-V的性能紀錄。要知道,RISC-V這個架構之前一直被詬病性能不夠看,現在阿里直接用成績單打了所有人的臉。更狠的是,它在SPECint2006上每GHz能跑22分以上,SPECint2017也能跑到2.6/GHz。這意味著什麼?意味著這顆中國芯,在性能上已經可以和世界頂流的ARM架構掰手腕了。不過光跑分高沒用,關鍵看能不能幹活。玄鐵C950這次最讓人意外的地方,是它對大模型的支援。阿里這次在晶片裡塞了兩個加速器:一個是4K超寬向量加速引擎,另一個是張量計算引擎。後者最高能提供8TFLOPS的單核算力,這算力放在AI晶片裡都是個不錯的資料。重點來了——這顆晶片原生支援Qwen3和DeepSeek V3這類千億參數的大模型。FP8、FP4、MXFP8這些新型低精度資料類型,它全都支援。這就意味著,以後跑大模型可能不用專門買昂貴的GPU了,一顆玄鐵C950就能幹這個活。阿里還公佈了實際跑模型的數字。單晶片跑Qwen3-30B、Qwen3-235B,甚至671B的DeepSeek V3,都有不錯的性能表現。放在雲端運算場景裡,它的處理能力比主流產品提升了30%以上。這就有意思了。以前大家覺得RISC-V就是做做物聯網、搞搞嵌入式,現在阿里直接把它推到雲端運算、生成式AI、高端機器人的賽道上了。除了C950這個大殺器,阿里還順手發了一顆C925。這顆走的是能效路線,SPECint2006每GHz能跑12分以上,能效比C930提升了11%,面積卻小了34%。做智能終端、工業控制的廠商,估計要開始琢磨這顆晶片了。但最值得琢磨的,其實是阿里在生態上的動作。達摩院首席科學家孟建熠宣佈了一個消息:玄鐵要和香山合作了。香山是啥?是中國開放原始碼的RISC-V高性能處理器項目,相當於RISC-V界的Linux。這次玄鐵參與下一代香山“昆明湖V3”的聯合研發,在SMT多線程技術、片上互聯、通推一體架構這些硬核技術上深度合作。說白了,阿里這是要兩條腿走路。自己造頂級晶片,同時拉著整個生態一起往前走。這不光是造一顆晶片的問題,而是要把RISC-V的整個盤子做大。回頭看看阿里這次發佈的節奏,其實能品出點味道來。從玄鐵C930到現在的C950,不到一年時間,性能從跟跑到領跑。RISC-V這個曾經被看作“玩具”的架構,正在以肉眼可見的速度變成“真傢伙”。現在的問題是,性能已經追上來了,生態能不能跟上?軟體相容性怎麼樣?開發工具鏈好不好用?這些才是決定RISC-V能不能真正取代ARM的關鍵。阿里現在做的,就是把性能和生態這兩件事同時往前推。C950證明了硬體實力沒問題,和香山的合作則是在解決軟體生態的短板。回頭看看外媒的反應,有句話挺扎心:“這仗沒法打了”。雖然有點誇張,但確實說明了一個趨勢——在晶片這個賽道,中國企業正在從追趕者變成定義者。玄鐵C950的出現,可能是個轉折點。它證明了RISC-V架構不再是低功耗、低性能的代名詞,而是有實力站在世界舞台中央的選手。 (世界半導體技術論壇)
網易開了個壞頭?
沒有任何預警,曾撐起遊戲產能半邊天的外包大軍,在AI本土化落地的風口,可能要率先淪為技術革新的代價了。近日,網易遊戲外包崗位裁員傳聞引爆社交媒體,一則“正常業務調整與人員汰換”的回應疊加“AI鬼故事本土化落地”的行業熱議,讓遊戲產業AI正在替代人力的話題持續發酵。圖源:知乎回顧年初網易發佈的財報,其指出在AI原生研發管線方面已覆蓋原畫、模型、動畫、音訊、關卡、測試等全流程生產場景,部分環節效能提升300%。結合虎嗅ESG組與資深遊戲行業人士交流的情況分析,一個明確的趨勢是,遊戲產業正在大範圍擁抱AI,網易並非個案,而是整個行業需要直面的“宿命”。AI如何替代“遊戲人”?“綜合評估下來,一個熟練使用AI的員工大約能頂3個不使用AI的員工,”遊戲公司高管劉洋(化名)向虎嗅ESG組分析道:“不同崗位下AI對於人的提效結果也不同。”劉洋指出,按崗位職能來分,遊戲研發大致可分為程序、美術、文案、測試、營運、策劃6類員工,其中美術、文案兩類崗位受AI影響較大,基本可以被替代。“我們公司美術部門已經進行了一波人員精簡,受影響最大的是UI同事,之前做一套遊戲UI可能需要1-2周,但AI半小時就能出一套,對品質要求不高的話十幾分鐘就能做出不錯的效果,中間稍作調整即可,”劉洋說道:“其次是原畫,他們的部分工作可以被替代,人只需要在細節上打磨、調整就行;3D建模因技術難度高受到影響最小。”“但文案崗位目前公司已經沒有了,算是最容易被替代的崗位,”劉洋繼續分析道:“我們公司的文案部門已經有四五年了,之前一直處於觀察階段,現在已經完全被替代。因為策劃人員本身就有基礎的文案策劃能力,再加上 AI 輔助,完全不需要專門的文案同事幫忙。”而在測試、營運兩類崗位中,AI能起到的替代作用就不強了。於測試崗而言,一款遊戲每次測試的用例、內容重複度沒有那麼高,不同的功能還需要專門寫測試用例,目前AI還不能替代,且參考性不強;於營運崗而言,AI目前更像工具,只能做基礎資料分析,因為AI不瞭解不同遊戲下那些指標更重要,輸出的分析總結、結論會比較公式化,不像人類能抓住重點形成獨特判斷力。總結而言,AI對於基礎執行類工作的替代率較高,這也與此次網易裁員以“外包員工”為主要對象相呼應。“外包崗位大部分工作都偏執行,主要包括兩種,第一種是按照前人的方式按部就班完成,比如開服、上活動、下活動、基礎文案編輯;第二種是重複性比較高的工作,比如每天寫日報、做資料總結、製作簡單的資料表格,這些工作現在 AI 基本上也能完成,”劉洋分析道:“這兩種執行類工作,在外包和基礎崗位的日常工作中佔 70% 以上,未來基本會被AI替代掉。”那什麼崗位不容易被替代?一名資深遊戲從業者認為,策劃崗位在當前不容易被替代:“策劃具備遊戲產品的設計能力、對市場競品和主流玩法的研究能力,還有決策能力、溝通能力,這些都是AI無法替代的。”在一款遊戲的誕生過程中,遊戲玩法的設計是重中之重,決定著一款遊戲究竟好不好玩,但如果讓AI去設計,它只能基於巨量資料模型裡的基礎內容進行羅列,產出的方案基本都是業內見過的,替代不了策劃崗長年累月積累的專業能力。“AI無法替代的核心能力主要是需要經驗積累和主觀判斷的能力,除了剛才提到的策劃崗以外,雖然AI能夠在美術方面提效,但它本身沒有審美,因此還需要專業人員去把關,”該從業者分析道:“此外,營運的商業化設計能力也很重要,目前AI無法結合遊戲產品特徵和使用者付費情況做針對性設計,商業化方案需要營運人員基於資料和經驗去制定。”但歸根結底,這些核心能力的掌握者終究是行業少數,對於佔比更高、從事基礎執行工作的遊戲外包及基礎崗位人員而言,他們的生存空間正被AI步步擠壓,已然陷入嚴峻的生存困境。員工被最佳化背後,更大規模的產業革命比AI對基層崗位替代更“鬼故事”的是,遊戲公司對AI提效的渴望正與日俱增。“我們算是中型公司了,內部這兩三個月推進AI工具使用的節奏很密集,比如最近爆火的龍蝦,公司大概70%的員工都裝了,”劉洋說道:“除了行政部門這類日常用不到的,絕大部分程序、策劃、美術崗位都用上了。而且公司還不間斷開展AI工具的培訓/分享會,大家在群裡的討論很熱烈。”劉洋講述了公司一名員工在分享會上的陳述——現在基本上能靠龍蝦省下日常50%的工作量,其中包括日常工作,比如作為管理崗寫日報、查看其他員工日報,還有查看伺服器運行bug 等工作,之前需要去不同的網頁、內部群溝通才能瞭解,現在龍蝦可以每天抓取資料整理成報告發給他。還有基礎的資料分析直接丟給龍蝦做就行,不需要再花時間處理。重複度比較高的工作也基本都交給龍蝦,甚至行業報告、幾十頁的PPT直接丟給龍蝦,它能幫忙做成閱讀總結,提煉重點資料和需要關注的問題,自己讀報告可能需要半個小時,龍蝦3-5分鐘就能搞定。而除了劉洋的公司以外,他指出其他中大型公司也在密集推進AI工具落地。“從老闆和公司營運的角度來說,AI的使用成本遠遠低於人力成本。比如一個人每天用龍蝦也就10 美金(token費用),500人的公司一天就是5000美金,一個月看似15萬美金,但實際上員工用不了那麼大量,消耗5萬美金就已經很多了,”劉洋分析道:“而 5 萬美金的成本,折算成人力成本,也就相當於10來個中高級程式設計師的月薪。”站在這一視角去思考網易近期的“人員汰換”,劉洋認為是降本增效、AI轉型及行業周期收縮三大因素產生的結果,三者的權重基本持平。他表示,實際上前兩年AI對於人的替代就已經初步開始,那時面向海外市場的翻譯需求基本能夠用AI解決,如今AI能夠覆蓋的工作更多了。“我和另一位遊戲公司的老闆聊過,他的角度是能用 AI 替代的員工越多越好,比如程序部門原本10個人最後留兩三個,他覺得這樣既有效率,又能節省成本,”劉洋說道:“從老闆的角度來說,肯定希望降本增效,獲取更多利潤,以前行業最佳化只是針對單個項目,比如項目不行了就最佳化掉,或者做內部活水,但現在是行業性的大規模最佳化。”因此,不論網易裁撤外包是真是假,以後外包崗位的穩定性會比以前差很多,且未來外包崗位只會少不會多。據劉洋掌握的資料,200人以上或者500人以上規模的公司,其外包人員(客服、測試,部分基礎美術崗)的佔比大概是 20%-30%。一個殘酷事實是,在這一輪AI革命中被裁的基礎崗從業者並不會被新的崗位接納,人們印象中期待的“AI帶來新工作”還未出現,當下的本質仍是一場單方面的人力淘汰。部分主要遊戲公司AI應用,來源:公開資訊前述遊戲從業者告訴虎嗅ESG組,大部分遊戲公司對外包員工本身就不重視,公司在特定階段需要外包支援才簽合同,一旦有公司變動、項目調整或成本壓縮,首選最佳化的就是外包,“被最佳化的員工可能有一部分會選擇換行業,還有一部分則會直接失業。”AI沒有帶來新增崗位,反而很多基礎崗位被替代了,“大家都在搞降本增效”。社會責任需要共擔“其實大廠在回應相關裁員傳聞時可以更溫和一些,”劉洋指出:“裁員方面可以嘗試控制最佳化節奏,不能說AI來了就馬上有個大動作,教授相關員工使用AI、逐步替代對公司是更加可持續的做法。”劉洋進一步指出,遊戲公司利潤高是不爭的事實,作為行業領軍者更應該考慮社會責任與輿論影響,“而且此次網易傳聞事件一出,可能大部分尚還沒有使用AI的遊戲公司可能就要有動作了,可能這段時間先避避風頭,後續大機率會借助AI進行人力替代。”商道諮詢合夥人郎華指出,從ESG角度看,大型遊戲公司因AI驅動外包崗退場會同時在社會(S)和治理(G)兩個維度引發潛在風險,比如在社會維度,員工權益受損、人力資本的不當開發、及利益相關方關係管理等;而治理維度,則涉及到基於長期主義價值觀的缺位、商業誠信與道德等。“此次事件指向遊戲產業中相對弱勢的外包工群體,而且又涉及到近期高度關注的AI替代人工的熱點事件,兩個熱點疊加放大了AI技術應用與用工結構變革的衝突,引發了普遍性恐慌,”郎華分析道:“而網易沒有提前對該風險及潛在的影響做充分的預判,在對外的回應上也沒有對於相關群體的同理心及解決方案。在AI倫理風險常態化的背景下,企業應提前做好風險備案,建立回應與管理機制,並開展風險演練與日常更新。”圖源:《“賦能+重構”,AI遊戲揚帆起航》,開源證券虎嗅ESG組認為,ESG框架下的社會責任核心是兼顧所有利益相關方的權益,而非僅聚焦股東收益與企業效率,但此輪遊戲行業AI裁員,恰恰將最弱勢的群體推向了風險前端。一方面,遊戲行業基礎崗(外包崗)人員流動性大、薪資議價能力弱,既缺乏正式員工的福利保障,也沒有完善的裁員兜底機制,在AI替代面前毫無還手之力。另一方面,大部分企業也未配套轉崗培訓、再就業幫扶等緩衝措施,更加劇了就業不公平性——技術進步的紅利由企業獨享,轉型陣痛卻由最底層從業者承擔。長此以往,不僅會挫傷基層從業者的歸屬感,更會透支企業的社會公信力,引發公眾對“技術向善”的質疑。郎華認為,從中長期的角度,企業可以考慮開展的工作包括以下幾個方面:強化“長期主義”及“多元利益相關方價值導向“的企業價值取向;系統性梳理並量化AI技術沿革所帶來的ESG風險,並積極推動AI倫理標準制定;在董事會中強化AI相關的風險管理能力;基於AI所帶來的ESG風險提前備案,比如針對此次的裁員事件建立回應與管理機制,並開展風險演練與日常更新。“科技企業推進AI落地,不能只算經濟帳,更要算責任帳。將勞工權益保護納入AI轉型的頂層設計,而非事後補救,才是符合ESG理念的治理邏輯,也是企業實現長期可持續發展的核心前提,”郎華說道。劉洋認為,未來遊戲行業用工可能會經歷關於AI的三個階段,第一階段是目前看到的汰換;第二階段是重構,人與AI會融合發展,一個人可能會承擔多個工種的工作;最終,AI會顛覆生產關係,那時的遊戲行業才可能會出現新崗位,“但在此之前,一切都是不確定的”。無可否認,AI 浪潮下的產業變革本是必然,但技術進步不該以犧牲底層從業者為代價。企業以長期主義平衡商業效益與社會價值,才是科技向善的真正底色。 (虎嗅APP)
中荷部長會晤,涉半導體合作!
據商務部官網,3月25日,商務部部長王文濤在喀麥隆雅溫得出席世貿組織第14屆部長級會議(MC14)期間,會見荷蘭外貿與發展合作大臣舍爾茨瑪。雙方就中荷經貿關係和世貿組織改革等議題深入交換意見。中國常駐世貿組織代表團大使李詠箑參加會見。王文濤表示,今天,李強總理與荷蘭首相耶滕進行了通話,為雙邊經貿關係發展注入了新的動力。中荷自2014年建立開放務實的全面合作夥伴關係以來,雙邊經貿合作不斷深化。這不僅符合雙方共同利益,也有利於中歐經貿關係健康發展和全球產供鏈的安全穩定。中方願與荷方通過經貿混委會等平台加強政策交流,通過對話協商妥善解決兩國經貿合作中的問題。中國和荷蘭均是多邊貿易體制的堅定支持者和積極貢獻者, 願與荷方共同努力,推動MC14在投資便利化協定、電子商務等方面取得務實成果。舍爾茨瑪表示,中國是荷蘭重要經貿合作夥伴,荷蘭新政府高度重視發展對華關係,願同中方加強高層交往,進一步深化開放務實的全面合作夥伴關係,加強在應對氣候變化、水處理、創新、農業等領域的產業合作。期待早日率企業家代表團訪華,並與中方召開荷中經貿混委會第18 次會議,加強對話交流,協商找到解決分歧的辦法。荷方讚賞中方支援多邊貿易體制的立場,願與中方加強溝通協調,推動MC14取得成功。雙方還就中荷半導體合作以及安世半導體問題交換了意見。 (科創板日報)
毛利率98%的ARM,想換個姿勢“躺著賺錢”
一切跟算力有關的產品,產能都遭遇到了AI需求的擠佔,過去是儲存,現在輪到CPU。目前,英特爾、AMD都在推動產品漲價,漲幅在10%-15%之間。“聽說CPU的提貨周期已經延長到8個月了。”一位長期跟蹤儲存產業的研究員援引知情人士的消息說。在這種背景下,ARM決定入局CPU晶片自研,注意不是GPU自研。“我要明確表態——我們現在進入了一個對ARM而言全新的業務領域,我們正在供應CPU。”當地時間3月24日,ARM CEO雷內·哈斯(Rene Haas)在一場官宣的發佈會上說。ARM首顆AGI CPU晶片。圖片由AI生成根據ARM提供的資料,其首顆自研AGI CPU搭載136個ARM Neoverse V3核心,每核心提供6GB/s記憶體頻寬、低於100納秒的訪問延遲,熱設計功耗為300瓦;單個風冷機櫃最高可容納60顆CPU,即8160個核心,若採用液冷方案,總核心數可以突破45000個。ARM AGI CPU採用台積電3奈米工藝製造,由兩塊芯粒封裝而成,作為一顆完整晶片協同運行。ARM強調,相較於同類x86晶片,每機櫃性能功耗比提升超過兩倍,每吉瓦AI資料中心容量可為客戶節省高達100億美元的資本支出。目前晶片已完成測試,計畫於2026年下半年進入量產。01 98%毛利率不香了?ARM的“IP授權”模式鏈路清晰,設計晶片架構,將智慧財產權授權給蘋果、輝達、高通等公司,然後坐收授權費和版稅。不要工廠,不需要生產線,毛利率高達98%,屬於全行業最高水平之一。有分析師將這種模式稱為“躺著印錢”——每一顆搭載ARM架構的晶片出貨,這家公司都能分到一筆錢,全球迄今出貨量超過3250億顆。那麼,哈斯為什麼要放棄這個近乎完美的模式?財報裡已有訊號。ARM最新一個財季的營收達到創紀錄的12.4億美元,同比上漲26%,連續四個季度單季破10億美元,其中版稅收入(晶片出貨分成)增長27%,但由於5.05億美元的許可收入(IP授權)低於分析師預期的5.19億美元,市場立即作出負反饋——其股價盤後下跌超過5%。晶片出貨分成相關的版稅收入屬於滯後指標,許可則是領先指標,反映客戶願意為下一代技術預付多大的賭注。許可收入的波動,讓投資者很難為ARM的AI故事建立穩定的估值模型。ARM必須回答一個問題:增量訂單在那裡?所以,被動等待IP授權許可,不如直接下場自研出售晶片,將收入結構從“等單上門”轉變為持續的硬體銷售流水,創造可持續、規模化、可預測的硬體收入。當然,代價則是98%這種超高毛利率被侵蝕。可以這樣理解,ARM的轉向是在IP授權模式觸及天花板之前,主動規劃第二增長曲線。02 ARM伺服器CPU“站起來了”ARM架構的伺服器CPU,靠譜嗎?輝達已給答案。2021年GTC,輝達就推出了ARM架構的Grace CPU,並搭配Blackwell GPU在大量資料中心部署,新一代的Vera CPU也已經量產。此次ARM的發佈會上,黃仁勳親自發視訊祝賀,稱雙方合作近二十年,ARM的適應性使輝達得以將其整合至“全平台、全AI階段”。之所以請黃仁勳來站台背書,ARM也就是想強調其解決方案已經被市場上最成功的AI晶片公司用實際銷售額反覆驗證。現在自己下場,某種程度上只是“去掉了輝達這個中間商”,將原本版稅分潤的收益,以硬體利潤的形式收入囊中,在自己的商業模式中完成了閉環。事實上不僅是輝達,全球主流雲廠幾乎都在轉向ARM架構伺服器CPU:亞馬遜AWS的Graviton 5搭載192個ARM核心,2025年AWS新增算力中大多數由其驅動;微軟Azure的Cobalt 200擁有132個核心。這些公司已在ARM架構上投入了數十億美元的研發資源,建構了龐大的軟體生態。ARM對伺服器CPU市場的影響,剛剛正在從專利,轉向生態。03 GPU為CPU“帶貨”站在市場的邏輯,GPU的暴增和AI晶片自研的陣營越來越大,不僅加大了對HBM記憶體的需求,也帶來了CPU需求的增長。騰訊科技此前給了一個資料——2026年台積電的CoWoS晶圓產能是1150000片。按雙Die晶片總面積1500mm²、80%良率估算,全年可產出約4324萬顆GPU晶片。若按每8顆GPU搭配2顆CPU的比例,4324萬顆GPU共需要1081萬顆CPU。注意,這1000多萬顆對應的是AI伺服器的需求,不包含通用伺服器,由於英特爾、AMD已經供不應求了,所以這是文章開頭提到的漲價的邏輯,也是提貨周期變長的原因。行業研究機構Futurum Group將這一現象稱為“悄然而至的供應危機”,並預測到2028年CPU市場增速將超越GPU。ARM下場做AGI CPU,著重強調了自己與x86架構的優勢——每機櫃性能功耗比是同類晶片的兩倍,並表示每吉瓦AI資料中心容量可節省高達100億美元的資本支出。這對於Meta、微軟、Google這些正在大手筆建設資料中心的超大規模雲廠商而言,存在巨大的吸引力。Creative Strategies預測,資料中心CPU需求將從2026年的250億美元增長至2030年的600億美元;若疊加AI智能體的需求,這一數字將接近1000億美元。即便ARM只能拿下其中一個零頭,也足以支撐哈斯描繪的財務藍圖。04 先和Meta抱團“造芯”祖克柏和他的Meta雖然在這一代模型上掉進了大坑,但一直在算力市場玩的風生水起,又是賣卡又是自研,不久之前也公佈了新一代MTIA晶片。ARM下場做AGI CPU,也選擇了和Meta抱團:一方面當客戶,一方面作為聯合開發者。Meta軟體工程師保羅·薩阿布從2023年項目啟動之初便全程參與晶片設計。他解釋了Meta入局的動機:“在當今世界,真正的玩家屈指可數。這為我們的生態系統又增添了一個新選擇。”根據財報電話會議的資料,Meta今年資本支出高達1350億美元,正在路易斯安那、俄亥俄、印第安納等地大規模建設AI資料中心,僅路易斯安那州的“Hyperion”超級資料中心裝機容量就達5吉瓦。不過,在此前,Meta的CPU幾乎完全依賴英特爾和AMD。多一個ARM可選項,就多一條供應鏈、多一個議價籌碼。薩阿布直言:“我們不是晶片公司,我們希望它能面向全世界開放。”Meta之外,OpenAI、Cloudflare、SAP、SK電信、Cerebras也相繼確認為早期客戶。AWS、Google、微軟、輝達、三星電子、台積電等超過50家公司為ARM站隊。資深晶片行業研究員穆爾黑德強調:如果ARM能拿到Meta未來年度資本支出的5%,就已經是“改變遊戲規則”的量級,而Meta只是其客戶名單中的第一個。05 五年250億美元下場自研AGI CPU,在哈斯的財務藍圖中:ARM預期五年內,年營收達到250億美元,約為當前的五倍,其中AGI CPU貢獻約150億美元,傳統IP授權業務翻倍貢獻約100億美元。雖然在CPU漲價潮下官宣自研,但ARM早在2023年就已秘密啟動晶片研發。外媒報導顯示,當時ARM拿出了7100萬美元在德克薩斯州奧斯汀建立專屬晶片實驗室,從一支曾經規模極小的團隊壯大至逾1000名工程師。只不過,雖然有IP護城河以及輝達等在ARM伺服器CPU市場的驗證,硬體業務要面臨包括供應鏈管理、客戶服務、競爭響應等在內的諸多問題,每一項都是ARM從未系統性面對過的挑戰。另外,作為對手,英特爾和AMD也不會坐視增量市場份額被搶走,x86陣營數十年積累的軟體生態和客戶慣性,依然是ARM需要逐步攻克的壁壘。好在整個市場的需求不斷地被AI推高,只要產品被客戶驗證可靠,再加上它還沒有GPU這樣的出口管制,最終產品可以在全球市場裡“暢通無阻”。現在的ARM,最在意的可能是台積電的量產交付能力了。 (騰訊科技)
半導體IP巨頭聯手Meta做晶片,股價一夜狂飆16%
半導體IP領域巨頭Arm下場推出實體晶片了。美國當地時間3月24日,Arm宣佈首次將產品矩陣延伸至量產晶片產品領域,首發產品為Arm AGI CPU。這是一款由Arm自主設計、面向AI資料中心的CPU晶片。根據介紹,首批晶片產品將在今年內陸續推出。Arm此舉也獲得了資本市場認可,3月25日美股收盤,Arm股價大漲超16%。一直以來,Arm的常規商業模式都是推出半導體IP給晶片設計廠商(如高通和聯發科)、雲服務廠商(如亞馬遜雲、阿里雲)等,由後者根據需要對這些IP進行晶片設計工作,再交由晶圓代工廠進行製造。這令Arm長期以來的收入構成主要為授權費(license)和版稅(royalty),其此前並未真正推出實體晶片產品。此番真正激發Arm正式下場推出晶片的,來自於AI浪潮翻湧。Arm首席執行長Rene Haas在演講環節就指出,AI時代CPU晶片正承擔核心計算任務。尤其是近幾個月以來,以Open Claw“龍蝦”為代表的智能體(Agent)興起,涉及大量調度類計算工作,這就需要由CPU晶片來完成,這也是加速晶片(如GPU晶片)無法替代的能力。自此,Arm在原有IP、計算子系統(Compute Subsystems,CSS)業務基礎上,新增Arm自主設計的晶片產品。Meta是其早期合作夥伴及聯合開發者,首批還官宣了一系列合作方和OEM代工方。當然,在IP領域發展多年的Arm如何紮根CPU晶片市場,又計畫如何與x86既有陣營競爭?在受訪環節,高管團隊進行瞭解答。CPU新機遇自Open AI將ChatGPT推入市場至今,全球公認需求旺盛的領域是GPU及其產業鏈相關晶片。這也導致輝達業績和股價持續上升,一度成為美股市值新“王”。這令大眾忽略了一個事實:CPU晶片依然不可或缺。Rene Haas在演講中分析道,大語言模型爆發之前,傳統雲端運算使用的流程是:輸入指令-得到搜尋結果,CPU就承擔了其中核心計算任務。加入AI能力後,開始轉變成通過人們的手機、電腦等移動裝置輸入提示詞給雲端,雲端將其轉化成詞元(token)輸送給AI資料中心,再由資料中心內的加速器晶片生成對應的計算結果,在這些流程中,資料中心CPU晶片就負責調度、管理,將token返回給使用者。這意味著CPU晶片在雲端和AI資料中心中仍將擔任重要角色。根據他預測,每吉瓦(GW)算力的資料中心大約需要3000萬CPU核心(cores),這包括AI叢集主節點、加速器、專用機架裝置等。(Rene Haas展示Arm AGI CPU,圖源:受訪者提供)而在最近幾個月,“龍蝦”熱正引發智能體爆發式增長。Rene Haas指出,智能體無需休息可以全時段運行,其發起請求的速度遠超人類。因此預計智能體發起的查詢會是人類token需求量的15倍甚至更多。海量的智能體工作負載發出,會讓資料中心不堪重負,這就需要越來越多的CPU晶片來平衡智能體負載。而智能體的工作流就涉及大量調度類計算,這是CPU晶片的優勢所在,也是GPU等加速晶片無法替代的。基於此,接受包括21世紀經濟報導在內的媒體採訪時,Arm雲AI事業部執行副總裁Mohamed Awad介紹道,選擇將自研CPU晶片定位解決Agentic AI的工作負載,正是源於客戶需求。由於智能體運行需要增加CPU晶片數量、規模累積後需要更高性能,但資料中心又面臨能耗限制,多重因素疊加,令市場上對這類符合要求的晶片存在明顯缺口。而Arm在與眾多超大規模雲服務商探討合作過程中,後者就提出,Arm此前提供IP和CSS的方案,並不能很好解決問題,希望能夠獲得更優的解決方案,最終Arm選擇推出CPU晶片。Mohamed Awad分析,代理式AI工作負載需要在大規模場景下實現持續穩定的性能輸出。Arm AGI CPU正是為此設計。Arm的參考伺服器採用1OU雙節點設計,每台刀鋒伺服器中整合兩顆CPU晶片,並配備獨立記憶體與I/O,共計272個核心。這些刀鋒伺服器可在標準風冷36千瓦 (kW) 機架中滿配部署,30台刀鋒伺服器可提供總計8160個核心。此外,Arm還與Supermicro合作推出200千瓦 (kW) 液冷設計方案,可容納336顆Arm AGI CPU,提供超過45000個核心。據介紹,在該配置下,Arm AGI CPU可實現單機架性能達到最新x86系統的兩倍以上,每吉瓦AI資料中心算力的資本支出 (CAPEX) 節省100億美元。爭奪戰場Arm此番推出CPU晶片,顯然直指搶佔x86沉澱多年的戰場。Rene Haas受訪時表示,Arm認為該款晶片預計未來有望在資料中心市場與x86爭奪份額,預計產品將被廣泛採用。根據介紹,Arm AGI CPU是旗下資料中心晶片產品線的首款產品,現已開放訂購。其後續產品規劃也已確認,該產品線將與Arm Neoverse CSS產品路線圖平行推進。按照規劃,2027年將推出第二代Arm AGI CPU晶片。(Arm AGI CPU計畫演進路線圖)此番也並非Arm獨立努力,其背後已經有一眾合作方。Meta就是首款晶片的早期合作夥伴及聯合開發者。據悉,Meta利用該代理式AI CPU最佳化其全系應用的基礎設施,並與其自研的Meta訓練與推理加速器(MTIA)協同部署,從而在大規模AI系統中實現更高效的編排與調度。雙方承諾將圍繞Arm AGI CPU的多代晶片產品展開長期深度合作。此外,Arm還確認與Cerebras、F5科技、OpenAI、SAP、SK電訊等企業達成進一步商務合作,計畫將這款晶片部署在加速器管理、控制平面處理、雲與企業級API、任務與應用託管等領域。在商業化方面,Arm也與聯想、廣達電腦、Supermicro(超微電腦)等OEM或ODM廠商合作,計畫在今年下半年逐漸落地。當然更受關注的是,在CPU晶片市場看起來還算“新人”的Arm,如何與x86架構多年的軟體生態積累競爭?Mohamed Awad受訪時指出,如果說4-5年前,Arm在資料中心軟體支援方面的確與x86架構生態存在差距。但在這些年間,包括Google、亞馬遜雲、Meta等頭部雲服務廠商以及輝達和多家中國公司,都在積極投資資料中心相關軟體生態系統,這也逐漸豐富了Arm在該領域的軟體包,目前已經有不少AI軟體先天採用Arm架構,目前有超過1萬家公司的資料中心在使用Arm旗下產品,這是Arm在當前資料中心軟體生態方面的信心。當然,目前為止,手機類業務依然是Arm業務的核心支撐。公司發佈的2025財年財報顯示,手機AP目前依然為公司版稅(royalty)業務貢獻45%收入構成,隨著Arm進入實體晶片市場,Rene Haas預計,5年後的2030年,資料中心CPU晶片市場的總潛在市場 (TAM) 規模約為1000億美元,其中Arm有望獲得150億美元營收;此外其持續發展的IP業務預計到2030年將達到百億美元規模。從行業視角看,作為長期處於產業鏈上游的IP巨頭,Arm向下游延伸,不僅反映了AI算力需求激增背景下,核心晶片在架構與系統層面進行深度協同的迫切性,也凸顯出資料中心市場正從性能競爭,轉向圍繞能效、規模與整體系統最佳化的綜合博弈。 (21世紀經濟報導)
矽基美女建模臉火了,對視 3 秒,我再也沒法把它當機器人
「人形機器人如果有最終形態,那一定會是有頭有臉,你覺得呢?」3 月 22 日,一段 1 分 18 秒的視訊在社交媒體上引發了不小的震動。視訊裡,一個有著黑色長髮、面容精緻到讓人不安的仿生人形機器人,緩緩轉動頭部。發佈這段視訊的是首形科技的創始人胡宇航,他在 X 平台上寫道:Bionic Humanoid Robot: Origin F1 — New Skins, New Souls。RoboHorizon 雜誌評價 Origin F1 的面部表情「比某些政客還有說服力」。這不是首形科技第一次出圈。去年 5 月,一段胡宇航與機器人對視的視訊就曾引發廣泛討論。但 Origin F1 好像又向前邁出了一步。人臉是最古老的 UI1984 年,蘋果發佈 Macintosh,用圖形介面取代了命令列。此後四十年,計算裝置的每一次革命本質上都是介面革命:滑鼠、觸屏、語音、手勢。硬體性能的提升固然重要,但真正改變人與機器關係的,從來都是互動方式的變化。心理學中有個「55/38/7 定律」:55% 的情緒資訊來自面部表情,38% 來自聲音,只有 7% 來自文字。換言之,超過一半的情緒資訊是通過面部傳遞的。想讓人和機器人產生情感連接,一張能表達情緒的臉幾乎是必需品。但人臉這個賽道,幾乎所有人形機器人都選擇了留白。這也是胡宇航把人臉視為一個「平台」的原因。就像 iOS 不是 iPhone 的某個 App,而是所有 App 運行的基礎層——人臉是人類社交協議的基礎層。眼神接觸建立信任,微笑傳遞善意,皺眉表達疑慮。從這個意義上說,人臉是人類最古老的作業系統。首形科技要做的,是把這套作業系統移植到機器人上。首形科技F1 仿生人機器人頭部演示.來源:@野生Como接下來從幾篇論文看看胡宇航是怎麼做的。胡宇航是哥倫比亞大學機械工程系博士,師從 Hod Lipson 教授。Lipson 實驗室是全球機器人自我建模領域的先驅,從 2006 年就開始探索讓機器人通過觀察自身來學習運動。2024 年 3 月,胡宇航作為第一作者在 Science Robotics 發表了關於面部「共表達」的論文。這篇論文的核心想法很有野心:機器人不應該只是模仿人類的表情,而應該能預測人類即將做出的表情,並同步執行。團隊設計了名為 Emo 的機器人頭部,配備 26 個驅動器,覆以柔性矽膠皮膚,瞳孔中嵌入高解析度攝影機實現眼神接觸。訓練過程分兩步:先讓機器人對著鏡子做大量隨機表情,通過自監督學習建立面部自我模型;然後讓它觀看人類面部視訊,學習預測對話者的表情變化。兩步過後,機器人能在人類微笑的瞬間同步微笑,而不是延遲模仿。延遲模仿看起來虛偽,同步表達則讓人感覺彼此在同一個頻道上。這篇論文驗證了超過 45 位人類參與者的資料。胡宇航在多個訪談裡反覆提到「自我建模」這個概念。他不滿意當時主流的強化學習路徑,因為泛化能力太弱,還舉了一個例子:教機器人打乒乓球,再教它打羽毛球,學完第二個就忘了第一個。兩個一起學,能力就被平均化了。他想要的不是讓機器人收斂到單一任務,而是讓它學會一種「學習的能力」。今年 1 月,更進一步的成果登上了 Science Robotics 的封面。這次聚焦嘴唇運動。在人類面對面交流中,將近一半的視覺注意力集中在嘴唇上。但即便是最先進的人形機器人,嘴部動作仍然停留在簡單開合的層面。胡宇航團隊設計了一個 10 自由度的唇部驅動機構,配合柔性矽膠唇部,能覆蓋 24 個輔音和 16 個元音對應的唇形。演算法層面,他們採用了基於變分自編碼器(VAE)的自監督學習管線,結合一個面部動作 Transformer,讓機器人直接從語音音訊推斷唇部運動軌跡,無需任何手工編寫的音素-唇形對應規則。最終實現了跨 11 種語言的唇音同步,包括說話和唱歌。Lipson 教授當時說:未來不存在一個人形機器人沒有臉的世界。一旦它們有了臉,就必須讓眼睛和嘴唇正確運動,否則永遠停留在恐怖谷裡。人形機器人更適合提供情緒價值看一眼當前人形機器人賽道:靈巧手擰螺絲、跳舞、騎車。幾乎所有頭部公司都盼望著在不久的將來用人形機器人替代藍領工人,切入製造業和物流場景。但工業自動化的機器人天生就是為特定任務最佳化的,三個電機完成一個動作,效率極高,穩定性極強。人形機器人做同樣的事情需要二三十個電機協同,價格更貴,更不穩定,續航更短,還會摔倒。摔倒是危險的。一台花了幾十萬、長得像人的機器,在工廠裡幹著原本三萬塊機械臂就能幹的活不能稱之為技術革命,更像是行為藝術。整個行業在「人形」這個詞上投入了大量資源,卻在「人」這個字上集體失語。沒有臉的人形機器人能完成任務,但無法建立關係。而關係,才是 C 端市場的入場券。首形科技選擇了一條完全不同的路徑。與其讓機器人在生產力上跟工業機械臂硬碰硬,不如讓它做工業機械臂永遠做不到的事——建立情感連接。胡宇航的核心判斷是:在未來五年內,人形機器人最大的商業化機會不在生產力,而在情緒價值。人天然會對像人的東西投射情感。你看到一個機器人摔倒了,你會心疼;看到機器人踢足球擠在一起,你覺得有趣。這種投射是本能的,不需要機器人真的有意識或感受。而人臉把這種投射放大到了極致。2024 年 6 月,他在上海創立首形科技,團隊不到十人。四個月後獲得天使輪,投資方包括奇績創壇、智元機器人和德迅投資。此後融資節奏快得驚人。2025 年完成四輪融資,從招商局創投和深創投領投的Pre-A輪,到順為資本領投的A輪,再到螞蟻集團兩度領投……從產品線來看,首形目前有幾個系列。Elf 系列是全身仿生人形,有 30 個面部自由度,用無刷微型電機驅動矽膠皮膚。Origin 系列偏研究和展示用途,Origin M1 是半身版,配備唇音同步和頭眼協調能力。最新亮相的 Origin F1 則是他們技術的集大成者,搭載了所謂的 Omni Model,實現即時面部微表情與語音的深度融合。此外還有一個更平價的 Lan 系列,定位為需要更多移動性的場景。去年 12 月,首形科技和手游逆水寒在杭州 CP32pre 漫展聯合推出遊戲角色仿生機器人「方承意」。據報導,得益於雙目視覺系統,他能夠與面前的觀眾進行眼神交流,並通過搭載的 AI 仿生運動演算法,做出自然的表情與頭部動作。更早,首形科技曾和逆水寒合作推出過精靈·璇機器人。精靈·璇後以新皮膚亮相抖音新春聯歡會,獻上了原創情歌《未定義的關係》。落地方面,胡宇航曾提到過幾個方向。短期來看,生活中有大量情緒消耗型的工作:銷售、前台、服務人員。這些崗位本質上是對人類情緒的持續損耗。每天保持微笑,不厭其煩地解決重複問題。他覺得 2 到 3 年內,類人形態的機器人可以替代其中一部分。更遠的終局是 To C。讓每個人身邊都有一個能產生情感陪伴的仿生機器人。胡宇航沒有迴避這個目標的爭議性。當一個 AI 永遠在取悅你,沒有衝突,沒有自私的動機,它會不會把人困在虛假的關係裡?他說他們在訓練機器人時會加入保持真實度的參數,讓它有一定的衝突和自我表現,不純粹是一個情緒按摩器。同時可以在程序中注入引導功能,比如節日到了提醒你回家看看父母,周末建議你和朋友去爬山。機器人不應該有佔有慾。這些想法當然還很早期。但覺得至少有一點是對的:情感需求的市場比大多數人想像的要大。手辦、盲盒、毛絨玩具、寵物,這些都是情緒寄託的載體。泡泡瑪特一年賣出上百億的 IP 衍生品,證明了人們願意為不具備任何實用功能的東西付費,只要它承載了某種情感價值。如果一個機器人能用人類的方式回應你的情緒,它的上限顯然不止於此。托福考了 9 次的人胡宇航高考考砸了,入學後開始拼了命地證明自己,每學期專業第一,主修課全滿分。但決定出國時,第一次托福只考了 40 多分,而基準線是 100 分。他在申請截止前的窗口期考了 9 次托福、3 次 GRE。最後一次終於過線。他回憶這段經歷時說:我覺得可能是未來的我,幫了一下過去的自己。過去的求學經歷也解釋了他身上一種很特別的氣質。他說自己最看重的品質是韌性。招人的時候,他偏向看一個人的經歷是否充滿挫折。他特別喜歡打比賽的人,喜歡 RoboMaster 機甲大師出來的那群孩子。因為他知道打比賽太苦了,你得犧牲所有休息時間,還要在比賽前一晚九點裝置突然壞了的時候硬著頭皮排查到凌晨六點。他自己就有過這樣的經歷:無人避障小車比賽前夜,紅外感測器干擾導致整塊板子癱瘓,老師都說算了,他不肯。排查到凌晨,最後趕在發車前修好了。他在管理上也有些不太常規的做法。比如他從來沒跟員工聚過餐。他說他擔心聚餐會把酒桌文化和不必要的社交壓力帶進公司。他希望大家是因為熱愛工作聚在一起,而不是被輩分感繫結。他接受現階段能真正相信人臉機器人有用的人是極少數。很多人加入是為了名利或者覺得成功率高。但有一個底線:你可以懷疑方向,但不能在內部一邊拿薪水一邊到處說方向不行。我在他的視訊和社交媒體表達中感受到一種罕見的坦率。B 站粉絲叫他 U 航,管自己叫電子股東。有人問為什麼視訊大多展示外觀而很少展示互動,他說:有沒有可能不是因為短板,而是因為我們不想過度展示優勢?競爭太激烈了,有些大招還是要藏著。說完又補了一句:不過說實話,我們也沒有刻意規劃。說到底,首形科技今天做到的事情,在兩年前是不可想像的。2024 年創業初期,投資人看到他的原型機器人,第一反應是:這玩意能幹啥?還有人問:美國有對標公司嗎?因為美國沒有做,所以覺得沒意義。而現在,大家 180 度轉彎,變成了:你這個產品什麼都能幹。人形機器人如果有最終形態,胡宇航說,那一定會是有頭有臉。我不確定他是對的。但我確定的是,一旦你和 Origin F1 對視超過三秒,你就很難再把它當成一台機器了。 (APPSO)
Google一篇論文引爆儲存晶片崩盤!AI記憶體需求暴降6倍,推理狂飆8倍
【新智元導讀】Google一篇論文,直接讓儲存巨頭們「集體失眠」,一夜市值蒸發幾百億!最新部落格官宣TurboQuant演算法,直接將快取壓到3-bit,記憶體佔用只有1/6。一篇論文攪動兆市場,儲存晶片的天塌了...誰也未曾料到,本周三美股開盤,儲存晶片類股遭遇「黑色時刻」,巨頭股價全線飄綠——截至收盤,美光科技下跌4%,西部資料下跌4.4%,希捷下跌5.6%,閃迪更是重挫6.5%。引發這場拋售地震的導火線,正是Google發佈的TurboQuant壓縮演算法。眾所周知,大模型跑起來時,KV快取(KV cache)簡直是記憶體界的「吞金獸」。為了不重複計算之前的Token,LLM維持一份「運行記憶」,隨著對話越來越長,這份記憶會像滾雪球一樣迅速膨脹。Google的TurboQuant,給出了一套極其「暴力」的瘦身方案:首先,把KV快取裡的高維向量做一次「旋轉」,再換一套極坐標系來描述,記憶體開銷直接歸0。然後,用僅僅1-bit額外空間,放一個數學「校正器」進去,把壓縮帶來的系統性偏差精確抹平。TurboQuant論文將於下月舉辦的ICLR 2026上正式發表結果非常頂:不用任何重訓,TurboQuant把快取壓縮至喪心病狂的3-bit。這麼一來,KV快取開銷驟降6倍,關鍵是,推理表現幾乎零損耗。在H100上,相較於32-bit基線,4-bit的計算注意力速度飆升了8倍。不僅省空間,還跑得更快了。一時間,全網陷入瘋狂。照這樣說,16GB Mac mini又能用來跑大模型了。這一幕,現實版「魔笛手」(Pied Piper)真的降臨了!記憶體佔用暴降6倍,儲存巨頭集體重挫對於晶片儲存巨頭來說,這無異於一場「底層邏輯大地震」。美光、西數等巨頭的估值基石,向來建立在「AI伺服器單機容量紅利」之上。一旦單次推理任務的位元(Bit)需求發生結構性驟降,高性能儲存的增長動能將直接面臨「縮水」危機。直白講,GoogleTurboQuant出世,直接衝擊了晶片儲存巨頭們,備受追捧的AI硬體邏輯。KV快取暴降6倍,速度提升8倍,意味著每台伺服器所需的高端記憶體晶片可能變少。Cloudflare首席執行長Matthew Prince甚至將其形容為「Google的DeepSeek時刻」!KV快取,大模型瘋狂吞金要理解TurboQuant的份量,先得搞清楚它瞄準的靶心——KV快取到底有多吃記憶體。大模型生成每一個Token時,都要「回看」之前所有Token的資訊。為了避免重複計算,模型把每一層注意力機制產出的Key和Value向量全部快取起來,形成一張高速「速查表」。問題在於,這張表隨對話長度線性膨脹。當上下文從4K擴展到128K甚至百萬等級,KV快取吞掉的視訊記憶體往往反超模型參數本身,成為推理階段最大的記憶體瓶頸。傳統的解法是向量量化,也就是把16-bit浮點數壓縮成4-bit整數。但幾乎所有傳統方法都需要為每一小塊資料額外儲存一組全精度的量化常數,每個數字多吃1到2個bit。壓到4-bit,實際可能是5到6-bit,壓縮的意義被自己的「手續費」蠶食了一大截。而TurboQuant的野心,正是徹底消滅這筆附加費。論文地址:https://arxiv.org/pdf/2504.19874兩步「絕殺」極坐標變換 + 1-bit誤差校驗TurboQuant的核心,是一個精巧的兩階段流程。第一階段:PolarQuant換一個坐標系看世界傳統量化在笛卡爾坐標系(X、Y、Z軸)下操作,每個軸的取值範圍不固定,必須額外儲存歸一化參數來「對齊」。換句話說,每一小塊資料都要自帶一張「比例尺」,而這張比例尺本身就很佔空間。PolarQuant的第一步,是對資料向量做一次隨機旋轉。這一步看似隨意,背後的數學意義卻很深:在高維空間裡,隨機旋轉會讓向量的每個坐標份量收斂到一種高度集中的Beta分佈,而且各份量之間近似獨立同分佈。不管原始資料長什麼樣,轉完之後,統統變成「一個模子刻出來的」。PolarQuant就像一座高效的壓縮橋樑,能把笛卡爾坐標輸入轉換成緊湊的極坐標「速記」形式,方便後續的儲存和處理這讓複雜的高維量化問題,降格為一組簡單的一維標量量化問題。Google只需要提前算好不同位寬下的最優碼本,推理時直接查表即可,不需要為每一組資料單獨計算任何東西。然後,PolarQuant把旋轉後的向量「笛卡爾坐標系」轉換成「極坐標系」。舉個栗子,傳統方法描述一個位置:向東走3個街區,再向北走4個街區。PolarQuant則說:朝37度方向直接走5個街區。轉換之後,資料被拆成兩組資訊:一個半徑(代表訊號強度),一組角度(代表訊號方向)。接下來才是真正精妙的一步,即「遞迴配對」。PolarQuant把坐標兩兩分組進行極坐標變換,得到一組半徑和一組角度;再把這些半徑兩兩配對,做第二輪極坐標變換;如此遞迴往復,最終整個高維向量被濃縮為一個最終半徑和一系列描述性角度。因為角度的分佈模式在數學上是已知且高度集中的,整個過程不需要儲存任何歸一化常數。開銷,歸零。這一步消耗了絕大部分的壓縮預算(分配b-1個bit),專注於把均方誤差(MSE)壓到最低,精準捕捉原始向量的核心資訊。第二階段:QJL用1 - bit消滅殘餘誤差再精準的壓縮,也會留下誤差。而且這裡有個隱蔽的陷阱:一個在MSE意義上最優的1-bit量化器,在高維空間中會引入一個2/π的乘性偏差。也就是說,你把資料壓得很小、失真也很低,但用它算內積(注意力分數的核心操作)時,結果是系統性偏斜的。TurboQuant的第二步,專門來「殺」這個偏差。它將Johnson-Lindenstrauss變換應用到第一階段的殘餘誤差上,把每個誤差值壓縮為一個符號位:+1或-1。然後配合一個特殊的估計器——用高精度的Query向量和低精度的壓縮Key做聯合計算。這套組合拳,在數學上被證明是「無偏」的:壓縮前後的內積期望值嚴格相等。只消耗最後1個bit,就把第一階段殘留的系統性偏差徹底抹平。兩步合璧的效果TurboQuant在僅僅3-bit的總預算下,實現了接近無損的壓縮效果,全程零額外開銷。論文給出了嚴格的理論證明:TurboQuant的MSE失真率,在所有位寬下都控制在理論絕對下限的約2.7倍以內。在1-bit極端壓縮的情況下,更是只有最優值的約1.45倍。換句話說,它幾乎貼著資訊理論的「物理極限」在運行。整套演算法是「資料無感知」(data-oblivious)的——不需要任何校準資料,不依賴任何預訓練,對資料集零假設。同時,演算法內部全程使用向量化運算,避免了傳統方法中緩慢的二分尋找,對GPU加速器極其友好。拿來即用,即插即飛。跑分全面碾壓,大海撈針完美通關光說原理不夠,得看實戰。Google在LongBench、Needle In A Haystack、ZeroSCROLLS、RULER和L-Eval五大長上下文基準測試上,對TurboQuant進行了嚴格驗證,測試模型覆蓋Gemma、Mistral和Llama-3.1-8B-Instruct。結果相當硬核。在LongBench的問答、程式碼生成、文字摘要等綜合任務中,3-bit配置下的TurboQuant,性能全面優於KIVI等基線方法,甚至逼近全精度模型的表現。最殘酷的考驗來自「大海撈針」——在10萬Token的文字海洋裡,精準撈出一句特定資訊。在4倍壓縮比下,TurboQuant的檢索精度一路保持到10.4萬Token,與全精度模型完全一致。6倍壓縮之後,模型該記住的,一個字都沒丟。在H100 GPU上,4-bit TurboQuant計算注意力logits的速度,相比32-bit未量化基線提升了8倍。需要說明的是,這個8倍是注意力計算環節的加速比,並非端到端推理的整體提速,但注意力計算恰恰是長上下文推理中最吃資源的那一環。Google特別強調,TurboQuant引入的執行階段開銷「幾乎可以忽略不計」。這也好理解——演算法本身不涉及任何資料集相關的查表或搜尋操作,純粹是矩陣運算,天然適合GPU平行。在高維向量搜尋方面,TurboQuant也沒有放過對手。在GloVe資料集(200維)上,它擊敗了PQ和RabbiQ兩大前沿方法,拿下最優1@k召回率。而那些對手還依賴龐大的密碼本和針對性調優,TurboQuant全程「裸奔」通殺。這個結果的含金量在於:向量搜尋是Google搜尋、推薦系統、廣告系統等核心產品的底層引擎。TurboQuant在這個賽道上的優勢,意味著它不只是一個學術玩具,而是有明確的工程落地路徑。部落格官宣這天,獨立開發者在Reddit上曬出了復現成果:基於PyTorch和自訂Triton kernel,在RTX 4090上用2-bit精度跑Gemma 3 4B,輸出與未壓縮版本逐字元一致。論文寫的「零損耗」,社區用程式碼投了票。另一位開發者Prince Canuma實測後驚嘆道:「面對8.5K到64.2K不等的大跨度上下文,TurboQuant讓模型對視訊記憶體實現極致壓縮」。2.5-bit量化讓KV快取縮小了4.9倍;3.5-bit量化也實現了3.8倍的縮小。Google一張紙,儲存晶片天塌了?儲存晶片的天,真的塌了嗎?大機率沒有。科技行業有一條反覆被驗證的鐵律——傑文斯悖論:資源使用效率越高,總消耗量反而越大。KV快取壓縮6倍,最可能的結果不是少買記憶體,而是同樣的視訊記憶體跑更長的上下文、更多的並行、更大的模型。雖然壓縮演算法還從未從根本上改變過採購量,但有兩件事確實在發生改變。第一,推理成本的地板價被改寫了。TurboQuant的三篇論文將在ICLR 2026和AISTATS 2026上公開發表,核心思想向全行業敞開。當3-bit能做到過去16-bit的事情,受益的是每一個做推理服務的公司,感到壓力的是那些指望「量價齊升」永遠持續的儲存廠商。第二,從論文到落地的路正在縮短。TurboQuant目前僅在8B參數等級的開源模型上得到驗證,70B以上的模型、MoE架構、百萬級上下文窗口上的表現尚未證實。Google也沒有宣佈它已部署到Gemini或任何生產系統中。這次Google部落格一發出,不到24小時,就有獨立開發者從論文出發寫出了完整實現並跑通驗證。在算力軍備競賽裡,最鋒利的武器未必是更大的晶片,也可能是更聰明的數學。技術不關心股票程式碼,只關心位元的邊界在那裡。 (新智元)
WWDC26押注AI!蘋果聯手Google,能否拯救自家智能體驗?
蘋果突然打破保密慣例,提前官宣今年WWDC開發者大會將全面聚焦AI,這場定在6月的科技盛會,不再藏著掖著,直接把智能升級擺到檯面。大會採用線上線下結合形式,核心不發新硬體,全部圍繞系統AI革新展開,而這一切的伏筆,早在年初蘋果與Google達成的合作中就已埋下。不少網友看到消息第一反應是,終於等到蘋果認真做AI了,之前的智能功能更像小打小鬧,這次該拿出真東西了。全新升級的智能助手會是整場大會的絕對主角,互動邏輯徹底重構,告別單一指令模式,支援長時間上下文記憶,還能看懂螢幕內容完成跨應用操作。響應速度會有明顯提升,搭配全新視覺動效,互動體驗更貼近日常聊天,不再是生硬的一問一答。同時iOS、macOS全平台系統都會迎來底層AI改造,介面特效也會和智能互動深度適配。蘋果選擇牽手Google大模型,本質是認清了自研路線的現實侷限。過去一年多,自家智能功能推進緩慢,落地可用的功能寥寥無幾,國內市場更是遲遲無法上線。原本規劃的多個AI項目陸續收縮,團隊方向從多點佈局,轉向以智能助手為唯一核心入口,人才流失與內部調整,也讓蘋果不得不加快求變的腳步。自研隱私優先的路線固然穩妥,但大模型能力的差距,單靠系統整合很難快速追上。與其花費數年追趕,不如直接接入成熟技術,用最短時間補齊短板。合作模式也延續了蘋果一貫的謹慎,核心資料優先在裝置端處理,雲端傳輸全程加密,既借到外部技術優勢,又守住隱私底線,算是兼顧效率與安全的折中方案。這次戰略轉向,讓蘋果放棄在大模型層面正面競爭,回歸最擅長的系統整合與生態閉環。把成熟AI能力裝進完整的裝置生態裡,理論上能打造出獨一份的流暢體驗。能不能成功,關鍵要看兩點。一是新版智能助手能否真正達到主流AI助手的理解與對話水平,擺脫使用者心中不夠智能的固有印象。二是國內市場的落地進度,目前國行裝置雖有入口但功能受限,面對國產廠商全場景AI普及,蘋果如果遲遲不能補齊體驗,很容易丟掉市場優勢。按照目前進度,今年二季度的系統版本會是關鍵節點,國行智能功能有望分批推送,且僅適配高端機型,入門裝置因算力限制無緣核心體驗。WWDC26不僅是一次功能發佈會,更是蘋果在AI賽道重新站位的亮相。牽手Google只是第一步,後續功能打磨、本地化適配與生態拓展,才是決定能否重回領先的核心。當硬體創新逐漸趨緩,AI體驗會成為高端裝置的新分水嶺,蘋果能否靠這次轉型守住優勢,今年6月的大會,就能看出大致答案。 (數位星運)