“不用輝達GPU”!中國產AI晶片重大突破,訓練成本降百萬

臨近4月2日,美國市場緊張等待新關稅政策的落地。周四,川普發表了關於汽車關稅的新聲明,不僅針對歐盟、日本等傳統汽車出口大國,還警告稱,如果加拿大和歐盟聯合對抗,美國將進一步提高關稅。

川普關稅言論引爆避險,美股較早盤跌勢縮小,但尾盤拋壓明顯放大。

截至收盤 道指跌幅為0.37%;納指跌幅為0.53%;標普500跌幅為0.33%。



美股科技7巨頭漲跌不一,蘋果收漲1.05%,微軟漲0.16%,亞馬遜漲0.11%,Meta收跌1.37%,GoogleA跌1.71%,輝達跌2.05%。

特斯拉今天盤中表現亮眼,上漲近5%。

主要是因為昨天川普昨天在白宮新聞發佈會上表示關稅對特斯拉的影響是中立的。

因為根據美國國家公路交通安全管理局的資料,特斯拉約60%到75%的零部件是在美國生產的,剩下的部分則來自墨西哥。這樣一來,特斯拉幾乎完全避免了進口汽車關稅的衝擊,因為它的生產本土化程度高。其他全球汽車製造商,如現代、大眾和通用汽車,依賴進口零部件,因此它們將面臨較大的成本壓力。

此外,川普還宣佈,如果消費者購買的是“美國製造”的汽車,其貸款利息可以抵扣稅款。這意味著購買特斯拉等美國本土製造的汽車,消費者將能享受稅務上的額外優惠,進一步增加了購買特斯拉的吸引力。


中國產AI晶片重大突破

據美股投資網瞭解到,螞蟻集團成功通過創新的技術手段,利用阿里巴巴和華為製造的國產晶片,成功降低了AI模型訓練的成本。

具體來說,螞蟻集團在訓練“專家混合”(MoE)模型時,計算成本從每兆Token 635萬元人民幣下降到508萬元人民幣,減少了約20%。更為驚人的是,這種最佳化手段讓螞蟻的訓練效果幾乎可以和使用輝達H800等高端晶片的訓練效果相媲美。



實際上,螞蟻集團的這項技術突破早在3月11日便已公開。當時,螞蟻集團的Ling團隊在技術報告中詳細介紹了這一系列創新策略,這些策略可以在不依賴高端GPU的情況下,最佳化模型的性能和成本。螞蟻在這一過程中也遇到了一些挑戰,包括硬體或模型結構的微小變化可能會導致訓練錯誤率上升,但他們最終通過不斷最佳化克服了這些困難。


最佳化了那些?

在最佳化的具體步驟上,螞蟻從多個方面進行了改進。

首先,在模型架構上,螞蟻通過對密集型模型和MoE模型的縮放規律進行綜合分析,選出了最適合的架構,以便與現有的計算資源匹配。

其次,在訓練框架方面,螞蟻開發了一個名為DLRover的開放原始碼專案,通過將多個訓練框架整合為一個統一的分佈式深度學習平台,提升了計算效率,並且還開發了輕量級的偵錯工具XPUTimer,在不增加過多記憶體使用的前提下,幫助更快地分析任務性能。

此外,螞蟻還最佳化了儲存和異常處理機制,進一步提高了大規模訓練的效率。通過採用多租戶技術和使用者空間檔案系統(FUSE),螞蟻有效提升了MoE場景中的I/O效率,減少了訓練的時間開銷。針對硬體故障和異常,螞蟻開發了多層次的異常檢測系統和自動恢復機制,以確保訓練進度不受影響。

為了在跨叢集訓練中提高模型評估的精準性,螞蟻還提出了一些創新的評估策略。他們開發了一種自主創新的離線推理框架Flood,以及可擴展的跨叢集評估系統,成功提高了評估結果的穩定性,平均偏差小於0.5%。同時,螞蟻還將評估結果與模型性能、資料集相結合,形成了一個即時反饋調整訓練策略的自動分析系統。

更重要是,螞蟻在提升工具使用能力方面也做了大量的工作,特別是在高品質資料合成和自適應工具學習上。通過知識圖譜技術和廣義呼叫指令,螞蟻成功地提取出多樣化和複雜的函數鏈,從而增強了模型在實際場景中的應用能力。

其中,螞蟻的Ling系列MoE模型便是這一系列技術最佳化的成功應用。Ling-Lite模型包含168億個參數,啟動參數為27.5億,而Ling-Plus則擁有2900億參數和288億啟動參數。知情人士透露,螞蟻計畫利用這些技術突破為醫療、金融等行業提供AI解決方案。根據一系列綜合評估基準,Ling-Lite模型在資源和預算有限的情況下,性能與Qwen2.5-7B-Instruct相當,同時優於Llama3.1-8B-Instruct和Mistral-7B-v0.3-Instruct。在數學和程式碼基準測試中,Ling-Lite的表現與Qwen2.5-7B相當,超過了Llama3.1-8B和Mistral-7B v0.3。



Ling-Plus模型在性能上與DeepSeek等領先的開源模型非常接近,尤其在英語理解能力和GPQA資料集的得分上,Ling-Plus超越了DeepSeek-V2.5。在數學、中文測試中,Ling-Plus的表現與Qwen2.5-72B相似,在程式碼測試中也與Qwen2.5-72B持平,略低於DeepSeek-V2.5。



然而,螞蟻也表示,儘管Ling-Plus在多個方面表現優秀,但與DeepSeek V3相比,仍有一定差距。




訓練過程中遇到的幾大難題

螞蟻集團在訓練過程中遇到了一些非常棘手的難題。

首先,損失發散、損失尖峰和專家負載不平衡成了他們的主要挑戰,尤其是在MoE(專家混合)模型中,保持專家之間的負載平衡至關重要。任何損失尖峰都會引發梯度爆炸,進而打亂路由平衡,最終導致整個模型的不穩定。為了應對這些問題,螞蟻團隊採用了尖峰緩解技術,並結合了平衡損失和路由器Zloss策略,這使得他們能夠穩定訓練擁有數千億參數的MoE模型,成功避免了損失發散和專家路由失衡等問題。

此外LLM的跨平台遷移訓練同樣困難重重。螞蟻團隊發現,不同平台之間基礎操作的實現差異和框架問題,往往導致訓練結果的不一致。為了避免這種情況,螞蟻採取了嚴格的對齊策略,通過大量前期實驗,確保不同平台間的基礎操作和通訊演算法能夠保持一致,並且特別關注了數值計算中的微小精度誤差。在驗證這些基礎元件之後,螞蟻才開始進行大規模的語言模型訓練。

然而,驗證了基本操作後,螞蟻團隊意識到,僅僅對齊基本操作並不足以確保無縫的跨平台遷移。在接下來的訓練過程中,他們發現,跨平台的訓練依然存在損失收斂的不一致性。

為瞭解決這個問題,螞蟻進一步將對齊工作從基本操作擴展到整個訓練框架,著重消除了所有潛在的差異源。最終,他們成功地實現了包括矩陣乘法和線性變換等基礎操作在內的完全對齊,從而消除了跨平台遷移的差異問題。

此外,在框架對齊方面,螞蟻團隊重點處理了如注意力機制、多層感知器(MLPs)和路由元件等模組的實現差異,避免了浮點運算帶來的精度誤差。通過這些最佳化,他們成功實現了跨平台前向傳遞計算的完全對齊。而在處理張量平行(TP)變化和輔助損失計算時,他們也解決了部分通訊操作中存在的問題。最終,在反向傳遞計算時,借助前期對齊經驗,團隊迅速識別並修正了梯度傳播中的錯誤,尤其是在路由元件的部分。

這些問題在單獨出現時或許微不足道,但在整個訓練過程中,它們的積累效應卻極為顯著。即使是最小的差異,經過多輪迭代後,也可能導致訓練結果的巨大偏差。螞蟻團隊正是通過對這些細節的精心調整,確保了模型訓練的穩定性,並為大語言模型的最終收斂提供了強有力的保障。

據一位知情人士透露,螞蟻集團現在還是在使用輝達的晶片進行AI開發,但在最新的模型訓練中,他們更多依賴的是AMD和國產廠商的替代晶片。

如果國產晶片越來越受歡迎,可能會威脅到輝達在AI晶片市場的主導地位。雖然輝達的晶片性能非常強勁,需求也很高,但由於出口限制,這也可能讓輝達的市場份額面臨挑戰。 (美股投資網)


最近長文
關於鉅亨號
「鉅亨號」是《Anue鉅亨網》以AI 大數據和推薦引擎所推出具影響力的自媒體社群平台,從投資理財為主題擴展到金融財經、房地產、汽車、數位虛擬貨幣、影音視頻及Podcast的數位生活圈。讀者可透過一面牆及個人化功能關注一天的大小事;對創作者而言更是一個直接能與1,000萬用戶互動的舞台。
最好用的投資平台,幫你找到最適合自己的標的
看真實的投資分享文章,跟隨達人腳步取得最佳利益
多元投資社群平台,掌握最新市場動態熱門議題