一、從"算力軍備競賽"到"效率革命":一場意料之外的顛覆
當矽谷巨頭們仍在比拚"萬卡叢集"與"千兆瓦資料中心"時,一家名為DeepSeek(深度求索)的中國AI初創公司,用550萬美元和兩個月時間,訓練出了性能對標OpenAI頂級模型的開源大模型DeepSeek-V3。這一成本僅為美國同類項目的1/20,被矽谷譽為"AI界的拼多多"。
這場逆襲的核心,是一場被美國製裁倒逼出的"效率革命"。
硬體限制下的軟體突圍:面對美國對高端GPU的禁運,DeepSeek採用"混合專家"(Mixture-of-Experts)架構和"多頭潛在注意力"(MLA)技術,將算力消耗壓縮至競品的1/10,並通過定製晶片通訊協議使訓練速度提升2倍。