DeepSeek在取得突破一年後推出旗艦AI模型
DeepSeek Unveils Flagship AI Model a Year After Breakthrough
在顛覆矽谷一年後,DeepSeek推出了其新款旗艦人工智慧模型的預覽版本,稱其為最強大的開源平台,以此向從OpenAI到Anthropic的競爭對手發起挑戰。
這家中國初創公司推出了V4 Flash和V4 Pro系列,宣稱其在程式設計基準測試中具有頂級性能,並在推理和智能體任務方面取得了重大進展。該公司在Hugging Face平台上表示,這些模型帶來了架構升級和最佳化改進。
DeepSeek特別提到了一項名為"混合注意力架構"的技術,稱其提高了AI平台在長對話中記住查詢內容的能力。此外,DeepSeek還將上下文窗口推至100萬token——這一飛躍使得整個程式碼庫或長文件可以作為單個提示詞傳送。
V4的發佈距離這家總部位於杭州的初創公司通過發佈R1(一個模仿人類推理過程的開源模型),引發兆美元股市拋售已過去一年多。R1的性能可與OpenAI等公司的尖端AI系統相媲美,但據稱其建構成本僅為這些系統的一小部分。
中國晶片製造商大漲,因DeepSeek新模型提振前景
投資者押注新模型將支撐對本土晶片的需求。DeepSeek在微信上發佈的一篇文章中表示,由於計算能力緊張,V4 Pro系列的服務能力極為有限。
然而,這家初創公司預計,在由華為技術有限公司昇騰950晶片驅動的計算叢集於今年下半年推出後,該模型的定價將大幅下降。DeepSeek目前正就首輪融資與騰訊控股有限公司和阿里巴巴集團控股有限公司進行談判。
華為主要晶片製造商中芯國際的股價在香港一度上漲9.4%,而華虹半導體有限公司的漲幅則超過13%。智譜等競爭對手則下跌了8%。
新系列在規模和效率方面邁出了一大步,這兩點正是DeepSeek崛起的定義性特徵,並給競爭對手帶來了巨大的競爭壓力。在R1發佈之後,科技公司和投資者開始反思將數十億美元投入AI開發是否明智。此後,這些支出又反彈回升,預計美國科技巨頭將在2026年向AI基礎設施和資料中心投資約6500億美元。
與成名相伴的還有審視
DeepSeek的兆參數系統採用了"專家混合"技術,僅選擇性觸發一小部分專家,每個任務僅啟動最多370億個參數,從而使其推理成本遠低於類似的前沿模型。
該架構和技術使DeepSeek與矽谷競爭對手OpenAI、Google和Anthropic的最新模型形成了直接競爭。上周五,這家初創公司宣稱其在標準基準測試中的表現優於OpenAI的GPT-5.2等模型,但承認V4在技術上落後最先進的模型約3至6個月。
儘管如此,DeepSeek強調其追求的不僅是原始能力,而且還要從根本上降低成本。V4的設計目標是在更便宜的基礎設施上部署。
"Minimax和智譜作為獨立的模型提供商,將始終面臨競爭的脆弱性,尤其是來自那些擁有更好覆蓋面和分發管道的網際網路平台或雲服務提供商的競爭,"瑞士聯合私立銀行董事總經理凌維森表示,"最終,模型性能的差距對大多數使用者來說將變得難以察覺。"
DeepSeek在中國也引發了一場狂熱,從阿里巴巴到百度公司的科技領袖紛紛向市場推出低成本的AI服務。從字節跳動到智譜和Minimax,競爭對手在4月前的幾周內競相更新模型,希望能搶佔DeepSeek的先機。
與成名相伴的還有審視。美國科技領袖和政府官員指責DeepSeek使用非法技術和硬體來開發其模型。
其中一個焦點是所謂的"蒸餾",即一個AI模型依賴另一個模型的輸出進行訓練,以開發出類似的能力。OpenAI和Anthropic都聲稱檢測到了來自DeepSeek的這種攻擊,OpenAI在R1模型發佈後不久就開始私下提出這一擔憂。
另一個擔憂是,DeepSeek可能能夠獲得被禁止的輝達AI晶片,美方去年已開始調查這種可能性。 (明日頭條)
