DeepSeek R2 推遲內幕曝光:聯手華為憋大招,工程師團隊駐場攻堅

DeepSeek R2 遲遲不發佈的原因找到了。

據金融時報報導,DeepSeek 本來要在 5 月份發佈新模型 R2,結果拖到現在,原因竟然是...晶片「不給力」?
事情是這樣的:在沒有足夠的 H20 晶片的情況下,DeepSeek 原本想用華為昇騰晶片來訓練新模型,以減少對輝達技術的依賴。
🤯 然而在實際應用中,團隊遇到了一些技術障礙,據知情人士透露,華為專門派了一支工程師團隊到 DeepSeek 辦公室駐場。
報導稱,即便有現場支援,也還未能實現穩定的訓練運行。DeepSeek 團隊最終不得不採用混合方案:使用輝達晶片進行訓練,而將華為晶片用於推理環節。
簡單解釋一下,訓練是指讓 AI 模型從海量資料中學習的過程,而推理則是訓練完成的模型執行具體任務的階段,比如響應使用者查詢。
不過,儘管訓練環節遇挫,DeepSeek 並未放棄與華為的合作,雙方仍在努力讓 R2 模型在推理環節能夠「跑通」昇騰晶片。
👀 另據瞭解,DeepSeek 創始人梁文鋒對 R2 的進展很不滿意,一直在推動團隊投入更多時間來完善模型,加上資料標註也比預期耗時更長,所以發佈時間就這樣一拖再拖。
值得注意的是,雖然近期市場傳言 DeepSeek R2 將於本月中下旬發佈,但騰訊科技援引接近該公司的消息源確認,這一傳言並不屬實,DeepSeek R2 在 8 月內確實沒有發佈計畫。
截至發稿前,DeepSeek 和華為均未對上述報導作出回應。 (APPSO)