【DeepSeek】能讓OpenAI降價的，只有DeepSeek！

2025/02/02

•

OpenAI上線O3 Mini模型，作為對DeepSeek熱潮的回應。

該模型是OpenAI推理系列中最新、最具成本效益的，已在ChatGPT和API中開放。

OpenAI CEO薩姆·奧爾特曼首次承認，在開源問題上，OpenAI曾站在歷史的錯誤一方。

截止當前DeepSeek依然霸榜，位居Appstore 157個國家中排名第一。

01 . o3-mini上線，OpenAI圍剿DeepSeek首次向免費使用者開放推理模型

1月2日，OpenAI正式推出全新推理模型o3-mini，此舉在AI領域激起千層浪。作為OpenAI推理系列中最新且最具成本效益的模型，o3-mini有著獨特的優勢。它能夠以更低的成本、更快的響應速度，為使用者提供出色的STEM能力，尤其在科學、數學和程式設計領域表現亮眼，還延續了先前版本低成本和低延遲的特點，開發者可依需求選擇低、中、高三種「推理努力」選項。

OpenAI此次也打破常規，首次向免費使用者開放推理模型。 ChatGPT Pro使用者可無限制存取o3-mini，Plus和Team使用者每日訊息限制從o1-mini的50條提升至150條，免費使用者也能透過選擇「Reason」模式或重新產生回覆來體驗。

OpenAI在官網對比顯示，o3-mini在不同推理強度下與o1系列各有優劣，在數學、程式設計和科學領域，它能以更快響應速度實現與o1相當的性能，但在某些領域優勢微弱，如在2024年美國數學邀請賽（AIME）測試中，高推理強度下僅比o1高出0.3個百分點，博士級科學問題（GPQA Diamond）基準測試中，高推理強度下也未超過o1得分。

這場關於DeepSeek的爭吵越演愈烈。 Meta首席科學家楊立昆評價，矽谷圈中的「常見病」是：錯位的優越感。

02 . 開源反思，奧爾特曼首次承認錯誤但是...

2個要點：

1.AMA 活動表態：奧爾特曼首次承認在開源上OpenAI 站在了歷史錯誤一方，稱需要找出不同的開源策略。但這不是當前最高優先事項，公司內部也並非所有人認同。

2.其他回應：也回應了使用者關於思維Tokens（將展示更有幫助和詳細版本）、完整版o3 發佈時間（估計超幾周、少於幾個月）、語音模式和GPT - 5（語音模式更新即將到來，可能叫GPT - 5，暫無時間表）等問題。

o3-mini發表的同時，OpenAI高階主管團隊在Reddit舉辦AMA活動。

當被問及是否會考慮發佈一些模型權重以及研究時，執行長薩姆·奧爾特曼首次承認：「我個人認為，我們站在了歷史的錯誤一邊，需要找出一個不同的開源策略。

這一表態引發業界震動，或許預示著OpenAI未來戰略的重大調整。在全球高效開源模式日益受青睞的背景下，OpenAI的閉源策略面臨挑戰。

不過奧爾特曼也強調，這並非公司當前最高優先事項，且公司內部並非所有人都認同這一觀點。

此外，他還回應了諸多問題，如表示將展示更有幫助和詳細的思維Tokens版本，完整版o3發佈估計超幾周、少於幾個月，語音模式更新即將到來，可能直接叫GPT - 5但暫無時間表等。

03 . DeepSeek崛起！梁文鋒的「摩爾定律」：演算法每年進步約4 倍，計算量減為1/4

1.硬體投入：DeepSeek斥資超5億美元購置GPU，擁有至少約5萬塊Hopper架構GPU，總伺服器資本支出約16億美元，營運成本9.44億美元，GPU在幻方量化及自身間共享用於多領域。

2.人才策略：員工約150人，秀人才提供超130萬美元年薪，遠超同行，在BOSS直聘上，核心崗位薪資高，多為14薪。

3.技術創新：運用多標記預測（MTP）並結合FP8精度，以低算力提升性能；作為混合專家模型，借助門控網路最佳化Token路由；憑藉多頭潛在注意力（MLA），將KV Cache數量減少約93.3%，降低推理成本。

4.AI演算法的「摩爾定律」：演算法每年進步約4 倍，計算量減為1/4。

春節期間，DeepSeek成為當之無愧的AI頂流。

SemiAnalysis報告顯示，DeepSeek在硬體投入上毫不吝嗇，GPU投資超5億美元，擁有至少約5萬塊Hopper架構GPU，總伺服器資本支出約16億美元，營運成本高達9.44億美元。

研究顯示，DeepSeek並非“副業”，其GPU資源在幻方量化和DeepSeek之間共享，用於交易、推理、訓練和研究，展現出強大的硬體實力和投入。

如今筆記本小模型性能媲美GPT-3，這表明演算法改進使模型訓練和推理所需計算量減少，這種模式不斷上演。

DeepSeek的摩爾定律：演算法每年進步約4 倍，計算量減為1/4

1.演算法：演算法每年進步約4 倍，計算量減為1/4，有觀點認為可達10 倍改進，GPT-3 推理成本降至1/1200 。
2、GPT - 4：早期成本下降明顯，雖然後期差異縮小，但經最佳化成本降至1/10，能力提升。

DeepSeek 的優勢：DeepSeek 率先實現當前成本與能力的平衡，還開放權重，預計成本將進一步降至1/5。

在人才策略上，它注重能力和好奇心，不考慮資歷，在國內頂尖大學舉辦招募活動，為有前途的候選人提供超130萬美元年薪，遠高於國內同行。

技術創新方面，多token預測、多頭潛注意力等技術是其制勝法寶。例如，Multi - head Latent Attention（MLA）多頭潛在注意力將每個查詢所需的KV Cache數量減少約93.3%，顯著降低推理價格；DeepSeek V3利用多標記預測（MTP），以較低計算能力提高效能，基於門控網路將Token路由到正確子模型，提升訓練效率並降低推理成本。

04 . 巨頭回應，競爭格局生變

（Michelle Pokrass，OpenAI API研究主管）：

面對DeepSeek的火爆，我們OpenAI也在積極回應。我認為，o3-mini作為一款極具競爭力的模型，在與美國託管版本的DeepSeek對比時，展現了其獨特的優勢。我們一直在努力提升模型的效能和效率，以滿足使用者的需求。

（薩姆·阿爾特曼，OpenAI首席執行官）觀點：

DeepSeek無疑是一個非常出色的模型，它的出現讓我們看到了中國企業在開源領域的積極作為。這促使我們重新審視自身的策略，並意識到在未來的競爭中，OpenAI將保持比往年更少的領先優勢。因此，我們需要不斷創新，以保持我們的競爭力。

多家科技巨頭回應：

微軟CEO納德拉稱讚DeepSeek的創新，並認為AI成本下降是大趨勢。微軟已在Azure AI Foundry和GitHub上提供DeepSeek R1，計畫本財年投入800億美元用於AI。
Meta創始人祖克柏視DeepSeek為競爭對手並正在學習，但評估其影響尚早。 Meta預計2025年成本在1140億-1190億美元，明年AI投資將佔600-650億美元。
阿斯麥CEO傅恪禮認為低成本AI模型將刺激AI晶片需求。
輝達宣佈DeepSeek R1模型在其平台上作為預覽版提供，並回應了關於GPU晶片的謠言，指出DeepSeek技術可能推動AI開發需求，增加GPU銷量。
亞馬遜雲科技舉辦線上直播，介紹在Amazon Bedrock上部署DeepSeek模型的方法。

05 . AI 領域的“斯普特尼克時刻”關於DeepSeek，全網討論最多的十點！

1. 訓練成本：宣稱R1模型訓練僅花550萬美元，這只是最終訓練階段成本，未涵蓋人才薪資等，引發爭議。

2. 硬體資源：曾被傳有五萬張H100，實為謠言，幻方GPU約1萬多張，主力是A100和H800，也有人懷疑其隱瞞真實數量。

3. 套殼質疑：因回答誤認自己為GPT，被疑套殼。但DeepSeek開源，風格與GPT差異大，基本上可排除。

4. 模型抄襲：有人認為R1蒸餾或照抄OpenAI o1 ，但它有獨特訓練方法和思維鏈能力，並非抄襲。

5. 模型大小：有人以為是能在個人電腦跑的小模型，實際DeepSeek V3/R1是671B超大模型，個人電腦跑的是微調小模型。

6. 公司行銷：被質疑是幻方包裝割韭菜或靠行銷走紅，實際2023年年中就開展大模型研究，在開源模型領域一直領先。

7. 業務定位：常被誤解為幻方業餘項目，實則對核心人員來說是主營業務。

8. 產品體驗：APP存在拒絕回答、回答慢等問題，被指模型能力差，實則多為產品問題。

9. 技術地位：有人認為是國內首個頂級模型，標誌中國AI崛起；也有人覺得雖然有進步，但無顛覆性創新。

10. AI 領域的「斯普特尼克時刻」：許多專家將DeepSeek 的發佈形容為「AI 的斯普特尼克時刻」，它將刺激全球AI 競爭，推動行業加速發展。（1957年蘇聯發射斯普特尼克1號衛星震驚美國並引發太空競賽）

（芯榜）