【DeepSeek】能讓OpenAI降價的,只有DeepSeek!
OpenAI上線O3 Mini模型,作為對DeepSeek熱潮的回應。
該模型是OpenAI推理系列中最新、最具成本效益的,已在ChatGPT和API中開放。
OpenAI CEO薩姆·奧爾特曼首次承認,在開源問題上,OpenAI曾站在歷史的錯誤一方。
截止當前DeepSeek依然霸榜,位居Appstore 157個國家中排名第一。
01 . o3-mini上線,OpenAI圍剿DeepSeek首次向免費使用者開放推理模型
1月2日,OpenAI正式推出全新推理模型o3-mini,此舉在AI領域激起千層浪。作為OpenAI推理系列中最新且最具成本效益的模型,o3-mini有著獨特的優勢。它能夠以更低的成本、更快的響應速度,為使用者提供出色的STEM能力,尤其在科學、數學和程式設計領域表現亮眼,還延續了先前版本低成本和低延遲的特點,開發者可依需求選擇低、中、高三種「推理努力」選項。
OpenAI此次也打破常規,首次向免費使用者開放推理模型。 ChatGPT Pro使用者可無限制存取o3-mini,Plus和Team使用者每日訊息限制從o1-mini的50條提升至150條,免費使用者也能透過選擇「Reason」模式或重新產生回覆來體驗。
OpenAI在官網對比顯示,o3-mini在不同推理強度下與o1系列各有優劣,在數學、程式設計和科學領域,它能以更快響應速度實現與o1相當的性能,但在某些領域優勢微弱,如在2024年美國數學邀請賽(AIME)測試中,高推理強度下僅比o1高出0.3個百分點,博士級科學問題(GPQA Diamond)基準測試中,高推理強度下也未超過o1得分。
這場關於DeepSeek的爭吵越演愈烈。 Meta首席科學家楊立昆評價,矽谷圈中的「常見病」是:錯位的優越感。
02 . 開源反思,奧爾特曼首次承認錯誤但是...
2個要點:
1.AMA 活動表態:奧爾特曼首次承認在開源上OpenAI 站在了歷史錯誤一方,稱需要找出不同的開源策略。但這不是當前最高優先事項,公司內部也並非所有人認同。
2.其他回應:也回應了使用者關於思維Tokens(將展示更有幫助和詳細版本)、完整版o3 發佈時間(估計超幾周、少於幾個月)、語音模式和GPT - 5(語音模式更新即將到來,可能叫GPT - 5,暫無時間表)等問題。
o3-mini發表的同時,OpenAI高階主管團隊在Reddit舉辦AMA活動。
當被問及是否會考慮發佈一些模型權重以及研究時,執行長薩姆·奧爾特曼首次承認:「我個人認為,我們站在了歷史的錯誤一邊,需要找出一個不同的開源策略。
這一表態引發業界震動,或許預示著OpenAI未來戰略的重大調整。在全球高效開源模式日益受青睞的背景下,OpenAI的閉源策略面臨挑戰。
不過奧爾特曼也強調,這並非公司當前最高優先事項,且公司內部並非所有人都認同這一觀點。
此外,他還回應了諸多問題,如表示將展示更有幫助和詳細的思維Tokens版本,完整版o3發佈估計超幾周、少於幾個月,語音模式更新即將到來,可能直接叫GPT - 5但暫無時間表等。
03 . DeepSeek崛起!梁文鋒的「摩爾定律」:演算法每年進步約4 倍,計算量減為1/4
1.硬體投入:DeepSeek斥資超5億美元購置GPU,擁有至少約5萬塊Hopper架構GPU,總伺服器資本支出約16億美元,營運成本9.44億美元,GPU在幻方量化及自身間共享用於多領域。
2.人才策略:員工約150人,秀人才提供超130萬美元年薪,遠超同行,在BOSS直聘上,核心崗位薪資高,多為14薪。
3.技術創新:運用多標記預測(MTP)並結合FP8精度,以低算力提升性能;作為混合專家模型,借助門控網路最佳化Token路由;憑藉多頭潛在注意力(MLA),將KV Cache數量減少約93.3%,降低推理成本。
4.AI演算法的「摩爾定律」:演算法每年進步約4 倍,計算量減為1/4。
春節期間,DeepSeek成為當之無愧的AI頂流。
SemiAnalysis報告顯示,DeepSeek在硬體投入上毫不吝嗇,GPU投資超5億美元,擁有至少約5萬塊Hopper架構GPU,總伺服器資本支出約16億美元,營運成本高達9.44億美元。
研究顯示,DeepSeek並非“副業”,其GPU資源在幻方量化和DeepSeek之間共享,用於交易、推理、訓練和研究,展現出強大的硬體實力和投入。
如今筆記本小模型性能媲美GPT-3,這表明演算法改進使模型訓練和推理所需計算量減少,這種模式不斷上演。
DeepSeek的摩爾定律:演算法每年進步約4 倍,計算量減為1/4
- 1.演算法:演算法每年進步約4 倍,計算量減為1/4,有觀點認為可達10 倍改進,GPT-3 推理成本降至1/1200 。
- 2、GPT - 4:早期成本下降明顯,雖然後期差異縮小,但經最佳化成本降至1/10,能力提升。
DeepSeek 的優勢:DeepSeek 率先實現當前成本與能力的平衡,還開放權重,預計成本將進一步降至1/5。
在人才策略上,它注重能力和好奇心,不考慮資歷,在國內頂尖大學舉辦招募活動,為有前途的候選人提供超130萬美元年薪,遠高於國內同行。
技術創新方面,多token預測、多頭潛注意力等技術是其制勝法寶。例如,Multi - head Latent Attention(MLA)多頭潛在注意力將每個查詢所需的KV Cache數量減少約93.3%,顯著降低推理價格;DeepSeek V3利用多標記預測(MTP),以較低計算能力提高效能,基於門控網路將Token路由到正確子模型,提升訓練效率並降低推理成本。
04 . 巨頭回應,競爭格局生變
(Michelle Pokrass,OpenAI API研究主管):
面對DeepSeek的火爆,我們OpenAI也在積極回應。我認為,o3-mini作為一款極具競爭力的模型,在與美國託管版本的DeepSeek對比時,展現了其獨特的優勢。我們一直在努力提升模型的效能和效率,以滿足使用者的需求。
(薩姆·阿爾特曼,OpenAI首席執行官)觀點:
DeepSeek無疑是一個非常出色的模型,它的出現讓我們看到了中國企業在開源領域的積極作為。這促使我們重新審視自身的策略,並意識到在未來的競爭中,OpenAI將保持比往年更少的領先優勢。因此,我們需要不斷創新,以保持我們的競爭力。
多家科技巨頭回應:
- 微軟CEO納德拉稱讚DeepSeek的創新,並認為AI成本下降是大趨勢。微軟已在Azure AI Foundry和GitHub上提供DeepSeek R1,計畫本財年投入800億美元用於AI。
- Meta創始人祖克柏視DeepSeek為競爭對手並正在學習,但評估其影響尚早。 Meta預計2025年成本在1140億-1190億美元,明年AI投資將佔600-650億美元。
- 阿斯麥CEO傅恪禮認為低成本AI模型將刺激AI晶片需求。
- 輝達宣佈DeepSeek R1模型在其平台上作為預覽版提供,並回應了關於GPU晶片的謠言,指出DeepSeek技術可能推動AI開發需求,增加GPU銷量。
- 亞馬遜雲科技舉辦線上直播,介紹在Amazon Bedrock上部署DeepSeek模型的方法。
05 . AI 領域的“斯普特尼克時刻”關於DeepSeek,全網討論最多的十點!
1. 訓練成本:宣稱R1模型訓練僅花550萬美元,這只是最終訓練階段成本,未涵蓋人才薪資等,引發爭議。
2. 硬體資源:曾被傳有五萬張H100,實為謠言,幻方GPU約1萬多張,主力是A100和H800,也有人懷疑其隱瞞真實數量。
3. 套殼質疑:因回答誤認自己為GPT,被疑套殼。但DeepSeek開源,風格與GPT差異大,基本上可排除。
4. 模型抄襲:有人認為R1蒸餾或照抄OpenAI o1 ,但它有獨特訓練方法和思維鏈能力,並非抄襲。
5. 模型大小:有人以為是能在個人電腦跑的小模型,實際DeepSeek V3/R1是671B超大模型,個人電腦跑的是微調小模型。
6. 公司行銷:被質疑是幻方包裝割韭菜或靠行銷走紅,實際2023年年中就開展大模型研究,在開源模型領域一直領先。
7. 業務定位:常被誤解為幻方業餘項目,實則對核心人員來說是主營業務。
8. 產品體驗:APP存在拒絕回答、回答慢等問題,被指模型能力差,實則多為產品問題。
9. 技術地位:有人認為是國內首個頂級模型,標誌中國AI崛起;也有人覺得雖然有進步,但無顛覆性創新。
10. AI 領域的「斯普特尼克時刻」:許多專家將DeepSeek 的發佈形容為「AI 的斯普特尼克時刻」 ,它將刺激全球AI 競爭,推動行業加速發展。(1957年蘇聯發射斯普特尼克1號衛星震驚美國並引發太空競賽)
(芯榜)