國產 AI 新銳 DeepSeek(深度求索) 悄然發佈了其最新的 o1 等級推理模型R1,猶如一顆深水炸彈,先是引爆整個矽谷,隨後震驚整個世界!這件事的影響力大家都知道了, 事情還在繼續發酵,剛剛OpenAI 的首席研究 Mark Chen 親自下場評論DeepSeek R1,雖然肯定了DeepSeek R1的研究發現,但是態度非常微妙,還有DeepSeek前實習生工對於Mark Chen的回應,整個過程不要太精彩,我整理了一下,分享給大家
Mark Chen “態度微妙” 回應 DeepSeek:既肯定又“劃重點”?
Mark Chen 的推文,表面上是祝賀 DeepSeek 取得的成就,但仔細品味,卻能感受到一絲微妙的 “酸味” 和 “防守” 姿態
他首先承認 DeepSeek “獨立發現了 OpenAI 在 o1 模型研發過程中的一些核心理念”, 原話:
“祝賀DeepSeek成功研發出o1級推理模型!他們的研究論文表明,他們獨立發現了我們在實現o1過程中改採用的一些核心思想”
這無疑是對 DeepSeek 技術實力的一次高調認可,也側面印證了 DeepSeek 模型的硬核實力
然而,話鋒一轉,Mark Chen 立即將焦點轉移到 “成本” 問題上,認為 “外界對成本優勢的解讀有些過頭”。他拋出了一個略顯專業的概念——“雙軸最佳化 (pre-training and reasoning)”, 解釋說,將模型訓練和推理視為兩個可獨立最佳化的維度,可以更有效地控製成本。他的言外之意似乎在暗示:DeepSeek 你在成本控制上做得不錯,但我們 OpenAI 也能做到,而且我們還有更全面的優勢!
為了進一步 “劃重點”,Mark Chen 還提到了 “蒸餾技術” 的成熟和 “成本與能力解耦” 的趨勢, 暗示 OpenAI 也在積極探索模型壓縮和最佳化技術,降低服務成本。他強調, “低成本服務模型(尤其是在較高延遲下)並不意味著擁有更強的模型能力”, 試圖弱化 DeepSeek 在成本方面的優勢對 OpenAI 能力優勢的衝擊
最後,Mark Chen 不忘 “畫餅”, 強調 OpenAI 將繼續在 “降低成本” 和 “提升能力” 兩個方向上 “雙管齊下”,並承諾 “今年會發佈更優秀的模型”。這番回應,既有對 DeepSeek 技術實力的肯定,也充滿了 OpenAI 作為行業領導者的自信和 “捍衛地位” 的意味。畢竟,DeepSeek 這次發佈的 o1 模型,直接挑戰的是大模型最核心的 推理能力,這無疑觸動了 OpenAI 的敏感神經
前 DeepSeek 實習生 “扎心”回懟 :OpenAI,說好的“開放”初心呢?
如果說 Mark Chen 的回應還算官方 “過招”, 那麼DeepSeek實習生Zihan Wang 對Mark Chen回應較為尖銳!(資料顯示,他 曾就職於 DeepSeek,並深度參與了 RAGEN 項目!) 他還透露自己 早在 2022 年就關注 OpenAI,並對其早期的 VPT 和 ChatGPT 項目印象深刻,甚至在伯克利的課程項目也做了類似 VPT 的嘗試!曾是 OpenAI 的早期 “粉絲”
Zihan Wang 坦言,他並非有意冒犯,只是好奇曾經以 “開放 AI” 為名的 OpenAI,為何在開源問題上變得如此 “猶豫” 和 “保守”。他回憶起 2022 年 OpenAI 的 VPT 和 ChatGPT 項目,那時他對 OpenAI 的印象是 “開放、創新、引領未來”,充滿了樂觀和信任。但如今,他感覺 OpenAI “變了”,變得不再像以前那樣 “純粹”,不再像以前那樣 “為了更重要的事” 而努力, 似乎更加注重商業利益和競爭優勢
DeepSeek 原始碼在那裡?
更有趣的來了, 另一位網友 Autark 追問Zihan Wang ,他直接 “喊話” DeepSeek:“DeepSeek 的原始碼在那裡?我說的不是權重或推理支援程式碼,我要的是真正的原始碼!”
面對 Autark 的追問,Zihan Wang 也給出了他瞭解到的 DeepSeek 官方解釋:
“DeepSeek 團隊人數有限,開源需要投入額外的大量工作,不僅僅是讓訓練框架跑起來那麼簡單 (open-sourcing needs another layer of hard work beyond making the training framework brrr on their own infra)。因此,DeepSeek 目前優先聚焦於迭代下一代模型, 在開源方面,他們優先開源 ‘最小化 + 必要’ 的部分,同時通過發佈詳細的技術報告,並鼓勵社區進行復現, 來彌補開放原始碼的不足。”
有網友調侃兩位來自不同國家的頂級人工智慧公司的華人代表在 X上爭論,這可能是 2025 年的一個好兆頭
資料顯示,Mark chen 高中就讀於台灣National Experimental High School(2004年 - 2008年),本科就讀於MIT的Mathematics with Computer (2008年 - 2012)
已經在OpenAI工作6年4個月,今天1月剛剛從OpenAI研究副總裁升任為首席研究
zihan wang 本科就讀於中國人民大學,美國西北大學在讀PhD
zihan wang 2024年2月 - 2024年7月 在DeepSeek 實習,
A. 利用稀疏架構訓練專業化語言模型。通過選擇最佳的5%專家進行專業化大語言模型(LLM)調優,能夠實現接近完全的性能。該論文作為第一作者在EMNLP 2024會議上展示
B. 與團隊開發了DeepSeek-V2,一個擁有2360億參數的模型,採用多頭潛在注意力機制來壓縮LLM效率瓶頸中的KV快取,降低了42.5%的成本,生成速度提升了5.76倍,獲得了3.5k GitHub星標和10萬使用者
最後,Zihan Wang 也補充聲明:強調他的觀點僅代表個人,不代表 DeepSeek 官方立場 (AI寒武紀)