【DeepSeek】DeepSeek兇猛,抖音暗渡陳倉



DeepSeek 猶如熱浪席捲而過,市場敘事不再侷限於眼花繚亂的“新模型”以及枯燥的參數比拚,短期注意力開始轉移到“標配DeepSeek”的博弈上,其正從技術路線、落地場景層面對整個大模型競爭格局產生深遠影響。

甚至,可以將DeepSeek R1視作針對網際網路企業的一次大考——因為所有平台幾乎同時拿到考題,在這個情況下,誰能適配產品給出最優解變成一場公開檢驗,不再像以往各家只是沉迷於自說自話、缺乏公允的參照標準。

要知道,連微信、百度在內的超級入口都搶著接入DeepSeek ,但豆包仍在堅持自研深度思考模型,說明字節仍未被DeepSeek“征服”:

一方面,字節內部認為,客戶需求不會被一家模型公司全部滿足,豆包的技術路線和 DeepSeek 存在差異;其次,評價一個模型有幾十個不同維度,OpenAI、Claude、Google 也是某些方面強,某些方面弱一些。

另一方面,字節也留有“後手”,抖音作為掀起短影片浪潮的超級應用,逐漸解構了微信公眾號在圖文時代奠定的絕對優勢,其對網友注意力及時間的擠佔越發明顯;但使用者仍需跳出抖音使用豆包,若抖音全面接入豆包的 AI 能力、實現產品跳轉互通(近日,抖音直接在短影片介面放開豆包入口,與點贊、評論、轉發等功能並列),DeepSeek 之於移動市場的統治力便會被撕開一條口子。



事實上,DeepSeek 之前推出 V2 時,國外就比較關注,但國內卻直到 V3 才徹底引爆,大模型浪潮的公眾接受度迅速得以普及,應用場景也滲透到更下沉群體——需要指出的是,即便使用者日常在網頁端和手機端會經常使用大模型支撐的功能,但 C 端感知呈現畢竟不夠直接,直到 DeepSeek 憑一己之力做出最好的開源模型,才徹底捅破夾在 B 端與 C 端這層“窗戶紙”。

在火山引擎智能演算法負責人吳迪看來,AI 就像未來的水和電一樣,提供水、電的公司,並不會因為單位利潤高帶動變革,而是要整個行業通水、通電賺取服務利潤才能長久。

這個邏輯就像移動網際網路 3G、4G、5G 的普及一樣,變革需要建立在使用場景、心智滲透充分的基礎上——尤其,2023~2024 年大模型烈火烹油,每月都有新進展刺激著媒體的“腎上腺素”。

字節跳動 CEO 梁汝波曾在去年 All Hands 全員會上表示,字節在應對這波大模型浪潮時顯得遲鈍——有趣的是,2024 年初開完這個會,字節便開始奮起直追,年末媒體的敘事就變成張一鳴見技術大牛、看論文,字節不動聲色從遲緩切換到一騎絕塵的姿態,而字節年內的大模型敘事也搖身一變成了“逆襲樣本”。

對此,吳迪認為,這是一個未來 10 年、20 年的事業,眼下走得快一點或慢一點,放在一個很長的歷史周期來看沒有太大差別,只是 C 端使用者及媒體非常在意、不斷進行審視和解讀。

“做好自己的產品更重要,比如 B 端客戶關注好產品性價比,C 端客戶關注好產品體驗,即使用者用那個 APP 感覺更舒服、更有用、更務實就好了。”吳迪說道。

當然,過去兩年大模型走到噴薄而出的黃金窗口期,各家習慣堆算力、堆資源,然後用產品進行心智卡位;然而今年春節後,騰訊元寶通過“鈔能力”在 APP Store 免費榜先超豆包、再超 DeepSeek,最終登頂(3月3日晚,騰訊元寶超越DeepSeek與豆包登頂中國區APP Store免費榜),一切似乎又回到了移動網際網路卷投放、搶管道入口的“暴力燒錢”路徑。



對此,吳迪認為,不管下載榜上是什麼位置,這些短期波動不能代表一款產品最真實的使用者使用情況,長期決定一個產品日常體量的一定是使用者體驗,以及能不能解決 C 端使用者和 B 端客戶的真實訴求,才是核心。

“火山更看重的是‘成功的早期訊號’,AI 如同一場馬拉松,早期不可能瞄著最終目標去做事,要找的一定是‘成功的早期訊號’——基於此,團隊重心主要會放在產品最佳化上,跟客戶互動、傾聽反饋,自然能搞清楚是不是在‘成功的早期道路上’。”吳迪說道。

以下為虎嗅與火山引擎智能演算法負責人吳迪溝通實錄(部分表述因方便閱讀需要有所刪減和調整):


字節仍不服DeepSeek

Q:現在其他應用都在積極接入 DeepSeek,豆包為什麼仍然在堅持做自研模型?

吳迪:您覺得世界上需要一家模型公司就夠了嗎?首先,從服務企業客戶的視角來看,豆包的技術路線和 DeepSeek 存在不小的差異;其次,評價一個模型像評價一個人,很難十全十美,評價一個模型有幾十個不同的維度,任何模型都不可能所有方面做到最好, OpenAI、Claude、Google 都是某些方面強,某些方面弱一些。

豆包在文案生成潤色、資訊抽取等方面表現優秀,尤其 vision (視覺理解方面)能力在國內非常靠前。舉個例子,熟食店櫥窗需要攝影機監測食品擺盤,任何盤子把底露出來就會自動通知補貨,這原本要專用模型、成本高,現在豆包不僅適配,還能在工具化和精準度方面大幅提升。

所以,從 B 端需求來看,火山的客戶覆蓋廣泛,很多企業應用方向主要是資料分析、離線抽取、聊天對話、市場資訊處理,這些維度豆包強於 DeepSeek RI 模型。

而且,DeepSeek RI 模型和豆包模型可以形成互補,DeepSeek 有推理優勢,豆包模型強的地方 DeepSeek RI 模型也有一些不足,所以很多客戶會同時選擇多家大模型。

今天火山還發佈了 DeepSeek 版的一體機,針對金融行業普遍的私有化部署需要,AI 一體機通過搭載輕量化統一底座 veStack,支援豆包大模型、DeepSeek、MaaS、HiAgent、大模型防火牆、輕量機器學習平台產品,提供大模型部署、管理、推理、微調、蒸餾、應用開發等產品能力。

Q:各家標配接入DeepSeek 會不會改變大模型廠商格局,甚至影響以後的路線?

吳迪:大模型產品格局每個月都在變,AGI 發展速度也非常快,它會因為各種各樣不同的原因推動格局變化。

Q:火山與 Flow 部門在業務邏輯、產品策略、商業化方面的差異?

吳迪:這個差異特別好理解,豆包大模型團隊和基礎工程技術就像一個大中台, Alex 帶領的 Flow 團隊(Flow 是與抖音、火山、飛書等平級的主要業務部門,由朱俊領導)專攻把平台的能力往 C 端導;火山是賦能 B 端,把能力提供給企業端、開發者端。

Q:字節 Flow 團隊剛成立不久,分工是最近拆分還是之前 C 端能力在另一個團隊?

吳迪:這個之前集團就有共識,不僅僅是大模型能力,公司各業務的基礎能力都是通過火山引擎走向企業,這是整個組織協同的默契和共識。

Q:去年 6 月份大模型價格戰,外界注意力是字節掀起了大模型價格戰,然後阿里、騰訊、百度相繼跟進,其實是 DeepSeek 最先主導的降價,為什麼大家當時沒有注意到?

吳迪:傳播有時候像“薛定諤的貓”,你大致可以判斷出來有一件事情可能會在某個時刻發生,但是當你最後去預測的時候,往往(卡點)不夠準確。

至於去年豆包全家桶掀起的行業降價,誰率先發起(降價)無關緊要,重要的是推動整個行業紮紮實實去把性價比做好。

Q:價格戰不是某一家主動為之,而是行業推動的結果,為何字節會遭受百度高管的“炮轟”?

吳迪:過去 14 個月 OpenAl 價格降到 14 個月前的 4%,模型能力變強了 N 倍,怎麼沒人去炮轟它打價格戰?不同公司對這個事情的認知不太一樣。

在我看來,AI 就像未來的水和電一樣,提供水、電的公司,並不會因為單位利潤高而活得長久,而要整個行業都通水、通電賺取服務利潤才更長久。火山在 Deep Learning 方面有很長時間的積累,有非常健康的毛利。

還有個重要考慮,很多人都沒有意識到客戶要試錯。比如一家電子商務公司,知道兩年後一定會大量使用大模型,但具體在什麼地方以什麼形態用無法確定,所以這時候就要試錯,我們的價格定在這個水位線上是考慮了客戶的試錯成本,試錯 100 次只要成功一次,場景就能建立。

因為字節自己做 APP,有豐富的業務,從字節一系列孵化的 APP 場景,或者是產品功能上慢慢去調優出一個區間,所以可以站在客戶的角度,感同身受。

有些雲廠商,脫離實際業務比較久,慢慢就把自己當成一個純粹的服務商,自然習慣“在商言商”。


不care短期波動

Q:如何看待騰訊元寶在APP Store免費榜超過豆包?

吳迪:我個人觀點,不管短期豆包在下載榜上是什麼位置,長期決定一個產品日常體量的一定是使用者體驗,一定是如何解決 C 端使用者和 B 端客戶的真實訴求。

相對市場投放行為,短期波動真談起來沒那麼重要,其實使用者是非常聰明的,他們有很敏銳的感知,他們能夠 sense 到,能感知到什麼樣的體驗是好的,什麼體驗是差的,我們今年的主要目標是追求智能的上限。

Q:阿里計畫未來三年至少投入3800億元,字節有沒有這種規劃或者目標?

吳迪:第一,長期的雲基礎和算力規劃肯定有,我們一般是往三年、五年甚至更長時間去做,但不會對外先宣佈數字;第二,我不太清楚,阿里投入3800億具體怎麼落實、怎麼分配,比較模糊。

Q:移動浪潮起來的網際網路巨頭擅長利用資源培養使用者心智和產品習慣,應用變現能力很強,但技術底層創新動力不足,字節也有這種路徑依賴嗎?

吳迪:DeepSeek 在技術架構方面有創新,MLA 是一個好的 attention 方面的改進和嘗試,但世界上有數十種不同的 attention 的變種和最佳化, 我相信未來還會有更多更有創新的想法出現,這是第一點。

第二點是什麼呢?火山更關注對整個企業服務市場的務實普惠,比如去年將每百萬個 Token 價格降到 8 毛,這肯定是讓整個行業受惠受益的一件事情,我們更關注和針對是在 B 端客戶服務體驗和成本下沉。

Q:現在很多廠商強調接入 DeepSeek 是滿血版,凸顯的是什麼?

吳迪:首先凸顯是答題精準率,比如 100 道數學題能做對多少,所謂滿血版就是 DeepSeek 官方版本作為參照,精準率在 95%-100% 之間,要看效果、要看智能水平,火山能做到 95%。

Q:標配DeepSeek對雲廠商格局短期影響如何?會大幅提升應用落地速度和服務效率嗎?

吳迪:我覺得有兩個影響,一是客戶更容易看出來誰在 AI 的基礎能力上強一些,誰在 AI 的基礎能力上弱一些,因為這是開卷考;二是 DeepSeek 進一步激發了中國市場對算力和大模型的需求,去年我有很多的工作時間都在鼓勵客戶多用、敢用,去積極擁抱 AGI,現在 DeepSeek 幫我把這個工作難度降低了,客戶會更積極地去嘗試 AGI。

現在,很多客服對話系統都在使用大模型,只是它沒有以一個顯性的東西擺在你面前。不管是演算法精度還是並行處理能力、響應速度、語言深度都是看大模型整個的智能的水平高低去決定的。

智能水平要不斷地變高,不斷地 scaling 上去,這是至關重要的;然後在智商不斷提高的前提下,系統越做越快、越做越便宜、越做越穩定,最終千行百業都能從中受益。

Q:如果將接入 DeepSeek 視作一次大考,在落地場景、商業化方面影響如何?

吳迪:今天上午團隊開會還聊起這個話題,其實接入DeepSeek R1 主要看穩定性、響應速度等。

為什麼說 DeepSeek R1 是一次面向行業的大考?因為所有平台幾乎同時拿到考題,在這個情況下,誰能夠把這道試卷答得更好就變成一次公開檢測,不再像以往各家只能自說自話、缺乏公允的客觀評價。

比如在第三方評測中,完整回覆率指所有 prompt 得到完整答覆,沒有中斷、沒有失敗;精準率指拿 100 道數學題去問各個平台的 DeepSeek RI 模型,看答對多少題。結果很多號稱滿血版的 DeepSeek R1 測出的智力水平參差不齊,完全像兩個模型,這很可能是為追求穩定性,對 DeepSeek R1 的精度裁剪太狠了。

其次,是響應速度,長思考模型最關鍵的一點是吐字過程特別長,每個Token延遲非常重要,火山引擎在保證精準率前提下,吞吐速度是很多友商的兩三倍。

Q:這個指標應對的是奧數推理,像 DeepSeek 強的是邏輯能力,它側重的點不同會導致資料差異性?

吳迪:其實現階段看三方面能力,一是寫程式碼,二是做數學題、物理題,三是長文字或長報告的深度總結和分析。

雖然(模型的)每道測試題肯定有偏重,但數學解題維度差異大,長文字深度分析差異會小嗎?這個很難。因為各平台部署都號稱滿血版,是官方671B模型,若模型一樣但得分差異大,只能說明在精度上損失嚴重。


火山等待“爆發”

Q:去年字節 CEO 梁汝波在 All Hands 全員會上說團隊在這波大模型浪潮中比較遲鈍,是投入不足錯失了窗口期嗎?

吳迪:2023~2024 年大模型(烈火烹油),每月都有新變化,根本原因是公司目標高,越重要的業務肯定要得到來自 CEO 更高的要求。

當然,如果我們在 thinking 方面投入能夠更早、更快的話,也可以拿出更好的成績單。

Q:有趣的是,後面媒體的敘事裡又變成張一鳴見技術大牛、看論文,字節在這波大模型戰又被塑造成“逆襲樣本”?

吳迪:一方面,豆包模型在過去一年中肯定是得到了大家越來越廣泛的認可,包括豆包 APP 的使用者體驗;另一方面,萬里長征才走出了第一步,這是一個未來10年、20年的深耕方向,眼下走得快一點或慢一點,放在一個很長的歷史窗口來看沒有太大差別。

團隊更關注自己的產品體驗、產品性能、精準度、並行處理能力、響應速度等等,這些才是大模型更重要的點,它們會影響 B 端客戶,最終體現在大模型產品極致的性價比。

Q:之前各家都在堆算力、堆資源、堆人力,認為大模型是通過資源累積、搶時間窗口、產品心智卡位,但是 DeepSeek 似乎證明不是這樣一套路徑?

吳迪:DeepSeek 獲得大量關注,一言以蔽之就是:非常精幹的團隊做出了世界上最好的開源模型,這是根本。

Q:火山整個 API 接入情況如何?目前需求旺盛的行業主要是那些?

吳迪:以整個火山方舟平台對公有雲客戶提供的Token市場佔比來講,應該在國內最高。2024年 12 月對外發佈過一組資料,豆包全家桶(包含自用)當時Token每天消耗量是 4 兆。

目前,大模型應用比較積極的行業,一是聊天陪伴類產品,二是大量離線資料分析需求,三是和 education 有關、教育相關,四是電商客服這類場景相關。

Q:現在整個團隊規模情況?接下來火山有沒有什麼新模型或者新業務節點?

吳迪:火山這邊 AML 要去 learning 企業服務,團隊還是比較精幹的,大概研發工程師 100 出頭,包含 RD, QA、 SRE, 然後演算法工程師大概五六十人,同時負責方舟上的大模型服務, 以及火山機器學習平台。

當然,新模型肯定會持續不斷地出,然後也會在一些城市巡展會,或者是每年春季和冬季 force 大會上向大家再批次地公佈一些模型方面的進展。下一次對外做產品發佈可能要到5、6月份,這中間會有一些中小型活動或者是有些新的發佈。

Q:這個人員規模相比外界感知到火山能力過於精簡?

吳迪:我們在爭取和吸引最優秀人才方面肯定毫不手軟,而且非常有競爭力,我一直認為一個團隊也好,或者一個公司也好,不管它規模有多大,一年能夠真正實實在在做好的大事情,也就是三五件事。

所以,團隊絕對不會為了爭取市場快速擴張,然後在非常早的時候把團隊搞得特別臃腫,(那是)非常愚蠢的事情。一個精簡的團隊,大家配合得非常默契、資訊非常透明,像創業團隊一樣把程式碼寫好、把產品做好,這樣的團隊才能走得更長久。

Q:這是在梁汝波倡導“要保持創業精神,逃逸平庸的重力”之後,還是此前團隊秉承的理念?

吳迪:我們團隊(一以貫之),這對 leader 的判斷力要求特別高, leader 必須搞清楚什麼事情是重要的,要大力做三年、五年,什麼事情是不重要的那就堅決不投入。舉個例子,火山引擎的機器學習平台網頁很簡潔,從來不搞花哨的 Feature。

譚待(火山引擎總裁)更看重的是“成功的早期訊號”,AI 如同一場馬拉松,早期不可能瞄著最終目標去做事,要找的一定是“成功的早期訊號”——基於此,團隊重心主要會放在產品最佳化上,跟客戶頻繁互動、虛心傾聽反饋,自然能搞清楚是不是在“成功的早期道路上”。 (虎嗅APP)