財經雜誌—大模型之戰，除了低價還戰什麼？

2024/09/28

•

下一階段，大模型市場的焦點在於廠商提供更完整的能力，為使用大模型的企業降低隱性成本，最終充分激發產業價值鏈的正向循環

近半年，大模型的推理算力價格正快速下降。

今年5月，字節跳動旗下雲端業務－火山引擎率先把旗下主力模型「豆包Pro-32k」的輸入價格降到了0.8元/每百萬Tokens（直譯為「代幣」），輸出價格降到了2元/每百萬Tokens。當時，這兩個定價不到行業均價的10%。

使用者使用大模型，先輸出指令，再得到輸出結果。 Token是大模型推理算力的計量單位。一個Token可以是單字、標點、數字、符號等字元。就像電力用「度」計費、流量用「G」計費。

降價的原因是，大模型帶來了新一輪的AI（人工智慧）應用創新，但創新需要降低試錯成本。火山引擎總裁譚待今年3月在矽谷發現，美國的AI應用創業火熱，有些小團隊很快就能拿到收入和融資。這種氣氛如同2012年-2014年中國行動網際網路創業。譚待判斷，國內也會出現類似趨勢，但前提是降低模型價格。

火山引擎這次降價攪動了市場。幾家主要雲廠商隨後都把旗下主力模型價格降低了90%以上。各家Token消耗量都在快速提升。字節跳動的豆包大模型9月Token消耗量已是5月降價前的10倍以上。

短期內，Token消耗量快速成長，但目前卻沒有一家廠商能從中獲利。部分雲廠商的管理階層甚至焦慮「價格戰打到了負毛利」。大模型推理算力原本毛利率在60%以上，但如今這部分業務由盈轉虧。

一種擔憂隨之而來──大模型推理算力如果一直虧損，「價格戰」的終點在那裡？

9月24日，譚待在「2024火山引擎AI創新巡展·深圳站」會後群訪時對我們表示，歡迎同行降價，因為成本是創新的阻礙。這不是價格戰，而是把Token降到合理價格。模型呼叫必須健康可持續，他有信心也有能力做到正毛利。目前，他更關注模型降價後的AI應用覆蓋率。

豆包大模型是如何進行Token定價的？ 9月24日，火山引擎智慧演算法負責人、火山方舟負責人吳迪向我們復盤稱，這個定價不是拍腦門，也不是對標同行，而是科學計算的結果——其中綜合考慮了算力資源儲備、市場未來用量、模型成本下降這三個變數。

吳迪認為，“反對降價的人，其實是對AI長期信心不足。只要有這幾個變數的初始值，甚至可以測算出未來3個月-12個月的趨勢。”

截至今年9月，豆包每天Token消耗量是1.3兆。隨著AI在各類應用的滲透率不斷提升，吳迪預期，2027年豆包每天Token消耗量會超過100兆，是現在的100倍以上。推理算力收入會快速提升。

基於這個判斷，雲廠商要做好降價以外的其他準備。

模型降費不夠，還得提升能力

推理算力價格下降，要先看市場大勢。

算力消耗的大盤此時在劇變。國際市場研究機構IDC預測，2022年-2027年中國通用算力（CPU中央處理器為核心的算力）年復合成長16.6%，智慧算力（GPU圖形處理器為核心的算力）年復合增速33.9%。 2022年-2027年，智能算力內部，訓練算力佔比會下滑到27.4%，推理算力佔比將上升到72.6%。

今年9月，一家雲端廠商的管理階層提到，2024年它們的推理算力消耗量已經超過了訓練算力消耗量。

Token的降價邏輯，被認為不是軟體的降價邏輯，更像電信業者的加速降價。軟體的主要成本是研發成本。企業虧損式降價競爭，會導致整個產業的潛在價值被破壞。

和譚待看法類似，一位頭部雲廠商主管今年9月也提到，大模型推理算力降價不該用「價格戰」的競爭思維去理解。「價格戰」是零和博弈，難以創造增量市場。大模型推理算力降價會做大市場蛋糕。在他看來，今天的手機流量資費和20年前相比，完全無法類比。

電信業者從3G到4G提速降費，催生了一批新的行動APP（應用）。雲廠商目前普遍在考慮更長遠的問題－如何用降價催推動AI應用創新。

「現在價格不是瓶頸，關鍵是要把能力做好，這會是影響應用上量的重要因素」。在譚待看來，大模型只降推理價格遠遠不夠，還要持續提升模型效能。

從“卷價格”到“卷性能”，這在火山引擎的產品策略中體現在兩個方面。

其一，提升大語言模型的吞吐速率。衡量吞吐速率的單位是TPM（每分鐘的Token數）和RPM（每分鐘請求數）。豆包大模型提供了800K的吞吐速率，這一吞吐速率處於行業前列。

簡單理解，這就像3G網路下，手機只能完成收發訊息、刷新聞資訊等簡單工作；但在4G網路下，隨著流量資費下降、網路速度提升，抖音、快手、王者榮耀等新應用會出現。

目前業界其他模型的吞吐速率一般是100-400K（千字節）。原因是，防止服務過載或中斷，並保證每個使用者或組織公平地呼叫模型。一般情況下，付費後才可升級到800K以上的吞吐速率。

吞吐速率提升可以滿足更多企業實際生產環境的需求。譚待以某科研機構的文獻翻譯、某汽車廠商的智慧座艙、某教育公司的智慧寫作三個應用場景舉例，三者用大模型的峰值吞吐速率分別是360K、420K、630K。提升吞吐速率，這些企業使用大模型的意願才會提升。

其二，提供多模態（文字、圖片、聲音、影片等）大模型。火山引擎9月24日發佈了豆包模型家族－包括視訊生成模型、文生圖/圖生圖模型、同聲傳譯模型、語音辨識/語音合成模型、聲音復刻模型、音樂模型。

過去一年多，企業常用的仍是大語言模型－輸入/輸出的內容以文字和圖片為主。這帶來了數位人、知識庫、客服問答、行銷文案、平面設計、程式碼助理、智慧助理等通用業務場景。

一個來自CIO（資訊長）和CTO（技術長）的普遍回饋是，大語言模型會從非核心業務系統開始落地。在一些一般業務場景中，大語言模型的確帶來了一定的提效作用。但大語言模型的文生文、文生圖使用方式相對單一，這和2023年初大模型「橫空出世」時天馬行空設想的情景仍有落差。

隨著視覺、聲音模型開始大規模使用，企業會從中挖掘新的應用場景，更多AI應用創新的排列組合會隨之出現——但這仍需要持續試錯，也會經歷先進入邊緣業務系統，再進入核心業務系統的螺旋上升。

企業數位轉型的實際情況是，許多第一線IT工程師會率先以個人身份體驗新技術。 2023年初大模型浪潮來臨的初期，許多嘗試在「整建制」的IT部門並非公司行為，而是個人行為。

吳迪對此建議，企業數位化部門可以專門組建一個開發大模型應用場景的小團隊。由這個團隊獨立完成一些AI應用Demo（樣品）。原因是，AI越強，單兵作戰能力也越強。可以讓有能力、有想法的人盡量嘗試。這個過程中會催生出許多意料之外的創新。

降完顯性成本，再降隱性成本

企業使用大模型，既有顯性成本，也有隱性成本。

顯性成本包括，模型推理算力成本。目前，一些企業數位化負責人的觀點是，使用大模型的顯性成本的確在下降，但隱性成本必須考慮。

大模型的隱性成本涉及方方面面。例如，大模型要與現有IT系統相容；使用大模型要提前準備數據，進行數據治理；還要招募一批懂AI的產品經理；最後應用開發還需要付出成本。

「即使模型徹底免費，我們也必須為此付出其他隱性成本。」一位保險公司IT負責人今年9月對我們直言，使用大模型的隱性IT成本，其實遠高於顯性IT成本， “不能拿著鎚子找釘子，什麼事情都想著通過大模型去解決。而是要根據投入產出比，把大模型融入到現有的IT系統之中。”

資料治理是必要的前期準備。企業用好大模型，要給大模型「餵」高品質的產業數據。但在「餵」資料前，又要做好資料清洗、標註、整理等工作。

資料治理像是資源分類，把企業內雜亂無章的原始資料（包括文字、圖片、影片等）打標分類，整理成結構化資料。再餵給大模型，讓它產出符合業務需求的高品質內容。

不做好資料治理，大模型容易產生「幻覺」（大模型因為資料錯誤等因素胡說八道）。吳迪在和企業交流時遇到了一些非常有遠見的CIO和CTO，他們一年前就開始了資料治理。因為，他們認為“不管AI未來怎麼變，整理好數據都是必要的。”

資料治理，有時要引進專業資料治理公司，甚至是專業的顧問公司。產業資料治理，更是要付出高昂的人力成本。一位雲廠商大模型產品負責人今年9月對我們分析，一些無法透過演算法自動標註的複雜數據，需要交給專業懂行的人，靠人工標註完成。極端情況下，一條數據標註成本可能就在100元以上。

人才招聘，是另一個重要成本。但對大多數企業來說，懂大模型的人才既貴又少。

“我們這類公司裡，只有懂應用的人才，缺少懂AI的人才，更缺少專業懂AI的團隊”，一家國資背景的跨國聯營飲料集團CIO今年5月曾對我們表示，他從1月開始開出高價招募懂AI的人，其中包括一名資料探勘和AI演算法工程師、一名有諮詢經驗的AI應用產品經理。但直到5月，這兩個職位都沒找到合適人選。

在他看來，如果沒有真正懂AI的人才，盲目探索大模型落地，只會導致更大的資源浪費。但是組建起一支專業懂AI的團隊，又需要CEO層面的支撐——因為數位轉型是“一把手工程”，深度研究大模型需要投入堅定的意志。

應用開發，企業往往是精打細算且有步驟的。一個主導想法是，從邊緣場景開始小規模投入，而且必須計算投入產出比。

一家白酒企業的數位化負責人今年5月曾對我們表示，在快消、零售領域，超過15萬元就是大項目。他們的數位化團隊找到大模型落地場景後。要先做無成本的前期測試，只有成果顯著才能說服管理階層申請預算。他們一般會從單一場景試點開始開發應用，在單點看到價值轉換後，才會在其他場景落地大模型。

「首先我們必須承認，隱性成本很大比例要靠企業自身解決。其次，我們還是要幫企業把環繞在大模型周邊的隱性成本階梯式降下去。」吳迪認為，降低使用大模型的隱性成本是有方法的。

他把企業CIO和CTO煩惱的問題分成了幾大類，每類問題一步一步解決。火山引擎針對每類問題，都推出了對應的工具或外掛。

針對資料問題，向量資料庫可以在一定程度上降低企業資料治理工作。一些非結構化資料的儲存、搜尋、分析，可以透過火山引擎的VikingDB這類向量資料庫來完成。因為，向量資料庫能瀏覽大量非結構化數據，不需要依賴人工標註。它也具備記憶能力，可以讓連續對話的內容更精簡、更精準。

中手遊是一家遊戲上市公司，旗下有一款名為《仙劍世界》的手遊。這款遊戲中的NPC（非玩家角色，也被稱為機器人）使用了豆包大模型生成對話。為減輕模型幻覺、減少呼叫Token量，《仙劍世界》又繼續使用了火山引擎的VikingDB用於資料儲存、搜尋、分析。

針對應用開發問題，火山引擎推出了釦子專業版AI應用開發平台。它採用了零程式碼、低程式碼的方式降低開發難度。企業的IT團隊甚至是業務團隊，都可以「搭積木」的方式拼出適合自身的輕應用。海底撈就透過釦子開發了“智慧客服評估助手”，這正在幫助海底撈評估客服服務品質。

還要有持續降價的空間

雲廠商的大模型競爭有兩大變數：一是，算力規模能否持續擴大；二是，推理成本能否持續下降。

大模型競爭正在加劇。誰的算力規模更大，誰就有堅持到最後的底牌。

2023年之前，1萬枚AI晶片的資料中心是基礎大模型的入場券。 2024年以後，基礎大模型有朝向10萬枚AI晶片的方向演進的趨勢。能持續投入的廠商會逐步減少，最後只有少數幾家頭部廠商繼續參與長跑。多位業界人士對我們表達了同一個觀點，國產大模型淘汰賽已經開始了。這輪淘汰賽會持續一兩年，只有3家-5家基礎模型企業能繼續活下去。字節跳動是少數能參與這種軍備競賽的企業之一。

一個公認的事實是，模型的推理成本未來會不斷下降。誰能把成本壓到更低，誰就有更大的競爭優勢。

AI新創公司OpenAI是降低推理成本的佼佼者，幾乎每年都會對主力模型進行大幅降價，且還能在降價後保持高毛利。今年4月，OpenAI的旗艦模型GPT-4-turbo輸入價格降低了61%，輸出價格降低了67%。今年8月，OpenAI的主力模型GPT-4o輸入價格降低了50%，輸出價格降低了33%。

國際市場研究機構FutureSearch今年8月發布的研究報告稱，OpenAI旗下GPT-4系列旗艦模型毛利率約75%，GPT-4o系列主力模型毛利率約55%。 OpenAI綜合毛利率至少在40%以上。

模型推理算力持續降價，需要降低模型的算力消耗、提升算力的使用效率。這也是雲端運算的商業本質──靠技術，持續降低算力成本，搾取利潤空間。

一位決定跟進新一輪降價的頭部雲廠商高層曾向我們分析，他們進行多輪推演測算，考慮到了兩個矛盾點。

一是，降價後存量收入會下降，增量收入會成長。增量收入能否涵蓋存量收入？

二是，如果同業降價更激進，要如何應對？

但最後的結論是，瞻前顧後沒有用。最終結論是，現在的規模比利潤更重要。

吳迪認為，人工智慧如同漂浮在海面上的一座冰山。海面之上看似只有大模型，海面之下才是各家公司的硬實力。這種硬實力是，如何持續透過工程能力降低推理算力的成本。

他強調，豆包大模型降價，既不是拍腦門，也不是對標同行，而是科學計算的結果——其中綜合考慮了算力資源儲備情況、市場未來用量增速、模型成本下降趨勢這三個變數。火山引擎之所以能有底氣降價，是因為做到了三點。

其一，提升雲端的硬體調度效率，避免資源浪費。火山引擎可以做到每一塊GPU利用率都處於較高水準。

其二，系統工程要持續優化，這裡還有很大的降本空間。

其三，採用更高效率的模型結構與演算法，讓推理跑得更快、更好。

調度效率方面，雲一旦形成規模，就能依靠彈性持續降低邊際成本。字節跳動本身就是推理消耗大戶，火山引擎還可以把不同業務的負載混合調度，提高單卡推理效率，進而大幅降低成本。

系統工程方面，可以把原本在一台伺服器上執行的推理任務，拆分成多個子任務，並在多台伺服器上同時執行。透過這種方式，充分利用多台機器的運算資源，大幅提升推理速度、降低推理成本。

模型結構方面，過去兩年，大模型的發展遵循著Scaling Law（OpenAI在2020年提出的定律，直譯為「縮放定律」）－模型表現主要與計算量、模型參數量和訓練資料量三者大小相關。因此，一種降低推理成本的想法是，透過增加資料品質/數量、最佳化演算法和架構的方式來提升模型效能、降低模型尺寸。還有一種做法是，採用MoE（Mixture of Experts，一種模型設計策略，透過混合多個專業模型，獲得更好效能）的架構提升模型效能、降低推理成本。

2023年，模型公司普遍在思考怎麼做大模型的參數規模。 2024年，模型公司普遍在思考怎麼降低降低模型推理價格。「下一步，大家要想的是如何提升模型性能，讓它更易於落地。這也是我們正在做的事情。」吳迪的觀點是，要在正確的時間做正確的事情，螺旋上升式地釋放算力紅利。

在他看來，「也許不會很快誕生下一個抖音，但AI能力會一點點滲入現有的日常應用之中。小的創新滲透到土壤深處，後面才會有新的物種成長出來。（財經雜誌）