財經雜誌—大模型之戰,除了低價還戰什麼?



下一階段,大模型市場的焦點在於廠商提供更完整的能力,為使用大模型的企業降低隱性成本,最終充分激發產業價值鏈的正向循環


近半年,大模型的推理算力價格正快速下降。

今年5月,字節跳動旗下雲端業務-火山引擎率先把旗下主力模型「豆包Pro-32k」的輸入價格降到了0.8元/每百萬Tokens(直譯為「代幣」),輸出價格降到了2元/每百萬Tokens。當時,這兩個定價不到行業均價的10%。

使用者使用大模型,先輸出指令,再得到輸出結果。 Token是大模型推理算力的計量單位。一個Token可以是單字、標點、數字、符號等字元。就像電力用「度」計費、流量用「G」計費。

降價的原因是,大模型帶來了新一輪的AI(人工智慧)應用創新,但創新需要降低試錯成本。火山引擎總裁譚待今年3月在矽谷發現,美國的AI應用創業火熱,有些小團隊很快就能拿到收入和融資。這種氣氛如同2012年-2014年中國行動網際網路創業。譚待判斷,國內也會出現類似趨勢,但前提是降低模型價格。

火山引擎這次降價攪動了市場。幾家主要雲廠商隨後都把旗下主力模型價格降低了90%以上。各家Token消耗量都在快速提升。字節跳動的豆包大模型9月Token消耗量已是5月降價前的10倍以上。


短期內,Token消耗量快速成長,但目前卻沒有一家廠商能從中獲利。部分雲廠商的管理階層甚至焦慮「價格戰打到了負毛利」。大模型推理算力原本毛利率在60%以上,但如今這部分業務由盈轉虧。

一種擔憂隨之而來──大模型推理算力如果一直虧損,「價格戰」的終點在那裡?

9月24日,譚待在「2024火山引擎AI創新巡展·深圳站」會後群訪時對我們表示,歡迎同行降價,因為成本是創新的阻礙。這不是價格戰,而是把Token降到合理價格。模型呼叫必須健康可持續,他有信心也有能力做到正毛利。目前,他更關注模型降價後的AI應用覆蓋率。

豆包大模型是如何進行Token定價的? 9月24日,火山引擎智慧演算法負責人、火山方舟負責人吳迪向我們復盤稱,這個定價不是拍腦門,也不是對標同行,而是科學計算的結果——其中綜合考慮了算力資源儲備、市場未來用量、模型成本下降這三個變數。

吳迪認為,“反對降價的人,其實是對AI長期信心不足。只要有這幾個變數的初始值,甚至可以測算出未來3個月-12個月的趨勢。”

截至今年9月,豆包每天Token消耗量是1.3兆。隨著AI在各類應用的滲透率不斷提升,吳迪預期,2027年豆包每天Token消耗量會超過100兆,是現在的100倍以上。推理算力收入會快速提升。

基於這個判斷,雲廠商要做好降價以外的其他準備。


模型降費不夠,還得提升能力

推理算力價格下降,要先看市場大勢。

算力消耗的大盤此時在劇變。國際市場研究機構IDC預測,2022年-2027年中國通用算力(CPU中央處理器為核心的算力)年復合成長16.6%,智慧算力(GPU圖形處理器為核心的算力)年復合增速33.9%。 2022年-2027年,智能算力內部,訓練算力佔比會下滑到27.4%,推理算力佔比將上升到72.6%。


今年9月,一家雲端廠商的管理階層提到,2024年它們的推理算力消耗量已經超過了訓練算力消耗量。

Token的降價邏輯,被認為不是軟體的降價邏輯,更像電信業者的加速降價。軟體的主要成本是研發成本。企業虧損式降價競爭,會導致整個產業的潛在價值被破壞。

和譚待看法類似,一位頭部雲廠商主管今年9月也提到,大模型推理算力降價不該用「價格戰」的競爭思維去理解。 「價格戰」是零和博弈,難以創造增量市場。大模型推理算力降價會做大市場蛋糕。在他看來,今天的手機流量資費和20年前相比,完全無法類比。

電信業者從3G到4G提速降費,催生了一批新的行動APP(應用)。雲廠商目前普遍在考慮更長遠的問題-如何用降價催推動AI應用創新。

「現在價格不是瓶頸,關鍵是要把能力做好,這會是影響應用上量的重要因素」。在譚待看來,大模型只降推理價格遠遠不夠,還要持續提升模型效能。

從“卷價格”到“卷性能”,這在火山引擎的產品策略中體現在兩個方面。

其一,提升大語言模型的吞吐速率。衡量吞吐速率的單位是TPM(每分鐘的Token數)和RPM(每分鐘請求數)。豆包大模型提供了800K的吞吐速率,這一吞吐速率處於行業前列。

簡單理解,這就像3G網路下,手機只能完成收發訊息、刷新聞資訊等簡單工作;但在4G網路下,隨著流量資費下降、網路速度提升,抖音、快手、王者榮耀等新應用會出現。

目前業界其他模型的吞吐速率一般是100-400K(千字節)。原因是,防止服務過載或中斷,並保證每個使用者或組織公平地呼叫模型。一般情況下,付費後才可升級到800K以上的吞吐速率。

吞吐速率提升可以滿足更多企業實際生產環境的需求。譚待以某科研機構的文獻翻譯、某汽車廠商的智慧座艙、某教育公司的智慧寫作三個應用場景舉例,三者用大模型的峰值吞吐速率分別是360K、420K、630K。提升吞吐速率,這些企業使用大模型的意願才會提升。

其二,提供多模態(文字、圖片、聲音、影片等)大模型。火山引擎9月24日發佈了豆包模型家族-包括視訊生成模型、文生圖/圖生圖模型、同聲傳譯模型、語音辨識/語音合成模型、聲音復刻模型、音樂模型。

過去一年多,企業常用的仍是大語言模型-輸入/輸出的內容以文字和圖片為主。這帶來了數位人、知識庫、客服問答、行銷文案、平面設計、程式碼助理、智慧助理等通用業務場景。

一個來自CIO(資訊長)和CTO(技術長)的普遍回饋是,大語言模型會從非核心業務系統開始落地。在一些一般業務場景中,大語言模型的確帶來了一定的提效作用。但大語言模型的文生文、文生圖使用方式相對單一,這和2023年初大模型「橫空出世」時天馬行空設想的情景仍有落差。

隨著視覺、聲音模型開始大規模使用,企業會從中挖掘新的應用場景,更多AI應用創新的排列組合會隨之出現——但這仍需要持續試錯,也會經歷先進入邊緣業務系統,再進入核心業務系統的螺旋上升。

企業數位轉型的實際情況是,許多第一線IT工程師會率先以個人身份體驗新技術。 2023年初大模型浪潮來臨的初期,許多嘗試在「整建制」的IT部門並非公司行為,而是個人行為。

吳迪對此建議,企業數位化部門可以專門組建一個開發大模型應用場景的小團隊。由這個團隊獨立完成一些AI應用Demo(樣品)。原因是,AI越強,單兵作戰能力也越強。可以讓有能力、有想法的人盡量嘗試。這個過程中會催生出許多意料之外的創新。


降完顯性成本,再降隱性成本

企業使用大模型,既有顯性成本,也有隱性成本。

顯性成本包括,模型推理算力成本。目前,一些企業數位化負責人的觀點是,使用大模型的顯性成本的確在下降,但隱性成本必須考慮。

大模型的隱性成本涉及方方面面。例如,大模型要與現有IT系統相容;使用大模型要提前準備數據,進行數據治理;還要招募一批懂AI的產品經理;最後應用開發還需要付出成本。

「即使模型徹底免費,我們也必須為此付出其他隱性成本。」一位保險公司IT負責人今年9月對我們直言,使用大模型的隱性IT成本,其實遠高於顯性IT成本, “不能拿著鎚子找釘子,什麼事情都想著通過大模型去解決。而是要根據投入產出比,把大模型融入到現有的IT系統之中。”

資料治理是必要的前期準備。企業用好大模型,要給大模型「餵」高品質的產業數據。但在「餵」資料前,又要做好資料清洗、標註、整理等工作。

資料治理像是資源分類,把企業內雜亂無章的原始資料(包括文字、圖片、影片等)打標分類,整理成結構化資料。再餵給大模型,讓它產出符合業務需求的高品質內容。

不做好資料治理,大模型容易產生「幻覺」(大模型因為資料錯誤等因素胡說八道)。吳迪在和企業交流時遇到了一些非常有遠見的CIO和CTO,他們一年前就開始了資料治理。因為,他們認為“不管AI未來怎麼變,整理好數據都是必要的。”

資料治理,有時要引進專業資料治理公司,甚至是專業的顧問公司。產業資料治理,更是要付出高昂的人力成本。一位雲廠商大模型產品負責人今年9月對我們分析,一些無法透過演算法自動標註的複雜數據,需要交給專業懂行的人,靠人工標註完成。極端情況下,一條數據標註成本可能就在100元以上。

人才招聘,是另一個重要成本。但對大多數企業來說,懂大模型的人才既貴又少。

“我們這類公司裡,只有懂應用的人才,缺少懂AI的人才,更缺少專業懂AI的團隊”,一家國資背景的跨國聯營飲料集團CIO今年5月曾對我們表示,他從1月開始開出高價招募懂AI的人,其中包括一名資料探勘和AI演算法工程師、一名有諮詢經驗的AI應用產品經理。但直到5月,這兩個職位都沒找到合適人選。

在他看來,如果沒有真正懂AI的人才,盲目探索大模型落地,只會導致更大的資源浪費。但是組建起一支專業懂AI的團隊,又需要CEO層面的支撐——因為數位轉型是“一把手工程”,深度研究大模型需要投入堅定的意志。

應用開發,企業往往是精打細算且有步驟的。一個主導想法是,從邊緣場景開始小規模投入,而且必須計算投入產出比。

一家白酒企業的數位化負責人今年5月曾對我們表示,在快消、零售領域,超過15萬元就是大項目。他們的數位化團隊找到大模型落地場景後。要先做無成本的前期測試,只有成果顯著才能說服管理階層申請預算。他們一般會從單一場景試點開始開發應用,在單點看到價值轉換後,才會在其他場景落地大模型。

「首先我們必須承認,隱性成本很大比例要靠企業自身解決。其次,我們還是要幫企業把環繞在大模型周邊的隱性成本階梯式降下去。」吳迪認為,降低使用大模型的隱性成本是有方法的。

他把企業CIO和CTO煩惱的問題分成了幾大類,每類問題一步一步解決。火山引擎針對每類問題,都推出了對應的工具或外掛。

針對資料問題,向量資料庫可以在一定程度上降低企業資料治理工作。一些非結構化資料的儲存、搜尋、分析,可以透過火山引擎的VikingDB這類向量資料庫來完成。因為,向量資料庫能瀏覽大量非結構化數據,不需要依賴人工標註。它也具備記憶能力,可以讓連續對話的內容更精簡、更精準。

中手遊是一家遊戲上市公司,旗下有一款名為《仙劍世界》的手遊。這款遊戲中的NPC(非玩家角色,也被稱為機器人)使用了豆包大模型生成對話。為減輕模型幻覺、減少呼叫Token量,《仙劍世界》又繼續使用了火山引擎的VikingDB用於資料儲存、搜尋、分析。

針對應用開發問題,火山引擎推出了釦子專業版AI應用開發平台。它採用了零程式碼、低程式碼的方式降低開發難度。企業的IT團隊甚至是業務團隊,都可以「搭積木」的方式拼出適合自身的輕應用。海底撈就透過釦子開發了“智慧客服評估助手”,這正在幫助海底撈評估客服服務品質。


還要有持續降價的空間

雲廠商的大模型競爭有兩大變數:一是,算力規模能否持續擴大;二是,推理成本能否持續下降。

大模型競爭正在加劇。誰的算力規模更大,誰就有堅持到最後的底牌。

2023年之前,1萬枚AI晶片的資料中心是基礎大模型的入場券。 2024年以後,基礎大模型有朝向10萬枚AI晶片的方向演進的趨勢。能持續投入的廠商會逐步減少,最後只有少數幾家頭部廠商繼續參與長跑。多位業界人士對我們表達了同一個觀點,國產大模型淘汰賽已經開始了。這輪淘汰賽會持續一兩年,只有3家-5家基礎模型企業能繼續活下去。字節跳動是少數能參與這種軍備競賽的企業之一。

一個公認的事實是,模型的推理成本未來會不斷下降。誰能把成本壓到更低,誰就有更大的競爭優勢。

AI新創公司OpenAI是降低推理成本的佼佼者,幾乎每年都會對主力模型進行大幅降價,且還能在降價後保持高毛利。今年4月,OpenAI的旗艦模型GPT-4-turbo輸入價格降低了61%,輸出價格降低了67%。今年8月,OpenAI的主力模型GPT-4o輸入價格降低了50%,輸出價格降低了33%。

國際市場研究機構FutureSearch今年8月發布的研究報告稱,OpenAI旗下GPT-4系列旗艦模型毛利率約75%,GPT-4o系列主力模型毛利率約55%。 OpenAI綜合毛利率至少在40%以上。


模型推理算力持續降價,需要降低模型的算力消耗、提升算力的使用效率。這也是雲端運算的商業本質──靠技術,持續降低算力成本,搾取利潤空間。

一位決定跟進新一輪降價的頭部雲廠商高層曾向我們分析,他們進行多輪推演測算,考慮到了兩個矛盾點。

一是,降價後存量收入會下降,增量收入會成長。增量收入能否涵蓋存量收入?

二是,如果同業降價更激進,要如何應對?

但最後的結論是,瞻前顧後沒有用。最終結論是,現在的規模比利潤更重要。

吳迪認為,人工智慧如同漂浮在海面上的一座冰山。海面之上看似只有大模型,海面之下才是各家公司的硬實力。這種硬實力是,如何持續透過工程能力降低推理算力的成本。

他強調,豆包大模型降價,既不是拍腦門,也不是對標同行,而是科學計算的結果——其中綜合考慮了算力資源儲備情況、市場未來用量增速、模型成本下降趨勢這三個變數。火山引擎之所以能有底氣降價,是因為做到了三點。

其一,提升雲端的硬體調度效率,避免資源浪費。火山引擎可以做到每一塊GPU利用率都處於較高水準。

其二,系統工程要持續優化,這裡還有很大的降本空間。

其三,採用更高效率的模型結構與演算法,讓推理跑得更快、更好。

調度效率方面,雲一旦形成規模,就能依靠彈性持續降低邊際成本。字節跳動本身就是推理消耗大戶,火山引擎還可以把不同業務的負載混合調度,提高單卡推理效率,進而大幅降低成本。

系統工程方面,可以把原本在一台伺服器上執行的推理任務,拆分成多個子任務,並在多台伺服器上同時執行。透過這種方式,充分利用多台機器的運算資源,大幅提升推理速度、降低推理成本。

模型結構方面,過去兩年,大模型的發展遵循著Scaling Law(OpenAI在2020年提出的定律,直譯為「縮放定律」)-模型表現主要與計算量、模型參數量和訓練資料量三者大小相關。因此,一種降低推理成本的想法是,透過增加資料品質/數量、最佳化演算法和架構的方式來提升模型效能、降低模型尺寸。還有一種做法是,採用MoE(Mixture of Experts,一種模型設計策略,透過混合多個專業模型,獲得更好效能)的架構提升模型效能、降低推理成本。

2023年,模型公司普遍在思考怎麼做大模型的參數規模。 2024年,模型公司普遍在思考怎麼降低降低模型推理價格。 「下一步,大家要想的是如何提升模型性能,讓它更易於落地。這也是我們正在做的事情。」吳迪的觀點是,要在正確的時間做正確的事情,螺旋上升式地釋放算力紅利。

在他看來,「也許不會很快誕生下一個抖音,但AI能力會一點點滲入現有的日常應用之中。小的創新滲透到土壤深處,後面才會有新的物種成長出來。 (財經雜誌)