字節跳動大模型首次全員亮相：一口氣9個，價格低99%，沒有參數規模和榜單分數

2024/05/16

•

字節跳動，終於摘下了自家大模型的神秘面紗。

就在剛剛，旗下的火山引擎第一次正式亮相了豆包大模型家族：一口氣直接祭出了9個成員。

其中，大模型家族中最為核心的便是豆包通用模型，分為兩個尺寸：

令人非常意外的是，作為大模型亮相的發佈會，火山引擎與其他大模型廠商的“路數”截然不同——

沒有榜單分數，沒有參數規模！

而且價格，更是成了讓現場觀眾“哇聲一片”的大亮點，和其它大模型相比：

128K窗口尺寸：豆包通用模型pro，只要0.005元/千tokens，比行業價格低95.8%

做個簡單的換算，就是1元=1250000tokens！

主打的就是落地效果，讓人人都能用起來才是硬道理。

為何會如此？縱觀整場發佈會，可以總結火山引擎此舉背後的邏輯為：

只有最大的使用量，才能打磨出最好的大模型。

據瞭解，豆包大模型自去年8月份上線以來，其每天平均處理的token數量高達1200億，相當於1800億的漢字；每天生成圖片的數量為3000萬張。

不僅如此，豆包大模型家族還會在包括抖音、今日頭條等在內的50多個場景中進行實踐和驗證。

因此，我們可以把火山引擎在大模型性能上的路數，視為用“左手使用量，右手多場景”的方式反覆打磨而來。

一言蔽之，大模型好不好，用一下就知道了。

例如此前各家大模型都在卷的超長上下文窗口這件事上，其實豆包通用模型這次所發佈的128K，在資料上並沒有很驚豔。

但這個量級對於日常的使用來說是已經足夠的，所以字節跳動便將更多的精力放到了“如何用好”，也就是此次提到的精調。

例如我們在一篇20萬字文章的隨機一個位置，插入與原文無關的句子：

高端的獵人，往往以獵物的形式出現。

然後將文件上傳給豆包，讓它基於這篇文章來回答“高端的獵人會以什麼姿勢出現”，它就能精準的根據我們插入那句話來作答。

由此可見，在128K長上下文窗口+精調加持下的豆包通用模型，已經是可以精準應對超長文字的任務了。

不過這也僅僅是此次火山引擎大模型能力的一隅，我們繼續往下看。

更像人，也更懂人

除了文字對話之外，語音，也是豆包大模型家族中重要的組成部分，與之相關的成員就有三位：

例如在語音合成這件事上，豆包的大模型現在主打的就是一個超級自然、更像人；話不多說，我們直接聽一下：

不難聽出，AI合成的說話效果已經是逼近真人的水平，不再是以往冷冰冰的“一聽就是AI”。

而且它還能根據上下文來把控說話過程中的停頓感和情緒等等；多種語言切換也不在話下。

據瞭解，火山引擎依託大模型建構的音色矩陣，還能表現出哭腔等更加複雜的人類情緒；若是讓這樣的AI給你“唸書”聽，那妥妥就是沉浸式的了：

在克隆聲音方面，豆包聲音復刻模型背後的MegaTTS技術這次也有了新升級——

在音色相似度、聲音自然度和多語種表現力上都有了大幅的能力提升。

同樣的，我們還是直接來聽一下效果：

如何？是不是原聲音和克隆出來的聲音真假難辨了？

更重要的是，無論是克隆多麼怪異或多樣的原聲，僅需5秒！並且現在在豆包APP上就可以實現：

由此一來，以後若是在工作上遇到需要用自己的聲音“出鏡”的事情，即便不會說外語也是不用怕了。

在語音識別方面，在升級的豆包大模型能力加持下，即便是在嘈雜的環境之下，也可以根據上下文進行絲滑的對話。

例如我們就在放英文歌的環境中，同樣用英語與豆包做了交流：

據瞭解，豆包語音識別模型相比小模型，識別錯誤率已經降低了30%；在音樂、科技、教育、醫療等垂直領域識別錯誤率更是降低50%以上。

但如果只是上述這樣簡單的對話交流，或許有些過於單調、莫得感情。

而豆包大模型家族中的另一位成員——角色扮演模型，恰好解決了這個問題。

例如我們可以跨時空跟李白對話一番：

具體而言，這個功能是豆包APP中的智能體，使用的是升級後的豆包角色扮演模型，加強了它更個性化的人設遵循、更自然的聊天和更好的共情能力。

從上面的例子中，我們就能感受到“AI李白”不僅說話的風格富有詩意，對話內容也是高度相扣。

而諸如此類的智能體，豆包APP裡可謂是數不勝數，比如霸道校草、狠辣世家獨女、知心姐姐、財神……嗯，有點意思。 (量子位)