字節跳動,終於摘下了自家大模型的神秘面紗。
就在剛剛,旗下的火山引擎第一次正式亮相了豆包大模型家族:一口氣直接祭出了9個成員。
其中,大模型家族中最為核心的便是豆包通用模型,分為兩個尺寸:
令人非常意外的是,作為大模型亮相的發佈會,火山引擎與其他大模型廠商的“路數”截然不同——
沒有榜單分數,沒有參數規模!
而且價格,更是成了讓現場觀眾“哇聲一片”的大亮點,和其它大模型相比:
128K窗口尺寸:豆包通用模型pro,只要0.005元/千tokens,比行業價格低95.8%
做個簡單的換算,就是1元=1250000tokens!
主打的就是落地效果,讓人人都能用起來才是硬道理。
為何會如此?縱觀整場發佈會,可以總結火山引擎此舉背後的邏輯為:
只有最大的使用量,才能打磨出最好的大模型。
據瞭解,豆包大模型自去年8月份上線以來,其每天平均處理的token數量高達1200億,相當於1800億的漢字;每天生成圖片的數量為3000萬張。
不僅如此,豆包大模型家族還會在包括抖音、今日頭條等在內的50多個場景中進行實踐和驗證。
因此,我們可以把火山引擎在大模型性能上的路數,視為用“左手使用量,右手多場景”的方式反覆打磨而來。
一言蔽之,大模型好不好,用一下就知道了。
例如此前各家大模型都在卷的超長上下文窗口這件事上,其實豆包通用模型這次所發佈的128K,在資料上並沒有很驚豔。
但這個量級對於日常的使用來說是已經足夠的,所以字節跳動便將更多的精力放到了“如何用好”,也就是此次提到的精調。
例如我們在一篇20萬字文章的隨機一個位置,插入與原文無關的句子:
高端的獵人,往往以獵物的形式出現。
然後將文件上傳給豆包,讓它基於這篇文章來回答“高端的獵人會以什麼姿勢出現”,它就能精準的根據我們插入那句話來作答。
由此可見,在128K長上下文窗口+精調加持下的豆包通用模型,已經是可以精準應對超長文字的任務了。
不過這也僅僅是此次火山引擎大模型能力的一隅,我們繼續往下看。
除了文字對話之外,語音,也是豆包大模型家族中重要的組成部分,與之相關的成員就有三位:
例如在語音合成這件事上,豆包的大模型現在主打的就是一個超級自然、更像人;話不多說,我們直接聽一下:
不難聽出,AI合成的說話效果已經是逼近真人的水平,不再是以往冷冰冰的“一聽就是AI”。
而且它還能根據上下文來把控說話過程中的停頓感和情緒等等;多種語言切換也不在話下。
據瞭解,火山引擎依託大模型建構的音色矩陣,還能表現出哭腔等更加複雜的人類情緒;若是讓這樣的AI給你“唸書”聽,那妥妥就是沉浸式的了:
在克隆聲音方面,豆包聲音復刻模型背後的MegaTTS技術這次也有了新升級——
在音色相似度、聲音自然度和多語種表現力上都有了大幅的能力提升。
同樣的,我們還是直接來聽一下效果:
如何?是不是原聲音和克隆出來的聲音真假難辨了?
更重要的是,無論是克隆多麼怪異或多樣的原聲,僅需5秒!並且現在在豆包APP上就可以實現:
由此一來,以後若是在工作上遇到需要用自己的聲音“出鏡”的事情,即便不會說外語也是不用怕了。
在語音識別方面,在升級的豆包大模型能力加持下,即便是在嘈雜的環境之下,也可以根據上下文進行絲滑的對話。
例如我們就在放英文歌的環境中,同樣用英語與豆包做了交流:
據瞭解,豆包語音識別模型相比小模型,識別錯誤率已經降低了30%;在音樂、科技、教育、醫療等垂直領域識別錯誤率更是降低50%以上。
但如果只是上述這樣簡單的對話交流,或許有些過於單調、莫得感情。
而豆包大模型家族中的另一位成員——角色扮演模型,恰好解決了這個問題。
例如我們可以跨時空跟李白對話一番:
具體而言,這個功能是豆包APP中的智能體,使用的是升級後的豆包角色扮演模型,加強了它更個性化的人設遵循、更自然的聊天和更好的共情能力。
從上面的例子中,我們就能感受到“AI李白”不僅說話的風格富有詩意,對話內容也是高度相扣。
而諸如此類的智能體,豆包APP裡可謂是數不勝數,比如霸道校草、狠辣世家獨女、知心姐姐、財神……嗯,有點意思。 (量子位)