事情是這樣的。
最近幾個月,我但凡打開視訊號或者抖音,總被一個侃侃而談的“科技大佬”刷屏。
這哥們叫「硅基大司馬」,專門講中國硬核科技,從晶片到光刻機,從新能源到機器人,啥都懂,啥都聊。
最離譜的是他的更新頻率和產量,高得不像人類,
整個矩陣,每天有20-30篇他的科技科普視訊產出!我以為,又是那個MCN機構捧出來的卷王。
結果有人告訴我,這背後壓根不是「人」?
我當時就愣了。
那語氣的抑揚頓挫、自然的氣息律動,那種講到中國科技時不自覺挺直腰桿的勁兒,太像一個真的科技大佬坐在你面前吹牛了。
我查了下,大司馬在全網幾十個矩陣帳號,已經有3000 萬粉絲,半年時間漲粉就2200 萬,每月 2 億觀看量,企業家 IP 榜上排在他後面的是周鴻禕、余承東、俞敏洪一眾大佬。
這就不是玩票了,這是一場社會實驗等級的行為藝術。
我立刻來了興趣。能撐起這種千萬級粉絲盤、讓人完全聽不出看不出破綻的AI,是什麼妖怪技術?
順藤摸瓜,我挖到了硅基大司馬背後的聲音引擎——Smart Voice 1.0,號稱“一次成型、無需返工”。口說無憑,既然要測,那就玩把大的!
然後,我拉上了目前市面上號稱SOTA等級TTS,做了一場慘無人道的暴力橫向測試。
TTS六大門派圍攻光明頂,誰在裸泳?
我在網上找的司馬華鵬的採訪,這放出來你們好有個對照。
先從om**開始,這家的效果出來,好像一個沒有感情的讀稿機器,語調平直得像一根繃直的線,沒有什麼情緒的起伏。
接著是Min****,這家失真的有點離譜,機械感很重。喉嚨裡像卡著東西,聲音像從一根生鏽的鋼管裡傳出來的。
然後是Qw**,對比前面幾家,這家起碼聲音沒失真,不過在斷句節奏上有點不穩定,還是會有機械感。
再然後,火**,這一家,和原聲偏差很大,完全不像本人。聽起來就像10年前打10086客服,電話那頭傳來的語音。
好,重頭戲來了。
Elev*****,你知道我最期待那家嗎?就是它。全球TTS市場份額第一,我滿心以為它會給我一個驚喜,結果呢?
太心酸了。聽起來像是一個外國人在講中文,那種努力想模仿中國人講話,但發音但每個音都不在點子上的外國人。
最後, Smart Voice 1.0
我去,這才是該有的樣子。
和本人聲線、音色的一致度,一字就是“像”。再有就是那種停頓時的呼吸感,全都在,甚至還有人講話時候那種猶豫感!
一次成型,不需要返工,這才是關鍵。
說到這個「一次成型」,我必須多聊幾句。
很多人可能不知道,傳統流程做一分鐘商業級音訊,成本有多離譜。
我查了一下。
專業語音稽核質檢人員,日薪大概650到1100元。處理1小時音訊需要4到8小時,也就是說一天只能處理約1到2小時音訊。折算每分鐘稽核成本,約10到37元。
如果算配音費用那更貴了,日薪2000到5000元。
更重要的是時間。音訊出來了要聽,聽完要改,改完要再審。調音、改稿、稽核。如果再加上返工,傳統流程做一分鐘商業級音訊,成本輕鬆過百。
Smart Voice 1.0呢?10元每分鐘。一次生成,不需要聽審,不用返工,直接上線。
「硅基大司馬」幾十個矩陣帳號,半年漲粉2200萬,累計粉絲3000萬。每月2個億流量,單條視訊4000萬播放。
榜單連續三個月TOP3,周鴻禕、余承東、何小鵬、俞敏洪、
魏建軍一票大佬都在他後面。
這不是實驗室demo,是真實戰場上的真刀真槍。
說到這,大家盲聽試試吧。
最後我也會在留言區公佈揭曉。
Smart Voice 1.0 的出現,意味著AI語音賽道正在從“實驗室的玩具”向“工業級的拳頭產品”轉變。那些只會“念字”的TTS產品,如果不趕緊跟上,眼看就要被甩出幾條街。
最後,我知道很多做內容、搞IP、做企業品牌的朋友已經對這個技術飢渴難耐了。我幫你們要了個福利。
這是我從官方拿到的,Smart Voice 1.0內測通道。
最後,我想回到開頭那個視訊。
我現在知道了,它是AI合成的。
但諷刺的是,我知道這個事實之後,再去聽他的視訊,反而覺得更震撼了。
1880年代電力剛開始普及的時候,大部分人只是把電力當成一種更乾淨的蠟燭替代品,用來點燈。
但真正吃到電力紅利的人,是最早想明白電力到底能幹什麼的人,工廠不用再圍著蒸汽機佈局了,流水線的形態整個被重塑了。
AI語音現在就像那個階段。很多人還在拿它當「便宜的配音替代品」,但接下來幾年,聲音會變成無限供給的基礎設施,所有依賴真人聲音的商業模式都會被重構。
當聲音可以無限供給的時候,內容和傳媒產業才真正具備了規模化的條件。
這才是這次測試最讓我震撼的地方。 (識焗)
