#AI音訊 | 熱門關鍵字 | 鉅亨號

ElevenLabs不只是一家做音訊模型的公司。AI音訊賽道，衝出一家百億美元獨角獸！智東西2月5日報導，昨天，英國AI音訊獨角獸ElevenLabs宣佈完成5億美元的D輪融資，估值達110億美元。其估值較去年年初的33億美元，實現了超230%的飛速增長。ElevenLabs聯合創始人兼CEO Mati Staniszewski還透露，該公司已在考慮IPO事宜。本輪融資由紅杉資本領投。已參與ElevenLabs多輪融資的a16z追加4倍投資，ICONIQ追加3倍投資，這意味這兩家投資機構增大了在ElevenLabs的持股比例。▲Mati Staniszewski發文宣佈融資（圖源：X平台）ElevenLabs於2022年成立於英國倫敦，最初主要從事文字轉語音模型的開發，後來也陸續打造了語音轉文字模型、AI音效模型、AI配音模型、AI音樂模型等領域。該公司既向企業提供語音API服務，也為創作者和品牌提供音訊生成平台ElevenCreative，還通過ElevenAgents平台向企業提供AI語音客服服務。你甚至能在知名遊戲《堡壘之夜》裡找到由ElevenLabs生成的音訊。2025年底，ElevenLabs的ARR（年度經常性收入）已經超過3.3億美元。自成立以來，ElevenLabs已完成五輪融資，累計融資總額達到7.81億美元。輝達此前曾參與ElevenLabs的C輪融資。輝達創始人兼CEO黃仁勳稱，ElevenLabs打造了世界上最好的語音AI產品，他主動向輝達團隊推薦了ElevenLabs。如今，黃仁勳在各類大會上以虛擬卡通形象出現時，就會用ElevenLabs的工具來復刻自己的聲音。▲黃仁勳與Mati Staniszewski（圖源：輝達）從融資規模、收入增長到資本陣容，ElevenLabs已經穩穩位居全球AI音訊賽道的第一梯隊。這樣一家成立不到4年、卻能在競爭激烈的語音AI領域中快速拉開身位的公司，顯然不只是踩中了風口那麼簡單。它背後的創業起點、關鍵選擇，以及對產品與市場的理解，值得深度拆解。01. 上線6個月拿下百萬使用者靠社交媒體實現爆發式增長ElevenLabs的兩位聯合創始人Mati Staniszewski和Piotr Dabkowski都來自波蘭。受到童年時觀看的那些配音糟糕的美國電影的啟發，他們決定打造一款AI工具，來解決這一問題。在創業之前，Mati Staniszewski曾在瀏覽器公司Opera、投資與技術供應商貝萊德以及資料智能上市公司Palantir任職。而Piotr Dabkowski自畢業後，就一直在Google擔任軟體工程師，直至2022年與Mati Staniszewski一同創業。初出茅廬的ElevenLabs究竟能給這個行業帶來什麼變化？在2023年投資ElevenLabs之際，a16z的投資人Bryan Kim闡述了他對ElevenLabs潛力的理解。Bryan Kim認為，儘管語音轉文字技術已經存在了數十年，但它未能發揮全部潛力。大多數合成語音缺乏吸引人的語調和發音，缺乏個性感，而高端的人工錄製語音服務雖然存在，但冗長的製作流程和高昂的成本使得這項技術在大多數即時和互動場景中難以實現。ElevenLabs的出現，就是要滿足這些場景對高品質語音的需求。2023年1月，ElevenLabs首次推出了語音設計和克隆產品，並對現有的文字轉語音模型進行了顯著改進。之後還陸續推出多款文字轉語音模型，擴展多語言支援，甚至拿下了一些已故知名演員的聲音版權，進行克隆並對外提供商業化服務。上線6個月後，ElevenLabs已積累超過100萬註冊使用者，創作了總計時長超過10年的音訊內容。2024年11月時，其使用者數量已經超過3300萬。2025年，其ARR邁過了1億美元大關。在2025年6月的一場採訪中，ElevenLabs的增長負責人Luke Harries透露，該公司能實現如此快速的增長，背後主要有兩大驅動力。一方面，ElevenLabs的基礎模型能力不斷迭代，在表現力、真實感上不斷提升。ElevenLabs認為，語音模型與其他AI模型不同，規模和資料量不是最重要的決定因素，反而是模型架構發揮著重要作用。領導ElevenLabs研究工作的聯合創始人Piotr Dabkowski憑藉自己的影響力，招募到了多位世界頂尖的語音AI研究員，該公司已在模型架構上取得一些突破。不過由於他們打造的是閉源模型，外界無從知曉這些改進究竟在那些方面。▲Mati Staniszewski（左）與Piotr Dabkowski（右）另一方面，ElevenLabs還很擅長市場行銷工作。該公司懂得如何利用社交媒體的力量，還通過舉辦駭客松比賽、製作另類Demo等方式破圈，實現爆發式增長。而在企業客戶方面，ElevenLabs認為在企業級市場應該採用自下而上的打法，也就是先從消費級和開發者切入，在建立名聲和信任後，大型客戶自然會來。02. 公司重心已成語音智能體創始人竟不看好音訊模型未來不過，ElevenLabs並不想把自己限定在音訊模型這一狹窄的賽道，該公司瞄準的是更大的市場。在一場與TechCrunch錄製的播客中，Mati Staniszewski稱，ElevenLabs想解決的根本問題，是人類與科技產品如何互動的問題，這是他們一直以來開發產品的主線。最初，ElevenLabs打造了文字轉語音模型，讓科技產品中的語音聽起來更像人。但要打造真正優秀的體驗，光有逼真的人聲是不夠的，AI還需要能夠生成聲音、音樂，並具備對語音的理解力。Mati Staniszewski認為這是該公司從成立以來到2025年上半年的最大重心。但事實上，Mati Staniszewski認為音訊模型這條賽道本身並沒有什麼前景：“這一賽道或許在未來1-2年內仍是成立的，但再過幾年，這項技術就會完全商品化（Commoditized）”。如今，ElevenLabs還在造模型的原因是，短期內它還是提升AI音訊產品質量的最好方式。但隨著這項技術日趨成熟、易於獲取，成為可大量採購的“標準件”，音訊模型或許會成為廣泛的底層基礎能力，而非核心競爭優勢。於是，在2025年下半年，Mati Staniszewski帶領ElevenLabs進行了一項重要的戰略調整，如今，ElevenLabs的首要任務是幫助企業部署對話智能體，並能以新的方式與使用者、客戶互動。Mati Staniszewski判斷，隨著智能體、對話智能體和語音智能體的興起，使用者可以與裝置交談了，但要讓這些智能體真正產生價值，就需要將大量資訊和知識庫帶入智能體內部，使其能夠與現有系統整合。整合後，這些產品還需要具備可測試、可評估、可監控的特點，這樣才能獲取企業級客戶的信任。這些智能體的主要應用場景，其實就是AI語音客服。ElevenLabs的智能體是多模態的，可以理解口頭或書面輸入，像人類一樣傾聽、閱讀並與客戶互動。企業還可對這些智能體進行定製化，在ElevenLabs提供的可視化工具中打造出對話流，精確定義這些智能體該如何與客戶互動。▲ElevenLabs的智能體產品（圖源：ElevenLabs官網）這一戰略決策，讓ElevenLabs得以在企業級市場進一步攻城略地。如今，在語音智能體賽道，他們的一些大客戶包括Cisco（思科）、Meta、Salesforce等等，而在音訊創作領域，迪士尼、Epic等影視與遊戲製作公司都在使用其產品。反映到ARR上，ElevenLabs在做出這一戰略轉向後，ARR增速明顯加快。2025年初，ElevenLabs達到1億美元ARR時，用時為20個月，而緊接著跨越2億美元ARR大關僅用時10個月。2026年初，當ElevenLabs宣佈實現3.3億美元ARR時，距離他們達成2億美元ARR的時間僅為5個月。03. 主打AI模型+產品不猛堆算力與資料語音AI賽道，並不缺乏優秀的模型。中國的MiniMax、阿里、海外的Google、OpenAI等公司都曾打造優秀的語音產品，那麼，ElevenLabs的差異化優勢在那兒？就像軟體和硬體的結合才是蘋果公司的魔力一樣，Mati Staniszewski認為，AI模型與產品的結合才能發揮最大價值。ElevenLabs雖然也會研究一些前沿方向，比如開源視訊模型與語音模型的結合，但他們更重視的始終是打造更好的產品，不會像競爭對手那樣訓練一些計算密集或資料密集的模型。同時，Mati Staniszewski還認為ElevenLabs具備更高的專注度，他們直接專注於解決人類與電腦進行語音互動的問題，該公司的願景是獨立於競爭對手們所做的事情之外的。拿到新融資後，ElevenLabs的首要目標是推動其智能體產品的發展。未來幾天，他們很快會推出適用於智能體平台的全新對話模型，能更快、更準確地理解和表達感情。如今，ElevenLabs已經是一家擁有400名員工的公司了，與其他估值相近的AI創企相比，這已經幾乎可以算是大公司了。ElevenLabs正在倫敦、紐約、舊金山、華沙、都柏林、東京、首爾、新加坡、班加羅爾、雪梨、聖保羅、柏林、巴黎和墨西哥城等地開展國際擴展，並配備本地化的市場推廣團隊，這對該公司旗下的語音AI業務而言，尤其重要。04. 結語：模型服務於產品成ElevenLabs突圍思路回頭看ElevenLabs的成長路徑，它並沒有走一條堆參數、拼算力的傳統模型公司路線，而是始終圍繞一個更底層的問題推進：語音和音訊，究竟在真實世界裡如何被使用。而在戰略層面，他們又足夠清醒地判斷出“音訊模型終將商品化”，果斷將重心轉向對話智能體與企業場景。這是一種“產品先行、模型服務於產品”的打法，讓ElevenLabs在語音AI這個擁擠的賽道中擁有了差異化的特點。而這或許也是頭部企業和頂級風投，願意重金押注ElevenLabs的關鍵。 (智東西)

美股

2026/01/21

•

是別針還是耳機？OpenAI首款AI硬體形態成謎

OpenAI加速商業化，硬體、廣告雙線佈局。圖片來源：unsplashOpenAI首款AI硬體裝置就要來了！當地時間1月19日，OpenAI首席全球事務官克里斯·萊恩（Chris Lehane）於瑞士舉辦的達沃斯論壇上表示，裝置是公司今年的重要規劃之一，按照計畫，有望在今年下半年推出首款產品。不過，克里斯·萊恩並未針對裝置的形態、細節或具體發佈時間給出任何確定資訊。Axios首席技術記者伊納·弗雷德（Ina Fried）在Axios House活動現場追問“是別針嗎？”“是耳戴裝置嗎？”，克里斯·萊恩均未置可否。“大家可是在這裡首次得知這一消息的，這款裝置今年就要來了。”弗雷德進而確認道。“我沒說它今年一定會來，我是說我們正按計畫進行中。”萊恩依然謹慎回應稱。截圖來自Axios House活動視訊在萊恩官宣之前，市場普遍預期OpenAI會在今年推出智能硬體裝置。去年5月，OpenAI以65億美元收購了前蘋果首席設計官喬納森·伊夫（Jony Ive）的AI裝置初創公司io，彼時的一段宣傳視訊即暗示2026年會有新品面世，成為使用者的“AI夥伴”。此後，OpenAI首席執行官薩姆·阿爾特曼（Sam Altman）多次對這款備受市場關注的產品給出“劇透”。其中涉及的細節包括：體積小而輕便、設計簡潔、無螢幕、注重使用者互動尤其是語音互動、具有物理世界感知能力等。坊間隨即有了這款硬體是別針、耳機、無屏音箱等猜測。去年12月末，數位博主智慧皮卡丘在社交平台爆料稱，OpenAI共有3個項目在進行供應商評估，其中之一被認為是一支筆，另一種可能是可攜式音訊裝置。1月中旬，該博主跟進爆料稱，一款內部代號為“Sweetpea”的“旨在取代蘋果AirPods的特殊音訊裝置”被排在硬體裝置開發優先順序的首位，預計將在今年9月左右發售，年度出貨量計畫可能高達4000萬至5000萬個的水平。爆料還稱，供應鏈企業已被告知，OpenAI計畫在2028年四季度前共生產5款裝置，家用裝置和觸控筆仍在考慮之列。截圖來自社交平台X此外，The Information在1月1日引用信源稱，OpenAI計畫推出的首款硬體裝置的原型機已經完工，該公司正加速迭代音訊模型，為這款“以語音互動為核心場景”的裝置提供支援。相關報導稱，其音訊模型預計將在今年一季度發佈，相關裝置可能在一年左右的時間內走向市場。而在預測市場平台Polymarket上，有85%的使用者押注OpenAI將在今年結束前面向消費者推出其硬體裝置。目前，AI硬體裝置已成科技巨頭、獨角獸和眾多創業者搶灘AI消費市場的重要選擇。Meta、Google、阿里巴巴等聚焦於目前最火爆的AI眼鏡賽道，蘋果此前也被認為有意將Airpods耳機升級成AI裝置，相關智能翻譯等功能已推出。此外，戒指、耳環、掛件、錄音豆等“標新立異”的AI硬體產品也層出不窮。但市場始終未給出如智慧型手機、智能手錶般的一致性、規模化積極反饋，這也是市場高度重視OpenAI將拿出怎樣革新性產品的原因所在。至於OpenAI，這家估值已高達5000億美元（新一輪融資完成後或將達到8300億美元），年營收剛剛超過200億美元，5年內資本支出可能逼近5000億美元的AI公司，通過各種管道探索商業變現已成當務之急。此前，OpenAI已陸續推出多種C端和B端的服務套餐以及AI購物功能，1月16日，它還公告稱，將在ChatGPT中上線並測試廣告功能。然而，這一舉措也一度因有違奧爾特曼“最後才會考慮廣告”言論，可能讓AI受商業利益影響給出傾向性答案而遭受爭議。萊恩在上述訪談中也談到，引入廣告的核心目的是為了維持免費服務的可持續性，通過廣告收入來支付高昂的算力成本，從而確保數億使用者能夠繼續“像使用公共事業一樣”免費使用AI，避免因經濟能力差距而造成更大的數字鴻溝。他還強調，公司對廣告的引入有嚴格的標準和原則，會始終以使用者體驗和信任為首要考量，確保廣告不干擾核心對話、使用者始終能感覺到在獲取所需答案。他也同時表示，行業還需進一步建立標準和規則，來規範AI廣告的說服力、透明度等。在從非營利組織轉型為混合架構，繼而積極參與商業競爭後，OpenAI在輿論和法律層面一直面臨爭議。目前來看，該公司將避免AI“能力溢出”（capability overhang）的平權理唸作為自己加速商業化的重要理由。OpenAI此前表示，將在達沃斯論壇期間發佈一份名為《終結能力過剩》（Ending the Capability Overhang）的報告，揭示在AI創新速度超過採用速度之際，活躍採用者相較普通使用者正在獲得巨大的智能優勢和收益的事實。而公司則主張必須彌合這種差距，才能讓AI真正有利於整體的社會和經濟利益，避免其最大收益只流向那些具備先發資源優勢和活躍採用管道的國家、企業或個人。而正如萊恩所解釋的，通過商業變現支撐OpenAI自身的運行，被該公司視為彌補差距、讓AI普惠化的必要舉措。截圖來自OpenAI官網OpenAI首席財務官薩拉·弗萊爾（Sarah Friar）在1月18日發表的文章《一個能夠根據智能價值擴展的企業》（A business that scales with the value of intelligence）中強調了商業變現與AI平權間的關聯。她稱，公司遵循“商業模式應隨著智能帶來的價值而擴展”的簡單原則，並以此來推動完成最初的承諾。她還提到，該公司今年的重點將放在“實際應用”上，特別是在健康、科學和企業領域。“首要任務是縮小AI現有能力與人們、企業和國家日常使用方式之間的差距。”她寫道，“基礎設施擴展服務範圍，創新擴展智能的能力，實際應用擴展其使用範圍，而商業收入則推動我們走向下一個階段，這就是智能如何發展並成為全球經濟基礎的方式。” (鈦媒體AGI)

科技

2025/10/02

•

OpenAI Sora 2剛發佈沒多久，已經被網友們“玩壞了”

9月30日，OpenAI推出新一代視訊生成模型Sora 2，該模型首次支援與畫面匹配的AI音訊生成。Sora 2的發佈標誌著視訊生成技術在物理模擬、真實感和可控性方面的顯著提升，能夠處理複雜的動作場景並遵循物理規則。Sora 2發佈後，這幾天網上掀起了“AI生成視訊”風，很多網友在社交平台上發佈了各種各樣用Sora生成的趣味甚至惡搞視訊，令人忍俊不禁。有網友用Sora生成一架粉紅色的“豬臉客機”，視訊中“遊客”們紛紛和這架飛機自拍；還有網友利用Sora 2生成一段“古裝修仙”劇情；能“拍”古裝劇，戀愛劇也不在話下，只是這劇情：女：渣男，你為什麼和我分手？男：我怕。。。我媽知道。。女：我都不怕我老公知道啊！還有網友直接搞了一個“集合”，有“古裝戀愛劇”、“韓劇”還有“警匪動作劇”；還可以拍一段“民國風的諜戰劇”；想不到還有更離譜的“霸道總裁愛上絕經的我”……除了用Sora 2生成各種類型劇集，也有網友做了個“村口大爺大媽閒話”記錄；當然，更可以用Sora 2“實現”一些可能永遠無法在現實中見到的場面：國足2:1贏得世界盃冠軍，捧起大力神獎盃；或者在一場足球比賽中男足輕易踢贏日本隊。不過，這幾天網友利用Sora 2惡搞最多的對像是OpenAI CEO 山姆·奧特曼。這些惡搞視訊同樣非常有趣，三言簡單選了一些彙總如下：先來一個“緊跟時事”的，有網友用Sora 2生成了一段“奧特曼給大家講解如何將凍起來的饅頭加熱幾分鐘後端給消費者”的視訊。正值國慶期間，很多網友用Sora 2生成了“奧特曼手持國旗在天安門廣場”、甚至“身穿軍裝在國旗下”為祖國慶祝生日的視訊；還有很多網友製作了“奧特曼在深圳、空降上海、遊覽西湖”等地點的視訊，幾條視訊中，有奧特曼為某個博主“打call”；有奧特曼“真從高樓傘降”到外灘或者直接在上海外灘與遊客握手合影的；還有奧特曼在西湖邊欣賞美景、開演唱會的視訊；網友還製作了奧特曼在全國各地遊覽、品嚐奶茶、火鍋等各種美食的視訊；當然，還少不了“奧特曼站在堵車的高速路上吐槽擁堵”的視訊；有“奧特曼擺攤賣雞排”視訊；有“奧特曼表演川劇變臉”視訊；有“奧特曼與小白鼠一同用餐、喝啤酒”視訊；有“奧特曼與友人以及大貓熊、皮卡丘歡聚、唱歌”的視訊；還有“奧特曼穿著東北大棉襖講話”的視訊；“奧特曼能打拳擊”……能化身“武俠”……甚至能夠“剃度出家成為武僧”；能“說相聲，主題是購買顯示卡”；能化身“某大廠高管，訓斥員工”……能變成數位博主，“介紹一款‘逆光之王’手機”；更能化身車評人，“介紹一輛‘SU7’”；奧特曼還“因算力不夠，去超市偷顯示卡被抓”……不得不說，網友的想像力真的豐富多彩。這些視訊大多數都是惡搞性質，並且仔細觀察能發現Sora 2生成的視訊雖然非常逼真，但也在一些細節上存在錯誤。例如網友製作的“諜戰劇”中，主角竟然可以像蜘蛛俠一樣爬上牆；奧特曼在上海外灘與遊客合影的視訊中，背景出現奇怪的建築等。但這些問題屬於瑕不掩瑜，可以看到Sora 2生成的視訊整體質量非常高，尤其是對知名公眾人物還原度很高。隨著技術不斷進步，AI生成完全可以以假亂真的視訊幾乎是指日可待。也許到了那一天，真的會“眼見不一定為實”。對此，你怎麼看？ (三言Pro)

科技