小扎豪擲143億,卻換不來AI燃料!資料之爭下半場,中國衝出一匹黑馬
【新智元導讀】真正決定AI上限的,已從「模型規模」轉為「資料質量」。從Meta押注資料平台到xAI裁員轉招「專業AI導師」,全球「資料大戰」全面進入下半場。中國玩家裡,澳鵬資料獨佔一檔,僅2025年上半年營收達3.06億元。高品質、可追溯、可工程化的資料生產,正成為AI產業的新壁壘。
2025年,大模型持續高速進化,科技巨頭在為「燃料」——高品質資料,展開了激烈的角逐。
資料,不再是幕後的配角,而是直接決定AI成敗的核心戰場。
如今,全球AI圈的「資料大戰」愈演愈烈。
小扎曾豪擲143億美金,一舉挖走Scale AI創始人,並買下49%股權,只為搶佔高品質資料的制高點。
這一「世紀聯姻」,原本被視為Meta在AI競賽中的殺手鐧,卻很快曝出「尷尬裂痕」:
負責下一代模型訓練的TBD Labs,因對Scale AI資料質量大失所望,轉向Surge AI、Mercor等競爭對手。
風波未平,Anthropic又因涉嫌盜用版權資料訓練Claude,被迫支付15億美元「天價和解金」。
這一驚人的數字,創下美國版權糾紛最高賠償紀錄,更宣告了AI「野蠻攫取」資料時代的終結。
與此同時,馬斯克一夜之間,果斷揮刀裁掉500名「通用資料標註員」,轉而大力招募10倍「專業AI導師」。
重點覆蓋了STEM、金融、醫學、安全等領域,直指AI從海量資料堆積,向專業化精煉的深刻轉型。
這些科技巨頭、AI獨角獸們的「資料焦慮」,並非孤例,而是AI生態下的普遍鏡像——
資料,已然成為AI時代的「新石油」。
在國外,Scale AI、Surge AI、Mercor等新銳,憑藉精細化標註和專家資源,成為OpenAIGoogle等巨頭的「幕後推手」。
而在中國,這場「資料革命」的先鋒——澳鵬資料,正以本土創新和全球視野強勢崛起。
鮮有人知,中國十大網際網路巨頭,十大自動駕駛大廠,450+頭部企業背後的高品質資料,全部來自澳鵬的AI資料引擎。
2025年上半年業績顯示,澳鵬中國區創下3.06億元(RMB)營收新高,堪稱行業標竿。
預計,全年將突破7億大關。
這不僅僅是一個數字,而是過去五年複合增長率90%的強勁證明。
澳鵬全球高級副總裁、大中國區及北亞區總經理田小鵬博士表示:
我們正見證一場根本性的範式轉變。
AI最終的競爭壁壘,在於能否建構一個強大的「資料閉環」。它以「資料工程」為引擎,能源源不斷地產出稀缺、高品質的資料燃料。
說白了,未來比拚的,不僅僅是算力或模型架構,還有誰能系統性地構造出精準且稀缺的資料。
這正是當前許多行業亂象背後的根源,也為我們指明了AI資料進化的下一個關鍵方向。
從0跨越,半年爆賺3.06億元
或許在許多人眼中,這無疑是「中國版的Scale AI」!
沒錯,但不止於此。更準確地說,澳鵬資料是融合了「Scale AI+Surge AI」雙方優勢的頂尖存在。
成立於2019年,總部位於上海的澳鵬資料,是Appen在中國投資,由本土管理團隊創立並獨立營運的領先資料公司。
它既有Scale AI在自動駕駛和多模態資料上的深度佈局,又有Surge AI的高品質標註和垂類精細化服務。
比起另兩家,澳鵬更深諳中國市場的脈搏,提供全球化資源與本地化交付的無縫銜接。
早在2023年,澳鵬營收就已超越國內業內友商,一騎絕塵成為中國資料服務「黑馬王者」。
今年上半年,澳鵬營收已達到3.06億元人民幣,約等於2020年全年的10倍,毫無疑問是國內規模第一大的AI資料服務提供商!
這一「逆襲」並非偶然,而是五年耕耘的厚積薄發。
回顧其增長路徑可以看到,澳鵬精準把握了三大關鍵市場機遇節點:
2020-2021年:智能語音
2022-2023年:自動駕駛
2024-2025年:大模型
2020-2021年,澳鵬資料恰恰抓住了傳統AI業務的爆發期。
當時,語音識別、圖像標註需求井噴,澳鵬憑藉全球資源網路和本土化團隊,迅速打下了基礎。
其營收從2020年3000+萬起步,到21年翻了五倍,達到了約1.6億元。
到了2022年-2023年,自動駕駛技術的快速崛起,成為澳鵬資料的第二個增長引擎。
通過與中國十大自動駕駛頭部公司深度合作,澳鵬營收在此期間持續翻番,2023年達到近2.44億元。
2024-2025年,澳鵬趕上了大模型的發展,並提早佈局了垂類大模型。
從ChatGPT到DeepSeek,大模型不僅重塑了全球AI競爭格局,而且給資料服務行業帶來了前所未有的發展機遇。
2024年,澳鵬中國的年增長率達到70%以上,其中大模型和生成式AI相關業務增長率更是高達500%以上。
2025年上半年,乘著國內AI行業爆發的東風,澳鵬資料營收再創新高,背後主要靠五大引擎驅動:
1. 結構性增長紅利
產業重心由「模型競賽」轉向「應用落地」,高品質垂類資料需求持續釋放、優先順序上移。
2. 供應商集中化趨勢
在降本增效下,頭部客戶收斂供應鏈;具備綜合能力的服務商承接高難度、高複雜度、高安全項目,集中度提升。
3. 出海資料服務突破
中國網際網路企業加速出海,合規與本地化需求激增。澳鵬依託菲律賓、馬來西亞、越南、歐洲等交付網路,海外業務佔比近40%,提供多語種、跨文化、合規方案。
4. 冷啟動資料產品化機遇
大模型迭代越來越快,成品資料集需求增長。澳鵬把資料做成模組化、可組合的高品質資料產品,大幅縮短客戶開發周期並維持較高毛利。
5. 高端資料資源與服務壁壘
前瞻佈局高端人才與平台(如醫療專家、專業音樂人、競賽獲獎者等),聯動技術平台與十大垂類能力,支撐大模型訓練與評估——高品質資料正在決定模型能力上限。
面對這些前所未有的機遇,澳鵬究竟做了那些事兒,才能在激烈的競爭中脫穎而出?
五大平台,技術行業領先
在技術浪潮之巔,澳鵬始終以前瞻視野構築長期技術壁壘,用創新驅動行業變革。
國內首創 端到端 通用預標註大模型,結合項目級微調,實現自動化資料標註迴環,效率提升25%。
首創採集-標註-質檢-交付一體化流程,減少冗餘儲存,提升資料處理效率30%。
從「第一性原理」出發,澳鵬重構了「資料工程」。
核心是自研的行業級預標註大模型:理解上下文、先行完成高精度初篩。
隨後,人類專家只處理「最難的5%」——歧義樣本、邊界樣本與規則衝突。
最終,修正結果回流,再次最佳化模型參數,形成「預標註—人工修正—模型最佳化」的閉環。
這一模式將資料標註效率提升數倍,同時極大降低了人力成本與主觀誤差,實現了效率與精度的雙重飛躍。
AI前沿賽道迭起,大模型、具身智能、自動駕駛……
這些領域對資料的要求,更加苛刻:要質、要量、要多維度,全都拉滿。通用工具,自然跟不上。
對此,澳鵬重金自研,搭起覆蓋多領域的行業級平台矩陣:
MatrixGo、MediGo、RoboGo、AI Agent,以及大模型智能開發平台——各管一攤,又能協同作戰。
比如,大模型這條線,提供從多模態資料清洗 → SFT指令微調資料建構 → RLHF偏好標註與評估。
針對具身智能,機器人的「手眼腦」協調訓練,需要資料作為「燃料」。
多感測器融合標註、複雜動作軌跡標註、多模態思維鏈標註……澳鵬RoboGo平台一站式搞定,而Scale AI甚至沒有相關業務。
AI+醫療應用場景更加專業。
MediGo平台內建智能標註、多模態融合與私有化部署,為醫療大模型與應用提供高精度、合規、安全的資料底座,覆蓋診療、問診/導診、健康科普等八大核心場景。
如今,企業級高精度資料生產平台MatrixGo,已實現一條鏈打通,加速迭代,穩步最佳化。
就自動駕駛領域來說,需求更是多樣:雷射雷達(LiDAR)3D點雲、高精地圖要素提取、4D時序標註……
澳鵬嚴格對標L4+級安全標準,支撐高階智駕演算法的落地。
不僅如此,他們還正積極研發下一代資料生產智能體,自主進行資料採集、清洗、標註、擴增生成高品質的資料集。
值得一提的是,澳鵬工程團隊始終秉持「天下武功,唯快不破」的理念,展現出強大的工程化落地實力:
堅持每周至少迭代更新一次產品;
確保能以最快的速度,將最新的技術成果轉化為可用的產品功能。
不難看出,在技術上,澳鵬始終穩居行業前沿。
此外,在成品資料集方面,澳鵬提供800多個專業資料集,包含近10萬小時的音訊資源、50多萬幅圖像和超過一億字/詞的文字資料,涵蓋80多種語言和方言。
在高難度資料集上,通過龐大的領域專家網路,澳鵬嚴選了1000+個來自不同細分專業領域的行業專家,建構了超10萬條高難度思維鏈資料集,覆蓋數學、電腦、物理、化學、生物、人文科學等學科。
在這些資料的助力下,有客戶模型性能較公開資料基線,提升了40%。
這也是他們未來發展的底氣所在。
AI下半場:高品質資料是關鍵
當前,AI產業正處於一個「超級周期」之中,大模型技術如潮水般湧現。
一直以來,Scaling Law並未失效,也並未放緩。
只要肯砸算力,喂給模型足夠多的高品質資料,LLM能力隨之增強,幾乎沒有天花板。
據Our World in Data統計,從2010年-2024年10月,AI訓練資料量(紫色)約每9-10個月翻倍。
特別是,LLM的訓練資料集,自2010年以來每年增長3倍。
2019年,GPT-2訓練大約用了40億token;2023年,GPT-3則擴展到3000億token;甚至外界推測,GPT-4用了13兆token。
可以看到,LLM訓練所需的資料規模,早已從傳統的TB級躍升至PB級,甚至幾乎耗盡了網際網路上的公開資源。
統計顯示,AI資料中心市場規模,預計到2032年將達789.1億美元,年複合增長率24.5%。
隨著AI競賽的全面升級,「賣鏟子」的三巨量資料服務商集體迎來「暴富」時刻,估值直線飆升——
- Meta砸143億收購49%股權後,將Scale AI估值推至290億美金;
- Surge AI尋求10億美元融資,目標估值超250億美元;
- Mercor目前就C輪融資進行談判,估值超100億美元。
左右滑動查看
這些鮮活的案例,恰恰凸顯了資料,在AI生態中的王者地位。
資料「黑洞」,正無限放大
NeurIPS 2024大會上,Ilya直言,「預訓練時代即將結束,網際網路資料枯竭,不會繼續增長」。
這一預測,曾一度引爆熱議。但現實中,AI資料真的枯竭了嗎?
顯然不是。在澳鵬資料採訪中,澳鵬資料田小鵬博士的一句話有力地回擊了這一點:
AI缺的不是資料,而是高品質的資料。
現實中,依然存在大量資料未被有效利用。這些資料經過清洗和加工,可進一步作為訓練資料,特別是多模態和領域專業資料。
通用AI歸根結底,是為人類服務,必須滿足不斷變化的資訊需求。對於普通人而言,近期資訊需求遠高於遠期,這就要求LLM持續接受最新訓練資料。
就如同算力一樣,AI對資料的需求並未減弱,但行業正迎來轉型升級——在規模、質量、複雜度上,發生了巨變。
傳統深度學習僅需要GB到TB級的資料,而到了LLM時代,早已達到了PB級資料。
其次,資料質量的要求,也在水漲船高。早期的95%精準率已不足以滿足需求,如今在專業領域,如量子力學、醫療健康,標註精度需達到99.5%以上。
此外,多模態資料融合,也成為了主流趨勢。
從過去的2D/3D標註擴展到包含時間維度的4D標註,以及文字、圖像、音訊、視訊協同處理,複雜度增加。
這些都對資料服務商的技術能力提出了更高要求。
面對這些新挑戰,澳鵬主要採用了三大招:
1. 前瞻性技術佈局與產品化能力
2. 高度靈活的智能化平台
3. 專業化人才網路與精準匹配機制
澳鵬提前研發並儲備新興資料生產平台,比如GUI軌跡採集、多模態標註工具、具身智能平台;通過即插即用的模組化產品設計,支援快速部署與靈活適配,顯著提升資料服務效率。
同時,澳鵬建構了標準化成品資料集(如程式碼、高難度題庫等),大幅縮短各細分領域模型的開發周期。
而澳鵬智能化平台,既可快速響應多模態、多場景的標註功能需求,又注重對業務規則的敏捷迭代和精細化管理能力。
這就確保了對於複雜需求的項目,澳鵬能高效、精準地落實和交付。
此外,澳鵬建立了覆蓋多領域的專家資源庫和人才標籤體系,實現了人才與任務需求的智能匹配。
尤其是,在醫學等高壁壘垂類,澳鵬精準調度具備相應資質的專業人員,保障資料交付的質量與專業性。
模型評估>訓練,資料質量>規模
今年4月,OpenAI的研究科學家姚順雨判斷:
AI進入下半場,評估比訓練更重要。
在多個基準上,AI早已超越絕大多數人類——然而世界並未因此巨變,至少從經濟學和GDP維度來看如此。
姚順雨將此稱為「效用困境」(utility problem),並視其為AI領域最至關重要的課題。
他認為,AI下半場的玩家將通過將智能轉化為實用產品,打造價值億萬美元的企業。
這是資料行業的巨變:資料質量比規模更加重要!
根據最新資料,截至2025年6月,中國已建設超過3.5萬個高品質資料集,總體量超過400PB,甚至高品質資料集的建設已上升為國家戰略。
通用大模型的發展,給各垂直領域的AI應用提供了可能,即便是OpenAI也逐漸把目光投向了程式設計等具體領域。
醫療、法律、金融等專業領域的資料標註需要行業專家參與,標註精準率要求從95%提升至99.5%以上。
預計到2028年,醫療健康資料要素市場規模將突破250億元,工業製造領域達302億元。
這就出現了「資料荒漠」與「資料綠洲」並存的現象:
通用資料面臨瓶頸,但高價值垂類資料開發程度仍低。
在許多垂直場景中,缺的是高品質資料,比如自動駕駛極端事故資料,醫療資料難以從公域獲取等。
而「合成資料」恰恰可以填補部分市場空白。
舉個栗子,輝達開放原始碼的基礎「世界模型」Cosmos,可以合成自動駕駛需要的部分資料。很多場景,缺乏的不是資料,而是高品質資料。
在部分場景,真實資料和合成資料可以相輔相成,甚至完全依賴合成資料,比如遊戲中的圖片等。
但合成資料總是帶有某種假設,無法顧及到一些特殊情況等,而關鍵行業不容有失。
目前,絕大多數應用場景,還需要用真實資料來訓練AI,要想提高性能,要通過專業人士來生產資料,從而賦能模型。
事實上,現在的資料行業對專業要求越來越高,本科早已不能滿足資料行業的需求,一些企業開始招聘博士去構造訓練資料!
國內的AI資料服務行業,也從人力密集型行業轉型升級為技術密集型行業。
為了應對挑戰,除了開發MatrixGo等五大技術平台外,澳鵬同樣組建了由行業頂尖專家領銜的垂類團隊:
醫療團隊擁有500餘名醫學專家,其中15%持有執業醫師資格;
金融團隊300多名專家覆蓋金融、保險、基金等領域,70%成員具備從業資格認證;
程式碼團隊120餘名全職工程師,覆蓋主流程式語言;
法律團隊由執業律師和法學專家組成;
數理團隊由全國競賽獲獎者組成;
音樂團隊擁有500餘名兼職音樂人;
多語言團隊涵蓋200+種語言;
TTS團隊擁有全球數十個國家、數千小時採集經驗;
文學團隊匯聚985/211高校人才;
美學團隊則由50餘名專業設計師構成。
醫療是資料門檻最高的賽道之一:多群體代表性、合規紅線、周期/成本壓力並存。
為此,澳鵬用「平台+專家」雙軌方案破題:
資料工程平台整合智能標註、多模態融合及私有化部署能力;
專家網路確保標註精準率逼近臨床級要求。
全程嚴格對齊GDPR、ISO等標準,並通過標準化SOP把項目周期縮短30%—50%。
結果是,更快、更準、更合規的醫療AI資料底座,加速產品落地與國際化部署。
AI的未來,資料的未來
過去,外界乃至AI業界往往聚焦於演算法、算力突破,卻對資料行業抱有諸多刻板印象和誤解。
許多人會認為:資料行業沒前景、「資料荒漠」馬上來了、資料標註沒有技術含量,只是體力活......
實際上,事實遠非如此。
這個行業正以兩位數年增長率迅猛前行,而澳鵬資料作為領軍者,更是連續6年保持增速,一舉拿下中國市場份額第一的「寶座」。
曾經的那些誤解,早已站不住腳:無技術平台寸步難行,純人工無法應對複雜需求。
技術平台、資料工程能力,早已成為行業的核心競爭力。
如今,AI正在由感知走向認知與推理,能力從2D靜態識別擴展到4D時空建模,實現多模態融合。
隨之而來的是,資料與算力的數量級提升,質量、可追溯與精細化成為剛需。
一旦自動駕駛、醫療等場景取得有效突破,就能在全球快速複製、鋪開應用。
要支撐這一處理程序,需補齊兩類基礎設施:
面向世界模型的高置信度物理世界資料,以及支援企業與個人安全對接的多模態內容平台。
資料行業由被動供給,轉向共建認知體系與評測標準。
依託全球資源網路、平台化研發與AI原生流程改造,在AI浪潮中澳鵬將持續突破。
展望未來3-5年,澳鵬資料戰略重點清晰:深化全球資源網路、垂類深度,以及平台產品化的轉型。
而他們下一個目標是:中國區2030年前營收超20億元。
採訪中,澳鵬全球高級副總裁、大中國區及北亞區總經理田小鵬博士認真分享了指引其未來的三大原則。
首先,資料服務要全球化,以合規的方式完成資料交付。這不僅是風險防控,更是企業出海的競爭力。
其次,要經營客戶的廣泛度和複雜度,建立真正的護城河。
也就是說,不止要做資料標註者,更要做資料諮詢師,提供超出標註的增值服務,如模型評估和流程最佳化。
最後,要建設好平台。依靠「技術+人力資源」雙平台,澳鵬提供比友商更有競爭力的服務。
只要繼續堅持原則、保持過去的增速,在澳鵬看來,下一個20億的「小目標」絕非空談。 (新智元)