#標註
資料標註,是AI界的“富士康”?
“資料標註的價值,可能被低估了。在人工智慧的金字塔底部,有一群人正在默默為演算法添磚加瓦。他們不是科學家,不寫程式碼,卻決定著AI是否能“看懂”世界。從自動駕駛識別紅綠燈,到語音助手分辨你的口音,再到醫療影像裡的每一處陰影,背後都藏著無數次滑鼠點選與像素描邊——這就是資料標註,被稱作“AI界的富士康”。今年6月,Meta創始人祖克柏豪擲143億美元收購資料標註公司Scale AI,28歲的創始人Alexander Wang一夜之間躋身百億富豪之列,資料標註這個近年來才嶄露頭角的“AI幕後推手”,漸漸站到了大眾視野下。資料標註被很多人稱為“人工智慧界的富士康”,但它真的只是勞動密集型代工的行業嗎?在171億美元的市場規模背後,誰在主導?利潤又將流向何方?盛宴與格局:171億美元市場的版圖資料標註,就是對未經處理的原始資料加入說明、解釋、分類或編碼的過程,以便資料可以被人工智慧演算法所理解和使用。根據Grand View Research的報告,全球資料標註市場預計到2030年將達到171億美元,是2024年規模的五倍以上。隨著自動駕駛、智能醫療、語音識別等領域的蓬勃發展,資料處理需求持續攀升。北美仍是最大市場,而亞太地區則被預測為增長最快的區域。來源:Grand View Research 2024資料標註行業報告在產業鏈中,狹義的“資料標註”指具體的人工操作,而廣義的“資料標註服務”則覆蓋了從資料獲取、平台研發到交付實施的全過程:·上游:資料需求方(如自動駕駛模型開發公司),多位於資本密集的發達國家和一線城市;·中游:資料標註平台提供商,負責技術研發、自動化解決方案與交付,科技含量更高;·下游:第三方服務商,組織人工標註人員在人力成本較低的地區開展作業。因此,大眾眼裡的“富士康”印象,來自於狹義的資料標註定義,屬於人工展開標註操作的下游環節,且多分佈在人力成本較低的地區。但在資料質量驅動下,該環節正被技術與自動化重塑。整體來看,歐美國家掌控上中游高端環節與核心技術,2024年佔全球市場約35%份額。在全球前30家資料標註服務商中,美國獨佔18家。憑藉成熟的產業生態、高效的AI演算法和自動化標註工具,美國深刻影響著全球人工智慧產業格局。相比之下,亞太地區憑藉人口紅利和成本優勢,成為產業鏈下游的主力。外包服務增長迅速,更多發達國家的企業將人力密集的標註環節轉移到勞動力成本更低的地區。不過,這些國家需在語言、資料安全與法規上與發包方保持一致和暢通,才能真正吸引投資。以印度為例,已湧現Infolks、iMerit、Playment等知名資料標註公司。據印度軟體協會(NASSCOM)調查,目前印度超過80%的資料標註員來自農村和小城鎮。預計到2030年,印度資料標註從業勞動力將達100萬人,產業規模達到70億美元,這得益於其在多語種語音資料標註方面的優勢。全球競技地圖:美國技術領先,歐洲重合規,亞洲快速追趕當人工智慧的舞檯燈光聚焦在模型與算力時,資料標註這個“後台工種”正從陰影中走出。它既是AI訓練的原料廠,也是產業競爭的第一戰場。過去十年,標註行業從手工操作走向自動化、從人力密集轉為技術密集,規模、模式與價值鏈位置都發生了深刻變化。如今,這場看似沉默的產業盛宴,已在全球範圍內影響AI的成本結構與利潤流向。而不同國家和地區,也呈現出顯著不同的發展特點。1. 北美:掌握產業鏈高端的技術革新者北美,尤其是美國,是全球資料標註賽道的"頭號玩家"。這個寶座並非偶然——技術創新、政策扶持與專業服務,共同構築了其護城河。Scale AI、Mighty AI等領頭公司,就是在政策與資本的推動下迅速崛起。來源:Grand View Research 2024資料標註行業報告政策層面,美國在2016年就將資料標註視為AI基礎設施建設的重要組成部分,並寫入《數字經濟戰略》。隨後的《聯邦資料戰略2020年行動計畫》強調資料開放、隱私保護與跨部門協作;而2025年發佈的《美國人工智慧行動書》中,更系統地提出了“高品質資料標註與人才培養”的政策要求。在技術實踐方面,美國企業普遍在自動化標註技術上處於領先。例如:·自動標註:利用AI模型自動識別對象並加入標籤;·預標註:系統完成初步標註,再由人工覆核最佳化;·智能預測:基於已有資料規律,推薦新資料的標註方式。這些技術不僅顯著提升了標註效率,也推動人工角色從基礎的“標註工”向“質檢員”與“演算法訓練師”轉變。作為行業代表,Scale AI的轉型路徑頗具典型性。該公司早期依賴上千家海外外包商完成資料清洗與標註,後因在菲律賓、肯尼亞等地陷入勞工爭議而備受質疑。近年來,為適應高品質資料需求,Scale AI大力推動人才結構升級。據Bloomberg報導,其標註團隊中已有超過40%成員擁有碩士、法學或MBA學位,更有12%具備分子生物學等領域的博士學位,專注於自主演算法研發與模型精細化調優。與此同時,一股"虛擬資料"風暴正在襲來——合成資料技術通過AI生成帶標註的虛擬樣本,既保護隱私又擴充資料,特別適合醫療影像等敏感場景。Gartner預測,到2024年,AI項目中60%的資料將是"合成製造";到2030年,這個市場規模將飆升至23.4億美元。如今,Scale AI、澳鵬等行業巨頭都已在這場"虛擬盛宴"中佈局落子。更值得關注的是,專業化分工正在重塑行業格局。在醫療、農業、藥物研發等領域,標註服務正在走向"量身定製":·農業模型依賴衛星圖像、土壤與氣象資料的精準標註以最佳化作物預測;·藥物研發需通過生化分子互動資料標註加速新藥發現流程。這些任務均要求標註人員具備紮實的領域知識。相應地,在醫療等細分賽道,Centaur Lab、Cogito Tech等企業已建立起由領域專家、從業者及研究人員構成的高水平標註團隊。這清晰表明,行業競爭壁壘正逐漸從“資料規模”轉向“知識深度與質量保障”。2. 歐洲:嚴苛法規下的本地化創新歐盟歷來是資料隱私與倫理的“規則制定者”。自2018年《通用資料保護條例》(GDPR)落地,資料跨境流動的門檻便被大幅抬高;而2024年8月生效的《歐盟人工智慧法案》更進一步,對高風險AI系統層層加碼,築起監管高牆。嚴規之下,歐洲企業反而“危中尋機”,探索出合成資料生成、內部資料共享框架等創新路徑。歐盟也順勢推動健康、交通、農業等行業資料空間項目,鼓勵資料“就地標註、區內循環”。以德國公司Macgence為例,它打出“資料駐留德國/隱私優先”的合規宣言,堅持本地化收集與處理,成功規避跨境資料流動的潛在風險。這套模式正獲得市場認可——歐洲境內資料標註市場預計到2033年將擴張至16億美元,2026-2033年複合增長率高達15%。歐洲內部市場亦呈現多元格局,因此,制定本地化戰略對於在整個歐洲大陸持續取得成功和保持競爭優勢至關重要。·西歐(德、法、英)憑藉完善基礎設施、高素質人才與成熟監管,穩坐產業樞紐,有更多跨國巨量資料服務公司在此設立總部;·中歐與東歐以成本優勢和不斷升級的物流網路,吸引越來越多投資;·北歐聚焦綠色與數位技術,走可持續發展路線;·南歐則在消費導向型市場中嶄露增長潛力。歐洲各資料標註公司以“小而精”的規模,打開不同地區的專有模式。此外,歐洲在價值觀層面同樣樹立起高牆,強調“以人為中心”,明令資料標註必須避免性別、種族等偏見。GDPR明確規定,涉及個人特徵的資料須通過偏見檢測與倫理審查。對意圖進入歐洲市場的企業而言,對齊法規與文化價值觀,已是一張不容討價還價的“入場券”。3. 亞太:從“代工廠”到“解決方案夥伴”回到開頭的問題:資料標註真的是“人工智慧界的富士康”嗎?從歐美的轉型可以看出,行業正逐步走向自動化與專業化,人工標註的替代性日益提高,低價競爭的利潤空間被持續壓縮。資料標註的價值,正在從勞動力密集轉向技術密集與知識密集。“富士康”曾經只是行業的冰山一角,現在更加面臨著轉型升級。來源:越南Sibai資料標註服務公司中國、印度等人口大國,在製造業發達的年代,都曾是產業鏈的下游,利用人口紅利壓低成本,以量取勝。但在今天這個技術更迭更快的年代,人工智慧產業鏈裡的利潤更加傾斜於中上游,轉型成為必然。我們已經看到資料行業在亞太地區的轉型:更多客戶從尋找“代工廠”轉向“解決方案夥伴”。例如,印度資料標註公司Infolks自2016年成立以來,從6人團隊擴建到600餘人。通過開發和利用其專有標註平台“LabelMore”,將資料標註從純粹的勞動密集型工作轉變為技術增強型流程,業務擴展到了自動駕駛汽車、三維點雲、醫療科技、航空、體育科技等領域。越南也不再滿足於“外包工廠”的角色。本土公司如Tektra正展現其提供系統化解決方案的雄心,業務覆蓋資料工作流全環節。然而,人才英語能力與教育水平仍是其必須面對的現實瓶頸。中國:邁向高端資料基礎設施建設中國在2017年發佈《新一代人工智慧發展規劃》,確立了“以巨量資料驅動AI”的核心方向。隨後的一系列政策(如《國家資料基礎建設指引》《資料要素X三年行動計畫》)推動了資料流通、人才培養與合規體系建設。在跨境資料流動上,2024年出台的《促進和規範資料跨境流動規定》與此前的《資料出境安全評估辦法》《個人資訊出境標準合同辦法》等,共同構成了企業“出海合規工具箱”。其中,成都、瀋陽、合肥、長沙、海口、保定和大同市被列入資料標註基地建設的城市名單。在七個基地的牽引帶動下,北京、天津、廣東、湖北、貴州、陝西等20多個省市正在配合、發展資料標註產業,並且跟各巨量資料標註大廠合作成立資料標註基地。行業層面,中國自動駕駛領域的快速發展正催生海量標註需求。例如百度阿波羅資料集已積累超1000萬公里駕駛資料,用於模型訓練與最佳化。未來,隨著“東數西算”戰略推進,國內資料標註體系將更加內循環、高品質、專業化。縱觀世界資料標註市場的變化,中國在資料標註產業上必須將優勢從單純的低成本擴展為更高端的競爭力:·人力資源與多語言適配能力:龐大的本地標註團隊能夠快速處理多類型、多語言的資料,並保證文化與語境的精準性;·技術與效率結合:AI輔助標註、半自動化流程和成熟的質量控制體系,使大規模資料標註既經濟又高效;·快速迭代與專業能力:在自動駕駛、語音識別和自然語言處理等領域積累的經驗,使企業能夠針對不同場景最佳化標註標準與流程。中國目前也湧現了一大批資料標註的代表性企業,比如海天瑞聲、資料堂、百度眾包、雲測等資料服務公司。截至2023年,資料標註相關服務企業已經達到了1123家,預計在未來相關企業數量會繼續增長。來源:2025資料標註產業發展研究報告資料標註行業的故事,可能被低估了。它不像大模型那樣耀眼,也不像算力競賽那樣喧囂,但每一次AI浪潮的背後,都是無數標註樣本在支撐演算法的“世界觀”。當人力不再是主要變數,標註行業的競爭正在轉向效率、質量與領域深度。自動化、合成資料、垂直知識庫,這些詞彙聽起來冷冰冰,卻正決定未來AI的智能邊界。曾被比作“AI富士康”的資料標註工廠,正在脫胎為AI基礎設施的一部分。在AI世界裡,標註從不是主角,甚至不是“男二號”,但在這場快速演進的產業變革中,它也應該擁有姓名。 (資料猿)
他,37歲華裔,靠AI成為福布斯400最年輕億萬富翁,身價180億美金!
一個從Google「打工人」走出的數學怪才,靠著自掏腰包創業,五年把公司做到營收超12億美元,估值300億美金。他討厭矽谷的浮誇,卻意外登上《福布斯400》富豪榜,成為最年輕的成員。紐約,第九大道上奢華的三層星巴克臻選烘焙工坊。Edwin Chen點了一杯綠茶,因為他覺得在這裡點咖啡太浪費時間。37歲的他,剛剛成了美國《福布斯400》榜單裡最年輕的億萬富翁,身價高達180億美元!但Edwin Chen是個怪人——他拒絕VC融資,靠著自己在Google打工的積蓄打造出一家估值300億美元的AI資料標註公司Surge。他希望讓AI真正學會「人類的複雜性、人性的豐富性」,他請史丹佛、普林斯頓和哈佛的教授來訓練AI。他持有Surge 75%的股份,但依舊每天穿平價的T恤、每天堅持步行2萬步,還是一名素食主義者。這是一個用自己方式改寫AI產業規則的人。福布斯美國400富豪榜Forbes 400(福布斯美國400富豪榜)是美國福布斯雜誌(Forbes)每年發佈的榜單。專門列出美國境內最富有的400位個人,按其淨資產(net worth)從高到低排名。如果按照年齡排序,37歲的Edwin Chen是新晉的最年輕億萬富翁。有意思的是,緊隨Edwin Chen之後的Lukas Walton是沃爾瑪創始人山姆·沃爾頓的孫子,2005年其父約翰·沃爾頓因飛機失事去世後,他繼承了大筆遺產,在福布斯400榜單上,他的淨資產為398億美元。而如果按照淨資產的排序,排名前15的最年輕富豪是Google的兩位創始人,拉里·佩奇和謝爾蓋·布林(52歲),以及馬斯克(54歲),但沒有一個人是40歲以下,年齡最大是巴菲特(95歲)。福布斯自己都認為,美國最富有的人群也往往是年紀最大的。過去25年間,福布斯400富豪榜成員的平均年齡從61歲攀升至70歲,比39歲的美國人平均年齡整整大了三十歲。在福布斯400最新的榜單中,Edwin Chen甚至還沒有頭像(目前)。低調到「無人認識」的AI億萬富翁Edwin Chen此前如此低調,以至於即使Scale AI的Alexander Wang被Meta重金收購時,他的名字也沒有「浮現」在媒體中。但隨著Scale AI引發的對資料標註的關注度,Edwin Chen如今這位福布斯400富豪榜最年輕的成員,正準備走出幕後發出自己的聲音。福布斯的記者Phoebe Liu對Edwin Chen進行了一次專訪,揭開了這家另類資料標註公司Surge背後的故事。福布斯400最年輕成員Edwin Chen曾在Google、臉書和推特(現在的X)任職,在AI革命的浪潮中悄然創立了資料標註公司Surge。Phoebe Liu在紐約的星巴克對Edwin Chen進行了兩個多小時的專訪,以下是訪談全文,略作刪改。在曼哈頓公寓裡用整個上午審閱資料集、研讀論文並偵錯尖端AI模型後,Edwin Chen信步走向第九大道上的星巴克臻選烘焙工坊。身著Vuori藏青色T恤,肩挎虎紋帆布托特包,Edwin Chen走下樓梯坐在暗角卡座。這位資料標註與AI訓練公司Surge AI的創始人兼CEO啜飲著小杯綠茶。Edwin Chen聊天時連珠妙語:從矽谷文化(他深惡痛絕)到競爭對手(全是人力外包作坊);再到若外星人造訪地球時的人類互動方式,「他們不說英語,該如何溝通?如何破譯其語言?或許能通過某種數學方式實現。」這一困境也在他最喜歡的短篇小說——科幻作家特德·姜1998年的作品《你一生的故事》中有所探討。該小說後來成為電影《降臨》的藍本,講述了一位語言學家通過識別外星人語言和文字中的模式與之交流的故事。Edwin Chen表示,這也是他在2020年創立Surge的部分靈感來源,他希望自己的資料標註公司能夠編碼「人性的豐富性」。對他而言,這意味著讓最聰明的人類(包括史丹佛、普林斯頓和哈佛的教授)來訓練AI,將他們的專業知識轉化為支撐大語言模型的0和1程式碼。除了這些常春藤聯盟的精英,Edwin Chen還僱傭了來自全球50多個國家的超過百萬名零工工作者,他們負責提出可能難倒AI的問題,評估模型的回答,並編寫幫助AI生成完美回覆的標準。Edwin Chen說,「我真心認為我們所做的工作對所有AI模型都至關重要,沒有我們,通用AI(AGI)就不可能實現」。從未聽說過的最成功的科技企業家Edwin Chen,一位言辭冗長、才華橫溢且性格古怪的人物,或許是你從未聽說過的最成功的科技企業家。這主要是因為他一直刻意保持低調。即使是Surge AI的官網也是同樣的低調,低調到首頁只有一堆文字,沒有酷炫的UI和精緻的互動效果。這位曾在推特、Google和臉書任職的資料科學家避開了傳統的風險投資,七年前離開了矽谷這個「魚缸」,選擇用自己在大科技公司十年積累的「幾百萬」存款來資助Surge公司。「我們自籌資金的原因之一是我一直討厭矽谷的地位遊戲,」Edwin Chen說道,他將典型的由風投支援的矽谷初創公司描述為「快速致富的計畫」。他也討厭籌集大量資金然後不得不花掉的想法。在他看來,這會導致大規模的超額招聘。Surge僅有250名員工,包括全職、兼職和顧問。相比之下,其競爭對手Scale AI的員工數量是Surge的四倍,但收入卻更少。Surge自成立不到五年間,2024年營收已達12億美元,客戶涵蓋Google、Meta、微軟以及AI實驗室Anthropic和Mistral。Edwin Chen透露,公司幾乎從創立首日就實現盈利!基於當前業績,其估值約達240億美元。Surge正以300億美元估值進行10億美元融資談判,目前該輪融資尚未最終落定。Edwin Chen決定使用「自有資金」支援Surge的決策獲得了豐厚回報:他持有的約75%股份估值約180億美元,這足以使他成為今年福布斯美國400富豪榜上最富有的新晉成員。年僅37歲的他,也是該榜單上最年輕的成員。獨特的資料標註模式Surge聲稱其方法不同於舊式的資料標註模式——後者往往僱傭全球欠發達國家的人員,以每小時幾美分的報酬讓他們坐在電腦前區分貓和狗。相反,Edwin Chen的資料標註員(包括專業人士和教授)會遵循一套指令與線上聊天機器人互動。他們可能被要求嘗試誘導聊天機器人輸出錯誤或有毒回覆,然後撰寫更好的回應;或者被要求比較不同AI對同一問題的回覆,並解釋為何某一回覆更優。按收入計算,Surge目前是該行業最大的企業!但包括Scale AI(Meta於6月以140億美元收購其49%股份)、Turing、Mercor和Invisible AI在內的競爭對手正在迅速崛起。一直以來,Edwin Chen都在幕後默默建設他的公司並積累聲譽。一位現任Meta研究員表示,Surge只是不願透露他們的任何工作細節。但隨著行業的發展,Edwin Chen不再滿足於置身幕後。他深切擔憂當今的AI模型被錯誤的目標所最佳化,將使用者引入幻覺兔子洞——這正如他曾在YouTube和Twitter工作時,那些平台的演算法主要被最佳化來追求點選率。他希望Surge能幫助引領AI行業的發展,這意味著他要將自己定位為更具影響力的思想領袖。數學怪才Edwin Chen在佛羅里達州的水晶河(人口3400人)長大,這座墨西哥灣沿岸城市以海牛和退休人士而非科技億萬富翁聞名。他的父母從台灣移民到美國,經營著一家中泰美式餐廳,Edwin Chen少年時期曾在那裡工作。他真正的興趣在於語言與數學之間的關聯。用他自己的話說:我一直對語言的數學基礎很著迷。小時候,他想學習大約20種語言,並且熱愛拼字比賽。數學對他來說很容易,但直到他開始注意到數字中獨特的模式,數學才真正抓住他的想像力。Edwin Chen在八年級就學習了微積分,他表示自己獲得了精英寄宿學校喬特中學(位於康涅狄格州)最後兩年全額獎學金,該校校友包括約翰·甘迺迪和伊萬卡·川普。在修完喬特所有數學課程後,他高三大部分時間都在耶魯大學教授指導下研究任何自己感興趣的課題。隨後他進入麻省理工學院,主修數學,共同創立了語言學社團,並實行多相睡眠計畫——即將睡眠分割成多次短時休息,比如每六小時小睡30分鐘,而非連續八小時的長眠。在麻省理工學院就讀三年後,Edwin Chen在彼得·蒂爾位於舊金山的避險基金實習,並對此非常喜歡,以至於再也沒有返校。完成必修課程後,他申請了學位並於兩年後獲得。隨後,他先後在推特、Google和臉書工作,擔任過涉及內容稽核和推薦演算法的多個職位。在每一個職位上,Edwin Chen都遇到了同樣的問題:難以大規模獲取高品質的人工標註資料。2020年,他離開推特,並於同年創立了Surge。不想上市的創業者Edwin Chen是一名素食主義者,他每天步行兩萬步,並稱在紐約街頭漫步時能迸發出最佳思考。每周一兩次,他會午夜漫步至時代廣場。「我熱愛看到這濃縮的人間百態——百老匯演員、來自世界各地的遊客、夜班工人、藝術家——被燈光、科技與基礎設施環繞。」「為什麼有人會想上市呢?上市公司的一大問題在於它們總是不得不為短期利益而擔憂。」Edwin Chen厭倦了那些「完全是垃圾」的資料標註,這些標註要麼來自報酬過低而不在乎的人,要麼來自缺乏必要文化或政治知識以做出明智判斷的人。Surge希望僱傭那些理解語境並對語言有深刻理解的人。他在業務的其他方面也採取了獨特策略。放棄傳統的銷售與行銷手段,他最初通過自己廣受歡迎的資料科學部落格進行溝通——這個部落格是他在十多年前業餘時間建立的。他表示,Surge的首批客戶正是通過該部落格獲得,但拒絕透露具體名單。已知早期客戶包括愛彼迎、Twitch及其前僱主推特公司。他嘗試直接向科技公司的資料科學家進行推廣,認為這些人能識別Surge資料質量並更願意付費(據兩名研究人員透露,Surge的收費比競爭對手高出50%至十倍)。2023年5月的一個周六夜晚,一位Google研究員經同事推薦致電Edwin Chen。當時Google的Gemini系列AI模形狀況相當糟糕。這通電話持續了兩個多小時。不久後,Google與Surge簽訂了年額超1億美元的合同。AI初創公司往往守口如瓶,但即便在同業中,Surge仍顯得格外神秘。其最大客戶也不完全清楚其資料優勢所在。反過來,Surge及其競爭對手也難以追蹤那些資料最終用於訓練Gemini、Claude或OpenAI的GPT模型。Surge拒絕透露其項目人員匹配機制、資料收集方式及標註流程。客戶支付數百萬美元後,獲得的僅是一個資料集連結。這使得Surge能夠通過隱藏測試、由評分更高的標註員進行人工稽核,以及最佳化表現且可能相當對抗性的機器學習演算法,更密切地監控標註員的表現。Edwin Chen堅持認為,Surge的質量控制和深厚的技術專長是其秘密武器。AI不再依賴人類進行資料標註的那天對於Surge這類企業而言,存在一個根本性問題:隨著AI技術的進步,是否會有一天不再需要人類進行資料標註?據Meta研究人員透露,今年四月發佈的Llama4等模型已大量依賴AI自主生成和標註資料——即所謂的合成資料。Surge採用了一種人機協同的變通方案:由AI生成資料並自行標註,但由人類評估其表現。Edwin Chen堅信人類不可或缺。他指出當人類與AI協同工作時,所能達到的成就遠超任何單方的獨立成果。但即便人類保持參與,若行業更注重機器自我訓練,仍將影響其盈利空間——因為訓練成本將大幅降低。 (新智元)