給AI公司“打雜”,95後華人把估值做到138億美元


AI時代的賣鏟人不止輝達。

在舊金山的 Showplace 廣場,一棟曾經屬於Airbnb的商業大樓最近迎來了新主人。在大部分科技公司都在業務收縮的當下,Scale AI,這家由95後華人創立的人工智慧資料標註公司,大手一揮租下了舊金山市中心約18萬平英呎的辦公室。

就在不久前,Scale AI完成了最新一輪10 億美元的融資,估值達到138 億美元,比上一輪的73億美元再翻了一倍。在這輪由矽谷頂級基金Accel領投的F輪融資中,除了YC、輝達等現有投資者之外,還加入了一長串的新投資者名單,包括:亞馬遜、Meta、AMD、高通、思科、英特爾、高通等等,參與機構高達22個。

而這些巨頭投資Scale AI的出發點大多相似——它們基本都是Scale AI的客戶。在AI飛速發展的當下,資料標記,這個看似簡單無趣、勞動密集的低門檻業務,卻被Scale AI一步一步地做成了一個大生意。


AI“藍領工廠”

在過去的一段時間裡,提起“AI賣鏟人”,輝達無疑是被提及最多的公司。但很多人不知道的是,Scale AI也扮演著同樣的角色。眾所周知,算力、演算法和資料構成了人工智慧的三大支柱,輝達佔據著AI算力的山峰,Scale AI則是當前為AI提供資料支撐的最主要服務商。

Scale AI 成立於2016,其創始人是生於1997年的華人Alexandr Wang,創立公司時年僅19歲,在MIT剛讀完大一。Scale創立之初主要專注於人工智慧資料標註,核心業務是幫助企業收集、清理、標註、以及管理大規模的高品質資料,以便訓練和最佳化機器學習模型。

實際上,在Scale AI崛起之前,資料標註在AI領域實際上長期處於“邊緣”位置。所謂的資料標註,是指為圖像、文字、視訊或音訊等原始資料新增結構化資訊,以便機器學習模型能夠理解和學習這些資料的過程。聽起來好像很複雜?但其實這是個小學生都能做的事情,比如給你一張圖片,讓你標出圖片中的行人、車輛、建築等,給你一段文字,讓你標寫那些感嘆句、那些是疑問句,給你一段語音讓你打上情緒或說話者身份標籤等等。


圖源:Shaip


雖然原理很簡單,但這些經過標註的資料對於人工智慧的發展不可或缺。AI模型需要大量的標註資料來進行學習,才能具備識別、分類和預測等功能。

但讓眾多AI公司頭疼的地方是,儘管一些自動化工具可以加快部分標註過程,但為了得到高品質、高精確度的標註資料,仍然需要大量的人工來處理、標記和驗證資料。特別是在高精度要求的領域,如醫學影像、自動駕駛或軍事應用,錯誤標註可能會導致嚴重的後果。也正因如此,資料標註被認為是一個勞動密集型業務,很多公司不願意也沒有精力去自己管理,導致標註資料的獲取的過程既耗時又昂貴。

Scale AI攬下了這個“辛苦活”。Scale AI 的早期定位是要通過結合自動化技術與人力稽核,建立一個高效、精確的標註平台,幫助企業快速處理和標註大規模的資料集。它的業務模式很簡單:接洽到有標記需求的公司,對資料進行簡單的預處理和清洗之後,將其外包給非洲、東南亞等勞工對資料進行標記。

2017年,Scale AI 成立了 Remotasks 作為其內部外包機構,在肯亞、菲律賓、委內瑞拉等地設立了幾十家機構,在各地培訓了成千上萬的資料標註員,這些標註員的工作大部分都是按件計酬,一次標註的收入低至幾美分,很多合約工在時薪甚至不到1美元。而在這樣的“全球工廠”模式下,Scale AI的毛利率卻能長期保持在65%以上。

踩中每一次風口

雖然資料標註看上去是一個低門檻的業務,但在2016年前後的“AI沉寂期”中卻幾乎是一個市場空白,只有Google、亞馬遜等一些大公司有自己的資料標註部門。而Scale AI 的成功很大程度上得益於它精準地洞察到了這一機遇並且抓住了近10年來人工智慧行業發展的幾次風口。

首先是自動駕駛。在Scale AI成立幾個月後,他們就發現了自動駕駛領域對於資料標註的大規模和剛性需求。自動駕駛技術的發展依賴於大量高精度的標註資料,例如道路場景、行人和其他物體的圖像資料,車企需要成千上萬小時的視訊資料進行標註來訓練和驗證其演算法,就整個自動駕駛行業來看,當時90%以上的資料標註都是以人工為主。Scale AI 通過高效的資料標註平台,以及使用模型輔助標註和資料預處理來加速資料處理流程,進而大幅降低了標註成本和時間,吸引了當時風頭正盛的Waymo、Cruise等企業成為了它的客戶,進而逐漸在自動駕駛資料標註領域站穩腳跟。


圖源:Scale AI


在自動駕駛領域初嘗甜頭之後,Scale AI開始全面進軍AIaaS(AI 即服務)市場。它從單純的資料標記延伸到資料服務,提供從資料標記和管理、模型訓練和評估,再到AI 應用開發和部署的全流程解決方案。

此外,為了應對某些行業資料不足的挑戰,Scale AI還向下游延伸到合成資料的生成,通過從現有資料中建立新的資料集,幫助訓練模型。於是在之後的幾年裡,Scale AI在資料領域迅速崛起,客戶也擴展到了醫療、國防、電商、政府服務等領域。在成立兩年多之後,Scale AI的營收已經接近5000萬美元。

Scale AI還精準地把握了生成式 AI爆發的機遇。早在GPT-2上,Scale就與 OpenAI 就進行了首次帶有人類反饋的強化學習合作實驗,接著將這些技術擴展到InstructGPT及其他領域。而由於生成式 AI 模型需要海量的訓練資料來提升其生成內容的精準性和多樣性,大語言模型的爆髮式增長極大地推動了整個行業對高品質標註資料的需求,Scale AI 通過整合資料標註、資料合成等服務,為生成式 AI 提供了必要的資料支援。此外,Scale AI還幫助企業快速生成定製化的 API,以減少了自行訓練模型的複雜性和成本。


圖源:Scale AI


針對生成式AI,Scale目前已經推出了全流程的平台服務,包括開發者工具平台 Scale Spellbook、合成資料產品 Scale Synthetic、企業級GenAI平台等,目標是讓企業在每一個場景下都有足夠的資料來支援模型的訓練,憑藉著在資料領域的獨特優勢,過去兩年,Scale AI的客戶激增,既有OpenAI、Meta、AWS、輝達這樣的巨頭,也有Cohere、Adept等這樣的新興獨角獸。而他們中的很多,也在這一輪融資中成為了Scale AI的投資者。

為什麼是Scale AI突圍


關於Scale AI的崛起,很多人都很疑問,對於這樣一個處於AI上游且勞動密集的行業,中國似乎具有先天的優勢,為什麼沒有類似的企業脫穎而出?總體來看,這背後主要有兩方面的因素,一是行業,二是融資。

在生成式AI熱潮之前,國內的人工智慧發展在場景應用方面一度領先,資料標註業務其實很早就起步發展了,但並沒有形成規模。很多龍頭企業雖然成立了資料標註部門,但主要是來為自身業務服務,而並不是尋求將資料與各個行業進行資源匹配。同時,正因為國內的人口紅利,讓標註後的資料獲取成本低廉,也讓企業並沒有動力去採用技術平台。據瞭解,長期以來,國內的資料標註行業的價格都很透明, 時薪普遍在10-25人民幣左右且大多沒有學歷限制。


圖源:Boss直聘


而相較而言,美國人力成本高昂,在LinkedIn、indeed等平台上,資料標註的兼職時薪大多都在30-200美元之間,這在客觀上就要求企業需要從技術的角度去思考解決資料生產問題,或者採購相關服務。

從融資環境來看,國內的資料標註市場一直都處於AI領域的融資邊緣地帶。2021年左右,研究估計中國整個資料標註市場的規模僅為43億人民幣,2022年僅增長至51億人民幣。這個數字相較於整個AI市場的千兆規模無疑不值一提,也造成了資料標註公司的融資困難。2021年,當Scale AI已經完成3.25億美元的E輪融資,估值達到了73億美元時,中國的同類創業公司大部分還停留在A輪。

之所以此前國內的規模如此之小,是因為只是單純考慮了標註這一個環節。而實際上,從資料標註所衍生出來的資料管理、資料評估、資料合成等全流程的資料服務才是這個行業中的增值部分。

關於資料對於大語言模型發展的重要性,Scale AI的創始人Alex Wang在最近的訪談中談到,人們已經用盡了網際網路上的所有資料,想要開發出比GPT-4.5更強大的人工智慧,則必須建構前沿資料。所謂的“前沿資料”是指那些與應用場景密切相關、能及時反映最新趨勢和變化的資料,往往包含大量長尾或少見的場景,有助於提升AI在非典型情況下的表現,推動人工智慧能力的邊界向複雜推理、多模態等方向發展。

隨著AI向縱深發展,未來的資料訓練需要更多地與特定任務、特定應用場景相匹配,因此也需要挖掘和生產出更多新的、差異化的資料,這是Scale AI此輪10億美元融資之後的工作重點,也進一步打開了資料標註的想像邊界。 (創業邦)