Alexandr Wang創辦的Scale AI是一個為AI模型提供訓練資料的資料標註平台,近期完成新一輪10億美元融資,估值飆升至138億美元。該公司表示將利用新資金生產豐富的前沿數據,為通往AGI鋪路。
Scale AI為想要訓練機器學習模型的公司提供資料標註服務,已從亞馬遜和Meta等眾多知名機構和企業投資者籌集了10億美元的F輪融資。
本輪融資由Accel領投,它之前也領投了Scale AI的A輪融資,並參與了後續的風險投資。
這輪融資讓Scale AI的身價飆升。儘管去年年初裁員20%,但該公司目前估值已經達到了138億美元。
除了亞馬遜和Meta之外,Scale AI也吸引了各種新的投資者:思科、英特爾、AMD等創投部門參與其中,許多注資過的公司也回歸了,包括英偉達、Coatue、Y Combinator等等。
Scale AI由Alexandr Wang和Lucy Guo於2016年創立,由著名創業孵化器Y Combinator投資。該公司使用機器學習來標記和分類大量數據,以便客戶用於訓練模型。
Scale AI的客戶包括Meta、微軟、英偉達、OpenAI、豐田和哈佛醫學院。
在創辦人基金領投的1億美元C輪融資之後,Scale AI在2019年獲得了獨角獸的地位,總共從Index Ventures、Coatue、Tiger Global等知名投資者籌集了6.026億美元。
2022年,持有15%股份的Alexandr Wang成為全球最年輕的白手起家的億萬富翁。
創業之前,Wang從小到大的履歷也讓人印象深刻。
1997年出生於新墨西哥州,父母都是在新墨西哥州洛斯阿拉莫斯國家實驗室的物理學家。
高中階段開始透過網路自學編程,並報名參加了一些世界級的程式設計競賽,例如美國電腦奧林匹克競賽(USACO)。
17歲,成為美國知名問答網站Quora的全職碼農;
18歲,考入麻省理工學院攻讀機器學習;
在MIT大一剛結束後的暑假,他就和Guo一起創辦了Scale,並且拿到了Y Combinator的投資。
Wang跟爸媽說,「這就是我夏天隨便玩玩的事。」
Scale AI剛起步時,有些人確實覺得這就是個笑話,畢竟公司當時只有三名員工。
不過,在不斷地融資和發展之下,Scale AI發展飛速,到2021年已經成長為價值73億美元的獨角獸企業,2023年初公司規模也擴展到了700人。
Wang接受《財星》雜誌獨家採訪時透露,隨著企業客戶競相訓練生成式AI模型,Scale AI的這方面業務快速成長。
2023年,公司年度經常性收入(企業長期為數據服務支付的費用)增加了兩倍,預計2024年底將達到14 億美元。
由於Scale AI的驚人成就,Alexandr Wang在2021年入選福布斯企業科技領域「30 under 30」排行榜,他本人在矽谷也被稱為「下一個祖克柏」。
AI領域公認的三個基本支柱—數據、演算法和算力。
演算法領域,前有Google、微軟的大型研究院,後有推出Sora和GPT系列模型的OpenAI;算力領域有供貨全球的英偉達,但在Scale AI還未誕生的2016年,數據領域仍處於空白。
19歲的Alexandr Wang在看到這一點後,做出了輟學創業的決定,「我創辦Scale 的原因是為了解決人工智慧中的資料問題」。
大部分數據都是非結構化的,AI很難直接學習這些數據;而且大型數據集的標註一項資源密集型工作,因此,「數據」被很多人認為是科技領域最辛苦、最卑微的部分。
但Scale AI卻在短時間內就獲得了巨大成功。他們可以為不同行業的企業客戶量身定制數據服務。
在自動駕駛領域,Cruise和Waymo等公司透過攝影機和感測器收集了大量數據,Scale AI將機器學習與「人機迴路」(human-in-loop)監督相結合,管理和標註這些數據。
他們曾經開發的「自治數據引擎」推動了L4級自動駕駛技術的發展。
2019年,Scale AI幫助OpenAI團隊一同訓練GPT-2,進行了RLHF的首次實驗,並將這些技術擴展到InstructGPT等其他LLM。
CEO Wang在接受《財富》雜誌採訪時表示,Scale AI將自己定位為整個AI生態的基礎設施供應商,構建“數據鑄造廠”,而不僅僅是在子公司Remotasks中僱傭大量的合同工進行人工標註。
Scale AI已經開始與不同領域的專家合作,例如博士級學者、律師、會計師、作家等。
給聊天機器人的回覆進行評分,這樣的工作為什麼能讓博士級的專家參與其中?
Wang的回應是,原因有很多:「如果你是博士,習慣做一些非常小眾、深奧的研究,也許世界上只有少數人能夠理解。但這個工作中,你可以幫助改進和建構這些人工智慧系統的前沿數據,有機會產生真正的社會影響。
同時,Wang也認為,這些專家所能提供的高品質數據對AI的未來非常重要。
他補充說,來自專家的、包含複雜推理的數據是未來人工智慧的必備條件。 「你不能隨便把舊數據輸入給演算法中,然後期待它會自我改進」。
傳統的資料來源,例如從Reddit等社群的評論中抓取資料有其限制。 Scale AI建構了一些流程,模型先輸出一些內容,例如撰寫研究論文,在此基礎上,人類專家可以改進這些內容,從而改進模型的輸出。
關於AI產生並註釋的數據,有人持正面態度,認為可以消除對人類註釋資料註釋,但Wang的觀點並沒有這麼單純。
他說,合成數據以及人類創造的數據,這兩個面向Scale AI都有投入。 「雖然人工智慧產生的數據很重要,但想要獲得有一定品質和準確性的數據,唯一方法是透過人類專家的驗證。」
數據是人工智慧的命脈,因此數據管理和處理領域的公司正站在風口上。
就在上週,印度的數據平台Weka表示,它以16億美元的投後估值籌集了1.4億美元,以幫助公司為其人工智慧應用建立數據管道。
人工智慧數據的主要問題仍然存在。 Scaling Law的存在意味著,隨著模型變大,對數據的需求也呈現指數級增長,越來越多的人擔心大模型會耗盡可用數據。
Alexandr Wang在Scale AI的官方網站上寫道,「資料豐富不是預設情況,而是一種選擇,它需要匯集工程、營運和AI方面最優秀的人才」
Scale AI的願景之一是「數據豐富」,從而將前沿LLM擴展到更大數量級,「為通往AGI鋪平道路。在達到GPT-10 的過程中,我們不應該受到數據的限制」。(新智元)
參考資料:
https://techcrunch.com/2024/05/21/data-labeling-startup-scale-ai-raises-1b-as-valuation-doubles-to-13-8b/
https://fortune.com/2024/05/21/scale-ai-funding-valuation-ceo-alexandr-wang-profitability/
https://scale.com/blog/scale-ai-series-f