7家創企,118個科研項目背後的傳奇教授。
這位擁有25億美元(約合人民幣179億元)身家的大學教授,為何還堅守在一線課堂?
智東西9月2日報導,近日,AI資料平台Databricks在最新一輪融資後,估值突破1000億美元(約合人民幣7162億元),有望成為全球估值第四高的AI獨角獸,這也讓外界關注到其聯合創始人兼董事長、加州大學伯克利分校(後簡稱UCB)教授Ion Stoica,以及他橫跨產業與學術界的傳奇經歷。
Stoica現年60歲,自2000年起開始在UCB任教,此後25年來均未離開這一校園。2010年至今,Stoica在UCB電腦學院參與了3所重要實驗室的創辦和管理。這些實驗室在巨量資料、雲端運算和AI時代貢獻了118個科研項目,其中不乏影響力廣泛、幾乎成為AI領域核心基礎設施的項目,如巨量資料框架Spark、分佈式執行框架Ray、大模型推理框架vLLM等。
他還通過親自參與創業、指導創業或是提供人脈與資金支援的方式,創辦或孵化了至少7家知名創企,分佈於資料基礎設施、生成式AI等行業。
除了估值已經突破1000億美元的Databricks,Stoica聯合創辦了估值10億美元的AI託管計算平台Anyscale、估值6億美元的LMArena(大模型競技場)和估值3億美元的視訊流分析技術公司Conviva等企業。
Stoica是高性能AI與資料分析平台Alluxio創始人李浩源、資料中心作業系統創企Mesosphere創始人Benjamin Hindman的博士生導師,這兩家創企均發源於開放原始碼專案,曾得到Stoica的指導。目前,Stoica還在大模型記憶技術創企Letta擔任顧問。
儘管取得了商業上的成功,但Stoica仍然心繫教育、科研。今年秋天,Stoica將繼續留在課堂,教授作業系統和系統程式設計的本科課程。
通過在矽谷的人脈,Stoica給自己的實驗室拉來了極為豪華的贊助商陣容,包括輝達、Meta、螞蟻集團、AMD、Google、亞馬遜、華為等知名企業。他還給將自己創業獲得的資產投入科研,給實驗室提供資金支援。
在向《福布斯》分析自己成功的原因時,Stoica稱,這要歸功於他對科研的專注:“這是一種創造的過程,不斷探索新想法。”在本文中,我們將回顧Stoica傳奇的創業與科研經歷,並瞭解他對自己成功經歷的思考和總結。
Stoica於2000年在卡耐基梅隆大學(後簡稱CMU)完成博士學業,導師是該校史上最年輕的終身教授張暉(北大電腦學院84級院友)。
同年,他加入UCB,並從教至今。UCB地處矽谷,有極為濃厚的創業氛圍,Stoica也在2006年了自己的第一個創業項目——Conviva。
2006年,串流媒體內容逐漸興起,YouTube已經成為主流平台之一。Stoica與他的導師張暉看到了市場對線上視訊體驗最佳化的需求,並在CMU和UCB的科研成果基礎之上開始創業,聯合創辦了Conviva。
早期,Conviva專注於即時視訊流分析,成為全球最早實現影片播放自適應的平台之一。該公司通過AI技術識別視訊平台的播放質量問題,並收集使用者的觀看資料(包括正在觀看的內容、使用者喜好等),形成分析報告。
Conviva的主要客戶包括美國福克斯公司(FOX)、NBC環球集團旗下的串流媒體平台Peacock等。
Stoica原本在Conviva擔任CTO一職,但目前已經不在Conviva擁有正式管理層職位。他仍然留在董事會,每週都會與團隊見面。
成立以來,Conviva已經完成了7輪融資,總融資額為1.1億美元。其上一輪融資於2017年完成,當時投後估值約為3億美元。
在創辦Conviva的同時,Stoica也沒有停下學術與科研的腳步。UCB電腦科學學部有每5年成立一個合作實驗室的傳統,Stoica深度參與了該學部近15年來成立的三大實驗室,帶領成員做出了頗具學術與行業影響力的成果。
2011年,UCB成立了AMP(演算法、機器與人)實驗室。在官宣實驗室成立的演講中,Stoica稱,AMP實驗室希望通過緊密整合演算法、機器和人力,實現對巨量資料的理解。
在其存續的5年間,AMP實驗室打造了25個科研項目,包括開源分佈式資源管理框架Apache Mesos、開源分佈式巨量資料處理框架Apache Spark、開源分佈式資料編排平台Alluxio(原名Tachyon)等,成為巨量資料基礎設施領域的重要貢獻者。
這三大開放原始碼專案,最後都轉化為創企:
Databricks(總融資208億美元,估值超1000億美元)
Databricks是Stoica參與創辦的第二家創企,主營業務是AI資料分析平台。其創始團隊由七位加州大學伯克利分校的教授和研究生組成,大都來自Stoica所管理的AMP實驗室。
2009年,Databricks的創始團隊開發出開源分佈式巨量資料處理框架Spark,並不斷維護、更新這一項目,還一度創下了資料排序速度的世界紀錄。
在將Spark作為開放原始碼專案營運一段時間後,Databricks的聯合創始人、UCB副教授的Matei Zaharia稱,Stoica希望將Spark變成一家初創公司,以鼓勵使用者更認真地對待此類來自高校實驗室的研究。
2013年,Databricks正式成立。憑藉著開放原始碼專案Spark的成功,Databricks在A輪融資時便獲得來自a16z的1400萬美元融資。2013年-2016年,Stoica擔任Databricks CEO一職,深度參與公司日常管理與決策。
他在2016年將CEO一職交棒給了曾在AMP實驗室擔任訪問學者的Ali Ghodsi。對於這一決定,他在接受《福布斯》採訪時說道:“超過這個時間就意味著離開伯克利,所以我必須做出選擇,我選擇了回去。”
如今,Databricks已經成長為估值超過1000億美元的超級獨角獸,服務超過60%的財富500強企業。Stoica仍在這一公司擔任董事會執行主席的職務。
Alluxio(總融資額7300萬美元,估值暫未披露)
Alluxio原名Tachyon,是一個以記憶體為中心、容錯的虛擬分佈式儲存系統,旨在解決Apache Spark生態系統內的資料共享挑戰。
2015年,Alluxio正式成立,早期投資者為a16z——這是一家與Stoica關係密切的投資機構。其創始人兼CEO李浩源在AMPLab完成了相關研究,論文指導者便包括其博士生導師Stoica。
隨著技術趨勢轉向混合雲和多雲架構以及AI,Alluxio不斷髮展,為AI和資料密集型工作負載的資料訪問提供解決方案。如今,Alluxio的AI加速平台為全球十大網際網路公司中的九家提供支援。
Alluxio已經完成4輪融資,其最近一輪融資於2021年底完成,由高瓴創投領投,融資額達5000萬美元。不過,其估值暫時未對外披露。
Mesosphere/D2iQ(總融資2.5億美元,最高估值7.75億美元)
Mesosphere成立於2013年,Stoica的學生Benjamin Hindman在其中擔任CIPO(首席智慧財產權官)的職務。這家公司的主要技術來自於開放原始碼專案Apache Mesos,而Benjamin Hindman是這一項目的核心作者。
DCOS(資料中心作業系統)是Mesosphere的核心產品。Mesosphere將資料中心抽象為“單一大機器”,通過分佈式核心調度和資源管理,為大規模計算與資料密集型工作負載提供統一的運行平台。
2015年,Mesosphere宣佈獲得a16z等頂級風投的投資。隨著容器化、微服務和雲原生趨勢的興起,Mesosphere後續在產品上逐漸轉型,支援Kubernetes,並在2019年正式更名為D2iQ。D2iQ的解決方案主要面向混合雲與企業級Kubernetes平台,幫助客戶簡化雲原生應用的部署與維運。
迄今為止,D2iQ融資總額接近2.5億美元,投資方包括a16z、Khosla創投、惠普等,其估值曾經在2018年完成的D輪融資後達到7.75億美元。微軟、Google等都曾傳出有收購D2iQ的意向,但因D2iQ管理層反對而未能完成交易。
2023年底,D2iQ宣佈終止營運,公司資產將進行清盤,並分配給債權人。
2017年初,Stoica參與到了UCB RISE(即時智能安全執行)實驗室的建立與管理工作中。當時,Stoica等人已經意識到,資料生成、計算和執行之間的循環正在閉合,AI已成現實,計算的影響正在擴展到世界的每一個角落。
RISE實驗室與AMP實驗室一脈相承,期望能在巨量資料分析的基礎上,進一步發展相關技術堆疊,幫助應用程式即時地、智能地且安全地與環境進行互動。
在大規模機器學習和強化學習領域,RISE實驗室貢獻了超41個開放原始碼專案,其中影響力最大的當屬高性能分佈式執行框架Ray,這一項目成功轉化為創企Anyscale。
Anyscale(總融資2.59美元,估值10億美元)
2019年,Anyscale成立,創始團隊包括Stoica、Philipp Moritz(Stoica的博士生)和Robert Nishihara等人。Stoica目前在Anyscale擔任董事會執行主席的職位。
Philipp Moritz和Robert Nishihara是Ray的主要作者,這一項目大幅度提升了分散式運算的易用性,讓開發者能夠用簡單的API,把單機Python程序擴展到大規模分佈式環境。Stoica指導這兩位作者完成了Ray的相關研究。
Ray提供了統一的程式設計方式,開發者不必關心底層分佈式細節。相比於傳統的Spark、Hadoop,Ray更靈活,支援低延遲的任務調度和多種計算模式(批處理、流式、線上推理等)。
這一項目在AI/ML領域影響力尤其大,業內許多流行的庫都是基於Ray建構的,如Ray Tune超參數調優框架、Ray RLlib強化學習庫等。
在此基礎上,Anyscale為Ray提供了完全託管計算平台,加入了最佳化、可觀察性、資料治理和開發人員工具等,使其成為運行Ray工作負載的最佳平台之一。
目前,Uber、OpenAI、Shopify和亞馬遜等頭部企業的開發人員正在使用Ray建構機器學習平台。Anyscale成立6年來共完成4輪融資,總融資額達2.59億美元。2022年完成C輪融資後,其最新估值為10億美元。
2022年,Stoica又推動了天空計算實驗室(Sky Computing Lab)的成立。天空計算是雲平台之上的一層,其目標是實現雲之間的相互協作,讓應用程式能夠在任何雲提供商上實現“一次寫入,隨處運行”。
天空計算實驗室近年來已經貢獻了52個項目,打造了本輪生成式AI浪潮中重要的基礎設施,包括大模型推理引擎vLLM、AI作業框架SkiPilot、大模型評估平台Chatbot Arena(現名LMArena)、視訊生成模型評估平台Video Arena、智能體記憶系統MemGPT等,其中,LMArena和MemGPT已經實現公司化運作。
LMArena(總融資1億美元,估值6億美元)
LMArena由Stoica和他的學生Wei-Lin Chiang、Anastasasios N. Angelopoulos等人聯合創辦,Stoica擔任LMArena的董事長。
這一平台通過“人類偏好投票”方式,公開評估大語言模型性能。當使用者在這一平台上提交提示詞後,會有兩個匿名模型作答,然後基於使用者選擇判斷哪個模型表現更佳。LMArena的資料與排行榜廣受業界關注,甚至成為不少模型發佈前的重要參考。
目前,LMArena託管了400多個AI模型,平台使用者投票數達到350多萬張。今年年初,LMArena完成1億美元的種子輪融資,領投機構為a16z,投後估值達6億美元。
融資完成後,LMArena團隊發佈了全新設計的平台,最佳化了介面和投票流程,並逐步加入登錄、聊天記錄保存、WebDev Arena等功能模組。
Letta(總融資1000萬美元,估值7000萬美元)
Letta成立於2024年,由天空計算實驗室的兩位博士生Sarah Wooders和Charles Packer創辦。其中,Stoica是Sarah Wooders的博士生導師,並在該公司擔任顧問。
Letta的核心技術源自MemGPT,後者是天空計算實驗室的一個開放原始碼專案。MemGPT提出了“大模型作業系統”的概念,專注於大模型的上下文管理和長期記憶能力,讓大模型變得“有狀態”(Stateful)。
2023年10月,MemGPT項目在正式發佈論文和程式碼之前,就憑藉一份白皮書迅速走紅。該項目正式發佈在GitHub上後,已經收穫1.8萬星標收藏,有近2000個分支項目。
Letta目前的主要產品包括Letta雲(打造和部署有狀態Agent的雲平台)和用於增強Agent處理外部檔案能力的Letta檔案系統。
2024年9月,Letta獲得1000萬美元種子輪融資,估值達7000萬美元。
Stoica過去15年內主持工作的三所實驗室,擁有不少共同的特點:開源、前沿、與產業密切結合。這些特點讓它們不止停留在學術機構的層面,還擁有孵化器般的能力。
自2011年的AMP實驗室以來,Stoica就特別注重與產業界的密切合作。AMP實驗室拉來了Google、SAP、亞馬遜、華為、IBM、英特爾、微軟、VMWare等企業作為贊助商。
此後,Stoica的實驗室還獲得了輝達、Meta、螞蟻集團、AMD、博通、三星、Lambda等企業的支援。
同時,通過不斷創業,Stoica的創業項目還使他成為了億萬富翁,現資產大約有25億美元,他將一部分個人資產投入實驗室的營運工作中。
這些真金白銀的支援讓Stoica的實驗室擁有資金和資源,得以同時開展大量研究項目。
目前,Stoica在UCB擔任研究資金削減問題工作組的主席。他鼓勵其他教授向他一樣通過創業獲取資金,在美國政府削減科研資助的大背景下繼續科研。
但成為億萬富翁並非Stoica的目標。Stoica在接受《福布斯》採訪時稱:“我仍然是一名學者,如果賺錢是唯一的驅動力,那我就去IPO了。這是最簡單的方法,但我不是出於這一目的而創業,我想創造有意義的東西。”
他還認為,自己在創業中獲得的成功,得益於對科研的專註:“這是一種創造的過程,不斷探索新想法。”此外,大學的科研項目大多具有開源性質,能吸引企業使用,而大部分公司不會開源最佳系統。基於開放原始碼專案打造的企業,在起步階段就能獲得不少聲量。
將Stoica留在學術界的原因,可能是他的學生們。他向《福布斯》說道:“這些處在成長期的年輕人不知道什麼做的成,什麼做不成,但他們有信念,能做出讓人出乎意料的解決方案。”
由Stoica親自指導的80多名學生從他的資源和關係網中受益,他們絕大多數都在學術界、大公司就職,或是擁有自己的初創公司,其中包括在Databricks工作的至少7名學生。
當今的AI浪潮中,有越來越多頗具影響力的成果,誕生在產業界,這也讓外界一度懷疑:在計算資源要求越來越高、規模效應越來越強烈的AI領域,學術界的價值何在?
而Stoica教授的成功經歷證明,在高校進行的開源、前沿探索項目,往往能對產業界起到極為重要的補充和啟發性作用。在以適當的方式轉化為企業後,仍然可以貢獻巨大的產業和商業價值。 (智東西)