創新的本質不在於技術工具或方法論,而在於我們如何組織集體思考。
大家好,我是世晨,關注AI如何改變醫療與生命科學。
今天想聊聊Arc Institute。
提到生物學領域的頂級科研機構,很多人第一反應是哈佛、MIT、史丹佛,或者Scripps研究所、冷泉港實驗室。這些機構歷史悠久,院士雲集,發表過很多諾獎級成果。
而Arc Institute呢?成立至今僅5年時間,對於一家科研機構來說只是剛剛起步。
但就是這樣一個機構,讓幣圈大佬掏出數億美元資助,讓輝達拿出2000張GPU支援訓練生物大模型,與OpenAI基金會合作推進阿爾茲海默症的研究。
近年來,Arc Institute打造了新一代基因編輯技術Bridge RNA,推出了史上最大的開源生物學基礎模型Evo 2,創造出自然界從未存在過的全新完整基因組,發起對標CASP的虛擬細胞挑戰賽。
史丹佛大學前校長Marc Tessier-Lavigne評價它是「富有遠見的組織」。
Arc將矽谷的工程思維與創新效率引入科學領域,它不是一家傳統意義的研究機構,反而更像是一家AI公司,或者是一個網路。
通過研究Arc Institute,我想回答⼀個更根本的問題:
在AI時代,⽣物醫學研究應該怎樣被組織?
01. 三個年輕人,決定改變現狀
1970年代,一個美國生物學家申請NIH的R01資助,獲批機率大約是40%。到了2021年,這個數字跌到了20%。每五個遞交申請的科學家裡,有四個在一年後收到拒信。
更刺眼的是另一組資料:研究者拿到首份獨立R01資助的中位年齡,是42歲。這意味著,當一個科學家終於有資格獨立開展研究時,他的大腦已經過了創造力最旺盛的十年。
然後疫情來了,傳統科研資助體系的遲緩暴露無遺。
於是,加州大學伯克利分校生物工程助理教授Patrick Hsu、經濟學家Tyler Cowen、Stripe聯合創始人Patrick Collison決定發起一個叫做Fast Grants的項目。
這是⼀個簡化到極致的撥款機制:申請耗時30分鐘。資金在兩周內到帳,最快48小時。
總計約5000萬美元流向了COVID相關研究。其中一筆錢給了耶魯大學,催生了用唾液就能檢測新冠的技術SalivaDirect,後來被FDA緊急授權。
Fast Grants證明了一個反常識的假設:給科學家錢的速度,和科研產出的質量,並不負相關。
但這只是開始。
2021年初,Patrick Hsu、Patrick Collison和Silvana Konermann三人決定放大Fast Grants的模式,創立一個獨立非營利機構,讓頂尖科學家能夠更加自由地進行創新。
Silvana Konermann是史丹佛大學生物化學助理教授,他與Collison在2005年歐盟青年科學家競賽中相識,兩人於2022年結婚。
2021年12月,Arc Institute正式成立,初始資金達到了創紀錄的6.5億美元。
資助者陣容豪華:以太坊創始人Vitalik Buterin、Stripe聯合創始人John Collison、天使投資教父Ron Conway、LinkedIn聯合創始人Reid Hoffman、Facebook聯合創始人Dustin Moskovitz。
Arc做了⼀個近乎顛覆性的決定:給核⼼研究員8年期的⽆附加條件資助。
這種模式的靈感來自HHMI(霍華德·休斯醫學研究所),後者資助了約300名科學家,給予他們長期、 無條件的支援。
但Arc想走得更遠,HHMI的資助對象主要是在大學已有教職的科學家,Arc則想從頭建構一個全新的科研生態。
02. 一場針對科研組織的創新試驗
Arc的組織架構,體現了其“反傳統”的特色:扁平、以人為本與跨學科協作。
領導團隊
Silvana Konermann:聯合創始人、執行主任兼核心研究員,史丹佛生物化學助理教授,CRISPR/神經科學專家。
Patrick Hsu:聯合創始人兼核心研究員,史丹佛大學病理學助理教授,CRISPR-Cas9技術先驅,致力於生物學與AI的交叉探索。
Megan van Overbeek:首席科學家,領導多組學、基因組工程、細胞建模和哺乳動物疾病建模技術中心,協調虛擬細胞和阿爾茨海默病計畫。
Dave Burke:首席技術官,領導計算技術中心和研究所的基礎設施團隊,曾在Google負責Android工程長達14年。
董事會
Nat Friedman:GitHub前首席執行長
Reid Hoffman:PayPal、LinkedIn聯合創始人,也是Facebook、Airbnb、OpenAI等公司的早期投資人
Susan Li:Meta首席財務官
科學顧問委員會
Carolyn Bertozzi:2022年諾貝爾化學獎得主,美國國家科學院、美國國家醫學院和國家工程院院士
Aviv Regev:羅氏集旗下基因泰克的執行副總裁兼研究和早期開發主管,領導藥物發現和藥物開發工作,美國國家科學院、國家醫學院、美國藝術與科學學院院士。
科學團隊:這是Arc科學研究的主力,每個人領導一個10-20人的實驗室
- 核心研究員(Core Investigators)
擁有充足的資金,可以完全自由地追求好奇心驅動的研究議程。目前共有9人,研究領域包括複雜疾病機制解析、基因組工程、AI生物建模、癌症/神經退行/免疫交叉等。
- 科學研究員(Science Fellows)
傑出的早期職業科學家,這是Arc的特色設計,讓年輕人博士畢業後直接成為PI。目前共有3人,研究領域包括單細胞多組學、新陳代謝、神經退行性變、基因調控圖譜等。
- 常駐創新研究員(Innovation Investigators)
它們的研究項目與 Arc 核心研究員及各大技術中心開展深度協同合作。這類研究者的實驗室整體或部分設立在 Arc 總部,同時本人仍保留原任職高校的學術在編身份,目前共有2人。
技術中心
Arc目前擁有五大技術中心,分別是多組學技術中心、計算技術中心、基因組工程技術中心、細胞模型技術中心和哺乳動物模型技術中心。
這些技術中心不是傳統意義上的共享裝置與設施,它們是Arc的研發組成部分,有自己的科學家和工程師,承擔著工具開發和科學探索的雙重使命。
營運部門
Arc擁有一支10餘人的營運團隊,成員具備深厚的管理、財務、人事、媒體、法律等職業經驗。
03. 打造全端式AI×Bio研究機構
聯合創始人PatrickCollison表示,創辦Arc的核心初衷之一,就是堅信軟體、AI與生命科學濕實驗的交叉融合,必將催生劃時代科研成果。
在官網,Arc將自己描述為:
a full stack AI and biology research institute where frontier ML models and large-scale experimental data generation evolve together in a continuous loop, at scale.
一家全端式人工智慧與生物交叉科研機構,實現前沿機器學習模型與大規模實驗資料生成的規模化閉環協同迭代演進。
“Full-stack”這個詞來自軟體工程,一個全端開發者能同時處理前端介面、後端邏輯、資料庫和伺服器部署。
把這個詞搬到生命科學領域,意味著同一組織內部同時掌握從實驗資料生成到AI建模再到實驗驗證的完整鏈條。
要理解Arc的”全端”具體指什麼,需要拆解它的技術堆疊矩陣。
這四層構成了一個完整的”感知-認知-行動-反饋”循環。傳統研究機構通常只佔據其中一層:大學實驗室做”讀”,計算中心做”想”,生物技術公司做”寫”和”閉環驗證”。
而Arc讓這四層在同一處運行,由同一批科學家操作,資料在同一個網路中流動。
資料層:主動生成vs被動收集
全端機構的第一個特徵,是不等待資料,而是主動設計資料。
生物AI面臨的最大瓶頸不是演算法,而是資料質量和規模。AlphaFold的成功很大程度上歸功於PDB數十年積累的結構資料,但生物學的大部分領域沒有這樣的現成資料庫。
Arc的回應是建設高通量資料生成基礎設施,設計實驗來製造模型需要的資料。它的技術中心配備了多組學、基因組工程、細胞建模和哺乳動物疾病建模設施,能夠規模化執行CRISPR篩選、藥物處理和單細胞測序。
模型層:從蛋白質到基因組到細胞
Arc的模型家族覆蓋了從分子到細胞的多尺度,包括Evo2(基因組基礎模型)、STATE/STACK——虛擬細胞模型)、CodonFM(密碼子語言模型)等。
這些模型的共同點:它們不是為單一任務訓練的專用工具,而是生物基礎模型,能夠執行多種下游任務(預測、設計、分類),並且隨著資料增加而持續改進。
工程層:工具開發即研究
全端機構的第三個特徵,是工具開發和科學研究之間沒有界限。
換言之,Arc的科學家開發研究工具的過程,本身就是科學探索的過程。
在這種文化下,誕生了Bridge RNA(新一代基因編輯技術)、Germinal(AI驅動的抗體設計系統)、ProPer-seq(低成本擾動-表型關聯技術)。
這三個成果的共同點是:每一項工具都誕生於解決具體科學問題的過程中,又反過來成為加速整個領域研究的速度。
在Arc,攻克一個生物學難題所需要的實驗方法或計算模型,本身就具有同等重要的原創價值。
閉環驗證層:讓能力驗證、持續迭代
全端機構的第四個特徵,是建立一個讓模型持續面對實驗檢驗的機制。
AI模型在生命科學中的嚴重問題不是「預測錯誤」,而是「無法知道是否錯誤」,因為實驗驗證太慢、太貴、太分散。
Arc用內部驗證(如Arc技術中心)、社區驗證(如VirtualCellChallenge大賽)和框架驗證(如Cell_Eval)等機制解決這個問題。
04. 虛擬細胞:生命科學的「登月計畫」
Virtual Cell Initiative是Arc當前投入最大、曝光度最高的戰略級項目。
其核心目標可以概括為:建構一個能夠準確預測細胞對基因、化學和環境擾動響應的通用計算模型,跨越不同細胞類型和疾病狀態。
2026年初,Arc獲得了著名慈善資助計畫The Audacious Project的支援。依託這筆投資,Arc公佈了虛擬細胞的四個互聯目標,將其從願景推向系統化的工程落地:
第一,生成規模化、多樣化、高品質的資料集。Arc的技術中心開展超過10億次細胞實驗,覆蓋不同人類細胞類型對擾動的響應,並利用CRISPR建立因果聯絡。
同時,Arc與Tahoe Therapeutics、10x Genomics、Ultima Genomics等機構合作,加速訓練資料的獲取與生成。
第二,訓練並持續改進模型。Arc將利用上述資料集迭代訓練其虛擬細胞模型STATE,定期發佈新版本,最終目標是讓計算模擬結果緊密匹配耗時得多的實驗結論。團隊還會平行測試多種模型架構(如最新發佈的STACK),以找到最高效的路徑。
第三,在真實世界中驗證。Arc選擇阿爾茨海默病作為核心內部測試案例。阿爾茨海默病是典型的複雜疾病,涉及多種遺傳和環境風險因素,醫療需求巨大。
Arc將檢驗虛擬細胞模型能否識別出逆轉關鍵疾病表型的干預手段,並通過實驗驗證來反哺模型,形成“實驗室在環”的閉環,指向潛在藥物靶點。
第四,向全社會開放。完整模型將發佈在GitHub上,並通過免費線上門戶向全球非營利研究者開放。同時,Arc也會向生物技術與製藥公司提供商業許可,以推動轉化應用。
Arc的虛擬細胞倡議,正是其獨特組織架構的集中體現:既有學術界對十年尺度基礎機制研究的投入意願,又有工業界對轉化的敏銳目光,卻不受兩者時間線約束。
資料層:Virtual Cell Atlas
2025 年 2 月,Arc 發佈Virtual Cell Atlas,一個持續增長的開放單細胞資料集集合,其核心構成包括:
-Tahoe-100M:與Tahoe Therapeutics聯合生成,覆蓋1億個細胞、約6萬次藥物擾動實驗,對應50種癌症模型對1100余種藥物的響應,是目前全球最大的單細胞擾動資料集;
-scBaseCount:首個由AI智能體驅動的單細胞RNA-seq資料庫,已涵蓋超過5億個細胞、跨越21個物種和72種組織類型,且持續自動更新;
-Virtual Cell Challenge 2025資料集:專為競賽設計的人胚胎幹細胞擾動響應資料,覆蓋廣泛的表型響應範圍。
Arc 明確區分了觀測資料(observational data)與擾動資料(perturbation data)。前者可以描述"細胞是什麼狀態",但只有後者才能推斷"細胞為什麼是這個狀態"。
Arc 因此投入大量資源建設高通量功能基因組學平台,以規模化生成因果性資料。
模型層:STATE與STACK
2025年6月,Arc發佈第一代虛擬細胞模型STATE。
STATE 由兩個模組組成:
-State Embedding(SE):將轉錄組資料對應為平滑的多維向量空間,訓練於 1.67 億個觀測細胞,使同類細胞自然聚類;
-State Transition(ST):基於雙向Transformer架構,預測細胞在受到擾動後如何在SE空間中發生狀態轉移,訓練於 超過1億個擾動細胞,覆蓋70種人類細胞背景。
性能基準上,STATE 在Tahoe-100M資料集的擾動區分能力比現有最優模型提升50%,識別差異表達基因的精準率是現有模型的2倍,且首次在所有測試場景中持續超越簡單線性基線。
伴隨STATE一同發佈的還有Cell_Eval,一個超越傳統表達計數指標的評估框架,專注於差異表達預測和擾動強度估計。
此後,Arc 迅速推進下一代模型 STACK,採用上下文學習(In-context Learning)技術,可預測從未見過的擾動效應,進一步拓展了模型的泛化邊界。
社區層:Virtual Cell Challenge
2025年6月,Arc 啟動首屆Virtual Cell Challenge,設立10萬美元大獎。
2025年12月的結果顯示:冠軍由來自中國的百圖生科BioMap Research 團隊獲得,使用改進的scFoundation架構;Generalist Prize則由Altos Labs團隊摘取,使用流匹配生成模型。
Arc 計畫每年舉辦該競賽,逐年引入更複雜的細胞類型和更具挑戰性的預測任務。
這一機制不僅提供了高品質基準資料集和公開排行榜,更重要的是建立了一個可復現、透明的模型比較框架,這正是虛擬細胞領域此前所缺乏的。
05. 啟示:當科研組織本身成為變革對象
那麼,Arc Institute 到底意味著什麼?
它不是一個簡單的“有錢任性”的科研烏托邦,更像一場在嚴格工程思維指導下的、目標明確的實驗。
這場實驗的核心假設是:當頂尖科學家被賦予長期、無條件的資源支援,當 AI 與生物學的深度融合從願景變為組織架構的基石,當資料、模型和社區被設計成一個協同進化的閉環,科學的發現速度可以被系統地加速。
這場實驗的初步結論是積極的。從橋接重組酶到 Evo 2 模型,再到虛擬細胞的全新攻堅,Arc 用短短五年時間證明了,這種“矽谷式”的科研組織範式,並非只是資本遊戲的噱頭,而是能夠實實在在產出顛覆性成果的土壤。
創新飛輪正在形成:充足資金+長期資助 → 吸引頂尖科學家 → 產出突破性工具 → 開源建立社區標準 →→ 競賽機制→ 加速迭代 → 疾病應用+企業合作→ 更多資助 。
這場實驗的終極價值,在於它向世界展示了一套新科研藍圖:一套將長期主義、跨學科強制融合、AI 原生思維和開放社區建設內嵌其中的組織方法論。
回到最初的問題:在 AI 時代,研究應該怎樣被組織?
Arc Institute 給出的答案並非唯一解,但它提供了一個極具參考價值的範本:
讓最聰明的大腦,用最前沿的工具,在最自由卻最講究協作的環境裡,去挑戰最重要的問題。
科研組織本身可以成為創新對象。而這一點,可能比它發佈的任何單一技術都更具顛覆性。 (動脈圖靈)
