Nature:人體蛋白質組導航計畫,開啟蛋白質組學驅動的精準醫療新時代


“歐米伽未來研究所”關注科技未來發展趨勢,研究人類向歐米伽點演化過程中面臨的重大機遇與挑戰。將不定期推薦和發佈世界範圍重要科技研究進展和未來趨勢研究。(點選這裡查看歐米伽理論


近日,國際頂級科學雜誌《自然》線上發佈了中國科學家領銜發起、十八位兩院院士和十八國科學家團隊聯合署名的人體蛋白質組導航國際大科學計畫(Proteomic Navigator of the Human Body,簡稱“π-HuB”計畫)白皮書。



這標誌著該計畫在重大科學問題凝練和全球合作共識凝聚方面取得重大突破,其主要科學目標和實施路徑被國際主流科技界正式認可,意味著中國在該領域的研究實力已躋身世界前列,更預示著生物醫學領域即將迎來一場深刻的革命性變革。

在生命科學的宏大敘事中,人體宛如一座神秘而複雜的微觀宇宙,細胞是其中的星辰,蛋白質則是星辰閃爍的光芒,照亮了生命活動的每一個角落。隨著科技的持續進步,科學家們不斷探索人體奧秘的新徵程,人體蛋白質組導航計畫(π-HuB)應運而生,它猶如一把精準的手術刀,試圖剖析人體蛋白質組的複雜網路,為醫學發展帶來革命性的突破。

人類基因組計畫(HGP)的完成,為我們繪製了人類基因組的藍圖,確定了約 20,300 個蛋白質編碼基因。這一里程碑式的成果讓我們認識到大規模 “組學” 項目在推動生物醫學研究變革中的巨大力量,催生了基因組學驅動的精準醫療。然而,我們逐漸發現,生命的複雜性遠非基因組資訊所能完全詮釋。人體約 37 兆個形態和功能各異的細胞,雖共享相同的基因組,但在個體生命歷程中,會因內外部環境變化而呈現出不同的狀態。蛋白質,作為細胞機制的基本功能單元,深度參與了幾乎所有的生物過程,其動態變化、修飾狀態、相互作用等因素在疾病的發生、發展過程中扮演著關鍵角色,成為治療的核心靶點。因此,蛋白質組學研究成為生命科學和醫學領域的前沿熱點,它聚焦於人體蛋白質組的動態變化,為我們理解生命活動和攻克疾病提供了更為直接和關鍵的視角。

自 2001 年國際人類蛋白質組組織(HUPO)成立以來,蛋白質組學研究取得了顯著進展。2010 年啟動的人類蛋白質組計畫(HPP)致力於利用質譜技術尋找所有人類蛋白質編碼基因表達的高品質證據,使其可常規、可靠地測量。經過多年努力,到 2020 年,HPP 項目團隊繪製出了覆蓋 90.4% 人類標準蛋白質組的高精度圖譜,截至 2023 年,已檢測到人類基因組中預測的 19,750 個標準蛋白質中的 18,397 個(93%),並生成了用於高度特異性靶向質譜測量超過 99% 註釋人類蛋白質的驗證參考光譜集。在此期間,眾多圍繞特定器官或疾病的蛋白質組研究項目蓬勃發展,如中國的人類肝臟蛋白質組計畫率先對肝臟蛋白質表達譜和蛋白質 - 蛋白質相互作用進行了深入表徵,發現了乙酰化在代謝調控中的重要作用,為後續研究奠定了基礎。此後,大腦、心臟、胃、皮膚和免疫細胞等組織或器官的蛋白質組研究相繼展開,建構了初步的器官 / 組織層面的人類蛋白質組圖譜。同時,疾病相關的器官 / 組織蛋白質組分析也不斷深入,為蛋白質組學驅動的精準醫療積累了寶貴資料。儘管成果斐然,但人類蛋白質組的複雜性仍如浩瀚海洋,我們僅處於探索的淺灘,其在生物醫學突破中的巨大潛力尚待充分挖掘。

在此背景下,π-HuB 計畫橫空出世,它肩負著宏偉使命,凝聚了全球多學科研究團隊的力量,涵蓋學術、工業和政府等領域,致力於生成和整合多模態蛋白質組資料集,全方位提升我們對人類生物學的認知,推動醫學向精準化、智能化邁進。

π-HuB 計畫圍繞三個核心目標展開,恰似一座大廈的三根支柱,支撐起整個項目的架構。首先,計畫通過單細胞和空間蛋白質組學等前沿技術,對人體進行數位化的蛋白質組解剖,建構從細胞到組織、器官的多層次蛋白質組定量圖譜,深入解析蛋白質在不同細胞類型、亞細胞結構中的表達、修飾、相互作用等資訊,從而揭示細胞 / 組織 / 器官的分子 / 細胞建構原理,探尋從蛋白質網路到表型的因果關係,為理解人體生理和病理機制提供全新的視角。

其次,深入探究個體生命周期內蛋白質組的動態變化是 π-HuB 的又一關鍵目標。通過對不同人群的大規模研究,追蹤從胚胎發育到衰老過程中蛋白質組的變化軌跡,剖析複雜疾病發生、發展過程中蛋白質組的演變規律,全面評估共生微生物組、生活方式、環境因素等對蛋白質組的影響。在此基礎上,整合多組學資料,建構 Meta Homo Sapiens 模型,這一模型如同人體的數位化替身,以三維解剖層次結構記錄器官、組織、體液和細胞在不同時間點的蛋白質組資料,為深入理解人體健康和疾病的動態過程提供強大的工具。

最後,π-HuB 計畫致力於打造 π-HuB 導航器,這是實現蛋白質組學驅動的實踐智慧醫學(phronesis medicine)的核心引擎。它整合細胞、體液、組織和器官中的生理表型與蛋白質組時空生化 / 生物物理資訊,建構虛擬狀態空間。通過模擬人體動態變化,在不同狀態間進行轉換和分析,精準識別健康與疾病狀態的關鍵標誌物和轉變觸發因素,從而實現疾病的早期診斷、精準治療和智能健康管理,為預防疾病和提升醫療效果提供前所未有的支援。

為實現上述目標,π-HuB 計畫依託六大關鍵支柱,穩紮穩打地推進項目實施。

人體生物樣本是整個計畫的基石。項目所需樣本來源廣泛且分類精細,包括遵循嚴格倫理標準獲取的解剖樣本、用於遺傳因素分析的雙胞胎佇列樣本、反映全球人群多樣性的大規模人群佇列樣本,以及採用非侵入或低侵入方式採集的縱向佇列樣本。這些樣本將為蛋白質組分析提供豐富的素材,同時,樣本的詳細臨床和人口統計學資訊註釋至關重要,它遵循統一的中繼資料標準,確保資料的可訪問性、互操作性和人工智慧整合能力,為後續研究奠定堅實的資料基礎。

測量技術創新是 π-HuB 計畫的動力源泉。鑑於項目對蛋白質組高解析度、大規模分析的需求,現有單細胞蛋白質組(SCP)技術雖取得一定進展,但仍面臨諸多挑戰,如蛋白質檢測通量有限、樣本處理能力不足等。因此,計畫一方面積極推動 SCP 技術的最佳化和標準化,促進不同平台和實驗室間的技術交流與協作;另一方面,密切關注新興的單分子蛋白質測序技術,期待其為單細胞蛋白質組分析帶來革命性突破。同時,計畫大力開發和整合用於分析蛋白質組功能狀態的多維技術,如針對蛋白質翻譯後修飾、結構變化、亞細胞定位和相互作用的檢測技術,確保全面獲取蛋白質組資訊。在技術快速迭代的過程中,早期資料雖可能被後續資料取代,但仍具有不可忽視的價值,它可為資料分析和整合工具的開發提供寶貴經驗,助力研究人員成長,並支援試點研究和技術驗證。

在計算技術創新方面,π-HuB 計畫志在突破傳統資料分析的侷限。除了應用自動化機器學習(autoML)等資料驅動建模方法外,更積極引入可解釋人工智慧(XAI)、大型語言模型(LLM)等前沿技術,深入挖掘蛋白質組資料中的生物學知識,建構從分子到系統層面的人體深度學習模型,將生物學 “黑箱” 轉化為透明、可理解的數字系統。通過這些創新技術,計畫建構多個 Meta Homo Sapiens 模型的 “白盒” 原型,為最終的系統基礎模型奠定基礎。憑藉項目獨特的大規模、高品質、多維度蛋白質組資料集,π-HuB 計畫有望在生物醫學資料科學領域開闢新的天地,推動蛋白質組學研究從資料積累邁向知識發現的新階段。

大科學基礎設施是 π-HuB 計畫順利實施的保障。項目涉及海量人體樣本的分析,需要超高通量的資料製造、採集和處理設施。這些設施不僅要具備先進的技術和高效的樣本處理流程,還需擁有強大的資料儲存、傳輸和分析能力。為此,計畫在全球範圍內整合資源,在中國建立國家層面的多層蛋白質組資料採集和處理中心,並與世界各地的研究機構基礎設施合作,如荷蘭蛋白質組學中心、澳大利亞 ProCan 等,建構全球化的研究網路,確保項目能夠高效、穩定地運行。

國際研究團隊是 π-HuB 計畫的核心力量。項目匯聚了來自世界各地的研究人員、軟體工程師、臨床醫生、病理學家、項目經理等多領域專業人才,形成了強大的協同創新合力。由執行委員會和諮詢委員會負責項目的指導、管理和監督,確保研究方向的正確性和研究過程的規範性。同時,通過設立獎學金 /fellowship 項目等方式,促進國際間的人才交流與培養,營造開放、合作的研究文化氛圍,為項目注入源源不斷的創新活力。

開放資源是 π-HuB 計畫秉持的重要理念。項目強調樣本、資料和工具的高效國際共享,遵循 FAIR 原則,通過建立開放的資料門戶,如 ProteomeXchange 聯盟的 PRIDE 和 iProX 等,向全球科研社區提供原始資料,推動資料的再利用和分析。此外,計畫開發生物資訊學基礎設施,將蛋白質組圖譜整合到全球最流行的蛋白質知識庫 UniProt 中,方便生命科學研究者獲取資訊。同時,基於 π-HuB 資料建構的網路計算框架,將為臨床醫生和患者提供便捷的醫療干預策略查詢服務,促進蛋白質組學研究成果向臨床應用的轉化。

然而,π-HuB 計畫在推進過程中也面臨著諸多挑戰,猶如航船在波濤洶湧的大海中前行,需時刻應對風浪。

在倫理方面,由於涉及大量人體樣本和敏感的蛋白質組資料,項目需建立一套全面、靈活且被廣泛認可的倫理框架。這包括明確統一的倫理審批標準、嚴格規範的患者 / 捐贈者知情同意程序、精確的樣本註釋本體和嚴謹的材料轉移與保密協議,確保研究過程符合不同國家和地區的法律法規要求。同時,高度重視蛋白質組資料可能導致的個體身份重新識別風險,通過專業的倫理委員會進行嚴格監督和管理,從樣本採集到資料傳播的每一個環節,都確保倫理合規,維護研究的科學性和公眾的信任。

巨量資料管理也是 π-HuB 計畫面臨的關鍵問題之一。儘管計畫與現有國際資料中心緊密合作,但仍需建立專門的適配資料中心。該中心不僅要滿足日益增長的中繼資料儲存和管理需求,支援多組學和多模型資料的整合與應用,還要確保全球研究人員能夠便捷、安全地訪問資料。為此,計畫在不同國家設立子中心,結合總部的技術支援和資料管理系統軟體,在滿足各國法律約束的前提下,實現資料的高效管理和共享,為項目的全球協作提供有力的資料支撐。

資料生成與整合環節同樣充滿挑戰。項目涉及多個國際團隊,如何確保不同來源的資料具有可比性和可整合性是關鍵。π-HuB 聯盟將制定嚴格的標準操作程序(SOPs),涵蓋樣本採集、註釋、處理、儲存和跟蹤的全過程,並依據 HUPO 蛋白質組標準倡議原則,對質譜和非質譜技術進行標準化規範,確保各團隊生成高品質、統一的蛋白質組資料集。同時,為適應技術快速發展的節奏,聯盟將持續開發和共享標準、測試樣本和基準資料,幫助研究中心及時更新 SOPs,保證資料的精準性和一致性。此外,開發強大的計算方法和機器學習模型,用於蛋白質組資料分析的質量控制、資料清洗、歸一化和缺失值填充等關鍵步驟,建立集中式、雲端互動的資料共享和分析平台,提供標準化的資料處理工具和流程,並對聯盟成員進行全面培訓,確保所有成員熟悉並遵循 SOPs 和計算工具的使用,從而有效整合多模態資料,挖掘深層次的生物學資訊。

在建模過程中,建構基於蛋白質組的 Meta Homo Sapiens 模型是一項極為複雜的任務。計畫通過三個基本模組逐步實現這一目標:狀態識別碼利用蛋白質組測量資料和多模態 LLM 整合人體表型資訊,在狀態空間中編碼人體不同狀態;譜系追蹤器採用蒙特卡洛方法等量化不同生理 / 病理 / 治療條件下狀態間的轉移機率;路徑規劃器則通過平衡治療效果、成本和個體依從性等因素,尋找最優治療軌跡。這三個模組相互協作,共同建構起一個動態、精準的人體蛋白質組模型體系,為疾病診療提供科學依據。

除了科研目標,π-HuB 計畫還肩負著提升公眾蛋白質組學認知的使命。與基因組學相比,蛋白質組學在公眾和臨床醫生中的認知度相對較低。因此,計畫致力於打造面向臨床醫生和公眾的友好介面,開展科普宣傳和教育活動,提高公眾對蛋白質組學的認識和參與度。通過培訓臨床醫生、病理學家和患者解讀和應用蛋白質組資料,促進蛋白質組學研究成果在臨床實踐中的應用,推動蛋白質組學從實驗室走向病床,真正造福人類健康。

在項目的第一階段(2024 - 2033 年),π-HuB 計畫將重點建構國際合作網路,夯實技術基礎。具體成果包括建構基於細胞類型的組織器官蛋白質組圖譜,揭示細胞類型組織的建構原理;積累大規模自然人群的生物流體蛋白質組資料,開發蛋白質組健康評分和生活方式指南;組織大規模國際多中心佇列研究,驗證疾病早期診斷和伴隨診斷的生物標誌物,推動蛋白質組學驅動的精準醫療發展。

自 2020 年啟動以來,π-HuB 聯盟已迅速發展成為擁有 100 多個成員的國際合作力量,成功動員了全球蛋白質和健康科學領域的科研人員。展望未來,π-HuB 計畫有望通過整合全球多學科研究成果,進一步加深我們對人類生物學的理解,推動醫學從疾病預測邁向精準治療和智能健康管理的新時代,為生物醫學研究帶來革命性的變革,在疾病預防、診斷和藥物研發等方面發揮關鍵作用,成為人類健康事業的重要里程碑。 (歐米伽未來研究所)