獨家對話智源研究院院長王仲遠:中國AI發展不會被阻礙


北京智源人工智慧研究院院長 王仲遠博士


2003年,王仲遠考上了中國人民大學,在這所以人文社會科學為主的高校裡就讀電腦系,從此愛上了這個學科,並在人工智慧(AI)技術裡面越走越深。

2007年,他在本科期間獲得了國際頂級學術會議 SIGMOD 2007 Undergraduate Scholarship ,從而開啟了王仲遠的學術研究之路。

王仲遠博士在 AI 學術領域深耕長達 15 年以上。從自然語言處理(NLP)到知識圖譜、神經網路技術研究,從微軟、Facebook(現Meta)到美團、快手,他不斷深入紮根 AI 技術研究,從而讓他非常相信,通用人工智慧(AGI)是AI技術領域“聖盃”,也是所有AI科研人員所追尋的目標。

“AI 確實能夠解決很多具體、單一任務,但對於AGI,在前幾年,我依然覺得可能要四、五十年,也可能我們這一輩子都見不著了,不過,大模型和GPT的到來,讓我看到了AGI不再遙遠。”王仲遠對鈦媒體App表示。

“我意識到,AGI很可能在我們有生之年會到來,尤其AGI對我們的下一代產生重大影響,我究竟在這個過程中發揮哪些作用。”王仲遠不斷思考著他的未來。

他曾說,做研究,過程往往比結果更重要,做正確的事情,好結果自然會來。做學術研究跟創業一樣,只有自己真正扎進去才會發現其中的奧秘。

因此,為了全身心研究 AI,王仲遠做出了一個重要的決定:到智源研究院一起推進AGI研究。

2024年2月,北京智源人工智慧研究院(BAAI,簡稱“智源研究院”)宣佈,今年38歲的王仲遠博士,擔任智源研究院第二任院長,全面負責研究院各項工作。

同時這也意味著,智源研究院首次完成了院長的繼任制度,黃鐵軍已於2023年6月任智源研究院理事長。

實際上,智源研究院是全球最早開展 AI 大模型的中國非營利性新型研究機構,於2018年12月在科技部和北京市委市政府的指導和支援下成立。微軟總裁曾表示,有三家機構的 AI 技術處於絕對的前沿——OpenAI、Google和智源研究院。而該機構主辦的“北京智源大會”,如今已經成為 AI 領域國際、權威與專業性的綜合性行業盛會。

今年6月14日至15日召開2024北京智源大會前夕,王仲遠博士與鈦媒體進行了約1小時的獨家對話。

王仲遠對鈦媒體App 表示,智源研究院從籌備建立,到當年“悟道”模型的研發,他在外部也一同見證經歷並參與其中,這讓他看到智源研究院對於 AI 技術前沿技術研究的全身心投入,這也是促使他加入智源的重要原因之一。

對於智源的未來發展,王仲遠坦言,智源研究院定位和戰略目標是始終引領 AI 前沿技術的發展,做未來3-5年的研究探索。同時,發揮第三方中立、非營利機構的優勢做好公共技術支撐,解決當前產業的痛點。在研究方向上,會集中資源發展原生多模態世界模型以及具身智能,推動實現 AI 技術的下一次重大突破。

談及最近的開源、閉源話題,王仲遠指出,開源大模型不會越來越落後,而且,智源研究院會堅定支援開源開放,尤其開源技術促進了整個 AI 產業的蓬勃發展,但同時,他也希望開放原始碼專案能夠得到合理使用,能夠獲得更大的收益和雙向互通。

王仲遠認為,當前美國政府對於中國 AI 技術發展加以限制,然而,美國只會延緩,但不會阻礙中國 AI 技術的長期發展,所以,《ENFORCE 法案》對於中國 AI 技術發展不會產生特別大的影響。

王仲遠強調,過去幾十年,中國 AI 人才儲備、人才成長速度都已經有了很好的基礎,即使未來美國真的禁止之後,也阻礙不了中國 AI 技術的發展,美國最終還要選擇跟中國一起合作,尤其是到達 AGI 階段,需要全球一起來聯合管控 AI 帶來的風險問題等。

“智源非常願意去為中國的 AI 產業探索未來、可能的技術解決方案,我們可以試、我們可以去選擇做前期的探索,有可能會失敗,但這恰恰為中國科學探索貢獻了自己的失敗和經驗,這是很好的科學研究。”王仲遠表示。


以下是王仲遠博士與鈦媒體AGI之間的對話整理:

鈦媒體AGI:今年2月,北京智源人工智慧研究院宣佈由你擔任新任院長,那麼,是什麼原因促使你選擇從快手、美團這樣的企業離職,來到智源呢?

王仲遠:今年2月1日起我正式上任,但是,我接觸智源更早一些。從智源成立的第一天開始,當時我還在美團,其實就參與了智源的籌建工作。然後我在快手的時候,2022 年 10 月智源成立了第一個大模型百人團隊,我當時推動了快手和智源的戰略合作,並且一起參與了悟道大模型研發,包括“悟道”1.0、2.0系列模型,我都有參與。

那麼,為什麼我會加入智源?這跟我個人對於智源或者對於 AGI的追求有非常強的關聯性。

從1943 年神經網路的誕生開始計算,人工智慧技術應該有八十年的歷史。我畢業之後就踏入了 AI 領域,從自然語言處理(NLP),到知識圖譜、神經網路,已經做了 15 年以上的研究。知識圖譜屬於符號邏輯,而神經網路屬於連接邏輯,一開始我就參與其中。

所有 AI 技術的研究者、工程師、從業者的最終目標,就是讓機器有一天具備人類的智能,也就是所謂的通用人工智慧(AGI),大家的目標都非常一致。

我們雖然做了好多人工智慧,但都只能叫弱人工智慧,也就是針對特定的場景、特定的任務,收集了特定的資料,訓練了特定的模型,進行評估,然後能夠去完成一些任務。

比如人臉識別能非常準確;AlphaGo能比人類世界圍棋冠軍下地更好,但是,AlphaGo依然解決不了醫療的問題,依然解決不了自動駕駛的問題,甚至都不能解決人臉識別的問題,需要針對不同的場景解決問題。因為,模型本身不具備通用性、泛化性,只能解決很多具體、單一任務。

在前幾年,我依然覺得通用人工智慧可能要四、五十年,可能我們有生之年無法見證。

然而,大模型技術來臨,GPT 不斷髮布,而我作為 AI 方向的從業者,開始相信大模型帶來的技術路線。因此,我在快手、美團期間也推動了從NLP到多模態大模型的開發,也確實看到了一些可能性。大模型能力被激發了,不僅能解語文題,還能解數學、物理、化學。

就我個人而言,ChatGPT已經具備了一定的理解和推理能力,從而讓我認為這個世界要發生改變。

實際上,理解和推理能力是AGI非常核心、需要突破的關鍵點。以往,我做的很多研究,也是為了讓機器能夠理解人類的語言,像人類一樣進行思考。一個是理解,一個是思考,這兩個能力都被GPT在某種程度上突破了,有了重大的技術提升,因此,離AGI的目標越來越近了。

基於上述判斷,我在思考GPT 這種大模型技術路線,確實有可能在四、五年內實現AGI。這也意味著,我們有生之年可能見到 AGI這一“聖盃”,這是所有 AI 從業人員一直追求的夢想。

還有一個很有意思的小故事。去年 3 月,我到孩子的小學分享了AI 技術,有一位小女孩就站起來問我說,“叔叔,如果 AI 什麼都能做了,將來我們做什麼?”

這個問題一直縈繞在腦海裡,我第一次意識到,AGI 時代真的要來了。一方面我們希望推動 AI 技術盡快達到 AGI 水平,但另一面,我們這一代、下一代都會與 AI 共存,這對人類意味著什麼?到底是一件好事,還是一件壞事?其中的風險是什麼?我在這個過程中可以發揮哪些作用?



智源本身是一個非營利性機構,聚焦 AI 前沿研究,能讓我有機會全身心專注於 AI 這件事。同時,不管是悟道大模型系列的發佈,還是智源大會所建構起來的良好生態,都推動和支撐了中國 AI 行業向前健康發展。這都對我觸動很大,也是我加入智源非常重要的原因。


鈦媒體AGI:快手最近內測了文生視訊產品“可靈”,受到廣泛關注和好評,被認為是“中國版 Sora”,您認為評價此次快手可靈的產品效果?智源則要往哪個方向發展?

王仲遠:這(可靈)是我原來的團隊研發的,當時還是我在快手的時候就在佈局文生視訊項目,團隊同學非常優秀,我覺得這代表了當前產業界的最高水平、真實水平。

可靈是基於DiT(Diffusion Transformers)架構,這個架構被OpenAI的 Sora驗證過了,這次智源大會也會請Sora負責人和DiT提出者。實際上,國內絕大部分的企業(大公司、創業公司)都選擇DiT架構研發 AI 視訊生成,因為它的效果確實很驚豔。但是我們認為它(DiT)不會是將來的終極路線。

智源研究院會選擇另一條終極路線。

我們認為,未來技術形態一定是原生、統一的語言文字圖片視訊模型,真正的多模態進、多模態出的技術體系,而且要不斷容納更多模態資料做成統一框架。目前,我們正在做這方面的訓練和探索。

智源作為一家科研機構,要更往前一步探索,不去復現行業路線,而是去做真正的下一代技術路線。在這個過程中,確實需要依賴巨量資料、大算力,模型訓練周期也很長,最終還要進行效果評估,資源消耗很大,帶有大量不確定性,這對於現在的科研而言還是非常有挑戰。

通往 AGI 這條路徑依然是資源消耗型,並且看起來還沒到盡頭,這既是好事也是壞事,好事是AGI確實有可能實現,壞事是資源消耗也帶來了很多資源浪費。


鈦媒體AGI:這輪智源的大模型發展模式,到底是像之前研究“悟道”時候那樣形成“田忌賽馬”,還是要統一整合團隊研發模型?

王仲遠:我認為還是資源集中。

現在大模型的發展,本質是一個演算法系統工程。它不是簡單的演算法突破,也不是簡單的工程,而是需要資料團隊、系統團隊、演算法團隊、評測團隊等緊密配合、持續迭代,所以,大模型是非常龐大且複雜的系統級工程。

國內“百模大戰”導致資源相對分散,並不能真正一個很好的技術路徑,而真正的路徑需要集中資源進行大模型訓練。

一、兩個科學家就能做出震驚世人的結果的難度越來越大,大模型是需要團隊作戰演算法類的系統性工程。

例如,假設有2000張卡,兩個團隊PK,每個團隊只能分1000張卡,這1000張卡訓練的模型效果不如2000張卡,這是非常確定的,因為參數模型、算力、資料需求同步增加帶來的效果非常有限,所以大模型需要一個演算法架構師協同不同類型團隊,服務一個共同的目標,才有可能做好。


鈦媒體:智源不僅做悟道大模型,而且還公佈了大模型評測體系。這種既做“運動員”又做“裁判”,我們如何理解智源研究院的定位“邊界”?

王仲遠:這是一個很好的問題,這其實也涉及到智源整個定位和戰略目標升級:始終引領人工智慧前沿技術的發展,做未來3-5年的研究探索,同時,發揮第三方中立、非營利機構的優勢做好公共技術支撐,解決當前產業的痛點。

從智源悟道 1.0、2.0 MoE 模型,到去年 3.0,整體不僅參數量變大,而且趨向於實用化。而且智源也一直秉承開源開放的路線,過去一年開源模型下載量超過了4700萬次,是非常令人驚豔的。這是我們對產業做出的貢獻,同時我們也建立整個社區和生態。

那麼,進入新的階段,智源定位到底是什麼?

首先,大語言模型已經有相對成熟路線,我們需要很好地支撐他們。智源作為一個非營利性第三方中立機構,沒有利益訴求,這是天然的站位。倘若行業出現“劣幣驅逐良幣”的情況,不利於整個產業的發展。因此,我們會通過模型評估告訴行業哪些是實力強者,評估遵循一個基本原則,即科學、權威、公正、開放。

其次,資料對於大模型而言至關重要,所以智源也在牽頭建設資料集。今年智源大會上會公佈兩個資料集:一是千萬級高品質開源指令微調資料集, 二是開源中英文行業資料集。此外,我們還在牽頭做版權機構談資料使用,使得高品質資料進一步促進模型開源開放。

這都是智源正在做的對產業界的公共技術支撐。

再次,另外一方面,作為一家研究機構,我們要始終朝著未來 3-5 年的AI 發展方向努力,當大家都在“卷”語言模型的時候,我們會針對多模態大模型、具身智能大模型、生物計算大模型這些前沿方向進行探索。

其中,多模態是公認的重要技術路線,也是近兩年火熱的發展方向,多模態模型能夠讓 AI 感知這個世界,而這條技術路線等 AI 發展到這一天時,會形成數字智能體。

數字智能體一定會與硬體結合,進入物理世界,這就是“具身智能”。所以在我看來,“具身智能”是未來5-10年智源研究院會堅持探索的一個技術路線,這和整個產業方向上有比較明顯的差異。

最後,當依然有技術路線可以研究和探索時,智源研究院會非常堅定的發展我們認為最有可能的技術路線,希望能把這條路走通,即使失敗了,我覺得作為一個科學探索,依然非常有價值,這是一個研究機構應該做的事情。

所以,智源願意去為中國的 AI 產業探索未來可能的技術解決方案,我們可以去選擇,去做前期的探索,有可能會失敗,但這恰恰為中國科學探索貢獻了自己的失敗和經驗,這也是很好的科學研究。


鈦媒體AGI:最近行業裡面有一種說法“開源就是落後”,最近斯坦福大學也承認套殼了中國的大模型技術,那麼你怎麼看待開源、閉源帶來的風險和戰略優勢?

王仲遠:我個人談談開源、閉源的想法。

第一,我覺得開源確實極大地促進了過去幾十年電腦領域的發展,大家論文都是公開的,而非只依靠專利。開源社區有很好的項目和生態,進而促進了整個產業發展。所以從某種意義上來說,開源對於 AI 技術的快速發展有重大的推動作用。當然,這也會帶來很強烈的競爭和優勝劣汰。

我肯定支援開源,智源也在開源開放這件事情上做出了非常獨特的貢獻。

但是,我們希望探索更好的開源生態的機制。智源也做了很多無償的貢獻,這種單方面輸出和貢獻,很難持續實現開源生態的長期健康發展,我們需要更多的開源基金會支援開源開放的生態氛圍,希望促進全球人工智慧領域的共同發展。

第二,對於斯坦福大學套殼這件事,我們可以很清晰看到,國外的同行也在使用中國的開放原始碼專案,這本身就證明了中國開放原始碼專案做得足夠的優秀。儘管整個事情在使用上出了問題,但我認為這不會對開源生態產生影響。整體上,開源還是促進了整個產業的發展,這是一個根本性的結論。但同時我們也希望開放原始碼專案能夠得到合理使用。


鈦媒體AGI:近期,美國眾議院外交事務部委員通過了一項旨在嚴格管控 AI 技術出口的《ENFORCE 法案》,不僅限制了 AI 系統和大模型的出口,一旦法案通過,持有 H1b 簽證的中國員工或留學生可能需要特殊許可才能在美從事 AI/ML 相關工作。那麼,這種限制大模型出口對行業有怎樣影響?

王仲遠:我認為,這(美國)始終會延緩,但不會阻礙中國 AI 產業的發展,我個人認為不會產生特別大的影響。

有四方面原因:

1)國產大模型已經突破GPT-3.5、無限接近 GPT-4 的階段,甚至在某些能力上已經超越GPT-4,中國的模型已經越過了很關鍵的門檻。過去一年,從整個國內算力搭建、模型演算法、訓練研究來看,大家的信心是越來越足,也使得模型達到了一個可用的、產業化的水平,這意味著未來可能形成一個正循環。當然,我們也要看到差距。

2)另一方面,AI 技術依然在不斷突破和創新。中國有了現在的基礎,即使未來美國真的禁止,也許會延緩,但阻礙不了中國 AI 技術的發展。這就意味著,美國最終還要選擇跟中國一起合作,尤其是到達 AGI 階段,需要全球一起來聯合管控 AI 帶來的風險問題等。

3) 事實上,GPT最新技術不開源,也沒有論文,中國本身就是自己尋求技術突破,因此,即使法案通過,會有一些影響,但不是根本性的問題。

4) 談到人才交流,這幾十年,中國 AI 人才儲備、人才成長速度都已經有了很好的基礎。那麼,中美關係帶來的 AI 算力限制,人員、技術交流的障礙,會不會對我們有一些影響?肯定有影響,但是這種影響,始終只能是延緩,但阻礙不了中國 AI 產業發展。


鈦媒體AGI:很多人都將Scaling Law(規律效應)奉為圭臬,但最近田淵棟等人提到對於Scaling Law的反對意見,或者認為Scaling Law路線不一定的非常精確,您如何看待?Scaling Law是否就是AI技術發展的唯一定律?

王仲遠:首先我是相信Scaling Law 的。

Scaling Law並不是一個新的事物,而是整個 AI 技術發展都一直都存在得。每一波 AI 技術浪潮,本質上都來源於算力、資料和參數量的提升,所以Scaling Law將持續影響 AI 技術的發展歷程。

但同時,我認為還有幾點關鍵因素,第一、網際網路的資料已經基本都被用完了,但很多的多模態資料、世界資料、行業資料依然非常多;第二、未來 AI 能否提升,取決於GPU 叢集能耗是否能繼續擴大、參數量擴大、模型能否迅速收斂,如果這些都具備,我們能看到無限逼近人類,乃至於超過人類的 AGI 時代。


鈦媒體AGI:周伯文教授將要擔任上海 AI 實驗室的院長。一直以來,北京智源和上海 AI 實驗室被經常做對比。那麼,您是如何看待兩家機構的競爭?

王仲遠:祝福周老師在新的工作中越來越好。 (鈦媒體AGI)