李飛飛巴黎AI峰會演講:當前​​才是“首個真正的AI時代”

最近在巴黎AI峰會開幕式上,史丹佛大學李飛飛教授發表演講。這一次,她帶來了一個跨越五億年的宏大敘事:從生命最初獲得感知能力的進化史,講到如今AI的突飛猛進。

「毫無疑問,歷史學家今後一定會把這段時間稱作『真正的第一個AI時代』。」李飛飛在演講中如此斷言。在她看來,從任何維度來看——無論是電腦專業中人工智慧方向的學生人數、投資金額、新創企業數量,還是技術突破——AI都正在掀起一場深度和廣度空前的革命。希望本文對您有幫助。

文章核心預覽

· 李飛飛從五億年前生命感知能力的進化講起,一路講到圖靈時代,展現AI發展的宏大歷史脈絡。

· 首次系統闡述現代AI崛起背後的三大支柱:感知演算法的突破、認知科學的啟發、計算能力的躍升。

· 深度剖析2012年ImageNet革命到2025年大語言模型時代,AI從觀察者到執行者的歷史性轉變。

· 提出"以人為本的AI"三大核心價值:維護人的尊嚴、增強人的能力、促進社區發展。

· 呼籲拋開科幻化想像,採取務實態度推動AI發展,建構開放多元的健康生態系統。

以下是演講全文

各位早安,我非常榮幸且激動能夠在本周與大家共聚一堂,並帶來此次開幕演講。我也非常期待接下來最充滿活力的討論,甚至可能做出一些重要決定。

01 . 人工智慧的歷史與起源

對我們許多人而言,人工智慧往往被視為一個關於技術、關於現代世界的故事,也毋庸置疑是一個關於未來的故事——這正是我們大家今天齊聚於此的原因。然而對我而言,它還是一個可以追溯到所有生命起源之初的故事,早在五億年前就已經開始。那是一個極其久遠的時代,當時連「視覺」這一概念都尚未出現,實際上連眼睛都尚未進化,沒有任何生物曾看過這個世界,所有生命都被置於你現在在螢幕上所看到的那片黑暗當中。

當然,要在十分鐘左右的時間裡講完五億年的歷史確實有點勉為其難,所以我給大家帶來一個簡要版:當進化賦予了你們在螢幕上所見的這些簡單生物以感知周圍世界並對這些感知(即便十分微弱)做出反應的能力時,一場進化軍備競賽由此展開。最初只是一種被動的體驗——讓光線進入體內,但不久之後就變得更加豐富並且富有主動性。神經系統開始進化,“看見”開始轉變為“洞察”,看見進而變為理解,而理解則推動了行動,所有這些都孕育了“智能”,從而永久地重塑了地球上生命的本質。

時至今日,五億年之後,人類的智慧已經讓我們的物種可以想像並塑造工作和生活的各個層面。而我們也不再滿足於僅僅擁有自然賦予的這份智慧。我們懷著的好奇心如今驅使我們想要創造出與我們同樣聰明、甚至更勝一籌的機器。這也是為什麼我們本周要討論的這項重要技術,其起源可以追溯到20世紀中葉。

英國的偉大數學家艾倫·圖靈(Alan Turing)極具前瞻性,早在電腦尚未真正出現之前,他就已經開始思考如何讓它們擁有可與人類比肩的認知能力。對我而言,他的著作一直在向人類發出挑戰:要大膽地設想能夠思考的機器,就像他自己所想像的那樣。這股好奇心與雄心壯志同樣也感染了美國的早期電腦科學家們,他們不僅舉辦了首個研究項目來探索「會思考的機器」的可能性,還在1956年那個炎熱的夏天正式提出了「人工智慧」這一術語——比這個概念進入公眾視野要早幾十年。這張圖片正是他們當時為那次研討會撰寫的研究論文截圖。

說實話,令人覺得有趣的是,他們當時以為只需要兩個月就能解決這一重大課題的很大一部分,甚至能破解智能的奧秘。也許他們太過樂觀,但不得不佩服他們的膽識。如今,我們已經在那個「兩個月計畫」裡走過了820個月,但確實也取得了不少實質性進展。

02 . 現代AI三大關鍵要素

另一個對AI的誤解在於,認為它只是電腦和工程領域的事情,然而事實上,它一直以來都是一門高度跨學科、富有活力的追求。我們現今所處的現代AI時代,正是三項極為重要又各自獨立的技術與科學進步匯聚而成的成果。

第一項是對感知演算法的研究──也就是生物(包括動物乃至人類)如何理解周遭世界,並最終創造出讓機器也能具備類似能力的數學模型。在達特茅斯AI夏季研討會上延續了圖靈的大膽假設之後,神經生理學家David Hubel和Torsten Wiesel率先揭示了哺乳動物視覺皮層中神經處理的層次結構,為他們贏得了諾貝爾獎,也徹底改變了我們對視覺處理的認知。大約在同一時期,心理學家Frank Rosenblatt搭建了最早的神經網路原型之一-感知器(Perceptron)。這項工作啟發了數十年後無數電腦科學家,尤其是早期先驅者,如Kunihiko Fukushima、Jeff Hinton、Yann LeCun、Yoshua Bengio等,去設計愈發先進的模型,最終形成了我們今天所熟知的深度學習神經網路演算法,讓機器擁有了自身近乎神奇的感知和分析能力。

與此同時,第二條研究脈絡也開始出現——認知科學家轉而研究人類自身的大腦,揭示我們對周圍環境進行感知時所擁有的驚人深度和複雜性。他們的研究明確指出,無法將我們的腦與其所處的進化環境分割開來。大腦不過是一個被禁錮在顱骨黑暗之中的機器,卻又從生命最初時刻開始,就急切地向外部學習,通過每一次光線的照射、每一次觸覺刺激、每一聲細語來獲取資訊。

對我個人而言,作為在21世紀初成長的科學家,當時感知演算法幾乎是我所在領域的唯一關注點,而認知科學帶給我的啟示在於「規模」。演化與發育能如此有效地塑造人類智慧,是因為它們能利用大量資料來驅動我們的學習。我和我的合作者、學生們推測,同樣的規律也適用於機器,只不過這一次,資料來自現代數字裝置和網際網路,而不再是依靠生物感官。由此激發了我所在實驗室發起的ImageNet項目-它是第一個針對人工智慧的大規模網際網路訓練與評測資料集。我們提出了一個關鍵假設:資料是讓神經網路等高容量演算法真正「活起來」的關鍵。這個理念讓神經網路煥發新生,開啟了利用海量資料來推動AI進步的全球趨勢,也成為如今所說的AI「規模定律」(scaling law)的一部分。

最後,如果沒有極其強大的運算能力來支撐,以上所有成就都不會發生,或根本連起點都無法跨越。最初的里程碑包括馮諾依曼(von Neumann)在上世紀40年代提出的電腦體系結構理論,它一直沿用至今,並在70年代初催生了第一批微處理器。可有趣的是,真正讓矽晶片原始運算速度獲得飛躍的,竟是電子遊戲。為追求更逼真的遊戲畫面,90年代初誕生了一個小型產業,但在短短二十年內迅速膨脹為全球巨頭——以輝達(NVIDIA)等公司為代表,開發出了越來越強大的圖形處理器(GPU)。結果證明,這正是讓神經網路演算法得以利用網路規模巨量資料進行學習的最後一塊拼圖。所以,如果現場有遊戲玩家,那我們要感謝你們。

03 . 2012年之後的AI突破

當然,後面的故事不僅僅是“歷史”,更是建立未來的“配方”。2012年,在ImageNet挑戰賽上,我的實驗室率先將演算法、數據和計算這三大要素首次大規模結合在一起,幾乎在一夜之間改變了我們整個領域。那是機器首次能夠理解並精確地描述海量圖像——數百張之多。如今我們對此已經習以為常,但在當時,這是一項前所未有的壯舉,甚至有些像科幻小說裡的場景。它就像推倒了第一塊多米諾骨牌,隨後的一系列突破接連不斷,而且來得越來越快。

如今,十多年過去了,我們仍在探索這一切的意義。當初只是學術界的一個好奇心驅動的研究,如今卻年復一年地吸引商界領袖、創業家、產業分析師,甚至是政治家們的熱切關注。如今,十多年過去了,我們依然看不到盡頭。毫無疑問,歷史學家今後一定會把這段時間稱作「真正的第一個AI時代」。從任何一個你能想到的指標來看——無論是電腦專業中人工智慧方向的學生人數、投資金額、新創企業數量,還是其他方面——AI都是一場在深度和廣度上不斷擴大的革命。我想在座的各位都不需要我來重複,過去幾年裡,人工智慧又迎來了更驚人的躍進──也就是大型語言模型的出現。

這些大型語言模型把現代AI所依賴的三大要素——演算法、數據和計算力——都推向了更極致的規模。它們採用了一種名為「Transformer」的新型模型架構,訓練資料幾乎覆蓋了整個互聯網,並在數量驚人的最新、最強大晶片上運行。正如我們所見,其結果是在機器能力上比過去十年來的任何一次突破都更為迅猛。現在我們幾乎將「AI可以用自然語言流暢地跟我們對話」視為理所當然,AI能回答我們提出的幾乎任何領域的問題,甚至能夠生成各種複雜形式的內容——從圖像、聲音、音樂到視頻,無所不包。 ChatGPT所取得的驚人成就就是這項創新如何影響我們日常生活的最佳例證,因其創造了使用者採用速度的歷史新紀錄。

而且,這些能力不只是表面上看著「會說話」而已。若你看看這張圖表,你會發現AI模型在各種基準測試(從手寫識別到博士級的科學問答)上的表現近幾年都在飛速攀升;其中一些難度極高、對人類來說具有挑戰性的任務,AI的成績簡直像坐火箭一樣往上躥,幾乎呈垂直上升的趨勢。

04 . 大模型與近期AI進展

不僅如此,從能夠流暢使用語言開始,大型語言模型還在朝著更具「主動性」的方向發展——它們學會了將復雜任務分解成若干步驟,並逐步規劃如何實現目標。人們目前將這種趨勢稱作「具備代理能力(agentic)的AI」。而在2025年,這似乎正成為這場深遠技術演進的新篇章。對許多使用者和企業而言,這些能力已經非常實用,而它們遠不止於此,後續的發展潛力更是不可估量。

我們目前所討論的還大多停留在「語言智能」層面,但人類之所以為人,是因為我們擁有更全面、更完整的智能。從「被動感知」到「主動行動」的新階段正在到來。在我自己的研究領域——涉及攝影機和機器人時,我看到AI正逐漸具備「創造、理解、推理和互動」這些維度,進而在數字或物理的三維空間裡與人和環境相互作用。我們稱之為「空間智能(spatial intelligence)」和「具身智慧(embodied intelligence)」。

舉個例子:假設你看到這樣一張圖片,視覺智慧很容易讓我們辨識出裡面的所有物品:那隻貓、那盆植物、那張桌子,以及那杯牛奶。但是,這就代表我們感知系統的全部功能了嗎?我敢打賭,其中不少人不僅僅「看懂了」那張圖,還會產生「哎呀,快伸手把那杯牛奶抓住,別讓它掉到地上打碎了!」的衝動。這只是個小例子,但它清楚地展示了「從觀察到行動」之間多麼巨大的區別,也說明了我認為我們如今所處的拐點:AI正從觀察者變成與我們並肩行動的「執行者」。

實際上,就連我一直崇拜的圖靈先生,他對於未來的預見在這一點上也可能有些「過於狹隘」或「向內看」了。因為進化本身已經一再告訴我們:智能的真正強大之處,不僅僅在於“思考”,而是讓思考能驅動行動。想想看,人類的空間智慧讓我們得以建立一個燦爛的文明:從古老的金字塔到工業革命,從科學發現到藝術創作。如今,當AI逐漸拓展我們的空間和具身智能,這將如何進一步改變我們與周遭世界的關係?它又能幫助我們創造和發現些什麼?可以預見,我們已經在打造某種面向未來的新形態了。

05 . 空間與具身智能的興起

接下來,我想給各位展示一些「空間智能」技術迅猛發展的例子。這四個案例來自我在史丹佛的學生和與World Labs同事所做的工作:左上角是對複雜日常視頻的語義標註,右上角是藝術風格遷移,左下角是通過文字提示生成視頻的演算法,右下角則是讓任何圖像都能變成一個3D世界。沒錯,你現在看到的就是梵谷畫作中那家法國咖啡館,被我們用生成式AI模型帶進了一個想像的三維世界。

同樣令人激動的還有機器人技術,也就是「具身AI」。這兩項出自我實驗室的研究成果,將大型語言模型與視覺模型整合到機器人的學習中,使得機器人能在更開放、更貼近現實的環境下執行人類日常任務,而不僅僅是過去那種在高度編程和設置好動作序列的場景裡活動。這些進展都蘊藏著巨大潛能。

不過,如果AI真的不再只是“會思考的機器”,而是同時成為“會行動的機器”,那麼我們整個社會在引導這項技術發展方向時,就承擔著更加緊迫而重大的責任。我認為毫不誇張地說,這一切正將我們帶到一個對整個人類文明至關重要的歷史關頭。我們要如何應對?我想,這也正是我們這周聚在這裡的主要原因。

06 . 以人為本的AI與三大核心價值

這個問題其實一直在指引我的研究工作。雖然我肯定,想要找到簡單答案幾乎不可能,但有一個主線在我多年的探索中始終貫穿,那就是我所說的“以人為本的AI(Human-Centered AI)”,並且它包含三個核心價值:尊嚴(dignity)、能動性(agency)和社區(community)。

首先是尊嚴。當面對越來越強大的技術時,我們人類常常會反思:到底是什麼在定義「我們是誰」?如果把我們能做的一切都一一剝離,剩下的、那份能夠自主決策並親自行動的尊嚴感,依然是我們身為人的本質之一。如果AI這項技術能幫助我們守護並且「找回」這份尊嚴,尤其是能幫助到最脆弱的人群,那將是讓我最激動的事情。

在這一點上,我想給各位看一個例子:如何讓機器人和AI技術幫助那些嚴重癱瘓患者重新獲得自主行動的可能。在這項史丹佛大學的研究中,我的學生利用完全「非侵入式」腦電波(EEG)記錄獲取使用者的思維訊號,透過AI演算法對這些訊號進行解碼並行送指令給機械手臂。最終,機械手臂在病患「意念」的控制下做出包括烹製日式壽喜燒在內的一整套烹飪動作。這便是AI幫助人們重新贏得自主與尊嚴的一個例子。

其次是能動性(agency)。我所在實驗室多年來的核心理念,就是探索如何讓AI「增強(augment)」人類的能力,而不是取代人類。毫無疑問,每一次重大的技術變革都會對勞動市場產生衝擊,AI也不例外。然而,我相信AI可以幫助我們從創造力到醫療保健、從科學研究到製造業,並在各方面獲得新的能力。因為在許多方面,AI的技能與人類的技能其實是互補關係。我們完全可以利用這個「數字或物理上的合作者」來強化自身能力。

過去十年裡,我的實驗室一直在研究AI如何改進醫療服務,這讓我見識到許多能讓AI幫助提高醫療品質、同時減輕醫護人員負擔的機會。這裡給大家展示三個例子:利用搭載AI的智慧攝影機來協助醫院監督醫護人員的洗手規範,輔助記錄病人復原時的移動訓練情況,以及追蹤手術器械的使用狀況。

最後是社區(community)。過去十年裡,科技也常常被詬病“把人們越拉越遠”,催生了各種“資訊繭房”和“狂熱話題誘餌”等。如今,AI又一次走到了十字路口:一條路是讓AI主導很多社交體驗,甚至為每個人極度定製並強化他們原本的偏見;另一條路則可能幫助我們建構更健康、更強大並具有包容性的社區,比如借助AI教育助手,讓更多人(包括孩子和成人)獲得學習的機會。這裡我舉兩個簡單案例:左圖是利用AI和虛擬現實技術,為有閱讀障礙的大學生提供個性化輔助工具;右圖是美國水牛城大學開發的一個AI專家系統,用來緩解語言治療師(speech-language pathologist)短缺的問題,幫助對3至10歲兒童進行早期語言干預。

07 . AI治理:理性、務實與多方協作

以上這些例子引出了我今天想和大家分享的最後一個想法:在這樣一個關乎人類文明走向的關鍵時刻,我們如何通力合作,以一種理性、務實且負責任的方式去治理AI,從而讓它繼續釋放驚人的潛力?最起碼,我們需要從以下幾個方面開始:

首先,務必要基於科學而不是科幻來進行治理。無論是大街小巷還是華爾街,關於AI的話題中都充斥著誇張炒作和聳人聽聞的描述,往往導致對AI的治理政策被各種誤導。相反,我們應該用更科學的方法來評估和測量AI的實際能力與侷限,從而制定更精確、可落實的政策,並且基於現實而非幻想。

其次,我們需要採取務實而非意識形態化的態度來看待AI治理。 AI有望成為一種強大技術,如果使用得當,它確實能讓我們更好地工作和生活。因此,我們不應該只顧在上游阻礙這項仍然非常年輕的技術進一步探索與研究;相反,我們應該更關注它的具體應用場景,確保它能被善加利用,並對可能產生的不良後果加以防範。

最後,我們必須投入更多資源,建立更健康、更蓬勃的AI生態系統,讓學術界、創業者、開源社群以及公共部門都能與大企業一道參與進來、發揮關鍵作用。如果AI真的要改變世界,我們就需要各行各業、社會各群體都能在這個變革過程中發揮作用、共同塑造未來。

我在演講開頭提到過,現代AI之所以興起,主要歸功於演算法、資料和計算力這三大要素的結合。但若這三種關鍵資源僅僅掌握在少數幾家公司手中,AI生態系統就會面臨好奇心驅動的研究乏力、頂尖教育人才受限、開放原始碼項目缺乏資源、多學科交叉探索不足等諸多問題。

75年前,艾倫‧圖靈對未來一瞥,發出了「人類是否有膽量去構造能夠思考的機器」的挑戰。今天,我們已經把這個挑戰推進到一個恐怕是他當年難以想像的高度。AI時代的技術飛躍令人歎為觀止,我相信,如今是時候提出一種新的挑戰了:與其再問“我們能否創造AI”,不如問“我們能否創造一股向善的AI力量”。

簡而言之,今天我想向各位發出邀請:讓我們共同努力,去建構「以人為本」的AI。

謝謝大家。 (財經ThinkTank)