每個人都有個性化的體系和敘事,對於“整個職業生涯都在追逐極其困難、近乎瘋狂的問題”的“AI教母”李飛飛而言,尤其如此。
在最新的訪談中,她談及AGI,談及元宇宙,談及具身智能,談及智能體,談及空間智能,談及她的幸運和自豪。
這些元素存在怎樣的內在邏輯,又如何有機地出現在她的敘事體系中,且來看有關她的最新訪談。
她說,從進入人工智慧領域開始,她就確定了終身奮鬥的夢想:讓智能體能夠講述世界的故事。
她認為,這是一個長達一百年的夢想,而空間智能是承載這一夢想的“AI領域中最困難的問題”。
無論是虛擬世界的遊戲、元宇宙,還是現實世界大家正在談論的具身智能,“這一切都處於世界建模和空間智能的連續體上”。
對於空間智能與AGI的關係,她認為,“沒有空間智能,通用人工智慧就不完整”。
在她看來,解決空間智能的問題,就是解決“如何理解三維世界、生成三維世界、推理三維世界、在三維世界中做事”的問題,這是“人工智慧的基本問題”。
而要解決這個問題,就“涉及到創造性的世界模型”。
這一模型,超越了平面像素、超越了語言,是真正捕捉三維世界的結構和空間智能的世界模型。
她說,語言在本質上是一維的,語言純粹是生成性的。“自然界中不存在語言,你無法觸碰或者看見語言,語言源自每個人的大腦,而這是一種純粹的生成訊號”。
從時間維度看,語言作為交流、推理、抽象的工具,人類語言的進化發展大約花了3億年到5億年,不到十億年,而5.4億年前,當首批三葉蟲在水下進化出了視覺感知能力,這引爆了生物界進化的軍備競賽。
“動物智能開始相互競爭。”她說。
語言的生成、建構和效用,已然非常具有創造性,但“現實世界遠比這複雜得多”。
首先,現實世界是3D的。如果加上時間,那就是4D,這是一個組合難度更大的問題;
其次,視覺對世界的感知和接收是一種投射,無論是你的眼睛、視網膜還是相機,它總是將3D轉換為2D,你得明白這有多難,從數學角度來說這是錯誤的,這就是為什麼人類和動物有很多個感測器。
第三,我們要生成虛擬的3D世界,它仍然必須遵守物理規律等。
第四,網際網路上充斥著大量的語言資料,而空間智能的資料都存在於人類大腦中,它不像語言那樣容易獲取。
這也是空間智能研究如此困難的原因,但李飛飛對此非常興奮。
“如果它很容易,那別人早就解決了。我的整個職業生涯都在追逐那些極其困難、近乎瘋狂的問題,我認為這就是那個瘋狂的問題。”她說。
雖然從機械原理上,人類能用眼睛對物體進行三維測量,但“我們甚至都不能完全理解人類的所有感知,我們還沒有解決3D在人類視覺中如何運作這個問題……,數學模型又在那裡呢?”
但當空間智能能夠“以一種非常流暢的方式在生成和重建之間切換”,這解決的是虛擬世界的問題。
在李飛飛看來,空間智能模型就是世界模型。
應用場景,在李飛飛話語體系中,被稱為“用例”。談及此時,李飛飛表示,“空間智能模型或者說是世界模型的實用性非常大”。
譬如,可以當設計師、建築師、工業設計師、藝術家,還有遊戲開發者,可以用於機器人學習等方面。
她進一步說,“我對元宇宙非常感興趣,我知道很多人仍然覺得它不管用,雖然我也知道它仍然無法運作,但我認為硬體和軟體的融合即將到來,這也是未來的另一個絕佳用例。”
而她認為,當前元宇宙障礙來自兩個方面:硬體是目前元宇宙障礙的一部分,在元宇宙中生成內容,需要世界模型。
李飛飛自認為是世界上最幸運的人,“因為我的整個職業生涯始於AI寒冬結束的初期,也就是AI開始騰飛的起點,而我自己的工作、我自己的職業生涯有很大一部分都參與了這一變革,或者為這一變革提供了助力。”
作為電腦視覺科學家,她“見證了電腦視覺從圖像識別到圖像描述再到使用擴散技術進行圖像生成的驚人發展,這一切都在以一種非常令人興奮的方式發生。”
2022年11月,ChatGPT打開了真正能夠通過圖靈測試的工作生成模型的大門,“這個進展非常鼓舞人心”。
而她的“讓智能體能夠講述世界的故事”的夢想,會困擾她的一生。
她說,“當我作為研究生畢業時,我告訴自己,如果我在臨終前能夠創造一個能夠講述場景故事的演算法,我就成功了。”
李飛飛也非常享受作為創業者的一面,她創辦的World Labs正在招聘工程人才、產品人才、3D人才和生成模型人才。
她認為,“無論你來自那裡,無論我們試圖解決什麼問題,都無關緊要。那種勇於接受困難之事、全力以赴並想盡辦法去解決問題的勇氣和無畏精神,是成功人士的核心特質。”
目前,她正在為World Labs尋找具備這種特質的年輕人作為CEO。 (元界)