雲棲筆記：FOMO 消散後，對 AI 的信心到底該從何而來？

2024/09/22

•

過去 18 個月最大的產業成果，或許就在於「從一顆顆躁動的心」，變成了「一條條明確的路」。

先問一個問題：從體感上看，AI 領域的節奏你覺得是變快了還是變慢了？

客觀上看，從去年 2 月開始，ChatGPT 開始在中國成為了所有人談論的話題，短短幾個月就形成了一個「共識」——AGI 是一場工業革命，大模型會改變未來。

對一個新技術如此迅速地達成共識，放在全球科技史上這可能都是第一次。躁動心開始跳動，FOMO 情緒開始翻湧，有人怕錯過，有人怕失去。

而過去 18 個月，可用的新模型和新產品層出不窮，但效果驚豔、非它不可的不多。曾經期待（或擔心）的顛覆性變革看起來依舊在路上，而 AI 巨大投入難道就是誕生了一些局部領域的效率工具？這看起來確實也有點算不過帳……於是無論在中國還是美國，對於之前的「共識」開始有了動搖，覺得 AGI 是個大泡沫的「輿論應力」開始不斷積聚，有點共識達成太快所以「始亂終棄」的趨勢。

其實「預期」這個東西，很容易因人而異的主觀。而「信心」這個東西，也很需要有現實論據的邏輯支撐。那麼過去 18 個月 AI 技術到底經歷了怎樣的發展，未來到底應該有什麼樣的「預期」和「信心」，回答這個問題最好的方式，還是去看看處理程序中的細節，回到客觀的視角做判斷。

帶著這樣的視角，在今年阿里云云棲大會上，我跟在一線「摸爬滾打」的 AI 創業者、從業者，以及阿里雲這樣的產業巨頭做了一系列交流。作為離 AI 最近的人，他們是擼起袖子親自下場的 Doer，他們看到的東西應該能更好地幫我們做出自己的判斷。

01 AI 不是減速，而是狂奔

技術進展常常以 18 個月為周期，從創業者的視角看，無論是過去的 18 個月，還是未來的 18 個月，模型技術並沒有在減速，而是在加速。

對 AGI 進展感到快或慢的差異背後，是「打遊戲的人」和「看遊戲的人」在不同視角下的體感。在「看遊戲的人」眼裡，怎麼老是那幾個「妖怪」，情節推進太慢了，快看睡著了；玩遊戲的人會說，新技能點出來又要「洗點」了，又多了好幾個誘人的新任務，血壓都要 160 了。

客觀地講，過去 18 個月裡的三個里程碑事件，讓他們看到了大模型在明顯提速。

第一是 GPT-4o 的發佈。

在 GPT-4o 之前，OpenAI 有 GPT-4V 視覺理解模型、有 Dall·E 視覺生成模型、有 Whisper 聲音模型、和 Sora 視訊生成模型，但 GPT-4o 讓原本這些孤立的模型融合在一起了。而多模態融合這件事的意義在於，可以更好地模擬真實世界、為我們的物理世界建模，這讓模型又上了一個新台階。

第二件事情則是特斯拉發佈的 FSD v12，一個端到端的大模型，可以直接把感知訊號直接變成一個控制序列。它的意義不僅在於智駕本身，這套方法論為智能裝置如何和大模型相結合，更好地探索物理世界指明了一個方向，從數字世界走向物理世界一個真實的應用場景。

第三件事情是上周的「o1」模型，第一次證明了語言模型其實也可以有人腦的慢思考，也就是「系統 2」的能力。系統 2 的能力是 AI 能歸納世界所必備的一個前提條件、一個基礎能力。

在階躍星辰創始人、首席執行官姜大昕看來，AGI 的演進路線可以分為模擬世界、探索世界和歸納世界，GPT-4o、FSD v12 和「o1」分別在這三個階段或者說方向上取得突破，這是模型能繼續提高上限的明確訊號。

月之暗面 Kimi 創始人楊植麟也認為，各種技術指標和實際體感都在指向模型智商的提升。橫向對比，多模態帶來了更完整的體驗，縱向對比，單就純文字模型的能力一直在提升。

清華大學人工智慧研究院副院長、生數科技首席科學家朱軍補充了一個現象來解釋他眼中的 AI 提速——學習曲線正在變得更加陡峭。追上一個技術的時間正在縮短，因為大家整體的認知和準備都更加充分，不像 ChatGPT 剛出來時，多少有點不知所措。

當然，看到明確的AI技術在提速是一方面，實際做的過程中，創業者們也更早地看到了腳下的瓶頸。

從大模型算力、演算法、資料的黃金三角來看，網際網路幾十年的優質資料很快會被用完；當前演算法下，預訓練的 Scaling Law 正在走入瓶頸。姜大昕談到了現在大家的一個普遍觀點：GPT4 到了兆級參數之後，再去 scaling 它的參數，邊際收益是在下降的。

而且不少人可能都注意到了，Elon Musk 前段時間在 X 平台上展示了自己花百億美金，迅速拉起的十萬卡的「豪華」GPU 叢集。Scaling Law 這麼玩，可參與的選手一定就很少了。密度才能帶來創新，如果最終真的要靠比如 OpenAI 一家來交付所有人的智能，這事並不那麼靠譜。

但就在這時候「o1」來了，通過把強化學習的訓練框架引入語言模型，從演算法上打破了當前的創新瓶頸。

技術角度看，o1 展現了繼續大幅提高模型技術水平上限的方法；能力水平看，o1 也展現了語言模型可以解決複雜推理問題的能力。從這兩點 o1 所代表的重要性來說，這幾乎是未來 18 個月最令人興奮的進展。

過去的 GPT 系列語言模型，原理是預測下一個 token，對應人腦的快思考（系統 1），但 o1 通過引入強化學習的訓練框架，第一次證明了語言模型也有慢思考（系統 2）的能力，讓 AI 不僅能「讀萬卷書」，也能「行萬里路」，也就是說讓 AI 能通過規劃、行動、自我反思、驗證等過程不斷試錯和探索，直到找到正確途徑。

對於這條技術路徑的前景，楊植麟打了一個比方，他說「o1」提高了 AI 的上限，這個上限的提升，是把現在努力提升 5%、10% 的生產力水平，做到 10 倍的 GDP，這完全有可能實現，關鍵是弄清楚如何通過強化學習進一步 Scaling。

其實強化學習在上一代 AI 浪潮裡就已經成為明確的技術方向，DeepMind 在 AlphaGo、AlphaFold 和 AlphaGeometry 中走的都是強化學習路線，但 o1 的出現，在強化學習通用性和泛化性上了一個大的台階，它把強化學習 scale 到了一個很大的規模，姜大昕把它看成 scaling 帶來的技術新範式，「強化學習的 Scaling」。

當前，o1 在有明確對錯的程式碼、數學、原理證明等多個領域展現了強大的推理能力，但 RL（強化學習）究竟怎麼去泛化，OpenAI 並沒有被公開具體方法，也不能保證 OpenAI 最終一定可以把 o1 泛化到完全通用的領域。原因就像朱軍解釋的那樣，你很容易告訴模型程式碼、數學等問題的最佳化目標是什麼，但在更廣泛、通用的場景裡，如何告訴模型什麼是對、什麼是好，這種人類都可能沒有對齊的目標。

不過在一個確定的方向上存在不確定的事，對創業公司也是好事，否則就沒有創業公司的機會。一個技術新範式的開端，恰恰會讓創業者覺得非常興奮。相當於OpenAI找到了一條上限很高的道路，通過仔細琢磨它背後的方法，創業者有很多新的可能性。

在這一點上，楊植麟的判斷很有啟發，他認為o1 之後，接下來最重要的可能是「開放性的強化學習」，比如說在產品上跟使用者互動，在一個真實的環境裡面讓智能體完成任務，然後自己去進化。

「武器庫」多了一個武器，對做 AI 應用的創業者來說，怎麼都不是壞事。o1 這樣上限更高的複雜推理模型，還可能會把 B 端的 AI 應用從當前的 copilot 助理類產品，推向 autopilot 讓 AI 自己獨立完成閉環任務的程度，場景上也會滲透到更縱深的生產製造環節。

同時，ToC 應用也有了 copilot 和 autopilot 智能體協同作業，為使用者提供更好體驗的機會。如果說大語言模型是讓人看到了一個令人期待的新大陸，那麼這 18 個月最大的進展就是在這新大陸之上人們找到了可以培育新文明的綠洲，它還需要很多建設，但它值得建設。

02 從數字世界的共識，到物理世界的共識

當模型技術的上限看到明確提升的路徑，「老問題」回來了，AI 應用什麼時候爆發？

今年，很多人降低了對 AI 的預期，是因為原本期待的 SuperAPP 並沒有出現。言外之意，大家覺得 AI 應用最大的想像力就是這個了。但在今年雲棲大會上，你會發現，未來不止是數字生產力場景這些「小」場景，在自動駕駛、具身智能等「大」場景上，也正在一步步有路徑地解鎖。而原本大家想像的「在數字世界的爆發」很可能變成在物理世界的「浸潤」。

主論壇上，阿里巴巴集團 CEO、阿里雲智能集團董事長兼 CEO 吳泳銘在主題演講中也給出了明確的判斷。他認為生成式 AI 最大的想像力，絕不是在手機螢幕上做一兩個新的超級 App，而是接管數字世界，改變物理世界。

相應地，AI可以發揮的場景空間，就不只是移動網際網路的延展，而是一次對物理世界的變革。

清華大學人工智慧研究院副院長、生數科技首席科學家朱軍類比自動駕駛 L1-L5 的分級，讓現場觀眾看到 AI 對物理世界改變的明確路徑。他說，L1 相當於 ChatGPT 那樣的聊天機器人；L2 可以做複雜問題、深度思考的推理；L3 叫智能體，對應吳泳銘提到的從「數字世界」走向「物理世界」；L4 是要去自主發現和創造新知識；L5 可以去協同高效地運轉。

在不同垂類任務上，AI 目前所處的階段不同。總體上，我們現在正在從資料世界邁向物理世界的階段，按照朱軍的類比，也就是處於：正在滲透 L2，邁向 L3 的階段。並且，在通向物理世界的技術路徑選擇上，也形成了相對明確的共識。

當前在物理世界，大模型影響最大的兩個硬體領域是汽車和機器人。

汽車領域，自動駕駛技術的目標一直很明確——實現完全自動駕駛，但不同公司的實現路線有所不同。

以特斯拉為例，它採用的是從 L2 等級（部分自動駕駛）逐步向 L4 等級（高度自動駕駛）發展的策略。與特斯拉不同，Waymo 則選擇直接切入 L4 等級，採取更為激進的方法。他們都使用了較小的模型和規則演算法，通過解決儘量多的 corner case 去提高自動駕駛的接管能力。

但最近，業界越來越流行一種新的路線，端到端大模型。這一次，大模型路線為自動駕駛帶來的是蛻變，還是局部最佳化？它是實現自動駕駛的最終路線嗎？

小鵬汽車董事長&CEO 何小鵬稱，過去多年的自動駕駛可以做到在高速開、在城市裡開，但是它是用規則寫的，而規則無法面對世界上的所有場景，那怕只在開車這一個專業的業務上，有很多想不到的 corner case。

很多人可能記得 2023 年 9 月 2 日，1200 萬人圍觀馬斯克的特斯拉 FSD v12 的自動駕駛直播，45 分鐘的車程裡，他只接管了一次。這是端到端大模型帶來的變化，馬斯克稱，「它可以讀懂標誌，但我們從來沒有教過它」。有了端到端大模型，自動駕駛的高度可以做得更高，下限也可以提高。

對於最普通的使用者，從現在到未來的 36 個月，端到端大模型可以讓每一個人在每一個城市都像老司機一樣開車順滑，更「擬人」也更流暢，這是何小鵬多次嘗試特斯拉 FSD 最直觀的感受。

之前的智能駕駛系統，速度控制生硬，處理突發情況時會突然剎車或加速，帶有明顯的機械感。尤其是在狹窄路段或惡劣天氣等特殊情況下，這種生硬的速度控制會讓使用者感到不安。

但端到端大模型最大的提升在於速度和轉向控制的順暢度。乘客即使在後排坐著，也幾乎感覺不到在紅綠燈啟停和路口轉彎時的任何頓挫感。

對於自動駕駛未來的終極路線，何小鵬和輝達全球副總裁、汽車事業部負責人吳新宙也給出了一致的判斷。從現有技術的框架上來看，大模型、生成式AI的方式不一定是實現自動駕駛的終極方式，但它一定是一個巨大的突破，比以前的演算法、泛化、規則模型要強，這會給 AI 汽車帶來巨大的變化。

如果把未來所有能移動的物體都視為智慧型手機器人，汽車只是一個場景，更多機器人將迎來巨變。

在這個領域，具身智能是共同的信仰。當前，大模型給機器人帶來更通用和泛化的大腦，讓人們看到了未來機器人與人類能夠並肩交流、協作的可能。這也是宇樹科技創始人、CEO 王興興從幾年前堅決不做人形機器人，到現在宇樹已經推出兩款人形機器人的原因。

現在，「o1」模型有自我反思、驗證的能力，邏輯能力也大大提升，未來可以預見的是，一定能夠提升機器人與人的互動能力和機器人的任務拆分的能力。

不過，大語言模型包括最新「o1」所代表的技術新範式，解決的仍是大腦問題。如果真的想要進入具身智能的時代，機器人本體控制，也就是「小腦問題」，仍待解決。

上周，創新工場聯合首席執行官、管理合夥人汪華對具身智能時代未解決的問題也做了總結：一是硬體本身，包括感測器，依然有很多的瓶頸。具身智能的本體，是不是人形、有沒有下肢、怎麼做等也尚未達成共識。

二是可泛化的運動控制。現在機器人都是基於物理計算，或者是基於單項任務的模擬模擬、強化學習。而人的動作是非常複雜的，可以抓、擰、掏、摳，現在其實還沒有一個在運動控制上的 GPT。

問題都是現實的，但是有了一旦有了明確的技術前進路徑，從科學問題變成了工程問題，這也就到了創業者們可以發揮作用的時代。

03 巨頭的進取心「歸位」

技術在漲、場景在解鎖，對底層基礎設施的需求也在變化。

在跟創業者交流的過程中，他們調侃當前做大模型和 AI 應用時對算力的「複雜情感」時稱，講卡傷感情、沒卡沒感情、用卡費感情。尤其是「o1」帶來新的技術線後，推理端的算力直接決定演算法和產品創新的可能性。所有行業，都需要性能更強、規模更大、更適應 AI 需求的基礎設施。

吳泳銘在這方面的思考非常本質，他指出，生成式 AI 讓世界有了一個統一的語言——Token。它可以是任何文字、程式碼、圖像、視訊、聲音，或者是人類千百年來的思考。AI 模型可以通過對物理世界資料的 Token 化，理解真實世界的方方面面，比如人類行走、奔跑、駕駛車輛、使用工具，繪畫、作曲、寫作、表達、教學、程式設計的技巧，甚至是開公司創業。理解之後，AI 就可以模仿人類去執行物理世界的任務。這將帶來新的產業革命。

當 Token 成為統一語言後，未來幾乎所有的軟硬體都會具備推理能力，它們的計算核心將變成 GPU AI 算力為主、CPU 傳統計算為輔的計算模式。

從阿里雲客戶的需求分佈來看，這一變化正在加速演進，阿里雲超過 50% 的新需求由 AI 驅動產生。生成式 AI 對數字世界和物理世界的重構，正在讓計算架構發生根本性變化。

18 個月的時間裡，阿里雲這樣的基礎設施巨頭，看起來對未來的進取心明確「歸位」了——正在以前所未有的強度投入 AI 技術研發和基礎設施建設。

在 2024 杭州雲棲大會上，阿里雲展現了圍繞 AI 時代的新基建，其中單網路叢集已拓展至十萬卡等級，正在從晶片、伺服器、網路、儲存到散熱、供電、資料中心等方方面面，重新打造面向未來的 AI 先進基礎設施。

基礎設施之上，阿里雲也升級了在 AI 模型與應用的最新產品。其中，通義大模型迎來了年度重磅發佈。基礎模型升級，性能媲美 GPT-4o。

這種「進取心歸位」也體現在對開源路線的明確態度上。這次可以清晰看出阿里雲繼續秉承了成為「AI 時代最開放的雲」的使命，最強開源模型 Qwen2.5 系列，同時上架了語言、音訊、視覺等 100 多款全模態模型。通義開源模型累計下載量已經突破 4000 萬，通義原生模型和衍生模型總數超過 5 萬，模型生態全球第二了，僅次於美國 Llama 的世界級模型群。

提高自研模型能力和堅持開源是一方面，幫助更多大模型創業公司生長則是阿里雲在大模型佈局的另一面。去年以來，阿里雲先後向月之暗面、Minimax、智譜 AI、百川智能和零一萬物等 AI 公司注資數十億美元，成為國內最激進支援大模型創業公司的網際網路大廠。這也反應了阿里雲明確了自己在 AI 時代的定位，不是要什麼都做，而是在新時代繼續成為最好的基礎設施，用開放的態度，做最有利於推動變革處理程序的事情。

大模型所帶來的第三次雲端運算浪潮不同以往，當前的 AI 技術日新月異，技術堆疊遠未收斂。跟阿里雲在 2009 年力排眾議立項第一台雲端運算作業系統「飛天」時不同，儘管當時也是從 0 到 1，但大體上技術堆疊是明確的。彼時，阿里雲成功地帶來了雲端運算，讓阿里巴巴有了自己的技術引擎，改變了網際網路，為商業、社會、為人，帶來了新變化。

從目前阿里雲的一系列佈局中，我強烈地感受到阿里雲的決心，就是建設「一張遍佈全球的、理想的 AI 雲端運算網路」。今天所有發佈的、在研的，都是在圍繞這樣一個理想的 AI 雲端運算網路打造，讓開發者、生態夥伴、客戶能夠隨時方便取用這張網路。

根據阿里雲創始人王堅的定義，人工智慧給中國雲端運算的發展帶來了「第三次浪潮」：其中，第一次浪潮，出現在十年前，出現了以 Netflix、米哈游為代表的雲原生企業，中國的雲端運算業務在這個階段起步，但由於國內市場成熟得太慢，便落後於海外；第二次浪潮，出現在傳統企業採用雲端運算之時，但並沒有將中國的雲端運算拉上正確的發展軌道；第三次浪潮，正發生在當下，由生成式人工智慧帶來機遇，資料、模型、和算力的組合，正在讓 AI 雲端運算成為 AI 時代的基礎設施。

就像「飛天」作業系統的誕生為第一次雲端運算浪潮帶來了像米哈游一樣的原住民。一張遍佈全球的理想的 AI 雲端運算網路上，也會長出新一代「AI 雲原生」的新商業力量，而且些力量不再是先從手機螢幕中的數字世界誕生，再慢慢延展到物理世界的企業生產力進步，而有可能是把資訊化、數位化、智能化三步並一步，被智能生產力的供給側革命所推動，形成跳躍。

所以數字世界的 App 們在「明修棧道」，物理世界的企業也在「暗度陳倉」。而阿里雲這樣的基礎設施，也只有這個處理程序裡才能最終因為創造更大價值，而收穫更大價值。這個目標，才能配得上今天「先乾為敬」的進取心和投入。

所以，從 AGI 技術客觀上的加速進展，到技術革命的共識從數字世界延伸到了更大的物理世界，再到阿里雲這樣的巨頭完成進取心明確，開始「先乾為敬」……這些客觀上的變化，可以看作對過去 18 個月的總結。這也應該成為對 AI 技術革命未來信心的基礎。

這能改變整個社會以及資本環境今天對 AI 的「信心回呼」嗎？理性的看，估計作用有限。

但看清這些，對做事的人，意義重大。因為絕對的共識往往對做事的人都沒什麼價值，而保持一定的「非共識」才是對 Doer 最好的環境。歸根結底，每個人都應該走出 FOMO，完成「進取心歸位」。 (極客公園)