比Sora更大的AI突破口，來了！

2024/03/14

•

通用人工智慧多久實現？AI變革的下一輪機會在哪裡？中國人能否實現AI反超？

在3月6日的直播中，王煜全告訴大家：今天的人工智慧還在動物智慧階段，通用智能非常遙遠，中國人如果能抓住這輪變革的規律，依然有機會實現反超，更有希望孕育出下一個20年的超級巨頭。

以下為內容精編：

大家好，我是王煜全。

最近，人工智慧有了新進展，最值得注意的是OpenAI推出的AI視訊生成模型Sora。以前的AI生成視頻最長只有4秒鐘，但現在Sora可以生成一分鐘的視頻，而且生成的視頻和真實世界非常相似。

有些科學家和人工智慧專家都認為，人工智慧已經掌握了世界物理模型，也就是說能夠模擬真實世界，理解各種物理法則，擁有和人類一樣的智慧。

但我認為，AI離真正的理解物理世界還差得遠。例如一個考古現場挖出沙灘椅的視頻，S ora生成了這個現實中不可能出現的情況，但是椅子從沙子裡掏出來的時候會變形，還會漂浮，這明顯不是真實的情況。

一、人工智慧，還在動物智慧階段

人類理解真實物理世界其實需要靠兩部分的智慧。

一部分和動物一樣，我們簡稱動物智慧。就像家裡的狗也知道趨利避害，它也知道如何繞過障礙物奔跑而不跌倒，這都是智慧的表現。

這種動物智能背後其實是記憶預測模型，也就是對周遭環境產生記憶，並對未來的行為做出預測，以便更好地與環境互動。

人類也是如此，例如大家關注環境往往看那些變化的和意想不到的事物，平時走路沒有感覺，如果一腳踏空，我們會立刻去找原因，這就是記憶預測模型發現變化開始起作用。

我的判斷是Sora出現意味著AI已經到了動物智慧水平，但是離人類還有很遠的距離，因為人類理解世界的方式是需要理性的。

我們需要用語言來交流，我們需要討論並找出對同樣事物的共識，例如牛頓定律、愛因斯坦的相對論都不是記憶預測能夠實現的，而是人類相互交流、累積的成就。理性，能讓我們總結出一種普遍規律。

很多人擔心人工智慧進步這麼快，通用人工智慧快要來了。

對此，我有明確的判斷：不可能。

觀察SORA之後就很清楚，我們現在還沒有到通用人工智慧的階段，還處在單項智慧的階段。例如，現在的視覺智慧Sora，它只達到了動物水平，因為它沒有理性，沒有物理世界模型，所以有些錯誤它無法糾正。

首先要明確一下，智能並不一定意味著掌握物理世界的法則，就像各種動物，不明白物理、化學依然可以在這世界活得很好。

很多人不知道牛頓力學，甚至有人不相信地球是圓的，但這並不影響生活。所以，我們要理解真實的世界需要的是理性，而不僅僅是智能。

人類的智能發展到今天，尤其是語言智能發展到今天，實際上是在動物智能之上疊加了大量的理性成果，推動了人類的原始智能發展到今天的水平。

智能本身可以不理性，而我們的大模型的訓練機制就是大量資料輸入，進行訓練，這種情況下它會形成智能，但不形成理性。這導致我們在與大模型互動時，會產生一些不太理性的錯誤。

Sora模型也是一樣，它是智能的，但它不是理性的，而且它是單項的智能，只是ChatGPT訓練出來的是語言智能，Sora是視覺智能，未來可能還有更多的智能，但它們都不是理性的。

問題來了，如果你要提升到理性層面，或是實現通用人工智慧，你需要什麼？

著名的AI科學家Yann Lecun提出了一個世界模型，希望模仿人類大腦建構一個多模型協作的機制。許多人也認為，現在AI在某個方面複製了人腦的功能，就已經產生了智能，那麼，如果在多個方面複製了人腦，是否就會產生通用人工智慧？

實際上並非如此，這中間有一個巨大的鴻溝需要跨越，如何將語言、視覺不同的智慧泛化成為通用的過程，不是幾個模型組合就能解決的。

真正要實現通用人工智慧，還是需要參考人類的智能進化過程，不只是人工智慧的單項智能變強，更需要形成多個智能體互動、累積的環境，也就是說需要智能社會。

這就是為什麼我更關注AI Agents的原因。讓多個智能體學會交互，每個智能體在交互的時候都有自己的個體經驗，它會產生智能，但是個體經驗這個智能到底對不對，可以在多個智能體的交互驗證中積累。

當然，人工智慧如何交互是我們很難想像的，它可能使用人類已經掌握的語言進行交互，也可能產生機器與機器之間使用機器語言進行交互。一旦AI可以社會化，可以互相交互，而且可以互相進步，這就會產生通用能力。

這背後其實是人類發展的歷程，我們今天覺得自己的智慧程度很高，依賴的並不是個體進化，而是整個群體的協同進化。也就是說，你的智能的形成和你周圍的人是有關係的，如果沒有周圍的人，你的進化水平就不會提高。

我認為人工智慧可能遵循的是同樣的路徑，再往下走，要形成通用智慧很可能也需要走上群體智慧的道路。

二、Sora的啟示：中國的反超機會來了

離通用智能有差距，不影響單項智能的價值。這就是Sora價值巨大的原因。

為什麼這麼說？

吳恩達和李飛飛年初就分享過，24年的重要重點就是大視覺模型的崛起。

ChatGPT出來的時候，我們以為大語言模型已經是AI的一個終點，當時OpenAI已經展現出同一個模型處理文字、圖片的能力，透過資料預處理實現圖片和語言資料統一化，也就是所謂的token化。

現在Sora的進步，更重要的地方是在token化上再進一步，提出了patch的處理方法。Patch具體是什麼我就不詳細展開說了，簡單說就是把一段影片看作大方塊，把它切小變成一個個小包，也就是Pacth交給AI學習，最後結合diffusion model 生成視頻。

底層還是大語言模型，但是工程方法有了很大的變化，這意味著不同類型的資料預處理方式有了很大的差別，這影響了智慧形成的方式。

這和我們人類非常相似，讓我們也能看到潛在的發展方向。

一方面，我們的大腦和大模型很像，它有一個統一的機制，人類的新皮質有六層，和卷積神經網路上百層相比簡單多了。但用更簡單的東西有效率地處理事情，其實是更高級的體現。所以，我們大腦的運算能力實際上比現代的人工智慧還要高級。

另一方面，大腦裡是有區分的，有視覺區、聽覺區。我們的大腦看似用一個大型模型來處理所有訊息，處理視覺、聽覺、嗅覺、味覺和觸覺，其實所有身體的感知訊息都從枕骨大孔進入大腦，大腦處理的只是電訊號。

這帶給我們一個重要的啟示：要形成一個完整的認知，不僅需要資料收集，而且需要預處理，每種感覺的預處理可能都是不一樣的。

這和AI非常相似，現在視覺的預處理叫做patch，未來聽覺、嗅覺也會需要新的預處理方式。

聽起來很奇幻，但現實已經有個案例。我們為盲人投過一個項目，叫做「盲人眼鏡」。

這款眼鏡利用體外相機收集外部的視覺訊號，然後用處理器在體外處理，將視覺訊號切成一堆小格，形成一幅影像。這個圖像是由電畫出的，電強度和光強度對應，透過刺激盲人的舌片來幫助形成外在世界的三維感知。

這意味著我們在體外完成了外在視覺訊號的收集、處理和轉換，就像patch一樣把資料重新打包，再交給人的大腦感知處理。

現在可以讓盲人看到視頻，看到外部世界。

回到人工智慧上，隨著單項智慧化加速，未來處理聽覺、嗅覺的智慧模型都會出現。在智慧化過程中，甚至可以反過來推動人類智慧的進步。例如，我們的聽覺是如何形成的，聽覺數據模式的理解都會跟著進步。

這對中國來說，是一個重大的機會。

過去，全世界都認為所有的基礎突破都在美國，只能跟著去學習。

現在我認為反超的可能已經出現，原因是大模型的進展並不快，而且差異不大。只要我們跟上別人的大模型處理方式，並在資料預處理上下功夫，我們就有可能形成更強的智慧。

我們反超的機會並不在大模型上，而是在資料預處理上。我們過去對資料預處理的重要性嚴重低估了，因為只有足夠好的資料預處理和大模型結合，才能產生真正的智慧。

三、人工智慧的轉折點

人工智慧的應用化，現在已經到了一個轉折點，大模型透過專有資料訓練依然能形成更強的智能，不是一個大模型解決所有的問題。

這意味著各行各業都能形成智能，甚至我收集的公司管理數據、行銷數據，未來可能形成管理智能、行銷智能。

我認為行銷智能可能很快就會實現。原因很簡單，過去我們談論的是流量經濟和私域流量。公域流量就像河流，你只要有網，就可以撈魚，沒有其他成本。但現在不同了，無論你使用GPT或其他大語言模型，每個模型的使用都有費用。

這就是我說的新一代的線膛槍革命，以前用滑膛槍，雖然打得不準，好在成本也不高，現在進化到線膛槍，技術性能提升了，每一槍也都要精準，因為子彈是有成本的。

人工智慧的革命不只這樣，因為戰術也要改變。

我一人只能對準一個目標，一人能管理多少槍砲？只有一支。那怎麼辦？我們需要轉變，變成行銷智能，讓一個智能體能管理一百萬支槍砲，瞄準一百萬個目標。

這就是我想告訴大家的，不光人工智慧應用有機會，使用人工智慧應用的方法也有巨大的機會。

1.用好人類的協同能力

不久前，黃仁勳在一個訪談說，通用人工智慧需要一個更清晰的定義，現在的定義比較模糊，但是你只要能提出一個明確的問題，5年內AI都能解決。

很多人誤以為黃仁勳說通用人工智慧時代將在5年內來臨。其實，他是在講專有人工智慧解決細分問題，即使再難的問題，5年內也能解決。

簡單來說，現在的人工智慧並非通用智能，但這並不妨礙我們使用它。人類雖然表面上擁有通用智能，但實際上和人工智慧是一樣的。我有通用性，並不代表我可以朝任何方向發展。

例如，喬丹是NBA三屆總冠軍，他的運動天賦非常強，也不是通用的運動天賦。在他職業生涯中就試圖去打棒球，但沒有成功。後來他回到籃球場，再次拿了3屆總冠軍。

即使是擁有高級運動天賦的人，也很難在其他領域取得成功，今天的AI更是如此。

這裡我想引用OpenAI的CEO Sam Altman的話，他說目前的人工智慧已經是你中等程度的同事，雖然他不是最優秀的同事，但他已經不再是新手。

很多年前，我在英國了解到一個案例。

英國在非洲修鐵路時，他們要實現智慧化調度和物流追蹤。但非洲許多地方的人沒有文化，他們該怎麼辦？

在許多關鍵位置設立崗位，崗位的人無需文化知識，只需在火車過來的時候拿起電話說火車過去，就這樣對整個系統進行監測。

這是一個很典型的例子，員工都是新手，但係統很優秀，所以能運作。

現在的人工智慧已經是中等水平的員工，理論上講，它可以做很多事情。如果你還在等待人工智慧進一步發展，那你就錯了。

人類的優勢在於我們的複雜協同能力。每個人都無法掌握登月所需的所有知識，但合在一起就能登月，這就是複雜協同能力的力量。

2.學會指揮人工智慧工作

至今，人工智慧並未實現社會化，因此並未形成人工智慧社會。然而，未來的發展肯定是向社會化方向進行的。

許多人質疑，人工智慧是否會像電影《魔鬼終結者》中的天網一樣，毀滅人類？實際上，天網只是一個資料中心，一個超級智能體肯定不會毀滅人類，因為它肯定不如人聰明。

人的核心也不是超級智能，而是所有人在一起形成的社會化智能群體，文化作為智能的蓄水池，理性能幫助我們把智能東西總結成可交流的語言，沉澱到文化裡。

因為有了文化，人類社會才特別強大。

有了人工智慧，只會讓人類智慧進步速度繼續加快，這意味著我們將有大量的服務機會產生，我們稱之為服務規模化。

在過去，烹飪、教育、算帳等事情都需要自己做，現在，這些服務也可以交給別人或專家來做。

工業革命用機器讓我們解放了很多，但在這一輪的智慧革命中，我們可以用人工智慧形成專家級服務，讓我們的大腦有時間從事有創意的工作。

很多人擔心人工智慧超越人類，但是人類同樣在進化，而且人類的群體進化速度很快，人工智慧是單一進化速度很快的，群體還沒開始。所以，當人工智慧的群體進化速度加快了，才可能和人有一拼。

當然，即便到了那個時候，我也不認為人工智慧會把人類幹掉，更有可能的是不同的人和人工智慧組成新的小團體，相互競爭。

簡單說，人工智慧還有進步的空間，離通用人工智慧還非常遙遠，但這並不妨礙我們現在把它當作一個人看待。

它能做很多工作，但它還沒有掌握協作。所以，你的價值是什麼？是能和機器協作，你能帶動更多的機器工作，我們稱之為擁有更高的機器智商。

未來的成功者是機器智商高的人類。你要當領導人工智慧的將軍，好好使用這些中等程度的人工智慧同事。

四、人工智慧帶來的新商業

既然你要擔任這個領頭的將軍，也需要擔起看清未來的責任，所以我們接著探討人工智慧的機會在哪裡？

1.AIGC並不是一個好生意

今天有個說法，叫AIGC，人工智慧生成內容，很多人認為這是未來。在我看來，AIGC很有價值，但它很多時候並不是一門生意。

這好比我可以寫一段文字，但光是賣文字並不能成為一個生意，只是一個手藝。我需要創建一個可以持續銷售文字的平台，例如榕樹下、中文網這樣的小說網站，你需要有持續的東西來做生意。

我們都知道midjourney，一個圖片產生網站，收入還不錯。它在只有11個人，其中幾個人是兼職的情況下，一年賺到一個億美金。人們說這個業務不錯，但問題是，為什麼midjourney的收入不能再持續成長了？

因為它只賺了一份錢，那就是配圖的錢。

以前各種媒體、廣告的圖由專業畫師畫，甲方提出配圖建議，就像人工智慧的提示詞一樣讓畫師畫，如果你不滿意想要微調，或者讓畫師畫10幅選一幅，畫師可能會感到不滿，所以微調的空間很小。

用midjourney這樣的工具，因為它可以產生10幅供你選擇。如果不滿意，可以換提示詞微調，效率高了，成本低了，確實是一門生意。

但它面向的主要還是畫師市場，因為人們願意為他們的作品付費。至於一般人，他們可能會用midjourney生成畫，但他們可能不願意付費，因為一般人沒有持續產生內容的需求。

這是許多技術革新時，應用程式開發者常常忽略的問題。

技術開發者喜歡從技術的角度出發去開發應用，而沒有深入了解使用者真正的需求。所以，我們說技術革新就像坦克，但如果想要真正成功，就需要深入了解並滿足使用者的需求，用坦克打出閃電戰才行。

以報紙和雜誌為例，他們需要的插畫要有一致的風格。例如，美國的一本知名雜誌叫做《紐約客》。它的插畫都是線條畫。這樣的畫，一眼就能看出這篇文章是《紐約客》的。

如果你要處理這樣的問題，你會怎麼做？

我會和雜誌商談，幫他們設計一個統一的風格，他們可以買下這個風格。然後，我用這個風格為他們創造的所有圖片都是他們的，因為我幫他們保持了圖片風格的一致性。時間長了，他們的讀者一看到這幅畫就會認出來，就會知道這是他們的風格。

我先收風格費，然後在風格費裡包含每個月或每週製作不超過一定數量的圖片。如果他們需要更多的圖片，我就加收費用。這樣就變成了一種訂閱服務。我用這個風格持續為他們創造內容，這變成了一種服務。

所以，我們說未來主流不是AIGC，是AIGS。當然，剛才說的只是一個簡單的例子，未來會有更多複雜的服務。

2.透過人工智慧提供複雜服務

我們常提到一句話「歷史不會重複，但會押韻」。

歷史確實不重複，原來叫工業革命，現在叫數位革命，雖然不一樣，但許多內在規律是相似的。

我總結了科技革命的規律，可以把人工智慧發展分成四個步驟：

首先是效能調優，這在早期很流行，因為效果立竿見影，但可能會被大平台收購或擠出市場。

其次是節能增效，用更少的人力完成更多的工作，這在遊戲設計、廣告設計、影片製作等方面已經很常見，但是節能增效很難形成大市場。

最後兩個階段分別是簡單服務和複雜服務。

我們所說的簡單服務並不是指服務本身非常簡單，而是指一次互動就可以解決問題的服務。例如律師服務，我把我的狀況告訴你，你就能幫我解決問題。

複雜服務則需要長期追蹤。例如，健康長壽服務。如果你沒有持續追蹤、沒有形成基準值，對每次的偏差都有理解，那就無法真正理解其意義。

另一個複雜服務的案例是教育。傳統的教育是大規模的，讓人變得像螺絲釘一樣。如果你符合標準，你就合格；如果你跟標準不同，你就不合格。

在學校裡，老師所使用的教學指導就是這樣的標準。如果你的總結跟指導一樣，你就能得滿分；如果你的總結跟教材的主題不一樣，即使你有自己的想法，你的答案也會被認為是錯的。

因為有了標準答案，就有了閱讀的標準，聽起來很荒謬。這就是工業革命的常態，因為它需要標準化的零件。

在人工智慧和數位化時代，我們不再需要標準化，因為這些標準已經被人工智慧取代。

我們需要的是人的創新，人應該是個人化的，人應該是獨特的。我有自己的專長，我有自己的專家系統，我才有生存的價值。如果我跟別人一樣，我就沒有價值，因為我可以被機器取代。所以，我必須是不可取代的，我必須跟機器不同。

在這種情況下，你會發現真正優秀的是非標準的，而標準的是不合格的。

今天的教育都是基於標準的培養，這很有可能導致我們教育的人無法超越人工智慧，因為人工智慧比我們更好地掌握了標準答案。

每個人都是不同的，教育培養也應該是非標準化的。

古人其實已經在這麼做了，孔子提倡根據每個人的才智來培養他們，而釋迦摩尼則提倡當機立斷的教學法。

今天的學校教學不能滿足這種個人化的需求。例如在小學，我們不能選擇我們想學的知識和水平，可能會出現知識太淺或太深的情況。

今天依靠人工智慧老師，很可能會得到改變。

這些人工智慧老師就像一個專門研究如何因材施教的團隊，他們會判斷學生的個人化發展方向，給予對應的建議，這個團隊還能把各種牛人囊括進來，來教育下一代。

雖然聽起來不可思議，但這就是正在發生的事情。

五、最大的機會，在於跨界碰撞

1.複雜服務，才是有障礙的業務

人們常問，瓦特為什麼重要？瓦特並不是第一個發明蒸汽機的人，但他的蒸汽機是第一個實現廣泛商用的，可以廣泛應用於火車、輪船等，所以他很重要。

後來有非常多人改良了蒸汽機，但我們仍然紀念的是瓦特，往後被紀念的都是那些將蒸汽機應用到不同領域的先行者。

人工智慧變革已經發生，我們接下來需要關注如何商業化和普遍使用這些技術。任何黑科技的發展都有其規律，每一輪的技術推動都是一種通用技術的推動，這是一個重要的標誌。

蒸汽機的出現，最初是為了取代舊蒸汽機，提高效率。但很快，它就出現了新的應用，人工智慧也會出現新的應用。

現在人工智慧的發展到了什麼階段呢？就像瓦特蒸汽機一樣，現在的人工智慧已經可以廣泛應用於各個領域，新的機會在新的應用場景中。

這時候，不要急著用你的AI技能產生更多的內容，因為生成內容沒有什麼難度。

AIGC不應該只停留在內容的層面，而應該演化成AIGS，從提供簡單服務演化成提供複雜服務。一旦形成複雜服務，你就會形成強大的壁壘，因為你會形成自己新的智慧模式。

內容生成的簡單服務是不可能變成智慧的，但是複雜服務會變成智慧。未來我們會有健康智能，會有教育智能，各種產業的專有智能才是真正的未來。

基於行業專有智能，形成專業級的、專家級的長期服務，這是真正的未來，那才是有障礙的業務。

這種智慧的形成一方面要能對資料進行預處理，並且持續地進行預處理能建構新的模式、新的記憶預測。

2.人工智慧下一個變革要看AI agent

蒸汽機在應用在貨車和輪船過程中有一個關鍵人物——威廉·默多克。他發明了曲軸連桿，能夠把往復運動變成循環運動，這就是配套技術。它使得蒸汽機能夠有更廣泛的應用。

人工智慧時代的曲軸連桿是什麼？就是AI agent。

我一直在關注AI agent的進展，微軟最近發表了一篇論文，用不同的AI agent來完成手機上的各種操作，非常值得期待。

終端智慧的爆發年就在眼前，在手機上會有越來越多的智慧APP出現，我預期有一小部分甚至一半是智慧化的遊戲。

未來是一個跨界碰撞的好機會，包括剛才講的數據智能，形成智能水平，行業智能，教育智能，健康智能等等，這都需要跨界融合，技術專家和認知專家一起來構建，加強需求的挖掘，這個市場專家一起來建構的新東西。

六、未來20年的新巨頭即將出現

關於未來，我和京東原CEO徐雷有相似的看法，現在不是一個時代的下行，而是一個嶄新的時代的開始。

這個嶄新時代有它的連續性，歷史從來不會突然出現這個，它是押韻的，只不過韻腳換了，但同樣會經歷導入期、展開期的變化，他們還有著完全不同的特性和邏輯。

為什麼能做出這個判斷？因為有以前的歷史經驗做參考。如果站在工業革命早期就很困難，工業革命是一種新的規律，它與以前的規則不同，這也就是當時許多思想家的判斷和歷史發展並不一致的原因。

我們現在很幸運，因為一個完整的工業革命已經完成了。我們現在可以對照數位革命，它有一些新的元素，但基本的規則是一樣的。

當然，我們並不能確定這個機會何時出現，或是誰會把它實現，這是有偶然性的。

如果沒有賈伯斯，智慧型手機可能會晚兩年出現。如果沒有馬斯克，電動車可能會晚兩年出現。

所以，我們依然需要人來驅動這個機會，創業者依然是必要的，這也就是屬於看懂未來者的機會。

總而言之，我們生活在一個偉大的時代，這個時代讓我們有機會談論詩和遠方，這個時代接連不斷的科技變革也讓我們有機會創造自己的價值！

今年由於疫情和中美貿易戰等原因，可能會有一些困難，川普當選的可能性在增大，中美貿易戰和科技戰可能會加劇，甚至可能會有地區摩擦，這可能會讓人感到不確定。

但如果你從歷史的角度來看，科技進步才是真正影響歷史的因素，其他都是小事。

所以，專注在最重要的事情上，投入時間和精力，忽略其他因素，你將會有最大的利益。（筆記俠）

我在網路上看到你的這篇文章「比Sora更大的AI突破口，來了！」，希望能有機會用通訊方式向你請教!

2024/03/18