天空精讀| AI教父談世界沒準備好,楊立昆最新講座,Perplexity CEO哈佛講創業,YC總裁談AI智能體Manus突破

【城主說】即日起,天空之城和大家日常分享最新AI科技長訪的內容精讀合集。

感謝科技的進步,每一個長訪都可以有萬字全文,但或許更稀缺的是時間。希望本城日常精讀可以幫助大家在最有限時間裡掌握最新的科技商業認知。同時附上完整視訊和全文的連結,感興趣的同學可以繼續針對特定內容深入瞭解。

天空科技商業精讀04.28| 內容目錄

• AI教父辛頓:世界還沒有為即將到來的一切做好準備 20250426

• Yann LeCun教授講座 @新加坡國立大學NUS120周年20250427

• Perplexity CEO:從學者到90億美元AI先驅 |哈佛商學院創業峰會 20250425

• YC總裁:AI智能體的下一個突破就在這裡(Manus) 20250408

AI教父辛頓:世界還沒有為即將到來的一切做好準備 20250426


視訊和全文連結:

https://www.bilibili.com/video/BV1irLCzME2L/

內容精讀:

傑弗裡·辛頓因其在機器學習領域的開創性工作獲得認可,他在1986年提出的使用神經網路預測序列中下一個詞的概念,奠定了當今大型語言模型的基礎。儘管他預見到人工智慧可能在教育、醫學和氣候變化等領域帶來變革,但他對人工智慧進展的速度深感擔憂,將其比作飼養一隻幼虎,無法確定其長大後是否會構成威脅。辛頓預測人工智慧可能加劇獨裁統治,增強駭客能力,並大膽猜測人工智慧有10%到20%的風險會取代人類,他甚至為此將存款分散到三家銀行。核心問題在於,我們能否設計出永遠保持仁慈、不想掌控一切的人工智慧。          

辛頓擔憂,科技公司間的激烈競爭,正驅使它們為了短期利潤而愚蠢自私地將全人類置於危險之中,它們甚至遊說反對加強本就薄弱的人工智慧監管。這種對當權派的反抗精神貫穿辛頓的人生:他曾因美國人工智慧資助與國防部掛鉤而移居加拿大,並在神經網路被視為不可行時堅持研究數十年。他將這種逆向思維和堅持歸因於家庭影響,包括他的昆蟲學家父親,以及更早的先輩如喬治·布林和喬治·埃佛勒斯,並認為自己繼承了對機械事物運作原理的好奇心。          

辛頓坦言,他喜歡“修補”事物,無論是修理損壞的相機濾鏡,還是花費大量時間調整神經網路模型以理解其行為,這種動手探索是他研究方法的一部分。他回憶起與他最著名的門生、後來成為OpenAI首席科學家的伊利亞·蘇茨克維爾一起觀察模型學習並預測結果的時光。辛頓對蘇茨克維爾參與罷免OpenAI首席執行官薩姆·奧特曼(據報導是出於安全擔憂)表示讚賞,但也認為蘇茨克維爾此舉很“天真”,因為此舉危及了員工即將獲得的巨額財富,最終奧特曼回歸,蘇茨克維爾離職。          

辛頓同樣對Google等前僱主及其他前沿人工智慧公司(包括Meta)表示失望,批評它們違背了不將人工智慧用於軍事目的的承諾,並認為它們在安全投入上嚴重不足,例如用於安全研究的計算資源比例遠低於應有的水平(如三分之一)。他認為需要政府監管,但對此並不樂觀。儘管擔憂未來,辛頓表示自己並未感到絕望,主要是因為他和其他人一樣,在情感上難以真正接受這個歷史性的特殊時刻——一個一切可能在短時間內發生前所未有規模劇變的時刻。各大人工智慧實驗室在被問及安全研究投入時,雖聲稱重視安全並原則上支援監管,但大多迴避具體數字,並反對現有的監管提案。

❖ ❖ ❖

Yann LeCun教授講座 @新加坡國立大學NUS120周年系列 20250427


視訊和全文連結:

https://www.bilibili.com/video/BV1EALmzDEFV/

內容精讀:

在新加坡國立大學120周年傑出講座系列中,Meta副總裁兼首席人工智慧科學家、紐約大學教授楊立昆(Yann LeCun)分享了他對人工智慧創新未來的見解。他強調,儘管當前人工智慧特別是大型語言模型(LLM)取得了顯著進展,但它們距離實現真正類似人類的智能還有很長的路要走。建構類人智能系統的目標並非取代人類,而是增強人類智能,這需要機器能夠理解物理世界、具備常識、推理、規劃能力和持久記憶。          
楊立昆指出,當前主流的LLM本質上是基於自回歸預測進行訓練的,即根據之前的詞元預測下一個詞元。雖然擴大模型規模和資料量能提升其能力,但這存在根本性侷限,無法帶來真正的理解、規劃和推理能力,更無法解決從未見過的新問題。他認為,僅僅依賴文字資料進行訓練是遠遠不夠的,人類嬰兒通過感官(尤其是視覺)在短短幾年內接收的資訊量遠超當前LLM的訓練資料量,這說明了理解物理世界對於智能的重要性。          
他批判了當前AI領域,特別是LLM存在的侷限,例如缺乏對物理世界的深刻理解(莫拉維克悖論),無法進行有效的規劃和推理,以及學習效率遠低於人類和動物。他認為,過度迷信LLM的擴展能力是錯誤的,這是AI發展史上反覆出現的錯誤認知。          

為了克服這些侷限,楊立昆提出需要新的架構和學習範式。他倡導建構能夠通過觀察和互動學習世界模型的AI系統。這種世界模型能夠預測行動的後果,是實現規劃和推理能力的基礎。他強調了通過最佳化進行推理(類似人類的系統二思維)的重要性,這比LLM的固定計算量前饋推理更為強大。          

他重點介紹了自監督學習(SSL),特別是“聯合嵌入預測架構”(JEPA),作為學習世界模型的關鍵方法。與試圖預測輸入(如視訊像素)細節的生成式方法(如GAN、擴散模型)不同,JEPA旨在學習輸入的抽象表示,並在這些表示空間中進行預測。他認為,預測高維輸入的每一個細節極其困難且低效,而學習合適的抽象表示進行預測才是更有效的路徑,這類似於科學研究中尋找關鍵變數進行預測的過程。他展示了iJEPA、vJEPA等方法在圖像和視訊理解上取得的優於生成式方法的初步成果,並認為這類方法有望讓機器像嬰兒一樣學習世界的運作規律,包括直覺物理學等常識。          

楊立昆還指出了分層規劃是實現高級智能的另一個重大挑戰,即系統需要能像人一樣將複雜目標分解為子目標,並在不同抽象層次上進行規劃。當前AI系統在這方面能力欠缺,這是一個亟待解決的核心問題。          

最後,他提出了一些頗具爭議的建議:研究重心應從生成模型轉向JEPA等非生成式表示學習方法;放棄機率模型而採用基於能量的模型;摒棄對比學習,傾向於正則化或蒸餾方法;並儘量減少對效率低下的強化學習的依賴。他總結道,LLM雖然有用,但對於追求真正的人工智慧(他稱之為AMI,高級機器智能,而非AGI)而言可能是一個“彎路”。未來的突破在於開發具備世界模型、推理、規劃能力,並能理解物理世界的AI系統,這有望在未來3到10年內實現,並最終帶來真正有用的智慧型手機器人。          
當前,人形機器人製造的熱潮席捲業界,眾多公司投身其中。然而,一個公開的秘密是,我們尚未掌握賦予這些機器人足夠智能以實現廣泛應用的技術,現有能力僅限於狹窄任務。這些公司寄望於未來三到五年內人工智慧取得突破性進展,以匹配其硬體的商業化處理程序,但認為當前技術足以支撐通用人形機器人的想法是錯誤的。          

開源平台的必要性日益凸顯,它不僅能讓資源有限的學術界參與到昂貴的基礎模型訓練中,貢獻智慧,也關乎維護國家主權以及文化和語言的多樣性。          

大型語言模型(LLM)無疑極具價值,特別是在提升編碼效率、輔助理解複雜文件等方面,它們是實用的生產力工具,並將持續改進可靠性與多語言能力。但不應將其視為通往人類水平人工智慧(AGI)的路徑。它們很可能成為未來更複雜AI系統的組成部分,例如負責將系統的抽象思想轉化為連貫的文字,但它們本身並非實現AGI的關鍵。          

面對人工智慧引發的就業焦慮,未來並非黯淡無光。儘管各行各業包括教職都將受到影響,但經濟學家的分析指出,技術革命雖會改變工作性質,卻不會導致工作崗位的枯竭,因為待解決的問題層出不窮。技術的經濟滲透需要時間,對生產率的顯著影響往往需要十多年才會顯現。AI帶來的GDP增長增量預計雖可觀(年均約0.7%的額外增長),但這並非意味著短期內會出現大規模失業。          

因此,對於年輕人而言,學習具有長久生命力的基礎知識和方法論至關重要,例如選擇基礎科學(如量子力學)而非短期應用技能(如特定移動應用程式設計)。培養快速學習新事物的能力和深度思考能力,才能在技術飛速迭代的時代立於不敗之地,甚至成為管理AI系統的專家,擁有深厚的技術理解將是巨大優勢。          

在金融等特定領域,AI的預測能力需克服市場的高度隨機性。JEPA這類旨在消除噪聲、在抽象層面進行預測的系統或許能提供新思路,但尚無定論。機器人領域同樣需要突破,僅靠視覺遠不足夠,觸覺等多模態感知對於與物理世界互動至關重要,目前這一領域開發尚不充分,但JEPA等方法有望整合不同模態資訊。Meta等公司已將具身人工智慧和機器人技術視為重要的拓展方向。          

值得注意的是,許多科學領域的AI突破(如AlphaFold)並非依賴LLM,而是採用專門設計的模型和自監督學習等技術。實現完全自主的AI科學家仍是遙遠的目標,且其核心可能並非LLM,而是更接近於能建構世界模型、進行分層表徵和規劃的架構。強化學習(RL)在智能體系中的作用更像是“錦上添花”,而非核心驅動力,其樣本效率問題限制了在現實世界(非遊戲)的應用。          

像Llama這樣的開源基礎模型,如同作業系統Linux,提供了強大的基礎設施,而非即用型產品。其真正價值在於允許開發者根據特定需求進行微調、定製和本地化部署,降低成本並促進創新,從而減少幻覺等問題。訓練這些模型需要極其多樣化的資料,不僅包括自然場景,還需包含物體互動、不同環境、甚至簡化圖解化的內容(如動畫片),以幫助系統學習世界的基本運行規律。          

展望未來,我們與數字世界的互動將深度依賴AI助手。為了避免資訊流被少數科技巨頭壟斷,維護全球文化和語言的多樣性(全球約6000種語言及大量非數位化文化資訊),開源是必然趨勢。需要建構能理解全球語言、文化、價值體系的基礎模型,這無法由單一實體完成,而應由全球多方協作。基礎模型將成為公共基礎設施,通過全球性的合作夥伴關係共同訓練,正如網際網路最終由開放原始碼軟體棧支撐一樣。這為新加坡等地提供了契機,可憑藉算力、人才和區域資料優勢,成為共建全球共享AI基礎的樞紐,確保AI服務於全人類的多元需求。開源最終將在人工智慧領域勝出,只是時間問題。

✧ ✧ ✧ ✧ ✧

Perplexity CEO:從學者到90億美元AI先驅 |哈佛商學院創業峰會 20250425


視訊和全文連結:

https://www.bilibili.com/video/BV154LyzqEA7/

內容精讀:

2025年哈佛商學院創業峰會迎來了重啟,匯聚了學生、校友及社區領袖,展現了學院濃厚的創業精神。此次峰會的核心環節之一是X Fund管理普通合夥人Patrick Chung對Perplexity首席執行官Arvind Srinivas的訪談。Arvind擁有印度理工學院馬德拉斯分校的工程學位和加州大學伯克利分校的電腦科學博士學位,他於2022年聯合創立了人工智慧驅動的對話式搜尋引擎Perplexity。該公司在短時間內實現了顯著增長,月查詢量超6億次,估值達90億美元,並獲得了傑夫·貝索斯和輝達等知名投資者的支援。          

訪談中,Arvind分享了他從學術界走向創業的歷程。他出身於重視知識而非財富的印度家庭,父母甚至更為他的博士學位感到驕傲。儘管本科學習電氣工程,但他通過參加機器學習競賽(並意外獲勝)以及後續實習,接觸並深入學習了機器學習和神經網路,包括線上學習吳恩達、傑弗裡·辛頓的課程,並在圖靈獎得主Yoshua Bengio處實習,最終進入伯克利深造。在OpenAI和DeepMind的實習經歷讓他認識到,將想法付諸實踐、處理實際資料並完成端到端工作的能力至關重要,這推動了他走向創業。OpenAI前首席科學家Ilya Sutskever的直接反饋,特別是強調生成式無監督學習結合大規模算力和資料是通往通用人工智慧(AGI)的關鍵,深刻影響了他的研究方向。          

Arvind認為,《矽谷》這部劇雖幽默卻真實反映了創業生態,從零創造並交付產品的想法極具吸引力。當GitHub Copilot等產品讓他“感受到AI”的實際應用時,他意識到創辦AI公司的時機已到——AI開始顯現威力,但尚未完全成熟。Perplexity於2022年8月應運而生。尋找聯合創始人時,他先與學術上相識的Dennis Yarats合作,隨後說服了Dennis在Quora認識的、當時正考慮職業變動的優秀工程師Johnny Ho加入。他們最初嘗試了文字到SQL的應用,但關鍵的認知是初創公司必須快速迭代、發佈產品、獲取使用者反饋並據此調整,而非在“想法迷宮”中空轉。通過展示產品演示而非簡報,他們成功吸引了種子輪投資者,這反過來又幫助吸引了頂尖的創始工程師。團隊不斷迭代,最終聚焦於核心理念:改變搜尋這一基礎軟體的形態,從關鍵詞轉向問題或語音輸入,並提供帶有來源、可驗證的即時答案,這一理念源於學術寫作中引用溯源的要求。Perplexity的核心產品原型在一個周末駭客松(基於前期準備)後誕生,並通過小範圍試用迅速驗證了價值。          

對於Perplexity與Google的關係,Arvind認為兩者並非直接競爭所有場景。Google在處理簡短、導航式搜尋(如輸入“天氣”)方面通過“讀心術”般理解使用者意圖已做到極致,Perplexity在此難有改進空間。然而,Google在回答需要資訊綜合的複雜問題(如“下雨天去哈佛該穿什麼?”)方面表現不佳,這正是Perplexity的優勢所在。Google受制於廣告模式,難以對所有查詢提供直接答案,因為這會減少連結點選和廣告收入,導致其搜尋結果頁面日益混亂。Perplexity則嘗試不同的模式,包括與內容出版商分享收入,以激勵高品質內容的創作,這與Google讓出版商依賴AdSense的模式不同。          

針對Perplexity只是“API封裝器”的誤解,Arvind強調,雖然早期版本可以快速建構,但公司後續投入巨大,已建立自有模型、索引和爬蟲基礎設施,並開發了複雜的、按步驟思考的“研究代理”。即使所有第三方模型停止供應,Perplexity也能基本維持現有服務質量。公司對與蘋果等平台合作持開放態度。關於此前競標TikTok的願景,他希望能將資訊流變得更具生產力,利用AI進行事實核查,並利用TikTok的搜尋入口建構下一代搜尋體驗,從而更好地與Google競爭。          

從學術界到創業界,Arvind認為核心思維方式有所轉變,從重思考轉向重行動和迭代學習,但學術界的嚴謹性,如小規模實驗和批判性思維,在創業中同樣重要。他對AI的未來持“加速主義”樂觀態度,希望通過廣泛可及的AI(如iPhone模式)避免權力集中帶來的風險。他認為開源是制衡AI領域壟斷的關鍵力量,不斷湧現的高品質開源模型確保了技術的普及。展望未來,他認為AI的下一個重大突破可能在於實現極長的上下文處理能力,讓AI擁有更持久的記憶和理解力,超越當前依賴檢索增強生成(RAG)的模式。          

在問答環節,Arvind提到,AI領域仍面臨計算能力(GPU)短缺的限制,成本是挑戰,期待更高效的晶片(如輝達Blackwell)和知識蒸餾技術緩解壓力。他再次強調開源和透明度(展示來源和思考過程)是確保AI倫理和防止敘事被單一公司操控的關鍵。他預測,隨著AI能力的增強,傳統搜尋引擎最佳化(SEO)的重要性將下降。對於公司戰略,Perplexity專注於短期(季度)規劃,當前重點是擴展到天氣、體育、購物、旅行等結構化答案垂直領域,開發瀏覽器以整合個人資料實現個性化,並探索原生交易功能。他強調公司文化是快速適應,從不成功的項目中學習並迭代,例如將Perplexity Pages的技術復用於Discover Feed。他認為量子計算目前對產品公司而言為時尚早。          

最後,Arvind分享了他的個人感悟:創業路上要保持冷靜,認識到情況“永遠不會像看起來那麼好,也永遠不會像看起來那麼糟”。他引用埃隆·馬斯克關於永不放棄的精神作為激勵,強調堅持是成功的關鍵。

✧ ✧ ✧ ✧ ✧

YC總裁:AI智能體的下一個突破Manus就在這裡 20250408


視訊和全文連結:

https://www.bilibili.com/video/BV1bBLyzFET3/

內容精讀:

隨著OpenAI、Google、XAI及DeepSeek等平台推出可用的AI代理,一個新的競爭者Manus也已登場,這個全新的代理式AI平台在全球引發關注。Manus作為首個通用AI代理的早期預覽版已經發佈,並迅速激起熱議,被部分人視為中國繼DeepSeek後的又一重要時刻,稱讚其為體驗過最令人印象深刻的AI工具和最先進的AI電腦使用方式。與前輩不同,Manus並非僅是專業的聊天機器人,而是致力於成為真正的通用AI代理,但其訪問受限,其實際變革能力仍待觀察。          

Manus的核心創新在於其多智能體人工智慧系統,該系統能處理從旅行規劃、財務分析到檔案搜尋和行業研究等多樣化任務。其運作方式並非依賴單一大型神經網路,而是像一位執行官,協調一個由規劃智能體、多個專業子智能體(負責知識、記憶、執行等)組成的團隊。系統首先分解使用者任務為子任務,規劃執行路徑,然後分配給相應的子智能體。這些子智能體共享上下文,各自擁有專業領域,並能呼叫包含29種整合工具的廣泛工具集,智能決策使用何種工具完成網頁導航、程式碼運行或資訊提取等任務。最後,執行者代理整合所有子任務的輸出,生成最終結果。          

該系統由複雜的動態任務分解演算法驅動,能自主拆解複雜指令。為保證穩定性,Manus團隊研發了“思維鏈注入”技術,使代理能主動反思和更新計畫。其核心模型採用了Anthropic的Claude 3.7 Sonnet,並無縫整合了YC Company瀏覽器等開源工具及Startup E2B的安全雲沙盒環境,具備強大的跨平台執行能力。Manus擅長建立旅行行程、財務分析、教育內容,以及處理結構化資料庫編譯、保險比較、供應商篩選和簡報製作等實際任務。在衡量AI代理推理、多模態處理、網頁瀏覽和工具使用的Gaia基準測試中,Manus得分高達86.5%,超越了OpenAI研究平台的74%,接近人類平均水平的92%。          

儘管表現亮眼,Manus也引發了關於應用層AI初創公司實質上是否為“封裝器”的討論。批評者認為Manus只是將現有基礎模型與工具呼叫拼接起來。然而,這種觀點忽視了許多成功的AI產品(如Cursor、Windsurf、Harvey)也採用了類似模式,通過整合現有LLM、API和特定領域工具來創造價值。成功的封裝器通常通過直觀UI、專有評估、精細微調和精心設計的多智能體架構脫穎而出。Manus聯合創始人亦表示,他們選擇與模型開發正交的路徑,樂見新模型的發佈。          

Manus的多智能體編排帶來了成本優勢(每任務約2美元,低於某些整合競爭對手),並提供了更高的透明度和使用者控制,允許使用者檢查、定製甚至替換子智能體和工具。其暴露檔案系統的特性讓使用者能直觀瞭解代理工作過程,預示了未來桌面AI應用的潛力。然而,其侷限性也存在,如任務複雜時跨代理協調難度增加,且其當前的優勢(使用者體驗、微調、整合)易被模仿。封裝器模式雖能快速部署和迭代,但也易受API定價或供應商政策變化的影響。最終,關鍵挑戰並非封裝器模式是否可行,而是如何為產品建立可持續的差異化,例如通過投資難以複製的專有評估、深度嵌入使用者工作流或整合獨特平台與資料集。歸根結底,AI領域的成功往往不取決於重新發明基礎模型,而在於誰能將現有模型有效整合,創造出使用者真正喜愛的產品。 (Web3天空之城)