近日,全球知名風險投資機構紅杉資本發布了其備受矚目的年度報告,聚焦當前科技界最炙手可熱的話題- 生成式人工智慧(AI)。這份報告不僅總結了過去一年生成式AI領域的重大進展,更深入剖析了這項革命性技術對未來商業格局和社會發展的深遠影響。
通過對海量資料的分析和對行業專家的深度訪談,紅杉資本的研究團隊提煉出了幾個極具洞察力的關鍵發現,這些見解無疑將為投資者、企業家和政策制定者指明方向,助力他們在AI浪潮中把握先機。
讓我們一起來探討這份報告中最引人注目的幾個要點:
最重要的是一方面看到大模型進入到下一階段的技術突破,另一方面,伴隨著模型變強大的過程,產品經理的窗口期已經來了!很是期待!
原文如下
在生成式AI 革命進入第二個年頭時,研究正從“快速思考(System 1)”轉向“慢速思考(System 2)”,也就是從迅速生成預訓練結果轉向推理過程中進行深度思考。這一轉變為一系列全新的自主型應用打開了大門。
自從我們發表《生成式AI:一個創意新世界》一文以來,兩年過去了,AI 生態系統已經發生了很大的變化,我們也對未來有了一些新的預測。
生成式AI 市場的基礎層已經趨於穩定,形成了由一些重要玩家和聯盟主導的平衡態,包括Microsoft/OpenAI、AWS/Anthropic、Meta 和Google/DeepMind。現在,只有那些具備經濟實力並能夠獲得巨額資本的玩家還在競爭中。雖然這場競爭還遠未結束(而且仍然像博弈論中的遊戲一樣不斷升級),但市場結構正在逐漸明朗化。可以預見,未來產生下一個token 的成本會越來越低,數量會越來越多。
隨著大規模語言模型(LLM)市場趨於穩定,下一個競爭前沿已經開始顯現。人們的注意力正逐漸轉向推理層的開發與擴展,這一層以「系統2」思維為主導。受到AlphaGo 等模型的啟發,這個層面旨在讓AI 系統在推理過程中進行深思熟慮的推理和問題解決,而不僅僅是簡單的模式匹配。同時,新的認知架構和使用者介面也在改變這些推理能力如何與使用者互動。
那麼,這些變化對AI 市場的創業者又意味著什麼呢?對現有的軟件公司又意味著什麼?作為投資者,我們在那一層看到生成式AI 堆疊的最大回報潛力?
在我們最新的文章中,我們將探討基礎LLM 層的整合如何為擴展這些更高階的推理和自主能力奠定基礎,並展望一代具有新型認知架構和使用者介面的「殺手級應用」。
2024 年最重要的模型更新非OpenAI 的o1 莫屬,它以前被稱為Q*,內部代號為Strawberry。此次更新不僅是OpenAI 重回模型品質榜首的有力宣言,也在現有的模型架構上做出了顯著突破。更重要的是,這款模型首次展現了真正的通用推理能力,這一成就是透過推理階段的計算來實現的。
那具體意味著什麼呢?目前的預訓練模型主要依賴「訓練階段的計算」來在海量資料上進行下一個詞的預測。規模的增加確實帶來了基本的推理能力,但這種推理相對有限。設想一下,如果你能教會模型更直接進行推理呢?這正是Strawberry 所做的。當我們提到“推理時計算”時,指的是讓模型在作答前進行“停下來思考”,這一過程需要更多的計算資源,因此被稱為“推理時計算”。 「停下來思考」本質上就是推理的過程。
那麼,模型在停下來思考時到底在做什麼呢?
我們可以回到2016 年3 月,地點是首爾。在那裡發生了深度學習歷史上具有劃時代意義的時刻:AlphaGo 對戰圍棋傳奇李世石。這不僅僅是一場AI 對人類的勝利,也是AI 開始展示超越簡單模式模仿、真正「思考」的開端。
與早期的遊戲AI 系統(如深藍色)不同,AlphaGo 在預訓練時不僅模仿了人類專家的決策,它還會在作答前「停下來思考」。在推理階段,AlphaGo 會模擬多個未來可能的棋局,評估它們的得分,然後選擇最優的應對方式。它使用的時間越多,表現越好。如果沒有推理時計算,AlphaGo 無法擊敗頂尖的人類棋手,但隨著推理時間的增加,它的表現逐步提升,最終超過了人類。
將這個概念移植到LLM 上的難點在於如何建構價值函數,也就是如何對模型的回應進行評分。如果是圍棋,模型可以透過模擬對局直到結束來確定最佳策略。如果是程式設計,可以測試程式碼的正確性。但如果是評估一篇文章的初稿、制定旅行計畫或總結檔案的關鍵術語,該如何評分呢?這就是推理在目前技術中的難點,也是Strawberry 在邏輯領域(如程式設計、數學、科學)表現強大,但在較為開放的領域(如寫作)表現相對不足的原因。
雖然Strawberry 的具體實現細節仍是保密的,但核心思想是圍繞模型生成的「思維鏈」進行強化學習。對這些思維鏈的審查表明,模型正在發生一些類似人類思維的突破性變化。例如,o1 展現了遇到瓶頸時能夠「回頭反思」的能力,這是一種推理時間擴展的自然結果。它還能像人類一樣透過可視化思考來解決幾何問題,甚至能夠以超越人類的方式解決程式設計難題。
此外,還有許多新的研究方向正在推動推理時計算的發展,例如計算獎勵函數的新方法、縮小生成器與驗證器之間差距的新途徑。研究團隊正在不斷改進模型的推理能力。換句話說,深度強化學習再次成為焦點,並為全新的推理層奠定了基礎。
思維AI 研究正進入一個全新的階段,從預訓練的「本能反應」(「系統1」)到深度推理(「系統2」)的飛躍,成為下一個突破點。如今,AI 需要的不僅僅是記住知識,而是能夠在做出決策之前停下來思考,評估資訊,進行即時的推理。
預訓練可以看成是「系統1」的過程。無論是像AlphaGo 那樣,通過數百萬盤圍棋對局資料訓練,還是像LLM 那樣,用海量互聯網文字進行預訓練,其核心都是模仿模式——無論是模仿人類的棋局還是語言模式。然而,模仿雖然強大,但並非真正的推理,它在應對複雜且未知的問題時表現有限,尤其是樣本外的情境。
這就是「系統2」思維的重要性所在,也是目前AI 研究的重點。當模型「停下來思考」時,它並非簡單地複述過去的經驗或模式,而是產生一系列可能的方案,考慮不同結果,並基於邏輯推理做出決策。
對於許多簡單任務來說,「系統1」已經足夠。例如,正如Noam Brown 在我們最新一期《Training Data》中提到的,花更多時間思考不丹的首都是什麼並不會有幫助——你要麼知道答案,要麼不知道。在這種情況下,快速的模式識別和記憶完全足夠。
但是,當面對更複雜的問題時,例如數學和生物學上的重大突破,簡單的本能反應已經不夠。這樣的進展需要深度思考、創造性地解決問題,最重要的是需要時間。同樣,對於AI 來說,處理這些高難度的、有意義的問題,必須超越快速的「樣本內」響應,花時間去進行深度推理,這也是推動人類進步的關鍵。
推理時代的競賽開始o1 論文最關鍵的發現是,AI 推理層面有了新的擴展法則。
預訓練LLMs 遵循的擴展法則已經被廣泛理解:投入越多的計算資源和材料,模型的表現就越好。
而o1 論文則揭示了另一個全新的擴展維度:你賦予模型的推理時間(或稱為「測試時間」)越多,模型的推理能力就越強。
當模型可以連續思考數小時、數天甚至數十年時,會發生什麼?我們能解決黎曼假設嗎?我們能找到阿西莫夫所提的終極問題的答案嗎?
這項變革將把我們從依賴龐大預訓練叢集的時代,帶入推理雲的世界——這些雲環境能夠根據任務複雜度靈活調整計算能力。
當OpenAI、Anthropic、Google 和Meta 繼續擴展推理層,開發出越來越強大的推理機器時,未來會如何?我們會走向「一個模型統治所有」的局面嗎?
生成式AI 市場早期曾有一個假設:某個單一的模型公司將變得極其強大,足以整合所有其他應用。然而,到目前為止,這一預測有兩點是錯誤的。
首先,模型層仍存在激烈的競爭,最前端的技術不斷被超越。雖然有人可能通過自我博弈,實現模型的持續自我改進,並因此引發“突飛”,但目前我們還沒有看到這樣的跡象。相反,模型層的競爭如刀尖上的較量,自從上次開發者大會以來,GPT-4 每個token 的價格下降了98%。
其次,除了ChatGPT 外,模型尚未在應用層掀起巨大的波瀾。現實世界充滿複雜性。頂尖的研究人員並沒有興趣去理解每個垂直行業的端到端工作流程的繁瑣細節。他們更傾向於停留在API 這一層,這既有吸引力,也更經濟合理。而開發者則可以處理現實世界的複雜性。對應用層來說,這是個利多消息。
複雜的現實世界:訂製認知架構作為科學家,你規劃並執行目標的方式與身為軟件工程師時截然不同。即便是軟件工程師,在不同公司中工作方式也會大不相同。
儘管研究實驗室不斷推動通用推理的極限,我們依然需要特定領域和應用場景下的推理來交付有效的AI 代理。現實世界的複雜性要求大量特定領域和應用場景的推理,而這些推理無法透過通用模型高效實現。
Sierra 就是一個很好的例子。 B2C 公司將Sierra 整合到他們的網站上,負責與客戶交流。 Sierra 的工作是解決客戶問題,它按每次解決問題的數量來收費,這裡並不存在「按席位收費」的概念。你有一個需要完成的任務,Sierra 完成了這個任務,並獲得相應的報酬。
對許多AI 公司而言,這就是他們的「北極星」。 Sierra 的優勢在於,當它無法解決問題時,可以優雅地將問題轉交給手動處理(即升級到人工客服),但並非所有公司都有這樣的幸運。現在出現的趨勢是,首先將AI 作為輔助駕駛(human-in-the-loop)部署,並通過這些使用機會逐步積累經驗,最後實現全自動化部署(無人工參與)。 GitHub Copilot 就是一個典型案例。
新一代自主型應用隨著生成式AI 推理能力的提升,一類全新的自主型應用開始湧現。
這些應用層公司的形態是怎麼樣的呢?有趣的是,它們與傳統的雲端運算公司看起來有所不同:
我們看到,在知識經濟的各個領域,一批新興的自主應用正快速湧現。以下是一些例子:
透過大幅降低這些服務的邊際成本(與推理成本的急劇下降同步),這些自主應用正在不斷擴展,並創造出全新的市場。
舉個例子,XBOW 正在開發AI 滲透測試員。 「滲透測試」是模擬的網路攻擊,旨在幫助公司評估其安全系統。在生成式AI 出現之前,企業只會在特定情況下(例如為了滿足合規要求)僱傭滲透測試員,因為人工滲透測試十分昂貴,這是一項需要高度專業技能的人工工作。然而,XBOW 展示了其基於最新推理LLM 的自動滲透測試,其性能與最優秀的人類滲透測試員相媲美。這不僅大大擴大了滲透測試的市場規模,還為各種規模的公司提供了持續滲透測試的可能性。
今年早些時候,我們與有限合夥人討論過,他們最關心的問題是:“AI 的轉型是否會摧毀現有的雲端運算公司?”
最初,我們的預設回答是「不會」。在初創企業和大公司之間的競爭中,通常是初創企業在建立分銷管道,而incumbents(現有大公司)則專注於優化產品。這場競爭的關鍵在於,新創公司是否能在incumbents 拿出酷產品之前,吸引足夠多的使用者。鑑於生成式AI 的核心技術基礎模型對初創公司和大公司都是開放的,並且incumbents 本身就擁有數據和分銷優勢,因此我們認為,大公司不會受到太大衝擊。初創企業的機會不是要取代大公司,而是瞄準那些可以自動化的工作領域。
然而,現在我們不再那麼確定了。如前文所述,認知架構帶來了巨大的工程挑戰。將模型的基礎能力轉化為成熟的、可靠的端到端解決方案,可能比我們想像的更複雜。我們是否低估了「AI 原生」的巨大潛力?
二十年前,傳統軟件公司曾對SaaS 的崛起不屑一顧。 「這有什麼大不了的?我們也可以自己運行服務器,通過互聯網提供這些服務!」從表面上看,SaaS 確實概念簡單,但其引發的卻是一場業務模式的全面變革。從工程、產品和設計(EPD)部門的瀑布式開發轉變為敏捷開發和A/B 測試,到市場策略(GTM)從自上而下的企業銷售轉向自下而上的產品驅動增長(PLG) ,再到商業模式從高價格的銷售轉向基於使用的定價模式,這場變革徹底顛覆了傳統軟件公司的運作方式。最終,只有極少數的傳統公司成功完成了這項轉型。
如果AI 帶來的變革與SaaS 類似呢? AI 的機會是否不僅僅是“銷售工作”,還有可能取代現有的軟件?
看看Day.ai,我們已經見到了未來的雛形。 Day 是一個AI 原生的CRM 系統。過去,系統整合商透過為Salesforce 定製化組態,賺取了數十億美元。然而,Day 只要連結你的電子郵件、日曆,再加上一頁簡單的問捲回答,就能自動產生一個完全適合你業務的CRM 系統。雖然它目前還沒有所有的高級功能,但它完全自動化、無需人工干預的特性,已經讓許多使用者開始轉向它。
作為投資者,我們的重點放在那裡?資金在流向那些方向?以下是我們的一些簡要分析。
這是超級規模商的主戰場,主要由博弈論行為驅動,而非微觀經濟因素。對於風險投資者來說,這不是一個理想的投資領域。
這是超級規模商和金融投資者的領域。超級規模商透過投資模型,將資產負債表中的資金轉化為損益表中的收益,最終這些資金會透過計算收入回流到他們的雲端業務。金融投資者則常被「科學震撼」的偏見所影響。雖然這些模型很酷,團隊也非常令人敬佩,但微觀經濟學卻被忽略了。
這一領域對戰略投資者的吸引力較小,但對風險投資者而言更有前景。在雲端運算轉型時期,大約有15 家年收入超過10 億美元的公司誕生在這一層。我們預計AI 轉型期間也會有類似的情況發生。
對創投來說,這是最令人感興趣的一層。在雲端轉型期間,大約有20 家應用層公司達到了10 億美元以上的年收入;在行動轉型期間,也有約20 家類似的公司誕生。我們認為,在AI 轉型中也會出現同樣的趨勢。
在生成式AI 的下一個階段,我們預期推理研發的成果將快速且深入地滲透到應用層。過去,許多認知架構依賴巧妙的「解鎖」技術;而隨著這些能力逐漸深度嵌入模型中,自主應用程式的複雜性和穩健性將會迅速提升。
在研究實驗室中,推理和推理時計算將繼續成為未來的重要議題。隨著新的擴展法則的出現,新的競賽已經開始。但在特定領域中,獲取真實世界的數據並建立領域和應用特定的認知架構仍然是一個巨大的挑戰。這意味著,在解決現實世界中多樣化問題時,「最後一公里」的應用提供者可能更具優勢。
展望未來,多代理系統,如Factory 的“機器人”,可能會成為建模推理和社會學習過程的主流方式。一旦AI 能夠執行工作,我們將能組建團隊,讓「工人」完成更多工。
我們所期待的,是生成式AI 的「第37 步」時刻——就像AlphaGo 在與李世石對戰的第二局中出人意料的那一步棋。當一個通用AI 系統展現出超越人類的思考和決策時,那一刻就會到來。這並不意味著AI 將「覺醒」(AlphaGo 並沒有),而是AI 在感知、推理和行動的模擬過程中,能夠以全新的方式進行探索。這或許就是通用人工智慧(AGI),但如果是這樣,它不會是單一的奇蹟,而是技術發展的下一個階段。 (AI深度研究員)