#對話
OpenAI關閉Sora之後 | OpenAI總裁對話實錄
4月2日,OpenAI 聯合創始人兼總裁 Greg Brockman 接受海外播客Big Technology 的深度訪談。本次對話中, Greg Brockman 首次回應了OpenAI 為何在視訊生成風頭正勁時選擇關停Sora APP,在 AI 競爭進入白熱化的當下,OpenAI 轉向全速推進“超級應用”與“推理模型”的真實意圖以及戰略抉擇。此外介紹了超級應用的終端形態、揭秘了代號為“Spud”的新一代預訓練模型,詳細探討了Scaling Law 在推理側的演進以及算力經濟學等話題。Greg Brockman指出,公司正處於從能力展示向現實效能轉化的轉折點,核心邏輯已從“驗證技術可行性”轉向“獲取知識工作的深度反饋”。他透露,即使擁有全球頂尖的算力儲備,也無法同時支撐視訊生成(Sora)與核心推理(GPT)這兩個完全不同的技術樹分支,OpenAI 現階段選擇收縮 Sora 的商業化投入,是為了確保資源向具備更高協同效應、能解決物理與科學難題的推理路徑絕對對齊。關於 AGI的進度,Greg Brockman認為 AGI 已經完成了 70% 到 80%,並將在未來幾年內實現。他指出,AGI 的判斷標準不應是圖靈測試或感官上的智力構想,而應是“經濟模式全面轉型的時刻”,即 AI 能夠自主勝任幾乎所有電腦端的智力任務。針對超級應用,他指出,未來的超級應用是程式設計、瀏覽器與對話的合體,未來的 AI 不應讓人類去適應電腦的操作邏輯,而是由 Agent直接操控網頁並處理複雜背景資訊,人類則演變為管理成千上萬 Agent 艦隊的CEO,承擔最終的問責制。關於代號為“Spud”的全新預訓練基礎模型,他指出,預訓練的提升具有巨大的乘數效應,基礎能力的跨越能顯著降低後續強化學習與推理的成本。同時,他詳細闡述了即將發佈的自動化研究員路徑,該系統能接管研究科學家的端到端工作流,通過 AI 反哺 AI 研發實現技術騰飛。在算力經濟,他提出,算力不是“成本中心”,而是像僱傭銷售人員一樣的“收入中心”,算力的建設規模直接決定了企業收入的邊界。01放棄 Sora的戰略取捨OpenAI 目前在消費級市場已取得領先,但近期似乎在收縮Sora方面的投入,轉而集中精力開發結合商業和程式設計場景的“超級應用”。作為外界觀察者,我們很好奇這種資源轉移背後的真實考量是什麼?你們在優先順序排序上是如何權衡私人助手與生產力工具的?Greg Brockman: 我是這樣看的,我們一直處於開發深度學習技術的世界中,真正的目標是驗證這項技術能否產生我們預想中的正向影響,以及它能否被用來建構改變人們生活的應用程式。此前,我們一直有一支專門的力量在嘗試實際部署,無論是為了維持業務運轉,還是為了在技術真正成熟並實現我們創立公司時的願景之前,積累現實世界的應用經驗。我認為我們正處於一個轉折點,我們已經看到這項技術確實有效。我們正在超越單純的基準測試和能力展示,進入一個新的階段:為了進一步開發,我們需要將其投入現實世界,從知識工作和各種實際應用中獲取反饋。由於技術發展階段的變化,這是一個重大的戰略轉移。這並不代表我們正從消費者市場轉向 B2B,我們真正想表達的是,面對眾多的可能性,那些是最核心的應用?因為我們無法面面俱到,我們需要專注於那些在建構時能產生協同效應,並能提供深遠影響,從而提升每個人效率的功能。在我們的願景中,消費級應用涵蓋很多方面。它可以是私人助手,瞭解你、與你的目標一致並協助你達成人生目標,也可以是創意表達或娛樂工具。而在商業領域,核心其實是一件事:當你有一個困難的任務時,AI 能否利用所有的背景資訊去完成它?對我們來說,優先順序排序中排在最前面的是兩件事:一是私人助手,二是能幫你解決難題的 AI。即便以我們目前擁有的算力,甚至都不足以同時支撐這兩件事。如果我們繼續增加更多其他非常有用的 AI 應用場景,資源會更加捉襟見肘。這是對技術快速成熟及其巨大影響的預判,我們需要明確優先順序,挑選出最能造福世界的應用集。02Sora 與 GPT 屬於不同技術分支,必須放棄全面開花你曾用迪士尼的“米老鼠”模型來類比 OpenAI:以模型為核心衍生出視訊、助手和企業服務。現在 OpenAI 是否已經無法再維持這種“全面開花”的狀態,必須在不同產品方向間做出殘酷的取捨?此外,既然視訊生成的進步有目共睹,為什麼你們最終押注 GPT 推理模型,而不是在 Sora 這樣理解世界物理規律的“世界模型”領域繼續投入?Greg Brockman: 實際上我認為這個類比現在比以往任何時候都更貼切。但在技術層面必須理解的是,Sora 模型雖然非常出色,但它與核心推理模型 GPT 系列屬於不同的技術樹分支。它們的建構方式完全不同。在某種程度上,同時追求這兩個分支對我們目前的資源來說確實太難了。目前,我們依然在機器人領域繼續進行 Sora 的研究計畫,因為機器人顯然將是一個變革性的應用,儘管它仍處於研究階段。機器人技術還沒有像知識工作那樣成熟到可以大規模部署的程度。這是一種戰略選擇:在當前這一時刻,我們需要將主要精力放在 GPT 系列的開發上。這並不意味著我們只做文字或腦力工作。例如,雙向通訊、出色的語音互動介面,這些都能讓技術變得非常易用且實用。但這些並不屬於不同的技術分支,它們源自同一個模型,只是進行了不同的微調。如果你把戰線拉得太長,在算力有限且需求極大的世界裡,是很難維持兩個不同產品方向的。(關於為何押注推理)這個領域最大的問題是機會太多了。我們在 OpenAI 早期就觀察到,只要是能想像到的技術路徑幾乎都行得通。雖然工程難度和算力需求各不相同,但只要數學邏輯成立,都能產生不錯的結果。這證明了深度學習底層的力量,它能觸及問題的實質,讓 AI 真正理解生成資料的底層規則。這不只是關於資料本身,而是理解底層的運作過程並將其應用到新語境中。無論是世界模型、科學發現還是程式設計,都是如此。關於文字模型能走多遠、文字智能是否能真正構築世界觀,這些爭論曾非常激烈。我認為我們已經給出了明確答案:它將通向 AGI。我們已經看到了實現這一目標的清晰路徑,也看到了今年即將推出的更強大的模型。在內部,關於如何分配算力的決策確實越來越痛苦。我們的核心邏輯是聚焦順序和時機。目前,一些曾被視為夢想的應用已觸手及輕。例如,解決未解決的物理難題。最近一位物理學家將困擾他許久的問題交給了我們的模型,12 小時後就得到瞭解決方案。他說這是他第一次感覺到模型在思考,解決了一個人類可能永遠無法攻克的難題。當你看到這種潛力時,你必須傾注所有資源去加倍投入,因為這能為全人類釋放巨大的潛能。對我來說,這不僅是重要性的比較,更是關乎 OpenAI 的使命:將 AGI 帶給世界並讓每個人獲益。03未來的超級應用是程式設計、瀏覽器與對話的合體GoogleDeepMind 的 Demis Hassabis 曾認為圖像/視訊生成器最接近 AGI,因為它們需要理解物理世界。如果你放棄這個分支,是否會錯失關鍵機會?另外,你心目中那個整合了所有核心能力的“超級應用”到底是什麼樣的?它針對的是商業還是個人場景?Greg Brockman: 兩個回答。第一,絕對存在這種可能(錯失機會)。在任何領域,你都必須做出選擇和博弈。OpenAI 的起點正是基於我們所堅信的實現 AGI 的路徑,並為此全力以赴。隨機向量的總和為零,但如果你能對齊向量,你就能朝著一個方向突圍。第二點是,圖像生成在 ChatGPT 中非常受歡迎,我們會繼續優先投資。之所以能做到這一點,是因為我們的圖像生成並非基於擴散模型分支,而是基於 GPT 架構。雖然資料分佈不同,但底層核心技術是統一的。這就是 AGI 奇妙的地方:語音互動、圖像生成、文字、科學研究和程式設計,這些看起來迥異的應用,其實都可以在同一個技術框架內實現。我們正在努力實現技術上的最大統一,因為這項技術將驅動整個經濟體。雖然我們無法獨自完成所有事情,但我們會盡力做好核心部分。(關於超級應用形態)我心目中的超級應用將把程式設計、瀏覽器和 ChatGPT 結合在一起。我們要建構一個終端應用,讓你真正體驗到 AGI 的通用力量。現在的對話功能將演變成你的個人 AGI 助手,它瞭解你、與你目標一致且值得信賴,在數字世界中代表你。目前的 Codex 可能更像是一個面向軟體工程師的工具,但它正在進化為面向每個人的工具,讓任何人都能通過它指揮電腦完成任務。它不再僅僅關乎軟體,而是關乎如何使用電腦。比如我想設定筆記本的複雜選項,直接告訴 Codex,它就會幫我完成。這才是電腦該有的樣子:順應人類的習慣,而不是讓人類去適應電腦。想像一下,一個應用就能處理你對電腦的所有需求。它內建了瀏覽器功能,AI 能夠實際操作網頁,並讓你負責監督。無論是聊天、程式碼還是知識工作,所有的對話都將統一,AI 擁有記憶並深刻地瞭解你。但這只是冰山一角。更重要的是技術底層的統一。現在不再僅僅是模型本身的問題,而是框架的問題。模型如何獲取背景資訊、如何與世界連接、能採取什麼行動,以及互動的循環如何運作。這些環節我們原本有多個不同的實現,現在正在進行融合。最終我們會形成一個強大的 AI 層,通過非常輕量化的方式指向特定的應用。你可以為金融或法律領域建構外掛或介面,但通常情況下,你只需要這個功能極度廣泛的超級應用。(關於應用場景)兩者兼顧。這正是它的核心。就像你的筆記型電腦一樣,它既是生產力工具,也是生活工具。它是你的個人機器,為你提供了一個進入數字世界的介面。04競爭白熱化的當下,OpenAI 追趕並反超的機會在那?Anthropic 已經通過 Claude 建構了屬於自己的超級應用,並搶佔了先機。你認為 Anthropic 敏銳察覺到了那些你們此前忽略的痛點?在競爭白熱化的當下,OpenAI 追趕並反超的機會在那裡?Greg Brockman: 回看過去一年多,我們一直將程式設計視為核心領域。在各類高難度程式設計競賽中,我們的模型表現始終處於頂尖水平。但我們此前在應用落地的最後一公里上投入不足。儘管AI 非常聰明,能解決複雜的競賽題目,但它從未接觸過現實世界中雜亂的程式碼庫,真實環境遠不如競賽環境那樣純淨,這正是我們之前的短板。(關於追趕進度)但從去年年中開始,我們開始認真解決這個問題。專門的團隊在研究現實世界的複雜性,包括如何獲取訓練資料、建構訓練環境,讓 AI 體驗真實的軟體工程流程,應對各種異常幹擾。目前我們已經追趕了上來。在與競爭對手的直接對比中,使用者往往更傾向於我們的產品。這證明了擁有優秀模型的同時,不能只盯著競爭對手。如果只關注對手的位置,當你到達時,對方已經移動了。現在情況發生了逆轉,很多人在盯著我們的位置,而我們已經邁向了下一步。我非常看重公司內部的這種合力。以前我們將研究和部署視為獨立環節,現在我們實現了深度整合。目前的狀態讓我感到踏實。外界的評價往往毀譽參半,但我們始終保持著穩健的節奏。在模型生產的核心環節,我對路線圖和研究投入充滿信心。在產品側,全公司的能量正匯聚在一起,將成果交付給世界。05下一代模型揭秘自2022 年以來 OpenAI 雖是領導者但競爭已白熱化,公司內部是否已進入“戰時模式”並取消了無關副業?傳聞中已完成預訓練的 Spud 模型到底是什麼?它與 Sam Altman 所說的“幾周內面世的強大模型”有何關聯?相比GPT-4 剛發佈時公眾的遲鈍,你認為下一代模型是會讓某些行業產生巨變,還是那種每個人都能感受到的普遍提升?它能做到那些今天模型做不到的事?Greg Brockman: 對我個人而言,最令人警惕的時刻是ChatGPT 發佈後的節日派對,當時全公司都瀰漫著勝利的氣息。但我從未有過那種感覺,我始終認為我們是挑戰者。在這個領域,競爭對手都是擁有雄厚資本、人才和資料的巨頭。OpenAI 能夠參與競爭,很大程度上是因為我們從不自滿,始終保持危機感。看到市場中出現競爭對手,看到敘事方式發生轉變,讓團隊每個成員都意識到這一點,其實是非常健康的,我非常歡迎這種變化。(關於 Spud 模型及個人投入)這個名字很有意思,我不會證實或否認具體的名稱。但這不僅僅關乎某一個模型。我們的開發流程是先進行預訓練,產生新的基礎模型,以此作為後續改進的根基。這需要全公司巨大的協作投入。在過去 18 個月裡,我個人的大部分精力其實都花在了 GPU 基礎設施上,全力支援團隊在大規模訓練任務中擴展架構,這是支撐這一切的底層基石。隨後是強化學習過程。AI 會應用學到的知識,接著通過後訓練過程來打磨其行為和可用性。你可以將 Spud 理解為一個凝聚了過去兩年研究成果的全新預訓練基礎。使用者將感受到能力的提升。單一版本的發佈並不是終點,它只是我們持續進化過程中的一步。我們正建構一個不斷加速的進化引擎,Spud 只是其中的一個階段。(關於模型能力的提升)新模型將能解決更難的問題,處理細節也更細膩。它對指令和上下文的理解會深刻得多。當模型真正變得更聰明時,會更順應使用者的意圖。如果 AI 不理解問題,還需要使用者反覆解釋,那種體驗是很糟糕的。這種提升是定性的。以前你可能因為 AI 不夠聰明而放棄某些場景,但現在你會不假思索地去使用。這種提升是全方位的。我非常期待它能如何拉高能力的上限。我們已經看到了在物理學等領域的應用。未來,它將能解決更多開放性、長周期的問題。同時,它也能提高能力的底線,讓任何任務都變得更加高效。(關於使用者感知的差異)我覺得情況會類似(GPT-4 剛發佈時)。剛發佈時,一部分人會覺得它帶來了翻天覆地的變化。但在某些不以智能為瓶頸的應用場景中,這種提升可能就沒那麼明顯。隨著時間推移,這種變化會深入人心,因為它從根本上改變了使用者對系統的依賴程度。使用者與 AI 互動時的心理模型更新較慢。直到它完成了一些超出想像的事,使用者才會意識到它的潛力。比如在醫療領域,有人通過 AI 研究出了癌症的治療思路,並在醫生無能為力的情況下獲得了治療方案。這需要使用者對 AI 有信任基礎,才會投入精力去挖掘。未來,AI 在各個領域的輔助作用會變得更加顯而易見。這既是技術的進步,也是人類認知的追趕。06自動化研究員與技術“騰飛”OpenAI 預計在今年秋天發佈的“自動化研究員”具體是什麼?它如何實現技術“騰飛”並反哺 AI 的進化?你是否擔心這種勢不可擋的進化處理程序會失控?Greg Brockman: 我們正處於技術騰飛的早期階段。騰飛意味著隨著AI 沿著指數曲線進化,我們可以利用 AI 來反哺,讓 AI 變得更強,從而加速開發處理程序。這種騰飛也體現在現實影響力上。技術研發正在飛速積聚動力,晶片廠商投入了大量資源,經濟生態也在蓬勃發展。AI 正在從邊緣輔助變成經濟增長的主引擎。這不僅僅是 OpenAI 圍牆內的事,而是全球經濟在共同推動技術的進步。(關於自動化研究員細節)自動化研究員將承擔更多原本由人類處理的任務。我們可以讓它自主運行,但這並不意味著放任不管。我們依然會深度參與管理。就像指導初級研究員,放任不管可能會誤入歧途。資深研究員即使不親自動手,也可以通過提供反饋、審查結果和指明方向來發揮作用。這個系統將極大地加速我們生產模型和實現研究突破的速度,讓模型在現實世界中更加實用。簡單來說,它能夠接管研究科學家完整的端到端工作流程,並在電腦模擬環境(in silico)中完成。(關於進化速度與風險)我覺得機遇和風險並存。我們必須在追求技術紅利的同時,深刻思考風險中的防範。在技術層面,我們在安全和保障上投入了巨大精力,比如防禦提示注入。必須確保 AI 不會被惡意指令誤導。我們將人類容易受欺騙或忽略背景資訊的特點引入開發過程,確保 AI 與人類對齊。這需要綜合考慮社會和經濟等宏觀問題。我不僅在推動技術進步,也在思考如何確保其潛能轉化為積極的影響。07AGI 的進度條:完成了70% 到 80%黃仁勳認為AGI 已經基本實現,你認同嗎?OpenAI 內部對 AGI 的定義是否發生了演變?在你的視角裡,我們距離那個“無可爭議”的臨界點還有多遠?Greg Brockman: 每個人對AGI 的定義都不盡相同,肯定有很多人認為我們現狀已達成了 AGI。這雖然可以辯論,但有趣的是,當下的技術表現呈現出明顯的鋸齒狀。AI 在許多工上表現出絕對的超人水平,例如編寫程式碼,AI 能夠直接完成任務並顯著消除創作過程中的阻礙。然而,在一些人類看來非常基礎的任務上,AI 依然表現掙扎。因此,這取決於你如何劃定界限。在某種程度上,這更多是一種感官上的直覺判斷,而非硬性的客觀標準。OpenAI 在 2017 年曾對 AGI 下過內部定義,目前的成果早已遠遠超越了那個標準。但人們的目標也在不斷演進,正如曾經被視為終極標準的圖靈測試,當我們的模型通過測試時,大家反而覺得這雖然有趣,但還不足以定義 AGI。我確實認為我們正在接近大眾認知中的 AGI,但我不認為我們已經完全抵達終點,真正的科學進步仍有待突破。我將 AGI 視為經濟模式全面轉型的時刻,即你可以直接引入一個系統,讓它真正具備勝任幾乎任何人類工作的能力。目前我們尚未完全達到這一水平,只有到了那一刻,AGI 的實現才會成為無可爭議的事實。在最後這幾步中會發生什麼是一個有趣的問題,但我確信我們終將達到一個讓所有人產生共鳴的臨界點。回顧過去十年我與這項技術打交道的經驗,以前我們通過數學計算來預測 Scaling Law 及其前景,我雖然在理性上堅信不疑,但內心並沒有實感。直到 GPT-4 問世,我第一次真切地感受到了它的力量。那一刻我意識到,這不再僅僅是一個智力構想,而是真實的科學突破。如果你在五年前向我展示現在的系統,我會認為這就是我們追求的目標,但真實的體驗卻與我們曾經想像的完全不同。我們必須相應地調整自己的心理模型。(關於實現進度)我認為大約完成了 70% 到 80%,我們已經非常接近了。未來幾年內,我們顯然會擁有 AGI。雖然它的能力分佈可能依然不均,但它處理智力任務的下限將極大提升,幾乎任何在電腦上進行的操作,AI 都能勝任。我現在很難給出確切答案,因為這裡存在一種類似測不準原理的情況。從我個人的定義來看,我們已近在咫尺,只要再往前邁出一小步就絕對會實現。08AI 從錦上添花的邊緣工具躍升為重構工作流的核心引擎回顧2022 年底,是什麼讓模型實現了從 20% 到 80% 的任務覆蓋跳升?有使用者利用 Codex 輔助視訊編輯,它自動為 Adobe Premiere 建構了外掛、劃分章節並開始剪輯。這種非技術人員的自發應用,是否改變了你認為 Codex 僅限程式設計師使用的看法?Greg Brockman: 新模型的發佈讓AI 能處理的任務佔比從 20% 直接跳升至 80%。這是一個巨大的轉變,AI 從一個錦上添花的工具,變成了你必須圍繞其重新建構工作流的核心。我有一個沿用多年的測試提示詞:幫我建一個網站。當年我學程式設計時,花了好幾個月才做出來。2020 年或 2021 年時,AI 通常需要四小時並經過反覆提示才能搞定。但在 12 月那次,它一次性就完成了任務,而且質量非常出色。這很大程度上歸功於更優的基礎模型。OpenAI 在改進預訓練技術方面深耕已久,那一刻我們只是預先窺見了未來的變革。但這並非單點技術的突破,而是在創新的每一個維度上不斷推動的結果。這些模型的神奇之處在於,雖然你期望進步是線性的,但它有時表現為飛躍,有時又表現為連續的演進。它不是從 0 跳到 80,而是從 20 提升到 80。在後續的每一個小版本更新中,我們都看到了這種持續的改進。在 GPT-4 和 GPT-4.5 之間,我的一位負責硬核底層系統工程的同事發現,AI 從完全無法幫忙變成了得力助手。他給 AI 一份設計文件,AI 就能完成實現、加入指標和可觀測性、運行性能分析器(Profiler)並進行最佳化,直到產出完全符合預期的成果。這種進步通常是極其緩慢地積累,然後突然在某一刻爆發,而這一切在目前的技術進展中早有預兆。在一年甚至更短時間內,它將變得極其可靠。(關於 Adobe Premiere 外掛案例)關於你提到的那個視訊編輯案例,這正是我最想聽到的反饋。Codex 最初是為程式設計師設計的,對非技術人員來說門檻其實還很高。比如遇到報錯時,開發者知道怎麼修,但普通人會覺得莫名其妙。即便如此,我們依然看到很多從未程式設計過的人在用它建構網站、自動化辦公。最難的部分,也就是建構一個聰明且有能力的 AI,我們已經完成了。現在的任務是完成那個相對簡單的部分:消除准入門檻,讓它變得真正通用。(關於 Codex 普及)我之前一直關注 Codex,認為它是給程式設計師準備的。考慮到 OpenAI 內部很多都是為自己開發工具的工程師,這種慣性思維很自然。但隨著技術演進,我們意識到其底層技術的本質並非關於程式碼,而是關於解決問題。它關乎如何管理上下文、利用測試框架(Harnesses)以及思考 AI 應該如何深度整合到工作中。這意味著,那怕是寫程式碼,普通人也能上手,因為你現在管理的是一個能真正幹活的實體。只要你有願景和目標,描述出意圖,AI 就能幫上幫。這也引發了我的反思,為什麼只盯著寫程式碼呢?在 Excel 表格處理或幻燈片製作中,其實有大量機械化的技能。只要 AI 掌握了背景資訊,它現在的原生智能足以高水平地完成這些任務。只要我們降低門檻,Codex 就不再僅僅屬於程式設計師,而是屬於每一個人。09人類將任務委派給 Agent,但必須保持對核心細節的敏銳掌控與最終問責矽谷出現了Open Claw 現象,人們授權 AI 訪問桌面、郵件、日曆並由其代勞。OpenAI 招攬其創始人是否意味著你們的願景是讓 AI 深度管理生活?當你像首席執行長一樣指揮成千上萬個 Agent 艦隊為你工作時,這種新的模式是否會讓你覺得對問題的敏銳掌控正在消失?Greg Brockman: 這項技術的核心難點在於發掘它的用處、使用者的使用偏好、AI Agent 的願景以及它如何融入日常生活。我觀察了多代技術的發展,發現那些全身心投入、充滿好奇心和遠見的人,才真正擁有一種極具價值的新興技能。Open Claw 的創始人 Peter 就擁有非凡的眼光和創造力。這在某種程度上關乎特定技術,但更多時候是關於我們如何轉化這些能力,找到它們在人們生活中的位置。作為技術人員,我對此感到興奮。而作為一個致力於提供實用工具的人,這是我們正在加倍投入的方向。(關於能動性與掌控)我認為這有利有弊。我們需要做的是發揮這些工具的優勢並規避其弱點。它給人們提供了槓桿和能動性,讓你有願景就能指揮 Agent 艦隊去實現。但歸根結底,必須有一個負責方。如果你建網站時 Agent 辦砸了並影響了使用者,那不是 Agent 的錯,而是你的錯。為了用好這些工具,你必須意識到人的能動性和問責制是系統的核心,人如何使用 AI 是極其根本的問題。作為這些 AI Agent 的使用者,你不能推卸責任,不能當甩手掌櫃。(關於失去掌控的風險)對我來說,這兩者是緊密相連的。如果你作為 CEO 卻脫離了細節,對實際情況失去了敏銳的觸覺,那是不會有好結果的。我並非認為人類不瞭解現狀是好事。有些細節是可以信任的,比如你找建築承包商蓋房子,很多細節你確實不需要操心,因為你相信他們能處理好。但最終如果細節出了錯,你必須在乎並保持知情。這是一個微妙但重要的區別。你不能盲目地接受失去對實際情況的掌控。相反,我們需要深入其中,為了真正理解優勢和弱點而保持敏銳。當你從那些低等級的機械性事務中抽身時,應當是因為你已經通過建立信任,確認了系統能出色地完成任務。10未來 AI 將通過電腦操控能力實現跨領域的創造力大爆發模型在工具使用後的下一步進化方向是什麼?如果AI 能操控桌面,它能為普通人帶來什麼?既然模型已經如此強大,為什麼這種變革還沒有全面發生?另外,對於 Peter Thiel 提到的數學型人才面對 AI 衝擊更危險的觀點,你作為數學俱樂部成員是否感到擔心?Greg Brockman: 我們正身處一個機器能力和深度持續增長的世界。除了工具使用,我們現在還需要建構強大的配套設施。比如電腦使用能力,如果AI 能真正操控桌面,它就具備了人類能做的一切能力。同時,我們也得為機器進行針對性的建構,例如在企業環境中,憑證管理、審計追蹤和可觀測性如何實現。我們要建構大量技術,才能跟上核心模型本身的能力。整體發展方向包括極佳的語音互動介面,讓你能自然地與電腦交流。它理解你,執行需求,並給出建議。它能主動反饋工作進展,甚至能為你經營一家公司。我認為創業的民主化時代絕對正在到來。它會提醒你,這裡有些問題,有位客戶不太高興,他們想和真人溝通,你應該去跟進一下。這些都會變為現實。提高人類雄心的天花板,解決更具挑戰性的難題,也是這項技術的下一步。我們正處於這種趨勢的最前沿。未來一年,我們將看到人們利用這種能力實現大爆發。我最期待的是,就像當年 AlphaGo 的第 37 手一樣,那一招任何人類棋手都想不出來,它充滿了創造力並改變了人類對博弈的認知。這種現象將發生在科學、數學、物理、化學、材料學、生物學、醫療和藥物研發等每一個領域,甚至文學和詩歌。它將以我們現在無法想像的方式,釋放人類的創造力、認知和構思。(關於效能滯後)模型的潛在能力與其實際應用之間存在一種效能釋放滯後。我們對模型潛力的理解仍在不斷加深,即便技術不再進步,現有的存量技術也足以引發巨大的經濟變革。由算力驅動的經濟模式終將到來。目前我們非常擅長在可衡量的任務上訓練模型,比如數學題和程式設計題,這些都有完美的校驗器。要把這種能力引入更開放的問題,關鍵在於擴大可評分的範圍。AI 本身就能幫上忙,如果你給它一個評分準則,它就能評估任務完成的好壞。當然,像創意寫作這類事情,評分要難得多。目前我們教導 AI 學習這類事物的能力還較弱,但這一切都在改變,目標已經非常清晰。(關於數學與人文)人總是更容易看到失去了什麼,而很難看到得到了什麼。我們對自己熟悉的東西被 AI 取代有著深刻的危機感,但驅動人類進步的從來不是數學競賽本身。如果你看我們現在的工作方式,躲在盒子後面敲字其實並不自然。我們被捲入了這個數字世界,但這並非人類存在的真諦。做人的真諦在於當下、在於臨場感、在於人與人之間的連接。我們將看到,AI 將釋放出大量的時間,讓我們去增強人際連接,建立更深的情感紐帶。這才是讓我感到無比興奮的地方。11算力經濟邏輯與 Scaling Law 的乘數效應當重心轉向推理應用,是否還需要進行大規模訓練和購買輝達GPU?建設資料中心的數學邏輯是什麼?你們籌集 1100 億美元的邏輯如何回報投資者?面對 Dario Amodei 關於“基礎設施豪賭可能導致破產”的警告,你作何回應?Greg Brockman: 我認為這種觀點(預訓練已足夠)忽略了技術發展中非常關鍵的一點。模型生產鏈條的每一個環節都有乘數效應,因此必須改進所有環節。我們發現,只要改進了預訓練,後續的所有步驟都會變得簡單得多。這很好理解,因為預訓練出的模型學習速度更快。由於起步能力更強,模型在嘗試新想法和從錯誤中學習時的效率就更高,而且能通過Scaling Law 更有效地減少錯誤。過去我們認為只是在獨立訓練一個大腦系統,然後讓它越變越大,但現在的重大轉變是:你需要讓模型去嘗試、去理解現實世界中人們的使用方式,並將這些反饋整合回訓練中。但這並不意味著預訓練研究不再重要。另一個變化是,過去我們只關注原始的預訓練能力,而不太考慮推理效率。這是過去兩年的一個大變化,我們意識到需要一種平衡。基礎模型可以擁有各種優異屬性,但你必須保證它的推理效率,因為你需要進行強化學習,需要面向全球提供服務。這意味著你不一定非要追求極致的規模,因為你必須考慮下游的實際應用。你真正想要的是智能與成本的最佳平衡點,並同時最佳化這兩者。(關於輝達)絕對需要。原因有很多。首先,即便推理和訓練的比例在變,但除了將算力集中在單一問題上進行大規模訓練,目前還沒有其他路徑。我們投入到預訓練模型中的算力量只會持續上升。雖然部署端的規模會大幅增長,但當你進行超大規模預訓練時,依然需要極其密集的算力。此外,Nvidia 團隊非常出色,做了非常了不起的工作,我們之間的合作非常緊密。(關於預訓練上限)這就像在問,是不是等人類解決了眼前的所有問題,我們就可以止步不前了。我們的願景非常宏大,也許在過去 50 年裡人們有些退縮了。看看那些顯而易見的問題,比如我們能否實現全民醫療,而且不是等病了才治,而是真正的預防性醫療。不只是建議生活方式,而是如何在大病發生前檢測到潛在疾病。我認為更智能的模型能解決這些問題。也許達到某個水平後能解決這個問題,那時你會問,我還需要模型再聰明兩倍嗎?但還會有其他更難的問題需要更強的模型。(關於 1100 億籌資邏輯)邏輯很簡單,我們面臨的最大支出就是算力。但你可以把算力看作收入中心,而不是成本中心。這就像雇銷售,你想雇多少人?只要產品賣得出去,只要銷售模式可擴展,銷售人員越多,收入就越高。現實情況是,我們發現算力的建設速度永遠趕不上需求。自那以來每年都是如此。挑戰在於,購買算力需要提前 18 到 24 個月甚至更久鎖定訂單,這意味著你必須具備超前的預判。目前我們大部分收入來自消費者訂閱,這很重要。但新的機會顯然是知識工作。我們看到各大企業都意識到這項技術真實有效,為了保持競爭力,他們必須採用。無論是軟體工程師的自發使用,還是企業內部各種知識工作的滲透,付費意願和收入增長都非常明確。我們能看到一些外界看不到的趨勢,即這些模型改進的明確路徑。綜合來看,整個經濟的增長,其核心驅動力都將圍繞 AI 展開,取決於你利用 AI 的程度,以及支援運行的算力儲備。(關於企業端反超)企業端的增長非常迅速,而且企業端的定義也在演變,本質上是人們將其用於高效的知識型工作。在定價方面,以 Codex 為例,如果你有 OpenAI 帳號或 ChatGPT 訂閱就能使用。我認為未來的界限不會那麼死板,核心在於使用者擁有了一個通往數字世界的門戶,這才是收入的根本來源。(關於破產風險警告)我不認同(Dario 的觀點)。我們一直很清醒,也看到了未來的趨勢。今年大家就會發現,所有參與者都會面臨算力短缺。我們是最早預見到這一趨勢並提前佈局的。其他玩家可能去年底才反應過來,開始到處找算力,但那時已經沒貨了。發表評論很容易,但事實是大家都意識到這項技術是玩真的。軟體工程只是開端,我們目前的瓶頸完全在於算力不足。我們有更多的緩衝餘地。如果你擔心下行風險,這確實是個好問題。但在某種程度上,這不只是對某一家公司的豪賭,而是對整個行業的信心。關鍵在於,你是否相信這項技術能產生我們預見的巨大價值。看看軟體工程吧,如果你沒試過,你很難想像它的變革性。它徹底改變了寫程式碼的方式,而這種改變正在發生在所有領域。12公眾的AI偏見、能源轉型與個體的未來準備你平時怎麼使用AI Agent?為什麼 AI 在公眾中並不討喜?看空 AI 的人遠多於看好的。面對人們對失業、能源、環境污染和電費上漲的恐懼,你認為他們錯了嗎?以及給普通人的未來建議。Greg Brockman: 我用它為團隊開發內部工具,比如同步視訊進度和縮圖設計。我還用它整合YouTube 資料,根據縮圖預測視訊表現,這相當於為我定製了一個我原本絕不會花錢去買的軟體。這就是目前的有趣之處,雖然軟體可以大規模普及,但很多細節並不是為你量身定製的。而 AI 讓我們能以更自然的方式與軟體互動。這是關鍵。現在的電腦其實是把我們拉進了一個生硬的數字世界,你需要不停地刷手機、點按鈕。為什麼非要這樣?AI 的本質是讓機器更貼近人,實現個性化,理解你的意圖。流行文化裡那種能對話、能替你辦事的電腦正成為現實,這種奇妙的體驗必須親自嘗試才能理解,我們正處於一個非常特殊的時刻。(關於公眾偏見)我們需要向公眾展示 AI 到底能給他們帶來什麼好處,而不僅僅是宏觀經濟或生產總值的增長。我每天都聽到很多真實感人的案例。比如有一個家庭,孩子生病需要做核磁共振卻被保險公司拒絕,他們用 ChatGPT 研究症狀,找到了申訴理由並成功拿到了檢查機會,結果發現了腦腫瘤並救了孩子的命。這樣的故事還有很多,人們的生活正因為與 AI 合作而發生翻天覆地的改變。但這些故事沒有被廣泛傳播。相反,大量流行文化充斥著對 AI 的負面想像。但當人們真正開始使用它,他們會發現它的價值。我確實擔心我們還沒能讓大家理解,這股技術浪潮是為了改善生活和人類聯絡。這關係到未來的經濟和國家安全,關乎國家競爭力。在全球範圍內,不同地區對 AI 的應用方向和治理理念存在差異。我們必須確保這項技術能讓每個人受益。(關於能源與環境擔憂)關於資料中心確實存在誤讀。比如耗水,我們在 Abilene 的超級電腦,其用水量其實僅相當於一個普通家庭的一年用量,幾乎可以忽略不計。關於電費,我們承諾會承擔自己的用電成本,不推高民眾的負擔。作為行業成員,我們有責任回饋當地社區,創造稅收和就業。引入更多電力並不意味著更多污染。目前的電網中存在大量無法利用的擱置電力,且傳輸系統急需升級。由我們來承擔這些升級費用,而不是讓納稅人買單,這對社區是有利的。在北達科他州,因為資料中心的入駐和對公用事業的投資,當地居民的電費反而下降了。(關於未來建議)對那些害怕 AI 的人,最重要的一點是去試用這些工具。只有親身體驗,你才能理解它能為你做什麼。它能賦予從未建過網站的人建站的能力,能幫創業者處理繁瑣的後台流程,能幫你管理健康、賺錢省錢。人們往往更容易看到變動帶來的危機,而忽略了潛在的收益。核心是保持好奇心。從技術中獲益最多的人,往往是那些敢於在工作流中嘗試的人。要克服面對空白輸入框的迷茫,培養自己的主體性,把自己定位為管理者,去設定方向、委派任務並進行監督。這種管理技能在未來至關重要。我們開發 AI 是為了讓人類有更多時間做自己想做的事。所以,看清自己真正想要什麼,並利用 AI 去實現它,這就是最重要的事。 (數字開物)
【GTC 2026】黃仁勳105分鐘對話實錄:兆美元這麼賺!談中國、H200、養蝦、Groq,炮轟DLSS 5批評者
到2027年,輝達有望收穫1.25兆美元訂單。智東西3月17日聖何塞現場報導,在昨日發表GTC主題演講後,今天,輝達創始人兼CEO黃仁勳與智東西等全球媒體進行了長達近2小時的深度交流,連續回答32問,並透露面向中國市場的H200 GPU重啟生產,已收到許多訂單。黃仁勳對昨日輝達GTC演講中的重磅發佈做了許多補充解讀,包括解釋說昨天撂出的重磅預言“到2027年收穫1兆美元訂單”,僅僅包含Blackwell和Vera Rubin兩條產品線,還沒算上獨立CPU、Groq、儲存及網路裝置。和全球媒體溝通過程中,黃仁勳也展示了自己頗有“活人感”的幾個側面。當知名汽車媒體Motor Trend在現場宣佈黃仁勳為年度人物時,他顯得十分開心,不僅揚言要“站在這裡直到再多拿幾個獎”,還幽默地向全場“懺悔”,笑稱自己其實已經兩年沒摸過方向盤,全靠自動駕駛代步,言語間難掩驕傲與笑意。而當採訪突然被一陣突兀的手機鈴聲打斷時,他毫不客氣地中斷了回答,當場“抓包”並拋出自己的鐵律:“開會時所有手機必須靜音,不振動、不響鈴,徹底靜音,這點輝達人人都知道。”他甚至在台上靜靜等候對方處理完畢,半開玩笑半認真地說到:“我在等你呢。”將他對身邊一切的絕對掌控感與不加掩飾的真性情,展露得淋漓盡致。以下是黃仁勳GTC採訪的核心內容:1、200億美元收購Groq:Groq之於輝達,就如同Mellanox之於輝達。Groq的LPU並非為了替代現有產品,與Vera Rubin結合後才能應對新興的推理細分市場。2、Vera CPU:這些CPU與傳統x86 CPU截然不同,未必適用於所有場景,其核心價值在於用10億美元的CPU,支撐500億美元的GPU跑滿性能。3、儲存晶片:輝達目前擁有資料中心中唯一一個同時針對HBM、LPDDR、SRAM三種儲存技術進行最佳化的架構,他們還在與每一家記憶體廠商合作。4、AI不會殺死SaaS:以EDA軟體為例,AI並非從零開始憑空生成電晶體,輝達工程師也不是像在用Nano Banana生圖一樣設計晶片,而是一層一層地精確建構。5、AI安全:用科幻小說式的AI敘事去恐嚇所有人是一種傲慢和自大。AI智能體系統像“白細胞”一樣參與網路安全,當入侵者來襲時可以立即響應並蜂擁而至,展開反擊。6、OpenClaw爆火:OpenClaw是後推理時代AI的轉折點,“市場對一個精心設計的開源智能體系統,存在著真正且長期被壓抑的迫切需求”。7、H200進入中國:“輝達已獲得向中國眾多客戶銷售H200的許可證,也已經收到了來自眾多客戶的採購訂單,正處於恢復生產的過程之中。”8、1兆美元營收:此前預測的至2027年1兆美元營收,僅僅包含了Blackwell和Vera Rubin兩條產品線。如果加上獨立CPU、Groq、儲存以及網路裝置,規模可能會達到1.25兆美元。9、投資背後邏輯:輝達只向那些他們相信會成功的公司提供融資,瞄準的是“下一個Google”、“下一個Meta”、“下一個亞馬遜”。其本質是在投資生態,這是極佳的投資標的。10、如何理解輝達:輝達40%的業務任何雲服務商都無法獨立覆蓋,剩下60%是雲業務,其中40%~50%的需求由輝達創造,比如沒有輝達甲骨文就沒法服務OpenAI,最後才是雲服務商自身的需求。11、DLSS 5爭議:對DLSS 5的批評完全錯誤,開發者依然可以對生成效果進行微調。一切主動權都在開發者手中。輝達在創造的是技術,而非藝術。12、機器人:推理能力的突破和VLA(視覺-語言-動作)模型的應用,已經給機器人的認知問題提供解決方案。剩下的主要是工程最佳化,未來三年內機器人技術將迎來重大突破。13、自動駕駛:輝達自動駕駛業務目前約佔總營收的1%,但輝達最初做的幾乎每一件事,比如CUDA、可程式設計著色器、光追都耗費了大量資金,卻毫無回報,甚至引來不少質疑。必須堅信自己所相信的,然後決定是否值得繼續追求。14、AI時代的職場與人類未來:AI不會導致大規模失業,人類反而會更忙。關於人類,唯一可以確定的是:我們如今允許自己打開想像力去解決的問題,比四年前多出了百萬倍。15、黃仁勳分享“人生三訣”:別被開除,別無聊,別死。對人如此,對公司也一樣。以下是採訪的完整實錄:Q1:輝達花了創紀錄的200億美元收購了Groq,這是你們歷史上最大的一筆交易。因為Groq的LPU解決了你們GPU在規模化即時推理上的問題。這是否意味著業內已經認識到AI的重心已經從訓練轉向推理了?黃仁勳:首先,你面前站著的是“推理之王”。我可以這麼說,(因為)有人曾封我為“推理之王”。2025年,我們決定將巨額資源投入到推理領域。在2024年底2025年初,我們推出了NVLink 72系統,推出了NVFP4(輝達Blackwell GPU架構引入的4位浮點格式),在此之前還推出了Dynamo(輝達的開源、低延遲、模組化推理框架)。Dynamo幾乎提前兩年詮釋了我昨天才公佈的完整戰略。在那之前,我們就已經知道推理在NVLink 72上表現完美,這就是NVLink 72如此重要的原因。35倍的性能提升,成本只有原來的1/50。或者說每瓦性能提升了50倍,成本只有原來的1/35。因此,我們目前是成本最低的token生產商,也是AI工廠中吞吐量最高的token生產商。這一切,都歸功於NVFP4、NVLink 72與Dynamo的協同作用。隨著市場持續演進,我昨天提出的核心概念之一就是:並非每個token都是等價的——每個token可能由小型模型、較大模型或超大型模型生成,對應的輸入上下文長度也從極短到極長不等。在每個細分領域,AI都在變得越來越智能。AI發展初期,ChatGPT只有一個服務層級——免費檔,隨後推出了每月20美元的付費檔,o1和o3問世後,又新增了更高的服務層級。這些層級本質上就是產品的細分市場在不斷擴大,催生了差異化需求。現在有開發者在使用AI智能體,比如Claude Code和Codex,它們極具實用價值,由此形成了又一個新的服務層級。這和輝達當年只有RIVA 128一款產品的起步階段並無二致。如今我們擁有RTX 5090、5080、5070、5060……各類產品一應俱全。就如同iPhone現在擁有眾多不同版本,覆蓋不同層級——因為客戶群體各異,需求不同,價格定位也不同。我們一直在沿著這一產品譜系全面拓展佈局。就目前token的主流消耗場景而言,現有的Grace Blackwell以及即將到來的Vera Rubin,其性能都無可匹敵,Groq的加入不會改變這一格局。然而,我們判斷一個新興細分市場正在形成——該市場要求模型同時滿足三個條件:模型體量大、上下文長度長,以及推理延遲極低,也就是響應速度極快。Groq可以兌現上述三項承諾中的一項,但無法同時滿足全部三項。將Vera Rubin與Groq結合,我們便能同時實現這三項承諾,由此開闢出一個新的細分市場:大模型+長上下文+超快token生成速率。這正是我們所設想的市場細分方向,也是引入Groq的戰略意圖。我依然認為,在一座算力工廠的配置中,75%仍將是純Vera Rubin部署;另有25%將是Vera Rubin與Groq的組合部署。Vera Rubin仍將是核心。它實在太強了——我們自己都不知道如何超越Vera Rubin,否則我們早就造出能勝過它的產品了。Grace Blackwell是當下的推理之王;明日,Vera Rubin將接過這一王冠。不久的將來,Grace Blackwell終將成為歷史,而Vera Rubin,乃至未來更新的版本,將登頂推理算力之巔。我希望Groq之於輝達,就如同Mellanox之於輝達一樣,是一次架構層面的重要補充。我們建構的不是一塊GPU,而是一座AI工廠。Q2:輝達越來越多地被要求為客戶的資料中心建設提供融資支援。請問這類融資安排的具體形式是怎樣的?輝達又將如何管理其中的風險?黃仁勳:我們只向那些我們相信會成功的公司提供融資。我們投資了CoreWeave、Nscale和Nebius,我認為我們完全可以承認,這些都是全壘打等級的投資。我們之所以有把握認定這些是必勝之局,是因為我們已經看到了流向它們的業務。從很多層面來說,我們掌握著先手資訊。我們通過幫助它們更快、更大規模地擴張來投資整個生態系統。由於我們清晰地看到了它們面前的業務與機遇,風險實際上極低。這對於流向它們的算力需求來說,也是一種極大的服務價值。如大家所知,其中一些客戶就是Meta、Azure、Anthropic等巨頭。我們並非在為所有龐大的市場需求尋找產能,而是通過相關投資切實幫助到每一方。因此,我們以“超級助推器”的角色參與其中。即便沒有我們,他們也能完成融資,但這對我們而言是融入整個生態系統的絕佳方式,坦率地說,迄今為止也是一項非常出色的投資。Q3:隨著OpenClaw和NemoClaw的推出,那類問題是您個人最期待這些工具幫助大家解決的,或者是以前難以實現的任務?黃仁勳:我最期待的是,自動駕駛汽車無需積累數十億英里的訓練里程就能實現安全行駛。如今,我們擁有具備推理能力的AI,使汽車能夠對某一特定場景進行真正意義上的推理,並將其分解為一系列相對平常的子場景。一個複雜的駕駛場景,其實往往是你曾經經歷過的情況的變體,只是把某個球換成了別的物體,把一隻貓換成了一條狗,把一個行人換成了一位騎行者。本質上都是同類場景的分解重組。採用同一推理技術的智能汽車,將帶動機器人技術在未來幾年內實現超高速演進。由於推理系統的突破,物理AI將迎來令人驚嘆的加速發展。具備推理能力的蛋白質生成技術將能夠生成更多基於物理結構的蛋白質,這些蛋白質更具現實可行性、更易於合成,毒性也更低。因為AI能夠對所有這些特性進行推理。這在短短幾年前還是完全不可能實現的。我認為,o1,即OpenAI o1,是推理系統發展史上真正的重要拐點,OpenAI在這一領域的工作理應獲得高度的認可。OpenClaw是後推理時代AI的轉折點。如果說ChatGPT將生成式AI帶給了世界,那o1則將推理系統帶給了世界。Claude Code長期以來主要面向企業級應用,因此大多數人尚未真正體驗過智能體系統——除了我們這些身處軟體開發行業的人。我們正在盡情享受這項技術帶來的紅利,公司所有的軟體工程師如今都有智能體協同工作。但這種體驗僅限於企業內部,侷限於科技行業,尚未向大眾開放。突然之間,OpenClaw橫空出世。我們終於擁有了一個真正架構精良的開源智能體系統。它面臨的唯一挑戰是安全性——安全並非唯一的難題,但確實是一個極其嚴峻的問題。安全、治理、隱私,以及所有與規範化智能體系統相關的特性,都是亟待解決的關鍵議題。我們可以與Peter(OpenClaw創始人)合作,將這些功能整合進OpenClaw。同時,我們還通過一系列執行階段和參考設計來完善OpenClaw,使其即使採用開放模型,也能幫助企業實現極致性能。我們稱之為NemoClaw。NemoClaw本質上就是OpenClaw,外加大量深度整合的輝達技術——基本上是一份經過輝達最佳化、專為企業級場景打磨的OpenClaw藍圖。如今只需一行程式碼、一鍵安裝,每個人都能獲得一個強大的智能引擎。我認為這完全是革命性的突破。回過頭來看,OpenClaw在短短幾周內就成為史上最受歡迎的開放原始碼專案之一,而Linux可是花了30年才達到今天的地位——這是一項非常非凡的成就。它表明全球對此抱有極大的興趣,也揭示了對一個精心設計的開源智能體系統存在著真正潛在且長期被壓抑的迫切需求。現在,每個人都可以制定自己的智能體戰略了。這意義重大,我感到非常興奮。Q4:昨天DLSS 5發佈了,遊戲社區中有些相當強烈的反對聲音,認為這項技術讓許多遊戲看起來更糟糕、千篇一律,或者只能在視訊中觀看。你對這種批評怎麼看?黃仁勳:首先,他們完全錯了。原因在於,我已經詳細解釋過了,DLSS 5將幾何形狀、紋理等遊戲元素的可控性與生成式AI相結合。開發者依然可以對生成式AI進行微調,使其符合自身的藝術風格。一切主動權都在開發者手中。我們創造的是技術,而非藝術。DLSS 5以幾何體資訊為控制基礎,以遊戲的真實渲染結果(Ground Truth)為條件約束,在其上疊加並增強了生成式能力,但並不影響藝術家的控制權。它不是幀等級的後處理,而是幾何等級的生成控制。生成的所有內容遊戲開發者都可以微調。我們展示這項技術,是為了讓開發者看看它能做什麼。如果開發者想讓它變成卡通風格、色調分離,或者玻璃質感,或者任何風格,都能做出來。這些都直接由遊戲開發者控制。這與純粹的生成式AI截然不同。這是內容受控的生成式AI。這正是我們將其命名為神經渲染的原因。Q5:您談到了Groq,並表示不會出現市場蠶食效應。但既然我們擁有了這些新產品,是否會形成不同的收入流,讓我們對那個“1兆美元+”的數字有更清晰的瞭解?第二個問題是關於股票回購的。黃仁勳:這1兆美元,是我們目前基於2027年前的採購訂單所能看見,並對之充滿信心的數字,且僅涵蓋Blackwell和Vera Rubin兩條產品線。問題在於,為何我只納入這兩項。儘管輝達現在還銷售獨立CPU,那將是一項數十億美元規模的業務。Groq自身業務可能翻倍,因此,對於一個1GW的資料中心,Groq可將輝達的整體收益提升約25%。因此,從理論上說,非實際數字,僅為理論推演,這1兆美元有望達到1.25兆美元。我同樣未將儲存系統納入計算。如大家所知,KV Cache的規模已極為龐大,AI使用儲存系統的速度遠超人類,因此儲存系統的性能必須大幅提升。這正是我們推進STX儲存機架等項目的原因所在,一切都是為了徹底重構面向AI的儲存系統。戴爾展示了整合輝達全套技術的AI資料平台,整個儲存行業都將跟隨我們的方向演進。為什麼我只使用Blackwell和Vera Rubin的營收資料?原因非常簡單:去年在GTC上,我曾預測Blackwell加Vera Rubin到2026年的規模為5000億美元。若將1兆的口徑調整為包含CPU、Groq和儲存,則無法與此前的5000億美元作橫向對比。然而,這對外界理解這1兆美元製造了混亂——因為輝達今天已提供遠比以前更多的產品,大家不禁會問:這是否意味著Blackwell加Vera Rubin不到1兆?恰恰相反,實際數字只會更高。1兆美元,僅僅代表Blackwell加Vera Rubin,僅統計至2027年。不含獨立CPU,不含Groq,不含儲存,不含BlueField DPU,不含Vera Rubin Ultra,不含Feynman,不含Feynman Next,一律不包含,僅限Blackwell加Vera Rubin。而距離2027年底還有21個月,這意味著最終數字大機率將超過1兆美元。好的,第二個問題,我們顯然正在產生規模極為龐大的自由現金流。與此同時,輝達的增長也非常之快,增速本身在加快,而不僅僅是絕對數字在增長。上個季度是我們有史以來營收規模最大的季度,同時我要強調,增速也仍在加快。因為我前面所闡述的一切業務,這種雙重增長得以實現,我們將產生大量現金流。這些現金首先是支撐業務增長的必要資本。我們有大量供應商和合作夥伴,採購、產能保障、庫存鎖定,這一切都需要資金,這是第一優先順序的資本用途。第二,我們投資生態系統。生態系統是極佳的投資標的,坦率說,我認為這就是計算產業的未來。我們正在投資“下一個Google”、“下一個Meta”、“下一個亞馬遜”。圍繞CUDA建構的生態系統是我們的第二項核心工作,即便如此仍能保留充裕的自由現金流。我們在上次會議中表示,計畫在本財年通過回購和分紅的方式向股東返還50%的自由現金流。也就是說,2026財年的股東回報將達到自由現金流的50%。去年的自由現金流規模不及今年,分配比例大約是40%左右。今年,在更大的基數之上,我們將進一步提高分配比例。因此,答案是——這將會是一個非常可觀的數字。關於具體的收入流,我認為這並不是我們的運作方式。原因在於:NVLink交換機只搭配輝達的計算產品使用,Spectrum-X也是專門針對特定場景設計的,總體而言有其內在邏輯,但我可以換一個維度來拆解。我在主題演講中已經談到這一點。大多數人忘記了,輝達的業務遠比一家晶片公司多元化得多。原因在於我們是全端公司,能夠幫助各方在任何地點建構AI工廠。戴爾之所以表現得如此出色,是因為他們對此立場清晰、態度坦誠,輝達AI工廠正在全球各地加速落地建設,增速持續加快。我們也在不同國家的園區建設AI工廠。除非你能交付完整的AI工廠,否則這些客戶不會購買晶片,他們沒有軟體能力,你必須是一家全端公司才能服務他們。▲輝達在採訪現場展示全系列產品因此,我們約40%的業務,無論是企業、工業、物理AI、自動駕駛、機器人,還是各地區的NCP部署,或者主權AI,這些場景,任何雲服務商都無法獨立覆蓋。這些客戶購買的不是晶片,而是平台。我們40%的業務規模相當可觀,且完全不屬於雲業務。第二部分是雲業務。其中一部分是我們直接銷售給雲服務商的,但另一部分,他們對我們來說本質上相當於戴爾的角色,也就是說,終端客戶是通過雲平台使用我們的產品。我們為他們帶來了客戶,因為這些客戶是CUDA開發者。舉個例子,如果沒有輝達,OCI(Oracle雲基礎設施)如何能服務OpenAI?OpenAI的整個技術堆疊都建構於此。正是我們將OpenAI引入了OCI。類似的例子還有很多,如果不是因為Anthropic今年將全面建構於輝達之上,我們又怎能將Anthropic引入Azure?這將形成一個極其龐大的生態基礎。能理解嗎?因此,我們在CSP(雲服務提供商)中的很大一部分業務,實際上是由輝達主動創造的。所有CSP對此心知肚明。我們與他們建立了深度的行銷合作關係和業務合作關係,由輝達為他們引流客戶。我昨天展示了大量案例。我們40%的業務,純晶片公司無法服務,雲服務商也無法獨立服務。剩餘60%的業務中,大約40%~50%實際上是輝達主動創造的業務,其餘才是雲服務商自身的內部消耗需求。Q6:我們是不是已經迎來拐點,到達了機器人領域的ChatGPT時刻?請問在您看來,人類與能力出眾的機器人之間,最難攻克的未解難題是什麼?黃仁勳:如果你只是列出當今機器人存在的問題,那清單會相當長,但它們都只是工程問題。事實上,你能看到它們四處走動。(突然有手機鈴聲響起,黃仁勳回答被打斷)黃仁勳:是誰的手機?我沒有太多忌諱,但有一條——開會時所有手機必須靜音。每一位輝達員工都清楚這一點:不振動、不響鈴,徹底靜音。我在等你呢。(等了一會兒後繼續)這些機器人已經開始能夠完成一些任務。一旦一項技術的可行性得到驗證,最佳化往往不超過五年。因此我非常確信,三年之內,你將看到能力極為出色的機器人。由於我們已同步攻克了認知AI,也就是AI認知領域的OpenClaw。OpenClaw在機器人內部運行,這一設想已經相當顯而易見。此外還有VLA(視覺-語言-動作)模型,負責控制機器人的運動與關節協調。儘管仍有諸多挑戰,但系統一與系統二的AI問題,正在被即時解決。因此,我認為三年內,你將見證真正意義上的重大突破。Q7:正如您所說,1兆美元是完全可能實現的,同時也對製造產能提出了巨大需求。結合台積電、三星等廠商的現狀,您如何看待未來五年全球半導體製造產能的前景?黃仁勳:我們將需要大量的製造產能,且不會大量使用ASIC專用晶片。我們是目前資料中心中唯一一個同時針對三種儲存技術進行最佳化的架構:HBM、LPDDR、SRAM。目前,其他資料中心CPU均採用DDR記憶體,但其頻寬能效相當低下。輝達率先在Grace CPU中引入了LPDDR4,這是一次革命性的突破。我認為再過幾年,業界都將跟進。大家現在都意識到這是一個多麼正確的決策。Vera CPU採用LPDDR5,Rosa CPU採用LPDDR6。我們現在擁有完善的LPDDR技術路線圖。AI運行需要大量記憶體,它必須依靠短期記憶、工作記憶和長期記憶來思考。因此,記憶體是AI體系中極其重要的組成部分。當然,互連同樣關鍵。我們在縱向擴展(Scale-up)和橫向擴展(Scale-out)兩個維度同步推進,系統規模持續擴大,需要大量產能支撐。世界仍在學習這樣一個概念:傳統意義上,電腦主要用於資料錄入和資料檢索。大家注意,人類通過鍵盤輸入。這是使用電腦的舊方式。未來,電腦實際上是一台“製造機”:一個token生產系統,而當前全球專用於token生產的電腦規模極為有限。之所以如此有限,是因為迄今為止我們出貨的大多數系統仍被用於訓練。如今,推理的拐點已經到來,OpenClaw橫空出世,智能體系統正在各處廣泛應用。用於推理的token生產規模才剛剛起步。我們究竟需要多少算力投資?我認為需要數兆美元量級的產能。因此,我認為晶圓代工廠將會極度繁忙。我們很榮幸與台積電合作,毫無疑問,這是世界上最頂尖的代工廠。我們還與三星合作。由於我們對記憶體的消耗量極大,我們與每一家記憶體廠商合作,並將與每一家連接器廠商、每一家矽光子公司攜手共進。Q8:AI的應用場景可以說不計其數,我們甚至還未能全部預見。但有一個話題直到最近才真正引發深入討論:我們不希望AI做什麼?我很好奇——在您看來,有那些領域是AI不應進入的,甚至是永遠不應涉足的?黃仁勳:自主能力總會有一個範圍。我的電飯煲在某種程度上是自主的,今天的無人機在某種程度上也是自主的。面對這些事物的範圍,我們需對所追求的功能本身保持更多審慎與反思。AI不應該違法。AI不應該承諾提供它沒有的功能。例如,如果一輛車說它能以65英里每小時的速度安全駕駛,我們希望它不會在50英里時就爆炸。這些都是人類在長期實踐中總結出的極具常識性的準則。至於其他方面,我認為我們應當持續學習,對自己的認知邊界保持更多謙遜。用科幻小說式的AI敘事去恐嚇所有人,在我看來是一種傲慢,過於自大了。我更傾向於在探索中前行,而非以恐懼驅動他人。提醒人們是一回事。嚇唬人們是完全不同的事。在劇院裡有些話不能說,在飛機上也有些話不能說。人類的判斷力會告訴我們,"提醒"與"恐嚇"之間存在本質區別。我有我自己的觀點,但最終分析下來,我們需要AI為我們做很多偉大的事情。例如,我們需要AI智能體系統參與網路安全。我們希望企業被“白細胞”所守護,以防有入侵者。網路安全智能體可以立即響應並蜂擁而至,攻擊入侵者,就像白細胞一樣。任何其他分析AI和網路安全的方式對我來說都不合邏輯,因為未來,網路安全威脅的演變越來越快,我需要超高速的AI智能體來保護我。我認為這是一個完美的例子,沒有人不想要白細胞。白細胞本質上是攻擊性細胞,它們主動出擊,那是好事。讓我們保持安全。Q9:我們正在進入一個3D模擬世界。我剛剛體驗了輝達的模擬器演示,你認為這個3D模擬世界未來幾年會如何發展?黃仁勳:剛才那位朋友問了我一個相反的問題:DLSS 5是用生成式AI來增強3D圖形的,而你看到的另一個例子——Cosmos——則是用電腦圖形去控制生成式AI。歸根結底,一切都在於“控制”。我們希望AI是“有根基”的。我們提出“檢索增強生成”(RAG,Retrieval Augmented Generation)的一個重要原因,就是要讓生成建立在真實基礎之上:你提供一些文字或資料,AI再基於這些真實資訊去生成內容。昨天我也提到,在AI的世界裡,我們是否需要記錄系統?是否需要SQL?答案是:絕對需要。因為SQL所代表的,是記錄系統,是我們業務中最真實、最可靠的資料基礎。而這些真實基礎,正是用來“約束”和“支撐”生成的。否則,生成出來的就只是幻覺。你剛才看到的那個虛擬駕駛體驗之所以真實,是因為我們用3D條件對它進行了約束——用各種必要的條件去“錨定”它,從而實現高保真的體驗。在這種框架下,你可以生成任何內容,而且可以用文字、圖像、3D等多種方式去控制它,其餘的部分則由AI生成。所以未來的發展方向,要麼是完全結構化的生成,要麼是由真實世界資料來控制的生成。這就是未來。你會不會在你的眼鏡裡體驗到這樣的東西?答案當然是會的。在眼鏡已經能看到真實世界的存在。如果我再用生成式AI去增強這個基礎,就可以創造出更豐富的體驗。Q10:您展示了Vera獨立機架的部署形態。隨著AI需求的持續增長,這些CPU的適用場景越來越清晰。您是否認為它們最終將承擔x86架構在資料中心中傳統承擔的角色?這是否是一個數十億美元等級的市場機會?黃仁勳:這些CPU是為資料密集型工作負載而設計的。它們針對的是高單線程性能需求,同時也面向電力受限的資料中心環境。在這種場景下,它們的每瓦性能可以實現2倍提升。目前市場上沒有其他CPU能做到這一點——除了Vera和Grace。在電力受限的資料中心中,實際上,所有採用輝達產品的資料中心基本都是電力受限的,因為一旦你擁有兆瓦級的電力,你會希望儘可能把電力用在GPU上,而不是浪費在CPU上。原因很簡單:GPU在生成token、創造價值,而CPU並不是主要的價值生產者。因此,如果可以,你會希望把絕大部分電力預算分配給GPU。當然,我們仍然需要CPU,但我們要讓它們極其節能。這也是為什麼我們使用LPDDR記憶體。同時,我們的CPU在單線程性能、頻寬效率方面都處於全球領先水平,頻寬甚至達其他方案的三倍。之所以把頻寬做得這麼高,是因為我們需要處理海量資料的移動。因此,我們設計了Vera、Grace等CPU,它們是專門為AI時代打造的。它們適用於所有場景嗎?未必。比如“每美元性能”可能不是最優,但那並不是我們要解決的問題。舉個例子,在過去十年的超大規模資料中心中,CPU設計的核心目標是最大化每顆晶片的核心數量。因為在雲端運算模式下,使用者是按“核心數”租用資源的。所以,對於雲廠商來說,“每美元核心數最多”的CPU就是贏家。但AI不一樣。AI關注的是“完成多少工作”,而不是“有多少核心”。如果你有價值500億美元的GPU在那裡運行,你絕不會讓它們因為CPU處理不過來而閒置,這些CPU可能就價值10億美元。你需要的是讓CPU盡快完成任務,讓500億美元GPU持續高效運轉。所以,我們的最佳化方向完全不同。我們打造出了一種截然不同的CPU架構。我們始終從“要完成什麼工作”出發來設計系統。一旦這一判斷最終變成顯示,我們就建構出最合適的整體系統。無論是Vera、Rubin,還是儲存、CPU、網路、甚至整個機架,都是圍繞我昨天提到的那類工作負載來設計的,也就是智能體。事實上,OpenClaw就是一個很好的例子。在資料中心中運行OpenClaw,配合Vera Rubin整套系統,是非常理想的組合。所以,我想這應該回答了你的問題。Q11:看起來Feynman將採用某種3D堆疊工藝。請問您能否介紹一下主Die、IO Die)以及先進封裝技術的規劃方向?供應鏈穩健性是否也在你們的考量之內?黃仁勳:供應鏈的彈性、多樣性總是影響我們的業務,因為我們規模很大。然而,如果我告訴你,那明年參加GTC還有什麼意義?到時候就只剩你和我,兩個人。Q12:你昨天介紹了LPU的整合,OpenClaw的出現似乎真的讓您眼前一亮。OpenClaw如何改變了你的日常生活?如何改變了輝達的戰略?黃仁勳:當OpenClaw出現,我們意識到世界終於擁有了一個開源智能體——我們現在幾乎可以將其當作一個行業標準。我們希望儘可能多地向這個開放原始碼專案貢獻能力,避免世界因此分裂成太多互不相容的分支項目。如果我們能將這個主項目打磨得足夠優秀,全球每家公司都能以此為起點,建構自己的智能體戰略。OpenClaw之所以意義重大,關鍵就在於它是開放原始碼的。它已經非常強大,工程質量相當成熟。我們將在未來30年間持續為其注入能力,就像我們持續向Linux和Kubernetes貢獻程式碼一樣。試想一下,全世界都有了一個可以共同貢獻的平台。想像OpenClaw未來將變得多麼強大。OpenClaw只需一行命令就能安裝。安裝完成後,你告訴它你想讓它成為什麼。比如你說:我希望你學習這個新工具。它便去閱讀使用手冊,可能是Skill文件,然後上網搜尋它需要學習的內容,自行摸索如何使用。你給它一個最終目標:我想設計一個廚房,我的廚房現在是這個樣子,這是我希望它未來呈現的效果。去下載相關軟體,去學習這些應用,找到使用它們的方式。如果需要訂閱某個服務,只要不超過這個金額,你有我的授權去訂閱。然後幫我設計廚房,找到合適的家具,給我幾個家具示例和報價,幫我做平面佈局,渲染給我看。我剛剛這通指令,就是給了它一個它能夠完成的項目,然後它便獨立出發,學習、呼叫工具,反覆嘗試。它生成第一版廚房設計,與你給它的參考圖片進行比對,然後判斷:“差得有點遠,繼續改。”於是一遍又一遍,直到完成後返回給你。第一次完成後,你給它一些額外指導,它再次回來。完成後,它便學會了這項技能——它學會了如何做室內設計。於是,它將自己的學習成果總結成一份技能文件,存入記憶。下次你說“幫我設計客廳”,它便回想起:“原來設計房間是這麼回事。”它會表現得更好。你再次給它指導,它再次更新自己的技能文件。下一次你說我要設計臥室“,你能看到,它完全是在執行同樣的過程:拆解任務,呼叫工具,運用記憶。這真的相當了不起。輝達如今的運轉速度比以往任何時候都快,但這是因為我們越來越多地使用AI,工作完成得更快了。所有項目的推進速度都在提升,這都是好事。說實話,我感覺自己越來越忙了。我今天與輝達的工作體驗是:它讓我比以往任何時候都更忙——比六個月前更忙。原因就在於工作成果反饋得更快了,項目數量也增長得更快了。我認為這是所有人共同的體驗。很多人說AI來了,我們會失去工作。恰恰相反。事實是:PC讓我們更忙了,網際網路讓我們更忙了,移動裝置讓我們更忙了。AI將以超快的速度完成任務。你寫一份規格說明、一份架構文件、一份產品定義,交給智能體,30分鐘後,它又回到你的案頭了。過去,你寫完產品規格說明,團隊拿去工作一個月。那個月裡,你在做別的事情,生活節奏相當從容。如今,那一個月已經壓縮成了30分鐘,你隨時都在關鍵路徑上。這位朋友的工作並沒有消失,只是感覺更忙了。我的判斷是:AI將使我們以如此之快的速度推進工作,以至於我們最終會承擔更多的工作量。Q13:在AI算力市場中,Vera Rubin帶來的需求有多少是新增量,又有多少是超大規模雲服務商對Blackwell的升級替換?黃仁勳:這個問題的答案,最終取決於我們所處的產品設計周期與建設周期的那個階段。這就好比iPhone 3發佈時,iPhone 3的銷量中有多少蠶食了iPhone 1的市場,又有多少是新增銷售?事實上,iPhone 3銷量的99.9%都是新增銷售。iPhone 4發佈時同樣如此,99.9%是新增,而非替換。直到大約十年之後,這種格局才開始發生變化。一項技術擴散到全世界,大約需要十年左右。如今大約每四年就會迎來一輪新的資本支出周期。我的判斷是:我們目前處於輝達推理拐點的第一年,這是十年來推理領域真正意義上的第一個拐點年。十年之後,市場可能趨於飽和。而Vera Rubin是拐點的第二年,新增需求的比例同樣會達到99%。Q14:請問您能否更新一下輝達在中國資料中心業務的信心水平,以及這些出色的產品未來能否在中國市場重新建立有實質意義的存在?黃仁勳:我能夠回答的是:我們已經獲得了向中國眾多客戶銷售H200的許可證,也已經收到了來自眾多客戶的採購訂單,目前正處於恢復生產的過程之中。這對大家來說是新消息,與兩周前的情況已有所不同,這是我們當前的實際狀態,供應鏈也正在重新啟動。大家很快就會開始聽到相關消息。其次,我認為川普總統的意圖是:美國應當在獲取輝達最先進技術方面保持領導地位,但他同時也希望我們能夠在全球範圍內參與競爭,而不是不必要地拱手相讓那些市場。綜合我剛才說的三點——H200許可證、客戶採購訂單,以及他所表明的相當直接的意圖,我有充分理由相信他的立場始終如一。Q15:我很想進一步瞭解您在開源模型方面的願景。我個人認為開源AI是現有體系的重要補充。請問輝達推進開放原始碼的驅動力,究竟更多來自生態系統擴張、客戶基礎延伸,還是戰略層面的考量?Nemotron的路線圖是否會長期堅持下去?黃仁勳:我們已經發佈了GR00T 1、GR00T 2,Cosmos 1和2也已發佈,Nemotron 1、2、3均已推出,Nemotron 4我們已啟動聯合開發。之所以要對模型進行編號,是因為你有持續推進的意圖。就像CUDA,我們現在已經到了CUDA 13。這本身就回答了這個問題——我們絕對有意願持續推進前沿附近的基礎模型研發。我們未必要做到絕對前沿。那並非我們的使命。我們的使命有幾個層面:我們希望為世界打造可信賴的開源模型,以輝達的體量和能力,確保每年穩定迭代,讓所有人都知道,你們可以信賴我們。說到做到。另一個原因是:我們自己在開發模型的過程中,可以針對新一代晶片和系統架構對模型架構進行深度最佳化。這是其他團隊未必能做到的。舉個例子,如果沒有TensorRT-LLM,我們就無法探索NVLink 72的性能極限;如果沒有Dynamo,我們就無法探索解耦推理的邊界,也就不會有後來收購Groq團隊的決策。擁有自己的軟體團隊,保持工業級、前沿水準的軟體能力,使我們能夠在整個系統層面持續創新,軟體與硬體相互成就,形成正循環。我們對開源模型生態系統的投入是堅定的。Q16:輝達自動駕駛業務目前約佔公司總營收的1%。您認為,決定自動駕駛業務能否對輝達財務業績產生實質性影響,最關鍵的挑戰是什麼?黃仁勳:這個問題對我來說意義特別深刻。輝達的CUDA業務曾經佔總營收的0%,卻佔據了我們90%的成本。任何理性的人都會放棄,但如果我們真的放棄了,在座各位今天就不會出現在這個房間裡。25年前,我們首次推出可程式設計著色器時,沒有人知道如何使用,沒有人願意為此付費,沒有任何評測機構認為這是個好主意。如果我們當時放棄了,可程式設計著色就不會有今天。8年前,我宣佈推出RTX光線追蹤時,所有人都認為這是個笑話,說光線追蹤一塌糊塗。如果我們沒有RTX,今天的全場景路徑追蹤電腦圖形學也不會有今天。事實證明,我們最初做的幾乎每一件事,都耗費了大量資金,卻毫無回報,甚至引來不少質疑。因此,你必須堅信自己所相信的,然後決定是否值得繼續追求。10年前,我開始投入自動駕駛。最初的團隊只有我和另外一個人。我們踏上了這段探索之旅,試圖弄清楚自動駕駛的技術難題究竟是什麼。如今,我們有數千人在從事自動駕駛相關工作。你說它只佔1%,但請記住,輝達的自動駕駛業務實際上涵蓋三台電腦:訓練系統、合成資料生成與模擬系統,以及自動駕駛車載系統本身。只有最後一部分被我們歸類為自動駕駛業務,但因為我們深耕這個領域,整體業務規模遠比大家認為的要大。特斯拉購買輝達系統用於訓練,Wayve以及全球每一家正在研發自動駕駛的公司,無論是卡車、面包車、乘用車還是無人計程車,都在向我們採購這三台電腦中的一台或全部。這個規模相當可觀。但即便業務規模為零,我也會繼續推進。為什麼我如此確信自動駕駛一定會實現?因為我完全相信,自動駕駛在技術層面已經是一個被解決的問題。我們花了10年才走到這一步,但它確實已經被解決了,剩下的只是工程層面的持續打磨。10年之後的某一天,全球每天1兆英里的行駛里程將實現100%或接近100%的自動駕駛。今天,這一數字之所以有限,唯一的約束就是司機座位上的人,也就是駕駛仍需要人的參與。如果沒有這個約束,全球每天的行駛里程一定會大幅增長。假設每天有2兆英里,再乘以每英里若干美元,這將是一個數兆美元量級的市場。大多數數兆美元量級的市場,在某個時間點都是從零開始的。所以我完全接受它現在還在零附近,我的信念不會改變。Q17:在您看來,歐洲成為優質AI合作夥伴最有力的訊號是什麼?黃仁勳:歐洲許多國家,德國、瑞典以及英國的部分地區,曾是上一次工業革命的發源地。事實上,有三個國家引領了全球機電一體化的發展,這是技術與機械工藝、工業化的深度融合。機電一體化在德國、瑞典、日本都非常強大;美國曾經也很強,但我們將製造業外包得太多了。然後,下一場工業革命來了——IT和軟體革命,這對製造業來說非常陌生。製造業的文化是嚴格的、一步一步的,每一件產品在發貨之前必須完美,因為它可能傷害到人。而軟體的運作方式是叢集式的,你必須在它還沒有完善之前就發佈,因為如果你不發佈,它永遠不會被修復。這不只是技術上的差異,而是深層的文化差異。正是這種文化差異,導致美國在IT革命中全面主導,而德國卻被落在了後面。但希望來了。OpenClaw不需要你去程式設計,它只需要你告訴它該做什麼。你可以跨越IT革命,直接跳躍到AI革命。這正是我每天對德國、日本、韓國、瑞典所說的話:這是你們的機會,讓過去成為過去。這已經不再重要了——因為正如大家所知,軟體工程師已經不需要再寫程式碼了。對德國來說,這應該是最令人振奮的消息;對日本來說,同樣如此。直接擁抱AI,然後將AI技術與你們世界級的機電一體化工業能力深度融合。你們將一躍成為全球機器人產業的領導者。我是你們最堅定的擁躉。Q18:隨著推理需求的興起,大量初創公司和成熟企業湧現,試圖解決速度、記憶體、功耗等各種瓶頸。其中有些公司公佈的token效率資料,與輝達產品的表現形成了直接競爭。這與GPU早期時代的競爭格局似乎大不相同,被認真對待的競爭者明顯更多。我們如何確信輝達的推理方案是最快、最優的?如果Groq加Vera Rubin成為主流推理解決方案,輝達又將如何維持這種領先優勢?黃仁勳:我建議大家參考兩到三個基準測試,直接看客觀事實。第一是MLPerf,這是行業內最嚴格的基準測試。大家去看看輝達在其中的位置,我們在MLPerf推理和MLPerf訓練兩個榜單上全線第一,而且大多數參與者根本無法完成全部測試項目。第二是SemiAnalysis,這可能是目前覆蓋最全面的推理分析,涵蓋你能想到的每一個維度,結果同樣是輝達。如果允許我引用別人的話,“推理之王”,我就是喜歡這個稱號的感覺。那條冠軍腰帶也很漂亮,通常你得到的是玻璃獎盃,不知道放那裡好,但一條冠軍腰帶,這種感覺蠻好的。這就能清楚地告訴你我們在推理領域的位置。第三是Artificial Analysis,涵蓋了所有API推理服務公司,對每一家推理服務商進行全面評測。你會發現輝達在整個榜單頂端,而且輝達是該榜單覆蓋的約20項服務中唯一一個全系列上榜的解決方案。事實已經說明,我們在推理領域非常、非常強。我們理應獲得這份認可。我們的推理之所以如此出色,不只是因為我們的浮點運算能力強,而是因為我們進行了極致的協同設計。推理是一個巨大的電腦科學問題,是一個巨大的電腦系統工程問題,涵蓋CPU、GPU、縱向擴展交換機、橫向擴展網路技術、記憶體技術、儲存技術——所有這一切必須協同運作才能做好推理,而我們比任何人都做得更好。Q19:請問輝達與台積電在共封裝光學(CPO)方面的合作進展如何?另外,美國商務部長曾希望將台灣40%的晶片產能遷移至美國,這在現實中是否可行?黃仁勳:首先,我們與台積電共同發明了CoUP,這是一種將電子器件與矽光子引擎直接整合在同一塊晶片上的技術。我們為整條供應鏈申請了約100項專利,並將我們的全部技術開放授權給整個供應鏈,以便各方能夠協同打造矽光子CPO(共封裝光學)技術——讓電子與光子在同一個封裝中融合。目前,我們佔據了台積電COUP工藝產能的絕大多數。Spectrum-X的量產爬坡已經啟動,未來還將持續擴大規模。關於40%這個目標——在當前及近期來看非常難以實現,因為需求仍在持續高速增長。台積電正在盡全力在美國亞利桑那州及周邊建立新產能,整條供應鏈也在美國本土佈局。然而,新晶圓廠和新工廠還在建設的同時,全球整體需求的增速之快,使得在近期內實現40%這一目標將極具挑戰。Q20:您向Nebius投資了20億美元,同時也投資了Lumentum和Coherent。請問您在做這些投資時的思路是什麼?黃仁勳:我們始終在思考兩個方向:上游供應鏈和下游合作夥伴。你必須想像輝達的技術與全球解決方案的完整整合路徑,一直延伸到終端使用者側——有人在消耗token,有人在使用OpenClaw,有人在使用ChatGPT、Anthropic,有人在使用Runway、Black Forest Labs……你必須把這條鏈路想通到底。向上看,未來2~5年,我的上游供應鏈需求是什麼,我現在應該為此做那些準備?向下看,我需要怎樣的下游產能——土地、電力、廠房,或者開發者生態——未來1~5年我需要什麼?當你向上看,你會發現我們正在隨Spectrum-6大規模引入矽光子技術,並將在未來幾年把矽光子加入到NVLink的縱向擴展技術中。這意味著我們所需的矽光子產能,將遠超今天全球現有水平。因此我們與供應鏈合作,提前幫助他們建立產能。有時我們提前付款,有時只是給出預測,有時如果某項技術產能極度緊缺但需求巨大,我們可能會選擇直接投資該公司,同時提供預付款、預測以及其他支援。Coherent和Lumentum就是這樣的思路,這屬於我們上游供應鏈的戰略佈局。而Nebius則是下游合作夥伴的投資。上游一個方向,下游另一個方向。我始終沿著整個技術與製造的生命周期進行全域掃描,持續為公司的增長做好準備。Q21:資料對於世界模型極為重要,遊戲能產生大量資料。請問遊戲玩家資料和雲遊戲資料,對於世界模型訓練是否真正有價值,甚至能夠超越遊戲本身的應用範疇?黃仁勳:在一定程度上是的。但需要注意,大多數遊戲並不嚴格遵守物理法則。比如在《堡壘之夜》中,角色的奔跑動作與其體型所能支撐的速度並不匹配,是一種半跑半飛的狀態。因此,在訓練希望基於物理規律的基礎模型時,必須小心過濾掉這類不符合物理規律的觀測資料。遊戲中的角色可以從山頂跳下,遊戲與現實中樹木搖曳、海浪起伏的方式完全不同。如果條件允許,你應當回歸真實基準資料。當然,你也可以使用遙運算元據,或者使用模擬資料——這正是Newton的用武之地。Newton和Isaac Lab運行在3D圖形環境中,但其動畫是完全基於物理模擬的,碰撞遵循物理原理,關節運動遵循逆運動學。因此,Newton和Isaac Lab中的所有屬性都嚴格遵守物理規律,可以將其與真實世界的可觀測資料結合起來,共同訓練世界模型。一旦世界模型達到足夠的能力水平,你甚至可以反過來。用3D圖形控制世界模型來生成新的合成資料。這就形成了一個飛輪:最初我們使用真實視訊資料,然後用3D模擬資料加以增強,幫助我們建構出世界基礎模型,再用遙操作或3D模擬來控制它,進一步放大合成資料的生成規模。這個飛輪正在啟動。這有點像:你必須先積累足夠的知識,理解事物的運作規律,然後才能想像未來的各種可能場景。我們訓練了自己的世界基礎模型,現在能夠生成各種未來的可能性。而這些對未來的合理推演,本身就成為了我們的學習素材——我們將它們轉化為訓練資料的真實基準。就我個人而言,在思考輝達的戰略和行業走勢時,我其實生活在一個完全由腦中模擬建構的未來裡。我會定期校驗這個模擬是否與現實保持一致,持續重新評估。如果我的假設、我的模擬與現實始終保持連貫,說明我對未來的判斷正在成真,我便堅守這個願景,始終如一。Q22:輝達在Spectrum X上採用了CPO。這項技術會擴展到整個網路產品組合中嗎?大規模生產的關鍵挑戰是什麼?另外,這會加深與台灣CPO供應鏈的合作嗎?黃仁勳:我從後往前回答。我們與台灣CPO供應鏈合作非常緊密。當然,這個供應鏈始於台積電的晶片製程工藝,每一個環節,包括組裝和封裝,都極其複雜。Spectrum 6取得了巨大成功。事實上,Spectrum 3也是巨大成功。Spectrum 4是我們的第一款乙太網路交換機。當時所有人都認為我們很難打入乙太網路領域,但我們完全專注於AI乙太網路,徹底重構了乙太網路技術,以支援AI特有的流量類型和計算模式。Spectrum 4、5、6都是巨大的成功。我們現在已經是全球最大的網路公司了。這實際上是NVLink和Spectrum的完美結合,都是本壘打等級的成功。Q23:去年底,Allen Institute的一位知名研究員曾警告,AI算力擴展的可用槓桿——包括資料、精度等——大約還有兩年就會耗盡。您之前提到Blackwell引入了MX資料格式,Vera Rubin又有所推進,請問輝達手中還有那些擴展維度尚未動用?黃仁勳:NVFP4不只是改變了浮點數的精度,而是徹底重構了整個張量核心引擎(Tensor Core Engine)的結構。NVFP4本身就是一套張量核心引擎,而不僅僅是一個數值格式。它的處理結構是動態的——動態上採樣、動態下採樣,從而在儘可能節省能耗、提升計算量的同時,保留最終計算結果的精度。這套動態調整機制,正是張量核心引擎之美所在。整個行業在FP8上的普及才剛剛穩固,我們已經在推動向NVFP4的遷移了。再往後,FP1這類格式確實有些奇特,精度擴展的空間大概也快到頭了。所以你最初的判斷並非沒有道理。但輝達有一個重要優勢:極致的協同設計。過去十年,我們的計算效率提升了約100萬倍,而摩爾定律在同期只貢獻了約100倍。摩爾定律鼎盛時期的預測是十年100倍,而我們做到了100萬倍。我們不只是靠精度的提升。單靠精度,每年大約只有2倍的提升空間。我們的速度遠超精度擴展所能解釋的範圍,未來也將如此。我們還有很多旋鈕可以撥動。每一年,我都會向大家展示新的旋鈕。去年,我們展示了NVLink 72,在功耗大致相當的前提下,性能提升了35倍。這就是架構的力量,這正是極致協同設計如此重要的原因。也許可以給大家一個小提示:未來不只是關於大模型層面的最佳化,未來是關於智能體系統。智能體系統使整個問題空間再次大幅擴展。而當問題空間擴展,你就有更大的機會去尋找那個質的飛躍。Q24:隨著智能體工作流的興起,許多人認為新思科技、Cadence這類傳統軟體平台將被取代。請問您如何看待AI與這些軟體公司之間的關係?黃仁勳:請轉告散戶投資者,他們的判斷完全錯了。這甚至不是我需要保護的業務,但是非對錯還是要講清楚。舉個例子,新思科技、Cadence,以及所有設計工具,它們業務規模的上限,取決於有多少工程師坐在那裡使用。工程師數量有多少,工具就能賣出多少許可證。就像管道工多了,管道工具就賣得多;木匠多了,木工工具就賣得多。但未來,我們將擁有大量AI智能體工程師。這些智能體工程師會做什麼?憑空生成電晶體嗎?不,它們會使用和人類工程師一樣的工具,因為工作完成後,必須把結果放回人類可以理解的結構化資料中。如果我無法理解、無法控制輸出結果,這就回到了我們反覆提到的可控性問題。SQL會因為智能體的出現而消亡嗎?不會,SQL恰恰是我們業務真實基準的存放地。當智能體完成工作,請把結果放回SQL,這樣我隨時都可以去查詢。同理,當智能體完成晶片設計,它會使用新思科技和Cadence的工具,設計結果最終也會回歸到這些工具的檔案系統和資料結構中,這才是設計的真實基準。如果我需要精確復現設計,不是“大概能用”,而是“必須精確可用”,AI深度學習可以生成大致可行的設計,但我不能接受“大致可行”,我需要“完全精確”,而這正需要新思科技的工具來保證一致性。正因為有了智能體,我們需要授權的新思科技工具數量很可能會爆炸式增長,而不是減少。有些人有個奇怪的想法,認為AI可以從零開始憑空生成電晶體,他們以為輝達工程師每天就像在用Nano Banana生圖一樣設計晶片。這裡沒有貶低Nano Banana的意思,但晶片設計必須一層一層地精確建構,因為它必須是可驗證的、可理解的、可重複的、可控的——不能依賴機率。Q25:請問你去年最大的挑戰是什麼,今年最大的風險又是什麼?黃仁勳:我的工作可太難了。就一條嗎?我的人生哲學非常簡單:別被開除,別無聊,別死。在這三者之間,儘量保持平衡。這對輝達同樣適用:不要被客戶開除,不要無聊到公司停止創造價值,不要倒閉,然後待在這三者的中間地帶。這就是人生秘訣,去年如此,今年亦然——你可以說是黃仁勳的“人生三訣”。這三條聽起來簡單,但每一條都是極高風險的。Q26:在中東戰爭和全球地緣政治動盪的背景下,輝達如何看待在台灣方面的風險?黃仁勳:首先,我們在以色列有6000個家庭,我非常擔心他們。我知道他們自己也很擔憂,但我們公司仍在非常努力地營運,員工們依然在非常努力地工作。儘管如此,這絲毫不減輕我們對他們的牽掛。我對以色列的承諾是百分之百的——我們會長期在那裡,員工得到我們百分之百的支援。對台灣同樣如此。我們在那裡有數千名員工,他們深耕於此已經很長時間。我們整條供應鏈都在那裡,與我們合作的數百家公司中,不乏全球最重要的企業。我唯一的希望,是大家都能攜手合作,保持和平,著眼大局,保持冷靜,不斷提升自身韌性。我百分之百相信,我們將繼續依靠和倚重以色列的出色產業;我同樣百分之百確信,整個世界將在很長很長一段時間內繼續依賴台灣。Q27:如果您的願景得以實現,十年後輝達會是什麼面貌?黃仁勳:我們會非常忙碌。希望屆時輝達擁有約75000名員工,規模儘可能精簡,同時足以支撐使命。這75000名員工將與750萬個AI智能體協同工作,智能體全天候不間斷運轉。希望我們的員工不需要跟上智能體的節奏,我很確定他們也跟不上。這就是未來。我們將解決一些真正了不起的問題。我們今天正在努力解決的那些事情,十年前沒有人會想像這是可解的。機器人基本上已經是一個被解決的問題;自動駕駛汽車基本上也是一個被解決的問題;藥物研發,我們正在像對待工程問題一樣對待它。延長人類壽命——這一切現在都完全處於可能性的範圍之內。十年前,沒有人會想像這些是可實現的。而十年後,最好的思維工具之一,就是認識到不可能其實相當實際可行——任何看似需要數百萬倍能量、成本或時間的事,都可以被壓縮數十億倍。距離會縮短,一切將因機器人變得更輕盈,事情會完成得更快,能源消耗也將大幅降低。在我剛畢業的那個年代,我們今天談論的一切,連科幻小說裡都沒有出現過。我們現在談論的這些事情,本身就已是非凡壯舉。關於人類,我唯一可以確定的是:我們如今允許自己打開想像力去解決的問題,比四年前多出了百萬倍。那麼再過十年,當我們意識到還能解決那些問題時,會是什麼景象?那些問題我們甚至還沒開始想像。因此,我非常確信,未來還有無數等待我們去解決的偉大問題。我甚至嫉妒那些四十年後還在世的人。Q28:Vera Rubin整體系統,主要是為瞭解決當前的技術瓶頸,還是在重塑AI的商業模式?黃仁勳:我們建構的每一套系統,都能讓當前的問題和工作負載得到數倍的提升,同時也總會開闢出一片新的問題空間——那些我們今天還無法解決的問題的新視野。昨天我展示圖表時,有一個規律我每次都會呈現:我們既向上推——對於任何給定的工作負載,我們持續提升吞吐量和性能;也向右推,AI變得更聰明,能力邊界不斷擴展,出現新的可能性。舉個例子:今天使用ChatGPT或任何AI,你大約能獲得每秒20個token的生成速度。而我展示的圖表是每秒1000個、乃至2000個token。想像一下——你按下回車,答案以快100倍的速度返回。未來,當你還在輸入的時候,AI已經在思考了;等你按下回車,它已經完成了。不論是幫我寫一個網站程序,還是幫我設計一個廚房——按下回車,完成。這就是未來。每一年,我們提升吞吐量,我們擴展可能性的邊界。Q29:您說AI讓我們所有人都更忙了,但同時您又預測物理AI和機器人將承擔今天工人從事的體力勞動。這兩件事如何能同時成立?未來會不會出現大規模失業?黃仁勳:首先,全球目前有數千萬製造業崗位的缺口。大家知道嗎?我們的卡車司機短缺數百萬。製造業工人短缺數千萬。就業率很高,但很多公司仍然招不到足夠的勞動力,大多數公司都面臨勞動力短缺的問題。機器人將填補這個缺口。這是第一層。填補缺口的結果,是所有國家的經濟都將增長。而經濟增長時,大多數公司往往會僱用更多人,用來管理更多機器人,管理更多智能體,推動業務增長,發現新問題、解決新問題,嵌入新技術,發明新產品、新服務。這很可能就是未來的軌跡。我之所以這樣判斷,是因為:如果我取今天這個點,再取100年前那個點,連成一條直線——就業崗位數量一直在增長,各國經濟一直在增長,我們所有人都比以往任何時候都更忙。你上一次坐在門廊的搖椅上,喝著一杯檸檬水,看夕陽西下,是什麼時候?那個畫面是100年前的事了,不是嗎?我們比以往任何時候都更忙。這條趨勢線大機率還會延續。我們都將有穩定的工作。當然,每一種職業都會發生變化,有些工作會消失,有些工作是全新的。就像過去人們用馬來耕地、代步,而現在一匹良馬價值500萬美元。世界在變,AI會改變這一切,但我相當確信,這將是一個更美好的世界。Q30:昨天的公告中提到了現代、日產、比亞迪、吉利與輝達的合作。對於比亞迪和吉利而言,L4等級的自動駕駛功能落地,在中國的監管環境下究竟如何運作?黃仁勳:這是這樣運作的:在中國,比亞迪、吉利、小鵬、理想都是我們的合作夥伴和客戶,它們發展得很好,也將繼續發展得很好。我們與它們共同基於DRIVE Hyperion實現了感測器和計算架構的標準化。當它們的汽車進入歐洲市場,某些國家可能無法接受它們的軟體棧。這時,輝達的軟體棧就可以直接啟用。而在中國,它們使用自己的軟體棧完全沒有問題。在歐洲或亞洲的某些地區,如果當地軟體棧不適用或不被接受,我們的軟體棧就可以替代上去。中國政府的規定適用於中國,但並不適用於德國。比如,如果比亞迪想在德國以自動駕駛模式營運、接入Uber,它完全可以使用DRIVE OS來實現。這就是雙贏的方案。我們只是想讓所有人都滿意。(現場,全球規模最大的汽車媒體Motor Trend宣佈授予黃仁勳“年度人物”)黃仁勳:真的嗎?太棒了,謝謝。我要站在這裡,直到再多拿幾個獎。不過我需要懺悔一下,我已經兩年沒有自己開車了,我現在是被自動駕駛接送的。我得了“推理之王金腰帶”、“Motor Trend年度人物獎”,太棒了。Q31:CUDA在2006年發佈,市場過了很多年才真正理解它的價值;NVLink 2014年推出,NVLink 72 去年才被廣泛認可。請問您認為輝達現有產品中,那一個是市場目前尚未充分理解、但五到十年後將被證明極為重要的?黃仁勳:我會說Alpamayo是其中之一,Cosmos是其中之一,Omniverse絕對是其中之一,Dynamo已經被人們理解但尚未被充分重視,它對AI工廠整個生態的深遠影響,毋庸置疑。還有一個概念:如何在AI工廠的語境下思考性能這個問題?這是一個非常新的概念,我還需要多次反覆講解。但終有一天,全球每一位CEO都會懂它,每一個董事會都會理解它,每一家公司都會用它來估算自己未來的營收,它將成為工廠營運流程和企業戰略規劃的核心組成部分。這個概念對未來的產業極為關鍵,但目前理解還不夠深,我需要再講上17遍,沒關係,已經有足夠多的人理解了,但還有很多工作要做。Q32:你曾說過,希望大家經歷大量的痛苦和磨難。請問在一個相對完美的世界裡,您會推薦人們去經歷什麼樣的苦難,才能走到您今天的位置?黃仁勳:首先,那番話是對一群大學生說的。在座各位已經是研究生以上了,應該好好享受生活了。苦難嘛……你看,每當你學習一件新事物,都伴隨著相當程度的痛苦;每當你做超出舒適區的事情,都會如此;每當你站在台上做主題演講,知道所有人都在評判你,而你也知道自己可能不會像自己期望的那樣完美——這其中始終有一份焦慮與痛苦。備戰任何事情都需要大量的投入,苦難無處不在,這毋庸置疑。這正是追求卓越不可或缺的一部分,是追求成為最好的自己不可或缺的一部分。只要你感到自己在全力追求成為最好的自己,竭盡所能,把一切都留在場上,那麼苦難一定已經發生了。 (智東西)
大模型:超人智能誕生,邁向矽基文明
AI大模型作為開啟AI時代的鑰匙,正引起一場時代巨變。在社會影響層面,AI正全方位重構人類生活與工作範式。它打破了傳統的技能壁壘,讓普通人擁有成為超級個體、一人公司的可能,並推動了頂尖專業的法律、醫療等服務向大眾普惠。然而,當前全球仍有約84%的人口從未接觸過AI,這既加劇了全社會的認知分化,也預示著AI基礎設施正處於類似30年前網際網路爆發的前夜,機遇和空間極大。在技術演進上,大模型面對傳統“大力出奇蹟”帶來的算力與資料瓶頸,行業正加速轉向演算法最佳化(如DeepSeek的高效做減法)與多模態的感官進化。展望未來,大模型發展將呈現五大決定性趨勢:推理端算力需求將迎來指數級爆發;後訓練將接棒預訓練成為破局核心,讓大模型從“通才”向頂尖“專才”跨越;世界模型的大規模落地將賦予AI理解真實物理規律的能力;中國AI企業將在馬太效應中確立全球引領地位;而人機對齊與安全監管,將成為護航人類走向AI文明的紅線。1AI大模型:對社會五大深遠影響全社會都在熱議大模型,對大眾而言,它最直觀的表現形態,就是我們手機和電腦裡越來越聰明的AI助手——比如國際上的ChatGPT、Gemini、豆包、千問等。然而,在這些聊天背後,大模型本質上是一種建立在海量資料和超大算力之上、具備“通用認知能力”的革命性AI系統。一是資料大、大模型見識廣,它幾乎被喂下了人類有史以來在網際網路上產生的全部文字、書籍、論文和程式碼。二是參數大,它的內部包含了數千億甚至上兆個數學參數,就像人類大腦神經元之間的突觸,交織成了極其複雜的邏輯網路。三是算力大,它需要成千上萬張最頂級的GPU晶片,耗費數月時間日以繼夜地進行運算。正因為這種前所未有的規模,大模型變成了能夠自主進行內容創作、邏輯推理、編寫程式碼乃至與人類共情的“生成式智能”,讓AI自主思考。2026年起,AI將全方位重構人類的日常生活、工作模式與社會關係。大模型的普及對大眾的深遠影響,在以下五個維度:影響一:技能壁壘被全面打破,人人皆可成為超級個體,人人都是創作者。過去需要極高學習成本的職業壁壘將被大幅削弱。比如,在程式設計開發領域,借助具備自主規劃能力的智能體,不懂程式碼的普通人也能通過自然語言從零建構百萬行程式碼的產品,實現個人軟體開發。在內容創作領域,毫無剪輯和設計經驗的人,憑幾句提示詞,就能呼叫AIGC工具(如Seedance2.0、Sora等)生成專業級的影視分鏡、廣告海報甚至遊戲資產。創意轉化為成果的門檻大大降低,一人公司成為趨勢,但也意味著單一基礎技能的市場價值正在快速衰減。這一趨勢將深刻重塑當前教育體系。當掌握技能的門檻被大模型踏破,教育的護城河將被徹底重估。在小學、初中等基礎教育階段,傳統的填鴨式知識灌輸、死記硬背將徹底失去意義,獲取標準答案已無意義。基礎教育的核心必須不可逆地轉向培養孩子的提問能力,這就是我們在使用AI大模型中所用到的Prompt思維(提示詞思維)。同樣,培養批判性思考、想像力以及人機協同的素養在AI大模型時代同樣重要。未來,在大學等高等教育層面,以單一規則和熟練度為主的傳統專業如基礎程式設計、初級翻譯、傳統財會等將面臨一定的生存危機。高等教育的終極目標,必須從過去批次製造標準化技術工,全面跨越到培養能夠跨學科整合資源、具備極高審美與戰略全域觀的“AI指揮專家”。未來的文憑將不再是基礎技能的背書,而是駕馭AI能力的體現。影響二:工作與生活範式重構,進入人機協作的超級AI助理時代未來的大模型,不僅僅能處理大家工作生活中的種種問題,還將更加廣泛的以智能體AI Agent的形式展開。在生活場景中,AI可以自動整理家庭帳單、定製專屬學習計畫、規劃包含機酒預訂的複雜旅行路線;在工作場景中,AI能自動篩選撰寫郵件、生成會議紀要、檢索跨系統資訊,成為高度定製化的第二大腦。將大眾的時間與精力徹底釋放到創造性事務上。影響三:頂尖專業服務走向普惠,隨時隨地呼叫專家智囊垂直行業大模型的崛起,讓原本昂貴且稀缺的醫療、法律等知識密集型服務變得觸手可及。比如在醫療健康場景,大眾在基層即可獲得媲美資深醫生的AI輔助診斷,比如螞蟻阿福等應用的出現,就是讓AI醫療變得觸手可及;在法律應用場景,普通人能以極低的成本獲取準確率極高的合同審查和文書起草服務。大模型實質上推動了頂尖專業資源的平權。影響四:大模型加速了認知鴻溝差距,認知平權尚未到來儘管大模型賦予了個體極大的生產力躍升,但在宏觀層面上,它沒有立刻帶來普惠的認知平權,而正以前所未有的速度加劇全新的不平等。不使用AI的人會有認知落後、被時代“遺棄”的風險。據統計,截至2026年初,全球80億人口中,約84%(68億人)壓根從未接觸過AI。真正使用過免費AI對話工具的人群僅佔16%(約13億人),而每月付費20美元深度使用AI的約1500-2500萬人,使用AI輔助程式設計工具僅約200-500萬人,這些先鋒群體其實目前仍佔比極低。這意味著,極少數率先掌握大模型工具的群體正在利用技術槓桿獲得幾何級數放大的競爭優勢,而絕大多數普通人目前仍被排斥在技術紅利之外。未來全社會的認知分化,將極大程度上取決於對AI工具的掌握與應用程度。影響五:全球用過大模型的人口不足20%,AI基礎設施處於爆發前夜當前大模型在普通大眾中的滲透階段,猶如30年前的網際網路。1995年,全球網民不到4000萬人,佔世界人口不到0.8%,而30年後網際網路已覆蓋全球超50億人。如今約有84%的全球人口尚未接觸AI,這預示著AI海嘯其實還是處於爆發前夜。隨著推理成本的持續下降和智能體的全面鋪開,大模型將迅速從少數人的先鋒工具演變為全民的底層基礎設施。對於普通大眾而言,儘早打破認知壁壘,主動跨入那使用AI的、付費深度使用、用AI創造價值的極少數人的行列中,是在這輪AI文明演進中避免被邊緣化、搶佔時代先機的唯一出路。2拆解AI大模型技術原理第一,我們看AI大模型到底在幹什麼?簡單說,大模型的本質,就是用電腦語言“預測下一個詞”出現的機率。機器的演算法和人類大腦極其相似。大模型通過海量閱讀,尋找特徵、計算條件機率,最後生成可能性最高的句子,並不斷通過反饋強化學習。它是在用電腦語言壓縮人類的邏輯,從而理解世界。從1955年開始,歷經統計語言、神經網路、深度學習等階段,直到2020年LLM大語言模型成型,參數量飆升,才讓人機對齊成為現實,AI最終能夠以大模型的方式實現初步普惠、走近普通人的生活。第二,我們看大模型的技術基石,為什麼是Transformer架構和GPT跑出來了?其實,2017年是全球AI真正的分水嶺,Google開放原始碼的Transformer架構徹底打下了今天大模型的江山。在這之前,AI界主要用CNN(擅長看圖)和RNN(擅長處理句子)。但老一代的RNN有個致命弱點:它必須按順序一個詞一個詞地讀,無法同時處理,效率極低。而Transformer的偉大之處在於它打破了順序的枷鎖,實現了“平行計算”:它能一口氣吞下整段文字,完美契合了GPU的大規模並行算力。正是從這一刻起,算力能夠高效轉化。為什麼說從GPT開始,大模型的商業邏輯閉環了?因為從GPT選擇的技術路線是只專注做一件事:永遠去預測下一個詞。這讓它的結構極其純粹,部署極快。更重要的是,在同等算力投入下,單向模型能把資源的投入產出比做到極致。第三,其實,AI大模型進入“ChatGPT時刻”的本質,就是量變引起了質變,機器突然擁有了“湧現(Emergence)”能力 。當模型參數量突破“百億”這個臨界點時,它不再是單純的死記硬背,而是突然展現出類似人類的推理和思維能力,精準度呈指數級飆升 。就像幼兒學說話,前期積累單詞,突然有一天不需要提示,就能說出極其複雜的長難句,這就是AI的湧現。這表現為“給個提示就能答對(上下文學習)”和“一步步邏輯推導(思維鏈)” 。雖然機理仍是“黑箱”,但這被視為機器邁向智能的前兆。第四,大模型過去幾年的信仰是“大力出奇蹟”,即Scaling Law。參數越大、資料越多、算力越強,大模型就越聰明 。但是現在已經遇到了兩大現實瓶頸。第一是木桶效應,大模型不能偏科。不能只砸錢買算力,沒有好資料喂養,模型性能就會停滯。參數、資料、算力必須按比例同步增長。第二是邊際效應遞減。性能達到高位後,再提升一點點,需要付出幾十倍的成本。比如推測GPT-5參數是GPT-4的六倍,Grok-3算力是上一代的十倍,但性能只是小幅提升。這說明“單純靠暴力堆算力”的路線快走到頭了。所以,我們要看未來大模型技術的兩大最佳化方向。3  大模型未來發展方向:演算法最佳化、感官進化當前AI大模型的演進正從單純的“算力競賽”轉向更深層的“架構革命”,核心突破體現在演算法效能與感官進化。一是在大模型演算法層面,行業正在經歷一場由“堆料”向“做減法”。過去,大模型極度依賴參數堆疊和算力擴張,但隨著邊際效益遞減,以DeepSeek為代表的演算法最佳化路徑打破了“唯算力論”。AI大模型正變得更輕巧、更廉價且更聰明。通過混合專家模型(MoE)實現計算資源的精準分配,利用多頭潛在注意力機制(MLA)對長文字資訊進行高倍壓縮,並輔以知識蒸餾技術將複雜智慧遷移至輕量化模型。這種變革的本質是利用演算法架構的創新來避險昂貴的算力成本,讓通用人工智慧的門檻從算力霸權回歸到效率邏輯。二是在感官層面,AI大模型的突破方向是多模態統一,打破文字、圖像、音訊、視訊的壁壘,實現多種資料的統一處理和理解,讓模型既能讀文字、看圖片,也能聽聲音、分析視訊。這種感知力的質變,讓AI徹底突破了文字框的限制,為具身智能、腦機介面等前沿場景提供了具備空間感知和動態預測能力的數字大腦。4全球主流AI大模型:格局分析截至2026年2月,大模型發展正經歷著從無序競爭到頭部集中的演變,市場格局更加穩定。全球主流大模型在應用特點與優勢上呈現出以下特徵:Google (Google/DeepMind):作為AI大模型基礎架構的絕對奠基者,其在2017年提出了Transformer架構與注意力機制。Google除了早期展現“湧現”能力的 PaLM 和 LaMDA,其當前的核心主力Gemini更是原生多模態領域的標竿。Gemini打破了單一文字限制,從底層實現了文字、圖像、音訊和視訊的融合處理;此外,它深度內嵌於Android生態與Google搜尋中,Gemini Live等模式在即時語音互動、長上下文理解以及跨應用資訊整合方面具有極強的應用落地優勢。同時,Google依託龐大的應用生態,日均處理呼叫量達數兆級,在推理端佔據主導地位。OpenAI (GPT系列):作為行業先驅,其最新一代GPT-5(參數量超10兆)在個性化互動、更強推理邏輯及程式設計能力上具有顯著優勢。其原生多模態模型GPT-4o的平均響應時長僅需320毫秒,與人類相當;同時,借助後訓練技術的GPT-o1在數學、程式碼等複雜推理任務上表現好。DeepSeek:率先轉向為演算法做減法,顛覆了“AI訓練必依賴強大算力”的認知。其代表模型DeepSeek V3 通過混合專家模型(MoE)、多頭潛在注意力機制(MLA)等技術,大幅降低了推理延遲、算力需求與落地成本。它在科研輔助領域獨樹一幟,在多項基準測試,如數學計算和程式碼編寫中表現優異。Anthropic (Claude系列):代表模型Claude-3.5-Sonnet在各項基礎測試中表現出色。其衍生的Claude Code在智能程式設計領域應用深入,能夠實現檔案分析、程式碼編輯等,可作為企業虛擬軟體團隊中的開發或測試Agent實現複雜項目的拆解與協同執行。xAI (Grok系列):作為馬斯克旗下的大模型,Grok的核心壁壘在於與X平台的深度繫結,擁有極強的即時熱點解析能力。最新一代Grok-3,在專業領域實現了進一步提升。其應用特點是處理即時新聞和輿情分析方面具有優勢。字節跳動 (豆包 & Seedance):憑藉Seedance 2.0在視訊生成等多模態領域成為行業標竿,其核心通用大模型豆包憑極高的響應速度和擬人化的語音互動體驗,牢牢佔據了國內C端市場頭部。它深度嵌入字節的內容生態,在個人效率提升和智能內容生成AIGC上具有極強的商業落地優勢。月之暗面 (Kimi):作為國內大模型的明星代表,Kimi在文書處理上的核心壁壘是超長上下文窗口技術。它在處理百萬字級超長文件解析、法律合同審查、財報深度分析以及複雜長程式碼閱讀時具有極高精準率,是知識密集型行業依賴的AI生產力工具。阿里巴巴 (通義千問 Qwen):代表開源模型Qwen2.5-72B在精準度測試中名列前茅。在應用端,阿里依託電商場景積累的海量資料,持續最佳化通義千問的商業應用能力,比如千問點外賣等場景。騰訊 (元寶):致力於打造“AI+社交”入口,將元寶大模型精準推向更多效率場景。Meta (Llama系列):其代表模型Llama-3.1-405B作為開源社區的重要力量,在推理與文字生成基準測試中保持著較高的精準度,為開發者提供了強大的基礎模型。5大模型未來五大趨勢通用智能的實現,將完全重構全球經濟分工體系、顛覆所有產業的商業模式,甚至重塑人類社會的底層邏輯。五大決定性的未來趨勢已顯現。趨勢一:AI超級應用爆發後,推理端算力需求將迎來指數級爆發,成為主導未來AI商業版圖的核心戰場。隨著AI應用從探索期進入全面落地期,從雲端到終端的龐大使用者群正以前所未有的高頻次呼叫大模型服務。微軟、Google等科技巨頭的日均Token處理量已躍升至數兆等級,遠超早期聊天機器人時代的計算量。AI算力需求的核心矛盾,正從早期的“模型訓練為主”迅速讓位於“實際落地推理優先”。未來以智能體AI Agent為代表的殺手級應用一旦大規模普及,消費級AI的日活使用者將輕鬆突破十億,佔據整個生成式AI市場70%以上的計算資源,大模型在推理端的算力消耗將呈幾何級數膨脹。趨勢二:後訓練將全面接棒預訓練,成為破局大模型演算法瓶頸的核心。過去幾年,單純依賴擴大參數、算力和資料的“預訓練尺度定律(Scaling Law)”正不可避免地撞上現實天花板。一方面,高品質的公共網際網路資料即將被消耗殆盡,資料獲取與人工標註的成本呈指數級攀升;另一方面,維持和新建超大規模算力叢集的資金壓力極大,底層硬體的物理極限也讓算力規模的無底線暴增難以為繼,行業重心必須向後期的精細化訓練轉移。如果說預訓練是廣撒網,讓大模型掌握基礎的通識能力(成為“通才”),那麼後訓練就是定向爆破,它聚焦特定任務與垂直場景,精準最佳化模型,讓大模型向頂尖的“專才”跨越 。傳統大模型在預訓練後雖具備了通識基礎,但在處理極端複雜的專業任務時常常捉襟見肘。比如在醫療領域,融合真實病例與醫學圖譜的後訓練模型大幅提升了診斷精度;在金融市場,吸收專有資料的模型展現出頂級的風控評估能力。目前的AI大模型精進法則,已從單一的預訓練維度,全面升級為“預訓練+後訓練+即時推理”。趨勢三:世界模型(World Models)將大規模落地,賦予AI理解真實物理規律的高級認知能力。現有大模型無論多麼驚豔,其本質依然是被動接受知識並進行統計機率上的相關性推理,擅長內容生成但缺乏真正的物理因果認知。而世界模型的核心理念則完全不同,它旨在讓AI像人類一樣主動探索、與真實物理環境互動,從而建構起內在的知識體系。它不再僅僅預測下一個詞(token),而是要預測下一個動作或物理狀態。融合多模態、記憶與控製器三大核心元件的世界模型,是實現無人駕駛和具身智能大爆發的關鍵。多模態模型負責壓縮和感知複雜的物理世界資訊,記憶模型負責掌握時間動態並進行未來預測,控製器則負責設定目標並指導機器人執行。這種擁有時空推理能力、甚至能脫離現實進行虛擬模擬的世界模型,研發門檻極高。目前,以特斯拉FSD系統、輝達Cosmos工業模擬為代表的架構已率先試水,預計2026年後,隨著物理AI裝置的普及,世界模型將迎來真正的爆發。趨勢四:全球大模型格局加速向頭部集中,中國AI力量將在馬太效應中確立全球引領地位。早年間“百模大戰”式的無序競爭已經徹底終結,市場篩選機制變得極其殘酷。海量使用者和企業對AI性能、安全與穩定性的苛刻要求,讓那些缺乏核心底層技術的初創模型迅速出局。在這個優勝劣汰的過程中,擁有頂尖研發人才、海量專有資料與充沛資金鏈的中國頭部廠商,成功跨越了技術壁壘,將國產大模型全面拉升至國際第一梯隊。中國科技巨頭與獨角獸企業正在各個細分與通用賽道上形成壓倒性的比較優勢。DeepSeek以極具顛覆性的演算法創新,在科研輔助與極低成本推理上獨樹一幟;字節跳動依託豆包、Seedance在視訊生成等多模態領域牢牢佔據行業標竿;阿里將海量電商消費資料反哺模型,將商業應用落地能力做到極致;騰訊則緊握“AI+社交”入口。這種從技術突破到使用者增長、再到資料反哺的正向循環,將進一步拉大強者與追趕者之間的差距。趨勢五:人機對齊與AI安全監管,將成為決定矽基文明能否平穩延續的紅線。當AI的智力遠超人類且具備高度自主執行能力時,如何確保它在複雜甚至極端環境中做出符合人類道德價值觀的判斷,是當下面臨的最棘手挑戰。由於機器底層缺乏對人類“公平、安全、道德”的天然感知,且訓練資料本身往往帶有網際網路固有的偏見與非理性動機,如果不加干預,高度自主的AI極易在黑箱中演化出不可預測的倫理災難甚至反人類傾向。解決AI道德困境與價值觀對齊,必須依賴企業級技術約束與全球主權政府的深度協同監管。人類社會本身的文化與道德框架就存在巨大差異,達成普世的AI行為準則絕非易事。明確演算法詮釋權與權責劃分,不僅是約束技術的韁繩,更是護航人類安全走向超人智能時代的文明底座。 (澤平宏觀)
獨家對話!王興興:具身智能未來熱度或是現在的1000倍
立春已至,新春將近,步入“十五五”開局之年,一系列支援民營經濟的新政策、新法規正在落地;另一方面,企業家面對的仍然是一個複雜又充滿不確定性的環境。本期《對話》節目中,奇安信董事長齊向東與宇樹科技創始人、CEO王興興同台對話,圍繞輿論環境、金融支援、產業競爭等熱點話題,分享創業感悟與行業思考。目前,具身智能賽道有多火?對此,宇樹科技創始人、CEO王興興表示:“如果未來幾年,有真正大規模應用的具身智能AI模型和機器人技術突破,那時候熱度可能會比現在至少高100倍,甚至1000倍。而這個熱度,我覺得會遠超移動網際網路。”輿論場上的“破防”與堅守面對流量時代的輿論壓力,“90後”創業者王興興坦言,春晚爆火後,自己十年前的言論被翻出,他回應:“很多人不瞭解背景,就完全否決我們的技術,說我們用了海外開源技術,但全球人形機器人行業絕大部分開源技術,都是基於我們的硬體平台。”齊向東以地方諺語“聽喇喇蛄叫還不種莊稼了”回應,強調企業家需保持定力,“不要因為別人的非議影響做事的決心,堅持把自己的東西做好,清者自清,風波總會過去”。他呼籲,健康的輿論環境應當“尊重創新、包容失敗、理解企業和企業家”。資本理性時代的“耐心”博弈兩位企業家直言硬科技正迎來“耐心資本”時代。齊向東在現場介紹,2025年底啟動的千億級國家創投引導基金存續期長達20年,創下歷史紀錄,“硬核科技企業研發周期長、產業成長慢,就需要這種長期資金支援,現在對高科技產業投融資的體感溫度非常好。”王興興對比十年創業歷程:“2016年我們公司成立時估值只有1000多萬元,拿融資全靠營收支撐;現在很多機器人創業公司剛起步,估值就能達到幾億元、幾十億元。”面對行業內普遍存在的“催上市”現象,王興興回應:“最根本的還是把公司經營好,技術、產品、營收穩步增長,上市快慢都可控。”齊向東也認同這一觀點:“好飯不怕晚,好公司越晚上市越有利,上市是水到渠成的結果,而非盲目追求的目標。”同質化競爭中的“牛頓之問”對於當下外界眼中“火熱”的具身智能賽道,王興興在現場給出了不一樣的判斷:“很多人覺得具身智能已經火透了,但我反而覺得,這個賽道遠遠還不夠熱,現在只是剛剛拉開序幕,屬於早期的早期。”王興興表示:“目前機器人產業或具身智能產業,背後最大的驅動因素或不確定因素,基本都是由AI主導,但增長曲線可能越來越陡峭。如果未來幾年,有真正大規模應用的具身智能AI模型和機器人技術突破,那時候熱度可能會比現在至少高100倍,甚至1000倍。而這個熱度,我覺得會遠超移動網際網路。”王興興進一步解釋:“整個行業還在技術爬坡,遠沒到紅海廝殺的階段,大量空白場景、未被滿足的剛性需求還沒人去填,機會遠比競爭多得多。現在的熱度,更多是輿論和資本層面的關注,真正的產業落地、技術突破才剛剛開始。”王興興直言行業當前的核心瓶頸:“具身智能最大的問題是AI模型泛化能力不夠,固定場景成功率能到100%,場景一變成功率就暴跌。這個時代的牛頓尚未誕生,技術仍處粗獷期。”齊向東則指出,具身智能不會出現移動網際網路式的“贏者通吃”,“賽道空間足夠大,能容納更多創業者,沒必要跟風模仿。”對於行業內出現的低價內卷,兩人態度一致,王興興強調:“我們一直堅持合理的商業邏輯,惡意卷價格只會把行業卷爛。”齊向東也直言:“卷價格是最低端的卷,卷創新、卷技術、卷經營管理,才能讓企業和行業走得更遠。” (央視財經)
我想給 OpenClaw 接上語音,結果有人先做了
我一直在用 OpenClaw(龍蝦),通過飛書和電報來用,體驗不錯,已經在幫我做各種小雜事了。我這兩天還基於龍蝦做了個有點點意思的東西,還在打磨(vibe)中,過兩天分享出來。在和龍蝦對話的過程中,我心裡一直有一個感受和念頭:人和 AI 之間,語音才是更 native 的互動方式。這個念頭不是憑空來的。早在 ChatGPT 剛發佈之際,我就做過一個真•全球首位的語音 ChatGPT 對話的軟體,發到 B 站後一天之內播放就破了10萬。可以說,我對語音互動還是有一點兒執念的:語音的頻寬雖然不高,但它是高度壓縮的、靈感密度最大的。這其實就是我們人和人之間最高效、最自然的工作表達方式。文字當然更準確、更易理解,但很多時候,當你打下前幾個字的時候,當時的靈感已經忘了一半。而靈感,則是 AI 時代最為重要的東西。我自己就經常有過靈感突然飛走的經歷,所以我就一直偏愛語音輸入類的工具。龍蝦出來之後我就在想,能不能給它接一個語音入口呢?外網其實已經有人做過類似的嘗試,用瀏覽器接語音,用Web Speech API去調後端,再把結果顯示在網頁裡。技術上不複雜,甚至可以說挺優雅。但我一直覺得,這種方式還是有點「隔著一層」。它更像是:你坐在電腦前,對著電腦說話。本質上還是「你在用電腦」而我真正想要的,是反過來——不是我去靠近裝置,而是裝置貼近我。讓它不只是「打字對話」,而是隨時隨地、張嘴就來。飛書可以發語音,電報也可以,但終究不夠 native,離那種真正「隨時隨地、開口即用」的體驗還有些距離。我一直想自己做一個,但這幾天確實太忙了忙,一直沒動手(動嘴)。然後今天,我發現,這件事,已經有人在往我認同的方向走了。有個叫「光帆AI」的團隊在做一件事:他們現在做的並不是“一個語音 APP”。更準確地說,是用 APP 先把「耳機 + 服務」的整條鏈路跑通並穩定下來。APP只是當前最便捷的載體,後續再把同一套能力自然遷移到更貼身的硬體入口上。簡單來說就是,你對著手機說一句話,家裡或公司或遠端的龍蝦就開始幹活,幹完了把結果推到你手機上。而這個 APP 粗看之下,可能會覺得這和在飛書裡發個語音消息有什麼不同?但這裡有個關鍵的區別:它對接的不是一個 chatbot,而是 OpenClaw 這個真正能幹活的個人 Agent。這不只是語音版的 ChatGPT,也不是打通個聊天機器人就完了。可以想像,這個入口以及未來的耳機背後,將會是一群不同的 Agent 在隨時聽從你的指令,全天候為你工作、解決問題。它用的是語音這種人和人之間最直接的溝通吩咐方式,自然到你甚至不覺得自己在「操作」什麼東西。所以看到 Hi Light 的第一時間,我就要來安裝包上手一試了。昨晚下載 APP 後,雖然該有的都有,但細節還需要打磨,玩了一會兒我就睡了。沒想到早上醒來,看到已經又更新了2個版本了……這是要春節無休的節奏啊……這麼快速迭代的速度,我覺得再過幾天、過幾周,應該就能有一個不錯的、可以日常用起來的版本。那實際用起來什麼感覺呢?來看幾個我試過的場景。今天早上我照舊去家附近的公園跑步,跑著跑著突然想起一件事:最近想調研某個技術方案的競品情況,一直沒顧上。以前這種念頭只能先記在腦子裡,等跑完回去再說。但大機率回去就忘了,或者被別的事岔開。這次我掏出手機,打開 Hi Light APP,點了通話按鈕,說了一句:“幫我調研一下海內外 AgentOS 的競品和技術方案,整理成文件放桌面。”然後手機塞回口袋,繼續跑。等跑完回去一看,文件已經在那了。並且還成功直接呼叫了我之前的寫的Nanobanana_PPT的skill。我們來看看效果順便叮囑一句:AI 時代,建議大家還是要多跑步、多運動。萬一 AGI 真來了,你總得有個好身體去見證吧。然後跑完步到家,我正洗澡滿手都是水的時候,然後阿里雲的電話告警來了:資料庫滿了,雖然是測試環境。手上滿是水時的打字型驗和效率……懂的都懂……不過現在就省事許多了,只需要點選電話按鈕,然後直接說:「查一下測試環境,資料庫滿了,把資料同步表的資料清一下只保留最近一周的。」然後我電腦端的OpenClaw 會用我提前配置好的 skills 自動去連資料庫、確定問題、清理資料、二次確認,然後在我還沒洗完澡,就把結果推到手機上,給我語音播報完成了。用了幾次之後我發現,這真的是一個很爽的互動模式:我可以像打電話一樣直接給 Agent 說出指令,它接收到之後會告訴我說已收到,還讓我先去幹點別的或者玩一會兒,等它的好消息。然後過不久,結果就推送過來了,我隨時可以審閱。如果還有需要調整的地方,繼續語音追加指示就行。真的就像一個人在管理著無數隨叫隨到的員工。說句不太謙虛的話,有那麼點君臨天下的感覺。說完體驗,來聊聊怎麼接入。整個過程不複雜,電腦上裝好 OpenClaw 之後,安裝光帆的 hi-light 外掛:npm i @art_style666/hi-lightopenclaw plugins install @art_style666/hi-light然後去 Hi Light APP 裡獲取你的 API Key(設定 → 帳號管理 → 獲取 API Key),在 OpenClaw 配置檔案 ~/.openclaw/openclaw.json 裡加上 hi-light 的 channel 配置:"channels":{"hi-light":{"enabled":true,"wsUrl":"wss://open.guangfan.com/open-apis/device-agent/v1/websocket","authToken":"你的 API KEY"}}最後執行 openclaw gateway restart,沒報錯就說明接上了。不過,其實,這裡許多操作我都是直接無腦扔給 Claude Code,然後它自己就搞定了。雖然我最近 coding 任務上 Codex 用得越來越多,但這類安裝配置的雜事還是 Claude Code 更順手,體驗也明顯更好。但後面我計畫直接用耳機來控制龍蝦,然後就可以用它來控制 Claude Code 了。(或者反過來,用 Claude Code 來控制龍蝦?)從技術上看,完整的鏈路是這樣的:我的語音 → Hi Light APP(或耳機)→ 光帆雲伺服器 → 你電腦上的 OpenClaw 客戶端 → 本地執行 → 結果回傳 → APP 展示。中間走的是 WebSocket 長連接,響應及時。另外,這套外掛 + WebSocket 通道,其實已經很像平台化能力的雛形。後面大機率會做成一個開放平台,把「裝置入口 + 指令通道 + 任務回傳」這整條鏈路開放給開發者,讓更多人可以接入類似 OpenClaw 這樣的 Agent 能力。現在看到的接入方式,本質上已經是在提前搭平台的骨架。這裡其實沒有“絕對安全”。像 OpenClaw 這種能連本地環境、能執行動作的 Agent,本質上就是在 自由度、響應速度與安全邊界之間做取捨。光帆提供了兩種部署模式:Local Host:外掛跑在你自己的 Mac 上,資料儘量不出本地,安全邊界更可控,適合對資料敏感的極客。Cloud Host:更省心、隨時線上,但需要更清晰的權限與隔離機制來約束風險邊界。換句話說:它不是“更安全”,而是“把權衡擺在檯面上”,讓不同人按需求選。安全性方面,API Key 的機制會確保指令只會發到你繫結的裝置上。Local Host 模式資料完全不出域。Cloud Host 模式下使用者資料做了隔離處理。外掛程式碼在 GitHub 上開源,可以自己去看。如果你沒什麼隱私而言,那你隨時,我則敏感且確實有許多我自己定製的東西,我建議還是用 Local Host 模式,資料不出域,個性化整合且踏實放心。從行業角度看,AI 正在從「被動響應」走向「主動理解」,從螢幕走向穿戴,入口正在從鍵盤遷移到麥克風。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬體互動層面,方向是對的。目前 Hi Light APP 已經上架,iOS 通過 TestFlight 安裝,Android 可在各大應用程式商店搜尋「Hi Light」下載。不需要耳機也能用,APP 本身就支援語音操控電腦的完整功能。耳機預計2026年 Q1-Q2 開售。現在處於公測階段,感興趣的可以先裝 APP 體驗一下。如果你本身就在用 OpenClaw,而且也對語音入口有興趣,可以嘗試下這個產品。語音不是為了更酷,而是為了更自然。當 AI 真正成為執行體,互動方式終究會回到人類最原始、也最直接的溝通方式——說話。因為那本來就是我們與世界協作的方式。 (AGI Hunt)
分歧巨大!美伊談判前景暗淡
藥味中美伊在阿曼開談,這是去年6月美國轟炸伊朗核設施、導致伊美談判中斷後,兩國首次進行對話。伊朗外長阿拉格齊在談判結束後表示,談判開局良好。伊朗外長:伊美就繼續談判達成共識6日的談判於當天中午開始,較原定時間略有推遲。伊朗代表團由阿拉格齊率領,美方代表團由美國總統特使威特科夫和美國總統川普女婿庫什納率領。美伊談話以間接方式展開,在當天的談判中,伊朗外交部長阿拉格齊先與阿曼外交大臣巴德爾舉行會談,就談判議題、相關訴求及關切問題闡述立場和建議。雙方談完後,美國總統特使威特科夫與巴德爾展開會談。在磋商過程中,阿曼外交大臣巴德爾與伊朗和美國雙方進行溝通。談判結束後,伊朗外長阿拉格齊稱會談“開局良好”,雙方同意保持對話。美媒:軍事施壓 美軍中央司令部司令參與談判有消息稱,美軍中央司令部司令庫珀作為美國代表團成員參加了此次談判。美軍中央司令部司令是美軍在中東地區等級最高的軍事指揮官。美媒稱,這似乎在強調美軍在該地區的軍事集結仍在持續。阿拉格齊:鈾濃縮是伊朗不可剝奪的權利伊朗邁赫爾通訊社6日表示,伊朗當天在談判中明確表示,絕不接受“不得進行鈾濃縮活動”這一條件。而此前,白宮方面曾多次表示,實現“零核能力”是美國總統川普反覆強調的立場。此外,伊朗方面在談判前表示,此次談判的議題僅限於核問題,而美方在會前的公開表態更強調把議題延展至導彈、地區武裝等問題,美伊雙方在議程設定上仍存在結構性分歧。各方計畫在適當時候再次舉行談判阿曼外交大臣巴德爾6日表示,各方計畫在適當時候再次舉行談判,伊美雙方將把談判結果帶回各自首都進行審慎研究。各方表態綜合來看,這一輪更多是重啟溝通並且摸清底線的起步環節,伊方希望在去威脅與減壓前提下推進就核議題的談判,而美方暫時不公開表態被很多分析人士看來是在保留議程擴展的空間,並且有可能繼續在談判桌外向伊朗施壓。因此後續能否盡快敲定下一輪談判日期以及議程能否相對確定,將決定海灣局勢是有所緩解還是進一步升級。川普:伊朗清楚拒絕達成協議的後果美國總統川普6日也表示,下周美國將再次與伊朗談判。川普稱,伊朗清楚拒絕達成協議的後果。川普6日還簽署行政令,對於直接或間接從伊朗購買、進口或以其他方式獲取任何商品或服務的任何國家,美國或對從這些國家進口的商品徵收額外的從價關稅。該行政令自美國東部時間7日凌晨起生效。同一天,美國國務院表示,將對與伊朗原油、石油產品或石化產品交易相關的15家實體以及2名個人實施制裁,並認定14艘船隻為涉伊朗石油及相關產品運輸的實體資產。美國白宮發言人萊維特此前就美伊談判表態時稱,美國除了外交手段外,“還擁有諸多選項可供考慮”。英國《泰晤士報》報導稱,伊朗願意討論其導彈問題本身“就是一項重大讓步”。“政客”新聞網則表示,儘管美國與伊朗將坐下來談判,但地區國家仍然感到“緊張不安”。 (CCTV4)
蘋果把Siri推向對話式AI:iPhone與Mac將內建聊天介面,背後是與Gemini的深度繫結
一、蘋果這次想改的,不只是Siri的“腦子”過去幾年,Siri的問題從來不止“回答不夠聰明”。更根本的是,它的互動方式已經落後於人們對AI的最新想像:你對它說一句,它回一句;你換個問法,它往往又像“忘了上文”。在ChatGPT把“可以追問、可以糾錯、可以把對話串起來”變成常識之後,傳統語音助手那套“一問一答”的節奏,顯得越來越像上一個時代的產品。Bloomberg 的描述很明確:蘋果要把Siri做成公司的第一款“AI聊天機器人”,並且會嵌入iPhone與Mac等系統裡,成為更像“入口”的能力。Reuters 的轉述也提到,新形態會支援語音與文字兩種模式,並替換現有介面。換句話說,蘋果這次要動的不是某個功能點,而是Siri的“呈現方式”——它不再只是你偶爾叫一聲的語音開關,而更像一個隨時能對話的系統層服務。這種變化的價值,並不在“能不能寫一段更像樣的文字”,而在於它能否讓使用者形成新的習慣:當你要查資訊、寫東西、整理日程、甚至只是想把一句話改得順一點時,你第一反應不是打開一個應用,而是直接跟系統聊。這才是所謂“入口級改造”的真實含義。二、代號“Campos”,要“內建”而不是單單獨的App多家轉述都提到,這個新Siri在蘋果內部的代號是“Campos”,並且它會“嵌得很深”:覆蓋iPhone、iPad與Mac的系統層,而不是以獨立App的形式出現。這點很“蘋果”。在AI時代,最容易做的是再造一個聊天應用——下載、註冊、開聊;但最難的,是把它變成系統能力:隨時可呼出、跨應用協作、能在合適的時機出現、又不把使用者體驗弄得支離破碎。蘋果歷來擅長做後者:它不一定總是第一個做出新東西的人,但往往能把某種能力“系統化”,讓它變成每台裝置都默認擁有的基礎設施。如果Campos真的取代現有Siri介面,這意味著蘋果準備把對話式AI放到一個更醒目的位置——它不再只是“語音助手升級版”,而是“系統互動的一種新形態”。這也解釋了為什麼報導會強調它將成為iOS 27、iPadOS 27和macOS 27的關鍵賣點:當聊天入口成為系統能力,更新系統就不只是“修修補補”,而是一次新的互動敘事。三、或在今年WWDC露面,是“一次性全給”還是“分批交付”?關於節奏,市場最關心的其實不是“會不會做”,而是“什麼時候能用、首發能做到什麼程度”。目前的說法大體一致:蘋果可能在6月的WWDC把這件事擺上檯面,隨後進入測試,最終在秋季隨新系統推送到使用者手裡。但時間線之外,還有一個更敏感的問題:這次會不會再出現“發佈很驚豔,落地很分批”的情況。過去一年,蘋果在“Apple Intelligence”的推進上,就出現過功能分階段上線、體驗逐步補齊的節奏爭議——使用者當然能理解大工程需要迭代,但當AI競爭的窗口期被拉得越來越短,“先講願景、後慢慢交付”就會讓口碑非常被動。Reuters 的描述提到,蘋果在2024年推出Apple Intelligence後,市場反應並不算熱烈,這也讓這次Siri重做承擔了更強的“翻身”期待。所以,iOS 27 的Campos若真要成為“主角”,它必須在兩個維度上過關:一是穩定性與速度——不能像某些第三方聊天應用那樣“偶爾聰明、偶爾胡來”;二是可用性——首發就要讓使用者感到“這東西真的能常用”,而不是只適合演示。否則,Siri的重做就會變成一次昂貴的試錯。四、為什麼是現在:Apple Intelligence的冷場與外部壓力蘋果顯然意識到,Siri已經不能再靠“小修小補”拖下去。對外界而言,Siri的象徵意義太強:它曾經是智能助手浪潮的代表,但在生成式AI時代卻變成“落後”的代名詞。只要Siri還停留在舊範式,外界就會不斷把蘋果與OpenAI、Google做對比——這種對比,那怕不完全公平,也會真實影響使用者預期。更現實的壓力在於:AI正在把“系統入口”重新洗牌。過去,使用者習慣用搜尋、用App、用語音助手;現在,越來越多人習慣先問一個聊天機器人。對蘋果來說,這種習慣遷移一旦固化,意味著它在iPhone與Mac上的“系統入口優勢”會被稀釋——你依然買蘋果硬體,但你的資訊入口、生產力入口可能越來越不在蘋果的體系裡。從這個角度看,Campos不是“追熱點”,而是“止損”。它要做的事,是把使用者從第三方對話入口拉回系統層,讓Siri重新具備存在感。只不過,蘋果這次面對的不是一個簡單的功能差距,而是一種新的互動標準:對話要更連貫、更能理解上下文、更能處理複雜指令。想追上這套標準,靠傳統Siri那種規則+檢索的體系很難完成,必須借助更強的模型能力。五、借Gemini追速度,蘋果要守住的是邊界這就把問題引向報導中最“關鍵的一句”:新Siri背後將深度使用Google的Gemini。Reuters 與 The Verge 的轉述都提到,蘋果與Google的合作將為這次升級提供支撐,並強調這是一種“定製版”的Gemini能力嵌入系統。從工程角度講,這是一條更務實的路:自己從零訓練一個與ChatGPT、Gemini同等級的大模型,既耗時又燒錢,還要在短期內做出穩定可控的產品體驗,難度極高。與其在“模型能力”上硬拚,蘋果更可能選擇在自己最擅長的地方贏回來:把模型能力變成系統體驗,把對話式AI嵌入到裝置、應用與工作流裡。但“借外腦”也帶來一個繞不過去的邊界問題:蘋果如何繼續維持它長期建立的隱私敘事與控制感。使用者關心的從來不只是“它能不能答對”,還包括“我的資料會不會被拿去訓練、請求會不會被外部看到、那些內容在本地處理、那些必須上雲”。這些問題並不會因為蘋果與Google合作就自動消失,反而會更尖銳。因此,Campos真正的挑戰,可能不在“接入Gemini”本身,而在於“怎麼把外部模型能力裝進蘋果的盒子裡”:體驗要統一、呼叫要克制、邊界要清晰。它既要像聊天機器人那樣好用,又要像系統能力那樣穩定,還要保留蘋果一貫的“可控感”。這三件事缺一件,都會讓這次升級失色。 (視界的剖析)