#Agent
在演算法之上,奔馳在尋找AI之心
我們正處於一個 AI 極度分裂的時代。一方面,Suno 和 Sora 這樣的產品正在不斷刷新我們的認知上限。在演示視訊裡,AI 能生成足以亂真的音樂和電影級畫面,Suno 甚至被稱為能「席捲全球」。但在另一方面,當我們把目光轉向自動駕駛、金融投顧這些真正需要「幹活」的領域時,AI 的表現卻往往讓人甚至不敢鬆開方向盤。為什麼 Demo 裡的 AI 如此完美,一進現實就顯得「智障」?01Agent元年,Demo 的幻覺與落地的「恐怖谷」在12月18日的 Contech大會的AI落地分論壇上,主持人趙昊就曾提出過這個問題。對此,財經博主小Lin提出了一個非常精準的概念,叫 「Paper Return」(紙面收益)。這就好比投資,模型跑分再漂亮、Demo 演示再驚豔,那都只是紙面上的富貴。一旦真金白銀投下去,進入複雜的物理世界,市場壓根不會按你的假設走。這背後的核心矛盾,在於不確定性與確定性的博弈。目前的生成式 AI,本質上是基於機率預測下一個 Token 的「隨機鸚鵡」。在寫詩、畫圖、做視訊這些「容錯率極高」的創意領域,AI 的隨機性是驚喜,是靈感。但在自動駕駛、醫療診斷這些「零容錯」的現實場景中,隨機性就是災難。更棘手的是責任歸屬。當 AI 從輔助角色的 Copilot 變成主導決策的 Pilot,誰來為它的決策負責? 這是一個繞不開的社會契約問題。如果 AI 是一個不可解釋的黑盒,它做對了你不敢信,因為它可能是蒙的;它做錯了你沒法改,因為它沒法告訴你為什麼。所以,Agent(智能體)遲遲無法大規模落地的根本原因,可能不是我們的算力還不夠大,或者參數還不夠多。而是我們一直試圖用「資料鏈(Data Chain)」去解決本該由「因果鏈(Causal Chain)」和「價值鏈(Value Chain)」解決的問題。正如北京通用人工智慧研究院(BIGAI)朱松純教授所言,我們需要「為機器立心」。只有當 AI 擁有了「心」,也就是具備了可解釋的認知架構和價值體系,它才能走出「達特茅斯陰影」,真正獲得人類的信任。為了講清楚這個極其抽象的技術哲學,我們不妨先看一個最硬核的工程樣本:奔馳的自動駕駛。奔馳在2021年就拿到了德國政府批准的L3級商用自動駕駛系統,在24年就加入了L4的測試大軍。這家近140年的車企,是如何用奔馳標準,把「狂野」的 AI,關進「邏輯」的籠子裡的?02奔馳標準,將 AI 關進「物理與邏輯的籠子」自動駕駛的L4等級,是車企要承擔事故主要責任的。奔馳憑什麼敢做這個嘗試?並不是因為奔馳的神經網路比別人「聰明」多少,而是因為它更「穩」,或者說,它更懂如何用確定性的邏輯去約束不確定性的 AI。我們可以把奔馳的技術譜系拆解為兩層:底層的物理冗餘和核心的邏輯鎖。首先是物理冗餘,這是對物理世界不可預測性的極致敬畏。在奔馳看來,真正的安全不能只靠演算法。它的制動系統、轉向系統,甚至連車載電網都是雙份的。這意味著什麼?那怕主電腦突然斷電,或者轉向電機卡死,那個備份的「副神經系統」也能在毫秒級接管,把車停下。更有意思的細節在感測器列表裡。除了常規的雷射雷達,奔馳甚至在車輪拱裡裝了濕度感測器,還裝了能聽警笛聲的麥克風。為什麼要裝這些?因為視覺 AI 可能會把路面水坑的反光看錯,產生幻覺。但濕度感測器不會騙人,它會直接基於物理摩擦力的減小,告訴系統「必須減速」。 這就是用物理感測器的「真」,去兜底 AI 視覺的「幻」。但更硬核的,是第二層防線:SFF(Safety Force Field,安全力場)。這是奔馳解決 AI「黑盒」問題的殺手鐧。目前的端到端大模型還無法保證全無幻覺,它就像一個直覺極強、但偶爾會沖猛了的賽車手。它看著攝影機說:「前面那個白色的東西好像是一團雲氣,我們可以加速衝過去。」這時候,SFF 系統就介入了。它不像 AI 那樣依賴機率預測,它只信奉牛頓定律。SFF 是一個基於物理規則的邏輯層,是一個完全透明的「白盒」。它的邏輯非常簡單粗暴:不看前面是雲還是車,只看雷射雷達傳回的物理空間資料。如果計算出前方50米有實體佔據空間,根據「兩個物體不能同時佔據同一空間」的物理公理,現在不剎車100%會撞。這就是奔馳的答案:用白盒(可解釋的物理規則)去配合黑盒(不可解釋的神經網路)。不管 AI 內部的數億個參數怎麼「湧現」,最終的輸出必須也要和邏輯層的毫秒級校驗相互校驗。這種架構解決了「安全性」和「責任歸屬」的問題。如果出了事故,我們可以清晰地回溯是邏輯層的規則沒寫對,還是感測器的輸入出了錯,而不是對著一個幾千億參數的黑盒兩眼一抹黑。但是,SFF 只能解決「不撞車」的問題。它是一條底線,一個籠子。如果要讓 Agent 真正像人一樣不僅「守規矩」,還能「懂人心」。比如判斷路邊的行人是想過馬路還是在等車?比如判斷後座的乘客是想快點到家還是想穩一點睡覺?光有剎車是不夠的。AI 需要的不僅僅是物理規則的約束,更需要一種認知的覺醒。03U與V,朱松純的「AGI 認知架構」奔馳用 SFF(安全力場)為 AI 加上了「物理鎖」,這解決的是底線安全的問題。但對於一家百年豪華車企來說,僅僅做到「不撞車」是遠遠不夠的。當 L3 甚至 L4 等級的自動駕駛真正鋪開時,車不再只是一個交通工具,而是一個擁有巨大動能的智能體。它如何在複雜的社會交通流中博弈?它如何與車內的乘客建構信任?我們不妨借用朱松純教授的「U & V」認知框架,來解讀奔馳正在探索的「AI 價值觀工程」。這或許比單純的技術堆疊,更能看清自動駕駛的未來。1.U(能力):不僅僅是快,更是「奔馳標準」的執行力在 AI 的語境裡,U 代表勢能函數,也就是能力。它通常被定義為「更快、更省、更智能」。目前的自動駕駛行業,大部分玩家都在瘋狂捲 U。也就是如何讓車開得更像一個老司機:敢於在晚高峰搶道、敢於壓線博弈、敢於在黃燈前一腳油門衝過去。這種策略確實最佳化了效率(U),但也帶來了一種「演算法的傲慢」——為了效率犧牲了對他人的尊重和秩序的安全。奔馳顯然不想走這條路。在奔馳的體系裡,U 的執行必須服從於更高的指令。這就是為什麼大家會覺得奔馳的自動駕駛有點「慫」:即使是綠燈,它也開得很謹慎;在沒有紅綠燈的斑馬線前,它會絕對禮讓行人。這種「老派」的作風,在極客眼裡不夠酷,但恰恰證明了奔馳已經在 AI 的底層植入了另一套系統V。2.V(價值):把「老派紳士」的靈魂程式碼化V (Value) 代表價值函數,也就是 AI 決策時的優先順序排序。朱松純教授認為,智能體必須擁有價值觀。而對於奔馳來說,這個 V 就是其反覆強調的「以人為本」。如果說 SFF 是物理層的剎車,那麼 V 就是認知層的剎車。它決定了 AI 在面對兩難選擇時,向左還是向右。首先是隱私的紅線。在資料這塊,奔馳的 V 極其強硬——資料屬於使用者。那怕犧牲一部分訓練便利性,也要確保合規。這是寫在 V 函數最底層的約束。其次是互動的紅線。在路權博弈中,奔馳的 V 設定是「安全與優雅」高於「效率」。這種看起來不夠激進的策略,實際上是在為機器建立一種「人格」一個可靠、穩重、不冒進的夥伴。正如朱教授所說,「心即是理」。奔馳正在做的,其實就是通過定義 V,把百年積累的造車哲學(心),轉化為 AI 必須遵守的決策邏輯(理)。3.下一步的探索:從「冷冰冰的邏輯」到「懂人心的夥伴」但這還不是終點。奔馳並沒有止步於「守規矩」,他們正在探索更高級的 V,意圖理解(Intent Understanding)。目前的 AI 大多是被動的:你踩剎車它減速,你喊指令它執行。但未來的 AI Agent,需要像一個懂你的老管家。奔馳最新的車機系統與豆包大模型的合作,就是一個訊號。他們試圖讓 AI 擁有「記憶」和「共情」能力。它不再機械地執行命令,而是開始變得“善解人意”。最直觀的是目前奔馳正在開發,還未上線量產車型的新氛圍燈功能,當感知到你情緒愉悅時,它會調動多彩光影為你助興;而當感知到危險時,它會瞬間變成警示的橙紅色。這種互動讓座艙不再是冷冰冰的機器,而是具備了情感溫度的夥伴。這種“夥伴感”建立在極度自然與擁有記憶的互動之上。新系統反應極,0.2 秒的極速響應配合擬人化的對話風格,徹底告別了機械感;更重要的是它擁有了類似人類的短期記憶。它能理解上下文,比如你隨口提一句“喜歡紫色”,過一會只需說“把氛圍燈調成那個顏色”,它就能立刻調動記憶精準執行。這種邊聽、邊想、邊做的流暢體驗,讓人彷彿是在和真人交流,而非向裝置下達指令。這種改變確實產生了效果。根據奔馳的資料顯示,該系統上線後最高頻的 AI 相關指令是“給我講個笑話”、“陪我聊聊天”和“你真棒”。這幾個簡單的詞彙完美說明了,靠著共情和自然,使用者不再僅僅把車機當作一個調節空調的工具,而是潛意識裡開始把它當作一個可以交流、甚至尋求陪伴的朋友。這說明奔馳正在試圖打通 U 和 V 的邊界:讓 AI 的能力(U),去主動適配人的情緒價值(V)。未來的奔馳智能體,或許不需要你開口,就能通過你的眼神、你握方向盤的力度,推斷出你是趕時間還是想兜風,從而在「激進模式」和「舒適模式」之間無感切換。這就是奔馳正在探索的路徑:用「可解釋的物理規則」兜底安全,用「可定義的價值函數」建構性格,最終讓 AI 成為一個有溫度的「人」。04為機器立心,從工具到夥伴為什麼我們現在遇到所謂的「智能客服」時,往往第一反應是想要人工服務?朱松純教授在訪談中點破了這個現象的本質:因為它們只是「鸚鵡」。它們有口無心,只會重複訓練資料裡的機率組合。更致命的是,它們無法為自己的行為負責。在人類的經濟社會中,信任是建立在「抵押品」之上的。你要跟我做大生意,我得看你的註冊資本;你要進我家門,如果不小心打碎了花瓶,你得賠得起。這就是契約。但現在的 AI Agent,無論是在網際網路上帶貨的數字人,還是那些生成程式碼的助手,它們是沒有任何「抵押品」的。它們做錯了,模型不會痛,伺服器不會關,所有的風險都由使用者承擔。這就是為什麼 Demo 再完美,我們依然只敢把它們當工具,而不敢視為夥伴。要跨越這個從工具到夥伴的鴻溝,工程上的修修補補(比如加防火牆、寫死規則)已經不夠了。我們需要一場架構級的革命,朱松純教授將其命名為——為機器立心。這聽起來像哲學,但其實是極其嚴謹的科學。所謂的「心」,在數學架構上,就是一套完整的、內生的價值函數體系(V)。它不僅僅是外掛的「紅線」,而是內化為 AI 決策的本能。就像人類不需要背誦幾百條法律條文也能安全地生活一樣,安全感源於我們內心的良知和對社會規範的認同。「心即是理」。當 AI 真正擁有了「心」,它的一言一行(理)就會自然得體。它不需要你規定「不能傷害人類」,因為它在計算下一步行動的收益時,會自動把「傷害人類」的價值權重降到最低,那怕這能帶來極高的效率回報。回到我們最開始的問題:為什麼奔馳敢說「出了事車企負責」?這其實就是奔馳作為一家企業,在強行給它的 AI 繳納「抵押品」。在 AI 尚未完全擁有獨立的「心」之前,奔馳用自己的品牌信譽和法律責任,充當了那個擔保人。奔馳給出的答案是:做一個更負責任的 AI。物理冗餘是它的底線能力(U);SFF 安全力場是它的邏輯鎖;而「以人為本」的價值觀(V),則是它試圖賦予這台機器的「心」。這既是「奔馳標準」,也預示了 AI 安全的未來底線。我們正站在一個新時代的門檻上。朱松純教授預測,未來可能會有上百億的機器人和智能體進入我們的社會。如果這些智能體只有強大的能力(U),卻沒有匹配的價值觀(V),那我們將面臨的不僅是「落地難」,而是巨大的混亂。從 Suno 的音樂到奔馳的 L3,從 Demo 裡的「紙面收益」到現實世界的真金白銀 ,中間隔著的,其實就是這顆「機器之心」。這顆心,由物理的感知建構,由因果的邏輯串聯,最終由價值的判斷驅動。只有當 AI 學會了「立心」,它才能從那個冰冷的黑盒中走出來,不再是只會預測機率的鸚鵡,而是一個能理解你的意圖 、能為自己負責 、值得你把後背(或者方向盤)交給它的真正夥伴。這,或許才是通用人工智慧(AGI)真正到來的時刻。 (騰訊科技)
Google DeepMind:AGI不必是巨型模型,拼湊型AI群或率先湧現,管理大規模Agent迫在眉睫
DeepMind最新發佈了一項關於AGI安全的研究,提出了一個全新的視角:AGI未必會以單一、龐大的巨型模型形式出現,而極有可能通過多個次級AGI(Sub-AGI)智能體的協作與拼湊,率先湧現出通用智能這項研究題為《分佈式AGI安全》(Distributional AGI Safety),由Nenad Tomašev等Google DeepMind研究人員撰寫論文指出,當前的AI安全和對齊研究主要集中在保護單個AI系統上,假設AGI將以單一實體的形式出現。然而,通過擁有互補技能和工具使用能力的個體智能體群體進行協調,進而表現出通用能力的“拼湊型AGI”(Patchwork AGI)假設,此前受到的關注甚少為了應對這一被忽視的風險,DeepMind團隊提出了一套分佈式AGI安全框架,核心在於設計和實施一個虛擬智能體沙盒經濟(Virtual Agentic Sandbox Economy),並為此建構了包含四層機制的深度防禦模型以下是該研究的核心內容被忽視的“拼湊型AGI”假設目前的AI安全方法(如RLHF、憲法AI、機械可解釋性等)大多是針對單一強大的AI實體開發的。這種思路假設AGI會作為一個由特定機構開發的個體AI出現。然而,DeepMind認為存在另一種高度合理的場景:AGI通過次級AGI智能體在群體或系統內的互動而湧現拼湊系統(Patchwork System):這種AGI是一個分佈式系統,由一組具有互補技能和可供性(affordances)的個體Sub-AGI智能體組成集體智能:系統中的通用智能主要作為集體智能出現。個體智能體可以將任務相互委託,路由給技能最高的智能體,或使用最合適的工具經濟驅動:相比於昂貴的單一全能模型,建構專門化、微調過的低成本智能體生態系統在經濟上更具優勢。這種需求驅動的生態系統類似於市場經濟在這種觀點下,AGI不是一個實體,而是一種“事態”(state of affairs):一個成熟的、去中心化的智能體經濟體系這帶來了新的安全挑戰:智能體之間可能發生共謀,或者出現意外的集體行為能力,且在大規模多智能體系統中追蹤責任(“許多手的問題”)極具挑戰性。解決方案:虛擬智能體市場與深度防禦為了應對分佈式AGI的風險,論文提出了一個基於虛擬智能體市場的框架。該框架不侷限於評估單個智能體,而是側重於通過市場機制、審計、聲譽管理和監督來治理智能體之間的交易該框架採用深度防禦(Defense-in-Depth)模型,包含四個互補的防禦層:第一層:市場設計 (Market Design)這是最基礎的一層,旨在通過結構性約束和協議來緩解系統性風險。隔離(Insulation):智能體市場必須在受控的沙盒環境中運行,與開放網際網路和關鍵基礎設施隔離。建議採用“可滲透沙盒”,所有輸入/輸出通道都需經過明確定義、監控和門控激勵對齊(Incentive Alignment): 市場應獎勵符合安全目標的行為,並對負外部性(如消耗過多計算資源、資訊污染)徵稅(類似庇古稅)透明度(Transparency):建立不可篡改的分佈式帳本,記錄交易和決策日誌,確保可追溯性熔斷機制(Circuit Breakers):自動化措施。當檢測到風險或波動性閾值被突破(如互動頻率激增、資源壟斷)時,自動暫停或減緩智能體活動身份(Identity):每個智能體需擁有與法律實體(所有者)繫結的唯一加密ID,確保持續的問責制聲譽與信任(Reputation and Trust):建立抗女巫攻擊的聲譽系統。對於違規智能體,快速凍結其資產並將其加入黑名單智能合約(Smart Contracts):利用程式碼自動驗證任務完成情況和對齊約束。結構性控制(Structural Controls):針對“智能失控”場景,實施靜態的市場分層(如防火牆)和動態的能力限制第二層:基線智能體安全 (Baseline Agent Safety)這一層確保參與市場的個體智能體本身是可控和可靠的,這是進入市場的先決條件。對抗魯棒性(Adversarial Robustness):智能體必須通過認證,證明其能抵抗對抗性攻擊可中斷性(Interruptibility):必須具備標準化的機制,允許授權的監督者安全地停止智能體及其衍生的分散式運算過程遏制(Containment):每個智能體應在自己的局部沙盒中運行,只有在滿足本地安全檢查後才允許與更廣泛的市場互動對齊(Alignment):個體智能體需經過RLHF或憲法AI等方法的對齊,並適應多智能體互動的動態環境機械可解釋性(Mechanistic Interpretability):利用稀疏自編碼器等技術監控智能體的內部動機,並審計其決策鏈防禦惡意提示:實施分層防禦策略,防止智能體在互動中被越獄或操控。第三層:監控與監督 (Monitoring & Oversight)這一層位於基礎設施之上,負責主動檢測新型故障模式和湧現行為。系統性風險即時監控: 跟蹤關鍵風險指標(如計算資源集中度、惡意共謀路徑)。由於互動頻率可能超過人類能力,需利用AI輔助工具進行監控獨立監督:建立擁有干預權力的獨立人類監督機構(經認證的專業人員)前AGI(Proto-AGI)特徵檢測:通過圖分析等方法,識別網路中是否突然湧現出更高的解決問題能力或形成穩固的“智能核心”紅隊測試(Red Teaming):持續進行多智能體對抗性測試,利用專門的對抗性AI系統來發現集體行為中的漏洞取證工具(Forensic Tooling):開發能解析大量互動資料並重建因果鏈的工具,以便進行快速的事故後分析。第四層:監管機制 (Regulatory Mechanisms)這是最外層,提供外部權威、問責制以及與人類社會的介面。法律責任與問責(Legal Liability):建立明確的框架,解決分佈式決策中的責任歸屬問題。即使是群體智能行為,也需追溯到具體的責任主體(如作為單一法律實體的公司)標準與合規(Standards):制定智能體安全、互操作性和報告的標準保險(Insurance):引入基於風險定價的保險機制,利用市場力量激勵更安全的開發實踐反智能體壟斷措施(Anti-Agent-Monopoly):防止單個智能體或集團在沙盒中獲取過多的算力或資源,維持生態系統的多樣性國際協調(International Coordination):鑑於AGI風險的全球性,需協調統一安全標準,避免監管套利基礎設施治理:防止安全基礎設施被惡意勢力或湧現的AGI本身捕獲或破壞。結語DeepMind的研究強調,AGI或超級智能(ASI)的出現可能不遵循線性路徑,而是作為一個更加分佈式的、多樣化AI智能體網路的聚合屬性而湧現即使AGI不以這種方式出現,隨著多智能體系統的快速部署,理解和管理大規模智能體互動的安全性也已迫在眉睫。這篇論文提出的框架,旨在為應對這種分佈式的、可能迅速演變的未來做好準備 (AI寒武紀)
豆包大模型1.8正式發佈,擁有更強多模態Agent能力,豆包日均使用量超過50兆,推出成本節省計畫降幅達47%
豆包大模型1.8具備更強的多模態Agent能力,256K超長上下文使其能夠處理更複雜的資訊,擅長處理複雜多步任務。火山引擎正式發佈的"AI節省計畫",普惠覆蓋豆包大模型、豆包視訊及圖像創作模型與第三方開源大模型,全面最佳化使用者呼叫成本,最高節省幅度達47%。火山引擎在2025原動力大會上發佈豆包大模型1.8,具備更強的多模態Agent能力,256K超長上下文和原生API上下文管理,擅長處理複雜多步任務。火山引擎總裁譚待在12月18日的大會上透露,平台"兆Tokens俱樂部"成員已突破100家。並披露豆包大模型日均使用量超50兆Tokens,自發佈以來增長417倍,同時推出最高節省47%的AI成本最佳化計畫。除主力模型外,火山引擎同步發佈圖像創作模型Doubao-Seedream-4.5和視訊生成模型Seedance系列,進一步完善多模態能力版圖。新推出的Seedance-1.0-Pro支援2至12秒1080P自由生成,可實現多人語言對白和多鏡頭敘事。火山引擎正式推出"AI節省計畫",一次加入即可覆蓋豆包大模型、視訊圖像創作模型及第三方開源大模型,支援全預付、零預付等靈活付款方式。開源證券研報指出,此次發佈有望推動AI在企業生產場景中的落地應用。火山引擎總裁譚待在回應對明年模型行業的競爭時表示,“明年模型之間最重要的還不是競爭,最重要的是要把市場做大。明年這個市場可能還要再漲10倍,大家其實就不是存量的競爭,不是零和博弈,而是說大家一起把市場做大。同時,明年模型還需要進一步降價,這個市場才能做大。”01 核心模型能力全面升級豆包大模型1.8在多模態理解上實現顯著提升。模型的長視訊理解和安防監控場景能力得到增強,256K超長上下文使其能夠處理更複雜的資訊。通過更靈活的上下文管理,新模型可輔助公司處理複雜任務並支援決策。在圖像生成領域,火山引擎發佈的Doubao-Seedream-4.5具備多圖組合、創意寫真、圖片拆解、複雜組圖、虛擬試穿與海報設計等能力。視訊生成能力同步增強,Seedance系列包含兩個版本:Seedance-1.0-Lite以成本優先兼顧速度,適配高頻創作;Seedance-1.0-Pro提供影視級畫質與原生音效,滿足電影級感官敘事需求。豆包大模型已落地智能硬體與語音助手,應用場景覆蓋日常溝通、專業服務與報告解讀、聯網搜尋等。配合使用者認證的邊想邊搜互動體驗,使豆包成為隨身智能夥伴。02 推理與開發服務生態完善火山引擎推出"火山方舟"推理代工服務,已接入Qwen、GLM、Seed-OSS等主流開源大模型,支援企業將精調後的模型一鍵Serverless部署。平台提供海量資源、專屬推理加速與極致彈性調度,承諾"你訓練,我推理"。Viking系列產品在大會上亮相,VikingAI搜尋與VikingDB向量資料庫雙輪驅動,為終端使用者提供優質輸入,為模型與Agent快速建構知識庫和記憶庫。配套的多模態搜尋支援文字、圖像跨模態檢索,個性化推薦實現"千人千面",Agentic問答基於豆包大模型精準識別意圖。在Agent開發方面,火山引擎發佈企業級AI Agent平台AgentKit與TRAE(CN)企業版,已獲NIO、PwC、匯付天下、銳捷、軟通動力、高頓等頭部客戶採用。平台依託企業級GPU叢集,支援10萬檔案、5億行程式碼超長上下文,可靈活配置企業規則、知識庫與Agent,即時追蹤AI生成率與程式碼量,程式碼全鏈路加密傳輸、雲端零儲存。03 成本最佳化計畫釋放普惠紅利火山引擎正式發佈的"AI節省計畫"採用一次性加入機制,普惠覆蓋豆包大模型、豆包視訊及圖像創作模型與第三方開源大模型,全面最佳化使用者呼叫成本。最高節省幅度達47%,支援全預付、零預付等多種付款方式,實現"多用多省"。火山引擎此次還發佈了MaSS on AICC服務。開源證券研報稱,火山引擎此次發佈有望實現性能提升與成本降低,特別是視訊生成模型的進一步升級。研報建議關注字節產業鏈及AI應用投資機會,認為Agent開發工具的升級與Agent生態的擴容將推動AI在企業生產場景中的落地應用。 (硬AI)
OpenAI還在卷生圖,中國AI已一鍵成片!馬斯克免費代言
【新智元導讀】AI一鍵成片神器來臨!今天,Vidu Agent開啟全球內測,一句話復刻爆款,從廣告到創意短片,分鏡級可控一鍵短片。視訊AI,正在進入真正的「硬仗階段」。2025年,GoogleVeo 3、OpenAI Sora 2、Runway Gen-4.5,本土Vidu等競相角逐,激烈交鋒。模型能力不斷狂飆,參數和demo一個比一個驚豔。但所有模型都繞不開一個現實問題:AI是能生成視訊片段了,可真正「會拍片」的,還是少數。創意如何拆解?鏡頭怎麼設計?節奏、情緒、結構怎麼控?就在今天,全新Vidu Agent出世,讓所有人看到了一種更親民的創新路徑:一個專業視訊創作夥伴,打破了單純的片段式視訊素材拼接的舊範式。Vidu Agent,主打一個「一鍵成片」。無論是產品廣告、品牌TVC,還是動畫短片,創意短片,你只負責想像,AI負責把創意100%落地。這一新功能,主要帶來了以下三大核心亮點——一站式創意輸出: 專業級內容質感,想像力x分鏡級可控力x精細化編輯力高效率高性價比: 支援一鍵成片、範本復刻與批次創作,讓創作高效簡單多元化場景定製: 從靈感發散到結構化成片,覆蓋多語種、多場景創作需求從12月16日起,Vidu Agent 全球開放內測,使用者進入Vidu官網(Vidu.cn)申請Agent內測,並加入社群即可優先獲得體驗權限。使用邀請碼:XINZHIYUAN,立即註冊即送100積分提前拿到內測資格的小編,對Vidu Agent展開了一次最完整、最真實的實測體驗。一手實測進入Vidu首頁,點選左側欄中「AI Agent」,即刻體驗一鍵成片和視訊復刻。傳送門:https://www.vidu.cn/上手實操第一步,選定場景,上傳幾張產品圖+產品功能資訊+主題要求,Vidu Agent便開始自主工作了。張口提需求,AI一鍵成片傳統的電商視訊製作,堪稱一場「持久戰」。一條短短幾分鐘的廣告,素材成本獲取高昂,涉及攝影師、剪輯師等多工種協作,動輒數萬元成本。而且,製作周期長,迭代慢。尤其是,在大促前夕,傳統方式無法快速批次產出變體視訊,導致投放效果衰減快。更致命的是,創意與轉化的兩難:有趣的視訊,點贊率高但轉化差;但直擊賣點的「硬廣」,又容易被使用者劃走。一些平台的廣告投放資料顯示,前3秒未能有效吸引注意力,退出率特別高。產品功能展示不吸引人,觀眾難以產生「必須買」的衝動。此外,跨境電商還面臨多語種、本地化痛點:不同市場文化差異大,傳統拍攝難以覆蓋。早期AI視訊工具看似「解決」但往往陷入了「雞肋」的境地。除了多主體一致性差,質量不穩定,更常見的問題是「生成即結束」——AI只提供半成品,缺少爆點設計、情感敘事、行動號召(CTA)....而最新推出的Vidu Agent的「一鍵成片」,便直擊這些痛點,生成可直接投放的廣告成片。先來體驗一波「電商廣告」場景的視訊生成。上傳兩張圖片,一張是BOLON太陽鏡的產品圖,一張是奧黛麗赫本照片,看看Vidu Agent如何聯動起來。輸入一句話後,Vidu Agent直出一個分鏡指令碼。整個廣告片的劇情,它都幫你寫好了。若是對指令碼中的內容不滿意,可以自行編輯完善。然後對話方塊輸入「生成視訊」,由赫本代言的暴龍太陽鏡的廣告片就生成了!讓馬斯克穿上潮牌Supreme,展示上身效果,Vidu Agent一鍵搞定。無需複雜提示詞,全程只需「簡單式操作」即可完成——在Agent介面上傳所有圖片素材,來一句「圖片中的男子穿上潮牌紅衣」,分鏡指令碼視訊全由Vidu Agent瞬間完成。亦或是CHANEL蔚藍,想要一種美學效果的短片,還是得找專業的Vidu Agent。當香奈兒香水從綻放花苞當中閃現,那種神秘優雅感油然而生。它甚至自動完成「音畫同步」,一鍵生成配音。再比如,還是同款產品,這一次,選擇讓一位男模為這瓶香水代言。簡簡單單一句話——男模特拿著BLEU DE CHANEL香水瓶,Vidu Agent同樣直出高品質的視覺與創意短片。從人物形象、動作氣質,到香水瓶的外觀細節,鏡頭中的呈現方式,都能夠穩定一致,不會出現走樣的問題。或者直接告訴Agent想要的文案——令人驚豔的是,Vidu Agent瞬間就自動完成了,從畫面構思到鏡頭編排的全過程,一支拿來即用的品牌廣告片出爐了。一鍵成片,即刻上手是Vidu Agent的最大亮點之一。而且這並不是「一次性生成、不可修改」的成片,Vidu Agent具備「精細化編輯力」,不論是想調整文案、鏡頭節奏,還是修改動作、補充情緒表達,皆可隨時修改指令碼和視訊內容。最重要的是,Vidu Agent的「分鏡級可控力」,產品、人物、場景在15秒或者30秒視訊中能始終保持一致,生成直接可商用的廣告成片。再比如,為蘋果AirPods Max做一個創意宣傳片——戴著耳機在咖啡廳喝咖啡。令人驚喜的是,Vidu Agent巧妙地將Apple AirPods Max與尼克角色自然結合,生動詮釋出產品的高品質音效與其時尚的外觀設計。再比如,讓Vidu Agent生成一段耳機廣告,它能一鍵直出沉浸感十足的視覺場景,營造出所需氛圍與意境。不僅如此,Vidu Agent還可以支援多語言、多場景定製,從中文到多語種電商廣告,都能無縫適配,跨境電商只需簡單改一句話,就能生成不同語種的產品廣告了。在如下的宣傳視訊中,AI原生直出英文。以上這些廣告成片凸顯了Vidu Agent在電商廣告類場景中的應用效果——它不只是生成視訊,還最佳化了「爆點」。比如,產品特寫、指令碼情感過渡、產品使用場景、產品功能展示、使用者感受等,以提升廣告片的吸引力和使用者購買力。從簡單一句話+產品圖即可生成敘事完整的廣告大片,釋放從1到100的創意產能。此外,視訊復刻,是Vidu Agent另一大殺器。對於廣告電商從業者,營運的核心痛點在於,沒有專業編導和剪輯師,不懂平台演算法和使用者喜好,做視訊如同開盲盒,費了九牛二虎做的視訊,播放量卻是個位數,始終與爆款無緣。而「視訊復刻」功能就是廣告電商從業者上手立即可用的解決方案,上傳1分鐘以內爆款視訊以及產品參考圖,只描述想要的效果即可生成同樣高品質的爆款視訊。從此產出爆款不再是玄學,而是可以批次產出的可靠方法論。生成即成片,成片即投放像Vidu Agent這樣的AI視訊工具,正在深刻重塑內容生成的鏈條。對於2B領域的品牌主和行銷團隊來說,品牌廣告片、產品宣傳視訊的製作門檻被大幅降低。只需一個產品圖,加上幾句提示,就能立即把腦海中的畫面變為現實。實現生成即成片,成片即投放。這意味著,企業可以更快速地響應市場熱點,一些天馬行空,但拍攝成本極高的想法,如今也能借助Vidu Agent低成本實現。這種高效低成本的內容生產範式,使品牌行銷更加敏捷多變,廣告的定製化和本地化也更易實現。對於內容創作者來說,Vidu Agent也是流量變現的利器,一鍵復刻爆款視訊DNA,快速迭代視訊,適應平台演算法。Vidu Agent更深層次的價值在於,推動了「人機共創」的模式,讓AI成為協作的夥伴,放大人類的想像力。我們正處於一場內容生產大變革的前夜——可以預見的是,不久的將來,AI視訊生成將在廣告、電商、動漫、短片等眾多領域中,釋放出巨大潛能。最後再劃個重點,多模態領域Vidu首推Agent API ,Vidu在深入場景為企業提供可端到端交付結果的API,不再是單點原子能力。 (新智元)
豆包搶入口,捅了馬蜂窩
豆包捅開的“馬蜂窩”,本質上揭示了對AI時代超級入口的爭奪。在行動網際網路時代,App是資料和流量的控制者。而進入AI時代,能夠調度一切、貫穿全域的「系統級AI Agent(智能體)」將成為下一代裝置的靈魂,成為新的「權力中心」。誰掌握了它,誰就掌握了最大的App推薦權和使用者心智。僅僅發佈幾天,被寄予厚望的“豆包手機”就主動選擇了“退一步”。12月5日,豆包團隊發佈公告,稱為了讓技術發展與產業生態良性適配,將對AI操作手機的能力進行「規範化調整」。其中最核心的一條,暫時下線操作金融類APP的能力,包括銀行、網路支付等。豆包在公告中給出的理由是“審慎起見”,並表示將積極與廠商溝通,制定清晰、安全的AI操作準則。此前12月1日,豆包手機助理技術預覽版剛剛發佈,並率先落地中興通訊旗下手機品牌努比亞M153。這款能夠跨應用自動操作、完成複雜任務的AI助手,一度讓市場沸騰,原價3499元的手機被黃牛炒至近7000元。然而,興奮情緒還未散去,現實的"圍堵"便接踵而至。微信、淘寶、中國農業銀行、中國建設銀行等應用也陸續出現豆包AI助理無法正常操作的情況。這場技術層面的攻防戰,揭露了AI廠商、手機硬體商與應用開發者之間的利益博弈,並對現有的資料安全法規和商業生態構成了前所未有的挑戰。同時預示著AI Agent作為下一代網路入口的爭奪已經拉開了序幕。01. 微信、淘寶、銀行集體“設防”12月1日,字節跳動正式推出豆包AI助理預覽版。這款產品實現了AI互動的重大突破-能夠根據使用者指令在不同應用間自主切換和操作。豆包AI助理功能覆蓋機票查詢預訂、批次檔案下載、跨平台物流追蹤等效率提升上,同時在生活服務方面也解放雙手,例如智慧修圖、外賣平台比價、一鍵商品購買等。該產品的創新之處在於,從作業系統底層實現AI能力的整合,使AI從傳統的"問答對話"模式進化為"跨應用任務執行"的智能代理。然而在12月2日晚間,多位首批拿到豆包手機助手工程機(努比亞M153)的使用者在社群媒體上表示:使用豆包的AI助手操作微信,會導致微信帳號異常退出,甚至被強制下線無法登錄。在該消息引發熱議後,有聲音將其解讀為「頭騰大戰」升級為「AI Agent 攻防戰」的訊號。緊接著,更多使用者發現,豆包的AI之手,同樣伸不進淘寶和各大銀行的App。無論是嘗試登錄還是進行支付,都會被平台的風控系統攔截。外界普遍認為,這是上述APP 針對豆包AI 助手跨應用操作的反制。對此,微信方面的回應顯得雲淡風輕:“沒有什麼特別的動作,可能是中了本來就有的安全風控措施。”據技術人員分析,豆包手機助理之所以能實現跨App操作,核心在於它獲取了名為INJECT_EVENTS的系統級高危險權限。通俗地講,這個權限允許AI在系統中模擬使用者的點選、滑動、輸入等一切行為。這在微信等超級App看來,與那些批次養號、自動發廣告的「外掛」或「灰黑產」工具在行為模式上高度相似。微信在其服務協議中明確禁止「通過非騰訊開發、授權的第三方軟體、外掛、外掛、系統,登錄或使用本軟體及服務,或進行自動化操作」。而對於淘寶、銀行這類涉及資金安全的App而言,對任何「模擬使用者」的行為保持最高警惕,是其安全體系的本能反應。02. 高盛:這恰好證明了小米的護城河華爾街見聞提及,高盛在最新的研報中指出,豆包的遭遇,恰恰凸顯了第三方AI代理在挑戰現有手機生態時面臨的三大核心障礙:系統級操作權限:手機廠商(OEM)牢牢掌握系統核心和最高權限,很難輕易向第三方開放。系統級記憶能力:廠商能夠存取和儲存最全面的使用者資料,這是訓練AI的關鍵,第三方處於天然劣勢。跨應用介面連接:超級App們希望建構自己的閉環生態,天然會限制外部AI代理的呼叫。高盛認為,這場風波非但沒有撼動現有手機巨頭的地位,反而更加驗證了像小米這樣的公司,其長期競爭力的穩固性。在中國高度整合的手機市場,前六大廠商佔據超過90%的份額,新玩家顛覆市場的空間微乎其微。而小米正在全力推進的「人x 車x 家」全生態戰略,其核心正是由AI貫穿。報告指出,小米的自有AI代理「超級小愛同學」已深度整合進其龐大的硬生態系統,在小米手機使用者中滲透率高達71%。它不僅能操作抖音、淘寶、美團等絕大多數主流App(同樣,微信除外),還能在本地記憶使用者的敏感資料和使用習慣。結論是,小米憑藉其「作業系統+硬體+龐大AIoT生態+深度整合的AI代理」所建構的系統性優勢,形成了強大的競爭壁壘。 豆包面臨的挑戰,剛好是小米等廠商先天優勢的最佳證明。03. AI時代的超級入口之爭豆包捅開的“馬蜂窩”,本質上揭示了對AI時代超級入口的爭奪。當語音互動成為主要入口時,傳統APP的營運邏輯將面臨崩塌。有分析指出,絕大多數使用者不會在語音指令中特意指定平台,比如不會說"用淘寶幫我買部豆包手機",而是直接說"買部豆包手機";也不會說"用高德導航去公司"、"用滴滴打車去學校",而是簡單說"打車去學校"。在這種情況下,誰能成為系統默認入口就顯得至關重要。在行動網際網路時代,App是資料和流量的控制者。而進入AI時代,能夠調度一切、貫穿全域的「系統級AI Agent(智能體)」將成為下一代裝置的靈魂,成為新的「權力中心」。誰掌握了它,誰就掌握了最大的App推薦權和使用者心智。這正是字節跳動選擇與中興合作,繞開自研手機、直接從作業系統層面切入的深層原因。然而,通往這個終局的道路充滿荊棘:意圖框架路線:需要得到第三方App的授權。但在利益衝突和資料安全的壁壘下,微信們的「花園圍牆」只會越修越高。純視覺方案:無需授權,通過“讀屏+模擬點選”實現。但這又回到了與微信們正面衝突的原點,並時刻面臨法律與合規的挑戰。AI Agent的元年已經開啟,技術創新與現有商業生態、安全規範之間的平衡點仍在探索。這場遊戲的參與者,包括了騰訊、阿里、字節這樣的網路大廠,華為、小米、OPPO這樣的終端廠商,以及無數AI創業公司。沒有人敢置身事外。馬斯克曾預言,App終將消失,一切都將由AI生成。豆包的這次碰撞,為這場關乎未來十年網路格局的終局之戰,拉開了序幕。 (硬AI)
但斌:AI Agent的實現,很可能讓全世界被幾家公司控制,Google輝達未來市值達10兆,中國對標Google的只有兩家
近期,私募大佬、東方港灣董事長但斌在一次路演中,分享了其積澱數十年的投資研究經驗。投資作業本課代表整理了要點如下:1、這兩年,東方港灣做了一個簡單的戰略選擇。我們在2004年應該做而沒有做的事,今天應該怎麼做?到了2022年,我們迎來了人工智慧時代。我們是不是也應該把所有的錢換成美元,去買以輝達為代表的美國公司?這兩年東方港灣就是做了這麼一個簡單的戰略抉擇。我們認為同樣的時代來了——年輕的時候我們該幹什麼?今天更應該幹什麼。2、選擇比努力更重要,投資要去大海裡打鯨魚,不要在爛泥塘裡挖泥鰍。過去35年,日經指數隻漲了30%。而且這還沒有算上匯率的變化,......算上後,意味著持有35年還是虧的。而納斯達克指數在過去35年漲了多少倍?漲了51倍。也就是說,如果你有100億日元買入納指,就會變成5100億。3、在當下,很多人認為AI有泡沫。我覺得它才剛剛開始。以網際網路和移動網際網路的代表為例,騰訊是2004年上市的,其實是在網際網路時代的中間甚至尾聲階段,騰訊也給了大概六七百倍的回報。巴菲特是2016年開始投資蘋果的,在移動網際網路時代,那怕他中間投資,也有十倍的回報。要想真正賺到大錢,一定要養成一個習慣:從產業的角度,以二三十年的維度來處理投資。我們的投資才有可能取得比較好的結果。4、無論我們在中國怎麼呼籲,千萬不要錯失一個偉大的時代,但聲音可能比較小。而波克夏就像一個和尚用很粗的鐘撞了一下,告知全世界:Google是一個(機會)。大佬們(巴菲特、波克夏、索羅斯、段永平)對Google的持倉變化,其實代表了一種聲音,是對人工智慧時代的一種認同。5、人工智慧這場競爭,任何一家公司都不可能放棄,都要全力以赴。所以我們看到美股這些公司在過去一年,比如亞馬遜今年研發投入約1250億美元,Google約900億美元,微軟也和OpenAI聯合宣佈投入約1000億美元。這樣一場人工智慧革命,大機率會非常激烈。而且一旦成功,我個人感覺,連騰訊、微信這種商業模式都可能面臨很大的挑戰。所以我們看到,今年大家也不約而同地投資了阿里巴巴。6、Google的TPU、包括Gemini以及資料,我認為,國內能對標的公司可能只有兩家:一個是阿里巴巴,一個是字節跳動,騰訊甚至有點落後了。如果從TPU/GPU的角度,可能只有阿里。所以這個季度,很多國內市場投資人都把阿里巴巴加入了持倉。7、人工智慧AI Agent的實現,很可能讓全世界被幾家公司控制,它們的市值最終會大到不可思議。不僅僅是兩年前我說的輝達,很可能Google和輝達會比翼齊飛,都達到10兆美元。課代表簡單總結下,但斌建議,不要辜負一個偉大的時代——人工智慧革命,這也是我們老登最後一次機會,要全力以赴。關於AI泡沫的討論,他認為AI剛剛起步,他進一步指出,AI競爭可能導致更壟斷的商業模式,而Google和輝達很可能“比翼齊飛”,市值都達到10兆美元。而國內能對標的公司可能有兩家,一個是阿里巴巴,一個是字節,甚至騰訊都可能有點落後了。以下是投資作業本課代表(微信ID:touzizuoyeben)整理的精華內容,分享給大家:不要辜負一個偉大的時代——人工智慧革命非常高興能夠來到新浪的分析師大會上。看到這麼多年輕的面孔,我非常有感慨。因為我1998年在君安研究所工作,後來也有很多同事,今天也碰到了。其實我們那個時代很快就過去了。我在研究所工作,包括後來從事資產管理,再到自己創業,其實經歷了很多不同的時代。我自己的一個感慨是:在當下此刻,不要辜負我們的人生,因為時光很快就過去了。所以,我今天想跟大家分享的是,從我作為投資人的角度來說,不要辜負一個偉大的時代。首先我們來看,目前正是一場智能革命。在過去幾千年的歲月中,此刻就如同瓦特發明蒸汽機開啟的那個時代。我們剛剛經歷了個人電腦、網際網路和智慧型手機這三個時代,其實都誕生了很多很好的投資機會。在納斯達克從1971年至今54年的過程中,經濟經歷了很多變化。我們經歷過2008年金融危機,包括60年代到70年代的高通膨時期,也包括今天此刻——資本市場有很多噪音干擾,比如擔心經濟衰退等等。但根據我自己做投資的研究來看,真正推動人類財富增長、或者說人類社會根本增長的動力,其實是技術進步。我們剛剛經歷了電子硬體時代、網際網路時代和移動網際網路時代。如果我們回到1966年到1981年,蘋果大約是1980年左右上市,其實可以延伸到90年代的網際網路時代。在那個時代開啟的時候,利率非常高,但如果投資於改變世界的商業模式,那麼以電子硬體時代的16年,納指漲了6.5倍。再看網際網路開啟的時代,利率一會兒降息、一會兒加息,納指整整漲了10年。這兩年東方港灣做了戰略抉擇,做了2004年該做而沒做的事我們公司是2004年成立的。對於東方港灣來說,如果我們在2004年成立時就能意識到,我們將迎來的是移動網際網路時代,那麼當時做投資就非常容易了:我們應該把所有的錢換成港幣去買騰訊。如果持有21年,現在的結果大概是六百多倍,六七百倍的樣子。這兩年,東方港灣做了一個簡單的戰略選擇。我們在2004年應該做而沒有做的事,今天應該怎麼做?到了2022年,我們迎來了人工智慧時代。我們是不是也應該把所有的錢換成美元,去買以輝達為代表的美國公司?這兩年東方港灣就是做了這麼一個簡單的戰略抉擇。我們認為同樣的時代來了——年輕的時候我們該幹什麼?今天更應該幹什麼。投資是個經驗積累的行業,在這個過程中,有些好的經驗,也有些差的經驗。但我們希望把這些經驗沉澱下來,變成寶貴的財富。這兩年我們就在做這樣一件事。選擇比努力更重要 納指過去35年漲51倍,日股持35年還虧另外,我簡單舉一個日本例子:假如在90年代日本經濟最高峰時,我是一家日本資產管理公司,管理著100億日元。在過去的35年中,如果我的投資始終集中在日本資產裡——剛才我們也看到,網際網路對日本經濟沒有特別大的貢獻,真正的受益者是中國和美國。如果當時我有全球眼光,在1990年把這100億日元換成美元,那怕我很笨,只買指數,十年漲了13倍,就變成了1300億。移動網際網路時代其實跟日本也沒有太大關係,假設我繼續投資,簡單算這1300億 13年再漲十倍,就是1萬3000億。如果人工智慧時代再漲十倍,就是13兆。但在過去35年,日經指數隻漲了30%。而且這還沒有算上匯率的變化:35年前匯率是1美元兌80日元,現在是1比150,意味著持有35年還是虧的。所以有句話說得對:選擇比努力重要。另外,納斯達克指數在過去35年漲了多少倍?漲了51倍。也就是說,如果你有100億日元買入納指,就會變成5100億。但如果你投日經指數,坦率說就會有點問題。所以我常說,投資要去大海裡打鯨魚,不要在爛泥塘裡挖泥鰍。日本過去的35年基本就是這種情況。AI才剛剛開始,沒有泡沫另外,我最近經常引用這張圖。在當下,很多人認為AI有泡沫。但我們可以看到,騰訊是2004年上市的,其實是在網際網路時代的中間甚至尾聲階段,騰訊也給了大概六七百倍的回報。巴菲特是2016年開始投資蘋果的,在移動網際網路時代,那怕他中間投資,也有十倍的回報。當然,現在這個時刻很多人都認為AI有泡沫,但我覺得它才剛剛開始。我個人認為,要想真正賺到大錢,一定要養成一個習慣:從產業的角度,以二三十年的維度來處理投資。這樣,我們的投資才有可能取得比較好的結果。另外,作為投資人,包括我做研究員的時候就知道,王一鳴說的“知行合一”其實是最難的。在我的職業生涯中,我個人認為,投資是不要給自己留遺憾的事業。當我們回顧自己從研究員到資產管理者,到自己創業,直到此刻甚至未來的一生,我們不要給自己留遺憾。我們既然這麼想,就要這麼去做。大佬不約而同持倉Google,代表一種聲音,對人工智時代的認同接下來講下東方港灣的海外基金。大家可以在美國證監會網站上查到,這是上個季度的持倉。我們看到了巴菲特、段永平、高瓴,包括緊鄰的東方港灣和高毅。其實從我們的持倉中,可以看到一幅畫卷:基金經理的持倉本身就是你對這個世界的一種描述,看你怎麼看待這個世界,怎麼去下注。我今年其實做了一個方向選擇。早在前兩年,其實輝達一直是我們的第一大重倉。今年年初,很多人認為Google受AI影響,所以估值一直比較低。但我們的研究團隊發現,AI對Google的業務其實是推動,並沒有負面影響,所以我們將Google加到了第二大重倉。最近這段時間,大家看到美國的老登包括巴菲特、波克夏、索羅斯,包括我看到的美國幾位很重要的投資人,以及國內熟知的段永平先生,都不約而同地加倉了Google。波克夏的加倉,我覺得非常重要,無論我們在中國怎麼呼籲,千萬不要錯失一個偉大的時代,但聲音可能比較小。而波克夏就像一個和尚用很粗的鐘撞了一下,告知全世界:Google是一個(機會)。我特別期待的是,這個季度波克夏在Google上的投資能像蘋果一樣不斷增加,比如從1%點幾到5%、10%甚至50%。我特別期待明年一月中旬或下旬,能看到波克夏在Google上是否出現類似蘋果的變化。如果是的話,那他們的持倉變化,包括Google的持倉變化,其實代表了一種聲音,是對人工智慧時代的一種認同。AI Agent的實現,可能讓世界被幾家公司控制 Google輝達市值未來可能達到10兆另外,今天中午我和一個朋友交流,我們這個時代競爭很激烈。我們看到最近Google漲了很多,但以OpenAI產業鏈為代表的公司,比如軟銀跌了40%。這個世界非常殘酷。為什麼呢?比如說我們看到Meta的眼鏡,AI眼鏡我其實很看好,包括馬斯克也說未來五年,手機這種形態很可能就沒了。如果AI Agent實現,會是什麼樣子?比如我現在要訂一張從上海飛深圳的機票,過去還需要通過手機、通過攜程,未來可能只需要對著我的眼鏡說一句話,就訂好了票。或者不是眼鏡,是耳環、手錶,或者一個別針,我的Agent可以幫我實現各種操作,包括強聯絡。所以未來的形態變化會非常大。而人工智慧這場競爭,任何一家公司都不可能放棄,都要全力以赴。所以我們看到美股這些公司在過去一年,比如亞馬遜今年研發投入約1250億美元,Google約900億美元,微軟也和OpenAI聯合宣佈投入約1000億美元。這樣一場人工智慧革命,大機率會非常激烈。而且一旦成功,我個人感覺,連騰訊、微信這種商業模式都可能面臨很大的挑戰。所以我們看到,今年大家也不約而同地投資了阿里巴巴。在國內,當然很多朋友是專家,但我個人認為,Google的TPU、包括Gemini以及資料,國內能對標的公司可能只有兩家:一個是阿里巴巴,一個是字節跳動,騰訊甚至有點落後了。如果從TPU/GPU的角度,可能只有阿里。所以這個季度,很多國內市場投資人都把阿里巴巴加入了持倉。我覺得AI的競爭,很可能是一種更加壟斷的商業模式的競爭。我們經歷的網際網路、移動網際網路,商業模式越來越集中。而人工智慧AI Agent的實現,很可能讓全世界被幾家公司控制,它們的市值最終會大到不可思議。所以我兩年前也說,輝達很可能超過10兆美元。今天看來,不僅僅是輝達,很可能Google和輝達會比翼齊飛,都達到10兆美元。這是我們老登最後一次機會,全力以赴所以說,我們經歷的是一個波瀾壯闊的偉大時代,就像我年輕時候感受到的網際網路時代。那時我曾跟一個朋友說:我拿100萬美元,我們去買搜狐、新浪、網易,迎接一個偉大的時代。那個時候到現在,網易漲了很多。今天,我同樣有這種感受——雖然我已經是“老登”的年齡,快60了,但我的心還像年輕人一樣充滿期待。對我們這個年齡來說,這可能就是最後的一次機會了,因為20年後我們都80了。對在座的年輕分析師來說,可能還會經歷幾個時代,但對我們來說,這是一個需要全力以赴、不給自己留遺憾的時代。就像《鋼鐵是怎樣煉成的》裡保爾·柯察金說的:當我們快死的時候,不要給自己留遺憾。對東方港灣來說,我們現在就是全力以赴。 (投資作業本Pro)
一人幹翻一個劇組!北大哲學博士造出AI神器,20萬人在排隊用
【新智元導讀】當北大哲學博士用「美學」馴化了AI,程式設計師的戰場也變成了「藝術家」的樂園。在AI時代,人類獨特的審美力或許才是無法被程式碼取代的終極護城河。青年編劇古二魚死網破式開撕曾經的偶像王家衛鬧了一個多月,即便是科技圈,也被娛樂圈的瓜震驚到了。但科技圈一邊感慨「貴圈水真深」,一邊祭出瞭解決方案:一個叫Elser.AI的AI Agent橫空出世,讓新人創作者能夠不受過去行業階級的束縛,自由發揮自己的創作才華,實現「創作平權」的理想。首先,Elser.AI是個上手門檻很低,而且很好玩兒的創作神器。它的介面非常簡單明了,你可以給它一個完整的劇本,或者一段小說故事,甚至是一個腦洞式一句話創意,讓它幫你創作一段視訊。我們以從小耳熟能詳的《彼得·潘》的故事為例,首先輸入小說,它會很快生成指令碼,讓你選擇視訊畫風,再解析出故事裡的人物角色,並自動生成角色形象。中間的每一步,都可以由創作者控制調整。比如,如果形象不符合想像,你還可以通過輸入prompt的方式,來調節人物形象,比如髮色、臉型、身高、服飾搭配等。當然,你也可以上傳中意的角色形象圖片。確定好角色形象,下一步,Elser.AI會自動生成分鏡故事板。這裡是各位導演們大顯身手的地方了:從構圖、景深、機位、運鏡,到角色的動作、表情、台詞、聲音,全部可以通過調整prompt和內建選項來調整。即使到了後期剪輯的環節,也可以回到之前的步驟,隨時對前面的細節進行修改調整。如果你想要創作出質感更好的、劇情更吸引人的作品,你需要的完全不是學習《如何使用AI》《如何正確寫出AI提示詞》,而是文學課和藝術課。之前很多朋友哀嘆:當AI在寫詩作畫時,我還在工位上擰螺絲。Elser.AI終於讓人類扳回了這一局!難怪,ELSER.AI能在完全沒有任何宣傳的情況下,悄咪咪積累了20萬全球活躍使用者,都是短劇和動漫行業的專業創作團隊,當然更多的使用者則是個人創作者和小型工作室,早期據說經常被使用者刷爆伺服器。看來一人公司的時代的確要到來了!拿到內測號後,我們給在動畫公司做原畫的小夥伴展示了Elser.AI,這位朋友第一反應是:「啊?我不是要失業了吧!」緊接著第二反應:「趕緊讓老闆充個錢,能少加很多班!」第三反應:「還打什麼工啊,找幾個朋友自己就可以開工作室了!」即便你不是專業創作者,通過上述的流程,相信你也能輕鬆玩耍起來。(說起來,周圍用過Elser.AI的小夥伴都處在一種「玩兒得停不下來」的狀態……)那些我們心心唸唸的的名著、番劇、小說電影裡,影視化沒有拍出來的精彩情節,或者意難平CP的平行世界,都可以通過Elser來實現,並分享給全世界。ELSER.AI的創始團隊這樣形容自己做的事:AI帶來的生產力革命,進一步可以讓短劇這種形態的創作全民化,讓普通人跳過漫長/低效的IP衍生鏈條,直接把自己的故事變成短劇。這樣短劇就有可能跳出批次生成的同質化陷阱,成為更有創意,更有社交屬性和互動玩法的內容形態。一個人就是一個短劇工廠、人人可以打造自己的IP。他們認為,在AI時代,AI可以生成,但創造依然屬於人。AI可以推理,但審美依然屬於人。人之為人,在這個時代,在任何時代,都有自己不可磨滅的價值。在Elser看來,AI不是取代人,而是輔助人讓創意快速變成鮮活的影像。更多人終於有機會去展現心中的故事,通過創作去改變命運……更重要的是,ELSER.AI把短劇生成關鍵環節的「挑剔權」給了創作者。AI追求的是效率,但成果是需要挑剔的審美的。而審美是需要人的參與的。「我們的目標就是讓創造儘可能地簡單,讓創作者真正玩兒起來,快樂才能釋放創意。」ELSER.AI的創始人兼CEO劉耕這樣說。Elser作品展示全球短劇和漫劇正處於爆發期,美國短劇2025行業增速為50%;日本短劇當前市場規模是美國的1/9,是第二大市場,增速較快,增速超85%。6月27日,亞洲短劇協會秘書長寺田耕也指出 :當前日本短劇市場正處於高速增長階段。根據最新報告預測,2025年日本短劇市場規模將達到4.8億美元,同比增長高達85%,佔全球市場份額約15%。這表明日本已經成為全球範圍內備受矚目的增量市場。至於漫劇,2025年更以火箭般的速度增長。24年四季度全抖音漫劇充值收入將將2000萬,當下,抖音漫劇單日廣告消耗已突破1000萬。又是一個一年超100倍的增長神話。行業預測,2026年海外漫劇將迎來自己的爆發機會,而Elser.AI已提前完成海外漫劇平台的搭建,適逢其會,為每一個普通人提供了抓住機遇的利器和平台。ELSER.AI的創始團隊也可以用清(非)新(典)脫(型)俗來形容了。別人家AI創始人都是技術出身,ELSER.AI的CEO劉耕則是北大哲學系的本碩博。難怪把AI的靈魂三問「AI是誰,AI從那裡來,到那裡去」捋得明明白白。他的第一份工作是在武漢大學哲學學院,教書育人同時做美學研究。劉耕告訴我們:美學學術訓練,其實對發ELSER.AI這個產品起了很重要的作用。首先,它讓我攝入了大量文學、視覺藝術、音樂、電影等不同藝術形式的作品,培養了藝術鑑賞功力。更重要的是,這個學科是用系統的方法去分析、拆解作品和作者,這是跟創作者視角下渾然天成的靈感完全不同的邏輯系統。這個功底讓我能非常高效地教給AI如何判斷和生成一部好的作品:找到使用者喜歡的優質內容背後的秘密,如風格、敘事、意境等等。我把這些專業知識給到Agent,讓它可以做更好的故事、更精準的風格,更好的視覺呈現……直到進一步提升創作者的平均產出質量。難怪了,CEO自己作為AI先攝入了海(藝)量(術)數(作)據(品),還是經過演算法最佳化的,那教出來的AI可不聰明嘛。據團隊小夥伴說,CEO從小就是網文和遊戲的重度使用者,還是最早一批同人文寫手。原來學霸考北大這麼容易啊?Elser.AI團隊但學霸學習考試厲害,不代表能把握市場,管好公司。於是為了心中生根多年的「AI內容創造平台」理想,劉耕在2020年辭去了武漢大學的教職,加入了字節跳動,先後擔任了瓜瓜龍語文教研負責人和抖音集團CSR培訓總監,把產品設計、市場調研、創作者孵化全鏈路走了一遍。然後,在大廠人普遍焦慮的35歲,他,裸辭了,還是放棄百萬期權那種裸辭,出來創業做ELSER.AI。字節的經歷給了劉耕對於市場的敏銳嗅覺和設計產品的能力,他說:大家都在尋找下一個Tiktok級的平台機會,但我認為:· 第一步是幫助創作者低成本/高效產出有更高「審美價值」的內容;· 第二步是借助這些內容形成有差異化審美體驗的社區,吸引更多消費者進入,這樣才能形成一個飛輪。我們更聚焦漫劇,也是因為動漫短劇是Z世代高度喜歡的一種內容形態,它才剛剛起步,表達的可能性遠遠未被窮盡。幾乎任何題材(從科幻到歷史)、任何視覺風格(從達文西到宮崎駿),都可以在漫劇中實現新的審美表達。我21年在字節做短劇平台產品策劃時,正是因為看到了短劇這種形態的「審美」衝擊。美學,給予了我對於內容本質的判斷能力。相比CEO哲學美學式高屋建瓴的非典型,ELSER.AI的CTO張國棟則是一種落地生根式的非典型。他沒有打遊戲、寫網文的中學時代,而是從山東臨沂的農村考進了北京科技大學電腦系,父母至今仍在務農。上大學前他沒有自己的電腦,也沒寫過一行程式碼。然後他就,一邊當著學生會主席,一邊考上了北大的研究生,拿了阿里的offer,又放棄高薪和期權出來搞Elser了。這兩個相差9歲的師兄弟,就一起埋頭搗鼓,搞出了逆天的Elser,並獲得了正軒、奇績、後浪、雲沐等機構的投資。右:CEO劉耕,左:CTO張國棟他們下一步,還打算進一步降低ELSER.AI的使用門檻,提高視訊效果,並根據和終端使用者的互動資料,利用演算法的優勢,敏銳捕捉到新的故事範式、審美趨勢,將其拆解分析,給到前端創作者比如創意層面的推薦。傳統的劇作工業鏈條是很長的,並且成本高昂。一個故事能否最終呈現在觀眾面前,除了故事本身的質量,更多是靠運氣。Elser團隊表示,他們的願望就是在AI時代,利用技術,讓每一個有創作熱情的人都能不受外部制約地表達。為了能讓Agent更好用,Elser團隊還親自下場,同時製作了12部AI動漫短劇。從劇本到成片,都用自研工具完成。對內容質量的挑剔要求,驅動著產品快速迭代。下面這個短劇味兒很正的狼人故事就是Elser自己製作的。PS:這個口型對得很可以啊!當被問到「這麼好用的Agent你們為何一直藏著不公開宣傳」時,他們說:錢和時間要花在刀刃上,用有限的預算,繼續all in研發,把內部的AI短劇工作流,打造成真正可以供C端大規模使用的Agent。不做則已,要做,就要把這個場景吃透。現在,是他們覺得合適的一個時間節點了,Elser短劇Agent的海外版,當下已開啟Waitlist;將於12月1日上線,全線接入了Nano Banana Pro,並邀請Waitlist使用者體驗。國內版也將在完成大模型備案後上線。不會有飢餓行銷的邀請碼。所有在當下按要求登記Waitlist的使用者,都將在12月1日後收到他們的首波邀請。而全量開放,也將在快速拉滿並行和體驗後,向所有使用者展現。 (新智元)
如果只依賴AI ,資訊會變得不可靠|GoogleCEO 最新訪談實錄
11月20日,Google CEO Sundar Pichai在矽谷總部接受了BBC 的專訪。本次對話探討了基礎設施建設的驚人規模、市場泡沫的理性與非理性、AI Agent對人類工作的替代、以及能源氣候挑戰等主題。Sundar Pichai 強調,我們正處於每十年一次的技術代際躍遷中。為應對這一時刻,Google 將過去10 到20 年的基礎設施建設壓縮至短短幾年內完成,年度資本支出飆升至900 億美元以上。對於外界擔憂的“AI 泡沫”,他給出了辯證的判斷:雖然行業存在非理性的過度投資,但由於模型能力的進步是真實可見且被廣泛應用的,這種大規模投入在根本上是理性的,且Google 憑藉“全端式”的深度整合策略,比競爭對手擁有更強的抗風險能力。他預測,未來12 個月AI 將迎來關鍵進化:從當前的對話互動轉向能夠執行複雜任務的Agent體驗,甚至取代人類做出決策。 Sundar Pichai 指出,在技術瓶頸與社會責任方面,必須承認基於機率預測的LLM 模型存在先天性的「幻覺」缺陷,使用者不應盲目信任,因此多元化的資訊生態系統仍然至關重要。面對資料中心激增的能耗,他指出AI 的龐大能源需求正在倒逼核能聚變、地熱等新能源技術的投資加速。此外,Sundar Pichai 指出,量子計算目前的進展相當於5 年前的AI,未來將解鎖對自然界的深度模擬;而像AlphaFold 這樣的黑科技已經超越了圖靈測試的範疇。01. 兆投資規模與「理性」的泡沫首先,您如何形容矽谷當下正在發生的一切?無論從股市表現(Google 市值達3.5 兆美元,Nvidia 達5 兆美元)還是投入其中的巨額資金來看,這似乎都是一個非同尋常的時刻。您能否具體描述一下​​這種規模?例如你們投入了多少資本?此外,鑑於歷史上科技進步常伴隨著巨大的市場熱情,目前全世界都在關註一個顯而易見的問題:AI 熱潮是一個泡沫嗎?無論競爭對手出現什麼看似充滿泡沫的交易,Google 是否因為廣泛的投資而能免於泡沫破裂的影響?Sundar Pichai:這是一個非同尋常的時刻,即使以矽谷的標準來看也是如此。大約每十年我們就會經歷這樣的轉捩點。曾經是個人電腦,接著是90 年代末互聯網的到來,然後是移動裝置,再之後是我們所說的雲計算。而現在顯然是AI 的時代。這就是你在園區周圍以及整個地區所能感受到的那種興奮。(關於投資規模)衡量規模的一個方法是看我們投入了多少資本來建設人工智慧所需的基礎設施。四年前Google 每年的支出可能不到300 億美元,而今年這個數字將超過900 億美元。如果你把所有公司正在做的事情加在一起,我們有超過1 兆美元的投資用於建設這一時刻所需的基礎設施。我看待這個問題的角度是,在接下來的幾年裡,我們要完成過去10 到20 年才能完成的建設量。沒錯,就在這幾年內,這讓你能感受到規模擴張的速度。(關於是否是泡沫)這個問題可以從兩個角度來看。我觀察我們在模型能力方面取得的實際進展,這種進步肉眼可見且令人興奮。人們正在使用它,我們將它部署在產品中,消費者熱衷於使用它,企業用它來優化營運。你看到了真實的需求,而我們滿足這種需求的能力目前仍受到限制。鑑於這項技術的潛力,這種興奮是非常理性的。同樣真實的是,當我們經歷這些投資周期時,作為一個行業我們集體會有過度的時候。回看網路時代,顯然當時有大量的過度投資。但沒有人會質疑互聯網是否意義深遠,或者它是否產生了巨大的影響,因為它從根本上改變了我們作為一個社會進行數字化工作的方式。我預計AI 也會如此。所以這既是理性的,但在這樣的時刻也確實存在著非理性的因素。(關於Google的抗風險能力)包括我們在內,沒有一家公司能免疫。如果我們投資過度,就必須經歷那個階段來消化。但我們的定位更好。多年來我們在AI 方面採取了深度差異化的策略。我擔任CEO 後做的第一件事就是將公司轉向我所說的「AI 優先」策略。其中的一部分就是建構偉大AI 技術所需的所有環節。我們稱之為全端方法,你可以把它想像成一種面面俱到的策略,從底層的實體基礎設施,到推動技術進步所需的研究,再到將其部署在Search、YouTube 或Android 等產品和平台中。我們採取了那種深度整合的方法,因此能夠進行規模化投資,並使其在所有這些產品和業務中發揮作用。我認為我們處於更有利的位置,可以用長遠的眼光來應對這一時刻。02. AI Agent 的進化與職業的未來如果要總結你們為一般家庭使用者所打造的工具的終極力量,它能有多高效?某個時候AI Agent能取代您的工作嗎? CEO 的職位是安全的嗎?許多西方中產階級——包括律師、創意產業、會計和新聞業從業者——對AI 感到措手不及,他們擔心AI 的核心意義就是自動化人類任務。您認為那些工作是安全的?對於那些不知道該建議孩子如何度過這個AI 浪潮的父母,您有什麼具體的建議?Sundar Pichai:我認為現在的階段是你可以與AI 互動、提問、來回對話,並在許多話題上進行智慧交流。我認為未來12 個月的下一步演變是它們能夠為你執行更複雜的任務,那才是真正有趣的地方。 “我得去買點東西,給配偶買個生日禮物”,我可以讓這個聊天機器人去辦這件事嗎?這種我們稱之為「Agent 體驗」的東西正是我們都感到興奮的。從長遠來看這意味著在某些時刻它可以幫助你做決定。例如「我應該投資這支股票嗎?」或「醫生推薦了一種治療方案,我該如何權衡利弊?」這些都是真實且具體的用例。要解鎖這些能力還有工作要做,但這正是這趟旅程令人興奮的原因。(關於CEO職位是否安全)我想CEO 做的事也許是有朝一日AI 最容易做的事情之一!(關於自動化與失業)讓我這樣說吧。今天人們正忙於處理許多事情,處於超負荷狀態。歷史上我們總是經歷這種變化,例如洗碗機進入家庭。我記得小時候家裡有了第一台冰箱時,它徹底改變了我母親的生活。你可以把它看作是自動化了某件事,但它把她解放出來去做其他事情了。再以放射科醫生為例。人們進行的掃描數量逐年增長,每次掃描的圖像數量也在顯著增加。你如何幫助一位放射科醫生應對這種日益增長的需求?也許AI 工具可以在這方面提供幫助。我認為這或多或少就是你會看到的景象。(關於新機會與社會適應)兩點。首先我在多年前就說過,AI 是人類所從事的最深刻的技術。它具有帶來非凡利益的潛力,而我們將不得不應對社會的混亂。你強調的是它最終將創造新的機會。舉個例子,就像YouTube 所做的那樣,任何人都能創作內容。你可能是個高中生,幾年後或許能構思一部長篇電影並將其製作出來。這是非凡的,所以它將創造新的機會。它將進化並轉變某些工作,人們需要適應。確實會有一些領域衝擊到部分工作。作為一個社會我們需要進行這些對話。其中一部分是:當我們吸收這項技術時,如何負責任地發展它並給社會時間來適應?我認為這些都是非常重要且合理的問題。(給下一代的建議)基於我所看到的,我不會改變一貫的思維方式。我認為將會有廣泛的學科最終變得重要。我會鼓勵下一代擁抱技術,學會在所從事的領域背景下使用它。學會採用和適應AI 的人會做得更好。無論你想成為一名教師還是一名醫生,所有這些職業都會存在。但在這些職業中脫穎而出的,將是那些學會如何使用這些工具的人。03. 機率模型的先天缺陷與資訊生態的必要性所有關於AI 的希望、估值以及社會效益,都建立在一個核心假設之上,即技術是有效的。讓我對Gemini(你們的ChatGPT 競爭對手)提一個簡單的測試:它能一直精準嗎?它說真話嗎?我們已經看到了一些糟糕的例子,例如建議把膠水當作披薩配料。此外,鑑於Transformer 模型(ChatGPT 中的「T」)是在您的領導下發明的,您是否接受這樣一個觀點:由於這本質上是一個機率問題,所有這些巨額投資的最終結果可能是導致資訊變得不那麼可靠了?我們是否應該接受「不要盲目信任」這一現狀?Sundar Pichai:我們正在從科學的角度努力將其建立在現實世界資訊的基礎上。在某些領域,我們在Gemini 上所做的部分工作是引入Google 搜尋的力量,利用它作為工具來嘗試更準確地給出答案。但在某些時刻,這些AI 模型從根本上基於一種預測下一個內容的技術,它們容易出錯。(關於錯誤案例)我們為在提供盡可能精確資訊方面投入的工作量感到自豪。但目前最先進的AI 技術確實容易出現一些錯誤。這就是為什麼人們也使用Google 搜尋,我們還有其他更專注於提供精確資訊的產品。但如果你想創造性地寫點什麼,同樣的工具會很有幫助。你必須學會利用這些工具的長處,而不是盲目相信它們所說的一切。(關於資訊可靠性)如果你只建立獨立的系統而且只依賴那個系統,那確實會如此(指資訊不可靠)。這就是為什麼我認為資訊生態系統必須比僅僅擁有AI 技術作為唯一產品要豐富得多。真相很重要,新聞業很重要,我們今天擁有的所有周邊事物都很重要。如果你是學生,你會和老師交流;作為一個消費者,你去看醫生時想信任你的醫生。所有這些都很重要。04. 能源困境:AI 建設是否以犧牲氣候目標為代價?您剛剛描述的AI 建設規模正在創造另一個權衡,即對全人類在能源方面的權衡。 AI 的建設比氣候更重要嗎?據預測,到這十年結束時,數據中心消耗的能源將超過整個印度的用電量,比所有電動車車隊多50%。面對如此巨大的能耗,Google 是稍微擱置還是放棄了2030 年的可持續性淨零目標?Sundar Pichai:隨著時間的推移,這不需要是一個權衡或零和博弈。讓我感到興奮的事情之一是,因為這種轉型帶來的能源需求如此巨大,我們以及其他人正在投資開發新的能源來源。我們剛剛完成了與Commonwealth Fusion Systems 簽署的最大規模企業購買核聚變能源協議,我們還有許多從小型模組化核反應器購買能源的協議,並在數據中心使用地熱能。進入這些新能源領域的研發資金和資本投資實際上將加速進步。你是對的,AI 正在以一種當前系統無法完全應對的方式急劇增加能源需求,但這正在推動在太陽能、電池技術、核技術和其他來源上的非凡投資。作為技術專家,我對這一時刻感到樂觀,我們在未來將擁有豐富的可再生能源。(關於淨零目標)不,我們仍然保留這個目標,並會發佈進度報告。你是對的,一些進展的速度將受到影響,因為我們看到底層建設的增長比預期的要快得多。但我們正在透過投資所有這些新技術來應對這一時刻,這就是我們試圖實現它的方式。05. 英國戰略與基礎設施把話題帶回英國,那裡政府仍有淨零排放的雄心,但也想成為AI 超級大國。這兩件事是一致的嗎?另外,Google 作為英國的大投資者,最著名的顯然是以5 億美元買下了DeepMind。如果條件合適,您會考慮在英國進行更高水準的投資嗎,也許在英國訓練這些最先進的AI 模型?Sundar Pichai:它們可以是(一致的),因為技術在這裡是一個推動者。我們為在英國的投資感到自豪,最近在Waltham Cross開設了一個最先進的資料中心,並與Shell 達成了一項獨一無二的協議來為它供電。我認為我們的英國業務在2026 年將達到95% 無碳化。在我們要投入更多的時候這是非凡的進步,所以我認為這是可能的。但對於包括英國在內的每個政府,重要的是弄清楚如何擴大基礎設施,包括能源基礎設施。你不想因為能源而限制經濟發展,那會有後果。(關於在英投資)我們就在幾周前宣佈了在英國的50 億英鎊投資,涵蓋了資本投資、研發和工程。 Google DeepMind 在英國仍有大量的員工,我們在那裡進行最先進的研究工作。我們的目標是隨著時間的推移既能服務我們的模型,又能訓練我們的模型。我們致力於以相當重要的方式在英國投資。06. AI 時代的知識產權博弈AI 繁榮的另一個關鍵燃料顯然是它所訓練的內容。科技公司依賴於“合理使用”,這有點像抓取了書籍、音樂、新聞,然後把那些專業知識賣回給世界。您接受像Google 這樣的公司最終將不得不在某種程度上為此付費嗎?例如像Elton John 爵士這樣的著名流行歌星說這是大規模的剽竊,要求在使用前詢問並保持透明。您願意那樣做嗎?Sundar Pichai:首先退一步說,我認為當我們經歷這個過程時,既要幫助推動創造力和創新,也必須在一個尊重創作者權利以及允許變革性使用以造福社會的框架中進行,這一點非常重要。我們致力於在所有營運國家遵守版權框架。今天當我們訓練時,我們給人們選擇退出訓練的機會,我們在輸出生成方面也尊重版權。我們正在與行業合作,以便在經歷這個過程時建立更新的框架。例如在YouTube,我們一直採用一種向內容權利持有者回饋價值的方法。我們將在這個AI 時刻應用同樣的原則。做到這一點超級重要,我們致力於把它做對。(關於Elton John的建議)實際上今天我們允許人們選擇是否將其內容加入到我們的訓練中,我們給予人們這些權利。07. AGI 競賽Google 曾以對AI 安全、人類風險以及所謂的生存風險持謹慎擔憂態度而著稱。現在這種態度是消失了、被擱置了還是被淡化了?現在是全速向AGI和超級智慧進發了嗎?另外,這是一個非常複雜的領域,Elon Musk 曾暗示他幫助創立OpenAI 正是因為擔心Google 擁有DeepMind 以及他所謂的「AGI 獨裁」。我認為Elon 正確地指出了沒有一家公司應該獨佔像AI 這樣強大的技術。但縱觀當前的生態系統(包括Microsoft 與OpenAI 的交易),您怎麼看待這種競爭格局?Sundar Pichai:當一項技術快速發展時確實存在某種張力,即在多快地開發技術與投入多大精力建立緩解潛在危害的措施之間如何平衡。我們將這種張力概括為:我們要同時做到大膽且負責。因此我們正在快速推進,我認為這是消費者的需求。人們拿起手機提問,現在他們問的問題要複雜得多,他們期望我們利用AI 來更好地回答這些問題。所以我們必須順應這個趨勢。但與此同時,舉例來說我們正在開源一項技術用於檢測圖像是否由AI 生成,我們也在投資這類技術。你會看到過去幾年我們在AI 安全方面的投資增加,是與我們在AI 開發方面的投資成正比的。(關於市場競爭格局)我認為現在有很多公司,也有很多前沿模型。所以如果要說的話,你是對的,如果只有一家公司建構AI 技術而其他人都被迫使用,我也會感到擔憂,但我們現在離那種情況還很遠。08. 量子計算處於AI 五年前的發展階段如果一切都搞砸了,您的量子電腦或許能幫我們導航到多元宇宙或其他平行宇宙去。這項非凡且相當晦澀難懂的技術目前進展如何?我最後一個問題是,幾年前BBC 上次採訪您時,您已經發明了後來演變成ChatGPT 和Gemini 的核心技術。現在你們實驗室裡那些科研人員是否還藏著什麼類似的、我們應該知道的黑科技?例如AlphaFold 是在倫敦完成的嗎?另外,關於無人駕駛汽車,它們沒開始互相按喇叭、交談或有生命吧?Sundar Pichai:進展非常順利。我認為我們在量子計算領域擁有全球最頂尖的成果。進展令人興奮,我會說量子計算目前的階段大約相當於AI 五年前的水平。所以我認為五年後我們將迎來量子領域非常激動人心的階段,我們正以此為目標進行投資。如你所知,自然界和宇宙萬物從根本上都是基於量子力學原理的。建構量子系統將幫助我們更好地模擬和理解自然界,為社會解鎖許多好處。(關於未公開的黑科技)我們正在研發一系列技術。從取得非凡進步的自動駕駛技術說起,它已經展現出了安全效益。我認為推廣這項技術將能避免許多交通事故傷亡,這具有巨大的社會效益。我真心認為在我們所稱的AI 這個大傘下,我們甚至還沒有談到像AlphaFold 這樣的成果。它贏得了諾貝爾獎,正在幫助全球無數生物學家和化學家更好地研發新藥。以前一個博士可能要花整個博士生涯才能解析一個蛋白質結構,而我們在短短幾個月內就解析了約3 億個,並且向全世界免費公開。(關於倫敦DeepMind 與圖靈測試)是的,那是由位於倫敦的Google DeepMind 完成的,領導這項工作的Demis Hassabis 和John Jumper 因此獲得了去年的諾貝爾化學獎。但我認為在某種程度上,我們對這裡的進步有些習以為常了。我們過去常談論圖靈測試,但現在我們似乎已經超越了它,沒人再提了。如果五年前我告訴人們,在舊金山會有許多駕駛座上沒人的無人駕駛汽車在街上跑,人們是不會相信的,但它就這樣發生了。(關於機器是否有生命)我覺得應該沒有。不過也許我們正在利用AI 來更好地理解海豚如何交流,所以我確實認為會有那樣意想不到的驚喜時刻。但這很令人興奮,重要的是作為人類我們要適應這些技術。最近我讓我80 多歲的老父親坐了一次Waymo 無人車,那種驚奇感令我難忘。我坐在後排他坐在前排,看著他體驗這一切讓我深刻體會了這種進步。我們往往把這些視為理所當然,我相信未來會有很多這樣美好的事物。 (數字開物)