#對話
獨家對話!王興興:具身智能未來熱度或是現在的1000倍
立春已至,新春將近,步入“十五五”開局之年,一系列支援民營經濟的新政策、新法規正在落地;另一方面,企業家面對的仍然是一個複雜又充滿不確定性的環境。本期《對話》節目中,奇安信董事長齊向東與宇樹科技創始人、CEO王興興同台對話,圍繞輿論環境、金融支援、產業競爭等熱點話題,分享創業感悟與行業思考。目前,具身智能賽道有多火?對此,宇樹科技創始人、CEO王興興表示:“如果未來幾年,有真正大規模應用的具身智能AI模型和機器人技術突破,那時候熱度可能會比現在至少高100倍,甚至1000倍。而這個熱度,我覺得會遠超移動網際網路。”輿論場上的“破防”與堅守面對流量時代的輿論壓力,“90後”創業者王興興坦言,春晚爆火後,自己十年前的言論被翻出,他回應:“很多人不瞭解背景,就完全否決我們的技術,說我們用了海外開源技術,但全球人形機器人行業絕大部分開源技術,都是基於我們的硬體平台。”齊向東以地方諺語“聽喇喇蛄叫還不種莊稼了”回應,強調企業家需保持定力,“不要因為別人的非議影響做事的決心,堅持把自己的東西做好,清者自清,風波總會過去”。他呼籲,健康的輿論環境應當“尊重創新、包容失敗、理解企業和企業家”。資本理性時代的“耐心”博弈兩位企業家直言硬科技正迎來“耐心資本”時代。齊向東在現場介紹,2025年底啟動的千億級國家創投引導基金存續期長達20年,創下歷史紀錄,“硬核科技企業研發周期長、產業成長慢,就需要這種長期資金支援,現在對高科技產業投融資的體感溫度非常好。”王興興對比十年創業歷程:“2016年我們公司成立時估值只有1000多萬元,拿融資全靠營收支撐;現在很多機器人創業公司剛起步,估值就能達到幾億元、幾十億元。”面對行業內普遍存在的“催上市”現象,王興興回應:“最根本的還是把公司經營好,技術、產品、營收穩步增長,上市快慢都可控。”齊向東也認同這一觀點:“好飯不怕晚,好公司越晚上市越有利,上市是水到渠成的結果,而非盲目追求的目標。”同質化競爭中的“牛頓之問”對於當下外界眼中“火熱”的具身智能賽道,王興興在現場給出了不一樣的判斷:“很多人覺得具身智能已經火透了,但我反而覺得,這個賽道遠遠還不夠熱,現在只是剛剛拉開序幕,屬於早期的早期。”王興興表示:“目前機器人產業或具身智能產業,背後最大的驅動因素或不確定因素,基本都是由AI主導,但增長曲線可能越來越陡峭。如果未來幾年,有真正大規模應用的具身智能AI模型和機器人技術突破,那時候熱度可能會比現在至少高100倍,甚至1000倍。而這個熱度,我覺得會遠超移動網際網路。”王興興進一步解釋:“整個行業還在技術爬坡,遠沒到紅海廝殺的階段,大量空白場景、未被滿足的剛性需求還沒人去填,機會遠比競爭多得多。現在的熱度,更多是輿論和資本層面的關注,真正的產業落地、技術突破才剛剛開始。”王興興直言行業當前的核心瓶頸:“具身智能最大的問題是AI模型泛化能力不夠,固定場景成功率能到100%,場景一變成功率就暴跌。這個時代的牛頓尚未誕生,技術仍處粗獷期。”齊向東則指出,具身智能不會出現移動網際網路式的“贏者通吃”,“賽道空間足夠大,能容納更多創業者,沒必要跟風模仿。”對於行業內出現的低價內卷,兩人態度一致,王興興強調:“我們一直堅持合理的商業邏輯,惡意卷價格只會把行業卷爛。”齊向東也直言:“卷價格是最低端的卷,卷創新、卷技術、卷經營管理,才能讓企業和行業走得更遠。” (央視財經)
我想給 OpenClaw 接上語音,結果有人先做了
我一直在用 OpenClaw(龍蝦),通過飛書和電報來用,體驗不錯,已經在幫我做各種小雜事了。我這兩天還基於龍蝦做了個有點點意思的東西,還在打磨(vibe)中,過兩天分享出來。在和龍蝦對話的過程中,我心裡一直有一個感受和念頭:人和 AI 之間,語音才是更 native 的互動方式。這個念頭不是憑空來的。早在 ChatGPT 剛發佈之際,我就做過一個真•全球首位的語音 ChatGPT 對話的軟體,發到 B 站後一天之內播放就破了10萬。可以說,我對語音互動還是有一點兒執念的:語音的頻寬雖然不高,但它是高度壓縮的、靈感密度最大的。這其實就是我們人和人之間最高效、最自然的工作表達方式。文字當然更準確、更易理解,但很多時候,當你打下前幾個字的時候,當時的靈感已經忘了一半。而靈感,則是 AI 時代最為重要的東西。我自己就經常有過靈感突然飛走的經歷,所以我就一直偏愛語音輸入類的工具。龍蝦出來之後我就在想,能不能給它接一個語音入口呢?外網其實已經有人做過類似的嘗試,用瀏覽器接語音,用Web Speech API去調後端,再把結果顯示在網頁裡。技術上不複雜,甚至可以說挺優雅。但我一直覺得,這種方式還是有點「隔著一層」。它更像是:你坐在電腦前,對著電腦說話。本質上還是「你在用電腦」而我真正想要的,是反過來——不是我去靠近裝置,而是裝置貼近我。讓它不只是「打字對話」,而是隨時隨地、張嘴就來。飛書可以發語音,電報也可以,但終究不夠 native,離那種真正「隨時隨地、開口即用」的體驗還有些距離。我一直想自己做一個,但這幾天確實太忙了忙,一直沒動手(動嘴)。然後今天,我發現,這件事,已經有人在往我認同的方向走了。有個叫「光帆AI」的團隊在做一件事:他們現在做的並不是“一個語音 APP”。更準確地說,是用 APP 先把「耳機 + 服務」的整條鏈路跑通並穩定下來。APP只是當前最便捷的載體,後續再把同一套能力自然遷移到更貼身的硬體入口上。簡單來說就是,你對著手機說一句話,家裡或公司或遠端的龍蝦就開始幹活,幹完了把結果推到你手機上。而這個 APP 粗看之下,可能會覺得這和在飛書裡發個語音消息有什麼不同?但這裡有個關鍵的區別:它對接的不是一個 chatbot,而是 OpenClaw 這個真正能幹活的個人 Agent。這不只是語音版的 ChatGPT,也不是打通個聊天機器人就完了。可以想像,這個入口以及未來的耳機背後,將會是一群不同的 Agent 在隨時聽從你的指令,全天候為你工作、解決問題。它用的是語音這種人和人之間最直接的溝通吩咐方式,自然到你甚至不覺得自己在「操作」什麼東西。所以看到 Hi Light 的第一時間,我就要來安裝包上手一試了。昨晚下載 APP 後,雖然該有的都有,但細節還需要打磨,玩了一會兒我就睡了。沒想到早上醒來,看到已經又更新了2個版本了……這是要春節無休的節奏啊……這麼快速迭代的速度,我覺得再過幾天、過幾周,應該就能有一個不錯的、可以日常用起來的版本。那實際用起來什麼感覺呢?來看幾個我試過的場景。今天早上我照舊去家附近的公園跑步,跑著跑著突然想起一件事:最近想調研某個技術方案的競品情況,一直沒顧上。以前這種念頭只能先記在腦子裡,等跑完回去再說。但大機率回去就忘了,或者被別的事岔開。這次我掏出手機,打開 Hi Light APP,點了通話按鈕,說了一句:“幫我調研一下海內外 AgentOS 的競品和技術方案,整理成文件放桌面。”然後手機塞回口袋,繼續跑。等跑完回去一看,文件已經在那了。並且還成功直接呼叫了我之前的寫的Nanobanana_PPT的skill。我們來看看效果順便叮囑一句:AI 時代,建議大家還是要多跑步、多運動。萬一 AGI 真來了,你總得有個好身體去見證吧。然後跑完步到家,我正洗澡滿手都是水的時候,然後阿里雲的電話告警來了:資料庫滿了,雖然是測試環境。手上滿是水時的打字型驗和效率……懂的都懂……不過現在就省事許多了,只需要點選電話按鈕,然後直接說:「查一下測試環境,資料庫滿了,把資料同步表的資料清一下只保留最近一周的。」然後我電腦端的OpenClaw 會用我提前配置好的 skills 自動去連資料庫、確定問題、清理資料、二次確認,然後在我還沒洗完澡,就把結果推到手機上,給我語音播報完成了。用了幾次之後我發現,這真的是一個很爽的互動模式:我可以像打電話一樣直接給 Agent 說出指令,它接收到之後會告訴我說已收到,還讓我先去幹點別的或者玩一會兒,等它的好消息。然後過不久,結果就推送過來了,我隨時可以審閱。如果還有需要調整的地方,繼續語音追加指示就行。真的就像一個人在管理著無數隨叫隨到的員工。說句不太謙虛的話,有那麼點君臨天下的感覺。說完體驗,來聊聊怎麼接入。整個過程不複雜,電腦上裝好 OpenClaw 之後,安裝光帆的 hi-light 外掛:npm i @art_style666/hi-lightopenclaw plugins install @art_style666/hi-light然後去 Hi Light APP 裡獲取你的 API Key(設定 → 帳號管理 → 獲取 API Key),在 OpenClaw 配置檔案 ~/.openclaw/openclaw.json 裡加上 hi-light 的 channel 配置:"channels":{"hi-light":{"enabled":true,"wsUrl":"wss://open.guangfan.com/open-apis/device-agent/v1/websocket","authToken":"你的 API KEY"}}最後執行 openclaw gateway restart,沒報錯就說明接上了。不過,其實,這裡許多操作我都是直接無腦扔給 Claude Code,然後它自己就搞定了。雖然我最近 coding 任務上 Codex 用得越來越多,但這類安裝配置的雜事還是 Claude Code 更順手,體驗也明顯更好。但後面我計畫直接用耳機來控制龍蝦,然後就可以用它來控制 Claude Code 了。(或者反過來,用 Claude Code 來控制龍蝦?)從技術上看,完整的鏈路是這樣的:我的語音 → Hi Light APP(或耳機)→ 光帆雲伺服器 → 你電腦上的 OpenClaw 客戶端 → 本地執行 → 結果回傳 → APP 展示。中間走的是 WebSocket 長連接,響應及時。另外,這套外掛 + WebSocket 通道,其實已經很像平台化能力的雛形。後面大機率會做成一個開放平台,把「裝置入口 + 指令通道 + 任務回傳」這整條鏈路開放給開發者,讓更多人可以接入類似 OpenClaw 這樣的 Agent 能力。現在看到的接入方式,本質上已經是在提前搭平台的骨架。這裡其實沒有“絕對安全”。像 OpenClaw 這種能連本地環境、能執行動作的 Agent,本質上就是在 自由度、響應速度與安全邊界之間做取捨。光帆提供了兩種部署模式:Local Host:外掛跑在你自己的 Mac 上,資料儘量不出本地,安全邊界更可控,適合對資料敏感的極客。Cloud Host:更省心、隨時線上,但需要更清晰的權限與隔離機制來約束風險邊界。換句話說:它不是“更安全”,而是“把權衡擺在檯面上”,讓不同人按需求選。安全性方面,API Key 的機制會確保指令只會發到你繫結的裝置上。Local Host 模式資料完全不出域。Cloud Host 模式下使用者資料做了隔離處理。外掛程式碼在 GitHub 上開源,可以自己去看。如果你沒什麼隱私而言,那你隨時,我則敏感且確實有許多我自己定製的東西,我建議還是用 Local Host 模式,資料不出域,個性化整合且踏實放心。從行業角度看,AI 正在從「被動響應」走向「主動理解」,從螢幕走向穿戴,入口正在從鍵盤遷移到麥克風。光帆在做的事情是把 Agent 能力延伸到了更 native 的硬體互動層面,方向是對的。目前 Hi Light APP 已經上架,iOS 通過 TestFlight 安裝,Android 可在各大應用程式商店搜尋「Hi Light」下載。不需要耳機也能用,APP 本身就支援語音操控電腦的完整功能。耳機預計2026年 Q1-Q2 開售。現在處於公測階段,感興趣的可以先裝 APP 體驗一下。如果你本身就在用 OpenClaw,而且也對語音入口有興趣,可以嘗試下這個產品。語音不是為了更酷,而是為了更自然。當 AI 真正成為執行體,互動方式終究會回到人類最原始、也最直接的溝通方式——說話。因為那本來就是我們與世界協作的方式。 (AGI Hunt)
分歧巨大!美伊談判前景暗淡
藥味中美伊在阿曼開談,這是去年6月美國轟炸伊朗核設施、導致伊美談判中斷後,兩國首次進行對話。伊朗外長阿拉格齊在談判結束後表示,談判開局良好。伊朗外長:伊美就繼續談判達成共識6日的談判於當天中午開始,較原定時間略有推遲。伊朗代表團由阿拉格齊率領,美方代表團由美國總統特使威特科夫和美國總統川普女婿庫什納率領。美伊談話以間接方式展開,在當天的談判中,伊朗外交部長阿拉格齊先與阿曼外交大臣巴德爾舉行會談,就談判議題、相關訴求及關切問題闡述立場和建議。雙方談完後,美國總統特使威特科夫與巴德爾展開會談。在磋商過程中,阿曼外交大臣巴德爾與伊朗和美國雙方進行溝通。談判結束後,伊朗外長阿拉格齊稱會談“開局良好”,雙方同意保持對話。美媒:軍事施壓 美軍中央司令部司令參與談判有消息稱,美軍中央司令部司令庫珀作為美國代表團成員參加了此次談判。美軍中央司令部司令是美軍在中東地區等級最高的軍事指揮官。美媒稱,這似乎在強調美軍在該地區的軍事集結仍在持續。阿拉格齊:鈾濃縮是伊朗不可剝奪的權利伊朗邁赫爾通訊社6日表示,伊朗當天在談判中明確表示,絕不接受“不得進行鈾濃縮活動”這一條件。而此前,白宮方面曾多次表示,實現“零核能力”是美國總統川普反覆強調的立場。此外,伊朗方面在談判前表示,此次談判的議題僅限於核問題,而美方在會前的公開表態更強調把議題延展至導彈、地區武裝等問題,美伊雙方在議程設定上仍存在結構性分歧。各方計畫在適當時候再次舉行談判阿曼外交大臣巴德爾6日表示,各方計畫在適當時候再次舉行談判,伊美雙方將把談判結果帶回各自首都進行審慎研究。各方表態綜合來看,這一輪更多是重啟溝通並且摸清底線的起步環節,伊方希望在去威脅與減壓前提下推進就核議題的談判,而美方暫時不公開表態被很多分析人士看來是在保留議程擴展的空間,並且有可能繼續在談判桌外向伊朗施壓。因此後續能否盡快敲定下一輪談判日期以及議程能否相對確定,將決定海灣局勢是有所緩解還是進一步升級。川普:伊朗清楚拒絕達成協議的後果美國總統川普6日也表示,下周美國將再次與伊朗談判。川普稱,伊朗清楚拒絕達成協議的後果。川普6日還簽署行政令,對於直接或間接從伊朗購買、進口或以其他方式獲取任何商品或服務的任何國家,美國或對從這些國家進口的商品徵收額外的從價關稅。該行政令自美國東部時間7日凌晨起生效。同一天,美國國務院表示,將對與伊朗原油、石油產品或石化產品交易相關的15家實體以及2名個人實施制裁,並認定14艘船隻為涉伊朗石油及相關產品運輸的實體資產。美國白宮發言人萊維特此前就美伊談判表態時稱,美國除了外交手段外,“還擁有諸多選項可供考慮”。英國《泰晤士報》報導稱,伊朗願意討論其導彈問題本身“就是一項重大讓步”。“政客”新聞網則表示,儘管美國與伊朗將坐下來談判,但地區國家仍然感到“緊張不安”。 (CCTV4)
蘋果把Siri推向對話式AI:iPhone與Mac將內建聊天介面,背後是與Gemini的深度繫結
一、蘋果這次想改的,不只是Siri的“腦子”過去幾年,Siri的問題從來不止“回答不夠聰明”。更根本的是,它的互動方式已經落後於人們對AI的最新想像:你對它說一句,它回一句;你換個問法,它往往又像“忘了上文”。在ChatGPT把“可以追問、可以糾錯、可以把對話串起來”變成常識之後,傳統語音助手那套“一問一答”的節奏,顯得越來越像上一個時代的產品。Bloomberg 的描述很明確:蘋果要把Siri做成公司的第一款“AI聊天機器人”,並且會嵌入iPhone與Mac等系統裡,成為更像“入口”的能力。Reuters 的轉述也提到,新形態會支援語音與文字兩種模式,並替換現有介面。換句話說,蘋果這次要動的不是某個功能點,而是Siri的“呈現方式”——它不再只是你偶爾叫一聲的語音開關,而更像一個隨時能對話的系統層服務。這種變化的價值,並不在“能不能寫一段更像樣的文字”,而在於它能否讓使用者形成新的習慣:當你要查資訊、寫東西、整理日程、甚至只是想把一句話改得順一點時,你第一反應不是打開一個應用,而是直接跟系統聊。這才是所謂“入口級改造”的真實含義。二、代號“Campos”,要“內建”而不是單單獨的App多家轉述都提到,這個新Siri在蘋果內部的代號是“Campos”,並且它會“嵌得很深”:覆蓋iPhone、iPad與Mac的系統層,而不是以獨立App的形式出現。這點很“蘋果”。在AI時代,最容易做的是再造一個聊天應用——下載、註冊、開聊;但最難的,是把它變成系統能力:隨時可呼出、跨應用協作、能在合適的時機出現、又不把使用者體驗弄得支離破碎。蘋果歷來擅長做後者:它不一定總是第一個做出新東西的人,但往往能把某種能力“系統化”,讓它變成每台裝置都默認擁有的基礎設施。如果Campos真的取代現有Siri介面,這意味著蘋果準備把對話式AI放到一個更醒目的位置——它不再只是“語音助手升級版”,而是“系統互動的一種新形態”。這也解釋了為什麼報導會強調它將成為iOS 27、iPadOS 27和macOS 27的關鍵賣點:當聊天入口成為系統能力,更新系統就不只是“修修補補”,而是一次新的互動敘事。三、或在今年WWDC露面,是“一次性全給”還是“分批交付”?關於節奏,市場最關心的其實不是“會不會做”,而是“什麼時候能用、首發能做到什麼程度”。目前的說法大體一致:蘋果可能在6月的WWDC把這件事擺上檯面,隨後進入測試,最終在秋季隨新系統推送到使用者手裡。但時間線之外,還有一個更敏感的問題:這次會不會再出現“發佈很驚豔,落地很分批”的情況。過去一年,蘋果在“Apple Intelligence”的推進上,就出現過功能分階段上線、體驗逐步補齊的節奏爭議——使用者當然能理解大工程需要迭代,但當AI競爭的窗口期被拉得越來越短,“先講願景、後慢慢交付”就會讓口碑非常被動。Reuters 的描述提到,蘋果在2024年推出Apple Intelligence後,市場反應並不算熱烈,這也讓這次Siri重做承擔了更強的“翻身”期待。所以,iOS 27 的Campos若真要成為“主角”,它必須在兩個維度上過關:一是穩定性與速度——不能像某些第三方聊天應用那樣“偶爾聰明、偶爾胡來”;二是可用性——首發就要讓使用者感到“這東西真的能常用”,而不是只適合演示。否則,Siri的重做就會變成一次昂貴的試錯。四、為什麼是現在:Apple Intelligence的冷場與外部壓力蘋果顯然意識到,Siri已經不能再靠“小修小補”拖下去。對外界而言,Siri的象徵意義太強:它曾經是智能助手浪潮的代表,但在生成式AI時代卻變成“落後”的代名詞。只要Siri還停留在舊範式,外界就會不斷把蘋果與OpenAI、Google做對比——這種對比,那怕不完全公平,也會真實影響使用者預期。更現實的壓力在於:AI正在把“系統入口”重新洗牌。過去,使用者習慣用搜尋、用App、用語音助手;現在,越來越多人習慣先問一個聊天機器人。對蘋果來說,這種習慣遷移一旦固化,意味著它在iPhone與Mac上的“系統入口優勢”會被稀釋——你依然買蘋果硬體,但你的資訊入口、生產力入口可能越來越不在蘋果的體系裡。從這個角度看,Campos不是“追熱點”,而是“止損”。它要做的事,是把使用者從第三方對話入口拉回系統層,讓Siri重新具備存在感。只不過,蘋果這次面對的不是一個簡單的功能差距,而是一種新的互動標準:對話要更連貫、更能理解上下文、更能處理複雜指令。想追上這套標準,靠傳統Siri那種規則+檢索的體系很難完成,必須借助更強的模型能力。五、借Gemini追速度,蘋果要守住的是邊界這就把問題引向報導中最“關鍵的一句”:新Siri背後將深度使用Google的Gemini。Reuters 與 The Verge 的轉述都提到,蘋果與Google的合作將為這次升級提供支撐,並強調這是一種“定製版”的Gemini能力嵌入系統。從工程角度講,這是一條更務實的路:自己從零訓練一個與ChatGPT、Gemini同等級的大模型,既耗時又燒錢,還要在短期內做出穩定可控的產品體驗,難度極高。與其在“模型能力”上硬拚,蘋果更可能選擇在自己最擅長的地方贏回來:把模型能力變成系統體驗,把對話式AI嵌入到裝置、應用與工作流裡。但“借外腦”也帶來一個繞不過去的邊界問題:蘋果如何繼續維持它長期建立的隱私敘事與控制感。使用者關心的從來不只是“它能不能答對”,還包括“我的資料會不會被拿去訓練、請求會不會被外部看到、那些內容在本地處理、那些必須上雲”。這些問題並不會因為蘋果與Google合作就自動消失,反而會更尖銳。因此,Campos真正的挑戰,可能不在“接入Gemini”本身,而在於“怎麼把外部模型能力裝進蘋果的盒子裡”:體驗要統一、呼叫要克制、邊界要清晰。它既要像聊天機器人那樣好用,又要像系統能力那樣穩定,還要保留蘋果一貫的“可控感”。這三件事缺一件,都會讓這次升級失色。 (視界的剖析)
2026 年 AI 如何深度接管工作 | Anthropic 首席產品官對話實錄
12月24日,Anthropic 首席產品官Mike Krieger 接受 AI Daily Brief 的訪談,本次對話復盤了過去一年 Vibe coding的崛起、Anthropic 聚焦程式設計領域的底層戰略邏輯、智能體化工作流的演進、AI Agent 在企業端的規模化落地障礙以及 2026 年企業級 AI 的戰略轉向。Mike Krieger表示,程式設計不應僅被視為軟體開發,而是解決通用問題的一種極度全能的推理工具。他指出,Anthropic 戰略性聚焦程式設計並非只為服務程式設計師,而是因為程式設計是 AI 實現推理、自主規劃與長周期運行的最佳載體。 Vibe coding正在重塑人類與機器的協作邊界。Mike Krieger認為,優秀的產品架構應能隨著底層智能的進化而自然“變薄”:隨著模型自主性增強,產品經理應主動簡化控制框架,拆除曾經為了輔助模型而搭建的互動“腳手架”。他指出,如果使用者覺得模型升級後性能提升不明顯,往往是因為過時且僵化的產品框架限制了模型的發揮。Mike Krieger認為,2026 年將是 “AI 同事年”。企業將告別單純在現有介面塞入 AI 的補丁階段,轉而進入“智能體原生”的重構時代。AI 的核心價值將從“資訊檢索”進化為“可靠地分擔職責”,實現真正的委派式工作。01程式設計是 AI 具備通用推理與長周期自主規劃能力的底層工具很多人認為 Anthropic 是 AI 程式設計領域的領軍者。這種對程式設計的聚焦是預先設定好的戰略支柱,還是因為模型在該領域展現出了卓越能力,才演變成了一種差異化的核心競爭力?Mike Krieger: 每當 Anthropic 的產品負責人考慮戰略方向時,我都會強調,只有與公司對強人工智慧起源的長遠觀點保持一致,路徑才會最順暢。Anthropic 是一家極度專注的公司,這從我們選擇的特定賽道就能看出來。公司內部有一個根本信念,AI 若要真正強大,必須具備推理、自主規劃以及長周期運行的能力。更關鍵的是,它必須能夠編寫並執行程式碼。這不僅是為了軟體開發,更因為程式設計是解決通用問題的一種極度全能的工具。這種信念在我去年 5 月加入之前就已存在,當時恰好趕上外界認知的覺醒。Claude 3 發佈後約一個月,社交媒體上出現了一個轉折點,使用者意識到模型可以編寫完整的程式碼檔案,而不僅是零碎的函數。雖然那些能力按現在的標準來看還很初級,但在當時非常令人震撼。隨後,我們推出了首個面向程式設計的產品體驗 Artifacts,讓 Claude 可以在聊天介面旁直接生成可運行的 React 網站。對許多人來說,那是他們第一次意識到Vibe coding,即在傳統開發環境之外與模型協作開發,是一種切實可行的新範式。02好的 AI 產品架構應隨著模型智能的提升而不斷簡化控制權2025 年被認為是 AI Agent 程式設計之年,從早期 GPT Engineer 到後來的 Lovable,技術每一階段都在解鎖新場景。你們在內部開發 Claude Code 時的核心邏輯是什麼,作為產品專家,你如何設計那些今天有用但能隨底層智能進化而自然增強的產品?Mike Krieger: 這是一個非常好的反思時刻。去年最後幾周,我們內部開發了一個叫 Claude CLI 的項目,也就是後來發佈的 Claude Code。它源自我們的 Labs 團隊,這個團隊專門負責從 0 到 1 的顛覆性創新,涵蓋從早期的電腦使用探索到各種實驗性項目。在 9 月到 12 月間,Claude Code 迅速成為了我們內部最好用的程式設計工具。它的核心邏輯是,隨著模型能力的提升,我們應該讓模型多思考一會兒,允許它們在更長的時間跨度內自主運作。假期裡我們一直在爭論是否要把它作為繼 Claude 網頁版和 API 之後的第三大產品支柱。我們意識到,如果我們不做,別人遲早也會發現這種低干預、任務導向型的模式。我們進入今年時就堅信,這會徹底改變軟體的建構方式。(關於順應增長的產品原則)Anthropic 有一條核心產品原則叫作“順應指數增長”,我們致力於打造今天就有用,但架構上能隨著底層智能進化而自然增強的產品。在 Claude Code 上,我們隨著時間的推移反而簡化了外部的控制框架,因為模型自主性越強,就越不需要複雜的輔助結構。我們常發現,如果客戶覺得新模型提升不明顯,往往是因為他們被舊的框架限制住了。一旦放開約束,模型的進步就一目瞭然。我們經常和開發者討論,如果模型最終不再需要那麼多輔助腳手架,你的產品還能提供什麼獨特價值,或者模型是否正在蠶食你認為的核心貢獻?(關於 SDK 的演進細節)的確如此。在我們將內部工具打磨並公開發佈後,我們發現用例一直在進化。在我們的駭客松裡,項目往往會扎堆在即將爆發的技術點上。第一次駭客松大家都在關注模型上下文協議(Model Context Protocol),簡稱 MCP。第二次是在 Claude Code 發佈前後,令我驚訝的是,很多項目根本不是為了寫程式碼,而是把 Claude Code 當作底層引擎。我們看到了生物資訊學方面的應用,後來我們將其整合進了面向生命科學的 Claude。還有人把它當作全自動網站可靠性工程師(SRE)來分析資料,或者當作自動化資料科學家。這些項目讓開發者跳過了繁瑣的基礎設施搭建,直接進入業務核心。基於此,我們將底層 SDK 重新命名為 Claude Agent SDK,因為 Code 這個詞已經涵蓋不了它所支援的廣泛場景了。03AI 規模化的關鍵在於讓非技術使用者跨越複雜性天花板並建立可靠性預期要讓非開發者習慣這種新架構需要做些什麼,如何看待技術修補者與大眾互動標準之間的跨越?此外,目前 AI 使用分為高端工程、初級應用和流程重組,這三者本質上是一回事嗎?Mike Krieger: 我們還處於早期階段。即使在部署了企業版 Claude 的公司裡,你也會在銷售或市場等部門發現一些“極客型建構者”。他們雖然沒寫過程式碼,但能熟練運用原語並通過提示詞來實現工作流自動化。不過,在互動介面和核心能力上,確實還有巨大的鴻溝需要填補。如果你的 AI 同事雖然有創意,但偶爾會在以前處理得完美的任務上犯些低級錯誤,你很難完全信任它。我們現在必須彌合理解力差距,確保這些系統可預測且可靠。同時,要改掉幾十年養成的操作習慣也需要時間。習慣的養成往往是從第一次成功嘗試開始的。上周末我在用 Replit 和 Opus 跑項目時,順便在做早餐的空檔想給家裡做一個秘密聖誕老人小程序。因為我當時已經在那個工作狀態裡了,我隨手發了一個非同步請求,早餐做完,程序也寫好了。如果我當時沒在那個環境下,我可能根本不會想到用 AI 來做這件事。縮小習慣養成與能力認知之間的差距是關鍵。(關於使用者群體細分)這是一個關於不同群體如何爬上複雜性階梯的問題。開發者、建構者與企業雖然共享底層模型,但感覺完全不同。軟體開發者是動力最強的群體,他們習慣於最佳化自己的工具環境。他們的反饋能形成閉環,幫助我們將需求傳達給研究團隊。在非技術建構者的中間地帶,目前存在一個複雜性天花板。我觀察我妻子使用這些工具時發現,你偶爾還是得用到一些特定的提示詞技巧。比如在處理項目時,模型可能會填滿上下文窗口,我知道這時候需要語義檢索,但模型沒主動提,她也不知道這個術語。我們的目標是幫使用者爬上這個複雜性階梯,從寫前端,到學會資料持久化、安全審查和性能工程。這就像是讓 AI 帶著你,重新走一遍我們當年在 Instagram 經歷的規模化擴張之路。在企業端,最大的問題是落地與產出之間的脫節。AI 的輸出必須質量極高,高到讓使用者真正感到省心。如果 AI 給出的只是一個半成品,使用者會覺得還不如自己動手快。所以我們現在更關注如何穩定提供高品質、可靠的初始產出。042026 願景:企業將通過 MCP 和智能體原生設計實現 AI 的規模化分發與任務委派相比 2025 年,企業在 2026 年的目標會有什麼變化?面對遺留系統和監管限制,如何解決可分發性問題,讓 AI 真正從工具變成可以獨當一面的同事?Mike Krieger: 有兩點顯著不同。首先,企業對橫向智能體的興趣激增。我們不再只滿足於寫郵件的助手,而是開始擴展重複性的後台任務,比如國際化的“瞭解你的客戶”合規審查。這些流程複雜且重複,需要深度的企業內部知識。我們正在派出應用 AI 工程師,幫企業把這些需求轉化為靈活且可重複的智能體流程。其次,企業開始告別 V1 階段,即單純往現有介面塞一個 AI。他們現在正在重新設計產品,使其成為智能體原生產品。這意味著要讓 AI 能在後台完全調動產品的全部功能,這種轉型比在側邊欄加個聊天框要深刻得多。(關於基礎設施與連接)關於基礎設施,我曾和一家大銀行的技術主管聊過,他提到他們必須為了 AI 重新梳理資料儲存、標註和血緣。當你讓 Claude 幫你製作儀表盤時,它必須能理解底層的資料庫結構。2026 年的主題就是補齊這些缺失的連接件。我們看到很多企業正用 MCP 封裝內部服務,下一步就是從檢索資訊進化到採取行動,讓 AI 真正參與業務流,比如為人工確認排隊決策。理想中的雲環境與現實中的遺留系統及監管限制之間存在巨大落差。我們目前的重點是可分發性,也就是把我們的智能和智能體原語,比如技能、SDK 和記憶能力,直接帶到企業的工作流所在地,無論它部署在那裡。我們將這些功能元件化,確保在主流雲平台上都能靈活呼叫。雖然小規模試點容易,但要達到生產級規模,必須在尊重企業現有約束的前提下提供服務。(關於“同事”角色的演變)這可能是 2026 年的定義性特徵。我們在程式設計領域已經看到了這種苗頭,比如我們和 GitHub 的合作,你可以在拉取請求中直接標記 Claude,然後你去喝杯咖啡,它就把活幹完了。雖然模型現在還不懂職場裡的社交邏輯,但在具體職責的委派上,比如根據指定資料來源寫一份報告,已經近在咫尺。我們正在開發這種委派式的互動介面,並把在程式設計領域積累的經驗推廣到所有的知識工作中。關於 2026 年的期待,我的回答是:可靠地分擔你的工作。 (數字開物)
逆天發現!ChatGPT秒懂,不是靠RAG,它竟然用了這4招!
你有沒有想過,那個號稱“最懂你”的ChatGPT,到底是怎麼記住你的?它真的擁有一個龐大的記憶資料庫,能隨時回溯你說的每一個字嗎?最近一位開發者Manthan Gupta的逆向工程,徹底顛覆了我們的認知!他發現,ChatGPT的記憶機制,簡單到令人難以置信,甚至沒有用到我們普遍猜測的向量資料庫和RAG檢索。👉 技術突圍:極簡四層架構,打造“記憶幻象” Manthan Gupta通過大量對話實驗,揭示了OpenAI打造“它好像真的記得我”效果的底層邏輯。這並非依靠複雜的AI“大腦”,而是一套極其精巧、工程化驅動的四層架構。這套系統,用最小的成本,實現了最大的記憶效果,堪稱一場效率上的“降維打擊”。💡 第一層:會話中繼資料——AI的“察言觀色”🔥 別把它想得太高科技。當你在每次打開ChatGPT時,它會默默觀察你的“環境資訊”:裝置類型、瀏覽器、大致地理位置、訂閱等級、甚至你的使用習慣(比如平均聊幾輪、消息多長)。這些中繼資料不會被長期儲存,也與你個人身份無關。它們的作用,僅僅是讓ChatGPT動態調整對話風格和節奏。比如你半夜用手機打開,它可能就直接切入重點,不繞彎子。這是一種即時性的環境適應,而非真正意義上的記憶。👉 第二層:使用者記憶——你的專屬“檔案卡”🚀 這一層才是ChatGPT真正“記住你”的地方。在後台,它會維護一份屬於你的、小小的“檔案卡”。上面記錄著你的名字、工作、興趣、偏好風格等明確事實。這些資訊不會憑空出現,要麼是你明確告訴它“記住我是一名AI編輯”,要麼是它在你反覆提及後,自動識別並判斷為“穩定事實”後儲存。最關鍵的是,這份記憶透明且可控。你可以隨時讓它記住或忘掉某個資訊。每次新對話,這張“檔案卡”都會被自動載入,讓ChatGPT的回答悄悄對齊你的偏好。這就是個性化體驗的“複利”效應,讓你感覺AI越來越懂你。💡 第三層:近期對話摘要——高效的“記憶索引”🔥 這也是最讓人意外的部分。我們曾以為ChatGPT會用RAG機制檢索歷史對話,但它沒有!它採用的是一個輕量級的摘要系統。ChatGPT會將你最近約15次聊天,整理成一份簡短清單,只包含時間戳、聊天標題和你當時說的幾句關鍵資訊(僅使用者側)。它不儲存對話細節,只保留“你最近關注了什麼”的方向性資訊。這種機制犧牲了細節,卻換來了驚人的速度和效率,以及對token預算的精準控制。它不“檢索”,而是“預處理”——這是一種工程上的“護城河”,確保了系統的流暢運行。👉 第四層:滑動窗口——當前對話的“短期記憶”🚀 這一層是大家最熟悉也最容易誤解的。ChatGPT每次回答時,只能看到你和它最近一段對話的內容,這就是所謂的“滑動窗口”。這個窗口的長度是有限的(如GPT-4的128k token),一旦超出,最前面的內容就會被“擠掉”,徹底遺忘。窗口內的內容會一次性打包輸入模型,不做任何“回憶”操作。這解釋了為什麼你刷新頁面或開啟新對話,它就像換了個“魂”。理解這一點,對於最佳化你的Prompt和Agent設計至關重要。✅ 認知突圍:效率至上,而非蠻力 Manthan Gupta的發現揭示了一個核心真相:ChatGPT的記憶系統並非依賴龐大的知識庫或複雜的檢索演算法,而是通過分層策略與工程化巧思,用最少的資源,實現了最強大的使用者體驗。這是一種效率至上的底層邏輯,是AI行業的一次“認知突圍”。它告訴我們,有時最簡單的架構,在精準的權衡下,反而能帶來更高的紅利。當你打開ChatGPT的Memory頁面,看到它為你精心整理的“檔案卡”時,那種感覺是複雜的。它不只是在“記住”你,它在書寫你。它像一面鏡子,映照出你在AI面前展現的那個自己——可能是最真實、最脆弱、也最孤獨的你。這種深刻的連接,正是AI記憶最微妙、也最動人的力量。此刻,去看看你的ChatGPT,它為你寫下了什麼? (澤問科技)
馬斯克點名輝達、Google:未來十年,AI 財富會流向那裡?
2025 年 11 月 30 日,印度創業者Nikhil Kamath 在播客《 People by WTF》上採訪了 埃隆・馬斯克。沒有發佈會,沒有 PPT,只有一場關於 AI、貨幣和工作未來的深度對話。面對已超過38兆美元的美國國債,馬斯克給出了明確判斷:唯一的解決方案是 AI 和機器人拉動生產力,而且必須在三年內跑贏通膨。當被問及“投資者應該關注那些公司”時,他點名了輝達和Google。但在整場對話中,他真正著眼的不是具體公司,而是財富流向的路徑:從晶片到平台,從平台到系統,從系統到入口。第一節 | 輝達很棒,但不是終點馬斯克以輝達和Google為例,但他真正強調的不是晶片性能,而是一個更深層的邏輯:早期 AI 財富集中在算力供應側,下一階段將流向能夠建構完整 AI 生態的平台型公司。1、晶片:必需品,而非護城河GPU 算力是 AI 的基礎設施,這讓輝達成為全球市值第一的公司。但在馬斯克的價值圖譜裡,晶片只是工具層。他真正關注的是更上層的能力:系統、平台、閉環、介面。這些詞指向的不是單點技術,而是如何把資料採集、模型訓練、推理部署、場景應用串聯起來。這種完整的串聯能力,可以理解為 “AI 工廠”:一個從原材料到成品的完整生產線,而不只是某個環節的裝置。2、平台的價值:資料、場景、閉環馬斯克談到特斯拉時說,這是世界領先的現實世界 AI,因為它不僅有模型,更重要的是資料、場景和反饋形成了閉環。談到X平台時,他也強調 AI 必須嵌入真實的使用者行為、互動資料和決策場景。特斯拉和 X 的共同點,就是平台的核心價值:資料持續生成模型不斷迭代使用者自然留存同樣的邏輯也適用於Google。它在搜尋、地圖、YouTube上 積累的資料和使用者習慣,正是馬斯克認為它在未來會相當有價值的真正原因。3、價值分配的重構從這個角度看,馬斯克的劃分很清晰:“晶片公司提供工具,利潤來自銷售;平台公司建構生態,價值來自網路效應。前者是高毛利的生意,後者是高壁壘的資產。”這也解釋了為什麼 xAI 從成立起就開始自建推理叢集,而不是依賴雲端API。完整掌控從資料到部署的全流程,才能掌控價值。第二節 | 從對話到執行:AI的下一躍遷馬斯克對話中最高頻的詞是:系統。這個詞和“平台”有什麼區別?平台掌握的是資料和使用者,系統掌握的是任務和執行。舉個例子:ChatGPT是個出色的對話工具,但它只能回答問題。而馬斯克想要的是,AI能代替你發推文、追蹤互動、調整策略,甚至完成一系列連貫的動作。換句話說,AI 的下一階段競爭,不在於模型強弱,而在於誰能建構起完整的任務執行系統。以 X平台的例子:使用者說“發一條關於某話題的推文”AI理解意圖,生成內容,呼叫發佈介面追蹤互動資料,給出最佳化建議這不是多輪對話,而是目標驅動的任務執行鏈。需要的不是更好的聊天框,而是能調度多個模組、串聯多個步驟的工作流系統。這類系統的核心能力包括:接收目標指令而非簡單提問調度多個AI模組和外部介面持續執行並給出狀態反饋馬斯克為什麼強調 SpaceX、Tesla、xAI 的融合?因為未來的 AI 不是單點工具,而是跨資料、跨場景、跨硬體的協同系統。特斯拉掌握駕駛資料和車載硬體,SpaceX 掌握衛星網路和空間算力,xAI提供模型能力。三者整合,才能建構從資料採集到推理部署的完整閉環。這種閉環能力,是 OpenAI 、Anthropic 的工具呼叫所不具備的。它們還停留在能力輸出層面,而非系統營運層面。從晶片到平台是第一層轉移,從平台到系統是第二層。前者掌握資料和使用者,後者掌握任務和閉環。誰能讓 AI 不只回答問題,而是完成工作,誰就掌握價值入口第三節 | WeChat++:馬斯克的入口野心入口長什麼樣?馬斯克的答案是:WeChat++。在國內,微信是人們發消息、支付、叫車、訂餐、理財的統一平台,生活的大部分數字行為都在一個超級app裡完成。馬斯克想做的是這個模式的AI升級版。X 不只是社交媒體,而是 AI 時代的統一入口。1、 從微信到 WeChat++:統一入口的價值馬斯克最初建立X.com時,目標是建立“金融交易的清算所”和“更高效的貨幣資料庫”。收購 Twitter 後,他說這是重新審視這個願景的機會。X 現在有的功能:文字、圖片、視訊發佈安全消息和音視訊通話自動翻譯(連接不同語言使用者)Grok AI助手未來將加入支付功能這些功能整合在一起,讓 X 掌握了使用者完整的行為上下文。AI 不再面對碎片化的單次請求,而是理解一個人的完整數字生活。這就是馬斯克說的“將世界聚整合集體意識(Collective Consciousness)”的技術實現。2、AI 入口價值:不只是流量,而是控制權傳統網際網路時代,平台的價值是聚合流量。但在 AI 時代,入口的價值升級為:上下文控制:掌握使用者的完整語境和需求呼叫權力:決定用那個 AI、呼叫那些服務執行能力:讓 AI 不只回答,而是代替使用者完成任務如果 X 能實現這個願景,它將成為:AI 的訓練場(資料來自真實使用者行為)AI 的工作台(在這裡執行任務而非只對話)使用者的唯一啟動面板(不需要切換多個app)X 要成為“你可以做任何事情的地方”,這是實現 AI 能力的必然要求,而非行銷話術。3、三層價值分配的完整圖景回看這三節,馬斯克對 AI 財富流向的判斷形成了清晰的三層結構:第一層:晶片→平台算力是基礎設施,但資料生態才是護城河第二層:平台→系統有資料還不夠,要能建構任務執行的完整閉環第三層:系統→入口誰掌握使用者的唯一介面,誰就掌握 AI 時代的價值分配權輝達提供工具,Google建構能力,OpenAI 打造系統,而馬斯克要做的,是佔據那個最接近使用者、最難被替代的入口。晶片、平台、系統、入口,AI 財富流向的完整路徑已經清晰。結語 | 財富終點:佔據入口的人這場訪談回答了一個核心問題:未來十年,AI 財富會流向那裡?答案不在晶片迭代的速度,也不在模型參數的數量,而在於誰能建構從資料到執行的完整系統,誰能佔據使用者與 AI 之間的唯一入口。晶片會繼續進化,模型會持續突破,但最終掌控價值的,是那些將技術轉化為不可替代的使用者介面的人。 (AI 深度研究員)