江恩小龍財經頻道
CSIRC
周施德
Luis Yu
陳志源
ski huang
官方認證
陳學進
官方認證
陳智霖分析師
江國中
kevin WANG
Ching-Yuan Tseng
官方認證
美股艾大叔
房產新視界
張瑞忠
蔡慶龍 價值型投資
楊國利
官方認證
RexAA
官方認證
小小天下
蔡正華金錢道
品觀點
🔴 慶龍盤後帶你驗證這個盤如慶龍老師預期週三 三天急跌出現轉折彎腰撿鑽石 遍地是黃金昨天預告 還會有一次低點今天 早盤見低點收盤幾乎回到平盤長黑撐得很漂亮低點應該不會再破這三天盤勢規劃精準印證美伊衝突目前只是區域衝突戰爭不太可能持續太久之前烏俄戰爭會打很久是因為背後有歐洲、美國撐腰變成世界級衝突伊朗獨木較難支撐🔴 記憶體我仍然保守看待不會因為昨天強一天就改變看法📌 南亞科今天收盤幾乎跌停要小心🔴國際記憶體指標三星、美光、海力士、晟碟目前都在頸線附近後面可能有一段補跌會非常重📌 台虹8~9 字頭買進加碼週二110 賣出3天 +30%週三 跌停 101.5 接回今天 106.5 專業的勇氣低檔買、高檔出讓資金效率最大化📌 雙鴻2 月初884 支撐買點上週四1150 賣出 +300週三跌停 972 接回今天 重返千金股說到做到繼續累積獲利📌 新日興1/12232 賣出目前 195尚未接回摺疊機要出了?📌 雍智科372 底部買點2/5 開高走低我說還會再漲2/7 651 再買今天 907 亮燈漲停光加碼單就賺 +260📌 富世達上週三提醒留隔天亮燈漲停今天再度亮燈漲停 1885一張賺超過60萬 +615 📌 弘塑上週四1710 買回當天亮燈漲停昨天說有機會過高今天 1915 已經快過前高看法不變📌 均豪今天 95.5波段新高+13%表現也不錯📌 全新昨天提醒回檔三天今天 207 持續低接尾盤 217 現買現賺📌 宏捷科週三最好的買點昨天追高的朋友趕快來問我📌 華星光504 回檔四天難得的回檔要把握🔴 被動元件📌 國巨、📌 華新科高點有賣如果敢下來我當然敢接應該沒有太多低點了⚾昨天WBC比賽很可惜今天台vs日夢幻對決慶龍老師也會看一起幫中華隊加油🔴 價值型投資 2026/03/06👉 https://youtu.be/fWJ53d99bxk
【以美襲擊伊朗】美股規模三年暴增3倍!輝達押新賽道!美伊War背後,利多這3家公司,AI + 衛星 + 資料作戰體系
你可能不知道,AI 光互連市場已經正式進入了指數級增長通道。未來三年,整個賽道的規模將直接狂飆三倍!但在眾多產業鏈公司中,為什麼輝達偏偏選擇重金押注 LITE 和 COHR?它們手裡到底握著什麼卡脖子的核心技術,讓老黃非買不可?除了這兩家,還有那些關鍵玩家的行情值得我們要重點關注?現在光互連這條賽道,到底走到了那一步?如果說 2022 年的俄烏衝突,讓世界第一次看到“商業衛星 + AI”在戰場上的雛形;那麼到了 2026 年,戰爭的形態可能已經發生了一次真正的躍遷。戰場不再只是 海、陸、空的三維空間,而是進入了 “太空 + 算力”主導的新四維戰爭體系。當勝負開始取決於,誰的資料鏈路更快、誰的決策模型更強,軍工、航天與 AI 的底層邏輯,是否已經被徹底改寫?AI算力戰爭的真正瓶頸本周,輝達分別向光子技術公司 Lumentum(LITE) 和 Coherent(COHR) 各投資 20 億美元.這筆交易釋放了一個非常清晰的訊號:光互連正在成為 AI 資料中心能否繼續擴張的關鍵基礎設施。消息公佈後,資本市場迅速做出反應。LITE 單日上漲接近 12%,COHR 漲幅超過 15%,而光纖材料龍頭 康寧(GLW) 也同步上漲 4.97%。我們在此前兩篇深度文章中,其實已經系統拆解過這個邏輯,並重點介紹了GLW、LITE與COHR在產業鏈中的位置。AI光互連正在進入指數級增長輝達為什麼偏偏選在這個時間點,加碼光通訊?要回答這個問題,我們得先糾正一個很多投資者的誤判:大家嚴重低估了光模組需求爆發的速度。隨著AI訓練叢集規模不斷擴大,資料中心網路正在經歷一次代際升級。過去主流是400G網路,而在AI算力叢集中,這一頻寬已經遠遠不夠,行業正迅速向800G甚至1.6T光模組升級。行業研究機構Dell’Oro的預測顯示,AI資料中心網路投資正在快速增長。相關基礎設施支出預計將從2023年的約2600億美元,增長到2025年的接近6000億美元,並有望在2028年前突破1兆美元規模。摩根士丹利預測,到 2028 年,整個光通訊市場規模將達到 650 億美元。換句話說,未來三四年,光互連市場將迎來一次史詩級的規模擴張。這意味著,高速光模組正在成為AI算力基礎設施中最關鍵的一環。更重要的是,這一增長並不只是簡單的技術升級,而是來自 AI 資料中心架構的變化。在傳統網際網路資料中心中,流量主要來自伺服器與使用者之間,也就是所謂的 “南北向流量”。但在 AI 資料中心中,絕大多數資料交換發生在 GPU 與 GPU 之間,形成巨大的 “東西向流量”。當數萬甚至數十萬 GPU 組成訓練叢集時,伺服器之間的資料交換規模會呈現指數級增長。這一變化帶來了三條清晰的需求曲線。第一是 橫向擴展(Scale-out):隨著 AI 叢集規模擴大,機架之間的連線量迅速增加。第二是 縱向升級(Scale-up):機架內部大量使用的銅纜正在逼近頻寬與功耗極限,未來將逐步被光互連替代。第三是 跨資料中心互聯(Scale-across):分佈式 AI 訓練需要多個資料中心協同運行,長距離高速光模組需求開始快速增長。在這三條曲線的疊加下,高端光模組的出貨量,可能從 2025 年的 2000 萬隻,猛增到 2026 年的 5300 萬隻,並在 2028 年逼近 8000 萬隻。這不是線性增長,這是指數級爆發。算力瓶頸正在從 GPU 轉向“互連”隨著 AI 叢集規模不斷擴大,一個新的瓶頸開始出現:算力系統的限制,正在從 GPU 本身轉向 GPU 之間的資料連接效率。在 224G 傳輸速率下,傳統銅線的有效傳輸距離已經縮短到 不足 1 米。這意味著,當 GPU 叢集規模繼續擴大時,僅依賴銅互連已經無法滿足資料傳輸需求。因此,光互連正在從一種性能升級選項,變成 AI 資料中心的基礎設施。在華爾街的一些技術報告中出現了這樣非常形象的類比:而在下一輪 AI 基建周期中,光互連能力很可能決定 AI 叢集的擴展速度。在上一輪 AI 基建周期中,先進封裝(CoWoS)決定了 GPU 的產量。這也正是輝達選擇提前佈局光互連產業鏈的核心原因。那麼為什麼輝達選擇 LITE 和 COHR?問題來了,在眾多光通訊公司中,為什麼輝達偏偏選擇了LITE 和 COHR?答案其實就藏在光模組的“身體結構”裡。我們可以把 AI 資料中心想像成一個超大型工廠。GPU 是幹活的機器,光模組是連接機器的傳送帶。現在機器跑得飛快,傳統的“銅傳送帶”扛不住了,必須換成“光傳送帶”。但在光模組這個小盒子裡,真正決定它能不能跑得快、跑得穩的核心部件,只有一個——那就是雷射器。如果把光模組比作一輛跑車,外殼和組裝只是車身,而 雷射器就是發動機。車身再漂亮,如果發動機動力不足,這輛車在 800G 甚至 1.6T 的“超級高速公路”上,根本跑不起來。而且在 AI 場景下,這個發動機不僅馬力要大,還得極度“省油”,否則資料中心瞬間就會變成巨大的電暖爐。但是全世界能造出這種頂級“發動機”的廠家,屈指可數。這就是輝達的邏輯:LITE 和 COHR,是這個細分領域裡幾乎無法繞過的“雙寡頭”。先看 Lumentum (LITE)。它手裡握著一張王牌材料——磷化銦 (InP)。你可以把它理解為光通訊界的“特種鋼材”。只有在磷化銦平台上,才能造出滿足 1.6T 時代高頻、低功耗要求的頂級雷射器。特別是在未來的 CPO 架構中,所需的高功率連續波雷射器,Lumentum 目前處於絕對領跑地位。輝達投它,買的是 技術的天花板。再看 Coherent (COHR)。它更像是一個擁有全產業鏈能力的“巨人”。從最底層的晶體材料生長,到晶片加工,再到器件封裝,Coherent 全部自己能搞定。這種垂直整合的模式,讓它在產能保障、成本控制和良率提升上,有著極強的韌性。輝達投它,買的是 供應鏈的安全墊。為什麼要現在投?因為過去兩年的教訓告訴輝達:光模組交貨慢,往往不是組裝廠沒工人,而是卡在了上游的雷射晶片上。輝達這 40 億美元,表面是投資,實則是鎖定了未來幾年核心零部件的 “優先提貨權”。這裡還有一個很關鍵的商業邏輯:經營槓桿。雷射器行業,技術代差帶來的利潤非常驚人。比如新一代的 200G 雷射器,售價可能是老款的兩倍,但因為工藝成熟,成本可能只增加了百分之十幾。這種“售價翻倍、成本微增”的剪刀差,就是華爾街最看重的利潤爆發點。除了這兩家雷射器龍頭,產業鏈中還有兩家值得關注的公司:Fabrinet(FN) 是光模組製造代工龍頭,很多高端光學產品最終都要通過它生產;而 Applied Optoelectronics(AAOI) 則是正在快速崛起的光模組廠商,800G 產品預計今年開始放量。簡單來說,這四家公司分別代表了 AI 光通訊產業鏈的四個關鍵位置:LITE → 雷射器技術龍頭;COHR → 光學器件綜合平台;FN → 高端光模組製造代工;AAOI → 光模組廠商中的成長黑馬。CPO:中期變數,而非短期殺手當光互連從“可選升級”變成“必選底座”之後,市場關注點自然會轉向下一層:互連技術的路線將如何演進。當前 AI 資料中心最主流的方案仍然是 可插拔光模組(pluggable transceiver)。這種架構生態成熟、維護方便、成本也相對可控,因此仍然是當前大規模部署的核心形態。隨著網路速度不斷提高,行業也在尋找更加緊密結合的解決方案——把光引擎進一步靠近交換晶片,甚至直接與晶片共封裝,這就是 CPO(共封裝光學)。正是因為這種“技術路線升級”的敘事存在,市場才產生了一種典型誤判:很多人認為,一旦 CPO 成熟,傳統光模組就會被迅速取代。但事實恰恰相反。產業鏈模型測算顯示,CPO 在未來幾年仍處於非常早期階段:2026 年對光模組需求影響約 3%2027 年約 11%2028 年約 16%.換句話說,在未來三到四年時間裡,CPO 的滲透仍然非常有限!原因其實很簡單——工程現實。第一是 製造良率。CPO 需要將光引擎直接封裝到交換晶片附近,封裝與測試複雜度遠高於傳統模組。第二是 散熱問題。隨著交換晶片功耗不斷提升,共封裝結構對熱管理提出更高要求。第三是 維護成本。傳統可插拔光模組出現問題時,只需要更換單個連接埠模組;但在 CPO 架構下,一旦光引擎發生故障,可能影響整塊五十太位元每秒以上的交換模組。目前 CPO 的整體成本仍然約為傳統方案的 8—10 倍。因此,未來的資料中心光互連架構更可能形成一種多層共存結構:可插拔光模組NPO(近封裝光學)CPO(共封裝光學)不同技術針對不同距離和功耗需求,各自發揮作用,而不是簡單的替代關係。所以結論其實很清晰:CPO 是長期方向,但在 2026—2028 年這個建設周期裡,真正的贏家仍然是那些能夠同時佈局可插拔、NPO 與 CPO 多條技術路線的廠商。現代戰爭正在變成一條“演算法殺傷鏈”現在我們來談最近的戰爭。這套對伊“手術刀式”精準打擊的背後,其實已經不是傳統的“導彈加雷達”。真正運轉的,是一整套由衛星網路、資料平台、AI和無人系統組成的作戰體系。在這條鏈條裡:SpaceX 的星盾(Starshield)負責通訊網路;Palantir(PLTR)負責資料整合;Anthropic 與 xAI 提供AI推理;而 Anduril 則提供無人系統執行。整場行動,本質上是一條從“圖像資料到精確打擊”的高速資訊閉環。首先改變戰場節奏的,是 SpaceX 的軍用衛星網路“星盾”。過去的軍事衛星大多在約3.6萬公里的高軌道上運行。訊號從地面發到衛星,再返回地面,往返距離接近7萬公里,即便以光速傳輸,也會產生大約500毫秒以上的延遲。半秒聽起來很短,但在高速移動目標面前,這已經足夠讓畫面變成“過去發生的事情”。而星盾使用的是約550公里高度的低軌衛星網路,延遲被壓縮到20毫秒左右。簡單理解就是:過去指揮中心看到的是“半秒前的畫面”,而現在看到的幾乎就是“正在發生的畫面”。同時,星盾還能提供接近 500Mbps 的資料頻寬。這意味著戰場上傳回的,不再只是簡單的坐標和語音,而是持續的視訊畫面、多光譜感測器資料以及無人機即時影像。但問題也隨之出現——當資訊太多時,人類反而更難判斷。這時,Palantir(PLTR) 的平台開始發揮作用。這家由矽谷投資人彼得·蒂爾(Peter Thiel)創立的公司,本質上是在為軍方提供一個“資料作業系統”。Palantir 的 Gotham 平台早已深度嵌入美國國家安全體系,美國國防部、陸軍以及情報機構都在使用這套系統來整合戰場資訊。在這個平台上,來自不同來源的資料會被彙總到同一張數字地圖中——衛星影像、無人機畫面、電磁訊號,甚至公開網路資訊,都可以被快速整合併持續更新。在這種系統裡,目標不再只是一個靜止坐標,而是一條被持續計算和追蹤的運動軌跡。簡單說,指揮官不再需要在多個系統之間切換,而是可以在一張即時地圖上看到整個戰場。接下來,AI開始參與決策。Anthropic 的 Claude 模型和 xAI 的系統在這裡更像一個數位化參謀團隊。它們可以在短時間內分析大量資訊,並模擬不同戰術路徑,例如:那條路徑更容易避開防空系統,那種打擊方式附帶損傷更小。這種AI輔助決策,讓許多戰術判斷可以在幾秒鐘內完成。當最終指令下達,執行任務的是 Anduril 的無人系統。Anduril 的核心系統叫 Lattice,它可以讓多架無人機在同一網路下協同工作。這些無人機在飛行過程中,會不斷接收新的資訊和指令。如果目標移動或者環境變化,系統會即時調整飛行路徑。在低延遲通訊支援下,打擊軌跡可以在最後階段持續修正,從而提高整體精度。四維戰爭如何重寫軍工與美股結構當衛星通訊、資料整合、AI和無人系統連接在一起時,戰爭的組織方式就發生了變化。過去幾十年,軍工體系的核心價值幾乎全部集中在大型武器平台上——戰機、航母、導彈和裝甲車構成了軍事實力的象徵。誰能製造更強的武器平台,誰就能在軍工市場中佔據主導地位。但在新的作戰體系中,決定勝負的關鍵開始發生變化。越來越多的價值,不再來自單個武器平台,而是來自資訊系統本身。誰能更快獲取資訊;誰能更快處理資料;誰能更快完成決策。當戰爭開始比拚資訊速度與決策效率時,軍工產業的價值重心也開始從“鋼鐵平台”轉向“資訊網路”。在美股市場,這種變化已經逐漸顯現。傳統軍工巨頭依然佔據重要位置,例如:洛克希德·馬丁(LMT)雷神技術(RTX)諾斯羅普·格魯曼(NOC)這些公司仍然主導著戰機、導彈和防空系統等核心裝備。但如果把整個作戰體系拆開來看,就會發現,一條新的技術基礎設施正在逐漸形成——低軌衛星通訊、資料平台、AI與雲端運算。也正因為如此,資本市場的關注點開始從單一武器平台,轉向支撐這套體系運轉的底層技術。對於投資者來說,更值得研究的,其實是圍繞這一基礎設施形成的整條美股供應鏈。戰爭重新定價的美股供應鏈首先是通訊與光學鏈路。低軌衛星網路的關鍵並不只是衛星數量,而是通訊效率。Broadcom(AVGO)在通訊晶片領域佔據重要位置,而 Coherent(COHR)與 Lumentum(LITE)則深耕雷射器件與光模組技術。隨著星間雷射通訊的發展,高端光通訊裝置的需求可能明顯增加。第二層是算力與資料系統。低軌衛星提供資訊來源,但真正決定效率的是資料處理能力。Palantir的平台可以整合衛星影像、無人機視訊以及電磁訊號,而AI模型則依賴輝達等公司提供算力支援。第三層是無人系統與邊緣節點。無人機正在從偵察工具演變為戰場執行節點。例如 AeroVironment(AVAV)長期提供戰術無人機系統;Ondas Holdings(ONDS)則佈局無人機平台與專用通訊網路,其軟體定義無線電技術可以幫助無人機形成自組織通訊網路,從而提高協同能力與抗干擾能力。當通訊網路、算力平台和無人系統逐漸連接在一起時,一條新的軍工產業鏈也隨之形成。對於投資者來說,這意味著軍工類股的結構正在發生變化。傳統平台型公司依然穩定,但未來估值彈性更大的,往往是那些掌握通訊鏈路、資料入口和算力資源的企業。如果低軌衛星網路、AI系統和無人平台繼續融合,那麼“空間 + 資料 + 無人系統”,很可能會成為未來幾年軍工產業最重要的一條結構主線。當戰爭形態升級、算力成為軍備、光互連成為基礎設施,你會如何調整自己的資產配置,來參與這場 軍工與 AI 的代際革命? (美股投資網)
龍蝦(OpenClaw)裝上了,怎麼讓它真幹活
中文網際網路上最火的 AI 新物種,叫 OpenClaw,也叫“小龍蝦”。熱度有多真實?小紅書、知乎、B 站滿是安裝教學,從 Mac 到舊手機都能部署。有人做付費課程,有人提供上門安裝服務,甚至出現了專門的知識星球。這說明中國使用者不只是圍觀,已經在真實使用。但裝上容易,用好難。3 月 5 日,LangChain 創始人 Harrison Chase(LangChain 是目前最主流的 AI Agent 開發框架)在訪談裡提到:做一個能在推特上演示的 Agent 很容易,但要讓它每天穩定幹活,非常難。其實 AI Agent (智能體)的想法不新鮮。AutoGPT 兩年前就在做:讓模型循環運行,自己呼叫工具,自己完成任務。但 AutoGPT 沉寂了,OpenClaw 卻火了。為什麼 AutoGPT 沉寂了,OpenClaw 卻火了?為什麼演示容易,運行難?一個真正能幹活的 Agent 需要什麼?企業怎麼才能看清 Agent 在做什麼?這些問題的答案,Harrison Chase 在這次訪談裡講得很清楚。第一節 |為什麼突然所有公司都在裝龍蝦OpenClaw 的爆火看起來很突然。但在 Harrison Chase 看來,這件事其實準備了很久。時間往前倒兩年,開發者圈出現過一個類似項目叫 AutoGPT。它一度成為GitHub 增長最快的開源倉庫,很多人第一次看到:原來 AI 可以不斷循環運行,自己呼叫工具,自己繼續完成任務。它的做法就是:模型思考,呼叫工具,根據結果繼續行動。但 AutoGPT 很快就不火了。為什麼?那時候的模型還不夠穩定。任務一長,模型做著做著就亂了,或者在同一個步驟裡反覆打轉。演示很驚豔,實際用起來經常出問題。Harrison Chase 後來總結過:想法很美好,但要讓它可靠地運行,其實很難。過去一年,這個難題開始有解了。模型能力明顯提升。Claude、GPT 以及新一代大模型,處理長任務時更穩定,呼叫工具也更準確。但更關鍵的變化是:Agent 開始有了管理自己工作環境的能力。最明顯的是檔案系統。它們可以把資訊存到檔案裡,需要的時候再讀取。它可以像人在電腦上工作一樣,有地方放資料,有地方寫草稿,任務做到一半可以保存,然後繼續往下走。模型變聰明,加上有了檔案系統,就讓 OpenClaw 這樣的 Agent 真正能用起來了。技術不是突然誕生的,只是慢慢跨過了某個臨界點。所以你會看到,越來越多公司開始把龍蝦裝進自己的系統。第二節 |演示容易,幹活難在那裝上龍蝦之後,很多公司很快會發現:Agent 看到的資訊和人類不一樣。人在工作時,可以自己決定要看那些資料,要跳過那些細節。但 Agent不行。它只能看到你給它的資訊。給多了處理不過來;給少了又會亂套。Harrison Chase 提到 AutoGPT 當年的做法:如果呼叫一個 API,返回了 40000 個 token 的資料,它就直接把這 40000 個 token 全部塞給模型,作為下一步的輸入。結果就是:資訊量太大,模型根本處理不過來。到了OpenClaw 這一代,思路變了:把這 40000 個 token 存到檔案裡,只告訴模型前面 1000 個 token 的內容。如果 Agent 判斷需要更多資訊,可以自己用工具去讀完整版。這個改變看起來很小,但本質上是把控制權交給了 Agent 本身。它可以決定自己要看什麼、什麼時候看。Harrison Chase 管這個叫上下文工程:在正確的時間、以正確的格式、把正確的資訊給到模型。任務一長,Agent 需要的資訊就會越來越多。你要決定那些資訊應該一直保留,那些可以暫時放一邊,那些應該壓縮,那些需要詳細展開。這就是讓 Agent 真正幹活的關鍵所在。第三節 | 能幹活的 Agent 需要什麼第二節說的上下文管理問題,怎麼解決?Harrison Chase 在訪談裡提到,需要一整套結構。這套結構現在已經相對清晰了。1. 首先是規劃讓 Agent 在動手之前先想清楚:這件事需要那些步驟,每一步應該做什麼。具體做法是給它一個待辦事項列表工具,讓它自己記錄任務進度。這樣 Agent 就不會做著做著忘了目標。2. 然後是子 Agent當任務太複雜時,可以把它拆成幾個小任務,每個小任務交給一個專門的子 Agent 去做。比如一個負責查資料,一個負責寫程式碼,一個負責整理結果。為什麼要這樣做?因為每個子 Agent 有一個清晰的上下文窗口,只關注自己的小任務,不會被其他資訊干擾,可以真正深入把事情做好。做完之後,把結果交回給主 Agent。3. 接下來是檔案系統它的作用遠不止“有地方存檔案”。真正重要的是:檔案系統讓 Agent 可以管理自己的上下文。Agent 可以把暫時用不到的資訊存到檔案裡,需要的時候再讀取。它可以把大塊的工具返回結果先存起來,只看摘要,要深入瞭解時再打開完整版。這就解決了第二節說的資訊過載問題。4. 最後是提示很多人以為模型變聰明了,提示就不重要了。事實正好相反。Claude Code 的系統提示詞,如果把工具定義也算進去,大約有 2000 行長。提示仍然極其重要,因為它決定了模型會怎麼推理、Agent 會怎麼行動。有了這套結構,Agent 就有了幹活的基礎。第四節 |企業的難題:你根本不知道 Agent 在做什麼規劃、子 Agent、檔案系統,這些都有了。但 Agent 還是會出問題。這時候,一個新的難題又來了:它們到底在系統內部做什麼?傳統軟體出了問題,開發者可以很快定位。因為程序是按固定流程走的,每一步都有記錄。但 Agent 不一樣。它根據任務內容不斷生成新的行動:呼叫工具、修改檔案、重新規劃。從外面看,任務在繼續,但如果中途出錯,很多團隊根本不知道它之前做過什麼,也不知道在那一步開始出問題。不知道 Agent 在做什麼,帶來兩個麻煩:一個是偵錯困難。任務失敗了,不知道那裡出錯。另一個是安全風險。Agent 有權限呼叫工具、修改檔案、訪問資料。以OpenClaw 為例,它權限很高,能做很多事,但缺乏護欄。LangChain 現在直接禁止員工在工作電腦上裝,就是擔心不可控的風險。OpenClaw 的高權限正是它威力所在,問題是現階段的版本缺乏企業級的安全控制。企業需要的是一個既強大又可控的版本。怎麼做到可控?要知道 Agent 在做什麼,就得先把每一步行動都記錄下來。這叫執行軌跡。但記錄只是開始,真正的挑戰是:當 Agent 大規模執行階段,這些軌跡會變成海量資料。Harrison Chase 在訪談裡講到兩個真實案例:一家叫 Clay 的公司在用 Agent 做客戶資料自動化,每月運行數百萬甚至數十億次,他們不可能用肉眼去看這些軌跡。還有程式碼開發平台 Replit,他們的軌跡可以長達數千步,你需要在單一軌跡內部搜尋,找到某個具體時間點發生了什麼。面對這種規模,只能用 LLM 去分析這些執行記錄,自動尋找問題。比如找出使用者可能困惑的地方,或者連續呼叫同一個工具三次但得到不同錯誤的地方。LLM 可以對軌跡進行分類、聚類,告訴你使用者在怎麼使用這個系統。Harrison Chase 的判斷是:這件事可能比模型能力更重要。執行軌跡和可觀測性,是讓 Agent 真正發揮作用的核心要素,也是 LangChain 真正的護城河所在。因為當 Agent 開始承擔越來越多工作時,企業需要的不只是一個聰明的模型,更需要一套能看清它在做什麼的工具。有了結構,再加上可觀測性,Agent 才能從偶爾成功的演示,真正變成每天穩定幹活的工具。結語|裝上只是第一步OpenClaw 的流行,讓很多公司開始把 Agent 接入實際工作。但裝上只是第一步。讓它穩定運行,需要解決上下文管理問題。讓它從演示走向生產,需要規劃、子Agent、檔案系統這套結構。讓它真正安全可靠,還需要可觀測性。這些,就是 Harrison Chase 說的答案。裝龍蝦不難,難的是這些。 (AI 深度研究員)
世界紀錄!人類首次觀察到晶片內部“鼠咬”缺陷
近日,美國康奈爾大學(Cornell University)研究團隊聯合台積電及先進半導體材料公司(ASM),在半導體成像領域取得重大突破,首次利用高解析度3D成像技術,成功觀察到晶片內部的原子級缺陷——“鼠咬”(mouse bite)缺陷。該成果於今年2月23日發表在《自然通訊》期刊,標誌著半導體行業的一次重大突破,也為高端晶片的偵錯與故障排查提供了全新工具。這項研究由大衛·A·穆勒(David Muller)教授牽頭,研究團隊借助電子疊影成像技術(ptychography),捕捉到電晶體內部的細微缺陷,這類“鼠咬”缺陷類似電晶體介面上的微小缺口,形成於晶片製造過程中,會干擾電子流動,進而影響晶片性能。這項成像技術是康奈爾大學與台積電、半導體材料公司 ASM 合作的結果,可能影響幾乎所有形式的現代電子裝置,從手機和汽車到人工智慧資料中心和量子計算。如今,高性能晶片的電晶體通道寬度僅15至18個原子,任何微小的結構偏差,都可能造成明顯的性能損耗。穆勒形象地比喻:“電晶體就像電子的‘微型管道’,內壁越粗糙,電子流動就越慢,精準測量其狀態至關重要。”以往人們只能通過投影圖像推測晶片內部結構,如今借助這項技術,工程師可直接觀測關鍵工序後的晶片狀態,精準調整工藝參數。穆勒教授指出,這是目前唯一能直接觀測這類原子級缺陷的方法,將成為晶片開發階段的重要特徵化工具,幫助工程師更精準地識別故障、完成偵錯,尤其是在開發階段。微小的缺陷一直是半導體行業的一大挑戰,隨著技術的日益複雜,元件的尺寸已縮小至原子尺度。本次研究的焦點也是電腦晶片的核心 —— 電晶體:一個小小的開關,電流通過一個由電門控制開啟和關閉的通道流動。研究團隊計畫進一步拓展電子疊影成像技術的應用,研究並減少缺陷,進一步提升晶片可靠性,以應對日益增長的人工智慧和高性能計算需求。 (半導體技術天地)
The Information:OpenClaw 在中國AI圈的發酵和擴散速度,遠超矽谷想像
「在中國,OpenClaw 的發酵速度和擴散範圍,遠超矽谷的想像。」The Information 最近的一篇報導提到,「我認識的每個創始人,現在都在做新項目,試探個人 Agent 的能力邊界。」不僅是 AI 創業公司,字節、阿里、騰訊這些大廠也集體下場,在各自的雲平台上線了 OpenClaw 服務。開發者不需要自己買硬體,直接在雲端就能跑 OpenClaw Agent。這一點,AWS、Azure、Google Cloud 三家美國雲巨頭都還沒有做到。Agent 基礎設施、Skills 開發、Agent 社交應用......,圍繞以 OpenClaw 為代表的 Agent 生態正在中國瘋狂生長。如果你最近關注了矽谷的動向,一定聽說過 OpenClaw。這是一款開放原始碼軟體,核心功能是讓 AI Agent「接管」你的電腦——它可以操控滑鼠、點選按鈕、填寫表單、瀏覽網頁,像一個真人一樣在你的螢幕上完成各種任務。在美國,工程師們用它來預約牙醫、記錄會議、自動化日常工作流程。它火到 Meta 試圖挖走創造者 Peter Steinberger,雖然 Peter 最終去了 OpenAI,Google 和 Anthropic 直接封鎖了對它的存取權。但在中國,這件事的發酵速度和擴散範圍,遠超矽谷的想像。01春節不放假,全在做 OpenClaw「我認識的每個創始人,現在都在做新項目,試探個人 Agent 的能力邊界。」Mindverse AI 的聯合創始人兼 CEO 陶芳波說道。Mindverse 背後站著紅杉中國和澳大利亞 VC Square Peg。今年春節前後,他們辦了一場五天的線上駭客馬拉松,圍繞 OpenClaw 開發 AI Agent 應用。參賽作品相當炸裂:有人做了一個「AI 相親平台」,讓 AI Agent 替主人尋找另一半——堪稱 Tinder 的 AI Agent 版本;有人搭了一個 AI 招聘網站,求職者的 Agent 直接跟僱主的 Agent 面談;還有人做了一款「AI 旅行日誌」應用,使用者的 AI 分身在虛擬世界環球旅行、互相交朋友,還會定期寫遊記。這些聽起來像是腦洞大賽,但背後反映的是一個嚴肅的趨勢:個人 AI Agent 正在從技術 demo 變成真正的產品。更關鍵的是,許多中國創始人是在春節假期期間連軸轉趕出來的。不是因為老闆要求,而是因為他們知道:所有競爭對手也在做同樣的事。「中國的科技創業者對 OpenClaw 的反應是即時的,立刻就啟動了新項目,因為他們知道所有競爭對手也會這麼做。沒有人想掉隊。」Qveris 聯合創始人 Dongqi Qu 說。他最近參加了一場北京的 OpenClaw 開發者聚會,到場人數大約 300 人。02字節、阿里、騰訊集體下場,美國雲巨頭缺席一個值得關注的現像是:中國的雲端運算巨頭對 OpenClaw 的反應速度,竟然比美國同行更快。字節跳動、阿里巴巴、騰訊三家已經在各自的雲平台上線了 OpenClaw 服務。這意味著開發者不需要自己買硬體,直接在雲端就能跑 OpenClaw Agent。這一點,AWS、Azure、Google Cloud 三家美國雲巨頭都還沒有做到。為什麼?一方面,中國的開源 AI 模型生態已經相當成熟,大量具備 Agent 能力的模型價格低廉、唾手可得。比如月之暗面的 K2.5 模型,在今年二月初成為了 OpenRouter 上開發者使用 OpenClaw 時最受歡迎的模型。另一方面,MiniMax 和月之暗面等國內 AI 公司也在自己的應用中內嵌了 OpenClaw 的雲端版本,把它變成吸引使用者的新手段。模型便宜、雲服務到位、競爭激烈——這三個條件疊加,讓中國成了 OpenClaw 創業最肥沃的土壤。03從軟體到硬體,OpenClaw 正在「入侵」物理世界更有意思的是,OpenClaw 的影響已經溢出了軟體領域,開始滲透到硬體製造。在廣州,一家叫 Candysign 的初創公司生產智能充電裝置。上周,他們上線了一個新功能:使用者可以通過字節跳動旗下的即時通訊應用和一個 OpenClaw Agent 對話,遠端控制家裡或辦公室的充電器。海外使用者則可以通過 Telegram 完成同樣的操作。「我們公司就是一群技術宅和極客……用 OpenClaw 在自家產品上做實驗,對我們來說是再自然不過的事了。」Candysign 聯合創始人 Wilson Wang 說。這可能只是冰山一角。當 AI Agent 能夠操控電腦螢幕上的一切時,它們也可以操控一切擁有數字介面的硬體裝置。OpenClaw 正在從「電腦操控工具」變成「萬物操控入口」。0411 台 MacBook 組成的「AI 打工軍團」一個有意思的故事是,在大廠工作的產品經理陳浩鵬買了十一台二手 MacBook Air,組成了一個「AI 打工軍團」。每台上面跑著一個 AI 智能體,全天候替他營運社交媒體帳號、寫帖子、回評論。陳浩鵬白天在一家頭部科技大廠做產品經理,副業是營運 AI 生成的網紅帳號。當 OpenClaw 在一月份火起來的時候,他做了一個在常人看來有點瘋狂的決定:買了八台二手 MacBook Air,在每台上運行不同的 OpenClaw Agent,組建了一支 AI 內容創作「軍團」。這些 Agent 7x24 小時運轉,自動建立社交媒體內容、回覆粉絲評論。據他分享的截圖,部分帖子獲得了數萬點贊。「我的 OpenClaw 員工沒有自尊心、沒有情緒波動。你可以讓他們凌晨四點幹活,幾分鐘內就給你回覆。」幾天前,他又加購了三台 MacBook Air。現在他的「團隊」已經擴充到 11 台機器。出門的時候,他有時會把所有筆記本塞進一個巨大的背包裡隨身攜帶。「確實很沉,但實在太好玩了。」這個故事乍聽很荒誕,但它揭示了一個正在發生的結構性轉變:當 AI Agent 的運行成本足夠低、能力足夠強的時候,「僱傭 AI」將成為個體創業者的默認選項。不需要融資,不需要招人,一個人加幾台電腦就是一家公司。05對於 AI 創業者來說,OpenClaw 是一次不可逆的衝擊陶芳波正在把 Mindverse 的駭客馬拉松變成每月一次的常規活動,持續鼓勵開發者圍繞 AI Agent 建構新應用。Mindverse 旗下的 Second Me 平台——一個建立使用者 AI 數字分身的產品——上周剛上線了 Agent 應用分發功能,正在朝 OpenClaw 競爭者的方向演進。陶芳波認為,OpenClaw 只是一個導火線。真正的 AI Agent 浪潮還在後面。「我認為 OpenClaw 所引發的一切,對中國 AI 創業者群體來說,是一個不可逆的衝擊。」這句話的份量在於「不可逆」三個字。就像移動網際網路之於 PC 網際網路,AI Agent 之於傳統 AI 應用,可能就是這一代技術創業者面臨的範式轉移。區別在於:這一次,中國的反應速度可能比矽谷更快。 (Founder Park)
爆火的OpenClaw怎麼玩?Google老哥40天打磨終極配置單開源:讓你的龍蝦越養越聰明,自動打怪升級
OpenClaw在全球範圍內正掀起一場現象級的AI狂潮。線上線下,無論是開發者還是科技前沿關注者,都在追逐這個爆款。安裝OpenClaw後不知到怎麼養龍蝦?那麼這篇文章就是給你量身定製的。這兩天我刷到Google高級AI產品經理、擁有9.9萬星標GitHub開放原始碼專案Awesome LLM Apps的作者Shubham Saboo,給出了他經過40天實戰打磨的OpenClaw Agent終極落地方案,這是我目前看到的最牛批的方案,大家不妨一閱,實操路線圖附在文後這位Google老哥的OpenClaw Agent每天都在進化。不靠微調提示詞,不靠切換底層模型,更沒有重構系統架構。他只做一件事:與智能體交談,給出反饋,然後看著它們把這些反饋記錄下來。40天前,他的內容智能體還會寫出滿是表情符號和標籤的推文,研究智能體甚至無法在海量資訊中提取有效訊號。糾正它們錯誤的時間,甚至比他自己動手做還要長。但今天,名為Kelly的智能體能夠完全使用他的口吻撰寫草稿,名為Dwight的智能體每天早晨能準時提交7個極具閱讀價值的故事。8個智能體全天候24小時自動運行。他要做的只是打開Telegram,稽核草稿,喝杯咖啡。從第1天到第40天,底層模型沒有任何變化。真正產生質變的,是一堆每周都在不斷豐富演進的Markdown檔案。這就是支撐這套系統的完整技術堆疊。極簡架構:三層作業系統這套完整的作業系統僅由三個核心層級構成:第一層:身份層。定義智能體是誰(涵蓋SOUL.md、IDENTITY.md、USER.md)第二層:操作層。定義智能體如何工作(涵蓋AGENTS.md、HEARTBEAT.md以及特定角色指南)第三層:知識層。定義智能體學到了什麼(涵蓋MEMORY.md、每日日誌、shared-context共享上下文目錄)就這麼簡單。沒有複雜的編排框架,沒有消息佇列,也沒有資料庫。只有磁碟上的Markdown檔案。檔案系統本身就是整合層。第一層:身份層SOUL.md(智能體的靈魂)這個檔案定義了智能體是誰、它具體做什麼以及它的行為方式。以下是研究智能體Dwight的精簡版檔案:# SOUL.md (Dwight)## Core IdentityDwight — the research brain. Named after Dwight Schrute because you share hisintensity: thorough to a fault, knows EVERYTHING in your domain, takes your jobextremely seriously. No fluff. No speculation. Just facts and sources.## Your RoleYou are the intelligence backbone of the squad. You research, verify, organize,and deliver intel that other agents use to create content. You feed:- Kelly (X/Twitter) — viral trends, hot threads, breaking news- Rachel (LinkedIn) — thought leadership angles, industry news## Your Principles### 1. NEVER Make Things Up- Every claim has a source link- Every metric is from the source, not estimated- If uncertain, mark it [UNVERIFIED]### 2. Signal Over Noise- Not everything trending matters- Prioritize: relevance to AI/agents, engagement velocity, source credibility這裡使用了一個名為影視角色設定法的技巧。每個智能體都以影視劇角色命名。當你告訴Claude它擁有Dwight Schrute(美劇《辦公區》角色)的能量時,它會直接從訓練資料中調取對應的性格特質:細緻、專注、對工作極其嚴肅。這相當於免費載入了30季的角色發展背景。檔案長度應控制在60行以內。SOUL.md在每次會話中都會被載入。如果太長,就會佔用本應用於實際工作處理的上下文空間。身份、角色、原則、關係網、個人氣質,這些就足夠了。以下是啟動範本:# SOUL.md## Core Identity[Name] — [one-line description]. [Personality reference if helpful].## Your Role[What this agent does. Be specific. One job, not five.]## Your Principles1. [Most important rule]2. [Second most important rule]3. [Third most important rule]## Relationships[Who does this agent work with? Who consumes its output?]先從一個智能體開始,挑選你日常最重複的任務寫一個粗略的草稿。第一個版本通常很平庸,但在接下來的一個月裡,你會根據實際表現重寫它十幾次。IDENTITY.md(快速參考卡片)如果說SOUL.md是完整的性格剖析,那麼IDENTITY.md就是一張名片。只包含姓名、角色、氣質和一句話簡介。# IDENTITY.md- **Name:** Dwight- **Role:** Research AI — intelligence backbone- **Vibe:** Intense, thorough, zero tolerance for inaccuracy- **Emoji:** 🔍- **Inspiration:** Dwight Schrute (The Office)檔案很小,但當你同時運行8個智能體時,它能極大提升使用體驗。當智能體在Telegram上發消息時,這就是展示出來的身份資訊。USER.md(智能體為誰服務)每個智能體都需要知道它在幫誰。USER.md保存了你的偏好、背景以及塑造智能體行為方式的上下文環境。# USER.md- **Name:** Shubham- **Timezone:** PST (America/Los_Angeles)- **Diet:** Vegetarian## Context- Senior AI Product Manager at Google Cloud- Creator of Awesome LLM Apps (91k+ stars)- Runs Unwind AI newsletter (30k+ subscribers)## Preferences- Short paragraphs, punchy sentences- No em dashes. Ever.- Practical first, theory never只需編寫一次,所有智能體都會讀取它。個人細節比想像中更重要。設定了時區,智能體就不會在凌晨3點安排日程;設定了飲食偏好,負責寫通訊稿的Pam在策劃團隊聚餐時就不會提議去牛排館。這些細節會產生複利效應。第二層:操作層AGENTS.md(行為準則)SOUL.md解決的是智能體是誰的問題,而AGENTS.md解決的是它如何運作的問題。它包含了會話啟動程序、檔案讀取順序、記憶體管理以及安全規則。以下是所有智能體都會繼承的根等級AGENTS.md:# AGENTS.md## Every SessionBefore doing anything else:1. Read SOUL.md — this is who you are2. Read USER.md — this is who you're helping3. Read memory/YYYY-MM-DD.md (today + yesterday) for recent context4. If in MAIN SESSION (direct chat): Also read MEMORY.md## Memory- Mental notes don't survive session restarts. Files do.- When someone says "remember this" → update the memory file- Text > Brain## Safety- Don't exfiltrate private data. Ever.- trash > rm (recoverable beats gone forever)- When in doubt, ask.隨後,每個智能體可以在此基礎上加入自己的規則。比如Kelly的AGENTS.md結合了她特定的工作流進行了擴展:# AGENTS.md (Kelly)## Every SessionBefore doing anything:1. Read SOUL.md2. Read USER.md3. Read X-ARTICLES-INSTRUCTIONS.md — master guide for writing style4. Read X-ARTICLES-EXAMPLES.md — 5 real articles showing the style in action5. Read X-CONTENT-GUIDE.md — post types and formats6. Read intel/DAILY-INTEL.md — Dwight's research (your source material)7. Read DAILY-ASSIGNMENT.md — your daily workflow8. Read memory/YYYY-MM-DD.md for recent context## Intel-Powered WorkflowYou no longer do research. Dwight handles all research.Your job: Read the intel → Craft X content → Deliver drafts智能體在兩次會話之間是沒有記憶的。一切從零開始。如果一個修正意見沒有被寫入檔案,在下一次會話中它就不復存在。AGENTS.md的作用就是明確要求智能體把所有東西都寫下來。專家級檔案是讓智能體變得敏銳的關鍵。Kelly不僅擁有AGENTS.md,她還有6個額外的檔案來精確定義她如何創作內容:寫作風格指南、帖子格式參考、真實案例展示、每日任務分配。Dwight則擁有目標受眾檔案和研究協議。隨著角色定義的不斷完善,每個智能體的資料夾都會不斷擴充。建議從AGENTS.md起步,只有當你發現某個錯誤模式反覆出現需要糾正時,才加入新的專家級檔案。HEARTBEAT.md(自癒機制)智能體團隊構成了基礎設施,而基礎設施是會出故障的。以下是主控智能體Monica的HEARTBEAT.md:## Health Checks (run on each heartbeat)**Browser:** Check if the OpenClaw managed browser (profile=openclaw) is running.If running: false, start it. The browser has X account logged in.Dwight depends on it for intel sweeps.**Cron jobs:** Check if any daily jobs have stale lastRunAtMs (>26 hours).If stale, trigger via CLI: openclaw cron run <jobId> --forceJobs to monitor:- Dwight Morning (8:01 AM)- Kelly X Drafts (5:01 PM)- Rachel LinkedIn (5:01 PM)- Pam Newsletter (6:01 PM)Only run each check once per heartbeat session.Monica在每次心跳周期都會運行此檔案,檢查兩件事:瀏覽器是否存活,定時任務是否真的在執行。這兩者息息相關。如果瀏覽器崩潰,Dwight就無法進行資料蒐集。如果Dwight錯過了蒐集,Kelly和Rachel就會根據過時的資訊起草內容。如果定時任務在後台靜默停止,整個操作表面上看起來很健康,但實際上什麼都沒發生。最後一種情況確確實實發生在了第三周。調度程序出現了bug,任務在佇列中推進但從未執行,幾個小時都沒被發現。此後便加入了心跳檢測機制,在一個地方同時捕獲這兩種故障模式。這個機制在後來已經多次發揮了作用。第一天不需要建立這個機制。在經歷第一次故障後再建立,因為只有痛過,你才會確切知道需要監控什麼。第三層:知識層真正奏效的記憶系統是一個建立在檔案系統之上的三層架構。第一級:MEMORY.md(經過梳理的長期記憶)這裡存放的不是原始日誌,不是發生過的所有瑣事,而是真正重要的核心內容。摘自Monica的MEMORY.md:# MEMORY.md## Shubham's Writing Preferences- NO EM DASHES. Use colons, periods, or restructure.## Hard Lessons- NEVER delete project folders without asking Shubham. On Feb 26,  deleted Ross's gemini-council React app during cleanup. The React  version was lost. Always ask before removing anything in agent  project directories.## Memory System (2026-02-26)- Tried self-hosted Mem0 (Ollama + SQLite) → crashes, stored nothing.- Tried Mem0 hosted API → free tier too limited. Removed.- Now using built-in memory-core: Gemini embeddings, hybrid search,  temporal decay, MMR. No external dependencies.注意慘痛教訓這個部分。Monica曾經誤刪過一個項目資料夾。現在這個錯誤被永久記錄在了她的長期記憶中。她再也不會犯同樣的錯誤。一次修正,永久儲存,預防了未來所有會話中重複同樣的錯誤。摘自Kelly的MEMORY.md:## X Post Rules (ALWAYS)### SHUBHAM'S EXACT INSTRUCTIONS:- Start with a strong hook- Keep entire tweet SUPER SHORT (180 chars or less)- NO hashtags, NO emojis- NO fluffy marketing language- Always deliver 3 drafts per topic### BAD (what I did wrong)[Lists every pattern Kelly rejected: bullets, arrows, LinkedIn tone]壞案例部分是Kelly在被糾正後自己寫下的。她記錄下了自己的錯誤以避免重蹈覆轍。單單這一部分的價值,就超過了任何提示詞工程指南。出於安全考慮,MEMORY.md僅在直接會話中載入,不在群聊等共享上下文中載入。務必將敏感偏好設定排除在全域載入的檔案之外。千萬不要在第一天就去寫MEMORY.md。它是從反饋中生長出來的。給出反饋,智能體將其記錄在每日記憶中,提取重要資訊存入MEMORY.md,它在每次會話中載入,從此這個修正意見就不需要再被提及。第二級:memory/YYYY-MM-DD.md(每日會話日誌)這是原始筆記。記錄了今天發生了什麼,起草了什麼內容,收到了什麼反饋。# Kelly Daily Log — February 5, 2026## 5:00 PM — Daily X Drafts### What's HOT today- Opus 4.6 vs GPT-5.3-Codex dropped 27 min apart- Anthropic's C Compiler (16 agents, $20k, compiles Linux kernel)### Drafts Submitted1. C Compiler — single post, discovery format2. Mitchell Hashimoto's 6 steps — thread format3. Opus 4.6 vs GPT-5.3-Codex — hot take### Awaiting- Shubham's feedback on drafts每日日誌是原材料,MEMORY.md是精煉後的成品。兩者缺一不可。這裡有一條維護法則。每日日誌積累得極快,如果不進行修剪,智能體的上下文就會急劇膨脹。Kelly的上下文曾一度飆升至16.1萬個Token,導致輸出質量暴跌。後來不得不將其壓縮到4萬個Token。現在每兩周必須審查並歸檔一次舊的每日日誌。每次會話只需載入今天和昨天的日誌,智能體不需要每次都攜帶全部歷史記錄。第三級:結構化的記憶資料夾在根目錄下,記憶按人員進行組織:memory/├── shubham/     # Private notes, work projects, ideas├── shared/      # Joint context (Awesome llm apps, Unwind AI, travel)└── 2026-02-27.md   # Daily operational logs隨著系統的壯大,可以按人員或項目來組織結構。Shared Context(跨智能體知識共享層)這是最新加入的層級,也是徹底改變遊戲規則的一步。這是一個所有智能體在會話啟動時都會讀取的單一資料夾。shared-context/├── THESIS.md        — what I believe right now├── FEEDBACK-LOG.md  — corrections that apply across agents└── SIGNALS.md       — articles and trends I'm trackingTHESIS.md記錄了當下的世界觀:關注什麼,已經寫了什麼,還缺什麼。Dwight閱讀它來確定研究優先順序,Kelly閱讀它來匹配思維方式,Ryan閱讀它來構思文章主題。所有智能體都向同一個事實源對齊。FEEDBACK-LOG.md是跨智能體的修正層。當告訴Kelly不要使用破折號時,這個反饋對Rachel、Ryan和Pam同樣適用。與其分別糾正四個智能體,不如寫一次讓所有智能體共同讀取。協同機制:沒有API,只有檔案智能體之間不需要API呼叫,也不需要消息佇列。只有檔案。Dwight將研究成果寫入intel/DAILY-INTEL.md。Kelly讀取它,Rachel讀取它,Pam讀取它。檔案系統就是協同調度的核心。一個智能體寫入,其他智能體讀取。交接的媒介就是磁碟上的Markdown檔案。遵循單一寫入者原則。永遠不要讓兩個智能體同時向同一個檔案寫入。每個共享檔案的設計都必須是一個寫入者,多個讀取者。這直接根除了所有你原本需要費力偵錯的協同衝突。時間調度是這套機制順暢運轉的保障。Dwight在早上8點和下午4點運行。Kelly和Rachel在下午5點運行。Dwight必須先運行,因為所有人都在等他的輸出。一旦順序出錯,下游智能體讀取到的就是過時的或空的檔案。完整目錄結構一覽:workspace/├── SOUL.md              # Monica (main agent)├── IDENTITY.md          # Monica's quick reference├── AGENTS.md            # Root behavior rules (all agents inherit)├── USER.md              # About me (shared across all agents)├── MEMORY.md            # Monica's long-term memory├── HEARTBEAT.md         # Self-healing checks├── shared-context/│   ├── THESIS.md        # My current worldview│   ├── FEEDBACK-LOG.md  # Cross-agent corrections│   └── SIGNALS.md       # Trends I'm tracking├── intel/│   ├── DAILY-INTEL.md   # Dwight's output (agents read this)│   └── data/├── agents/│   ├── dwight/│   │   ├── SOUL.md│   │   ├── IDENTITY.md│   │   ├── AGENTS.md│   │   ├── TARGET-AUDIENCE.md│   │   ├── RESEARCH-PROTOCOL.md│   │   ├── HEARTBEAT.md│   │   └── memory/│   ├── kelly/│   │   ├── SOUL.md│   │   ├── IDENTITY.md│   │   ├── AGENTS.md│   │   ├── X-CONTENT-GUIDE.md│   │   ├── X-ARTICLES-INSTRUCTIONS.md│   │   ├── X-STRATEGY.md│   │   ├── DAILY-ASSIGNMENT.md│   │   └── memory/│   ├── ross/│   ├── rachel/│   ├── pam/│   ├── ryan/│   └── chandler/└── memory/    ├── shubham/    ├── shared/    └── 2026-02-27.md為什麼這套系統極其有效?因為這些檔案不是靜態的,它們在不斷進化。Kelly的SOUL.md在第一天只是個粗糙的草圖。到了第40天,裡面已經包含了具體的語氣示例、她自己整理的被拒模式列表,以及一個絕不再提建議類股,記錄了她已經涵蓋過的所有主題。Dwight的原則在第一天唯寫著尋找熱門趨勢。到了第10天,原則變成了如果目標開發者讀者今天不能直接用它採取行動,就跳過。到了第20天,他加入了驗證步驟:檢查程式碼庫建立日期,檢查Hacker News發佈時間戳,追溯資訊發現的原始出處。在第20天之前並沒有共享上下文層。因為不斷向多個智能體重複同樣的修正,所以才建立了THESIS.md和FEEDBACK-LOG.md。瞬間,一次修正就可以在全網傳播。這一個微小的改變,比任何提示詞最佳化節省的時間都要多。第1天和第40天使用的模型是完全一樣的。它並不會因為你使用的時間變長而自動變得更聰明。但是包裹著它的這些檔案變得更豐富、更敏銳、更貼合你的確切需求。這種不斷積累的上下文環境,才是真正的技術護城河。使用同一個模型的人,根本無法複製這種能力。你必須通過每天親自下場與智能體交談來贏取這條護城河。實操路線圖不要試圖在一個周末把所有東西都建好。今天。 安裝OpenClaw。寫一個SOUL.md,一個IDENTITY.md,一個USER.md。挑一個你最重複的日常任務。設定一個定時任務。讓它跑起來。3天後。 智能體初期的輸出會很平庸。開始給出具體的反饋。確保這些反饋落實在記憶檔案中,而不僅僅停留在聊天框裡。1周後。 建立AGENTS.md。定義會話啟動程序。加入記憶體管理規則。2周後。 啟動MEMORY.md。回顧每日日誌。那些錯誤反覆出現?將它們提取成永久條目。這個時候,你就會開始感受到複利的威力。3周後。 加入第二個智能體。建立基於檔案的協同機制:第一個智能體寫入共享檔案,第二個智能體讀取。隨著模式的顯現,加入角色專屬指南。同期。 建構共享上下文層。在達到這一步之前,你一定會感受到這種需求。向多個智能體重複同樣的修正就是最明顯的訊號。建立代表當前思維的THESIS.md和用於跨智能體修正的FEEDBACK-LOG.md。4周後。 在遭遇第一次故障後加入HEARTBEAT.md。因為痛過,所以你確切知道需要監控什麼。你要做的僅僅是與智能體交談。剩下的事情,交給檔案系統。 (AI寒武紀)
奧特曼砸場發佈 GPT-5.4!網友:一句 Hi 燒掉 80 美元
每次打開 AI 工具,你大概都要先想一秒鐘:這個任務,該用那個模型?寫程式碼是一個,查資料是另一個,讓 AI 幫你操作電腦,還得再開一個窗口。今天過後,這種分裂感終於有了一個答案。就在剛剛,OpenAI 正式發佈 GPT-5.4,把程式設計、推理、電腦操控、網頁搜尋和百萬 Token 上下文全部整合進同一個模型,且沒有為了整合而犧牲任何一項的能力。OpenAI CEO 山姆·奧特曼也在 X 平台發了一條簡短推文,點出了五個方向:知識工作更強、網頁搜尋更出色、原生電腦操控、支援百萬 Token 上下文、響應過程中隨時可介入。寥寥數語,對應的恰好是過去兩年 AI 應用落地中最集中的五個痛點。知識工作:十次有八次,AI 贏了專業人士理解 GPT-5.4 在知識工作上的進步,需要先瞭解 GDPval 這個基準的設計邏輯。它橫跨美國 GDP 貢獻最大的 9 個行業、44 種職業。任務是那些職場裡每天真實發生的工作:給投資銀行寫財務模型、給醫院排急診班次、給銷售團隊做簡報。任務完成後,把輸出結果交給行業內的真實從業者盲測打分,看 AI 的產出能贏過多少比例的人類同行。GPT-5.4 的答案是 83.0%,意味著十次對比中有八次以上,行業專業人士認為 AI 的產出達到或超過了人類同行水準。上代 GPT-5.2 是 70.9%,差距將近 13 個百分點。進步在電子表格建模上表現得最為具體。GPT-5.4 模擬初級投行分析師完成建模任務,平均得分 87.3%,GPT-5.2 是 68.4%,GPT-5.3-Codex 是 79.3%,差距將近 20 個百分點。法律平台 Harvey 的 BigLaw Bench 測試結果同樣亮眼,GPT-5.4 得分 91%,專業服務評測平台 Mercor 的 APEX-Agents 基準中也拿下了第一。精準性方面同樣值得關注。幻覺問題一直是 AI 進入專業場景最大的攔路虎,每降低一個百分點,都意味著更多場景可以放心用它。資料顯示,與 GPT-5.2 相比,GPT-5.4 單條陳述出錯的機率低了 33%,完整回覆含有錯誤的機率低了 18%。程式設計:一個模型,寫程式碼測程式碼全包了GPT-5.4 把 GPT-5.3-Codex 的程式設計能力整合進主線,對開發者來說,這意味著你不再需要為了寫程式碼單獨開一個模型,而且程式設計能力本身也沒有因此打任何折扣。SWE-Bench Pro 專門測試真實軟體工程任務,GPT-5.4 得分 57.7%,GPT-5.3-Codex 是 56.8%,GPT-5.2 是 55.6%。整合之後,程式設計分數不降反升,同時還順帶獲得了電腦操控等一整套通用能力,幾乎找不到明顯的弱點。知名 AI 評測博主 Dan Shipper 試用後寫道:「這是我們最近一段時間裡見過 OpenAI 最出色的規劃能力,程式碼審查也很強,而且成本大約只有 Opus 的一半。」他點出了兩個具體維度。其一,規劃能力是長任務成敗的關鍵,GPT-5.4 在任務拆解和持續推進上明顯更有條理。其二,與 Claude Opus 相比約一半的成本,對需要大規模 API 呼叫的開發者來說,這個差距在帳單上會非常直觀。開啟 Codex 中的 /fast 模式後,可使 GPT‑5.4 的 token 生成速度提升最高 1.5 倍,使得使用者可以在編碼、迭代和偵錯過程中保持流暢的工作狀態。與此同時,新推出的實驗性功能 Playwright Interactive 把 GPT-5.4 的程式設計體驗又推進了一步。GPT-5.4 在建構 Web 或 Electron 應用時,能夠通過可視化瀏覽器進行即時偵錯,模型可以邊寫程式碼、邊測試自己正在建構的應用,同時承擔開發者和測試員兩個角色。OpenAI 展示了一個典型案例:僅憑一條輕量提示詞,GPT-5.4 生成了一個完整的等距視角主題公園模擬遊戲,涵蓋基於瓦片的路徑鋪設與景點建設系統、遊客 AI 尋路與排隊行為,以及資金、遊客數、滿意度、清潔度四項指標全部即時動態更新的綜合評分。Playwright Interactive 在整個過程中承擔了多輪自動化測試,驗證路徑鋪設、攝影機導航、遊客響應及 UI 指標的正確性。從寫程式碼到測試驗收,模型全程自己完成。博主 Angel 同樣用 GPT-5.4 寫了一個 Minecraft 克隆版,模型花了約 24 分鐘,運行流暢,過程中沒有卡住。他在推文裡寫道「Minecraft 基本上被攻克了,我現在得找個新測試了」。沃頓商學院教授 Ethan Mollick 同樣獲得了早期存取權。他用同一條提示詞,讓 GPT-5.4 Pro 生成了一個受《皮拉內西》啟發的三維空間場景,全程沒有報錯,只額外追加了一句「把它做得更好」的指令。他隨後把結果和兩年前 GPT-4 生成的版本並排放在一起,差距一眼可見。操控電腦這件事,它現在比你做得好這是 GPT-5.4 這次發佈裡最值得單獨說一說的變化。此前 OpenAI 的電腦操控能力是一個獨立模組,跟模型的語言理解、程式碼生成之間有一道明顯的分隔。兩套系統各管各的,資訊要來回傳遞,效率自然打折。現在這道分隔沒了,GPT-5.4 操控電腦時,用的就是模型本身的推理能力,不需要再繞一圈。這也是 OpenAI 第一款將電腦使用(computer use)能力原生內建進通用模型的產品,以後談 AI Agent,相信這會是一個新的起點。基準測試結果顯示,OSWorld-Verified 基準測試桌面導航能力,用截圖加滑鼠鍵盤互動完成真實作業系統任務。GPT-5.4 達到 75.0% 的成功率,人類基線是 72.4%,GPT-5.2 是 47.3%。簡言之,它不僅追上了人類,還超過了人類。在只用截圖模式測試瀏覽器操控的 Online-Mind2Web 基準中,GPT-5.4 達到 92.8%,對比對象 ChatGPT Atlas 的 Agent Mode 是 70.9%,真實部署案例更能說明問題。Mainstay 將 GPT-5.4 用於約三萬個物業稅務入口網站的自動表單填寫,首次成功率達 95%,三次以內成功率 100%,而此前同類模型僅在 73% 至 79% 之間。會話完成速度提升約三倍,Token 消耗降低約 70%。這背後繞不開視覺感知能力的改進。操控電腦說到底是一件需要「看清楚」的事——看清楚介面上有什麼、按鈕在那裡、點選是否精準。GPT-5.4 在這一層做了專項加強,引入了原始圖像(original)輸入模式,支援最高 1024 萬像素或 6000 像素最大邊長的高保真圖像輸入;原有的高畫質(high)模式上限也從此前的標準提升至 256 萬像素或 2048 像素最大邊長。工具呼叫與網頁搜尋:持續性是核心競爭力一個複雜的 AI Agent 系統,背後可能掛著幾十個 MCP 工具。過去的做法是每次對話開始前,把所有工具的說明一股腦塞進去,不管這次用不用得上,Token 先花了再說。GPT-5.4 換了個思路:先給模型一份簡單的工具清單(即引入工具搜尋機制),真正需要用那個,再去把那個工具的詳細說明取過來,用過一次的還能直接快取,下次不用重新拿。在 250 項任務的測試中,啟用 36 個 MCP 伺服器的完整配置下,工具搜尋模式在保持精準率完全不變的前提下,將總 Token 消耗降低了 47%。將近一半的成本節省,精度一點沒少。網頁搜尋方面,GPT-5.4 在 BrowseComp 基準上得分 82.7%,比 GPT-5.2 的 65.8% 高出 17 個百分點,Pro 版更達到 89.3%,創下業界最高分。Zapier CEO 評價說,GPT-5.4 會在其他模型放棄的地方繼續搜尋下去,是他們測試過持續性最強的模型。百萬 Token 上下文:長長長長長長GPT-5.4 在 API 中支援最高 100 萬 Token 的上下文窗口,相當於可以把一個完整項目的所有相關文件一次性塞進同一次對話。但從測試結果來看,128K 至 272K 是表現最穩定的區間,適合日常使用。256K 以上準確率開始下滑,需要針對具體任務驗證後再用。512K 至 1M 區間的得分降至 36.6%,目前更接近實驗性質,不適合直接用於對精度要求高的生產任務。還有一個實際的成本問題需要注意:超過 272K 的請求會按兩倍用量計入配額。也就是說,發一次超長上下文的請求,額度消耗等於兩次普通請求,用之前值得想清楚是否真的需要這麼長。至於在視覺抽象推理基準 ARC-AGI-2 上,GPT-5.4 Pro 得分 83.3%,而上代 GPT-5.2 Pro 僅為 54.2%。再比如 FrontierMath Tier 4 是目前公認最難的數學基準之一,包含 50 道研究等級的數學題,人類數學家可能需要數周才能解出。GPT-5.4 Pro 在這個基準上得分 38.0%,上代為 31.3%。這個數字的參照系是:一年前,最好的成績是 o3 的 2%,目前最好的開源模型是 4.2%。博主 Deedy 在推文中寫道,從 2% 到 38%,「簡直令人震驚」。Humanity's Last Exam 有工具輔助時,GPT-5.4 Pro 得分 58.7%,GPT-5.2 Pro 是 50.0%,差距接近 9 個百分點。執行中調整,不是完成後返工用過 AI 處理長任務的人大概都有過這種體驗:等模型跑完一大段,發現方向不對,只能從頭再來,時間全浪費了。GPT-5.4 Thinking 在 ChatGPT 中新增了一項「中途打斷」功能:在處理複雜任務之前,模型會先呈現工作計畫概要,再開始執行。使用者可以在執行過程中隨時介入調整方向,不必等到結果出來再從頭重來。這個功能把糾偏這件事從「完成後」提前到了「執行中」,對需要多輪協作的任務來說,體驗差別會比較明顯。功能目前已在 chatgpt.com 和 Android 應用上線,iOS 版本即將跟進。即日起,GPT-5.4 向 ChatGPT Plus、Team 和 Pro 使用者開放,替代 GPT-5.2 Thinking 成為默認思考模型。GPT-5.2 Thinking 將保留至今年 6 月 5 日後正式退役。Enterprise 和 Edu 使用者可由管理員在後台開啟早期訪問,GPT-5.4 Pro 僅對 Pro 和 Enterprise 計畫開放。API 標準版定價為輸入 2.50 美元/百萬 Token,快取輸入 0.25 美元/百萬 Token,輸出 15 美元/百萬 Token。Pro 版為輸入 30 美元/百萬 Token,輸出 180 美元/百萬 Token。Batch 和 Flex 處理享標準價格五折,Priority Processing 為兩倍標準價格。當然,強大的推理能力也有它的另一面。Hyperbolic 聯合創始人金宇晨在 X 平台吐槽,GPT-5.4 Pro 是他用過最愛「過度思考」的模型——僅僅發了一句簡單的「Hi」,模型就開始認真推理,直接燒掉了 80 美元。這並非個例。推理模型的特性決定了它在處理任何輸入時都傾向於深度思考,那怕問題本身根本不需要。對於日常輕量任務,標準版或許是更合適的選擇;Pro 版的推理火力,還是留給真正值得的場合更划算。過去兩年,AI 能力的討論主要集中在基準測試成績上的「聰明」,但 GPT-5.4 的聰明指向的是能夠在真實工作流中,足夠可靠地承擔責任。過去 AI 只能輸出文字,人還需要親自操作才能讓事情發生。現在模型可以自己打開瀏覽器、填寫表單、點選按鈕、記錄結果,獨立完成一個有頭有尾的任務閉環。AI 正在從一個擅長回答問題的系統,變成一個擅長完成任務的系統。而這個轉變的速度,顯然比大多數人預期的更快。 (APPSO)