#Claude
Claude剛剛殺死了OpenClaw!
“龍蝦”終於變成了一個App。🤖頭圖由AI生成“Claude版龍蝦”來了!智東西3月24日消息,今早,Anthropic為Claude發佈了電腦使用(Computer Use)功能,Claude可以自動操控電腦執行任務。在AI協作工具Claude Cowork和AI程式設計工具Claude Code中,使用者可以啟用Claude操控你的電腦來完成任務。其官方推文稱,任何你坐在電腦前可以做的事情,Claude都能使用電腦幫你完成,例如打開某個應用、瀏覽網頁、填寫表格等。上周,Anthropic為Claude Cowork增加了新功能Dispatch,基於此使用者可以用手機操作電腦上的Claude完成任務。Dispatch和電腦使用相疊加,使用者不在電腦前面,就可以手機遠端指揮Claude自動幹活了。Anthropic的官方部落格提到,他們提前發佈這一功能,是希望瞭解它的適用場景與不足之處,正如其當初推出Claude Cowork時所做的那樣。不過,Claude電腦使用功能是早期研究預覽版,並沒有向使用者全量開放。目前只有Claude Pro和Max訂閱使用者可以使用,且僅支援macOS系統使用。Anthropic Claude Cowork項目技術人員Felix Rieseberg透露,Claude電腦使用功能的Windows版本會在未來幾周跟進,並且Claude目前“行動緩慢,遠比現在的人類慢得多”。Anthropic部落格提到,使用者需要確保桌面客戶端處於喚醒以及運行狀態,然後將其與Claude移動端應用配對,即可嘗試從手機移交任務。在Claude的評論區下方,有不少網友感慨“Anthropic剛剛殺死了OpenClaw”。還有一些網友為購買了Mac mini來部署OpenClaw、花數千美元安裝OpenClaw封裝器的使用者惋惜。有網友在調侃:“你還記得之前的ClawdBot嗎?”之前因為Clawd與Claude讀音相似,Anthropic指控其侵權並要求改名。01. 一句話召喚Claude幹活還能幫你偵錯最佳化應用開發在執行任務時,Claude會先精確選擇工具,通過連接器呼叫Slack、Google日曆等服務。當沒有連接器時,Claude可以直接控制使用者瀏覽器、滑鼠、鍵盤和螢幕來完成任務。它會滾動、點選打開和探索,值得注意的是,在執行這些步驟前,Claude都會先徵求使用者的許可。此外,當Claude無法獲取所需工具時,它會在你的螢幕上進行點選和導航操作,自主完成任務。它可以自動打開檔案、使用瀏覽器、運行開發工具,且無需任何前期設定。Rieseberg稱,Claude還可以幫助使用者偵錯正在開發的原生應用。例如,當你赴約遲到,就可以在手機上召喚Claude工作。提示詞:我約會要遲到了。你能把我的簡報匯出成PDF格式,並附到我下午2點的會議邀請裡嗎?Claude就會自動操作電腦匯出PDF,然後將其加入到會議邀請附件中。完成任務後,Claude會回覆使用者“用了今天早上9點47分編輯的版本,並以最高畫質匯出”。例如當你馬上要做匯報,但突然發現少了素材,就可以讓Claude在電腦上幫你自動完成。提示詞:請啟動開發伺服器,擷取庫頁面的截圖,並在下午3點演示前發給我,拜託了!Claude會即時同步自己的執行進度,如正在啟動應用、已找到庫頁面、佈局是什麼樣、正在截圖等。當你時間緊張,來不及處理工作時,Claude也可以幫上忙。提示詞:你能批次處理我桌面上的所有店舖照片嗎?把它們調整為1200像素的PNG格式,並在右下角加入白色Logo。我自己沒時間做了😬Claude會先找到圖片位置,然後在桌面建立新資料夾,將調整了尺寸、加入了“Dragon”水印的圖片放進去。02. 支援手機對話操控Claude早期預覽版易犯錯上周,Claude Cowork中整合了一項新功能Dispatch,該功能支援使用者在手機端與Claude對話、分配任務,只需最後在電腦端檢查Claude完成的任務情況。現在,這項功能已同步上線Claude Code。基於Dispatch,使用者可以每天早上讓Claude自動查看郵件、每周自動拉取固定指標、啟動Claude Cowork或Claude Code會話報告或拉取請求。Dispatch疊加最新的電腦使用功能後,其可應用的場景增多。當使用者外出時,Claude可以代為使用電腦。例如,在使用者乘火車時Claude可以幫助建立早間簡報,在IDE中修改、運行測試並行布PR,推進3D列印項目按計畫執行。Anthropic提到,研究人員為其建構了最小化風險的防護措施。當Claude使用電腦時,其系統會自動掃描模型中的啟動以檢測提示注入等活動。使用者可以隨時叫停Claude,且Claude在訪問新應用前始終會請求許可。不過,與Claude的文字和程式設計能力相比,其電腦使用功能的建構仍處於早期階段,因此可能會犯錯。基於此,Anthropic的研究人員建議使用者在試用新功能時,可以從自己最信任的應用程式開始,避免其接觸敏感資料。03. 結語:AI電腦自動化時代來了Anthropic下場“養龍蝦”此次,Anthropic推出電腦使用功能,在Claude Cowork、Code中原生實現電腦操控,與此前爆火的OpenClaw邏輯相似,都讓AI從簡單對話互動,升級為能夠直接操作桌面、自主執行任務的智能體。兩者不同之處在於,Anthropic的能力是建構在官方產品體系之上的原生能力,而OpenClaw只是第三方開源實現。相比於OpenClaw需要使用者自行部署、偵錯,Anthropic新功能做到了開箱即用,使用者只需下載客戶端即可體驗。在安全風險方面,作為開放原始碼專案,OpenClaw不僅部署門檻高,還存在明顯的資料與權限安全風險;而Anthropic官方方案則會通過權限控制、安全護欄等機制大幅降低使用風險。現階段,Claude電腦使用功能仍處於早期預覽階段,不僅執行速度偏慢,也並未向所有使用者開放,還遠未達到替代OpenClaw的程度。未來,當Claude的電腦使用功能全量上線,再加上其安全護欄、開箱即用,或才能真正迎來“殺死OpenClaw”時刻。 (智東西)
Codex不打算讓Claude Code好過
2月6日,OpenAI總裁Greg Brockman在X上公開發了一條面向全公司工程團隊的帖子,設了一個deadline:到3月31日,任何技術任務,工程師的第一工具應該是agent,而不是編輯器或終端。這是OpenAI對自己下的動員令。如果只看這句話,你可能會覺得又是一條矽谷式的願景聲明。但接下來六周發生的事情表明,Brockman不是在喊口號。OpenAI的Coding Agent平台Codex,正在經歷一輪罕見的產品衝刺,密度之高,節奏之快,甚至讓一些長期關注AI編碼工具的開發者開始重新審視自己的工具鏈。與此同時,Codex在程式設計師群體中的熱度和口碑也在肉眼可見地上升。一切動作都指向“狙擊”Anthropic 如日中天的Claude Code。六周的瘋狂迭代拉一下時間線就能感受到這個節奏。2月2日,Codex桌面App發佈(macOS),OpenAI同時宣佈向ChatGPT免費和Go使用者開放Codex,所有付費使用者的速率限制翻倍。2月5日,GPT-5.3-Codex發佈,OpenAI稱它為"第一個幫助創造了自身的模型"。同一天,Anthropic發佈Claude Opus 4.6。2月12日,Codex-Spark發佈,與AI推理硬體公司Cerebras合作,推理速度超過每秒1000 tokens。OpenAI的說法是,“當模型能力越來越強,互動速度就成了明確的瓶頸。”2月14日,OpenClaw創始人Peter Steinberger宣佈加入OpenAI。據Pragmatic Engineer報導,Steinberger用Codex編寫了OpenClaw的全部程式碼,偏好長時間運行的agentic loop。Sam Altman在X上稱他為“天才”,說他將“推動下一代personal agents”。3月4日,Codex桌面App登陸Windows。3月5日,GPT-5.4發佈,是OpenAI第一個同時具備reasoning、coding和原生computer use能力的通用模型,在Codex和API中支援100萬token上下文。3月6日,Codex Security進入research preview。這是OpenAI推出的應用安全代理,前身為內測階段的Aardvark,能夠分析程式碼倉庫、建構項目級威脅模型、在沙盒中驗證漏洞並提出修復建議。過去30天的beta測試中,它掃描了超過120萬次commits,發現792個critical等級漏洞和超過10000個高危問題,覆蓋OpenSSH、GnuTLS、Chromium等重量級開放原始碼專案。誤報率降低超過50%,噪音降低84%。使用資料也在同步攀升。Sam Altman在X上確認,Codex的周活使用者自年初以來增長超過三倍;Codex團隊負責人Thibault Sottiaux(Tibo)告訴Pragmatic Engineer的Gergely Orosz,1月以來它的使用量增長了5倍,周活開發者超過100萬。Tibo還在播客中提到,Super Bowl周日播出的Codex廣告讓系統幾乎立即承受了巨大負載。六周,七次重大產品動作,這成了OpenAI在產品上最激進的衝刺之一。要理解這個節奏,一方面要看供給側的變化。GPT-5系列模型的agent能力在過去幾個月出現了質的飛躍,從上下文窗口、工具呼叫到長時間自主執行,模型本身的能力到了一個可以支撐Coding Agent這個產品形態的臨界點。另一方面,需求側的訊號同樣強烈。據SemiAnalysis報導,Anthropic的Claude Code已經做出25億美元的年化收入,佔其企業收入的一半以上。Claude Code用真金白銀證明了Coding Agent可以成為AI公司的核心收入引擎。對於估值據報已達數千億美元的OpenAI來說,放棄這個賽道不是一個現實的選項。根據SemiAnalysis的預測AnthropicARR增速一度超過OpenAI時間點上的貼身肉搏也值得注意。GPT-5.3-Codex和Claude Opus 4.6在2月5日同一天發佈。Codex Security和Claude Code Security幾乎同期推出。這種節奏本身就是訊號,兩家公司正在把Coding Agent平台視為正面戰場。開發者開始從Claude Code的單一模式變成混合模式在很長一段時間,Anthropic旗下的Claude Code看起來似乎已經沒有了對手,使用者對它的依賴變得越來越重。而OpenAI顯然不想讓Anthropic 這麼舒服。在Codex的一通激進衝刺後,開發者社區的反應也開始發生一些變化。過去一個月,Reddit和Hacker News上關於Codex和Claude Code的討論,出現頻率最高的詞不是更好或替代,而是stacking。也就是說,越來越多的開發者不是在兩者之間選擇,而是同時使用。Calvin French-Owen是一個典型案例。他是Segment聯合創始人,曾在OpenAI參與Codex web產品的發佈,同時也是Claude Code的深度使用者。他在今年2月寫的一篇部落格裡說,自己選擇工具的核心標準是“我有多少時間,以及我想讓它多自主地跑”。他的日常工作流是用Claude Code做規劃、編排終端和管理git操作,然後切到Codex做實際編碼。他說Opus在跨上下文窗口的工作中效率更高,會同時啟動多個子代理平行探索程式碼庫;而Codex在長時間自主編碼任務上更穩定。Reddit上也出現了更具體的分工模式。有開發者詳細描述了一個五段式workflow,先讓Claude Code出計畫,再讓Codex review計畫,然後由Claude實施,最後交給Codex做code review和QA迭代。還有人直接把Claude Code和Codex串成了一個CLI bridge,因為手動在兩者之間複製貼上太累了。一篇社區分析總結了500多條Reddit評論後的結論,Claude Code在一組小樣本盲測中勝率達到67%,質量更高;但Codex 20美元的套餐能編碼一整天不斷,而Claude Code同價位十幾個prompt就用完了。“Claude Code質量更高但用不完,Codex稍弱但全天能用”,這是2026年3月開發者社區最真實的共識。在Cursor官方的benchmark中,GPT系列整體領先其他模型。開發者社區還流傳著一個比喻來描述兩者的氣質差異,Claude像美國人,適合做充滿創造力的探索和頭腦風暴,Codex像德國人,代表極致的效率和專注執行。“它就像一條咬住骨頭不放的狗,非常固執,會一直嘗試直到解決問題。”當然也有反面聲音。Hacker News上有開發者說Codex對自己來說“每一項都比Claude Code差”,尤其是code review會製造看似合理但實際不存在的問題,他最後只把Codex用來覆核Claude的產出。但大方向已經很明確了,社區討論正在從那個更好就用那個,變成兩個都用,各佔一個工位。比的不再是benchmark,是誰是更實用的產品只看模型benchmark,你不太容易理解Codex為什麼起勢。在SWE-Bench這類編碼評測上,Claude Opus 4.6仍然領先。真正讓Codex拉開差異的地方在別處,OpenAI正在圍繞它建構一整套工程系統。Orosz今年2月發表了一篇對Codex團隊的深度報導。其中最引人注目的事實是,Codex超過90%的程式碼是由Codex自己編寫的。Anthropic方面也有類似的說法,Claude Code的建立者Boris Cherny告訴Orosz,Claude Code的資料大致相當。當然,這裡的90%需要打個折扣理解,在一個成熟項目中,樣板程式碼、測試用例、常規重構佔了大量行數,核心架構決策仍然由人來做。但兩家AI實驗室都在用自己的coding 工具來編寫自己的coding 工具,這種自舉本身就說明了這些工具已經深度嵌入了日常工程流程。Codex 的基本工作原理Codex團隊在工程組織層面走得更遠。Orosz的報導描述了一種新的工作方式,Codex團隊的典型工程師同時運行4到8個平行agent,分別處理feature開發、code review、安全審計、程式碼庫理解、bug修復等任務。工程師的角色正在從寫程式碼的人變成管理agent的人。技術選型上,Codex CLI選擇了Rust(Claude Code使用的是TypeScript)。團隊負責人Tibo給出的理由不僅是性能和正確性,還有工程文化,選擇Rust是為了給團隊設定一個高工程標準,同時減少對npm依賴生態的依賴。他們甚至招募了Rust終端UI庫Ratatui的維護者全職加入團隊。更值得關注的是分層程式碼審查機制。Codex團隊訓練了一個定製的code review模型,據Tibo說約9/10的評論能指出有效問題。審查分兩層,非關鍵程式碼在AI review後可以直接merge,核心agent程式碼和開源元件仍然要求強制人工審查。這套機制的意義在於,審查本身開始分層了。還有兩個細節能說明Codex正在從工具走向系統。Codex可以運行自己的完整測試套件來測試自身;團隊還設定了夜間巡檢,讓Codex自動掃描程式碼庫並生成待審修復建議,工程師每天早上進公司時就有一批修復等著review。一家名為Wonderful的AI開發公司的首席架構師在今年3月寫了一篇文章,描述了他們四個月前禁止手動coding後的經驗。他對兩個工具的定位是,Codex是坐在房間後面戴耳機的工程師,默默讀完你整個程式碼庫15分鐘才寫第一行程式碼,Claude則更有產品感,更擅長判斷什麼感覺對。他們把Codex用於低延遲系統工作、即時語音管線、性能敏感程式碼,Claude則用於UI和前端。從coding工具到Agent平台拉遠來看,Codex六周衝刺的方向指向一個更大的野心。Peter Steinberger的加入是一個人事訊號。他日常同時平行5到10個agent,加入OpenAI後的方向是下一代personal agents,不是coding工具。OpenAI正在用Codex作為agent戰略的入口。Codex Security則是另一個方向的延伸。當Codex從幫你寫程式碼走向幫你審計安全,它的定位就已經變了。GPT-5.4進一步加速了這個轉變。作為OpenAI第一個具備原生computer use能力的通用模型,它在Codex中不僅能寫程式碼,還能操作電腦、跨應用執行工作流。配合正在成型的外掛/skills生態系統和企業級權限管理,Codex的輪廓越來越像一個AI原生的開發平台。Codex團隊在Every的播客中透露了他們眼中的下一個瓶頸,就是程式碼審查。模型生成程式碼的速度已經遠超人類review的速度,驗證產出的正確性成了最緊迫的問題。他們已經在嘗試讓模型通過重現使用者操作路徑來“證明”修復有效,而不是讓人類逐行讀程式碼。這些野心和Claude Code已經越來越清楚的發展方向有很多重合,在從Claude Code那裡迅速搶走了一些使用者和使用場景之後,Codex的勢頭正在起來。回到Greg Brockman 2月6日的那條帖子。他設的deadline是3月31日,目前距離deadline還有兩周多,而從過去六周的節奏來看,Codex的衝刺還遠沒有結束。OpenAI把曾經在模型上呈現出的狠勁兒和卷王的氣質,都放到了Codex上,接下來它和Claude code之間短兵相接的故事,會更精彩了。 (硅星人Pro)
Agentic AI時代,“老大”OpenAI成了“老登”?
ChatGPT的發佈讓OpenAI一戰封神,所有人都覺得這家AI公司會一直贏下去。然而在AI程式設計這條賽道上,佔據先機的卻並非OpenAI。2025年2月份,競爭對手Anthropic低調發佈了Claude Code。這款能夠直接操作電腦、自主完成程式設計任務的AI智能體,在短短幾個月內為Anthropic帶來了超過25億美元的年化收入。與之相比,OpenAI的同類產品Codex,同期年化收入約為10億美元。雙方的差距不止一倍。更令OpenAI尷尬的是,Anthropic的核心創始團隊,正是幾年前從OpenAI離開的那批人。OpenAI位於舊金山Mission Bay的新總部大樓是一棟現代化的玻璃幕牆建築。接待處擺放著介紹公司發展歷程的宣傳資料,樓梯間的牆壁上掛滿了一系列里程碑事件的紀念海報:GPT系列、DALL·E、ChatGPT——每一幅都記錄著這家公司過去幾年的高光時刻。但其中沒有AI程式設計。01. 從Codex到Copilot,OpenAI錯失的先發優勢OpenAI其實很早就開始了AI程式設計方向的探索。2021年,奧特曼和OpenAI聯合創始人格雷格·布羅克曼(Greg Brockman)還在舊金山Mission區的老辦公室,向《連線》雜誌記者展示了一個叫Codex的項目。它是GPT-3的一個分支版本,在GitHub的數十億行開放原始碼上訓練而成。使用者輸入一句自然語言描述,它就能生成一段相應的程式碼。“它可以代表你在電腦世界裡執行操作,”布羅克曼當時說,“你擁有一個可以執行命令的系統。”但這個早期的技術積累,最終沒有轉化為產品層面的持續投入。Codex被微軟看中了。這家軟體公司當時正在開發一個叫GitHub Copilot的產品,這是一款能嵌入程式設計師編輯器、提供程式碼補全功能的工具。一位早期加入OpenAI的員工回憶,當時的Codex“除了自動補全之外做不了太多事情”,但微軟已經將其視為未來產品的重要方向。2022年6月,GitHub Copilot正式發佈,幾個月內就吸引了數十萬使用者。正常情況下,OpenAI應該會加大對這一方向的投入。但接下來發生的事情,讓後來負責Codex產品的團隊感到遺憾。最初的Codex團隊被解散了。一部分成員轉去做DALL·E 2圖像生成項目,一部分去參與GPT-4的訓練。當時公司的首要目標是實現AGI,AI程式設計沒有被視為需要獨立投入的領域。一位前團隊成員說,之後的幾年裡,OpenAI沒有專門的團隊在開發AI程式設計產品。“當時的感覺是,這個領域已經被GitHub Copilot覆蓋了,”畢竟微軟會繼續使用OpenAI的模型來迭代這個產品,不需要OpenAI自己操心。幾個月後,ChatGPT上線,兩個月內使用者數突破1億。OpenAI完全被這次成功轉移了注意力。接下來的2023年和2024年,OpenAI把主要資源投入到多模態模型的研發上,致力於讓AI理解圖像、視訊、音訊,像人一樣操作游標和鍵盤。當時Midjourney等產品正在興起,行業普遍認為大語言模型需要具備處理多模態資訊的能力,才能邁向更高層次的智能。這個方向的選擇本身沒有問題。只是在這段時間裡,AI程式設計這條賽道正在悄然生長,而OpenAI的注意力並不在這裡。02. 競爭對手Anthropic突圍Coding賽道Anthropic選擇了另一條發展路徑。這家公司也做多模態模型和聊天機器人,但有一個方向始終沒有放鬆:程式設計能力。布羅克曼後來在一個播客節目裡談到,Anthropic“從早期就非常專注在程式設計上”。他們不僅用演算法競賽題目訓練模型,還往訓練資料裡加入了真實項目中那些結構混亂的程式碼,就像普通開發者日常面對的那種。“這是我們沒有及時意識到重要性的地方,”他說。2024年6月,Anthropic發佈Claude Sonnet 3.5。很多開發者試用後發現,這個模型的程式設計能力確實突出。一家叫Cursor的初創公司最先受益於此。幾個二十多歲的年輕人做了一款產品:在程式碼編輯器裡用自然語言提需求,AI直接幫忙修改程式碼。他們接入Sonnet 3.5後,使用者量開始快速增長。據熟悉Cursor的人士透露,幾個月內,Anthropic就開始內部測試自己的獨立版本了,也就是後來的Claude Code。Cursor火起來之後,OpenAI曾試圖收購這家公司,但遭到拒絕。對方認為程式設計賽道潛力巨大,希望保持獨立。收購未能達成,OpenAI內部也開始有團隊嘗試AI程式設計方向。2024年底,幾個小型團隊陸續啟動。一個是安德烈·米申科(Andrey Mishchenko)和蒂博·索蒂奧(Thibault Sottiaux)帶領的團隊,這兩人分別是Codex的研究負責人和前GoogleDeepMind研究員。他們最初的動機比較務實:用AI程式設計來加速AI研究,讓AI自動管理訓練任務、監控GPU叢集,研究員就能騰出時間做更有創造性的工作。另一個是亞歷山大·恩比里科斯(Alexander Embiricos)帶領的團隊,他之前負責多模態智能體的研發。他做了一個叫Jam的演示項目,在公司內部引起了不少關注。Jam和2021年的Codex有本質區別。Codex是輸出程式碼讓人來執行,Jam則可以直接進入命令列,自己運行程式碼。恩比里科斯看著電腦螢幕上那個跟蹤Jam操作的自建頁面一遍遍自動更新,感到有些不可思議。“我以前一直以為多模態互動可能是實現AGI的路徑,也許我們以後就是整天和AI共享螢幕,”他說,“但後來逐漸意識到,讓模型以程式設計方式直接訪問電腦,可能是更有效的方向。”這幾個團隊磨合了幾個月後合併在一起。等OpenAI在2025年初完成o3(比o1更針對程式設計任務最佳化的模型)的訓練,他們終於有了建構產品的技術基礎。但這時,Claude Code已經準備公開發佈了。03. 收購受阻與內部衝刺,OpenAI的雙線應對2025年2月,Claude Code以“有限研究預覽”的形式首次亮相。5月,全面開放使用。這個產品和之前流行的“氛圍編碼”模式不同。氛圍編碼是人主導、AI輔助的程式設計模式,由人做決策,AI執行具體操作。而Claude Code可以直接在命令列工作,訪問使用者的所有檔案和應用程式,開發者可以把部分工作真正交給AI來完成。OpenAI也開始加快節奏。索蒂奧在3月組建了一個“衝刺團隊”,把內部幾個小組整合在一起,計畫在幾周內推出競品。與此同時,奧特曼開始尋找收購目標,他們看上了一家叫Windsurf的AI程式設計初創公司,報價30億美元。如果收購完成,產品、團隊、企業客戶都能快速補齊。但這筆交易被微軟擱置了數月。據《華爾街日報》報導,微軟希望獲得Windsurf的智慧財產權。這家雲巨頭從2021年起就用OpenAI的模型支撐著GitHub Copilot,每次財報電話會都會提及這個產品。但Cursor、Windsurf、Claude Code陸續出現後,GitHub Copilot的產品形態顯得有些過氣。此時OpenAI再推一個新的編碼產品,微軟的態度自然變得複雜。Windsurf的交易正趕上OpenAI和微軟重新談判合作協議。OpenAI希望從微軟那裡爭取更多自主權,不希望產品和算力資源被過度控制。這筆收購成了雙方博弈過程中的犧牲品。到7月,交易正式告吹。後來Google招攬了Windsurf的創始人,剩餘團隊則被另一家編碼初創公司Cognition收入麾下。“我本來挺希望做成這筆交易的,”奧特曼說,“但不是每一筆交易都能控制。”不過他提到,Codex團隊的表現讓他有些意外。談判那幾個月,索蒂奧和恩比里科斯一直在迭代產品,沒有停下來。到8月,OpenAI開始加速推進自己的產品。04. 從5%到40%:Codex猛追市場份額布羅克曼有一個自己設計的測試方法,叫“反向圖靈測試”。他多年前親自編寫了這套程序,規則是這樣的:兩台電腦前各坐一個人,每人螢幕上有兩個聊天窗口,一個連接著對面的人,一個連接著AI。目標是判斷那個窗口是AI,同時還得讓對方以為你才是AI。去年大部分時間,OpenAI最好的模型要完成這個遊戲的程式碼編寫,需要好幾個小時,中間還得有人一步步引導。到12月,Codex用GPT-5.2做引擎,一個結構清晰的提示詞輸入後,就能直接生成一個可運行的遊戲。感受到變化的不僅僅是布羅克曼。開發者社區裡開始頻繁討論AI程式設計智能體的能力提升,話題從矽谷擴散到更廣的範圍。一些沒有程式設計背景的人,也開始嘗試用這些工具做些簡單的軟體項目。Anthropic和OpenAI都在爭搶使用者。有開發者表示,自己每月支付200美元的Codex或Claude Code訂閱費,實際能用到價值1000多美元的服務。兩家公司都在用慷慨的用量限制把使用者往工作流裡引導,等人用習慣了,再按實際用量收費。從資料上看,OpenAI確實在縮小差距。2025年9月,Codex的使用量大約是Claude Code的5%。到2026年1月,這個比例上升到接近40%。Notion的聯合創始人西蒙·拉斯特(Simon Last)說,他和團隊在GPT-5.2發佈後從Claude Code切換到了Codex,主要原因是後者更穩定。“我發現Claude Code有時候會給出不精準的資訊,”他說,“它說自己正在處理任務,實際上並沒有進展。”在OpenAI負責Codex行為研究的凱蒂·施(Katy Shi)說,有些使用者覺得Codex的回應風格偏“干”,但越來越多人開始接受這種不刻意迎合的特點。“工程領域的工作,本來就需要能夠接受批評性反饋,不能因為表達方式直接就覺得被冒犯。”企業客戶也在逐步進入。OpenAI應用部門的CEO菲吉·西莫(Fidji Simo)稱:“ChatGPT已經成為AI領域的代表性產品,這在B2B市場是一個明顯優勢,多數企業傾向於使用員工已經熟悉的技術。”OpenAI銷售Codex的策略,主要是將其打包進ChatGPT的企業套件中一併提供。思科的總裁傑圖·帕特爾(Jeetu Patel)告訴員工,不用太在意使用Codex產生的費用,關鍵是要熟悉這個工具。有員工問他用了之後會不會失業,他的回答是:“不會,但不用一定會失業。不熟悉這些工具的人,慢慢會失去競爭力。”有開發者認為,OpenAI在B端市場的管道優勢正在發揮作用。不少公司已經採購了ChatGPT的企業版,在此基礎上增加一個Codex功能,決策成本並不高。也有分析指出,Codex最近的能力提升與GPT-5.2的推理能力最佳化直接相關。o系列模型採用的訓練方法,即讓模型在結果可驗證的程式設計任務中不斷試錯、獲得反饋,這對程式碼生成的質量有明顯幫助。程式設計本身就是一個反饋訊號明確的領域,程式碼要麼能運行要麼不能,這種特性對模型迭代很有利。05. 奧特曼的難題:既要速度,又怕失控AI程式設計智能體的影響已經不限於開發者社區。《華爾街日報》上個月將科技股1兆美元的拋售部分歸因於Claude Code,因為投資者擔心軟體本身的價值可能被壓縮。之後Anthropic宣佈,Claude Code可以對IBM那些運行COBOL語言的老系統進行現代化改造,IBM的股票遭遇了25年來最大單日跌幅。OpenAI也在加大投入。今年的超級碗廣告,他們投放的是Codex,而不是ChatGPT。在OpenAI總部,Codex的使用已經相當普遍。多位工程師提到,他們現在很少手寫程式碼,每天的工作主要是和Codex互動。一位參與了內部駭客馬拉松的工程師描述說,現場大約100人,用四小時時間通過Codex搭建一個可用的演示項目。不少項目既是用Codex開發的,目標也是為了讓工程師更好使用Codex。有的團隊做了個工具,把Slack消息自動彙總成周報,有的團隊用AI生成了一個內部服務的百科式指南。以前這些事情可能需要幾天才能完成,現在一個下午就能跑通流程。凱文·維爾(Kevin Weil)是前Instagram高管,目前負責OpenAI for Science部門,為研究人員開發AI產品。他說Codex現在會在夜間幫他處理一些項目,早上到公司檢查進度就行。這種做法已經成了他和幾百名同事的日常工作方式。OpenAI 2026年的目標之一是開發一個能夠自主進行AI研究的AI實習生。西莫表示,Codex最終會整合進ChatGPT和所有產品線,不僅是用來程式設計,而是協助處理各種任務。奧特曼說他想發佈一個通用版本的Codex,但對安全性還有些顧慮。1月底,他一個非技術背景的朋友請他幫忙安裝OpenClaw,但他沒有答應,認為“現在還不是時候”,那個智能體可能會誤刪重要檔案。但這件事過去幾周後,OpenAI就把OpenClaw的創作者招進了公司。不少開發者認為,Codex和Claude Code之間的差距確實在縮小,但也有機構對OpenAI的進度表示擔憂。一個叫Midas Project的非營利組織發佈報告稱,OpenAI在GPT-5.3-Codex上沒有完整披露網路安全風險,安全承諾的落實情況不夠透明。OpenAI的對齊負責人阿米莉亞·格拉澤(Amelia Glaese)否認為了推進Codex而犧牲安全,表示Midas對公司的承諾存在誤解。布羅克曼對AGI的進展保持樂觀,認為“項目正在按計畫推進”。但在不少矽谷工程師的印象裡,他一直是那種產品發佈前夜還在檢查程式碼庫細節的負責人。現在的狀況不太一樣了。布羅克曼面對的是幾十萬個AI智能體,在執行具體的任務和項目。他說這種新的工作方式“讓人感覺輕鬆了一些,因為以前確實需要記住很多細節”。但有時候,“你不太清楚那些事情具體是怎麼被解決的”。他說,這種變化會讓你“感覺對問題的感知不像以前那麼敏銳了”。 (騰訊科技)
輝達突然開源一個 1200 億參數的"怪獸",還宣佈未來五年砸 260 億美元造開源模型/OpenAI 瘋狂追趕Claude,Codex年化收入已破 10 億美元
輝達突然開源一個 1200 億參數的"怪獸",還宣佈未來五年砸 260 億美元造開源模型/OpenAI 瘋狂追趕 Claude Code!30+ 名內部人士爆料:Codex 年化收入已破 10 億美元剛融了29億美元,Cursor轉頭又要衝60億?這家AI程式設計公司到底在追什麼?Cursor 母公司 Anysphere 正在就新一輪融資進行早期洽談,知情人士透露擬募資規模高達 50 億美元,投後估值最高達 600 億美元——而它上一輪的估值不過 293 億美元,那還是 2025 年 11 月剛定下來的。更誇張的是,Cursor 的年化收入在 2026 年 2 月剛剛突破 20 億美元,其中六成來自企業客戶。(來源:Newcomer/Tom Dotan)半年翻一倍的估值,背後是 AI 程式設計賽道的白熱化。OpenAI 正死磕 Codex,Anthropic 的 Claude Code 早在 2025 年 11 月就已突破 10 億美元年化收入。Cursor 這一輪如果真能以 600 億美元成交,會是史上漲速最快的獨角獸之一。只是不知道,這輪估值撐起來的,究竟是真實的護城河,還是資本在 AI 泡沫頂端的最後一次豪賭?(來源:TLDR AI、Stableton)SoftBank 旗下 PayPay 赴美 IPO,定價破發、融資縮水,這份成績單太難看了3 月 11 日,日本移動支付巨頭 PayPay 正式在美股定價,每股 16 美元,直接跌破原本 17 至 20 美元的目標區間。此次 IPO 共發行 5500 萬份美國存托憑證,實際融資 8.8 億美元,公司整體估值定格在 107 億美元。這是 SoftBank 旗下資產近年來最備受矚目的一次上市,阿聯和卡達主權財富基金也在 IPO 前入場參與認購。(來源:Reuters/Echo Wang)但定價低於區間這件事,本身就是一個訊號。PayPay 是日本最大的移動支付平台,活躍使用者超過 6000 萬,在本土幾乎無敵。然而美國資本市場對"日本本土爆款"的故事並不感冒——估值比預期縮水近兩成,孫正義這次沒能按自己想要的價格講好這個故事。(來源:Reuters、AGBI)輝達突然開源一個 1200 億參數的"怪獸",還宣佈未來五年砸 260 億美元造開源模型就在所有人都在等 GPT-5 的時候,輝達悄悄扔出了一個炸彈——Nemotron 3 Super,一個參數總量 1200 億、實際啟動參數僅 120 億的混合 MoE 開權重模型,2026 年 3 月正式發佈。它採用 Mamba-Transformer 混合架構,在同等規模模型裡吞吐量高出同類 5 倍,專門為多智能體應用和複雜推理場景最佳化。與此同時,輝達在監管檔案中披露,未來五年將投入 260 億美元專門用於建構開放模型生態。(來源:Wired/Will Knight、NVIDIA 官方部落格)這個組合拳打得很有意思。輝達一邊賣 GPU 賺得盆滿缽滿,一邊轉頭砸幾百億美元去做開源——這不是慈善,而是一門生意。開源模型跑得越廣,訓練和推理就越需要算力,輝達的晶片就賣得越好。只是這次 260 億的開源承諾落地,Anthropic 和 OpenAI 恐怕又要重新盤算自己的護城河在那裡了。(來源:The New Stack、Artificial Analysis)Perplexity 突然推出"電腦版智能體",200 美元一個月,但它到底在搶誰的飯碗?Perplexity 正式宣佈推出 Perplexity Computer,一個可以在 Mac 上運行、類似 OpenClaw 的 AI 智能體,同步上線企業版。這個產品調度 19 個不同 AI 模型協同工作,能替使用者完成訂機票、填表格、執行複雜任務等操作,完全跑在雲端,定價 200 美元 / 月,僅向 Perplexity Max 訂閱使用者開放。發佈時間是 2026 年 2 月 25 日。(來源:Axios/Ina Fried、VentureBeat)一個搜尋引擎公司,跑來做 AI 智能體操作電腦——這個跨度不算小。問題是,200 美元的門檻,對應的競爭對手是 Anthropic 的 Claude Computer Use、微軟的 Copilot Actions,還有滿地跑的 OpenClaw 外掛生態。Perplexity 在搜尋這件事上還沒把 Google 打趴下,就先衝進了更燒錢、更難打的戰場,這步棋是勇氣,還是散彈?(來源:TechCrunch、Ars Technica)Rivian CEO 把機器人公司融了 5 億美元,他同時還在經營一家虧損的電動車企業3 月 11 日,Rivian CEO RJ Scaringe 創立的工業機器人公司 Mind Robotics 宣佈完成 5 億美元 A 輪融資,由 Accel 和 a16z 聯合領投,公司整體估值達到 20 億美元。Mind Robotics 脫胎於 Rivian,專注於 AI 驅動的工廠機器人,Rivian 本身也參與了這輪投資並與其簽署了合作協議,用真實工廠場景為機器人訓練提供資料。(來源:WSJ/Kate Clark、TechCrunch)Scaringe 同時擔任兩家公司的核心角色,一邊帶著 Rivian 在電動車市場跟特斯拉、大眾死磕,一邊把機器人公司估值做到 20 億美元——這種"一拖二"的創始人模式,馬斯克是最成功的範本,但也是最危險的玩法。Rivian 的投資人恐怕現在最想知道的,不是機器人融了多少錢,而是他的注意力到底有多少還放在電動車上?(來源:Biz Journals、TipRanks)TikTok 和 Apple Music 突然牽手!刷視訊刷到一半,歌可以直接聽完了TikTok 與 Apple Music 達成獨家合作,推出 "Play Full Song" 功能——Apple Music 訂閱使用者在 TikTok 刷到一首歌時,不用跳出 App,直接就能在 TikTok 內部聽完整版。配套的還有 Listening Party功能,支援多人同步聽歌互動。3 月 11 日正式宣佈,功能將在未來幾周內向使用者推送。(來源:Variety/Steven J. Horowitz、Music Business Worldwide)這個合作的背後邏輯很清楚:TikTok 是目前最強大的音樂發現平台,全球無數歌手靠一條 TikTok 短影片走紅,但每次使用者想聽完整首歌都得跳到 Spotify 或 Apple Music——這中間每一次跳轉都是流量流失。現在 Apple Music 把最後這道門打開了,Spotify 呢?它在 TikTok 上的獨家位置沒了,下一步怎麼接?(來源:9to5Mac、Digital Trends)OpenAI 瘋狂追趕 Claude Code!30+ 名內部人士爆料:Codex 年化收入已破 10 億美元Wired 採訪了 30 多位 OpenAI 內部人士,還原了 OpenAI 這場追趕 AI 程式設計戰役的全貌。關鍵數字只有一個:截至 2026 年 1 月底,Codex 的年化收入已突破 10 億美元。但 Anthropic 的 Claude Code 更早——2025 年 11 月就已達到 10 億美元年化收入,僅用了上線後 6 個月。OpenAI 正在以罕見的內部緊張程度追趕這個數字。(來源:Wired/Maxwell Zeff)兩家公司都已經突破十億,都在聲稱自己更強——但開發者用腳投票的結果是,Claude Code 的口碑在 GitHub 和開發者社區裡已經形成了明顯的品牌優勢。OpenAI 的困境在於,它在對話 AI 上的統治地位,並沒有自動延伸到程式設計助手這個細分市場。在自己最該贏的戰場上被 Anthropic 逼得如此狼狽,這才是真正的問題。(來源:LinkedIn、TechBuzz AI)中國一邊全面封殺 OpenClaw 進政府,一邊全民狂熱"養龍蝦",這是那門子邏輯?3 月 11 日,中國當局正式向國有企業和政府機構發出警告,禁止在辦公電腦上安裝 OpenClaw 相關 AI 應用,理由是存在嚴重的安全風險和資料洩露隱患——工信部此前已發出過一次預警,這是第二次正式警告。與此同時,中國網路安全機構也提示,不當配置的 OpenClaw 部署可能導致系統暴露於網路攻擊之下。(來源:Reuters、Bloomberg、SCMP)但就在同一時間,北京、深圳等科技重鎮正在主動推廣 OpenClaw 的本土化部署,各家大廠——包括騰訊、智譜——都在全速佈局自己的"龍蝦"產品矩陣,民間"養蝦"熱度居高不下。政府這邊剛發紅頭檔案,企業那邊已經把"蝦"養成了全民狂歡。被禁的工具,正在被禁止它的人的鄰居瘋狂擁抱——這道門,究竟關得住嗎?(來源:SCMP、Mezha.ua)SpaceX 最快本月秘密提交 IPO 申請,目標估值衝破 1.75 兆美元Bloomberg 報導,SpaceX 正在考慮最早於 2026 年 3 月以保密方式向美國證監會提交 IPO 申請檔案,知情人士透露正式上市時間可能鎖定在 2026 年 6 月,屆時目標估值將超過 1.75 兆美元。SpaceX 內部備忘錄顯示,上市的核心目的是為星艦"瘋狂飛行頻率"提供資金支援,馬斯克本人預計近期將進行新一輪星艦測試。(來源:Bloomberg、Reuters、SatNews)1.75 兆美元是什麼概念——這比蘋果目前的市值還要高。一家從未在公開市場亮相的公司,憑藉星鏈的現金流和星艦的敘事,要以全球最高估值之一上市。更微妙的是,馬斯克同時還深度介入川普政府事務,政商邊界的模糊化會不會讓機構投資人心存顧慮?這個 IPO 能不能以這個價格收場,恐怕比產品本身更考驗市場的神經。(來源:Barron's、Reuters)黃仁勳罕見髮長文:手機 App 和傳統軟體,可能真的要消失了2026 年 3 月,輝達 CEO 黃仁勳在摩根士丹利科技大會上拋出重磅判斷,隨後發表了一篇罕見長文——傳統軟體和 App 形態在未來幾年或將消失,AI 智能體將成為全新的軟體範式,而且所謂"笨軟體"——那些依賴人工操作、以功能為核心的產品——將逐步退出市場。他還預測軟體商業模式將從"授權費"向"Token 租賃"演進。(來源:新浪財經、IT 之家)這段話從黃仁勳嘴裡說出來,份量不一樣。輝達是全球 AI 算力的最大受益方,他比任何人都更清楚算力消耗的走向。但問題是,"App 消失"這個判斷如果成真,最先受衝擊的不是 OpenAI,而是 Apple——App Store 是蘋果最重要的現金奶牛之一。黃仁勳說完這話之後,蘋果的人是什麼感受,我挺想知道。(來源:3DM、環球網)a16z 全球 AI 應用百強出爐!DeepSeek 殺進第四,中國軍團集體爆發a16z 發佈 2026 年 3 月版全球 AI 應用 Top 100 第六期榜單,中國軍團的集體崛起成為最大亮點。DeepSeek 以網頁端全球第 4 名成為排名最高的中國 AI 應用,使用者來源極其分散:中國本土佔 33.5%,其餘近七成來自海外。同期上榜的還有 Kimi(月之暗面)、Qwen(阿里千問)、Kling AI(快手可靈)等多個國產產品。(來源:a16z、華爾街見聞)一年前,這張榜單幾乎是 OpenAI 和美國公司的天下。現在 DeepSeek 坐在前五,Kimi、可靈緊隨其後,而且使用者結構裡將近七成是非中國使用者——這意味著這不是"牆內爆款",是真正在全球範圍內和美國產品正面競爭。ChatGPT 依然第一,但它背後追的人距離越來越近了,這條縫隙還會怎麼變?(來源:a16z、華爾街見聞)馬化騰凌晨 2 點發朋友圈:騰訊的"龍蝦"全家桶來了,還有一批在路上2026 年 3 月 11 日凌晨 2:06,騰訊董事會主席馬化騰親自在朋友圈轉發騰訊全系"龍蝦"產品矩陣公告,並配文列出產品陣型:自研龍蝦、本地蝦、雲端蝦、企業蝦、雲桌面蝦,外加安全隔離蝦房、雲保安、知識庫。"龍蝦"即 OpenClaw 的中文暱稱,因圖示形似小龍蝦而得名。騰訊已上線 WorkBuddy 和 QClaw,相容 OpenClaw 技能包,安裝過程類似普通 App。另有報導稱,騰訊正秘密開發微信 AI 智能體,年內或向全體使用者開放。(來源:新浪財經、第一財經)凌晨 2 點發聲,這是馬化騰的罕見舉動。上一次騰訊被認為在 AI 戰場上落後,是 2023 年那段被外界廣泛嘲笑的"緩慢跟進期"。現在一口氣推出五隻"蝦",還預告有更多在路上——節奏變了,姿態變了。只是同一時刻,政府那邊剛對 OpenClaw 系工具發出安全警告,馬化騰這個朋友圈,發的究竟是產品,還是一張政治站位牌?(來源:21 世紀經濟報導、搜狐科技)寧德時代 2025 年淨利潤 722 億,港股單日暴漲 9.2%,"寧王"回來了3 月 9 日,寧德時代公佈 2025 年全年業績:營收 4237 億元,同比增長 17%;歸母淨利潤 722 億元,同比增長 42.28%,Q4 單季淨利潤增速更是高達 57.1%,創兩年半內最快增速。公司同步宣佈每 10 股派現金分紅 69.57 元。次日,港股 CATL(03750)單日漲幅擴大至 9.2%,A 股同步收漲 6%,帶動鋰電儲能類股全線走強。(來源:Reuters、SCMP、東方財富)全球儲能需求爆發是這份成績單背後的主邏輯——寧德時代在全球電池市場的份額持續創歷史新高,競爭對手 BYD 雖然增速兇猛,但雙方的差距在儲能這條新賽道上暫時還沒有拉平。外界最關心的,是寧德時代能否把這波儲能紅利轉化為更持久的全球擴張——畢竟歐美的關稅壁壘還在那裡,722 億淨利潤夠不夠支撐接下來的這場硬仗?(來源:Reuters、Just Auto)禮來砸 30 億美元進中國,背後是一顆減肥藥的野心3 月 11 日,禮來製藥(Eli Lilly)宣佈未來十年將在中國投入 30 億美元,重點擴建本地供應鏈和生產產能,核心目標是為其口服 GLP-1 減肥藥 orforglipron打通中國市場。禮來同步向中國監管機構遞交了 orforglipron 的上市申請,這款藥物被認為是注射劑司美格魯肽的平價替代方案,口服、無需注射,一旦獲批,市場規模不可估量。(來源:Reuters、Bloomberg、SCMP)這 30 億美元的背後邏輯非常直接:中國有全球最大的肥胖和糖尿病人口基數,而本土 GLP-1 產品還沒有跑出真正的贏家。禮來的計算是,把生產搬到中國、降低成本,用本地化供應卡住價格競爭力。但它面對的,是一個監管路徑漫長、本土藥企加速仿製的市場——30 億美元入場,能不能熬到 orforglipron 真正放量的那一天?(來源:Fierce Pharma、BioPharma Dive)FCC 主席怒懟亞馬遜:你自己的衛星快要違約了,憑什麼來攔馬斯克?3 月 11 日,亞馬遜向美國聯邦通訊委員會(FCC)提交 17 頁請願書,要求否決 SpaceX 部署多達 100 萬顆衛星的"軌道資料中心"計畫。然而 FCC 主席 Brendan Carr 當天就公開回擊,直接點名亞馬遜:"亞馬遜應該先關注自己——它即將少發約 1000 顆衛星,無法達成自己的部署里程碑,而不是來妨礙 SpaceX。"(來源:Reuters/David Shepardson、CNBC)這句話殺傷力極大。亞馬遜 Kuiper 衛星星座項目本身就進度落後,現在還跑來狀告 SpaceX 星鏈擴張太快——在 Carr 眼裡,這不是正當競爭,而是用監管程序阻擊對手。值得一提的是,Carr 是川普任命的 FCC 主席,SpaceX 是馬斯克的公司。這場"監管機構幫老闆的老闆打競爭對手"的戲碼,是公正執法,還是另一種形式的權力運作?(來源:Ars Technica、Bloomberg)中國 AI 招聘熱到燙手!新經濟崗位裡每 4 個就有 1 個是 AI,一年前只有 2%資料比任何口號都直接。職業社交平台脈脈最新報告顯示,2026 年春招期間,AI 相關崗位佔中國新經濟招聘總量的 26.23%——而 2025 年同期,這個數字僅為 2.29%。一年時間漲了將近 12 倍。春節假期結束後首周,明確要求具備 AI 技能的職位數量同比暴漲 215%。(來源:SCMP、Yicai Global)這波需求背後有兩個引擎:一是大廠在 AI 產品上的全面提速,騰訊、阿里、百度、字節無一不在大規模招募 AI 工程師和產品經理;二是製造業、金融、醫療等傳統行業也在爭搶能將 AI 落地的複合型人才。只是供給端跟得上嗎?中國高校 AI 相關專業的畢業生數量在快速增長,但能真正上手大模型開發的人才,缺口依然是一個無底洞。(來源:Global Times、IndexBox)美的押注 AI 機器人,未來三年砸 600 億元——一家家電公司在做什麼夢?3 月 10 日,美的集團在上海召開 2026 全屋智能戰略發佈會,正式宣佈未來三年將投入超過 600 億元人民幣(約合 87 億美元),重點聚焦 AI、具身智能及新能源三大方向,同步發佈全屋智能"三個一"戰略和自進化家居智能體 MevoX。美的表示,其家電業務將全面向 AI 化轉型,並拿出過去五年研發投入作為背書。(來源:證券時報、新浪財經)這家公司賣了幾十年空調洗衣機,現在要用 600 億押注機器人和 AI 智能體——這個轉型幅度,在家電行業裡找不到第二個參照。美的的底氣來自收購德國庫卡機器人後積累的工業自動化經驗,以及在智能家居硬體上的多年佈局。只是具身智能這條賽道,連波士頓動力、Figure 這樣的專業玩家都還沒有真正商業化,一家家電公司跑進來,速度和深度能撐起這 600 億的預期嗎? (AI Daily Insights)
GoogleGemini 3.1新模型深夜掀桌, 每秒狂飆363 token! 1/4價格暴擊Claude
【新智元導讀】Google深夜再放大招,Gemini 3.1 Flash-Lite正式登場。輸出速度363 token/s,價格僅0.25美元/百萬Token,跑分卻碾壓GPT-5 mini和2.5 Flash,堪稱最強「窮人版旗艦」。繼Gemini 3.1 Pro屠榜封神之後,Google又在深夜扔出一顆炸彈。剛剛,Gemini 3.1 Flash-Lite正式上線!速度363 tokens/s,輸出價格1.50美元/百萬Token,跑分直接碾壓GPT-5 mini和Claude 4.5 Haiku。同一任務下,相較於2.5 Flash(33分鐘),3.1 Flash-Lite僅用了4分鐘,token消耗最少,且正確率最高。毫不誇張地說,3.1 Flash-Lite幾乎可以做到「瞬時」輸出。上傳一份任何PDF、文字、圖片、視訊、音訊,它能極速轉成Markdown格式。又或是,3.1 Flash-Lite「粒子鍛造器」,迅速出模擬不同的動態效果,堪稱驚豔。目前,開發者已經可以通過Google AI Studio的Gemini API體驗預覽版,企業使用者可通過Vertex AI接入。用1/4的價格,跑出5倍的速度先看最直觀的數字。3.1 Flash-Lite的輸出速度達到363 tokens/s,跟自家2.5 Flash-Lite(366 tokens/s)幾乎持平,但把上一代Gemini 2.5 Flash(249 tokens/s)遠遠甩在了身後。而那些「貴族選手」呢?GPT-5 mini只有71 tokens/s,Claude 4.5 Haiku也不過108 tokens/s,Grok 4.1 Fast稍好一些,145 tokens/s。換句話說,Flash-Lite的速度是GPT-5 mini的5倍,是Claude 4.5 Haiku的3.4倍,價格卻只有後者的四分之一。再看具體定價。3.1 Flash-Lite輸入0.25美元/百萬Token、輸出1.50美元/百萬Token。3.1 Flash-Lite比3.1 Pro便宜8倍對比之下,GPT-5 mini的輸出價格是2.00美元,Gemini 2.5 Flash是2.50美元,而Claude 4.5 Haiku更是高達5.00美元,整整貴了3倍還多。一句話概括:跑得比你快,還比你便宜,跑分還比你高。跑分碾壓,小模型的「越級挑戰」在最考驗科學知識和推理能力的GPQA Diamond上,3.1 Flash-Lite直接轟出86.9%的高分。這一成績不僅碾壓了GPT-5 mini的82.3%和Claude 4.5 Haiku的73.0%,甚至把體量更大、價格更貴的Gemini 2.5 Flash(82.8%)也踩在了腳下。多模態理解方面同樣強悍。在MMMU-Pro測試中,Flash-Lite拿下76.8%,力壓GPT-5 mini(74.1%)、Gemini 2.5 Flash(66.7%)、Grok 4.1 Fast(63.0%)和Claude 4.5 Haiku(58.0%)。在事實精準性測試SimpleQA Verified中,差距更是斷崖級。Flash-Lite以43.3%的精準率遙遙領先,而Gemini 2.5 Flash為28.1%,GPT-5 mini僅有9.5%(4.5倍),Claude 4.5 Haiku更是低到5.5%(近8倍)。多語言能力方面,MMMLU測試中Flash-Lite以88.9%登頂,超過了Gemini 2.5 Flash的86.6%和GPT-5 mini的84.9%,在這個價位段裡沒有對手。在視訊理解領域,Video-MMMU得分84.8%,同樣是同等級最高,GPT-5 mini(82.5%)和Gemini 2.5 Flash(79.2%)均不及。當然,3.1 Flash-Lite也並非沒有短板。在LiveCodeBench程式碼生成測試中,Flash-Lite得分72.0%,雖然不低,但GPT-5 mini憑藉80.4%明顯更強,Grok 4.1 Fast也有76.5%。在Humanity's Last Exam中,Flash-Lite得分16.0%,與GPT-5 mini的16.7%基本持平,但Grok 4.1 Fast以17.6%拿到了這個等級的最高分。但別忘了一個核心事實:Flash-Lite的價格只有這些對手的幾分之一。Arena打進全球前40實驗室跑分只是一面,真刀真槍的盲測對戰才見真章。在Chatbot Arena的文字競技場中,3.1 Flash-Lite以1432的Elo分數排名第36。它身邊的鄰居是o3(1432分)和GPT-5 High(1434分),而身後緊跟著的是Grok 4.1 Fast Reasoning(1430分)。一個定價0.25美元的輕量模型,Elo分數和OpenAI的旗艦推理模型o3打成平手,這個性價比足夠讓人震驚。在程式碼競技場中,3.1 Flash-Lite得分1261,排名並列35。它在這裡的對手包括Claude Haiku 4.5(1308分,第31名)和DeepSeek V3.2(1321分,第34名),差距不算大,但確實還有提升空間。在Artificial Analysis評測中,3.1 Flash-Lite在輸出速度和成本效益上,目前業界最優。「思考深度」可調除了硬核性能,3.1 Flash-Lite還標配了thinking levels功能,開發者可以自由設定模型在每個任務上投入多少推理資源。批次翻譯、內容稽核、資料分類這類高頻低複雜度任務跑淺思考模式,速度和成本壓到極致。生成UI介面、建構模擬環境、執行多步驟複雜指令?切到深度推理模式,效果不輸大模型。實測:輕量模型的重量級表現在實際測試中,3.1 Flash-Lite展現出了遠超其定位的能力。電商場景:瞬間填滿原型圖。給出一句指令,Flash-Lite就能在幾秒內用幾十個品類、數百款商品填滿一整個電商介面原型,包含名稱、價格、分類、圖片佔位。這在以往,需要設計師手動填充半天的工作,現在一個Prompt搞定。即時資料看板:天氣預報+歷史分析。Flash-Lite能夠結合最新的天氣預報介面和歷史資料,即時生成動態的天氣資料可視化看板。對於需要快速搭建資料展示層的開發者來說,這個能力直接省掉了一個「前端工程師」。SaaS AI智能體:多步任務自動化。Flash-Lite可以建構處理多步驟靈活任務的SaaS智能體,幫助企業自動化客戶工單處理、訂單跟蹤等流程。在低延遲和低成本的加持下,這類高頻呼叫場景正是Flash-Lite的主戰場。海量內容處理:快速分析歸類。面對大批次的圖片、文件、使用者評論等非結構化內容,Flash-Lite還能夠快速完成分析、標籤化和歸類整理。性價比賽道,徹底變天3.1 Flash-Lite的發佈,標誌著AI競爭進入了一個全新的階段。過去,各家大模型都在卷「誰最強」——ARC-AGI刷分、HLE拼推理、程式碼競賽爭排名。但Flash-Lite的出現,把戰場拉到了另一個維度。光卷性能已經不夠了。誰能用最低的成本交付最高的質量,誰才是真正的贏家。用幾分之一的價格打出旗艦級效果、用5倍的速度碾壓競品、在事實精準性上斷崖領先,Google用Flash-Lite告訴所有人:在性價比這條賽道上,它已經跑在了前面。而對於全球數百萬開發者來說,這可能是目前最值得關注的模型之一。畢竟,在真實的產品場景中,成本和速度有時比跑分更重要。 (新智元)
Claude Code Security發布嚇壞資安產業市場陷入恐慌 資安股為何集體下挫?
日前,人工智慧新創公司Anthropic發布全新程式碼安全工具 Claude Code Security,主打能像資深資安人員一樣理解整個程式碼庫的邏輯與元件交互關係,而非僅比對已知漏洞模式,並自動生成具針對性的修補建議。消息公布後,資安相關族群出現短期震盪,部分龍頭公司股價走弱。追蹤資安產業的First Trust NASDAQ Cybersecurity ETF也出現連續數日回檔,引發市場討論:「AI是否對傳統資安產業形成威脅?」(相關新聞:Claude令市場陷入恐慌 全球百億美元市值一夕蒸發)但這個問題,真的那麼單純嗎?(First Tnust NASDAQ Cybersecurity ETF(CIBR))市場為何會出現壓力?Anthropic 在發布時指出,Claude Code Security 在測試階段已成功找出超過 500 個真實存在的程式碼漏洞,部分甚至是傳統資安工具長期未能偵測到的問題,市場可能將此視為潛在競爭訊號,進而調整資安類股的未來成長預期。從市場心理層面來看,生成式AI若能自動掃描漏洞:提供修補建議降低人工分析時間確實可能讓投資人產生聯想「這是否會削弱既有資安公司的價值?」然而,需要釐清的是目前Claude Code Security所聚焦的,是應用程式層級的程式碼分析與漏洞輔助修補。這屬於整體資安體系中的一個環節,而非完整的資安解決方案。資訊安全產業實際涵蓋範圍包括”防火牆與邊界安全”:端點安全(Endpoint Security)雲端安全架構零信任(Zero Trust)模型威脅偵測與回應(EDR / XDR)SOC安全營運中心身分與存取管理(IAM)流量分析與行為判讀勒索軟體防禦漏洞掃描只是其中一部分,因此,短期市場反應更可能來自於對未來競爭格局變化的預期調整,而非產業基本面立即發生根本性改變。在資本市場中,股價反映的是「預期」,不一定是「已發生的事實」。AI 的角色:把「想」變成「做」的輔助工具?正因如此,理解 AI 在資安中的真實角色,比跟隨市場情緒更為重要。將AI與資安視為對立關係,或許是一種過度簡化。在我的認知裡,AI 是一種輔助型工具,而非全能的決策者。它可以協助你整理知識、提升工作效率、協作文章撰寫,甚至幫你實現以前只停留在「想法」階段的事。舉個例子:假設你想打造一套自動語音報時系統,過去你可能因為技術門檻而難以起步,但現在透過 AI 的輔助,這個想法可以相對快速地被實現。目前市面上除了 Claude,也有 Gemini、ChatGPT 等多種 AI 工具,各有其擅長的應用場景。AI 真正的價值,在於降低實現門檻,讓更多人能將創意轉化為行動。換句話說:AI正在成為資安產業的加速器,而不是替代者。未來的競爭,可能不再是「AI公司 vs 資安公司」,而是「誰能更有效整合AI進入資安架構」,產業升級通常伴隨技術重組,而不是單向消滅。(除了Claude仍有許多AI可以做到圖片上列的事項例如Gemini、OpenAI...等)AI 越方便,你越需要守護自己的資訊安全AI 工具日益普及,使用便利性大幅提升,但隨之而來的資安風險也不容忽視。當你將 AI 工具安裝於電腦、整合進工作通訊軟體,或授予它存取你的檔案、照片等權限時,使用過程中的互動紀錄,通常會傳送至該服務商的伺服器進行處理。即便業者聲稱不長期保存資料或採用加密傳輸,資料在傳輸與處理過程中的風險仍然存在。建議大家在享受 AI 帶來的便利之餘,也建立清楚的使用界線:•避免將機密的工作文件、客戶資料輸入公開的 AI 服務•謹慎授權 AI 存取個人照片、通訊紀錄等敏感內容•定期檢視所使用工具的隱私權政策與資料處理方式AI 是幫助我們把不可能化為可能的存在,但在擁抱它的同時,守護屬於自己的數位邊界,同樣重要。因此,比起全面拒絕AI,更成熟的態度是:理解風險、設定界線、建立制度。**更多(分析、資產配置分享、財經閱讀筆記..等)歡迎至「ANSHI安實的沙龍」訂閱哦!※文章分享來自個人分析,不會給予該買或賣的評斷,純分享,也是一種自我紀錄。※投資理論沒有對錯,想法、策略只有適不適合自己,互相討論求進步(數據有誤,歡迎留言修正)。
Claude Code 工程師:像 Agent 一樣思考
概要Anthropic 工程師 Thariq 分享了建構 Claude Code 過程中關於 Agent 工具設計的經驗教訓。文章通過幾個真實案例,講述了 AskUserQuestion 工具的三次迭代、Todo List 到 Task 系統的演進、搜尋工具的變遷,以及漸進式發現機制的設計思路。核心觀點是:Agent 的工具設計沒有標準答案,你得不斷觀察模型的行為,反覆實驗迭代,學會「像 Agent 一樣看世界」。全文原文作者:Thariq(@trq212),發佈於 2026 年 2 月 28 日原文連結:https://x.com/trq212/article/2027463795355095314建構 Agent 最難的部分之一,就是設計它的「動作空間」(action space)。Claude 通過 Tool Calling 來執行操作,而 Claude API 提供了多種建構工具的方式,包括 bash、skills,以及最近新增的 code execution(關於程式設計式工具呼叫的更多內容,可以參考 @RLanceMartin 的文章)。面對這麼多選項,你該怎麼設計 Agent 的工具?只需要一個 bash 或 code execution 就夠了嗎?還是說需要 50 個工具,每個場景配一個?做道數學題我喜歡用一個類比來思考這個問題。想像你被給了一道很難的數學題,你希望手邊有什麼工具?答案取決於你自身的能力。紙筆是最基本的,但手算效率很低。計算器好一些,不過你得會用那些高級功能。最快最強的選擇是電腦,但前提是你得會寫程式碼。這個類比可以直接套用到 Agent 工具設計上:你要給它與其能力匹配的工具。 但你怎麼知道它的能力邊界在那?答案是:仔細觀察,閱讀它的輸出,反覆實驗。學會像 Agent 一樣看世界。以下是我們在建構 Claude Code 過程中總結的幾條經驗。提問的藝術建構 AskUserQuestion 工具時,我們的目標是提升 Claude 向使用者提問的能力(也叫 elicitation)。Claude 當然可以用純文字提問,但我們發現使用者回答這類問題時總覺得很費勁。怎麼才能降低這種摩擦,提高使用者和 Claude 之間的溝通效率?第一次嘗試:改造 ExitPlanTool我們先試著在 ExitPlanTool 上加一個參數,讓它在輸出計畫的同時附帶一組問題。這是最容易實現的方案,但 Claude 被搞糊塗了。我們同時要求它輸出計畫和提問,如果使用者的回答和計畫內容矛盾怎麼辦?Claude 是不是還得再呼叫一次 ExitPlanTool?這條路走不通。(關於我們為什麼要做 ExitPlanTool,可以參考這篇關於 prompt caching 的文章:https://x.com/trq212/status/2024574133011673516 )第二次嘗試:改輸出格式接著我們試了修改 Claude 的輸出指令,讓它用一種特殊的 Markdown 格式來提問。比如,要求它輸出一組帶備選項的問題列表,我們再把它解析渲染成 UI。這是最通用的方案,Claude 的格式輸出能力也還行,但不夠穩定。它會多說幾句話,漏掉選項,或者乾脆換一種格式輸出。第三次嘗試:AskUserQuestion 工具最後我們做了一個獨立的工具,Claude 可以在任何時候呼叫它,但在 plan mode 中會被特別引導去使用。工具觸發後會彈出一個模態框,展示問題列表並阻塞 Agent 循環,直到使用者回答完畢。這個工具讓我們得到了結構化的輸出,確保使用者能看到多個選項,還支援在 Agent SDK 或 skills 中靈活復用。最關鍵的是:Claude 確實喜歡呼叫這個工具,輸出效果也很好。再精心設計的工具,如果模型不知道怎麼用,那也是白搭。這是 elicitation 的最終形態嗎?不好說。正如下一個例子會展示的,對一個模型有效的方案,換一個模型未必好使。工具會過時Claude Code 剛上線時,我們意識到模型需要一個 Todo List 來保持工作節奏。在開始時寫下待辦事項,完成後逐項打勾。為此我們做了 TodoWrite 工具,用來建立和更新待辦列表,並展示給使用者。但即便如此,Claude 還是經常忘記自己該幹什麼。於是我們每隔 5 輪對話就插入一條系統提醒,告訴 Claude 當前的目標。然而隨著模型升級,情況反轉了。新模型不僅不需要這些提醒,反而覺得 Todo List 成了束縛。被反覆提醒 Todo 內容,讓 Claude 覺得自己必須嚴格執行列表,而不能靈活調整。同時,Opus 4.5 在使用子 Agent 方面能力大幅提升,但多個子 Agent 怎麼協作共享一個 Todo List 呢?看到這些變化,我們用 Task Tool 替換了 TodoWrite(關於 Task Tool 的詳細介紹見:https://x.com/trq212/status/2014480496013803643 )。TodoWrite 的目的是讓模型「不跑偏」,而 Task Tool 更側重於 Agent 之間的協作溝通。Task 支援依賴關係、可以跨子 Agent 同步進度,模型也可以自由修改和刪除任務。這個案例的教訓是:隨著模型能力提升,曾經必需的工具可能反過來變成約束。 你需要不斷重新審視之前的假設。這也是為什麼最好只支援少數幾個能力相近的模型。搜尋的進化對 Claude 來說,搜尋工具格外重要,因為它們決定了模型能否自主建構上下文。Claude Code 最初用的是 RAG 向量資料庫來尋找上下文。RAG 速度快、效果不錯,但需要建索引、做配置,在不同環境下容易出問題。更關鍵的是,上下文是系統預先「喂」給 Claude 的,Claude 沒有自己發現上下文的能力。但既然 Claude 能在網上搜尋資訊,為什麼不讓它搜尋你的程式碼庫?我們給了 Claude 一個 Grep 工具,讓它自己搜尋檔案、建構上下文。這是我們觀察到的一個趨勢:隨著 Claude 變得更聰明,只要給它合適的工具,它自主建構上下文的能力就越來越強。當我們引入 Agent Skills 時,正式提出了「漸進式發現」(progressive disclosure)的概念,讓 Agent 通過主動探索來逐步發現相關上下文。Claude 可以讀取 skill 檔案,而這些檔案又引用了其他檔案,模型可以遞迴地一層層往下讀。事實上,skills 的一個常見用法就是給 Claude 增加搜尋能力,比如教它怎麼呼叫某個 API 或查詢資料庫。一年下來,Claude 從幾乎無法自主建構上下文,進化到了能夠跨多層檔案巢狀搜尋,精準定位所需資訊。漸進式發現現在已經成為我們在不增加工具數量的前提下擴展功能的常用手段。藏在文件裡Claude Code 目前有大約 20 個工具,我們一直在問自己:這些都需要嗎?新增一個工具的門檻很高,因為每多一個選項,模型就多一分思考負擔。比如,我們發現 Claude 對自身瞭解不夠。你問它怎麼加入 MCP,問 slash command 是什麼,它答不上來。我們可以把這些資訊全塞進 system prompt,但使用者其實很少問這類問題,強行加進去只會帶來 context rot(上下文腐化),干擾 Claude 的本職工作:寫程式碼。於是我們嘗試了漸進式發現的方式:給 Claude 一個文件連結,讓它需要時自己載入搜尋。這招能用,但 Claude 會把大量搜尋結果全塞進上下文來找答案,其實使用者只需要一個簡潔的回覆。所以我們做了 Claude Code Guide 子 Agent。當使用者問 Claude 關於自身的問題時,Claude 會呼叫這個子 Agent。子 Agent 有詳細的文件搜尋指令,知道該搜什麼、返回什麼。雖然還不完美(Claude 被問到自身配置問題時偶爾還是會犯迷糊),但比之前好多了。我們在沒有增加任何工具的情況下,擴展了 Claude 的能力範圍。沒有標準答案如果你期待一套關於工具設計的嚴格規則,很遺憾,這篇文章給不了你。為模型設計工具,藝術的成分和科學的成分一樣多。它取決於你用的模型、Agent 的目標,以及運行環境。多實驗,仔細看輸出,大膽嘗試新方案。學會像 Agent 一樣看世界,像 Agent 一樣思考。 (AGI Hunt)
【以美襲擊伊朗】哈米尼之死,“誰”幫了美軍?
美國和以色列公然擊殺哈米尼,所謂“情報神話”的背後,還有什麼?據媒體報導,AI和演算法發揮了關鍵性輔助作用。“哈米尼面對的並非單一的武器,而是一個由Palantir、Anduril以及頂級大型語言模型(Claude)組成的全球監視和打擊網路。”《耶路撒冷郵報》稱,將大型語言模型(LLMs)融入軍事“殺傷鏈”標誌著現代戰爭的重大轉變。“最初用於編寫程式碼和詩歌的工具,如今已成為致命武力投射的關鍵組成部分。”01最先注意到這一點的是《華爾街日報》。報導引述知情人士的話證實,包括美國中央司令部(負責中東地區)在內的世界各地的指揮機構都在使用美國Anthropic 公司的Claude人工智慧工具。《華爾街日報》稱,Claude主要被用於情報評估、目標識別以及模擬作戰場景。之後,更多細節被深挖出來。在美軍的作戰行動中,用到了兩個重要的AI工具:Palantir和Claude。Palantir是一家美國軟體與服務公司,總部位於科羅拉多州丹佛市,以其在巨量資料分析領域的技術聞名。這個公司名,來自英國作家托爾金奇幻小說《魔戒》裡的可以觀察世界上其他地方發生事件的魔法球。這個名字也說明了這家公司產品的主要功能——觀察、監測與記錄。Palantir與美國軍事和情報界有緊密聯絡,其軟體服務是美國國防部為關鍵任務國家安全系統授權的五種產品之一。該公司也因參與美國政府監控監聽全球的行動而廣受批評。據報導,Palantir深度參與美國軍事幹涉行為,它曾通過巨量資料技術幫助美國軍方成功定位和擊殺本·拉登。在俄烏戰場上幫助烏軍炮兵更準確地打擊俄軍陣地和後勤補給線。它還在南海乾擾我相關部門正常維權行動。在對伊朗的突襲中,有報導稱,Palantir技術平台很可能某種程度上扮演了“戰場大腦”的角色。當然,它是否真如一些報導所說發揮了最關鍵的作用,促成了美軍“一擊必中“的神話,目前還無法印證。不過,這一平台確實能把複雜的戰場資料對應為易於理解的實體,將原本需要幾個月才能編制完成的系統部署,縮短到了幾小時。在行動決策方面,發揮了前所未有的輔助性作用。“在哈米尼被殺的時候,正是Palantir在後台調整衛星調度邏輯,確保目標在離開地堡的一瞬間,有超過三顆衛星同時進行了交叉驗證。”Claude是由美國Anthropic公司開發的生成式預訓練模型,具備自然語言處理、程式碼生成及多工協作能力。據稱,Claude在行動中扮演的角色並非直接操控武器,而是處理海量的非結構化戰爭資料。根據解密資料,美軍在2026年初針對馬杜洛的行動中,首次大規模使用了Claude進行“情報合成”。有報導這樣形容:分析人員不再需要撰寫漫長的簡報,他們只需像訂餐一樣詢問:“如果我們在此時對德黑蘭實施電子壓制,並同步進行空中打擊,哈米尼最可能的逃生路線是那一條?”Claude會基於海量的軍事理論訓練和即時注入的情報流,給出最佳化的攔截機率圖表。簡而言之,Palantir解決“把世界拼成一張圖+把行動跑起來”;Claude解決“把材料讀懂說清楚”。從軍事學角度而言,的確可以大大增加戰鬥力。這類平台把影像、訊號、報告、地理等多源情報融合為“共同作戰圖像”,並將分析—派工—覆核—執行串成流程,從而壓縮決策時間。02除了美國,以色列國防軍開發的AI系統也值得一說。如果說Palantir和Claude提供了戰略層面的算力,那麼以色列國防軍(IDF)開發的三個AI系統,則在戰術層面發揮重要作用。這三套系統被統稱為“大規模暗殺工廠”。它們曾在以色列針對加薩的行動中被大量使用。有報導稱,在針對德黑蘭的襲擊中,“美軍借鑑了IDF在加薩實戰中磨煉出的演算法”。第一套系統是“哈布索拉”(The Gospel)。這是一個專門推薦建築目標的AI系統。它能以每天100個的速度生成打擊名單,“而人類在過去每年只能生成50個”。第二套系統是“薰衣草”(Lavender):對數百萬人口進行打分,通過分析社交網路、移動軌跡和通話記錄,自動標記疑似武裝分子。最具爭議的部分在於人類在其中的角色。據《衛報》披露,在這些AI系統推薦目標後,人類指揮官往往只花費“20秒”來審查。然而20秒的時間“僅夠確認目標性別”。也就是說,誤殺的機率極高。而在巔峰時期,該系統標記了37000個目標。第三套是一個名為“爸爸在那兒?”(Where's Daddy?)的系統,“它更加殘酷”。這個系統會自動監控被標記人員何時進入家宅。因為指揮官認為,在目標人員與家人團聚時發起攻擊,比在軍事據點發起攻擊更為容易。這同時也意味著整棟建築的平民都可能成為“附帶傷亡”。報導稱,在哈米尼遇刺的過程中,演算法不再尋找哈米尼的座駕,而是在蒐集他的每一個細微特徵。03這些資訊曝光的主要導火線,是Anthropic公司的“翻臉”。據美國媒體報導,在強抓馬杜洛行動之後,Anthropic提出抗議,表示其使用條款禁止將 Claude 用於暴力目的、開發武器或進行監視。但五角大樓那會聽它的。要麼移除“安全護欄”,讓軍方在“合法”的情況下無限制使用,要麼就滾蛋。2月27日,就在美以對伊朗發起突襲前不久,美國防長赫格塞思宣佈Anthropic構成 “供應鏈風險”,白宮要求所有聯邦機構停止使用該公司的AI工具。川普還在社交媒體上痛罵該公司:“美利堅合眾國絕不會允許一家激進左傾、覺醒主義的公司來決定我們偉大的軍隊如何作戰並贏得戰爭!”“這些公司是由根本不懂現實世界的人在掌控。”《華爾街日報》的爆料,正是基於這一背景,認為儘管白宮宣佈與Anthropic斷絕關係,但美軍在實戰中還是用了Claude。但現實是,Anthropic不干,有的是人幹。五角大樓第二天就找到了新的合作夥伴。2月28日,另一家美國頂級人工智慧公司OpenAI就宣佈與五角大樓簽約,將該公司的大模型部署於美軍的機密網路。OpenAI首席執行長奧爾特曼說,與五角大樓的合作遵循該企業堅持的原則,即人工智慧不得用於“國內大規模監控”、包括自主武器系統在內的武力使用必須由人類負責。他說,公司設立了“安全保障”。但很多媒體注意到,OpenAI近年來不斷放寬與美軍的合作。這家公司過去曾禁止將其技術應用於軍事領域,但2024年開始放寬相關限制,公司目前的宗旨說明中也去掉了“安全”兩字,只說要通過人工智慧技術“造福全人類”。04當然,還有一種可能性不能排除。借助中東戰場局勢,美國軍工複合體是否正在建構一個“美國AI全球無敵”的神話。畢竟,美國AI公司不少陷於泡沫中,如果藉機能吸引投資,豈不很好。撇開這些紛紛擾擾,有四點我們得擦亮眼睛。第一,戰爭的形態的確在變。未來戰爭,肯定是智能化戰爭。誰擁有更全面的資訊,誰決策速度更快,誰的演算法更強,再配合先進的現代化武器,誰的贏面就更大。在很難完全依靠道德和倫理對各國行為進行約束的背景下,一方面要推動國際社會共同制定人工智慧倫理規範,另一方面我們必須堅持獨立自主的AI研發。要看到,AI真正比拚的是國家戰略力量的對比,是電力、是算力、是科技儲備、是國家政策、是產業發展等更加強大的工業底座和頂層規則。第二,華盛頓未來會進一步逼科技公司“站隊”。不服從,就被踢出局。儘管OpenAI宣稱有“安全護欄”,但許多輿論認為這只是“面子工程”。OpenAI、Google、xAI都簽了類似合同,條款寬鬆到“所有合法用途”。不少分析認為,美國AI公司為軍方服務,已成趨勢。第三,傳統情報管道和反諜報網路的建設仍至關重要。從美以一些消息人士最新披露的情況看,美以情報機構近期一直在通過通訊訊號及內部資訊,秘密監控哈米尼的行蹤,掌握其日常行蹤、通訊方式、會面對象。通訊訊號攔截和內部線人提供關鍵情報的可能性非常大。所以,時刻不能低估反諜報的重要性。第四,今後一段時間,美國針對別國AI、半導體等領域的打壓會更加密集。賊的眼裡看誰都是賊。看了美國的操作,就不難理解為什麼華盛頓政客每每打壓別國公司,拿出的總是同一套劇本:“與該國軍方有關聯”。因為美國自己就是這麼幹的。對中國來說,我們既要堅定維護自身合法權益,戳破其“賊喊捉賊”的謊言,也要沉下心築牢科技底座,穩步推進技術創新。 (補壹刀)