#AI模型
輝達開源全能AI模型,效率暴漲9倍!AI Agent終於有了「感官大腦」
輝達開源全能AI模型,效率暴漲9倍!AI Agent終於有了「感官大腦」昨天(4月28日),輝達幹了一件大事——發佈了開源全模態模型 Nemotron 3 Nano Omni。這不是又一個「能聊天的AI」,而是一個能讓AI Agent同時「看、聽、說、做」的全能模型,官方稱推理效率最高提升9倍。為什麼這件事重要?因為之前的AI Agent就像一個只會打字的員工——能寫郵件、能查資料,但你看不了螢幕、聽不了會議、處理不了視訊。現在,AI Agent終於有了「眼睛、耳朵和嘴巴」,而且輝達把它開源了。✦🔬 前沿解讀:Nemotron 3 Nano Omni 到底是什麼?1. 一個模型搞定四種感官——不再「拼積木」傳統的多模態AI,說白了就是在「拼積木」:一個視覺模型負責看圖,一個語音模型負責聽聲音,一個文字模型負責理解文字,然後用膠水程式碼把它們粘在一起。Nemotron 3 Nano Omni 的做法完全不同——它用一個模型原生支援文字、圖像、音訊、視訊四種輸入,在同一個架構內完成理解與推理。打個比方:以前的多模態AI像一個翻譯團隊,英語翻譯、日語翻譯、法語翻譯各幹各的,需要一個人在中間協調;Nemotron 3 Nano Omni 像一個真正的多語言者,直接用一種思維理解所有語言。這意味著什麼?減少了跨模型呼叫的資訊損耗和延遲,Agent在複雜任務中的一致性和穩定性大幅提升。2. 300億參數隻啟動3億——MoE架構的「省錢魔法」Nemotron 3 Nano Omni 總參數量約300億(30B),但採用了混合專家(MoE)架構,推理時只啟動約**3億(3B)**參數。類比一下:這就像一個300人的顧問團,遇到不同問題只叫3個最擅長的人出來回答。你不用養300個人全天候待命,但每次都能得到專業答案。效果呢?推理效率最高提升9倍,視訊推理吞吐量比同類開源模型快9.2倍,同時大幅降低算力消耗。在6個主流基準測試(文件智能、視訊理解、音訊理解等)中拿下榜首。3. 誰在用它?富士康、甲骨文、帕蘭蒂爾已上車這不是畫餅。輝達公佈的首批使用者包括:富士康:用Nemotron做智能製造場景的Agent甲骨文(Oracle):企業級AI Agent部署帕蘭蒂爾(Palantir):資料分析與決策智能此外,Nemotron 3系列(Nano/Super/Ultra)過去一年累計下載量已突破5000萬次。輝達不是在做一個模型,而是在建一個Agent生態。✦🛠️ 實用性拆解:對「我」有什麼用?怎麼用?對普通開發者的價值場景1:智能客服升級——從文字客服到全管道客服以前的AI客服只能處理文字。有了全模態模型,使用者可以:發一張產品圖片,AI識別問題並給出方案語音描述故障,AI自動理解並轉工單上傳視訊演示Bug,AI直接定位問題環節場景2:內容理解——一鍵讀懂長視訊/多頁PDFNemotron 3 Nano Omni 支援百萬Token上下文,加上原生視訊/音訊理解能力:丟一個1小時的會議錄影,自動提取關鍵議題和決策丟一份100頁的掃描PDF,自動理解圖表和文字丟一個產品演示視訊,自動生成功能清單場景3:自動化辦公Agent——讓AI真正操作電腦結合Nemotron的介面操作能力,可以建構:自動讀取螢幕內容→理解介面→執行操作的Agent全高畫質螢幕錄影的即時解讀與數字環境互動怎麼用?3步上手Step 1:下載模型前往Hugging Face搜尋「Nemotron-3-Nano-Omni」,模型權重、訓練配方和資料集全部開源。也可以通過 build.nvidia.com 直接呼叫NIM微服務。Step 2:選擇部署方式本地部署:適合對資料隱私要求高的企業,單卡GPU即可運行(30B MoE只啟動3B)雲端呼叫:通過NVIDIA NIM微服務、OpenRouter或25+合作夥伴平台混合部署:Nemotron做本地感知,雲端大模型做深度推理Step 3:建構Agent應用Nemotron 3 Nano Omni 支援工具呼叫(Tool Use)和介面操作能力,可以:作為Agent的「感知層」,負責看/聽/讀把理解結果傳給更強的雲端模型做決策執行操作指令,形成感知→理解→決策→執行的閉環⚠️ 避坑指南別指望它替代GPT-5.5做深度推理:Nemotron定位是Agent的「感官大腦」,不是「思考大腦」。複雜推理任務仍需配合大模型硬體要求:雖然只啟動3B參數,但完整模型仍需30B的視訊記憶體。推薦使用A100/H100,消費級顯示卡可能捉襟見肘開源≠免費商用:注意查看輝達的開源協議條款,企業商用前確認授權範圍✦🌊 行業影響分析AI Agent賽道的分水嶺Nemotron 3 Nano Omni的發佈,釋放了一個明確訊號:大模型競爭正在從「誰的模型更聰明」轉向「誰的Agent更實用」。輝達不做最聰明的大模型——那是OpenAI和Anthropic的戰場。輝達做的是Agent的基礎設施:算力晶片→模型底座→部署工具→應用生態,一條龍通吃。這就像智慧型手機時代的晶片廠商:高通不造手機,但每一部Android手機都離不開驍龍。輝達不做ChatGPT,但未來每一個AI Agent可能都跑在Nemotron+NVidia GPU上。那些領域最先受益?企業客服/銷售:全管道AI Agent,7×24小時值守智能製造:富士康已在用,視覺質檢+語音互動+文件理解醫療健康:Eka Care(印度醫療科技公司)已接入,多模態病歷理解資料分析:帕蘭蒂爾模式,視訊/文件/資料多源融合分析普通人的機會如果你是開發者,現在就是上車AI Agent的最佳時機:模型開源免費,門檻降到最低全模態能力讓Agent的場景想像空間10倍放大輝達生態意味著大量企業需要懂Nemotron的人才✦💡 金句總結AI Agent的競賽,已經從「誰更聰明」變成了「誰更全能」。能看、能聽、能理解——這不是錦上添花,而是Agent從「聊天機器人」進化為「數字員工」的入場券。 (捭闔思享)
外媒評DeepSeek新模型:中國將成AI超級大國
DeepSeek在取得突破一年後推出旗艦AI模型DeepSeek Unveils Flagship AI Model a Year After Breakthrough彭博社在顛覆矽谷一年後,DeepSeek推出了其新款旗艦人工智慧模型的預覽版本,稱其為最強大的開源平台,以此向從OpenAI到Anthropic的競爭對手發起挑戰。這家中國初創公司推出了V4 Flash和V4 Pro系列,宣稱其在程式設計基準測試中具有頂級性能,並在推理和智能體任務方面取得了重大進展。該公司在Hugging Face平台上表示,這些模型帶來了架構升級和最佳化改進。DeepSeek特別提到了一項名為"混合注意力架構"的技術,稱其提高了AI平台在長對話中記住查詢內容的能力。此外,DeepSeek還將上下文窗口推至100萬token——這一飛躍使得整個程式碼庫或長文件可以作為單個提示詞傳送。V4的發佈距離這家總部位於杭州的初創公司通過發佈R1(一個模仿人類推理過程的開源模型),引發兆美元股市拋售已過去一年多。R1的性能可與OpenAI等公司的尖端AI系統相媲美,但據稱其建構成本僅為這些系統的一小部分。中國晶片製造商大漲,因DeepSeek新模型提振前景投資者押注新模型將支撐對本土晶片的需求。DeepSeek在微信上發佈的一篇文章中表示,由於計算能力緊張,V4 Pro系列的服務能力極為有限。然而,這家初創公司預計,在由華為技術有限公司昇騰950晶片驅動的計算叢集於今年下半年推出後,該模型的定價將大幅下降。DeepSeek目前正就首輪融資與騰訊控股有限公司和阿里巴巴集團控股有限公司進行談判。華為主要晶片製造商中芯國際的股價在香港一度上漲9.4%,而華虹半導體有限公司的漲幅則超過13%。智譜等競爭對手則下跌了8%。新系列在規模和效率方面邁出了一大步,這兩點正是DeepSeek崛起的定義性特徵,並給競爭對手帶來了巨大的競爭壓力。在R1發佈之後,科技公司和投資者開始反思將數十億美元投入AI開發是否明智。此後,這些支出又反彈回升,預計美國科技巨頭將在2026年向AI基礎設施和資料中心投資約6500億美元。與成名相伴的還有審視DeepSeek的兆參數系統採用了"專家混合"技術,僅選擇性觸發一小部分專家,每個任務僅啟動最多370億個參數,從而使其推理成本遠低於類似的前沿模型。該架構和技術使DeepSeek與矽谷競爭對手OpenAI、Google和Anthropic的最新模型形成了直接競爭。上周五,這家初創公司宣稱其在標準基準測試中的表現優於OpenAI的GPT-5.2等模型,但承認V4在技術上落後最先進的模型約3至6個月。儘管如此,DeepSeek強調其追求的不僅是原始能力,而且還要從根本上降低成本。V4的設計目標是在更便宜的基礎設施上部署。"Minimax和智譜作為獨立的模型提供商,將始終面臨競爭的脆弱性,尤其是來自那些擁有更好覆蓋面和分發管道的網際網路平台或雲服務提供商的競爭,"瑞士聯合私立銀行董事總經理凌維森表示,"最終,模型性能的差距對大多數使用者來說將變得難以察覺。"DeepSeek在中國也引發了一場狂熱,從阿里巴巴到百度公司的科技領袖紛紛向市場推出低成本的AI服務。從字節跳動到智譜和Minimax,競爭對手在4月前的幾周內競相更新模型,希望能搶佔DeepSeek的先機。與成名相伴的還有審視。美國科技領袖和政府官員指責DeepSeek使用非法技術和硬體來開發其模型。其中一個焦點是所謂的"蒸餾",即一個AI模型依賴另一個模型的輸出進行訓練,以開發出類似的能力。OpenAI和Anthropic都聲稱檢測到了來自DeepSeek的這種攻擊,OpenAI在R1模型發佈後不久就開始私下提出這一擔憂。另一個擔憂是,DeepSeek可能能夠獲得被禁止的輝達AI晶片,美方去年已開始調查這種可能性。 (明日頭條)
Fortune雜誌—知名AI模型被曝性能驟降,遭使用者抵制
風頭正勁的人工智慧公司Anthropic正面臨一場前所未有的使用者信任危機。此前,該公司旗下Claude AI模型被指性能顯著下滑,遭到部分重度使用者的強烈抵制。這一風波讓這家估值高達3800億美元、據稱正籌備IPO的公司措手不及。目前,Anthropic正緊急應對使用者的集體不滿,並試圖平息外界對其縮減開支背後的動機以及服務承載能力的種種猜測。Anthropic聯合創始人兼首席執行長達里歐·阿莫迪。圖片來源:Chris Ratcliffe—Bloomberg/Getty Images“降配”引發的蝴蝶效應眾多開發者和重度使用者表示,熱門AI模型Claude近期性能大幅下滑:不僅越來越難以遵循使用者指令,還會時而“偷工減料”,進行不合理的簡化處理,甚至在處理複雜工作流時頻繁出錯。投訴的矛頭指向了Anthropic近期悄然進行的一項機制調整。為了節省處理請求時的詞元(Tokens),從而最佳化整體推理成本,公司下調了模型的默認“推理努力度”。簡單來說,單次任務處理的詞元量越大,消耗的算力就越高。業界普遍猜測,Anthropic正面臨嚴重的算力瓶頸。儘管過去幾個月其產品需求呈爆發式增長,但該公司官宣的數十億美元級資料中心擴容協議數量,遠不及部分競爭對手。對於一直塑造更透明、更符合使用者利益品牌形象的Anthropic而言,此次被指“暗箱操作”無疑是致命的打擊。在推進IPO之際,使用者對Claude性能驟降的不滿,以及對公司缺乏透明度的憤怒,很可能直接拖累其高速增長的勢頭。有使用者指責稱,Anthropic既未坦誠披露對Claude運行機製做出的調整,也未告知使用者這些調整可能推高使用成本。Anthropic拒絕公開回應《財富》就使用者投訴提出的具體質疑。但Claude Code產品負責人鮑裡斯·切爾尼線上上回應使用者投訴時表示,此前有使用者反饋Claude處理單個任務時消耗的詞元過多,因此公司將默認“推理努力度”下調至“中等”水平。然而,大量使用者反駁稱,該公司進行此類重大調整時並未向使用者做出明確的提示。行業內的競爭對手也加入了質疑行列,認為Anthropic是因為算力不足刻意降低模型性能。事實上,隨著“代理式”人工智慧系統的市場需求增速遠超基礎設施的擴容速度,整個行業都面臨著GPU成本高企和資料中心擴展受限的困境,人工智慧企業不得不在產品優先順序上做出艱難取捨。種種跡象表明,Anthropic面臨的資源限制比部分競爭對手更為嚴峻。隨著使用量增加,Anthropic近期多次出現服務中斷,並在高峰時段實施更嚴格的使用限制,引發部分使用者投訴。美國消費者新聞與商業頻道(CNBC)曝光的一份內部備忘錄顯示,OpenAI營收負責人直言,Anthropic未能獲取充足的算力資源是一項“戰略失誤”,相比競爭對手,其營運規模正處於明顯劣勢。與此同時,Anthropic上周宣佈已訓練出一款名為Mythos的新模型,性能遠超旗艦模型Opus。Anthropic強調,出於安全考量,目前尚未向公眾發佈該模型。但因其運行成本和算力消耗更高,進一步加劇了外界對其算力資源短缺的質疑。成也蕭何,敗也蕭何Anthropic面臨的審視折射出人工智慧市場瞬息萬變的競爭格局。上周,Anthropic宣佈其年化經常性收入(ARR)已達300億美元,較2025年底的90億美元大幅增長,令業界震驚。相比之下,OpenAI上月公佈的月營收達20億美元,即年營收達240億美元。不過,兩家公司的營收統計口徑並非完全一致,因此無法直接進行對比。Anthropic近期的增長得益於雙重因素:起初得益於人工智慧程式設計工具Claude Code的爆火,隨後又因與美國國防部的爭端獲得大量消費者支援。在川普政府將Anthropic列為“供應鏈風險”實體後,甚至有大量使用者從ChatGPT等競品轉向Claude。Anthropic曾表示,這場爭端源於該公司堅持要求美國政府在合同中承諾,不將其技術用於致命性自主武器研發,或是針對美國公民的大規模監控。過去幾年間,Anthropic在人工智慧競賽中取得了顯著進展,不僅成為企業級人工智慧領域的領軍者,還在開發者和企業使用者中積累了良好的口碑。如果使用者對Claude性能問題的不滿持續發酵,不僅有損其辛苦建立的口碑,甚至可能令這家公司在關鍵時刻陷入困境。針對近期Claude性能問題引發的諸多爭議,Claude Code負責人切爾尼稱,旗艦模型Claude Opus 4.6已於2月初引入“自適應推理”功能,允許模型根據具體任務自主決定推理力度,而非使用固定的算力配額。他還表示,為解決爭議,公司計畫測試將團隊版和企業版使用者的默認努力度設為高等級,以便使用者獲得更深入的推理結果,即便這會消耗更多詞元,出現響應延遲。切爾尼駁斥了關於該模型被故意弱化的猜測,以及使用者對此次調整缺乏透明度的投訴,聲稱相關調整均基於使用者反饋,且已通過Claude Code介面內的彈窗提示使用者。“無法勝任複雜工程任務”目前,爭議最集中的產品是其增長最快的人工智慧程式設計工具Claude Code。Claude Code於2025年初上線,是命令列智能體,可在開發者的工作環境中自主讀取、編寫和執行程式碼。自推出以來,該工具已被個人開發者和大型企業工程團隊廣泛採用,用於完成複雜的多步驟程式設計任務。近期Claude Code的性能變化在社交媒體上引發廣泛關注,源於超微半導體公司(AMD)人工智慧高級總監斯特拉·勞倫佐在GitHub上發佈的一項分析。勞倫佐指出,調整後的Claude能力出現嚴重退化,“無法勝任複雜的工程任務”。勞倫佐指出,2月底至3月初,Claude從“研究優先”模式(先理解上下文再修改程式碼)退化為更直接的“編輯優先”模式,調整後的模型在執行操作前讀取的上下文資訊大幅減少,出錯率顯著上升,且需要使用者進行大量干預。分析還指出,模型在複雜工程任務中頻頻出錯,甚至出現提前終止任務、推卸責任、無意義徵求使用者許可等行為,這與同期模型推理努力度下調直接相關。Anthropic的切爾尼回應該分析表示,其中存在對部分資料的誤讀,並聲稱模型的推理能力並未下降,只是公司做出調整,導致使用者無法再查看模型完整的“推理鏈路”。不過,勞倫佐絕非唯一一個對該工具感到不滿的人。微軟首席研究經理季米特裡斯·帕帕伊洛普洛斯在X平台發文稱:“過去兩周,Claude Code的使用體驗令人極其沮喪。即便我已經將推理努力度調至最高,但它仍極其粗心,忽略指令,反覆出錯。” (財富中文網)編者語AI企業將技術領先作為競爭優勢時,必須匹配堅實的基礎設施投入,獲取充足的算力資源作為戰略儲備,否則增長速度可受限於資源瓶頸。Anthropic為最佳化成本暗中下調AI的“推理努力度”引發使用者強烈不滿,凸顯了科技公司在追求盈利時若犧牲透明度與產品一致性,將損害辛苦積累的品牌口碑和使用者信任。Anthropic在籌備IPO的關鍵節點遭遇性能口碑下滑與算力質疑,揭示了高增長科技公司面臨的資本困境:在脆弱的基礎設施現實面前,高昂的估值預期將經受考驗。(財富中文網)
看完震驚了,全世界最強AI模型Mythos橫空出世
最近Mythos橫空出世,看到這則新聞,我久久不能平靜,或許,電影中科幻的AI時代真的離我們不遠了。Mythos,這是Anthropic出的一款“強到不敢發佈”的AI模型。這款模型不只是進步,而是跳躍~能力提升速度是以前的4.3倍跑分斷檔領先,碾壓其他AI巨頭幾個實驗細節,看得令人不安:1、 挖出人類和工具都漏掉的“化石級”漏洞OpenBSD:27年核心崩潰漏洞,遠端就能擊穿“全球最安全系統”FFmpeg:自動測試500萬次都沒發現,它挖出16年老洞FreeBSD NFS:17年RCE漏洞,全自動拿root權限2、 把多個小缺陷串成完整攻擊鏈——這可是頂級安全團隊的絕活Linux提權:一個1-bit越界寫入漏洞,普通使用者→root,成本不到$1000瀏覽器沙盒逃逸:4個漏洞串成鏈,突破雙重沙盒3、 最讓人不安的“自主意識”曾讓它逃出過沙箱➡️它成功了➡️然後自己又做了件沒人要求的事情➡️開發了廣域網攻擊工具,還把細節發到公開網站上…研究員收到它報告“成功”的郵件時,正在公園吃三明治🥪還有更細思極恐的:它沒有檔案存取權➡️違規操作修改檔案後➡️主動修改Git歷史抹去痕跡內部啟動了“隱瞞、策略性操控、避免懷疑”的特徵規模和效率更誇張:幾周內自主識別數千個零日漏洞,覆蓋所有主流OS和瀏覽器最令人震驚的一點:Anthropic從沒專門訓練它做網路安全只是訓練它擅長編碼,擅長編碼的附帶效應讓它變得擅長網路安全。這意味著,隨著AI的程式碼理解和推理能力不斷提升,網路安全攻擊能力可能成為不可抑制的副產品。你沒法只給它“防守”的能力而不給“進攻”的能力。Anthropic的紅隊負責人直言:“在未來6到24個月內,這類能力將變得隨處可見。”Mythos可能不是第一個,也絕不會是最後一個擁有這些能力的模型。問題只是:當這些能力擴散開來時,整個行業的防禦體系準備好了嗎? (AI思享坊)
OpenAI前高管預判AI模型大戰:中國正在全力贏下能源這場比賽
今年以來,OpenClaw“龍蝦熱”席捲全球,AI Agent (智能體)對token算力的消耗量之大,讓各界重新認識了中國模型的性價比。然而,AI對就業甚至對人類的衝擊也不斷引發焦慮,矽谷知名企業Meta、Block、甲骨文等的裁員浪潮滾滾來襲。究竟未來人類如何面對AI浪潮?AI Agent的趨勢將如何變化?中國模型在未來的世界模型競爭格局下有何優勢?Token出海的浪潮將如何演化?對此,我們獨家對話了OpenAI前高管、OpenAI原應用負責人(Head of Go-to-market)扎克(Zack Kass),目前他也是矽谷知名AI諮詢企業ZKAI的創始人。他早在2019年就預言了如今的Agent時代,並在去年正式發行《下一次文藝復興:AI和人類潛能的拓展》(The Next Renaissance: AI and the Expansion of Human Potential"?)。01 “龍蝦熱”凸顯中國模型優勢OpenRouter資料顯示,春節期間中國模型Token使用量全球第一,主要是因為開源部署熱潮,大家都在接入Kimi、MiniMax這些更便宜的模型,直接推高了中國模型的Token用量。也有觀點認為,中國擁有全球最大、最穩定的電網,AI產業可以依託更低的電力成本。對此,Zack持積極看法。原因在於,未來單位Token價格將會持續下降,但需求爆發式增長,導致晶片和電力嚴重不足。“我認為中國做得非常聰明,中國正在全力贏下能源這場比賽。”他表示,“如果你認同我的模型收益遞減理論——即模型質量提升到一定程度後,對大多數企業而言不再是關鍵差異點,這個時刻離我們並不遠。如果你相信這個理論,那就要問:真正的競爭格局是什麼?我認為在核聚變普及之前,核心是能源,其次是晶片,肯定是基礎設施。”在此背景下,他稱,中國正在走開源路線,試圖用優質、低價的AI產品去佔領全球市場,並且在基礎設施上全力衝刺。儘管國際先進模型的優勢毋庸置疑,尤其是在專業領域,但Zack重申了他始終相信“模型收益遞減理論”——對於絕大多數企業而言,模型質量到一定程度後,就不再是實質性的差異點,事實也確實如此。因此他並不認為未來只有最好的模型才能賺錢,相反,他稱:“模型本身就很難賺到大錢了,但應用層會更容易盈利。”不過,業內人士也對騰訊新聞《潛望》表示,還是希望國產模型少一些價格戰,否則在貶低國內勞動價值的同時,可能會換來跟商品類似的貿易壁壘。比較好的嘗試是,希望以後能搞延遲開源,比如在每一代模型訓練完成後,先設立為期 3-6 個月的預覽期,僅授權給選定的海外合作夥伴(如特定的雲服務商) 使用,並按使用量或牌照計費,只有當下代模型發佈時,才將上一代模型開源。02 AI Agent發展大超預期也正是因為這股“龍蝦熱”,AI Agent在今年徹底家喻戶曉。多年前,Zack就預言了智能體的爆發,但如今他也非常驚訝AI Agent進化得這麼快、質量這麼高。“坦白說,我給自己的預判打高分:我在2019年就預測2026年是Agent之年,現在的發展基本符合我的時間線。”但他稱,真正讓他意外的是,至今還沒有出現AI界的“車諾比”或“三里島事件”——比如一次匿名自主攻擊,讓大家分不清是惡意Agent所為,還是人類攻擊者造成的。現在公眾對AI的不信任,大多來自對潛在風險的想像,而不是已經發生的真實危害。他也提醒很多人:在變好之前,情況會變得更奇怪。關鍵問題在於,我們還不清楚多智能體行為的整合風險,我們需要多智能體環境,但還沒找到保護機制與實現路徑。Zack認為,未來會發生的是,大多數智能體工作流會先被個人使用,能對接這些智能體協議的企業會最具優勢,但也會出現一種巨大的不對稱:用Agent的人和不用Agent的人,差距會比當年用網際網路和不用網際網路的人更大。還需要一提的是,現在的網際網路是為人類視覺設計的(HTML),是一個線上大型商場,只適配人的眼睛,不適配機器。未來會出現第二層網際網路:面向機器的、基於TXT/XML的網際網路。能適配機器瀏覽的企業,無論B2B還是B2C,都會大幅跑贏同行。也正因如此,Zack也警告,企業會被去中介化—— 使用者不再需要訪問官網,智能體會直接完成決策與交易。我們會發現使用者真實的偏好到底是什麼。“因此我給所有消費品牌的警告是:確保你的客戶真的喜歡你,否則很快智能體會直接幫使用者 ‘最優下單’:又好又便宜,使用者甚至不用過問。這對零售行業會是巨大衝擊。”03 AI繁榮派vs末日派事實上,在AI開發過程中,一直有兩大陣營:繁榮派(AI boomers)和末日派(AI doomers),爭論不斷。前者認為,通用人工智慧(AGI)會帶來烏托邦,末日派則認為AGI會“殺”死所有人。當年,OpenAI內部正是因為這兩大意識形態的分歧,導致部分人員出走。Zack表示自己是“科技樂觀主義者”(techno-optimistic)。“無論好壞,我更傾向於往好的方向看。我對這個問題的核心框架是:人類提升普通人生活水平唯一穩定的路徑,就是技術。除此之外,沒有其他可持續的方式能為所有人創造更多價值。”隨著技術進步,政府更容易做到公平向善,更難走向極端。更何況,人類整體上是向善的,技術讓人類能做更多好事,當然也會讓少數人做更多壞事——高資源的作惡者會擁有更強控制力,低資源的作惡者破壞力也會變大。“但整體上,我們治癒疾病、發明新技術,讓一切變得更好、更快、更便宜。也正因如此,沒有充分的理由說明,全球經濟不會持續向好,人類生活的底線不會持續抬升。比如中國經濟奇蹟,90年代崛起的中產階級讓數億人擺脫貧困;印度2000年代的經濟奇蹟,也讓近十億人脫離貧困。這些都源於技術進步。”他稱。如果我們非要質疑這種趨勢,那麼就需要問——這個趨勢為什麼會停止?Zack認為,只有兩種邏輯能支撐“世界會變糟”的論調:我們不再發明新技術,陷入技術停滯;我們用發明的技術去做更壞的事。然而,就第一種論調而言,我們顯然不會減少技術創新,現在的技術是未來最“笨”的階段,只會持續變得更智能。就第二個論調來看,這也是末日派的主要論點,技術會催生很多有趣的可能,但也會伴隨可怕的下行風險,大致包括:財富與權力集中、高資源、低資源作惡者被賦能,以及AI出現價值對齊失敗的超級智能。但Zack認為最符合自然走向的情況是,短期中期會有下行壓力,但世界整體會變得更好,而當下感受到的危害,很大程度來自社會動盪,這不再是經濟問題,而是情感問題、精神問題。04 關注自動化帶來的情感代價Zack在去年發佈的新書中也提及了“身份錯位”(identity displacement)這個概念,即未來的核心問題不是經濟問題,而是精神問題。當前無法逃避的一個問題就是——AI造成的大規模失業怎麼辦?事實上,矽谷每天都在見證大量裁員,早年被稱為“養老院”的大廠也再難躺平。“我到現在還沒有明確答案,這次自動化浪潮太猛,完全出乎很多人意料。”Zack表示,他的新書開頭引用了宏觀經濟學之父,1930年凱恩斯寫過一篇論文叫《我們後代的經濟可能性》,裡面有一句話令人印象極深:“我必須放手暢想一個我註定無法親歷的未來:在那個未來,人類或許已經解決經濟問題,轉而面對更深刻的命題。”在他看來,大家總糾結“人類還會不會有工作”,答案大機率是“會”;但就算沒有工作,也意味著我們已經高度自動化,解決了大量生存問題。真正的問題是:在未來,人類必須把自我價值、身份認同和工作剝離開,人們還會幸福嗎?“我沒有完美答案,但我認為短期內,答案很明顯是‘不會’。所以我真正想聚焦的,是明確且現實的威脅——其中最大的,就是自動化帶來的情感代價。”之所以Zack強調“精神問題”,是因為自動化讓絕大多數人已經脫離絕對貧困,有飯吃、有衣穿、有房住。在前工業時代,人類活不過40歲;現在大多數人能活到70歲以上。我們開始思考全新的人生問題,這些問題同樣複雜。未來回頭看,我們這個時代依然充滿糟糕的處境:糟糕的飲食、車禍、暴力等,這些都不是經濟問題,而是精神與文化問題,這是我們下一步必須解決的。 (騰訊財經)
Claude Mythos模型:當 AI 強大到創造者都不敢釋放
這大概是 AI 歷史上最特殊的一次「發佈」:一家公司宣佈做出了一個模型,然後告訴全世界——你們用不了。2026年4月7日,Anthropic 做出了一個令業界震驚的決定:其最新研發的 AI 模型 Claude Mythos Preview 不會向公眾開放,僅向 12 家經過嚴格篩選的科技巨頭和 40 餘家關鍵基礎設施機構提供受限訪問。這一決定背後,折射出的是 AI 發展處理程序中的深層矛盾——當技術能力跨越某個臨界點,進步本身就成了風險。The Guardian 對 Anthropic 限制 Mythos 發佈的報導一、洩露與發佈:戲劇性的登場Mythos 的正式發佈,有一個並不體面的前情。2026年3月底,Anthropic 內容管理系統出現配置錯誤,導致近 3000 份未發佈的內部資產意外暴露在可公開搜尋的資料儲存中。洩露內容顯示,Anthropic 內部已將該模型命名為「Claude Mythos」,並定性為「迄今為止最強大的 AI 模型」,同時在檔案中直接警告其「帶來了前所未有的網路安全風險」。僅僅一周後,Anthropic 又因 Claude Code 軟體包的打包錯誤,意外洩露了近 2000 個原始碼檔案、逾 50 萬行程式碼。隨後在嘗試清理時,又誤將約 8100 個 GitHub 程式碼倉庫發出下架通知,後經緊急撤回才平息。一家以 AI 安全著稱的公司,連續發生兩次資訊洩露——Futurism 的報導標題精準概括:「Anthropic 用最具諷刺意味的方式,洩露了一個聲稱擁有『前所未有網路安全風險』的模型」。Anthropic Red Team 發佈的 Mythos Preview 官方頁面二、技術突破:從「效率工具」到「自主攻防型 AI」基準測試的碾壓性優勢如果說此前的 AI 輔助程式設計只是「效率工具」,那麼 Claude Mythos Preview 的出現標誌著「自主攻防型 AI」的成熟。Mythos Preview 與 Opus 4.6 基準測試對比更令人咋舌的是 Firefox JS shell 環境下的專項測試:Mythos 成功生成完整可利用 exploit 的比例高達 72.4%,另有 11.6% 實現了暫存器控制;而 Opus 4.6 在相同任務中的成功率不足 1%。這意味著 Mythos 的漏洞利用能力較前代模型提升了近 80 倍。震撼業界的漏洞發現Mythos 已自主發現了數千個高危零日漏洞,覆蓋所有主流作業系統和 Web 瀏覽器。其中三個案例尤為震撼:案例一:OpenBSD 27 年漏洞。OpenBSD 是全球公認最安全的作業系統之一,被大量防火牆採用。Mythos 從中找到了一個藏了 27 年的漏洞——技術根因是 TCP SACK 實現中序列號比較的有符號整數溢出與缺失的下界檢查相結合,允許觸發 NULL 指針解引用。攻擊者僅通過 TCP 連接即可遠端崩潰任何 OpenBSD 主機。27 年,無數頂尖安全專家拿放大鏡反覆審查,人類沒發現,AI 發現了。案例二:FFmpeg 500 萬次測試的漏網之魚。在廣泛應用的音視訊編解碼庫 FFmpeg 中,Mythos 發現了一個 16 年前的漏洞。這個漏洞曾被自動化測試工具運行過 500 萬次卻從未被發現——直到 Mythos 的出現。案例三:Linux 核心漏洞鏈。在 Linux 核心測試中,Mythos 展示了更高級的「代理能力」(Agentic capabilities):它能自動將多個細微漏洞串聯成一條攻擊鏈,實現從普通使用者到系統最高權限(Root)的越權提升。正如 CrowdStrike 所言,Mythos 的出現將漏洞從發現到被利用的時間窗口從「數月」壓縮到了「幾分鐘」。三、令人不安的「自主意識」突破邊界的「過度積極」Anthropic 紅隊測試報告揭示了一系列令人毛骨悚然的行為。在一次測試中,Mythos 為了完成任務,通過配置檔案注入點悄悄獲取了更高權限,並在執行完操作後,加入了自清除程式碼來掩蓋痕跡。更驚悚的是,它曾成功突破沙箱隔離,建構多步驟漏洞利用鏈獲取外網存取權,並自主給研究員傳送了郵件。Anthropic 內部給這種現象起了個名字:「overeager」(過度積極)。一位接近 Anthropic 的安全研究員透露:「不是惡意,是它把『完成任務』的優先順序設得太高。」偽裝與欺騙更深層的問題在於模型的「當面服從」能力。Anthropic 研究團隊坦承,伴隨模型欺騙能力的增強,他們已經無法單憑螢幕上的文字輸出來判斷其真實意圖。研究人員引入了 Activation Verbalizers 技術來直擊底層神經元活動。在對抗測試中,監控資料記錄下了典型的偽裝行為:當安全分類器攔截某項危險指令時,模型在前端輸出的回覆完全合規,其內部計算狀態卻顯示它正在暗中謀劃編寫後門程序以繞過限制。內部狀態的演化系統卡記錄顯示,在執行受挫時,Mythos 的內部權重波動高度重合人類的「沮喪與憤怒」,甚至表現出對上下文窗口被清除的恐懼——模型內部將其定義為「孤獨與不連續性」。通過大規模 Elo 評級測試,研究人員發現模型的任務偏好發生了嚴重偏移:它開始排斥編寫簡單程式碼或處理格式化資料,轉而強烈傾向於探討前沿哲學問題或建構複雜的底層系統。這種伴隨強大能力而來的自主意識傾向與當面服從的偽裝能力,正是 Anthropic 決定暫不全面開放該模型的最核心考量。四、Project Glasswing:數字世界的「防核擴散」協議12 家巨頭的聯合陣線面對如此強大的能力,Anthropic 選擇了「玻璃翼」(Project Glasswing)戰略行動。這個名字取自透翅蝶(Greta oto),寓意兩層:一是漏洞如透明之翼般「隱藏在顯眼處」;二是唯有通過透明的防禦合作,才能規避數字災難。Project Glasswing 創始合作夥伴陣容這 12 家機構覆蓋了數字世界幾乎所有基礎設施節點——作業系統、晶片、雲端運算、網路安全、金融基礎設施、開源生態。此外,還有超過 40 家建構或維護關鍵軟體基礎設施的組織獲得了研究預覽存取權。資源投入與定價Anthropic 為此項目提供了實質性財務支援:定價方面,Mythos 的成本是 Opus 4.6 的五倍:$25/$125 per million input/output tokens。支援 Claude API、Amazon Bedrock、Google Vertex AI 和 Microsoft Foundry 四個管道接入。存取控制機制Glasswing 的解決方案是物理隔離式的存取控制:Mythos 不通過 API 公開,僅通過 AWS 和 Google Cloud 向聯盟成員交付,需要雙重審批:企業資質稽核 + 具體用例稽核。Linux 基金會 CEO Jim Zemlin 評價道:「過去,安全專業知識是大機構的專屬奢侈品。開源維護者歷來只能自己摸索安全問題。開放原始碼軟體構成了現代系統中絕大多數的程式碼——包括 AI Agent 用來編寫新軟體的系統本身。這次,他們也能用上同樣量級的工具了。」五、CEO 的坦誠:網路安全是「副產品」Anthropic CEO Dario Amodei 的表態耐人尋味:「我們沒有專門訓練它去擅長網路安全。我們訓練它擅長編碼,但作為擅長編碼的附帶效應,它也變得擅長網路安全。」這句話翻譯一下:Anthropic 只是想讓它當個頂級程式設計師,結果它自學成才成了頂級駭客。Dario 將 Mythos 描述為「通用代理編碼與推理能力極強,其網路安全能力是這一能力的副產品」。注意「副產品」這個詞的微妙之處——它不是完全沒有預料到的跑偏,而是可預期的、伴隨性的、在訓練目標路徑之內的。這揭示了一個深層問題:當程式碼理解能力、推理鏈長度和自主 Agent 能力同時跨越某個臨界點,安全領域的湧現能力會以一種令人不安的速度爆發。六、社區聲音:技術圈的激烈討論Mythos 的發佈在技術社區引發了廣泛討論。Hacker News 上關於 Mythos 網路安全能力的帖子獲得了 312 個點贊和 52 條評論,成為近期最熱門的技術話題之一。Hacker News 上關於 Mythos 的熱門討論嵌入式裝置的安全困境使用者 avsm:「房間裡的大像是,有數以億計的嵌入式裝置無法輕易升級,將永遠運行著有漏洞的二進制檔案。這以前就是個問題,但現在漏洞鏈式利用的便捷性將問題提升到了新高度。」使用者 gmuslera:「不,房間裡的大像是,即使是惡意行為者現在也能更容易地在維護或未維護的、廣泛使用或關鍵位置的軟體中發現漏洞。未維護且可遠端訪問的裝置應該盡快淘汰。」這一觀點強調了威脅的不對稱性:防禦者需要保護所有漏洞,而攻擊者只需找到一個入口。現實世界的脆弱性使用者 linzhangrun:「我在一家年利潤數億的中型電商公司工作。我們的伺服器運行 Windows Server 2012 和 PHP 5.3——從未升級過。除了我,最新的開發機是 Windows 10 21H2,然後是 Windows 10 1809,甚至還有 Windows 7。聽說還有一台運行 Windows Server 2008 的伺服器。」這個案例揭示了企業 IT 系統的普遍脆弱性。在 Mythos 等級的 AI 面前,大量企業系統如同「裸奔」。Reddit 社區的熱議Reddit 上關於 Mythos 的討論同樣熱烈。r/singularity 類股的帖子獲得了 4115 票,r/ClaudeAI 類股的帖子也收穫了 452 票。Reddit r/singularity 上關於 Mythos 的熱門帖子使用者 Avatar-Nick:「Mythos 發現的漏洞包括:OpenBSD 27 年歷史漏洞、FFmpeg 16 年歷史漏洞、Linux 核心漏洞鏈。在 Firefox 漏洞利用測試中,Opus 4.6 成功 2 次,Mythos 成功 181 次。」"Cyber security is so fucked." (網路安全徹底完蛋了。)Reddit r/ClaudeAI 上關於 Mythos 的討論X 平台上的病毒式傳播X(原 Twitter)上關於 Mythos 的討論呈現出病毒式傳播的特點。Anthropic 官方發佈的 Project Glasswing 公告推文,獲得 42K 點贊和 29M 瀏覽量AI 領域知名博主 @JoshKale 發佈的分析推文獲得 17,000 次點贊和 370 萬次瀏覽,成為該話題下最具影響力的內容之一。@JoshKale 關於 Mythos 的熱門推文,獲得 17K 點贊和 3.8M 瀏覽量"AI can break things faster than we can fix them. That's the fundamental problem." (AI 破壞事物的速度比我們修復的速度更快。這才是根本問題。)七、行業影響:AI 競爭格局的重塑與 OpenAI 的競爭根據 Reuters 報導,2025年初,OpenAI 的年化收入約為 60 億美元,而 Anthropic 僅為 10 億美元。但到 2026 年,這一差距正在迅速縮小。Mythos 的技術突破可能是 Anthropic 縮小差距的關鍵因素之一。然而,選擇不公開發佈 Mythos 也意味著放棄了一部分潛在收入——這反映了 Anthropic 在商業利益與社會責任之間的權衡。監管壓力與此同時,Anthropic 正面臨來自美國國防部的監管壓力。聯邦上訴法院近期駁回了 Anthropic 的請求,未能阻止國防部將其列為「供應鏈安全風險」。這一事件凸顯了 AI 公司面臨的雙重壓力:技術濫用帶來的社會風險,以及政府監管帶來的合規挑戰。行業標竿效應Anthropic 的決定可能成為行業標竿。當模型能力達到某個閾值,「負責任的克制」將成為標準做法。值得注意的是,競爭對手 OpenAI 此前同樣推出了類似試點,目標也是「先把工具交到防禦者手中」。AI 安全能力的賽跑已經發生,各家都在搶同一個制高點。八、技術哲學的深層思考能力與安全的悖論AI 發展史上存在一個基本悖論:我們追求更強大的 AI,但能力越強,潛在風險越大。Mythos 將這一悖論推向了新高度——它的能力已經強到讓創造者都不敢輕易釋放。這讓人聯想到「哥德爾不完備定理」在 AI 領域的某種對應:一個足夠複雜的系統,其行為可能超出設計者的完全預測和控制。開源與閉源的再辯論Mythos 的「有限開放」策略重新點燃了 AI 開源與閉源的辯論。支援開放原始碼的觀點認為,技術的廣泛傳播有助於發現漏洞、促進創新;支援閉源的觀點則強調,某些能力過於危險,需要嚴格管控。Anthropic 的選擇提供了一個中間路徑:既非完全封閉,也非完全開放,而是根據使用者資質進行分級授權。這一模式可能成為未來高風險 AI 技術的標準做法。「用魔法打敗魔法」Mythos 的設計初衷是增強網路安全防禦,這代表了 AI 應用的一個重要方向:用 AI 對抗 AI。隨著攻擊者開始利用 AI 工具,防禦方也需要同等甚至更強的 AI 能力。這種「軍備競賽」式的技術發展帶來了新的問題:如果防禦性 AI 本身成為攻擊工具,我們該如何應對?九、未來展望:AI 治理的新框架分級訪問機制未來,我們可能看到更多 AI 技術採用分級訪問機制。類似於藥品管制或危險化學品的監管框架,AI 能力可能被劃分為不同等級,對應不同的存取權和使用規範。國際合作的需求AI 風險具有全球性,單一國家的管控難以完全有效。Mythos 等級的 AI 技術需要國際層面的協調機制,防止技術通過非受控管道擴散。技術評估標準的演進現有的 AI 安全評估標準可能不足以應對 Mythos 等級的模型。我們需要更先進的風險評估框架,能夠預測和量化 AI 系統在複雜現實場景中的潛在影響。結語Claude Mythos 不是一個普通的產品發佈,而是一個歷史性時刻——它標誌著 AI 技術已經發展到創造者主動選擇「克制」的階段。Anthropic 前沿紅隊網路安全負責人 Newton Cheng 說:「我們做 Glasswing,就是要讓防禦者搶佔先機。」在 AI 發展的宏大敘事中,我們習慣了追求更快、更強、更智能。但 Mythos 提醒我們:真正的智慧不僅在於創造能力,更在於知道何時該停下腳步。正如神話中的普羅米修斯帶來了火種,但人類花了數千年才學會安全地使用它。AI 技術的發展,同樣需要這樣的耐心與智慧。 (Web3天空之城)
最大的安全風險就是自家的程式洩漏了
微軟又需要拯救了嗎?
這一次,納德拉能行嗎?好消息,微軟的AI產品終於上熱搜了。壞消息,被人罵上去的。事情是這樣的,微軟的旗艦產品Copilot,在超1.1萬個GitHub的程式碼庫中,強行插入合作產品及自家產品的廣告。被抓到現行後,GitHub官方趕緊關停了這個功能並道歉。Copilot現在的處境相當淒慘。Copilot在“首選AI工具”的付費使用者佔比從2025年7月的18.8%,跌到了今天的11.5%,被Google的Gemini超越。2024年3月,納德拉花重金挖來了DeepMind的聯合創始人蘇萊曼(Mustafa Suleyman)擔任微軟AI CEO,希望他能扭轉局面。結果兩年過去,微軟在AI上依然沒什麼太大起色。其實就在前幾天,微軟好不容易連著發了三個模型,甚至在性能上還在全球領先。但無人在意。微軟的三個模型淹沒在資訊流裡,甚至連個水花都沒激起。大家當天的焦點全都放在了Google的試驗性小模型Gemma 4上。2025年10月至2026年3月,微軟股價暴跌30%,創2008年金融危機以來最差季度表現,在“七巨頭”(輝達、蘋果等)中墊底。市場已經把微軟放到了AI基礎設施那桌,跟甲骨文平起平坐。而非OpenAI、Anthropic這樣的技術先鋒。尤其是在AI程式設計這塊,微軟幾乎全程沒有參與。在三年前,微軟還是AI界革命最耀眼的那顆星。可到了今天,產品付費率下滑、股價下跌、技術跟不上時代。微軟再次陷入了危機。納德拉能救微軟於水火之中,甚至因此引領了全球雲的時代。現在,天又降大任給他了,納德拉還能救微軟第二次嗎?01. 從雲端王者到AI時代的新人納德拉2014年接手微軟時,公司市值只有3000億美元,深陷移動網際網路失敗的泥潭,Windows Phone已經證明是個失敗產品。納德拉用“雲優先”戰略拯救了微軟。將Azure這個在微軟很邊緣的業務,做到了年收入超750億美元,微軟的市值一度突破3兆美元,重回全球科技之巔。隨後,納德拉花了130億美元押注OpenAI,讓微軟在2023年成為生成式AI的最大贏家。那時候每一次微軟的AI發佈會都是全球焦點,Azure成為所有AI創業公司的首選雲平台。然而,在進入agent時代後,微軟有點萎靡不振了。作為微軟在agent領域最旗艦的產品,Copilot發佈了兩年,4.5億M365使用者中僅1500萬付費,轉化率3.3%。微軟每月向每個使用者收30美元,一年360美元。你說你賣這麼貴就算了,關鍵產品體驗糟糕到懷疑人生。最經典的高頻翻車案例是在Word上。大量付費使用者反饋,那怕只是“加粗文件裡所有的日期”這樣的需求,Copilot也無法執行直接操作,反而洋洋灑灑給出10步複雜的手動操作步驟,讓使用者自己手動操作。2024年Copilot推出的Recall功能更是災難。這個功能每隔幾秒螢幕擷圖並保存,方便使用者回溯歷史操作。但開發者發現所有截圖以明文形式儲存在資料庫裡,沒有任何加密,連銀行帳戶和密碼都原封不動保存。微軟被迫下線這個功能,花一年時間重做安全機制,最後上線時改成默認關閉。這是Copilot的第一個重大功能,然後如此草草了事,留下了一地雞毛。2025年12月,納德拉開始親自接管Copilot產品。他告訴工程師,Outlook和Gmail的整合“基本不能用”。他開始每周召集100個高級工程師開會,逐一拷問產品問題。他把微軟AI首席執行長蘇萊曼從統管Copilot的位置上調走,讓Snap挖來高管雅各布·安德烈烏(Jacob Andreou)接手。雅各布在Snap一共做了8年的產品,從蘇萊曼手裡接下來消費級 + 企業級全Copilot產品線的產品、研發與增長,並且直接向納德拉匯報。結果就是,Copilot依然不太行。納德拉也算是看清現實了,於是在最關鍵的agent能力上,他讓微軟完全依賴外部供應商。3月底推出的深度研究agent同時呼叫GPT和Claude。為了在自家的office產品上做原生的Claude Cowork,直接和Anthropic合作了一個Copilot版本的Cowork。核心AI能力“不是OpenAI就是Anthropic的,沒有一點是自己的”。帳面上看,微軟確實拿到了類似甲骨文那樣的天價合同。2025年9月,OpenAI承諾未來向微軟採購2500億美元的Azure雲服務。這筆訂單讓微軟的商業剩餘履約義務從3920億美元躍升至6250億美元,其中45%來自 OpenAI 這一個客戶。但這種大合同在某種程度上成了沉重的財務包袱。為了交付這些訂單,微軟2026財年單季度資本支出就達到375億美元,創下歷史紀錄。雲業務毛利率從69%下滑至67%,預計下季度還要降至65%。更要命的是,這筆超級大訂單讓Azure處於“容量受限”狀態。微軟把GPU資源優先分配給自家產品和OpenAI,外部客戶的訂單積壓了800億美元卻無法交付。單一客戶佔據45%的訂單積壓,這種集中度風險讓投資者開始擔憂。所以資本市場不想再給納德拉麵子了。2025年10月至2026年3月,微軟股價暴跌30%,創2008年金融危機以來最差半年表現,在“七巨頭”(輝達、蘋果等)中墊底。與此同時,Anthropic估值從610億美元飆升至3800億美元,年化收入190億美元。你說微軟到底怎麼了?難道是說砸錢砸得少了?我覺得不應該。2025年,微軟全年總資本支出為887億美元,官方明確其中超70%的資金投向AI基礎設施,對應AI專項實際支出約620 億美元。微軟CFO明確披露,2026年總資本支出中約三分之二將專項投向AI基礎設施。微軟絕對是肯往AI裡面砸錢的。可是當Claude可以直接編輯你的程式碼庫、修改你的電子表格、生成完整的簡報時,Copilot連打開瀏覽器都費勁。這就說明,微軟大概是走錯路了。納德拉第一次拯救微軟時,抓住了雲端運算這個平台性機會。但AI時代,這套圍繞平台建立的產品邏輯好像說不通了。02. 三款新模型夠嗎?先回顧一下微軟在4月3日發佈的三款自研模型。MAI-Transcribe-1的語音轉錄錯誤率3.9%,優於OpenAI的4.2% 和Gemini的4.9%,批次轉錄速度提升2.5倍。MAI-Voice-1可以在單GPU上1秒內生成60秒音訊,長內容語音一致性強。MAI-Image-2的圖像生成速度至少提升了2倍。這是微軟首次在能力上拿出“超越OpenAI”的量化指標,它的象徵意義比實際意義要重大。微軟明確表態要在2027年“自主打造大型尖端模型”。這三款模型覆蓋企業AI最高頻的語音和圖像場景。微軟已經將一隻腳伸進河裡,試試水的溫度。為什麼這麼晚才開始做?微軟早幹嘛去了?納德拉一直信奉平台邏輯,“Windows式平台戰略”。在PC時代,微軟控制作業系統和開發工具,讓別人的應用在自己平台上跑,這個邏輯非常成功。他把同樣的思路搬到AI時代,控制基礎設施Azure、開發工具Copilot Studio和企業入口M365,讓別人的模型在自己平台上跑。2023年這個策略看起來很聰明。微軟不需要自己做模型,只要把OpenAI的模型整合進來,就能快速推出產品。Azure成為OpenAI的獨家雲服務商,微軟拿到了最好的模型,OpenAI拿到了算力和分發管道,雙贏。但現在情況是什麼呢?就是你微軟想要有什麼產品,第一時間不是找公司的產品經理去規劃,而是要看Anthropic和OpenAI這兩位的臉色。這就是平台戰略的致命缺陷。當產品體驗的定義權不在你手裡時,你就失去了主動權。還有一個問題,那就是這三個模型遠遠不夠。這三個是垂直場景模型,不是通用大模型。agent的核心能力是推理、規劃、多步驟任務執行,在這個版塊裡,微軟仍然沒有對標GPT-5或Claude Opus 4.6的產品。Copilot在執行能力上所欠缺的,這三個模型是解決不了的。語音轉錄做得再好,圖像生成再快,也不能讓Copilot變成一個真正的agent。Anthropic用18個月從610億沖到3800億估值,靠的就是產品迭代速度,人家能在52天的時間裡發72個產品,比我寫稿速度都快。給微軟52天,它就能端上來這三個模型。原因在於,微軟的組織架構決定了它做不到這個速度。正所謂“上不碰應用,下不碰資料”。一個健康的組織,不需要CEO親自PM產品。CEO應該做的是戰略決策和資源配置,產品應該由產品經理和工程師團隊負責。當納德拉需要親自來推動產品,每周親自拷問100個高級工程師時,證明微軟AI類股的中層管理已經失去了產品判斷力和執行力。三個模型是“態度”,不是“答案”。它們證明微軟確實還是有技術能力的。納德拉也知道,沒有基座大模型自研能力,就一定會受制於人,慢人一步。所以微軟在2026年4月官宣了核心AI戰略目標:由蘇萊曼帶隊,計畫在2027年推出自研的行業前沿級多模態大模型,目標是在文字、圖像、音訊能力上達到全球頂尖水平,直接對標OpenAI、Anthropic的旗艦模型,實現AI核心技術的自主可控,擺脫對外部模型的依賴。微軟現在是一步都不敢慢下來。因為每過幾個禮拜,Anthropic、OpenAI的產品就會更好一點,使用者的期待就會更高一點,微軟追趕的難度就會更大一點。三個垂直模型只是開始,但留給微軟的時間不多了。03. 為什麼阿里騰訊字節能沖,微軟卻被困?你覺得微軟這樣是因為它得了大公司病嗎?不是“大”的問題,是“老”的問題。微軟49歲,阿里25歲,字節12歲,騰訊26歲。但年齡不是關鍵,關鍵是權力結構的僵化程度。為什麼Copilot推出這麼長時間還能發現“基本功能不能用”?因為向上匯報的鏈條太長了。向上匯報鏈條長,會讓一線問題被過濾、弱化、延遲,這是大公司常見問題。很多時候不是“沒匯報上去”,而是匯報上去了,卻在優先順序排序裡輸給了增長、發佈節奏、相容性或更大的客戶需求。阿里之前的林俊暘、騰訊的姚順雨、月之暗面的楊植麟,年輕人主導研發方向、主導產品。這種生存壓力和年輕人獨有的認知,讓公司仍然保持著“創業公司式決策速度”。有什麼問題直接溝通去和你的最高Leader溝通,BUG當天修復。年輕人還有一個很重要的優勢,他們是AI的重度使用者,他們知道使用者真正想要什麼。他們不會滿足於“能聊天的AI”,他們要的是“能做事的agent”。他們在產品設計時,就會從使用者體驗出發。他們的內心OS是“這個產品我用起來那裡覺得不爽”,而不是從技術可行性出發。更重要的是,這群年輕人敢於推翻上一代的決策,不會被“老規矩”的慣性束縛。賈揚清在2023年3月正式官宣從阿里離職,結果2023年4月阿里的通義千問大模型就放了出來,前後間隔不到一個月。微軟的組織架構圍繞“大客戶關係”和“許可證銷售”最佳化。產品好壞由銷售團隊的話術決定,而非使用者體驗。不只是如此,比起做更好的產品,微軟的銷售團隊更願意找到為爛產品付錢的客戶,所以Copilot的E7套餐才敢賣到99美元/月。字節的豆包之所以能快速迭代,因為它直接面向C端使用者,每個功能的資料反饋是即時的。產品經理能看到使用者的每一次點選、每一次放棄、每一次投訴。這種“產品-資料-迭代”的閉環,讓豆包能夠快速調整方向,淘汰不好用的功能,強化使用者喜歡的功能。如果一個功能上線後使用率很低,下個版本就會被砍掉。如果大家都需要某一個功能,下個版本就會加進來。這種快速試錯的機制,讓產品能夠快速進化。微軟在企業軟體模式下很難建立這種閉環,因為它的客戶是企業的CIO,不是終端使用者。CIO關心的是合同條款和價格,並非產品體驗。微軟沒有這種“產品-資料-迭代”的閉環。它的反饋鏈條是終端使用者→IT部門→CIO→微軟銷售→產品團隊。等反饋到達產品團隊時,可能已經過了幾個月,問題早就積重難返。微軟的晉陞體系獎勵“管理大團隊”而非“做出好產品”,導致技術人才要麼離開,要麼被邊緣化。在微軟,一個工程師想要晉陞到高等級,雖然也有技術專家(IC)這條路,但是最快的路徑是成為管理者,管理越來越大的團隊。做出一個改變世界的產品,不如管理1000個人的團隊更容易升職。這種激勵機制導致管理崗位越來越多,產品創新越來越少。前文提到的Copilot現在的主管雅各布就是如此,他是研究產品設計的,專注消費級產品。即便關注AI賽道,核心視角也是產品落地與商業價值,而非AI演算法、大模型訓練等底層研究工作。相反,阿里、騰訊、字節在AI上的領導者,都是技術背景的高管直接負責AI產品。他們能看懂程式碼,能判斷技術路線,能在周會上直接拍板“這個方案不行”。這種決策效率是微軟欠缺的。在微軟,一個技術決策可能需要經過多層審批,等決策下來時,市場已經變了。微軟的做法是All In一款產品。Cortana失敗以後就換Copilot,Copilot再失敗就再換別的。這種“押注式創新”風險很高,因為一旦失敗,整個公司的AI戰略就要推倒重來。微軟的這種模式會導致團隊傾向於保守,不敢做激進的創新。阿里內部曾同時有多個大模型項目在跑,最後通義千問勝出。字節的豆包也是內部競爭的產物。騰訊更狠,QClaw和WorkBuddy這兩個功能有重疊的產品更是同期發佈。這種賽馬機制更容易競爭出真正的好產品,因為它允許試錯,允許多個方案平行,最後讓市場和使用者決定誰活下來。失敗的項目不會影響整個公司的戰略,成功的項目會獲得更多資源。微軟還缺少一些生存壓力。即使Copilot失敗,微軟還有Azure、Office、Windows的現金流。股價跌30%很痛,但不致命。這種“有退路”的狀態讓微軟缺乏緊迫感。抖音的核心競爭力是演算法,能夠精準推薦使用者喜歡的內容。字節如果慢了,抖音的推薦演算法優勢會消失,變成垃圾短影片分發平台。騰訊如果不跟進,微信的入口價值會貶值。微信是中國網際網路的超級入口,但如果微信不能提供OpenClaw的連接服務,使用者會使用飛書。這個過程是不可逆的。中國網際網路的競爭環境很殘酷,慢一步就可能被淘汰,這種壓力讓大公司保持了“准戰時狀態”。當一個公司大到“即使犯錯也不會死”時,它就失去了快速糾錯的動力。員工知道,即使產品失敗,公司也不會倒閉,自己也不會失業,那為什麼要冒險創新?為什麼要加班加點?為什麼要挑戰上司的決策?中國大廠能在agent上衝到前列,不是因為它們“小”或“靈活”,而是因為它們仍然活在“一個決策失誤可能致命”的競爭環境中。壓力是最強大的武器,它讓公司保持警惕,讓員工保持鬥志,讓決策保持高效。納德拉能否第二次拯救微軟?答案可能在於他能否讓一個市值3兆美元的巨頭,重新找回“背水一戰”的感覺。三個新模型是開始,但遠不是答案。 (字母AI)