#MIT | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#MIT

MIT發現讓AI變聰明的秘密，竟然和人類一模一樣

【新智元導讀】你有沒有發現，你讓AI讀一篇長文章，結果它讀著讀著就忘了前面的內容？你讓它處理一份超長的文件，結果它給出來的答案，牛頭不對馬嘴？這個現象，學術界有個專門的名詞，叫做上下文腐化。這也是目前AI的通病：大模型的記憶力太差了，文章越長，模型越傻！2025年最後一天，麻省理工學院（MIT）丟了一篇重磅論文，就是要解決這個問題的。這篇論文叫《Recursive Language Models》，也就是遞迴語言模型。看起來很學術，但說人話就一句：讓AI再做一遍，效果直接起飛。先劇透兩個核心資料：在複雜推理任務上，僅僅讓模型多過2-4遍，正確率就能提升10%-25%在超長文件處理上，RLM（遞迴語言模型）在1000萬+token的規模下，依然保持穩定表現，而傳統模型直接崩盤！這啥概念？以前我們覺得，AI不夠聰明，那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子：別堆參數了，讓它返工重寫一遍，效果可能更好。（真就是人類監工了）原來解決問題的方法就是這麼簡單！並且X上很多大佬紛紛點贊～從一個讓人崩潰的問題說起你有沒有這種經歷：讓ChatGPT幫你寫一篇文章，它洋洋灑灑寫了三千字，你一看——臥槽，離題萬里。或者讓它幫你寫程式碼，它寫完了，一運行——全是bug。但神奇的是，你讓它再檢查一遍、重新想想，有時候它就突然能改對了。MIT的研究人員發現，這不是玄學，這是有規律的。大多數AI犯的錯，不是因為它不懂，而是因為它初稿寫太快了。就像你寫論文，第一稿總是稀爛，但改個三四遍，就像換了個人寫的。AI也是一樣。問題是：現在的大模型基本都是一遍過的模式，你輸入問題，它輸出答案，完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路：假設你是一個剛進公司的實習生，領導給你發了一份500頁的資料，讓你整理出一份報告。你會怎麼做？正常人的做法是：先翻一翻，找到重點章節，然後一章一章地讀，讀完一章做個總結，最後把所有總結串起來。對吧？但大模型不是這麼幹的。大模型的做法是：直接把500頁資料從頭到尾一口氣讀完，然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明，它是記不住。MIT這篇論文干的事兒，就是給AI裝上了一個返工的能力。AI的真正瓶頸：不是腦子不夠大，是記性太差在聊MIT的解決方案之前，我得先跟你說清楚，為什麼這件事這麼重要。你可能聽說過一個詞，叫上下文窗口。啥意思呢？你可以把AI大模型想像成一個天才，但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料，讓他幫你分析，但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分？看不到，直接忽略。現在最牛逼的GPT-5，工作台能放27萬個token（大約相當於20萬字中文）。聽著挺厲害的對吧？但問題來了。就是說，那怕是在這27萬token的限制之內，模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候，它表現賊棒。給它8萬個token的時候，它開始有點迷糊。給它27萬個token的時候，它直接開始胡說八道。為什麼？因為資訊太多了，它處理不過來了，腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了，但找不到了。這就是大模型現在的困境：不是上下文窗口不夠長，而是長了也用不好。MIT的天才想法：把資料放到抽屜裡好了，問題講清楚了，現在來看MIT的解決方案。傳統做法是：你把資料直接塞進AI的腦子裡。MIT的做法是：別塞進去了，放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是：不要讓AI直接讀那份巨長的資料，而是讓AI用程式碼去翻那份資料。打個比方。以前的AI，就像一個學生，你把一整本教科書拍在他面前說：看完，然後回答我的問題。學生：？？？我看不完啊，我能不能看一部分？然後他就硬著頭皮看前面的一部分，後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料，但學生不用從頭到尾讀了。他可以先翻目錄，看看大概結構，然後針對問題去搜尋相關段落，把有用的資訊摘出來。更牛的是，這個學生可以把一個複雜問題拆成好幾個小問題，然後——注意重點來了——他可以召喚自己的分身，讓分身去同時處理各個小問題，最後彙總答案。這就是遞迴的意思：AI可以呼叫自己的分身，讓自己幫自己幹活。或者再降維一下理解就是：它把這份超長的文件，當成一個放在外面的資料庫，而不是直接塞進腦子裡。然後，模型可以寫程式碼，自己去查這個資料庫。需要第一章的內容？寫個程式碼去查。需要第十章的內容？再寫個程式碼去查。需要把第一章和第十章的內容對比？那就先查第一章，做個總結，再查第十章，做個總結，最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西，沒關係。可以隨時去硬碟裡查，用到什麼查什麼。這樣一來，理論上，模型可以處理無限長的文件。具體怎麼做的？MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境（REPL），把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料，而是用程式碼去操作它。比如：想看資料有多長？寫一行程式碼len(input_text)就知道了想看資料的前1000個字元？寫input_text[:1000]想在資料裡搜尋關鍵詞？寫個正規表示式更厲害的是，AI可以把這份資料分段，把每一段交給一個子AI去處理，然後自己彙總結果。這個子AI，用的其實是同一個模型，只不過是遞迴呼叫自己。這個設計有兩個巨大的好處：第一，AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡，需要的時候用程式碼去取。這就意味著，理論上，資料可以無限長——只要抽屜夠大。第二，AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾，而是會聰明地挑重點看。這大大節省了計算成本，也提高了準確率。效果到底有多猛？MIT在論文裡做了一堆實驗，結果還是挺震撼的。實驗一：超長文件理解他們用了很多測試機，其中一個叫OOLONG的測試集，這個測試需要AI理解超長文件，並回答需要綜合全文資訊才能回答的問題。結果：GPT-5基座模型的精準率44%，而RLM達到了56.5%。而在CodeQA中，GPT-5基座模型的精準率24%，而RLM達到了62%，直接提升了2.7倍！實驗二：超超超長文件（1000萬+token）他們還把文件長度一路拉到1000萬token以上（相當於幾十本書的長度）。GPT-5？壓根處理不了，直接爆炸。RLM(GPT-5)？穩穩當當，表現基本不掉。這是一個質的飛躍。實驗三：成本對比你可能會想：這麼牛逼的東西，是不是巨貴？神奇的是，並沒有。在BrowseComp-Plus基準測試中，讓GPT-5-mini直接處理600萬-1100萬token的輸入，成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜，效果還更好。為什麼？因為RLM不會傻傻地把所有內容都讀一遍，它唯讀需要的部分。這個發現為什麼重要？MIT這篇論文的意義，遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理：AI的能力邊界，不只取決於模型本身有多大、參數有多多，還取決於你怎麼使用它。以前我們的思路是：模型不夠強——那就加參數。MIT告訴我們：等等，也許不用加參數，讓它多想幾遍就夠了。回到開頭提到的那個發現：在多步推理任務中，僅增加2-4次遞迴處理，正確率就能提升10%-25%。大約4次迭代後，收益逐漸趨於平緩。這說明什麼？大多數AI犯的錯，都是初稿錯誤：不是它不懂，是它第一遍太草率了。讓它返工幾次，就能改對。（所以有時候，你在使用AI時，還真的當個監工，讓AI多輸出幾次）這跟人類其實一模一樣。任何牛逼的程式設計師都知道，第一版程式碼永遠是最爛的，程式碼質量是改出來的，不是寫出來的。任何牛逼的作家都知道，第一稿永遠是廢稿，好文章是改出來的，不是寫出來的。現在，AI也一樣了。未來展望MIT在論文最後提到，這只是一個開始。目前的RLM還有很多可以最佳化的地方：1.非同步呼叫：目前子任務是一個接一個執行的，如果能平行執行，速度會更快。2.更深的遞迴：目前只允許一層遞迴（AI呼叫自己的分身），如果允許分身再呼叫分身，理論上能處理更複雜的任務。3.專門訓練：目前RLM用的是現成的大模型，如果專門為遞迴思考訓練一個模型，效果可能更猛。MIT的研究者們相信，這可能代表了大模型能力擴展的一個新方向：不是一味地堆參數、堆算力，而是讓模型學會更聰明地思考。彩蛋MIT這篇論文，讓我想起了一個老笑話：客戶問程式設計師：這個bug你修了多久？程式設計師說：5分鐘。客戶說：那為什麼收我500塊？程式設計師說：找出問題在那，花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會，它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向：不是更大的腦子，而是更深度的思考。 (新智元)

MIT用超算模擬了1.5億數字人，從上帝視角推演AI經濟，結論很顛覆…

最近，由麻省理工學院（MIT）Ayush Chopra與Santanu Bhattacharya領銜，聯合橡樹嶺國家實驗室（Oak Ridge National Laboratory）及多個州政府政策辦公室發佈了一份重磅報告——《冰山計畫：冰山指數與AI經濟中的技能敞口測量》（The Iceberg Index）。圖片 | 來自網路報告中得出的結論讓我們冷汗直冒，但又異常興奮。MIT說，我們目前看到的AI繁榮，僅僅是漂浮在水面上的2.2%；而水面之下，隱藏著高達11.7%、價值1.2兆美元的“隱性技術敞口”。這究竟是什麼意思？又意味著什麼？01 用超算推演AI經濟在看完報告後，如果你一定要我們給這份報告找一個核心隱喻，那就是：不要用溫度計去測量風速。過去兩百年，經濟學家們習慣了用GDP、失業率、全要素生產率來衡量技術革命。在蒸汽機時代，這很管用——機器進廠，工人下崗，產量翻倍，資料立竿見影。但在AI時代，這些指標統統成了“滯後指標”。當GDP資料反映出變化時，變革早已結束，甚至屍橫遍野。因為AI不像蒸汽機那樣笨重可見，它是無形的、滲透性的。比如當一個護士用AI最佳化了排班表，從而多照顧了兩名病人，GDP捕捉不到這個變化；當一個中西部工廠的品控經理用視覺模型替代了肉眼檢查，失業率資料也還沒來得及反應。為了打破這種盲視，《冰山計畫》的研究團隊做了一件極其硬核的事。他們動用了世界級的Frontier超級電腦，建構了一個“大群體模型”（Large Population Models, LPMs）。簡單來說，他們造了一個“平行宇宙版的美國”。在這個基於AgentTorch建構的數字沙盒裡，生活著1.51億個“數字工人”。他們是擁有獨立屬性的智能體（Agent）：每個智能體都有具體的職業（覆蓋923種工種）；每個智能體都點亮了不同的技能樹（基於O*NET的32,000種技能）；每個智能體都有真實的地理坐標（分佈在3000個縣域）。研究團隊向這個沙盒投放了各種AI工具（從Copilot到Zapier自動化流），然後按下“運行鍵”，模擬這1.51億人在數十億次工作互動中，到底發生了什麼。提一嘴，這種模擬方式對現有的社會研究是一種降維打擊。而正是通過這種上帝視角，我們才第一次看見了那個被傳統經濟學遺漏的龐然大物——“冰山指數”（The Iceberg Index）。02 報告的3個洞見好，Frontier超算的模擬結果讓我們看到了3個洞見：首先擊碎的是我們對“AI中心”的地理認知。如果你問一個路人：“美國AI革命的中心在那裡？”十個人有九個會回答：舊金山、西雅圖、波士頓。但《冰山計畫》通過熱力圖揭示了一個“產用分離”現象：生產AI的地方（GenAI Hubs） ≠ 被AI重塑的地方（AI-Exposed Hubs）。我們可以說——2.2%水上 vs 11.7%水下。水面之上，是2.2%顯現薪資價值。這部分主要集中在加州、華盛頓州。這裡的工程師們在訓練模型，VC們在談論估值。這裡是AI的“兵工廠”，雖然喧囂，但只佔經濟總盤子的極小部分。水面之下，是隱性的11.7%價值。這部分遍佈全行業，是靜悄悄的效率革命。最驚人的發現是：那11.7%的隱性金礦，並不在矽谷，而是在俄亥俄州、田納西州、猶他州、密歇根州。也就是我們常說的“鐵鏽地帶”。那為什麼會這樣？你想想，AI大模型最擅長解決什麼問題？它擅長處理複雜的文件、協調繁瑣的流程、最佳化大規模的調度、輔助專業的合規判斷。那裡這種工作最多？不是在寫程式碼的矽谷創業公司，而是在擁有龐大供應鏈的製造業基地、擁有複雜理賠流程的保險中心、擁有海量病例管理的醫療重鎮——在俄亥俄州（冰山指數高達11.8%），無數的製造業供應鏈需要管理；在田納西州（11.6%），聯邦快遞的樞紐帶動了複雜的物流計算。報告將這種現象稱為“自動化意外”（Automation Surprise）——這些地區表面上看起來毫無“科技感”，但其內部的技能結構正處於極高的AI滲透前夜。這給我們中國的啟示也是震撼的：所謂的“舊經濟”，其實是AI最大的“新礦場”。其二，讓我們深入解剖一下11.7%通過超級電腦模擬，得到的技術敞口是11.7%。其實很多人看到“11.7%的技術敞口”時，第一反應往往是鬆了一口氣：“還好，只有一成多，還沒到大面積失業的時候。”這是一個誤讀。要知道，AI重新定義了“工作的價值”。在過去的工業革命中，自動化遵循“替代手腳”的邏輯：先替代最髒、最累、最廉價的體力勞動（比如搬運、組裝）。但《冰山計畫》說：這一次，AI正在吞噬的是高薪技能。讓我們把一個資深金融合規官（年薪20萬美元）的工作拆解開來：A類技能（耗時60%）：閱讀幾百頁的新監管條例，比對舊條款，檢索歷史違規案例，撰寫初步風控報告。B類技能（耗時30%）：與業務部門博弈，在灰色地帶做決策，承擔簽字的法律責任。C類技能（耗時10%）：開會、社交、建立信任。在AI出現之前，企業必須為A類技能支付高昂的薪水，因為這需要極高的知識儲備和閱讀速度——這被稱為“知識溢價”。然而，11.7%的AI技術敞口，精準覆蓋的正是A類技能——AI可以在幾分鐘內完成A類工作，且精準率更高。也就是說，企業支付給這位合規官的20萬年薪裡，原本用來購買“閱讀與整理能力”的那12萬美元，瞬間失去了價值支撐。這就像是切走了牛排最嫩的菲力，只留下了難啃的骨頭。其三，崗位空心化報告中提到了一個非常反常的資料：傳統的失業率、GDP增長與AI影響力的相關性極低（R² < 0.05）。按理說，如此巨大的技術衝擊，經濟資料應該劇烈波動才對。那為什麼沒有呢？因為發生了“崗位空心化”。在現階段，AI並沒有直接把人踢出辦公室，而是製造了一種“勝任力假象”。以前，一位資深分析師需要10年經驗才能寫出一份完美的研報。但現在，一個剛畢業的實習生，配合三個AI Agent，也能產出80分甚至90分的研報。表面上看，大家都在工作，崗位沒少。但實質上，“資深經驗”的護城河被填，平，了！當一個初級員工借助工具就能達到高級員工的產出時，企業主可能暫時不會裁員，但市場一定會重新定價。“通用認知能力”的價格將急劇下降，這就像計算器普及後，心算快的人不再值錢一樣。這種效率的提升掩蓋了崗位價值的結構性危機。GDP看著沒變，但其實是因為原本昂貴的“智力服務”變得像自來水一樣廉價，通縮的陰影已經籠罩在每個白領的頭上。所以，如果結合以上三點，我們將這個邏輯推演到底，會得出什麼結論？未來的薪資，將不再為你的“知識儲備”買單，因為知識已經不值錢了；未來的薪資，只為你的“決策擔當”、“人際信任”和“物理行動”買單——也就是那些AI目前還無法覆蓋的剩下88.3%。所以，不要慶幸自己不在那11.7%的直接替代名單裡。你應該擔心的是：當那11.7%的核心價值被AI抽走後，你剩下的技能，是否還配得上現在的工資？03 中國啟示錄雖然這份報告研究的是美國，但最終，我們需要思考國內的情況。如果說舊金山對應的是北京海淀和上海西岸（大模型扎堆，卷算力，卷參數）；那麼美國“鐵鏽帶”對應的就是中國的佛山、蘇州、寧波、長沙等等。而且，我們在這些地方，有世界最完備的製造業門類，有最複雜的物流場景，有最密集的內外貿流程。按照《冰山計畫》的邏輯，中國AI的真正爆發點，就誕生在某個寧波注塑廠的排產辦公室裡，或者義烏小商品城的跨境電商後台裡。而且中國的“冰山指數”比美國更高。因為我們的製造業供應鏈更長，我們的行政管理節點更多。對於中國的政策制定者和企業家來說，這是一個巨大的訊號：去關注那些“含科量”看似不高，但“含資料量”極大的實體產業。去尋找那些擁有複雜流程、高人力成本的“隱形冠軍”。那裡，才是中國AI經濟的震中。 (TOP創新區研究院)

MIT研究預測：AI對勞動力市場的潛在替代高達1.2兆美元薪酬規模

寫在前面在當前全球經濟格局中，人工智慧對勞動力市場的重塑已成為不可逆轉的趨勢。然而，政策制定者和市場觀察者長期以來普遍面臨一個核心矛盾：我們所能觀測到的失業和顛覆，僅是這場結構性變革的冰山一角麻省理工學院（MIT）近期發佈的《冰山指數》研究，正是旨在解決這一認知偏差的戰略工具。該研究將AI視為一種可被精確測繪的經濟地理風險，將決策視角從"事後危機管理"提升到"事前數位化模擬"。一、核心事件：建構數字孿生勞動力大軍MIT研究人員的激進行動是為1.51億美國勞工建構軟體對等物，相當於為美國勞動力建立了一個"數字孿生"。這一舉措將AI顛覆風險的評估從基於傳聞，轉變為基於大規模模擬和微觀技能對應的科學模型。重要發現：目前在科技中心可見的工資中斷僅佔總風險的2%，而隱藏的風險層比可見風險大5倍。二、戰略動機：政策工具的"先發制人"政策制定者（包括田納西州、猶他州和北卡羅來納州等報告的共同作者）使用《冰山指數》進行前瞻性規劃：1. 風險前瞻與預算最佳化該指數是一個"早期預警地圖"，使政策制定者能夠在衝擊發生之前，轉移資金和調整培訓。避免盲目投入數十億美元的再培訓投資。2. 精準干預與地域定製化傳統模型往往關注沿海城市，但《冰山指數》提供了細化到郵政編碼的深度地圖，使政策干預措施可以精準匹配當地職業風險。3. 政策沙盒與立法測試該指數提供一個互動式模擬環境，允許州政府對各種政策槓桿進行實驗，探索技術採用的變化如何影響噹地就業和GDP。三、從海岸到腹地的風險遷移在《冰山指數》出現之前，關於AI對就業影響的敘事主要集中在科技行業。此前MIT另一項研究指出，95%的企業AI採用並未成功，這可能助長了對AI變革速度的低估。舊範式：可見風險• 集中於科技中心/沿海城市• 僅關注可見的工資中斷（2%）• 聚焦高科技/軟體開發行業• 如何應對即時裁員衝擊新範式：《冰山指數》揭示的隱藏風險• 覆蓋3,000個縣，包括非沿海地區• 揭示五倍於可見風險的隱藏層• 廣泛涉及醫療保健、金融和專業服務• 如何提前部署大規模技能重塑四、現實挑戰：不確定的"倒計時""研究人員強調，這不是裁員的倒計時時鐘。它更像是一個早期預警地圖，以便政策制定者能夠在衝擊來臨之前，圍繞資金和培訓進行轉移。"風險是潛伏的（隱藏層是可見層的五倍），但其轉化為實際裁員的速度和時間表是不確定的。這導致兩個主要挑戰：政策惰性風險由於沒有立即爆發的大規模失業，立法機構可能缺乏動力去迅速撥付數十億美元的再培訓資金。資料與現實的校準模型依賴於將32,000種技能對應到923種職業。如果實際AI採用速度與預測有偏差，可能導致資源被錯誤分配。五、深層護城河：互動式生態系統《冰山指數》真正的壁壘並非僅僅是一份報告，而是其提供的互動式模擬環境。田納西州案例•已成為這一處理程序中的先行者•參與了報告的共同撰寫•根據《冰山指數》建構了自己的AI與工作儀表板•跟蹤該州範圍內的職業風險暴露和工資影響•正在指導該州的政策和支出決策這種地方政府對AI模型的內化和應用，形成了難以被傳統方法取代的軟實力壁壘。六、未來推演：勞動力市場的地域分化未來3-5年，美國勞動力市場的格局將根據州政府對《冰山指數》等前瞻性工具的採納程度而產生顯著分化。先行者（如田納西州）通過AI儀表板和"技能優先"招聘規則，能夠提前避險AI對醫療、金融和專業服務等行業的衝擊，保持勞動力市場的穩定性和競爭力。滯後者缺乏精確的風險地圖，繼續依賴舊有的低效培訓投資，導致政策滯後於實際的失業衝擊，加劇地域經濟不平等。核心受影響職業醫療保健（行政和診斷支援）金融（後台操作）專業服務（基礎法律文書、諮詢資料整理）七、三大核心結論結論一資訊不對稱是最大的政策成本AI變革時代最大的壁壘不是技術的缺乏，而是風險的錯誤量化和地理資訊的不對稱。結論二再培訓投入的數位化勢在必行面對1.2兆美元工資的潛在風險，對政策有效性進行事先模擬和驗證的趨勢不可逆轉。結論三政策執行力的AI化AI對勞動力市場的最終影響，將體現在政府治理和政策執行效率的提升上。"這種方法就像一個預警系統，不是告訴你災難何時發生，而是告訴你那裡需要提前修建堤壩，並允許你在模擬環境中測試堤壩的高度和材料。"風險提示1.政治與財政惰性風險：立法者可能因缺乏即時政治壓力而延遲再培訓資金。2.模型精準性與校準風險：AI技術實際應用速度可能與模型預測出現偏差。3.技術突變與加速風險：AI技術進步速度可能超過指數更新速度。4.資料隱私與跨州協調風險：聯邦層面協調使用資料可能面臨挑戰。 (FinHub)

MIT最新研究： AI有能力替代美國 11.7%的勞動力，波及全美！1.5 億員工被智能體建模

越來越多的人說，AI 可能會取代一些工作，但它到底會影響那些崗位？影響有多大？最近，一項來自 MIT 的新研究給出了一個驚人的答案：一組隱藏資料表明，AI 當前已經有能力替代 11.7% 的美國勞動力，對應工資價值約1.2兆美元。如果只看目前 AI 的實際應用，主要集中在科技和計算崗位，那麼AI的影響僅佔約2.2%的勞動力，對應工資價值約 2,110 億美元。但當研究者把行政、金融和專業服務等崗位納入考慮後，AI 潛在影響範圍飆升至 11.7% 的勞動力，約 1.2 兆美元工資。這份研究成果來自一個名為 Iceberg Index（冰山指數）的項目，由 MIT 聯合橡樹嶺國家實驗室（ORNL）開發。研究團隊把 AI 與人類勞動力的關係做了一個大膽模擬：他們將美國 1.51 億名員工都“數位化”，讓每個人按照技能、任務、職業和地理位置分類，然後觀察 AI 工具可以覆蓋那些工作任務，甚至能精確到郵政編碼區域。ORNL 負責人 Prasanna Balaprakash 將這個模型形象地比喻為“美國勞動力市場的數字孿生”。通過這個工具，研究者不僅可以看到 AI 已經進入那些崗位，還能預測潛在的技術曝光區域。01. 將1.51億職工建模為智能體論文中，Iceberg Index 的建構過程分為三步：1、人類勞動力對應模型覆蓋 1.51 億員工、923 個職業、3,000 多個縣，總共包含 32,000+ 技能。每個職工被建模為一個“智能體”，擁有技能、任務、地理位置等屬性。模型可以分析技能遷移潛力和職業相似度，為未來崗位轉型提供規劃路徑。2、AI 勞動力對應研究團隊收集了 13,000+ AI 工具，包括程式碼生成、流程自動化和認知輔助工具。使用與人類相同的技能分類體系，直接對比 AI 與人類能力。評估 AI 在增強人類工作（如醫院文書自動化）和完全轉變任務（如程式碼自動生成）的潛力。3、人類–AI 聯合模擬使用 MIT 的 Large Population Models (LPMs) 模擬數十億次互動。模擬考慮技術成熟度、採納行為和區域差異，輸出職業技能變化、地理分佈以及跨行業的連鎖影響。政策制定者可用模擬結果測試培訓方案、資源分配和激勵策略。整個模擬在橡樹嶺 Frontier 超級電腦上運行，保證了大規模、高精度的預測能力。在這一基礎上，研究團隊建構了冰山指數（Iceberg Index）。這是一項以技能為中心的衡量指標，用於評估勞動力在 AI 經濟中的暴露度。它量化了 AI 系統在技術上可以執行的職業任務的“工資價值”，從而揭示人類勞動與 AI 能力重疊的部分。該指數從三個維度評估每一個職業：該職業需要的技能；這些技能的可自動化程度；工作本身的價值（工資與就業規模）。這些因素結合後，為每個職業給出一個一致的“技術暴露度”：它指的是 AI 能力與人類技能的重疊，而不是預測崗位是否會消失。例如，金融分析師不會消失，但 AI 可能能夠處理大量文件處理與常規分析工作。這會改變角色結構與技能需求，而不一定減少崗位數量。02. AI 有能力替代11.7%的勞動力研究團隊首先對當前 AI 最集中採用的職業內的技術暴露度進行了量化，並給出了一組資料：截至 2025 年，超過 10 萬工作崗位的裁撤與 AI 重組直接相關；AI 系統每天生成超過 10 億行程式碼，已超過人類開發者的產出。因此，他們測量了電腦與技術類職業中的技能重疊度——表層指數（Surface Index）。結果發現，全國範圍內的表層指數為 2.2%，對應約 2110 億美元的工資價值、約 190 萬名技術職業從業者。包括軟體工程師、資料科學家、資料分析師、項目經理以及其他技術密集型崗位，這些都是目前 AI 採用最集中的職業群體。但這還僅僅只是冰山一角！除了科技類職業，AI 的能力還擴展到認知性和行政工作。原本為程式設計開發的工具，已經展現出在文件處理、財務分析、日常行政任務等方面的技術能力，說明技術能力可以從科技領域遷移到其他行業。部分公司已經開始削減非技術性崗位：IBM 通過 AI 自動化減少了人力資源崗位Salesforce 暫停了非技術崗位招聘McKinsey 預測到 2030 年，約 30% 的財務任務可實現自動化研究團隊發現，當考慮 AI 在行政、金融和專業服務等崗位的潛在自動化能力時，這一數字上升至 11.7% 的勞動力，是表層指數的5倍，約 1.2 兆美元工資（稱為 Iceberg Index 冰山指數）。此外，研究作者也強調，這些結果僅代表 AI 能力與人類技能的重疊，並非實際的未來崗位消失情況，真正影響取決於企業、工人和地方政府的應對策略。03. 影響不限於沿海科技中心人們常以為 AI 取代最多的崗位會集中在沿海科技公司聚集的地區，但冰山指數顯示，AI 接管工作任務的能力在全美範圍內更廣泛分佈。研究表明，許多州如果僅看當前計算和技術崗位的 AI 採納，影響不大；但當加入其他變數後，潛在影響大幅上升。例如，鐵鏽地帶的俄亥俄州、密歇根州和田納西州，表面指數不高，但冰山指數顯示認知工作（金融分析、行政協調、支援製造業的專業服務）有十倍於表面指數的潛在技術曝光。例如這幅圖，左邊的冰山指數圖顯示，AI 的認知自動化能力已經擴展到沿海科技中心之外。一些意想不到的州，比如特拉華州和南達科他州，因為行政和財務崗位集中，其指數甚至高於加州。右邊的自動化差距圖則揭示了各州當前實際 AI 採用情況與未來潛在變革之間的差距。像俄亥俄州和密歇根州這樣的製造業州，在物理自動化尚未大規模普及之前，就已經有大量隱藏的白領崗位可能被 AI 替代。這意味著這些州需要提前為行政、協調等崗位的變化做好準備。研究團隊表示：就算是密西西比、懷俄明這類“低科技州”，在行政、財務、專業服務等崗位上的技術暴露度仍然很高。換句話說：它們看似與科技無關，但AI 的能力結構與其勞動力技能高度重疊，未來衝擊將遠比表層指數顯示的更大這表明：僅以當前可見的AI 採用情況來判斷風險，會嚴重低估真實暴露度。此外，MIT 和 ORNL也表明，他們建立冰山指數的目的是希望地方政府能夠提前應對 AI 可能帶來的衝擊。可以通過數字孿生模型，分析每個城市街區、每個崗位技能的自動化風險。模擬政策干預（培訓、資金投入、激勵機制）對就業和 GDP 的影響。提前規劃技能培訓、基礎設施和人才投資，實現 “先準備、後應對”。據CNBC報導，田納西州已在官方 AI 勞動力行動計畫中引用冰山指數，北卡羅來納和猶他州也正在使用該工具制定政策方案。04. 網友熱議：事情沒那麼簡單這項研究在Reddit上也掀起了軒然大波，許多網友紛紛在評論區提出不同看法。一位網友調侃道：“研究由山姆·奧特曼資助。”有網友認為，說 AI 會替代多少工作，其實是反映了“無意義工作”的現狀，而不完全說明 AI 的能力或實用性。還有網友指出，如果用AI替代人類的工作，公司會面臨責任歸屬不清的問題，不如一紙合同來得可靠。當然，也有不少網友依然不信任AI投入實際生產的能力，認為“炒作遠遠超出了實際應用”。(51CTO技術堆疊)

全球95%企業AI慘敗？MIT報告引矽谷恐慌！90%員工偷用ChatGPT續命

【新智元導讀】全球95%企業AI慘遭滑鐵盧？MIT 26頁爆火報告揭開真相：90%員工悄悄用ChatGPT高效辦公，在科技、媒體行業掀起了效率革命。全球95%搞AI項目的公司，基本都涼了！這一驚人的觀點，出自MIT的一份重磅研究報告——「The GenAI Divide: State of AI in Business 2025」。誰曾想，這份令人咋舌的報告，一夜之間刷屏全網。難道AI這麼快就進入寒冬了嗎？事實上，真相遠比各大媒體的標題精彩。在這份26頁報告中，隱藏了一個爆炸性的事實：企業史上最快、最成功的技術應用普及，正在高管們的眼皮底下悄然發生。雖然40%的公司都訂閱了大模型服務，但90%的員工依然會選擇用「個人AI工具」悄悄幹活！一位VC投資人Kasra Khalili一句話道出了真理，「AI並沒有失敗，而是公司內部建構系統的失敗」。報告的核心看點如下：普遍的誤解：新聞頭條緊抓「95%的企業AI試點項目失敗」，但這僅指昂貴、僵化的定製系統。而真相是：90%的員工正積極使用個人AI工具（如ChatGPT）辦公，掀起了一場史上最快的技術普及浪潮。消費級工具完勝企業級：昂貴的企業AI工具因為「死板、無法學習、脫離實際工作流」而被員工拋棄。相反，消費級AI應用則憑藉著靈活性、適應性和即時性大獲全勝。隱藏的生產力爆發：這場自下而上的「革命」帶來了巨大的、未被傳統企業指標計量的生產力提升。最高的回報並非來自光鮮的行銷應用，而是來自無人關注的後台自動化（如客服、文件處理），每年可為企業節省數百萬美元的開支。革命始於員工：報告的結論並非AI失敗，而是企業採購和管理策略的失敗。AI技術本身是成功的，但成功路徑是「從員工到企業」，而非「從企業到員工」。企業應當停止「自建」，轉向「購買」並與供應商深度合作，更重要的是，要向那90%已經找到正確使用方法的員工學習。這背後，究竟揭示了什麼現象？90%員工偷用ChatGPT，自費上班各大科技巨頭AI項目，在內部推行雖然步履維艱，但大多數員工早就在私下「開掛」了。MIT報告指出，「事實上，幾乎每個人都在以某種形式將LLM用於工作中」。其中，90%的員工頻繁地使用個人AI工具，比如ChatGPT、Claude等，那怕是40%公司訂閱了官方服務。換句話說，員工使用AI頻率，是企業採納率的2倍多，這種現象被稱為「影子AI經濟」。最關鍵的是，這些員工並非淺嘗輒止，而是他們在每周的工作中，每天都會多次使用AI。這種普及速度，直接吊打當年電子郵件、智慧型手機、雲端運算的採用頻率。報告中，有個案例太真實了：一家法務公司斥資5萬美元採購了一款專業的AI合同分析工具，但一位律師本人在起草檔案時卻堅持使用ChatGPT。本質原因，就在於AI生成的質量差，顯而易見。這名律師表示，「ChatGPT總能生成更優質的內容，即便我們的供應商聲稱他們用的是同樣的基礎技術」。如今，這一現象，在各行各業普遍存在。就連微軟這樣的巨頭，辦公室員工在家用的都是ChatGPT。一直以來，微軟不論是在公司內部，還是客戶中，大力推行自家的Copilot AI，效果不如人意。去年春天，製藥巨頭Amgen高調官宣引入微軟Copilot後，不過1年，全員紛紛轉向了ChatGPT企業級AI系統脆弱、設計過度，與實際工作流脫節，而消費級AI工具則因靈活性、易用性、即時性，廣受好評。正如一位首席資訊官對研究人員表示，「我們今年看了幾十個產品演示，可能只有一兩個真正有用，其餘的不是華而不實的包裝，就是紙上談兵的科學項目」。當企業高管們還在摸索內部普及AI的門道時，員工們早已破解了「AI的密碼」。斥資5萬美元，自研AI卻敗給了ChatGPT那些登上新聞頭版「95%失敗率」，特指的是，企業委託供應商或內部開發的、昂貴且定製化的企業級AI解決方案。這些工具，之所以推行失敗，核心在於缺乏「學習能力」。報告一針見血，企業級AI無法保存反饋、適應上下文情境，無法隨著時間而改進。直白講，就是太難用了。像ChatGPT這樣的通用AI工具投入生產的成功率為40%，而針對特定任務的企業級工具成功率僅為5%員工們紛紛抱怨，每次都要手動輸入一堆背景資訊，還不會從反饋中學習進步。相較之下，ChatGPT之所以成功，就因為靈活且響應迅速，即便每一次對話都是一次全新的開始。而企業級工具則顯得僵化呆板，每次使用前，都需要進行繁瑣的設定。這種學習能力的差距，在員工使用AI的偏好中，又對應出另一種現象——70%員工在處理郵件、基礎分析等快速任務時，直接找AI而非同事；但對於複雜的、高風險的工作，90%員工更信任人類。這裡的關鍵分界線並非關乎智能的本身，而是AI與人類在記憶與適應能力上的差異。別再自研了，合作成功率翻倍從更深層次看，「影子經濟」並不是AI失敗的證據，反而揭示了，傳統企業指標無法衡量的巨大生產力提升。員工們自行搞定了官方項目的整合難題，恰恰證明了隱藏的生產力。MIT報告稱，「影子經濟」表明，只要能用上靈活、響應迅速的工具，個人完全有能力跨越GenAI應用的鴻溝。一些具備前瞻性思維的公司，已經嗅到了機會。他們努力彌合這一差距，從員工的自發使用中學習，在採購企業級方案前，先分析那些個人工具能真正創造價值。不僅如此，報告還甩出了一個挑戰了傳統的技術觀念：企業應停止嘗試在內部自建AI。資料統計顯示，那些與AI供應商合作的項目，67%能成功部署，而內部自建的只有33%。一個最成功的案例是，那些把AI初創公司當做「業務夥伴」的企業，更注重實際業務成果，需要深度定製和持續改進，而非花哨的產品演示。科技媒體狂飆AI七大行業未被顛覆放眼整個行業，也僅有科技、媒體，因AI發生了顛覆性的結構變革。而醫療、金融、製造在內的七大主要行業，在AI應用實際上「慢半拍」。整體表現為，AI試點頻繁，但內部結構性變化微乎其微。在醫療和能源領域，大多數高管表示，未來5年內沒有裁員計畫，也未預見會裁員。這種審慎的態度並非失敗，而是一種智慧。這些暫未被顛覆的行業，正對AI的實施進行深思熟慮，而不是盲目衝入混亂的變革。科技和媒體行業之所以發展更快，是因為它們能承受更高的風險。超80%高管預計，公司將在24個月內縮減招聘規模。另一個需要注意的點是，企業AI預算中，有一半都砸在了銷售和行銷上。然而，真正賺錢的其實是，那些不起眼的後台自動化項目。比如，通過AI取代外包合同，企業每年能剩下200萬-1000萬美元的客服和文件處理成本，還能砍掉30%外包創意費用。更牛的是，這些收益沒靠裁員實現。AI工具提升了工作效率，但並未改變團隊結構、預算。AI革命正在成功，一次由一名員工推動MIT這份報告，並未證明AI的失敗，恰恰揭示了——AI的成功甚至已超出了企業的預期，員工早已走在了僱主的前面。技術本身沒有問題，問題出在企業的採購和管理方式上。那些能跨越GenAI鴻溝的公司，共同點是，加以利用能深度融合、不斷最佳化的工具。至於那95%沒搞成的企業AI試點，其實報告已經指出了一條明路：跟著90%已摸透AI門道的員工學習。Contextual AI創始人認為，GenAI項目失敗根本原因不在模型，而是上下文重要性被忽視一位製造業高管表示，「我們處理某些合同的速度是變快了，但僅此而已」。顯然，他未能看到全域。處理合同的速度加快，當這一改進乘以數百萬員工和成千上萬的日常任務時，不就是最後大爆發的生產力？總言之，AI革命沒有失敗，它正在每一次的ChatGPT對話中，悄然取得成功。上市公司暴省兆美元另一份來自摩根士丹利報告，也從側面印證了AI革命並未失敗的觀點。其中的一項分析稱，由AI帶來的顛覆性變革，或能為標普500公司每年節省9200億美元的成本——相當於總薪酬的41%，或2026年稅前利潤的28%。而這個過程，將通過削減薪酬開支（裁員、自然流失、自動化）來實現。報告的核心觀點如下：預計90%的工作崗位會受到AI自動化或功能增強的影響。AI智能體將重塑工作任務，而人形機器人將在物流、零售等領域直接替代人工。每年近兆的效益，最終有望轉化為13兆至16兆美元的市值增長，相當於其當前總市值的近1/4。AI已不再是一個投機概念，而是驅動未來十年企業盈利增長的核心引擎。首先，在AI的衝擊下，不同行業受到的影響程度也會有所不同。比如日常消費品的分銷與零售、房地產管理以及交通運輸業是受衝擊最大的幾個行業。其中，由AI驅動的潛在生產力提升，預計將超過2026年預測收益的100%。但對於半導體和硬體行業等，人力成本相對於其盈利而言佔比較低的行業，可挖掘的AI價值潛力則相對較低。其次，「完全自動化」與「任務級增強」之間，還是有區別的。簡單來說就是，軟體應用中的AI智能體的作用，更傾向於重新分配任務，而非徹底取消崗位。相比之下，以人形機器人形態出現的具身智能，則在物流和實體零售等行業構成了更直接的替代風險。報告同時預測，在崗位替代的趨勢下，全新的職位類別也將應運而生——從首席AI官（Chief AI Officer）到AI治理專家不一而足。這與早期技術顛覆浪潮中，市場對程式設計師、IT專家和數字行銷人員的需求激增如出一轍。最後，分析師還指出，AI的全面普及可能需要數年甚至數十年的時間。企業初期的重點將是依賴人員的自然流失和提升流程效率，而非立即進行大規模裁員，尤其是在那些由面向客戶的崗位驅動收入的行業。AI革命的浪潮已至，總的來說，無論是從麻省理工學院深入一線的微觀洞察，還是來自摩根士丹利高瞻遠矚的宏觀分析，都指向了一個共同的結論——AI革命的浪潮已至，學習並擁抱那些靈活、高效的AI工具，將會幫助你抓住這價值數兆美元的時代機遇。 (新智元)

帶崩美股AI的MIT報告說了啥？

昨晚美股近期指數層面的風平浪靜先是被Meta AI部門裁員重組的消息給打破，多家權威媒體報導，Meta 正把 Meta Superintelligence Labs（MSL）拆分為四個小組（含一個“TBD Lab”、產品線（如 Meta AI 助手）、基礎設施、以及長期研究的 FAIR），為 6 個月內第 4 次重組，官方定位是為 AGI/“超級智能” 提速。Llama 4 的“失準/延遲”早有徵兆，4 月發佈前後，多篇報導提到推遲上線、在推理/數學與語音對話上不及頂尖閉源模型，並引發高層不滿。“刷分/造榜”並非空穴來風，但官方否認“訓練集洩漏”：社區與媒體質疑 Llama-4 Maverick-03-26-Experimental 這一非公開變體用於 LMSYS Chatbot Arena 榜單、與公開版本不一致，從而“美化”名次；LMSYS 其後補充透明度。Meta 高管公開否認“用測試集訓練/作弊”，稱差異主要來自實現穩定性與實驗性變體。所以，有“版本差異/資訊不透明”的合理質疑，但“訓練集刷榜”的直接證據不足。“轉向第三方模型”的傳聞，有報導（轉引自 NYT）稱高層討論過“降低 Llama 投入、改用他家閉源模型”。需視為正在評估的選項而非落地決策。所以，對於Llama 4來講，可能重組+口碑受挫是事實。緊跟著MIT一個研究部門MIT Media Lab發佈了一篇名為《The GenAI Divide: State of AI in Business 2025》的研究報告，報告指出：企業為“增長/收入加速”而做的 GenAI 試點中，95%的POC試點失敗了，只有大約 5% 快速轉化為可衡量的 P&L 貢獻，絕大多數停留在試點或產生的財務影響可以忽略。MIT 官方新聞頁也轉引了 Fortune 的報導以此為標題要點。一石激起千層浪！從行業的角度來說，2月份曾因為deepseek引發了對於巨額capex投入的擔憂，而在硬體集體火熱以後，MIT這份可能不算重磅的調研報告成為調整的一個導火索，如果企業推進AI項目如此艱難，95%的項目看不到成效，目前如此大力的投入，ROI怎麼辦，等到折舊攤銷上來，巨頭們的利潤率即使可以通過AI不斷提升，但是利潤壓力也會加大。MIT NANDA 的“95% 企業 GenAI 試點對 P&L 無顯著貢獻”結論，放大了市場對“巨額 AI 投入 → 財務回報穿透”的焦慮。Meta 個案成為這個敘事的催化劑，但“失敗主因在學習閉環與流程整合，不在模型本身”。我深入看了一下報告，簡單說說我的一些觀點：首先，“95% 失敗”不是模型差，是“學習缺口”，一般的AI系統不會記、不會學、難融入流程——能做 demo，卻進不了生產與財務報表（P&L）。其次，“買＋夥伴”勝過“全自研”，外采定製且以業務結果為計量的方案，轉正率≈2×內部自建；DIY 往往卡在整合/治理/營運三道關。目前來說，ROI 真正的金礦在後台，雖然預算大多砸在銷營端，但BPO/外采替代、單據/工單自動化最容易在 3–6 個月穿透到 Opex，形成可複製回報。為什麼失敗率（≈95%）這麼高、怎樣把成功率做上去、以及技術關鍵難點與對策。為避免空泛，我儘量把洞見落到可操作的流程、指標、架構與清單上，並嚴格以文稿中的發現為錨點（如：僅≈5%試點落到生產、學習能力與工作流嵌入才是分水嶺、外部合作成功率約為內部自建的兩倍、兩個行業出現結構性擾動等）。“鴻溝”的根因不是模型好壞，而是“學習”與“嵌入”：大多數系統不會記憶與演進，與真實流程脫節，所以難以產生P&L 影響（文稿稱≈95%失敗）。消費級LLM（ChatGPT、Copilot）好用卻難托底核心流程：個人生產力提升明顯，但缺乏持久記憶與可定製，在關鍵任務上使用者仍傾向人工。組織與採辦方式決定成敗：外部合作（BUY）≈2×成功率於內部自建（BUILD）；去中心化試點+明確責任優於“單一AI實驗室”。預算錯配：錢多投在前台（銷售/市場），但ROI 往往後勤/中台更高（如BPO替代、財務/法務自動化）。窗口期在收緊：企業將鎖定能“學”和“嵌入”的方案；Agentic（具記憶與自治的系統）+ NANDA/MCP/A2A 協議將是分水嶺後的基礎設施。目前的行業與場景優先順序如何？結構性擾動顯著：科技、媒體與電信，這些行業推進也是最快的。試點多但結構性變化低：專業服務、醫療與醫藥、消費零售、金融、先進製造等。極低/早期：能源與材料。高ROI 場景（被低估）後勤/中台：BPO替代（客服/文件處理）、合同/發票結構化、合規檢查、AP/AR對帳、主資料治理。前台但流程化：線索分流與資格校驗、售後工單歸因與閉環、催收/復聯自動化。為什麼失敗率這麼高？——七大“系統性斷裂”過度看重模型指標/炫技 demo，而非流程端到端KPI（周期、缺陷率、現金成本）。普遍實現了“用過”，卻沒實現“融入流程並持續改進”。AI CoE 與一線流程斷層；預算在總部，痛點在現場。誰對上線後的指標負責？誰對資料/合規兜底？把“高採用、低轉化”拆解為目標、組織、流程、資料、技術、治理、度量七條鏈路。目標口徑錯配：項目按“功能/體驗”立項，驗收卻按“營收/成本”口徑。PoC 時的“滿意度/召回率”無法穿透到節拍(Cycle)、吞吐(Throughput)、一次通過率與Opex/COGS。學習閉環缺位（報告核心）：多數工具無持久記憶、無可追溯反饋回灌、無持續評測；上線後性能不隨使用而改進，自然“越用越雞肋”。流程未再造：把 LLM 貼到舊流程上，未重寫人機分工、SOP、質檢抽檢、SLA 與賠付；一上生產就脆。整合碎片：對接系統記錄源(ERP/CRM/ITSM/DMS)、權限與審計成本高；中台缺事件流/狀態儲存，使“記憶×流程”落不穩。評測與觀測缺位：沒有離線/線上雙評測，沒建“AI 可觀測性”（資料漂移、任務分佈、成本/延遲/質量三角）；上線後無法診斷→改進。TCO 被低估：只算推理費，不算提示工程/快取/人審/事故處置/觀測等隱性成本；表面省、實則“毛省淨虧”。組織設計失衡：中央 AI Lab 抓權但離場景遠；一線“prosumers/直線經理”沒有預算與決策權——自下而上的成功樣本難複製。這份報告在三點上“打臉”了近期對軟體/AI落地的悲觀看法——買方市場裡，“BUY 勝過 BUILD”在樣本裡，外部合作到產出的成功率≈內部自建的2×；而整體上只有少數（≈5%）項目真正帶來可量化的 P&L 結果。成功關鍵不在“模型多強”，而在“能否學習+深度嵌入流程”會不斷“記憶—適配—進化”的系統，才跨過“GenAI鴻溝”。軟體的勝出方式變了不是通用“橫向SaaS”獲勝，而是“軟體 + 服務 + 學習SLA”的專業供應鏈佔優（更接近“託管流程服務”而非一次性工具）。也就是說：最專業的人做最專業的事，但企業仍需保留一條“輕量自建的骨架”，去治理、嵌入、與學習提速。不是把一切都外包掉，而是把模型/代理的“進化工程”交給供應商，企業自己抓流程、資料邊界、評測與治理。這份 MIT-NANDA 報告等於把“企業都能自己做 AI、SaaS 要被消滅”的看空敘事階段性證偽。資料清晰顯示——“買＋夥伴”顯著優於“全自建（DIY）”，而失敗的主因不在“模型能力”，在於學習閉環與流程整合的缺失。這篇報告“打破”了什麼？1) 自研神話：報告與多家權威轉述一致：向專業供應商採購並建立合作的成功率≈67%，而內部自研的成功率只有其約三分之一。這對“企業普遍能把複雜 GenAI 做成規模化生產系統”的想像是當頭一棒。2) 價值落點：~5% 試點實現快速營收加速，絕大多數項目對 P&L 可測影響很小——“會做 demo ≠ 能過審計、能進報表”。預算分配明顯錯配：>50% 花在銷營，但ROI 最清晰的在後台自動化（替代 BPO/外部代理、精簡營運）。3) 真實用工衝擊：目前更多是外包/離岸崗位被替代，“不回填/不續約”多於大規模裁員——這也解釋了為何後台自動化先見財務穿透。4) 痛點不是模型而是“學習差”：企業失敗的根因在工具與組織都缺少“記憶→反饋→改進”的長期學習閉環，導致試點能跑，生產落地卡殼。對“軟體”的多空分野（戰略視角）把“軟體”拆成三層看，結論更清楚：A. 應用層（Workflow-native、SaaS/SwaS）——最大受益者。誰能把記憶/反饋閉環、深度整合（系統記錄源、佇列、權限、審計）與可計量產出（每單/每票/每小時）打包交付，誰就佔住價值窪地。商業模式遷移：從“按席位”→“按結果/票據/對帳量/SLA 賠付”的 SwaS（Software-with-Services）/BPO-替代，更容易穿透到 P&L。報告資料與媒體拆解對這一路線給出了強背書。B. 平台層（Agent/記憶層/治理層）——護城河來源是“流程可塑性＋治理合規＋維運可視化”，而不是“模型誰更大”。能把企業特定知識長期沉澱並自動評測/人審回灌的供應商，會形成留存與切換成本。這正是 DIY 最容易掉坑的地方。C. 通用模型/薄封裝 ——受壓最重。單純“把大模型接到舊流程上”的輕封裝，既不易算清 ROI，也很快被替換。除非掌握稀缺資料或合規資質，否則議價權弱。這不是“軟體要被 AI 殺死”，而是“沒有營運與學習工程的‘偽軟體’要被淘汰”。真正專業的流程軟體＋服務提供商，在這輪企業 AI 浪潮裡更稀缺、更值錢。這份 MIT-NANDA 報告並非看空 AI，而是表明“沒有學習閉環與流程工程的偽落地”在企業業務流程層面，沒有任何意義；它看多“專業軟體與夥伴化交付”。站在企業與投資人一側，做多“Workflow-native 的軟體＋服務”，遠勝於押注“大而全的內部自研”。為什麼這輪“買>造”成立？時間價值，報告中優秀買家從90天內拿到業務結果；自建往往拉長到季度/年，錯過窗口。整合深度，優勝供應商把CRM/ERP/ITSM等主系統上下文接進來，減少人工喂料與二次搬運。學習閉環，外采團隊已有反饋採集→線上評測→策略發佈的流水線，而很多企業內部還停留在“提示工程”。SLA 可經營，頂級供應商以任務完成率/干預率/工單時長/質量缺陷率對賭，和 P&L 直接掛鉤。信任與管道，買方更依賴既有夥伴、同業口碑與SI管道；這類“社會資本”是新創或內部團隊短期難複製的。但不是“凡事外包”——何時仍該自建？滿足下列兩條以上，自建或自建為主的混合才更合理：極高保密/合規資料嚴格在邊界內流轉（強監管、國密/等保、嚴苛多租戶隔離）。差異化流程是“護城河”業務規則/策略積累本身構成壁壘（金融風控、專有定價、核心調度）。極限約束毫秒級延遲、離線/邊緣算力、定製工具鏈，商用產品難以滿足。長期規模經濟穩定、超大體量且復用度高，能攤薄自建平台的固定成本。估計，接下來大多數企業會落在混合式：外采“學習型代理/工作流引擎”拿結果；企業自有“治理與記憶層”（身份/權限、策略、審計、觀測、評測與資料契約），把可遷移的“組織記憶”掌握在手。所以，這份研究的分水嶺很清晰：是否具備“學習+嵌入”的工程與組織能力。把AI當“會進化的流程服務”來設計、驗收與付費，從窄而關鍵的流程切入，用SLA與學習里程碑驅動產品進化，成功率才會上來。協議化（MCP/A2A/NANDA）與Agentic工作流，會把“影子AI”的個體技巧沉澱為企業的可控生產力。窗口正在變窄，90天拿到可復用的最小勝利，再複製到更多流程，是跨越“GenAI鴻溝”的最短路徑。 (貝葉斯之美)

MIT滿分學霸掏空AI初創，Google24億收購黑幕曝光！數百員工血本無歸

【新智元導讀】Google突然截胡OpenAI，帶走Windsurf創辦人和核心工程師，連早期投資人都賺得盆滿缽滿，只剩一群「留守」員工獨守爛攤子——矽谷最慘AI出逃現場正在上演！這打響了超級資本主義下AI戰國的第一槍。OpenAI收購Windsurf在即，突然半路殺出個Google！但這波可不是收購，而是釜底抽薪：Google直接挖走了整個Windsurf領導層+前30位核心AI工程師！為了這次挖角，Google豪擲24億美元！而投資人、創辦人和被選中的小團體，都將在瓜分這筆天文數字後，賺得盆滿缽滿。但留下來的員工就苦了——他們不僅一無所獲，還要被迫接手一個被掏空的「空殼公司」。根據一位Windsurf高階員工爆料，現有員工沒有得到任何補償，所有資金都進了創辦人和優先股股東的口袋。看到這裡，業內人士痛心疾首地表示：對整個美國科技業來說，這太糟糕了。「矽谷皮革廠」現世「老闆」攜款跑路了？老闆走了，公司成「自己的」了？然而，在現金可能已經被掏空的情況下，這根本就不是所謂的「分家」，而是赤裸裸的背叛！更諷刺的是，Windsurf高層還辯稱，沒去谷歌的員工「不算吃虧」：公司還有收入，財務狀況也很健康。但別忘了，在程式碼智能體領域，競爭非常殘酷。留下來的人不僅要面對去了谷歌的「前老闆」和「老同事」，還有Cursor、Anthropic等科技巨頭和新貴們，虎視眈眈地盯著這塊肥肉。可以肯定的是，Google如今已經拿到了核心技術授權，而Windsurf估值的歸零只會是時間問題。不難看出，在AI新創公司，真正承擔風險的，從來不是創辦人，而是相信他們的工程師。當初，這些公司靠著「股權」這張大餅吸引人才，承諾未來會獲得超額的報酬。而那些相信了的工程師們，為了夢想甘願接受更低的薪水，All in新創公司。他們把未來押在公司身上，承擔失敗的風險──一旦公司倒閉，暴富夢也會跟著破滅。而現在，Windsurf創辦人為了自己的天價offer，跳槽谷歌，讓所有股權一文不值！如果這種「背叛」成為常態，誰還敢去新創公司？不僅拿著更低的工資，還要隨時準備被拋棄？隨著信任的逐漸崩塌，矽谷夢也正在破碎的邊緣徘徊。美國的新創公司招聘，本來就越來越困難。在零利率政策之後，美國的新創公司與科技巨頭之間的薪資差距確實有所縮小。但如果新創公司資金充足，員工就會對股權的真實價值產生懷疑。現實是，越來越多的早期員工在談薪時要求較少的股權，更傾向於更多的現金。長此以往，股權將變得毫無意義。整個模式將崩潰。這不僅是一場收購的遊戲，更是一場信任的危機。谷歌明明不差錢為什麼還要這麼幹？谷歌並非首次這樣操作──類似的角色替換劇，本來就頻繁上演。谷歌不缺錢，它缺的是關鍵大腦。谷歌不是第一次這麼乾。與Character AI的交易就是如此。實際上，Google當初只「買走」了Noam Shazeer，然後讓Character AI繼續由其他員工持有。在Character AI應用程式中，用戶可以創建“虛擬人物”，精心設計他們的“個性”，然後將他們發佈到社區，供其他人聊天不同的是，當時，Google不在乎AI伴侶賽道，他們在乎的只是Noam和幾個關鍵人物。在創立Character AI之前，Noam Shazeer在Google工作了十多年；重返Google後，擔任GoogleDeepMind工程副總裁，Gemini專案聯合負責人。在處理Character AI「後事」上，Noam Shazeer非常得體，誠實、公平且慷慨。甚至有員工表示，如果有機會再共事，他依舊會給予滿分評價。當然，不只谷歌一家這麼做。去年，Inflection的創辦人Mustafa Suleyman和Karén Simonyan，也被微軟高價挖走。谷歌大腦前研究科學家、Cornell機器學習博士、AI創業家Maithra Raghu一針見血：「員工命運，全看高階主管態度。」Character AI和Inflection處理得很好。而Windsurf現在要糟糕得多。在𝕏上，流傳著疑似Windsurf創始人Varun Mohan的回應。這位MIT滿績點的學霸認為這項交易非常完美，那些為Scale AI歡呼的人，也應該給他們鼓掌。😅對此，連續創業家、投資人和內容創作者Jordi Hays，昨天有一番推測：在各大實驗室和Cursor等競爭對手的壓力下，Windsurf的高層拼命想找條出路，於是存出了這個利己的交易方案。至於他們憑什麼覺得能這麼幹，還能蒙混過關，誰也搞不懂。事已至此，我猜所有相關方正手忙腳亂，尋求補救方案，因為如果任由事態發展，這將成為整個行業的一大醜聞。科技新聞直播平台TBPN、Jordi Hays的合夥人John Coogan，提出了一些站得住腳的解釋：那些工作未滿一年、還沒拿到第一批歸屬選擇權的員工，他們主張「我為公司流血流汗，理應獲得變現回報」的底氣沒那麼足。而且，外界並不知道所有被留下來的員工的具體工齡。這起事件真正的癥結所在，或許是美國聯邦貿易委員會（FTC）的反壟斷審查。這個市場競爭極為激烈，即便如此，Google仍然覺得他們無法直接進行一次常規的收購。未來可能還會有新的內情曝出。他也邀請Windsurf CEO到他們的直播間，公開討論、回應這件事。今天，最新的消息是，這幾乎完全是由於溝通問題（Google使創始人與團隊之間的訊息傳遞變得困難），而留下的團隊最終會得到一個公平的結果。網友Jordan Thibodeau曾在Google從事了將近十年的併購工作，表示Google不會區別對待，所有已歸屬選擇權的員工都會得到補償，和Character的交易一樣。谷歌不會毀掉自己的聲譽。但不少網友相信這是輿論壓力、眾人聲討回來的正義。無論如何，這場AI人才之戰，揭示了當前矽谷創業的新趨向。矽谷：AI人才之戰，金錢至上矽谷頂級創投公司Founders Fund的合夥人John Lutting，認為美國正處於瘋狂的AI人才泡泡中。而AI人才爭奪戰，將徹底改寫矽谷的規則。這場人才狂熱或許會降溫，但在可預見的未來，它將成為新常態。既然頂尖1%的公司為創投貢獻了絕大部分回報，那為何同樣的邏輯不能適用於人才呢？人類的平等主義傾向，與生俱來，這讓我們難以承認這一點。但「10倍工程師」這個梗已經不夠用了──現實中，有些人的影響力顯然是基準線的1000倍。在創辦人層面，這種不平等體現得淋漓盡致──風投就是基於這樣的事實而建立的。但這同樣也適用於員工。許多關鍵人物創造了數十億美元的價值——想想Jony Ive對iPhone的貢獻，Jeff Dean在Google實現的分散式系統，或是Andy Jassy孵化出的AWS。在過去幾十年裡,科技業逐步擴大資本部署，市值邁向了兆級。這對勞動市場的影響雖帶來了通膨，但尚在預料之中。然而，在ChatGPT問世後的兩年半里，AI領域的追趕式投資呈現出拋物線式的瘋長，起初資本湧向GPU和大規模訓練。當一些實驗室意識到僅靠GPU無法保證產出優質模式時，資本的砲口正迅速轉向人才。矽谷建立在數十年的信任之上──這是社會契約與使命信念的結合體。但資本部署的急劇升級同時衝擊著公司和人才庫。它打破了現有的遊戲規則：從公司成立的社會契約，到員工的忠誠度，再到維護現有產品的責任，甚至投資人曾經遵守的利益衝突規則。用哲學家德勒茲（ Gilles Deleuze）的話來說，這是一種「瓦解疆域的力量」（deterritorializing force）。Gilles Deleuze：1925年1月18日—1995年11月4日，法國後現代主義哲學家。與心理學家加塔利合著的《資本主義與精神分裂》兩卷本：《反俄狄浦斯》（1972年）和《千高原》（1980年）；他的形上學論文《差異與重複》也是一部巨著信任，已不再是理所當然的產業基石。當信任崩塌，AI創業不再是理想主義者的烏托邦，而是資本的狩獵場。員工、新創公司和投資者之間的社會契約必須重寫。在「使命」與「金錢」這對古老的矛盾中，那些以使命為驅動的創始人，必須為「僱傭兵」指數級的火力增長做好準備。這場由超級資本主義驅動的AI人才戰爭，將重寫僱傭合約與投資準則，讓回報更加集中，並大大抬高了創辦偉大公司所需的使命感召力與資本門檻。在2025年，如果一個投資者還固守著只投種子輪或A輪的教條，那就太不合時宜了。難道你要對這個時代最重要的科技公司視而不見嗎？產品的快速普及，要求投資人必須放下身段，更快承認自己看走了眼。對於一些6個月前錯過的公司，今天以2-3倍的估值追投，可能才是正確的決定。投資人甚至不需要仔細審查其具體技術路線，因為通用人工智慧的想像空間是無限的（即使只有1%的突破機會，也可能誕生10兆美元市值的公司）。如果你相信憑藉團隊的品質就不會虧錢，那麼龐大的上行空間就如同一個「免費」的買權。但如果創投公司看錯了人——高估了人才的能力，或高估了人才對公司的忠誠度——他們就可能在巨額投資上血本無歸。即使一個團隊取得了技術突破，也無法保證將價值變現。能實現技術突破的研究團隊，不一定是能把產品和銷售做好的團隊。從歷史上看，創辦公司的社會契約，意味著創辦人會堅持到公司退出。但當誘惑的數字大到一定程度時，這種契約還會牢固嗎？過去，人們不會輕易離開自己創辦的公司，尤其是在公司尚處早期或估值很高時。但AI人才戰爭正在瓦解原有的遊戲規則。這種脆弱性使得CEO或核心主管可以在幾乎無需承擔後果的情況下離開公司。隨著人才和公司涉及的金額越來越大，各方都需要重新構想彼此間的社會契約。而作為凝聚團隊的黏合劑，公司的使命感比以往任何時候都更重要。矽谷上演的AI人才戰，已經不是「招人」那麼簡單。它正在改變公司與員工之間最基本的契約。這是資本洪流中的一場信仰保衛戰。當所有人都在談估值，誰還會堅持使命？

AI視訊生成革命！MIT領銜豪華天團讓生成效率暴漲370%，成本直降4.4倍

【新智元導讀】刷到1分鐘AI短影片別只顧著點贊，背後的算力成本讓人驚嘆。MIT和輝達等提出的徑向注意力技術讓長視訊生成成本暴降4.4倍，速度飆升3.7倍，AI視訊的未來已來！刷到1分鐘的AI生成短影片時，你可能想像不到背後的算力成本。傳統的視訊擴散模型，處理視訊時採用密集注意力機制。這種方法雖然能保證畫質，但計算量大得嚇人，生成10秒視訊就要燒掉數千元算力費用，隨著視訊長度增加，算力需求呈指數級飆升。最近，MIT輝達等研究人員發明的「徑向注意力」技術，不僅讓長視訊生成速度提升3.7倍，還能把訓練成本砍掉4.4倍。論文連結：https://www.arxiv.org/abs/2506.19852 程式碼連結：https://github.com/mit-han-lab/radial-attention/徑向注意力在擴散模型的加持下，高品質視訊生成逐漸從科幻變成現實。但視訊的時間維度給算力增加了不少負擔，導致訓練和推理長視訊的成本飆升。生成10秒視訊就要燒掉數千元算力費用，價格之高令人望而卻步。對此，團隊從熱力學借了點靈感：「沒有任何傳播是無損的；訊號、影響、注意力都會隨著距離衰減。」他們發現視訊擴散模型裡的注意力分數同樣遵循這個規律——softmax後的權重隨著token間的空間和時間距離遞減。這種「時空能量衰減」現象與自然界訊號的物理衰減不謀而合。這會不會就是視訊生成降本增效的關鍵？為進一步證實這種猜想，團隊提出了「徑向注意力」（Radial Attention）：一種計算複雜度僅為O(nlog n)的稀疏注意力機制。區別於之前SVG每次推理對空間/時間注意力進行動態選擇，徑向注意力用的是一種統一且高效的靜態掩碼。這種掩碼把空間和時間注意力合二為一，帶來了更靈活、更快的長視訊生成體驗。而且，這種簡潔的靜態注意力掩碼讓每個token只關注附近空間的鄰居。隨著時間距離的拉長，注意力窗口逐漸收縮。相比傳統的O (n²)密集注意力，徑向注意力不僅大幅提升了計算效率，還比線性注意力擁有更強的表達能力。在這項注意力機制創新的加持下，高品質視訊生成變得更快、更長。訓練和推理的資源消耗極大地降低，為視訊擴散模型打開了新的可能。效果有多驚豔？實測資料來說話研究團隊在三個主流模型上做了測試：HunyuanVideo、Wan2.1-14B和Mochi 1，覆蓋了不同參數規模的場景。Mochi 1可以生成長達5秒、480p解析度、162幀的視訊；HunyuanVideo可以生成長達5秒、720p解析度、125幀的視訊；Wan2.1-14B可以生成長達5秒、720p解析度、81幀的視訊。速度提升1.9倍到3.7倍在默認視訊長度下（如HunyuanVideo的117幀），徑向注意力能把推理速度提升1.9倍左右。當視訊長度擴展到4倍時，速度提升更明顯：從2895秒（近50分鐘）降到781秒（約13分鐘），足足快了3.7倍！以前一小時才能生成的視訊，現在喝杯咖啡的功夫就搞定了。表1展示了在HunyuanVideo和Wan2.1-14B的默認生成長度下，徑向注意力與三個強稀疏注意力基線的比較。在相同的計算預算（以TFLOPs衡量）下，徑向注意力保留了密集注意力的視訊質量，同時在相似性指標（PSNR、SSIM、LPIPS）上始終優於STA和PA，並與SVG的質量相匹配。在單個H100上，徑向注意力為HunyuanVideo和Wan 2.1分別實現了1.9倍和1.8倍的端到端加速，與理論計算預算節省（1.8倍和1.7倍TFLOPs）相匹配。儘管STA通過使用 FlashAttention-3（FA-3）產生了略高的加速，但視覺質量明顯下降。訓練費用最多節省4.4倍長視訊生成最燒錢的其實是訓練階段。用徑向注意力配合LoRA微調技術，訓練成本直接大幅下降。對於企業來說可是天大的好消息，以前做一個長視訊項目可能要投入幾十萬，現在可能只需要幾萬塊。表2提供了2倍和4倍原始長度的視訊生成結果。為了確保公平性，所有稀疏注意力基線使用相似的稀疏率。當生成長視訊時，未經進一步調優的原始模型表現出顯著的質量退化，尤其是在4倍視訊長度擴展時。雖然RIFLEx在2倍長度外推時提高了性能，但其質量在此之後惡化，表明擴展能力有限。空間和時間稀疏注意力受到有限感受野的影響；另一方面，LongLoRA和PA雖然具有全域感受野，但未能捕捉時空相關性，導致質量下降。有趣的是，PA在微調後視覺獎勵有很大提高，表明其原始稀疏模式與預訓練的注意力分佈不一致。微調允許模型適應施加的注意力稀疏性，改善對齊和質量。SANA將softmax注意力取代為線性注意力，需要大規模重新訓練，並且在基於微調的視訊長度擴展下失敗。相比之下，徑向注意力實現了與LoRA微調密集注意力模型相當的質量。甚至在默認視訊長度下，比預訓練模型略微提高了視覺獎勵。由於O(nlog n)複雜度，徑向注意力比原始密集注意力提供了顯著的推理和訓練加速，如表2和圖2所示。生成4倍長的視訊時，可以節省高達4.4倍的訓練成本，並實現高達3.7倍的推理加速。最關鍵的是，速度和成本降下來了，畫質還沒縮水。在HunyuanVideo上，徑向注意力的PSNR值達到27.3，和原始模型基本持平；視覺獎勵分數0.134，甚至比密集注意力的0.133還高一點點。不只是快：徑向注意力的「隱藏技能」很多技術升級都需要重新訓練模型，但徑向注意力不需要。它可以直接應用在預訓練好的模型上，通過簡單的 LoRA 微調就能實現加速。徑向注意力的一個關鍵優勢是與預訓練的特定任務LoRA（如藝術風格遷移）的無縫相容性，這對創作者太友好了。如圖8所示，將擴展長度LoRA與現有風格LoRA結合使用，在實現長視訊生成的同時保留了視覺質量。研究團隊還觀察到，合併LoRA生成的內容風格與原始LoRA略有不同。這種差異主要歸因於用於訓練擴展長度LoRA的相對較小的資料集，這可能引入輕微的風格偏差，與風格LoRA相互作用。在更全面的資料集上訓練長度擴展LoRA，預計將有助於緩解這個問題。以前生成1分鐘的AI視訊是很多中小團隊不敢想的，現在徑向注意力讓這事變得可行了。以後，我們可能會看到更多AI生成的長視訊內容，像短影片平台的劇情號。 (新智元)