#MIT報告
MIT最新研究: AI有能力替代美國 11.7%的勞動力,波及全美!1.5 億員工被智能體建模
越來越多的人說,AI 可能會取代一些工作,但它到底會影響那些崗位?影響有多大?最近,一項來自 MIT 的新研究給出了一個驚人的答案:一組隱藏資料表明,AI 當前已經有能力替代 11.7% 的美國勞動力,對應工資價值約1.2兆美元。如果只看目前 AI 的實際應用,主要集中在科技和計算崗位,那麼AI的影響僅佔約2.2%的勞動力,對應工資價值約 2,110 億美元。但當研究者把行政、金融和專業服務等崗位納入考慮後,AI 潛在影響範圍飆升至 11.7% 的勞動力,約 1.2 兆美元工資。這份研究成果來自一個名為 Iceberg Index(冰山指數) 的項目,由 MIT 聯合 橡樹嶺國家實驗室(ORNL) 開發。研究團隊把 AI 與人類勞動力的關係做了一個大膽模擬:他們將美國 1.51 億名員工都“數位化”,讓每個人按照技能、任務、職業和地理位置分類,然後觀察 AI 工具可以覆蓋那些工作任務,甚至能精確到郵政編碼區域。ORNL 負責人 Prasanna Balaprakash 將這個模型形象地比喻為“美國勞動力市場的數字孿生”。通過這個工具,研究者不僅可以看到 AI 已經進入那些崗位,還能預測潛在的技術曝光區域。01. 將1.51億職工建模為智能體論文中,Iceberg Index 的建構過程分為三步:1、人類勞動力對應模型覆蓋 1.51 億員工、923 個職業、3,000 多個縣,總共包含 32,000+ 技能。每個職工被建模為一個“智能體”,擁有技能、任務、地理位置等屬性。模型可以分析技能遷移潛力和職業相似度,為未來崗位轉型提供規劃路徑。2、AI 勞動力對應研究團隊收集了 13,000+ AI 工具,包括程式碼生成、流程自動化和認知輔助工具。使用與人類相同的技能分類體系,直接對比 AI 與人類能力。評估 AI 在增強人類工作(如醫院文書自動化)和完全轉變任務(如程式碼自動生成)的潛力。3、人類–AI 聯合模擬使用 MIT 的 Large Population Models (LPMs) 模擬數十億次互動。模擬考慮技術成熟度、採納行為和區域差異,輸出職業技能變化、地理分佈以及跨行業的連鎖影響。政策制定者可用模擬結果測試培訓方案、資源分配和激勵策略。整個模擬在橡樹嶺 Frontier 超級電腦 上運行,保證了大規模、高精度的預測能力。在這一基礎上,研究團隊建構了冰山指數(Iceberg Index)。這是一項以技能為中心的衡量指標,用於評估勞動力在 AI 經濟中的暴露度。它量化了 AI 系統在技術上可以執行的職業任務的“工資價值”,從而揭示人類勞動與 AI 能力重疊的部分。該指數從三個維度評估每一個職業:該職業需要的技能;這些技能的可自動化程度;工作本身的價值(工資與就業規模)。這些因素結合後,為每個職業給出一個一致的“技術暴露度”:它指的是 AI 能力與人類技能的重疊,而不是預測崗位是否會消失。例如,金融分析師不會消失,但 AI 可能能夠處理大量文件處理與常規分析工作。這會改變角色結構與技能需求,而不一定減少崗位數量。02. AI 有能力替代11.7%的勞動力研究團隊首先對當前 AI 最集中採用的職業內的技術暴露度進行了量化,並給出了一組資料:截至 2025 年,超過 10 萬 工作崗位的裁撤與 AI 重組直接相關;AI 系統每天生成超過 10 億行程式碼,已超過人類開發者的產出。因此,他們測量了電腦與技術類職業中的技能重疊度——表層指數(Surface Index)。結果發現,全國範圍內的表層指數為 2.2%,對應約 2110 億美元的工資價值、約 190 萬名技術職業從業者。包括軟體工程師、資料科學家、資料分析師、項目經理以及其他技術密集型崗位,這些都是目前 AI 採用最集中的職業群體。但這還僅僅只是冰山一角!除了科技類職業,AI 的能力還擴展到認知性和行政工作。原本為程式設計開發的工具,已經展現出在文件處理、財務分析、日常行政任務 等方面的技術能力,說明技術能力可以從科技領域遷移到其他行業。部分公司已經開始削減非技術性崗位:IBM 通過 AI 自動化減少了人力資源崗位Salesforce 暫停了非技術崗位招聘McKinsey 預測到 2030 年,約 30% 的財務任務可實現自動化研究團隊發現,當考慮 AI 在行政、金融和專業服務等崗位的潛在自動化能力時,這一數字上升至 11.7% 的勞動力,是表層指數的5倍,約 1.2 兆美元工資(稱為 Iceberg Index 冰山指數)。此外,研究作者也強調,這些結果僅代表 AI 能力與人類技能的重疊,並非實際的未來崗位消失情況,真正影響取決於企業、工人和地方政府的應對策略。03. 影響不限於沿海科技中心人們常以為 AI 取代最多的崗位會集中在沿海科技公司聚集的地區,但冰山指數顯示,AI 接管工作任務的能力 在全美範圍內更廣泛分佈。研究表明,許多州如果僅看當前計算和技術崗位的 AI 採納,影響不大;但當加入其他變數後,潛在影響大幅上升。例如,鐵鏽地帶的俄亥俄州、密歇根州和田納西州,表面指數不高,但冰山指數顯示認知工作(金融分析、行政協調、支援製造業的專業服務)有 十倍於表面指數的潛在技術曝光。例如這幅圖,左邊的冰山指數圖顯示,AI 的認知自動化能力已經擴展到沿海科技中心之外。一些意想不到的州,比如 特拉華州 和 南達科他州,因為行政和財務崗位集中,其指數甚至高於加州。右邊的自動化差距圖則揭示了各州當前實際 AI 採用情況與未來潛在變革之間的差距。像 俄亥俄州 和 密歇根州 這樣的製造業州,在物理自動化尚未大規模普及之前,就已經有大量隱藏的白領崗位可能被 AI 替代。這意味著這些州需要提前為行政、協調等崗位的變化做好準備。研究團隊表示:就算是密西西比、懷俄明這類“低科技州”,在行政、財務、專業服務 等崗位上的技術暴露度仍然很高。換句話說:它們看似與科技無關,但AI 的能力結構與其勞動力技能高度重疊,未來衝擊將遠比表層指數顯示的更大這表明:僅以當前可見的AI 採用情況來判斷風險,會嚴重低估真實暴露度。此外,MIT 和 ORNL也表明,他們建立冰山指數的目的是希望地方政府能夠提前應對 AI 可能帶來的衝擊。可以通過數字孿生模型,分析每個城市街區、每個崗位技能的自動化風險。模擬政策干預(培訓、資金投入、激勵機制)對就業和 GDP 的影響。提前規劃技能培訓、基礎設施和人才投資,實現 “先準備、後應對”。據CNBC報導,田納西州已在官方 AI 勞動力行動計畫 中引用冰山指數,北卡羅來納和猶他州也正在使用該工具制定政策方案。04. 網友熱議:事情沒那麼簡單這項研究在Reddit上也掀起了軒然大波,許多網友紛紛在評論區提出不同看法。一位網友調侃道:“研究由山姆·奧特曼資助。”有網友認為,說 AI 會替代多少工作,其實是反映了“無意義工作”的現狀,而不完全說明 AI 的能力或實用性。還有網友指出,如果用AI替代人類的工作,公司會面臨責任歸屬不清的問題,不如一紙合同來得可靠。當然,也有不少網友依然不信任AI投入實際生產的能力,認為“炒作遠遠超出了實際應用”。(51CTO技術堆疊)
全球95%企業AI慘敗?MIT報告引矽谷恐慌!90%員工偷用ChatGPT續命
【新智元導讀】全球95%企業AI慘遭滑鐵盧?MIT 26頁爆火報告揭開真相:90%員工悄悄用ChatGPT高效辦公,在科技、媒體行業掀起了效率革命。全球95%搞AI項目的公司,基本都涼了!這一驚人的觀點,出自MIT的一份重磅研究報告——「The GenAI Divide: State of AI in Business 2025」。誰曾想,這份令人咋舌的報告,一夜之間刷屏全網。難道AI這麼快就進入寒冬了嗎?事實上,真相遠比各大媒體的標題精彩。在這份26頁報告中,隱藏了一個爆炸性的事實:企業史上最快、最成功的技術應用普及,正在高管們的眼皮底下悄然發生。雖然40%的公司都訂閱了大模型服務,但90%的員工依然會選擇用「個人AI工具」悄悄幹活!一位VC投資人Kasra Khalili一句話道出了真理,「AI並沒有失敗,而是公司內部建構系統的失敗」。報告的核心看點如下:普遍的誤解:新聞頭條緊抓「95%的企業AI試點項目失敗」,但這僅指昂貴、僵化的定製系統。而真相是:90%的員工正積極使用個人AI工具(如ChatGPT)辦公,掀起了一場史上最快的技術普及浪潮。消費級工具完勝企業級:昂貴的企業AI工具因為「死板、無法學習、脫離實際工作流」而被員工拋棄。相反,消費級AI應用則憑藉著靈活性、適應性和即時性大獲全勝。隱藏的生產力爆發:這場自下而上的「革命」帶來了巨大的、未被傳統企業指標計量的生產力提升。最高的回報並非來自光鮮的行銷應用,而是來自無人關注的後台自動化(如客服、文件處理),每年可為企業節省數百萬美元的開支。革命始於員工:報告的結論並非AI失敗,而是企業採購和管理策略的失敗。AI技術本身是成功的,但成功路徑是「從員工到企業」,而非「從企業到員工」。企業應當停止「自建」,轉向「購買」並與供應商深度合作,更重要的是,要向那90%已經找到正確使用方法的員工學習。這背後,究竟揭示了什麼現象?90%員工偷用ChatGPT,自費上班各大科技巨頭AI項目,在內部推行雖然步履維艱,但大多數員工早就在私下「開掛」了。MIT報告指出,「事實上,幾乎每個人都在以某種形式將LLM用於工作中」。其中,90%的員工頻繁地使用個人AI工具,比如ChatGPT、Claude等,那怕是40%公司訂閱了官方服務。換句話說,員工使用AI頻率,是企業採納率的2倍多,這種現象被稱為「影子AI經濟」。最關鍵的是,這些員工並非淺嘗輒止,而是他們在每周的工作中,每天都會多次使用AI。這種普及速度,直接吊打當年電子郵件、智慧型手機、雲端運算的採用頻率。報告中,有個案例太真實了:一家法務公司斥資5萬美元採購了一款專業的AI合同分析工具,但一位律師本人在起草檔案時卻堅持使用ChatGPT。本質原因,就在於AI生成的質量差,顯而易見。這名律師表示,「ChatGPT總能生成更優質的內容,即便我們的供應商聲稱他們用的是同樣的基礎技術」。如今,這一現象,在各行各業普遍存在。就連微軟這樣的巨頭,辦公室員工在家用的都是ChatGPT。一直以來,微軟不論是在公司內部,還是客戶中,大力推行自家的Copilot AI,效果不如人意。去年春天,製藥巨頭Amgen高調官宣引入微軟Copilot後,不過1年,全員紛紛轉向了ChatGPT企業級AI系統脆弱、設計過度,與實際工作流脫節,而消費級AI工具則因靈活性、易用性、即時性,廣受好評。正如一位首席資訊官對研究人員表示,「我們今年看了幾十個產品演示,可能只有一兩個真正有用,其餘的不是華而不實的包裝,就是紙上談兵的科學項目」。當企業高管們還在摸索內部普及AI的門道時,員工們早已破解了「AI的密碼」。斥資5萬美元,自研AI卻敗給了ChatGPT那些登上新聞頭版「95%失敗率」,特指的是,企業委託供應商或內部開發的、昂貴且定製化的企業級AI解決方案。這些工具,之所以推行失敗,核心在於缺乏「學習能力」。報告一針見血,企業級AI無法保存反饋、適應上下文情境,無法隨著時間而改進。直白講,就是太難用了。像ChatGPT這樣的通用AI工具投入生產的成功率為40%,而針對特定任務的企業級工具成功率僅為5%員工們紛紛抱怨,每次都要手動輸入一堆背景資訊,還不會從反饋中學習進步。相較之下,ChatGPT之所以成功,就因為靈活且響應迅速,即便每一次對話都是一次全新的開始。而企業級工具則顯得僵化呆板,每次使用前,都需要進行繁瑣的設定。這種學習能力的差距,在員工使用AI的偏好中,又對應出另一種現象——70%員工在處理郵件、基礎分析等快速任務時,直接找AI而非同事;但對於複雜的、高風險的工作,90%員工更信任人類。這裡的關鍵分界線並非關乎智能的本身,而是AI與人類在記憶與適應能力上的差異。別再自研了,合作成功率翻倍從更深層次看,「影子經濟」並不是AI失敗的證據,反而揭示了,傳統企業指標無法衡量的巨大生產力提升。員工們自行搞定了官方項目的整合難題,恰恰證明了隱藏的生產力。MIT報告稱,「影子經濟」表明,只要能用上靈活、響應迅速的工具,個人完全有能力跨越GenAI應用的鴻溝。一些具備前瞻性思維的公司,已經嗅到了機會。他們努力彌合這一差距,從員工的自發使用中學習,在採購企業級方案前,先分析那些個人工具能真正創造價值。不僅如此,報告還甩出了一個挑戰了傳統的技術觀念:企業應停止嘗試在內部自建AI。資料統計顯示,那些與AI供應商合作的項目,67%能成功部署,而內部自建的只有33%。一個最成功的案例是,那些把AI初創公司當做「業務夥伴」的企業,更注重實際業務成果,需要深度定製和持續改進,而非花哨的產品演示。科技媒體狂飆AI七大行業未被顛覆放眼整個行業,也僅有科技、媒體,因AI發生了顛覆性的結構變革。而醫療、金融、製造在內的七大主要行業,在AI應用實際上「慢半拍」。整體表現為,AI試點頻繁,但內部結構性變化微乎其微。在醫療和能源領域,大多數高管表示,未來5年內沒有裁員計畫,也未預見會裁員。這種審慎的態度並非失敗,而是一種智慧。這些暫未被顛覆的行業,正對AI的實施進行深思熟慮,而不是盲目衝入混亂的變革。科技和媒體行業之所以發展更快,是因為它們能承受更高的風險。超80%高管預計,公司將在24個月內縮減招聘規模。另一個需要注意的點是,企業AI預算中,有一半都砸在了銷售和行銷上。然而,真正賺錢的其實是,那些不起眼的後台自動化項目。比如,通過AI取代外包合同,企業每年能剩下200萬-1000萬美元的客服和文件處理成本,還能砍掉30%外包創意費用。更牛的是,這些收益沒靠裁員實現。AI工具提升了工作效率,但並未改變團隊結構、預算。AI革命正在成功,一次由一名員工推動MIT這份報告,並未證明AI的失敗,恰恰揭示了——AI的成功甚至已超出了企業的預期,員工早已走在了僱主的前面。技術本身沒有問題,問題出在企業的採購和管理方式上。那些能跨越GenAI鴻溝的公司,共同點是,加以利用能深度融合、不斷最佳化的工具。至於那95%沒搞成的企業AI試點,其實報告已經指出了一條明路:跟著90%已摸透AI門道的員工學習。Contextual AI創始人認為,GenAI項目失敗根本原因不在模型,而是上下文重要性被忽視一位製造業高管表示,「我們處理某些合同的速度是變快了,但僅此而已」。顯然,他未能看到全域。處理合同的速度加快,當這一改進乘以數百萬員工和成千上萬的日常任務時,不就是最後大爆發的生產力?總言之,AI革命沒有失敗,它正在每一次的ChatGPT對話中,悄然取得成功。上市公司暴省兆美元另一份來自摩根士丹利報告,也從側面印證了AI革命並未失敗的觀點。其中的一項分析稱,由AI帶來的顛覆性變革,或能為標普500公司每年節省9200億美元的成本——相當於總薪酬的41%,或2026年稅前利潤的28%。而這個過程,將通過削減薪酬開支(裁員、自然流失、自動化)來實現。報告的核心觀點如下:預計90%的工作崗位會受到AI自動化或功能增強的影響。AI智能體將重塑工作任務,而人形機器人將在物流、零售等領域直接替代人工。每年近兆的效益,最終有望轉化為13兆至16兆美元的市值增長,相當於其當前總市值的近1/4。AI已不再是一個投機概念,而是驅動未來十年企業盈利增長的核心引擎。首先,在AI的衝擊下,不同行業受到的影響程度也會有所不同。比如日常消費品的分銷與零售、房地產管理以及交通運輸業是受衝擊最大的幾個行業。其中,由AI驅動的潛在生產力提升,預計將超過2026年預測收益的100%。但對於半導體和硬體行業等,人力成本相對於其盈利而言佔比較低的行業,可挖掘的AI價值潛力則相對較低。其次,「完全自動化」與「任務級增強」之間,還是有區別的。簡單來說就是,軟體應用中的AI智能體的作用,更傾向於重新分配任務,而非徹底取消崗位。相比之下,以人形機器人形態出現的具身智能,則在物流和實體零售等行業構成了更直接的替代風險。報告同時預測,在崗位替代的趨勢下,全新的職位類別也將應運而生——從首席AI官(Chief AI Officer)到AI治理專家不一而足。這與早期技術顛覆浪潮中,市場對程式設計師、IT專家和數字行銷人員的需求激增如出一轍。最後,分析師還指出,AI的全面普及可能需要數年甚至數十年的時間。企業初期的重點將是依賴人員的自然流失和提升流程效率,而非立即進行大規模裁員,尤其是在那些由面向客戶的崗位驅動收入的行業。AI革命的浪潮已至,總的來說,無論是從麻省理工學院深入一線的微觀洞察,還是來自摩根士丹利高瞻遠矚的宏觀分析,都指向了一個共同的結論——AI革命的浪潮已至,學習並擁抱那些靈活、高效的AI工具,將會幫助你抓住這價值數兆美元的時代機遇。 (新智元)
帶崩美股AI的MIT報告說了啥?
昨晚美股近期指數層面的風平浪靜先是被Meta AI部門裁員重組的消息給打破,多家權威媒體報導,Meta 正把 Meta Superintelligence Labs(MSL) 拆分為 四個小組(含一個“TBD Lab”、產品線(如 Meta AI 助手)、基礎設施、以及長期研究的 FAIR),為 6 個月內第 4 次重組,官方定位是為 AGI/“超級智能” 提速。Llama 4 的“失準/延遲”早有徵兆,4 月發佈前後,多篇報導提到 推遲上線、在推理/數學與語音對話上不及頂尖閉源模型,並引發高層不滿。“刷分/造榜”並非空穴來風,但官方否認“訓練集洩漏”:社區與媒體質疑 Llama-4 Maverick-03-26-Experimental 這一非公開變體用於 LMSYS Chatbot Arena 榜單、與公開版本不一致,從而“美化”名次;LMSYS 其後補充透明度。Meta 高管公開否認“用測試集訓練/作弊”,稱差異主要來自實現穩定性與實驗性變體。所以,有“版本差異/資訊不透明”的合理質疑,但“訓練集刷榜”的直接證據不足。“轉向第三方模型”的傳聞,有報導(轉引自 NYT)稱高層討論過“降低 Llama 投入、改用他家閉源模型”。需視為正在評估的選項而非落地決策。所以,對於Llama 4來講,可能重組+口碑受挫是事實。緊跟著MIT一個研究部門MIT Media Lab發佈了一篇名為《The GenAI Divide: State of AI in Business 2025》的研究報告,報告指出:企業為“增長/收入加速”而做的 GenAI 試點中,95%的POC試點失敗了,只有大約 5% 快速轉化為可衡量的 P&L 貢獻,絕大多數停留在試點或產生的財務影響可以忽略。MIT 官方新聞頁也轉引了 Fortune 的報導以此為標題要點。一石激起千層浪!從行業的角度來說,2月份曾因為deepseek引發了對於巨額capex投入的擔憂,而在硬體集體火熱以後,MIT這份可能不算重磅的調研報告成為調整的一個導火索,如果企業推進AI項目如此艱難,95%的項目看不到成效,目前如此大力的投入,ROI怎麼辦,等到折舊攤銷上來,巨頭們的利潤率即使可以通過AI不斷提升,但是利潤壓力也會加大。MIT NANDA 的“95% 企業 GenAI 試點對 P&L 無顯著貢獻”結論,放大了市場對“巨額 AI 投入 → 財務回報穿透”的焦慮。Meta 個案成為這個敘事的催化劑,但“失敗主因在學習閉環與流程整合,不在模型本身”。我深入看了一下報告,簡單說說我的一些觀點:首先,“95% 失敗”不是模型差,是“學習缺口”,一般的AI系統不會記、不會學、難融入流程——能做 demo,卻進不了生產與財務報表(P&L)。其次,“買+夥伴”勝過“全自研”,外采定製且以業務結果為計量的方案,轉正率≈2×內部自建;DIY 往往卡在整合/治理/營運三道關。目前來說,ROI 真正的金礦在後台,雖然預算大多砸在銷營端,但BPO/外采替代、單據/工單自動化最容易在 3–6 個月穿透到 Opex,形成可複製回報。為什麼失敗率(≈95%)這麼高、怎樣把成功率做上去、以及技術關鍵難點與對策。為避免空泛,我儘量把洞見落到可操作的流程、指標、架構與清單上,並嚴格以文稿中的發現為錨點(如:僅≈5%試點落到生產、學習能力與工作流嵌入才是分水嶺、外部合作成功率約為內部自建的兩倍、兩個行業出現結構性擾動等)。“鴻溝”的根因不是模型好壞,而是“學習”與“嵌入”:大多數系統不會記憶與演進,與真實流程脫節,所以難以產生P&L 影響(文稿稱≈95%失敗)。消費級LLM(ChatGPT、Copilot)好用卻難托底核心流程:個人生產力提升明顯,但缺乏持久記憶與可定製,在關鍵任務上使用者仍傾向人工。組織與採辦方式決定成敗:外部合作(BUY)≈2×成功率於內部自建(BUILD);去中心化試點+明確責任優於“單一AI實驗室”。預算錯配:錢多投在前台(銷售/市場),但ROI 往往後勤/中台更高(如BPO替代、財務/法務自動化)。窗口期在收緊:企業將鎖定能“學”和“嵌入”的方案;Agentic(具記憶與自治的系統)+ NANDA/MCP/A2A 協議將是分水嶺後的基礎設施。目前的行業與場景優先順序如何?結構性擾動顯著:科技、媒體與電信,這些行業推進也是最快的。試點多但結構性變化低:專業服務、醫療與醫藥、消費零售、金融、先進製造等。極低/早期:能源與材料。高ROI 場景(被低估)後勤/中台:BPO替代(客服/文件處理)、合同/發票結構化、合規檢查、AP/AR對帳、主資料治理。前台但流程化:線索分流與資格校驗、售後工單歸因與閉環、催收/復聯自動化。為什麼失敗率這麼高?——七大“系統性斷裂”過度看重模型指標/炫技 demo,而非流程端到端KPI(周期、缺陷率、現金成本)。普遍實現了“用過”,卻沒實現“融入流程並持續改進”。AI CoE 與一線流程斷層;預算在總部,痛點在現場。誰對上線後的指標負責?誰對資料/合規兜底?把“高採用、低轉化”拆解為目標、組織、流程、資料、技術、治理、度量七條鏈路。目標口徑錯配:項目按“功能/體驗”立項,驗收卻按“營收/成本”口徑。PoC 時的“滿意度/召回率”無法穿透到節拍(Cycle)、吞吐(Throughput)、一次通過率與Opex/COGS。學習閉環缺位(報告核心):多數工具無持久記憶、無可追溯反饋回灌、無持續評測;上線後性能不隨使用而改進,自然“越用越雞肋”。流程未再造:把 LLM 貼到舊流程上,未重寫人機分工、SOP、質檢抽檢、SLA 與賠付;一上生產就脆。整合碎片:對接系統記錄源(ERP/CRM/ITSM/DMS)、權限與審計成本高;中台缺事件流/狀態儲存,使“記憶×流程”落不穩。評測與觀測缺位:沒有離線/線上雙評測,沒建“AI 可觀測性”(資料漂移、任務分佈、成本/延遲/質量三角);上線後無法診斷→改進。TCO 被低估:只算推理費,不算提示工程/快取/人審/事故處置/觀測等隱性成本;表面省、實則“毛省淨虧”。組織設計失衡:中央 AI Lab 抓權但離場景遠;一線“prosumers/直線經理”沒有預算與決策權——自下而上的成功樣本難複製。這份報告在三點上“打臉”了近期對軟體/AI落地的悲觀看法——買方市場裡,“BUY 勝過 BUILD”在樣本裡,外部合作到產出的成功率≈內部自建的2×;而整體上只有少數(≈5%)項目真正帶來可量化的 P&L 結果。成功關鍵不在“模型多強”,而在“能否學習+深度嵌入流程”會不斷“記憶—適配—進化”的系統,才跨過“GenAI鴻溝”。軟體的勝出方式變了不是通用“橫向SaaS”獲勝,而是“軟體 + 服務 + 學習SLA”的專業供應鏈佔優(更接近“託管流程服務”而非一次性工具)。也就是說:最專業的人做最專業的事,但企業仍需保留一條“輕量自建的骨架”,去治理、嵌入、與學習提速。不是把一切都外包掉,而是把模型/代理的“進化工程”交給供應商,企業自己抓流程、資料邊界、評測與治理。這份 MIT-NANDA 報告等於把“企業都能自己做 AI、SaaS 要被消滅”的看空敘事階段性證偽。資料清晰顯示——“買+夥伴”顯著優於“全自建(DIY)”,而失敗的主因不在“模型能力”,在於學習閉環與流程整合的缺失。這篇報告“打破”了什麼?1) 自研神話:報告與多家權威轉述一致:向專業供應商採購並建立合作的成功率≈67%,而內部自研的成功率只有其約三分之一。這對“企業普遍能把複雜 GenAI 做成規模化生產系統”的想像是當頭一棒。2) 價值落點:~5% 試點實現快速營收加速,絕大多數項目對 P&L 可測影響很小——“會做 demo ≠ 能過審計、能進報表”。預算分配明顯錯配:>50% 花在銷營,但ROI 最清晰的在後台自動化(替代 BPO/外部代理、精簡營運)。3) 真實用工衝擊:目前更多是外包/離岸崗位被替代,“不回填/不續約”多於大規模裁員——這也解釋了為何後台自動化先見財務穿透。4) 痛點不是模型而是“學習差”:企業失敗的根因在工具與組織都缺少“記憶→反饋→改進”的長期學習閉環,導致試點能跑,生產落地卡殼。對“軟體”的多空分野(戰略視角)把“軟體”拆成三層看,結論更清楚:A. 應用層(Workflow-native、SaaS/SwaS)——最大受益者。誰能把記憶/反饋閉環、深度整合(系統記錄源、佇列、權限、審計)與可計量產出(每單/每票/每小時)打包交付,誰就佔住價值窪地。商業模式遷移:從“按席位”→“按結果/票據/對帳量/SLA 賠付”的 SwaS(Software-with-Services)/BPO-替代,更容易穿透到 P&L。報告資料與媒體拆解對這一路線給出了強背書。B. 平台層(Agent/記憶層/治理層)——護城河來源是“流程可塑性+治理合規+維運可視化”,而不是“模型誰更大”。能把企業特定知識長期沉澱並自動評測/人審回灌的供應商,會形成留存與切換成本。這正是 DIY 最容易掉坑的地方。C. 通用模型/薄封裝 ——受壓最重。單純“把大模型接到舊流程上”的輕封裝,既不易算清 ROI,也很快被替換。除非掌握稀缺資料或合規資質,否則議價權弱。這不是“軟體要被 AI 殺死”,而是“沒有營運與學習工程的‘偽軟體’要被淘汰”。真正專業的流程軟體+服務提供商,在這輪企業 AI 浪潮裡更稀缺、更值錢。這份 MIT-NANDA 報告並非看空 AI,而是表明“沒有學習閉環與流程工程的偽落地”在企業業務流程層面,沒有任何意義;它看多“專業軟體與夥伴化交付”。站在企業與投資人一側,做多“Workflow-native 的軟體+服務”,遠勝於押注“大而全的內部自研”。為什麼這輪“買>造”成立?時間價值,報告中優秀買家從90天內拿到業務結果;自建往往拉長到季度/年,錯過窗口。整合深度,優勝供應商把CRM/ERP/ITSM等主系統上下文接進來,減少人工喂料與二次搬運。學習閉環,外采團隊已有反饋採集→線上評測→策略發佈的流水線,而很多企業內部還停留在“提示工程”。SLA 可經營,頂級供應商以任務完成率/干預率/工單時長/質量缺陷率對賭,和 P&L 直接掛鉤。信任與管道,買方更依賴既有夥伴、同業口碑與SI管道;這類“社會資本”是新創或內部團隊短期難複製的。但不是“凡事外包”——何時仍該自建?滿足下列兩條以上,自建或自建為主的混合才更合理:極高保密/合規資料嚴格在邊界內流轉(強監管、國密/等保、嚴苛多租戶隔離)。差異化流程是“護城河”業務規則/策略積累本身構成壁壘(金融風控、專有定價、核心調度)。極限約束毫秒級延遲、離線/邊緣算力、定製工具鏈,商用產品難以滿足。長期規模經濟穩定、超大體量且復用度高,能攤薄自建平台的固定成本。估計,接下來大多數企業會落在混合式:外采“學習型代理/工作流引擎”拿結果;企業自有“治理與記憶層”(身份/權限、策略、審計、觀測、評測與資料契約),把可遷移的“組織記憶”掌握在手。所以,這份研究的分水嶺很清晰:是否具備“學習+嵌入”的工程與組織能力。把AI當“會進化的流程服務”來設計、驗收與付費,從窄而關鍵的流程切入,用SLA與學習里程碑驅動產品進化,成功率才會上來。協議化(MCP/A2A/NANDA)與Agentic工作流,會把“影子AI”的個體技巧沉澱為企業的可控生產力。窗口正在變窄,90天拿到可復用的最小勝利,再複製到更多流程,是跨越“GenAI鴻溝”的最短路徑。 (貝葉斯之美)