昨晚美股近期指數層面的風平浪靜先是被Meta AI部門裁員重組的消息給打破,多家權威媒體報導,Meta 正把 Meta Superintelligence Labs(MSL) 拆分為 四個小組(含一個“TBD Lab”、產品線(如 Meta AI 助手)、基礎設施、以及長期研究的 FAIR),為 6 個月內第 4 次重組,官方定位是為 AGI/“超級智能” 提速。
Llama 4 的“失準/延遲”早有徵兆,4 月發佈前後,多篇報導提到 推遲上線、在推理/數學與語音對話上不及頂尖閉源模型,並引發高層不滿。“刷分/造榜”並非空穴來風,但官方否認“訓練集洩漏”:社區與媒體質疑 Llama-4 Maverick-03-26-Experimental 這一非公開變體用於 LMSYS Chatbot Arena 榜單、與公開版本不一致,從而“美化”名次;LMSYS 其後補充透明度。Meta 高管公開否認“用測試集訓練/作弊”,稱差異主要來自實現穩定性與實驗性變體。所以,有“版本差異/資訊不透明”的合理質疑,但“訓練集刷榜”的直接證據不足。
“轉向第三方模型”的傳聞,有報導(轉引自 NYT)稱高層討論過“降低 Llama 投入、改用他家閉源模型”。需視為正在評估的選項而非落地決策。所以,對於Llama 4來講,可能重組+口碑受挫是事實。
緊跟著MIT一個研究部門MIT Media Lab發佈了一篇名為《The GenAI Divide: State of AI in Business 2025》的研究報告,報告指出:企業為“增長/收入加速”而做的 GenAI 試點中,95%的POC試點失敗了,只有大約 5% 快速轉化為可衡量的 P&L 貢獻,絕大多數停留在試點或產生的財務影響可以忽略。MIT 官方新聞頁也轉引了 Fortune 的報導以此為標題要點。
從行業的角度來說,2月份曾因為deepseek引發了對於巨額capex投入的擔憂,而在硬體集體火熱以後,MIT這份可能不算重磅的調研報告成為調整的一個導火索,如果企業推進AI項目如此艱難,95%的項目看不到成效,目前如此大力的投入,ROI怎麼辦,等到折舊攤銷上來,巨頭們的利潤率即使可以通過AI不斷提升,但是利潤壓力也會加大。
MIT NANDA 的“95% 企業 GenAI 試點對 P&L 無顯著貢獻”結論,放大了市場對“巨額 AI 投入 → 財務回報穿透”的焦慮。Meta 個案成為這個敘事的催化劑,但“失敗主因在學習閉環與流程整合,不在模型本身”。
我深入看了一下報告,簡單說說我的一些觀點:
首先,“95% 失敗”不是模型差,是“學習缺口”,一般的AI系統不會記、不會學、難融入流程——能做 demo,卻進不了生產與財務報表(P&L)。
其次,“買+夥伴”勝過“全自研”,外采定製且以業務結果為計量的方案,轉正率≈2×內部自建;DIY 往往卡在整合/治理/營運三道關。
目前來說,ROI 真正的金礦在後台,雖然預算大多砸在銷營端,但BPO/外采替代、單據/工單自動化最容易在 3–6 個月穿透到 Opex,形成可複製回報。
為什麼失敗率(≈95%)這麼高、怎樣把成功率做上去、以及技術關鍵難點與對策。為避免空泛,我儘量把洞見落到可操作的流程、指標、架構與清單上,並嚴格以文稿中的發現為錨點(如:僅≈5%試點落到生產、學習能力與工作流嵌入才是分水嶺、外部合作成功率約為內部自建的兩倍、兩個行業出現結構性擾動等)。
高ROI 場景(被低估)
後勤/中台:BPO替代(客服/文件處理)、合同/發票結構化、合規檢查、AP/AR對帳、主資料治理。
過度看重模型指標/炫技 demo,而非流程端到端KPI(周期、缺陷率、現金成本)。普遍實現了“用過”,卻沒實現“融入流程並持續改進”。AI CoE 與一線流程斷層;預算在總部,痛點在現場。誰對上線後的指標負責?誰對資料/合規兜底?
把“高採用、低轉化”拆解為目標、組織、流程、資料、技術、治理、度量七條鏈路。
這份報告在三點上“打臉”了近期對軟體/AI落地的悲觀看法——
買方市場裡,“BUY 勝過 BUILD”
在樣本裡,外部合作到產出的成功率≈內部自建的2×;而整體上只有少數(≈5%)項目真正帶來可量化的 P&L 結果。
會不斷“記憶—適配—進化”的系統,才跨過“GenAI鴻溝”。
不是通用“橫向SaaS”獲勝,而是“軟體 + 服務 + 學習SLA”的專業供應鏈佔優(更接近“託管流程服務”而非一次性工具)。
也就是說:最專業的人做最專業的事,但企業仍需保留一條“輕量自建的骨架”,去治理、嵌入、與學習提速。不是把一切都外包掉,而是把模型/代理的“進化工程”交給供應商,企業自己抓流程、資料邊界、評測與治理。
這份 MIT-NANDA 報告等於把“企業都能自己做 AI、SaaS 要被消滅”的看空敘事階段性證偽。資料清晰顯示——“買+夥伴”顯著優於“全自建(DIY)”,而失敗的主因不在“模型能力”,在於學習閉環與流程整合的缺失。
1) 自研神話:
報告與多家權威轉述一致:向專業供應商採購並建立合作的成功率≈67%,而內部自研的成功率只有其約三分之一。這對“企業普遍能把複雜 GenAI 做成規模化生產系統”的想像是當頭一棒。
2) 價值落點:
~5% 試點實現快速營收加速,絕大多數項目對 P&L 可測影響很小——“會做 demo ≠ 能過審計、能進報表”。預算分配明顯錯配:>50% 花在銷營,但ROI 最清晰的在後台自動化(替代 BPO/外部代理、精簡營運)。
3) 真實用工衝擊:
目前更多是外包/離岸崗位被替代,“不回填/不續約”多於大規模裁員——這也解釋了為何後台自動化先見財務穿透。
4) 痛點不是模型而是“學習差”:
企業失敗的根因在工具與組織都缺少“記憶→反饋→改進”的長期學習閉環,導致試點能跑,生產落地卡殼。
把“軟體”拆成三層看,結論更清楚:
A. 應用層(Workflow-native、SaaS/SwaS)——
B. 平台層(Agent/記憶層/治理層)——
護城河來源是“流程可塑性+治理合規+維運可視化”,而不是“模型誰更大”。能把企業特定知識長期沉澱並自動評測/人審回灌的供應商,會形成留存與切換成本。這正是 DIY 最容易掉坑的地方。
C. 通用模型/薄封裝 ——
受壓最重。單純“把大模型接到舊流程上”的輕封裝,既不易算清 ROI,也很快被替換。除非掌握稀缺資料或合規資質,否則議價權弱。
這不是“軟體要被 AI 殺死”,而是“沒有營運與學習工程的‘偽軟體’要被淘汰”。真正專業的流程軟體+服務提供商,在這輪企業 AI 浪潮裡更稀缺、更值錢。
這份 MIT-NANDA 報告並非看空 AI,而是表明“沒有學習閉環與流程工程的偽落地”在企業業務流程層面,沒有任何意義;它看多“專業軟體與夥伴化交付”。站在企業與投資人一側,做多“Workflow-native 的軟體+服務”,遠勝於押注“大而全的內部自研”。
時間價值,報告中優秀買家從90天內拿到業務結果;自建往往拉長到季度/年,錯過窗口。整合深度,優勝供應商把CRM/ERP/ITSM等主系統上下文接進來,減少人工喂料與二次搬運。
學習閉環,外采團隊已有反饋採集→線上評測→策略發佈的流水線,而很多企業內部還停留在“提示工程”。SLA 可經營,頂級供應商以任務完成率/干預率/工單時長/質量缺陷率對賭,和 P&L 直接掛鉤。信任與管道,買方更依賴既有夥伴、同業口碑與SI管道;這類“社會資本”是新創或內部團隊短期難複製的。
滿足下列兩條以上,自建或自建為主的混合才更合理:
資料嚴格在邊界內流轉(強監管、國密/等保、嚴苛多租戶隔離)。
業務規則/策略積累本身構成壁壘(金融風控、專有定價、核心調度)。
毫秒級延遲、離線/邊緣算力、定製工具鏈,商用產品難以滿足。
穩定、超大體量且復用度高,能攤薄自建平台的固定成本。
估計,接下來大多數企業會落在混合式:
(身份/權限、策略、審計、觀測、評測與資料契約),把可遷移的“組織記憶”掌握在手。
所以,這份研究的分水嶺很清晰:是否具備“學習+嵌入”的工程與組織能力。把AI當“會進化的流程服務”來設計、驗收與付費,從窄而關鍵的流程切入,用SLA與學習里程碑驅動產品進化,成功率才會上來。
協議化(MCP/A2A/NANDA)與Agentic工作流,會把“影子AI”的個體技巧沉澱為企業的可控生產力。窗口正在變窄,90天拿到可復用的最小勝利,再複製到更多流程,是跨越“GenAI鴻溝”的最短路徑。 (貝葉斯之美)