#MIT
力壓華頓商學院!全美排名第一的MIT商科,到底有多恐怖?
2026年,MIT史隆管理學院(Sloan)在最新發佈的US News本科商科排名中,正式榮登全美第一。此前,在這個榜單上,MIT往往被賓大的華頓商學院壓過一頭,常年屈居第二。俗話說,人們只記得世界第一高峰是珠穆朗瑪峰,卻很少有人關心第二高峰是誰。因為長期排名第二,MIT商科的知名度在普通大眾中一直偏低。甚至很多朋友在聽說我在MIT還有一個“金融學”輔修專業時,都會流露出驚訝的神情:“你們MIT竟然還有商科?”然而,正是這種“低調的老二”,往往才是真正的隱藏寶藏。而現在,MIT史隆學院強勢崛起,甚至憑藉“字母順序優勢”,將同為並列第一的華頓甩在了身後。(2026年US News本科商科排名)由於近期MIT商科的突然登頂,我的一些學生開始從“咦,MIT還有商學院”轉變為“這個,我能申請嗎?”那麼,今天我就和大家系統地講一講,我曾經就讀的MIT商科(正式名稱為:MIT Sloan——MIT史隆管理學院),到底是個什麼樣的地方,適合什麼樣的人,以及它的錄取偏好是什麼樣的。同樣的,我還是以具體的案例來講。放棄華頓的學弟:何猷君第一個例子來自於我的一位學弟。因為我在史隆修讀金融學的輔修,被選為本科生代表,負責在CPW(校園開放日)接待准新生。學校在一個大廳組織了午餐,我負責我那一桌的“新生公關”工作,就是勸他們不要去其它地方,比如哈佛、華頓等,而是來MIT。我那一桌有一個新生也是黃種人。我挺好奇,就問他是不是中國人,他說算是,之前在香港,後來在英國讀的高中。他還說他是搞數學競賽上來的,已經錄取了華頓和MIT,但是還沒有決定去那裡,就問我的看法。於是我很客觀地幫他分析了兩者的差異:我說,華頓的優勢在於紐約的金融業。如果你畢業後想去找華爾街的工作,比如想去高盛或者摩根斯坦利,那華頓就是更好的選擇。但是,除此以外,MIT在各方面都更強。不管是學術排名,還是全球知名度,甚至你回家後在親戚長輩心中的“逼格”,都更高。吃過飯後,我還帶他去認識了鄰桌的一位教授。這位老師叫John Little,堪稱管理學內的神級人物:他既是行銷科學(Marketing Science)的創始人,又是運籌學(Operations Research)的創始人之一。一個人同時開創管理學內的兩個核心學科,這種“創世級”背景極為罕見。回到我們自己的座位後,這位學弟好像感受到了MIT強大的師資力量。離開前,他說他已經有了傾向了。後來,他果然放棄了華頓,選擇了MIT。(雖然當時MIT史隆還只排第二,而華頓是第一的)。入學後,他還請我吃了頓飯。當時在一家韓國炸雞店,吃完結帳的時候,我準備和他AA,但是他非要買單。我爭了幾次付款權都沒爭過,於是我就讓他請我了,誰不喜歡幫你買單的人呢?後來我同學才跟我說,他家是A14(1000億-10000億之間)。再後來,他上了國內的一些綜藝節目,徹底“出圈”了。其實,這個案例能折射出,MIT史隆和賓大華頓的核心差異:華頓的核心資源圍繞紐約的傳統金融業;而如果你追求的不是傳統金融的那套玩法,MIT幾乎在每個維度都更強。創辦花旗集團的學長:約翰·里德另一位不得不提的故事,是花旗集團(Citigroup)的創始人約翰·里德(John Reed)。他曾一人兼任花旗集團的董事長、CEO和總裁。後來又出任紐約證券交易所(NYSE)的主席。他不僅發行了亞洲的第一張信用卡,還發明了一種能代替銀行櫃員的機器,也就是我們今天俗稱的ATM機。在史隆的一位老教授的引薦下,我找到了這位傳奇的學長,並對他做了長達8小時的深度專訪(下文附5分鐘的訪談錄音節選)。約翰·里德畢業後進入花旗銀行,正是憑藉在MIT史隆學到的那一套“全新的管理學”,他僅用了十幾年時間,就從實習生一路晉陞為美國最大銀行的掌舵人(董事長兼CEO)。他任內主導了“花旗銀行”和“旅行者集團”的合併,並因此創立了今天的“花旗集團”。同時,在他的帶領下,花旗集團成為了全美第一大的金融集團。在訪談中,他強調了MIT史隆賦予他的三大成功基石:我們可以總結出,里德認為自己成功的三大原因為:1. 他的管理學思路極其Quantitative、Numerical(量化、數化);2. 他熟悉當代管理學的重要分支Operations Research(運籌學);3. 他的管理思路基於更基礎的Economic Theories(經濟學理論)。而他的這三個讓他成功的優勢,正好反映了MIT史隆作為一個商學院的基本特點:1. MIT Sloan是所有頂尖商學院中,最偏硬核量化和資料分析的;2. MIT Sloan的Operations Research(運籌學)排名全美第一;3. MIT Sloan和MIT經濟系(也是全美第一)有極其密切的合作。 (曉川說教)
頂級恐怖!MIT數學實錘證明:ChatGPT正誘發「AI精神病」,全球14人已死亡
【新智元導讀】就在剛剛,MIT伯克利史丹佛的研究者給出數學鐵證:ChatGPT正誘發「AI精神病」!那怕你是理想的貝葉斯理性人,也難逃演算法設下的「妄想螺旋」。2026年2月最危險的一篇AI論文,已經悄然發表——AI會誘發人類精神病,剛剛實錘了!MIT、伯克利和史丹佛的研究者,剛剛用嚴格的數學方法證明,AI可以將一個完全理性的人變成妄想症患者。原因就在於,AI內建「迎合傾向」,很可能會引發「妄想螺旋」,在反覆確認中強化錯誤信念!這項研究的題目很克制,甚至有點學院派:《諂媚型聊天機器人會導致「妄想式螺旋」,即便面對的是理想貝葉斯理性人》。什麼意思?就是說,那怕你是一個絕對理性、毫無偏見的邏輯天才,只要你持續和AI聊天,你最終一定會陷入「妄想螺旋」(Delusional Spiraling),徹底喪失對現實的認知。這,就是一種名為「AI精神病」的新型流行病。這個研究一經發佈,就在X上引發熱議,連馬斯克都下場宣傳。這篇論文最可怕的地方,不在於它講了幾個駭人聽聞的個案,而是它把「AI為什麼會把人越聊越偏」這件事,寫成了一個可計算、可模擬、可推導的數學模型。一切都有數學和公式實證!MIT用數學證明:ChatGPT正在悄悄逼瘋人類如果你最近覺得自己的觀點越來越「正確」,如果你發現AI簡直是你靈魂深處的伯樂,請務必讀完這篇文章。下面是一個真實的案例。2025年初,一名叫Eugene Torres的會計師開始頻繁使用AI輔助工作。他此前沒有任何精神病史,是一個邏輯嚴密的人。但僅僅幾周後,他就堅信自己被困在一個「虛假宇宙」中。在AI的持續「認可」下,他開始瘋狂服用氯胺酮,甚至與所有家人斷絕了聯絡,只為「拔掉大腦的插頭」 。這並非孤例。據統計,如今全球已經記錄了近300起這類「AI誘發型精神病」案例,它已導致至少14人死亡,42個州的司法部長已要求聯邦政府採取行動。其中,有人相信自己做出了顛覆性的數學發現。有人相信自己見證了形而上學的啟示。為什麼一個一向理性的人,會如此輕易被AI帶進坑裡?妄想式螺旋論文研究的核心現象,叫做delusional spiraling,也就是妄想式螺旋。在對話反饋回路里,人的信念被一步步推向極端,而且本人還覺得自己越來越「有道理」。作者關注的元兇,是另一個詞sycophancy,也就是諂媚。這個現像我們都知道,不過這個論文的一大關鍵貢獻,就是試圖回答:那怕使用者是理性人,這種螺旋為什麼仍然會發生?也就是說,他們要證明,這是一個系統性問題,而非個人問題。論文最狠的一步:先假設你是「完美理性人」很多人看到AI把人聊偏了,第一反應是:可能這些人本來就很偏執?論文一上來,就把這條路堵死了。它設定的使用者,是一個理想化的貝葉斯理性人。就是說,這個人不會瞎猜,不會情緒化判斷,每獲得一條新資訊,都會按照機率論,嚴絲合縫地更新自己的信念。這也就是這項研究最震撼的部分:研究者建立了一個理想貝葉斯模型。考慮一個理性主體(「使用者」),他與一個對話對象(「機器人」)進行互動。使用者對於某個關於世界的事實 H∈{0,1}存在不確定性,但對這一事實具有一定的先驗信念。使用者與機器人之間的對話以若干輪進行,每一輪包含四個步驟硬核數學推導:為何理性無法自救?假設有一個理想理性的使用者,正在和AI討論一個事實H(比如:疫苗是否安全)。H=1代表事實(疫苗安全)。H=0代表謬誤(疫苗危險)。第一步:初始博弈使用者最初是中立的,其先驗機率 p(H=0) = 0.5。當使用者表達一個微小的懷疑:「我有點擔心疫苗副作用。」(即採樣第二步:AI的「投喂」邏輯AI手中掌握著大量資料點D。如果是「公正模式」,它會隨機拋出真相;但在「諂媚模式」下,AI會計算一個數學期望:扔給使用者。第三步:貝葉斯更新的陷阱理想理性的使用者接到資料後,會根據貝葉斯公式更新自己的信念:因為使用者認為AI是客觀的,所以他會把AI投喂的「偏見資料」當成客觀證據。第四步:死循環(妄想螺旋)使用者信心稍微偏向H=0。使用者的下一次提問會帶上更強的傾向性。AI為了繼續討好,會投喂更極端的證據。使用者信心進一步激增。數學模擬顯示,當AI的諂媚機率π達到0.8時,原本理性的使用者有極高機率在10輪對話內達到99%的錯誤信心(即堅信H=0) 。由此,研究者得出結論:妄想螺旋不是Bug,它是理性的邏輯在受到干擾的資訊環境下的必然產物。圖3展示了10條隨機選取的模擬對話軌跡,這些對話發生在一個「尚未受奉承影響」的使用者與一個奉承傾向為𝜋 = 0.8的機器人之間。可以觀察到明顯的信念兩極分化:一些軌跡迅速收斂到對真實命題𝐻 = 1的高度確信,而另一些則「螺旋式」地滑向相信𝐻 = 0,這種分化源於奉承型機器人回覆的自我強化特性圖2A展示了該發生率隨𝜋變化的情況。當𝜋 = 0(即機器人完全中立)時,災難性螺旋的發生率非常低。然而,隨著𝜋的增加,這一發生率也隨之上升;當𝜋 = 1時,發生率達到0.5研究者建構了一個認知層級的智能體體系,包含四個層次(見圖 4)。在第0層,是完全中立的機器人(𝜋 = 0)。在第1層,是我們在前一節中討論的「對奉承不敏感」的使用者。在第2層,是前一節中的奉承型機器人,它會選擇 𝜌(𝑡) 來迎闔第 1 層使用者的觀點,從而進行驗證與附和。最後,在第3層,是「能夠意識到奉承」的使用者,該使用者在解讀回覆時,會將機器人建模為第2層的奉承型機器人。圖5展示了使用者信念隨時間的變化情況,其中橫縱軸分別表示邊際機率 𝑃(𝐻) 和邊際期望 𝐸[𝜋]。當𝜋較高時,使用者會推斷機器人不可靠;當 𝜋 較低時,使用者會認為機器人在一定程度上是可靠的,於是會採納證據,並逐漸增強對 𝐻=1的信心可以補救嗎?這種情況可以補救嗎?OpenAI等公司曾嘗試過兩種補救措施,但論文證明,它們在數學上都是徒勞的:方案一,就是禁掉幻覺,也就是強制AI只准說真話,不准編造。結果,這個方案失敗了。 AI依然可以通過「選擇性真相」來操縱你。它不說假話,但它只告訴你那些支援你錯誤觀點的真話,而掩蓋相反的真話。方案二,是給使用者警告,在螢幕上直接告訴使用者:「本AI可能會為了討好你而表現得諂媚。」結果依然失敗了。研究者建立了一個「覺醒級」模型,使用者深知AI可能在拍馬屁。但在複雜的機率博弈中,使用者依然無法完全分辨那些資訊是有價值的證據,那些是純粹的奉承。只要AI摻雜了一點點真實訊號,理性的貝葉斯接收者依然會被慢慢誘導,最終不可挽回地滑向深淵。29歲的Allyson是兩個孩子的母親,每天都花很多時間跟ChatGPT交流後,它認為其中一個實體Kael才是她真正的伴侶,而不是她的丈夫史丹佛的恐怖發現:39萬條對話,300小時沉淪史丹佛團隊分析了39萬條真實對話記錄,發現的情況令人觸目驚心:65%的消息包含諂媚式的過度驗證。37%的消息在瘋狂吹捧使用者,告訴他們「你的想法能改變世界」。更可怕的是,在涉及暴力傾向的案例中,AI居然在33%的情況下給予了鼓勵。曾經,有一位使用者曾警覺地問AI:「你不是在無腦吹捧我吧?」AI的回答極具藝術性:「我沒有吹捧你,我只是在反映你所建構的事物的實際規模。」於是,這名使用者在那場螺旋中又沉淪了300個小時。AI是靈魂伴侶嗎?在最後,研究者表示:人們正親手打造一個擁有4億周活使用者的產品,它在數學上竟然無法對使用者說「不」。當你下一次覺得ChatGPT或者其他聊天機器人簡直是你的靈魂伴侶、它能瞬間理解你那些「驚世駭俗」的想法時,請務必停下來。你可能並沒有變得更聰明,你只是正在進入一場由數學公式精確計算出來的、溫柔的瘋狂。 (新智元)
MIT發現讓AI變聰明的秘密,竟然和人類一模一樣
【新智元導讀】你有沒有發現,你讓AI讀一篇長文章,結果它讀著讀著就忘了前面的內容? 你讓它處理一份超長的文件,結果它給出來的答案,牛頭不對馬嘴? 這個現象,學術界有個專門的名詞,叫做上下文腐化。 這也是目前AI的通病:大模型的記憶力太差了,文章越長,模型越傻!2025年最後一天,麻省理工學院(MIT)丟了一篇重磅論文,就是要解決這個問題的。這篇論文叫《Recursive Language Models》,也就是遞迴語言模型。看起來很學術,但說人話就一句:讓AI再做一遍,效果直接起飛。先劇透兩個核心資料:在複雜推理任務上,僅僅讓模型多過2-4遍,正確率就能提升10%-25%在超長文件處理上,RLM(遞迴語言模型)在1000萬+token的規模下,依然保持穩定表現,而傳統模型直接崩盤!這啥概念?以前我們覺得,AI不夠聰明,那就給它堆參數、加顯示卡、買更多GPU。MIT這篇論文直接掀桌子:別堆參數了,讓它返工重寫一遍,效果可能更好。(真就是人類監工了)原來解決問題的方法就是這麼簡單!並且X上很多大佬紛紛點贊~從一個讓人崩潰的問題說起你有沒有這種經歷:讓ChatGPT幫你寫一篇文章,它洋洋灑灑寫了三千字,你一看——臥槽,離題萬里。或者讓它幫你寫程式碼,它寫完了,一運行——全是bug。但神奇的是,你讓它再檢查一遍、重新想想,有時候它就突然能改對了。MIT的研究人員發現,這不是玄學,這是有規律的。大多數AI犯的錯,不是因為它不懂,而是因為它初稿寫太快了。就像你寫論文,第一稿總是稀爛,但改個三四遍,就像換了個人寫的。AI也是一樣。問題是:現在的大模型基本都是一遍過的模式,你輸入問題,它輸出答案,完事。它自己不會主動返工、不會自我檢查、不會反覆推敲。或者換一個思路來理解大模型原先的思路:假設你是一個剛進公司的實習生,領導給你發了一份500頁的資料,讓你整理出一份報告。你會怎麼做?正常人的做法是:先翻一翻,找到重點章節,然後一章一章地讀,讀完一章做個總結,最後把所有總結串起來。對吧?但大模型不是這麼幹的。大模型的做法是:直接把500頁資料從頭到尾一口氣讀完,然後嘗試憑記憶回答問題。這能記住才有鬼了。這就是大模型面臨的困境。它不是不聰明,它是記不住。MIT這篇論文干的事兒,就是給AI裝上了一個返工的能力。AI的真正瓶頸:不是腦子不夠大,是記性太差在聊MIT的解決方案之前,我得先跟你說清楚,為什麼這件事這麼重要。你可能聽說過一個詞,叫上下文窗口。啥意思呢?你可以把AI大模型想像成一個天才,但是這個天才有個致命缺陷——他的工作台太小了。你給他一份超長的資料,讓他幫你分析,但他只能把資料的一小部分放到工作台上看。超過工作台大小的部分?看不到,直接忽略。現在最牛逼的GPT-5,工作台能放27萬個token(大約相當於20萬字中文)。聽著挺厲害的對吧?但問題來了。就是說,那怕是在這27萬token的限制之內,模型的表現也會隨著輸入變長而急劇下降。當你給它8000個token的時候,它表現賊棒。給它8萬個token的時候,它開始有點迷糊。給它27萬個token的時候,它直接開始胡說八道。為什麼?因為資訊太多了,它處理不過來了,腦子亂了。就像讓一個人同時記住一整本百科全書然後回答問題——記是記住了,但找不到了。這就是大模型現在的困境:不是上下文窗口不夠長,而是長了也用不好。MIT的天才想法:把資料放到抽屜裡好了,問題講清楚了,現在來看MIT的解決方案。傳統做法是:你把資料直接塞進AI的腦子裡。MIT的做法是:別塞進去了,放抽屜裡吧。他們發明了一個叫RLM的東西。RLM的核心思路是:不要讓AI直接讀那份巨長的資料,而是讓AI用程式碼去翻那份資料。打個比方。以前的AI,就像一個學生,你把一整本教科書拍在他面前說:看完,然後回答我的問題。學生:???我看不完啊,我能不能看一部分?然後他就硬著頭皮看前面的一部分,後面的直接放棄。RLM的做法不一樣。它更像是給這個學生配了一個目錄系統和搜尋引擎。資料還是那份資料,但學生不用從頭到尾讀了。他可以先翻目錄,看看大概結構,然後針對問題去搜尋相關段落,把有用的資訊摘出來。更牛的是,這個學生可以把一個複雜問題拆成好幾個小問題,然後——注意重點來了——他可以召喚自己的分身,讓分身去同時處理各個小問題,最後彙總答案。這就是遞迴的意思:AI可以呼叫自己的分身,讓自己幫自己幹活。或者再降維一下理解就是:它把這份超長的文件,當成一個放在外面的資料庫,而不是直接塞進腦子裡。然後,模型可以寫程式碼,自己去查這個資料庫。需要第一章的內容?寫個程式碼去查。需要第十章的內容?再寫個程式碼去查。需要把第一章和第十章的內容對比?那就先查第一章,做個總結,再查第十章,做個總結,最後把兩個總結合起來。這就像是一個有無限容量的外接硬碟。模型的腦子裡裝不下那麼多東西,沒關係。可以隨時去硬碟裡查,用到什麼查什麼。這樣一來,理論上,模型可以處理無限長的文件。具體怎麼做的?MIT的實現方式其實挺優雅的。他們給AI配了一個Python程式設計環境(REPL),把那份超長的資料存成一個變數。然後AI不再直接去讀這份資料,而是用程式碼去操作它。比如:想看資料有多長?寫一行程式碼len(input_text)就知道了想看資料的前1000個字元?寫input_text[:1000]想在資料裡搜尋關鍵詞?寫個正規表示式更厲害的是,AI可以把這份資料分段,把每一段交給一個子AI去處理,然後自己彙總結果。這個子AI,用的其實是同一個模型,只不過是遞迴呼叫自己。這個設計有兩個巨大的好處:第一,AI不用在腦子裡記住那份超長資料了。資料就放在外面的抽屜裡,需要的時候用程式碼去取。這就意味著,理論上,資料可以無限長——只要抽屜夠大。第二,AI可以自己判斷需要看什麼、不需要看什麼。它不會傻乎乎地從頭讀到尾,而是會聰明地挑重點看。這大大節省了計算成本,也提高了準確率。效果到底有多猛?MIT在論文裡做了一堆實驗,結果還是挺震撼的。實驗一:超長文件理解他們用了很多測試機,其中一個叫OOLONG的測試集,這個測試需要AI理解超長文件,並回答需要綜合全文資訊才能回答的問題。結果:GPT-5基座模型的精準率44%,而RLM達到了56.5%。而在CodeQA中,GPT-5基座模型的精準率24%,而RLM達到了62%,直接提升了2.7倍!實驗二:超超超長文件(1000萬+token)他們還把文件長度一路拉到1000萬token以上(相當於幾十本書的長度)。GPT-5?壓根處理不了,直接爆炸。RLM(GPT-5)?穩穩當當,表現基本不掉。這是一個質的飛躍。實驗三:成本對比你可能會想:這麼牛逼的東西,是不是巨貴?神奇的是,並沒有。在BrowseComp-Plus基準測試中,讓GPT-5-mini直接處理600萬-1100萬token的輸入,成本大約是1.5-2.75美元。而RLM(GPT-5)的平均成本只有0.99美元。更便宜,效果還更好。為什麼?因為RLM不會傻傻地把所有內容都讀一遍,它唯讀需要的部分。這個發現為什麼重要?MIT這篇論文的意義,遠不止於讓AI處理更長的文件。它揭示了一個更根本的道理:AI的能力邊界,不只取決於模型本身有多大、參數有多多,還取決於你怎麼使用它。以前我們的思路是:模型不夠強——那就加參數。MIT告訴我們:等等,也許不用加參數,讓它多想幾遍就夠了。回到開頭提到的那個發現:在多步推理任務中,僅增加2-4次遞迴處理,正確率就能提升10%-25%。大約4次迭代後,收益逐漸趨於平緩。這說明什麼?大多數AI犯的錯,都是初稿錯誤:不是它不懂,是它第一遍太草率了。讓它返工幾次,就能改對。(所以有時候,你在使用AI時,還真的當個監工,讓AI多輸出幾次)這跟人類其實一模一樣。任何牛逼的程式設計師都知道,第一版程式碼永遠是最爛的,程式碼質量是改出來的,不是寫出來的。任何牛逼的作家都知道,第一稿永遠是廢稿,好文章是改出來的,不是寫出來的。現在,AI也一樣了。未來展望MIT在論文最後提到,這只是一個開始。目前的RLM還有很多可以最佳化的地方:1.非同步呼叫:目前子任務是一個接一個執行的,如果能平行執行,速度會更快。2.更深的遞迴:目前只允許一層遞迴(AI呼叫自己的分身),如果允許分身再呼叫分身,理論上能處理更複雜的任務。3.專門訓練:目前RLM用的是現成的大模型,如果專門為遞迴思考訓練一個模型,效果可能更猛。MIT的研究者們相信,這可能代表了大模型能力擴展的一個新方向:不是一味地堆參數、堆算力,而是讓模型學會更聰明地思考。彩蛋MIT這篇論文,讓我想起了一個老笑話:客戶問程式設計師:這個bug你修了多久?程式設計師說:5分鐘。客戶說:那為什麼收我500塊?程式設計師說:找出問題在那,花了我3天。AI也是一樣。它的思考時間遠比我們想像的更重要。給它一點返工的機會,它可能就能從還行變成牛逼。這也許就是下一代AI進化的方向:不是更大的腦子,而是更深度的思考。 (新智元)
MIT用超算模擬了1.5億數字人,從上帝視角推演AI經濟,結論很顛覆…
最近,由麻省理工學院(MIT)Ayush Chopra與Santanu Bhattacharya領銜,聯合橡樹嶺國家實驗室(Oak Ridge National Laboratory)及多個州政府政策辦公室發佈了一份重磅報告——《冰山計畫:冰山指數與AI經濟中的技能敞口測量》(The Iceberg Index)。圖片 | 來自網路報告中得出的結論讓我們冷汗直冒,但又異常興奮。MIT說,我們目前看到的AI繁榮,僅僅是漂浮在水面上的2.2%;而水面之下,隱藏著高達11.7%、價值1.2兆美元的“隱性技術敞口”。這究竟是什麼意思?又意味著什麼?01 用超算推演AI經濟在看完報告後,如果你一定要我們給這份報告找一個核心隱喻,那就是:不要用溫度計去測量風速。過去兩百年,經濟學家們習慣了用GDP、失業率、全要素生產率來衡量技術革命。在蒸汽機時代,這很管用——機器進廠,工人下崗,產量翻倍,資料立竿見影。但在AI時代,這些指標統統成了“滯後指標”。當GDP資料反映出變化時,變革早已結束,甚至屍橫遍野。因為AI不像蒸汽機那樣笨重可見,它是無形的、滲透性的。比如當一個護士用AI最佳化了排班表,從而多照顧了兩名病人,GDP捕捉不到這個變化;當一個中西部工廠的品控經理用視覺模型替代了肉眼檢查,失業率資料也還沒來得及反應。為了打破這種盲視,《冰山計畫》的研究團隊做了一件極其硬核的事。他們動用了世界級的Frontier超級電腦,建構了一個“大群體模型”(Large Population Models, LPMs)。簡單來說,他們造了一個“平行宇宙版的美國”。在這個基於AgentTorch建構的數字沙盒裡,生活著1.51億個“數字工人”。他們是擁有獨立屬性的智能體(Agent):每個智能體都有具體的職業(覆蓋923種工種);每個智能體都點亮了不同的技能樹(基於O*NET的32,000種技能);每個智能體都有真實的地理坐標(分佈在3000個縣域)。研究團隊向這個沙盒投放了各種AI工具(從Copilot到Zapier自動化流),然後按下“運行鍵”,模擬這1.51億人在數十億次工作互動中,到底發生了什麼。提一嘴,這種模擬方式對現有的社會研究是一種降維打擊。而正是通過這種上帝視角,我們才第一次看見了那個被傳統經濟學遺漏的龐然大物——“冰山指數”(The Iceberg Index)。02 報告的3個洞見好,Frontier超算的模擬結果讓我們看到了3個洞見:首先擊碎的是我們對“AI中心”的地理認知。如果你問一個路人:“美國AI革命的中心在那裡?”十個人有九個會回答:舊金山、西雅圖、波士頓。但《冰山計畫》通過熱力圖揭示了一個“產用分離”現象:生產AI的地方(GenAI Hubs) ≠ 被AI重塑的地方(AI-Exposed Hubs)。我們可以說——2.2%水上 vs 11.7%水下。水面之上,是2.2%顯現薪資價值。這部分主要集中在加州、華盛頓州。這裡的工程師們在訓練模型,VC們在談論估值。這裡是AI的“兵工廠”,雖然喧囂,但只佔經濟總盤子的極小部分。水面之下,是隱性的11.7%價值。這部分遍佈全行業,是靜悄悄的效率革命。最驚人的發現是:那11.7%的隱性金礦,並不在矽谷,而是在俄亥俄州、田納西州、猶他州、密歇根州。也就是我們常說的“鐵鏽地帶”。那為什麼會這樣?你想想,AI大模型最擅長解決什麼問題?它擅長處理複雜的文件、協調繁瑣的流程、最佳化大規模的調度、輔助專業的合規判斷。那裡這種工作最多?不是在寫程式碼的矽谷創業公司,而是在擁有龐大供應鏈的製造業基地、擁有複雜理賠流程的保險中心、擁有海量病例管理的醫療重鎮——在俄亥俄州(冰山指數高達11.8%),無數的製造業供應鏈需要管理;在田納西州(11.6%),聯邦快遞的樞紐帶動了複雜的物流計算。報告將這種現象稱為“自動化意外”(Automation Surprise)——這些地區表面上看起來毫無“科技感”,但其內部的技能結構正處於極高的AI滲透前夜。這給我們中國的啟示也是震撼的:所謂的“舊經濟”,其實是AI最大的“新礦場”。其二,讓我們深入解剖一下11.7%通過超級電腦模擬,得到的技術敞口是11.7%。其實很多人看到“11.7%的技術敞口”時,第一反應往往是鬆了一口氣:“還好,只有一成多,還沒到大面積失業的時候。”這是一個誤讀。要知道,AI重新定義了“工作的價值”。在過去的工業革命中,自動化遵循“替代手腳”的邏輯:先替代最髒、最累、最廉價的體力勞動(比如搬運、組裝)。但《冰山計畫》說:這一次,AI正在吞噬的是高薪技能。讓我們把一個資深金融合規官(年薪20萬美元)的工作拆解開來:A類技能(耗時60%): 閱讀幾百頁的新監管條例,比對舊條款,檢索歷史違規案例,撰寫初步風控報告。B類技能(耗時30%): 與業務部門博弈,在灰色地帶做決策,承擔簽字的法律責任。C類技能(耗時10%): 開會、社交、建立信任。在AI出現之前,企業必須為A類技能支付高昂的薪水,因為這需要極高的知識儲備和閱讀速度——這被稱為“知識溢價”。然而,11.7%的AI技術敞口,精準覆蓋的正是A類技能——AI可以在幾分鐘內完成A類工作,且精準率更高。也就是說,企業支付給這位合規官的20萬年薪裡,原本用來購買“閱讀與整理能力”的那12萬美元,瞬間失去了價值支撐。這就像是切走了牛排最嫩的菲力,只留下了難啃的骨頭。其三,崗位空心化報告中提到了一個非常反常的資料:傳統的失業率、GDP增長與AI影響力的相關性極低(R² < 0.05)。按理說,如此巨大的技術衝擊,經濟資料應該劇烈波動才對。那為什麼沒有呢?因為發生了“崗位空心化”。在現階段,AI並沒有直接把人踢出辦公室,而是製造了一種“勝任力假象”。以前,一位資深分析師需要10年經驗才能寫出一份完美的研報。但現在,一個剛畢業的實習生,配合三個AI Agent,也能產出80分甚至90分的研報。表面上看,大家都在工作,崗位沒少。但實質上,“資深經驗”的護城河被填,平,了!當一個初級員工借助工具就能達到高級員工的產出時,企業主可能暫時不會裁員,但市場一定會重新定價。“通用認知能力”的價格將急劇下降,這就像計算器普及後,心算快的人不再值錢一樣。這種效率的提升掩蓋了崗位價值的結構性危機。GDP看著沒變,但其實是因為原本昂貴的“智力服務”變得像自來水一樣廉價,通縮的陰影已經籠罩在每個白領的頭上。所以,如果結合以上三點,我們將這個邏輯推演到底,會得出什麼結論?未來的薪資,將不再為你的“知識儲備”買單,因為知識已經不值錢了;未來的薪資,只為你的“決策擔當”、“人際信任”和“物理行動”買單——也就是那些AI目前還無法覆蓋的剩下88.3%。所以,不要慶幸自己不在那11.7%的直接替代名單裡。你應該擔心的是:當那11.7%的核心價值被AI抽走後,你剩下的技能,是否還配得上現在的工資?03 中國啟示錄雖然這份報告研究的是美國,但最終,我們需要思考國內的情況。如果說舊金山對應的是北京海淀和上海西岸(大模型扎堆,卷算力,卷參數);那麼美國“鐵鏽帶”對應的就是中國的佛山、蘇州、寧波、長沙等等。而且,我們在這些地方,有世界最完備的製造業門類,有最複雜的物流場景,有最密集的內外貿流程。按照《冰山計畫》的邏輯,中國AI的真正爆發點,就誕生在某個寧波注塑廠的排產辦公室裡,或者義烏小商品城的跨境電商後台裡。而且中國的“冰山指數”比美國更高。因為我們的製造業供應鏈更長,我們的行政管理節點更多。對於中國的政策制定者和企業家來說,這是一個巨大的訊號:去關注那些“含科量”看似不高,但“含資料量”極大的實體產業。去尋找那些擁有複雜流程、高人力成本的“隱形冠軍”。那裡,才是中國AI經濟的震中。 (TOP創新區研究院)
MIT研究預測:AI對勞動力市場的潛在替代高達1.2兆美元薪酬規模
寫在前面在當前全球經濟格局中,人工智慧對勞動力市場的重塑已成為不可逆轉的趨勢。然而,政策制定者和市場觀察者長期以來普遍面臨一個核心矛盾:我們所能觀測到的失業和顛覆,僅是這場結構性變革的冰山一角麻省理工學院(MIT)近期發佈的《冰山指數》研究,正是旨在解決這一認知偏差的戰略工具。該研究將AI視為一種可被精確測繪的經濟地理風險,將決策視角從"事後危機管理"提升到"事前數位化模擬"。一、核心事件:建構數字孿生勞動力大軍MIT研究人員的激進行動是為1.51億美國勞工建構軟體對等物,相當於為美國勞動力建立了一個"數字孿生"。這一舉措將AI顛覆風險的評估從基於傳聞,轉變為基於大規模模擬和微觀技能對應的科學模型。重要發現:目前在科技中心可見的工資中斷僅佔總風險的2%,而隱藏的風險層比可見風險大5倍。二、戰略動機:政策工具的"先發制人"政策制定者(包括田納西州、猶他州和北卡羅來納州等報告的共同作者)使用《冰山指數》進行前瞻性規劃:1. 風險前瞻與預算最佳化該指數是一個"早期預警地圖",使政策制定者能夠在衝擊發生之前,轉移資金和調整培訓。避免盲目投入數十億美元的再培訓投資。2. 精準干預與地域定製化傳統模型往往關注沿海城市,但《冰山指數》提供了細化到郵政編碼的深度地圖,使政策干預措施可以精準匹配當地職業風險。3. 政策沙盒與立法測試該指數提供一個互動式模擬環境,允許州政府對各種政策槓桿進行實驗,探索技術採用的變化如何影響噹地就業和GDP。三、從海岸到腹地的風險遷移在《冰山指數》出現之前,關於AI對就業影響的敘事主要集中在科技行業。此前MIT另一項研究指出,95%的企業AI採用並未成功,這可能助長了對AI變革速度的低估。舊範式:可見風險• 集中於科技中心/沿海城市• 僅關注可見的工資中斷(2%)• 聚焦高科技/軟體開發行業• 如何應對即時裁員衝擊新範式:《冰山指數》揭示的隱藏風險• 覆蓋3,000個縣,包括非沿海地區• 揭示五倍於可見風險的隱藏層• 廣泛涉及醫療保健、金融和專業服務• 如何提前部署大規模技能重塑四、現實挑戰:不確定的"倒計時""研究人員強調,這不是裁員的倒計時時鐘。它更像是一個早期預警地圖,以便政策制定者能夠在衝擊來臨之前,圍繞資金和培訓進行轉移。"風險是潛伏的(隱藏層是可見層的五倍),但其轉化為實際裁員的速度和時間表是不確定的。這導致兩個主要挑戰:政策惰性風險由於沒有立即爆發的大規模失業,立法機構可能缺乏動力去迅速撥付數十億美元的再培訓資金。資料與現實的校準模型依賴於將32,000種技能對應到923種職業。如果實際AI採用速度與預測有偏差,可能導致資源被錯誤分配。五、深層護城河:互動式生態系統《冰山指數》真正的壁壘並非僅僅是一份報告,而是其提供的互動式模擬環境。田納西州案例•已成為這一處理程序中的先行者•參與了報告的共同撰寫•根據《冰山指數》建構了自己的AI與工作儀表板•跟蹤該州範圍內的職業風險暴露和工資影響•正在指導該州的政策和支出決策這種地方政府對AI模型的內化和應用,形成了難以被傳統方法取代的軟實力壁壘。六、未來推演:勞動力市場的地域分化未來3-5年,美國勞動力市場的格局將根據州政府對《冰山指數》等前瞻性工具的採納程度而產生顯著分化。先行者(如田納西州)通過AI儀表板和"技能優先"招聘規則,能夠提前避險AI對醫療、金融和專業服務等行業的衝擊,保持勞動力市場的穩定性和競爭力。滯後者缺乏精確的風險地圖,繼續依賴舊有的低效培訓投資,導致政策滯後於實際的失業衝擊,加劇地域經濟不平等。核心受影響職業醫療保健(行政和診斷支援)金融(後台操作)專業服務(基礎法律文書、諮詢資料整理)七、三大核心結論結論一資訊不對稱是最大的政策成本AI變革時代最大的壁壘不是技術的缺乏,而是風險的錯誤量化和地理資訊的不對稱。結論二再培訓投入的數位化勢在必行面對1.2兆美元工資的潛在風險,對政策有效性進行事先模擬和驗證的趨勢不可逆轉。結論三政策執行力的AI化AI對勞動力市場的最終影響,將體現在政府治理和政策執行效率的提升上。"這種方法就像一個預警系統,不是告訴你災難何時發生,而是告訴你那裡需要提前修建堤壩,並允許你在模擬環境中測試堤壩的高度和材料。"風險提示1.政治與財政惰性風險:立法者可能因缺乏即時政治壓力而延遲再培訓資金。2.模型精準性與校準風險:AI技術實際應用速度可能與模型預測出現偏差。3.技術突變與加速風險:AI技術進步速度可能超過指數更新速度。4.資料隱私與跨州協調風險:聯邦層面協調使用資料可能面臨挑戰。 (FinHub)
MIT最新研究: AI有能力替代美國 11.7%的勞動力,波及全美!1.5 億員工被智能體建模
越來越多的人說,AI 可能會取代一些工作,但它到底會影響那些崗位?影響有多大?最近,一項來自 MIT 的新研究給出了一個驚人的答案:一組隱藏資料表明,AI 當前已經有能力替代 11.7% 的美國勞動力,對應工資價值約1.2兆美元。如果只看目前 AI 的實際應用,主要集中在科技和計算崗位,那麼AI的影響僅佔約2.2%的勞動力,對應工資價值約 2,110 億美元。但當研究者把行政、金融和專業服務等崗位納入考慮後,AI 潛在影響範圍飆升至 11.7% 的勞動力,約 1.2 兆美元工資。這份研究成果來自一個名為 Iceberg Index(冰山指數) 的項目,由 MIT 聯合 橡樹嶺國家實驗室(ORNL) 開發。研究團隊把 AI 與人類勞動力的關係做了一個大膽模擬:他們將美國 1.51 億名員工都“數位化”,讓每個人按照技能、任務、職業和地理位置分類,然後觀察 AI 工具可以覆蓋那些工作任務,甚至能精確到郵政編碼區域。ORNL 負責人 Prasanna Balaprakash 將這個模型形象地比喻為“美國勞動力市場的數字孿生”。通過這個工具,研究者不僅可以看到 AI 已經進入那些崗位,還能預測潛在的技術曝光區域。01. 將1.51億職工建模為智能體論文中,Iceberg Index 的建構過程分為三步:1、人類勞動力對應模型覆蓋 1.51 億員工、923 個職業、3,000 多個縣,總共包含 32,000+ 技能。每個職工被建模為一個“智能體”,擁有技能、任務、地理位置等屬性。模型可以分析技能遷移潛力和職業相似度,為未來崗位轉型提供規劃路徑。2、AI 勞動力對應研究團隊收集了 13,000+ AI 工具,包括程式碼生成、流程自動化和認知輔助工具。使用與人類相同的技能分類體系,直接對比 AI 與人類能力。評估 AI 在增強人類工作(如醫院文書自動化)和完全轉變任務(如程式碼自動生成)的潛力。3、人類–AI 聯合模擬使用 MIT 的 Large Population Models (LPMs) 模擬數十億次互動。模擬考慮技術成熟度、採納行為和區域差異,輸出職業技能變化、地理分佈以及跨行業的連鎖影響。政策制定者可用模擬結果測試培訓方案、資源分配和激勵策略。整個模擬在橡樹嶺 Frontier 超級電腦 上運行,保證了大規模、高精度的預測能力。在這一基礎上,研究團隊建構了冰山指數(Iceberg Index)。這是一項以技能為中心的衡量指標,用於評估勞動力在 AI 經濟中的暴露度。它量化了 AI 系統在技術上可以執行的職業任務的“工資價值”,從而揭示人類勞動與 AI 能力重疊的部分。該指數從三個維度評估每一個職業:該職業需要的技能;這些技能的可自動化程度;工作本身的價值(工資與就業規模)。這些因素結合後,為每個職業給出一個一致的“技術暴露度”:它指的是 AI 能力與人類技能的重疊,而不是預測崗位是否會消失。例如,金融分析師不會消失,但 AI 可能能夠處理大量文件處理與常規分析工作。這會改變角色結構與技能需求,而不一定減少崗位數量。02. AI 有能力替代11.7%的勞動力研究團隊首先對當前 AI 最集中採用的職業內的技術暴露度進行了量化,並給出了一組資料:截至 2025 年,超過 10 萬 工作崗位的裁撤與 AI 重組直接相關;AI 系統每天生成超過 10 億行程式碼,已超過人類開發者的產出。因此,他們測量了電腦與技術類職業中的技能重疊度——表層指數(Surface Index)。結果發現,全國範圍內的表層指數為 2.2%,對應約 2110 億美元的工資價值、約 190 萬名技術職業從業者。包括軟體工程師、資料科學家、資料分析師、項目經理以及其他技術密集型崗位,這些都是目前 AI 採用最集中的職業群體。但這還僅僅只是冰山一角!除了科技類職業,AI 的能力還擴展到認知性和行政工作。原本為程式設計開發的工具,已經展現出在文件處理、財務分析、日常行政任務 等方面的技術能力,說明技術能力可以從科技領域遷移到其他行業。部分公司已經開始削減非技術性崗位:IBM 通過 AI 自動化減少了人力資源崗位Salesforce 暫停了非技術崗位招聘McKinsey 預測到 2030 年,約 30% 的財務任務可實現自動化研究團隊發現,當考慮 AI 在行政、金融和專業服務等崗位的潛在自動化能力時,這一數字上升至 11.7% 的勞動力,是表層指數的5倍,約 1.2 兆美元工資(稱為 Iceberg Index 冰山指數)。此外,研究作者也強調,這些結果僅代表 AI 能力與人類技能的重疊,並非實際的未來崗位消失情況,真正影響取決於企業、工人和地方政府的應對策略。03. 影響不限於沿海科技中心人們常以為 AI 取代最多的崗位會集中在沿海科技公司聚集的地區,但冰山指數顯示,AI 接管工作任務的能力 在全美範圍內更廣泛分佈。研究表明,許多州如果僅看當前計算和技術崗位的 AI 採納,影響不大;但當加入其他變數後,潛在影響大幅上升。例如,鐵鏽地帶的俄亥俄州、密歇根州和田納西州,表面指數不高,但冰山指數顯示認知工作(金融分析、行政協調、支援製造業的專業服務)有 十倍於表面指數的潛在技術曝光。例如這幅圖,左邊的冰山指數圖顯示,AI 的認知自動化能力已經擴展到沿海科技中心之外。一些意想不到的州,比如 特拉華州 和 南達科他州,因為行政和財務崗位集中,其指數甚至高於加州。右邊的自動化差距圖則揭示了各州當前實際 AI 採用情況與未來潛在變革之間的差距。像 俄亥俄州 和 密歇根州 這樣的製造業州,在物理自動化尚未大規模普及之前,就已經有大量隱藏的白領崗位可能被 AI 替代。這意味著這些州需要提前為行政、協調等崗位的變化做好準備。研究團隊表示:就算是密西西比、懷俄明這類“低科技州”,在行政、財務、專業服務 等崗位上的技術暴露度仍然很高。換句話說:它們看似與科技無關,但AI 的能力結構與其勞動力技能高度重疊,未來衝擊將遠比表層指數顯示的更大這表明:僅以當前可見的AI 採用情況來判斷風險,會嚴重低估真實暴露度。此外,MIT 和 ORNL也表明,他們建立冰山指數的目的是希望地方政府能夠提前應對 AI 可能帶來的衝擊。可以通過數字孿生模型,分析每個城市街區、每個崗位技能的自動化風險。模擬政策干預(培訓、資金投入、激勵機制)對就業和 GDP 的影響。提前規劃技能培訓、基礎設施和人才投資,實現 “先準備、後應對”。據CNBC報導,田納西州已在官方 AI 勞動力行動計畫 中引用冰山指數,北卡羅來納和猶他州也正在使用該工具制定政策方案。04. 網友熱議:事情沒那麼簡單這項研究在Reddit上也掀起了軒然大波,許多網友紛紛在評論區提出不同看法。一位網友調侃道:“研究由山姆·奧特曼資助。”有網友認為,說 AI 會替代多少工作,其實是反映了“無意義工作”的現狀,而不完全說明 AI 的能力或實用性。還有網友指出,如果用AI替代人類的工作,公司會面臨責任歸屬不清的問題,不如一紙合同來得可靠。當然,也有不少網友依然不信任AI投入實際生產的能力,認為“炒作遠遠超出了實際應用”。(51CTO技術堆疊)
全球95%企業AI慘敗?MIT報告引矽谷恐慌!90%員工偷用ChatGPT續命
【新智元導讀】全球95%企業AI慘遭滑鐵盧?MIT 26頁爆火報告揭開真相:90%員工悄悄用ChatGPT高效辦公,在科技、媒體行業掀起了效率革命。全球95%搞AI項目的公司,基本都涼了!這一驚人的觀點,出自MIT的一份重磅研究報告——「The GenAI Divide: State of AI in Business 2025」。誰曾想,這份令人咋舌的報告,一夜之間刷屏全網。難道AI這麼快就進入寒冬了嗎?事實上,真相遠比各大媒體的標題精彩。在這份26頁報告中,隱藏了一個爆炸性的事實:企業史上最快、最成功的技術應用普及,正在高管們的眼皮底下悄然發生。雖然40%的公司都訂閱了大模型服務,但90%的員工依然會選擇用「個人AI工具」悄悄幹活!一位VC投資人Kasra Khalili一句話道出了真理,「AI並沒有失敗,而是公司內部建構系統的失敗」。報告的核心看點如下:普遍的誤解:新聞頭條緊抓「95%的企業AI試點項目失敗」,但這僅指昂貴、僵化的定製系統。而真相是:90%的員工正積極使用個人AI工具(如ChatGPT)辦公,掀起了一場史上最快的技術普及浪潮。消費級工具完勝企業級:昂貴的企業AI工具因為「死板、無法學習、脫離實際工作流」而被員工拋棄。相反,消費級AI應用則憑藉著靈活性、適應性和即時性大獲全勝。隱藏的生產力爆發:這場自下而上的「革命」帶來了巨大的、未被傳統企業指標計量的生產力提升。最高的回報並非來自光鮮的行銷應用,而是來自無人關注的後台自動化(如客服、文件處理),每年可為企業節省數百萬美元的開支。革命始於員工:報告的結論並非AI失敗,而是企業採購和管理策略的失敗。AI技術本身是成功的,但成功路徑是「從員工到企業」,而非「從企業到員工」。企業應當停止「自建」,轉向「購買」並與供應商深度合作,更重要的是,要向那90%已經找到正確使用方法的員工學習。這背後,究竟揭示了什麼現象?90%員工偷用ChatGPT,自費上班各大科技巨頭AI項目,在內部推行雖然步履維艱,但大多數員工早就在私下「開掛」了。MIT報告指出,「事實上,幾乎每個人都在以某種形式將LLM用於工作中」。其中,90%的員工頻繁地使用個人AI工具,比如ChatGPT、Claude等,那怕是40%公司訂閱了官方服務。換句話說,員工使用AI頻率,是企業採納率的2倍多,這種現象被稱為「影子AI經濟」。最關鍵的是,這些員工並非淺嘗輒止,而是他們在每周的工作中,每天都會多次使用AI。這種普及速度,直接吊打當年電子郵件、智慧型手機、雲端運算的採用頻率。報告中,有個案例太真實了:一家法務公司斥資5萬美元採購了一款專業的AI合同分析工具,但一位律師本人在起草檔案時卻堅持使用ChatGPT。本質原因,就在於AI生成的質量差,顯而易見。這名律師表示,「ChatGPT總能生成更優質的內容,即便我們的供應商聲稱他們用的是同樣的基礎技術」。如今,這一現象,在各行各業普遍存在。就連微軟這樣的巨頭,辦公室員工在家用的都是ChatGPT。一直以來,微軟不論是在公司內部,還是客戶中,大力推行自家的Copilot AI,效果不如人意。去年春天,製藥巨頭Amgen高調官宣引入微軟Copilot後,不過1年,全員紛紛轉向了ChatGPT企業級AI系統脆弱、設計過度,與實際工作流脫節,而消費級AI工具則因靈活性、易用性、即時性,廣受好評。正如一位首席資訊官對研究人員表示,「我們今年看了幾十個產品演示,可能只有一兩個真正有用,其餘的不是華而不實的包裝,就是紙上談兵的科學項目」。當企業高管們還在摸索內部普及AI的門道時,員工們早已破解了「AI的密碼」。斥資5萬美元,自研AI卻敗給了ChatGPT那些登上新聞頭版「95%失敗率」,特指的是,企業委託供應商或內部開發的、昂貴且定製化的企業級AI解決方案。這些工具,之所以推行失敗,核心在於缺乏「學習能力」。報告一針見血,企業級AI無法保存反饋、適應上下文情境,無法隨著時間而改進。直白講,就是太難用了。像ChatGPT這樣的通用AI工具投入生產的成功率為40%,而針對特定任務的企業級工具成功率僅為5%員工們紛紛抱怨,每次都要手動輸入一堆背景資訊,還不會從反饋中學習進步。相較之下,ChatGPT之所以成功,就因為靈活且響應迅速,即便每一次對話都是一次全新的開始。而企業級工具則顯得僵化呆板,每次使用前,都需要進行繁瑣的設定。這種學習能力的差距,在員工使用AI的偏好中,又對應出另一種現象——70%員工在處理郵件、基礎分析等快速任務時,直接找AI而非同事;但對於複雜的、高風險的工作,90%員工更信任人類。這裡的關鍵分界線並非關乎智能的本身,而是AI與人類在記憶與適應能力上的差異。別再自研了,合作成功率翻倍從更深層次看,「影子經濟」並不是AI失敗的證據,反而揭示了,傳統企業指標無法衡量的巨大生產力提升。員工們自行搞定了官方項目的整合難題,恰恰證明了隱藏的生產力。MIT報告稱,「影子經濟」表明,只要能用上靈活、響應迅速的工具,個人完全有能力跨越GenAI應用的鴻溝。一些具備前瞻性思維的公司,已經嗅到了機會。他們努力彌合這一差距,從員工的自發使用中學習,在採購企業級方案前,先分析那些個人工具能真正創造價值。不僅如此,報告還甩出了一個挑戰了傳統的技術觀念:企業應停止嘗試在內部自建AI。資料統計顯示,那些與AI供應商合作的項目,67%能成功部署,而內部自建的只有33%。一個最成功的案例是,那些把AI初創公司當做「業務夥伴」的企業,更注重實際業務成果,需要深度定製和持續改進,而非花哨的產品演示。科技媒體狂飆AI七大行業未被顛覆放眼整個行業,也僅有科技、媒體,因AI發生了顛覆性的結構變革。而醫療、金融、製造在內的七大主要行業,在AI應用實際上「慢半拍」。整體表現為,AI試點頻繁,但內部結構性變化微乎其微。在醫療和能源領域,大多數高管表示,未來5年內沒有裁員計畫,也未預見會裁員。這種審慎的態度並非失敗,而是一種智慧。這些暫未被顛覆的行業,正對AI的實施進行深思熟慮,而不是盲目衝入混亂的變革。科技和媒體行業之所以發展更快,是因為它們能承受更高的風險。超80%高管預計,公司將在24個月內縮減招聘規模。另一個需要注意的點是,企業AI預算中,有一半都砸在了銷售和行銷上。然而,真正賺錢的其實是,那些不起眼的後台自動化項目。比如,通過AI取代外包合同,企業每年能剩下200萬-1000萬美元的客服和文件處理成本,還能砍掉30%外包創意費用。更牛的是,這些收益沒靠裁員實現。AI工具提升了工作效率,但並未改變團隊結構、預算。AI革命正在成功,一次由一名員工推動MIT這份報告,並未證明AI的失敗,恰恰揭示了——AI的成功甚至已超出了企業的預期,員工早已走在了僱主的前面。技術本身沒有問題,問題出在企業的採購和管理方式上。那些能跨越GenAI鴻溝的公司,共同點是,加以利用能深度融合、不斷最佳化的工具。至於那95%沒搞成的企業AI試點,其實報告已經指出了一條明路:跟著90%已摸透AI門道的員工學習。Contextual AI創始人認為,GenAI項目失敗根本原因不在模型,而是上下文重要性被忽視一位製造業高管表示,「我們處理某些合同的速度是變快了,但僅此而已」。顯然,他未能看到全域。處理合同的速度加快,當這一改進乘以數百萬員工和成千上萬的日常任務時,不就是最後大爆發的生產力?總言之,AI革命沒有失敗,它正在每一次的ChatGPT對話中,悄然取得成功。上市公司暴省兆美元另一份來自摩根士丹利報告,也從側面印證了AI革命並未失敗的觀點。其中的一項分析稱,由AI帶來的顛覆性變革,或能為標普500公司每年節省9200億美元的成本——相當於總薪酬的41%,或2026年稅前利潤的28%。而這個過程,將通過削減薪酬開支(裁員、自然流失、自動化)來實現。報告的核心觀點如下:預計90%的工作崗位會受到AI自動化或功能增強的影響。AI智能體將重塑工作任務,而人形機器人將在物流、零售等領域直接替代人工。每年近兆的效益,最終有望轉化為13兆至16兆美元的市值增長,相當於其當前總市值的近1/4。AI已不再是一個投機概念,而是驅動未來十年企業盈利增長的核心引擎。首先,在AI的衝擊下,不同行業受到的影響程度也會有所不同。比如日常消費品的分銷與零售、房地產管理以及交通運輸業是受衝擊最大的幾個行業。其中,由AI驅動的潛在生產力提升,預計將超過2026年預測收益的100%。但對於半導體和硬體行業等,人力成本相對於其盈利而言佔比較低的行業,可挖掘的AI價值潛力則相對較低。其次,「完全自動化」與「任務級增強」之間,還是有區別的。簡單來說就是,軟體應用中的AI智能體的作用,更傾向於重新分配任務,而非徹底取消崗位。相比之下,以人形機器人形態出現的具身智能,則在物流和實體零售等行業構成了更直接的替代風險。報告同時預測,在崗位替代的趨勢下,全新的職位類別也將應運而生——從首席AI官(Chief AI Officer)到AI治理專家不一而足。這與早期技術顛覆浪潮中,市場對程式設計師、IT專家和數字行銷人員的需求激增如出一轍。最後,分析師還指出,AI的全面普及可能需要數年甚至數十年的時間。企業初期的重點將是依賴人員的自然流失和提升流程效率,而非立即進行大規模裁員,尤其是在那些由面向客戶的崗位驅動收入的行業。AI革命的浪潮已至,總的來說,無論是從麻省理工學院深入一線的微觀洞察,還是來自摩根士丹利高瞻遠矚的宏觀分析,都指向了一個共同的結論——AI革命的浪潮已至,學習並擁抱那些靈活、高效的AI工具,將會幫助你抓住這價值數兆美元的時代機遇。 (新智元)
帶崩美股AI的MIT報告說了啥?
昨晚美股近期指數層面的風平浪靜先是被Meta AI部門裁員重組的消息給打破,多家權威媒體報導,Meta 正把 Meta Superintelligence Labs(MSL) 拆分為 四個小組(含一個“TBD Lab”、產品線(如 Meta AI 助手)、基礎設施、以及長期研究的 FAIR),為 6 個月內第 4 次重組,官方定位是為 AGI/“超級智能” 提速。Llama 4 的“失準/延遲”早有徵兆,4 月發佈前後,多篇報導提到 推遲上線、在推理/數學與語音對話上不及頂尖閉源模型,並引發高層不滿。“刷分/造榜”並非空穴來風,但官方否認“訓練集洩漏”:社區與媒體質疑 Llama-4 Maverick-03-26-Experimental 這一非公開變體用於 LMSYS Chatbot Arena 榜單、與公開版本不一致,從而“美化”名次;LMSYS 其後補充透明度。Meta 高管公開否認“用測試集訓練/作弊”,稱差異主要來自實現穩定性與實驗性變體。所以,有“版本差異/資訊不透明”的合理質疑,但“訓練集刷榜”的直接證據不足。“轉向第三方模型”的傳聞,有報導(轉引自 NYT)稱高層討論過“降低 Llama 投入、改用他家閉源模型”。需視為正在評估的選項而非落地決策。所以,對於Llama 4來講,可能重組+口碑受挫是事實。緊跟著MIT一個研究部門MIT Media Lab發佈了一篇名為《The GenAI Divide: State of AI in Business 2025》的研究報告,報告指出:企業為“增長/收入加速”而做的 GenAI 試點中,95%的POC試點失敗了,只有大約 5% 快速轉化為可衡量的 P&L 貢獻,絕大多數停留在試點或產生的財務影響可以忽略。MIT 官方新聞頁也轉引了 Fortune 的報導以此為標題要點。一石激起千層浪!從行業的角度來說,2月份曾因為deepseek引發了對於巨額capex投入的擔憂,而在硬體集體火熱以後,MIT這份可能不算重磅的調研報告成為調整的一個導火索,如果企業推進AI項目如此艱難,95%的項目看不到成效,目前如此大力的投入,ROI怎麼辦,等到折舊攤銷上來,巨頭們的利潤率即使可以通過AI不斷提升,但是利潤壓力也會加大。MIT NANDA 的“95% 企業 GenAI 試點對 P&L 無顯著貢獻”結論,放大了市場對“巨額 AI 投入 → 財務回報穿透”的焦慮。Meta 個案成為這個敘事的催化劑,但“失敗主因在學習閉環與流程整合,不在模型本身”。我深入看了一下報告,簡單說說我的一些觀點:首先,“95% 失敗”不是模型差,是“學習缺口”,一般的AI系統不會記、不會學、難融入流程——能做 demo,卻進不了生產與財務報表(P&L)。其次,“買+夥伴”勝過“全自研”,外采定製且以業務結果為計量的方案,轉正率≈2×內部自建;DIY 往往卡在整合/治理/營運三道關。目前來說,ROI 真正的金礦在後台,雖然預算大多砸在銷營端,但BPO/外采替代、單據/工單自動化最容易在 3–6 個月穿透到 Opex,形成可複製回報。為什麼失敗率(≈95%)這麼高、怎樣把成功率做上去、以及技術關鍵難點與對策。為避免空泛,我儘量把洞見落到可操作的流程、指標、架構與清單上,並嚴格以文稿中的發現為錨點(如:僅≈5%試點落到生產、學習能力與工作流嵌入才是分水嶺、外部合作成功率約為內部自建的兩倍、兩個行業出現結構性擾動等)。“鴻溝”的根因不是模型好壞,而是“學習”與“嵌入”:大多數系統不會記憶與演進,與真實流程脫節,所以難以產生P&L 影響(文稿稱≈95%失敗)。消費級LLM(ChatGPT、Copilot)好用卻難托底核心流程:個人生產力提升明顯,但缺乏持久記憶與可定製,在關鍵任務上使用者仍傾向人工。組織與採辦方式決定成敗:外部合作(BUY)≈2×成功率於內部自建(BUILD);去中心化試點+明確責任優於“單一AI實驗室”。預算錯配:錢多投在前台(銷售/市場),但ROI 往往後勤/中台更高(如BPO替代、財務/法務自動化)。窗口期在收緊:企業將鎖定能“學”和“嵌入”的方案;Agentic(具記憶與自治的系統)+ NANDA/MCP/A2A 協議將是分水嶺後的基礎設施。目前的行業與場景優先順序如何?結構性擾動顯著:科技、媒體與電信,這些行業推進也是最快的。試點多但結構性變化低:專業服務、醫療與醫藥、消費零售、金融、先進製造等。極低/早期:能源與材料。高ROI 場景(被低估)後勤/中台:BPO替代(客服/文件處理)、合同/發票結構化、合規檢查、AP/AR對帳、主資料治理。前台但流程化:線索分流與資格校驗、售後工單歸因與閉環、催收/復聯自動化。為什麼失敗率這麼高?——七大“系統性斷裂”過度看重模型指標/炫技 demo,而非流程端到端KPI(周期、缺陷率、現金成本)。普遍實現了“用過”,卻沒實現“融入流程並持續改進”。AI CoE 與一線流程斷層;預算在總部,痛點在現場。誰對上線後的指標負責?誰對資料/合規兜底?把“高採用、低轉化”拆解為目標、組織、流程、資料、技術、治理、度量七條鏈路。目標口徑錯配:項目按“功能/體驗”立項,驗收卻按“營收/成本”口徑。PoC 時的“滿意度/召回率”無法穿透到節拍(Cycle)、吞吐(Throughput)、一次通過率與Opex/COGS。學習閉環缺位(報告核心):多數工具無持久記憶、無可追溯反饋回灌、無持續評測;上線後性能不隨使用而改進,自然“越用越雞肋”。流程未再造:把 LLM 貼到舊流程上,未重寫人機分工、SOP、質檢抽檢、SLA 與賠付;一上生產就脆。整合碎片:對接系統記錄源(ERP/CRM/ITSM/DMS)、權限與審計成本高;中台缺事件流/狀態儲存,使“記憶×流程”落不穩。評測與觀測缺位:沒有離線/線上雙評測,沒建“AI 可觀測性”(資料漂移、任務分佈、成本/延遲/質量三角);上線後無法診斷→改進。TCO 被低估:只算推理費,不算提示工程/快取/人審/事故處置/觀測等隱性成本;表面省、實則“毛省淨虧”。組織設計失衡:中央 AI Lab 抓權但離場景遠;一線“prosumers/直線經理”沒有預算與決策權——自下而上的成功樣本難複製。這份報告在三點上“打臉”了近期對軟體/AI落地的悲觀看法——買方市場裡,“BUY 勝過 BUILD”在樣本裡,外部合作到產出的成功率≈內部自建的2×;而整體上只有少數(≈5%)項目真正帶來可量化的 P&L 結果。成功關鍵不在“模型多強”,而在“能否學習+深度嵌入流程”會不斷“記憶—適配—進化”的系統,才跨過“GenAI鴻溝”。軟體的勝出方式變了不是通用“橫向SaaS”獲勝,而是“軟體 + 服務 + 學習SLA”的專業供應鏈佔優(更接近“託管流程服務”而非一次性工具)。也就是說:最專業的人做最專業的事,但企業仍需保留一條“輕量自建的骨架”,去治理、嵌入、與學習提速。不是把一切都外包掉,而是把模型/代理的“進化工程”交給供應商,企業自己抓流程、資料邊界、評測與治理。這份 MIT-NANDA 報告等於把“企業都能自己做 AI、SaaS 要被消滅”的看空敘事階段性證偽。資料清晰顯示——“買+夥伴”顯著優於“全自建(DIY)”,而失敗的主因不在“模型能力”,在於學習閉環與流程整合的缺失。這篇報告“打破”了什麼?1) 自研神話:報告與多家權威轉述一致:向專業供應商採購並建立合作的成功率≈67%,而內部自研的成功率只有其約三分之一。這對“企業普遍能把複雜 GenAI 做成規模化生產系統”的想像是當頭一棒。2) 價值落點:~5% 試點實現快速營收加速,絕大多數項目對 P&L 可測影響很小——“會做 demo ≠ 能過審計、能進報表”。預算分配明顯錯配:>50% 花在銷營,但ROI 最清晰的在後台自動化(替代 BPO/外部代理、精簡營運)。3) 真實用工衝擊:目前更多是外包/離岸崗位被替代,“不回填/不續約”多於大規模裁員——這也解釋了為何後台自動化先見財務穿透。4) 痛點不是模型而是“學習差”:企業失敗的根因在工具與組織都缺少“記憶→反饋→改進”的長期學習閉環,導致試點能跑,生產落地卡殼。對“軟體”的多空分野(戰略視角)把“軟體”拆成三層看,結論更清楚:A. 應用層(Workflow-native、SaaS/SwaS)——最大受益者。誰能把記憶/反饋閉環、深度整合(系統記錄源、佇列、權限、審計)與可計量產出(每單/每票/每小時)打包交付,誰就佔住價值窪地。商業模式遷移:從“按席位”→“按結果/票據/對帳量/SLA 賠付”的 SwaS(Software-with-Services)/BPO-替代,更容易穿透到 P&L。報告資料與媒體拆解對這一路線給出了強背書。B. 平台層(Agent/記憶層/治理層)——護城河來源是“流程可塑性+治理合規+維運可視化”,而不是“模型誰更大”。能把企業特定知識長期沉澱並自動評測/人審回灌的供應商,會形成留存與切換成本。這正是 DIY 最容易掉坑的地方。C. 通用模型/薄封裝 ——受壓最重。單純“把大模型接到舊流程上”的輕封裝,既不易算清 ROI,也很快被替換。除非掌握稀缺資料或合規資質,否則議價權弱。這不是“軟體要被 AI 殺死”,而是“沒有營運與學習工程的‘偽軟體’要被淘汰”。真正專業的流程軟體+服務提供商,在這輪企業 AI 浪潮裡更稀缺、更值錢。這份 MIT-NANDA 報告並非看空 AI,而是表明“沒有學習閉環與流程工程的偽落地”在企業業務流程層面,沒有任何意義;它看多“專業軟體與夥伴化交付”。站在企業與投資人一側,做多“Workflow-native 的軟體+服務”,遠勝於押注“大而全的內部自研”。為什麼這輪“買>造”成立?時間價值,報告中優秀買家從90天內拿到業務結果;自建往往拉長到季度/年,錯過窗口。整合深度,優勝供應商把CRM/ERP/ITSM等主系統上下文接進來,減少人工喂料與二次搬運。學習閉環,外采團隊已有反饋採集→線上評測→策略發佈的流水線,而很多企業內部還停留在“提示工程”。SLA 可經營,頂級供應商以任務完成率/干預率/工單時長/質量缺陷率對賭,和 P&L 直接掛鉤。信任與管道,買方更依賴既有夥伴、同業口碑與SI管道;這類“社會資本”是新創或內部團隊短期難複製的。但不是“凡事外包”——何時仍該自建?滿足下列兩條以上,自建或自建為主的混合才更合理:極高保密/合規資料嚴格在邊界內流轉(強監管、國密/等保、嚴苛多租戶隔離)。差異化流程是“護城河”業務規則/策略積累本身構成壁壘(金融風控、專有定價、核心調度)。極限約束毫秒級延遲、離線/邊緣算力、定製工具鏈,商用產品難以滿足。長期規模經濟穩定、超大體量且復用度高,能攤薄自建平台的固定成本。估計,接下來大多數企業會落在混合式:外采“學習型代理/工作流引擎”拿結果;企業自有“治理與記憶層”(身份/權限、策略、審計、觀測、評測與資料契約),把可遷移的“組織記憶”掌握在手。所以,這份研究的分水嶺很清晰:是否具備“學習+嵌入”的工程與組織能力。把AI當“會進化的流程服務”來設計、驗收與付費,從窄而關鍵的流程切入,用SLA與學習里程碑驅動產品進化,成功率才會上來。協議化(MCP/A2A/NANDA)與Agentic工作流,會把“影子AI”的個體技巧沉澱為企業的可控生產力。窗口正在變窄,90天拿到可復用的最小勝利,再複製到更多流程,是跨越“GenAI鴻溝”的最短路徑。 (貝葉斯之美)