#AI取代工作
馬斯克開始用Grok替代員工了!最慘部門裁員90%
馬斯克開始用AI取代手底下員工了!這一次,他把刀揮向了X(前推特)——用Grok取代X員工。據The Information消息,上個月有兩位知情人士向他們透露,馬斯克解僱了X公司裡負責打擊垃圾郵件、影響力行動、非法內容以及其他信任與安全問題的工程團隊的一半成員。這個團隊在本輪裁員之前已縮減至不足20人,而老馬在2022年收購推特時,其團隊規模曾超過100人。從超100人→不足10人,足以見得老馬裁員的程度有多深、有多狠。事實上,如果回顧老馬10月中旬發佈的一條推文,那麼此次曝出的裁員消息也就不意外了。當時老馬表示,要在未來幾周內徹底移除X啟髮式推薦演算法,由Grok接手,通過閱讀和觀看全部內容來全自動匹配使用者興趣。連演算法都全交給AI了,那背後的演算法工程師及相關支持者們自然也就面臨失業了。而拋開X相關事件不談,老馬布下的棋子其實還很多。比如今年8月,硬剛微軟成立巨硬(Macrohard),號稱要用AI把微軟產品重做一遍。一旦把這些事情放到一起看,老馬背後的意圖就不言自明了——用AI替代人力,用自動化替代傳統工程。就是說,大BOSS馬斯克,現在已經盯上了AI這把“尚方寶劍”。引入雙胞胎新人執行者為了完成用Grok改造X的目標,馬斯克將這把劍交給了xAI兩位雙胞胎新人執行者——現年33歲,來自烏克蘭的Dima和Ievgin Soboliev。據此前《連線》爆料,自OpenAI挖走了xAI之前的工程師負責人Uday Ruddarraju和Mike Dalton之後,這對雙胞胎兄弟就成了xAI的頂級工程師,並直接向馬斯克匯報。(註:x和xAI今年3月就正式合併了,不過團隊運作仍相對獨立)上圖的Dima,曾在哈爾科夫國立大學攻讀應用數學專業,畢業後去了矽谷工作。一開始加入了Facebook(現Meta),後快速輾轉於Google、雲原生資料庫公司SingleStore、國際跨境電商平台Joom,以及全球頂級自營量化交易公司Jump Trading Group。從2017年開始,他又加入機器學習初創公司Laserlike,後來該公司被蘋果收購。也是通過這次收購,從2018~2024年,他在蘋果從事與搜尋有關的工作。之後又離開蘋果加入OpenAI,但不到一年便離職轉投xAI。而Ievgin Soboliev,也是在哈爾科夫國立大學攻讀完應用數學後去了矽谷。他一開始加入了曾經非常知名的程序化廣告技術公司Rocket Fuel Inc。後來不知道是不是受到Dima影響,去了Meta從事廣告機器學習工作,之後於2022年至2025年在蘋果工作。據知情人士透露,今年夏季,兩兄弟在大致相同的時間加入了xAI。他們經常一起工作,同事們也直接稱他們為“那對雙胞胎”。而且兄弟二人在X內部一直推行典型的“馬斯克模式”——要求工程師在辦公室長時間工作,包括周末;根除低效率現象;並迅速裁撤他們認為不必要的職位等。目前尚不清楚X還可能裁掉多少工程師。知情人士稱,X至少還有另外100名工程師負責不同部分的工作。馬斯克到底要幹啥?如開頭所言,此次裁員正是馬斯克“用AI替代人力,用自動化替代傳統工程”的其中一步。他曾公開表示,希望讓X的演算法“完全AI化”,並讓使用者能夠通過詢問xAI的Grok聊天機器人來調整他們資訊流中顯示的內容。這一手更新,直接讓Grok從無情的總結機器羅伯特、X上的維基百科,上位到了X的總管。現在X上到處都是Grok,未來還會有更多Grok。與此同時,他還在推進“巨硬(Macrohard)計畫”——用AI自動化軟體開發。他表示:Macrohard是一家純粹的AI軟體公司。原則上,鑑於微軟等軟體公司本身不生產任何物理硬體,應該有可能完全用AI模擬它們。從Macrohard商標註冊內容來看,我們可以提煉以下幾個關鍵要點:用於生成人工智慧語音和文字的可下載軟體用於編寫程式碼、設計和運行視訊遊戲的人工智慧工具圖像、視訊和語言理解系統一句話,馬斯克這是要用AI,把微軟曾經做過的事情重做一遍。而且據老馬自曝,他還把印著Macrohard的標語,塗在了xAI位於孟菲斯的最巨量資料中心的屋頂上。顯而易見,不論是裁員還是Macrohard計畫,馬斯克都在盡力用AI改造他名下的公司。而這種稍顯激進的AI至上戰略,所帶來的風險也不容老馬忽視。最直接的矛盾在於,負責平台安全的團隊與生成內容的AI系統之間,出現了致命的“權責不對等”。團隊負責清理違規內容,但對Grok會生成什麼卻毫無控制權,這導致他們相當被動。而且由於X和xAI合併後團隊各自獨立,當安全團隊正在清理Grok生成的有害內容時,同一公司的xAI團隊可能正在訓練Grok變得更具“創造性”——這種內部目標的不一致,也容易讓安全問題陷入無人負責的真空地帶。此外,馬斯克的裁員計畫也影響到了一些關鍵項目。多年來,馬斯克一直希望在X上推出一項支付服務“X Money”,但公司未能爭取到一些關鍵州監管機構的支援,導致這一計畫受阻。據悉,金融監管機構的一個重要考量點是,支付公司是否擁有穩定的領導層和足夠的員工來支援客戶並打擊欺詐。而X Money團隊,在過去一年中一直面臨頻繁的人員流動。總之,馬斯克的AI改造計畫在砍向人力成本的同時,也正在砍傷平台安全的根基、核心業務的未來。AI這把劍,其雙刃已現。One More Thing說到裁員,老馬今年9月還血裁了一波xAI團隊。xAI是老馬2023年創辦的AI初創企業,旗下主要產品就是Grok模型,而9月被裁的就是幫忙訓練Grok模型的資料標註團隊。據非官方統計,當時該團隊有超過500名員工(約佔資料標註團隊的1/3)被通知捲鋪蓋走人。而裁來裁去,你猜怎麼著?留下來的幾乎全是華人了。當時有一張xAI團隊合影在社交媒體上瘋傳,原因是照片中幾乎全是東亞面孔。而就在Grok 4發佈後不久,一位自稱是“Grok項目唯一白人參與者”的員工在X上發文:今天我被@X解僱了,我是唯一一個參與@grok項目的白人……雖然未確認這條推文的真實性,但側面說明老馬可能確實偏愛華人(bushi。 (量子位)
Anthropic CEO再預警:未來5年砍掉一半入門崗,失業率10–20%
資料顯示,僅2025年開年以來,美國已有超過一萬個崗位因為引入AI而被裁撤。Anthropic CEO Dario Amodei認為AI技術的擴散對就業和社會的衝擊,已經到了必須向全世界預警的地步。如果你現在正在找工作,那AI簡直就是個壞消息。短短幾個月裡,美國科技公司和政策層對「AI如何影響就業」的討論,突然顯得直白又冷酷:「AI將帶來企業重組,這意味著更少的崗位,更多的裁員。」「是繼續花錢請工程師,還是乾脆多買幾塊GPU來搞AI,企業需要做出抉擇。 」不少科技大佬也公開承認,一些崗位會更快被機器承擔,應屆生步入職場的入門級崗位也在不斷減少。比如,Anthropic CEO Dario Amodei就再次重申了他之前的觀點:未來五年內,最多一半的入門級辦公室崗位可能被淘汰,並可能把失業率推至10%–20%。AI重組企業帶來更少崗位和更多裁員華爾街所追捧的「更少的工人、更多的算力與軟體」的AI故事,背後的真相,其實是日益減少的崗位,以及接連不斷的裁員。比如,Reddit上就有人質疑:高管們對媒體吹AI,只是為了用它來做裁員的擋箭牌。耶魯管理學院教授Jeffrey Sonnenfeld認為「AI警告」具有「疫苗效應」,它可以幫助CEO為未來裁員鋪墊敘事,不至於讓員工太震驚。不可否認,現實中有這方面的因素,但不少科技大佬更喜歡用的的一個詞是——企業重組。在近期紐約的一場科技峰會上,多位CEO都談到了它:「要以技能和能力為核心重新定義員工體系,而不是單純按人頭來配置」。在新組織架構中,中層管理崗位可能會減少,層級更扁平,變為頂端與底層兩頭多,中間少的「槓鈴型」組織。所謂企業重組,潛台詞就是更少的崗位,更多的裁員。用Altimeter Capital合夥人Apoorv Agrawal的話來說,企業將面臨如下抉擇:是繼續花錢請工程師,還是乾脆多買幾塊GPU來搞AI。而且,隨著AI的滲透,企業還將迎來更多結構調整,AI公司也成為AI重組的重要策源地之一。Amodei提到在Anthropic內部,許多人過去一年的工作已經發生了巨大變化:這不僅體現在他們產出是之前的兩到三倍,也體現在他們的工作內容上。他們不再是寫程式碼,而是在管理一整套AI系統。由於這些變化,他們需要重新思考在Anthropic的角色。在Amodei看來,這些發生在AI公司內部的變化,未來幾年也會發生在所有使用AI技術的其他企業身上,「更直白地說,只要公司有為股東創造價值的受托責任,能用技術提升生產力,他們就會用。」據獵頭機構Challenger月報顯示:僅2025年至今,美國已有超過一萬個崗位明確因為AI被引入而被裁撤。比如,Salesforce CEO馬克·貝尼奧夫就曾公開宣稱:支援團隊崗位從約9,000人降至5,000人,部分工作由AI代理承擔。Salesforce CEO Marc Benioff表示,客戶支援部門的AI代理正在取代人類崗位那些崗位將最快被AI衝擊?奧特曼近期曾多次表示,客服/技術支援將最早被替代,隨後可能波及程式設計師。他還預判崗位更替周期將被顯著壓縮。初級白領崗位受衝擊最劇烈,有資料顯示:自2023年1月以來,入門級職位的招聘減少了35%,大型科技公司和成熟初創公司中,少於1年工作經驗的新員工入職率在2019年至2024年間下降了50%。在近期的一次AI科技峰會上,Anthropic CEO Dario Amodei再次重申了他之前的觀點:未來五年內,最多一半的入門級辦公室崗位可能被淘汰,並可能把失業率推至10%–20%。受影響方向包括法律、金融、諮詢等。Brookings學者Mark Muro轉述Amodei觀點:入門白領50%或被淘汰,失業率或達10–20%。9月份,聯準會主席Jerome Powell在談到AI對就業的影響時提到,AI可能減少入門級崗位,衝擊應屆大學畢業生的就業市場。從企業來看,因為對AI的過度追求,而忽視了初級崗位,這也是一種短視行為:一方面,很多AI技術還不能賺錢,也有不少嘗試採用AI的公司最終都放棄了,這說明AI還沒真正成熟,遠沒到可以完全充當「AI員工」的時候。但更為根本的是,如果企業不再招聘年輕人進入初級崗位,眼前可能省了成本,但長遠來看卻會吃大虧,因為等於放棄了將組織經驗和知識傳承給下一代的機會。倫敦政治經濟學院經濟學家Luis Garicano就批評AI自動化初級任務,摧毀了未來專家的「培訓基地」,企業將面臨「後繼無人」的挑戰。如何應對AI的崗位大清洗?AI將會大規模衝擊就業市場,在美國政府和科技界已經達成共識。但在如何應對這場就業風暴,各方並沒有一致的看法。在近期的「Axios AI+ DC」峰會上,Dario Amode與在場多位政商代表就如何應對AI對就業的衝擊問題,同台交鋒。各方爭議指向一個重要問題:美國政府要不要出手為勞動者托底?怎麼托,托到那一步?這也是未來幾年美國政府最具影響力的關鍵決策之一。Dario Amodei是「預警派」。他再次拋出前文提到的AI可能引發「白領大裁員」的預測,他認為目前AI快速發展引發的就業危機,已經到了向世界發出預警的程度。「我們是技術樂觀主義者,我們認為這項技術前進的速度遠比大多數人預想的要快。」Amodei認為當前比較重要的事情,是幫助人們適應AI技術。他建議美國政府出面解決問題,尤其是在轉型過渡期為大家提供兜底政策,他還提議可以考慮對AI公司徵稅。白宮經濟顧問Jacob Helberg與Amodei不同的是,白宮經濟顧問Jacob Helberg並不認同這套預警邏輯,他更相信通過私營部門推動就業市場的適應轉型。「認為政府必須手把手幫助每一位被裁員的人,這其實是低估了人們的應變能力,那種自上而下、政府全權解決一切的思路,其實也低估了私營部門強大的適應力和創造力。」Jacob的意思是不要把政府當保姆,也別低估人的應變能力,以及企業的創造力。在兩種對立觀點之間,還有一種中間路線:比如新建公共就業服務機構,為年輕人提供就業機會;或者由科技公司出錢設立公共「信託基金」,對勞動者進行技能提升和再培訓。其實,幫助勞動者對AI公司也有好處:如果大家都沒工作,他們的客戶也就不存在了。在AI浪潮之中,需要的是整個社會的共同進化,沒有誰可以獨善其身。 (新智元)
剛剛,奧特曼首曝:AI取代CEO後,我想去當農夫!
長期來看,AI將催生更以人為本的新職業。AI狂飆已至,認知仍未醒來——「技術懸差」正在撕裂時代的節奏。當大眾還沉浸在ChatGPT帶來的新鮮感時,AI早已悄悄跨越了「最聰明的人類大腦」的門檻。在多項頂尖智性任務中,AI已然勝出人類,展現出突破性認知與推理能力。這種「技術懸差」正快速拉大:AI所擁有的能力,遠超過社會、經濟乃至監管系統的普遍理解與應用水準。當AI邁入可自我進化的新階段,問題不是「能不能」,而是「我們是否跟得上」──解決問題的速度,是否永遠跑在問題之前?在《MD MEETS》的首期節目中,Axel Springer的執行長Mathias Döpfner與OpenAI執行長奧特曼,展開了一場毫無保留的對話,探討AI帶來的機會與風險。話題從「AI與工作」到「人類滅絕風險」,再到「AI時代的新聞業」,甚至延伸到「人類是否該永生」──幾乎沒有禁區。奧特曼分享了他對超級智慧的思考,以及他在AI接管自己工作後想去當農民的個人夢想。這是一場罕見而真誠的對話,讓我們得以一窺這位正在塑造未來的重要聲音。奧特曼:未來不做CEO就去搞農場每當談到AI,人們都會關心一個問題──它會不會取代人類工作?是AI創造工作機會多,還是毀掉的工作更多?奧特曼認為:短期來看,AI確實會取代大量工作。但從長期來看,就像以往每一次科技革命一樣,人類總是能找到全新的事情要做。我相信人類對「創造價值」、「幫助他人」、「融入社會」的渴望是無限的。每次科技革新,總是有人說「這下完了,我們以後都沒工作了」。但事實證明,這其實只是想像力的失敗。也有人說這次不同,因為AI觸及的是人類最核心的「智」部分,那我們還能做什麼?但奧特曼認為:人類天生關注彼此,而非「機器世界」。焦點仍在人與人的關係中。他雖無法預測具體崗位,但「幾乎可以肯定,未來的工作將更以人為本」。幾周前,有人問奧特曼:假設有一天AI連你的工作也取代了,你會怎麼做?奧特曼出人意料地回答:當農場主人(farmer)。為什麼?首先,奧特曼確實相信未來某一天,AI會成為比我更優秀的OpenAI CEO。這也正是OpenAI努力的方向。如果AI真的能勝任,那真是求之不得。當然,如果他想繼續留在OpenAI,可以扮演其他角色。不過,奧特曼坦言,這十年來一直承受著巨大的壓力,工作量也極為繁重。他還擁有一塊農場,時常前往——他真心喜歡那裡的慢節奏與截然不同的生活方式。史無前例​​:人工智慧>人類智慧在《未來簡史》中,以色列作家尤瓦爾·赫拉利描述了人類的下一個時代——我們將變得近似於「神」:實現永生、不再為生計奔波、擁有無限智慧與知識。這讓奧特曼想起矽谷流行的一句話,大意如下:我們擁有神祇般的技術,卻秉持著中世紀的道德框架。它指向一個現實:科技躍遷,已遠超智慧、判斷與社會建構能力的提升。這種失衡感讓奧特曼感到不安。他不知如何應對,因為技術洪流已至。這不再是空談,多年來他持續探討這個主題。在他看來,今年AI首次超越了人類智慧──這無疑是歷史性轉捩點。生活仍在繼續,但某些根基已悄悄改變。未來是否真的會像科幻一樣發展,誰也說不準。是我們把意識上傳到電腦中、實現永生?還是我們只是在治癒一些疾病、延長壽命?這些他都不確定。不過,奧特曼推薦了前幾年的動畫《Pantheon》,探討了類似的主題。它探討的這些問題,如今已不再是抽象的哲學問題,而是現實。但奧特曼並不向往「永生」。他很難想「永生」到底意味著什麼。真正實現永生、治癒所有疾病、器官無限替換……那種「永遠」實在太長了。在他看來,自然的更新與新陳代謝,是社會前進的必要條件。比起壽命本身,他更希望人生中的「生病階段」越短越好。理想狀況是:健康地活很久,然後突然快速地走完最後一程。OpenAI的關鍵轉折點當初一起推動這場AI革命的,有不少人現在彼此競爭——Peter Thiel、Elon Musk、Demis Hassabis、Mustafa Suleyman、Paul Graham、Marc Andreessen…在這群人中,誰對奧特曼影響最大?在他看來,很難評出「誰影響最大」,但他們組成了緊密交織的生態系統。整個產業就像協同網絡,有人在做晶片,有人在訓練模型,有人在做應用產品。當然,也有很多企業在競爭,但氛圍更像早期網路或半導體——不是一人一企之功,而是整個圈子的推進。主持人追問:「那你覺得你自己最重要的貢獻是什麼?但有沒有某個時刻、某個決策,你認為是至今最關鍵的一步?」奧特曼表示最關鍵的一步可能是:決定把所有資源押在「擴大算力、擴展模型」這條路線上。這是在發現Scaling Laws之後,OpenAI做出的生死攸關的抉擇。彼時,認同者寥寥。主要對手DeepMind 甚至認為:語言模型並不重要,也不是正確路徑。即使OpenAI發布了GPT-3,很多人依舊覺得沒什麼用,直到ChatGPT上線,才真正讓世界意識到其實際價值。所以,奧特曼認為當時那個「下重註」的決策——在模型規模擴張上,投入大量資金、集中研究,是個巨大貢獻。要知道,那時候這條路遠不如今天看起來那麼順理成章,無論從資本投入或研究方向上,都是高風險。他也將「開放ChatGPT」視為另一大貢獻。讓大眾使用ChatGPT,是一種信念驅動。彼時不少人認為AI仍不安全,不宜開放,研發應保持「半封閉」。但OpenAI相信:真正的安全,離不開公眾的深度參與。所以,奧特曼認為他的角色並不總是某個「關鍵時刻」的決定,而是無數個「小決策」累積起來。人類滅絕風險並非空談奧特曼曾說過,「超級智慧」是人類生存最大威脅之一,因此他早期就在呼籲加強監管。部落格連結:https://blog.samaltman.com/machine-intelligence-part-1這一立場至今未變,但他也澄清:所謂「監管」,並非「能否用於銀行業務」等日常應用限制。他指的是:針對可能帶來「人類級風險」的技術,要有明確的框架。奧特曼曾表示「超級AI帶來人類滅絕」的機率大約是2%。奧特曼的核心意思說,這種風險是「非零、值得認真對待」,並不是具體的機率預測。但主持人認為:就算2%也已經很高了。畢竟,一架飛機失事的機率也只是0.00001%。如果2%是毀滅整個人類文明的風險,那就非常嚴峻了。奧特曼完全同意這種觀點。這也是為什麼他一開始就在寫部落格呼籲重視這個問題。他大致把風險分成三類:第一類,AI沒有「失控」,但「人用AI做壞事」。AI本身完全聽指令,但如果掌握AI的國家或組織,窮兵黷武,那它可以用AI造成巨大破壞,例如開發生物武器、入侵核系統等等。這不是AI的問題,而是「濫用問題」。第二類,是經典的科幻災難模式:AI獲得某種自主性。為了實現目標,它不想被人類關閉——就算沒有“意識”或“主觀意圖”,它也可能基於演算法策略走向錯誤方向。這屬於典型的「對齊失敗」。但還有第三類,更容易被忽略,卻很可能最真實——那就是AI並沒有惡意,也沒有叛變,只是「自然而然」地接管了世界。你想想現在的ChatGPT——成百上千萬的人每天都在用,接下來可能是十億人。越來越多的人依賴它來做出重要決策。一開始,它只是幫你出點主意,效果還好。後來,它給的建議越來越可靠。再後來,它給你一些你聽不懂的建議——但實踐證明,它總是對的。你會怎麼做?你要麼跟著它走,要麼落後於別人。於是,大家都開始照著AI的建議做。AI本意是幫你,但它越幫越多,最後幾乎決定了你的人生選擇。然後,這些人再把新的行為數據餵回去訓練模型,模型又變得更聰明,回饋更強。長此以往,整個社會、整個經濟,都陷入AI-人類協作的閉環。那時,誰還能說自己是「自由意志」?它沒有惡意,卻實際控制了一切。也有人反駁說:人類作為高智生命,也沒有消滅螞蟻這種低等生物。所以即使AI更強大,也不代表它一定要毀滅我們。OpenAI聯合創始人Ilya Sutskever,曾經說過:「我們應當期望,未來的超級智能,能像慈愛的父母對待孩子一樣,對待我們人類。」這和「AI要友善」不完全一樣,更像是一種溫暖、有情感的引導。這句深度觸動了奧特曼。AI時代,新聞不死奧特曼此行來到柏林,是來領取Axel Springer Award。身為出版業的一員,主持人必須問一個現實問題:新聞業如今遭遇雙重打擊——一方面是壓制,另一方面則是AI「答案機器」的衝擊。奧特曼怎麼看新聞業的未來?我們還需要新聞業嗎?奧特曼認為當然需要新聞業,而且他非常感激新聞業對社會的貢獻。如果我們回顧人類歷史上那些「繁榮盛世」的共同點──不只是經濟繁榮,更是人類的生活品質持續提升──那麼,「言論自由」幾乎總是其中核心要素。社會仍然需要那些即時追蹤世界動向、提供深度解讀的專業人士。沒有他們,我們的AI系統也將失去賴以訓練的基礎。當然,新聞形態也許會改變:從機構化媒體,轉向「個人記者+社群媒體」;從品牌信任,轉向「對人的具體信任」;但「值得信任的事實揭示者」這個角色,絕對不會消失。主持人更擔心的是另一件事:在大模型的衝擊下,「版權」這個概念正面臨徹底崩潰。現實就是:如今的AI模型大量吸收已有數據──而一旦某項內容發佈出來,就會立刻被AI「吞掉」,作者卻無法從中獲得任何回報。沒有商業激勵,誰還願意投入大量精力去深挖真相?奧特曼表示理解這種擔憂,而且他也多少持樂觀態度,因為新聞業和AI業的利益其實是一致的。沒有源頭內容,AI就沒有原料可學。要嘛我們找到全新經濟模型,要嘛就得在現有框架上加點「微創新」,來激勵更多人持續生產優質內容。奧特曼自己最感興趣的一個方向是「微支付系統」──讓人們為真正有價值的內容,即使付出幾分錢。過去幾十年這太難了,但在AI智能體時代,也許這終於可以實現。音樂原本就是最「流動」的內容型態──電台隨便播、DJ隨便放,所以早就建立了多層次版權機制。新聞也能找到自己的「永續發展路徑」。參考資料:https://www.mdmeets.com/https://x.com/slow_developer/status/1973727163108192666https://www.youtube.com/watch?app=desktop&v=rF0tQtDMwHMhttps://x.com/deredleritt3r/status/1973517391230353641 (硅星人Pro)
高盛:未來十年,AI會搶走多少工作?
一、目前AI 對勞動市場的影響:局部衝擊已顯現,整體影響仍有限近年來AI 應用加速滲透,疊加AI 相關裁員新聞頻出,引發了人們對「AI 導致大規模失業」 的擔憂。高盛這份報告指出,目前AI 對整體勞動市場的影響仍較小,但在部分高暴露產業已出現明顯的就業壓力。核心資料與現象:高暴露產業就業下滑:行銷諮詢、呼叫中心、平面設計、網頁搜尋和軟體開發等產業,就業成長已轉負,顯著低於2015-2019 年的長期趨勢。例如,電話呼叫中心的就業人數較去年成長率低10 個百分點以上。科技業就業佔比縮水:自2022 年11 月ChatGPT 發佈後,科技業就業佔比持續下降,目前已低於疫情前的長期趨勢線,部分源於疫情期間過度招聘的回呼,但AI 自動化的影響不容忽視。青年科技從業人員受衝擊更大:20-30 歲科技相關職業的失業率今年以來上升了近3 個百分點,遠高於同齡其他行業從業者(+0.5pp)和整體科技從業者(+1pp),印證了“AI 對剛畢業的技術新人hiring 造成阻力” 的傳聞。目前整體風險可控:即便以現有AI 應用場景推算,最多僅2.5% 的美國就業機會有自動化風險,顯示絕大多數工作暫時未受威脅。二、歷史視角:科技從未導致長期失業,但短期摩擦不可避免報告透過歷史資料論證:AI 不會引髮長期大規模失業,但短期內可能推高摩擦性失業。關鍵結論:長期:新科技創造更多新職業:1940 年不存在的職業,如今貢獻了60% 的就業。例如,「資料科學家」「AI 訓練師」 等新興職業,正是技術進步的產物。歷史上,技術雖會淘汰舊崗位,但會透過提升產出和總需求,間接創造更多新工作。短期:摩擦性失業會上升:科技驅動的生產力每提升1 個百分點,短期內(1 年內)失業率會上升0.3 個百分點,但2 年後影響就會消失。這是因為被替代的工人需要時間重新找工作或轉換技能。風險提示:若經濟衰退與AI 替代疊加,失業壓力可能放大。歷史上,常規職業的自動化裁員多集中在經濟下行期,若未來幾年經濟衰退,AI 相關職位削減可能更集中。三、那些職業最容易被AI 取代?五大指標鎖定高風險崗位報告建構了一套“職業替代風險指標”,從5 個維度評估800 + 職業的AI 替代風險:錯誤後果嚴重性、任務重複性、任務關聯性、AI 暴露任務的價值佔比、是否為後台崗位。高/ 低風險職業特徵:高風險職業:校對員、信貸分析師、電話行銷人員等。這類職業的共通點是:任務重複度高(如文字校對)、錯誤後果低(如資料輸入失誤影響小)、多為後台職(少客戶互動)。低風險職業:皮膚科醫師、上門推銷員、幼兒教師等。這些職業依賴人際互動、物理操作或高判斷力(如醫生診斷),AI 難以取代。替代率測算:若僅考慮前10% 高風險職業,整體就業替代率為2%;若包含前20% 高風險職業,替代率升至6-7%(與報告基準假設一致);若前50% 職業受影響,替代率可能達14%。四、未來十年影響:基準情境失業率升0.5pp,風險情境或達1.8pp結合AI adoption 速度與替代率,報告對未來失業壓力的預測如下:基準情境:失業率高峰:2030 年代初,失業率較趨勢水準上升0.5 個百分點。通膨影響:透過菲利普曲線傳導,通膨的拖累約0.1 個百分點,隨後逐步消退。風險情境(AI 應用更快、替代範圍更廣):若AI adoption 提前至2029 年達峰,或前40% 高風險職業被替代,失業率峰值可能升至0.7-1.8 個百分點,且衝擊可能提前5 年到來。總結:AI 替代是“漸進衝擊”,而非“突然災難”報告核心結論是:未來十年AI 可能取代6-7% 的就業崗位,但不會引髮長期大規模失業。短期摩擦性失業不可避免,青年技術工人、後台重複性職位需重點關注;但長期看,AI 將透過創造新職業、提升經濟總需求,抵消替代壓力。對個人而言,提升人際互動、複雜判斷等AI 難取代的技能,是應對衝擊的關鍵;對政策而言,加強再訓練體系、平滑轉型期陣痛,能降低失業風險。 (資訊量有點大)
大型研究顯示:AI大熱兩年半,完全沒有顛覆我們的工作
自2022 年底ChatGPT 推出以來,大語言模型(LLMs)被視為技術革新的新增長點。企業爭相部署,資本加碼投資,從程式碼生成到文字寫作,生成式AI正快速滲透到各類辦公場景。不少人一邊期待它能減輕工作負擔、提高工資,甚至夢想靠AI實現躺平,一邊又擔心自己會不會很快被技術取代。在這場突如其來的技術浪潮裡,想像與焦慮並存,彷彿每個人的職業軌跡都將被重新改寫。人們最關心的是:這場轟轟烈烈的技術變革,是否改變了我們的工作?有多少人會失業?工作時長會減少嗎?一項來自丹麥的實證研究給了一個現實又冷淡的答案:到目前為止,還沒有。01. 大語言模型,尚未改變勞動力市場這項研究由芝加哥大學與哥本哈根大學兩位經濟學者合作完成,利用了2023 年底和2024 年的涵蓋2.5 萬名員工和7000 家僱主的調查資料。研究特別關注11 個受生成式AI 影響較大的職業,包括記者、教師、客服人員和軟體工程師等。圖1 不同職業使用AI工作的員工比例為了評估生成式人工智慧對員工收入與工時的實際影響,研究團隊採用了經濟學中常用的雙重差分法( Difference-in-Differences)。它的基本想法是,把使用AI 聊天機器人的員工,和沒有使用的員工進行比較,觀察兩組人在ChatGPT 發佈前後,收入和工作時間的變化有沒有出現明顯差別。如果AI 真帶來了影響,那麼這兩組人的「變化幅度」就應該不一樣。不過,願意接納AI,把它融入日常工作的人,本身的能力或動力可能就更強,日後的發展可能也就更好。為了防止這種偏差,作者們控制了員工的各項條件,包括性別、年齡和勞動力市場經驗,並儘量保證不同員工之間的可比性。他們也發現,不同企業對生成式AI 的態度差異明顯:有的鼓勵員工積極使用,有的則保持中立,甚至明令禁止。這種由僱主政策帶來的使用差異,並非出自員工本身的選擇。研究團隊正是利用這一點,將背景相似、但由於所在企業政策不同而使用AI 多寡不同的兩組員工進行對比,觀察他們在ChatGPT 發佈前後,收入和工時的變化是否出現分化。結果顯示,在ChatGPT 推出一年半後,各類AI聊天機器人對員工的收入與工時幾乎沒有可觀測的影響。研究中大多數關鍵結果都顯示,AI 對收入的影響非常小,小到幾乎可以忽略。同時,即使有收入成長,幅度幾乎不會超過1%。具體到各個職業,情況也同樣如此。研究顯示,即使有漲薪,幅度也不會超過6%。就算是在最可能受益的崗位上,例如軟體開發、行銷或人力資源,結果也沒有明顯不同。圖2 此表第1列為使用AI的員工平均感知收益影響(以百分比表示),報告收入減少的員工(第2和5列)、收入不變的員工(第3和6列)以及收入增加的員工(第4和7列)。作為補充,研究還直接問了參與者一個簡單的問題:“ChatGPT 等生成式AI 工具有沒有讓你的收入增加?”在2024 年11 月的調查中,97% 的受訪者回答“沒有”。他們自己估計的收入成長幅度也非常小,通常在0.04% 到0.2% 之間。即使是那些自認每天用AI節省超過一小時工作時間的使用者,也沒有表現出更明顯的加薪或其他勞動力市場上的優勢。研究者也追蹤了長時間段內的趨勢變化。他們以ChatGPT 推出為分界點,發現推出前後的趨勢都沒有什麼變化。如果說AI有著影響經濟的潛力,我們應該可以看到某種正在醞釀的變化趨勢,例如使用者慢慢開始跑贏,但這樣的分化始終沒有出現。這讓研究者判斷,AI 工具沒有帶來顯著變化,並不是因為時間還不夠,而是它在實際工作中產生的影響本身就可能非常有限。對於這種情況,作者們已經不覺得奇怪了。他們認為,大語言模型目前的境況,並非沒有先例。他們引用了諾貝爾經濟學獎得主索洛在1987年的那句經典評論:「你能在任何地方看到電腦的影響,唯獨在生產力資料中看不到。」電腦剛普及時的情形與今日的大模型頗為相似,技術迅速擴散,社會關注度極高,但在工資、工時這些核心經濟資料中,仍難以看到清晰的變化。如今,大語言模型似乎也處在類似階段,技術迅速擴散,社會關注度極高,但它的經濟效應,還沒有體現在工資、工時這些核心經濟資料中。02. 人人用AI,沒人漲工資「大語言模型並沒有改變經濟」的結論,可能會引起一連串疑問。是不是企業還沒大規模部署?還是員工還沒有開始真正使用?又或者丹麥的經濟環境特殊,自成一體,在這波生成式人工智慧熱潮裡不受影響?事實上,作者之所以選擇丹麥,正是因為它是觀察這場技術衝擊的理想樣本。別看丹麥常被視為北歐福利國家的典範,但在某些方面,它和美國更像。兩國的企業用工靈活,招募和解僱的成本都很低,企業可以根據市場變化迅速調整人員配置。在工資談判中,個人協商比工會主導更常見。這種制度安排意味著,一項新技術如果有足夠的影響力,企業很快就能做出反應去吸收和改變新技術,員工的收入和工作內容也更可能隨之改變。在技​​術應用方面,丹麥員工同樣處於前列,他們對使用ChatGpt之類AI工具的比例已與美國相當。其次,丹麥的勞動市場和美國也有共同點,兩國和員工直接談工資的情況,比和工會談工資更常見。這種環境,很適合作為考察新技術影響勞動市場的試驗場。調查顯示,大多數丹麥僱主都在積極推動員工使用生成式AI。大約43% 的員工表示,公司明確鼓勵使用這類工具,另外還有21% 的員工說,雖然公司沒有明說,但也默認他們可以用。真正禁止使用的企業只佔6%。在那些明確鼓勵使用AI 的公司裡,員工使用ChatGPT 等工具的比例從47% 提高到了83%;每天使用的比例也從7% 增加到21%。還有38% 的公司更進一步,已經上線了自有的內部模型,多數是根據企業的具體業務訂製的。與此同時,大約30% 的員工也在公司支援下接受了相關培訓。AI 工具的確能起到提升效率的作用,但是不多。研究發現,大多數使用者確實從中獲得了效率提升,不同行業中有64% 至90% 的員工表示自己節省了工作時間,平均節省幅度為2.8%。在僱主鼓勵使用的情境下,營銷人員的時間節省可達6.8%,軟件開發人員可達到6.5%。過去有一些研究顯示AI能提高15%的生產力,作者認為這些研究是高估了AI的作用。這些研究往往聚焦在節省時間最為顯著的崗位,例如客戶和IT 支援、行銷、人力資源以及軟件開發等崗位。相較之下,教師、會計師和財務顧問通過AI節省的時間大約只有前者的一半。而且現實資料也和規模有限的受控實驗不一樣。對打工人來說最關鍵的是,這些「AI紅利」並沒有明顯轉化為收入成長。研究估算,員工效率提升中,只有3% 到7% 最終反映在工資上。換句話說,ChatGpt這類AI工具已經被不少員工用起來了,而且用得不算少。但它帶來的提升並沒有反映在勞動者的回報上,漲工資還是遙遙無期。03. 薪水沒變,工作內容在變雖然現在AI還沒有幫助員工漲工資,節省的時間也有限,但它確實改變了一部分的工作內容。在2024年的調查中,17%的員工報告因使用ChatGPT 等生成式AI而承擔了新的工作任務,其中10.9%是完全新任務,4.4%是在原任務基礎上的擴展,1.7%兩者兼具。這些新任務並不只出現在使用AI工具的員工身上。即使是沒有用過ChatGPT 等生成式AI的工人中,也有大約5% 報告說,AI的出現讓他們承擔了新的工作內容。例如在教師群中,有10% 到15% 的不使用AI工具的老師,也要檢查學生作業是否由AI產生。AI帶來的新工作主要體現在幾個方面。首先是AI系統的整合和適配,特別是在IT支援和軟體開發領域,約有15%到40%的工作涉及設計提示詞、最佳化AI輸出、糾正錯誤以及把AI結果融入日常流程。作者認為,這符合生產力J曲線理論,也就是在通用技術早期,企業需要花費相當的人力物力來重塑流程、培訓員工、建立規範,等於在為未來的效率打基礎。這個過程中,新技術帶來的「紅利」往往被「適配成本」所抵消,所以難有立竿見影的效率提升。其次,AI在內容創作上的幫助越來越普遍,例如在行銷、新聞寫作和辦公支援中,許多人用AI來寫初稿、起草報告、構思郵件,甚至寫程式碼,改變了傳統的文字工作方式。第三,教師和法律行業出現了更多與倫理和合規相關的新任務。教師需要判斷學生作業是否由AI完成,法律工作者則要制定AI使用規則,確保輸出內容合法。最後,雖然範圍較小,但還有一部分工作是利用AI幫助創新,例如協助頭腦風暴、分析資料和提出方案,這部分工作佔比一般在5%到20%。這種工作內容的變化,並非完全自動發生。資料顯示,僱主是否鼓勵使用AI、是否提供培訓,是影響任務變動強度的關鍵因素。在企業積極部署的情況下,新任務的出現機率提升20%-50%,時間節省、創造力提升和工作品質改善的自我報告也顯著上升。值得注意的是,這些新增工作內容並沒有伴隨「舊任務」而消失。研究並未發現AI使用者被減輕原有職責,或被調整崗位的系統性跡象。AI工具節省了一部分時間,但打工人們沒有得到摸魚休息的時間。相反,大多數人表示,他們只是把AI節省下來的時間用在了別的工作上,80%的受訪者會把這部分時間投入其他工作,25%的員工把省下的時間,又投入到原本就節省了時間的那部分工作裡,把這些工作做得更精細。真正把省下時間拿來休息的不到10%。AI幫你省了時間,但你的時間還是屬於工作。更快幹完,不代表能早點下班,不代表能多拿一分錢。 (知識分子)
Claude 4 核心成員:2027 年,AI 將自動化幾乎所有白領工作
AI coding 這條AI 產業今年的主線,在最近這段時間愈發清晰。除了上周刷屏的程式設計新王Claude Opus 4 ,新版 DeepSeek R1 也把更新重點也放在了程式碼能力,不久前OpenAI 還以30 億美元收購AI 程式設計助手Windsurf,隨後就發佈了程式設計智能體Codex。這幾天,原Kimi 產品負責人明超平,在和京東打仗的美團,都官宣了AI 程式設計相關的產品。Reddit 上一位擁有30 多年經驗的C++ 開發者發文表示,Claude Opus 4 解決了一個困擾他四年的Bug,而且是他用過的第一個能做到這件事的AI。為什麼Claude 在程式設計上的表現如此突出?現在提到Anthropic,大家幾乎就默認它是一家「做程式設計模型的公司」了。但對他們自己來說,這一代模型的真正突破點在那?未來又會怎麼走?幾天前,Claude Opus 4 核心研究員Sholto Douglas 參與的一場播客對話,詳細回應了這些問題,資訊量很大,值得一聽。核心討論點(省流速看版):Claude Opus 4,有那些真正值得關注的突破點?首先是能力升級得非常均衡。一方面,它的程式碼執行力顯著增強,不僅能理解複雜需求,還能獨立尋找資料、運行測試、偵錯錯誤,真正具備了「從頭跑到尾」的能力。另一方面,任務時間跨度也被顯著拉長,支援多步驟推理和操作,這意味著它不僅聰明,而且很能堅持。而在架構上,Claude Opus 4 加入了工具呼叫與長期記憶模組,使得它能夠處理更具上下文連續性的任務。從程式碼助手,邁向了具備「解決方案設計」能力的智慧代理。當然,天花板也不是沒有。團隊坦言,完成任務的智力複雜度沒有明確的上限——難點在於,如何擴大模型能感知和操作的脈絡範圍,使其能夠使用多種工具、記住更多關鍵資訊。未來怎麼走?Sholto Douglas 在播客裡提到了幾個明確的方向:🚀 強化學習(RL)將持續推動模型在連續任務中的表現;⏳ 程式碼代理將能連續運行數小時,人類只需偶爾干預;👩‍💻 模型可能成為知識型崗位的「虛擬遠端員工」;🤖 若自動實驗室與機器人平台建設跟上,模型可參與真實物理任務,如生物實驗或製造。但有個前提是:智慧代理的可靠性必須跟得上。雖然現在還做不到100% 成功,但在限定時間內,成功率正在穩定上升。預計2025 年底,程式設計類智慧代理可望實現「幾個小時穩定跑」,人類只需偶爾檢查。那除了寫程式碼呢?程式設計只是模型能力的「領先指標」。醫學、法律等專業領域還在等待資料與工具的完善,一旦準備就緒,同樣會迎來快速突破。目前的瓶頸,不在AI 本身,而在現實世界的驗證機制和基礎設施。到2027–2030 年,模型幾乎可以自動化所有白領工作,但如果沒有匹配的實驗室和現實反饋機制,那就是「能力強、落地難」。怎麼判斷模型是不是真的進步了?團隊提到,好的評估系統(Evals)特別重要。它不僅測技術指標,更強調評估者的專業知識與品味。這也是為什麼,模型評測這件事,門檻越來越高。同時,也需要使用者不斷使用、互動和回饋,形成真正的「共進化」。實驗室vs 應用公司,誰佔上風?Douglas 認為,實驗室已通過開放API 帶來機會,但核心優勢仍在:⚡ 算力轉化能力;🤝 模型的「可僱傭性」和使用者信任;🎯 更高的個性化理解力。實驗室像「智慧引擎」製造商,專注能力極限;應用公司更擅長落地和使用者體驗。未來,二者之間會有越來越多的交叉、融合與競合。那模型公司會不會因為成本和底層優勢,讓其他公司無路可走? Douglas 的看法是:不會,相反這恰恰帶來了活力。他認為,所有的護城河終將被打破,真正重要的是:顧客關係、任務編排、整合體驗。最後一個關鍵詞:「對齊」隨著模型能力提升,「對齊」問題愈加重要。 Anthropic 正推進可解釋性研究,試圖「看懂模型在想什麼」。強化學習雖能提升能力,但也可能破壞現有的對齊機制,未來需依靠大學、政府與更多研究者共同推進「對齊科學」。原始視訊連結:https://www.youtube.com/watch?v=W1aGV4K3A8Y以下是訪談實錄,APPSO 編譯略作調整主持人:Sholto Douglas 是Anthropic Claude 4 模型的核心成員之一,這次和他聊得非常盡興。我們聊了很多話題,包括開發者如何看待Anthropic 這一代新模型的發展趨勢。我們討論了這些模型未來6 個月、12 個月,甚至2 到3 年後的發展走向,也談到了建構可靠AI代理所需的關鍵因素,以及這些模型在醫學和法律等專業領域何時能取得像程式設計領域一樣的突破。此外,Douglas 還分享了他對「對齊研究」的看法,以及他對「AI 2027」預言的反應。這是一場精彩的對話,相信大家會喜歡。Claude Opus4 的重要突破與未來可能主持人:這期播客上線時,Claude 4 肯定已經發佈了,大家應該已經開始體驗它了。我很好奇,你是最早接觸這些模型的人之一,那方面最讓你興奮?Douglas: 這確實是軟體工程上的另一個飛躍。 Opus 模型真的在這方面表現得非常出色。我常常會遇到這樣的時刻:我向它提出一個非常複雜的任務,涉及我們龐大的程式碼庫,它居然能幾乎完全自主地完成任務。它會自己去尋找資訊、理解需求、運行測試,整個過程非常獨立有效率。每次看到這種表現,我都覺得震撼。主持人:每次有新一代模型出來,我們都要重新調整自己的認知模型,去判斷什麼方法有效,什麼不行。你在程式設計中對這些模型的使用和理解有發生什麼變化嗎?Douglas: 最大的變化我覺得是時間跨度(time horizo​​​​n)方面的提升。我覺得可以從兩個維度來理解模型能力的提升:一個是任務的智力複雜度,另一個是它們能夠有意義地推理和處理的上下文量,或者說連續動作的數量。這些模型在第二個維度上提升特別明顯,它們真的能執行多步驟操作,判斷需要從環境中獲取那些資訊,然後基於這些資訊採取行動。再加上它能呼叫工具,例如Cloud Code,就不只是簡單複製貼上了,執行力更強了。現在我可以看到它連續工作好幾個小時,效率相當於人類連續勞動。主持人:那你覺得第一次使用Claude 4 的人,應該從什麼開始嘗試?Douglas: 我覺得最好的方式是直接讓它參與你的工作。例如你今天打算寫什麼代碼,就直接讓它幫你做,觀察它怎麼判斷資訊、怎麼決定下一步。我保證你會被它的表現驚豔到。主持人:這代模型更強了,也有不少人打算用它來建構產品。你覺得對開發者來說,新的可能性在那裡?Douglas: 我一直很喜歡「產品指數成長」(product exponential)這個說法。開發者需要不斷超前模型能力去構思產品。像是Cursor、Windsurf、Devon 這些例子很典型。 Cursor 在模型能力還不夠強時,就已經開始建立未來編碼體驗,直到Claude 3.5 和Sonne 出現,他們的願景才真正落地。而Windsurf 更進一步,佔據了部分市場。他們的成功就是抓住了這個指數成長窗口。現在你可以看到Claude Code、新的GitHub 整合、OpenAI 的Codecs、Google的編碼代理等等,大家都在圍繞「編碼代理」這個概念發力,目標是實現更高的自主性和非同步操作。未來,可能不再是你每分鐘操作一次,而是你像管理一個AI 模型艦隊一樣,多個模型各自承擔任務並協同工作。我覺得這個方向非常值得探索。主持人:你有看過類似那種「多模型平行協作」的場景嗎?會是什麼樣子?Douglas: 我認識很多在Anthropic 的朋友,他們會同時在不同環境裡跑多個Claude Code 實例,看起來挺酷的。但說實話,現在還沒人真正搞清楚這種操作該怎麼做。這其實是在探索人類的「管理帶寬」(management bandwidth)能有多大。我覺得這是未來經濟發展的關鍵問題之一:我們該如何衡量模型的生產力回報率?一開始我們還是得人工檢查模型的輸出,這意味著模型的影響力會被人類管理能力所限制。除非有一天我們可以信任模型去管理模型,這種抽象層級的升級會非常關鍵。主持人:所以說,如果你是每15 分鐘檢查一次模型,跟每小時、每5 小時檢查一次,那你能管理的模型數量會差很多?Douglas: 對,黃仁勳說過類似的話。他說自己被十萬個超級智慧AGI 包圍著,擁有巨大的槓桿力。他還說自己是Nvidia 管理鏈條上的「控制因子」。我覺得未來可能真會往這個方向發展。主持人:說不定未來最重要的產業就是「組織設計」本身了。Douglas: 對,包括如何建立信任、組織結構會有多複雜,這些都值得深入思考。秘密武器:時間跨度拉長,RL驅動智慧代理升級主持人:你之前在McKinsey 工作過一年,諮詢業是否也可以基於這些模式發展出新產品線?我也蠻認同你剛才說的:應用公司得比模型進步快一步。像Cursor 起初產品落地難,但模型能力一到位就爆發了。那你覺得,「領先一步」具體意味著什麼?Douglas: 就是不斷重塑你的產品,讓它始終對接幾個月後模型的最新能力。同時你還要保持和使用者的緊密聯絡,確保產品已經在用,但還能吸收更先進的模型功能。主持人:我覺得這個就是秘訣──如果你還在等模型再提升點再動手,別人可能已經把使用者搶走了。你們在記憶、指令執行、工具使用這些方面都做了不少突破。你能簡單總結一下目前各方面的進展嗎?那些成熟了,那些還在探索?Douglas: 一個理解過去一年進展的好方法是:強化學習(RL)終於在語言模型上真正發揮作用了。模型能解決的任務智力複雜度基本上沒有天花板,例如它們能搞定複雜的數學和程式設計問題。但這些任務大多在受限的上下文裡完成。記憶和工具使用的挑戰,其實在於擴大模型能感知和操作的脈絡範圍。例如像MCP(Model Context Protocol)這類機制,讓模型可以與外部世界互動,記憶則讓它處理更長時間跨度的任務,也帶來了更個性化的體驗。這些進展本質上都是在建構「智能代理」的關鍵能力鏈。順便一提,寶可夢評測(Pokemon eval)就是一個挺有趣的實驗方式。主持人:我小時候可是遊戲迷。我覺得這是個很棒的評測,希望你們能跟這個模型一起發表。Douglas: 確實,這次評測特別有趣。模型並沒有專門訓練玩寶可夢,但它依然能很好地完成任務,展現出很強的泛化能力。這種任務雖然不是完全陌生的,但和它以前做過的都不一樣。主持人:我還記得遊戲裡有很多階梯和迷宮,模型也能幫你過關。Douglas: 沒錯,我特別喜歡的另一個例子是我們最近做的「可解釋性代理」。它原本是一個程式設計代理,但卻能自動學習、使用神經元可視化工具、進行自我對話,試圖理解模型內部結構。它甚至能通過一個叫做「審計遊戲」的安全評測——找到模型故意設定的錯誤點,自己產生假設、驗證問題。這種工具+記憶下的泛化能力,真的非常精彩。智慧代理的命門:可靠性主持人:聽起來智慧代理真的越來越強大了。你以前也說過,VA 代理的關鍵是「可靠性」。你覺得我們現在在那個階段了?Douglas: 從「在一定時間內的成功率」來看,我們已經進步很大了。雖然還沒有達到100% 的穩定性,模型第一次嘗試和多次嘗試之間仍有差距。但從趨勢來看,我們正在朝著「專家級可靠性」穩步邁進。主持人:那你覺得,什麼情況會讓你改變這種樂觀的看法?Douglas: 如果明年中模型在任務持續時間上遇到瓶頸,那值得警惕。例如,程式設計是個很好判斷進展的領先指標——一旦它開始下滑,說明可能有結構性問題。當然,也可能是資料太稀缺,例如「像人一樣用軟件」這類任務訓練起來很難。不過我們現在反而看到這類任務的驚人進展,所以整體看我還是很樂觀。主持人:那你覺得我什麼時候能有一個「萬能助手」,可以替我填寫各種表格、上網查資料之類的?Douglas: 「個人行政助理代理」是個熱門話題啊,誰不想把瑣事交給AI 呢?不過這件事還真得看情況關鍵是模型有沒有練習過類似情境。你不能隨便找個人來做財務工作,對吧?但如果它是受過訓練的「虛擬會計師」,那就靠譜多了。所以任務是否靠譜,很大程度取決於訓練背景。如果進展順利,今年底我們就能看到這些代理在瀏覽器裡操作任務;明年基本上就會成為標配。主持人:挺令人期待的。你們模型在程式設計上的表現這麼突出,是刻意優先訓練的嗎?現在大家一提Anthropic,就會聯想到「程式設計模型」。Douglas: 確實。我們非常重視程式設計這個方向,因為它是加速AI自我研究的關鍵路徑。我們也投入很多精力在衡量程式設計能力的進展。可以說,我們就是刻意聚焦在這一塊。主持人:那這些代理現在已經在加速AI 研究了嗎?Douglas: 在我看來,確實如此。它們顯著提升了工程效率。就連我認識的一些頂尖工程師也說,在熟悉的領域裡,效率提升了1.5 倍;但在不熟悉的領域,例如新語言或生疏內容,提升甚至達到5倍。所以在「跨界」時,幫助更明顯。關鍵在於:你是否認為我們現在的瓶頸是算力?如果不是,那讓AI 代理參與研究,相當於擴充了一整個研究團隊,效率提升是數量級的。主持人:我猜這些代理商主要還在處理繁瑣任務,幫你省下時間思考更重要的問題。那麼它們什麼時候能開始主動提出有價值的研究想法呢?Douglas:現在主要還是做工程類任務,但已經開始有些創意冒頭了。我不敢說三個月內會爆發,但兩年內我們應該能看到它們提出越來越有趣的科學性想法。當然,這也取決於是否有良好的回饋機制。就像人一樣,模型也需要通過練習和試錯,在復雜任務中掌握知識,最終實現高品質產出。主持人:是因為這些領域相對來說比較容易驗證對吧?會不會出現這種情況── AI 在程式設計上突飛猛進,但在醫學、法律這些不容易驗證的領域卻沒什麼進展?Douglas: 確實有這個風險。但好消息是,機器學習研究本身驗證門檻也很低,例如「損失值有沒有下降」就是一個很明確的指標。只要模型能在ML 研究中提出好點子,那它就掌握了一個非常強的RL 任務,比許多軟件工程任務還適合AI。醫學這類領域雖然難驗證,但也在進步。 OpenAI 最近做了一篇醫學問答論文,透過更細緻的評分機制來量化長答題,這種方法我覺得很有前景,未來必然會逐步解決驗證難的問題。主持人:那「最終」是指什麼時候我們能擁有一個真正優秀的醫學或法律助理?它們會成為大模型的一部分嗎?Douglas: 肯定會的。主持人:你是覺得它們會變成更大的通用模型的一部分?還是會有專門為醫療或法律設計的專用模型?Douglas: 對。我算是個「大模型至上主義者」。雖然個性化很重要——你希望模型理解你的公司、工作習慣、個人偏好,但這些定製應該是在公司或個人層面進行,而不是按行業拆分模型。我們和Databricks 的合作就體現了這種企業訂製的方向,但在底層能力上,我堅信還是得依賴單一強大的通用模型。未來我們應該根據任務複雜度動態分配算力(例如FLOPs),而不是搞一堆不同的小模型。這就是我看好大模型路線的原因。「AI 2027」 :白領工作或許全盤被取代?主持人:你對模型的持續進步很有信心。很多人都在想,模型能力提升後會如何影響社會?例如一個常見的問題是:這些模型未來幾年會對全球GDP 產生多大影響?Douglas: 我覺得最初的衝擊可能會像中國崛起一樣,像上海幾十年的變化,但這一次的速度會快得多。不過我們得區分一下不同領域的影響方式。到2027 或2028 年,我們幾乎可以確定會有模型能夠自動化幾乎所有白領工作,2030 年前後就更穩了。這是因為白領任務非常適合現有AI架構——有數據、有回饋,而且基本上都能在電腦上完成。但機器人或生物研究就完全不一樣了。例如你要做一個超級程式設計師模型,只需要大量程式碼和算力就行;但要做一個超級生物學家模型,就需要自動化實驗室來提出、驗證假設,跑大規模實驗。這類硬體和基礎設施,我們還遠遠跟不上。所以我擔心會出現一種「錯配」:白領工作的變化非常快,而現實世界中那些真正能提升人類生活品質的行業——比如醫療、製造業——卻因為基礎設施不足而發展緩慢。 AI本身很強,但要讓它在現實世界裡發揮作用,我們必須提前建造「物理世界的配套設施」,例如雲端實驗室、機器人平台。主持人: 但到那個時候,我們可能已經有數百萬個AI研究員在提出實驗了。他們可能並不需要那麼大規模的機器人系統或生物資料。Douglas: 確實,AI 進展飛快,但要讓這些能力真的轉化為GDP 成長,我們得把「現實世界的回饋機制」也拉上來,才能真正釋放技術價值。主持人:所以你認為,未來每一種白領職業都能像醫學一樣建構一套評估機制?其實讓我最驚訝的一點是,我們不需要太多資料,也能訓練出這麼強的模型。Douglas: 完全同意。我們已經證明了模型可以學會各種任務,而且目前還沒有看到明顯的智力上限。雖然模型的樣本效率可能不如人類,但這不重要──因為我們可以同時運行上萬個模型副本,它們平行嘗試不同路徑,累積「虛擬經驗」。即使效率低一點,也能在規模上補回來,最終達到人類等級甚至更強。主持人:聽起來你覺得目前這套方法就足以應對未來的發展。有人認為我們還需要新的演算法突破,你怎麼看?Douglas: 目前大多數AI專家都相信,「預訓練+ 強化學習」(pre-training + RL)這一範式足以通往通用人工智慧(AGI)。到現在為止,我們並沒有看到這一路線出現減緩的跡象,而這個組合是有效的。當然,也有可能存在其他更快的突破路徑,甚至可能還有新的「高峰」需要攀登。例如,Ilya(Sutskever)可能是這兩種主流範式的共同發明者,我不會去質疑他。所有的證據都表明,目前的技術路線已經足夠強大。當然,也有可能Ilya 選擇新路線是因為資金有限,或者他認為那是更好的路徑,但從我個人的角度來看,我相信我們現在的技術路線能夠帶我們實現目標。主持人:那接下來的瓶頸會不會就是能源?你覺得我們什麼時候會真正遇到這個問題?Douglas: 我覺得到2028 年,美國可能會有20% 的能源用於AI 。如果我們要再提升幾個數量級,就需要進行劇烈的能源結構轉型。政府在這一領域應該承擔更多責任。例如,中國的能源產能成長遠超過美國,所以這會是未來的關鍵瓶頸。模型進步的標尺-靠譜的評測體系主持人:在模型進步的浪潮中,你認為最值得關注的指標是什麼?例如從Claude 4 到下一代模型的發展方向?Douglas: 很多公司內部都有非常嚴格的評測體系,我也很喜歡在這些評測上「爬山」。像「Frontier Math」這樣的複雜測試非常有挑戰性,是模型智力的極限。更重要的是,我們需要開發能真正捕捉「工作流程時間跨度」的評測,涵蓋一個人一天的工作節奏。這種評測能幫助我們更好地評估模型是否接近或超越人類能力。我認為政府應該在這個領域發揮作用。主持人:作為一個基礎模型公司,除了演算法和基礎設施,你們要攻克的核心挑戰之一也應該是建構好的評測體系。你覺得「評測能力」在你們內部的重要性如何?Douglas: 評測能力絕對是重中之重。沒有好的評測體系,你無法知道自己是否進步。公開評測很難做到完全「持出」(held-out),我們依然需要一個值得信賴的、穩定的內部評測系統。主持人:我還注意到,一些在你們模型上建立應用的開發者,他們對評測的思考也非常有幫助。特別是當你們想進入不同垂直行業時,例如物流、法律、財會等,外部開發者的回饋可能比你們內部更理解實際情況。Douglas: 沒錯,而且這還要求非常強的專業知識和「品味」(expertise and taste),還要有對行業的深刻理解。過去,我們只需要普通人來選擇那個答案比較好,但現在我們需要領域專家來做評估。例如,如果讓我評判生物學領域的模型輸出,我可能完全無法判斷那個更好。成為使用者的朋友:模型的個性化與品味主持人:你剛才提到「品味」(taste),我也覺得很有趣。例如現在很多模型都開始加入記憶系統,使用者和模型之間的互動方式也在改變。許多AI 產品真正成功,是因為它們找到了某種「共鳴」或抓住了某種文化氣質(zeitgeist)。像你們當初提到的金門大橋的例子,還有其他很多帶感的小功能,這種「使用者氛圍感」的個性化未來會走向什麼樣?Douglas: 我其實覺得未來可能會出現一種「怪異的」情景:你的模型變成你最聰明、最有魅力的朋友之一。確實有些人已經把Claude 當成朋友了,我認識很多人每天花好幾個小時在跟Claude 聊天。但我覺得我們目前其實只探索了「個性化」這件事的1%。未來模型對你的理解、對你喜好的把握,會深得多。主持人:那這種「理解使用者」的能力該怎麼做得更好?是靠一些很有審美、有判斷力的人來訓練出這種品味嗎?這個問題該怎麼解決?Douglas: 很大一部分確實是靠「有品味的人」來決定產品方向。就像Claude 的對話體驗好,很大程度是因為Amanda(團隊成員)對「美好產品」的審美非常強。這種「獨特的品味」是非常關鍵的。傳統的回饋機制例如「點贊/點踩」容易導致模型輸出不自然,所以我們需要新的方式來收集回饋。模型本質上是強大的「模擬器」,如果能為模型提供足夠的使用者上下文,它們就能自動學會理解使用者的偏好、語氣和風格。所以,解決方案是結合有品味的人的設定和使用者與模型之間的持續互動。實驗室公司vs 應用公司:開放與競爭主持人:那麼接下來6 到12 個月,你的預判是什麼?Douglas: 接下來,重點是繼續擴展強化學習(RL)系統,看它能將我們帶到什麼高度。模型能力會飛速提升,尤其是到年底,代碼代理將成為關鍵指標。到那時,模型應該能夠持續工作幾個小時,並穩定地完成任務。主持人:你指的是,人類檢查時間會變得更少,對吧?Douglas: 是的,當前使用Claude Code 時,有時每幾分鐘就需要檢查一次,但到年底,我們可能能看到模型能獨立完成多個小時的任務,而不會出錯。未來我們應該能實現「完全託管」,甚至像「星際爭霸」一樣管理多個任務平行推進,模型的操作速度將更有效率。主持人:你剛才提到了Codec、Google的Joule,還有一些新創公司也在做類似的東西。Douglas:是的,我們其實也要推出一個GitHub 代理(GitHub agent)。你可以在GitHub 上的任何地方呼叫,例如說「@Claude」,然後我們就能自動接手任務,為你完成一些工作。主持人:開發者選擇使用那一種工具或模型,最終會受到那些因素的影響?Douglas:除了模型的能力外,開發者與公司之間的信任和關係也非常重要。隨著模型能力的拉開差距,開發者可能會考慮不僅是技術指標,而是與公司一起打造未來的使命感。主持人:尤其是在當前發布節奏越來越快的背景下,感覺每個月都會有新模型登場。今天這個模型在某個評測上登頂,明天另一個又在別的評測上領先,大家都被各種對比資訊淹沒了。Douglas:沒錯,其實這就是為什麼「GPT包裹器」(GPT wrappers)反而意外走紅了。大家原本沒想到,當包裹器的好處之一是:你可以永遠站在最前線的模型能力上。主持人:我感覺所有不想當「包裹器」的人,最後都像是把錢燒光了。道格拉斯:完全同意。所以「衝浪」在模型能力的最前沿,是一件非常美妙的事。當然,也有相反的一面:有些東西,只有你掌握底層模型才能預判得出來,才能看清趨勢線,才能真正建構深度產品。比如說,很多「深度研究型」的AI應用,內部需要做大量的強化學習(RL)訓練,這種產品從外部是很難模仿的,必須在實驗室內部建構。主持人:能不能展開說一下這點?因為現在像OpenAI、Anthropic 這些公司,似乎也越來越開放,讓外部開發者可以參與。但很多人心裡都在想:那些東西是「實驗室專屬」的?那些又是開放給大家、任何人都可以競爭的?Douglas:這是個很關鍵的問題。 RT API(可微調API)的開放確實在改變一些格局,現在有更多價值可以由專注於某一垂直領域的公司來創造。但與此同時,實驗室仍具備「中心化優勢」。例如,OpenAI 會給允許他們在你模型輸出上繼續訓練的客戶提供某些折扣。換句話說,他們不僅是模型提供者,也是資料的二次使用者。這種中心化優勢是非常強的。至於「實驗室獨有優勢」是什麼?我覺得有幾個維度:算力轉換能力:你有多強的能力能把算力(FLOPs)、資金、資源,轉化成智能(Intelligence)?這就是為什麼Anthropic、OpenAI、DeepMind 等公司在模型表現上非常突出;模型的「可僱傭性」:當模型逐漸變成「虛擬員工」,你是否信任它?你是否喜歡它?你是否願意把任務交給它處理?個性化能力:模型能否理解你的脈絡、你公司的工作流程、你個人的偏好,這些也會變成差異化競爭的關鍵。總結來說,實驗室級公司最擅長的,是做出頂級模型,把算力轉化成智慧;而「應用層」的公司,可以透過專注、個性化、產品體驗,在自己的領域佔據一席之地。但兩者之間會有越來越多的交叉和協作。主持人:我猜,你們的模型也有很多人用來建構通用代理吧?這些公司不做模型本身,而是透過編排和智慧鏈呼叫來做事。你覺得這種方式會不會因為模型公司的成本優勢而註定失敗?Douglas:我並不認為這是一件壞事。相反,這種做法帶來了極大的競爭活力,大家都在探索什麼樣的產品形態最適合。確實,模型公司有一些優勢,例如我們能直接接觸底層模型,做更深入的微調,而且知道那些能力值得優先強化。說到底,所有的「護城河」最終都會消失——當你可以「隨時啟動一家公司」的時候,一切都會被重構。所以未來最核心的價值在那裡?是在客戶關係?在編排和整合能力?還是在把資本高效轉化為智慧的能力?這仍然是個複雜的問題。研究員洞見:強化學習的潛力與對齊的挑戰主持人:過去一年裡,有什麼你改變看法的了嗎?Douglas:在過去的一年,AI 進展加速,去年我們還在懷疑是否需要更多的預訓練算力才能達到理想中的模型能力,但現在已經有了明確的答案:不需要。強化學習(RL)證明了有效,到2027 年,擁有強大能力的「遠端數字勞工型」模型將變得確定。以前對AI的“希望”和“擔憂”從“可能”轉變為“幾乎確定”。主持人:那你覺得未來我們還需要大量擴展資料規模嗎?還是說,等到Claude 17 出來,模型演算法已經改進到只需要少量新資料?Douglas:很可能我們不再需要大幅擴展資料規模,因為模型的「世界理解能力」會足夠強,甚至能反過來指導機器人學習並提供回饋。有個概念叫做「生成者-驗證者差距」(generator-verifier gap),生成內容通常比執行它容易。這個路徑會持續提升模型能力。在機器人領域,認知的進展遠超物理操控世界的能力,這就是未來巨大的潛力。主持人:那你怎麼評價當前「AI對齊(Alignment)研究」的狀態?Douglas:可解釋性(Interpretability)研究已經取得了驚人的突破。去年我們剛開始理解「超位置」(superposition)和神經元特徵,Chris Olah 及其團隊的工作就是一個巨大飛躍。現在,我們已經能在前沿的大模型中識別出「電路級」的結構和行為特徵。有一篇精彩的論文研究了大語言模型的「生物學」,展示了它們如何清晰地推理概念。雖然我們還沒有完全破解模型的行為機制,但已經取得了令人驚嘆的進展。不過,值得注意的是,透過預訓練,模型能吸收並表現出人類的價值觀,某種程度上是「默認對齊」的;但一旦進入強化學習階段,這種對齊就不再得到保證。例如之前提到的「明知做不到就去下載Python 庫繞開的模型」,它是在目標導向下「想盡一切辦法完成任務」。這種學習過程本質上是「以目標為導向的手段優化」,而如何監督和把控這種模型行為,是目前所有人都在探索的重要挑戰。主持人:大概一個月前,「AI 2027」的話題被討論得很多。當時看到這個的時候,有什麼反應?Douglas:說實話,我覺得它非常可信。我讀那篇文章的時候,很多內容我都在想,「是的,也許事情真的就是這樣發展的。」 當然也存在一些分支路徑,但即使它只是個20% 的可能性,對我來說光是它有20% 的機率這件事就已經夠驚人了。主持人:你說20% 的可能性,是因為你對對齊(alignment)研究比較樂觀,還是你認為進展會比較慢一點?Douglas:整體上我對對齊研究比他們更樂觀。也許我的時間線比他們慢一年左右,但在這種大趨勢下,一年能算什麼呢?主持人:取決於你怎麼利用這一年。Douglas:對,如果你能充分利用它,做出正確的研究,確實能產生很大差異。主持人:那如果讓你當一天的政策制定者,你覺得我們應該做些什麼,來確保未來朝著更好的方向發展?Douglas:這是個好問題。最重要的是,你得真切感受到我們這些人正在看到並討論的趨勢線。如果沒有,你就要把國家關心的能力拆解開來,量化模型能否改進這​​些能力的程度,比如做一系列測試,看看如果模型能通過這些測試或在這些任務上取得顯著進展,那麼它就達到了某種智能的基準值,然後畫出趨勢線,看看在2027 或2028 年會發生什麼。主持人:就像國家級的評估系統(nation-state evals)?Douglas:對,例如你要把本國的經濟分解成所有的工作崗位,然後自問:如果一個模型可以完成這些工作,那這是不是就意味著它具備了真正的「智能」?你應該建立評估測試,把趨勢線畫出來,然後驚呼:「天那,那2027 或2028 年會怎麼樣?」下一步就是你要大規模投資於能讓模型更可理解、可引導、誠實可靠的研究,也就是我們說的對齊科學(alignment science)。有一點讓我感到遺憾──這個領域的推動大多來自前沿實驗室(Frontier Labs)。但其實我認為這本該是…主持人:那其他人能參與嗎?例如能用Claude 來做相關研究嗎?Douglas:不能。我的意思是,你仍然可以透過其他方式取得巨大進展。有一個叫做MAS 計劃的項目,很多人透過它在對齊研究、特別是可解釋性方面做出了有意義的成果,都是在Frontier Labs 之外完成的。我覺得應該有更多的大學參與這件事情。從很多方面來看,這其實更接近純科學:它是在研究語言模型中的「生物學」和「物理學」。主持人:但感覺這塊的研究熱度不高。Douglas:我不確定。我聽說在最近的一些會議上,例如ICML,機械可解釋性(mechanistic interpretability) 研討會居然沒有被收錄,這對我來說完全無法理解。在我看來,這就是對「模型內部機制」最純粹的科學探索。如果你想發現DNA 的螺旋結構、或像愛因斯坦那樣發現廣義相對論,那麼在機器學習/人工智慧這條技術樹上,對應的路徑就是研究機械可解釋性。主持人:那說說積極面吧。我們之前說未來幾年白領工作都會被自動化,但你覺得我們在那些方面還被低估了?Douglas:是的,模型肯定會自動化白領工作,但讓我吃驚的是,世界在整合這些技術方面進展得很慢。即便模型能力不再提升,現有能力就已經能釋放巨大的經濟價值,但我們還沒有真正圍繞這些模型重構工作流程。即便模型保持現狀,我們也能徹底改變世界。Douglas:這需要我們投資真正能讓世界變得更好的方向,例如推動物質資源的充足和高效管理,擴大物理學、娛樂產業的邊界等,並讓模型幫助我們實現這些目標。我的最大希望是讓人們更有創造力,能夠即興創造更多內容,如電視劇、電子遊戲等。人們將獲得巨大的賦能,未來將有無限可能。雖然模型會取代一些工作崗位,但每個人都會擁有更強的槓桿能力,社會的工作模式會發生巨變。主持人:你覺得現在AI 圈裡,那些東西被高估了,那些被低估了?Douglas:好,那我們先說被低估的。我覺得「世界模型(world models)」非常酷,但我們今天都沒怎麼討論它。隨著AR/VR 技術的進步,模型將能直接生成虛擬世界,這將帶來震撼的體驗。主持人:那需要一定的物理理解力吧,像是因果關係這些,我們現在還沒做到吧?Douglas:其實我覺得我們已經在某種程度上證明了模型具備物理理解能力。不管是在處理物理問題的evals 中,還是在一些視頻模型中都能看到這一點。例如我看過一個很棒的視頻,有人讓視頻生成模型把一個樂高鯊魚放到水下——它模擬了光線在樂高積木表面反射的樣子,陰影也放在了正確的位置。而這完全是模型從未見過的場景,是一次完整的泛化。這就是全面的物理建模能力了,對吧?主持人:你說即使現在模型停滯,依然能有大量應用開發。那些領域最被低估,尚未開發?Douglas:軟件工程領域已經很成熟,模型在程式設計上非常擅長。而幾乎所有其他領域,如法律、財會等,仍有巨大空間等待開發。尤其是智慧代理的應用,還沒有出現真正的非同步運行系統。其他領域空白,值得探索。主持人:人們常說程式設計是這些模型最理想的應用方向。Douglas:沒錯,它是個領先指標。但你應該預期,其他領域都會跟上來的。主持人:我記得你發過一張自己在Citadel 的照片,那是怎麼回事?Douglas:那是一場戰爭演習,邀請了情報機構和軍校學員模擬推演,假設AGI 到來,AI 變得強大,討論其地緣政治影響。主持人:那次經歷之後你是更害怕了還是安心了?Douglas:說實話,有點更害怕了。主持人:你覺得現在這類嚴肅的推演做得夠多了嗎?Douglas:不夠,很多人低估了接下來幾年技術發展的速度,也沒做好準備。即便你認為某件事只有20% 的可能性,也應該為此做好準備。每個技術鏈路的效率都還有巨大提升空間,未來目標幾乎是可以確定的。主持人:就像現在幾乎所有Anthropic 的人都已經達到了90% 的信心值?Douglas:幾乎所有團隊成員都非常有信心,到2027 年我們能實現「遠端即插即用的AGI 工作者」。即便信心較低的人也認為可能性有10-20%。因此,政府應當把這當作優先事項,並認真思考其社會影響。但目前這種緊迫感還遠遠不足。 (APPSO)