《大西洋月刊》丨人工智慧泡沫到底有多嚴重?

Just How Bad Would an AI Bubble Be?

整個美國經濟正依賴於人工智慧帶來的生產力提升預期,但這種預期似乎遠未成為現實。

插畫:《大西洋月刊》  圖片來源:Sean Gladwell / Getty; Flavio Coelho / Getty.

若說有那個領域已被宣稱因人工智慧崛起而使人類面臨淘汰,且超級智能時代已悄然降臨,那一定是程式設計領域。正因如此,近期一項研究的結果才格外令人震驚。

這項於7月發表的研究中,智庫“模型評估與威脅研究”(Model Evaluation & Threat Research,簡稱METR)將一組經驗豐富的軟體開發者隨機分組,讓他們在使用或不使用人工智慧工具的情況下完成程式設計任務。這是迄今為止對人工智慧在現實場景中表現最嚴謹的測試。由於程式設計是現有人工智慧模型已基本掌握的技能之一,幾乎所有相關人士都預計人工智慧會大幅提升生產力。在實驗前對專家的調查中,平均預測認為人工智慧能讓開發者的工作效率提升近40%。實驗結束後,參與者估計人工智慧讓他們的效率提高了20%。

但當METR團隊分析開發者的實際工作產出時,卻發現使用人工智慧的開發者完成任務的速度,比不使用人工智慧時慢了20%。研究人員對此感到震驚。“沒人預料到這個結果,”該研究的作者之一內特·拉什告訴我,“我們甚至根本沒考慮過效率下降的可能性。”

任何單一實驗都不能作為最終結論,但許多人工智慧專家認為,METR的這項研究已是目前最具說服力的成果——它也有助於解釋當下人工智慧領域看似矛盾的局面。一方面,美國正經歷一場由人工智慧推動的非凡經濟繁榮:得益於與人工智慧相關的科技巨頭估值飆升,股市一路走高;同時,數千億美元投入資料中心及其他人工智慧基礎設施,也為實體經濟注入動力。支撐所有這些投資的核心信念是:人工智慧將極大提升勞動者生產力,進而將企業利潤推向難以想像的高度。

另一方面,越來越多的證據表明,人工智慧在現實世界中並未實現預期效果。投入最多資金研發人工智慧的科技巨頭,距離收回投資仍遙遙無期。研究顯示,試圖融入人工智慧的企業,其利潤幾乎未受任何積極影響。而經濟學家們試圖尋找人工智慧導致就業崗位流失的證據,結果大多一無所獲。

這些現象並不意味著人工智慧最終無法如最狂熱的支持者所宣稱的那樣具備變革性。但“最終”可能意味著漫長的等待。這引發了一種可能性:我們目前正處於人工智慧泡沫之中,投資者的熱情已遠超該技術短期內能帶來的生產力收益。若這一泡沫破裂,其破壞力可能讓網際網路泡沫破裂相形見絀——而遭受損失的,絕不僅僅是科技巨頭及其矽谷支持者。

幾乎所有人都認同,程式設計是當前人工智慧技術最令人印象深刻的應用場景。在開展這項最新研究之前,METR最知名的成果是3月的一份分析報告:該報告顯示,最先進的人工智慧系統能完成普通人類開發者需近一小時才能完成的程式設計任務。那麼,為何在此次實驗中,人工智慧反而降低了開發者的生產力?

答案與“能力-可靠性差距”有關。儘管人工智慧系統已學會完成一系列令人驚嘆的任務,但在現實場景中,它們難以達到所需的穩定性和精準性要求。例如,METR 3月那份研究的結果基於“50%的成功率”,這意味著人工智慧系統僅能在一半的時間裡可靠地完成任務——這使其本質上無法獨立發揮作用。這種差距讓人工智慧在工作場景中的應用頗具挑戰。即便是最先進的系統,也會犯小錯誤或對指令產生輕微誤解,這就需要人類仔細檢查其產出,並在必要時進行修改。

最新研究中似乎就出現了這種情況。開發者最終花費大量時間檢查並修改人工智慧生成的程式碼——這些時間往往比他們自己直接編寫程式碼所需的時間還要多。一名參與者事後將這一過程描述為“相當於在數字世界裡,有個過分自信的初級開發者在你身後盯著看(指干擾工作)”。

自實驗開展以來,人工智慧程式設計工具的可靠性已有提升。此外,該研究聚焦的是專業開發者,而人工智慧提升生產力的最大潛力,或許在於增強(或替代)經驗不足的勞動者的能力。但METR的研究也可能高估了人工智慧相關的生產力收益。許多知識型工作任務比程式設計更難實現自動化——程式設計之所以易於自動化,得益於海量訓練資料和清晰的成功標準。“程式設計是人工智慧系統往往能做得極其出色的領域,”進步研究所(Institute for Progress)新興技術政策主任蒂姆·菲斯特告訴我,“因此,若連在程式設計領域,人工智慧都無法提高開發者的生產力,那可能會徹底改變人們對人工智慧如何影響整體經濟增長的看法。”

“能力-可靠性差距”或許能解釋,為何生成式人工智慧至今未能為使用它的企業帶來切實成果。麻省理工學院的研究人員近期追蹤了300個公開披露的人工智慧項目,發現95%的項目未能為企業利潤帶來任何提升。麥肯錫諮詢公司3月的一份報告顯示,71%的受訪企業表示在使用生成式人工智慧,但超過80%的企業稱該技術對收益“無切實影響”。鑑於這些趨勢,科技諮詢公司高德納(Gartner)近期宣佈,人工智慧已進入技術發展的“幻滅低谷期”(trough of disillusionment)。

或許人工智慧的發展只是暫時遇挫。史丹佛大學經濟學家埃裡克·布林約爾松認為,所有新技術都會經歷“生產力J型曲線”:起初,企業難以有效部署技術,導致生產力下降;但最終,企業會學會整合技術,生產力隨之飆升。最典型的例子是電力——19世紀80年代電力已出現,但直到20世紀10年代亨利·福特重新設計工廠生產模式後,企業才開始從電力中獲得巨大的生產力提升。一些專家認為,人工智慧經歷這一過程的速度會快得多。“就人工智慧而言,我們正處於J型曲線早期的下降階段,”布林約爾松告訴我,“但到21世紀20年代後半段,它肯定會迎來爆發。”Anthropic公司首席執行官達里奧·阿莫代伊預測,到2027年,“或稍晚一點”,人工智慧將“在幾乎所有領域都超越人類”。

這些預測的前提是,人工智慧將繼續保持過去幾年的快速發展勢頭。但這並非必然。新一代人工智慧模型屢屢遭遇延遲發佈或項目取消;今年發佈的模型,儘管研發成本遠高於以往,但總體上的重大改進卻更少。3月的一項調查中,人工智慧促進協會(Association for the Advancement of Artificial Intelligence)詢問了475名人工智慧研究人員:當前的人工智慧開發方法能否打造出與人類智力相當或超越人類的系統?超過四分之三的受訪者表示“不太可能”或“極不可能”。

OpenAI最新模型GPT-5歷經近三年研發、投入數十億美元後,於上月初發佈(《大西洋月刊》於2024年與OpenAI達成企業合作)。發佈前,首席執行官山姆·奧特曼宣稱,使用GPT-5“相當於指尖擁有了一位真正的、能應對任何領域的博士級專家”。在包括程式設計在內的少數領域,GPT-5確實實現了重大突破。但從衡量人工智慧性能的多數嚴謹標準來看,GPT-5充其量只是比之前的模型有小幅改進。

行業內的主流觀點認為,企業遲早會找到下一種推動人工智慧快速發展的方法。這種情況或許會發生,但遠非板上釘釘。

生成式人工智慧並非首個因過度炒作而風靡的科技潮流。當前局面的特殊性在於,人工智慧似乎正支撐著整個美國經濟的運轉。2023年以來,標普500指數超過一半的漲幅僅來自7家公司:字母表(Alphabet)、亞馬遜(Amazon)、蘋果(Apple)、元宇宙(Meta)、微軟(Microsoft)、輝達(Nvidia)和特斯拉(Tesla)。這7家公司被統稱為“七大科技巨頭”(Magnificent Seven),被認為在人工智慧革命中處於特別有利的地位,有望蓬勃發展。

然而,除了股價,這種“蓬勃發展”在其他方面幾乎未見蹤影(唯一例外是輝達——它為其他“七大科技巨頭”提供關鍵投入品,即先進晶片)。據《華爾街日報》報導,過去兩年,字母表、亞馬遜、元宇宙和微軟的自由現金流下降了30%。據估算,截至今年年底,自2024年初以來,元宇宙、亞馬遜、微軟、Google(Google)和特斯拉在人工智慧相關資本支出上的總投入將達5600億美元,而人工智慧相關收入僅為350億美元。OpenAI和Anthropic的收入可觀且增長迅速,但仍遠未實現盈利。它們的估值(分別約為3000億美元和1830億美元,且仍在上升)是當前收入的數倍(OpenAI預計今年收入約130億美元;Anthropic預計為20億至40億美元)。投資者正大舉押注:所有這些投入很快將帶來創紀錄的利潤。但如果這種信念崩塌,投資者可能會開始大規模拋售股票,導致市場出現劇烈且痛苦的回呼。

20世紀90年代網際網路革命期間,投資者基於“網際網路將徹底改變商業”的信念,向幾乎所有名稱中帶有“.com”的公司投入資金。然而到2000年,企業燒錢卻無實際成果的局面已十分明顯,投資者隨即開始拋售估值過高的科技股。2000年3月至2002年10月,標普500指數下跌了近50%。最終,網際網路確實改變了經濟,並催生了人類歷史上一些最盈利的公司。但這並未阻止大量投資者血本無歸。

網際網路泡沫破裂造成了嚴重影響,但並未引發危機。而人工智慧泡沫破裂可能會有所不同。佔經濟比重而言,當前人工智慧相關投資已超過網際網路泡沫鼎盛時期電信行業的投資水平。今年上半年,企業在人工智慧上的支出對GDP增長的貢獻,超過了所有消費者支出的總和。許多專家認為,美國經濟之所以能在關稅壓力和大規模驅逐移民的情況下仍未陷入衰退,一個主要原因在於,用一位經濟學家的話說,這些人工智慧支出起到了“大規模私營部門刺激計畫”的作用。人工智慧泡沫破裂可能會導致整體支出減少、就業崗位流失、增長放緩,甚至可能將經濟拖入衰退。經濟學家諾亞·史密斯認為,若為該行業擴張提供大量資金的不受監管的“私人信貸”貸款同時違約,還可能引發金融危機。

若我們確實處於人工智慧泡沫之中,也有一個積極面:對人工智慧突然導致就業崗位流失的擔憂被誇大了。經濟學家薩拉·埃克哈特和內森·戈德施拉格近期開展的一項分析中,通過五種不同的人工智慧接觸度衡量標準,評估了這項新技術對一系列勞動力市場指標的影響,結果發現它對這些指標幾乎沒有任何作用。例如,他們指出,受人工智慧影響最小的勞動者(如建築工人和健身教練)的失業率上升速度,是受影響最大的勞動者(如電話行銷員和軟體開發者)的三倍。其他大多數研究(儘管並非全部)也得出了類似結論。

但還存在一種更奇怪的中間可能性:即便人工智慧工具無法提高生產力,圍繞它們的炒作仍可能促使企業繼續擴大其應用範圍。“我從企業那裡反覆聽到同樣的說法,”麻省理工學院經濟學家達龍·阿西莫格魯告訴我,“中高層管理者接到老闆的指令:為了讓董事會滿意,他們工作中必須有X%的內容要使用人工智慧。”這些企業甚至可能裁員或放緩招聘——因為它們像METR研究中的軟體開發者一樣,堅信人工智慧提高了自身生產力,即便實際情況並非如此。其結果將是失業率上升,且無法通過實際生產力提升來抵消這一影響。

儘管這種情況聽起來不太可能,但在不久前的過去,類似事件曾真實發生過。電腦科學家卡爾·紐波特在其2021年的著作《沒有電子郵件的世界》(A World Without Email)中指出,20世紀80年代起,電腦、電子郵件、線上日曆等工具讓知識型工作者能夠自主處理溝通事務和安排會議。隨後,許多公司決定解僱秘書和打字員。但結果事與願違:高技能員工開始花費大量時間傳送電子郵件、撰寫會議紀要和安排會議,導致他們在實際工作上的生產力大幅下降,企業不得不僱傭更多人手來完成同等工作量。後來對20家財富500強企業的研究發現,那些因電腦技術導致“人員配置失衡”的企業,在薪資上的支出比實際所需多了15%。“電子郵件是那種讓人感覺生產力提高、但實際效果相反的技術,”紐波特告訴我,“我擔心我們在人工智慧領域可能正重蹈覆轍。”

話又說回來,若另一種結局是股市崩盤引發衰退或金融危機,那麼上述情況或許還不算太糟。

作者羅傑·卡瑪(Rogé Karma)是《大西洋月刊》的一名撰稿人。 (邸報)