【AI焦点】HAI發布2025年AI指數報告,456頁12大趨勢

史丹佛大學HAI(Human-Centered AI Institute)在4 月初發布了最新的《2025 年人工智慧指數報告》,這份長達456 頁的權威文件不僅延續了過去對研發、技術性能、責任與倫理、經濟影響、科學與政策、教育與公眾輿論的多維度考察,還新增了對AI 硬體發展、現狀的系統分析、教育與公眾輿論。該報告由李飛飛等學界領導人物共同領導,內容之詳實、數據之豐富可謂前所未有。報告明確指出,AI 發展正進入影響社會各個層面的關鍵加速期:一方面,各項核心指標持續呈現指數級躍升,AI 正從概念走向大規模實際應用;另一方面,無論是政府立法、科研標準,或是社會大眾對AI 的接受度,都處在快速轉變之中。本文將提煉報告中的十二大重點,結合一年間全球在AI 領域的投資、應用與研究進程,為讀者展示2024 至2025 這段時間裡人工智慧究竟發生了那些重要演變,以及它們對未來社會意味著什麼。


第一部分:報告背景與整體脈絡

在2024 年的AI 指數報告中,史丹佛大學HAI 就已對全球AI 生態進行了詳盡整理。從頂尖研究機構的技術突破,到社會各產業對AI 的實際應用,再到政策法規、公眾輿論等方面,一系列數據與圖表為我們勾勒出人工智慧如何成為「社會級」轉型的核心力量。到了2025 年,這股趨勢愈發清晰,報告深入探討了各國在硬體、算力、人才與立法等層面的新動作,並著重強調了以下幾點:

  1. AI 技術性能的持續突破
  2. AI 在醫療、交通等領域的普及進度
  3. 全球企業對AI 的投資與應用熱情
  4. 中美在生成式AI 的較量與差距變化
  5. 負責任的AI(RAI)發展現狀
  6. 大眾對AI 的看法及各國態度
  7. 模型變得更有效率、更便宜,也更容易取得
  8. 各國政府在政策與投資層面的反應
  9. 電腦科學教育和AI 普及度的進展
  10. 工業界在AI 模型研發上的主導地位
  11. AI 在科學研究領域對重大成果的影響
  12. AI 在複雜推理上的限制與挑戰


在正式展開這十二大要點前,我們首先需要了解報告所處的時代背景:當下是深度學習全面開花的階段,GPT-4.o、GPT-4.5、PaLM 等大模型陸續問世,多個國家在硬體、演算法、資料等方面競爭激烈;一大批新創企業不斷湧現,資本市場對AI 的硬體再度升溫。這些宏觀趨勢與報告結論互相呼應,為我們理解AI 的現狀與前景提供了全局視角。

第二部分:AI 在苛刻基準上的表現持續提升

報告首先關注了AI 在各類基準(Benchmark)上的進步。 2023 年以來,一些新引入的評測基準(如MMMU、GPQA、SWE-bench)為前緣大模型的效能測試提供了新的挑戰。短短一年內:

  • SWE-bench 的解決率從4.4% 飆升至71.7%
  • MMMU、GPQA 的得分也分別提高了18.8 和48.9 個百分點

尤其值得注意的是,在涉及编程能力的测试中(如 SWE-bench),AI 的突破相当显著。2023 年绝大多数模型只能勉强完成极少量题目;2024 年,顶尖模型已能解决超过七成问题,且解题速度与正确性不断逼近或超过人类编程者。

在图像、视频生成领域,OpenAI、Meta、Google DeepMind 等机构推出的模型显著提升了多模态内容生产的质量。例如 Movie Gen、Stable Video Diffusion 3D/4D、Veo 2 等,能够在短时间内合成更真实、更具细节感的短片,甚至为用户定制化生成带有特效或复杂场景的视频内容。

另一個令人矚目的動向是AI Agent 的出現。在RE-Bench 測試平台中,AI Agent 在短時間(2 小時內)執行任務的效率已是人類專家的4 倍。然而,如果任務時長拉伸到32 小時,人類專家在綜合適應與隨機應變能力上仍能逆轉並領先AI 近2 倍。由此可見,當任務時限有限且明確時,AI 能夠迅速展現計算與自動化優勢,但在長時段需要靈活思考與不確定決策時,人類依然佔據一定優勢。

第三部分:AI 融入日常生活與專業領域

報告的第二大重點在於AI 如何迅速從實驗室走向人們的日常生活與專業應用。醫療與交通是兩個典型代表:

  • 醫療領域:2023 年美國FDA 核准了223 種AI 醫療設備,而2015 年僅有6 種。這些設備涉及輔助診斷、影像分析、外科手術輔助等方面,大幅提升了臨床工作的效率與準確度。
  • 交通領域:無人駕駛和自動駕駛計程車服務加速普及。 Waymo 在美國每周提供超過15 萬次自動駕駛行程;百度的「蘿蔔快跑」在中國多個城市已具有相當規模的示範營運。越來越多的城市開始將自動駕駛納入城市交通規劃,汽車產業鏈也在自動駕駛所需感測器與數據平台上進行了大量投入。

同時,AI 在金融、零售、製造業、公共服務領域的應用也方興未艾。自動化呼叫中心、智慧推薦系統、機器人輔助物流等應用層出不窮。正如報告所示,“AI 正從研究項目變為大規模商用”,這背後離不開企業與投資者的共同推動。


第四部分:企業投入與全球AI 投資激增

在2024 年,全球企業對AI 的投資創下2,523 億美元的新高,其中私人投資成長了44.5%,併購活動增加了12.1%。這顯示了過去十年AI 相關產業的爆發性成長—與2014 年相比,投資總額已成長逾13 倍。

生成式AI 成為新的成長引擎,全球私人投資總額達339 億美元,較2023 年成長18.7%。在此賽道上,美國投資依舊遙遙領先:2024 年美國私營AI 投資額達1,091 億美元,是中國(93 億美元)的約12 倍,也是英國(45 億美元)的24 倍。特別是在生成式AI 方面,美國投入高達254 億美元,超過中國、歐盟與英國之和。

企业对 AI 的使用水平也在迅速提高:报告称,2024 年有 78% 的组织表示已在使用 AI,相比 2023 年的 55% 有明显提升。其中,生成式 AI 应用的增长尤为迅猛,从 2023 年的 33% 飙升到 71%。大量研究表明,企业广泛采用 AI 之后,不仅可以显著提升生产力,而且在多数场景下还能够缩小劳动力的技能差距,帮助中小企业或普通员工借助工具快速“进阶”。


第五部分:中美在AI 模式研發上此消彼長

在頂級AI 模型的數量方面,2024 年美國仍保持絕對領先:共推出40 個備受關注的AI 模型,中國則有15 個,歐洲僅3 個。然而,這並不意味著中國模型與美國模型之間的性能差距並沒有縮小。報告指出,在主流基準(MMLU、MMMU、MATH、HumanEval)上的效能差,正從過去一年十幾到三十幾個百分點等級驟降到個位數。尤其在某些任務上,中國研究團隊推出的大模型已接近或達到國際一流水準。

除此之外,中國在AI 出版和專利申請總量上持續領先。更值得關注的是中東、拉丁美洲、東南亞等地區的崛起,有些新模型同樣在局部市場或特定語言上表現亮眼。 AI 技術從歐美和東亞「雙極」競爭,逐漸走向多極化的全球格局。


第六部分:負責任的AI 生態系進展與挑戰

隨著AI 技術的應用深入,2024 年AI 相關的安全事故和道德爭議事件也激增到233 起,比2023 年增加56.4%。許多負責任AI(RAI)組織呼籲,需要在模型研發早期就引入完善的安全審查與測試。然而,目前主流工業級大模型中,真正實現標準化RAI 流程的仍屬少數。

另一方面,一些新的評估與監管工具開始出現,例如HELM Safety、AIR-Bench、FACTS,這些工具為檢驗模型事實性、社會偏見與輸出安全性提供了更客觀可重複使用的指標。報告指出,2024 年全球對AI 治理的關注度顯著提高:經合組織、歐盟、聯合國、非洲聯盟等機構紛紛推出或更新相關規範,把模型的透明度、可信度和公平性納入核心要求。

在學術界,負責任AI 方向的論文也大幅增加:2024 年相關論文數量達到1278 篇,比前一年增長28.8%。這意味著研究者正在對AI 的社會影響進行更全面的思考。然而,從研究到產業落地,中間仍存在著較大的鴻溝。雖然多數大公司在策略文件中提出了「AI 安全」或「AI 倫理」願景,但實際投入與執行效果仍參差不齊。


第七部分:公眾態度與各國差異

報告顯示,全球對AI 的樂觀情緒整體上升,但地區間仍存顯著分化。在中國、印尼、泰國等國家,有70% 以上的受訪者認為AI 帶來的利大於弊;而在加拿大、美國、荷蘭等地,樂觀者僅佔30%~40%。

有趣的是,一些曾經對AI 持明顯懷疑態度的西方國家,近一年也出現態度“轉暖”,比如德國、法國、加拿大等地的“支持AI”比例分別上漲約8%~10%,美國上漲4%。在多次應用案例落地後,大眾可能逐漸意識到AI 不僅能發揮娛樂或自動化功能,也能真正推動醫療、教育、公共事業等領域的創新。


第八部分:模型高效率與推理成本大幅降低

報告中特別強調了一個重要現象:小模型的崛起與模型推理成本的暴跌。 2022 年,若想達到MMLU 測試60% 以上的準確度,需要5,400 億參數的PaLM;到了2024 年,微軟的Phi-3-mini 僅需38 億參數即可完成類似任務。參數量縮減達142 倍,突顯模型最佳化與剪枝技術進步之快。

另一方面,如果以GPT-3.5 的智能水準為參照,模型推理成本在過去兩年內(2022 年11 月至2024 年10 月)下降280 倍。硬體層面,每年成本下降30%,能源效率提高40%。開放權重模型也在快速追趕封閉模型,二者的表現差距從過去一年的8% 縮小到1.7%。這意味著,先進AI 不再是少數科技巨頭的專利,門檻正迅速降低,大規模創新與應用或將從更多層面迸發。


第九部分:全球立法與政府支持力度增強

2024 年,美國聯邦機構推出了59 項與AI 相關的法規,是2023 年的兩倍之多。在全球範圍內,自2023 年以來,有關AI 的立法提及率上升21.3%,與2016 年相比增長了9 倍。各國對AI 的重視程度反映在政策資金投入上,加拿大投入24 億美元、法國投入1,090 億歐元、中國設立了475 億美元的半導體基金、印度、沙烏地阿拉伯等也相繼啟動了規模宏大的AI 基礎建設計畫。

這些投資與立法,部分是為了打造支撐AI 發展的基礎設施(如資料中心、電力保障、算力網路),也有防範風險、促進產業合規的考量。無論是已開發國家還是新興經濟體,都不想在這條新賽道上落後,他國巨額佈局反而刺激了全球AI 生態的蓬勃競賽。


第十部分:AI 教育普及度與不足

青少年與學生群體對AI 的認知與掌握程度,將極大影響未來技術人才儲備。報告指出,全球已有約三分之二的國家在K-12 階段設立或計畫設立電腦科學教育,相較於2019 年增加了一倍。非洲、拉丁美洲在此方面尤為正面。然而基礎建設、師資水準的匱乏,使不少地區的推進依然緩慢。

在美國,過去十年內電腦學士學位畢業人數增加了22%,可見大學對該領域的重視度持續上升。但同時,K-12 教師普遍認為自己缺乏教導AI 的能力。超過80% 的教師認同“AI 應納入基礎教育”,卻只有不到一半的人覺得“自己能勝任AI 教學”。這類師資困境或在更多國家普遍存在,成為AI 教育普及的瓶頸之一。


第十一部分:工業界在AI 模型研發中的主導性

2024 年約90% 的新一代重要AI 模式都出自工業界,相比2023 年的60% 有大幅提升。谷歌與OpenAI 以各自7 款模型居於首位,阿里以6 款緊隨其後,字節、DeepSeek、騰訊、智譜AI 等也有2 款左右的新模型問世。

模型規模持續擴大:訓練計算量每5 個月翻一番,資料集規模每8 個月翻一番,耗電量也幾乎每年翻倍。同時,領先模型間的表現差距不斷縮小,從一年前前十名之間的平均差異11.9% 降至5.4%。新的「更難基準」也在湧現,例如「人類終極考試」AI 得分只有8.80%,在FrontierMath 複雜數學測驗中也只取得2% 的成功率。

開源社群發展同樣迅速:GitHub 上與AI 相關的專案數量從2011 年的1549 個激增至2024 年的約430 萬個,過去一年增幅達40.3%。在貢獻度方面,美國以23.4% 的佔比居首,印度、歐洲則緊追在後。這些數據意味著工業界與開源社群同步繁榮,AI 研發的多元化生態已成現實。


第十二部分:AI 與科學前沿、複雜推理難題

報告中也提及AI 在重大科學獎項(如諾貝爾獎、圖靈獎)與高影響力論文中的表現:多項科學研究突破都離不開深度學習或蛋白質摺疊等AI 技術。其中包括強化學習(RL)對自然科學研究的啟示,以及生物醫藥、材料學等領域的快速變化。

不過,AI 在複雜推理與精確邏輯推論領域仍顯不足。頂尖模型在PlanBench 這類基準測試時,常常無法完全「走通」某些理論能證實可行的解。一些高階模型(如o1 模型)在國際數學奧林匹克水準上拿到74.4% 的高分遠超GPT-4.o 的9.3%,但它的運作成本是後者的近六倍,速度也慢30 倍,應用門檻大大提高。

換言之,AI 在語言生成與特定任務上表現驚艷,但若涉及超高複雜度、長時段的邏輯推理和證據檢驗,依然面臨嚴峻挑戰。這種差距意味著,在高風險情境(如金融決策、核能管理等)中,完全依賴AI 依舊存有巨大隱患。


結語:AI 的迅猛崛起與未來塑造

綜觀這份長達456 頁的《2025 年人工智慧指數報告》,我們清楚地看到過去一年間AI 在技術指標、商業應用、政策法規、社會輿論等維度所經歷的顯著變化。大模型從「能對話」向「能創造」「能決策」演進,各國政府在AI 投入和監管上愈發積極,工業界引領了幾乎所有最前沿的大規模模型研發,開源社區與學術機構也在「開放權重」「負責任AI」上有所斬獲。

這既是一個充滿機會的時代:AI 正從「新興概念」真正變成生產力的核心動力,被越來越多企業與政府視為經濟與社會轉型的必經之路。也是一個隱藏潛在風險的時代:資料隱私、誤導資訊、深度偽造、演算法偏見、安全審查等問題層出不窮,並且在AI 大規模部署後可能被放大。對一般大眾而言,AI 能否真正造福大眾,取決於產業與社會如何攜手製訂並執行負責任的標準,保障技術透明與問責。

正如報告最後提出的疑問:「除非我們精心引導,AI 技術不可能普惠所有人。」我們應在開拓創新與管控風險間找到平衡,讓AI 成為21 世紀最具變革性的力量,同時確保它的發展方向不偏離人類整體福祉。無論是政府、企業、研究機構、教育體系,或是每一位與之打交道的個人,都需緊跟著其步伐並作出反思與行動。 AI 的下一步走向,將在很大程度上由我們今天如何面對、理解和規範它來決定。(ai焦點)