史丹佛大學HAI(Human-Centered AI Institute)在4 月初發布了最新的《2025 年人工智慧指數報告》,這份長達456 頁的權威文件不僅延續了過去對研發、技術性能、責任與倫理、經濟影響、科學與政策、教育與公眾輿論的多維度考察,還新增了對AI 硬體發展、現狀的系統分析、教育與公眾輿論。該報告由李飛飛等學界領導人物共同領導,內容之詳實、數據之豐富可謂前所未有。報告明確指出,AI 發展正進入影響社會各個層面的關鍵加速期:一方面,各項核心指標持續呈現指數級躍升,AI 正從概念走向大規模實際應用;另一方面,無論是政府立法、科研標準,或是社會大眾對AI 的接受度,都處在快速轉變之中。本文將提煉報告中的十二大重點,結合一年間全球在AI 領域的投資、應用與研究進程,為讀者展示2024 至2025 這段時間裡人工智慧究竟發生了那些重要演變,以及它們對未來社會意味著什麼。
第一部分:報告背景與整體脈絡
在2024 年的AI 指數報告中,史丹佛大學HAI 就已對全球AI 生態進行了詳盡整理。從頂尖研究機構的技術突破,到社會各產業對AI 的實際應用,再到政策法規、公眾輿論等方面,一系列數據與圖表為我們勾勒出人工智慧如何成為「社會級」轉型的核心力量。到了2025 年,這股趨勢愈發清晰,報告深入探討了各國在硬體、算力、人才與立法等層面的新動作,並著重強調了以下幾點:
在正式展開這十二大要點前,我們首先需要了解報告所處的時代背景:當下是深度學習全面開花的階段,GPT-4.o、GPT-4.5、PaLM 等大模型陸續問世,多個國家在硬體、演算法、資料等方面競爭激烈;一大批新創企業不斷湧現,資本市場對AI 的硬體再度升溫。這些宏觀趨勢與報告結論互相呼應,為我們理解AI 的現狀與前景提供了全局視角。
第二部分:AI 在苛刻基準上的表現持續提升
報告首先關注了AI 在各類基準(Benchmark)上的進步。 2023 年以來,一些新引入的評測基準(如MMMU、GPQA、SWE-bench)為前緣大模型的效能測試提供了新的挑戰。短短一年內:
尤其值得注意的是,在涉及编程能力的测试中(如 SWE-bench),AI 的突破相当显著。2023 年绝大多数模型只能勉强完成极少量题目;2024 年,顶尖模型已能解决超过七成问题,且解题速度与正确性不断逼近或超过人类编程者。
在图像、视频生成领域,OpenAI、Meta、Google DeepMind 等机构推出的模型显著提升了多模态内容生产的质量。例如 Movie Gen、Stable Video Diffusion 3D/4D、Veo 2 等,能够在短时间内合成更真实、更具细节感的短片,甚至为用户定制化生成带有特效或复杂场景的视频内容。
另一個令人矚目的動向是AI Agent 的出現。在RE-Bench 測試平台中,AI Agent 在短時間(2 小時內)執行任務的效率已是人類專家的4 倍。然而,如果任務時長拉伸到32 小時,人類專家在綜合適應與隨機應變能力上仍能逆轉並領先AI 近2 倍。由此可見,當任務時限有限且明確時,AI 能夠迅速展現計算與自動化優勢,但在長時段需要靈活思考與不確定決策時,人類依然佔據一定優勢。
第三部分:AI 融入日常生活與專業領域
報告的第二大重點在於AI 如何迅速從實驗室走向人們的日常生活與專業應用。醫療與交通是兩個典型代表:
同時,AI 在金融、零售、製造業、公共服務領域的應用也方興未艾。自動化呼叫中心、智慧推薦系統、機器人輔助物流等應用層出不窮。正如報告所示,“AI 正從研究項目變為大規模商用”,這背後離不開企業與投資者的共同推動。
第四部分:企業投入與全球AI 投資激增
在2024 年,全球企業對AI 的投資創下2,523 億美元的新高,其中私人投資成長了44.5%,併購活動增加了12.1%。這顯示了過去十年AI 相關產業的爆發性成長—與2014 年相比,投資總額已成長逾13 倍。
生成式AI 成為新的成長引擎,全球私人投資總額達339 億美元,較2023 年成長18.7%。在此賽道上,美國投資依舊遙遙領先:2024 年美國私營AI 投資額達1,091 億美元,是中國(93 億美元)的約12 倍,也是英國(45 億美元)的24 倍。特別是在生成式AI 方面,美國投入高達254 億美元,超過中國、歐盟與英國之和。
企业对 AI 的使用水平也在迅速提高:报告称,2024 年有 78% 的组织表示已在使用 AI,相比 2023 年的 55% 有明显提升。其中,生成式 AI 应用的增长尤为迅猛,从 2023 年的 33% 飙升到 71%。大量研究表明,企业广泛采用 AI 之后,不仅可以显著提升生产力,而且在多数场景下还能够缩小劳动力的技能差距,帮助中小企业或普通员工借助工具快速“进阶”。
第五部分:中美在AI 模式研發上此消彼長
在頂級AI 模型的數量方面,2024 年美國仍保持絕對領先:共推出40 個備受關注的AI 模型,中國則有15 個,歐洲僅3 個。然而,這並不意味著中國模型與美國模型之間的性能差距並沒有縮小。報告指出,在主流基準(MMLU、MMMU、MATH、HumanEval)上的效能差,正從過去一年十幾到三十幾個百分點等級驟降到個位數。尤其在某些任務上,中國研究團隊推出的大模型已接近或達到國際一流水準。
除此之外,中國在AI 出版和專利申請總量上持續領先。更值得關注的是中東、拉丁美洲、東南亞等地區的崛起,有些新模型同樣在局部市場或特定語言上表現亮眼。 AI 技術從歐美和東亞「雙極」競爭,逐漸走向多極化的全球格局。
第六部分:負責任的AI 生態系進展與挑戰
隨著AI 技術的應用深入,2024 年AI 相關的安全事故和道德爭議事件也激增到233 起,比2023 年增加56.4%。許多負責任AI(RAI)組織呼籲,需要在模型研發早期就引入完善的安全審查與測試。然而,目前主流工業級大模型中,真正實現標準化RAI 流程的仍屬少數。
另一方面,一些新的評估與監管工具開始出現,例如HELM Safety、AIR-Bench、FACTS,這些工具為檢驗模型事實性、社會偏見與輸出安全性提供了更客觀可重複使用的指標。報告指出,2024 年全球對AI 治理的關注度顯著提高:經合組織、歐盟、聯合國、非洲聯盟等機構紛紛推出或更新相關規範,把模型的透明度、可信度和公平性納入核心要求。
在學術界,負責任AI 方向的論文也大幅增加:2024 年相關論文數量達到1278 篇,比前一年增長28.8%。這意味著研究者正在對AI 的社會影響進行更全面的思考。然而,從研究到產業落地,中間仍存在著較大的鴻溝。雖然多數大公司在策略文件中提出了「AI 安全」或「AI 倫理」願景,但實際投入與執行效果仍參差不齊。
第七部分:公眾態度與各國差異
報告顯示,全球對AI 的樂觀情緒整體上升,但地區間仍存顯著分化。在中國、印尼、泰國等國家,有70% 以上的受訪者認為AI 帶來的利大於弊;而在加拿大、美國、荷蘭等地,樂觀者僅佔30%~40%。
有趣的是,一些曾經對AI 持明顯懷疑態度的西方國家,近一年也出現態度“轉暖”,比如德國、法國、加拿大等地的“支持AI”比例分別上漲約8%~10%,美國上漲4%。在多次應用案例落地後,大眾可能逐漸意識到AI 不僅能發揮娛樂或自動化功能,也能真正推動醫療、教育、公共事業等領域的創新。
第八部分:模型高效率與推理成本大幅降低
報告中特別強調了一個重要現象:小模型的崛起與模型推理成本的暴跌。 2022 年,若想達到MMLU 測試60% 以上的準確度,需要5,400 億參數的PaLM;到了2024 年,微軟的Phi-3-mini 僅需38 億參數即可完成類似任務。參數量縮減達142 倍,突顯模型最佳化與剪枝技術進步之快。
另一方面,如果以GPT-3.5 的智能水準為參照,模型推理成本在過去兩年內(2022 年11 月至2024 年10 月)下降280 倍。硬體層面,每年成本下降30%,能源效率提高40%。開放權重模型也在快速追趕封閉模型,二者的表現差距從過去一年的8% 縮小到1.7%。這意味著,先進AI 不再是少數科技巨頭的專利,門檻正迅速降低,大規模創新與應用或將從更多層面迸發。
第九部分:全球立法與政府支持力度增強
2024 年,美國聯邦機構推出了59 項與AI 相關的法規,是2023 年的兩倍之多。在全球範圍內,自2023 年以來,有關AI 的立法提及率上升21.3%,與2016 年相比增長了9 倍。各國對AI 的重視程度反映在政策資金投入上,加拿大投入24 億美元、法國投入1,090 億歐元、中國設立了475 億美元的半導體基金、印度、沙烏地阿拉伯等也相繼啟動了規模宏大的AI 基礎建設計畫。
這些投資與立法,部分是為了打造支撐AI 發展的基礎設施(如資料中心、電力保障、算力網路),也有防範風險、促進產業合規的考量。無論是已開發國家還是新興經濟體,都不想在這條新賽道上落後,他國巨額佈局反而刺激了全球AI 生態的蓬勃競賽。
第十部分:AI 教育普及度與不足
青少年與學生群體對AI 的認知與掌握程度,將極大影響未來技術人才儲備。報告指出,全球已有約三分之二的國家在K-12 階段設立或計畫設立電腦科學教育,相較於2019 年增加了一倍。非洲、拉丁美洲在此方面尤為正面。然而基礎建設、師資水準的匱乏,使不少地區的推進依然緩慢。
在美國,過去十年內電腦學士學位畢業人數增加了22%,可見大學對該領域的重視度持續上升。但同時,K-12 教師普遍認為自己缺乏教導AI 的能力。超過80% 的教師認同“AI 應納入基礎教育”,卻只有不到一半的人覺得“自己能勝任AI 教學”。這類師資困境或在更多國家普遍存在,成為AI 教育普及的瓶頸之一。
第十一部分:工業界在AI 模型研發中的主導性
2024 年約90% 的新一代重要AI 模式都出自工業界,相比2023 年的60% 有大幅提升。谷歌與OpenAI 以各自7 款模型居於首位,阿里以6 款緊隨其後,字節、DeepSeek、騰訊、智譜AI 等也有2 款左右的新模型問世。
模型規模持續擴大:訓練計算量每5 個月翻一番,資料集規模每8 個月翻一番,耗電量也幾乎每年翻倍。同時,領先模型間的表現差距不斷縮小,從一年前前十名之間的平均差異11.9% 降至5.4%。新的「更難基準」也在湧現,例如「人類終極考試」AI 得分只有8.80%,在FrontierMath 複雜數學測驗中也只取得2% 的成功率。
開源社群發展同樣迅速:GitHub 上與AI 相關的專案數量從2011 年的1549 個激增至2024 年的約430 萬個,過去一年增幅達40.3%。在貢獻度方面,美國以23.4% 的佔比居首,印度、歐洲則緊追在後。這些數據意味著工業界與開源社群同步繁榮,AI 研發的多元化生態已成現實。
第十二部分:AI 與科學前沿、複雜推理難題
報告中也提及AI 在重大科學獎項(如諾貝爾獎、圖靈獎)與高影響力論文中的表現:多項科學研究突破都離不開深度學習或蛋白質摺疊等AI 技術。其中包括強化學習(RL)對自然科學研究的啟示,以及生物醫藥、材料學等領域的快速變化。
不過,AI 在複雜推理與精確邏輯推論領域仍顯不足。頂尖模型在PlanBench 這類基準測試時,常常無法完全「走通」某些理論能證實可行的解。一些高階模型(如o1 模型)在國際數學奧林匹克水準上拿到74.4% 的高分遠超GPT-4.o 的9.3%,但它的運作成本是後者的近六倍,速度也慢30 倍,應用門檻大大提高。
換言之,AI 在語言生成與特定任務上表現驚艷,但若涉及超高複雜度、長時段的邏輯推理和證據檢驗,依然面臨嚴峻挑戰。這種差距意味著,在高風險情境(如金融決策、核能管理等)中,完全依賴AI 依舊存有巨大隱患。
結語:AI 的迅猛崛起與未來塑造
綜觀這份長達456 頁的《2025 年人工智慧指數報告》,我們清楚地看到過去一年間AI 在技術指標、商業應用、政策法規、社會輿論等維度所經歷的顯著變化。大模型從「能對話」向「能創造」「能決策」演進,各國政府在AI 投入和監管上愈發積極,工業界引領了幾乎所有最前沿的大規模模型研發,開源社區與學術機構也在「開放權重」「負責任AI」上有所斬獲。
這既是一個充滿機會的時代:AI 正從「新興概念」真正變成生產力的核心動力,被越來越多企業與政府視為經濟與社會轉型的必經之路。也是一個隱藏潛在風險的時代:資料隱私、誤導資訊、深度偽造、演算法偏見、安全審查等問題層出不窮,並且在AI 大規模部署後可能被放大。對一般大眾而言,AI 能否真正造福大眾,取決於產業與社會如何攜手製訂並執行負責任的標準,保障技術透明與問責。
正如報告最後提出的疑問:「除非我們精心引導,AI 技術不可能普惠所有人。」我們應在開拓創新與管控風險間找到平衡,讓AI 成為21 世紀最具變革性的力量,同時確保它的發展方向不偏離人類整體福祉。無論是政府、企業、研究機構、教育體系,或是每一位與之打交道的個人,都需緊跟著其步伐並作出反思與行動。 AI 的下一步走向,將在很大程度上由我們今天如何面對、理解和規範它來決定。(ai焦點)