4月初,史丹佛大學發佈了2025年人工智慧指數報告《Artificial Intelligence Index Report 2025》,該指數報告呈現了目前最全面、最完整的人工智慧發展現況。它也被全球媒體、政府和領先公司公認為值得信賴的資源,為政策制定者、商業領袖和公眾提供了對人工智慧技術進步、經濟影響和社會影響的嚴謹、客觀的見解。這份報告長達456頁,涵蓋了人工智慧研發、績效指標、經濟影響力、科學與醫藥、政策與治理、教育等內容。由於報告篇幅較長,本文重點在於對人工智慧研發現況、效能指標以及對經濟的影響進行解讀,如果想瞭解報告的完整內容,文末也放置了下載方式。第一部分:人工智慧研發現狀本部分主要探討了人工智慧研究和開發的趨勢,涵蓋了人工智慧模型的發展趨勢、使用成本、以及專利發佈和使用的情況。1. 美國仍然是人工智慧模型的主要來源。 2024年,美國生產了40個人工智慧模型,大大超過了中國的15個和法國的3個。在過去的十年中,來自美國的機器學習模型比其他國家都多。2. 美國的企業在生產機器學習模型方面仍處於領先地位。 2024年,貢獻最大的是OpenAI(7款)、Google(7款)和阿里巴巴(6款)。自2014年以來,Google以187款車型領先,其次是Meta(82款)和微軟(39款)。在學術機構中,卡內基美隆大學(25款)、史丹佛大學(25款)和清華大學(22款)是自2014年以來最多產的大學。3. 人工智慧模型所需的運算資源越來越大。人工智慧模型中的「計算」一詞表示訓練和操作機器學習模型所需的運算資源。通常,模型的複雜性和訓練資料集的大小直接影響所需的計算量。模型越複雜,基礎訓練資料越大,訓練所需的運算量就越大。最近,人工智慧模型變得越來越大,運算要求越來越高,能耗也越來越高。新的研究發現,著名AI模型的訓練計算大約每五個月翻一番,這一趨勢在過去五年中尤其明顯。計算需求的快速成長具有重要意義。例如,需要更多計算的模型通常具有更高的環境需求,公司通常比學術機構有更多的計算資源。4. 人工智慧模型的使用成本越來越低。 MMLU是評估語言模型性能的流行基準,查詢一個在MMLU上得分相當於GPT-3.5(64.8)的AI模型的成本從2022年11月的每百萬代幣20.00美元下降到2024年10月的每一百萬代幣0.07美元(Gemini-1.5-Flash-8B個月),大約在28B個月內減少了180個月。類似的趨勢在GPQA得分超過50%的模型成本中也很明顯,GPQA是比MMLU更具挑戰性的基準。在那裡,推理成本從2024年5月的每百萬代幣15美元下降到2024年12月的每一百萬代幣0.12美元(Phi 4)。根據任務的不同,LLM推理價格每年下降9到900次。5. 人工智慧專利申請正在增加。 2010年至2023年間,人工智慧專利數量穩定大幅成長,從3833件激增至122511件。光是去年,人工智慧專利數量就增加了29.6%。截至2023年,中國在人工智慧專利總量方面處於領先地位,佔所有授權的69.7%,而韓國和盧森堡在人均人工智慧專利生產國中名列前茅。第二部分:人工智慧效能指標本部分詳細介紹了2024年人工智慧模型技術效能的進步。涵蓋了與人工智慧模型的發佈情況、人工智慧能力現狀和關鍵趨勢,如開放權重模型性能的提升、前沿模型性能的趨同以及中國LLM品質的提高。1. 在過去的一年裡,人工智慧系統不斷改進,在其中幾個以前具有挑戰性的基準測試中超過了人類的表現。人工智慧和人類之間的差距正在迅速縮小。例如,在競賽等級數學的基準MATH上,最先進的人工智慧系統現在比人類的表現領先7.9個百分點,與2024年的0.3個百分點差距相比有了顯著改善。同樣,在複雜、多學科、專家級問題的基準MMMU上,2024年最佳模型o1的得分為78.2%,僅比人類82.6%的基準低4.4個百分點。相反,在2023年底,GoogleGemini模型的得分僅為59.4%,進一步說明了人工智慧在認知要求任務上的快速進步。2. 開放式重量模型(開源模型)迎頭趕上。去年的報告中顯示,領先的開放權重模型明顯落後於封閉權重模型。到了2024年,這一差距幾乎消失。 2024年1月初,領先的閉式權重模型在聊天機器人競技場排行榜上的表現比頂級開放式權重模型高出8.04%。到2025年2月,這差距縮小到1.70%。兩者之間的差距基本上被抹平。3. 中美模型差距正在縮小。 2023年,美國領先模型的表現明顯優於中國同行,然而,最近的證據表明,情況正在迅速變化,中國模型正在趕上美國模型。2023年底,MMLU、MMMU、MATH和HumanEval等基準的效能差距分別為17.5、13.5、24.3和31.6個百分點。到2024年底,這些差異已大幅縮小,僅為0.3、8.1、1.6和3.7個百分點。 DeepSeek-R1的推出引起了人們的關注還有另一個原因:該公司報告稱,它只使用了訓練這種模型通常所需的一小部分硬體資源就取得了成果。除了影響美國股市外,DeepSeek的R1發佈也引發了人們對美國半導體出口管制有效性的懷疑。4. 人工智慧模型效能正在快速收斂。 2022年,當時ChatGPT的推出讓人工智慧在公眾視野中引起了不小的波瀾,當時主要的參與者只有OpenAI和Google。但隨後,不斷有新的玩家進入了這個領域,包括Meta及其Llama模型、Anthropic與Claude、High-Flyer的DeepSeek、Mistral的Le Chat和xAI與Grok。隨著競爭的加劇,模型效能越來越趨同。根據去年的AI指數,聊天機器人競技場排行榜(一個廣泛使用的人工智慧排名平台)上排名最高和第十的模型之間的表現差距為11.9%。到2025年初,這一比例已降至5.4%。同樣,前兩款模型之間的差異從2023年的4.9%下降到2024年的0.7%。人工智慧領域的競爭越來越激烈,這也說明,人工智慧公司如果單純靠技術,很難形成護城河來保護自己免受競爭對手的攻擊。5. 影像生成品質有了顯著提升。影像生成是產生與真實影像無法區分的影像的任務。正如去年的人工智慧指數所指出的那樣,今天的圖像生成器非常先進,以至於大多數人很難區分人工智慧生成的圖像和人臉的實際圖像。下圖突出顯示了2022年至2025年間Midjourney模型變體的幾代人,以提示“哈利波特的超現實圖像”。這項進展顯示Midjourner在兩年內產生超現實影像的能力有了顯著提高。 2022年,該模型製作了卡通和不準確的《哈利波特》渲染圖,但到2025年,它可以創造出令人震驚的逼真描繪。另外,高品質的AI視訊生成也顯示出顯著的改進。 2024年,推出了幾種能夠從文字輸入產生高品質影片的先進人工智慧模型。值得注意的版本包括OpenAI的SORA、Stable Video 3D和4D、Meta的Movie Gen和Google DeepMind的Veo 2。與2023年的影片相比,這些模型製作的影片品質要高得多。6. 小模型實現突破,性能越來越強。 2022年,在MMLU上得分高於60%的最小模型是PaLM,有5400億個參數。到了2024年,微軟的Phi-3-mini只有38億個參數,達到相同的效能,這意味著在兩年多的時間裡減少142倍。除了微軟,還有許多AI廠商都發表了小巧、高效能的模型,包括GPT-4o mini、o1 mini、Gemini 2.0 Flash、Llama 3.1 8B和Mistral Small 3.5。小模型的興起有幾個重要原因:首先,它展示了演算法效率的提高,使開發人員能夠以更少的資料和更低的訓練成本實現更多的目標。這些效率的提高,再加上不斷增長的資料集,可能會導致更高效能的模型。其次,對較小模型的推理通常更快、更便宜。它們的出現也降低了人工智慧開發人員和希望將人工智慧整合到其營運中的企業的進入門檻。7. 複雜的推理仍然是一個問題。人工智慧模型擅長國際數學奧林匹克問題等任務,但仍難以應對PlanBench等複雜的推理基準。即使存在可證明正確的解決方案,它們也往往無法可靠地解決邏輯任務,這限制了它們在精確度至關重要的高風險環境中的有效性。第三部分:人工智慧對經濟的影響2024年,人工智慧的經濟影響變得更加突出,對許多產業產生了實質影響。生成式人工智慧的早期生產力效益在特定任務中變得可以衡量,而關於該技術對更廣泛經濟的長期影響的問題仍然存在。勞動市場已經開始顯示出AI驅動轉型的跡象,隨著新的與AI相鄰職位的出現,某些知識工作者的角色正在經歷顛覆。不同產業和地理區域的公司正在從實驗性的AI採用轉向系統整合。投資模式反映了人工智慧領域的日益複雜,資金越來越多地流向企業自動化和行業特定解決方案中的專業應用。1. 自2010年以來美國勞動市場最受歡迎的是人工智慧技能。引領需求的是人工智慧,佔0.9%,緊跟在後的是機器學習,也佔0.9%,自然語言處理佔0.2%。自去年以來,生成型人工智慧的成長幅度最大,成長了近四倍。而職業技能方面,在人工智慧職位招募中前10項專業技能,從絕對規模上講,過去十年,對每項專業技能的需求都在增加,但Python的受歡迎程度顯著提高,突顯了它作為首選AI程式語言的優勢。2. 全球私人人工智慧投資創歷史新高,成長26%。 2024年,企業人工智慧投資達2,523億美元,其中私人投資年增44.5%,併購年增12.1%。該行業在過去十年中經歷了急劇擴張,自2014年以來,總投資增加了13倍多。(註:mergers acquisitions:併購;Private investment:私人投資;Minority stake:少數股權;Public offering:公開發行)3. 生成式人工智慧資金激增。 2024年,生成式人工智慧的私人投資達到339億美元,比2023年成長18.7%,比2022年的水準高出8.5倍以上。該產業目前佔所有人工智慧相關私人投資的20%以上。4. 美國擴大了在全球人工智慧私人投資的領先地位。 2024年,美國私人人工智慧投資達到1,091億美元,比中國的93億美元高出近12倍,是英國45億美元的24倍。這一差距在生成式人工智慧方面更為明顯,美國的投資超過了中國、歐盟和英國的總和254億美元,比2023年的218億美元差距有所擴大。5. 美國新投資的人工智慧公司大幅領先。與私人投資趨勢一致,美國以1,073家新的人工智慧公司領先所有地區,其次是英國,有116家,中國有98家。自2013年以來的整體數據中也出現了類似的趨勢。在過去十年中,美國新投資的人工智慧公司數量約為中國的4.3倍,是英國的7.9倍。6. 人工智慧的使用達到了前所未有的水平。人工智慧的商業使用在2019年至2023年停滯不前,之後後大幅增加。麥肯錫的最新報告顯示,78%的受訪者表示,他們的組織已經開始在至少一個業務職能中使用人工智慧,與2023年的55%相比有了顯著成長。去年的調查首次涉及生成式人工智慧的使用,年增了一倍多,2024年71%的受訪者表示,他們的組織至少在一個業務職能中經常使用該技術,而2023年這一比例為33%。下圖顯示了2024年按行業和AI功能劃分的AI使用情況。使用率最高的是IT技術(48%),其次是產品和服務開發(47%)和技術行銷和銷售(47%)。7. 人工智慧開始在各個業務職能部門產生財務影響,但大多數公司都處於起步階段。大多數報告在業務職能中使用人工智慧對財務影響的公司估計,其收益水準較低。49%的受訪者表示,其組織在服務營運中使用人工智慧可以節省成本,其次是供應鏈管理(43%)和軟體工程(41%),但他們中的大多數人表示節省的成本不到10%。在收入方面,71%在行銷和銷售中使用人工智慧的受訪者報告收入成長,63%在供應鏈管理中,57%在服務營運中,但最常見的收入成長水準不到5%。8. 隨著大中華區的崛起,人工智慧的使用顯示出各地區的巨大變化。雖然北美在組織使用人工智慧方面保持領先地位,但大中華區的年成長率最高,組織人工智慧使用率成長了27個百分點。歐洲緊追在後,成長了23個百分點,顯示全球人工智慧格局正在迅速發展,人工智慧實施的國際競爭也在加劇。9. 企業部署生成式人工智慧最常見的應用是行銷策略內容支援(27%),其次是知識管理(19%)、個人化(19%)和設計開發(14%)。大多數報告的主要用例都在行銷和銷售職能部門。一項針對已開發市場高管的補充調查發現,只有1%的人將他們的生成式人工智慧部署描述為「成熟」。總體而言,大多數公司仍處於從人工智慧中大規模獲取價值的早期階段。10. 儘管略有放緩,但中國在工業機器人領域的主導地位仍在持續。 2023年,中國安裝了27.63萬台工業機器人,是日本的6倍,是美國的7.3倍。自2013年超過日本(佔全球安裝量的20.8%)以來,中國的份額已上升至51.1%。儘管中國安裝的機器人數量繼續超過世界其他地區的總和,但這一差距在2023年略有縮小,標誌著其急劇擴張的適度放緩。自2021年以來,中國安裝的工業機器人數量超過了世界其他地區的總和,但與2022年相比,2023年的安裝率有所下降。儘管同比下降,但這一持續趨勢突顯了中國在工業機器人安裝方面的主導地位。11. 協作和互動式機器人安裝變得越來越普遍。傳統機器人取代人類工作,而協作機器人則與人類協同工作,兩者之間存在差異。 2017年,協作機器人僅佔所有新工業機器人安裝的2.8%,到2023年,數字攀升至10.5%。同樣,2023年,除醫療機器人外,所有應用類別的服務機器人安裝量都有所增加。這一趨勢不僅表明機器人安裝的整體增加,而且越來越強調將機器人部署到面向人類的角色中。第四部分:其他1. 人工智慧正在重塑教育、金融和醫療保健等領域,在這些領域,演算法驅動的見解引導著關鍵決策。雖然這種轉變帶來了巨大的好處,但也帶來了顯著的風險。在過去的一年裡,人們繼續集中精力負責任地開發和部署人工智慧系統。2024年,與人工智慧相關的事件急劇增加,達到創紀錄的233起,比2023年增加了56.4%。這一增長可能反映了人工智慧使用的擴大和公眾對其影響的認識提高。對人工智慧的更熟悉也可能推動向相關資料庫更頻繁地報告事件。當被問及負責任的人工智慧(Responsible AI, RAI )政策對其組織的影響時,42%的人表示會對業務營運有所改善,例如提高效率和降低成本;34%的人表示客戶信任度會有所提高。只有17%的組織認為結果沒有產生重大影響。2. 人工智慧越來越融入日常生活。從醫療保健到交通,人工智慧正迅速從實驗室走向日常生活。 2023年,美國食品藥物管理局批准了223台支援人工智慧的醫療裝置,而2015年只有6台。在道路上,自動駕駛汽車不再是實驗性的:美國最大的營運商之一Waymo每周提供超過15萬次自動駕駛,而百度營運的阿波羅Go無人駕駛計程車車隊現在為中國各地的許多城市提供服務。3. 全球對人工智慧的樂觀情緒正在上升,但不分地區分歧依然存在。在中國(83%)、印尼(80%)和泰國(77%)等國家,絕大多數人認為人工智慧產品和服務利大於弊。相較之下,加拿大(40%)、美國(39%)和荷蘭(36%)等地的樂觀情緒仍然很低。儘管如此,人們的情緒正在改變:自2022年以來,在幾個以前持懷疑態度的國家,樂觀情緒顯著增長,包括德國(+10%)、法國(+10%”)、加拿大(+8%)、英國(+8%”)和美國(+4%”)。4. 人工智慧和電腦科學教育正在擴大,但在獲取和準備方面仍存在差距。三分之二的國家現在提供或計畫提供K-12電腦科學教育,是2019年的兩倍,其中非洲和拉丁美洲的進展最大。在美國,擁有電腦學士學位的畢業生人數在過去10年中成長了22%。然而,由於電力等基礎設施的缺口,許多非洲國家的接入仍然有限。在美國,81%的K-12電腦科學教師表示,人工智慧應該成為基礎電腦科學教育的一部分,但不到一半的教師認為自己有能力教導人工智慧。5. 各國政府正透過監管和投資加強人工智慧。 2024年,美國聯邦機構推出了59項與人工智慧相關的法規,是2023年的兩倍多,由兩倍多的機構發佈。自2023年以來,全球75個國家對人工智慧的立法提及量增加了21.3%,自2016年以來增加了9倍。隨著人們的關注度越來越高,各國政府也大規模投資:加拿大承諾提供24億美元,中國啟動了475億美元的半導體基金,法國承諾提供1090億歐元,印度承諾提供12.5億美元,沙烏地阿拉伯的超驗計畫代表了1000億美元的倡議。 (點滴智識)