#AI報告
史丹佛423頁AI報告出爐!中美差距僅2.7%,清華DeepSeek衝進全球前十
史丹佛「2026年AI指數報告」重磅出爐!這份432頁長文含金量極高:中美AI巔峰對決,差距幾乎抹平,縮減至僅2.7%。全球頂尖AI年產95個,基本都聚集在大廠。最殘酷的是,22-25歲開發者的就業已被切掉20%。今天,史丹佛HAI重磅發佈「2026年AI指數報告」!這份長達423頁的年度報告,全面揭示了全球AI產業的最新權力版圖。它給出了一條核心結論:AI的本事漲得飛快;但人類衡量和管好它的能力,卻沒怎麼跟上步伐。其中,最震撼的結論是——中美AI模型性能差距已基本消失,雙方在巔峰對決中頻繁易主,目前Anthropic領先優勢僅剩2.7%。美國在AI上砸的錢比誰都多,但招攬頂尖人才卻越來越吃力了。報告還指出,AI的進化不僅沒有遭遇所謂的「瓶頸」,反而正以史無前例的速度狂飆。過去一年,全球超90%的頂尖模型,在博士級科學問題、多模態推理、競賽數學上的表現,追平甚至超越了人類。特別是在程式碼能力上,SWE-bench的成績在一年內,從60%飆升至近100%。然而,AI的「偏科」現像極其嚴重,呈現出一種畸形的現狀:LLM可以拿下IMO金牌,卻讀不對模擬時鐘,正確率僅為50.1%。與此同時,AI搶飯碗這事兒已經從預測變成了現實,而且最先遭殃的就是當代年輕「打工人」。下面直接上乾貨,「2026年AI指數報告」最值得關注的12個硬核趨勢。其他亮點速覽:全球AI算力3年漲30倍,輝達獨佔60%,幾乎所有晶片都出自一家台積電2025年全球企業AI投資5817億美元,同比翻倍,美國一國吃下近一半進入美國的AI研究人員7年跌89%,僅過去一年就跌80%22-25歲軟體開發者就業自2024年起下滑20%,入門崗位被精準切掉中國累計建成85台公共AI超算,是北美的兩倍以上,全球第一中國職場AI使用率超80%,遠超全球58%的平均最強模型越來越黑箱,95個代表性模型裡80個沒有公開訓練程式碼中美貼臉差距只剩2.7%史丹佛把2023年5月以來Arena榜單上的美國第一和中國第一,畫在了同一張坐標系裡。2023年5月,gpt-4-0314拿1320分領跑,中國這邊還是chatglm-6b,差距300多分。2025年2月,DeepSeek-R1第一次和美國頭部模型短暫打平。2026年3月,美國的Claude Opus 4.6拿到1503分,中國dola-seed-2.0-preview拿到1464分。如今中美AI之間的差距,僅有39分。換算成百分比,2.7%。更值得說的是過去一年的換位頻率。從2025年初開始,兩國頭部模型已經在Arena上你來我往換了好幾次位置。數量上同樣接近五五開。2025年美國發佈了50個「顯著模型」,中國緊跟著也發佈了30個頂尖大模型。第一梯隊裡OpenAI、Google、阿里、Anthropic、xAI同台站位,全球TOP 5五五分帳。再往下看到TOP 10,中國機構和企業佔了四席,阿里、DeepSeek、清華、字節。開源生態這一年的重心也明顯東移。DeepSeek、Qwen、GLM、MiniMax、Kimi一路把開源權重的能力曲線往前推。再算上論文發表量、被引數、專利產出量、工業機器人裝機量,中國統統全球第一。價格層面是另一條戰線。海外開發者在X上算過一筆帳,Seed 2.0 Pro的輸出價格大約只有Claude Opus 4.6的十分之一。性能貼臉,價格只要十分之一。這件事的連鎖反應才剛剛開始。90%前沿模型出自產業封神速度史無前例去年發佈的95個最具代表性的模型裡,超過九成都來自產業界,不是學術機構,也不是政府實驗室。學術界已經追不上前沿了。發佈速度也在變態加速。光是2026年2月一個月,就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5八九個旗艦模型同月入場。封神周期從「年」變成了「月」。基準一年封頂AI沒有瓶頸最猛的曲線是程式設計。SWE-bench Verified這個真實修Bug的基準,一年時間從60%漲到接近100%。不是漲了幾個點,是基本封頂。Terminal-Bench測試Agent處理真實終端任務的能力,從去年的20%漲到77.3%。網路安全Agent解決問題的成功率,從15%漲到93%。Gemini Deep Think在國際數學奧林匹克拿到金牌。PhD級科學問答(GPQA Diamond)、競賽數學(AIME)、多模態推理(MMMU)這些原本被認為「人類不可超越」的硬骨頭,全部被前沿模型啃了下來。最能說明問題的是Humanity's Last Exam。這是一個專門被設計來「難倒AI、偏袒人類專家」的測試,題目由各個領域的頂尖專家提供。去年OpenAI的o1拿到8.8%,前沿模型在一年時間裡把分數往上又推了30個百分點,目前Claude Opus 4.6和Gemini 3.1 Pro已經雙雙過了50%。鋸齒前沿能拿IMO金牌卻看不懂表但同一份指數甩出了另一組數字。最強模型在「讀模擬時鐘」這個任務上的正確率,是50.1%。機器人在實驗室模擬環境(RLBench)裡的操作成功率已經達到89.4%。但搬到真實家庭場景裡完成洗碗、疊衣服這類家務,成功率立刻掉到12%。實驗室和廚房之間,差了77個百分點。研究者把這種現象命名為「鋸齒前沿」(jagged frontier)。AI能力的分佈是凹凸不平的,能拿數學奧賽金牌,卻沒法穩定地告訴你現在幾點。AI能在數學奧賽拿金牌,但只有一半的機率能看懂模擬時鐘。AI在加速,但加速的不是同一個方向。另外,在智能體任務中,OSWorld測試中,前沿AI實力(66.3%)正逼近人類基線。然而,在專門評估科研邏輯的PaperArena測試中,最強AI加持的Agent,得分僅39%,只有博士生一半的功力。但這種凹凸已經不影響企業把AI往生產線上塞。AI Index給出的另一個數字是,全球企業AI採用率達到88%。九成的公司已經把AI接進了某個工作流。代價同步在漲。AI相關事故記錄從2024年的233起漲到362起。錢在加速5817億砸進AI2025年全球企業AI投資達到5817億美元,同比增長130%。其中私募投資3447億美元,同比增長127.5%。兩條曲線都幾乎翻倍。國別上,美國一騎絕塵。2025年美國私募AI投資2859億美元。並且一年新增1953家AI創業公司,也是排名第二的10倍以上。錢在加速湧向美國。但美國的另一項核心資源,正在反向流動。人在流走進美國的AI研究者跌了89%裡面有一組數字讓人愣了一下。2017年到現在,進入美國的AI研究人員和開發者數量下降了89%。更關鍵的是,這個下降在加速。僅僅過去一年,下降幅度就達到80%。美國仍然是全球AI研究人員密度最高的國家,但流入的水龍頭正在擰緊。錢和人這兩條曲線開始反向。這是過去十年沒出現過的局面。算力三年漲30倍命門都在一家公司手裡AI能力曲線在加速,背後那條算力曲線跑得更猛。從2021年到現在,全球AI算力總量漲了30倍。過去三年裡,每年都在翻三倍以上。撐起這條曲線的是少數幾家公司。輝達一家的GPU,佔據了全世界AI算力的60%以上。亞馬遜和Google靠自研晶片排在二三位,但加起來也遠遠追不上輝達。而幾乎所有這些晶片,都來自一家代工廠,台積電。算力曲線越陡,命門就越窄。與此同時,代價也在加大。全球AI資料中心的總功率已經達到29.6 GW,相當於紐約州在用電高峰時段的全部用電需求。xAI Grok 4一次訓練的估算碳排放是72816噸二氧化碳當量,相當於17000輛汽車開一整年的尾氣。資料中心建在那裡,電從那裡來,晶片從那裡產,這三個問題已經變成今年所有AI公司CEO案頭最頭疼的事。生成式AI三年滲透53%中國職場使用率破80%生成式AI在三年內達到了53%的全球人口滲透率。這個速度比個人電腦快,比網際網路快。但滲透速度和國別相關性極強。新加坡61%,阿聯54%,都跑在美國前面。美國在調查覆蓋國家中只排第24位,滲透率28.3%。如果把維度從消費者換成職場,反差更大。報告裡另一組資料顯示,2025年全球58%的員工在工作中已經開始經常性使用AI。但在中國、印度、奈及利亞、阿聯、沙烏地阿拉伯這5個國家,這個比例超過了80%。中國的職場AI滲透率,已經比全球平均高出20個百分點以上。更有意思的是消費者價值。AI Index估算,到2026年初,生成式AI工具每年給美國消費者創造1720億美元的價值。從2025年到2026年,每個使用者的中位數價值翻了三倍。絕大多數使用者用的還是免費版。普通人願意為AI付的錢,遠低於AI給他們創造的價值。這中間的剪刀差是現在所有AI公司都在試圖彌合的東西。入門崗位銳減22-25歲開發崗狂砍20%整份AI Index裡最讓中文讀者沉默的,可能是關於年輕就業的部分。22到25歲的軟體開發者群體,從2024年至今,就業人數下降了大約20%。同期,年紀更大的同行群體反而在增長。不止開發崗。客服等其他高AI暴露行業,也在出現同樣的模式。更讓人擔心的是企業問卷的結果。受訪高管普遍預期,未來的裁員幅度會比過去幾個月還要大。這不是宏觀失業率的事,是入口崗位被精準切掉的事。第一份工作沒了,整個職業階梯就斷了一格。這件事的長期影響,現在沒人能算清。AI正在改寫科學發現的方式如果說就業那一段是冷的,科學這段就是熱的。自然科學、物理科學、生命科學領域的AI相關論文,2025年同比增長了26%到28%。具體到應用,今年第一次有AI完整跑通了端到端的天氣預報流程。從原始氣象觀測資料直接吐出溫度、風速、濕度的最終預報,中間沒有任何傳統數值模型介入。AI從「幫你寫論文」「幫你算數字」,正在變成「自己做發現」。醫院裡也是一樣。2025年大量醫院開始部署能從就診對話自動生成臨床記錄的AI工具。多個醫院系統的醫生反饋,寫病歷的時間減少了多達83%,工作倦怠顯著下降。但同一份指數給醫療AI潑了一盆冷水。一份針對500多個臨床AI研究的綜述發現,將近一半的研究依賴考試題式的資料集,只有5%用了真實臨床資料。AI能減少醫生敲鍵盤的時間,這件事是確定的。AI在真實病人身上的臨床價值,目前還有大量問號。自學浪潮全球開炸正規教育已經掉隊正規教育跟不上AI了。美國有4/5的高中生和大學生現在用AI完成學校作業。但只有一半的中學有AI使用政策,只有6%的老師認為這些政策寫得清楚。學生跑在前面,老師還在原地,規則還沒出現。正規教育跟不上的同時,自學浪潮在全球開炸。裡面寫,學AI工程技能增長最快的三個國家分別是阿聯、智利和南非。不是美國,不是歐洲。技能曲線的最陡峭的那一段,長在所有人都沒在看的地方。最強模型變成最不透明的專家和公眾撕裂最強的模型,正在變成最不透明的模型。Foundation Model Transparency Index今年的平均分從去年的58分跌到了40分。AI Index直接點名,Google、Anthropic、OpenAI都已經放棄公開最新模型的訓練資料規模和訓練時長。去年發佈的95個最具代表性的模型裡,80個沒有公開訓練程式碼。公眾的情緒也變得更複雜。全球範圍內,認為AI利大於弊的比例從52%上升到59%。但同期,對AI感到緊張的比例從50%上升到52%。兩個方向在同時增長。最分裂的是美國。只有33%的美國人認為AI會讓自己的工作變得更好,全球平均是40%。美國人對本國政府監管AI的信任度,是受訪國家裡最低的,31%。新加坡人對自己政府監管AI的信任度,是81%。最近Sam Altman家被襲擊的事件之後,矽谷圈內人「驚訝地發現」Instagram評論區裡的普通人對此並不同情,甚至有人覺得「應該更激烈一點」。他們沒意識到事情已經糟到這個程度。研報引用的Pew和Ipsos資料,專家和公眾在AI影響就業、醫療、經濟這些維度上的觀感差距,普遍超過30個百分點,最大的一項達到50個百分點。一邊是實驗室裡的曲線在飛漲,一邊是普通人心裡的不安在累積。中間沒有橋。寫在最後423頁的報告裡有幾百張圖表,但其實只畫了一張圖。橫軸是時間,縱軸是能力。模型能力的曲線在飛,算力曲線在飛,投資曲線在飛,採用率曲線在飛。其他全都在原地踏步或者向下。這就是2026年AI Index的全部內容。AI在加速。其他所有東西都在脫節。如果你是這個行業裡的人,現在該問的問題不是「未來會怎樣」,而是「自己站在那一條曲線上」。 (新智元)
深度解讀:麥肯錫《2025年AI報告》
自 ChatGPT 引爆大模型時代以來,我們見證了科技史上最快的技術普及。今天,幾乎每家企業都將 AI 寫進了年度規劃。麥肯錫的報告也證實了這一點:高達 88% 的受訪企業表示,他們已經在至少一個業務職能中使用了 AI。但,狂熱之下隱藏著一個殘酷的真相。麥肯錫最新發佈的《2025年AI現狀報告:Agent、創新與轉型》指出,儘管 AI 的應用遍地開花,但只有 39% 的公司報告 AI 對其企業級息稅前利潤(EBIT)產生了實際影響。這意味著,近三分之二的公司在 AI 上的投入,尚未轉化為真實的財務價值。這種“廣泛採用”與“價值兌現”之間的巨大落差,就是擺在所有企業面前的AI 價值鴻溝(EBIT Gap)。我們必須承認:AI 免費的紅利期已經結束。現在,我們正從盲目“嘗鮮”階段,邁入艱難的“規模化兌現”階段。麥肯錫的報告,正是為我們揭示了如何跨越這道鴻溝的三大戰略方向。一、核心警報:AI規模化的“死亡之谷”與EBIT鴻溝為什麼人人都用,但大多數人賺不到錢? 答案在於規模化的失敗。報告的核心資料顯示,儘管 AI 滲透率極高,但近三分之二的公司仍處於 試驗(Piloting)或 部署(Deploying)的早期階段,尚未開始在整個企業範圍內推廣 AI。1. 陷入“試點陷阱”許多企業滿足於在單個部門(如客服、IT)的小項目上看到成本節約,但缺乏將成功經驗跨部門、跨業務線複製的能力。這種“試點陷阱”導致 AI 的價值被碎片化,無法形成強大的網路效應,自然無法傳導至整體的 EBIT 層面。2. 價值衡量體系的錯位許多公司對 AI 的期望止步於“降本”。它們只關注效率提高,卻忽視了 AI 在營收增長和創新突破上的潛力。麥肯錫報告反覆強調:只有當企業將 AI 嵌入到核心業務流程,甚至創造全新商業模式時,AI 對 EBIT 的貢獻才會顯現。這需要將 AI 視為戰略資產,而非僅是效率工具。二、技術前沿:AI Agent的爆發與“黑匣子”挑戰AI Agent(智能體)是 2025 年報告中的另一個關鍵焦點。它代表著 AI 應用的未來方向——自主執行多步驟任務,極大解放人力。1. 驚人的普及率:Agent的快速滲透報告指出,高達 62% 的受訪企業已經至少開始試驗或擴展 AI Agent 系統。主要突破口: Agent 目前應用最廣泛的領域集中在 IT 和知識管理職能。例如,在 IT 服務台中自主診斷和解決常見問題;或在知識管理中,自主整合和撰寫內部研究報告。價值的初期體現: 在這些專業領域,Agent 已經開始展現出極高的效率潛力,因為它能將一系列複雜的 API 呼叫和邏輯判斷打包成一鍵式服務。2. 規模化 Agent 的三大瓶頸儘管 Agent 潛力巨大,但只有 23% 的公司報告正在擴展 Agent 系統,這說明 Agent 的規模化落地比基礎 AI 更難:資料孤島與治理: Agent 需要訪問和整合企業內分散在各處的資料。如果企業的資料治理和安全框架不完善,Agent 的行動能力就會受限,甚至引發安全風險。可解釋性與信任: Agent 的自主決策過程有時難以追溯(即“黑匣子”問題),尤其是在金融、醫療等高風險行業,這嚴重影響了業務人員對 Agent 的信任和合規性要求。工作流重塑成本: 部署 Agent 並非簡單地安裝軟體,而是需要重構現有的組織架構和協作流程,這是一個組織變革的過程,其成本往往高於技術部署本身。三、戰略分水嶺:高績效者的“增長-創新”飛輪麥肯錫將那些 AI 貢獻了超過 5% EBIT 的公司定義為 AI 高績效者(AI High Performers)。這些公司是跨越鴻溝的典範,他們的戰略選擇與普通公司截然不同。1. 目標:從“效率優先”到“增長驅動”普通公司:80% 的公司將“提高效率”設為 AI 倡議的首要目標。高績效者: 他們不僅追求效率,更傾向於將“增長”和“創新”作為 AI 目標。他們將 AI 視為創造新產品、開拓新市場、最佳化客戶體驗的增長引擎。案例: 不僅僅是讓客服機器人節省人工成本,而是利用 AI 驅動的個性化推薦引擎,為每個客戶提供定製化服務,從而提高客單價和復購率。2. 魄力:3.6倍的變革意願高績效者成功的最大秘密在於組織變革的魄力。他們比普通公司高出 3.6 倍的意願,利用 AI 對現有的工作流程進行“變革性改變”(Transformational Change)。深度整合: 他們不是在現有流程上打補丁,而是徹底推倒重來,將 AI 深度整合到企業文化、組織架構和關鍵決策點中。3. 人才:雙管齊下的AI人才戰略儘管 32% 的公司擔心 AI 會導致裁員,但高績效公司正在加速招聘。他們明白,AI 驅動的轉型需要人類的智慧來引導。外部招聘:軟體工程師、資料工程師和 AI/ML 專家仍然是全球範圍內的搶手貨。內部重塑: 更重要的是,他們大力投入於內部員工的“AI 素養”和“重塑技能”(Reskilling)。他們相信,最好的 AI 戰略是讓現有員工具備操作、理解和利用 AI 的能力。四、組織大遷徙:跨越鴻溝的三大基石要實現 5% 以上的 EBIT 提升,企業必須在組織層面進行系統性重建。麥肯錫報告指出了支撐 AI 規模化的三大基石:1. 基石一:資料治理與 MLOpsAI 的價值源於資料。高績效者在資料治理上投入更多,確保資料質量、可訪問性和安全性。• MLOps 成為標配: 他們將 MLOps(機器學習維運)視為標準實踐,確保模型從實驗到生產的平穩過渡,解決模型漂移、性能監控和版本控制等問題。• 統一資料湖: 打破資料孤島,建立統一的雲原生資料湖或資料網格,為 Agent 和模型提供可靠的“燃料”。2. 基石二:重塑工作流(Workflow Redesign)這是最難也是最關鍵的一步。• AI 優先的工作設計: 工作流不再圍繞人類能力設計,而是圍繞 AI 的能力和優勢來重新設計。例如,客服不再是接聽電話,而是成為AI 助手的訓練師和最終決策者。• 人機協作模式: 明確 AI 和人類的角色邊界,將重複性、資料處理的工作交給 Agent,將創造性、情感交流、複雜決策的工作留給人類。3. 基石三:高層領導的“全情投入”麥肯錫發現,高績效公司的高層領導對 AI 的所有權和承諾是其成功的關鍵。• C 級推動力: 首席執行長(CEO)和首席技術官(CTO)需要親自擔任 AI 轉型項目的主席,並提供持續的資金和戰略支援,確保 AI 項目不會被短期業績壓力中斷。結論與行動:未來三年,個人與企業的五大落地清單麥肯錫的報告為我們描繪了一個清晰的未來:AI 的贏家將是那些把 AI 視為增長戰略核心,並有勇氣進行組織變革的公司。💼 企業決策者:設立增長目標: 將 AI 項目的目標從“降本 X%”升級為“營收增長 Y%”,並將 AI 投入與年度財報掛鉤。投資 MLOps 基礎設施: 將 AI 模型部署流程化、自動化,確保 Pilot 成功案例能快速複製到全企業。啟動工作流重塑項目: 聘請專業的流程顧問或內部團隊,設計全新的 AI-Human 協作工作模式。🧑‍💻 職場個體:學習 Agent 協作: 掌握如何使用 Prompt Engineering 和 Agent 編排工具,將你的日常工作流程自動化。建構 AI 素養: 不僅學習如何使用 AI 工具,更要理解 AI 模型的基本原理、能力邊界和潛在風險。從“使用者”升級為“AI 的設計師和評估師”。 (AI智匯派)
矽谷最著名的分析師發了一份90頁的AI報告,我們為你提煉了這5個洞見
最近有一個PPT在矽谷被廣泛傳閱,作者就是全球科技圈最頂尖、最具影響力的獨立分析師之一:Benedict EvansBen最顯赫的履歷是曾在 Andreessen Horowitz (a16z) 擔任合夥人,a16z 是矽谷最傳奇的風投機構(投過 Facebook, Airbnb, GitHub, Coinbase 等)。當然,在 a16z 期間,他不是負責敲程式碼的,而是負責“思考”的。他的工作是為投資人和創業者提供宏觀戰略視野,判斷未來 10 年的風向。目前他是一名獨立分析師,核心思考“產品”包括超過 17 萬人訂閱的的“周報”,以及我們今天要解讀的“重磅PPT”——《2025 Autumn AI》本文中,我們將對該報告進行全景式拆解,深度探討算力基建的貨幣化難題、無限算力下的勞動力重構(傑文斯悖論),以及“意圖經濟”對傳統網際網路商業模式的終極顛覆。01. 第五次摺疊未知的物理極限與軍備競賽回顧過去五十年的科技史,我們實際上只經歷了四次真正的“平台遷移”:大型機、個人電腦(PC)、網際網路、智慧型手機。每一次遷移,都不是舊事物的改良,而是底層互動邏輯、分發管道和價值捕獲方式的徹底重設。2025 年,我們確認無疑地站在了第五次遷移的震中:生成式 AI。然而,Benedict Evans 在報告開篇就拋出了一個令人不安的差異點——“不可知性”(The Unknown)。回望PC和智慧型手機時代,技術演進的路線圖是清晰的:比如在2007年iPhone發佈時,我們就知道螢幕會變大、網路會變快、電池會耐用。哦,對了,當時摩爾定律也沒有失效,它提供了一個相對精準的時間刻度,讓我們能夠預測未來 5 年甚至 10 年的硬體極限。但在大語言模型(LLM)時代,我們發現沒有“指南針”了。是,我們有Scaling Laws(擴展定律),Scaling Laws告訴我們,只要堆疊更多的資料、更大的算力,模型就會變強。但這種變強是線性的還是指數的?是否存在一個物理上的“天花板”?GPT-5、GPT-6 乃至 AGI(通用人工智慧)的臨界點在那裡?沒有人知道。正是這種“物理極限的未知”,製造了科技史上規模最大、也最瘋狂的“囚徒困境”。對於微軟、Google、Meta 和亞馬遜這四大巨頭(Hyperscalers)而言,擺在面前的只有兩個選擇:選擇1,過度投資的風險:可能會浪費數千億美元建設了過剩的資料中心,導致股價回呼。選擇2,投資不足的風險:可能會直接錯過下一個時代,像當年錯失移動網際網路的微軟一樣,從牌桌上消失。如果你是科技大廠的掌舵人,你會怎麼選?相信你會跟Google的CEO Sundar Pichai 和Meta的創始人Mark Zuckerberg 做出同樣的選擇:選2.他們認為:投資不足的風險遠大於過度投資,注意,是遠大於。在這種邏輯驅使下,2025 年全球科技巨頭的 AI 資本開支(Capex)預計將達到 4000 億至 7500 億美元。為了讓這個數字具象化,Ben的報告是這樣說的:這相當於我們在一年之內,要將全球電信行業的基礎設施重新建設一遍。 或者說,這相當於重新建構整個美國的電力網路。OpenAI 更是激進地規劃了每年 1GW(吉瓦)的電力擴容需求,其目標是建設價值數兆美元的算力叢集。如果是這樣龐大的規模,就造已超越了軟體行業的範疇,進入了重工業、能源甚至地緣政治的領域。不過,這種狂熱的基建投入背後,隱藏著一個巨大的隱憂:商業回報的滯後性。目前的 AI 收入呈現出一種“循環收入”(Circular Revenue)的怪圈——微軟投資 OpenAI,OpenAI 用這筆錢買輝達的晶片,輝達的收入增長又支撐了股市的繁榮,反過來讓巨頭有錢繼續投資。但這筆錢,最終有沒有從真正的“終端使用者”口袋裡賺出來?我們之前的文章中也反覆在探究這一點。很遺憾,Ben目前的答案依然是模糊的。02. 應用的“死亡谷”為什麼8億使用者依然不夠?前面我們說到,AI供給端的基建可以說是“狂飆突進”,不過,在需求端,落地現狀則顯得“冷熱不均”了。報告披露了一組關鍵資料:ChatGPT 的周活躍使用者(WAU)已經達到了驚人的 8 億——這是一個足以與 Instagram 或 TikTok 早期相媲美的數字。但與使用者量形成重大反差的是,使用者行為的深度,或者說“粘性”,遠遠不夠。這體現在2個方面:1,“遊客”多於“居民”大多數使用者對生成式 AI 的使用,依然停留在“偶爾為之”的階段。人們會用它寫一首打油詩、查詢一個複雜的程式碼問題,或者生成一張圖片。但它遠未像微信、WhatsApp那樣,每天要被高頻地使用。資料表明,絕大多數使用者是“輕度使用者”,甚至很多人在嘗試了幾次後就流失了。2,企業的“2026 時間表”B端市場的情況則更為複雜。雖然媒體天天喊著“AI 顛覆企業”,但,根據 Morgan Stanley 和高盛的 CIO 調查,接近 40% 的大型企業表示,真正的大規模 AI 部署計畫要等到 2026 年甚至更晚才會啟動。為什麼?因為企業軟體的更替周期本身就是漫長的,比如,這中間容錯率的問題吧,傳統軟體(如資料庫)是確定性的,1+1 必須等於 2,但 LLM 是機率性的,它會有“幻覺”。這對於銀行核算,簡直就是災難。再比如,你用上AI了,公司的流程也得重構吧,而企業重新設計業務流程需要時間,更需要組織變革的勇氣。在Ben看來,我們目前正處於技術成熟度曲線(Hype Cycle)的“低谷期”:基礎設施已經鋪設完畢,但殺手級應用尚未誕生。這就像是2000年的寬頻網路:光纖鋪到了家門口,但 YouTube 和 Netflix還沒有出現。03. 勞動力重構傑文斯悖論與無限實習生一個被很多人探討的問題是:AI到底會替代人類?還是會增強人類?Benedict Evans 引入了一個極其深刻的經濟學視角:傑文斯悖論(Jevons Paradox)。19 世紀的經濟學家傑文斯發現,當蒸汽機提高了煤炭的利用效率(即做同樣的事需要更少的煤)時,煤炭的總消耗量並沒有下降,反而因為成本降低、應用場景擴大而呈指數級上升。AI 就是智力領域的“蒸汽機”。所以,Ben在報告裡提出了一個核心隱喻:AI 賦予了你“無限的實習生”(Infinite Interns)。在過去,受限於人力成本,我們只能做那些“高價值、低頻次”的工作。例如,一個行銷團隊一周只能打磨 2 篇深度稿件;一個程式設計師一周只能寫 1000 行核心程式碼。那我們推演一下,如果 AI 能瞬間以極低的成本生成內容和程式碼,會發生什麼?企業會因此裁掉行銷經理嗎?可能不會。但這個行銷經理的KPI可能會改變,從一周2篇變成使用AI達到一周分發 2000 篇針對不同受眾的個性化內容。碼農會因此失業嗎?也不會。在推演中,因為編寫軟體的成本大幅下降,我們可以為那些以前“不值得寫程式碼”的長尾需求開發軟體。例如,為一家只有 5 個人的小公司開發一套專屬的 ERP 系統,以前需要幾十萬,未來可能只需要幾句話。所以,在生產力的極大豐富,選擇接近無限的AI未來,帶來的不是需求的萎縮,而是需求的爆發。同時,未來的組織形態將發生劇變。我們可能會看到大量“超級個體”和“袖珍跨國公司”的誕生:一個 10 人的初創團隊,利用 AI 這一槓桿,將擁有過去 500 人企業的研發、行銷和客服能力。對於城市管理者和產業規劃者而言,這不僅不是就業危機,反而是人才紅利二次釋放的巨大機遇。04. 商業模式的終局“意圖經濟”Ben在討論完技術和組織後,就開始觸及最核心的利益分配了:網際網路商業模式的終極顛覆。過去二十年,Google、Amazon、淘寶等巨頭的商業大廈建立在“推薦演算法”之上,其底層邏輯是“相關性”(Correlation):這個好理解,舉個例子:系統監測到你買了一卷透明膠帶,推測具有相關性的產品,於是給你推更多膠帶,或者剪刀。但講真,這種邏輯很愚蠢。因為你買膠帶不是為了收藏,而是為瞭解決某個問題,但愚蠢且無聊的系統不知道那個問題是什麼。生成式 AI 的出現,將把商業競爭的維度從“流量”提升到“意圖”(Intent)。Ben說,在 AI 時代,機器不再是簡單地匹配關鍵詞,而是擁有了推理能力。咱們重複前面的例子:當你購買膠帶、紙箱、記號筆時,AI 會通過推理得出結論:“這個使用者的意圖是搬家。”於是,AI就不會給你展示膠帶或者剪刀的廣告,而是向你推薦:“我幫你對比了三家搬家公司,價格如下;另外,你需要為新家購買保險嗎?宜家最近有新房裝修的優惠券,需要領取嗎?”這就是“意圖經濟”(Intent Economy)。誰能最精準地理解並解決使用者的“意圖”,誰就掌握了價值鏈的最高入口。這對現有的網際網路巨頭是毀滅性的打擊。如果 AI 能直接給我答案並執行操作(Agent),我為什麼還要去 Google 搜尋一堆藍色連結?這意味著,未來的商業競爭將不再是比拚誰的 App 日活高,而是比拚誰的 AI Agent(智能體) 更懂使用者。所有的垂直行業(SaaS、電商、服務業)都面臨被 AI Agent 這一新中間層“截胡”的風險,但也面臨著通過接入 Agent 獲得精準客戶的機遇。05. 才技術“消失”革命才真正完成在報告的最後,Benedict Evans 用一張 1950 年代的照片結束了這場宏大的論述:一個有操作台的電梯。一百年前,每一部電梯裡都必須有一位專業的操作員,負責拉閘、停靠、開門。當時的人們也許爭論過“自動電梯是否安全”、“操作員失業了怎麼辦”。隨著繼電器和自動控制技術的成熟,電梯實現了自動化。操作員消失了……但今天,我們不會指著電梯驚呼:“看!這是一家自動化公司!”或者“這是高科技!”。因為電梯已經融入了建築,成為了背景,成為了像水和空氣一樣理所當然的存在。AI 的終極命運,也是“消失”。目前的喧囂、焦慮、模型跑分大戰、甚至那 7500 億美金的基建投入,都只是大變革前夜的噪音。未來,不會有專門的“AI 公司”,就像現在沒有專門的“電力公司”(指使用電力的公司)一樣。所有的公司都將是 AI 公司。當 AI 真正成功的那一天,它將從我們的視野中隱退,下沉為底層的作業系統。它將不再是一個需要我們專門去學習的“工具”,而變成一種無處不在的基礎設施能力。站在 2025 年的這個深秋,面對這份厚重的報告,我們應當從中提煉出那些行動指南?首先,保持戰略定力,看穿泡沫:7500 億美金的基建投入可能會在短期內引發泡沫破裂的恐慌,但從長周期看,這是通往下一個時代的必經之路(過橋費)。不要因為短期的股價波動而動搖對數位化轉型的投入。其二,關注“應用層”的爆發點:基礎設施已基本就緒,接下來的 3-5 年是應用層(Application Layer)的黃金窗口期。關注那些能解決實際問題、而不僅僅是炫技的 AI 產品。此外,重構組織而非單純採購:不要指望買一套 AI 軟體就能解決效率問題。真正的紅利在於利用“無限實習生”的特性,重新設計組織架構,打造更敏捷、更高產的“超級團隊”。值得提醒的是,儘早佈局“意圖經濟”生態,特別是盯住垂直行業佈局。AI 正在吞噬世界,但它消化的結果,是一個更高效、更智能、充滿無限可能的新世界。 (TOP創新區研究院)
最新必讀!互聯網女王340頁AI報告解讀:AI崗位暴漲,這些職業面臨最大危機|附中文版
被矽谷奉為「互聯網女王」的 Mary Meeker 又出手了。她自 1996 年起連續每年發佈著名《網際網路趨勢報告》,記錄了從 PC 到移動網際網路的二十年進化史,是不少投資人和創業者的風口指南針。作為少數能通過資料講清楚未來走向的老牌投資人,這一次,她將目光投向了 AI。5 月 30 日,Meeker 發佈了一份長達 340 頁的重磅《AI 趨勢報告》,從技術路徑、投資規模到自動駕駛等領域的影響,幾乎把這場浪潮的每一個重要變數都梳理了一遍。如果你想抓住下一個風口,那麼這份報告絕對值得認真研讀。我們也整理了報告中的一些要點:AI 帶來的變化是前所未有的,ChatGPT 短短 2 個月內突破 1 億使用者,17 個月後月活躍使用者達到 8 億,訂閱使用者超 2000 萬,年收入接近 40 億美元。看到 AI 潛力的科技巨頭持續加大對 AI 基礎設施的資本投入,2024 年 AI 相關資本支出已達 2120 億美元,同比增長 63%。輝達 GPU 顯著提升了AI 推理的性能和能效,也因此賺得盆滿缽滿,堪稱這波 AI 浪潮中的最大受益者。AI 模型的訓練成本在短短 8 年內暴漲 2400 倍,單個模型訓練成本可能在今年將達到 10 億美元,未來有可能突破 100 億美元。開源模型(如 DeepSeek、Qwen 等)更是逐步縮小與頂級閉源模型的差距,尤其在推理和程式設計能力上具備競爭力。AI 在蛋白質摺疊、癌症檢測、機器人技術、多語翻譯等領域發展迅速,在圖靈測試中的表現已超越多數人類測試者,並開始滲透到自動駕駛、機器人等物理世界。AI 相關崗位增長 448%,而傳統 IT 崗位需求萎縮,AI Agent 成為新型數字勞動力,能夠執行多步驟任務並重塑各行業業務流程。附上原報告地址:https://www.bondcap.com/reports/tai另外,APPSO 也整理了原報告的中英雙語版本,可直接在公眾號後台回覆「趨勢」即可領取。使用者裂變速度史上最快,AI 真成新基建了?ChatGPT 僅用了 2 個月左右的時間達到 1 億使用者,遠遠快於歷史上任何一款產品。17 個月過後,ChatGPT 月活躍使用者增至 8 億,訂閱使用者超 2000 萬。此外,ChatGPT 年營收接近 40 億美元,是歷史上商業化速度最快的 AI 產品,沒有之一。與網際網路前期是以美國為中心的技術有所不同,ChatGPT 在短短的三年之後,北美之外的使用者普及率就超過 90%,呈現「同步爆發、全球鋪開」等技術特徵。AI 驅動基礎設施投資是本次浪潮的一大亮點。報告提到,我們所熟知的大型科技公司(蘋果、輝達、微軟、Google、亞馬遜、Meta)在 AI 相關 CapEx(資本支出)上持續加碼。資料顯示,這六家公司大舉投資 AI 基礎設施,如資料中心,2024 年已達 2120 億美元,同比上漲 63%,為十年內最高。當然,AI 生態的增長邏輯是,算力投入越大,模型能力越強,產品體驗越好,從而導致使用者越多,平台收益潛力越大,進而刺激企業加碼 CapEx。在過去一年裡,黃仁勳在幾乎所有公開場合都在重複一個觀點:輝達不是晶片公司,也不僅僅是一家科技公司,而是一家 AI 基礎設施公司。由於資本的瘋狂投入,全球資料中心投資在 2022-2024 三年內幾乎翻倍。其中,輝達吃下了資料中心預算的「大頭」,眾多初創公司依賴輝達的硬體和軟體棧加速產品開發。到 2024 年,每 4 美中繼資料中心投資中,就有 1 美元進了輝達的口袋,也讓其成為了這波 AI 浪潮的最大贏家。另外,AI 應用也加速滲透到多個領域:蛋白質摺疊預測、癌症檢測、機器人、多語翻譯、視訊生成……正在重塑行業生態和人類工作方式。某種程度上說,AI 就是新基建的重要驅動力。推理成本下降,但模型訓練越卷越貴資料量、參數規模、CPU 叢集、工程師人力等同步上漲,導致 AI 模型的訓練成本呈現指數級暴漲。正如 Anthropic CEO Dario Amodei 所預測的那樣,2025 年將可能出現單個模型訓練成本達到 10 億美元,甚至未來 100 億美元也不是天方夜譚。報告顯示,前沿 AI 模型的訓練成本在短短 8 年內增長了約 2400 倍,2016 到 2019 年訓練成本仍處於幾十萬到幾百萬美元之間,而到了 2024 年, GPT-4、Gemini 1.0 Ultra、Llama 3 等模型訓練成本高達上億美元。根據 Epoch AI 的資料,從 1950 到 2025 年,AI 模型訓練所需資料集從百萬詞級躍升至兆詞級,規模年增 260%。與此同時,所需算力也在大幅增長。雖然 IT 硬體成本持續下降,但模型訓練 FLOP(浮點運算)年增長率高達 360%,AI 模型越來越「燒錢」「燒電」「燒卡」。輝達每一代 GPU 架構都大幅提升和最佳化 AI 推理性能和能效比,這也是 AI 走入現實生活的基礎前提之一。2014 到 2024 十年間,輝達 GPU 推理單個 Token 所需的能耗下降了約 105000 倍,幾乎趨近於可忽略的邊際能耗,有利於規模化部署和開發者接入。過去,輝達 CUDA 平台、GPU 程式設計模型雖已存在,但使用者多集中在科研、高性能計算領域。隨著深度學習、大模型訓練需求暴漲,越來越多的開發者也湧入輝達生態。輝達用了 13 年才做到第一個 100 萬開發者的里程碑,又用不到 7 年時間做到了 600 萬。包括在剛過去不久的 Google I/O 大會上,使用 Google Gemini 建構應用的註冊開發者總量也從 140 萬增長至 700 萬,年增幅達 5 倍。閉源想收割,開源想逆襲,使用者笑而不語OpenAI 等頭部企業尚未盈利,算力支出高於收入,呈現「高使用者、重燒錢、待盈利」的發展階段。不過,情況也正在好轉。2022–2024 年間,Open AI 收入大幅上升,算力支出顯著下降,顯示其 AI 商業化路徑逐漸清晰(如 ChatGPT Plus、API、企業訂閱等)。隨著性價比持續提升,開源模型正在成為閉源模型的強有力對手。知名分析機構 Artificial Analysis 資料顯示,截至 2025 年1 月份,像 DeepSeek、Meta 的 Llama 3、阿里的 Qwen 系列這樣的開源模型,已經在推理能力和程式設計能力等方面的性能逼近頂級閉源模型。到 2024 年,美國發佈超 100 個訓練計算量超 10²³ FLOPs 的大語言模型,而中國自 2022 年以後緊隨其後,模型進入高密度爆發期,不斷縮小中美之間的差距。相比之下,英國、法國、德國、加拿大等國的累計數量尚在 10-20 個區間,跨國協作模型開發增長曲線也比較緩。對比來看,中國在工業機器人部署上具備領先優勢。2023 年工業機器人安裝數量達到 276000 台,首次超過全球其他國家總和。圖靈測試不香了?你可能已經相信 AI 是「人」隨著 AI 模型性能的不斷提升,人類已經越來越難分辨 AI 和真人了。圖靈測試(Turing Test)是著名數學家、邏輯學家、密碼學家艾倫·圖靈於 1950 年在《電腦器與智能》一文中提出的一種測試機器是否具有智能的方法。現如今,GPT-4.5 在圖靈測試中被 73% 的測試者誤認為人類,遠超 GPT-4o 和機器人 ELIZA。在下方的聊天記錄圖片中,左側 Witness A 是 GPT-4.5,右側 Witness B 是人類,相比之下,GPT-4.5 表達更輕鬆,更有人味,而真人的回答反而略顯笨拙。圖像方面的進步在 Midjourney v1-v7 上展現得淋漓盡致,2022 年生成的葵花吊墜質感粗糙,肉眼可見地像玩具,到了 v7 版本,質感直接邁向商品級水平。下圖左側是 AI 生成的圖片,在膚色、髮絲、光線等細節上幾乎毫無破綻,而面對右側真實拍攝的照片,也很難說一眼便能分清 AI 與真人。聲音更是 AI 生成領域的重災區,ElevenLabs 支援多語言語音克隆與翻譯,保留原說話者的音色。功能包含自動轉錄、翻譯、合成一條新音軌。資料顯示,ElevenLabs 網站的月訪問量從 0 飆升到接近 2000 萬,音色克隆+即時翻譯已趨近商用等級。這屆 AI 不只會聊天,開始開車、種地、打工了報告還提出了一個關鍵的趨勢轉變:AI 正從數字世界擴展到物理世界,「物理智能體」正在加速崛起。例如,Waymo 和 Tesla 的自動駕駛系統已投入商業營運,不再只是停留在測試階段,而是與即時環境緊密結合,截止至 2025 年 4 月,Waymo 自動駕駛計程車在舊金山的市場份額已經佔到了約 1/3。Uber CEO Dara Khosrowshahi 也曾表示:再過 15 到 20 年,自動駕駛系統將比人類司機更優秀。它們會基於無數人類駕齡的資料進行訓練,而且不會分心。與此同時,AI 正在快速滲透到各個行業,包括 AI 工廠、AI 機器人、工業 AI、AI 醫療裝置與 AI 農業等部署,正在去取代傳統的人工流程。如 Carbon Robotics 等農業公司則將 AI 應用於除草,通過電腦視覺實現無農藥作業。AI 相關崗位增長 +448%,非 AI 崗位反降 -9%(2018–2025),說明企業對於 AI、機器學習、資料科學、生成式 AI 等相關崗位需求迅猛增長;而傳統 IT 崗位(如基礎維運、通用程式設計)職位需求則相對飽和甚至萎縮。2025 年是 Agent 元年,Agent 正在成為新型數字勞動力。AI 不再只是一個對話工具,而是真正能幹活,比如 Claude 3.5 的 Computer Use 可以直接控制電腦螢幕,自動執行多步驟任務,如線上購物、介面導航等。各行業(金融、醫療、製造、零售)正用 AI 重塑業務流,提升生產率與客戶體驗。圖表顯示,企業採用 AI 的目標正在發生演變:從最初提升整體辦公效率(如 Copilot 應用)出發,快速擴展至特定崗位自動化、客戶互動最佳化、新營收機會探索等多個方向。 (APPSO)
斯坦福456頁AI報告劃重點:中美AI競爭格局變了!
中美頂尖大模型的能力差距大幅縮小。智東西4月8日報導,今天,斯坦福大學以人為本AI研究院(HAI)發佈長達456頁的《AI指數報告2025》,全面介紹了中美AI競爭態勢、開源模型、模型技術性能、大模型投融資、AI for Science等領域的最新資料和進展,其中DeepSeek被提及45次。《AI指數報告2025》中寫道:“美國在頂尖AI模型產出上仍保持領先——但中國正快速縮小性能差距。”報告以DeepSeek-V3為典型代表,論證了大模型推理、訓練成本的驟降;來自清華大學、北京智源研究院的數十篇科研成果被納入全球Top100;來自阿里、字節、DeepSeek、騰訊、智譜等企業的15款模型被選為過去一年中的重要AI模型。整體而言,中國大陸的AI研究論文在全球總發表量中佔比23.2%,被引量佔全球總量的22.6%。不過,美國在研究成果在影響力上更勝一籌,且依舊是重要AI模型的主要來源地。2024年,美國機構開發了40個重要AI模型,遠超中國大陸的15個和歐洲的3個。過去十年美國開發的機器學習模型數量居全球之首。算力作為驅動AI發展的重要因素,也在迅速變化。以16位浮點運算為基準,2008-2024年間機器學習硬體性能年均增長約43%(每1.9年翻番),固定性能水平的硬體成本正以每年30%的幅度下降。AI正對經濟產生深刻影響。在麥肯錫的調研中,已有至多49%的企業稱AI為企業實現了降本,其中,中國大陸企業在AI採用率上提升迅速,已達75%,與北美地區差距縮小到7%。2024年,全球AI投資達到2523億美元,其中私人投資增長44.5%,生成式AI領域的投資達到339億美元,2024年美國AI投資額達到1091億美元,幾乎是中國大陸投資額93億美元(折合人民幣約682億元)的12倍。我們還首次見證了AI研究獲得2項諾貝爾獎,並在生物醫藥領域展現出巨大的應用潛力。01.產業界主導大模型開發,中國AI專利量全球領先全球AI領域呈現出多維度的快速發展態勢。AI已成為電腦科學中的主要研究領域,產業界在AI大模型開發中扮演著關鍵角色,學界則在高被引論文上表現突出。過去1年,重要AI模型的數量雖有所減少,但產業界開發的模型佔比顯著上升。硬體成本的持續下降為AI的發展提供了有力的支援。同時,AI學術會議參會人數的增長也反映出學界、業界對AI研究的熱情高漲,整個行業正處於蓬勃發展的關鍵時期。1、中美AI科研影響力持續提升總體來看,AI研究論文的總量持續增長,並已主導電腦科學領域。2013-2023年間,AI研究論文的數量從10.2萬篇增至24.2萬篇,在電腦科學論文中的佔比從21.6%升至41.8%。學術界貢獻了更多的高被引研究。從地區來看,中國大陸AI論文發表總量領先,2023年,中國大陸機構的AI論文在全球總發表量中佔比23.2%,被引量佔22.6%。美國則發表了更多高影響力研究。2021年-2023年,美國分別貢獻了AI領域Top100高被引論文中的64篇、59篇與50篇,中國大陸分別貢獻了33篇、34篇與34篇。按機構來看,在2021年-2023年的Top100高被引論文中,Google、清華大學、卡耐基梅隆大學、微軟、北京智源人工智慧研究院、香港科技大學、上海人工智慧實驗室、中國科學院、Meta、輝達的表現較為搶眼。2、重要AI模型(Notable AI models)由產業界主導AI指數資料提供商Epoch AI根據是否為最新技術進步、是否具有歷史意義或引用率等標準,定義了一個囊括900余個重要AI模型的資料庫。過去數年來,重要AI模型的參數規模、資料集大小、訓練時長等資料都呈現增長態勢。產業界正持續加大AI投入,並主導了重要模型的開發工作,2024年,由產業界開發的重要模型佔比達90%(2023年為60%)。重要AI大模型的數量出現了明顯減少,由2023年的105個減少至2024年的61個。同時,有越來越多的大模型選擇了API、託管獲取權限等非開源方式進行發佈。美國仍是重要AI模型的主要來源地。2024年,美國機構開發了40個重要AI模型,遠超中國大陸的15個和歐洲的3個。過去十年美國開發的機器學習模型數量居全球之首。2024年,幾乎所有重要AI模型都來自產業界,其中Google和OpenAI憑藉7款重要模型位列榜首,阿里憑藉6款模型位居第三。字節、DeepSeek、騰訊、智譜AI分別憑藉2款模型上榜。回顧2014年-2024年的資料,Google貢獻了最多的重要AI模型,其次是Meta、微軟、OpenAI等企業。多所美國電腦強校登上這一榜單,清華大學和阿里分別貢獻了22個與14個重要AI模型。美國頂級AI模型的算力需求普遍遠超中國大陸模型。根據Epoch AI資料,自2021年底以來,中國大陸訓練算力排名前十的語言模型年均增長約3倍,顯著低於2018年以來全球其他地區年均5倍的增速。3、開源AI項目數量陡增自2011年以來,程式碼託管平台GitHub上的開源AI項目數量持續增長,從2011年的1549個激增至2024年的約430萬個。特別值得注意的是,僅過去一年內,GitHub AI項目總量就實現了40.3%的陡增。截至2024年,美國貢獻GitHub中23.4%的AI項目,佔據最大份額;印度以19.9%的佔比位居第二;歐洲緊隨其後,貢獻了19.5%的項目。美國開發者和中國大陸開發者在GitHub開源AI項目中的佔比都出現不同比例的下降。4、硬體成本每年下降30%報告強調,硬體進步是推動人工智慧發展的核心驅動力。儘管模型規模擴大和海量資料訓練帶來了顯著性能提升,但這些突破本質上都依賴於硬體技術的革新——尤其是更強大、更高效的圖形處理器(GPU)的發展。根據Epoch AI測算,以16位浮點運算為基準,2008-2024年間機器學習硬體性能年均增長約43%(每1.9年翻番)。這一進步主要源於電晶體數量持續增加、半導體製造工藝革新和專用AI計算硬體的演進。固定性能水平的硬體成本正以每年30%的幅度下降。以2022年3月發佈的H100為例,其每美元可實現220億次浮點運算,性價比較2020年6月發佈的A100提升1.7倍,較2016年4月的P100更是提升16.9倍。5、中國大陸AI專利授權量領先過去10餘年,AI專利申請量激增。2010-2023年AI專利從3833件增至122511件,年增幅29.6%。中國大陸以69.7%的授權量領先,韓國和盧森堡人均專利產出最高。6、AI學術會議參會人數增長自2014年以來,全球主要AI學術會議的參會人數增加了6萬多人,AI研究熱情不斷增長。資料顯示,NeurIPS仍然是參會人數最多的AI學術會議,2024年吸引了近2萬名參與者。在主要的AI學術會議中,NeurIPS、CVPR、ICML、ICRA、ICLR、IROS和AAAI在過去一年中參會人數都有所增加。02.開源模型迎頭趕上,中美大模型質量差距縮小到0.3%2024年,AI模型的性能實現諸多突破。AI在多項基準測試中表現優異,超越人類或與人類差距迅速縮小,並攻克了2023年新提出的多項基準測試。開源模型在2024年迎頭趕上,頂尖開源模型與頂尖閉源模型的差距大幅縮小,前沿AI模型的性能分佈趨於收斂,小模型的能力也在不斷增強。此外,AI Agent等新技術展現出初步潛力。1、2024年AI領域重要發佈以下是報告中列舉的2024年最具代表性的模型、資料集和功能發佈,由業內專家組成的AI指數指導委員會選出。來自阿里的Qwen2、Qwen2.5和來自DeepSeek的DeepSeek-V3上榜,Cohere、北京智源人工智慧研究院等發佈的提示詞資料集也被認為具有重要意義。2、AI在多項基準測試中領先人類截至2024年,人類能力超過AI的任務類型已經非常少,即使在這些任務上,AI與人類之間的表現差距也在迅速縮小。例如,在MATH(競賽等級數學的基準測試)上,最先進的AI系統現在已經領先人類表現7.9%,而2024年時這一差距僅為0.3%。同樣,在MMMU(複雜、多學科、專家級問題的基準測試)上,2024年表現最佳的模型o1得分為78.2%,僅比人類基準的82.6%低4.4%。2023年,AI研究人員引入了幾項具有挑戰性的新基準測試,包括MMMU、GPQA和SWE-bench,旨在測試日益AI模型的極限。到2024年,AI模型在這些基準測試中的表現取得了顯著進步,分別在MMMU和GPQA上實現了18.8%和48.9%的提升。在SWE-bench上,AI模型在2023年只能解決4.4%的程式設計問題,而這一比例在2024年躍升至71.7%。4、開放權重模型迎頭趕上去年的AI指數報告揭示,領先的開放權重模型遠遠落後於其封閉權重的同類產品。到2024年,這一差距幾乎消失。2024年1月初,領先的封閉權重模型在聊天機器人競技場排行榜上比頂級開放權重模型高出8.0%。到2025年2月,這一差距縮小至1.7%。5、中美模型差距縮小2023年,領先的美國模型顯著優於其中國大陸同類產品——這種優勢已不復存在。2023年底,在MMLU、MMMU、MATH和HumanEval等基準測試中,性能差距分別為17.5%、13.5%、24.3%和31.6%。到2024年底,這些差距大幅縮小至0.3%、8.1%、1.6%和3.7%。在大模型競技場上,中美大模型的差距縮小至30分以內。6、AI模型性能在前沿領域趨於收斂根據去年的AI指數報告,聊天機器人競技場排行榜上前十名模型與排名第一的模型之間的Elo評分差距為11.9%。到2025年初,這一差距縮小至5.4%。同樣,排名前兩名的模型之間的差距從2023年的4.9%縮小到2024年的0.7%。人工智慧領域的競爭日益激烈,越來越多的開發者提供了高品質的模型。7、小模型能力日益增長2022年,在MMLU上得分超過60%的最小AI模型是PaLM,擁有5400億個參數。到2024年,微軟的Phi-3-mini僅擁有38億個參數,就達到了相同的閾值,後者的參數量僅為前者的0.7%。8、AI Agent展現出初步潛力2024年推出的RE-Bench可用於評估AI Agent在複雜任務上的能力,測試標準較為嚴格。在短時間(2小時)內,頂級AI系統的得分是人類專家的4倍,但隨著時間的增加,人類的表現超過了AI。例如,在32小時的時間範疇上,人類的得分是AI的2倍。AI Agent已經在某些特定任務(如編寫Triton核心)上與人類專家相匹配,同時能夠更快地交付結果且成本更低。03.全球投資熱蔓延,中國大陸工業機器人部署全球第一2024年,AI領域的投資和應用迎來諸多變化,但存在明顯區域差異。全球企業AI投資創下歷史新高,美國投資規模一騎絕塵,北美地區AI採用率領先全球,但中國的採用鋁也迅速提升。AI正給企業帶來一定的經濟效益,儘管大多數受訪者的成本節省不到10%,但這一趨勢仍具有重要意義。1、全球AI投資創歷史新高2024年企業AI投資達到2523億美元,其中私人投資增長44.5%,這是自2021年以來首次同比增長。2024年生成式AI領域的投資達到339億美元,比2023年增長18.7%,是2022年水平的8.5倍以上。該領域如今佔所有AI相關私人投資的20%以上。2、美國在全球AI投資中的領先優勢擴大2024年美國AI投資額達到1091億美元,幾乎是中國大陸投資額93億美元(折合人民幣約682億元)的12倍。在生成式AI領域,美國的投資超過了中國大陸、歐盟和英國的254億美元(折合人民幣約1864億元)總和。3、AI採用率水平前所未有2024年,該報告提到,其關於使用AI的調查受訪者比例從2023年的55%躍升至78%。同樣,受訪者在至少一項業務職能中使用生成式AI的數量翻了一倍多,從2023年的33%升至去年的71%。4、AI開始降本增效49%的受訪者稱使用AI進行服務營運為其節省了成本,其次是43%受訪者將AI用於供應鏈管理和41%受訪者用於軟體工程,此外大多數受訪者的成本節省不到10%。5、中國AI採用率迎頭趕上按地區來看,AI的採用率出現明顯變化,中國迎頭趕上。儘管北美的組織和企業在AI採用率方面仍保持領先地位,但中國具有最顯著的年度增長率,組織使用AI的比例增加了27%。歐洲緊隨其後,增加了23%。6、中國大陸在工業機器人領域的主導地位延續中國大陸安裝工業機器人的數量超過世界其他國家的總和。2023年中國大陸安裝了276300台工業機器人,是日本的6倍、美國的7.3倍。自2013年超過日本以來,中國大陸在全球安裝量中的佔比已從20.8%上升到51.1%。04.更精準蛋白質測序模型亮相,AI臨床表現優於醫生2024年,AI在生物醫學領域取得了重大突破,推動了科學研究和臨床應用的快速發展。模型的規模、精準性不斷提升,應用領域從實驗室擴展到臨床。AI研究更是在2024年斬獲兩項諾貝爾獎,獲得學界認可。1、更大、更好的蛋白質測序模型出現2024年出現了包括SM3、AlphaFold 3等在內的幾種大規模、高性能蛋白質測序模型。隨著時間推移,這些模型規模顯著增大,蛋白質預測準確率不斷提升。其中ESM3整合了多模態輸入(序列、結構和互動資料),再加上其參數規模更大,提高了模型預測的代表性和精準性。隨著ESM系列規模的擴大,蛋白質預測性能也得到了提高,2o04年發佈的較新的模型ESM C在結構預測關鍵評估(CASP15)挑戰中對蛋白質結構的預測準確性更高。2、AI在科學進步中的作用不斷擴大2022年、2023年是AI驅動科技進步突破的早期階段,但2024年AI應用在學術研究中獲得了顯著的關注,包括為生物任務訓練Agent的Aviary和顯著增強野火預測的FireSat。3、AI臨床應用增加MedQA基準測試中,OpenAI o1得分達到96.0%的最高水平,比2023年的最高分數高出5.8個百分點,相比2022年底成績提高了28.4個百分點。MedQA是評估臨床知識的關鍵基準。4、AI在關鍵臨床任務上的表現優於醫生一項新研究發現,GPT-4本身在診斷複雜臨床病例方面的表現優於醫生。其他近期研究表明,AI在癌症檢測和識別高死亡風險患者方面超越了醫生。5、合成資料在醫學領域顯示出巨大前景2024年發佈的研究表明,AI生成的合成資料可以幫助模型更好地識別健康的社會決定因素,增強隱私保護的臨床風險預測,並促進新藥物化合物的發現。6、基礎模型進入醫學領域2024年,一波大規模醫學基礎模型發佈,從Med-Gemini等通用多模態模型到用於超聲心臟病學的 EchoCLIP和用於放射學的ChexAgent等專用模型。7、AI研究獲得兩項諾貝爾獎GoogleDeepMind的Demis Hassabis和John Jumper因其使用AlphaFold在蛋白質摺疊方面的開創性工作而獲得諾貝爾化學獎。約翰·霍普菲爾德和傑弗裡·辛頓因其對神經網路的奠基性貢獻而獲得諾貝爾物理學獎。05.30%國家將電腦科學教育列為必修課2024年,全球約有2/3的國家提供或計畫提供電腦科學教育,30%的國家將電腦科學教育列為小學和/或中學的必修課程,其中歐洲是此類國家最多的地區。2023年美國獲得AI碩士學位的學生數量急劇增加,畢業生數量翻番。2023年AI專業畢業生人數最多的美國高等院校中,卡內基梅隆大學數量最多。06.結語:中國大陸民眾整體對AI持樂觀態度AI正以前所未有的速度滲透到千行百業之中,調查顯示,全球約2/3的人認為,AI驅動的產品和服務將在未來三到五年內顯著改變日常生活。全球60%的受訪者認為AI將在五年內改變工作方式,但僅36%擔心其崗位會被取代。絕大多數中國大陸民眾(83%)認為,AI技術利大於弊,而在加拿大(40%)、美國(39%)和荷蘭(36%),持此觀點者仍佔少數,但比例有所上升。 (智東西)