#史丹佛大學
史丹佛HAI大重組!李飛飛昇任校長顧問
史丹佛把HAI與Data Science合併,李飛飛昇任校長顧問。這是頂級大學在AI新階段押注「組織力」的全面換擋。剛剛,史丹佛進行了一項重磅重組。5月4日,史丹佛大學宣佈:將旗下兩大AI與資料科學組織——Stanford HAI(以人為本人工智慧研究院)和Stanford Data Science(史丹佛資料科學)合併為一個統一機構,名稱保留Stanford HAI,由電腦科學家James Landay全面掌舵。而那位讓全世界記住ImageNet的女人——李飛飛,則升任校長Jonathan Levin的AI特別顧問,同時與史丹佛前校長、圖靈獎得主John Hennessy共同出任HAI顧問委員會聯席主席。HAI,2019年由李飛飛、前教務長John Etchemendy、NLP大牛Chris Manning和Landay聯合創立。7年間,它集結了超過400位跨學科學者,累計發放6000萬美元研究資助,覆蓋史丹佛全部七個學院。它做出了每年一度的AI Index報告,搞了面向國會議員的「AI訓練營」,還在基礎模型、數字經濟、環境智能等領域建立了多個研究中心。Stanford Data Science,由數學與統計學家Emmanuel Candès領銜建立,專注大規模資料處理,建造了高性能計算叢集Marlowe,並在天體物理、因果推斷、可持續發展、神經科學等領域建立了交叉研究中心。過去,兩個組織各有側重:HAI偏「人文視角+政策影響」,Data Science偏「算力基建+資料方法」。但AI發展到2026年這個節點,問題變了——無論你做天文發現、腦科學建模還是歷史文字挖掘,你都需要同時具備大規模資料能力、高性能算力和AI方法論。把兩套成員拆著跑,效率越來越低。用史丹佛校長Levin的話說,合併後的HAI將是「史丹佛AI的統一入口」。也就是說,以後史丹佛搞AI,不管那個學院、那個方向,都從這一扇門進。李飛飛角色升維作為HAI創始院長和ImageNet的締造者,李飛飛在學術界和產業界的號召力毋庸置疑。但HAI發展到今天,需要的不只是學術聲望,更需要一個能「搞工程、搞協同、搞基建」的操盤手。李飛飛昇任校長AI特別顧問,管的是全校七個學院的AI戰略,格局更大了。她自己說得很明白:AI正在改變的不只是技術,還有我們追求科學發現、學習和教育、服務社會的方式。而接棒的Landay,可能在國內知名度不如李飛飛,但在人機互動(HCI)領域,這是一位教科書級的人物。他在1990年代開發的設計工具SILK,比Figma和Canva早了二十多年;他在2000年代初做的UbiFit項目,比Fitbit和Apple Watch早了近十年。2024年,他拿到了ACM SIGCHI終身研究獎——這是人機互動領域的最高榮譽之一。更關鍵的是,Landay的核心理念和這次合併高度契合。他反覆強調的是「團隊科學(Team Science at Scale)」——不是傳統的五人小實驗室,而是20-30人的跨學科大團隊,包含教授、博士後、研究工程師、資料科學家、項目經理和設計師。這恰恰是AI研究從「個人英雄主義」走向「工業化協同」所需要的組織形態。John Hennessy——這位史丹佛前校長、圖靈獎得主、RISC架構之父、Alphabet董事長——也加入了顧問委員會。他的評價最為直接:這是史丹佛最重要的舉措。新HAI到底要幹什麼?合併後的HAI明確了三大支柱:第一,重新定義大學裡的科學發現方式。史丹佛的天文學家用機器學習搜尋系外行星,神經科學家用模型預測腦活動,歷史學家用NLP挖掘檔案——這些不再是「AI+X」的點綴,而是新的研究範式。HAI要提供算力、研究工程師和資料科學家,讓「團隊科學」真正跑起來。第二,推動教育變革。 從K-12到終身學習,AI正在改變人類學習和被評估的方式。HAI要和史丹佛學習加速器等機構合作,探索適應性輔導系統和新型教育模式。第三,研究和塑造AI的社會影響。 就業怎麼變?組織流程怎麼變?設計方法怎麼從「以使用者為中心」升級到「以社區和社會為中心」?這些問題不能只靠工程師回答。而貫穿這一切的關鍵詞是:開放。開放原始碼、開放資料、開放模型、開放課程。學術界在AI時代的價值史丹佛這次重組,釋放出一個非常清晰的訊號:大學AI競爭的下半場,拼的不再是一篇論文、一個明星教授,而是一整套系統能力——算力、資料、人才、組織力和開放研究生態。過去幾年,前沿AI研究的話語權加速向產業界集中。OpenAI、Google DeepMind、Anthropic手握最強算力和資料,學術界的聲量不斷被壓縮。史丹佛這次的動作,本質上是在回答一個存亡級問題:學術界在AI時代還有沒有不可替代的價值?答案是有的——但前提是你能提供產業界給不了的東西:透明性、可復現性、公共利益導向的長期研究,以及真正跨學科的融合視角。而這些東西,不是靠一兩個超級教授就能實現的,需要從組織架構層面去支撐。李飛飛沒有離開,她只是換了一個更高的位置去看全域。Landay沒有橫空出世,他只是終於站到了與自己三十年積累相匹配的舞台上。Hennessy沒有退休,他只是用另一種方式繼續押注史丹佛最重要的賭注。當產業界拚命卷模型、卷算力、卷融資的時候,史丹佛選擇卷「組織力」——用開放、跨學科、以人為本的方式,重新定義學術界在AI時代的角色。 (新智元)
史丹佛大學最新《2026年AI指數報告》:美國仍然是AI人才最集中的地方,但吸引力正在快速減弱 美國民眾對自己政府監管AI的信任度全球最低
你好,我是傑哥。史丹佛大學《AI Index Report 2026》系列終於來到最後一期。我們前兩期聊了技術狂飆和全面滲透,這次把目光轉向最關鍵也最容易被忽略的部分——AI治理博弈。AI 發展太快,治理卻跟不上。這份報告用資料直白地告訴我們:能力在飛奔,責任、政策和公眾信任卻在拉鋸。專家和普通人的看法差距巨大,全球各國政策走向也完全不同。負責任AI:能力全報,責任卻“選擇性失明”報告最刺眼的一個發現是負責任AI明顯滯後。幾乎所有前沿實驗室都會完整公佈能力基準成績,但涉及安全、公平、隱私等責任基準的報告卻少得可憐。更現實的問題是AI事件數量大幅上升。2025 年全球記錄在案的AI相關事件達到 362 起,比2024年的 233 起增加了超過50%。更麻煩的是,研究發現:提升一項責任維度(比如安全),有時反而會損害另一項(比如精準性)。這意味著“修補”變得異常複雜。政策分化:歐盟收緊,美國放鬆,開發中國家集體入場2025年各國AI政策走向出現了明顯分化。歐盟AI Act首批禁止條款正式生效,美國則轉向放鬆管制。日本、韓國、義大利分別通過了國家AI法律。更值得注意的是,超過一半的新增國家AI戰略來自開發中國家,它們第一次大規模進入政策舞台。報告特別強調,“AI主權”已成為全球共識。各國都在努力掌握自己的AI生態,避免被少數大國完全主導。無論是建超算中心還是制定本土規則,主權意識正成為新政策的核心。人才流動“斷崖式”下降:美國吸引力下滑美國仍然是AI人才最集中的地方,但吸引力正在快速減弱。報告顯示,赴美AI研究者和開發者數量自2017年以來下降了89% ,僅去年一年就跌了80% 。這可能是近年來最劇烈的變化之一。與此同時,開源社區正在悄然改變格局。GitHub 上,非歐美地區的貢獻已超過歐洲,正逼近美國。這讓更多語言的模型和基準測試出現,全球參與度變得更加均衡。專家與公眾:50個百分點認知鴻溝最發人深省的是公眾意見部分。當被問到AI對工作的影響時,73%的AI專家認為會是積極的,而普通公眾只有23%持相同看法,差距高達50個百分點。在經濟和醫療領域,也出現了類似的巨大分歧。信任版圖同樣分裂。在受訪國家中,美國民眾對自己政府監管 AI 的信任度全球最低,僅為31% 。相比之下,歐盟在全球範圍內的監管信任度最高。中國和美國的信任資料也形成了鮮明對比。報告總結得很中肯:資料並沒有指向單一方向。AI 在加速發展,治理體系卻在適應中掙扎。樂觀和焦慮同時存在,關鍵在於我們如何平衡。完結篇:技術狂飆之後,我們需要什麼?《AI Index Report 2026》給我們畫出了 AI 完整圖景:技術在狂飆,落地在滲透,治理在博弈。中美 仍在技術前沿你追我趕,但治理層面的分化和信任鴻溝,正在成為新的變數。開源正在重新分配參與權,主權意識正在重塑國家策略,而公眾與專家的認知差距提醒我們——技術最終要服務於人,不能只跑在前面。如果你對 AI 治理、政策或公眾態度有自己的看法,歡迎在留言區分享。下次我們繼續關注 AI 最新動態,一起把脈這個快速變化的世界。關注公眾號【AI資訊風向】,回覆 666,即可獲取這份 AI 行業報告。AI 技術正以前所未有的速度發展,它將如何塑造我們的未來?讓我們拭目以待。 (AI資訊風向)
一文看懂大語言模型(LLMs):基於史丹佛大學 CS229 課程的小白能看懂版
1. 開場白與課程概述本段總結: 介紹了建構大語言模型的五個核心要素(架構、訓練演算法、資料、評估、系統)。講者指出,雖然學術界痴迷於模型架構,但在實際工業界中,資料、評估和系統工程才是決定模型成敗的關鍵。大家好,今天我們將探討如何建構大語言模型(LLMs)。簡單回顧一下,LLMs 指的是大家最近常聽到的那些聊天機器人,比如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini 以及 Meta 的 Llama。今天,我們將揭秘它們到底是如何運作的。在訓練 LLM 時,有五個關鍵元件至關重要:架構(Architecture):LLM 是神經網路,你需要決定使用什麼架構。目前大家都在使用 Transformer 或其變體。訓練損失與演算法(Training Loss & Algorithm):你將如何訓練這些模型。資料(Data):這是你用來訓練模型的素材。評估(Evaluation):你如何知道模型是否在朝著目標取得進展。系統(Systems):在現代硬體上高效運行這些龐大模型的方法。現在的系統層面比以往任何時候都重要。大多數學術界的研究(包括我職業生涯的大部分時間)都集中在架構和訓練演算法上,我們總喜歡發明新架構。但老實說,在實踐中真正起決定性作用的是另外三項:資料、評估和系統。這也是工業界投入最多精力的地方。因此,今天我不會過多討論 Transformer 的架構細節,而是重點講解其他更重要的部分。本次講座分為兩大部分:預訓練(Pre-training)——經典的語言建模階段,目標是讓模型學習整個網際網路的知識;以及後訓練(Post-training)——ChatGPT 誕生以來的新範式,目標是將這些語言模型轉化為真正的人工智慧助手。2. 預訓練與自回歸語言模型本段總結: 預訓練的核心任務是“自回歸語言建模”,即通過機率分佈預測序列中的下一個詞。模型通過交叉熵損失函數進行訓練,這等同於最大化文字的對數似然度。首先,什麼是語言模型?在宏觀層面上,語言模型就是一個關於單詞或 Token 序列的機率分佈模型。具體來說,它建立了一個分佈$P(X_1 ... X_L)$。例如,對於句子“老鼠吃了奶酪”,語言模型會評估這句話在人類對話或網際網路上出現的機率。如果句子存在語法錯誤,或者語義不通(比如“奶酪吃了老鼠”),模型賦予它的機率就會非常低。因為語言模型掌握了機率分佈,我們可以從中進行採樣,從而生成新的資料,這就是為什麼它們被稱為生成式模型(Generative Models)。目前大家使用的都是自回歸語言模型(Autoregressive Language Models)。它的核心思想是利用機率的鏈式法則,將整個句子的分佈拆解為:第一個詞的機率,乘以給定第一個詞後第二個詞的機率,依此類推。它的任務非常簡單:預測下一個詞。在訓練時,我們會把序列中的每個詞嵌入(Embed)為向量,通過 Transformer 網路獲取上下文表徵,再通過一個線性層對應到詞表大小的維度,最後用 Softmax 輸出下一個詞的機率分佈。我們使用的訓練損失是交叉熵損失(Cross-Entropy Loss),這本質上是一個預測下一個 Token 的分類任務。在數學上,最小化交叉熵損失,完全等價於最大化文字的對數似然度(Maximum Likelihood)。3. 為什麼需要分詞器(Tokenizer)?本段總結: 詳細解釋了分詞器存在的必要性,以及字節對編碼(BPE)的工作原理。分詞器解決了詞彙表過大和拼寫錯誤的問題,但也帶來了諸如數學計算和程式碼縮排理解等侷限性。很多人往往忽視了分詞器(Tokenizer),但它極其重要。我們為什麼不直接用“單詞”或“字元”作為基本單位呢?如果用單詞:遇到拼寫錯誤的詞彙(如 Typo),模型會遇到未登錄詞問題,且對於泰語等沒有明顯空格分詞的語言很不友好。如果用字元:雖然通用,但會導致序列極長。要知道,Transformer 的計算複雜度隨序列長度呈平方級增長(二次方複雜度),序列太長會導致算力崩潰。分詞器提供了一個折中方案,通常一個 Token 包含 3 到 4 個字母。目前最流行的方法之一是字節對編碼(BPE, Byte Pair Encoding)。BPE 的訓練過程如下:首先將大型語料庫中的所有內容拆分為單個字元,然後統計相鄰字元對的出現頻率。找到最常見的字元對(比如“t”和“o”),將它們合併為一個新的 Token(“to”),並賦予唯一的 ID。不斷重複這個合併過程,直到達到預設的詞表大小。不過,業界越來越意識到分詞器的侷限性。比如在處理數學問題時,數字往往被切分成奇怪的 Token,導致模型看待數字的方式與人類完全不同,影響了推理能力。此外,程式碼中的空格縮排(如 Python 的 4 個空格)過去也經常被分詞器錯誤處理,這是 GPT-4 專門重構程式碼分詞邏輯的原因。理想情況下,未來我們希望能擺脫分詞器,直接處理字元或字節。4. 評估指標:困惑度與學術基準本段總結: 評估語言模型的傳統方法是困惑度(Perplexity),而現在學術界更傾向於使用 MMLU 等客觀題基準測試。同時,評測標準的不一致和訓練集污染是目前面臨的重大挑戰。我們如何評估模型?在開發階段,最常用的是困惑度(Perplexity)。困惑度本質上是驗證集損失的一種可解釋轉化。公式是$2$的“平均每個 Token 的損失”次方。它的直觀含義是:模型在生成下一個詞時,正在幾個詞之間猶豫不決?如果模型完美預測,困惑度為 1;如果模型完全在瞎猜,困惑度就等於詞表大小。在 2017 年到 2023 年間,標準資料集上的困惑度從 70 驟降到了 10 以下,進步驚人。然而,困惑度在橫向對比不同模型時存在問題(比如 Gemini 和 ChatGPT 的詞表大小不同,困惑度就無法直接比較)。因此,目前的學術基準測試(如 Helm 或 Hugging Face 閉源排行榜)通常聚合大量的 NLP 任務。最典型的是MMLU(大規模多工語言理解),包含了大學物理、醫學等多個領域的單選題。評估方式有兩種:一是計算模型生成 A、B、C、D 四個選項的對數似然度,看正確選項的機率是否最高;二是直接限制模型輸出,看它生成的下一個 Token 是不是正確答案。評估面臨的巨大挑戰:評估方式不一致:不同的 Prompt 或評分指令碼會導致結果天差地別。比如 Llama 65B 在不同的測試平台上,精準率能從 48.8% 飆升到 63.7%。訓練集污染(Contamination):你的測試題是否已經被混入訓練集了?為了檢測污染,研究人員有時會故意打亂測試題的選項順序,如果模型依然按原順序生成答案,說明它很可能在訓練時背過這道題。5. 預訓練資料:從“髒資料”到高品質語料本段總結: 揭露了工業界處理預訓練資料的艱辛過程。通過爬取 Common Crawl、HTML 文字提取、去重、啟髮式過濾和模型分類,最終留下高品質的、配比合理的資料集進行訓練。大家常說“用整個網際網路的資料訓練模型”,這聽起來很簡單,但網際網路其實是一個“垃圾場”。Common Crawl 作為一個主流的開源爬蟲項目,包含了大約 2500 億個網頁,資料量高達 1 Petabyte。如果你隨機點開一個爬取的網頁,裡面全是不完整的句子和雜亂的程式碼。為了清洗這些資料,需要一個巨大的工程流水線:HTML 文字提取:去除網頁程式碼,提取純文字,同時還要處理棘手的數學公式提取和網頁頭部/底部的範本內容(Boilerplate)。過濾不良內容:剔除 NSFW(不適宜工作場所)、有害內容和 PII(個人身份資訊)。去重(De-duplication):剔除重複的論壇簽名或在全網被覆制貼上了上萬次的段落。啟髮式過濾(Heuristic Filtering):基於規則刪除低品質文字。比如檢查 Token 的分佈是否異常,單詞長度是否詭異,或者網頁是不是只有 3 個詞。模型分類過濾:這是一個非常聰明的技巧。研究人員會提取維基百科中引用的所有外部連結,訓練一個輕量級的分類器。然後用這個分類器掃描全網資料,保留那些“風格類似於維基百科引用來源”的高品質網頁。領域劃分與配比:將資料分為程式碼、書籍、娛樂等。通常會增加程式碼(據稱能提升推理能力)和書籍的權重,降低娛樂內容的權重。退火(Annealing):在預訓練的最後階段,降低學習率,並在維基百科等極高品質的資料上“過擬合”,以提升模型最終的表現。在業界,處理資料所需的 CPU 算力和團隊規模,有時甚至超過了研究架構本身的投入。Llama 3 訓練使用了高達 15 兆個 Token。高品質資料是絕對的核心商業機密。6. 縮放定律(Scaling Laws)與資源分配本段總結: 縮放定律證明了模型性能與算力、資料量、參數量成可預測的對數線性關係。這徹底改變了模型研發流程,讓研究人員可以通過訓練小模型來精準預測大模型的表現。在傳統機器學習課上,我們總是擔心“過擬合”。但在大型語言模型中,過擬合幾乎不存在:資料越多,模型越大,性能就越好。更神奇的是,這種提升是可以精確預測的。OpenAI 發現,如果把算力(Compute)、資料集大小或參數量放在對數坐標的 X 軸上,把測試損失(Test Loss)放在 Y 軸上,它們呈現出完美的線性關係。這徹底改變了研發管線(Pipeline):以前,如果你有 10000 張 GPU,你可能會訓練 30 個不同超參數的大模型,每個訓練 1 天,挑出最好的。現在,你會利用幾張 GPU 訓練一系列不同規模的“小模型”,擬合出一條 Scaling Law 曲線。然後,你可以極其自信地預測出那個 1000 億參數的終極模型如果訓練 30 天會達到什麼水平,並直接把所有算力押注在那個終極模型上。那麼,有限算力下,是該增加參數量,還是增加資料量?DeepMind 的 Chinchilla 論文給出了答案。通過繪製不同算力預算下的等高線圖(Iso-flops),他們發現計算最優解是:每增加 1 個參數,就應該增加 20 個訓練 Token。但在工業界實踐中,由於要考慮模型部署後的推理成本(Inference Cost),公司更傾向於訓練相對較小的模型,但在海量資料上進行超額訓練。所以目前的比例通常是 150 個 Token 對應 1 個參數(如 Llama 3)。7. 訓練成本與碳排放的“信封背面計算”本段總結: 通過基礎數學公式估算了 Llama 3 400B 模型的訓練成本,展示了前沿 AI 研發巨大的資金和算力門檻,以及在當前階段可控的碳排放規模。讓我們用 Llama 3 400B 模型做個粗略的計算。它有 450 億(此處講者口誤,應指 Llama 3 的大參數量版本計算)參數,訓練了 15.6 兆 Token。所需算力(Flops):計算公式大致為$C = 6 \times P \times N$(其中$P$為參數量,$N$為資料量)。計算結果約為$3.8 \times 10^{25}$Flops。拜登政府的行政命令要求算力超過$10^{26}$Flops 的模型需要接受特殊審查,Meta 恰好卡在這個紅線之下。訓練時間:使用 16000 張 H100 顯示卡,結合其吞吐量,大約需要持續訓練 70 天,耗費近 2600 萬 GPU 小時。訓練成本:假設 H100 的租金下限為每小時 2 美元,單純的顯示卡成本就超過 5200 萬美元。算上頂尖研究員的薪水(約 50 人,年薪 50 萬美元起),總成本至少在 7500 萬美元左右。碳排放:大約排放 4000 噸二氧化碳當量,相當於從紐約到倫敦的 2000 趟往返航班。目前來看,碳排放在整個大環境裡還算可控,但如果算力再提升 100 倍,這就會成為一個真正的環境問題。8. 後訓練:將模型轉化為 AI 助手(SFT)本段總結: 預訓練模型只會續寫文字。為了讓它聽從指令,必須使用監督微調(SFT)機制。研究表明,SFT 的關鍵在於格式對齊,而不需要大量資料。預訓練階段得到的只是一個“語言模擬器”。如果你給 GPT-3 純預訓練模型輸入“請向一個 6 歲的小孩解釋登月”,它可能會續寫出“請向一個 6 歲的小孩解釋引力”,因為它在模仿網際網路論壇的提問模式。要把它變成 AI 助手,我們需要進行對齊(Alignment),也就是後訓練(Post-training)。第一步是監督微調(SFT, Supervised Fine-Tuning)。我們收集人類寫好的高品質“問答對”,在這個資料集上繼續用語言模型的目標(預測下一個詞)來微調模型。因為人類編寫資料極其昂貴,現在流行用最強的 LLM(如 GPT-4)來生成合成資料(Synthetic Data)進行微調,比如我們之前做的 Alpaca 模型就是這樣做的。令人驚訝的是,Lima 論文指出,SFT 並不需要海量資料(幾千條足矣),從 2000 條增加到 32000 條並沒有帶來本質提升。原因在於:預訓練已經把所有的知識塞進了模型裡,SFT 的作用僅僅是教模型“如何格式化地輸出你期望的答案”,而不是教它新知識。9. RLHF 與 DPO 偏好最佳化本段總結: 僅靠 SFT 會導致幻覺和人類能力天花板問題。通過引入強化學習人類反饋(RLHF)或直接偏好最佳化(DPO),模型可以直接最佳化人類的偏好,產生更優質的輸出。僅僅做 SFT 有幾個致命缺陷:人類能力上限:SFT 屬於行為克隆(Behavioral Cloning)。但我評價一本書的好壞,比我自己寫一本書要容易得多。如果只模仿人類生成的內容,模型永遠無法超越人類專家的寫作水平。幻覺(Hallucinations):如果人類在 SFT 資料裡提供了一個冷門知識點,而這個知識點模型在預訓練時完全沒見過,模型就會學會“一本正經地胡說八道”,強行生成看似合理的錯誤答案。為瞭解決這個問題,我們需要引入偏好最佳化。核心流程是:給定一個指令,讓模型生成兩個不同的答案,讓人類標註員(或強大的 LLM)來選擇那個更好(比如綠色優先於紅色)。演算法 1:RLHF(強化學習人類反饋)配合 PPO 演算法這是 ChatGPT 最初突破的關鍵。首先用偏好資料訓練一個獎勵模型(Reward Model),將離散的偏好轉化為連續的打分(Logits)。然後用 PPO(近端策略最佳化)這種強化學習演算法,將 LLM 作為一個智能體(Agent)進行訓練,以最大化獎勵得分為目標。但這極度複雜!強化學習極度不穩定,包含了無數的裁剪(Clipping)和工程 Trick,連寫出 PPO 的原作者都覺得難以完美復現。演算法 2:DPO(直接偏好最佳化)史丹佛去年提出的一種優雅替代方案,現已成為開源界的主流。既然我們的目標是“多生成喜歡的,少生成不喜歡的”,為什麼不直接在數學上把它轉化為一個最大似然估計問題呢?DPO 直接將偏好資料帶入損失函數,最大化人類偏好答案的機率,懲罰被拒絕答案的機率。它徹底拋棄了獎勵模型和強化學習,僅僅用交叉熵的變體就達到了與 PPO 同樣的甚至更好的效果。10. 評估後訓練模型:LLM 裁判的崛起本段總結: 評估對齊後的模型非常困難。目前業界依賴於“聊天機器人競技場”進行盲測,為了降低成本,大量使用 LLM 作為裁判(如 Alpaca Eval)來自動化評估。經過 RLHF 之後,模型已經不再是一個標準的機率分佈模型了(它在努力讓最優解的機率逼近 1),所以困惑度(Perplexity)在這裡失效了。而且,開放式回答沒有標準答案。目前最權威的評估方式是Chatbot Arena(聊天機器人競技場),這是一種盲測系統,讓人類在兩個匿名模型中投票。但讓人類投票太慢且太貴,所以業界開發了基於 LLM 的自動化評估(比如 Alpaca Eval)。你只需要給 GPT-4 兩個回答,問它那個好。我們發現,LLM 的評判與人類投票的擬合度高達 98%,成本卻便宜了 50 倍。警惕虛假相關性(Spurious Correlation):LLM 裁判(和人類一樣)存在嚴重的**“偏好較長輸出”(Length Bias)**。如果在 Prompt 裡要求模型“囉嗦一點”,它的勝率會莫名其妙飆升至 64%;如果要求“簡明扼要”,勝率會跌穿 20%。這是對齊訓練中需要通過因果推斷等統計手段去消除的頑疾。11. 系統基礎知識與顯示卡最佳化本段總結: 計算系統的最佳化直接決定了訓練的成敗。因為 GPU 的記憶體通訊頻寬常常是瓶頸,業界廣泛採用低精度訓練(16 位)和算子融合技術來大幅提高算力利用率。對於開發 LLM 的任何人來說,算力永遠是瓶頸。簡單地“買更多 GPU”是行不通的,因為通訊開銷會拖垮多卡互聯系統。如果你想理解系統級最佳化,記住一點:CPU 最佳化的是延遲(Latency),而 GPU 最佳化的是吞吐量(Throughput)。GPU 天生為極速的矩陣乘法而生。但目前 GPU 最大的瓶頸在於:算力提升的速度遠大於記憶體通訊頻寬提升的速度。很多時候,由於資料無法及時從視訊記憶體(HBM)傳輸到計算核心(SMs),你的 GPU 大部分時間都在閒置。在工業界,模型浮點運算利用率(MFU)能達到 50% 就已經是極其出色的成績了。兩個關鍵最佳化技巧:低精度 / 混合精度訓練:在深度學習中,小數點後幾位並不關鍵。我們將龐大的矩陣乘法運算放在 16 位精度下進行,以成倍減少視訊記憶體佔用和通訊頻寬;只在儲存模型權重和執行參數更新時,保留 32 位精度以確保學習率生效。算子融合(Operator Fusion):如果你在 PyTorch 裡寫一行簡單的連續運算(比如求 Cosine 再求 Sine),傳統方法是將資料從視訊記憶體搬運到計算核心,算完搬回去,再搬出來算下一步,這是極其浪費的。使用torch.compile,系統會自動將程式碼在底層重寫為 C++ (CUDA) 的融合算子,把所有資料一次性送入核心,全部算完再取回,這能讓模型訓練速度直接翻倍。這就是從架構、資料到系統的 LLM 建構全貌,希望對大家有所啟發。 (The AI Frontier)
4個月估值11.5億美元!兩位史丹佛華人博士聯手造家務機器人,躋身獨角獸 | T Insights
史丹佛博士的機器人突圍戰:不再只做demo。近日,由史丹佛兩位頂尖博士創立的Sunday Robotics宣佈完成1.65億美元B輪融資,估值飆至11.5億美元,正式躋身獨角獸行列。更令人驚嘆的是時間線,這家公司去年11月才正式走出隱身模式,發佈首款輪式機器人Memo。短短4個月,累計融資已達約2億美元。本輪由頂級風投Coatue Management領投,Bain Capital Ventures、Tiger Global跟投,老股東Benchmark與Conviction Partners繼續加碼。Coatue創始人Thomas Laffont還將加入董事會。CEO趙子豪(Tony Zhao)在官宣時只說了一句話:“這筆錢只有一個目的:不再只做demo。”史丹佛博士配上特斯拉核心班底Sunday Robotics的創始團隊,是具身智能領域標準的“頂配”配置。(圖片來源:X@sundayrobotics)CEO趙子豪,史丹佛博士(已退學全職創業),本科導師是Physical Intelligence聯創、具身大牛Sergey Levine,博士導師是強化學習知名學者Chelsea Finn。他曾在DeepMind、特斯拉Autopilot團隊工作,是ALOHA、ACT、Mobile ALOHA等明星工作的核心作者。CTO遲宬(Cheng Chi),史丹佛博士,師從知名華人學者宋舒然。他是Diffusion Policy、UMI的核心作者,前者將擴散模型引入機器人策略學習,後者開創了無需本體的資料採集新範式。不僅如此,Sunday幾乎從特斯拉挖走了一整套全端機器人與AI工程師團隊:Nishant Desai:特斯拉機器學習團隊近5年,參與Autopilot與FSD。Nadeesha Amarasinghe:特斯拉AI基礎設施工程負責人,負責FSD與Optimus後台系統。Perry Jia:Optimus與Autopilot關鍵工程師,主導資料引擎項目。甚至連負責Optimus與Robotaxi招聘的Jason Peterson也加入了Sunday。前特斯拉AI總監Andrej Karpathy、OpenAI高管Kevin Weil都曾前往參觀。技術圈評價:這是具身智能領域的“夢之隊”。資料才是真瓶頸在Sunday看來,機器人行業真正的瓶頸從來不是機械結構,而是資料。(圖片來源:X@sundayrobotics)大語言模型有網際網路兆級文字可學,而機器人幾乎為零。Benchmark合夥人Eric Vishria說得很直白:“我們大概只有所需資料的百萬分之一。”傳統解決方案是昂貴的遙操作裝置,一套成本高達2萬美元。操作員穿上動捕裝備,在實驗室裡模仿任務。這種方式精度高,但成本巨大、速度緩慢、場景單一。Sunday走了另一條路:一副200-400美元的技能捕捉手套(Skill Capture Glove)。這副手套的幾何結構和感測器佈局與Memo機器人手部完全一致。Sunday把它寄給普通使用者,他們稱之為“記憶開發者”。讓大家在自己真實、混亂的家庭裡記錄做家務的過程。這裡有個技術難題:人類身高、臂長、關節靈活性各不相同,採集到的資料無法被機器人直接學習。Sunday開發了Skill Transform演算法系統,將人類動作資料以90%以上的成功率重新導向到機器人運動學模型上。(圖片來源:Sunday Robotics)目前,Sunday已分發超過2000副手套,在500多個真實家庭中採集了約1000萬個家務操作片段。這些封包含了極端的混亂場景:不同的光照、亂放的雜物、甚至跳上桌面的貓。資料成本從2萬美元/套降到200美元/副,資料場景從實驗室擴展到500個真實家庭。Sunday用一套低成本手套,建構了一個分佈式資料採集網路。硬體為安全讓路Sunday的硬體決策,處處體現著“資料優先”的逆向思維。(圖片來源:Sunday Robotics)用輪子,不用雙足。在一個重77公斤的裝置有兒童和寵物的家庭裡,雙足機器人的跌倒風險是不可接受的。輪式底盤提供被動穩定性,即使斷電也不會傾倒,更節能、更安靜,讓團隊將研發精力集中在洗碗、疊衣等高價值任務上。(圖片來源:X@sundayrobotics)三指夾爪,不用五指靈巧手。團隊分析發現,80%以上的家務操作三個手指就夠了。這種“面包手”設計比傳統夾爪多4個自由度,單手拿兩個玻璃杯不手抖,同時大幅提升可靠性和成本可控性。QDD關節,不用高減速比。Sunday選擇了準直驅(Quasi-Direct Drive)方案。低減速比帶來三重好處:安全性(外力可輕鬆反驅關節)、力透明性(可直接通過電機電流推斷外力)、對模型的友好性(簡單的動力學模型意味著更小的sim-to-real gap)。資料閉環,讓機器人越用越聰明以這些資料為基礎,Sunday訓練了機器人基礎模型ACT-1。(圖片來源:Sunday Robotics)在“從餐桌到洗碗機”任務中,Memo自主導航近40米,與21種物體進行33類、68次靈巧互動,透明反光物體也能輕鬆拿捏。通過3D地圖作為條件輸入,模型無需記憶具體房屋佈局,在6個陌生家庭場景中可零樣本泛化。這背後是Sunday建構的完整資料閉環:手套採集人類操作→訓練ACT-1模型→部署到Memo→機器人進入真實家庭→產生新運行資料→回饋模型訓練真實家庭場景會帶來實驗室難以模擬的資料:孩子、寵物、雜亂環境、不完整指令,這些都會生成手套示範難以覆蓋的真實運算元據,加速模型收斂。從GPT到ChatGPT:Sunday的規模化前夜Tony Zhao將公司現狀描述為:正處於“GPT時刻”和“ChatGPT時刻”之間。這意味著已經找到可規模化的技術方案,但尚未完成規模化落地。Sunday已啟動“創始家庭測試版”計畫,首批篩選50個家庭參與免費測試,預計2026年底收到Memo機器人。入選家庭將在真實場景中打磨產品性能與使用者體驗。“這將是我們學習的關鍵階段,”Tony Zhao表示,“瞭解人們希望如何與機器人互動,是否希望機器人教孩子新知識。這些反饋將決定最終產品的形態。”目前每台手工定製版Memo成本約2萬美元,目標售價在1萬美元以下。團隊表示,當硬體設計從一開始就圍繞“資料可以彌補硬體不足”來最佳化時,批次生產帶來的成本下降曲線會比傳統機器人公司更陡峭。Tony Zhao透露,今年也將同步在國內組建團隊,base深圳。一個做家務機器人的矽谷獨角獸,選擇了全世界硬體供應鏈最強的城市。(圖片來源:X@sundayrobotics)當整個具身智能行業還在爭論誰能翻更帥的後空翻時,Sunday選擇了一條截然不同的路:不是更炫的硬體,不是更大的模型,而是更便宜的資料。用最低的成本採集最多的真實世界資料,然後用資料的規模優勢反向拉低硬體的成本門檻,最終讓機器人真正走進千家萬戶。從一副200美元的手套,到500個真實家庭,到1000萬條運算元據,再到11.5億美元估值。Sunday的資料飛輪才剛剛開始轉動。而真正的考驗,將在50個家庭的Beta測試之後到來。 (創新觀察局)
這個AI能救命:史丹佛發佈最新AI研究,破解肝臟移植核心難題!
每年數千例肝臟移植因捐贈者死亡時間預測不準而失敗。今天,AI給出了準確解決方案。在肝臟移植領域,器官短缺始終是制約救治效率的核心難題。而「循環死亡後器官捐贈(DCD)」,是補充器官來源的重要途徑。DCD指捐贈者在心跳、呼吸停止(循環死亡)後進行器官捐贈的模式。然而,這個補充器官來源的重要途徑卻長期受困於「無效取得」問題: 醫療機構為潛在捐獻者投入大量人力、裝置與運輸成本,卻因捐獻者未在器官耐受缺血的時間窗內死亡,最終無法獲得可用肝臟。這種資源浪費不僅加重醫療系統負擔,更延誤了終末期肝病患者的治療時機。近期,史丹佛大學聯合美國6個移植中心研發的LightGBM機器學習模型,為破解這個困局提供了新方案。該模型透過精確預測DCD捐贈者的死亡進展,顯著降低了無效獲取率,為肝臟移植領域的資源最佳化與病患救治帶來突破性價值。無效獲取的沉重代價要理解這項突破的價值,需要先理解DCD肝臟移植的特殊性。在循環死亡後器官捐獻過程中,捐獻者停止生命支援後,肝臟因供血中斷開始受損。通常超過30-60分鐘,肝臟就會喪失移植價值。這個時間窗口的嚴格限制,導致了醫療資源的巨大浪費。單次無效取得的經濟損失可達數十萬元,包括移植團隊調配、器官保存裝置偵錯、跨區域運輸等成本。更嚴重的是,這些資源的無效佔用,直接影響其他末期肝病患者的治療機會。更嚴峻的是,傳統決策方式難以規避這一風險:先前臨床主要依賴兩類方法。一是2012年開發的DCD-N評分等老舊工具,其資料樣本量小且未更新,難以適配當前臨床場景;二是外科醫生的經驗判斷,這種方式往往受個體經驗、認知偏差影響。LightGBM模型的精確預測史丹佛團隊開發的LightGBM模型,透過多維度指標整合,實現了死亡時機的精確預測。模型涵蓋了神經功能指標如瞳孔反射、角膜反射,循環與呼吸指標包括收縮壓、心率、血氧濃度,以及基礎臨床資訊如年齡、BMI和死亡機制。【不同時間點與資料集下模型效能對比熱力圖】在演算法選型上,模型選用 「輕量級梯度提升機(LightGBM)」 演算法,其優勢高度契合臨床資料特性:抗缺失性:臨床資料常有部分指標缺失(如緊急情況未檢測某一生化指標),LightGBM可原生處理缺失值,無需人工填充,避免資料失真影響預測;高擬合度:能有效捕捉變數間的非線性關係(如「低瞳孔反射+ 低血壓」的組合對死亡時機的影響),比傳統線性模型(如舊評分表)更適合複雜臨床場景;高效性:在處理高維度資料時運算速度快,可滿足臨床即時決策需求。為避免模型“紙上談兵”,團隊採用三階段流程,基於美國6家中心的2221例DCD捐獻資料開展嚴格測試:訓練階段:利用2022年12月-2023年6月的1616例回顧性資料,讓模型學習「指標組合與死亡時機」 的關聯規律;回顧性驗證:以2023年7月-8月的398例資料“復盤”,驗證模型對歷史案例的預測準確性;前瞻性驗證:在2024年3月-9月的207例即時臨床案例中測試,模擬實際應用場景下的決策效果。【回顧性驗證佇列與前瞻性驗證佇列中的模型效能及基於閾值的權衡關係】三階段驗證均顯示模型性能穩定,為臨床落地奠定基礎。臨床效果與傳統方法相比,LightGBM模型展現出明顯優勢。在預測30分鐘內死亡的精確度方面,模型的AUC值達到0.83,顯著高於DCD-N評分的0.799和科羅拉多州計算器的0.694。在醫師意見分歧較大的複雜案例中,模型精準率達到70%,而醫師判斷的精確率僅為52%。這一資料表明,AI能夠有效輔助解決臨床決策中的爭議情況。同時,該模型具有高靈活性。它能輸出0-100分的連續預測指數,醫療機構可以根據自身需求調整閾值。例如,希望進一步降低無效獲取率的機構可以提高閾值,而希望減少錯過可用器官機率的機構可以降低閾值。深遠意義:肝臟移植生態的最佳化這項技術的價值不僅體現在資料提升上,更在於其對整個肝臟移植生態的最佳化。透過減少無效獲取,醫療機構能夠大幅降低資源浪費,將更多資源投入高機率成功的捐獻案例。對於終末期肝病患者而言,這項進步意味著更多生的希望。與此同時,研究團隊也開發了配套的臨床資料擷取聊天機器人。醫生只要貼上病歷網頁文字,機器人就能自動擷取關鍵指標並轉化為結構化資料,大幅降低了人工錄入成本。透過這項技術,我們可以看到AI在醫療資源最佳化方面的巨大潛力。它不是要取代醫生,而是作為決策輔助工具,整合多維度資料,規避主觀偏差,為醫生提供更客觀的參考。隨著大語言模型技術的發展,未來可望實現即時資料收集、動態預測、決策建議的全流程自動化,進一步提升臨床效率。AI技術賦能醫療,正從理念走向現實,而每一次這樣的進步,都在為生命爭取更多可能。 (算家雲)
《馬偕醫大攜手史丹佛示警 台灣酒精不耐症全球最高》喝酒會臉紅恐是酒精不耐症,別輕忽其致癌風險。馬偕醫大醫學系、聽力暨語言治療學系與國際處國際健康與文化交流中心,攜手美國史丹佛大學醫學院亞洲人健康研究及教育中心(CARE)與台灣酒精不耐症衛教協會,共同舉辦衛教活動。專家指出,台灣的酒精不耐症高達近50%,居全球之冠。酒精早在2007年已被世界衛生組織(WHO)列為第一級致癌物,經常飲酒將大幅增加罹患消化道癌風險,飲酒後若出現臉紅、頭痛、嘔吐及宿醉等症狀,即可能為酒精不耐症的警訊,呼籲民眾盡可能避免飲酒。由馬偕醫大國際處與醫學系主辦的「精準醫療健康促進實踐」系列活動,於11月10日至13日展開一連四天的「無酒週」健康宣導與體驗活動。活動內容包括聽損基因檢測、酒精不耐症篩檢與衛教、口腔檢查,以及特別企劃的午餐衛教講座與無酒精調飲體驗,吸引眾多師生響應熱烈。美國史丹佛大學醫學院亞洲人健康研究及教育中心國際主任陳哲宏博士表示,亞洲人的酒精不耐症比例遠高於歐美白種人,包括台灣、日本、韓國、中國與越南等國,盛行率高達30%至50%,其中台灣約有近半數民眾具有酒精不耐症,居全球之冠。這是由於先天缺乏能代謝酒精的「乙醛去氫酶」(ALDH2酵素),導致乙醛無法正常分解。乙醛是世界衛生組織(WHO)列為第一級致癌物,長期飲酒者罹患口腔癌、咽喉癌、食道癌、胃癌、肝癌、大腸直腸癌及女性乳癌的風險顯著增加。陳哲宏強調:「酒精不耐症是遺傳現象,目前無藥可治,唯有避免飲酒才能降低健康風險。」根據研究,飲酒者罹患消化道癌的機率比不喝酒者高5倍,而若為酒精不耐症患者且仍經常飲酒,風險更高達50倍;若又合併吸菸及嚼檳榔,罹癌風險甚至可達400倍。他建議,酒精不耐症為遺傳現象,民眾可到醫院進行基因檢測了解自己是否患有此症,以及早預防,並呼籲政府應加強推動相關衛教政策,將基因檢測納入癌症篩檢流程中,讓民眾及早了解自身風險並調整生活習慣。根據國民健康署資料,酒精使用每年導致台灣至少4,500人死亡,並造成巨大的醫療與社會成本。馬偕醫大醫學系與聽力暨語言治療學系,由國際處邱美妙組長領軍,長期在恆春及台東地區推動社區營隊服務,進行酒精不耐症與聽損基因的篩檢研究。未來,學校將持續與國內外醫學機構合作,深化精準醫療與健康促進實踐,期望帶動全台青年一同關心「酒精不耐症」與「飲酒健康風險」,共同打造更健康的社會。
保護好身體這2處,死亡風險直降56%!
人人都想健康長壽,但決定你長壽健康的“核心密碼”,可能就藏在身體的兩個關鍵部位!近日,美國史丹佛大學的一項研究發現:大腦和免疫系統保持“年輕態”,能將死亡風險大幅降低56%!01身體這“兩處”年輕的人長壽的機率更大今年7月,美國史丹佛大學研究人員在《自然醫學》期刊上發表了一項覆蓋4.5萬人的大型研究。科學家們通過分析血液中的蛋白質資料,估算了身體11個重要部位(包括大腦、心臟、肝臟、免疫系統等)的“生物年齡”。最終發現——大腦和免疫系統保持“年輕態”,或許才是抗衰長壽的關鍵!研究顯示,身體部位“衰老”的數量越多,死亡風險越高——擁有2個~4個部位加速衰老的人,死亡風險會增加2.3倍;擁有8個以上部位加速衰老的人,死亡風險飆升8.3倍,其中60%的人在15年內離世。研究發現:單純擁有多個“年輕”身體部位,死亡率與常人差異不大。在11個不同的身體部位中,只有大腦和免疫系統的“年輕態”被證實是顯著延長壽命的關鍵:大腦“年輕”:死亡風險下降40%。免疫系統“年輕”:死亡風險下降42%。同時擁有“年輕大腦”+“年輕免疫系統”的人,死亡風險直降56%。02保護大腦“年輕態”記住這4招■ 常吃健腦食物在日常生活中,可以通過保持食物的多樣性、合理搭配食材的種類,為大腦提供更多的高品質“營養燃料”。具體來看——高纖維、低脂肪飲食有利於延緩大腦衰老。藍莓、草莓、菠菜、洋蔥等都是不錯的選擇。豆類和堅果因富含不飽和脂肪酸和磷脂,可促進腦細胞代謝,有利於延緩大腦老化。還有富含膽固醇、膽鹼類物質的食物,如雞蛋、肉類,也都是大腦運行的必需品。■ 大腦常用起來經常使用大腦可使腦血管保持擴張狀態,確保腦組織獲得充足的血液和營養供給,這也是延緩大腦衰老的重要物質基礎。■ 重視社交活動社交可避免和緩解焦慮和抑鬱,親朋好友的歡聲笑語可以解除煩惱,保持情緒愉悅。■ 積極控制慢性疾病常見慢性疾病,如高血壓、高血脂、糖尿病、超重等與痴呆症的發病風險密切相關。因此,妥善治療、積極控制現有的疾病對於預防認知能力下降至關重要。03保護免疫系統,做好這5件事■ 堅持運動最有效運動會使體內產生更多的免疫細胞和免疫因子,並增強其活性。■ 優質蛋白要多吃蛋白質是機體免疫防禦功能的物質基礎,日常應該適當多吃些富含蛋白質的食物,如瘦肉、奶類、魚蝦類和豆類食物。■ 控糖減脂不能少甜食會影響到白細胞的產生與活動,降低身體抵抗疾病的能力。攝取太多不良脂肪,會妨礙免疫細胞的能力。■ 樂觀心態能助力良好的情緒能使大腦分泌出一些有益健康的化學物質,啟動人體免疫功能,抑制病原微生物的生長。■ 好睡眠強化免疫良好的睡眠能夠促進機體免疫細胞生成,抵禦病毒、細菌對機體的侵襲。儘量避免熬夜,尤其是避免晚上過度使用電子產品,確保睡眠質量。現在開始投資你的大腦和免疫力,未來收穫的將是更長久、更健康的人生! (央視財經)
史丹佛發佈《2025年AI指數報告》:AI正以前所未有的速度重塑世界
史丹佛大學以人為本人工智慧研究院(Stanford HAI)在今年4月發佈了備受矚目的《2025年AI指數報告》(AI Index Report 2025)。這是 Stanford HAI 發佈的第 8 份年度 AI Index 研究報告,長達 456 多頁。作為全球最權威的AI發展年度評估報告之一,它全面追蹤了 2024 年全球人工智慧(AI)行業的發展趨勢,並深入分析了AI在研究、技術、經濟、政策、教育和公眾認知等多個維度的最新進展和趨勢,為政策制定者、行業領袖、研究人員和公眾提供了基於嚴謹資料的洞察。2024年是AI發展史上意義非凡的一年。AI在科學領域的貢獻獲得了諾貝爾物理學獎和化學獎的認可,圖靈獎也頒給了強化學習的奠基性工作。曾被視為遙遠目標的圖靈測試已被當前先進系統超越。AI的採用以前所未有的速度加速,數百萬人在工作和生活中常規使用AI。隨著高性能、低成本、開放模型的湧現,AI的可及性和影響力將進一步擴大。考慮到報告篇幅近500頁,報告的開篇部分已對各章節的核心觀點和亮點進行了提煉。讀者可以通過這部分內容快速概覽報告全貌,或直接定位到自己感興趣的領域進行深入閱讀。本文主要揭示報告部分核心洞察:一、 技術性能持續突破,AI能力邊界不斷拓展報告顯示,AI在各項基準測試上的表現持續快速提升。針對先進AI系統極限的新基準測試(如MMMU、GPQA、SWE-bench)在2023年推出後,僅一年時間,AI在這些測試上的得分就大幅提高,例如SWE-bench上的程式設計問題解決率從2023年的4.4%躍升至2024年的71.7%。值得關注的是,開源模型正在迅速追趕閉源模型。2024年初,領先的閉源模型在Chatbot Arena排行榜上領先開源模型8.0%,到2025年2月,這一差距已縮小至1.7%。同時,中美兩國在AI模型性能上的差距也在縮小。2023年底,美國領先模型在多個主要基準測試上顯著優於中國同行,而到2024年底,這些差距已大幅縮小至接近持平。同樣趨勢參考公眾號另一篇文章(摩根士丹利:中國AI,馬上甦醒的巨人!)二、 研發格局演變:產業領跑模型,中美競爭加劇在AI研發領域,產業界繼續扮演著主導角色,尤其是在“知名AI模型”的開發上。2024年,近90%的知名AI模型來自產業界,遠高於2023年的60%。相比之下,學術界仍然是高被引研究(前100名)的主要來源。在AI研究出版物總量上,中國繼續領先,2023年佔全球總量的23.2%,其次是歐洲(15.2%)和印度(9.2%)。然而,在最具影響力的研究(高被引論文)方面,美國機構在過去三年中貢獻最多。圖:中國在AI出版內容在數量上全球領先AI專利申請量持續增長,2023年全球AI專利授權量達到122,511件,同比增長29.6%。中國在AI專利總量上遙遙領先,佔全球授權量的69.7%,而韓國和盧森堡則在人均AI專利數量上表現突出。圖:中國AI方面專利數量佔最高(這裡插播下:需要依舊保持理性,數量只是其中一個維度,更重要的是要看到創新力度,能否帶來行業級的變革)在知名AI模型的產出方面,美國在2024年以40個模型繼續領先,中國以15個模型位居第二,歐洲共計3個。儘管美國在數量上保持優勢,但中國模型在性能上正快速追趕。圖:知名模型產出上,美國領先,中國第二,其次是歐洲三、 技術成本與效率:推理成本驟降,訓練消耗激增AI模型的使用成本(推理成本)正在變得越來越低廉。報告指出,達到GPT-3.5同等性能水平的AI模型,其推理成本在2022年11月至2024年10月期間下降了280多倍,從每百萬tokens 20美元降至0.07美元。圖:主流模型的每百萬Token成本(看看這個成本墊底的小鯨魚Deepseek,難怪會引發全球資本驚愕)硬體層面,AI硬體性能持續提升(年增長43%),價格性能改善(成本年降30%),能源效率提高(年增40%)。然而,訓練前沿AI模型的計算需求和能源消耗仍在快速增長。知名AI模型的訓練計算量大約每五個月翻一番,訓練大型語言模型的資料集規模每八個月翻一番,訓練所需的電力每年翻一番。這導致訓練成本居高不下。隨之而來的是碳排放的增加。圖:訓練前沿模型所需要的總功耗值得關注的是,AI Agent(人工智慧代理)在今年報告中也開始嶄露頭角,展現出早期潛力。2024年推出的 RE-Bench 基準測試為評估AI Agent執行複雜任務的能力提供了嚴苛的標準。測試結果顯示,在短時任務(例如兩小時預算內)中,頂級的AI系統得分比人類專家高出四倍。然而,隨著時間預算的增加,人類的表現會超越AI,在32小時的預算下,人類得分是AI的兩倍。儘管如此,AI Agent在特定任務上已經能夠媲美人類專家。AI Agent正逐步從理論走向實際應用,尤其在需要快速迭代和執行特定複雜操作的場景中。四、 負責任AI與治理:風險事件增加,政府行動加速與AI相關的事件報告數量持續增加,2024年達到233起。企業雖然認識到RAI風險,但在採取實際緩解措施方面存在滯後。相比之下,各國政府表現出更高的緊迫性。各國政府正在加速AI立法和投資。全球範圍內,立法程序中提及AI的次數持續攀升,自2016年以來增長了九倍,僅2024年就比2023年增加了21.3%。2024年,美國聯邦機構出台的AI相關法規數量翻了一番多。加拿大、中國、法國、印度、沙烏地阿拉伯等國都宣佈了數十億甚至千億美元等級的國家AI基礎設施投資計畫。這表明AI已成為各國議程上的重要議題。五、 經濟影響與投資:商業採用激增,投資創紀錄全球私人AI投資在2024年創下新高,達到2523億美元,同比增長26%。其中,生成式AI領域勢頭強勁,吸引了339億美元的私人投資,較2023年增長18.7%。AI的商業使用率大幅攀升。2024年,78%的組織報告使用了AI,高於2023年的55%。超過一半的受訪者表示在至少一個業務職能中使用了生成式AI。儘管如此,大多數公司仍處於AI應用的早期階段,報告的財務影響(成本節約或收入增長)處於較低水平。區域層面,北美在組織AI使用方面保持領先,但大中華區和歐洲的增長速度最快,顯示出全球AI實施競爭的加劇。中國在工業機器人安裝量上繼續保持主導地位,協作機器人和互動機器人的安裝也變得更加普遍。圖:報告列舉了2024年期間的重大投資線(有興趣的投資者可以直接定位到221頁查閱)六、勞動力市場:AI發展改變崗位需求AI對勞動力市場的影響是公眾普遍關注的焦點。在美國市場,人工智慧技能彙總,需求最高的是人工智慧,佔0.9%,其次是機器學習,佔0.9%,然後是自然語言處理。圖:人工智慧在所有職位招聘廣告中的佔比圖:2023年與2024年美國AI職位招聘廣告所需AI技能(可以看到一年中人工智慧崗位需求激增)報告深入分析和引用的研究證實,AI能夠顯著提升生產力,並且在大多數情況下有助於縮小勞動力隊伍中的技能差距。更詳細的崗位趨勢還可以參考公眾號另一篇文章(麥肯錫AI報告:組織重塑觸發崗位大洗牌(3年趨勢))七、 AI在具體領域(如醫學、教育領域)的突破AI在科學發現中的作用持續擴大,尤其是在生物學和醫學領域。新的研究表明,AI在診斷複雜臨床病例、癌症檢測等方面已能超越醫生,但AI與醫生的協作可能產生最佳結果。美國FDA批准的AI醫療裝置數量激增,從2015年的6個增加到2023年的223個。合成資料在醫學領域顯示出巨大潛力,可用於識別健康社會決定因素、保護隱私的臨床風險預測以及藥物發現。全球三分之二的國家現在提供或計畫提供K-12電腦科學(CS)教育,是2019年的兩倍,非洲和拉丁美洲進步最大。在美國,雖然大多數K-12 CS教師認為AI應納入基礎CS教育,但只有不到一半的教師感到有能力教授AI。美國電腦科學學士學位畢業生數量在過去十年中增長了22%,AI碩士學位畢業生數量在2022年至2023年間幾乎翻了一番。(科學與醫學突破這一章內容相對專業,感興趣的朋友可以直接定位到285頁瞭解詳情。)八、 公眾認知:樂觀情緒上升,但區域差異與擔憂並存全球公眾對AI產品和服務的樂觀情緒正在上升。在26個受調查國家中,18個國家認為AI產品和服務利大於弊的人數比例有所增加。全球範圍內,這一比例從2022年的52%上升到2024年的55%。區域差異依然顯著,中國(83%)、印度尼西亞(80%)、泰國(77%)等國絕大多數人認為AI利大於弊,而加拿大(40%)、美國(39%)、荷蘭(36%)等國的樂觀情緒較低,儘管這些國家的樂觀情緒自2022年以來有所增長。與此同時,全球60%的受訪者認為AI將在未來五年內改變他們的工作方式。然而,對於AI將完全取代他們工作的擔憂程度相對較低,只有36%的受訪者持此觀點。史丹佛大學以人為本人工智慧研究院在官方網站上寫道:AI 將是 21 世紀最具變革性的技術。然而,除非我們精心引導 AI 行業的發展,否則這項技術將難以惠及普羅大眾。(旁觀者手記)