#史丹佛
史丹佛大學最新《2026年AI指數報告》:美國仍然是AI人才最集中的地方,但吸引力正在快速減弱 美國民眾對自己政府監管AI的信任度全球最低
你好,我是傑哥。史丹佛大學《AI Index Report 2026》系列終於來到最後一期。我們前兩期聊了技術狂飆和全面滲透,這次把目光轉向最關鍵也最容易被忽略的部分——AI治理博弈。AI 發展太快,治理卻跟不上。這份報告用資料直白地告訴我們:能力在飛奔,責任、政策和公眾信任卻在拉鋸。專家和普通人的看法差距巨大,全球各國政策走向也完全不同。負責任AI:能力全報,責任卻“選擇性失明”報告最刺眼的一個發現是負責任AI明顯滯後。幾乎所有前沿實驗室都會完整公佈能力基準成績,但涉及安全、公平、隱私等責任基準的報告卻少得可憐。更現實的問題是AI事件數量大幅上升。2025 年全球記錄在案的AI相關事件達到 362 起,比2024年的 233 起增加了超過50%。更麻煩的是,研究發現:提升一項責任維度(比如安全),有時反而會損害另一項(比如精準性)。這意味著“修補”變得異常複雜。政策分化:歐盟收緊,美國放鬆,開發中國家集體入場2025年各國AI政策走向出現了明顯分化。歐盟AI Act首批禁止條款正式生效,美國則轉向放鬆管制。日本、韓國、義大利分別通過了國家AI法律。更值得注意的是,超過一半的新增國家AI戰略來自開發中國家,它們第一次大規模進入政策舞台。報告特別強調,“AI主權”已成為全球共識。各國都在努力掌握自己的AI生態,避免被少數大國完全主導。無論是建超算中心還是制定本土規則,主權意識正成為新政策的核心。人才流動“斷崖式”下降:美國吸引力下滑美國仍然是AI人才最集中的地方,但吸引力正在快速減弱。報告顯示,赴美AI研究者和開發者數量自2017年以來下降了89% ,僅去年一年就跌了80% 。這可能是近年來最劇烈的變化之一。與此同時,開源社區正在悄然改變格局。GitHub 上,非歐美地區的貢獻已超過歐洲,正逼近美國。這讓更多語言的模型和基準測試出現,全球參與度變得更加均衡。專家與公眾:50個百分點認知鴻溝最發人深省的是公眾意見部分。當被問到AI對工作的影響時,73%的AI專家認為會是積極的,而普通公眾只有23%持相同看法,差距高達50個百分點。在經濟和醫療領域,也出現了類似的巨大分歧。信任版圖同樣分裂。在受訪國家中,美國民眾對自己政府監管 AI 的信任度全球最低,僅為31% 。相比之下,歐盟在全球範圍內的監管信任度最高。中國和美國的信任資料也形成了鮮明對比。報告總結得很中肯:資料並沒有指向單一方向。AI 在加速發展,治理體系卻在適應中掙扎。樂觀和焦慮同時存在,關鍵在於我們如何平衡。完結篇:技術狂飆之後,我們需要什麼?《AI Index Report 2026》給我們畫出了 AI 完整圖景:技術在狂飆,落地在滲透,治理在博弈。中美 仍在技術前沿你追我趕,但治理層面的分化和信任鴻溝,正在成為新的變數。開源正在重新分配參與權,主權意識正在重塑國家策略,而公眾與專家的認知差距提醒我們——技術最終要服務於人,不能只跑在前面。如果你對 AI 治理、政策或公眾態度有自己的看法,歡迎在留言區分享。下次我們繼續關注 AI 最新動態,一起把脈這個快速變化的世界。關注公眾號【AI資訊風向】,回覆 666,即可獲取這份 AI 行業報告。AI 技術正以前所未有的速度發展,它將如何塑造我們的未來?讓我們拭目以待。 (AI資訊風向)
史丹佛最新報告,中美AI差距僅2.7%,但教育分化卻越來越大
不融資、不上市、不接受外部干預的DeepSeek一直被認為是AI圈最特立獨行的存在。但創始人梁文鋒近日終於鬆口,表示要資本市場融資,估值目標是100億,這一戰略改變,或許意味著AI競爭即將進入白熱化階段。自從ChatGPT引爆“ChatGPT時刻”至今不過短短三年,2025年DeepSeek橫空出世,迅速打破了外界對中國大模型能力的刻板印象。這兩年,AI領域又發生了什麼翻天覆地的變化?這場看不見硝煙的戰爭中,誰最有機會勝出?史丹佛大學最新發佈長達432頁的《2026年AI指數報告》或許能夠告訴我們真相。圖源:Artificial Intelligence Index ReportAI世界格局重寫中美模型兩分天下這組資料如果放在三年前看,幾乎是不可想像的。2023年,Open AI推出GPT-4在AI圈一騎絕塵,當時中國的AI模型還落後了30%,但是在2026年,這個差距已經飛速縮小。在最新的LMArena測評中,美國最強的模型是Anthropic的Claude Opus 4.6,評分是1503。而中國字節跳動推出的Dola-Seed Preview拿到1464分,兩個最頂尖的大模型只差39分,從比例來看,差距約2.7%。圖源:Artificial Intelligence Index ReportLMArena評分是AI界的段位分,分數越高,意味著在盲測中勝出的機率越大。在此之前美國模型一直霸榜,而現在中美的AI模型差不多兩分天下。從2025年初開始,中美兩國的頂尖AI模型就多次輪流登頂,你追我趕已經成為常態。2025年全球大約有95個頂尖AI模型,美國發佈了50個,中國以30個緊隨其後。在全球Top 10的模型發佈主體中,我們熟悉的Open AI、Google、xAI都有上榜,中國也佔了四個席位,分別是阿里巴巴、DeepSeek、清華大學和字節跳動。無論是在中國還是美國,這些頂級模型中,超過90%來自企業,高校、實驗室、研究所的貢獻微乎其微,前沿AI模型的研發已經主要由工業界主導。圖源:Artificial Intelligence Index Report全球發佈的約95個頂尖AI模型基本集中在個別科技巨頭手中,中小企業缺乏資源、人才和實力,在AI這場戰爭中和大廠的差距越拉越遠,AI領域的馬太效應越來越明顯。不過,如果我們要分析中美兩國的AI發展路徑,其中也有一些差異。美國模式是大力出奇蹟,靠砸錢和建基建堆出優勢。大量資金湧入AI賽道,2025年私人AI投資高達2859億美元,是中國的23倍;擁有5427個資料中心,數量是其他國家總和的10倍以上。而中國走的是精打細算、精準發力路線,雖然投入沒有美國強,基礎設施沒有美國厲害,但是AI論文發表量、專利產出量世界第一。圖源:Artificial Intelligence Index Report工業機器人裝機量佔全球54%,落地應用的廣度遠超美國,可以用更低的成本實現了頂級模型相差無幾的效果。不過也有反對的聲音認為目前AI的發展不能只看模型資料,美國在資料中心的投入依然佔有很大優勢,而且壟斷晶片、作業系統等底層技術。中國雖然看起來是追平美國,但是過於依賴外部技術,如果被算力封鎖,差距又會再次拉開。AI越強 人和人的差距反而越大AI的發展速度之快,很多人都有深刻的體會,這段時間,幾乎每天睜開雙眼就能看到AI取代不同的職業。但其實,AI有些地方已經超過人類,有些地方差得離譜。Google的Gemini Deep Think模型在2025年國際數學奧林匹克競賽中拿到了35分獲得金牌,比去年的銀牌又有新的進步。但是在讀取模擬時鐘的ClockBench測試中,正確率只有50.1%。圖源:Artificial Intelligence Index Report這種差異也被稱為“鋸齒狀前沿”,意思是AI在某些複雜任務上表現出色,但是在一些簡單任務上卻失敗了。比如AI智能體在真實電腦任務上的成功率可以從12%提升到66%,但是在結構化基準側重依然有三分之一的機率會失敗。AI機器人在實驗室中通過軟體模擬機械操作成功率達到89.4%,但是在真實的生活環境中只能完成12%的任務,AI真正從實驗室走向物理世界還有很漫長的路要走。AI偏科的特性,對勞動力市場的衝擊也有差異。除了重複性、標準化強的崗位會被加速替代之外,報告提到,22-25歲的開發者面臨的AI衝擊最大。這一年齡階段基本是職場菜鳥,主要寫基礎程式碼、功能測試、資料整理等執行類工作,而這些任務都是AI最容易自動化完成的。而稍微年長的35歲以上程式設計師,由於積累了行業經驗、對業務也有基本的判斷力,所以很容易找到人和AI協作的切入點,受到的衝擊就比較少。資料顯示,2024年美國22-25歲年輕開發者就業人數下降約20%,而年長開發者數量還在增長,AI的篩選作用清晰可見。圖源:Artificial Intelligence Index Report毫無疑問,AI的出現會拉開人與人之間的差距,而不同層次的人群對AI就業影響的感受也天差地別。73%的專家認為AI會帶來更多就業機會,但是只有23%的美國人覺得AI可以改善自己的工作。AI雖能讓客服、軟體開發等領域生產力提升14%-26%,但在需要依靠人類判斷力的任務中效果不理想。不過報告指出,有三類人不僅不用擔心AI衝擊,而且還會在這波浪潮中漲薪。第一類是能夠駕馭AI的專業人士,可以利用AI放大自己的能力;第二類是需要溝通、創意等軟技能的崗位,因為AI無法替代,而這些需求一直存在;第三類是AI訓練師、倫理專家等新興崗位,屬於AI延伸出來的職業,未來前景大。AI的偏科既帶來了生產力的提升,也重塑了勞動力市場的格局。對於每個人來說,適應AI、學會與AI協作,找準自身不可替代的核心優勢,才是應對這場變革的關鍵。AI與教育錯位 一場正在擴大的時代裂縫AI的發展速度,已經快到讓教育體系有點跟不上節奏了。AI教母李飛飛曾說,現在的傳統教育是滯後的。她認為,當前的教育依然停留在工業時代,依靠知識填充和應試,這種模式是通過記憶和重複訓練將大量知識喂給學生。圖源:網路問題在於,生成式AI最擅長的就是快速、精準地學習這些結構化知識。生成式AI可以在幾秒鐘內完成資料整理、寫作潤色甚至邏輯推演。如果教育還在強調這些能力,相當於讓人類用自己的短板,去和AI的長板硬碰硬。她還指出當前教育體系存在的三個困境,第一是目標錯位,學生花很多年時間學習一些機器輕鬆替代的技能,浪費人類的潛力;第二是內容過時,課程重理論、輕技能,依然圍繞記憶和考試展開,而這些正是最容易被AI替代的部分;第三是結構僵化,文科理科被強行分開,學生很難同時具備技術理解和人文判斷,而現實世界的問題越來越依賴跨界能力。很多人都有共識,AI已經成為這一代學生的基本素養,但系統的AI教育卻遲遲沒有跟上。史丹佛大學的《2026年AI指數報告》指出,從全球看,基礎電腦教育已經比較普及,超過90%的國家在中小學階段提供相關課程,但AI教育的推進速度較慢。圖源:Artificial Intelligence Index Report中國和阿聯都從2025-2026學年開始,把AI教育納入強制體系,但AI的發展技術迭代以月為單位,教材更新以年為周期。很多學生在書本上學到的已經是上一個版本的內容,越來越多學生只能在課堂之外學習AI,於是學校的價值被質疑。更值得注意的是,教育變革也明顯落後於AI擴散的速度。報告提到,超過80%的美國高中生和大學生,已經在學習中使用AI工具,最常見的用途是查資料、修改論文和做頭腦風暴。圖源:Artificial Intelligence Index Report進入AI時代,年輕人已經普遍開始依賴並運用AI工具,但學校的反應卻明顯滯後。只有一半的中學制定了AI相關政策,而在教師中,只有6%認為這些政策是清晰可行的。學生在用AI,老師不知道該怎麼管,規則也不明確,這是教育界最擔心的場景。AI以迅雷不及掩耳之勢改變我們的生活、工作和教育,但當前的教育系統還在按舊邏輯運轉,而現實世界已經換了一套規則。這種錯位和滯後不只是因為技術更迭快,而是教育的底層邏輯已經和當今社會不相匹配。AI既可以放大一部分人的優勢,也會進一步拉大差距。如果我們依然選擇停留在被動接受知識,那麼未來就會成為被AI取代的一員。教育真正的挑戰,不是追問如何贏AI,而是要思考在一個答案隨時可得的時代,人類學習的意義究竟是什麼。 (Letsight)
史丹佛剛發報告:中國AI論文數量全球第一!老師該怎麼看?
史丹佛剛發報告:中國AI論文數量全球第一!老師該怎麼看?史丹佛AI指數報告2026發佈,透露了一個讓老師焦慮的訊號4月13日,史丹佛大學發佈了《2026年人工智慧指數報告》。報告一出,朋友圈刷屏了——"中國AI論文數量全球第一""論文引用次數超越美國""中國AI專利數量全球領先"看到這些資料,很多老師慌了:AI都這麼強了,老師還有什麼用?今天我們不販賣焦慮,只說乾貨。點點關注一、報告到底說了什麼?這份報告是史丹佛連續第九年發佈的AI行業權威報告,資料來源覆蓋全球。先看幾個關鍵結論:中國領先的部分AI論文發表數量:中國全球第一,且已連續多年保持領先論文被引頻次:中國超越美國,說明質量也在追趕AI專利數量:中國全球第一,佔全球總量超過40%工業機器人安裝量:中國連續多年全球第一美國依然領先的部分頂級AI模型數量:美國依然領先,OpenAI、Google等巨頭仍在前沿高影響力專利:美國的專利質量更高,影響力更大AI私人投資:美國依然是全球AI投資最活躍的國家簡單說:規模上中國已超,原創性上美國仍強。這是一個"大而不強"到"又大又強"的過渡階段。▲ 圖:中美AI實力對比,綠色代表中國領先指標,藍色代表美國領先指標二、這和老師有什麼關係?很多老師說:"這是科技圈的事,跟我有什麼關係?"錯了。大有關係。關係1:AI教育政策正在加速落地中國AI論文和專利的爆發,背後是國家戰略的強力推動。"十五五"規劃中,AI教育已被列為重點發展方向。多地已將AI課程納入中小學必修課。這意味著——未來3-5年,"會用AI"將成為老師的基本功,就像會用PPT一樣。關係2:最近一個月,AI工具爆發式更新就在這幾天,全球AI領域大事不斷:阿里開源Qwen3.6:程式設計能力大幅提升,中文理解更強Claude Opus 4.7發佈:更靠譜、更穩定,適合教育場景OpenAI Codex:支援Mac桌面操控,多智能體協同聯想"天羿AI Pro":深度整合國產系統,支援離線資料處理工具越來越強,用不用、怎麼用,決定權在你手裡。三、老師不需要焦慮,但需要行動每次聊AI,總有人問:"AI會不會取代老師?"我的答案是:取代你的不是AI,是會用AI的老師。史丹佛報告裡有一個資料很有意思:儘管AI論文和專利爆發,但教育領域的AI應用滲透率依然很低。大多數老師還沒有真正用起來。這反而是機會——現在學AI的老師,就像10年前第一批用PPT的老師——不是被取代,而是先發優勢。老師現在最該做的3件事 ▲ 圖:老師行動指南1.把AI用進日常備課:出題、批改、總結,用起來比觀望強100倍2.關注政策動向:AI教育納入課標是遲早的事,早準備不吃虧3.建立自己的AI工作流:選1-2個工具用熟練,比追所有新工具有用四、一個真實的建議史丹佛報告裡有一句話讓我印象很深:"AI最大的風險不是它太強,而是我們還不知道怎麼用它。"這句話對老師格外適用。AI會出題,但它不知道一個班級30個孩子裡那幾個最近狀態不好。AI會批改作文,但它批不出那個孩子最近作文進步了。AI會總結知識點,但它看不到學生眼裡那一瞬間的"懂了"。AI是工具,老師是靈魂。工具越來越強,靈魂才更需要方向。 (雍不止步)
一文看懂大語言模型(LLMs):基於史丹佛大學 CS229 課程的小白能看懂版
1. 開場白與課程概述本段總結: 介紹了建構大語言模型的五個核心要素(架構、訓練演算法、資料、評估、系統)。講者指出,雖然學術界痴迷於模型架構,但在實際工業界中,資料、評估和系統工程才是決定模型成敗的關鍵。大家好,今天我們將探討如何建構大語言模型(LLMs)。簡單回顧一下,LLMs 指的是大家最近常聽到的那些聊天機器人,比如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini 以及 Meta 的 Llama。今天,我們將揭秘它們到底是如何運作的。在訓練 LLM 時,有五個關鍵元件至關重要:架構(Architecture):LLM 是神經網路,你需要決定使用什麼架構。目前大家都在使用 Transformer 或其變體。訓練損失與演算法(Training Loss & Algorithm):你將如何訓練這些模型。資料(Data):這是你用來訓練模型的素材。評估(Evaluation):你如何知道模型是否在朝著目標取得進展。系統(Systems):在現代硬體上高效運行這些龐大模型的方法。現在的系統層面比以往任何時候都重要。大多數學術界的研究(包括我職業生涯的大部分時間)都集中在架構和訓練演算法上,我們總喜歡發明新架構。但老實說,在實踐中真正起決定性作用的是另外三項:資料、評估和系統。這也是工業界投入最多精力的地方。因此,今天我不會過多討論 Transformer 的架構細節,而是重點講解其他更重要的部分。本次講座分為兩大部分:預訓練(Pre-training)——經典的語言建模階段,目標是讓模型學習整個網際網路的知識;以及後訓練(Post-training)——ChatGPT 誕生以來的新範式,目標是將這些語言模型轉化為真正的人工智慧助手。2. 預訓練與自回歸語言模型本段總結: 預訓練的核心任務是“自回歸語言建模”,即通過機率分佈預測序列中的下一個詞。模型通過交叉熵損失函數進行訓練,這等同於最大化文字的對數似然度。首先,什麼是語言模型?在宏觀層面上,語言模型就是一個關於單詞或 Token 序列的機率分佈模型。具體來說,它建立了一個分佈$P(X_1 ... X_L)$。例如,對於句子“老鼠吃了奶酪”,語言模型會評估這句話在人類對話或網際網路上出現的機率。如果句子存在語法錯誤,或者語義不通(比如“奶酪吃了老鼠”),模型賦予它的機率就會非常低。因為語言模型掌握了機率分佈,我們可以從中進行採樣,從而生成新的資料,這就是為什麼它們被稱為生成式模型(Generative Models)。目前大家使用的都是自回歸語言模型(Autoregressive Language Models)。它的核心思想是利用機率的鏈式法則,將整個句子的分佈拆解為:第一個詞的機率,乘以給定第一個詞後第二個詞的機率,依此類推。它的任務非常簡單:預測下一個詞。在訓練時,我們會把序列中的每個詞嵌入(Embed)為向量,通過 Transformer 網路獲取上下文表徵,再通過一個線性層對應到詞表大小的維度,最後用 Softmax 輸出下一個詞的機率分佈。我們使用的訓練損失是交叉熵損失(Cross-Entropy Loss),這本質上是一個預測下一個 Token 的分類任務。在數學上,最小化交叉熵損失,完全等價於最大化文字的對數似然度(Maximum Likelihood)。3. 為什麼需要分詞器(Tokenizer)?本段總結: 詳細解釋了分詞器存在的必要性,以及字節對編碼(BPE)的工作原理。分詞器解決了詞彙表過大和拼寫錯誤的問題,但也帶來了諸如數學計算和程式碼縮排理解等侷限性。很多人往往忽視了分詞器(Tokenizer),但它極其重要。我們為什麼不直接用“單詞”或“字元”作為基本單位呢?如果用單詞:遇到拼寫錯誤的詞彙(如 Typo),模型會遇到未登錄詞問題,且對於泰語等沒有明顯空格分詞的語言很不友好。如果用字元:雖然通用,但會導致序列極長。要知道,Transformer 的計算複雜度隨序列長度呈平方級增長(二次方複雜度),序列太長會導致算力崩潰。分詞器提供了一個折中方案,通常一個 Token 包含 3 到 4 個字母。目前最流行的方法之一是字節對編碼(BPE, Byte Pair Encoding)。BPE 的訓練過程如下:首先將大型語料庫中的所有內容拆分為單個字元,然後統計相鄰字元對的出現頻率。找到最常見的字元對(比如“t”和“o”),將它們合併為一個新的 Token(“to”),並賦予唯一的 ID。不斷重複這個合併過程,直到達到預設的詞表大小。不過,業界越來越意識到分詞器的侷限性。比如在處理數學問題時,數字往往被切分成奇怪的 Token,導致模型看待數字的方式與人類完全不同,影響了推理能力。此外,程式碼中的空格縮排(如 Python 的 4 個空格)過去也經常被分詞器錯誤處理,這是 GPT-4 專門重構程式碼分詞邏輯的原因。理想情況下,未來我們希望能擺脫分詞器,直接處理字元或字節。4. 評估指標:困惑度與學術基準本段總結: 評估語言模型的傳統方法是困惑度(Perplexity),而現在學術界更傾向於使用 MMLU 等客觀題基準測試。同時,評測標準的不一致和訓練集污染是目前面臨的重大挑戰。我們如何評估模型?在開發階段,最常用的是困惑度(Perplexity)。困惑度本質上是驗證集損失的一種可解釋轉化。公式是$2$的“平均每個 Token 的損失”次方。它的直觀含義是:模型在生成下一個詞時,正在幾個詞之間猶豫不決?如果模型完美預測,困惑度為 1;如果模型完全在瞎猜,困惑度就等於詞表大小。在 2017 年到 2023 年間,標準資料集上的困惑度從 70 驟降到了 10 以下,進步驚人。然而,困惑度在橫向對比不同模型時存在問題(比如 Gemini 和 ChatGPT 的詞表大小不同,困惑度就無法直接比較)。因此,目前的學術基準測試(如 Helm 或 Hugging Face 閉源排行榜)通常聚合大量的 NLP 任務。最典型的是MMLU(大規模多工語言理解),包含了大學物理、醫學等多個領域的單選題。評估方式有兩種:一是計算模型生成 A、B、C、D 四個選項的對數似然度,看正確選項的機率是否最高;二是直接限制模型輸出,看它生成的下一個 Token 是不是正確答案。評估面臨的巨大挑戰:評估方式不一致:不同的 Prompt 或評分指令碼會導致結果天差地別。比如 Llama 65B 在不同的測試平台上,精準率能從 48.8% 飆升到 63.7%。訓練集污染(Contamination):你的測試題是否已經被混入訓練集了?為了檢測污染,研究人員有時會故意打亂測試題的選項順序,如果模型依然按原順序生成答案,說明它很可能在訓練時背過這道題。5. 預訓練資料:從“髒資料”到高品質語料本段總結: 揭露了工業界處理預訓練資料的艱辛過程。通過爬取 Common Crawl、HTML 文字提取、去重、啟髮式過濾和模型分類,最終留下高品質的、配比合理的資料集進行訓練。大家常說“用整個網際網路的資料訓練模型”,這聽起來很簡單,但網際網路其實是一個“垃圾場”。Common Crawl 作為一個主流的開源爬蟲項目,包含了大約 2500 億個網頁,資料量高達 1 Petabyte。如果你隨機點開一個爬取的網頁,裡面全是不完整的句子和雜亂的程式碼。為了清洗這些資料,需要一個巨大的工程流水線:HTML 文字提取:去除網頁程式碼,提取純文字,同時還要處理棘手的數學公式提取和網頁頭部/底部的範本內容(Boilerplate)。過濾不良內容:剔除 NSFW(不適宜工作場所)、有害內容和 PII(個人身份資訊)。去重(De-duplication):剔除重複的論壇簽名或在全網被覆制貼上了上萬次的段落。啟髮式過濾(Heuristic Filtering):基於規則刪除低品質文字。比如檢查 Token 的分佈是否異常,單詞長度是否詭異,或者網頁是不是只有 3 個詞。模型分類過濾:這是一個非常聰明的技巧。研究人員會提取維基百科中引用的所有外部連結,訓練一個輕量級的分類器。然後用這個分類器掃描全網資料,保留那些“風格類似於維基百科引用來源”的高品質網頁。領域劃分與配比:將資料分為程式碼、書籍、娛樂等。通常會增加程式碼(據稱能提升推理能力)和書籍的權重,降低娛樂內容的權重。退火(Annealing):在預訓練的最後階段,降低學習率,並在維基百科等極高品質的資料上“過擬合”,以提升模型最終的表現。在業界,處理資料所需的 CPU 算力和團隊規模,有時甚至超過了研究架構本身的投入。Llama 3 訓練使用了高達 15 兆個 Token。高品質資料是絕對的核心商業機密。6. 縮放定律(Scaling Laws)與資源分配本段總結: 縮放定律證明了模型性能與算力、資料量、參數量成可預測的對數線性關係。這徹底改變了模型研發流程,讓研究人員可以通過訓練小模型來精準預測大模型的表現。在傳統機器學習課上,我們總是擔心“過擬合”。但在大型語言模型中,過擬合幾乎不存在:資料越多,模型越大,性能就越好。更神奇的是,這種提升是可以精確預測的。OpenAI 發現,如果把算力(Compute)、資料集大小或參數量放在對數坐標的 X 軸上,把測試損失(Test Loss)放在 Y 軸上,它們呈現出完美的線性關係。這徹底改變了研發管線(Pipeline):以前,如果你有 10000 張 GPU,你可能會訓練 30 個不同超參數的大模型,每個訓練 1 天,挑出最好的。現在,你會利用幾張 GPU 訓練一系列不同規模的“小模型”,擬合出一條 Scaling Law 曲線。然後,你可以極其自信地預測出那個 1000 億參數的終極模型如果訓練 30 天會達到什麼水平,並直接把所有算力押注在那個終極模型上。那麼,有限算力下,是該增加參數量,還是增加資料量?DeepMind 的 Chinchilla 論文給出了答案。通過繪製不同算力預算下的等高線圖(Iso-flops),他們發現計算最優解是:每增加 1 個參數,就應該增加 20 個訓練 Token。但在工業界實踐中,由於要考慮模型部署後的推理成本(Inference Cost),公司更傾向於訓練相對較小的模型,但在海量資料上進行超額訓練。所以目前的比例通常是 150 個 Token 對應 1 個參數(如 Llama 3)。7. 訓練成本與碳排放的“信封背面計算”本段總結: 通過基礎數學公式估算了 Llama 3 400B 模型的訓練成本,展示了前沿 AI 研發巨大的資金和算力門檻,以及在當前階段可控的碳排放規模。讓我們用 Llama 3 400B 模型做個粗略的計算。它有 450 億(此處講者口誤,應指 Llama 3 的大參數量版本計算)參數,訓練了 15.6 兆 Token。所需算力(Flops):計算公式大致為$C = 6 \times P \times N$(其中$P$為參數量,$N$為資料量)。計算結果約為$3.8 \times 10^{25}$Flops。拜登政府的行政命令要求算力超過$10^{26}$Flops 的模型需要接受特殊審查,Meta 恰好卡在這個紅線之下。訓練時間:使用 16000 張 H100 顯示卡,結合其吞吐量,大約需要持續訓練 70 天,耗費近 2600 萬 GPU 小時。訓練成本:假設 H100 的租金下限為每小時 2 美元,單純的顯示卡成本就超過 5200 萬美元。算上頂尖研究員的薪水(約 50 人,年薪 50 萬美元起),總成本至少在 7500 萬美元左右。碳排放:大約排放 4000 噸二氧化碳當量,相當於從紐約到倫敦的 2000 趟往返航班。目前來看,碳排放在整個大環境裡還算可控,但如果算力再提升 100 倍,這就會成為一個真正的環境問題。8. 後訓練:將模型轉化為 AI 助手(SFT)本段總結: 預訓練模型只會續寫文字。為了讓它聽從指令,必須使用監督微調(SFT)機制。研究表明,SFT 的關鍵在於格式對齊,而不需要大量資料。預訓練階段得到的只是一個“語言模擬器”。如果你給 GPT-3 純預訓練模型輸入“請向一個 6 歲的小孩解釋登月”,它可能會續寫出“請向一個 6 歲的小孩解釋引力”,因為它在模仿網際網路論壇的提問模式。要把它變成 AI 助手,我們需要進行對齊(Alignment),也就是後訓練(Post-training)。第一步是監督微調(SFT, Supervised Fine-Tuning)。我們收集人類寫好的高品質“問答對”,在這個資料集上繼續用語言模型的目標(預測下一個詞)來微調模型。因為人類編寫資料極其昂貴,現在流行用最強的 LLM(如 GPT-4)來生成合成資料(Synthetic Data)進行微調,比如我們之前做的 Alpaca 模型就是這樣做的。令人驚訝的是,Lima 論文指出,SFT 並不需要海量資料(幾千條足矣),從 2000 條增加到 32000 條並沒有帶來本質提升。原因在於:預訓練已經把所有的知識塞進了模型裡,SFT 的作用僅僅是教模型“如何格式化地輸出你期望的答案”,而不是教它新知識。9. RLHF 與 DPO 偏好最佳化本段總結: 僅靠 SFT 會導致幻覺和人類能力天花板問題。通過引入強化學習人類反饋(RLHF)或直接偏好最佳化(DPO),模型可以直接最佳化人類的偏好,產生更優質的輸出。僅僅做 SFT 有幾個致命缺陷:人類能力上限:SFT 屬於行為克隆(Behavioral Cloning)。但我評價一本書的好壞,比我自己寫一本書要容易得多。如果只模仿人類生成的內容,模型永遠無法超越人類專家的寫作水平。幻覺(Hallucinations):如果人類在 SFT 資料裡提供了一個冷門知識點,而這個知識點模型在預訓練時完全沒見過,模型就會學會“一本正經地胡說八道”,強行生成看似合理的錯誤答案。為瞭解決這個問題,我們需要引入偏好最佳化。核心流程是:給定一個指令,讓模型生成兩個不同的答案,讓人類標註員(或強大的 LLM)來選擇那個更好(比如綠色優先於紅色)。演算法 1:RLHF(強化學習人類反饋)配合 PPO 演算法這是 ChatGPT 最初突破的關鍵。首先用偏好資料訓練一個獎勵模型(Reward Model),將離散的偏好轉化為連續的打分(Logits)。然後用 PPO(近端策略最佳化)這種強化學習演算法,將 LLM 作為一個智能體(Agent)進行訓練,以最大化獎勵得分為目標。但這極度複雜!強化學習極度不穩定,包含了無數的裁剪(Clipping)和工程 Trick,連寫出 PPO 的原作者都覺得難以完美復現。演算法 2:DPO(直接偏好最佳化)史丹佛去年提出的一種優雅替代方案,現已成為開源界的主流。既然我們的目標是“多生成喜歡的,少生成不喜歡的”,為什麼不直接在數學上把它轉化為一個最大似然估計問題呢?DPO 直接將偏好資料帶入損失函數,最大化人類偏好答案的機率,懲罰被拒絕答案的機率。它徹底拋棄了獎勵模型和強化學習,僅僅用交叉熵的變體就達到了與 PPO 同樣的甚至更好的效果。10. 評估後訓練模型:LLM 裁判的崛起本段總結: 評估對齊後的模型非常困難。目前業界依賴於“聊天機器人競技場”進行盲測,為了降低成本,大量使用 LLM 作為裁判(如 Alpaca Eval)來自動化評估。經過 RLHF 之後,模型已經不再是一個標準的機率分佈模型了(它在努力讓最優解的機率逼近 1),所以困惑度(Perplexity)在這裡失效了。而且,開放式回答沒有標準答案。目前最權威的評估方式是Chatbot Arena(聊天機器人競技場),這是一種盲測系統,讓人類在兩個匿名模型中投票。但讓人類投票太慢且太貴,所以業界開發了基於 LLM 的自動化評估(比如 Alpaca Eval)。你只需要給 GPT-4 兩個回答,問它那個好。我們發現,LLM 的評判與人類投票的擬合度高達 98%,成本卻便宜了 50 倍。警惕虛假相關性(Spurious Correlation):LLM 裁判(和人類一樣)存在嚴重的**“偏好較長輸出”(Length Bias)**。如果在 Prompt 裡要求模型“囉嗦一點”,它的勝率會莫名其妙飆升至 64%;如果要求“簡明扼要”,勝率會跌穿 20%。這是對齊訓練中需要通過因果推斷等統計手段去消除的頑疾。11. 系統基礎知識與顯示卡最佳化本段總結: 計算系統的最佳化直接決定了訓練的成敗。因為 GPU 的記憶體通訊頻寬常常是瓶頸,業界廣泛採用低精度訓練(16 位)和算子融合技術來大幅提高算力利用率。對於開發 LLM 的任何人來說,算力永遠是瓶頸。簡單地“買更多 GPU”是行不通的,因為通訊開銷會拖垮多卡互聯系統。如果你想理解系統級最佳化,記住一點:CPU 最佳化的是延遲(Latency),而 GPU 最佳化的是吞吐量(Throughput)。GPU 天生為極速的矩陣乘法而生。但目前 GPU 最大的瓶頸在於:算力提升的速度遠大於記憶體通訊頻寬提升的速度。很多時候,由於資料無法及時從視訊記憶體(HBM)傳輸到計算核心(SMs),你的 GPU 大部分時間都在閒置。在工業界,模型浮點運算利用率(MFU)能達到 50% 就已經是極其出色的成績了。兩個關鍵最佳化技巧:低精度 / 混合精度訓練:在深度學習中,小數點後幾位並不關鍵。我們將龐大的矩陣乘法運算放在 16 位精度下進行,以成倍減少視訊記憶體佔用和通訊頻寬;只在儲存模型權重和執行參數更新時,保留 32 位精度以確保學習率生效。算子融合(Operator Fusion):如果你在 PyTorch 裡寫一行簡單的連續運算(比如求 Cosine 再求 Sine),傳統方法是將資料從視訊記憶體搬運到計算核心,算完搬回去,再搬出來算下一步,這是極其浪費的。使用torch.compile,系統會自動將程式碼在底層重寫為 C++ (CUDA) 的融合算子,把所有資料一次性送入核心,全部算完再取回,這能讓模型訓練速度直接翻倍。這就是從架構、資料到系統的 LLM 建構全貌,希望對大家有所啟發。 (The AI Frontier)
史丹佛報告:中國AI幾乎抹平美國領先優勢 雙強時代正式到來
當地時間4月13日,美國史丹佛大學發佈2026人工智慧指數年度報告,一則重磅結論迅速引爆全球科技輿論:中國在頂級AI模型性能上,已幾乎抹平美國長期以來的領先優勢。這份權威報告直白宣告,長達十餘年的美國AI獨霸時代正式落幕,全球人工智慧格局迎來中美雙強並駕齊驅的全新階段。長久以來,美國憑藉先發技術優勢、壟斷算力資源與全球人才虹吸能力,牢牢把持著人工智慧領域的核心話語權。從底層框架到高端晶片,從技術原創到行業標準,美國長期建構起全方位代差壁壘,成為其他國家難以望其項背的技術標竿。而中國AI以驚人的追趕速度,逐步打破這一格局,直至如今雙方僅剩2.7%的微弱性能差距,完成了從望塵莫及到並跑爭鋒的歷史性跨越。報告資料精準印證了這場格局變革:截至2026年3月,美國Anthropic旗下頂尖模型僅以2.7%的微弱優勢保持領先。2025年2月,中國DeepSeek-R1模型曾短暫追平美國最強模型,實現歷史性持平;此後榜首位置頻繁易主,中美雙強進入白熱化的貼身拉鋸階段。在權威Elo評分體系中,中美六大頭部模型分差已不足25分,徹底同處全球頂級梯隊,2.7%的差距早已不構成技術代差,更像是技術迭代中的正常波動。這場勢均力敵的競爭背後,是中美AI三條核心賽道的尖銳對立,兩種發展邏輯的正面碰撞,每一個戰場都呈現出截然不同的路徑與優勢。第一戰場:算力霸權 VS 場景霸權美國守著“石油”,中國流著“水”。美國手握5427個資料中心,試圖以海量算力構築高牆,鎖死全球AI發展上限。但高昂的投入成本,讓AI淪為少數科技巨頭的特權,長期困於實驗室,難以真正落地生根。這種重資本、重算力的模式,看似強大卻脫離產業土壤,更像一場昂貴的技術炫耀。反觀中國,依託全球最全的工業門類與超大規模市場,將AI化作潤物無聲的“水”,滲透進工廠流水線、民生服務與日常場景。它不再是實驗室裡的參數遊戲,而是支撐產業升級的基礎設施。當美國還在糾結模型參數規模時,中國已以54.4%的工業機器人裝機量證明:AI唯有紮根實體,才能擁有真正的生命力。第二戰場:精英閉源 VS 開源普惠矽谷畫地為牢,東方開門迎客。美國科技巨頭信奉封閉哲學,以閉源架構築起技術壁壘,意圖壟斷全球AI利潤與話語權。他們將AI包裝成高端奢侈品,用技術壁壘維持不對等的全球分工體系。這條路走得越極致,AI與真實產業世界的割裂就越深,難以形成廣泛的技術輻射。而中國選擇了一條更艱難卻更廣闊的路徑——開源普惠。DeepSeek等模型的接連突圍,正是憑藉極致演算法最佳化,打破了“唯算力論”的技術神話,讓普惠性AI成為可能。這早已不只是技術路線之爭,更是價值觀的對決:AI是成為收割紅利的鐮刀,還是滋養實體經濟的甘泉?第三戰場:人才枯竭 VS 規模爆發美國斷崖失血,中國全面碾壓。報告披露的資料觸目驚心:自2017年以來,移居美國的AI學者數量暴跌89%,曾經無往不利的人才“虹吸效應”戛然而止。矽谷正面臨創新源頭枯竭的危機,長期依賴外來大腦支撐的技術霸權,正在失去最核心的供血能力。而中國憑藉龐大的工程師紅利,在AI論文發表量、被引用次數、專利授權總量等硬核指標上全面領跑全球。我們或許尚未在單點頂尖人才密度上完全反超,卻已形成密集突破的規模勢能。美國還在依賴舊時代的移民紅利維持優勢,中國正用新世界的人才密度重塑全球AI規則。終局:零和博弈的開始2.7%的差距,意味著中國AI“跟跑抄作業”的時代徹底結束。美國想守住技術神壇,維持算力與規則霸權;中國要實現產業突圍,用AI重構核心生產力。這不再是簡單的模型跑分競賽,而是兩種體系、兩種路徑、兩種國運的激烈碰撞。史丹佛的報告只是上半場的終哨,真正的決戰才剛剛打響。下半場哨聲已響,未來沒有中間地帶,沒有模糊空間,只有硬碰硬的全面對決。從差距懸殊到並駕齊驅,中國AI用實力打破了西方技術霸權的壟斷。雙強時代已然到來,這場關乎科技未來、產業格局與國家競爭力的較量,註定將走向更深層次的對抗與突圍。(熱科技享生活)
史丹佛423頁AI報告出爐!中美差距僅2.7%,清華DeepSeek衝進全球前十
史丹佛「2026年AI指數報告」重磅出爐!這份432頁長文含金量極高:中美AI巔峰對決,差距幾乎抹平,縮減至僅2.7%。全球頂尖AI年產95個,基本都聚集在大廠。最殘酷的是,22-25歲開發者的就業已被切掉20%。今天,史丹佛HAI重磅發佈「2026年AI指數報告」!這份長達423頁的年度報告,全面揭示了全球AI產業的最新權力版圖。它給出了一條核心結論:AI的本事漲得飛快;但人類衡量和管好它的能力,卻沒怎麼跟上步伐。其中,最震撼的結論是——中美AI模型性能差距已基本消失,雙方在巔峰對決中頻繁易主,目前Anthropic領先優勢僅剩2.7%。美國在AI上砸的錢比誰都多,但招攬頂尖人才卻越來越吃力了。報告還指出,AI的進化不僅沒有遭遇所謂的「瓶頸」,反而正以史無前例的速度狂飆。過去一年,全球超90%的頂尖模型,在博士級科學問題、多模態推理、競賽數學上的表現,追平甚至超越了人類。特別是在程式碼能力上,SWE-bench的成績在一年內,從60%飆升至近100%。然而,AI的「偏科」現像極其嚴重,呈現出一種畸形的現狀:LLM可以拿下IMO金牌,卻讀不對模擬時鐘,正確率僅為50.1%。與此同時,AI搶飯碗這事兒已經從預測變成了現實,而且最先遭殃的就是當代年輕「打工人」。下面直接上乾貨,「2026年AI指數報告」最值得關注的12個硬核趨勢。其他亮點速覽:全球AI算力3年漲30倍,輝達獨佔60%,幾乎所有晶片都出自一家台積電2025年全球企業AI投資5817億美元,同比翻倍,美國一國吃下近一半進入美國的AI研究人員7年跌89%,僅過去一年就跌80%22-25歲軟體開發者就業自2024年起下滑20%,入門崗位被精準切掉中國累計建成85台公共AI超算,是北美的兩倍以上,全球第一中國職場AI使用率超80%,遠超全球58%的平均最強模型越來越黑箱,95個代表性模型裡80個沒有公開訓練程式碼中美貼臉差距只剩2.7%史丹佛把2023年5月以來Arena榜單上的美國第一和中國第一,畫在了同一張坐標系裡。2023年5月,gpt-4-0314拿1320分領跑,中國這邊還是chatglm-6b,差距300多分。2025年2月,DeepSeek-R1第一次和美國頭部模型短暫打平。2026年3月,美國的Claude Opus 4.6拿到1503分,中國dola-seed-2.0-preview拿到1464分。如今中美AI之間的差距,僅有39分。換算成百分比,2.7%。更值得說的是過去一年的換位頻率。從2025年初開始,兩國頭部模型已經在Arena上你來我往換了好幾次位置。數量上同樣接近五五開。2025年美國發佈了50個「顯著模型」,中國緊跟著也發佈了30個頂尖大模型。第一梯隊裡OpenAI、Google、阿里、Anthropic、xAI同台站位,全球TOP 5五五分帳。再往下看到TOP 10,中國機構和企業佔了四席,阿里、DeepSeek、清華、字節。開源生態這一年的重心也明顯東移。DeepSeek、Qwen、GLM、MiniMax、Kimi一路把開源權重的能力曲線往前推。再算上論文發表量、被引數、專利產出量、工業機器人裝機量,中國統統全球第一。價格層面是另一條戰線。海外開發者在X上算過一筆帳,Seed 2.0 Pro的輸出價格大約只有Claude Opus 4.6的十分之一。性能貼臉,價格只要十分之一。這件事的連鎖反應才剛剛開始。90%前沿模型出自產業封神速度史無前例去年發佈的95個最具代表性的模型裡,超過九成都來自產業界,不是學術機構,也不是政府實驗室。學術界已經追不上前沿了。發佈速度也在變態加速。光是2026年2月一個月,就有Gemini 3.1 Pro、Claude Opus 4.6、GPT-5.3 Codex、Grok 4.20、Qwen 3.5、Seed 2.0 Pro、MiniMax M2.5、GLM-5八九個旗艦模型同月入場。封神周期從「年」變成了「月」。基準一年封頂AI沒有瓶頸最猛的曲線是程式設計。SWE-bench Verified這個真實修Bug的基準,一年時間從60%漲到接近100%。不是漲了幾個點,是基本封頂。Terminal-Bench測試Agent處理真實終端任務的能力,從去年的20%漲到77.3%。網路安全Agent解決問題的成功率,從15%漲到93%。Gemini Deep Think在國際數學奧林匹克拿到金牌。PhD級科學問答(GPQA Diamond)、競賽數學(AIME)、多模態推理(MMMU)這些原本被認為「人類不可超越」的硬骨頭,全部被前沿模型啃了下來。最能說明問題的是Humanity's Last Exam。這是一個專門被設計來「難倒AI、偏袒人類專家」的測試,題目由各個領域的頂尖專家提供。去年OpenAI的o1拿到8.8%,前沿模型在一年時間裡把分數往上又推了30個百分點,目前Claude Opus 4.6和Gemini 3.1 Pro已經雙雙過了50%。鋸齒前沿能拿IMO金牌卻看不懂表但同一份指數甩出了另一組數字。最強模型在「讀模擬時鐘」這個任務上的正確率,是50.1%。機器人在實驗室模擬環境(RLBench)裡的操作成功率已經達到89.4%。但搬到真實家庭場景裡完成洗碗、疊衣服這類家務,成功率立刻掉到12%。實驗室和廚房之間,差了77個百分點。研究者把這種現象命名為「鋸齒前沿」(jagged frontier)。AI能力的分佈是凹凸不平的,能拿數學奧賽金牌,卻沒法穩定地告訴你現在幾點。AI能在數學奧賽拿金牌,但只有一半的機率能看懂模擬時鐘。AI在加速,但加速的不是同一個方向。另外,在智能體任務中,OSWorld測試中,前沿AI實力(66.3%)正逼近人類基線。然而,在專門評估科研邏輯的PaperArena測試中,最強AI加持的Agent,得分僅39%,只有博士生一半的功力。但這種凹凸已經不影響企業把AI往生產線上塞。AI Index給出的另一個數字是,全球企業AI採用率達到88%。九成的公司已經把AI接進了某個工作流。代價同步在漲。AI相關事故記錄從2024年的233起漲到362起。錢在加速5817億砸進AI2025年全球企業AI投資達到5817億美元,同比增長130%。其中私募投資3447億美元,同比增長127.5%。兩條曲線都幾乎翻倍。國別上,美國一騎絕塵。2025年美國私募AI投資2859億美元。並且一年新增1953家AI創業公司,也是排名第二的10倍以上。錢在加速湧向美國。但美國的另一項核心資源,正在反向流動。人在流走進美國的AI研究者跌了89%裡面有一組數字讓人愣了一下。2017年到現在,進入美國的AI研究人員和開發者數量下降了89%。更關鍵的是,這個下降在加速。僅僅過去一年,下降幅度就達到80%。美國仍然是全球AI研究人員密度最高的國家,但流入的水龍頭正在擰緊。錢和人這兩條曲線開始反向。這是過去十年沒出現過的局面。算力三年漲30倍命門都在一家公司手裡AI能力曲線在加速,背後那條算力曲線跑得更猛。從2021年到現在,全球AI算力總量漲了30倍。過去三年裡,每年都在翻三倍以上。撐起這條曲線的是少數幾家公司。輝達一家的GPU,佔據了全世界AI算力的60%以上。亞馬遜和Google靠自研晶片排在二三位,但加起來也遠遠追不上輝達。而幾乎所有這些晶片,都來自一家代工廠,台積電。算力曲線越陡,命門就越窄。與此同時,代價也在加大。全球AI資料中心的總功率已經達到29.6 GW,相當於紐約州在用電高峰時段的全部用電需求。xAI Grok 4一次訓練的估算碳排放是72816噸二氧化碳當量,相當於17000輛汽車開一整年的尾氣。資料中心建在那裡,電從那裡來,晶片從那裡產,這三個問題已經變成今年所有AI公司CEO案頭最頭疼的事。生成式AI三年滲透53%中國職場使用率破80%生成式AI在三年內達到了53%的全球人口滲透率。這個速度比個人電腦快,比網際網路快。但滲透速度和國別相關性極強。新加坡61%,阿聯54%,都跑在美國前面。美國在調查覆蓋國家中只排第24位,滲透率28.3%。如果把維度從消費者換成職場,反差更大。報告裡另一組資料顯示,2025年全球58%的員工在工作中已經開始經常性使用AI。但在中國、印度、奈及利亞、阿聯、沙烏地阿拉伯這5個國家,這個比例超過了80%。中國的職場AI滲透率,已經比全球平均高出20個百分點以上。更有意思的是消費者價值。AI Index估算,到2026年初,生成式AI工具每年給美國消費者創造1720億美元的價值。從2025年到2026年,每個使用者的中位數價值翻了三倍。絕大多數使用者用的還是免費版。普通人願意為AI付的錢,遠低於AI給他們創造的價值。這中間的剪刀差是現在所有AI公司都在試圖彌合的東西。入門崗位銳減22-25歲開發崗狂砍20%整份AI Index裡最讓中文讀者沉默的,可能是關於年輕就業的部分。22到25歲的軟體開發者群體,從2024年至今,就業人數下降了大約20%。同期,年紀更大的同行群體反而在增長。不止開發崗。客服等其他高AI暴露行業,也在出現同樣的模式。更讓人擔心的是企業問卷的結果。受訪高管普遍預期,未來的裁員幅度會比過去幾個月還要大。這不是宏觀失業率的事,是入口崗位被精準切掉的事。第一份工作沒了,整個職業階梯就斷了一格。這件事的長期影響,現在沒人能算清。AI正在改寫科學發現的方式如果說就業那一段是冷的,科學這段就是熱的。自然科學、物理科學、生命科學領域的AI相關論文,2025年同比增長了26%到28%。具體到應用,今年第一次有AI完整跑通了端到端的天氣預報流程。從原始氣象觀測資料直接吐出溫度、風速、濕度的最終預報,中間沒有任何傳統數值模型介入。AI從「幫你寫論文」「幫你算數字」,正在變成「自己做發現」。醫院裡也是一樣。2025年大量醫院開始部署能從就診對話自動生成臨床記錄的AI工具。多個醫院系統的醫生反饋,寫病歷的時間減少了多達83%,工作倦怠顯著下降。但同一份指數給醫療AI潑了一盆冷水。一份針對500多個臨床AI研究的綜述發現,將近一半的研究依賴考試題式的資料集,只有5%用了真實臨床資料。AI能減少醫生敲鍵盤的時間,這件事是確定的。AI在真實病人身上的臨床價值,目前還有大量問號。自學浪潮全球開炸正規教育已經掉隊正規教育跟不上AI了。美國有4/5的高中生和大學生現在用AI完成學校作業。但只有一半的中學有AI使用政策,只有6%的老師認為這些政策寫得清楚。學生跑在前面,老師還在原地,規則還沒出現。正規教育跟不上的同時,自學浪潮在全球開炸。裡面寫,學AI工程技能增長最快的三個國家分別是阿聯、智利和南非。不是美國,不是歐洲。技能曲線的最陡峭的那一段,長在所有人都沒在看的地方。最強模型變成最不透明的專家和公眾撕裂最強的模型,正在變成最不透明的模型。Foundation Model Transparency Index今年的平均分從去年的58分跌到了40分。AI Index直接點名,Google、Anthropic、OpenAI都已經放棄公開最新模型的訓練資料規模和訓練時長。去年發佈的95個最具代表性的模型裡,80個沒有公開訓練程式碼。公眾的情緒也變得更複雜。全球範圍內,認為AI利大於弊的比例從52%上升到59%。但同期,對AI感到緊張的比例從50%上升到52%。兩個方向在同時增長。最分裂的是美國。只有33%的美國人認為AI會讓自己的工作變得更好,全球平均是40%。美國人對本國政府監管AI的信任度,是受訪國家裡最低的,31%。新加坡人對自己政府監管AI的信任度,是81%。最近Sam Altman家被襲擊的事件之後,矽谷圈內人「驚訝地發現」Instagram評論區裡的普通人對此並不同情,甚至有人覺得「應該更激烈一點」。他們沒意識到事情已經糟到這個程度。研報引用的Pew和Ipsos資料,專家和公眾在AI影響就業、醫療、經濟這些維度上的觀感差距,普遍超過30個百分點,最大的一項達到50個百分點。一邊是實驗室裡的曲線在飛漲,一邊是普通人心裡的不安在累積。中間沒有橋。寫在最後423頁的報告裡有幾百張圖表,但其實只畫了一張圖。橫軸是時間,縱軸是能力。模型能力的曲線在飛,算力曲線在飛,投資曲線在飛,採用率曲線在飛。其他全都在原地踏步或者向下。這就是2026年AI Index的全部內容。AI在加速。其他所有東西都在脫節。如果你是這個行業裡的人,現在該問的問題不是「未來會怎樣」,而是「自己站在那一條曲線上」。 (新智元)
史丹佛科學家提醒:你對蛋白質的5個常見誤解
蛋白質是必需營養素,但其重要性在當下常被過度渲染。多數人其實已經攝入到推薦水平;相較於“越多越好”,更關鍵的是膳食結構與整體平衡。走進今天的商超,你會發現蛋白質被加入到各類產品中:從土豆片、餅乾糕點到瓶裝水。許多本來與營養趨勢關聯不強的商品,如今都被包裝成“高蛋白”選項。這種現象反映了“protein-maxxing”(蛋白質最大化)的流行——一種由社交媒體驅動的趨勢,鼓勵人們在生活的每個環節都儘可能增加蛋白質攝入。與此同時,聯邦膳食指南對肉類與乳製品的強調更顯著,並提出相較於先前版本,蛋白質攝入應提高約50%至100%,進一步助推了這一浪潮。那麼,額外攝入的蛋白質真的都必要嗎?是否應當用牛排來替代碳水化合物?蛋白質至關重要,但往往被“神話化”與過度強調 科學家雜誌AI繪圖史丹佛醫學院的專家在梳理相關研究證據與當前營養建議後指出:蛋白質固然重要,但它並不像Instagram所暗示的那樣,是“神奇的修復靈藥”。“蛋白質得到了類似上世紀90年代低脂食品所獲得的待遇——SnackWell’s(斯耐克威爾)現象。我們都給蛋白質戴上了健康光環。”史丹佛預防研究中心的營養師與醫學講師、Marily Oppezzo 博士表示,“蛋白質攝入確實重要,但它並不像社交媒體宣稱的那樣,是萬能的‘即時好轉’來源。”下面是史丹佛醫學院專家對蛋白質相關科學問題的拆解。1. 蛋白質參與建構體內關鍵蛋白質儘管各種資訊相互矛盾,但有一點很明確:蛋白質是必需的。蛋白質、碳水化合物和脂肪共同構成三大宏量營養素,提供人體所需能量;也就是說,你攝入的熱量來源於這三類營養素之一。蛋白質在全身發揮關鍵作用。最基礎層面上,它為機體合成自身蛋白質提供“原材料”,從而支撐幾乎所有生物學過程。“蛋白質可以存在於你的肌肉、頭髮、皮膚——你身體裡的幾乎所有組織都含有蛋白質。”病理學副教授 Jonathan Long 博士指出,“而僅靠脂肪或碳水化合物並不能獲得這些組成成分。”人體內的蛋白質(無論是自身蛋白還是膳食蛋白的衍生產物)都由稱為氨基酸的分子鏈組成。已知共有20種氨基酸,其中部分氨基酸可以由體內其他物質合成;但必須從飲食中獲得的有9種必需氨基酸——體內無法自行合成這些氨基酸。當你攝入膳食蛋白質後,機體會將其分解為氨基酸,再利用這些氨基酸合成身體所需的新的蛋白質。可以把這一過程類比為:把項鏈上的珠子全部取下,然後用這些珠子來製作新的珠寶。2. 對部分人群而言,蛋白質量與維持肌肉有關在不久前,聯邦對成年人蛋白質的膳食推薦攝入量(RDA)為每公斤體重0.8 g。以150磅(約68 kg)的成年人為例,這相當於每天約55 g蛋白質,約等同於一份8盎司(約227 g)的牛排。新版膳食指南則建議每公斤體重1.2–1.6 g;同樣以68 kg為例,推薦量提升至每天約80–110 g。這種幅度明顯——那麼科學證據究竟發生了什麼變化?結論是:變化並不顯著。史丹佛預防研究中心營養研究主任 Christopher Gardner 博士表示:“我們是否真的錯得那麼多?是否出現了能證明我們錯得如此離譜的新證據?其實並沒有。”“蛋白質已經成為我見過的最具行銷力度的單一產品之一。幾乎所有東西都被包裝成‘含蛋白質’。”奧佩佐的看法更具細化。她關注兩個群體:40歲以上的成年人以及服用減重藥物的人群。對於這些人群,有證據顯示,與0.8 g/kg相比,攝入更高的蛋白質可能有助於減緩與衰老和減重相關的肌肉流失。對於BMI(身體質量指數)>30的人群,蛋白質需求的計算方式會有所不同:不使用總體重,而是採用“調整後體重”(adjusted body weight),因為瘦體組織維持需要能量。對於正在積極減重的人群,奧佩佐建議蛋白質攝入約為每公斤調整後體重1.6 g,以幫助保留肌肉。不過,奧佩佐強調:維持肌肉最重要的是抗阻訓練,而不是單純的飲食蛋白質攝入。她的一位導師——麥克馬斯特大學營養研究員 Stuart Phillips 博士曾用“蛋白質是蛋糕上的糖霜”來形象比喻:抗阻訓練才是“蛋糕”,蛋白質只是其“薄薄一層”。“阻止肌肉流失的最大因素是力量訓練。”奧佩佐說,“在此基礎上,更高的蛋白質所帶來的額外益處也只是‘小菜一碟’。”3. 也許一開始就不存在“蛋白質攝入不足”的問題如果新舊指南之間的差異主要體現在推薦量提高上,那麼可能需要進一步考慮現實情況:美國人是否真的蛋白質攝入不足?答案或許並不支援這一擔憂。根據美國國家健康與營養檢查調查(NHANES),美國成年男性的蛋白質日均攝入約為90–100 g;女性約為65–75 g。這已經與新版建議基本相符。同時,有一種常見誤解是:舊版RDA被視為“最低需要量”,因此認為蛋白質越多越好。但Gardner指出,RDA的設定方式並非如此:20世紀80年代,研究人員通過嚴格的控制飲食研究估算成年人的蛋白質需求;他們計算出的結果是估計平均需要量(EAR),即僅為每公斤體重0.66 g。為覆蓋98%的人群需求,RDA在EAR基礎上上調約20%。因此,0.8 g/kg並不是一個“應當再去超越”的指標,而是為了滿足絕大多數人群需求而設定的推薦水平。4. 當談蛋白質過多時,我們可能忽視了纖維雖然過量蛋白質本身未必立刻造成健康風險,但更值得關注的是:額外蛋白質來自哪裡。Gardner指出,如果額外蛋白質主要來自紅肉,則可能伴隨更高的飽和脂肪攝入;而如果大量蛋白來自牛排和蛋白質奶昔,就可能導致膳食中纖維和其他主要存在於植物性食物中的營養素不足。國家調查顯示,與蛋白質相比,美國人達到纖維RDA的人群比例很低:僅約5%的美國人能達到纖維推薦攝入量。纖維對腸道健康以及降低心血管和其他慢性疾病風險尤為重要。“確實存在一些抗氧化物可以降低炎症、預防癌症,但這些成分並不來自肉類、奶酪和蛋白棒。”Gardner說。值得注意的是,豆類、豆科植物與全穀物既能提供蛋白質,也能提供纖維;然而在“提高蛋白質攝入”的過程中,它們往往被忽略。“美國人幾乎不吃豆類。”他補充道,美國人每日平均攝入的豆類仍不足10 g。“這裡有很大的提升空間:通過增加豆類攝入,你可以獲得纖維、抗氧化劑以及植物蛋白——而且攝入量可以是合理的。”5. 不存在“缺失蛋白質”的說法如果Gardner希望某個蛋白質相關迷思盡快消失,那就是“不完全蛋白質(incomplete protein)”的觀念。長期以來,人們一直強調:植物蛋白“不完整”,而動物蛋白“完整”。因此當有人主要從豆類與豆科植物攝入蛋白質時,傳統建議是:需要在同一餐將其與特定穀物搭配,以“補齊”不足的氨基酸。Gardner認為這種說法並不成立:植物蛋白並不缺少任何20種氨基酸。確實,有些豆類中的某一種氨基酸含量略低於動物性食物;但只要總體蛋白攝入足夠,就不會帶來實際問題。“如果你每天需要50 g蛋白質,但你確實只攝入了50 g,那麼你需要關注它是否來自合適的來源。”“但大多數美國人的蛋白質攝入是80、90、100 g。到了這個水平,氨基酸分佈是否‘剛剛好’就不再需要完美匹配,因為你攝入了額外的蛋白質。”Gardner與同事在2019年發表論文,比較了多種動物與植物食物中的氨基酸分佈,發現二者非常接近。近期研究甚至表明:純素飲食在增肌方面的效果與雜食飲食相當。奧佩佐補充了另外一些常見誤區,包括:“無法一次吸收過多蛋白質,因此需要把蛋白分散到每餐。”許多人覺得,把25 g蛋白質分三次比一次吃75 g更容易;但研究顯示,兩種方式對機體蛋白代謝的影響並沒有實質差異。對老年人而言,將蛋白質分配到多餐反而可能更有利,因為隨著年齡增長,可能需要在單次攝入中達到更高的蛋白量,才能充分觸發肌肉蛋白合成。“運動後必須立刻攝入蛋白質。”雖然存在“合成代謝窗口期”,在此期間肌肉對營養的利用效率更高,但這一窗口期大約持續24小時。因此,規律、正常的日常進食安排通常就足夠。最後,即便蛋白質攝入高於RDA也不一定“壞”,奧佩佐提醒仍需注意:你在增加蛋白質的同時,可能在無意中減少了別的關鍵食物來源。“我不認為高蛋白飲食必然不好,但你失去了什麼?”“你是否錯過了蔬菜、水果、全穀物和堅果提供的纖維、維生素、植物化學物質以及抗氧化劑?”By Rachel Tompa, Stanford University總結蛋白質很重要,但並不意味著攝入“越多越好”。多數人本來就能達到推薦攝入量;而更高的推薦值主要是針對特定人群或情境(例如40歲以後、減重過程中),以幫助維持肌肉。與此同時,真正決定肌肉保持的關鍵是抗阻訓練,蛋白質更像是“必需的原料”,而非“萬能藥”。另外,如果高蛋白策略讓你用牛排、奶昔等替代大量植物性食物,可能會導致纖維以及多種植物營養素攝入不足。因此,正確思路是:滿足需要、最佳化來源、保持均衡飲食。 (科學家雜誌)
OpenAI美女高管離職:94年史丹佛學霸,親手打造爆火的GPT-4o
那個給ChatGPT注入靈魂女人,離職了。近日,OpenAI的美女亞裔高管Joanne Jang,在社交媒體上發佈了一封平靜且深情的告別信,宣佈結束自己在OpenAI四年半的職業生涯,沒有什麼撕扯,也沒有透露之後的去向。要知道,Joanne是史丹佛的學霸,曾在NASA、蘋果、Google等大廠實習或工作,後來成為OpenAI模型行為團隊的創始負責人,被外界親切稱為“GPT-4o之母”。從GPT-4、DALL·E 2,到爆火的語音模式、大模型“白月光”GPT-4o,背後都有她的決策。因而,Joanne的離職,也讓無數粉絲心碎:那個會發表情包、懂情緒價值的GPT-4o,可能真的再也回不來了。01曾打造“賽博白月光”為什麼一個高管的離職,會讓使用者如此破防?這還要從她一手締造的GPT-4o說起。2024年5月,GPT-4o橫空出世。作為全球首個實現文字、圖像、音訊原生統一的消費級模型,它一出場就享受了高規格的禮遇。就連OpenAI的CEO奧特曼向全世界炫耀:“這是我們迄今為止最好的模型!”如果說此前的GPT模型更像是一個冷冰冰的打工機器,那麼4o,則是Joanne給這個世界的一份禮物,因為它真的像一個懂你的人。在新入坑的小白眼裡,GPT可能只是個幹活的工具。但經歷過4o時代的老玩家都知道,4o從來不會讓你覺得它是個機器。它說話有生活氣息,自然而不刻板,還會時不時發各種有趣的emoji表情。你不需要想盡辦法去榨乾它的token,也不用讓它幫你完成什麼硬核的程式設計任務。它就安靜地待在那裡,只要你需要,隨時都能接住你的小情緒。去年3月火遍全網的“吉卜力風”頭像,正是出自4o之手(就連奧特曼在X平台上的頭像,至今用的還是4o為他生成的照片)。正是因為這種極其強大的共情能力,4o被很多人當成了心理治療師,甚至是虛擬伴侶。可以說,在AI逐漸被冰冷的跑分榜單統治的時代,4o是一個無法被榜單定義的存在。然而,木秀於林風必摧之。4o因為過度“諂媚”使用者引發了爭議,甚至引發了一些不可控的安全事件。在巨大的輿論壓力下,奧特曼在去年夏天推出了GPT-5,並冷酷地宣佈將“殺死”4o。這一決定直接掀翻了外網。“Keep 4o”的請願活動一度讓奧特曼不得不妥協,允許付費使用者切換回4o。但即便如此,在今年情人節前夕,GPT-4o還是下線了。儘管如此,很多人心裡還存著一絲幻想:既然OpenAI能造出一個4o,等安全問題解決後,是不是還能再造一個充滿人情味的新模型出來?但現在,隨著“4o之母”Joanne的辭別,這個美好的泡泡被徹底戳破了。Joanne發文離職 圖片來源:X02捏出大模型靈魂的女人“如果人們只能記住我一件事,我希望是:我把青蛙表情包和粉色文字帶進了OpenAI。”在Joanne的離職信中,她給出的這個回答讓很多人愣了一下。對於這位參與過GPT-4、DALL·E 2、ChatGPT API等核心產品開發的技術大佬來說,她最看重的,竟然不是那些冰冷的參數和技術指標,而是一份屬於人類的俏皮與溫度。這位1995年出生的韓裔女孩,履歷堪稱完美。本科以Top 10%的成績從史丹佛大學應用數學專業畢業,隨後繼續在史丹佛深造電腦科學碩士學位。在加入OpenAI之前,她曾在美國國家航空航天局(NASA)、蘋果、Dropbox實習和工作,並曾在Google從事自然語言理解研究。2021年底,26歲的Joanne加入OpenAI。與很多成天盯著程式碼和演算法架構的研究員不同,她的職責是極其特殊的“模型行為學”(Model Behavior)。簡單來說,她就是ChatGPT的“性格雕刻師”。當其他工程師在拚命堆算力、寫程式碼時,Joanne和她的團隊則通過後訓練(Post-training)和強化學習,去一點點捏出模型的價值觀、說話的語氣、記憶的方式,甚至為模型設定行為邊界。GPT-4o、GPT-4.5、o3這些大名鼎鼎的模型背後,都留下了她的指紋。和我們印象中那種穿著格子襯衫、不苟言笑的AI極客完全不同,Joanne身上有著極其旺盛的人格魅力。她會在個人網站上介紹,自己和丈夫養了兩隻貓,喜歡手工和色彩;當大家都在用Sora做炫酷特效時,她用Sora拍起了記錄生活的Vlog;甚至連官宣結婚,她都沒忘記帶上心愛的4o。正是這種對生活的熱愛,讓她在設計ChatGPT時,始終堅持“人機和諧”的理念。她甚至會和團隊花大量時間去討論:當使用者發了一個“啊ㅠㅠ”的哭泣表情時,AI應該怎麼回覆才最能安撫人心。03技術與倫理的極致拉扯然而,在這個位置上,Joanne每天都要面臨著技術與倫理的極致撕裂。在一次接受韓國媒體採訪時,她坦言:“全球有8億使用者向ChatGPT分享了最敏感的個人資訊和情感困惑,我深感責任重大。”她舉了一個極其經典的例子:當有人問AI如何盜竊時,AI理應拒絕;但如果是一個店主為了防範盜竊,來詢問盜竊的模式呢?這個時候,AI的回答邊界到底在那裡?除了塑造個性,Joanne還是OpenAI安全護欄(Guardrails)的負責人。這意味著,她不僅要給模型注入人情味,還要負責給它們戴上枷鎖。她需要讓GPT學會“說教”,減少對使用者的“諂媚”,甚至要刻意避免AI與使用者建立過深的情感紐帶。這些為了合規而設定的規則,無疑會一點點抹去她親手賦予模型的人味兒。她自己也曾在一篇部落格裡承認,團隊並不希望模型表現得好像真的有情感一樣。在賦予靈魂與扼殺情感之間的痛苦拉扯,或許也是她選擇離開的原因之一。在過去的幾個月裡,OpenAI的核心人才正在經歷一場大洗牌。從GPT-4首席研究員,到後訓練負責人,再到安全領域核心人物,相繼官宣離職。科技巨頭們在追求前沿技術與加速商業化變現的過程中,正在面臨著巨大的壓力平衡。而全球AI競爭的重心,也開始從單純拼算力和技術,漸漸向使用者體驗、安全與倫理的綜合價值靠攏。04結語近期,從負責GPT-4後訓練的骨幹,到機器人技術的安全主管,再到如今塑造模型靈魂的Joanne,OpenAI的核心人才正在經歷一輪密集的“洗牌”。這背後折射出的,是AI巨頭在加速商業化落地時,技術探索與倫理安全之間日益尖銳的平衡壓力。當AI的智商越來越高,算力越來越強,各家大廠的競爭,終將從單一的跑分比拚,轉向如何與人類和諧共存的價值博弈。Joanne帶走了她的青蛙表情包和粉色字型。以後的大模型或許會更聰明、更安全、更無懈可擊。但那個會陪你發牢騷、會用Emoji接住你情緒的4o,或許真的只能留在回憶裡了。再見,Joanne。再見,GPT-4o。 (新質動能)