#參數
前Google CEO 施密特:AI 像電與火,這 10 年決定未來 100 年
2025 年,AI 世界正被無形的張力撕扯:一邊是模型參數的激增,一邊是系統資源的極限。大家都在問:GPT-5、Claude 4、Gemini 2.5 誰更強?但前Google CEO Eric Schmidt (埃裡克·施密特) 在 2025 年 9 月 20 日的公開演講中提出了更深層的洞察:“AI 的到來,在人類歷史上,等同於火、電的發明。而接下來的 10 年,將決定未來 100 年的格局。”他不是在講模型性能,也不是 AGI 的遠近,而是在說:AI 不再是提升工具效率,而是重新定義商業運作方式。與此同時,在矽谷知名投資機構 a16z 的一場對話中,晶片分析師 Dylan Patel 指出:“誇張的說,現在搶 GPU 就像搶‘毒品’一樣,你要托關係、找管道、搶配額。但這不是重點,真正的競爭是誰能建構出支撐 AI 的一個完整體系。”兩人的觀點指向同一個發展趨勢:參數不是邊界,電力是邊界;模型不是護城河,平台才是護城河;AGI 不是目的,落地才是關鍵如果說過去三年,AI 的主線是能力爆發;那接下來十年,主線就是基礎建設。第一節|AI 不再是工具升級,而是系統重構在這場對話裡,Eric Schmidt 開門見山地說:“AI 的到來在人類歷史中,和電、火的發明處於同一等級。”他不是在強調 AI 有多聰明,而是在提醒大家:我們熟悉的工作方式、管理模式、賺錢方法,都可能要徹底改變。不是讓 AI 幫你寫得更快, 而是讓 AI 決定該怎麼寫。Schmidt 說,現在最強的 AI 工具,已經不再是一個助手了,而是正在變成:一種全新的基礎設施,就像電網一樣,成為所有組織的標準配置。這一句話,直接顛覆了過去幾年人們對 AI 的看法。換句話說,這不是個人技能提升或團隊效率最佳化,而是整個組織運轉方式的根本改變:決策方式變了,AI 參與思考;寫作、程式設計、客服、財務都有了 AI 搭檔;資料輸入、結果評估、反饋機制都被 AI 重新設計。這種全面的組織變革讓 Schmidt 意識到,不是預先制定詳細流程,而是在實際應用中讓 AI 逐步適應和最佳化。據他介紹,自己目前參與的幾家創業公司都採用了這種方法,不是先做完整規劃,而是讓 AI 直接參與工作,在實踐中不斷調整和完善。所以他講的,不是模型更強了,而是組織要不要轉向 AI 原生的新形態。AI 正在從工具,變成企業營運的基礎設施。第二節|限制 AI 發展的,是電力過去我們總以為,AI 的能力發展,會被技術卡住:晶片性能不夠,模型算不動;演算法太複雜,推理速度太慢。但 Eric Schmidt 說,真正限制 AI 發展的不是技術參數,而是電力供應。他提到一個具體資料:“到 2030 年,美國需要新增 92GW 電力,才能支撐資料中心的需求。”什麼概念?一個大型核電站,功率也不過 1 到 1.5GW。92GW,相當於幾十座核電站的發電量。現實卻是:美國當前在建核電站,基本是零。這意味著,未來問題不是模型技術不夠先進,而是電力供應跟不上訓練需求。Schmidt 甚至對國會說過一個令人意外的例子:他們可能需要在海外訓練美國自己的模型,比如在中東國家的發電基地。(Sam Altman 剛剛發佈部落格:《智能時代的無限可能》)這種對電力的渴求並非危言聳聽。就在 9 月23 日,OpenAI CEO Sam Altman 剛剛發佈部落格,提出了一個更激進的方向:我們希望建造一種工廠,每周新增 1GW 的 AI 算力設施,用電規模堪比一座城市。他明確指出,這將需要晶片、電力、機器人、建築等多個系統的協同突破。用他的話說:“一切都始於計算。”Altman 的這個目標,不是遠景展示,而是正在佈局的基礎建設。它正是 Schmidt 所說“AI 將成為新電網”的現實化路徑。事實上:模型訓練本身並不貴,真正的成本是電力消耗、執行階段間和裝置維護。隨著推理任務越來越多,生成內容越來越複雜(圖像、視訊、長文字),AI 工廠的電量需求正變成新的算力瓶頸。Dylan Patel 在另一場對話中也提到,搭建 AI 系統時,不僅要考慮晶片有多快,還要考慮散熱、電費、穩定性。他說得更形象:“AI 工廠不是買一堆 GPU 就行,還要考慮電能調度和持續運行能力。”所以這不是晶片問題,而是電力跟不跟得上的問題。而當電力無法滿足時,連鎖反應就來了:模型不能訓練;推理成本升高;AI 工具無法大規模部署;最終失去落地的可能性。Schmidt 認為,基礎設施跟不上是目前 AI 落地面臨的最大現實挑戰。沒有足夠能源支撐,再領先的模型能力也用不起來。因此,AI 的下一個戰場不在實驗室,而在發電廠。第三節|不是誰有晶片,而是誰能把它們用起來而即便電力解決了,問題還沒完。你真的能把這些晶片、模型、任務,全都運行起來嗎?很多人以為,只要拿到 H100、B200 這些最先進的晶片,AI 工廠就建成了。但 Dylan Patel 一上來就潑了冷水:“現在 GPU 非常緊缺,要發簡訊到處問'你有多少貨?什麼價格?”他接著說:“但光有晶片還不夠。核心是要讓它們有效協作。”也就是說,晶片本身只是一個部件,真正決定 AI 工廠能否持續運行的,是你有沒有能力把這些晶片整合起來運行。他將這種整合能力分為四個層面:算力底座:GPU、TPU 等硬體基礎;軟體棧:訓練框架、調度系統、任務分配器;冷卻與電力管理:不只是有電,還要把溫度、負載、電費控制好;工程能力:誰來最佳化模型、調優算力、控製成本。這就是 Dylan 所說的“AI 工廠”的核心:AI 工廠不是一個模型、也不是一張卡,而是一整套連續的工程調度能力。你會發現,AI 工廠不僅需要大量算力,更需要複雜的工程配合:一堆 GPU 是“原材料”;軟體調度是“控制室”;冷卻和電力是“水電工”;工程團隊是“維修組”。簡單來說,重心已經從“造模型”轉向了“建基礎設施”。Dylan 觀察到一個有趣的現象:你看現在的晶片公司,不只是賣卡了,而是開始“包施工”了。Nvidia 開始幫客戶整合伺服器、配置冷卻、搭建平台,自己就成了平台。(圖源:路透社報導)這場訪談發佈的同一天,Nvidia 與 OpenAI 公佈了一項未來合作意向:Nvidia 將為 OpenAI 提供最多 10GW 等級的資料中心資源,投資規模可能達到數 1000 億美元。Sam Altman 在聲明中說了一句話,恰好印證了上面這個邏輯:計算基礎設施將是未來經濟的基礎。Nvidia 不只是賣卡、供晶片,更是和他們一起部署、建設、營運整個 AI 工廠。這說明了一個趨勢:真正有能力形成閉環的,不是最聰明的人,而是最懂如何落地的人。也就是:能造出模型,是一回事;能讓模型每天穩定運行,是另一回事。AI 不再是買來就能用的產品,而是需要持續營運的複雜工程系統。關鍵是你有沒有長期營運這套系統的能力。第四節|AI 能力擴散成趨勢,競爭焦點在那?當大家還在爭奪營運能力時,新的變化已經出現了。AI 模型做得越來越好,越來越聰明,但 Eric Schmidt 提了個警告:“我們無法阻止模型蒸餾。幾乎任何一個能訪問 API 的人,都能複製它的能力。”什麼是蒸餾?簡單說:大模型雖然能力強,但部署成本太高;研究者會用它來訓練一個小模型,讓小模型模仿它的思考方式;成本低、速度快、精度高、難以追蹤。就像你沒辦法複製一個頂級廚師,但可以通過他做出來的菜,教會另一個人做出八成相似的效果。問題就來了:能力越容易被轉移,模型本身越難被限制。(Dylan Patel,知名晶片行業分析師,專注AI基礎設施研究)Dylan Patel 也提到一個行業趨勢:現在蒸餾成本,只佔原始訓練的 1% 左右,卻能復現原模型 80-90% 的能力。即使 OpenAI、Google、Anthropic 把模型保護得再嚴密,也擋不住有人通過蒸餾獲得相似能力。以前大家比的是誰更強;現在開始擔心誰還控制得住?Schmidt 在訪談裡說:最大的模型將永不開放。而小模型的擴散,將不可避免。他不是在鼓吹封閉,而是在提醒一個現實:技術擴散的速度,可能遠快於治理跟上的節奏。舉個例子,現在已有不少團隊用 GPT-4 的 API,去蒸餾出一個 GPT-4-lite:成本低,易部署;基本對外沒有明確標識;使用者用起來感覺幾乎一樣。這就帶來一個難題:模型的能力,可能會像“空氣”一樣擴散;但模型的源頭、責任歸屬、使用邊界,都很難界定清楚。Schmidt 真正擔心不是模型太強,而是:“當越來越多的模型具備強能力,卻不受監管、難以溯源、責任不清,我們該如何確保 AI 的可信度?”這種現像已經不是假設,而是當前的現實。隨著 AI 能力擴散已經成為不可逆轉的趨勢。單純擁有先進模型不再是護城河。競爭的焦點已經轉向了如何更好地運用和服務這些能力。第五節|平台的關鍵,是越用越準所以最終,比能不能造出來更重要的是:你能不能建構出一個越用越好的平台?Eric Schmidt 給出了他的答案:“未來成功的 AI 公司,不只拼模型性能,更要拼持續學習的能力。”通俗說就是:你不是一次性做出一個產品就完事,而是建一個平台,讓它用得越多越聰明、越用越好用、越用越穩定。他進一步解釋:平台的核心不是功能,而是讓別人離不開你。比如:電網不是因為燈泡亮,而是因為能讓所有燈都亮;作業系統不是因為功能多,而是能讓一批應用穩定運行;AI 平台也一樣,不是做出某個智能助手,而是讓別的團隊、使用者、模型都能接入、呼叫、增強。AI 平台不是某個功能,而是一套持續運轉的服務網路。他還建議年輕創始人:不要只問這個產品做得完美不完美。要看它有沒有形成一條“用 → 學 → 最佳化 → 再用”的路徑。因為:能持續學習的平台,才有長期生存的可能。Dylan Patel 補充說,這其實也是 Nvidia 成功的路徑。黃仁勳做了三十年 CEO,靠的不是運氣,而是不斷把晶片和軟體綁成閉環:客戶用得越多,他就越瞭解客戶想要什麼;越瞭解需求,產品就越好用;產品越好用,客戶就越難放棄。這樣就形成了良性循環,越用越值。不是“發佈即巔峰”,而是能夠持續成長的平台。Schmidt 總結得很清晰:你能不能建構出這樣一個增長機制?一開始可能很小,但它能不斷適應、不斷擴展、不斷更新?他對未來 AI 平台成功者的判斷是:不是你寫了什麼程式碼,而是你能不能讓一個平台活下來,而且越活越強。結語|誰先形成閉環,誰贏未來Eric Schmidt 在訪談中說:“AI 就像電與火,這 10 年,將決定未來 100 年。”AI 的能力已經準備好了,但往那走、怎麼搭、怎麼用還沒想清楚。現在的重點不是等下一代模型,而是把現有 AI 用起來、用得好。別總想著 GPT-6/DeepSeek R2 什麼時候出,先把手頭的工具在客服、寫作、資料分析等場景中跑通。讓 AI 能 24 小時穩定工作,而不是只在發佈會上驚豔一下。這不是聰明人的比賽,而是執行力的較量。誰能率先把 AI 從實驗室帶到現實,誰就掌握了未來十年的主動權。而這場“閉環之爭”,從現在就已經開始。 (AI深度研究員)
阿里全新AI晶片曝光:重要參數與H20相當!
9月16日晚間,央視《新聞聯播》節目報導了“中國聯通三江源綠電智算中心項目建設成效”,其中就披露了阿里旗下平頭哥最新研發的面向人工智慧的PPU晶片,其各項主要參數指標均超越了輝達A800,與H20相當。在該報導當中,央視介紹了阿里平頭哥、沐曦股份、摩爾執行緒、壁仞科技、中昊芯英、太初元碁、燧原科技等多個國產AI晶片品牌的已簽約或擬簽約情況。其中,已簽約項目包括:阿里云:總計1024台裝置、16384張平頭哥算力卡、算力達1945P;中科院:總計512台裝置、4096張沐曦算力卡、算力達984P;北京京儀:總計83台裝置、1328張壁仞算力卡、算力達450P;中昊芯英:總計128台裝置、算力達200P。已簽約項目共計:1747台裝置、22832張算力卡,總算力達3479P。此外,擬簽約項目總的算力為2002P,包括了太初元碁、燧原科技、摩爾執行緒的算力卡。而根據央視曝光的一幅關於“國產卡與NV卡重要參數對比”畫面顯示,平頭哥PPU的視訊記憶體為96GB的HBM2e,高於輝達A800的80GB HBM2e,與輝達H20的視訊記憶體容量一致,不過H20整合的是HBM3,領先一代;片間互聯頻寬高達700GB/s,也高於A800的400GB/s,略低於H20;介面方面則支援PCIe 5.0×15,也優於A800的PCIe 4.0×16,與H20一致;在功耗方面,則保持了與輝達A800一致為400W,低於H20的550W。而與其他國產AI晶片相比,平頭哥PPU在這些指標方面也大多處於領先地位。不過,對於平頭哥PPU的具體計算性能,央視曝光的畫面中並未披露,猜測有可能略低於H20。如果關於阿里自研PPU晶片應用於輕量級AI模型的訓練的消息屬實的話,那麼也足以反應其綜合性能已經達到了可以部分替代輝達H20的程度。其實,早在今年8月底之時,《華爾街日報》就曾報導稱,阿里巴巴正在開發一款新的面向人工智慧的PPU晶片,意在填補輝達在中國市場的空白。這款晶片已進入測試階段,主要面向更廣泛的AI推理任務,並與輝達的架構相容。近期還有報導稱,阿里自今年初以來已將自研PPU晶片應用於輕量級AI模型的訓練,部分替代了部分輝達的GPU晶片。 (芯智訊)
晶圓級晶片,是未來
今天,大模型參數已經以“億”為單位狂飆。僅僅過了兩年,大模型所需要的計算能力就增加了1000倍,這遠遠超過了硬體迭代的速度。目前支援AI大模型的方案,主流是依靠GPU叢集。但單晶片GPU的瓶頸是很明顯的:第一,單晶片的物理尺寸限制了電晶體數量,即便採用先進製程工藝,算力提升也逐漸逼近摩爾定律的極限;第二,多晶片互聯時,資料在晶片間傳輸產生的延遲與頻寬損耗,導致整體性能無法隨晶片數量線性增長。這就是為什麼,面對GPT-4、文心一言這類兆參數模型,即使堆疊數千塊輝達 H100,依然逃不過 “算力不夠、電費爆表” 的尷尬。目前,業內在AI訓練硬體分為了兩大陣營:採用晶圓級整合技術的專用加速器(如Cerebras WSE-3和Tesla Dojo)和基於傳統架構的GPU叢集(如輝達 H100)。晶圓級晶片被認為是未來的突破口。01晶圓級晶片,兩大玩家在常規的晶片生產流程中,一個晶圓會在光刻後被切割成許多小裸片(Die)並且進行單獨封裝,每片裸片在單獨封裝後成為一顆完整的晶片。晶片算力的提升方式,是依靠增加晶片面積,所以晶片廠商都在不斷努力增加晶片面積。目前算力晶片的單Die尺寸大約是26x33=858mm2,也就是接近曝光窗大小,但是晶片的最大尺寸無法突破曝光窗的大小。曝光窗大小多年來一直維持不變,成為了制約晶片算力增長的原因之一。晶圓級晶片則提供了另一種思路。通過製造一塊不進行切割的晶圓級互連基板,再將設計好的常規裸片在晶圓基板上進行整合與封裝,從而獲得一整塊巨大的晶片。未經過切割的晶圓上的電路單元與金屬互連排列更緊密,從而形成頻寬更高、延時更短的互連結構,相當於通過高性能互連與高密度整合建構了更大的算力節點。所以,相同算力下,由晶圓級晶片建構的算力叢集佔地面積對比GPU 叢集能夠縮小 10-20 倍以上,功耗可降低 30% 以上。全球有兩家公司已經開發出了晶圓級晶片的產品。一家是Cerebras。這家企業從2015年成立,自2019年推出了WES-1,之後經過不斷迭代,目前已經推出到第三代晶圓級晶片——WES-3。WES-3採用台積電5nm工藝,電晶體數量達到誇張的4兆個,AI核心數量增加到90萬個,快取容量達到了44GB,可以支援高達 1.2PB 的片外記憶體。WES-3的能力可以訓練比GPT-4和Gemini大10倍的下一代前沿大模型。四顆並聯情況下,一天內即可完成700億參數的調教,支援最多2048路互連,一天便可完成Llama 700億參數的訓練。這些都是整合在一塊215mm×215mm=46,225mm2的晶圓上。如果這個對比還不夠明顯,那可以這麼看:對比輝達H100,WES-3的片上記憶體容量是 H100的880倍、單晶片記憶體頻寬是H100的7000倍、核心數量是H100的52倍,片上互連頻寬速度是H100的3715倍。另一家是特斯拉。特斯拉的晶圓級晶片被命名為Dojo。這是馬斯克在2021年就開始的嘗試。特斯拉Dojo的技術路線和Cerebras不一樣。是通過採用Chiplet路線,在晶圓尺寸的基板上整合了 25 顆專有的 D1 芯粒(裸Die)。D1芯粒在645平方毫米的晶片上放置了500億個電晶體,單個芯粒可以提供362 TFlops BF16/CFP8的計算能力。合起來的單個Dojo擁有9Petaflops的算力,以及每秒36TB的頻寬。特斯拉的Dojo系統專門針對全自動駕駛(FSD)模型的訓練需求而定製。思路是從25個D1芯粒→1個訓練瓦(Training Tile)→6個訓練瓦組成1個托盤→2個托盤組成1個機櫃→10個機櫃組成1套ExaPOD超算系統,能夠提供1.1EFlops的計算性能。02晶圓級晶片與GPU對比既然單晶片GPU和晶圓級晶片走出了兩條岔路,在這裡我們以Cerebras WSE-3、Dojo 和輝達 H100為例,對比一下兩種晶片架構對算力極限的不同探索。一般來說AI 訓練晶片 GPU 硬體的性能通過幾個關鍵指標進行評估:每秒浮點運算次數(FLOPS) ,表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力的強弱。記憶體頻寬,決定了訪問和處理資料的速度,直接影響訓練效率。延遲和吞吐量,能夠評估GPU處理巨量資料負載和模型平行性的效率,從而影響即時性能。算力性能Cerebras WSE-3 憑藉單片架構,在 AI 模型訓練中展現獨特潛力。一般來講,每秒浮點運算次數(FLOPS) 能夠表明GPU 在深度學習中必不可少的矩陣密集型運算中的原始計算能力。WSE-3 的 FP16 訓練峰值性能達到 125 PFLOPS,支援訓練高達 24 兆參數的 AI 模型,且無需進行模型分區處理。這個功能就特別適合以精簡高效的方式處理超大模型。與依賴分層記憶體架構(可能造成處理瓶頸)的傳統 GPU 不同,WSE 的設計使850 個核心可獨立運行,並直接訪問本地記憶體,這樣就有效提升了計算吞吐量。在這方面,輝達H100採用的是模組化和分佈式方法。單個 H100 GPU 可為高性能計算提供 60 TFLOPS FP64 計算能力,八個互連的 H100 GPU 組成的系統,可實現超 1 ExaFLOP 的 FP8 AI 性能。但分佈式架構就存在資料傳輸問題,雖然NVLink 和 HBM3 記憶體能降低延遲,但在訓練超大型模型時,GPU 間通訊仍會影響訓練速度。在AI訓練的表現中,Cerebras WSE-3會更加擅長處理超大型模型。2048個WSE-3系統組成的叢集,訓練Meta的700億參數Llama 2 LLM僅需1天,相比Meta原有的AI訓練叢集,速度提升達30倍。延遲與吞吐量從資料傳輸來看,WSE-3 的單片架構避免了多晶片間的資料傳輸,顯著降低延遲,支援大規模平行計算和核心間低延遲通訊。速度快是單片的優勢,與傳統GPU 叢集相比,WSE-3 可將軟體複雜度降低高達 90%,同時將即時 GenAI 推理的延遲降低 10倍以上。特斯拉Dojo Training Tile屬於晶圓級整合,當然也能夠大幅降低通訊開銷。由於是從Die到Die之間傳遞,在跨區塊擴展時仍會產生一定延遲。目前,Dojo 能實現 100 納秒的晶片間延遲,並且針對自動駕駛訓練最佳化了吞吐量,可同時處理 100 萬個每秒 36 幀的視訊流。輝達H100基於 Hopper 架構,是目前最強大的AI訓練GPU之一,配備18,432個CUDA 核心和640個張量核心,並通過NVLink和NVSwitch系統實現GPU間高速通訊。高速通訊。雖然多 GPU 架構具備良好擴展性,但資料傳輸會帶來延遲問題,即便NVLink 4.0 提供每個GPU 900 GB/s的雙向頻寬,延遲仍高於晶圓級系統。儘管能夠憑藉著架構特性實現單晶圓工作負載的低延遲和高吞吐量,但晶圓級系統如WSE-3 和 Dojo面臨著可擴展性有限、製造成本高和通用工作負載靈活性不足的問題。誰更划算?從硬體購置成本來看,不同晶片的價格因架構和應用場景而異。據報導,特斯拉單台Tesla Dojo 超級電腦的具體成本估計在3 億至 5 億美元之間。技術路線上,Dojo採用的是成熟晶圓工藝再加上先進封裝(採用了台積電的Info_SoW技術整合),去實現晶圓級的計算能力,能夠避免挑戰工藝極限。這既能保證較高的良品率,又便於實現系統的規模化生產,芯粒的更新迭代也更為輕鬆。Cerebras WSE 系統則因先進的製造工藝與複雜設計,面臨較高的初期研發和生產成本。據報導,Cerebras WSE-2 的每個系統成本在 200 萬至 300 萬美元之間。相比之下,輝達單GPU的採購成本比較低。以輝達A100來說,40GB PCIe型號價格約 8,000 - 10,000美元,80GB SXM型號價格在18,000 - 20,000美元。這使得許多企業在搭建 AI 計算基礎設施初期,更傾向於選擇輝達GPU。不過,輝達GPU在長期使用中存在能耗高、多晶片協作性能瓶頸等問題,會導致營運成本不斷增加。總體來看,雖然WSE-2能為超大規模AI模型提供超高計算密度,但對於需要在大型資料中心和雲服務中部署多GPU可擴展方案的機構,A100的成本優勢更為明顯。03結語常規形態下,叢集算力節點越多,則叢集規模越大,花費在通訊上的開銷就越大,叢集的效率就越低。這就是為什麼,輝達NVL72 通過提升叢集內的節點整合密度(即提高算力密度)。在一個機架中整合了遠超常規機架的 GPU 數量,使得叢集的尺寸規模得到控制,效率才能實現進一步提升。這是輝達權衡了良率和成本之後給出的解決方案。但是如果輝達繼續按照這種計算形態走下去,想要進一步提升算力密度,就會走到晶圓級晶片的路上。畢竟,晶圓級晶片的形態是目前為止算力節點整合密度最高的一種形態。晶圓級晶片,潛力無限。 (半導體產業縱橫)
學者觀點 | 耶魯大學陳曉紅:非參數過度識別、有效學習與檢驗在GAI時代的重要性
2025年5月28日,美國藝術與科學學院院士、耶魯大學Malcolm K. Brachman 經濟學教授陳曉紅受邀蒞臨北京大學光華40年“頂尖學者學術講堂”,分享了她的研究On Local Over-identification and Semiparametric Efficiency in Potential Outcome Casual Models與Efficient Difference-in-Differences and Event-Study Estimators。她結合巨量資料與機器學習技術對傳統經濟學研究的衝擊,系統地揭示非參數過度識別模型在提升因果推斷效率與檢驗效能中的重要作用,為生成式人工智慧(GAI)時代的複雜經濟分析提供了新範式。北京大學光華管理學院商務統計與經濟計量系主任、教授虞吉海主持了本次活動。非參數過度識別、有效學習與檢驗在GAI時代的重要性陳曉紅在經濟學研究中,建立經濟因果分析模型並結合資料進行分析是非常關鍵的。僅憑觀察資料,如果缺乏有效的經濟模型,通常只能得到變數之間的相關性,而非因果關係。例如,增加從中國進口是否導致了美國失業率的上升,僅靠資料關聯並不能提供明確的因果推斷。在統計學上,一個模型是對隨機變數機率分佈的集合,由未知參數所標識。根據參數的維度特徵,這些模型可分為參數模型(參數維度有限)、非參數模型(參數維度無限)、半參數模型(興趣參數維度有限,但干擾參數維度無限)和半非參數模型(同時包含有限維度和無限維度的興趣參數)。半非參數模型具有更多優勢,既能避免完全參數化模型的函數形式錯誤,又能比完全非參數模型提供更有資訊量的估計與推斷。同時,半非參數模型還支援過度識別的模型設定檢驗。具體而言,非參數模型中,特別是非參數工具變數(NPIV)模型,涉及內生變數與工具變數,通過非參數形式確定因變數與工具變數之間的關係。Chen and Santos (2018)提出了局部過度識別的定義,認為過度識別是經濟計量模型獲得有效估計量的重要條件,同時也是建構非平凡模型檢驗的基礎。與經典的廣義矩估計(GMM)模型不同,NPIV模型因其參數與約束的無限維特性,無法用傳統的計數法確定過度識別或恰好識別,因此需要新的局部過度識別定義。Chen and Santos (2018)進一步指出,模型的局部過度識別性決定了模型的有效性。局部恰好識別模型中的不同漸近線性且正則的估計量在一階上是等價的,這意味著在此情況下不存在有效性增益,同時所有規範檢驗的局部功效都是平凡的。相反,局部過度識別的模型中存在顯著的有效性增益和非平凡的檢驗,這體現了經濟模型設計中的效率和檢驗能力之間的本質聯絡。以典型的因果推斷模型為例,如未混淆模型(unconfoundedness),模型僅為全域恰好識別模型,因此不存在效率增益。Hahn (1998)與Hahn and Ridder (2013)分別提出了非參數插補法與傾向得分匹配法,都能達到半參數效率界。然而,當傾向得分已知時(如隨機實驗),模型變為局部過度識別,但效率界並未改變。這種情況反映出,在特定條件下,模型的識別狀態並不一定影響效率界。差異中的差異(DiD)模型在兩期資料情境下,雖然是全域恰好識別模型,但在多期或交錯處理情境下,可能出現局部過度識別的情況,從而獲得顯著效率增益與非平凡的檢驗能力。特別地,現代DiD方法經常涉及多個處理時期與交錯處理採用,揭示模型中潛在的局部過度識別性質,從而允許更有效的估計與更嚴格的檢驗。多期資料的引入意味著可以更有效地利用歷史資料,這為提升估計的精準性和檢驗的可靠性提供了可能。在工具變數(IV)模型中,局部識別狀況取決於模型設定中的約束條件是否緊密。當約束條件在一定測度集合上嚴格成立時,局部模型為過度識別,從而允許更有效的估計策略。若約束條件並不嚴格,則模型是局部恰好識別,不存在效率增益空間。因此,對約束條件的嚴格性分析是IV模型應用中的重要步驟。因此,我們發現傳統因果推斷中的局部過度識別通常是由模型中的干擾參數如傾向得分等的參數化模型得到。首先,這類參數化模型往往是缺乏理論與實踐依據的,其造成的過度識別並非研究者所希望利用的。其次,在當前機器學習方法流行的背景下,此類參數模型已不再被廣泛使用,因為研究者可以使用各類機器學習方法進行非參數的估計。現代因果推斷文獻通常使用潛在結果框架與機器學習方法,這些模型多數為局部恰好識別。因此,不同的漸近線性與正態估計量通常在一階漸近意義上等價,也不存在有效性上的顯著區別。這限制了這些模型在規範檢驗與效率增益上的可能性。而傳統的參數化結構模型則允許明確的過度識別設定,從而可以實現顯著的效率提升與建構非平凡的檢驗。這提示我們在現代分析框架下也應更多關注模型的過度識別問題,以提高分析的穩健性與效率。Chen et al. (2025)提出了一種高效的差異中的差異(DiD)與事件研究(Event-study)估計方法。差分-差分(DiD)和事件研究(ES)是計量經濟學中應用最廣的因果推斷工具。最新統計顯示,2024 年 NBER 應用微觀經濟學工作論文中逾三成使用 DiD 或 ES,比任何其他方法都多,且這兩種設計在金融學、宏觀經濟學中亦日益普及。儘管近期理論進展提高了 DiD 在處理異質處理效應時的穩健性,若干關鍵計量問題仍未充分解決。第一,研究者常將所有處理前時期視為等價資訊,或乾脆丟棄;此做法缺乏理論與實證依據,易導致精度損失。第二,現代DiD 雖能容納豐富的處理效應異質性,其有限樣本功效尚無系統評估;靈活性是否必然犧牲檢驗力,尤其相較傳統雙向固定效應,仍屬未知。第三,實務中常並列報告多種 DiD、ES 結果,但缺乏正式準則判斷它們是否依賴相同識別假設、針對同一因果參數。文章提出統一框架,在“平行趨勢+無預期”假設下,對 DiD 與 ES 進行半參數效率分析和比較。(1)以觀測變數聯合分佈約束方式重述 DiD 識別;(2)在單次處理與階梯式處理、含或不含協變數的多場景下推導半參數效率界;(3)證明要達效率上界,必須對處理前時期與未處理組進行非均勻加權;(4)指出即便在最簡單設計中,效率提升亦具有重要實證意義。我們證明 DiD 模型在非參數意義下通常過度識別,可利用額外矩條件提高效率。在“大n、固定T”框架下,文章基於有效影響函數建構封閉式估計量,其權重與各比較組及各處理前時期的(條件)協方差成比例,天然滿足 Neyman 正交,便於與機器學習配合。若假設參數化工作模型,估計量仍具雙穩健性,可容忍適度模型誤設。效率界揭示:等權使用全部前期或僅選最後一期做基線通常都非最優;應根據資訊量差異,以協方差驅動的權重聚合不同時間點與組別。我們提供圖形化工具展示權重幾何結構,幫助研究者直觀理解效率來源;這些權重完全由效率理論匯出,而非主觀設定。此外,文章提出無需附加同方差或弱序列相關等強假設的非參數Hausman 類檢驗,用於檢測是否應排除某些前期基線或比較組,並給出可視化方案評估結果對識別假設的敏感度。通過基於CPS 與 Compustat 資料的模擬及一項住院與醫療支出再分析,我們展示框架的實際收益:在單次與階梯處理場景中,新估計量的均方誤差與置信區間寬度顯著下降,精度常提升逾 40%;要達到同等精度,傳統估計量需增加至少 30% 樣本量。結果強調:讓估計策略契合識別假設蘊含的資訊結構,可顯著改善推斷效果。文章與現有多時期、非同步處理的DiD 估計量互補。傳統雙向固定效應在異質效應下易混合權重,解釋困難;對時間或組別加總的簡化假定亦損失效率。我們的效率界為評估各法提供統一標尺,幫助研究者在設計時權衡效率與穩健性。對小樣本、動態效應或高維協變數場景,文章方法尤為合適,因為它在不加額外強假設的情況下充分利用資料資訊。框架也可作為其他識別策略(如合成控制)的比較基準。文章系統刻畫 DiD 與 ES 的識別資訊,提出達到資訊極限的估計量,並配套簡便的檢驗與可視化工具,為實踐提供精度更高的新途徑。未來研究方嚮應進一步探索如何在更多經濟情境下實現模型的局部過識別,以充分利用資料的潛在資訊並提高分析的有效性。此外,對不同模型設定下的有效性界限進行深入探討,並提出更加靈活和強大的檢驗方法,能夠更好地適應複雜的現實經濟情境。綜上所述,隨著經濟計量學與人工智慧的結合不斷加深,在GAI時代背景下,非參數過度識別與有效學習的重要性愈發凸顯。這不僅能提升模型估計的效率和精準性,也為未來的因果推斷與政策分析提供了更為堅實的理論基礎與方法支援。 (經濟管理學刊)
重磅開源!輝達團隊推出Eagle 2.5,8B參數性能叫板GPT-4o,附帶全新資料集
今天,輝達、南京大學、香港理工大學、羅格斯大學團隊合作推出一項最新成果:Eagle 2.5,簡單來說這是一種用於長上下文多模態學習的視覺語言模型(VLM),為現有VLM打破侷限性提供了一個創新解決方案。為了應對行業中長視訊理解和高解析度圖像理解方面的挑戰,輝達團隊引入了適用於這兩項任務的一種通用框架,該框架還在長上下文資料訓練的流程中納入了多項效率最佳化措施。從測試結果來看,Eagle 2.5在長上下文多模態基準測試中展現了顯著的性能,測試版本Eagle 2.5-8B在512個輸入幀的Video-MME上實現了72.4%的成績,與GPT-4o等頂級商業模型媲美,現已在開源社區上線。3點創新提升性能戰績關於Eagle 2.5,輝達團隊總結了三點關鍵創新:1、資訊優先採樣。圖像區域保留(IAP):最佳化圖像平鋪以保留大部分原始圖像區域和縱橫比,保留細粒度的細節;自動降級採樣(ADS):動態平衡視覺和文字輸入,確保完整的文字保留,同時在上下文長度限制內最大化視覺內容。2、漸進式混合後訓練:在訓練期間逐漸增加上下文長度,增強模型處理不同輸入大小的能力,並提高靜態採樣的資訊密度。3、多樣性驅動的資料配方:將開源資料(人工註釋和合成)與自行策劃的Eagle-Video-110K資料集相結合,該資料集通過多樣性驅動策略收集,使用故事級和剪輯級QA對進行註釋。在Video-MME 基準測試中,Eagle 2.5與領先的視覺語言模型GPT-4o、Qwen2.5-VL-72B和InternVL2.5-78B等進行了性能對比,結果顯示,隨著輸入幀數的增加,Eagle 2.5展現出了持續的性能提升和競爭力水準,而且參數規模也小得多。目前,業內開發者們在多模態學習領域已經取得了重大進展,但許多視覺語言模型(VLM)仍然專注於短上下文任務,對長上下文理解的探索還不夠深入,對擴展視覺上下文的處理仍然是一個有待解決的挑戰,這種擴展上下文涵蓋了多幅圖像、較長的視訊序列、高解析度媒體,或者是它們的組合。雖然這些方法有效地避免了擴展視覺語言模型上下文長度的需求,但常常會增加額外的計算開銷或能力限制,可能會制約模型的性能。與那些僅僅為了處理長多模態序列而進行最佳化卻未提升性能的模型不同,Eagle 2.5受益於更長的輸入長度,除了能夠處理更長的輸入之外,還能帶來持續的性能提升。Eagle2.5-8B在多個視訊基準測試中展現出卓越的性能,在MVBench上達到74.8分,在Perception_test上達到82.0分,在EgoSchema上達到72.2分,超越了InternVL2.5-8B(72.0)分和Qwen2.5-VL-8B(69.6分、70.5分、65.0分)等類似規模的模型。此外,它在長視訊理解方面尤其出色,在MLVU上達到77.6分,在 LongVideobench上達到66.4分,甚至超越了InternVL2.5-78B(75.7分、63.6分),在VideoMME(無字幕)測試中,Eagle 2.5達到了72.4分,非常接近72B參數規模的模型。同時,Eagle2.5-8B也展現出全面的圖像理解能力,涵蓋文件理解(DocVQA 94.1,ChartQA 87.5)、資訊提取(InfoVQA 80.4,TextVQA 83.7)和光學字元識別(OCRBench 869),該模型在一般感知和推理任務、領域特定知識、視覺幻覺評估以及數學推理方面也展現出均衡的能力。具體的訓練方法一覽研究人員表示,在整理訓練資料集時採用了“先求多樣,再求質量”的原則,資料集用了雙重標註方法,包括:1、自上而下的故事層面標註方法。這種方法利用人工標註的章節作為有意義的片段,而非傳統的鏡頭層面分割方式。它會生成密集的字幕,這些字幕構成了全面的長篇問答對的基礎,能夠捕捉到整個視訊的敘事結構;2、自下而上的互補式片段層面標註方法。該方法使用GPT-4o針對短影片片段生成聚焦的問答對,且問題類型豐富多樣。為了應對將局部片段標註擴展到完整長度視訊標註的挑戰,他們設定了錨點,這些錨點納入了時間參考資訊和上下文元素,同時不會透露答案,從而使模型既能理解視訊的總體敘事內容,又能理解視訊中精確的時空細節。在模型架構方面,研究人員建立了一個功能多樣的多模態系統,它能夠高效地處理長上下文資訊,而不是一個僅僅為處理擴展的多模態輸入而專門最佳化的模型,為了確保該模型在各種不同任務中都具有適應性和泛化能力,他們特意避免加入那些可能會限制模型靈活性的定製壓縮模組。遵循LLaVA的架構,輝達團隊採用一個多層感知機(MLP)投影層,將來自SigLIP的視覺嵌入與大型語言模型(LLM)的表示空間對齊,為了有效地處理任意解析度的圖像,他們採用了圖像分塊策略,這一策略受到了業內模型LLaVA-1.5和InternVL的啟發。關於訓練策略,包含兩個實現有效長上下文訓練的關鍵要素:其一,是一種資訊優先的採樣策略,它確立了最優的採樣標準;其二,是基於這一策略制定的漸進式訓練計畫,該計畫指導著整個模型的訓練過程。此外,還有一個全面的後訓練框架,由兩種互補的策略組成:混合後訓練:ADS方法自適應地將每個訓練樣本調整到最大序列長度,從而提供與幀無關的訓練範式。研究人員實施了一種長度平衡打包的混合訓練策略,以在整個上下文長度範圍內均勻地最佳化性能。漸進式混合後訓練:對於最大序列長度值較大的場景,他們提出了一種漸進式混合訓練方法,該方法逐漸將模型暴露於越來越大的序列長度,系統地增強其處理擴展上下文的能力。創新改進的資料集關於全新的資料集Eagle-Video-110K,主要解決了行業現有資料集中視訊長度不足的問題。Eagle-Video-110K通過從Vidchapters、MiraData、InternVid-10M、Panda-70M、Vript、Shot2story、ViTT和WebVid-10M等多個來源精選出多樣化的長視訊,解決了這一限制,採用基於CLIP嵌入和相似度閾值的多樣性驅動策略,識別並篩選出能夠顯著延長訓練和評估平均時長的新穎視訊。Eagle-Video-110K顯著提升了模型在主流長視訊和短影片基準測試中的表現,它通過為訓練資料提供此前開源訓練集中缺失的長視訊,顯著提升了模型處理高幀數(≥128幀)的能力。研究人員表示,憑藉先進的訓練策略和多樣化的資料,Eagle 2.5和Eagle-Video-110K有望為未來行業創新突破奠定基礎,為在複雜的現實場景中開發高效且功能多樣的視覺語言模型鋪平了道路。 (頭部科技)