官方認證
RexAA
全球科技產業觀察者
美國開源AI最後的旗幟,也倒了
開源領域一大悲號傳來——艾倫人工智慧研究所(Ai2),宣佈削減開源模型開發(包括OLMo)的資金,轉向AI應用。就在同一時間,AI2核心團隊幾乎被“打包帶走”,集體流向微軟。人員包括前CEO阿里·法哈迪、前首席營運官索菲·萊佈雷希特、漢娜·哈吉希爾齊和蘭傑·克里希納,都是Ai2的核心力量。其中有的人上周剛參加完GTC大會,還跟老黃暢談開源模型的未來。他們的下一站,則是微軟穆斯塔法·蘇萊曼的超級智能團隊。X上已經炸了鍋,全網一片哀鳴。不少網友唏噓:這對開源社區來說是個巨大遺憾,OLMo是極少數真正開放原始碼的模型之一。核心人員打包進微軟核心人員集體離職,是一個非常不妙的訊號。Ai2前CEO阿里·法哈迪、前首席營運官索菲·萊佈雷希特、漢娜·哈吉希爾齊和蘭傑·克里希納,統統被蘇萊曼打包進了微軟。法哈迪已於3月12日卸任,結束了超過兩年半的Ai2掌門人生涯。他與Ai2的淵源頗為深厚。法哈迪是一位電腦視覺專家,也是華盛頓大學電腦科學與工程學院的教授,該院即以微軟聯合創始人、Ai2創始人保羅·艾倫(Paul Allen)的名字命名。他還聯合創立了Ai2的衍生公司Xnor.ai,該公司於2020年被蘋果以約2億美元的價格收購。在蘋果,他曾領導機器學習工作。哈吉希爾齊是OLMo開源模型項目的聯合負責人,上周剛在輝達GTC大會上代表Ai2參加了多場會議,還和黃仁勳探討開源模型的未來。她還是開源多模態人工智慧基礎設施加速科學發展項目(OMAI)的聯合首席研究員。這個項目旨在建構用於科學研究的開源模型,為期5年,耗資1.52億美元,由輝達和美國國家科學基金會聯合資助。克里希納則主導了Ai2多模態模型Molmo等多個關鍵項目,同樣在剛剛結束的GTC大會上代表Ai2發表演講。而現在,這些人才將集體加入微軟穆斯塔法·蘇萊曼的超級智能團隊。從去年11月起,蘇萊曼就開始組建超級智能團隊,目前已從Google、Meta、OpenAI、Anthropic等巨頭挖角了不少研究人員,還在不斷從Ai2和華盛頓大學聘請人才。蘇萊曼在領英上公開發帖,歡迎他們的加入。他還稱讚法哈迪帶領Ai2在一年內發佈了100多個模型;而哈吉希爾齊是“世界上被引用次數最多的自然語言處理研究人員之一,毋庸置疑”。而萊佈雷希特則擴大了Ai2的營運規模和開源工作,共同領導和創立了Xnor.ai和Neon Labs,還擁有布朗大學認知神經科學博士學位。蘇萊曼表示,他們將助力推進微軟的使命——實現“以人為本的超級智能:打造更安全、可控、更強大的AI系統,服務於人類以及解決最棘手的問題”。法哈迪也在領英上表示自己很高興加入微軟。可想而知,一批核心人員的離職對於Ai2而言是一次重大打擊。但他們為什麼要走呢?答案還是出在資金上。Ai2董事會主席比爾·希爾夫透露,法哈迪希望在人工智慧的前沿領域進行研究,而OpenAI、Google等公司會花費數十億美元來訓練最先進的模型。但對於一家非營利組織而言,很難以慈善資金訓練出對標巨頭的模型,還完全開源。希爾夫表示,董事會必須權衡其慈善資金是否還應該用於“追趕進度”。他也承認,在大模型開發的最高規模上與科技巨頭競爭,已經變得異常困難。此話怎講呢?GPT-4等級模型訓練成本估計在1-2億美元量級,當前前沿模型已攀升至數億美元。AI2的年度營運預算雖未公開,但可以參考一些指標。比如OMAI項目的1.52億美元是五年期、多機構共享的專項資助,年均約3000萬美元,僅相當於最前沿的單個大模型訓練成本的一小部分。這和巨頭相比是數量級差距,很難正面競爭。進一步來說,投資方的策略調整是更加決定性的因素。Ai2最初由艾倫的Vulcan公司資助,後來由其遺產繼續資助。現在的最大資助方是科學與技術基金會(FFST),該基金會由保羅·艾倫的遺產設立,規模達31億美元。2024年,琳達·斯圖爾特博士接任FFST CEO後,資助策略發生了顯著變化。斯圖爾特是一位醫生科學家,曾領導華盛頓大學蛋白質設計研究所。她更傾向於具有明確科學應用和可量化社會影響的項目,而非投入大量資金進行前沿模型的研究。據GeekWire報導,2026年Ai2的所有項目都已經獲得全額資助,但FFST的資助模式將由提供年度總資助轉向基於項目提案的資助模式。這種轉變意味著什麼?在年度整體資助模式下,研究機構通常擁有較高自主權,能夠承擔長期風險、靈活調整資源分配。而基於提案的模式引入了更強的成果導向和短期問責,每個資助周期都需要明確的可交付成果和影響力指標。對於開源基礎模型開發——周期長、成本高、商業回報不直接——這種轉變意味著更大的不確定性和更高的申請成本。有知情人士透露,FFST未來的資助預計將更傾向於人工智慧的實際應用,而非建構開源基礎模型。這也很好地解釋了,為何專注於模型開發的研究人員紛紛選擇離開。美國開源AI最後的旗幟倒了消息一出,X上一片悲鳴。不少網友表示:美國開源AI最後的旗幟也倒了。為何這麼說?因為過去幾年,Ai2確實投入了大量資源做真正開放原始碼的大模型。Ai2的OLMo系列,極致地踐行了“完全開源”(truly open)理念。它不僅開源模型權重,而且從資料處理到預訓練、微調,再到評測,全階段都公開透明。並且始終採用對開發者友好的Apache2.0許可證。2025年11月發佈的OLMo 3,進一步強化了這種透明度承諾。該系列包括Base、Instruct、Think和RL Zero四個變體,覆蓋7B和32B參數規模。其中OLMo 3-Think 32B被宣傳為“該規模首個完全開源推理模型” 。更重要的是,Ai2發佈了完整的“模型流程”(model flow),包括訓練日誌、中間檢查點、完整程式碼和配置。還有升級版的OlmoTrace工具,允許研究者將模型推理步驟回溯到具體影響它的資料和訓練決策。因此也有說法認為:OLMo與Llama 4、Mistral Large 3並稱為“三大開源支柱”。並且OLMo更透明,因為它提供所有中間產物,而Llama只開源權重,Mistral部分資料閉源。但現在,這個開源領域旗幟性的標竿,倒了。一時之間,梗圖與迷因齊飛。大洋彼岸的網友們進行了一場賽博悼念,大感“開源悲劇”,還有人聯想到了全球同此涼熱。不過也有人認為,這很正常,開源經濟學理論站不住腳。用非營利方式做頂級開源模型這條路,難以持續。目前,臨時CEO皮特·克拉克表示Ai2仍致力於其使命以及與NSF和Nvidia的合作關係,包括OMAI計畫。克拉克是Ai2的創始成員之一,曾於2022-2023年擔任臨時CEO。他曾共同領導Ai2的Asta項目,旨在開發用於輔助和自動化科學發現的智能體框架的大型計畫。開源AI的東昇西落美國仍有開源力量,但都在變形:Meta的LLaMA,名義上“開源”,但越來越偏“可控開放”。訓練資料不公開,許可有限制,並且還持續難產。Google的Gemma,提供模型權重、推理使用權限,但同樣沒有完整訓練資料或流程。Hugging Face的SmolLM,完全開源,但由社區驅動,缺乏大規模訓練資源。輝達的Nemotron系列,近期更開放了,不斷推出開放許可,更多開源資料發佈,但主要服務硬體生態。相比之下,中國的開源模型已經超越了美國領先的開源模型,並進一步拉大了與它們的性能差距。現在,Ai2的戰略調整,也會加速美國與中國在開源AI領域的差距擴大。在OpenRouter上,過去三周中國大模型的呼叫量已經連續超過美國,跟領先的閉源模型也打得有來有回。MIT與抱抱臉的聯合報告顯示,過去一年,中國開源模型全球下載量佔比達到17.1%,首次反超美國。許多美國初創企業也開始“悄悄”依賴中國開源模型進行建構,其默認選擇進一步向中國模型傾斜。比如上周Cursor發佈新模型Composer 2,被曝套殼Kimi K2.5;還有初創公司Deep Cogito去年發佈的Cogito v2.1,也被曝基模是DeepSeek,都從側面證實了中國開源模型的實力。開放原始碼的火種未熄,但風向已變。開源AI已經完全進入了中國時間。開源AI的未來,只能在中國了。如果存在一個大模型Android版,那這個也只能在中國了。 (量子位)
token為何叫“詞元”?專家這樣說
近日,全國科學技術名詞審定委員會發佈《關於發佈試用人工智慧領域名詞token中文名“詞元”的公告》,決定在綜合考量社會各界意見建議的基礎上,優先推薦“詞元”作為人工智慧領域名詞token的中文名,並面向全社會發佈試用。“詞元”這一定名符合單義性、科學性、簡明性、協調性等科技名詞審定原則。該定名經全國電腦科學技術名詞審定委員會審定後,由全國科學技術名詞審定委員會批准向全社會發佈試用。清華大學電腦系副教授東昱曉認為,“詞元”的定名捕捉了其在人工智慧語言模型中作為“基本離散符號單元”的本質,又可以通過類比自然延伸至多模態領域。在“詞元”這一定名中,“詞”點明其在語言場景下的根源,體現出token與表達對象語義的密切關聯;“元”傳達出“基本單元”之意,與“元素”等術語中的“元”保持一致的語義脈絡。“token”一詞源於古英語tācen,意為“符號”或“標記”。在語言模型中,token是文字經過切分或字節級編碼後得到的最小離散單元。它既可能是人類語言意義上的詞串、單個詞,也可能是詞根、詞綴、子詞或單個字元。語言模型通過對token序列建模,展現出一定的智能水平。全國電腦科學技術名詞審定委員會副主任委員兼人工智慧分委員會主任委員、中國科學院計算技術研究所研究員陳熙霖表示,“詞元”一詞可以將“作為語言基本語義單元”這一最初本質清晰表達出來,更貼合其在人工智慧中的初始角色。隨著大模型從純文字走向多模態,“token”所指已經擴展。圖像被切分為“圖像塊”並對應為嵌入序列,語音片段可以被量化編碼為離散單元,這些單元在多模態模型中同樣被稱為token,主要建模手段仍為序列模型。此時,“詞元”中的“詞”超越了人類語言意義上的“詞”,卻能暗合術語命名中普遍存在的類比思維——將非文字模態的離散基本單元也視作“廣義的詞”。這種用法與“詞雲”(word cloud)、“詞袋”(bag of word)類似,雖由文字衍生,但已成為人工智慧領域中表達更寬泛語義的通用術語。“詞元”在跨模態場景中承載了“離散基本單元”的語義,這種語義普遍存在於所有模態之中。在中文文獻、技術文件及學術交流中,“詞元”作為描述大模型中token的譯名,逐漸被學術界很多學者認同。token是模型將資料對應為離散符號序列的基本單位,本身並不攜帶智能,只是承載資訊的載體;與“嵌入”“注意力”“隱狀態”等術語並列時,保持了風格一致性;符合中文“二字詞”偏好,表述簡潔,易於傳播。國家資料局資料顯示,2024年初,中國日均詞元(token)呼叫量為1000億;至2025年底,躍升至100兆;今年3月,已突破140兆,兩年增長超千倍。 (中國科學報)
黑馬AI橫掃預測市場!預測未來勝率已超過人類
【新智元導讀】大模型能否預測未來?UniPat AI建構了一套完整的預測智能基礎設施,Echo,包含動態評測引擎、面向未來事件的訓練範式和預測專用模型EchoZ-1.0。在其公開的General AI Prediction Leaderboard上,EchoZ-1.0穩居第一,並在與Polymarket人類交易市場的直接對比中展現出顯著優勢。過去一年,預測能力越來越受到模型廠商的重視。但預測領域有一個根本性的驗證難題:你說你能預測未來,怎麼證明?發佈時的demo無法追溯,事後公佈的案例存在選擇性偏差,通用基準測試衡量的是語言理解和推理能力,跟真實預測是兩碼事。UniPat AI近日發佈的Echo系統,試圖用一套完整的基礎設施來回答這個問題。Echo由三個緊密耦合的元件構成:一個持續運轉的動態評測引擎,一套面向未來事件的後訓練流程(Train-on-Future),一個未來可能的AI原生預測API。官網:https://echo.unipat.ai/ Blog:https://unipat.ai/blog/Echo核心模型EchoZ-1.0是第一個在Train-on-Future範式下端到端訓練的大語言模型。在General AI Prediction Leaderboard 上(2026年3月資料),EchoZ-1.0以Elo 1034.2排名第一,領先 Google的Gemini-3.1-Pro(1032.2)和Anthropic的Claude-Opus-4.6(1017.2)。排行榜涵蓋12個模型,覆蓋政治、經濟、體育、科技、加密貨幣等7個領域,活躍題目超過1000道。EchoZ在排名魯棒性測試中穩定第一排名本身只是一個快照,排名的穩定性更值得關注。部落格中披露了一組σ參數敏感性測試:調整Elo框架中的σ參數(控制Brier Score差異向勝率的轉化強度)從 0.01到0.50共9個取值,重新計算全部模型排名。這個參數簡單來說,就是控制「模型之間表現差距」會被放大到什麼程度。EchoZ在全部9個分組均保持第一,是唯一排名未發生任何波動的模型。作為對比,GPT-5.2的排名在第2到第9之間波動過8個位次。更有說服力的一個細節是,EchoZ的競爭對手不僅有頂級大模型,還有預測市場上真實投入資金的人類交易者的聚合判斷,EchoZ的Elo分數顯著高於這條基線。與此同時,Echo官網公開了所有預測問題、模型輸出的機率分佈和最終結算結果,任何人都可以回溯驗證。三個層面的可驗證性疊加在一起(動態排行榜、實盤市場對照、全量資料公開),構成了Echo與此前各種「AI 預測」最根本的區別。那麼,EchoZ對人類預測者的實際優勢有多大?Unipat AI給出了一組分層對比:將EchoZ與人類市場在同一預測批次中的同一問題上進行比較,基於Brier Score計算勝率,按領域、預測期限和市場不確定性三個維度展開:政治與治理領域:EchoZ勝率63.2%長期預測(7天以上):EchoZ勝率59.3%市場不確定區間(人類信心55%-70%):EchoZ勝率57.9%一個值得注意的規律是:人類預測者越猶豫的場景(高不確定性、長時間跨度、複雜政治博弈)EchoZ的優勢反而越明顯。這暗示模型在資訊整合和機率校準上的系統性優勢,恰好在人類直覺最不可靠的區域得到了最大程度的釋放。一個持續生長的評測引擎建構評測基準本身並不新鮮,但Echo的做法有一個關鍵差異:它建構的不是一個靜態的題庫,而是一個能夠自動出題、自動結算、持續更新排名的動態系統。為什麼「動態」這件事很重要?拿一道具體的預測題來說:「2026年3月31日收盤時,全球市值最大的公司是那家?」如果模型A在3月1日給出了預測,模型B在3月28日給出了預測,兩者的正確率能直接比較嗎?顯然不能。越接近結算時間,可用資訊越多,預測難度越低。這就是現有預測基準的第一個結構性問題:時序不對稱。第二個問題是題源過於單一:現有基準的題目幾乎全部來自預測市場,偏向容易結算的二元問題,大量來自專業領域和新興話題的預測需求被遺漏了。Echo Leaderboard 的架構正是圍繞這兩個問題展開的。整套系統可以拆解為四個階段的持續循環:Echo 評測引擎建構流程第一步,資料採集。三條資料管道同時運行。第一條對接Polymarket等預測市場,篩選有明確結算規則和高品質共識訊號的合約。第二條面向開放域,抓取Google Trends等即時趨勢,自動生成關於尚未發生事件的預測問題,由agent持續搜尋進展並自動結算。第三條來自真實專業場景:科研、工程、醫療等領域的專家將自己工作流中有價值的預測題貢獻到系統中,並在預定時間點給出權威判定。從Polymarket上的大眾共識到實驗室裡的專家判斷,三條管道覆蓋了一個相當完整的預測光譜。第二步,預測點調度。每道題不只做一次預測。系統使用對數調度演算法,根據題目的結算周期長度分配多個prediction points(預測時間點),既保證了生命周期內的覆蓋密度,又控制了計算開銷。第三步,對戰建構。這是解決時序不對稱問題的關鍵環節。評測使用point-aligned Elo機制:嚴格只比較「同一道題、同一預測時間點」的結果。所有參賽模型在完全相同的資訊上下文下對決,公平性由此建立。第四步,Elo評分更新。基於Bradley-Terry MLE演算法計算全域排名。實驗資料顯示,這套框架對新加入模型的排名收斂速度是傳統Avg Brier方法的2.7倍。模型排名收斂速度對比這四步構成一個不斷循環的閉環:新題目持續流入,新的預測點持續觸發,對戰持續發生,排行榜持續更新。用一句話概括:Echo造了一把動態校準的尺子,而這把尺子本身也在不停生長。Train-on-Future:當推理過程本身成為訓練訊號評測引擎解決了「怎麼量」的問題,接下來要回答的是「怎麼訓」。Echo 的訓練流程同樣是一套結構化的系統,UniPat稱之為Train-on-Future範式,由三個核心機制組成。在展開之前,有必要先理解傳統路徑(Train-on-Past)為什麼走不通。用歷史事件的已知結果來訓練預測模型,面臨兩個很難繞過的困難。第一個是工程悖論:網際網路內容持續更新,用過去的事件做訓練題時,模型在搜尋網頁的過程中幾乎必然會撞上包含答案的資訊,資料洩露在工程實現上極難杜絕。第二個是結果導向偏差:現實事件充滿隨機性,一個邏輯嚴密的分析可能因為黑天鵝事件而給出「錯誤」答案,一個粗糙的猜測可能碰巧命中。直接用最終結果做訓練訊號,模型很容易過擬合到噪聲上。Train-on-Future 的三個機制分別瞄準了這些問題:機制一:動態問題合成。與使用歷史題庫不同,Echo通過一條自動化管道,持續從即時資料流中生成關於未來事件的高資訊量預測問題。因為每道題都關乎尚未發生的事件,訓練天然不存在資料洩露的問題。機制二:Automated Rubric Search。這是整個訓練範式中最有技術含量的部分。Echo的做法是:把訓練訊號建立在推理過程的質量上,而非最終預測的對錯。但隨之而來的問題是,「好的推理過程」該如何定義?舉一個體育預測領域的具體例子。Echo的Rubric中有一個維度叫做「Precursor and External Catalyst Evaluation」,評估模型是否利用高度相關的先行訊號或外部驅動因素。得5分的標準是:識別具體的近期或即將發生的催化因素(如關鍵球員回歸、連續客場結束、關鍵對位變化),並分析這些因素與比賽結果之間的歷史關聯。得 1 分的標準是:僅泛泛提及「狀態不錯」或「士氣提升」等模糊因素,而未繫結具體可驗證事件。另一個維度是「Multi-Factor Causal Synthesis」,評估模型是否將多個獨立因素整合為一個有因果結構的預測結論。得5分的標準是:明確整合至少三個相互獨立的因素(如傷病情況、近期狀態、主客場表現、賠率基線),並解釋這些因素如何相互作用(如傷病削弱進攻效率,而主場優勢部分避險該影響),最終形成一個加權後的整體判斷。得1分的標準是:僅基於單一因素(如「某隊最近連勝」)直接得出結論,或簡單羅列資訊而沒有解釋各因素之間的作用關係。總結來說,這兩個維度分別關注模型是否能夠在時間維度上引入可量化的前瞻性的關鍵變化,並在同一時點上將這些變化與既有資訊整合為結構化的因果判斷,從而提升預測的完整性與動態適應能力。模型按rubrics打分的排名與Elo排名相關係數隨rubrics質量提升而提升。這些維度高度具體,顯然不是泛泛而談的「推理質量」。但靠人工設計也走不遠,預測領域噪聲極高,不同領域的邏輯差異很大。Echo把這個問題轉化成了一個資料驅動的搜尋任務:由LLM生成候選評分標準(rubric),每一輪基於上一輪的反饋進行迭代,搜尋目標是讓rubric產生的模型排名與真實Elo排名之間的Spearman ρ最大化。搜尋按領域獨立進行,政治領域和體育領域各自搜尋出20個評分維度。實驗資料顯示,rubric的評估質量在迭代過程中持續攀升。機制三:Map-Reduce Agent架構。訓練完成後,EchoZ-1.0在推理階段採用分佈式的Map-Reduce流程。Map階段將一個宏觀預測問題分解為多個正交子任務,派出多個agent平行完成資訊採集和領域推理;Reduce階段由聚合節點處理跨源衝突、對齊因果鏈,輸出最終的機率判斷。這個循環支援多輪自適應迭代,直到資訊覆蓋度和推理深度趨於穩定。這套訓練範式的本質可以這樣理解:不僅考察模型猜對了沒有,也考察模型的分析過程是不是優秀。而「評價分析過程」這件事本身,也由這個系統自動完成。值得留意的下一步據瞭解,UniPat計畫將EchoZ-1.0的預測能力封裝為一套AI-native Prediction API對外開放。從部落格已披露的技術架構來看,這套API將支援自然語言形式的預測問題輸入,返回包含機率分佈、分層證據鏈、反事實脆弱性評估和監測建議的完整結構化報告,每份報告由多輪Map-Reduce agent對即時網路證據循環檢索和推理後生成。UniPat在官網上為Echo寫下了這樣一句話:「The future is no longer a probability you guess — it is a parameter you integrate.」當預測從一種直覺判斷變成一個可呼叫、可整合的參數,它能嵌入的決策場景,金融市場、演算法交易、企業戰略,遠比當前看到的要多。UniPat為Echo定義了四個關鍵詞:General、Evaluable、Trainable,以及Profitable。而落地的效果,則需要期待API的正式上線。 (新智元)
DDR5崩盤!商家瘋狂拋售!
3月30日消息,據報導,上週開始,DDR5記憶體價格出現斷崖式下跌,市場普遍認為前期囤積記憶體的大戶正在拋售!在百腦匯經營儲存裝置多年的批發商表示:“上週六開始,價格直接崩了。昨天到今天,一款主流的 16G 記憶體條又掉了四五十塊。上週六那天更誇張,一天就掉了一百多塊。”這種罕見的劇烈跳水,讓許多仍在持貨的商家感到措手不及。對於這輪價格暴跌的原因,市場普遍認為是個別囤貨心態與供需失衡共同作用的結果。最根本的問題在於需求端的極度疲軟。由於此前記憶體漲價幅度過大,非剛需消費者紛紛選擇推遲購買,導致目前的市場銷量相比去年11月之前下滑了超過六成。另一個關鍵推手是前期囤貨者的恐慌性拋售。去年記憶體步入漲價通道時,不少圈外投機者一哄而上、盲目囤貨。如今隨著價格訊號調頭向下,這部分持貨者為了止損開始不計成本地出貨。然而,由於市場缺乏足夠的接盤能力,這種踩踏式的拋售行為進一步加劇了價格的下滑。近日,中國DDR5記憶體價格出現下跌,引發市場關注。行業人士分析,記憶體條未來將持續降價,只是時間跨度較長。隨著產能逐步穩定,供需缺口已反映在價格上,後續記憶體條價格難有支撐。此外,Google最新推出的TurboQuant記憶體壓縮演算法,據稱可將大型語言模 型執行階段的快取記憶體佔用至少壓縮至原來的六分之一,性能提升八倍。業內認識表示,記憶體條作為快速迭代的科技產品,長期不可能短缺,老舊記憶體製造門檻也將越來越低。 (國芯網)