史丹佛大學等發佈AI透明度年報! 2025 AI透明度大倒退:均分跌至40,IBM奪冠,xAI與Midjourney墊底!

隨著AI模型的能力以驚人的速度進化,我們對這些“黑盒”背後的運作機制卻似乎知之甚少。史丹佛大學等機構最新發佈的 2025年基礎模型透明度指數Foundation Model Transparency Index, FMTI)揭示了一個令人擔憂的趨勢:儘管AI技術在飛速發展,但行業整體的透明度卻在大幅倒退。

ArXiv URL:http://arxiv.org/abs/2512.10169v1

這份年度重磅報告不僅對OpenAI、Google等老牌巨頭進行了“體檢”,還首次將阿里巴巴、DeepSeek等中國公司納入評測範圍。結果令人咋舌:平均分從去年的58分暴跌至40分,甚至低於2023年的水平。

透明度“寒冬”:誰在裸泳,誰在領跑?

今年的FMTI報告評估了13家全球頂級的基礎模型開發商。研究團隊設計了包含100項指標的評估體系,涵蓋了從上游資料、模型建構到下游影響的全過程。

紅榜與黑榜的巨大反差:

• 冠軍(IBM):IBM以 95/100 的高分一騎絕塵,成為透明度的絕對標竿。它在很多其他公司諱莫如深的領域(如資料來源、計算資源)都做到了充分披露。

• 墊底(xAI & Midjourney):Elon Musk旗下的xAI和繪圖模型巨頭Midjourney僅獲得 14分,處於極度不透明的狀態。

• “中庸”的巨頭們:包括OpenAI、Google、Anthropic、Amazon和Meta在內的“前沿模型論壇”(Frontier Model Forum)成員,分數全部擠在中間梯隊(平均約36分)。報告犀利地指出,這些公司似乎達成了一種默契——既避免因分數過低而聲譽受損,又缺乏動力去爭當透明度的領頭羊。

中國公司的首秀:

今年首次參評的中國公司表現各異。阿里巴巴、DeepSeek等公司被納入評估,雖然整體得分處於中下游(DeepSeek、Meta和Alibaba的平均分為30分),但這標誌著全球AI透明度評估版圖的完整化。

評分暴跌背後的真相:標準升級與刻意隱瞞

為什麼今年的平均分會從58分跌至40分?這不僅僅是因為加入了得分較低的新公司,更是因為許多老牌玩家在關鍵指標上出現了“倒退”。

1. 核心資源的“黑盒化”

公司們對“上游資源”最為保密。訓練資料(Training Data)和訓練算力(Training Compute)是兩個最大的黑洞。

• 資料來源:幾乎沒有公司願意詳細披露其訓練資料的具體來源和構成,這直接關係到版權和偏見問題。

• 算力成本:儘管外界對訓練大模型的昂貴成本充滿好奇,但具體使用了多少 、消耗了多少能源,往往被視為商業機密。例如,AI21 Labs在2024年還披露了算力和碳排放資料,但在2025年卻選擇了隱瞞。

2. 評估標準的“硬核”升級

FMTI 2025對指標進行了大幅修訂,旨在“去偽存真”。

• 拒絕模糊描述:以前只要描述了模型能力(如“文字生成”)就能得分,現在必須列出“在後訓練階段專門最佳化的能力清單”。

• 強調可復現性:僅僅聲稱模型在某個基準測試上得分很高是不夠的,必須開放原始碼和提示詞(Prompts),證明第三方可以復現這一結果才能得分。

技術拆解:如何量化透明度?

為了科學地衡量透明度,研究團隊將100個指標分為三個核心領域:

1. 上游(Upstream):關注建構模型所需的資源。

• 資料:資料來源、版權、許可、PII(個人身份資訊)處理。

• 勞動力:涉及資料標註工人的薪資和工作環境。

• 計算:硬體詳情、能源消耗。

2. 模型(Model):關注模型本身的屬性和發佈。

• 架構:參數量、層數等(很多公司現在對此閉口不談)。

• 能力與風險:模型能做什麼,不能做什麼,以及潛在的安全隱患。

3. 下游(Downstream):關注模型的使用和影響。

• 分發:誰在使用模型?

• 影響:對使用者、受影響群體以及環境的實際影響。

有趣的發現:AI Agent能取代人類評估員嗎?

在今年的評估過程中,研究團隊進行了一項有趣的實驗:利用AI Agent來輔助收集各公司的透明度資訊。

結果顯示,AI Agent確實能提高資訊檢索的效率,但還遠不能完全取代人類。Agent容易產生“幻覺”或被表面資訊誤導(False Positives),同時也容易漏掉深藏在技術文件中的關鍵細節(False Negatives)。最終,所有資訊仍需經過FMTI團隊的人工核實。

結論:透明度是一種選擇,而非技術難題

2025 FMTI報告最核心的啟示在於,透明度的差異主要源於企業意願,而非技術或結構性障礙

IBM、Writer和AI21 Labs的高分證明,即使是商業化公司,也可以在保持競爭力的同時實現高度透明。相反,某些公司在下游應用政策(如下載使用條款)上得分極高,卻在模型訓練資料上得分掛零,這種鮮明的對比揭示了其策略性的不透明。

隨著全球政策制定者(如歐盟AI法案)開始強制要求某些類型的透明度,這份報告不僅是對現狀的記錄,更是對未來政策干預方向的指引。如果市場競爭無法帶來透明,那麼更激進的政策干預或許將成為必然。 (AI研究)