剛剛,馬斯克宣佈:已將全新的X平台推薦演算法開源,該演算法由與 xAI 的 Grok 模型相同的 Transformer 架構驅動。
這套演算法會收集使用者的個人資訊,比如你關注了誰,你點贊、回覆或分享過那些帖子,通過預測使用者行為(點贊、回覆、轉發等)來對帖子進行排序,從而定製“為你推薦”一欄中的內容。
1月11日,馬斯克就在X上宣稱自己會在7天內開源X平台的推薦演算法。儘管比約定的時間略晚,但還是說到做到。他還表示,這套演算法將會每四周更新一次,並提供全面的開發者說明。
馬斯克發帖聲稱:“我們知道這個演算法很笨拙,需要大量的改進,但至少你可以看到我們在即時和透明的情況下努力讓它變得更好。”
他同時強調:“其他社交媒體公司都沒有這樣做。”
開源推薦演算法的確是一個罕見的操作。在社交平台領域,推薦演算法向來是各家的“核心機密”:使用者刷到的每條動態、每個廣告,背後都是演算法根據使用者行為、內容標籤、商業訴求等維度計算的結果。此前,無論是 Facebook、Instagram 還是其他社交平台,演算法都被牢牢鎖在“黑箱”裡,平台不會主動交底,外界也只能靠逆向工程進行猜測。
不過,馬斯克如此慷慨大方地開源X平台的推薦演算法,也可能另有動機。
2025年7月,據路透社報導,巴黎檢察官辦公室對X平台展開刑事調查,調查重點包括演算法是否存在系統性偏見,以及是否存在欺詐性資料提取行為。X方面對此回應稱,該調查“出於政治動機”,並警告其可能威脅言論自由。
12月, 歐盟認定X平台違反《數字服務法》透明度義務條款,對其處以1.2億歐元罰款,違規行為包括其使用者帳號的“藍標認證”僅通過付費即可獲得,在介面設計上對使用者具有誤導性;其廣告資料庫在透明度和可訪問性方面存在不合規等等。
目前這套推薦演算法的Github程式碼庫已經開源,並迅速獲得了7.4k stars。
既然開源了,那麼X平台的推薦演算法究竟有那些奧秘?
Github地址:
https://github.com/xai-org/x-algorithm
X平台演算法推薦系統的核心思想是將站內關係內容(來自你已關注帳號的內容)與站外發現內容(通過基於機器學習的召回機制發現的內容)進行融合,並使用基於 Grok 的 Transformer 模型對所有內容進行統一排序。
據其Github介紹,「為你推薦」資訊流的內容主要來自兩大來源:
一是站內內容(Thunder 模組),即使用者關注帳號發佈的帖子;
二是站外內容(Phoenix 召回模組),也就是從全網內容庫中篩選出的帖子。
兩類內容整合後,會交由 Phoenix 模型分析。該模型會通過使用者的點贊、回覆、轉發等互動歷史,預測使用者對每篇帖子的各類互動機率,最終的內容得分便是這些機率的加權組合。
Thunder 和 Phoenix是這個系統的兩大核心元件。
Thunder 是一個記憶體內的帖子儲存系統和即時資料攝取管道,用於追蹤所有使用者的最新發佈內容。它會從 Kafka 即時消費帖子建立與刪除事件,在記憶體中維護每個使用者的原創、回覆/轉發和視訊等最新內容,並自動淘汰過期資料。
由於完全運行在記憶體中,Thunder 可以在不訪問外部資料庫的情況下,實現亞毫秒級的站內內容查詢性能。
Phoneix則承擔了兩項功能:召回和排序。它先通過雙塔模型將使用者行為與全量帖子編碼為向量,在全域內容池中高效召回與使用者興趣最相關的帖子;隨後再利用具備候選隔離機制的 Transformer,對每條候選內容獨立預測點贊、回覆、轉發、點選等多種互動行為機率。
Phoenix模型會預測使用者可能對每條帖子採取的多種行為,其中既有點贊、回覆、轉發等正面行為,也有不感興趣、拉黑、舉報等負面行為:
隨後,加權評分器會將這些因素綜合成一個得分,這就是一條帖子的最終評分:
積極的行為(點贊、轉發、分享)的權重為正,負面行為(遮蔽、靜音、舉報)的權重為負,從而判斷出使用者可能喜歡或不喜歡的內容。
其Github倉庫顯示,這套演算法推薦系統主要使用了 Rust 和 Python 兩種程式語言,項目遵循了Apache License 2.0 開源許可。
該倉庫的程式碼檔案按功能模組劃分,核心模組分工明確:
phoenix/:包含 Grok 模型適配、推薦系統模型(recsys_model.py)、召回模型(recsys_retrieval_model.py)等核心程式碼,以及模型運行、測試指令碼;
home-mixer/:以 Rust 語言開發,是推薦系統的 “編排層”,包含候選內容補全、查詢資料補全、打分器、過濾器等核心邏輯;
thunder/:基於 Rust 開發,負責處理 “站內內容”(關注帳號帖子)的檢索、反序列化、Kafka 消息處理等;
candidate-pipeline/:候選內容流水線相關邏輯,是連接內容源與後續處理的關鍵環節。
在演算法底層設計上,X 平台的推薦系統有五大核心決策,這些設計也成為其區別於傳統推薦演算法的關鍵:
1、完全摒棄手工特徵設計
這套系統完全依賴基於 Grok 的 Transformer 模型,從使用者的互動行為歷史中自動學習使用者和內容的相關性,不再進行任何人工設計的內容相關特徵工程。這一做法顯著降低了資料管道和線上服務基礎設施的複雜度。
2、排序階段的候選隔離
在 Transformer 推理過程中,各候選內容之間不會相互影響,只能圍繞使用者上下文來打分。這保證了單條內容的評分不依賴於同批次中其他候選內容的存在,使得評分結果更加穩定,並且可以被安全地快取和復用。
3、基於雜湊的嵌入表示
在召回和排序兩個階段,模型均使用多種雜湊函數進行 embedding 尋找,以提升嵌入表示的效率與可擴展性。
4、多行為預測
模型並非只預測單一的“相關性”分數,而是同時預測使用者對內容可能產生的多種行為的機率。
5、可組合的流水線架構此外,系統還基於candidate-pipeline 模組搭建了一套靈活的推薦流水線框架,具備以下特點:
X 平台的推薦演算法,本質上是一個基於大模型的“使用者行為預測系統”。它並不依據單條帖子的轉贊評等資料來判斷內容好壞,而是通過分析使用者過往的點贊、回覆、轉發、點選和停留等行為,預測你在看到某條內容後最可能採取的下一步行動,並據此對內容進行排序。
在這樣的機制下,更容易引起互動行為的內容,比如能激起討論的觀點、引導回覆和轉發的表達,或讓使用者願意停留和點選的資訊,就更容易被推薦和放大;而引發負面反饋的內容,如頻繁被標記為“不感興趣”、遭到拉黑或舉報的帖子,則會被系統主動壓低權重甚至過濾。
頻繁發帖刷屏也是不被系統鼓勵的。程式碼中有一條“Author Diversity Scorer“,作用就是降低重複作者的分數,以確保資訊流多樣性。因此更有效的發帖策略是降低頻率,提高單條內容的獨立價值。
使用者關注帳戶的內容會被優先考慮,保持滿權重,而推送給非關注使用者的內容則會被系統性折扣,可見關注關係的重要性進一步上升。
此外,由於“候選隔離”的存在,每條帖子都會進行獨立打分。如果別人發了一條爆款內容,也不會擠掉你的內容曝光。你的分數隻取決於你自己和目標使用者之間的關係。
總體來看,X平台的推薦演算法更關注內容與使用者之間的互動關係質量,能夠激發情緒、觀點表達和參與行為的內容,才會在資訊流中獲得更高的可見度。
在接手X平台前,馬斯克就一直不滿於社交媒體平台“演算法不透明”的問題,並致力於把X平台打造成“自由廣場”。
演算法開放原始碼的消息一出,X平台上也炸了鍋,不少網友認為這是社交平台“透明化”的關鍵一步。
也有網友提出,此舉的意義不僅在於演算法透明度,而在於將公眾的集體注意力系統變得可理解。激勵、衰退、病毒式傳播、憤怒、信任等等一系列的社交媒體行為,都可以變成被學習和建模的函數。
那麼,對於近期深陷輿論漩渦的馬斯克來說,此番開源X平台的推薦演算法,能否應付外界對其“存在演算法偏見”“流量操縱”的質疑呢?還需拭目以待。 (51CTO技術堆疊)