【DeepSeek】開源第五彈:3FS & Smallpond 顛覆性資料處理神器登場,PB級資料輕鬆處理



剛剛 DeepSeek開源周最後一個開源日推出資料處理神器:Fire-Flyer File System (3FS) 和 Smallpond, 6.6 TiB/s 聚合吞吐,PB級 資料輕鬆處理

給大家簡單劃個重點

3FS:高性能分佈式檔案系統

3FS 是 “所有 DeepSeek 資料訪問的動力引擎 (Thruster)”。 Fire-Flyer File System (3FS) 是一款高性能分佈式檔案系統,它充分利用了現代 SSD 固態硬碟和 RDMA (遠端直接記憶體訪問) 網路的強大頻寬,為 AI 工作負載提供了卓越的儲存基礎設施


3FS 的核心特性和優勢包括:

卓越的性能:

• 在一個由 180 個節點組成的叢集上,實現了6.6 TiB/s 的聚合讀取吞吐量

• 在 25 節點的叢集上,GraySort 基準測試中達到了3.66 TiB/min 的吞吐量

• 每個客戶端節點在 KVCache 查詢中實現了超過 40 GiB/s 的峰值吞吐量

解耦架構與強一致性: 採用解耦架構,結合數千個 SSD 的吞吐量和數百個儲存節點的網路頻寬,使應用程式能夠以與資料位置無關的方式訪問儲存資源。同時,通過實現帶有分配查詢的鏈式複製 (CRAQ) 來保證 強一致性,簡化了應用程式程式碼並使其易於理解。

標準檔案介面: 採用無狀態中繼資料服務,並由事務性鍵值儲存 (例如 FoundationDB) 支援,提供了通用的檔案介面,無需開發者學習新的儲存 API。

多樣化的工作負載支援: 能夠高效地處理各種 AI 工作負載,包括:

• 訓練資料預處理

• 資料集載入

• 檢查點保存和重新載入

• 嵌入向量搜尋

• V3/R1 推理中的 KVCache 查詢

• 資料準備: 有效地組織資料分析管道的輸出到分層目錄結構中,並管理大量的中間輸出。

• 資料載入器: 消除預取或洗牌資料集的需求,支援跨計算節點隨機訪問訓練樣本。

• 檢查點: 支援大規模訓練的高吞吐量平行檢查點。

• KVCache 推理快取: 為推理提供經濟高效的 DRAM 快取替代方案,提供高吞吐量和更大的容量。

Smallpond:輕量級資料處理框架

Smallpond 是一款建構於 DuckDB 和 3FS 之上的輕量級資料處理框架。它旨在簡化在 3FS 上進行資料處理的流程,並充分利用 DuckDB 的高性能分析能力


Smallpond 的主要特點包括:

• 輕量級和易用性: 提供簡潔的 API 和易於理解的工作流程,方便使用者快速上手。

• 高性能資料處理: 由 DuckDB 驅動,提供卓越的資料處理性能,能夠高效處理大規模資料集。

• PB 等級資料可擴展性: 基於 3FS 建構,具備處理 PB (Petabyte) 等級資料的能力。

• 便捷的操作: 提供簡單的操作,無需長時間運行的服務即可完成資料處理任務。

• 快速上手: Smallpond 提供了快速入門指南,使用者可以輕鬆下載示例資料並開始使用 DuckDB SQL 進行資料處理。

3FS 與 Smallpond 的協同工作

Smallpond 框架巧妙地利用了 3FS 作為其底層儲存引擎,充分發揮了 3FS 高性能、可擴展的特性。使用者可以使用 Smallpond 輕鬆地在 3FS 上進行資料處理,例如執行 SQL 查詢、資料轉換和分析等操作。 GraySort 基準測試的例子也展示了 Smallpond 如何利用 3FS 的強大性能來處理大規模資料集排序任務 (AI寒武紀)