【DeepSeek】開源第五彈：3FS & Smallpond 顛覆性資料處理神器登場，PB級資料輕鬆處理

2025/02/28

•

剛剛 DeepSeek開源周最後一個開源日推出資料處理神器：Fire-Flyer File System (3FS) 和 Smallpond， 6.6 TiB/s 聚合吞吐，PB級資料輕鬆處理

給大家簡單劃個重點

3FS：高性能分佈式檔案系統

3FS 是 “所有 DeepSeek 資料訪問的動力引擎 (Thruster)”。 Fire-Flyer File System (3FS) 是一款高性能分佈式檔案系統，它充分利用了現代 SSD 固態硬碟和 RDMA (遠端直接記憶體訪問) 網路的強大頻寬，為 AI 工作負載提供了卓越的儲存基礎設施

3FS 的核心特性和優勢包括：

卓越的性能：

• 在一個由 180 個節點組成的叢集上，實現了6.6 TiB/s 的聚合讀取吞吐量

• 在 25 節點的叢集上，GraySort 基準測試中達到了3.66 TiB/min 的吞吐量

• 每個客戶端節點在 KVCache 查詢中實現了超過 40 GiB/s 的峰值吞吐量

解耦架構與強一致性： 採用解耦架構，結合數千個 SSD 的吞吐量和數百個儲存節點的網路頻寬，使應用程式能夠以與資料位置無關的方式訪問儲存資源。同時，通過實現帶有分配查詢的鏈式複製 (CRAQ) 來保證 強一致性，簡化了應用程式程式碼並使其易於理解。

標準檔案介面： 採用無狀態中繼資料服務，並由事務性鍵值儲存 (例如 FoundationDB) 支援，提供了通用的檔案介面，無需開發者學習新的儲存 API。

多樣化的工作負載支援： 能夠高效地處理各種 AI 工作負載，包括：

• 訓練資料預處理

• 資料集載入

• 檢查點保存和重新載入

• 嵌入向量搜尋

• V3/R1 推理中的 KVCache 查詢

• 資料準備: 有效地組織資料分析管道的輸出到分層目錄結構中，並管理大量的中間輸出。

• 資料載入器: 消除預取或洗牌資料集的需求，支援跨計算節點隨機訪問訓練樣本。

• 檢查點: 支援大規模訓練的高吞吐量平行檢查點。

• KVCache 推理快取: 為推理提供經濟高效的 DRAM 快取替代方案，提供高吞吐量和更大的容量。

Smallpond：輕量級資料處理框架

Smallpond 是一款建構於 DuckDB 和 3FS 之上的輕量級資料處理框架。它旨在簡化在 3FS 上進行資料處理的流程，並充分利用 DuckDB 的高性能分析能力

Smallpond 的主要特點包括：

• 輕量級和易用性： 提供簡潔的 API 和易於理解的工作流程，方便使用者快速上手。

• 高性能資料處理： 由 DuckDB 驅動，提供卓越的資料處理性能，能夠高效處理大規模資料集。

• PB 等級資料可擴展性： 基於 3FS 建構，具備處理 PB (Petabyte) 等級資料的能力。

• 便捷的操作： 提供簡單的操作，無需長時間運行的服務即可完成資料處理任務。

• 快速上手： Smallpond 提供了快速入門指南，使用者可以輕鬆下載示例資料並開始使用 DuckDB SQL 進行資料處理。

3FS 與 Smallpond 的協同工作

Smallpond 框架巧妙地利用了 3FS 作為其底層儲存引擎，充分發揮了 3FS 高性能、可擴展的特性。使用者可以使用 Smallpond 輕鬆地在 3FS 上進行資料處理，例如執行 SQL 查詢、資料轉換和分析等操作。 GraySort 基準測試的例子也展示了 Smallpond 如何利用 3FS 的強大性能來處理大規模資料集排序任務 (AI寒武紀)