剛剛 DeepSeek開源周最後一個開源日推出資料處理神器:Fire-Flyer File System (3FS) 和 Smallpond, 6.6 TiB/s 聚合吞吐,PB級 資料輕鬆處理
給大家簡單劃個重點
3FS 是 “所有 DeepSeek 資料訪問的動力引擎 (Thruster)”。 Fire-Flyer File System (3FS) 是一款高性能分佈式檔案系統,它充分利用了現代 SSD 固態硬碟和 RDMA (遠端直接記憶體訪問) 網路的強大頻寬,為 AI 工作負載提供了卓越的儲存基礎設施
3FS 的核心特性和優勢包括:
卓越的性能:
• 在一個由 180 個節點組成的叢集上,實現了6.6 TiB/s 的聚合讀取吞吐量
• 在 25 節點的叢集上,GraySort 基準測試中達到了3.66 TiB/min 的吞吐量
• 每個客戶端節點在 KVCache 查詢中實現了超過 40 GiB/s 的峰值吞吐量
解耦架構與強一致性: 採用解耦架構,結合數千個 SSD 的吞吐量和數百個儲存節點的網路頻寬,使應用程式能夠以與資料位置無關的方式訪問儲存資源。同時,通過實現帶有分配查詢的鏈式複製 (CRAQ) 來保證 強一致性,簡化了應用程式程式碼並使其易於理解。
標準檔案介面: 採用無狀態中繼資料服務,並由事務性鍵值儲存 (例如 FoundationDB) 支援,提供了通用的檔案介面,無需開發者學習新的儲存 API。
多樣化的工作負載支援: 能夠高效地處理各種 AI 工作負載,包括:
• 訓練資料預處理
• 資料集載入
• 檢查點保存和重新載入
• 嵌入向量搜尋
• V3/R1 推理中的 KVCache 查詢
• 資料準備: 有效地組織資料分析管道的輸出到分層目錄結構中,並管理大量的中間輸出。
• 資料載入器: 消除預取或洗牌資料集的需求,支援跨計算節點隨機訪問訓練樣本。
• 檢查點: 支援大規模訓練的高吞吐量平行檢查點。
• KVCache 推理快取: 為推理提供經濟高效的 DRAM 快取替代方案,提供高吞吐量和更大的容量。
Smallpond 是一款建構於 DuckDB 和 3FS 之上的輕量級資料處理框架。它旨在簡化在 3FS 上進行資料處理的流程,並充分利用 DuckDB 的高性能分析能力
Smallpond 的主要特點包括:
• 輕量級和易用性: 提供簡潔的 API 和易於理解的工作流程,方便使用者快速上手。
• 高性能資料處理: 由 DuckDB 驅動,提供卓越的資料處理性能,能夠高效處理大規模資料集。
• PB 等級資料可擴展性: 基於 3FS 建構,具備處理 PB (Petabyte) 等級資料的能力。
• 便捷的操作: 提供簡單的操作,無需長時間運行的服務即可完成資料處理任務。
• 快速上手: Smallpond 提供了快速入門指南,使用者可以輕鬆下載示例資料並開始使用 DuckDB SQL 進行資料處理。
Smallpond 框架巧妙地利用了 3FS 作為其底層儲存引擎,充分發揮了 3FS 高性能、可擴展的特性。使用者可以使用 Smallpond 輕鬆地在 3FS 上進行資料處理,例如執行 SQL 查詢、資料轉換和分析等操作。 GraySort 基準測試的例子也展示了 Smallpond 如何利用 3FS 的強大性能來處理大規模資料集排序任務 (AI寒武紀)