不需要GPU也能跑1M上下文!Redis之父開源DS4:讓DeepSeek V4 Flash 跑在Mac本地!

最近,一位開源界的傳奇人物 Salvatore Sanfilippo,用幾千行純C程式碼,直接把准前沿284B參數的 DeepSeek V4 Flash 模型,塞進了一台 128GB 記憶體的 MacBook Pro。

也許大家更熟悉他的另一個名字 Antirez,Redis 的創始人,在2020年宣佈退居二線,2024年回歸。

而這次他開放原始碼的DS4,在短短兩天內,就收穫了超六千的star.

YC 的 CEO Garry Tan 在X上表示:“正在下載... 在 128GB 的 Macbook Pro 上,擁有 1M token 上下文窗口,據說還有可用的編碼代理功能”。

那麼,DS4到底是什麼?為什麼能夠引起轟動?

DS4:專為 DeepSeek V4 Flash 設計的本地推理引擎

DS4(ds4.c)是一個專為 DeepSeek V4 Flash 設計的本地推理引擎。但目前僅支援Metal(Apple Silicon),未來可能加入CUDA支援。

它做的事情可以用一句話概括:在不改變模型能力的前提下,把運行成本進行極限壓縮。

與很多通用推理框架不同,DS4 直接圍繞 DeepSeek V4 Flash 的架構進行最佳化,去掉了大量通用抽象層,從模型載入、KV Cache 管理,到推理執行、記憶體調度,都採用了高度針對性的設計。

目前公開展示的核心能力包括:

  • 面向 DeepSeek V4 Flash(284B 級 MoE 模型)進行深度適配,重點最佳化編碼、長上下文與 Agent 場景。
  • 支援最高 1M tokens 的上下文窗口。
  • 可在 128GB 統一記憶體的 Apple Silicon Mac(如 M3/M4 Max 或 Ultra)上運行。
  • 在部分公開測試中,M3 Max 128GB 的短上下文生成速度約為 26–27 tokens/s,長上下文預填充速度可達 250+ tokens/s。
  • 支援 OpenAI 相容 HTTP API、Thinking Mode、工具呼叫、持久化 KV Cache,以及投機解碼(MTP)等能力。

為什麼選擇 DeepSeek V4 Flash

前沿模型這麼多,Antirez 為什麼為 DeepSeek v4 Flash 單獨開發一個引擎?

在官方部落格裡,Antirez 給出了 8 個原因:

更快(因為活躍參數更少)、思考模式更“克制”、支援 100 萬 Token 上下文、在“知識邊緣”更強、英語和義大利語寫作質量更強、KV Cache 壓縮率非常高、特殊 2-bit 量化後依然能用、認為DeepSeek 後續還會繼續發佈更強版本的 V4 Flash。

三大硬核操作:打破行業常規

DS4 能在一台 128GB 記憶體的 MacBook Pro 上運行超大規模的 DeepSeek V4 Flash,Antirez 的三項核心操作幾乎都打破了行業中的常規認知。

非對稱 2-bit 量化

這裡提供的 2 bit 量化不是玩笑:它們表現良好,在編碼代理下工作,並以可靠的方式呼叫工具。

DS4 並沒有粗暴地把整個模型全部壓縮,而是只對 MoE 結構中路由專家(routed experts)進行 2-bit 壓縮,同時其他元件(共享專家、投影、路由)保持不變。這種“非對稱壓縮”既大幅降低了記憶體佔用,又儘量保住了模型能力。

把 KV Cache 轉儲到 SSD

KV 快取實際上是磁碟上的“一等公民” 。

過去很多人認為,KV Cache 必須完整駐留記憶體,否則長上下文推理幾乎不可行。尤其是 1M tokens 這種等級的上下文,理論上會迅速吃光 128GB RAM。

但 DS4 直接換了思路:不把 KV Cache 全留在記憶體,而是利用 Apple Silicon 的高速 SSD,把磁碟當作“擴充記憶體”。

本質上,這是一種典型的記憶體—儲存分層推理(memory hierarchy inference)設計:用更大的儲存空間換取有限的記憶體容量,從而支援更長上下文與跨會話恢復能力。

純 Metal 原生最佳化

DS4 幾乎沒有額外框架封裝,整個系統直接圍繞 Apple Silicon 和 Metal API 深度定製,所有程式碼幾乎都只服務於一個目標:

讓 DeepSeek V4 Flash 在蘋果晶片上跑到極致。

相比很多“什麼模型都支援”的通用推理框架,DS4 更像一台為單一模型量身打造的專用引擎。

網友評價:夯爆了!

Antirez 的 DS4 剛發佈不久,就有網友搶先試用了:

“簡直不敢相信它運行得這麼好,甚至沒想到這種東西能在我的電腦上運行。謝謝。”

Reddit 上的網友也給出了好評:“我在我的 M5 Max 128GB 上試用了一下,說實話,效果真的令人印象深刻。很期待它未來的發展。”

當然還有網友期望能夠獲得llama.cpp 的支援。

寫在最後

在X上有網友評論,“Redis 創始人用一個 C 檔案,就毀掉了大廠燒幾十億的 GPU 叢集”

這也就回答了我們開頭的問題:為什麼能夠引發轟動?

大模型的成本,並不一定只能靠無限堆 GPU 來解決。

過去幾年,行業裡形成了一種越來越強的趨勢:更大的模型、更多的 GPU、更高的推理成本。

但 DS4 展示出了另一條路線:通過極端工程最佳化,把原本只有大型 GPU 叢集才能完成的事情,下放到消費級硬體。

在 Reddit 的網友評論:“令人驚嘆的是,Redis 的開發者現在又給我們帶來了這個。”

Redis 用十幾年從個人開放原始碼專案成長為支撐全球網際網路的核心基礎設施,Antirez 又為我們帶來了新的驚喜!

各位大佬體驗過 DS4 了嗎? (51CTO技術堆疊)