人人都能有一個滿血DeepSeek？清華90後出手，10萬塊暢玩FP8原版

2025/04/30

•

最近，一款由清華90後團隊打造的AI利器，首次實現了只用14.9萬元就能流暢運行滿血版DeepSeek，並且還支援頂配的128K上下文，堪稱媲美百萬級方案。

DeepSeek-R1從開源到現在，已過去4個多月。

然而，高昂的硬體成本、複雜的私有化部署方案，長期以來如同天塹，隔斷了一些企業、開發者們擁抱AI的步伐。

但如今，人手一個滿血版DeepSeek-R1/V3 671B的時代來了！

說出來你可能不信，行雲褐蟻一體機把曾經上百萬才能擁有的體驗，直接打到了14.9萬元。

不僅如此，它的速度和精度更是堪比官方版本——能以超過20 token/s的速度，運行沒有經過量化的「FP8原版」DeepSeek模型。

這是什麼概念？請看對比。

畫面右側就是DeepSeek官網的輸出速度。而左側，便是我們部署在一體機上的滿血版DeepSeek-R1了。

原視訊加速2倍

值得一提的是，剛剛發佈的Qwen3超大杯MoE——235B-A22B，現在也可以用上了！

打造出性價比如此驚人產品的公司，是什麼來頭？

原來，這家的CEO正是前華為天才少年、清華90後博士季宇。

10萬價位，單機可跑滿血DeepSeek

接下來，我們在真機上實際測試一下，這個「原版」DeepSeek-R1到底怎麼樣。

先讓它推理出一個笑話的笑點在哪裡。

可以看出這個速度刷刷的，等待時間也很短，幾乎可以忽略不計。

稍微長點的提示詞，對速度也有明顯的影響。

這道題只給出了一些疑似有規律的符號，而滿血DeepSeek-R1則展示出了強大的推理能力，猜出這是詞牌格式《菩薩蠻》，甚至猜出了是哪些符號分別對應的平、仄。

來一個甘蔗過門這種極易迷惑模型的問題。

DeepSeek-R1順利給出了正確答案，速度也無可挑剔。

甚至，它非常順利地做出了一道AIME 2025數學競賽題。

即使是這種等級的推理，輸出速度也能保持在20 token/s。

外星人來到地球上，可能會選擇四件事中的一件來完成，求地球上最終沒有外星人的機率。這種複雜的數學推理題，DeepSeek-R1也順利做了出來。

因為可以在Dify工作流中使用，這台一體機甚至能完成DeepResearch的功能。

由於模型部署在本地，所以可以基於內部的私域資料進行深度挖掘和研究服務，保障資訊隱私及安全。

廣泛適用於檔案摘要、資料分析、程式碼生成等高精度複雜任務。

完整工作流如下：

極致性價比

為什麼褐蟻一體機，能用10萬元的水平，達到以上驚人的水準？

背後原因，除了得益於自研的高效推理引擎外，還有極致的硬體選型。

褐蟻系列一體機有三種型號可選，理論上參數在1.5T以內的模型都能支援。

甚至，即將推出的DeepSeek-R2，預計也可以實現支援。

其中HY90負責提供極致的性能，671B參數的滿血DeepSeek-R1/V3在最高精度FP8下，速度能達到21.5+ token/s；在FP4精度下，速度能達到28+ token/s。

FP8

INT4

HY70提供極致的性價比，同樣是滿血FP8精度的DeepSeek-R1/V3，速度也能達到20+ token/s，在FP4精度下，速度能達到24+ token/s，相當炸裂。

最後，HY50還提供了極致低價。支援671B參數的滿血DeepSeek-R1/V3，在INT4精度下可實現20+ token/s的輸出速度，相當實用。

不僅如此，褐蟻系列一體機支援多種AI推理引擎，支援API呼叫、知識庫、AI Agent部署，還支援全部的開源大模型。

一次購買，永久使用。

在技術實現上，行雲團隊儘可能提高了大模型推理時有效使用的頻寬上限（理論頻寬1200 GB/s，物理實測1050 GB/s）。

而在實際使用中，這套系統的等效頻寬可以達到800 GB/s，完全滿足740 GB/s的需求。

算力層面，團隊則通過一套獨家定製的軟體協同最佳化方案，極大地提升了系統的運行效率。

輸出方面，上下文長度對速度的影響被控制得很好。只有當長度達到32K以上時，才有一些明顯的下降。

prefill方面，16k以內可以保持在180～200 token/s左右，上下文首字延遲則在80秒以內。

具體來說，首字延遲在1k下是5秒，4k是20秒，8k是40秒，16k是80秒。不過，在128K極限上下文長度下，會達到30分鐘。

LLM端側部署，CPU瞭解一下

說到模型的本地化部署，通常的第一反應就是GPU伺服器。

的確，在大模型訓練時，GPU的優勢可謂是獨步天下——吞吐量可以達到CPU的數十倍甚至上百倍。

然而，在利用模型進行推理的應用階段，一個缺點就足以把眾多企業擋在門外——太貴！

以FP8精度為例：

671B的參數量，意味著需要671GB以上的記憶體
37B的啟動參數，對應的是37GB x 20 token/s = 740GB/s以上的記憶體頻寬

也就是差不多一套6卡H20 141GB，或者10卡A100/A800 80GB伺服器才能跑起來。

即使按照目前市場上比較便宜的報價，這套系統的最低也要百萬元以上。

為了降低成本，一些企業會採用模型量化，甚至是犧牲對話速度，來降低LLM對硬體的需求。

然而，量化會顯著降低模型精度，尤其是在法律、醫療等需要高品質輸出的場景中，可能會造成生成的結果不可靠。

而降低對話速度，則會破壞即時互動體驗，客戶可能因響應過慢而逐漸流失。

這種體驗與成本的權衡困境，使得許多企業陷入兩難——要麼投入巨資追求高品質部署，要麼選擇低成本方案但犧牲應用效果。

結果是，LLM應用場景被侷限在少數高預算領域，難以在更廣泛行業中實現落地規模化。

以上，這些痛點共同構成了LLM端側部署的「不可能三角」：成本、性能、體驗三者難以兼得。

既然傳統的GPU解決方案無法做到，為什麼不考慮換個思路呢？

相比於用大量GPU去堆疊視訊記憶體，CPU的性價比就高得多了。

中高端伺服器中CPU的單顆價格，通常只在數千美元，這就落在了很多企業的可承受範圍之內。

而且，CPU一直以來最大的短板——記憶體頻寬，如今也有瞭解決方案。

比如行雲的褐蟻一體機，就通過雙路AMD EPYC 9355 CPU，在24條頻率高達6400MT/s的64GB記憶體加持下，實現1.5TB的容量和1.2TB/s的頻寬。

不僅完美滿足要求，甚至還有冗餘。

值得注意的是，為了改善CPU在推理過程中存在的算力不足情況，此時還需加入一張中高端GPU作為補充。

更令人驚喜的是，10萬的價位還可以壓得更低！如果降低對TPS體驗的需求或原版精度的需求，甚至可以壓縮到5萬。

清華90後創業，明星資本加持

在這款產品背後，是一支由清華90後領銜，兼具學術深度與行業實戰經驗的創始團隊。

靈魂人物，便是創始人兼CEO季宇，是一位妥妥的「天才少年」。

他本科就讀於清華物理系，隨後轉向電腦系，並獲得了電腦體系結構（AI晶片方向）的博士學位。

博士畢業後，季宇入選了華為天才少年計畫。

在學術方面，季宇的成就同樣令人矚目。

他長期專注於AI編譯器最佳化和處理器微架構等前沿難題，積累了深厚的AI晶片經驗。

而且，作為共同一作在頂刊Nature發表了電腦體系結構論文，榮獲了電腦學會CCF優博獎。

這些經歷，為他日後創立行雲，打造低成本、高性能褐蟻一體機奠定了堅實基礎。

CTO余洪敏則有著深厚的學術背景，以及豐富的行業經驗。他畢業於華科大，後在中國科學院半導體研究所獲得博士學位。

余洪敏同樣有著堪稱豪華的職業履歷。

他不僅出任過多款頂尖國產晶片的負責人和研發總監，而且還長期領導和管理超100人研發團隊，精通晶片研發設計全流程，成功知道了10+款晶片流片與量產。

他多次推動先進工藝資料中心晶片的架構設計、工程實現，以及大規模商用，積累了無可比擬的實戰經驗。

行雲積體電路的吸引力，不僅體現在技術和團隊上，還得到了資本市場的廣泛認可。

去年11月，行雲完成了新一輪數億元融資，投資方包括智譜AI、中科創星、奇績創壇、水木清華校友基金、嘉御資本、春華資本等一眾明星資本。

從成立到融資，行雲僅用了一年多的時間，就在AI晶片領域站穩了腳跟。

行雲的崛起，正是「中國初創」加速趕超的縮影。

從模型競賽，到應用為王

行雲褐蟻一體機的橫空出世，如同一記重拳，擊碎了大模型部署高成本的壁壘。

它的推出，不僅是技術層面的突破，更是順應了端側部署的三大趨勢。

首先，是成本門檻的指數級下降。

過去私有化部署的成本以百萬計，行雲直接將其拉低至10萬，未來甚至可能降至5萬。

這種成本的驟降，讓中小企業，初創公司乃至個人開發者，都能負擔起高性能AI解決方案，極大地拓展了AI應用的邊界。

其次，CPU方案的崛起，讓硬體架構更加多元化。

GPU因視訊記憶體容量和互聯成本的限制，在LLM部署中逐漸顯露瓶頸。行雲的CPU記憶體方案證明，伺服器CPU高頻寬和超大容量記憶體，能夠以更低成本滿足需求。

未來，更多晶片廠可能轉向類似CPU主導或混合的架構，推動硬體方案的多元化。

最後，應用爆發，會推動AI普惠化的處理程序。顯而易見的是，AI行業已從單純的模型參數競賽，轉向應用落地的比拚。

行雲低成本、高性能解決方案，為教育、醫療、零售等行業的AI應用打開了大門。

這不僅是一款產品的勝利，更是一個時代的開端——大模型正從少數巨頭實驗室珍寶，轉變為千行百業的標配引擎。

普惠AI的時代，已然啟幕！

目前，行雲褐蟻一體機已開放預約體驗，詳情可進入官方公眾號諮詢。 (新智元)