人人都能有一個滿血DeepSeek?清華90後出手,10萬塊暢玩FP8原版


最近,一款由清華90後團隊打造的AI利器,首次實現了只用14.9萬元就能流暢運行滿血版DeepSeek,並且還支援頂配的128K上下文,堪稱媲美百萬級方案。

DeepSeek-R1從開源到現在,已過去4個多月。

然而,高昂的硬體成本、複雜的私有化部署方案,長期以來如同天塹,隔斷了一些企業、開發者們擁抱AI的步伐。

但如今,人手一個滿血版DeepSeek-R1/V3 671B的時代來了!

說出來你可能不信,行雲褐蟻一體機把曾經上百萬才能擁有的體驗,直接打到了14.9萬元。

不僅如此,它的速度和精度更是堪比官方版本——能以超過20 token/s的速度,運行沒有經過量化的「FP8原版」DeepSeek模型。

這是什麼概念?請看對比。

畫面右側就是DeepSeek官網的輸出速度。而左側,便是我們部署在一體機上的滿血版DeepSeek-R1了。

原視訊加速2倍

值得一提的是,剛剛發佈的Qwen3超大杯MoE——235B-A22B,現在也可以用上了!

打造出性價比如此驚人產品的公司,是什麼來頭?

原來,這家的CEO正是前華為天才少年、清華90後博士季宇。

10萬價位,單機可跑滿血DeepSeek

接下來,我們在真機上實際測試一下,這個「原版」DeepSeek-R1到底怎麼樣。

先讓它推理出一個笑話的笑點在哪裡。

可以看出這個速度刷刷的,等待時間也很短,幾乎可以忽略不計。

稍微長點的提示詞,對速度也有明顯的影響。

這道題只給出了一些疑似有規律的符號,而滿血DeepSeek-R1則展示出了強大的推理能力,猜出這是詞牌格式《菩薩蠻》,甚至猜出了是哪些符號分別對應的平、仄。

來一個甘蔗過門這種極易迷惑模型的問題。

DeepSeek-R1順利給出了正確答案,速度也無可挑剔。

甚至,它非常順利地做出了一道AIME 2025數學競賽題。

即使是這種等級的推理,輸出速度也能保持在20 token/s。

外星人來到地球上,可能會選擇四件事中的一件來完成,求地球上最終沒有外星人的機率。這種複雜的數學推理題,DeepSeek-R1也順利做了出來。

因為可以在Dify工作流中使用,這台一體機甚至能完成DeepResearch的功能。

由於模型部署在本地,所以可以基於內部的私域資料進行深度挖掘和研究服務,保障資訊隱私及安全。

廣泛適用於檔案摘要、資料分析、程式碼生成等高精度複雜任務。

完整工作流如下:

極致性價比

為什麼褐蟻一體機,能用10萬元的水平,達到以上驚人的水準?

背後原因,除了得益於自研的高效推理引擎外,還有極致的硬體選型。

褐蟻系列一體機有三種型號可選,理論上參數在1.5T以內的模型都能支援。

甚至,即將推出的DeepSeek-R2,預計也可以實現支援。

其中HY90負責提供極致的性能,671B參數的滿血DeepSeek-R1/V3在最高精度FP8下,速度能達到21.5+ token/s;在FP4精度下,速度能達到28+ token/s。

FP8

INT4

HY70提供極致的性價比,同樣是滿血FP8精度的DeepSeek-R1/V3,速度也能達到20+ token/s,在FP4精度下,速度能達到24+ token/s,相當炸裂。

最後,HY50還提供了極致低價。支援671B參數的滿血DeepSeek-R1/V3,在INT4精度下可實現20+ token/s的輸出速度,相當實用。

不僅如此,褐蟻系列一體機支援多種AI推理引擎,支援API呼叫、知識庫、AI Agent部署,還支援全部的開源大模型。

一次購買,永久使用。

在技術實現上,行雲團隊儘可能提高了大模型推理時有效使用的頻寬上限(理論頻寬1200 GB/s,物理實測1050 GB/s)。

而在實際使用中,這套系統的等效頻寬可以達到800 GB/s,完全滿足740 GB/s的需求。

算力層面,團隊則通過一套獨家定製的軟體協同最佳化方案,極大地提升了系統的運行效率。

輸出方面,上下文長度對速度的影響被控制得很好。只有當長度達到32K以上時,才有一些明顯的下降。

prefill方面,16k以內可以保持在180~200 token/s左右,上下文首字延遲則在80秒以內。

具體來說,首字延遲在1k下是5秒,4k是20秒,8k是40秒,16k是80秒。不過,在128K極限上下文長度下,會達到30分鐘。

LLM端側部署,CPU瞭解一下

說到模型的本地化部署,通常的第一反應就是GPU伺服器。

的確,在大模型訓練時,GPU的優勢可謂是獨步天下——吞吐量可以達到CPU的數十倍甚至上百倍。

然而,在利用模型進行推理的應用階段,一個缺點就足以把眾多企業擋在門外——太貴!

以FP8精度為例:

  • 671B的參數量,意味著需要671GB以上的記憶體
  • 37B的啟動參數,對應的是37GB x 20 token/s = 740GB/s以上的記憶體頻寬

也就是差不多一套6卡H20 141GB,或者10卡A100/A800 80GB伺服器才能跑起來。

即使按照目前市場上比較便宜的報價,這套系統的最低也要百萬元以上。

為了降低成本,一些企業會採用模型量化,甚至是犧牲對話速度,來降低LLM對硬體的需求。

然而,量化會顯著降低模型精度,尤其是在法律、醫療等需要高品質輸出的場景中,可能會造成生成的結果不可靠。

而降低對話速度,則會破壞即時互動體驗,客戶可能因響應過慢而逐漸流失。

這種體驗與成本的權衡困境,使得許多企業陷入兩難——要麼投入巨資追求高品質部署,要麼選擇低成本方案但犧牲應用效果。

結果是,LLM應用場景被侷限在少數高預算領域,難以在更廣泛行業中實現落地規模化。

以上,這些痛點共同構成了LLM端側部署的「不可能三角」:成本、性能、體驗三者難以兼得。

既然傳統的GPU解決方案無法做到,為什麼不考慮換個思路呢?

相比於用大量GPU去堆疊視訊記憶體,CPU的性價比就高得多了。

中高端伺服器中CPU的單顆價格,通常只在數千美元,這就落在了很多企業的可承受範圍之內。

而且,CPU一直以來最大的短板——記憶體頻寬,如今也有瞭解決方案。

比如行雲的褐蟻一體機,就通過雙路AMD EPYC 9355 CPU,在24條頻率高達6400MT/s的64GB記憶體加持下,實現1.5TB的容量和1.2TB/s的頻寬。

不僅完美滿足要求,甚至還有冗餘。

值得注意的是,為了改善CPU在推理過程中存在的算力不足情況,此時還需加入一張中高端GPU作為補充。

更令人驚喜的是,10萬的價位還可以壓得更低!如果降低對TPS體驗的需求或原版精度的需求,甚至可以壓縮到5萬。

清華90後創業,明星資本加持

在這款產品背後,是一支由清華90後領銜,兼具學術深度與行業實戰經驗的創始團隊。

靈魂人物,便是創始人兼CEO季宇,是一位妥妥的「天才少年」。

他本科就讀於清華物理系,隨後轉向電腦系,並獲得了電腦體系結構(AI晶片方向)的博士學位。

博士畢業後,季宇入選了華為天才少年計畫。

在學術方面,季宇的成就同樣令人矚目。

他長期專注於AI編譯器最佳化和處理器微架構等前沿難題,積累了深厚的AI晶片經驗。

而且,作為共同一作在頂刊Nature發表了電腦體系結構論文,榮獲了電腦學會CCF優博獎。

這些經歷,為他日後創立行雲,打造低成本、高性能褐蟻一體機奠定了堅實基礎。

CTO余洪敏則有著深厚的學術背景,以及豐富的行業經驗。他畢業於華科大,後在中國科學院半導體研究所獲得博士學位。

余洪敏同樣有著堪稱豪華的職業履歷。

他不僅出任過多款頂尖國產晶片的負責人和研發總監,而且還長期領導和管理超100人研發團隊,精通晶片研發設計全流程,成功知道了10+款晶片流片與量產。

他多次推動先進工藝資料中心晶片的架構設計、工程實現,以及大規模商用,積累了無可比擬的實戰經驗。

行雲積體電路的吸引力,不僅體現在技術和團隊上,還得到了資本市場的廣泛認可。

去年11月,行雲完成了新一輪數億元融資,投資方包括智譜AI、中科創星、奇績創壇、水木清華校友基金、嘉御資本、春華資本等一眾明星資本。

從成立到融資,行雲僅用了一年多的時間,就在AI晶片領域站穩了腳跟。

行雲的崛起,正是「中國初創」加速趕超的縮影。

從模型競賽,到應用為王

行雲褐蟻一體機的橫空出世,如同一記重拳,擊碎了大模型部署高成本的壁壘。

它的推出,不僅是技術層面的突破,更是順應了端側部署的三大趨勢。

首先,是成本門檻的指數級下降。

過去私有化部署的成本以百萬計,行雲直接將其拉低至10萬,未來甚至可能降至5萬。

這種成本的驟降,讓中小企業,初創公司乃至個人開發者,都能負擔起高性能AI解決方案,極大地拓展了AI應用的邊界。

其次,CPU方案的崛起,讓硬體架構更加多元化。

GPU因視訊記憶體容量和互聯成本的限制,在LLM部署中逐漸顯露瓶頸。行雲的CPU記憶體方案證明,伺服器CPU高頻寬和超大容量記憶體,能夠以更低成本滿足需求。

未來,更多晶片廠可能轉向類似CPU主導或混合的架構,推動硬體方案的多元化。

最後,應用爆發,會推動AI普惠化的處理程序。顯而易見的是,AI行業已從單純的模型參數競賽,轉向應用落地的比拚。

行雲低成本、高性能解決方案,為教育、醫療、零售等行業的AI應用打開了大門。

這不僅是一款產品的勝利,更是一個時代的開端——大模型正從少數巨頭實驗室珍寶,轉變為千行百業的標配引擎。

普惠AI的時代,已然啟幕!

目前,行雲褐蟻一體機已開放預約體驗,詳情可進入官方公眾號諮詢。 (新智元)