最近,一款由清華90後團隊打造的AI利器,首次實現了只用14.9萬元就能流暢運行滿血版DeepSeek,並且還支援頂配的128K上下文,堪稱媲美百萬級方案。
DeepSeek-R1從開源到現在,已過去4個多月。
然而,高昂的硬體成本、複雜的私有化部署方案,長期以來如同天塹,隔斷了一些企業、開發者們擁抱AI的步伐。
但如今,人手一個滿血版DeepSeek-R1/V3 671B的時代來了!
說出來你可能不信,行雲褐蟻一體機把曾經上百萬才能擁有的體驗,直接打到了14.9萬元。
不僅如此,它的速度和精度更是堪比官方版本——能以超過20 token/s的速度,運行沒有經過量化的「FP8原版」DeepSeek模型。
這是什麼概念?請看對比。
畫面右側就是DeepSeek官網的輸出速度。而左側,便是我們部署在一體機上的滿血版DeepSeek-R1了。
原視訊加速2倍
值得一提的是,剛剛發佈的Qwen3超大杯MoE——235B-A22B,現在也可以用上了!
打造出性價比如此驚人產品的公司,是什麼來頭?
原來,這家的CEO正是前華為天才少年、清華90後博士季宇。
接下來,我們在真機上實際測試一下,這個「原版」DeepSeek-R1到底怎麼樣。
先讓它推理出一個笑話的笑點在哪裡。
可以看出這個速度刷刷的,等待時間也很短,幾乎可以忽略不計。
稍微長點的提示詞,對速度也有明顯的影響。
這道題只給出了一些疑似有規律的符號,而滿血DeepSeek-R1則展示出了強大的推理能力,猜出這是詞牌格式《菩薩蠻》,甚至猜出了是哪些符號分別對應的平、仄。
來一個甘蔗過門這種極易迷惑模型的問題。
DeepSeek-R1順利給出了正確答案,速度也無可挑剔。
甚至,它非常順利地做出了一道AIME 2025數學競賽題。
即使是這種等級的推理,輸出速度也能保持在20 token/s。
外星人來到地球上,可能會選擇四件事中的一件來完成,求地球上最終沒有外星人的機率。這種複雜的數學推理題,DeepSeek-R1也順利做了出來。
因為可以在Dify工作流中使用,這台一體機甚至能完成DeepResearch的功能。
由於模型部署在本地,所以可以基於內部的私域資料進行深度挖掘和研究服務,保障資訊隱私及安全。
廣泛適用於檔案摘要、資料分析、程式碼生成等高精度複雜任務。
完整工作流如下:
為什麼褐蟻一體機,能用10萬元的水平,達到以上驚人的水準?
背後原因,除了得益於自研的高效推理引擎外,還有極致的硬體選型。
褐蟻系列一體機有三種型號可選,理論上參數在1.5T以內的模型都能支援。
甚至,即將推出的DeepSeek-R2,預計也可以實現支援。
其中HY90負責提供極致的性能,671B參數的滿血DeepSeek-R1/V3在最高精度FP8下,速度能達到21.5+ token/s;在FP4精度下,速度能達到28+ token/s。
FP8
INT4
HY70提供極致的性價比,同樣是滿血FP8精度的DeepSeek-R1/V3,速度也能達到20+ token/s,在FP4精度下,速度能達到24+ token/s,相當炸裂。
最後,HY50還提供了極致低價。支援671B參數的滿血DeepSeek-R1/V3,在INT4精度下可實現20+ token/s的輸出速度,相當實用。
不僅如此,褐蟻系列一體機支援多種AI推理引擎,支援API呼叫、知識庫、AI Agent部署,還支援全部的開源大模型。
一次購買,永久使用。
在技術實現上,行雲團隊儘可能提高了大模型推理時有效使用的頻寬上限(理論頻寬1200 GB/s,物理實測1050 GB/s)。
而在實際使用中,這套系統的等效頻寬可以達到800 GB/s,完全滿足740 GB/s的需求。
算力層面,團隊則通過一套獨家定製的軟體協同最佳化方案,極大地提升了系統的運行效率。
輸出方面,上下文長度對速度的影響被控制得很好。只有當長度達到32K以上時,才有一些明顯的下降。
prefill方面,16k以內可以保持在180~200 token/s左右,上下文首字延遲則在80秒以內。
具體來說,首字延遲在1k下是5秒,4k是20秒,8k是40秒,16k是80秒。不過,在128K極限上下文長度下,會達到30分鐘。
說到模型的本地化部署,通常的第一反應就是GPU伺服器。
的確,在大模型訓練時,GPU的優勢可謂是獨步天下——吞吐量可以達到CPU的數十倍甚至上百倍。
然而,在利用模型進行推理的應用階段,一個缺點就足以把眾多企業擋在門外——太貴!
以FP8精度為例:
也就是差不多一套6卡H20 141GB,或者10卡A100/A800 80GB伺服器才能跑起來。
即使按照目前市場上比較便宜的報價,這套系統的最低也要百萬元以上。
為了降低成本,一些企業會採用模型量化,甚至是犧牲對話速度,來降低LLM對硬體的需求。
然而,量化會顯著降低模型精度,尤其是在法律、醫療等需要高品質輸出的場景中,可能會造成生成的結果不可靠。
而降低對話速度,則會破壞即時互動體驗,客戶可能因響應過慢而逐漸流失。
這種體驗與成本的權衡困境,使得許多企業陷入兩難——要麼投入巨資追求高品質部署,要麼選擇低成本方案但犧牲應用效果。
結果是,LLM應用場景被侷限在少數高預算領域,難以在更廣泛行業中實現落地規模化。
以上,這些痛點共同構成了LLM端側部署的「不可能三角」:成本、性能、體驗三者難以兼得。
既然傳統的GPU解決方案無法做到,為什麼不考慮換個思路呢?
相比於用大量GPU去堆疊視訊記憶體,CPU的性價比就高得多了。
中高端伺服器中CPU的單顆價格,通常只在數千美元,這就落在了很多企業的可承受範圍之內。
而且,CPU一直以來最大的短板——記憶體頻寬,如今也有瞭解決方案。
比如行雲的褐蟻一體機,就通過雙路AMD EPYC 9355 CPU,在24條頻率高達6400MT/s的64GB記憶體加持下,實現1.5TB的容量和1.2TB/s的頻寬。
不僅完美滿足要求,甚至還有冗餘。
值得注意的是,為了改善CPU在推理過程中存在的算力不足情況,此時還需加入一張中高端GPU作為補充。
更令人驚喜的是,10萬的價位還可以壓得更低!如果降低對TPS體驗的需求或原版精度的需求,甚至可以壓縮到5萬。
在這款產品背後,是一支由清華90後領銜,兼具學術深度與行業實戰經驗的創始團隊。
靈魂人物,便是創始人兼CEO季宇,是一位妥妥的「天才少年」。
他本科就讀於清華物理系,隨後轉向電腦系,並獲得了電腦體系結構(AI晶片方向)的博士學位。
博士畢業後,季宇入選了華為天才少年計畫。
在學術方面,季宇的成就同樣令人矚目。
他長期專注於AI編譯器最佳化和處理器微架構等前沿難題,積累了深厚的AI晶片經驗。
而且,作為共同一作在頂刊Nature發表了電腦體系結構論文,榮獲了電腦學會CCF優博獎。
這些經歷,為他日後創立行雲,打造低成本、高性能褐蟻一體機奠定了堅實基礎。
CTO余洪敏則有著深厚的學術背景,以及豐富的行業經驗。他畢業於華科大,後在中國科學院半導體研究所獲得博士學位。
余洪敏同樣有著堪稱豪華的職業履歷。
他不僅出任過多款頂尖國產晶片的負責人和研發總監,而且還長期領導和管理超100人研發團隊,精通晶片研發設計全流程,成功知道了10+款晶片流片與量產。
他多次推動先進工藝資料中心晶片的架構設計、工程實現,以及大規模商用,積累了無可比擬的實戰經驗。
行雲積體電路的吸引力,不僅體現在技術和團隊上,還得到了資本市場的廣泛認可。
去年11月,行雲完成了新一輪數億元融資,投資方包括智譜AI、中科創星、奇績創壇、水木清華校友基金、嘉御資本、春華資本等一眾明星資本。
從成立到融資,行雲僅用了一年多的時間,就在AI晶片領域站穩了腳跟。
行雲的崛起,正是「中國初創」加速趕超的縮影。
行雲褐蟻一體機的橫空出世,如同一記重拳,擊碎了大模型部署高成本的壁壘。
它的推出,不僅是技術層面的突破,更是順應了端側部署的三大趨勢。
首先,是成本門檻的指數級下降。
過去私有化部署的成本以百萬計,行雲直接將其拉低至10萬,未來甚至可能降至5萬。
這種成本的驟降,讓中小企業,初創公司乃至個人開發者,都能負擔起高性能AI解決方案,極大地拓展了AI應用的邊界。
其次,CPU方案的崛起,讓硬體架構更加多元化。
GPU因視訊記憶體容量和互聯成本的限制,在LLM部署中逐漸顯露瓶頸。行雲的CPU記憶體方案證明,伺服器CPU高頻寬和超大容量記憶體,能夠以更低成本滿足需求。
未來,更多晶片廠可能轉向類似CPU主導或混合的架構,推動硬體方案的多元化。
最後,應用爆發,會推動AI普惠化的處理程序。顯而易見的是,AI行業已從單純的模型參數競賽,轉向應用落地的比拚。
行雲低成本、高性能解決方案,為教育、醫療、零售等行業的AI應用打開了大門。
這不僅是一款產品的勝利,更是一個時代的開端——大模型正從少數巨頭實驗室珍寶,轉變為千行百業的標配引擎。
普惠AI的時代,已然啟幕!
目前,行雲褐蟻一體機已開放預約體驗,詳情可進入官方公眾號諮詢。 (新智元)