#一體機
每個CEO都需要一個總統「同款」手提箱
就在剛剛,全球首個專為CEO打造的「Agent一體機」來了!它就像總統的「核足球」,讓決策者能直抵一線炮火,打破資訊壁壘。在好萊塢電影中,我們經常會看到一隻黑色公文包。當總統需要登上空軍一號,或者去往全球任何地方時,身後那隻黑色公文包總是如影隨形。有人把它稱作核足球(Nuclear Football),它還有個正式名字叫總統應急包(Presidential Emergency Satchel)。無論總統走到那裡——飛機上、車隊裡、在會議桌前——這只大概20公斤重、皮革與鋁合金混合結構的手提箱從未離開過他一步。2021年7月,一名軍事助理攜帶被稱為核足球的公文包這黑箱子裡裝的是什麼,大家都知道,一套非常複雜的身份認證系統和密碼核驗裝置。當國家面臨突發危機,這只箱子會被翻開,溝通鏈直接啟動,任何決策都要求被立刻執行。當然,我們不是去討論箱子的具體原理和背後設計所考慮的複雜政治邏輯。在這個黑箱子背後,隱藏的一個有趣的事情,那就是資訊傳遞是有層級和代價的——即使是總統,也需要一個特殊定製的箱子和特殊定製的驗證流程。同樣地,在一家公司裡,即使沒有核武器時刻,也同樣會有類似的「危機時刻」:客戶投訴積壓產品重大bug被掩蓋項目進展不明朗內部溝通斷層這些都是如果不能被儘早看見、迅速響應,就可能帶來嚴重後果的「隱形炸彈」。管理層真實的痛點,是資訊常常在層級中被潤色、或在報告中被調整,讓決策者拿到的已經不是最原始的現實。現在,一種全新的、專門為CEO以及企業核心管理層定製的「Agent一體機」有望成為未來公司的「核足球」!未來,只需要圖中這樣一個「小小的箱子」,公司的決策管理層,就可以時刻把握組織中複雜糾纏的真實資料。AI一體機火爆,但功能還差點意思在Agent一體機出現前,我們熟知的AI一體機其實已經風靡一時了,尤其是在年初DeepSeek爆火之後。不管是叫智算一體機、大模型一體機,還是訓推一體機,它的核心都是「模型」。通過把算力硬體、作業系統、AI平台軟體,以及訓練/推理整合在一台裝置裡,AI一體機讓企業可以輕鬆地實現模型的本地部署。但是具體問什麼問題、出什麼結果,還需要自己去開發才行。也就是說,AI一體機最終提供的還是「中間過程」,而不是決策需要的結果。Agent一體機,橫空出世而剛剛提到的「Agent一體機」,則是一種全新的概念。它通過將硬體、軟體、算力、自研Agent和模型深度融合為一個整體,讓使用者可以完全聚焦在落地場景和企業戰略上。世界首個面向CEO的AI解決方案今天,很多AI產品幫助設計師出圖、幫助法務審合同,這些都不錯,但最關鍵的管理角色,CEO——幾乎沒有專屬工具。企業發展到一定階段,難點已不是怎麼掙錢,而是如何管理好組織,實現持續盈利。市面上的管理課程花幾十萬也未必能真正讓企業戰略決策落地,因為缺乏工具和資訊支撐。CEO想聽到「一線的炮火聲」,卻往往只能靠抽樣調研或輪值客服,效果全看運氣。於是,戰略和執行之間,始終存在「最後一公里」的斷層。Agent一體機的意義,就是把這最後一公里打通:一線即時資訊沉澱,聽到真話:讓CEO隨時掌握前線的「炮火聲」,而不是靠偶爾的抽樣。宏觀與微觀的橋樑:既保留一線細節,又能結合戰略視角形成決策。一體化閉環:不是單點工具的堆疊,而是能直接嵌入企業日常運轉的Agent系統。所以,當我們說「不要再做AI一體機了」,是因為僅有模型問答無法創造真正價值。企業需要的不是「能回答問題的AI」,而是「能解決問題的Agent」。而這也和2025年AI的發展大勢如出一轍。就在剛剛,智躍Zleap重磅發佈了全球首個專為CEO和管理者設計的Agent一體機——Zleap-D1。它通過私有化部署的Agent系統,自動收集、分析企業全域資訊,協助所有CEO和管理層解決管理和決策難題。硬體配置如下:單卡RTX 4090 48GB、64GB記憶體、12核CPU,搭載4-bit量化版Qwen3 30B A3B(後續可升級)全新範式,線上體驗Zleap-D1「Agent一體機」所帶來的,是一種全新的範式體驗。它不是一個收費的軟體,而是一個能替你落地執行、能直接帶來管理增效的夥伴。這才是CEO真正願意買單的東西。值得一提的是,為了更好的直觀理解和描述,Zleap還提供了免費的網頁版功能,正常情況下,所有資料都將一體機本地運行。這個網頁相當於Zleap把企業級的知識庫能力,免費開放,並且提供了兩大能力,知識庫能力和資訊提取能力。目前Zleap線上網站支援的資料來源包括文件、飛書機器人,未來還會推出爬蟲、企業微信和釘釘等。設定好資料來源後,就可以體驗Zleap定時的報告推送。Zleap生成的每份報告都有「智能速覽」、「智能目錄」和詳細的內容分析。如何設定了飛書機器人作為資料來源,Zleap可以快速總結各個群聊的長期歷史記錄,幫助領導層更好的決策,打通訊息壁壘。以上傳的文件資料作為演示。上傳檔案後,後台會進行解析,解析完成即可使用報告助手和問答助手。Zleap-D1:CEO的專屬情報中樞下面,我們再來看看Zleap-D1在實際應用中的表現,到底如何?作為一個成立時間較久、人員規模較大的團隊,302公司每天都有海量的客戶溝通資料。然而在傳統的管理流程中,大量有價值的使用者需求在資訊傳遞中被損耗或扭曲。在這裡,Zleap-D1一項關鍵任務,便是將這些沉睡的資料轉化為CEO能直接使用的情報,從而直接洞察關鍵的使用者和需求。CEO視角的互動式分析:從宏觀到像素級的洞察首先,系統每天會自動梳理所有客戶互動,生成一份總結報告推送至管理者的APP。報告中,每一個待處理事項都以卡片形式呈現,清晰地標註著項目名稱和問題細節。CEO可以通過摺疊式的日報檢視,快速分辨每日事務的輕重緩急。此外,還可以通過「話題熱度」檢視,一眼洞察近期的客戶焦點或市場新需求。如果需要進一步探究,只需再次點選「來源」,系統將瞬間呈現客戶與客服之間最原始、未經任何修飾的完整聊天記錄。除了被動獲取之外,它支援自然語言的即時問答。也就是說,CEO可以隨時打開APP,像與真人助理對話一樣發出指令:1. 幫我檢查一下,最近有沒有客戶對我們的客服表達了不滿?2. 今天有沒有客戶提出要開具對公發票?第一個問題,可以及時發現那些因客服無法理解而被忽略的客戶需求。第二個問題背後,則隱藏著對商業的深刻洞察——在許多業務場景中,開具對公發票正是高價值企業客戶的典型特徵。通過這個指令,CEO立刻篩選出潛在的大客戶線索,然後再交由客戶經理進行前瞻性的、更高品質的服務。最終,這些由底層資料驅動的、看似微小的需求被持續滿足,日積月累,最終讓產品在使用者體驗上與競爭對手拉開代差。移動優先:大老闆,小螢幕值得一提的是,Zleap-D1從立項之初,就將APP作為核心服務載體。其設計哲學源於一個敏銳的觀察:「越大的老闆,螢幕越小;最大的老闆,可能沒有電腦,只用手機。」因此,Zleap-D1的一切功能和互動,都圍繞著在移動端提供無縫、高效的體驗而打造。端到端的解決方案為什是本地部署?團隊之所以會選擇本地化一體機方案,一方面是基於企業管理者的真實需求,另一方面則是基於CEO親身經歷的慘痛教訓。首先,雲服務看似靈活的「按量計費」模式,實則是懸在企業頭上的達摩克利斯之劍——企業往往為了少數核心功能,而被迫購買包含大量冗餘服務的高價套餐。相比之下,Zleap-D1隻需一次性的硬體投入,就可以將算力這一核心成本內化為固定資產,後續營運成本僅為電費。其次,創始團隊曾經歷過一次毀滅性打擊——長期依賴的一家SaaS服務商突然倒閉,伺服器關停,導致公司數年的溝通資料永久丟失。這一事件,讓CEO對將企業核心資料託管於第三方(尤其是小公司)的風險產生了極大的警惕。而Zleap-D1則可以確保企業所有的資料都儲存在自己的物理伺服器內,使用者可以隨時隨地通過客戶端,甚至命令列直接訪問資料庫。為什麼是Agent?在Zleap-D1中,所有工作流的設計都只服務於一個終極目標——確保交付給管理者的每一份報告,都有真實、可信、可執行的價值。換句話說,Agent一體機是將「是否解決了真實問題」作為了唯一的衡量尺度,而不是去大秀特秀搭載了什麼模型。預處理Agent當海量的、雜亂的一線資訊湧入時,如果只是簡單存入資料庫,那它們依然是無效資訊。而預處理Agent則可以從資訊中提取多個關鍵維度:這是什麼類型的客戶?他的具體需求是什麼?緊急度高不高?是否與其他項目有關聯?這個思維和模型訓練很像:Garbage in, garbage out(垃圾進,垃圾出)。只有高品質的標註資料,才能訓練出好模型。同理,只有經過智能預處理的資訊,才能產生真知灼見。多Agent協同呼叫對於複雜的商業問題來說,我們顯然無法依靠一個巨大的Prompt來解決。這也正是現有AI一體機的弊端之一——老闆把機器買來之後,還需要招一個研發團隊來搭建工作流。而Zleap-D1首先會將一個宏觀任務(如「分析一篇萬字長文」)分解為成百上千個微觀子任務。然後,再調度一個由分析、總結、關聯、溯源等多種專職Agent組成的團隊,進行高度協同的「模型循環」作業。在這個過程中,語言模型被高頻呼叫,但它的每一次行動都受到工作流的嚴格約束和引導,確保其輸出穩定、可靠、且高度聚焦於業務目標,從而規避了小模型自由決策時不穩定的風險。裂變出一個「Agent矩陣」實際上,Zleap這套解決方案,還有一層更深的價值——建構了一套可復用的、軟硬一體的AI基礎設施。在垂直方向,Zleap將持續深耕中國數百萬中小企業的管理層市場。與此同時,它將啟動橫向拓展——推出「Coding一體機」。目前,Zleap在記憶與檢索架構在程式碼處理上已展現出巨大優勢。未來,只需將底層的通用模型取代為經過程式設計能力強化學習的專業模型,就能創造出一台能夠在本地24小時不限速運行、徹底解決類似Cursor等雲端工具限流痛點的個人程式設計伺服器。最終,Zleap的願景是基於這套強大的「基建」,不斷孵化出面向法務、財務、銷售等不同職能的Agent一體機,在企業內部形成一個強大的、協同工作的「Agent矩陣」。 (新智元)
人人都能有一個滿血DeepSeek?清華90後出手,10萬塊暢玩FP8原版
最近,一款由清華90後團隊打造的AI利器,首次實現了只用14.9萬元就能流暢運行滿血版DeepSeek,並且還支援頂配的128K上下文,堪稱媲美百萬級方案。DeepSeek-R1從開源到現在,已過去4個多月。然而,高昂的硬體成本、複雜的私有化部署方案,長期以來如同天塹,隔斷了一些企業、開發者們擁抱AI的步伐。但如今,人手一個滿血版DeepSeek-R1/V3 671B的時代來了!說出來你可能不信,行雲褐蟻一體機把曾經上百萬才能擁有的體驗,直接打到了14.9萬元。不僅如此,它的速度和精度更是堪比官方版本——能以超過20 token/s的速度,運行沒有經過量化的「FP8原版」DeepSeek模型。這是什麼概念?請看對比。畫面右側就是DeepSeek官網的輸出速度。而左側,便是我們部署在一體機上的滿血版DeepSeek-R1了。原視訊加速2倍值得一提的是,剛剛發佈的Qwen3超大杯MoE——235B-A22B,現在也可以用上了!打造出性價比如此驚人產品的公司,是什麼來頭?原來,這家的CEO正是前華為天才少年、清華90後博士季宇。10萬價位,單機可跑滿血DeepSeek接下來,我們在真機上實際測試一下,這個「原版」DeepSeek-R1到底怎麼樣。先讓它推理出一個笑話的笑點在哪裡。可以看出這個速度刷刷的,等待時間也很短,幾乎可以忽略不計。稍微長點的提示詞,對速度也有明顯的影響。這道題只給出了一些疑似有規律的符號,而滿血DeepSeek-R1則展示出了強大的推理能力,猜出這是詞牌格式《菩薩蠻》,甚至猜出了是哪些符號分別對應的平、仄。來一個甘蔗過門這種極易迷惑模型的問題。DeepSeek-R1順利給出了正確答案,速度也無可挑剔。甚至,它非常順利地做出了一道AIME 2025數學競賽題。即使是這種等級的推理,輸出速度也能保持在20 token/s。外星人來到地球上,可能會選擇四件事中的一件來完成,求地球上最終沒有外星人的機率。這種複雜的數學推理題,DeepSeek-R1也順利做了出來。因為可以在Dify工作流中使用,這台一體機甚至能完成DeepResearch的功能。由於模型部署在本地,所以可以基於內部的私域資料進行深度挖掘和研究服務,保障資訊隱私及安全。廣泛適用於檔案摘要、資料分析、程式碼生成等高精度複雜任務。完整工作流如下:極致性價比為什麼褐蟻一體機,能用10萬元的水平,達到以上驚人的水準?背後原因,除了得益於自研的高效推理引擎外,還有極致的硬體選型。褐蟻系列一體機有三種型號可選,理論上參數在1.5T以內的模型都能支援。甚至,即將推出的DeepSeek-R2,預計也可以實現支援。其中HY90負責提供極致的性能,671B參數的滿血DeepSeek-R1/V3在最高精度FP8下,速度能達到21.5+ token/s;在FP4精度下,速度能達到28+ token/s。FP8INT4HY70提供極致的性價比,同樣是滿血FP8精度的DeepSeek-R1/V3,速度也能達到20+ token/s,在FP4精度下,速度能達到24+ token/s,相當炸裂。最後,HY50還提供了極致低價。支援671B參數的滿血DeepSeek-R1/V3,在INT4精度下可實現20+ token/s的輸出速度,相當實用。不僅如此,褐蟻系列一體機支援多種AI推理引擎,支援API呼叫、知識庫、AI Agent部署,還支援全部的開源大模型。一次購買,永久使用。在技術實現上,行雲團隊儘可能提高了大模型推理時有效使用的頻寬上限(理論頻寬1200 GB/s,物理實測1050 GB/s)。而在實際使用中,這套系統的等效頻寬可以達到800 GB/s,完全滿足740 GB/s的需求。算力層面,團隊則通過一套獨家定製的軟體協同最佳化方案,極大地提升了系統的運行效率。輸出方面,上下文長度對速度的影響被控制得很好。只有當長度達到32K以上時,才有一些明顯的下降。prefill方面,16k以內可以保持在180~200 token/s左右,上下文首字延遲則在80秒以內。具體來說,首字延遲在1k下是5秒,4k是20秒,8k是40秒,16k是80秒。不過,在128K極限上下文長度下,會達到30分鐘。LLM端側部署,CPU瞭解一下說到模型的本地化部署,通常的第一反應就是GPU伺服器。的確,在大模型訓練時,GPU的優勢可謂是獨步天下——吞吐量可以達到CPU的數十倍甚至上百倍。然而,在利用模型進行推理的應用階段,一個缺點就足以把眾多企業擋在門外——太貴!以FP8精度為例:671B的參數量,意味著需要671GB以上的記憶體37B的啟動參數,對應的是37GB x 20 token/s = 740GB/s以上的記憶體頻寬也就是差不多一套6卡H20 141GB,或者10卡A100/A800 80GB伺服器才能跑起來。即使按照目前市場上比較便宜的報價,這套系統的最低也要百萬元以上。為了降低成本,一些企業會採用模型量化,甚至是犧牲對話速度,來降低LLM對硬體的需求。然而,量化會顯著降低模型精度,尤其是在法律、醫療等需要高品質輸出的場景中,可能會造成生成的結果不可靠。而降低對話速度,則會破壞即時互動體驗,客戶可能因響應過慢而逐漸流失。這種體驗與成本的權衡困境,使得許多企業陷入兩難——要麼投入巨資追求高品質部署,要麼選擇低成本方案但犧牲應用效果。結果是,LLM應用場景被侷限在少數高預算領域,難以在更廣泛行業中實現落地規模化。以上,這些痛點共同構成了LLM端側部署的「不可能三角」:成本、性能、體驗三者難以兼得。既然傳統的GPU解決方案無法做到,為什麼不考慮換個思路呢?相比於用大量GPU去堆疊視訊記憶體,CPU的性價比就高得多了。中高端伺服器中CPU的單顆價格,通常只在數千美元,這就落在了很多企業的可承受範圍之內。而且,CPU一直以來最大的短板——記憶體頻寬,如今也有瞭解決方案。比如行雲的褐蟻一體機,就通過雙路AMD EPYC 9355 CPU,在24條頻率高達6400MT/s的64GB記憶體加持下,實現1.5TB的容量和1.2TB/s的頻寬。不僅完美滿足要求,甚至還有冗餘。值得注意的是,為了改善CPU在推理過程中存在的算力不足情況,此時還需加入一張中高端GPU作為補充。更令人驚喜的是,10萬的價位還可以壓得更低!如果降低對TPS體驗的需求或原版精度的需求,甚至可以壓縮到5萬。清華90後創業,明星資本加持在這款產品背後,是一支由清華90後領銜,兼具學術深度與行業實戰經驗的創始團隊。靈魂人物,便是創始人兼CEO季宇,是一位妥妥的「天才少年」。他本科就讀於清華物理系,隨後轉向電腦系,並獲得了電腦體系結構(AI晶片方向)的博士學位。博士畢業後,季宇入選了華為天才少年計畫。在學術方面,季宇的成就同樣令人矚目。他長期專注於AI編譯器最佳化和處理器微架構等前沿難題,積累了深厚的AI晶片經驗。而且,作為共同一作在頂刊Nature發表了電腦體系結構論文,榮獲了電腦學會CCF優博獎。這些經歷,為他日後創立行雲,打造低成本、高性能褐蟻一體機奠定了堅實基礎。CTO余洪敏則有著深厚的學術背景,以及豐富的行業經驗。他畢業於華科大,後在中國科學院半導體研究所獲得博士學位。余洪敏同樣有著堪稱豪華的職業履歷。他不僅出任過多款頂尖國產晶片的負責人和研發總監,而且還長期領導和管理超100人研發團隊,精通晶片研發設計全流程,成功知道了10+款晶片流片與量產。他多次推動先進工藝資料中心晶片的架構設計、工程實現,以及大規模商用,積累了無可比擬的實戰經驗。行雲積體電路的吸引力,不僅體現在技術和團隊上,還得到了資本市場的廣泛認可。去年11月,行雲完成了新一輪數億元融資,投資方包括智譜AI、中科創星、奇績創壇、水木清華校友基金、嘉御資本、春華資本等一眾明星資本。從成立到融資,行雲僅用了一年多的時間,就在AI晶片領域站穩了腳跟。行雲的崛起,正是「中國初創」加速趕超的縮影。從模型競賽,到應用為王行雲褐蟻一體機的橫空出世,如同一記重拳,擊碎了大模型部署高成本的壁壘。它的推出,不僅是技術層面的突破,更是順應了端側部署的三大趨勢。首先,是成本門檻的指數級下降。過去私有化部署的成本以百萬計,行雲直接將其拉低至10萬,未來甚至可能降至5萬。這種成本的驟降,讓中小企業,初創公司乃至個人開發者,都能負擔起高性能AI解決方案,極大地拓展了AI應用的邊界。其次,CPU方案的崛起,讓硬體架構更加多元化。GPU因視訊記憶體容量和互聯成本的限制,在LLM部署中逐漸顯露瓶頸。行雲的CPU記憶體方案證明,伺服器CPU高頻寬和超大容量記憶體,能夠以更低成本滿足需求。未來,更多晶片廠可能轉向類似CPU主導或混合的架構,推動硬體方案的多元化。最後,應用爆發,會推動AI普惠化的處理程序。顯而易見的是,AI行業已從單純的模型參數競賽,轉向應用落地的比拚。行雲低成本、高性能解決方案,為教育、醫療、零售等行業的AI應用打開了大門。這不僅是一款產品的勝利,更是一個時代的開端——大模型正從少數巨頭實驗室珍寶,轉變為千行百業的標配引擎。普惠AI的時代,已然啟幕! 目前,行雲褐蟻一體機已開放預約體驗,詳情可進入官方公眾號諮詢。 (新智元)