#H800 | 熱門關鍵字 | 鉅亨號 | Anue鉅亨

#H800

彭博社預言，中國晶片要爆發了

01大家好，我是笑笑呀～彭博社又在吹咱們得彩虹屁了。彭博社最近發文指出：中中國國產業級AI晶片已經步入加速崛起的最後階段了。甚至放出重磅預言：2026年到2027年，中國AI晶片將迎來“DeepSeek時刻”。“DeepSeek時刻”在晶片界意味著什麼？我們回頭看年初Deepseek橫空出世，一度引發老美AI產業股價崩塌。十分之一的成本，媲美世界頂級的AI大模型。“Deepseek時刻”，成為中國國產替代，乃至挑戰行業霸主的代名詞。回到晶片領域，意味著用極致成本和性能打破對世界頂級硬體的依賴。就像DeepSeek用受限的H800晶片跑出了驚豔成績，中國晶片廠商正在硬體領域復刻這種奇蹟。這意味著，中國國產晶片將大幅拉低算力中心建設的成本。並且，不管是頂尖製程的突破，還是架構創新，至少能跑出媲美頂級GPU的性能。02彭博社鎖定的時間是2026年到2027年。短則一年，遲則兩年。這個預言，和中國晶片大佬的計畫不謀而合。首先是“寒王”寒武紀，計畫2026年將高端AI加速器產量增至50萬片。從2025年14.2萬片到50萬片，這差不多是三倍的產量跨越。這背後，必定是成本和技術的突破。華為也放出聲音，要在2026年實現頂級AI晶片產量翻倍。除了這兩個行業霸主，今年還有兩個獨角獸嶄露頭角。摩爾線程、沐曦最近火爆上市，中籤引爆新一輪股民暴富。背後是市場對中國國產晶片產業的強烈看好。就在前不久，放出一個有趣的消息：老美政府同意輝達向東大出售旗下晶片H200。雖然這並不是輝達最強晶片，但在當下也很夠用。這個時候放風，除了黃仁勳各路遊說之外，是否還因為老中晶片即將突破。再不搶佔市場，或許東大的晶片大門，徹底給老美關上了呢？這裡面的邏輯，很好推理。03不管彭博社的消息是否誇大，但我對中國國產AI晶片，依舊非常看好。這是政策、資本共同推動，必須實現的中國國產替代。這與輝達能否售賣H200無關，甚至也不全然關乎國家意志。今天能放開售賣，明天就能重新卡脖子。而產業最怕的就是供應鏈不穩定，上下游的企業即便想買，恐怕也得做好中國國產替代的後路。這也是中國國產GPU第一股、第二股今年上市火爆的底層原因。政策給到位，資本肯砸錢，剩下的，就看誰的技術先沉澱下來了。 (笑笑好友圈)

DeepSeek研究員1200行程式碼復刻vLLM，H800硬體實測性能反超原版

僅用不到1200行程式碼，實現最小化且完全可讀的vLLM！DeepSeek研究員俞星凱搞了個開放原始碼專案引得大夥拍手叫絕。項目名為Nano-vLLM（奈米級-vLLM），有三大特點：快速離線推理：推理速度可與vLLM相媲美可讀性強的程式碼庫：基於不到1200行Python程式碼實現，簡潔乾淨最佳化套件：包含前綴快取、Torch compilation 、CUDA graph等下面是vLLM與Nano-vLLM在不同硬體和模型配置下的基準測試情況。在RTX 4070硬體、Qwen3-0.6B模型環境中，設定了256個序列的總請求數，輸入和輸出長度均在100-1024個 token間隨機採樣。測試結果be like：vLLM略微領先。二者輸出token量相同，vLLM耗時98.95秒、吞吐量為1353.86 tokens/s，Nano-vLLM耗時101.90秒、吞吐量1314.65tokens/s。接著在H800硬體、Qwen3-8B模型環境中，總請求數為1024個序列，輸入輸出長度同樣隨機採樣。此時Nano-vLLM甚至反超原框架。二者輸出token量依舊相同，vLLM耗時98.67秒、吞吐量5916.89 tokens/s ，Nano-vLLM耗時86.73秒、吞吐量 6731.42 tokens/s。這一成果來自於DeepSeek研究員俞星凱。他2021年獲得南京大學電腦科學與技術系學士學位，同年又被南京大學免試錄取為碩士研究生，在校他同時也是由周志華教授領導的LAMDA團隊的成員。vLLM是什麼？vLLM是一款專為LLM推理與部署最佳化的高性能框架，最初由加州大學伯克利分校的Sky Computing Lab開發，現已發展成為一個匯聚學界與業界貢獻的社區驅動項目。該項目在GitHub目前已累計49.5k+ Star。其核心技術靈感源自作業系統虛擬記憶體分頁機制。此前LLM服務系統因採用連續記憶體儲存KV快取，導致內部/外部碎片化嚴重，且無法有效共用記憶體，極大限制了批處理規模。針對這一問題，團隊提出PagedAttention演算法，允許將連續的鍵（key）值（value）對儲存在非連續記憶體空間中，通過將KV快取劃分為固定大小的塊（Block），利用塊表動態對應邏輯塊與物理塊地址。在注意力計算過程中，PagedAttention核心會分別識別和獲取不同的KV塊。下面是一個示例，鍵和值向量分佈在三個塊中，且這三個塊在實體記憶體中並不連續。基於PagedAttention演算法，團隊建構了vLLM服務系統，其架構下圖所示：vLLM採用集中式調度器來協調分佈式GPU工作節點的執行。借助PagedAttention，KV快取管理器以分頁方式有效管理KV快取。具體而言，KV快取管理器通過集中式調度器傳送的指令來管理GPU工作節點上的物理KV快取記憶體。vLLM實現了KV快取記憶體近乎零浪費，請求內及請求間KV快取的靈活共享進一步降低記憶體使用。評估顯示，與FasterTransformer和Orca等此前最先進系統相比，vLLM在相同延遲水平下將流行LLM的吞吐量提升2-4倍，且在更長序列、更大模型和更複雜解碼演算法場景中改進更為顯著。總結來說，vLLM靈活且易於使用，具備以下特點：與流行的Hugging Face模型無縫整合，包括類Transformer模型、混合專家模型、嵌入模型、多模態模型；支援通過各種解碼演算法實現高吞吐量服務，包括平行採樣、波束搜尋等；支援張量平行和pipeline平行，以實現分佈式推理；支援流式輸出；相容OpenAI的API伺服器；支援NVIDIA GPU、AMD CPU和GPU、Intel CPU和GPU、PowerPC CPU、TPU以及AWS Neuron；支援前綴快取；支援多LoRA。值得一提的是，在實現層面，vLLM前端基於FastAPI，後端是基於GPU的推理引擎。vLLM引擎由8500行Python程式碼和2000行C++/CUDA程式碼構成。而這次DeepSeek研究員僅用不到1200行程式碼就實現了輕量級vLLM，性能和原版相媲美。參考連結：[1]https://github.com/GeeeekExplorer/nano-vllm/tree/main[2]]https://www.lamda.nju.edu.cn/yuxk/[3]https://arxiv.org/pdf/2309.06180[4]https://github.com/vllm-project/vllm (量子位)

誰能代替輝達？

今年夏天，英偉達（輝達）創辦人黃仁勳特別騰出時間，拜訪了一個名叫戰略與國際研究中心（CSIS）的智庫。在美國，智庫的意見能在很大程度上左右華盛頓的政策走向，深處科技戰前線的黃仁勳自然深知這一點。黃仁勳上來就是一頓彩虹屁，並明確表達了捐贈的意願。隨後他話鋒一轉，表示有一位小同志嚴重拖累了智庫隊伍的整體水平，建議清除出去。這位小同志不是別人，正是CSIS資深研究中心主任Gregory C. Allen，也是美國晶片出口管制政策的堅定鼓吹者。面對美國的打壓，英偉達似乎比中國公司還要著急。過去數月，黃仁勳一直在盡力阻止制裁落地。

🔺盤中快訊 2023/10/17(二) 大家早安☀ 美股最新收盤價道瓊指數上漲 0.93%，收 33,984.54 點。

英偉達殺入光刻領域，DPU和GPU重磅更新，首次詳談雲服務！

在昨晚的GTC演講中，英偉達（Nvidia，輝達）CEO宣布了一系列的重磅芯品，當中不但包括了為中國專門準備的，基於H100改版而來的H800芯片。同時，公司還宣布了為生成式AI而準備的產品。在這次演講中，黃仁勳還帶來了加速2nm設計的計算光刻等一系列產品，現在我們綜合如下，與讀者分享。將旗艦H100 調整為H800，出口到中國據路透社報導，主導人工智能芯片市場的美國半導體設計公司Nvidia 已將其旗艦產品修改為可以合法出口到中國的版本。

機會是留給有準備的人

2023/03/23