當下,人工智慧蓬勃發展,創新技術不斷湧出, 整個產業正經歷一場意義深遠的變革。
而這其中,DeepSeek 和LPU 的出現格外引人注目。 DeepSeek 憑藉其卓越的性能和強大的成本優勢,迅速在全球範圍內圈粉無數,掀起了一股使用熱潮。而LPU,作為專為語言處理任務量身定制的硬體處理器,以其區別於傳統GPU 的創新架構、令人驚嘆的性能表現和超低的成本優勢,成為了AI 領域的新寵。
DeepSeek與LPU的結合,或許會為這場變革注入新的動力。
01.LPU是什麼?
2024年2月,由GoogleTPU設計者Jonathan Ross創立的Groq公司發表新一代LPU,實測效能引發產業震動:在Meta Llama 2-70B推理任務中,其LPU相較輝達H100實現10倍效能提升,推理成本降低80%。而LPU本質為減少計算中記憶體呼叫次數,從而實現推理效率的提升。對推理晶片而言,更高效能、更低成本的LPU,提供了一個新的技術路徑選項。
LPU,全名為Language Processing Unitix,是一種專為語言處理任務設計的硬體處理器。它與我們熟知的GPU(Graphics Processing Unit,圖形處理器)有著本質上的差異。 GPU 最初是為處理圖形渲染任務而設計的,在平行運算方面表現出色,因此後來被廣泛應用於人工智慧領域的模型訓練和推理。然而,LPU 則是專門針對語言處理任務進行最佳化的,旨在更有效率地處理文字數據,執行諸如自然語言理解、文字生成等任務。
從硬體架構來看,LPU 有著獨特的設計,採用了時序指令集電腦架構。同時,LPU 不需要晶片外內存,這是其區別於傳統硬體架構的重要特點。傳統的GPU 在運作過程中,需要依賴高速的數據傳輸和大量的晶片外記憶體來儲存和處理數據,這不僅增加了硬體成本,還可能在數據傳輸過程中產生延遲,影響系統效能。而LPU 使用的是SRAM(Static Random - Access Memory,靜態隨機存取記憶體),其速度比GPU 所使用的記憶體快約20 倍。這種高速的記憶體使得LPU 在處理資料時能夠更快地讀取和寫入訊息,大大提高了處理效率。
在能源效率方面,LPU透過減少多執行緒管理的開銷和避免核心資源的未充分利用,實現了更高的每瓦特計算性能,在執行推理任務時,無需像GPU那樣頻繁從內存加載數據,消耗的電量也低於輝達的GPU。
Groq公司作為LPU的重要推動者,公佈的LPU效能令人驚艷。與目前產業內的領先模型相比,LPU展現出了巨大的優勢。例如,在與GPT - 4的對比中,Groq的LPU比GPT - 4 快18倍,在處理速度上達到了每秒500 token的驚人成績,打破了行業紀錄,其性能是輝達GPU的10倍。而且,不同於輝達GPU對高速資料傳輸和高頻寬記憶體(HBM)的依賴,Groq的LPU系統中沒有採用HBM,而是透過最佳化的SRAM設計,實現了高效的資料處理。這種獨特的設計使得LPU在確保高效能的同時,也降低了硬體成本和系統複雜性。
這項突破也凸顯了運算模式的潛在轉變,即在處理基於語言的任務時,LPU 可以提供專業化、更有效率的替代方案,挑戰傳統上占主導地位的GPU。
02.中國國產企業佈局LPU
中國國產LPU當然也受到市場關注。
目前,清華系的無問芯穹已研發出全球首個基於FPGA(現場可編程邏輯門陣列)的大模型處理器,稱其為無穹LPU,透過大模型高效壓縮的軟硬體協同優化技術,使得LLaMA2-7B模型的FPGA部署成本從4塊卡減少至1塊卡,並且展示性價比與能效比同等單次結構
無問芯穹研發的端側大模型推理處理器LPU採用異質運算技術。其核心目標是提供如水電煤般便利的算力服務,解決目前市場中算力資源匱乏的問題。目前已透過適配多種AI 晶片,實現不同模型高效並行處理,根據無問芯穹的內部測試數據,這款晶片在大規模模型推理場景中,算力成本下降高達90%,為國內算力之困開闢了一條前路。
據悉,無問芯穹成立於2023年5月,創始團隊來自清華大學電子工程系,致力於成為大模型落地過程中的"M×N"中間層,以打造大模型軟硬體一體化方案,鏈結上下游,建立AGI(通用人工智慧)時代大模型基礎設施。
03.DeepSeek利多上游,將推動AI大規模應用
2025年1月20日,DeepSeek正式發表DeepSeek-R1模型,在數學、程式碼、自然語言推理等任務上,效能成功比肩OpenAI-o1正式版,在1月24日國外大模型排名Arena上,DeepSeek-R1基準測試風格升至全類別大模型第三,在第一級控制類模型中與OpenAI-11基準測試風格並列出更強大的技術。僅僅一周後,DeepSeek在中國區及美區蘋果App Store免費榜均佔據首位,成為首個同期在中國和美區蘋果App Store佔據第一位的中國應用,用戶量在短時間內迅速攀升,在全球範圍內掀起了使用熱潮。
DeepSeek發展速度之快令人咋舌,日活數據的成長堪稱「火箭式」 上升。前幾日,DeepSeek 的日活剛突破2000 萬,然而不到一周的時間,日活已經飆升至3000 萬,短短7 天內用戶增長一個億。與之形成鮮明對比的是,曾經風靡全球的ChatGPT 達到同樣的用戶成長規模需要2 個月的時間。 DeepSeek 的快速崛起,彰顯了其在人工智慧領域的強大競爭力和市場吸引力。
隨著DeepSeek 用戶的大規模成長,對上游做算力的公司產生了顯著的利多影響。算力作為人工智慧運作的基礎支撐,是模型訓練和推理得以實現的關鍵。 DeepSeek 的火爆意味著對算力的需求呈指數級增長,這為上游的算力供應商提供了廣闊的市場空間。
值得一提的是,三家基礎電信業者皆全面接取DeepSeek 開源大模型。這項舉措不僅進一步推動了DeepSeek 的廣泛應用,也為電信企業自身的業務發展帶來了新的機會。電信企業擁有豐富的網路資源和龐大的用戶基礎,接上DeepSeek 大模型後,可以將人工智慧技術融入通訊服務、智慧客服、大數據分析等多個業務領域,提升服務品質和用戶體驗,同時也為自身在人工智慧時代的轉型發展奠定了堅實的基礎。
在市場層面,DeepSeek 的成功也引發了資本的關注。大量的投資湧入與DeepSeek 相關的產業鏈,從算力支持到演算法優化,再到應用開發,各個環節都成為了資本追逐的熱點。這不僅促進了相關企業的技術研發和業務拓展,也加速了整個產業的發展。
之所以DeepSeek如此受到關注,除了在性能上的卓越表現外,還在於其具有強大的成本優勢。 DeepSeek模型厲害的地方在於,整個訓練只花了557.6萬美元,在2048xH800集群上運行55天完成。性能卻能和OpenAI的頂尖模型ChatGPT-o1比肩,甚至在某些領域還強一點。
這筆費用是什麼概念呢? Anthropic 的CEO曾透露,GPT-4o這樣的模型訓練成本約為1億美元。而目前正在開發的AI大模型訓練成本可能高達10億美元。他也預測,未來三年內,AI大模型的訓練成本將上升至100億美元甚至1,000億美元。換句話說,DeepSeek-V3的這個成本幾乎可以忽略不計。由於OpenAI的大模型成本龐大,在美國政府的支持下,甚至發起了總投資5,000億美元的星門計畫來建造AI設施。
04.高性能低價平權之下,LPU被看好
AI基礎建設的巨額成本一直是阻擋AI大規模應用的絆腳石。
DeepSeek-R1具備高性能、低成本、開源三大屬性。 DeepSeek-R1問世,其開源屬性為企業提供了技術底座,如教育機構可基於開源代碼定制學科知識庫、教學場景交互邏輯等,人力資源機構也可針對招聘培訓等垂直場景構建垂直助手。且DeepSeek-R1大模型單次訓練和推理對算力的需求低,因此基於DeepSeek-R1二次訓練的成本也更低,更有利於企業低成本訓練及本地部署。簡言之,DeepSeek-R1的突破性發展,直接降低了AI應用的研發落地成本,將加速AI技術在各產業的滲透。
如果說,DeepSeek屬於「核彈」級,那LPU就是「氫彈」級。據了解,美國Groq公司已經在自己的LPU晶片上實機運行DeepSeek,效率比最新的H100快上一個量級,達到每秒24000token。某種程度上,單純靠堆砌硬體算力,實現智力的邏輯也會失效。隨著硬體晶片製程逐漸到達瓶頸,後期人工智慧主要靠演算法和晶片架構優化推動。
而DeepSeek 與LPU 的結合標誌著AI 算力領域的重要變革,特別是在大語言模型(LLM)推理場景中展現出顯著的技術突破和市場潛力。這種結合使得大語言模型在處理速度、成本控制和應用範圍等方面都有了新的突破,為人工智慧的發展開闢了新的道路。
身為LPU的主要供應商,美半導體新創公司Groq也受到了投資市場的看好。據了解,目前該公司已獲得沙烏地阿拉伯15億美元的承諾投資,以支持Groq 擴建位於沙烏地阿拉伯達曼的AI 推理基礎設施。 Groq 的達曼資料中心由該企業同石油巨頭沙烏地阿拉伯阿美旗下子公司合作建設,目前該資料中心已包含1,9,000 個Groq LPU(語言處理單元),可向41 個國家的40 億用戶提供服務。
另一方面,這也對輝達和其他美國人工智慧科技公司造成打擊,三星電子和SK 海力士預計將在快速成長的人工智慧(AI) 記憶體晶片業務中面臨越來越多的不確定性。而這兩家公司主要生產用於輝達GPU的HBM晶片。 SK海力士1月的數據比12月下跌了19.3%。這是自2023年4月該公司開發出全球12層HBM3晶片以來,比上季跌幅最大的一次。
當LPU技術將AI創作成本降至消費級硬體可承載範圍,一般人使用RTX顯示卡即可運行百億參數模型時,UGC內容生產將迎來核爆式成長。這種生產力解放可能提前10年實現"人人都是創作者"的預言。
當LPU 架構與神經擬態晶片結合後,個人裝置的運算能力將會得到質的飛躍。也許,未來的智慧型手機或筆記型電腦,借助這種技術,使用者無需連網就能在本地快速運行複雜的語言模型,實現高效的個人工作流程部署。(半導體產業縱橫)