DeepSeek做了什麼?
這證明了,美國目前的晶片禁令,未能取得對中國的能力優勢,甚至反過來讓中國模型運算效率超越美國。但需要注意的是,模型訓練成本僅包含模型訓練冷啟動到後訓練結束的運算成本,不包含硬體本身的總體擁有成本、多次嘗試、合成資料準備等。作為對比,Anthropic需要籌集數百億美元來研發和營運模型,但其Claude 3.5 Sonnet的訓練成本是在千億美元水平。儘管短期看效率提升非常驚豔,但過去LLM每年4倍的提效速度下當前仍處於正常的提升範疇。
3. 多模態模型也不落後:目前DeepSeek在其推理模型上未整合多模態能力。但公司近期也發佈了多模態的模型Janus-Pro,在部分測試中也展示出優越的效能。多模態能力整合進推理模型中,只是時間問題。
我們的核心觀點
(1). 模型能快速部署到非輝達平台進行推理:這是由於模型原本採用的基礎算子通用性比較強,這也可能是由於Deepseek團隊一早考慮到跨平台的特點。假如換一些更新更獨特的模型算子,適配難度就會高很多。同時開放原始碼的模式也能第一時間讓硬體廠家主動進行適配。
(2). 所謂訓練時拋棄CUDA,其實是部分通訊模組直接越過CUDA編寫更低級的PTX程式碼;這是為了充分壓榨輝達的硬體性能,比較耗費人力。而且進行底層開發,反而更難遷移到其他平台。
但是,以上兩點特性不具備普適性,Deepseek在訓練上仍圍繞輝達晶片開發。推理層面輝達本就不是必須。我們認為,Deepseek的推出並未直接改變輝達的投資邏輯。
但在DeepSeek事件之外,隨著AI程式設計能力的提升,未來有可能直接從底層的低級語言進行模型的開發和遷移,繞過CUDA生態。長期來看,我們需要考慮軟體的生態壁壘問題,最終競爭或許回歸到晶片的絕對硬體性能上
短期來看,隨著AI走嚮應用端敘事,可投的AI概念將從輝達流向更廣闊的中下游,市場的資金再分配將造成輝達估值承壓。但我們認為,輝達過去兩年的市值增長更多依賴收入抬升,隨著GB200/GB300 NVL的出貨問題解決,以及下代Rubin晶片的資訊流出,未來股價將重回增長。而且,在AI不斷爆發的背景下,目前26-27倍的遠期PE並不算貴。
4. 接下來的AI投資機會在那裡?從輝達跑出來的資金會去那裡?
非輝達的AI算力晶片公司值得關注。AI 訓練和推理步入低成本新範式,使得 AI ASIC 晶片在算力系統可行性與競爭力方面優勢凸顯。博通、Marvell 等深耕 AI ASIC 領域的企業,具有較大潛力。
從產業鏈角度看,模型競爭激烈,主要衝擊應基本被限制在模型廠中。上游因話語權增加而獲益,下游因成本下降而增利。而中游的基礎設施會顯著受益,能以更低成本提供AI服務。所以我們會看到,即便是與模型廠繫結較深的微軟,一邊跟著OpenAI調查DeepSeek是否存在違規“蒸餾”行為,另一邊作為雲服務商也主動部署低成本的R1到其平台中。亞馬遜由於與模型廠繫結較少,基本沒受到本次事件衝擊。
我們仍看好半導體類股的確定性機遇。特別是DeepSeek帶來智能模型的小型化,有利於端側裝置部署。當前傳統半導體需求仍處於緩慢復甦的周期,配合AI在應用端落地將是強有力的刺激。上游的台積電、下游端側的蘋果,都值得關注。
下游應用層面,我們更看好大中華的機會。特別是中國科技網際網路巨頭以及端側供應鏈上的一些細分領域的龍頭,目前在AI上的估值仍然較低。
總的來說,deepseek是AI科技革命中一個重要的里程碑事件。“AI應用潛力巨大,但高估值下脆弱性明顯,25年美股或出現30%的回撤”。在目前高估值的環境下,每個人的神經都緊繃著,一點點的分歧都將引發市場的巨震。AI技術仍在飛速向前,但AI投資並非一路平坦,需十分警惕途中的風險! (投資家)