DeepSeek一夜爆火,不僅刷屏全球網際網路,還被多次“擠”到當機,更是一夜暴擊美股,嚇崩輝達,分析師驚呼AI企業迎來“斯普特尼克時刻”。
周一,歐美科技股重挫,輝達跌近17%,市值蒸發近6000億美元(近4.3兆人民幣)為美股史上規模最大,晶片指數大跌超9%,博通跌超17%,台積電跌超13%。
納指跌超3%領跌,納指100創六周最大跌幅且市值蒸發近1兆美元,晶片指數大跌超9%為2020年3月以來最差表現,歐美AI供應鏈概念股下挫,但亞馬遜和Meta轉漲。
DeepSeek引發了全網激烈討論,而真正引人注目的是其打破傳統AI資本支出規模。
開發該模型僅用2個月,花費不到600萬美元,相比之下,Meta團隊僅薪酬就超過DeepSeek全部培訓預算,Open AI每年支出超過50億美元,“星際之門”計畫正生成投資5000億美元......
華爾街認為,AI企業盈利或面臨走低風險、也有將此類比AI泡沫破滅時刻,同時還有認為領先AI公司不會放棄先進GPU。對AI行業而言,人工智慧開發變得更加容易,硬體要求和成本將大幅下降,競爭急劇加劇、科技巨頭“護城河”變“小水坑”。
而海外網友才開始經受R1的“洗禮”,DeepSeek又發佈了新的模型,給閉源模型帶來開源圖像生成的震撼......
周一,輝達也同時失去全球市值最大公司的寶座,不及蘋果和微軟,跌至第三。
由於輝達在主要指數中佔有較大的比重,其股價下跌對整個美股市場產生了重要影響。據彭博社資料,包括本周一在內,標普500指數市值損失最大的10個交易日中,有8次都是與輝達大跌相關。
周一納指跌超3%,標普500指數跌近1.5%,資金輪轉至道指,道指上漲0.65%。輝達兩倍做多ETF收跌將近34%。美股半導體ETF重挫超9.8%,這是2020年3月16日以來的最大單日跌幅,2020年當天收跌超14%。
以輝達為首的科技股重挫,令包括輝達CEO黃仁勳在內的全球前500位富豪的資產淨值在1月27日合計蒸發1080億美元。其中,黃仁勳財富一日損失201億美元。
同日,輝達表示,DeepSeek是出色的人工智慧(AI)進步,推理即運行AI模型的計算過程需要大量輝達GPU和高性能網路支援。
輝達兩倍做多ETF收跌將近34%。美股半導體ETF重挫超9.8%,這是2020年3月16日以來的最大單日跌幅,2020年當天收跌超14%。
歐美晶片製造商以及為AI和資料中心供電的全產業鏈公司齊跌。晶片指數大跌超9%,博通跌超17%,台積電跌超13%,AMD和阿斯麥跌約6%,Altman押注的核電股Oklo跌近26%,投資AI的科技巨頭中,微軟跌4.6%後跌幅砍半,亞馬遜和Meta轉漲,蘋果漲超3%。
受避險情緒推動,美元和美債收益率急跌至五周多最低,交易員還上調聯準會降息押注,完全消化年內降息50個基點美元。風險資產美油盤中跌3%,比特幣一度跌穿10萬美元,股市大跌帶來的流動性問題令黃金也跌超1%。
DeepSeek對整個AI行業意味著什麼?華爾街怎麼看?
傑富瑞分析師Graham Hunt團隊指出,科技巨頭們面臨資本支出合理性的質疑,或導致資料中心收入和利潤增長軌跡走低。
瑞穗則提到,這發生在一個“痛苦的時刻”:
花旗分析師Atif Malik認為, 儘管美國公司在最先進 AI 模型上的主導地位可能會受到挑戰,但我們估計在不可避免的更嚴格的環境中,美國公司仍然佔據優勢。因此,我們預計領先的AI公司不會放棄更先進的GPU,最近AI資本支出公告表明了對先進晶片的需求。
伯恩斯坦報告認為, DeepSeek實際上討論的是兩個模型系列,但價格戰的言論足以讓Mag7本已不明朗的投資回報率雪上加霜。
DeepSeek 的定價確實遠遠超過了競爭對手,該公司的模型定價比 OpenAI 的同類模型便宜 20 到 40 倍, 當然,我們不知道 DeepSeek 在這方面的經濟效益(而且這些模型本身是開放的,任何想要使用它們的人都可以免費使用),但整個事情提出了一些非常有趣的問題,關於專有與開源努力的作用和可行性,可能值得做更多的研究……
高盛分析師稱,目前的明確共識是,謹慎看跌美國科技股,直到公佈美股科技巨頭Mag 7財報為止,財報的重點是AI相關資本支出。DeepSeek帶來的部分關鍵影響是,軟銀對“星際之門”的投資回報、資本雄厚的網際網路巨頭與初創企業可能存在競爭、推理相比預訓練所需的計算資源大幅減低、中國企業有進一步全球擴張的潛力。
對AI行業意義方面,dropbox AI 副總裁 Morgan Brown做了一系列的總結:
1、首先,介紹一些背景:目前訓練頂級AI模型的成本極其高昂。OpenAI、Anthropic 等僅在計算上就花費了1億美元以上。他們需要擁有數千個4萬美元GPU的大型資料中心,這就像需要一整座發電廠來運行一家工廠一樣。
2、DeepSeek 突然出現並說,如果我們花 500 萬美元做這件事會怎麼樣?”他們不只是說說而已——他們真的做到了。他們的模型在許多工上匹敵甚至擊敗了 GPT-4 和 Claude。人工智慧世界震動了。
3、怎麼做到的?他們從頭開始重新思考一切。傳統AI就像是把每個數字都寫成32位小數,DeepSeek是如果我們只使用 8 位小數呢?它仍然足夠準確!砰——所需記憶體減少了 75%。
4、然後是他們的多標記預測,普通人工智慧的閱讀方式就像一年級學生一樣:“這......貓......坐......”DeepSeek 一次讀完整個短語,速度快2倍,精準率高90%。當你處理數十億個單詞時,這一點很重要。
5、但真正聰明的是:他們建立了一個“專家系統”。他們沒有使用一個試圖瞭解一切的大型人工智慧(比如讓一個人同時成為醫生、律師和工程師),而是擁有只在需要時才醒來的專門專家。
6、傳統模型:所有 1.8 兆參數始終處於活動狀態,DeepSeek總共 671B,但一次只能啟動37B。這就像擁有一支龐大的團隊,但只召集每個任務真正需要的專家。
7、結果令人震驚:培訓成本:1 億美元 → 500 萬美元;所需 GPU:100000 → 2000;API 成本:便宜 95%;可以在遊戲 GPU 而不是資料中心硬體上運行。
8、最瘋狂的部分都是開放原始碼的,任何人都可以檢查他們的工作,程式碼是公開的,技術論文解釋了一切。
9、重要的是,它打破了“只有大型科技公司才能涉足人工智慧”的模式,你不再需要價值數十億美元的資料中心,幾個好的 GPU 就可以做到這一點。
10、對於輝達來說,這很可怕。他們的整個商業模式都建立在銷售利潤率高達90%的超級昂貴 GPU 的基礎上,如果每個人都能突然用普通的遊戲 GPU 做 AI……那麼,你就知道問題所在了。
11、關鍵在於:DeepSeek 的團隊不到 200 人,但 Meta 的團隊僅薪酬就超過了 DeepSeek 的整個培訓預算……而且他們的模型並不那麼好。
12、這是一個經典的顛覆故事:既有者最佳化現有流程,而顛覆者重新思考根本方法。
13、影響巨大:人工智慧開發變得更加容易;競爭急劇加劇;大型科技公司的“護城河”看起來更像水坑;硬體要求(和成本)大幅下降。
14、OpenAI 和 Anthropic 等巨頭不會止步不前。他們可能已經在實施這些創新,但效率精靈已經從瓶子裡出來了——不可能再回到“只是投入更多 GPU”的方法了。
15、最後的想法:這感覺就像是我們回顧時會認為的一個轉折點,就像個人電腦讓大型機變得不那麼重要,或者云計算改變了一切。人工智慧即將變得更加普及,成本也更低。問題不在於它是否會顛覆當前的參與者,而是顛覆的速度有多快。
還有分析表示,輝達實際上很難達到市場的高期望。分析表示,輝達面臨著前所未有的競爭威脅,20倍預期銷售額和75%毛利率的溢價估值越來越難以證明其合理性。該公司在硬體、軟體和效率方面的所謂“護城河”都出現了令人擔憂的裂痕,地球上數以千計最聰明的人,在數十億美元的資本資源的支援下,正試圖從各個角度攻擊他們。
在硬體方面,Cerebras和 Groq的創新架構表明,輝達的互連優勢(其資料中心主導地位的基石)可以通過徹底的重新設計來規避。更傳統的是,每個主要的輝達客戶(Google、亞馬遜、微軟、Meta、蘋果)都在開發定製晶片,這可能會蠶食高利潤資料中心的收入。
軟體護城河似乎同樣脆弱,MLX、Triton 和 JAX 等新的高級框架正在抽象化CUDA的重要性,而改進AMD驅動程式的努力可能會解鎖更便宜的硬體替代品。最重要的是,我們看到了LLM驅動的程式碼轉換的出現,它可以自動將CUDA程式碼移植到任何硬體目標上運行,從而有可能消除輝達最強大的鎖定效應之一。
最令人震驚的是DeepSeek最近的效率突破,以大約1/45的計算成本實現了可比的模型性能。這表明整個行業一直在大量過度組態計算資源。再加上通過思維鏈模型出現的更高效的推理架構,對計算的總體需求可能比目前的預測要低得多。這裡的經濟效益是令人信服的:當DeepSeek能夠達到GPT-4等級的性能,同時API呼叫費用降低95%時,這表明要麼的客戶在浪費資金,要麼利潤率必須大幅下降。
台積電將為任何資金充足的客戶生產具有競爭力的晶片,這一事實自然限制了輝達的架構優勢。但從根本上講,歷史表明,市場最終會找到繞過人為瓶頸的方法,從而產生超額利潤。
04 剛剛暴擊華爾街,DeepSeek再發佈新開源AI模型
其中,70億參數的Janus-Pro-7B號稱在圖像建立的能力方面超越了OpenAI 的DALL-E 3和Stable Diffusion模型。
DeepSeek展示的下圖可見,在文生圖GenEval和DPG-Bench基準測試中,Janus-Pro-7B的精準率較前代Janus大幅提高,精準率測試結果分別為80%和84.2%,高於包括DALL-E 3在內的其他對比模型,Janus的精準率分別為61%和79.7%。
DeepSeek稱,Janus-Pro和JanusFlow的程式碼基於MIT許可證授權,這意味著它們可以不受限地用於商業用途。
1)Janus-Pro採用視覺編碼解耦方式 統一Transformer架構
Janus-Pro是一款統一多模態理解與生成的創新框架,通過視覺編碼解耦的方式,採用獨立的路徑分別處理多模態理解與生成任務,從而解決視覺編碼器在兩種任務中的功能衝突,大幅提升模型在不同任務中的適配性與性能,同時仍使用統一的 Transformer 架構處理多模態任務。
DeepSeek介紹:
“Janus-Pro 是一種新穎的自回歸框架,統一了多模態理解和生成。它通過將視覺編碼分離為獨立的路徑來解決以前方法的侷限性,同時仍然使用單一、統一的轉換器架構進行處理。Janus-Pro超越了之前的統一模型,並達到或超過了特定任務模型的性能。Janus-Pro 的簡單、高靈活性和有效性使其成為下一代統一多模式模型的有力候選者。”
Janus-Pro基於DeepSeek-LLM-1.5b-base 和 DeepSeek-LLM-7b-base兩個架構打造,使用SigLIP-L視覺編碼器,高品質圖像生成能力,支援384x384 解析度輸入,滿足多場景需求,並採用LlamaGen Tokenizer生成模組,下採樣率為 16,生成更精細的圖像。
Janus-Pro架構高度靈活且設計統一,可適配視覺問答、圖像標註等多模態場景。
下圖可見Janus-Pro和Janus的文生圖效果對比。相比Janus,Janus-Pro對短提示詞的輸出更穩定,視覺質量提高,細節更豐富,且增加了生成簡短文字的功能。
DeepSeek介紹,JanusFlow這個框架將圖像理解和生成統一在一個模型中。
對於JanusFlow,DeepSeek採用了“一種極簡架構,將自回歸語言模型與生成建模中最先進的方法“矯正流”(Rectified Flow)相結合。” DeepSeek發現,矯正流可以在大語言模型(LLM)框架內直接訓練,無需進行複雜的架構修改。
換言之,JanusFlow的架構極簡,直接將生成流融入LLM框架,從而簡化了多模態建模流程。
DeepSeek稱,JanusFlow 是一款統一的理解和生成多模態大語言模型(MLLM)。它將視覺編碼與多模態理解和生成分離,它基於 DeepSeek-LLM-1.3b-base建構。
對於多模態理解,JanusFlow使用 SigLIP-L 作為視覺編碼器,支援384 x 384圖像輸入。對於圖像生成,JanusFlow 使用矯正流與SDXL-VAE結合,生成 384 x 384解析度圖像。提供的檢查點是預訓練和監督微調後的EMA檢查點。
下圖可見JanusFlow的基準測試表現與LLaVA等其他模型對比,以及它的生圖結果展示。
(華爾街見聞)