一轉眼,春節即將過去,2025年的春節,可能是中國有史以來科技味最濃的。
Deepseek引發的科技海嘯,成為全球探討最多的話題。它出現的意義似乎超越了AI本身,成為開發中國家後發制人的信心載體。
1月30日,連AI領域的看客印度都大讚DeepSeek。據路透社報導,印度鐵道、通訊以及電子和資訊技術部長阿什維尼·瓦伊什瑙在出席一個活動的時候,對DeepSeek大加讚賞。
阿什維尼·瓦伊什瑙表示:“有些人質疑印度政府在AI中投入的資金數量。你們看到DeepSeek的成果了嗎?550萬美元和一個非常非常強大的模型。因為用了大腦了。”
阿什維尼·瓦伊什瑙進一步表示,印度已經在第一時間在伺服器上佈局DeepSeek。
過去,整個世界都認為,大力出奇蹟才是AI時代的典型特徵,沒有海量先進GPU,沒有數以兆美元的重金投入,不可能擠上牌桌。拿不到卡、資金匱乏的開發中國家只有眼巴巴看著發達國家坐享AI霸權,連喝湯的機會都沒有。
DeepSeek的出現,如同一道閃電,在黑幕中劃開一道口子,信心增值難以估算。
更荒謬的案例來自法國。1月30日IT之家報導,法國耗資540億歐元開發的一款開源法語人工智慧聊天機器人Lucie,回答簡單數學問題給出荒謬答案,甚至建議使用者食用“牛蛋”,上線兩天便匆匆下架。
Lucie是法國為了挑戰英語大模型主導地位耗重金打造的,是“法國2030”投資計畫的重要組成部分。Lucie的短暫失敗,再一次證明,AI領域的重投入是必要條件,但並不是充分且必要條件,重金投入並不一定意味著好結果。
01
讓人意外 大火的DeepSeek曾被如此忽視
DeepSeek 像一把祛魅之劍,穿透了世界對美國的AI幻境。
相比於美國人的驚訝,國內對DeepSeek的反射弧之長,更令人咋舌。
1月20日, DeepSeek公佈推理模型DeepSeek-R1之後,國外開始掀起DeepSeek大討論。國內卻平靜得讓人訝異,即便1月20日梁文鋒參加最高等級的專家、企業家座談會,都沒能引發熱議。
據新華社報導,1月20日下午,在一場重量級座談會上,張輝、任少波、劉珺、梁文鋒、魏洪興、陳學東、陳紅彥、杜斌、鄒敬園等先後發言。其中,梁文鋒正是頭部量化私募幻方量化創始人、DeepSeek的創始人。
回過頭來看,2025年1月20日到春節前這段時間,無論A股市場還是美股市場,都沒出現任何DeepSeek影響力的跡象。尤其A股,從機構到券商,全部處於失語狀態,資金仍在對應輝達、特斯拉和蘋果。
市場沒反應,領導很重視,最早意識到DeepSeek的重要性,如此大的認知差,在A股十分罕見。
最早表示,DeepSeek很震撼的公眾人物,或許是同在杭州的《黑神話:悟空》製作人馮驥。
1月26日,他公開表示,“這樣震撼的突破,來自一個純粹的中國公司,知識與資訊平權,自此又往前邁出了堅實的一步”。
2月3日,饒毅教授在其個人公眾號上評價道,deepseek是鴉片戰爭以來,中國對人類最大的科技震撼。
當然,如此評價,或許是從媒體聲量,全球輿論熱度的角度評價,而非技術價值本身。
如果說國內評論有厲害了我的國之嫌,那AI領域資深專家吳恩達,在中美人脈甚廣,評價更為中肯客觀。
1月31日,吳恩達在X上發文:
翻譯如下:
本周 DeepSeek 的討論讓許多人認識到一些顯而易見的重要趨勢:
(i) 中國在生成 AI 領域正在趕超美國,這對 AI 供應鏈產生了影響。
(ii) 開放權重模型正在將基礎模型層商品化,這為應用程式建構者創造了機會。
(iii) 擴大規模並不是 AI 進步的唯一途徑。儘管人們對處理能力的關注和炒作如火如荼,但演算法創新正在迅速降低培訓成本。
大約一周前,中國公司 DeepSeek 發佈了 DeepSeek-R1,這是一個非常出色的模型,其基準測試性能可與 OpenAI 的 o1 相媲美。此外,它是以開放權重模型的形式發佈的,具有寬鬆的 MIT 許可證。
在1月份的達沃斯論壇上,吳恩達收到了許多非技術商業領袖關於它的問題。1月20日股市出現了“DeepSeek 拋售”:Nvidia 和其他一些美國科技公司的股價暴跌。(截至撰寫本文時,一些公司股價有所回升)
吳恩達認為 DeepSeek 讓很多人意識到了以下幾點:
中國在生成式人工智慧方面正在趕超美國。2022 年 11 月推出 ChatGPT 時,美國在生成式人工智慧方面遠遠領先於中國。
印象與現實形成強烈反差,吳恩達聽到美國和中國的朋友都說他們認為中國落後了。實際上,這種差距在過去兩年裡迅速縮小。
借助 Qwen(吳恩達的團隊已經使用了幾個月)、Kimi、InternVL 和 DeepSeek 等來自中國的模型,中國顯然正在縮小差距,而在視訊生成等領域,中國似乎已經處於領先地位。
按照吳恩達的說法,中國大模型實力的變化,就好像當年的新能源汽車,如同魔法。
隨著美國科技巨頭對DeepSeek的瞭解,越來越多科技巨頭加入支援DeepSeek的隊伍中。最早是輝達的競爭對手,AMD。1月25日,AMD第一個公開為DeepSeek“站台”,宣佈全新的DeepSeek-V3模型已整合至AMD InstinctGPU上。
1月30日,微軟表示,將接入DeepSeek到微軟AI電腦。微軟CEO納德拉說,DeepSeek有真創新,AI成本下降是趨勢。
1月30日,蘋果ceo庫克表示,我很看好DeepSeek公司,這種顛覆性的新模式對蘋果來說,會產生積極影響。
1月31日,輝達宣佈DeepSeek-R1 模型現已在 build.nvidia.com 上作為 NVIDIA NIM 微服務預覽版提供。
同一天,亞馬遜的AWS 首席執行官 Matt Garman 表示:“DeepSeek R1 是激發業界想像力的最新基礎模型。亞馬遜當即宣佈將在其Bedrock人工智慧模型市場中納入DeepSeek-R1模型。
目前,全世界都在用各種方式“借鑑”DeepSeek。最佳證據就是,在DeepSeek 發佈V3 和 R1 以後,H100 的 AWS GPU 價格在全世界上漲,而同期能力更強的H200並沒有出現類似的情況。
據量子位公眾號1月30日報導,不少西方開發者發現,DeepSeek能夠取得突破,並非使用了輝達的CUDA,而是通過大量細粒度最佳化以及使用輝達的類彙編等級的PTX(平行執行緒執行)程式設計。
所謂PTX是輝達專門為其GPU設計的中間指令集架構,位於高級GPU程式語言(如CUDA C/C++或其他語言前端)和低級機器程式碼(流處理彙編或SASS)之間,屬於比較底層的指令集。
輝達對CUDA的投入長達十年以上,即便在最低谷的時候也忘我投入。CUDA甚至是比GPU硬體本身更重要的輝達護城河。能夠繞過CUDA自行最佳化GPU,這是非常強的能力。
量子位公眾號援引開發者的話,DeepSeek繞過CUDA,證明其團隊超強的技術能力,也證明,最佳化得越多,GPU呼叫越有效,性價比越高。
llama.cpp項目的創始人在檢查了相關程式碼後表示,“比預期的更爆炸”。
DeepSeek刺激了競品公司的內心。與產業鏈的言論相比,美國同類競品更鷹派、更酸。1月30日,Anthropic CEO說,出口管制遠比 DeepSeek 的突破重要得多。
更早,美國政府已經開始針對DeepSeek採取行動。據參考消息援引美媒報導,美國海軍基於“潛在安全和道德問題”,已要求人員避免以任何形式使用中國公司的DeepSeek模型。
玉淵譚天則在1月28日報導,美國多名官員回應DeepSeek對美國的影響,表示DeepSeek是“偷竊”,正對其影響開展國家安全調查。
“偷竊”一說,源自OpenAI。據彭博社報導,微軟公司和OpenAI正聯合調查一起可能涉及資料洩露的事件。
所謂資料洩露很難成立,最早OpenAI就是開放原始碼的,一切都可以被人DOWNLOAD,是業內常態,如今的deepseek、meta還在走開源路線,赤條條展露自己。從沒見過小偷在陽光下昭告天下的。
2月1日,眼看開放原始碼的DeepSeek越來越火,OpenAI坐不住了。
OpenAI首席執行官Sam Altman首次承認:“我個人認為,我們在這裡站在了歷史的錯誤一邊,需要找出一個不同的開源策略。”同一天,OpenAI推出推理模型o3 - mini。ChatGPT Plus、團隊和Pro使用者即日起可以訪問。免費使用者也可以通過選擇“Search+Reason”使用o3-mini來體驗搜尋。
體驗過後,著名科技博主lex fridman表示,OpenAI的o3 - mini 是個不錯的模型,但DeepSeek的R1性能和它差不多,且價格更便宜,還能展示推理過程。
無論如何,“DeepSeek 時刻” 意義非凡,5年後人們仍會銘記這一時刻,這是科技史上的一個重要節點。
剛上任的川普又如何看待DeepSeek呢?
川普1月27日的第一次回應比較正面,認為DeepSeek一個非常積極的發展。意味著,你不必花費數十億美元,也可以得到同樣的解決方案。不過川普也表示,中國公司發佈的DeepSeek應該為我們的行業敲響警鐘,我們需要在競爭中集中精力取勝。
或許因為OpenAI們這幾天的耳邊風,最新消息顯示,川普可能會進一步收緊對中國AI的限制,防止中國企業獲得先進算力,實現彎道超車。
據BP社報導,川普政府目前正在考慮將制裁範圍擴大到輝達 H80 GPU。報導稱,這些圖形處理器是獨家面向中國的產品,性能低於 H100。
攻擊戰已經打響,DeepSeek在被大量美國IP攻擊。最早周鴻禕在微博等自媒體表示,360發現大量美國IP正在攻擊DeepSeek。
1月30日澎湃新聞報導,網路安全公司奇安信表示,針對DeepSeek線上服務的攻擊烈度突然升級,其攻擊指令較1月28日暴增上百倍。奇安信Xlab實驗室觀察到至少有2個殭屍網路參與攻擊,共發起了兩波次攻擊。
如果打開DeepSeek APP會發現,最近很難正常登錄或使用,當機成了常態。對此,DeepSeek尚沒有做出回應。
據華爾街見聞2月1日報導,自1月20日DeepSeek-R1模型正式發佈以來,DeepSeek已於1月26日同時登頂蘋果App Store和GooglePlay Store全球下載榜首,上線18天內,累計下載量已突破1600萬次,在覆蓋的140個市場中持續保持領先地位。
Sensor Tower資料顯示,DeepSeek的首月下載量(1600萬)較ChatGPT首次發佈時(900萬)增長近80%。
在所有市場中,印度貢獻最大,印度使用者以15.6%的佔比成為DeepSeek的最大使用者來源。
02
中國不止有DeepSeek 傳統玩家也震憾
DeepSeek出圈之後不久,正統中國玩家阿里,再次讓西方震撼。
1月28日,阿里公佈了自己的開源大模型最新力作Qwen 2.5-Max。根據阿里在github上公佈的技術文件,Qwen 2.5-Max不僅超越OpenAI 的 GPT-4 和 Meta 的 Llama 3.1-401B,也超過了 DeepSeek-V3。
據阿里在github上公佈的技術細節,在基座模型的對比中,由於無法訪問 GPT-4o 和 Claude-3.5-Sonnet 等閉源模型的基座模型,我們將 Qwen2.5-Max 與目前領先的開源 MoE 模型 DeepSeek V3、最大的開源稠密模型 Llama-3.1-405B,以及同樣位列開源稠密模型前列的 Qwen2.5-72B 進行了對比。對比結果如下圖所示。
Qwen 2.5-Max幾乎取得了壓倒性的優勢。
和DeepSeek一樣,Qwen 2.5-Max是開放原始碼的。
DeepSeek出現後,很多人認為這是“孤證”,不足以反映中國AI的整體競爭力,阿里公佈Qwen2.5-Max之後,坐實中國AI不僅沒有被擠下牌桌,而且一直處於最前沿。
以前Google首席執行官埃裡克·施密特為代表的美國AI領域人士,一直在修正中美之間的技術代溝,差距從幾年,十幾個月,到最近的幾個月。
和Deepseek投下美股震撼彈不同,阿里Qwen 2.5-Max的出現,讓市場開始重估中國科技股。1月30日,阿里巴巴帶領一眾中概股逆勢上演中國龍行情。
當天,阿里巴巴,以6.22%的漲幅領漲,百度、京東、網易們也跟著上漲。全天納斯達克中國金龍指數大漲4.33%。
據彭博資料顯示,1月29日,KraneShares中證中國網際網路ETF(KWEB)迎來近四個月來最大規模的單日資金流入。流入資金1.05億美元,創自去年10月以來的新高。
雖然1月31日阿里有所下跌,但單周依然上漲了超過10%,遠遠跑贏納斯納克。
2025年2月3日,是川普加稅後的第一個交易日,全球股市暴跌,唯獨中國AI倖免於難,甚至逆勢大漲。阿里巴巴在港股上漲超過5%,部分AI應用公司漲幅甚至超過10%,20%。
這樣的上漲格外醒目。
03
不狂傲 不低估 比DeepSeek更重要的是……
我們不應該神話DeepSeek的價值,也不應低估其潛在的影響力。
最重要的,並不是DeepSeek創造了什麼,而是如何創造的。這次中國罕見的美國式創新,充滿了好奇心和理想主義,甚至在這片傳統的土壤中飄來一股馬斯克的味道,讓人好奇不已。
36 氪旗下的暗湧團隊分別在 2023 年 5 月、2024 年 7 月兩次採訪過低調的DeepSeek 創始人梁文鋒。
梁文鋒在採訪中提到,DeepSeek 從最早的 1 張卡,到 2015 年的 100 張卡、2019 年的 1000 張卡,再到一萬張,這個過程是逐步發生的。幾百張卡之前,DeepSeek 託管在 IDC,規模再變大時,託管就沒法滿足要求了,就開始自建機房。很多人會以為這裡邊有一個不為人知的商業邏輯,但主要是好奇心驅動。
梁文鋒說,因為對 AI 能力邊界的好奇。
對行外人來說,ChatGPT 這波浪潮衝擊特別大;但對行內人來說,2012 年 AlexNet 帶來的衝擊已經引領一個新的時代。AlexNet 的錯誤率遠低於當時其他模型,復甦了沉睡幾十年的神經網路研究。雖然具體技術方向一直在變,但模型、資料和算力這三者的組合是不變的,特別是 2020 年 OpenAI 發佈 GPT3 後,方向很清楚,需要大量算力;但即便 2021 年,我們投入建設螢火二號時,大部分人還是無法理解。
在被問及近期有沒有融資計畫的時候,梁文鋒表示,短期內沒有融資計畫,更多的投入並不一定產生更多的創新。否則大廠可以把所有的創新包攬了。
2024年7月的那次採訪,梁文鋒說,自己的出發點不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展;他認為中美差距不是一年或兩年,而是原創和模仿之差,中國Al不能永遠跟隨,不能一直搭便車。
當好奇心和理想主義遭遇中國降本能力的時候,會產生什麼?就是deepseek們的湧現。
再加上務實的精神,梁文鋒是量化投資出身,說大話、自我欺騙會虧大錢。
以前我們總強調,中國在製造業,在降本方面有著不可比擬的優勢,發揮好了大有可為。其實我們忽視了,在聰明的頭腦方面,中國同樣有絕對意義上的數量優勢,有合適的季節就能生長。
2月1日,Telegram創始人杜羅夫表示,DeepSeek取得成功之後,很多人對中國在人工智慧領域如此迅速地趕上美國感到驚訝。杜羅夫認為,中國的進步可以通過其中等教育體系的結構來解釋,該體系在培養數學和自然科學領域的傑出專家方面優於西方。杜羅夫特別強調,如果美國的中等教育體系不做出改變,中國將在科技領域佔據主導地位。
不管教育體制存在什麼問題,中國只要維持科學的客觀性,就能激發出數量龐大的聰明頭腦的創造力,這是中國科學未來希望所在。
(免責聲明:本文為葉檀財經據公開資料做出的客觀分析,不構成投資建議,請勿以此作為投資依據。) (葉檀財經)
