輝達的最大空頭出現了
神秘的東方力量再次震撼了世界,這次是大模型。
12月26日,國內私募機構幻方量化旗下的DeepSeek (深度求索)發布新一代開源大模型DeepSeek-v3,深度求索在技術報告中提到,作為一款參數量高達671B的大型語言模型,DeepSeek-V3在預訓練階段只用2048塊GPU訓練了不到2個月,總計266.4萬個GPU小時,且只花費了557.6萬美元(約4070.1萬元人民幣)。
這意味著DeepSeek-V3的訓練成本約為GPT-4o的二十分之一。 Anthropic的CEO達裡奧·阿莫迪不久前曾透露,GPT-4o這樣的模型訓練成本約為1億美元,而目前正在開發的AI大模型訓練成本可能高達10億美元。未來三年內,AI大模型的訓練成本將上升至100億美元甚至1,000億美元。
性能方面,據DeepSeek-V3技術報告稱,在英語、程式碼、數學、漢語以及多語言任務上,基礎模型DeepSeek-V3 Base的表現非常出色,在AGIEval、CMath、MMMLU-non-English等一些任務上甚至遠遠超過其它開源大模型。就算與GPT-4o和Claude 3.5 Sonnet這兩大領先的閉源模型相比,DeepSeek-V3也毫不遜色,並且在MATH 500、AIME 2024、Codeforces上都有明顯優勢。
廣發證券分析稱,DeepSeek-V3算力成本降低的原因有兩點:第一,DeepSeek-V3採用的DeepSeekMoE是透過參考了各類訓練方法後優化得到的,避開了行業內AI大模型訓練過程中的各類問題;第二,DeepSeek-V3採用的MLA架構可以降低推理過程中的kv快取開銷,其訓練方法在特定方向的選擇也使得其算力成本降低。
業界外少有人知道的是,DeepSeek也是大模型價格戰的最早發起者,被稱為「AI界拼多多」。 2024年5月,DeepSeek發布的DeepSeek V2的開源模型,提供了一個史無前例的性價比:推理成本被降到每百萬token僅1塊錢,約等於Llama3 70B的七分之一,GPT-4 Turbo的七十分之一。
在DeepSeek-V3的定價上,API定價為輸入每百萬tokens 0.5元(快取命中) /2元(快取未命中),輸出每百萬tokens 8元,與字節Doubao-pro-256k定價輸入每百萬tokens 5元,輸出每百萬tokens 9元的水平相當,在國產模型中性價比較高。
「今天,一家中國AI公司輕易地發布了一個前沿大語言模型。」著名人工智慧科學家和特斯拉前人工智慧和自動駕駛視覺總監、OpenAI早期成員安德烈·卡帕西(Andrej Karpathy)評價DeepSeek-V3的表現時稱,“如果此模型還能通過各項評估,那麼這將是資源受限條件下研究與工程能力的高度令人印象深刻的展示。”
「我一直在關注DeepSeek。去年他們擁有最好的開源編碼模型之一。卓越的開源模型給前沿的大語言模型商業公司帶來了巨大的壓力,迫使他們加快步伐。」輝達高級科學家範麟熙(Jim Fan)認為,在競爭激烈的人工智慧領域中,生存本能是推動突破的主要動力。
千億量化私募的AI創業
在眾多中國大模型新創公司中,Deepseek的路線最不同。它的中文名是“深度求索”,為知名私募巨頭幻方量化創立的子公司。
2023年4月,幻方宣布成立新組織,集中資源與力量,探索AGI的本質,在一年多時間裡進展迅速。當時幻方就表示,多年來,該公司堅持把營收的大部分投入人工智慧領域,建立領先的AI硬體基礎設施,進行大規模的研究,探索人類未知的奧秘。
與月之暗面、智譜AI、Minimax、百川智能等獲得大廠投資的AI新創公司不同,DeepSeek與科技巨頭間並無直接關係。不過,DeepSeek自身的算力儲備卻堪與大廠比肩。
有雲端運算專家提出,1萬枚輝達A100晶片是做AI大模型的算力門檻。當中國雲廠商受限於緊缺的GPU晶片時,幻方卻早早押中了大型模型賽道的入場券。據報導,除商湯科技、百度、騰訊、字節、阿里等科技巨頭外,幻方也手持超1萬枚GPU。
幻方量化和Deepseek創辦人梁文鋒曾在媒體訪談中表示,幻方對算力的儲備並不突然。在2019年,幻方就已投資2億元自研深度學習訓練平台“螢火一號”,搭載了1100塊GPU。到了2021年,「螢火二號」的投入增加到10億元,搭載了約1萬張輝達A100顯示卡。一年後,OpenAI發布ChatGPT的公開測試版本,拉開全球新一輪AI熱潮的序幕。
事實上,在量化投資領域,幻方也是一個特立獨行的存在。幻方量化一度是中國首家突破千億私募的量化大廠,準確的說也是迄今為止業界唯一規模曾邁過千億大關的量化私募。
「我們做大模型,其實跟量化和金融都沒有直接關係,」被媒體問及為什麼一家量化基金選擇入局大模型時,梁文鋒解釋道,「當時我們嘗試了很多場景,最終切入了足夠複雜的金融,而通用人工智慧可能是下一個最難的事之一,所以對我們來說,這是一個怎麼做的問題,而不是為什麼要做的問題。
公開資料顯示,梁文鋒是個極致的80後技術理想主義者,從幻方時代,就在幕後潛心研究技術,在DeepSeek時代,依舊延續著他的低調作風,和所有研究員一樣,每天「看論文,寫程式碼,參與小組討論」。值得一提是,這家公司還曾對外招聘文科人才,職位定位為“數據百曉生”,提供人類歷史、文化、科學等相關的知識來源,和數據工程師一起構建完善的世界語言知識庫。
「我們相信幾乎所有的創新都是從大膽嘗試和點滴積累中孕育而來。我們將充分而持續地投入,不做中庸的事,用最長期的眼光去回答最大的問題。」梁文鋒曾表示。
在接受媒體《暗湧》的訪問時,梁文鋒表示,降價一方面是因為在探索下一代模型的結構中,成本先降下來了,另一方面也覺得無論API,還是AI,都應該是普惠的、人人可以用得起的東西。
「過去很多年,中國公司習慣了別人做技術創新,我們拿過來做應用變現,但這並非是一種理所當然。這一波浪潮裡,我們的出發點,就不是趁機賺一筆,而是走到技術的前沿,去推動整個生態發展。(虎嗅APP)