中國科技初創公司DeepSeek(深度求索)以兩款大型語言模型(LLMs)的發佈震驚了科技界,這些模型的性能可與美國科技巨頭開發的佔主導地位的工具相媲美,但卻以遠低於其成本和計算能力開發而成。
1月20日,總部位於杭州的DeepSeek公司發佈了部分開放原始碼的“推理”模型DeepSeek-R1,該模型可以解決一些科學問題,其標準與OpenAI去年晚些時候在舊金山總部推出的最先進LLM o1相似。就在上周,DeepSeek又發佈了另一款名為Janus-Pro-7B的模型,該模型可以通過文字提示生成圖像,與OpenAI的DALL-E 3和Stable Diffusion(由總部位於倫敦的Stability AI開發)類似。
如果說DeepSeek-R1的性能讓許多中國以外的人感到驚訝,那麼中國國內的研究人員表示,這家初創公司的成功是意料之中的,並符合政府成為全球人工智慧(AI)領域領導者的雄心。
中國科學院北京計算技術研究所的電腦科學家Yunji Chen表示,考慮到中國在LLM開發領域的巨額風投以及擁有科學、技術、工程或數學領域博士學位的人才(包括AI領域),在中國出現一家像DeepSeek這樣的公司是不可避免的。“如果沒有DeepSeek,肯定會有其他中國公司開發出偉大的LLM。”
事實上,確實存在這樣的公司。1月29日,科技巨頭阿里巴巴發佈了迄今為止最先進的LLM——Qwen2.5-Max,該公司聲稱其性能超越了DeepSeek去年12月發佈的另一款LLM——DeepSeek V3。上周,Moonshot AI和字節跳動也發佈了新的推理模型——Kimi 1.5和1.5-pro,該公司聲稱這些模型在某些基準測試中可以超越o1。
2017年,中國政府宣佈了其在2030年前成為全球AI領域領導者的目標,並要求行業在2025年前完成重大AI突破,“使技術和應用達到世界領先水平”。
培養“AI人才”成為優先事項。根據華盛頓特區喬治城大學(Georgetown University)中心for Security and Emerging Technology(CSET)2022年的報告,中國教育部已經批准440所大學開設人工智慧專業的本科學位。據芝加哥MacroPolo智庫的資料,2022年,中國提供了近一半世界頂尖的AI研究人員,而美國僅佔18%。
澳大利亞雪梨科技大學(University of Technology Sydney)的科學政策研究員張瑪麗娜(Marina Zhang)表示,DeepSeek很可能受益於政府在AI教育和人才發展方面的投資,這包括眾多獎學金、研究資助以及學術界與行業之間的合作。例如,她補充說,國家支援的倡議,如由北京科技公司百度(Baidu)領導的深度學習技術與應用國家工程實驗室,已經培訓了成千上萬的AI專家。
關於DeepSeek員工的確切資料很難找到,但該公司創始人梁文鋒(Liang Wenfeng)曾告訴中國媒體,該公司已經招募了中國頂尖大學的畢業生和博士生。張瑪麗娜表示,公司領導團隊的一些成員不到35歲,見證了中國作為科技超級大國的崛起。“他們深受自主創新的驅動。”
現年39歲的梁文鋒本身也是一位年輕企業家,畢業於浙江大學(Zhejiang University)電腦科學專業,該校位於杭州,是一所領先的機構。他在近十年前與他人共同創立了避險基金High-Flyer,並於2023年創立了DeepSeek。
CSET研究中國AI人才的Jacob Feldgoise表示,國家政策促進了AI模型開發生態系統的發展,這將有助於像DeepSeek這樣的公司在吸引資金和人才方面取得成功。
然而,Feldgoise表示,儘管大學的AI課程增加,但目前還不清楚有多少學生畢業於專門的AI專業,也不清楚他們是否掌握了公司需要的技能。他說,近年來,中國AI公司抱怨稱,“這些項目的畢業生質量並不是他們希望看到的”,這導致一些公司與大學合作。
科學家們表示,DeepSeek成功的最令人印象深刻的方面是,該公司在美國政府實施出口管制的背景下開發了DeepSeek-R1和Janus-Pro-7B,這些管制自2022年起阻止中國獲得先進的AI計算晶片。
張瑪麗娜表示,DeepSeek的領導體現了一種獨特的中國創新方法,強調在限制下的效率。然而,她補充說,該公司尚未披露其使用了多少硬體。
DeepSeek表示,該公司使用了大約2000個美國晶片製造商Nvidia(輝達)製造的H800晶片來訓練其在去年12月發佈的DeepSeek-V3模型,該模型在基準測試中超越了OpenAI去年5月推出的LLM GPT-4o。相比之下,Meta位於加利福尼亞Menlo Park的公司去年7月發佈的複雜LLM Llama 3.1 405B依賴於16000多個更先進的H100 Nvidia晶片。在2022年,High-Flyer在社交媒體平台微信上發佈的一則帖子中表示,該公司擁有10000個Nvidia較舊的A100晶片,而DeepSeek可能可以使用這些晶片。DeepSeek使用較慢的晶片可能使其模型的建構成本更低。“我們面臨的問題從來都不是錢,而是對高端晶片的禁運。”梁文鋒在2024年7月對中國媒體表示。
DeepSeek採用多種方法來提高其模型的效率。例如,該公司採用了“專家混合”架構,這是一種機器學習方法,可以比傳統技術更快地訓練模型,並且參數更少。這使得該公司可以使用更少的晶片訓練模型,雪梨大學的電腦科學家Chang Xu表示。它還使用了一種創新的多頭潛在注意力技術的變體,這使得模型可以儲存更多資料,同時消耗的記憶體更少。
近日,媒體報導稱,OpenAI正在審查DeepSeek使用其模型輸出進行訓練的指控(OpenAI被新聞機構起訴侵犯智慧財產權)。DeepSeek尚未回應這些指控。即使這些指控屬實,Bern Switzerland開源平台Hugging Face的研究員Lewis Tunstall表示,這也“絕不會削弱”DeepSeek建立R1模型的成就。他說,他們的進展在於使用學習方法將“推理”能力注入LLM,這一點已經被實驗驗證。Hugging Face正在領導一個項目,嘗試從頭開始複製R1。“我預計我們很快就能知道OpenAI的合成資料是否真的需要。”他說。
香港大學的科學政策研究員Yanbo Wang(專注於創新研究)表示,DeepSeek的成就為那些有AI雄心但缺乏財政資源和硬體的國家提供了藍圖,這些國家希望能夠訓練大型LLMs但無法採用標準的矽谷方法。“這可能會促使大量新模型的建立。” (量子云智俠)