梁文峰訪談核心內容的整理
關於價格戰
價格戰起始
DeepSeek V2 模型發佈意外引發大模型價格戰,並非有意成為鯰魚。
智譜AI跟進後,字節率先在旗艦模型降到和DeepSeek一樣的價格,觸發大廠紛紛降價。
大廠模型成本高,沒想到會有人虧錢做這件事,演變成類似網際網路燒錢補貼邏輯。
降價目的
搶使用者不是主要目的。一方面是探索下一代模型結構使成本下降,另一方面認為API和AI應普惠。
模型結構與創新
模型結構探索
目標為AGI,需研究新模型結構,在有限資源下實現更強模型能力,做了大量基礎研究,如構造資料、讓模型更像人類等。
Llama結構在訓練效率和推理成本上與國外先進水平有兩代差距。
國內在模型結構和訓練動力學、資料效率上與國外有差距,要消耗更多算力,需要不斷縮小差距。
創新的意義
中國公司習慣拿國外技術做應用變現,這波浪潮中DeepSeek出發點是走到技術前沿推動生態發展,中國應成為技術創新貢獻者。
創新成本雖高,但中國現在不缺資本,缺的是信心和組織高密度人才實現有效創新的能力。
在中國語境下,只做研究創新較奢侈,但隨著經濟發展應逐步改變。
把價值沉澱在團隊上,形成創新的組織和文化是護城河,開源是文化行為,技術人員被跟進會有成就感。
幻方做通用人工智慧
做AGI的原因
幻方做通用人工智慧(AGI)與量化和金融無直接關係,團隊很多人做人工智慧,AGI是下一個難事,是怎麼做而非為什麼做的問題。
要做通用人工智慧,從語言大模型開始,因為它可能是通往AGI的必經之路,後續還會涉及視覺等。
專注研究的決心
不會過早設計基於模型的應用,專注大模型研究。
從長期看,大模型應用門檻會越來越低,初創公司有機會,目標是做研究、做探索。
研究受好奇心驅動,從遠處想驗證人類智能本質相關猜想,從近處想揭秘GPT4等未解之謎。
做研究成本更高,需要更多算力和人員要求。
幻方有研發預算,捐款預算也可調整用於研究,正在找不同出資方,VC因有退出需求較難提供融資。
考慮將訓練結果公開共享,與商業化結合,大廠模型可能與平台或生態捆綁,幻方是完全自由的。
算力儲備
萬卡儲備的原因
從1張卡逐步儲備到1萬張卡,主要是好奇心驅動,源於對AI能力邊界的好奇。
2012年AlexNet帶來衝擊後,研究員對算力渴求是永無止境的,做了小規模實驗後想做更大規模實驗。
關於成本等情況
搭電腦叢集不是為量化私募業務做價格預測,在投資外做了大量研究。
電費和維護費用佔硬體造價1%左右,人工成本雖高但視為對未來的投資。
2021年幻方是亞太地區第一批拿到A100顯示卡的公司,早於一些雲廠商,因為對新卡做了預研、測試和規劃,雲廠商之前需求分散,大廠更多是業務需求驅動。
關於人才
V2模型的人才構成
DeepSeek V2模型由本土人才研發,多是Top高校應屆畢業生、博四博五實習生和畢業幾年的年輕人。
MLA創新源於年輕研究員個人興趣,從想法到落地經歷漫長過程,組團隊花幾個月跑通。
組織管理與人才培養
DeepSeek組織架構全是自下而上,不前置分工而是自然分工,遇到問題員工自己拉人討論,有潛力的idea會自上而下調配資源。
人員對卡和人的調動不設上限,選人標準是熱愛和好奇心,很多人對做研究渴望遠超對錢的在意。
創新的本質
創新首先是信念問題,矽谷有創新精神源於敢做,中國之前對前沿創新缺乏信心,頂尖人才在中國被低估,做最難的事對頂級人才有吸引力。
對AGI實現時間不確定,可能2年、5年或10年,押注數學和程式碼、多模態、自然語言本身三個方向。
認為大模型終局是有專門公司提供基礎模型和服務,有長鏈條專業分工。
創新的樂觀態度
對AGI發展樂觀,行業發展符合預期,OpenAI也不是一直能衝在前面。
經濟下行、資本冷周期未必抑制原創式創新,中國產業結構調整會更依賴硬核技術創新。
開源與閉源
DeepSeek不會閉源,認為先有強大技術生態更重要。
短期內無融資計畫,面臨高端晶片被禁運問題。
關於市場競爭
更多投入不一定產生更多創新,當前階段是技術創新爆發期而非應用爆發期,長遠希望形成產業生態。
選擇DeepSeek API而非大廠是因為基礎大模型需要持續創新,大廠有能力邊界。
技術雖無秘密但重設有時間和成本,大廠有現成使用者但現金流業務也是包袱。
其他大模型創業公司可能活下來2 - 3家,自我定位清晰、精細化營運的更有機會。
思考競爭原點是能否提高社會運行效率以及在產業分工鏈上找到擅長位置。
招聘與人才潛力
深度求索團隊初始集結到位,還需更多人,招人更看基礎能力、創造性、熱愛等,國內有不少合適候選人。
經驗不是做創新業務的關鍵,無經驗的人可能更認真探索解決辦法。
幻方招人看能力不看經驗,核心技術崗位以應屆和畢業一兩年的人為主。
創新型組織管理
創新型組織要少干預和管理,讓員工自由發揮和試錯,通過招人時價值觀一致和企業文化確保步調一致,管理者以身示範決策準則。
考核銷售更鼓勵發展圈子、產生影響力,而非只看重下單量。
創新往往自己產生而非刻意安排或教出來的,很難被直接模仿。 (跳動的資料)
