#模型
六國15家頂媒齊轉引:中國AI開源又好又便宜
2025年12月20日,法國最大通訊社法新社發佈報導《中國AI開源模型以高性價比悄然打入美國市場》,其中引述中國人民大學重陽金融研究院院長、全球領導力學院院長王文觀點:“中國開源模型價格低廉,甚至免費,而且效果很好”。該觀點在全球科技與政策圈廣泛傳播,美國《巴倫周刊》、新加坡《海峽時報》、法國France 24、沙烏地阿拉伯《阿拉伯新聞》、印度《今日傳播》、越南《勞動報》等六國15家頂級媒體密集轉引。以下為相關報導情況:12月20日,法新社發佈題為《中美AI競賽中,中國技術悄然打入美國市場》的報導,開篇即拋出一個震撼案例:一位美國企業家因將底層模型切換至阿里巴巴千問,實現每年節省40萬美元。文章指出中國開放模型的全球使用率已從2024年底的1.2%飆升至2025年8月的近30%。中國的主流模型以實際表現證明,開源路徑完全可以兼具高性能與低成本,從而改寫了技術選擇的遊戲規則。文章重點提及了王文的觀點:“中國的開源模型價格低廉,在某些情況下甚至是免費的,而且效果很好。”來自美國、法國、新加坡、沙烏地阿拉伯、印度、越南六國的15家核心媒體轉引這一觀點。《巴倫周刊》(Barron’s)、美國線上(AOL)、雅虎財經(Yahoo Finance)、《商業時代》(New Business Age)等面向歐美精英階層的主流財經與資訊平台迅速轉引。新加坡《海峽時報》(The Straits Times),印度《今日傳播》、《印度時報》、《歐亞時報》,法國國際新聞台(France 24),阿拉伯世界頗具影響力的《阿拉伯新聞》(Arab News)亦跟進轉載,將討論推及更廣闊的歐亞大陸。▲部分報導截圖如上這是2025年中國人民大學重陽金融研究院(人大重陽)在AI領域面向國際輿論場的又一次有力發聲。早在2025年年初,當DeepSeek在全球科技市場引發震動,人大重陽就已開始聚焦其全球影響,迅速啟動相關專題研究。2月23日,在人大重陽承辦的通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會上,首份DeepSeek高校智庫評估報告《大跳躍:美國智庫、媒體與行業論DeepSeek中國人工智慧》(該報告論文版發佈於核心期刊《智庫理論與實踐》2025年3月第10卷第2期,作者係人大重陽院長王文、副研究員申宇婧、助理研究員金臻)一經發佈,隨即引發熱烈反響。▲2025年2月23日,通州·全球發展論壇(2025年春季)“DeepSeek中國人工智慧、跳躍式發展與全球2050目標”主題研討會在中國人民大學召開報告建議,應該客觀冷靜看待中國AI的發展階段與競爭格局,在制度建設、人才培養、企業創新等各個層面,以長期主義推動中國AI可持續發展,踐行“科技為民、科技惠民”理念,在積極參與人工智慧國際治理的同時,要守住AI發展紅線,警惕技術發展失控危機,引發40余家中外媒體轉引報導。▲報告封面如上3月1日,人大重陽宏觀研究部副主任、副研究員申宇婧在“長安街知事”微信公眾號發表文章呼籲變革AI實力評價標準,批判單純堆砌參數的“冷冰冰”路徑,力主中國“降本、增效、協同、普惠”的發展哲學,將DeepSeek的普及定義為一場深刻的社會革命。11月5日,在第八屆虹橋國際經濟論壇上,王文受邀做客央視新聞直播間,以“AI上進博,未來科技有多炸”為主題,解讀在全球科技競爭加劇的前提下,創新與合作如何雙向發力:“以人工智慧為代表的新一代工業革命,中國走在了世界最前沿,中國通過一代、兩代、三代人的不懈努力,有了科技自信的資本……而進博會提供了很好的平台,讓這些真正摸得到、感知的到、享受的到的智能產品惠及到每一個普通人。”▲部分報導截圖如上11月,王文與澳門科技大學博雅學院助理教授張夢晨在學術期刊《理論建設》2025年第6期發表論文《AI時代的全球領導力重塑:範式演化、政治哲學轉向與中國路徑》。系統闡釋了AI時代全球領導力正從“控制型”霸權向“共建型”範式演化,剖析美國“領導力赤字”,並為中國提出融合頂層設計、技術自主、數字外交與“數字命運共同體”建構的完整行動路徑。 (人大重陽)
智譜、MiniMax爭奪「大模型第一股」:高增長之下各有難題
經歷三年的軍備競賽,大模型行業迎來了資本價值兌現的關鍵節點。12月19日,北京智譜華章科技股份有限公司(下稱“智譜”)正式披露招股書,向港交所IPO發起衝擊。不到48小時,上海稀宇科技有限公司(下稱“MiniMax”)同樣向港交所披露了招股書。更早之前,這兩家AI獨角獸相繼通過了港交所聆訊。如此密集的資本動作,瞬間將“誰將是AI大模型第一股”的懸念拉滿。值得關注的是,二者雖然目標一致,但走出了截然不同的發展路徑。智譜以B端、G端服務為核心;MiniMax以C端訂閱為支柱,深耕全球化使用者市場。兩種路徑的背後,是技術理念、商業邏輯與估值邏輯的全方位碰撞。一直以來,商業化的效率之爭都是行業的比拚重點,一定程度上決定了大模型企業的估值和想像力。當大模型行業從技術探索邁入商業化深水區,這場資本市場的爭奪,更像是一場商業路徑可行性的測試。另一個變化在於,AI大模型賽道已從兩年前的群雄逐鹿,逐步聚焦到少數具備核心競爭力的頭部玩家。頭部玩家投入逐年增大,爭奪資本市場的關注與資源,就是爭奪市場話語權,也是為接下來的擴張收集彈藥。壓力和動力總是結伴而行。成功上市只是第一步,更關鍵的是後續資本故事的支撐,而這些都考驗著這兩家初出茅廬的創業公司。這場角逐的結局,遠不止誰先上市這麼簡單,它更將回答一系列關乎行業未來的核心問題。爭奪“AI大模型第一股”,高增長敘事下的盈利挑戰自2024年下半年起,關於大模型行業“AI六小虎”上市的傳聞有很多。有實力的企業業務佈局的速度明顯加快,一些明爭暗搶浮出水面。進入2025年,作為目前國內達到40億美元估值的大模型公司,智譜和MiniMax動作最快。4月,智譜在北京證監局完成輔導備案;6月,MiniMax被爆出最早今年在港股上市。如今,48小時內先後遞交招股書,智譜與MiniMax這場“AI大模型第一股”之爭可謂是針尖對麥芒。對每個衝刺IPO的企業而言,財務基本面是叩響資本市場大門的第一道門檻,也成了市場審視企業表現健康與否的第一步。翻看智譜和MiniMax的財報會發現,這是兩家商業化路徑截然不同的大模型。前者是典型的B端服務路徑,後者則是C端驅動的路線。“清華系”的智譜發佈全國首個千億參數大模型GLM-130B,也將自身的商業基調定位為MaaS,強調模型即服務,形成了“開源+API付費”的商業閉環。招股書顯示,2022年至2024年,智譜營收分別為5740萬元、1.25億元和3.12億元,年均複合增長率超130%;2025年上半年營收進一步增至1.91億元,較上年同期的4490萬元同比激增325.39%。圖源智譜AI招股書收入的擴張,伴隨商業模式的定調。從業務構成來看,其收入主要來自企業級API呼叫、行業解決方案及算力租賃服務,其中面向B端的模型呼叫與企業服務是核心支柱。2022年至2024年,這一類股營收佔比分別為95.5%、90.4%、84.5%,2025年上半年佔比降至84.8%。毛利率層面,2022年至2024年,智譜的毛利率分別是54.6%、64.6%、56.3%,2025年上半年毛利率為50%。與智譜走B端路線不同,MiniMax則走出了一條C端驅動的全球化變現路徑。MiniMax收入主要來自訂閱服務、基於token的應用內購買、線上行銷服務及企業級API服務。2023年至2024年,MiniMax營收從350萬美元增長至3050萬美元,同比增幅高達782%;2025年前三季度營收進一步增至5340萬美元,同比增長174.7%。實際上,MiniMax的商業化更像是網際網路產品的邏輯。其中,AI原生產品是MiniMax的營收支柱。2024年,AI陪伴應用Talkie收入佔比近64%,開放平台及企業服務佔比約29%,視訊生成模型海螺AI佔比7.7%;到2025年前三季度,海螺AI收入佔比提升至33%,與Talkie共同成為營收雙支柱,二者合計貢獻超60%收入。圖源MiniMax招股書AI應用的火熱也擴大了MiniMax的使用者規模。截至2025年9月30日,MiniMax AI原生產品矩陣平均月活使用者達2760萬,累計使用者超2.12億,覆蓋全球超200個國家及地區,海外市場收入貢獻佔比超70%。隨著使用者增長和業務規模擴大,MiniMax毛利率明顯改善,由2023年的-24.7%升至2024年的12.2%,並進一步升至截至2025年9月30日止九個月的23.3%。智譜和MiniMax的共性在於,過去三年雖然營收在不斷增長,但虧損也與之平行,尚未看到規模化盈利拐點。招股書顯示,2022年至2024年,智譜經調整淨虧損分別是9741.7萬元、6.21億元、24.66億元。2025年上半年經調整淨虧損17.52億元。智譜虧損的核心原因在於研發與算力投入。根據招股書,2022年、2023年、2024年智譜研發投入分別為8440萬元、5.29億元、22億元,2025年上半年研發投入為15.9億元,累計研發投入約44億元。同期,MiniMax淨虧損分別為7370萬美元、2.69億美元、4.65億美元。2025年前三季度為5.12億美元。MiniMax的虧損同樣源於研發與基礎設施投入。截至2025年第三季度,MiniMax累計研發開支約4.5億美元(約31.6億元人民幣)。值得一提的是,告別前期產品的流量邏輯,進入2025年MiniMax成本控製成效顯著,2025年前三季度銷售及行銷開支同比下降26%。若剔除金融負債公允價值虧損等因素,MiniMax經調整淨虧損在2025年前三季度為1.86億美元,與2024年同期的1.7億美元基本持平,虧損呈現縮小趨勢。在資本市場,智譜和MiniMax的財務表現直觀反映出了行業的共同難題——高增長、高投入、高虧損。想要贏得“AI大模型第一股”的角逐賽,賺錢仍是要緊事。通往AGI,智譜和MiniMax走出兩條路如果說財務資料是商業模式的量化表達,那麼技術路線選擇則反映了兩家公司根本理念的差異。通往AGI的路上,二者的基因各異。智譜從創立開始就有著濃厚的科研基因。清華系創業班底、KEG知識工程實驗室、計算系……某種程度上,智譜由清華大學技術成果轉化而來。智譜CEO張鵬2002年加入KEG實驗室,並主導研發了科技情報平台AMiner——這被視為智譜AI的技術雛形。這樣的配置之下,智譜贏在了技術起跑線上。當別人還在因ChatGPT的出現奮力研發大模型時,智譜已經手握GLM架構,研發出千億級大模型。在後續的智能體競爭中,智譜也率先推出了AutoGLM 2.0智能體。張鵬也多次強調,AGI的核心是底層架構的突破,智譜原創性提出基於自回歸填空的通用預訓練範式GLM。與GPT的單向注意力架構形成差異,這種原生架構的自主性,是企業長期競爭力的核心。智譜具備清華基因,MiniMax則與商湯基因密不可分。除了創始人閆俊傑曾是商湯科技副總裁外,MiniMax早期聯合創始人周彧聰、贠燁禕均曾在商湯科技任職。這個思路之下,既技術,又商業的路線伴隨MiniMax創業的三年。技術上,和多數AI大模型企業先做語言大模型,再做語音和視覺不同,MiniMax從一開始就決定了做多模態模型,是中國最早推出MoE模型的團隊之一。這種多模態自研讓MiniMax從一開始就圍繞AI Agent和互動體驗做技術積累,也直接服務於其全球化產品戰略。閆俊傑曾判斷,國內初期付費意願較低,大廠競爭激烈,因此MiniMax一開始就瞄準了海外市場。在閆俊傑看來,AI公司的核心產品不是聊天介面,而是模型本身。這背後,透露著MiniMax的技術理念——技術的價值最終要通過使用者體驗來驗證。無論是海螺AI的互動設計,還是星野的個性化體驗,都是相同的產品開發邏輯。圖源海螺AI官網團隊基因和技術路線決定了,智譜和MiniMax是同一賽道的兩種路徑。前者選擇單點突破,死磕基座模型;後者則選擇多點開花,佈局全模態產品。當然,隨著大模型行業競爭逐漸進入白熱化,單一路徑並不可靠。從行業格局來看,弗若斯特沙利文的資料顯示,按2024年收入計,智譜的收入在中國獨立通用大模型開發商中排名第一,但市場份額也只佔6.6%。市場高度分散、機會大的同時,頭部玩家想要長期佔據優勢位置並不容易。本質上,當兩家公司都走到資本市場的門前,路線便沒有孰優孰劣之分。智譜的基座模型技術壁壘高,B端客戶黏性強,但商業化節奏較慢;MiniMax的全模態產品迭代快,C端使用者增長迅速,但技術自主性相對較弱,受上游算力和底層技術的影響更大。時至今日,圍繞同一技術理念,走出差異化,並找到與之對應的商業邏輯更重要。誰會更受資本市場青睞?今年以來,DeepSeek的火爆開啟了行業新一輪的淘汰賽。尤其是巨頭憑藉強勢的資源和產品入局,讓初創企業的競賽點發生變化。大模型企業告別資本狂熱的追捧,迎來資本的苛刻審判,“AI六小虎”的IPO競速賽也隨之展開。上市窗口期已經打開,誰先打開資本市場的門,誰就有機會走到第一梯隊。如今,智譜與MiniMax的IPO比拚,將這場競速賽推至賽點。從過往投資歷程上看,智譜是毋庸置疑的香餑餑。招股書顯示,智譜在IPO前已完成8輪融資,累計融資規模超83億元,最新投後估值達243.77億元。投資方不乏阿里、騰訊、紅杉資本、高瓴資本等頭部機構。MiniMax也不甘示弱。企查查顯示,MiniMax截至目前公開披露六輪融資,今年7月融資後投後估值為40億美元。除了沒有地方資本注入,投資方配置和智譜相似。資本市場對“AI大模型第一股”的態度,本質上是對兩種商業路徑的投票——是看好底層技術自主權的長期價值,還是青睞全球化產品的快速商業化潛力。華安證券發佈的研報中指出,智譜的核心價值在於其自主可控的基座模型技術和龐大的開發者生態,其“開源+API呼叫”的模式降低了企業使用門檻,形成了從開源生態到商業API付費的高效轉化路徑。MiniMax聚焦多模態模型切入影視內容創作,二者在細分市場存在差異性。同時,華安證券發佈的研報中指出,本次港股上市將引導AI大模型廠商敘事邏輯從“講述技術故事”轉變為“商業價值兌現”,也將為後續大模型企業融資及估值提供依據。不過,儘管估值邏輯不同,智譜與MiniMax都面臨著挑戰。對於智譜而言,商業化的關鍵在於規模效應的形成。目前,虧損規模持續擴大,現金消耗率不斷攀升,短期盈利預期較弱,估值能否支撐,關鍵在於市場對其長期技術投入的耐心。不僅如此,B端客戶的穩定性也值得關注。招股書披露,這幾年智譜的客戶並不固定,大多數客戶合作期為一年。如何延長客戶的合作期,並存續,也是挑戰。對於MiniMax而言,商業化效率能否持續提升很重要。雖然經調整虧損已呈現縮小趨勢,但整體虧損規模仍在擴大,且C端產品面臨全球網際網路巨頭的競爭壓力,使用者留存和付費轉化能力亟待持續驗證。此外,版權問題也是MiniMax繞不過的難題。今年9月,MiniMax還被“地表最強法務部”迪士尼起訴,直指海螺AI侵權,這也給MiniMax的出海之路蒙上一層陰影。當模型能力不再是最大問題,講一個讓資本聽得懂的故事,並讓其願意為之買單更難。資本市場的終極判斷標準是一致的——商業化形態的可持續性。無論是智譜的技術驅動還是MiniMax的產品驅動,商業模式的持續驗證是兩家公司上市後必須面對的考題。爭奪“第一股”的意義,不僅在於誰能更快獲得資本的加持,更在於誰能通過資本市場的賦能,在技術迭代與商業化落地的雙重考驗中,走出一條可持續的發展路徑。這場競賽的最終贏家,或許不是跑得最快的那個,而是走得更穩、更遠的那個。 (新浪科技)
中國大模型團隊登Nature子刊封面,劉知遠語出驚人:期待明年“用AI造AI”
過去半個世紀,全球科技產業的資本開支與創新節奏,都和一個規律緊密相連,那就是摩爾定律——晶片性能每18個月翻一番。在摩爾定律之外,還有一個“安迪-比爾定律”,它講的是,摩爾定律所主導的硬體性能提升的紅利,會迅速被軟體複雜度的增加所抵消。安迪指的是英特爾前CEO安迪·格魯夫,而比爾,指的是微軟創始人比爾·蓋茲。這種“硬體供給、軟體消耗”的螺旋上升,驅動了PC與網際網路時代的產業進化。時移世易,安迪、比爾都已經退出產業一線,但是規律的底層邏輯並未改變,而且被新的“安迪·比爾”推向更高的極致。ChatGPT的爆發拉開了生成式人工智能時代的大幕,在Scaling Law(規模法則)的主導下,模型參數指數級膨脹,軟體對算力的索取遠超摩爾定律的供給速度,AI發展的邊際成本急劇上升。當硬體供給遭遇能源、資料等天花板時,舊的“安迪比爾”式增長範式開始失效。產業需要一場逆向革命。大模型作為AI時代的“軟體”,需要通過極致的演算法與工程化重構,在現有硬體上爆發更強的能力。2025年,中國大模型公司成為這一路徑的最堅定實踐者。從DeepSeek V3通過細粒度混合專家(MoE)架構以1/10算力成本對標頂尖模型,到Kimi等團隊在稀疏注意力機制上的突破,被稱為“東方力量”的中國大模型公司,正試圖用架構創新努力拉平客觀存在的算力差距。清華大學電腦系副教授劉知遠及其聯合創立的面壁智能團隊,也是其中的典型代表。他們發佈的MiniCPM("小鋼炮")系列模型,僅用約1/10的參數規模,即可承載對標雲端大模型的智能水平,成為端側高效AI的案例。2025年11月,劉知遠團隊的研究登上全球頂級學術期刊《自然·機器智能》(Nature Machine Intelligence)封面,正式提出大模型的“密度法則”(Densing Law)。基於對51個主流大模型的嚴謹回測,論文揭示了驚人的非線性進化規律:從2023年到2025年,大模型的智能密度以每3.5個月翻倍的速度狂飆。這是一條比摩爾定律陡峭5倍的進化曲線。這意味著,每100天,就可以用一半參數量實現當前最優模型相當的性能。每100天成本減半,一年後成本就可能降至原來的十分之一。如此快的迭代速度,對技術創新、產業落地提出了不同以往的挑戰。劉知遠在與騰訊科技的對話中直言:如果一家大模型公司發佈一款新的模型後“3到6個月無法收回成本”,這家公司的商業模式就不可持續,因為後來者很快就能以四分之一的資源實現同等能力。當研發迭代周期被壓縮至百天量級,人類的智力供給已逼近極限,產業的終極形態必將發生質變。工業革命的標誌是機器製造機器,而劉知遠期待的AI時代生產力標誌,將是“用AI製造AI”。唯有如此,才能支撐這場超越摩爾定律的智能風暴。騰訊科技:我們今天的主題是您和團隊最新發表在《自然·機器智能》上的關於大模型“能力密度”(Densing Law)的論文。您能介紹一下這項研究的背景嗎?劉知遠: 雖然這篇論文是 2025 年發表的,但這個想法早在 2024 年上半年就已經開始萌生。2023 年初,ChatGPT 的出現引發了全球對大模型的追逐,中國團隊也不例外,當時大家都在研究如何復現 ChatGPT。到了 2023 年下半年,一線的團隊基本完成了復現工作。那時候我們開始思考大模型未來的發展路徑。有些團隊可能會繼續沿用 ChatGPT 的技術路線,通過增加參數規模、投入更多資料來訓練 GPT-4 水平的模型。這條路線雖然確定性高,但意味著要花費更多經費,這顯然不是一條可持續的發展路徑。你不可能無限地增加成本來換取更強的能力。因此,我們開始探討如何用更低的成本、更高的質量來實現模型能力。2024 年初,我們推出的 Mini CPM 系列模型驗證了這一點:我們可以用更少的參數,實現歷史上需要幾倍甚至幾十倍參數才能達到的能力。這是經驗性的結果,我們想尋找其背後的規律,於是促成了 2024 年對“密度法則”的探索。圖:Densing Law論文登上Nature Machine Intelligence封面騰訊科技:這項研究是否因為中國的國情,使我們更重視大模型的效率問題?它在國內外是獨一無二的嗎?劉知遠: 追求效率當然有中國算力有限的國情因素。我們必須關注如何用更少的算力實現更高品質的模型。這也是為什麼 2024 年下半年,《經濟學人》的一篇封面文章提到,中國企業正通過技術創新繞過“算力牆”,並舉了面壁智能和 DeepSeek 的例子。但同時,追求效率也符合人工智慧本身的發展規律。人工智慧是一場堪比工業革命的科技浪潮,如果要讓每個人都受益,技術就不能昂貴。我們必須像歷史上任何一次科技革命那樣,用更低的成本實現更高品質的產品和服務。因此,我們自信地認為,密度法則對人工智慧的未來發展具有重要意義。騰訊科技:在“密度法則”中,一個關鍵概念是量化“智能”,但這本身是一個難題。在研究開始前,您為什麼覺得這件事是行得通的?劉知遠: 這個問題問得非常好。實際上,我們在密度法則這篇論文裡並沒有真正解決“如何度量智能總量”這個科學問題,而是找了一條取巧的辦法:找一個參照物(Reference Model)。我們假設用同一套技術方案訓練的模型,無論尺寸大小,其密度大致相同。我們將這套方案訓練出的模型作為 Reference Model,並假設其密度為 1。然後,我們觀察目標模型達到某種智能水平時,Reference Model 需要多大參數才能達到相同水平。通過比較兩者達到相同能力所需的參數量,我們就可以算出目標模型的相對密度。這種方法規避了直接計算模型內部智能總量的難題。當然,如何衡量智能的總量(Mass)是未來幾年人工智慧需要攻克的基礎科學問題。歷史上任何大的科技革命背後都有科學理論支撐,如資訊理論之於通訊,熱力學之於蒸汽機。智能科學未來也需要解決如何衡量智能總量的問題。騰訊科技:您在2024年WAIC期間曾提到模型的“密度法則”周期是8個月,但最終論文的結果是3.5個月。為什麼進化的速度比您預期的快這麼多?劉知遠: 2024年年中我們剛有這個想法時,研究尚在初期,觀測的時間跨度和模型數量都有限,所以當時的資料不夠穩定。我們2024年下半年發佈的版本算出來是3.3個月,到今年正式發表時,我們補充了2025年的新模型資料,周期修正為3.5個月。其實,具體的周期是三個月還是八個月並非最重要,最重要的是,這個速度遠遠快於摩爾定律的18個月。這意味著我們正以前所未有的速度迎來一場智能革命。每100天成本減半,一年後成本就可能降至原來的十分之一。同時,我們確實觀察到了一個加速現象。2023年之前,這個周期接近五個月;2023年之後,則縮短到三個多月。我們猜測,這是因為ChatGPT引發了全球性的關注,更多的資源和人才投入加速了技術創新。所以,“密度法則”並非自然規律,而是我們人類社會在該科技領域的一種“自我實現”:投入越多,密度增長越快。騰訊科技: 剛才提到投入,大模型有暴力美學的 Scaling Law,您覺得 Densing Law 和 Scaling Law 是統一的還是矛盾的?劉知遠:我認為它們是硬幣的兩面,相輔相成。“規模法則”的表像是模型越大、能力越強,其背後是我們找到了一條通用的智能構造方案(Transformer架構+序列預測學習),使得在一個模型內持續增加智能成為可能。它開啟了通往通用人工智慧的道路。在坐標系中,“規模法則”是一條參數規模越大、模型能力越強的持續上升曲線。而“密度法則”告訴我們,通過在模型架構、資料治理、學習方法等方面的持續技術創新,我們可以用更小的參數承載更多的智能,從而找到一條更加“陡峭”的“規模法則”曲線。也就是說,用相同的參數實現更強的能力,或者用更少的參數實現相同的能力。所以,沒有“規模法則”就不會有“密度法則”,兩者都是人工智慧發展中至關重要的規律。騰訊科技:“規模法則”似乎正面臨資料、算力和能源的天花板。密度法則何時會遇到瓶頸?劉知遠: Scaling Law的持續發展確實面臨電力、算力、資料等約束。而 Densing Law 正是實現更可持續Scaling Law 的方式。通過技術創新提高密度,我們可以在算力或成本基本不變的情況下,持續提升模型能力。例如DeepSeek V3宣稱用 1/10 的算力實現同等能力,OpenAI 的 API 價格持續下降,都反映了內部通過技術創新用更小的模型提供同等服務。當然,資料枯竭問題可能需要依賴另一項技術——大規模強化學習來解決,即讓模型通過自我探索生成高品質資料進行學習。騰訊科技:2025年有那些讓您覺得驚豔的技術突破,能讓 Densing Law 更加陡峭?劉知遠:今年是模型架構創新的大年,主要有三個方向:第一,以DeepSeek V3為代表的細粒度混合專家(MoE)架構走向成熟,通過稀疏啟動少數專家來大幅提升計算效率。第二,稀疏注意力(Sparse Attention)機制大行其道,通過減少注意力計算中的內容參與度,有效處理長序列。這兩者分別最佳化了Transformer的FFN層和Attention層,實現了計算的“按需分配”。第三,復興循環神經網路(RNN)思想,通過與Transformer混合架構,利用其“記憶”機制降低計算複雜度。這些創新都在變相地提升模型密度。此外,大規模強化學習的應用也取得了巨大飛躍,尤其在數學和程式碼領域,模型通過自我探索持續提升能力,暫時還看不到盡頭。這解決了資料枯竭的問題。騰訊科技: 您覺得密度法則能推廣到多模態模型或世界模型嗎?劉知遠: 我認為這是一個普遍規律。雖然不同領域的倍增周期可能不同,但只要是通用的、遵循 Scaling Law 的模型,未來也一定會遵循 Densing Law。就像晶片摩爾定律和電池密度提升一樣,技術創新總是追求用更少的資源實現更高的性能。騰訊科技:您如何看待Google最新發佈的Gemini 3?它是否可被稱為里程碑式的突破?劉知遠:我們內部認為Gemini 3是一個非常重要的里程碑。它在圖像生成中對文字的控制達到了前所未有的高度,這表明其模型的可控性和對世界的理解能力達到了一個新水平。我們推測,它不只依賴於Diffusion模型,很可能將自回歸(Auto-regressive)的思想融入其中,實現了生成過程的逐層細化和高度一致性。歷史上,所有文生圖模型都難以處理好文字內容,Gemini 3的突破,在我看來是一個非常值得關注的新範式。這也印證了密度法則:只要能實現某種智能,未來一定可以在更小的終端上運行。比如 Gemini 3 現在的能力,未來一定可以在手機、PC 或汽車晶片上跑起來。騰訊科技: 現在還沒有出現能替代智慧型手機的端側 AI 裝置,是不是因為 Densing Law 還沒進化到位?劉知遠: 端側裝置的發展受限於多個因素。第一,還沒有形成好的端側應用場景。現在的手機助手雖然使用者多,但並未與硬體緊密結合。第二,端側技術生態尚未形成。AGI 發展還沒收斂,模型能力還在持續提升,且在產品設計上還沒法完全規避錯誤。就像早期的搜尋引擎也是經過產品打磨才普及一樣,AGI 結合智能終端也需要一個過程。一旦產品形態成熟,智能終端的廣泛應用就會成為可能。騰訊科技: 您提到 MiniCPM 4 可以看作一種“模型製程”,這個怎麼理解?劉知遠: 我更願意把這一代模型比作晶片製程。通過技術創新,我們形成了一套新的模型製程,無論建構什麼尺寸的模型,其密度都更高。例如 MiniCPM 4 在處理長序列時速度提升了 5 倍,意味著可以用更少的計算量承載更強的能力。但目前的挑戰在於,硬體支援還不夠好。我們正在努力做軟硬協同最佳化,希望在消費級硬體上真正跑出理想狀態。騰訊科技: 這需要和高通、聯發科等硬體廠商協同創新嗎?劉知遠: 我們跟硬體廠商交流密切。但硬體廠商受摩爾定律 18 個月周期的影響,架構調整更審慎。而模型每 3 個月就進化一次。所以短期內是軟體適配硬體,長期看硬體會針對穩定的新技術做最佳化。現在端側晶片廠商已經在認真解決大模型運行的瓶頸,比如訪存問題。騰訊科技: 之前大家嘗試過剪枝、量化等方法來做小模型,這和原生訓練的高密度模型相比如何?劉知遠: 我們做過大量實驗,剪枝、蒸餾、量化都會降低模型密度。量化通過後訓練可以恢復一部分效果,是目前端側比較落地的做法。但蒸餾現在已經融合進資料合成體系,不再是簡單的“大蒸小”。剪枝目前還沒找到保持密度的好方法。就像你不能通過剪裁把 14nm 晶片變成 7nm 晶片一樣,要把密度做高,必須從頭建構一套複雜的原生技術體系,包括架構設計、資料治理、學習方法和軟硬協同。這本身就是技術護城河。騰訊科技:“密度法則”對產業界意味著什麼?對於創業公司來說,機會在那裡?劉知遠:3.5個月的迭代周期意味著,任何一個投入巨資訓練的大模型,如果不能在3到6個月內通過商業化收回成本,這種模式就很難持續。因為很快就會有技術更新的團隊用更低的成本實現同樣的能力。因此,雲端API服務的競爭會極其慘烈,最終可能只會剩下幾家擁有海量使用者和強大技術迭代能力的頭部廠商。對於創業公司而言,機會可能在於“端側智能”。端側場景的約束條件非常明確(如功耗、算力、響應時間),這使得技術優勢,即誰能把模型密度做得更高,成為唯一的競爭點,大廠的“鈔能力”(如不計成本的投入)在這裡難以發揮。雖然手機廠商也在高度關注,但它們的決策會更審慎。我們認為,端側智能會先從智能座艙等對功耗不那麼敏感的場景開始,而最終,AGI時代一定會有屬於它自己的智能終端形態,這是我們希望探索的星辰大海。騰訊科技: 面對算力軍備競賽和快速折舊,您怎麼看泡沫論?劉知遠: 快速發展肯定伴隨局部泡沫,但整體上我們正進入智能革命時代。如果以 18 個月為周期,資訊革命走了 50 個周期;如果 AI 也走 50 個周期,按現在的速度,大概到 2030-2035 年就能實現全球普惠的 AGI。未來網際網路的主體不再只是人,還有無數智能體。雖然訓練模型的廠商會收斂,但推理算力需求會爆炸式增長。騰訊科技: 李飛飛(美國國家工程院院士)說 AI 是文明級技術,您對這場革命樂觀嗎?劉知遠: 我相當樂觀。騰訊科技:如果AI變得無比強大,未來人類會不會無事可做?劉知遠:我不這樣認為。未來一定是人機協同,人是把關人。人類知識大爆炸導致我們只能成為細分專家,阻礙了跨領域創新。人工智慧可以幫助我們成為知識的主人而不是奴隸,去探索宇宙、生命等更多未解之謎。騰訊科技: 您2026年最期待的創新是什麼?劉知遠: 我最期待“用 AI 製造 AI”。明年一個重要節點是自主學習(Self-play)。目前的強化學習還依賴人類給標準答案,未來模型如果能自主判斷探索結果的價值,就實現了自主學習。在此基礎上,結合密度法則的提升,我們有可能為每個人建構專屬的、持續學習的個人大模型。未來的生產標誌就是“用 AI 製造 AI”。不再依賴有限的人力,而是由 AI 來賦能 AI 的研發和製造。這將是一個指數級加速的過程。 (騰訊科技)
15個未來產業新賽道全景解析
15個未來產業解析1. 引言中國工業和資訊化部發佈《國家高新區新賽道培育行動方案》(工信廳規函〔2025〕8號),旨在推動國家高新區在新一輪科技革命和產業變革中搶佔先機,培育具有國際競爭力的未來產業。該行動方案聚焦國家重大戰略需求和科技前沿領域,通過"開放式發現—高標準選拔—精準性培育"的推進機制,最終遴選出15個重點新賽道方向進行系統化培育。這15個新賽道方向包括:量子科技、腦機介面、具身智能、人工智慧大模型、高性能積體電路、第六代移動通訊(6G)、工業網際網路、基礎軟體與工業軟體、清潔氫、高端新材料、商業航天、低空經濟、生物製造、細胞與基因、高端醫療器械。本文將按照技術成熟度,將這15個新賽道分為突破期、成長期和成熟期三個層次進行解析,探討每個領域的技術特點、應用場景、政策支援及產業化前景,為理解中國未來產業發展路徑提供參考。2. 技術成熟度分層解析2.1 突破期新賽道突破期新賽道是指技術基礎尚不成熟,但具有顛覆性潛力,有望在未來5-10年內實現關鍵技術突破的領域。量子科技:量子科技是利用量子力學原理進行資訊處理、感測和計算的前沿領域。中國在量子通訊領域已取得全球領先,如"墨子號"量子科學實驗衛星和"京滬幹線"量子保密通訊骨幹網。然而在量子計算方面,雖然有阿里巴巴、百度、騰訊等企業佈局,但與美國、歐洲相比仍有差距。量子科技的關鍵應用場景包括量子計算、量子通訊和量子測量,其中量子計算有望在密碼學、新材料設計、藥物研發等領域帶來革命性突破。預計到2030年,中國將實現量子計算的初步商業化應用。報告原文閱讀>>>量子資訊技術發展與應用研究報告(2025年)腦機介面:腦機介面技術通過在人腦與外部裝置之間建立直接的資訊交換通道,實現腦與裝置的互動。目前,中國腦機介面技術已取得一定進展,如清華大學研製的無創腦機介面系統和中國科學院的侵入式腦機介面技術。主要應用場景包括醫療康復(如幫助癱瘓患者控制假肢)、人機互動和軍事應用。2025年,工信部將腦機介面列為新賽道重點培育方向,預計未來5年將迎來技術突破期,到2030年有望實現部分商業化應用。這兩個突破期新賽道的共同特點是技術壁壘高、研發周期長、投入大,需要長期穩定的政策支援和資金投入。中國在量子通訊領域已具備一定優勢,但在量子計算和腦機介面的基礎研究方面仍有提升空間。這兩個領域的技術突破將為中國在下一代資訊技術和生物技術領域贏得全球競爭主動權提供重要支撐。2.2 成長期新賽道成長期新賽道是指技術已取得初步突破,處於產業化初期,有望在未來3-5年內形成較大市場規模的領域。具身智能:具身智能是指賦予機器人或智能體物理實體和感知能力,使其能夠在真實環境中自主學習、適應和互動的技術。2025年,中國在具身智能領域已取得顯著進展,如優必選Walker S1機器人和宇樹科技的四足機器人。具身智能的主要應用場景包括工業製造、醫療健康、家庭服務和特種作業等。中國在具身智能領域的優勢在於應用場景豐富和產業鏈完備,但在核心演算法和高端感測器方面仍有差距。預計到2028年,具身智能將在特定場景實現規模化應用。人工智慧大模型:人工智慧大模型是基於海量資料訓練的深度學習模型,具有強大的自然語言處理、圖像識別和多模態理解能力。2025年,中國已湧現出文心一言、通義千問、智譜GLM等一批具有國際競爭力的大模型。大模型的應用場景幾乎涵蓋所有行業,包括智能客服、內容創作、醫療診斷、金融分析等。中國在大模型領域的優勢在於資料資源豐富和應用場景廣泛,但在基礎演算法創新和高端晶片方面存在短板。預計到2027年,大模型將實現從通用能力向專業領域的深度滲透。報告延伸閱讀:生成式人工智慧應用發展報告(2025)-中國網際網路絡資訊中心(點選下方圖片可查閱下載報告全文)高性能積體電路:高性能積體電路是支撐數字經濟發展的關鍵基礎,包括先進製程晶片、專用晶片和第三代半導體等。2025年,中國積體電路產業規模已突破兆元,但在高端晶片設計和製造方面仍面臨挑戰。高性能積體電路的主要應用場景包括高性能計算、人工智慧、5G通訊等。中國在積體電路領域的戰略是"設計引領、製造提升、封裝突破、材料配套、裝置支撐"。預計到2028年,中國將在部分關鍵領域實現技術突破。第六代移動通訊(6G):6G是繼5G之後的下一代移動通訊技術,將提供更高的速率、更低的時延和更廣的連接。2025年,中國已啟動6G技術研發試驗,預計2025-2027年完成關鍵技術研究,2028-2030年完成標準制定。6G的主要應用場景包括沉浸式體驗、智能體互動、全息通訊等。中國在6G領域的優勢在於5G技術積累和市場規模,但面臨技術路線選擇和國際標準競爭的挑戰。預計到2030年,6G將開始商用部署。報告延伸閱讀:2025年6G傳輸技術白皮書(點選下方圖片可查閱下載報告全文)這四個成長期新賽道是中國科技自立自強的關鍵領域,也是國際科技競爭的焦點。中國在這些領域既有優勢也有挑戰,需要加強基礎研究和核心技術攻關,建構自主可控的產業生態。2.3 成熟期新賽道成熟期新賽道是指技術已相對成熟,處於規模化應用階段,有望在未來1-3年內形成顯著經濟和社會效益的領域。工業網際網路:工業網際網路是新一代資訊技術與製造業深度融合的產物,通過連接工業全要素、全產業鏈、全價值鏈,實現資源最佳化配置和生產方式變革。2025年,中國工業網際網路已形成"綜合型+特色型+專業型"平台體系,連接工業裝置超過1億台。主要應用場景包括裝置預測性維護、生產過程最佳化、供應鏈協同等。中國在工業網際網路領域的優勢在於製造業基礎雄厚和應用場景豐富,但在工業軟體和高端裝備方面仍有短板。預計到2027年,工業網際網路將實現從單點應用向全鏈條整合的轉變。基礎軟體與工業軟體:基礎軟體包括作業系統、資料庫、中介軟體等,工業軟體包括CAD、CAE、CAM等研發設計軟體和MES、PLM等生產管理軟體。2025年,中國基礎軟體和工業軟體自主化率持續提升,但在高端領域仍有較大差距。主要應用場景包括智能製造、數字政府、金融科技等。中國在軟體領域的優勢在於市場規模大和開發人才豐富,但在核心演算法和底層架構方面存在不足。預計到2027年,中國基礎軟體和工業軟體將在重點行業實現規模化應用。清潔氫:清潔氫是通過可再生能源電解水或化石能源耦合碳捕集技術生產的氫氣,具有零排放、高能量密度的特點。2025年,中國氫能產業規模已突破5000億元,清潔氫佔比持續提升。主要應用場景包括氫燃料電池汽車、氫能儲能、氫能冶金等。中國在氫能領域的優勢在於可再生能源資源豐富和應用場景廣泛,但在氫能儲運和燃料電池技術方面仍有提升空間。預計到2027年,中國清潔氫將在交通和工業領域實現規模化應用。高端新材料:高端新材料是指具有特殊性能和功能的先進材料,包括先進基礎材料、關鍵戰略材料和前沿新材料。2025年,中國新材料產業規模已突破6兆元,但在高端領域仍有差距。主要應用場景包括電子資訊、航空航天、新能源等。中國在新材料領域的優勢在於產業鏈完整和市場需求旺盛,但在原始創新和高端裝備方面存在短板。預計到2027年,中國高端新材料將在關鍵領域實現國產替代。商業航天:商業航天是指由企業主導的航天活動,包括衛星製造、發射服務、空間應用等。2025年,中國商業航天產業規模已突破2兆元,湧現出一批具有國際競爭力的企業。主要應用場景包括衛星網際網路、遙感監測、太空旅遊等。中國在商業航天領域的優勢在於航天技術積累和市場需求增長,但在商業模式創新和國際合作方面仍有提升空間。預計到2027年,中國商業航天將在衛星網際網路和遙感應用領域實現規模化發展。低空經濟:低空經濟是指在低空空域開展的經濟活動,包括無人機配送、空中遊覽、應急救援等。2025年,中國低空經濟規模已突破5000億元,無人機應用領域不斷拓展。主要應用場景包括物流配送、農林植保、城市治理等。中國在低空經濟領域的優勢在於應用場景豐富和政策支援有力,但在空域管理和服務標準方面仍需完善。預計到2027年,中國低空經濟將在物流配送和城市服務領域實現規模化應用。生物製造:生物製造是利用生物系統或生物體生產化學品、材料和能源的過程,具有綠色、高效、可持續的特點。2025年,中國生物製造產業規模已突破1兆元,生物基產品種類不斷豐富。主要應用場景包括生物基化學品、生物基材料、生物燃料等。中國在生物製造領域的優勢在於生物資源豐富和產業基礎良好,但在生物合成技術方面仍有差距。預計到2027年,中國生物製造將在化工替代和材料創新領域實現突破。細胞與基因:細胞與基因技術是利用細胞和基因進行疾病治療、健康管理和生物製造的技術,包括基因治療、細胞治療、基因編輯等。2025年,中國細胞與基因治療產業規模已突破1000億元,多個產品獲批上市。主要應用場景包括腫瘤治療、遺傳病治療、組織再生等。中國在細胞與基因領域的優勢在於臨床資源豐富和應用場景廣泛,但在原創技術和高端裝備方面仍有短板。預計到2027年,中國細胞與基因技術將在腫瘤和遺傳病治療領域實現規模化應用。高端醫療器械:高端醫療器械是指具有高技術含量和高附加值的醫療裝置,包括醫學影像裝置、體外診斷裝置、微創治療裝置等。2025年,中國醫療器械產業規模已突破1.5兆元,高端產品國產化率持續提升。主要應用場景包括疾病診斷、治療和康復。中國在高端醫療器械領域的優勢在於市場規模大和產業鏈完整,但在核心技術和高端產品方面仍有差距。預計到2027年,中國高端醫療器械將在重點疾病領域實現國產替代。這九個成熟期新賽道是中國產業升級和高品質發展的重要支撐,也是培育新增長點的關鍵領域。這些領域既有技術基礎,又有市場需求,有望在短期內實現規模化發展,為經濟增長提供新動能。3. 區域佈局與協同發展15個新賽道方向在中國範圍內呈現差異化佈局。北京、上海、深圳等地在人工智慧大模型、高性能積體電路等領域具有領先優勢;安徽、陝西等地在量子科技領域具備特色;浙江、江蘇等地在工業網際網路、高端新材料等領域優勢明顯;四川、廣東等地在低空經濟領域發展迅速。這些新賽道之間存在顯著的協同效應。例如,人工智慧大模型與具身智能相結合,可提升機器人的認知和決策能力;高性能積體電路為6G通訊和人工智慧提供算力支撐;工業網際網路與高端新材料相結合,可促進製造業數位化轉型;生物製造與細胞與基因技術協同,可推動生物醫藥創新發展。通過建構跨領域、跨區域的協同創新網路,實現資源共享、優勢互補,將有助於加速新賽道的培育和發展,形成具有國際競爭力的產業叢集。4. 結論與展望《國家高新區新賽道培育行動方案》遴選出的15個重點新賽道方向,覆蓋了資訊技術、生物技術、新材料、新能源、航空航天等多個前沿領域,反映了中國面向科技前沿和國家重大需求的戰略佈局。從技術成熟度來看,這些新賽道可分為突破期、成長期和成熟期三個層次,分別代表了中國未來產業發展的不同階段和重點領域。突破期的量子科技和腦機介面有望在未來5-10年內實現關鍵技術突破;成長期的人工智慧大模型、具身智能等領域有望在未來3-5年內形成較大市場規模;成熟期的工業網際網路、高端新材料等領域有望在未來1-3年內產生顯著經濟和社會效益。從戰略意義來看,這些新賽道既是中國科技自立自強的關鍵領域,也是建構新發展格局的重要支撐。通過集中優勢資源,實施精準培育,有望在這些領域實現從跟跑到並跑甚至領跑的轉變,為中國在新一輪科技革命和產業變革中贏得主動權。未來,隨著技術不斷突破、產業生態不斷完善、應用場景不斷拓展,這些新賽道將為中國經濟高品質發展注入新動能,為人民美好生活提供新供給,為建構人類命運共同體貢獻中國智慧和中國方案。 (TOP行業報告)
對話Surge AI創始人Edwin Chen:不融資、不炒作,百人團隊如何4年做到10億美金?
Surge AI 更像研究實驗室,注重好奇心、長期激勵與學術嚴謹性。簡介Edwin Chen是深耕AI資料領域的顛覆式創業者,以Surge AI創始人兼CEO的身份,走出了一條逆勢生長的商業路徑。他帶領不足100人的團隊,4年實現營收破10億美元,全程未接受外部VC投資、自籌資金且盈利至今,成為全球成長最快的AI資料公司。在本期Lenny播客對話中,他毫無保留地拆解核心邏輯:高品質資料的定義絕非“堆人力”,而是像“養育孩子”般注入價值觀與創造力;直言行業對基準測試的盲目追捧正在帶偏AGI方向,揭秘強化學習環境如何成為AI訓練的下一代核心;更痛批矽谷融資炒作套路,給出“專注產品、拒絕跟風”的創業箴言。此外對話中更直擊行業深層痛點:模型差異化的未來趨勢、對於AI目標函數的思辨,以及資料公司如何影響全球AI發展方向。這場對談既有硬核的技術邏輯拆解,也有顛覆傳統的商業認知,想要讀懂AI資料領域的底層邏輯與創業本質,這些乾貨滿滿的細節裡藏著關鍵答案。本期目錄4年營收10億美元神話創業叛逆:拒絕矽谷套路的增長邏輯高品質資料與模型領先的密碼技術爭議:基準測試的陷阱與AGI航向風投之外的創業正道強化學習重塑AI訓練未來模型差異化與AI趨勢冷暖AI訓練的使命與創業初心4年營收10億美元神話主持人Lenny:我們先從你取得的驚人成就說起吧。不到四年營收破10億美元,團隊僅60-70人,且完全自籌資金、未接受任何風投,真正實現了AI賦能小團隊的願景。未來會有更多公司做到這一點嗎?AI在那方面最能幫你們發揮槓桿作用?Edwin Chen:是的,我們去年營收超過10億美元,而員工還不到100人。我認為未來幾年,我們會看到比例更驚人的公司出現——比如人均營收1億美元。AI持續升級會讓這一比例成為必然。Surge AI創始人Edwin Chen(圖片來源:YouTube@Lenny's Podcast)我以前在多家大型科技公司工作過,總覺得其實裁掉90%的人,公司運轉反而會更快,因為最優秀的人才不會被各種瑣事幹擾。所以當我們創辦Surge時,就想以完全不同的方式打造它:組建一支超精簡、超精英的團隊。而且不可思議的是,我們真的做到了。我覺得有兩個關鍵因素在共同作用:一是人們逐漸意識到,不一定非要打造龐大的組織才能成功。二是AI帶來的這些效率提升,會讓創業迎來一個黃金時代。我最期待的是,未來的公司不僅規模會變小,形態也會發生根本性改變。員工少意味著所需資金少,資金少就不需要融資。所以,未來的創業者不再是那些擅長遊說、炒作的人,而是真正精通技術或產品的人。產品也不再是為了迎合營收目標和風投喜好而最佳化,而是由這些小型專注團隊打造的、更具深度和創意的作品——他們是在打造自己真正在乎的東西,是真正的技術創新。創業叛逆:拒絕矽谷套路的增長邏輯主持人Lenny:你們做了很多逆勢而為的事,比如不在領英發爆款帖子,不在推特上持續宣傳Surge。我想大多數人直到最近才聽說過你們,然後你們突然就以“增長最快的十億美元營收公司”的身份亮相了。你們為什麼要這麼做?Edwin Chen:我們從一開始就不想參與矽谷的那套玩法,我一直覺得那很荒謬。想想看,你小時候的夢想是自己從零打造一家公司,每天沉浸在程式碼和產品中?還是向風投解釋自己的每一個決策,陷入公關和融資的無盡循環?不參與這些玩法確實讓我們的路更難走,因為如果選擇融資,你自然會融入矽谷的“產業生態”——風投會在推特上宣傳你,你會登上TechCrunch的頭條,因為高估值融資而被各大媒體報導。而我們只能靠打造出10倍優秀的產品,通過研究人員的口碑傳播獲得成功。但這也讓我們的客戶群體變得非常精準:他們真正理解資料的價值,也真正在乎資料質量,並且清楚優質資料能讓他們的AI模型變得更強大。因為這些早期客戶一直在幫助我們,給我們的產品反饋,所以與他們在使命上的高度契合,對我們早期的發展至關重要。他們購買我們的產品,是因為認可產品的獨特價值,是因為產品能真正幫到他們,而不是因為在社交媒體上看到了宣傳。所以這條路雖然更難,但對我們來說是正確的選擇。高品質資料與模型領先的密碼主持人Lenny:這對創業者來說是個很有啟發的故事——不用整天在推特上宣傳,不用融資,只要埋頭打造產品就行。我非常喜歡Surge的創業故事。能不能簡單介紹一下你們是做什麼的?Edwin Chen:我們本質上是教AI模型分辨好壞。我們利用人類資料對模型進行訓練,推出了很多相關產品。比如SAT、RHF、評估標準、驗證器、強化學習環境等等,同時我們也會衡量模型的進步程度。所以說到底,我們是一家資料公司。主持人Lenny:你一直強調,資料質量是你們成功的關鍵。那麼要打造高品質資料,需要具備那些條件?你們做了那些與眾不同的事?而其他人又忽略了什麼?Edwin Chen:我覺得大多數人根本不理解這個領域中“質量”的真正含義,他們以為只要投入大量人力就能獲得優質資料,但這完全是錯誤的。我舉個例子吧:假設你想訓練一個模型寫一首關於月亮的優秀詩歌,什麼才是“高品質”的詩歌?如果對質量沒有深入思考,你可能會設定這樣的標準:“這是一首詩嗎?有沒有8行?有沒有出現‘月亮’這個詞?”只要滿足這些條件,你就覺得這是一首好詩。但這和我們追求的質量相去甚遠。我們想要的是能拿諾貝爾獎等級的詩歌——它是否獨特?是否充滿精妙的意象?是否能打動你、觸動你的心靈?這才是我們定義的高品質詩歌。這種對質量的深度追求其實非常困難,因為它難以衡量,主觀、複雜且豐富,同時也設定了極高的標準。所以我們必須打造全套技術來衡量這種質量——比如收集關於工作人員的數千個訊號,以及每個項目、每項任務的數千個訊號。到最後,我們能精準判斷出某個人擅長寫詩、寫散文還是寫技術文件。我們會收集關於工作人員背景、專業技能的所有訊號。不僅如此,還會關注他們完成任務時的實際表現,然後利用這些訊號來判斷他們是否適合某個項目,以及他們是否在推動模型進步。打造這些衡量技術確實很難,但這正是我們希望AI能做到的——所以我們對質量有著極致且深刻的追求。主持人Lenny:所以你的意思是,你們會深入理解每個垂直領域中“質量”的定義,對嗎?比如你們會僱傭極具詩歌天賦的人,再結合評估標準,來判斷作品是否優秀?這背後的運作機制是怎樣的?Edwin Chen:具體來說,我們會收集工作人員在平台上操作時的數千個訊號——比如鍵盤敲擊頻率、回答速度、同行評審結果、程式碼標準,同時我們也會用他們的輸出結果來訓練我們自己的模型,觀察這些輸出是否能提升模型性能。這有點像Google搜尋判斷網頁質量的邏輯,主要分為兩部分:一是剔除最差的內容,比如垃圾資訊、低品質內容、無法載入的頁面,這有點像內容稽核。二是發掘最優質的內容,比如找出最優質的網頁,或者最適合某個任務的人。這些人不只是寫得出高中水平的詩歌——他們不會機械地按照指令堆砌詩句,而是能寫出真正觸動人心的作品。主持人Lenny:Claude在程式碼編寫和文字創作方面,長期以來都比其他模型優秀得多。事實上,所有AI程式設計產品都曾基於Claude。是什麼讓Claude能保持這麼久的領先?僅僅是訓練資料的質量,還是有其他原因?Edwin Chen:我覺得有多個因素。首先,資料確實是關鍵——很多人沒有意識到,所有前沿實驗室在選擇模型訓練資料時,都面臨著無數選擇。模型訓練要明確一系列問題:是否用人類資料、如何收集、對內容的具體要求(比如程式設計領域側重前端還是後端,前端更看重視覺、效率還是正確性),以及合成資料的佔比、對基準測試的重視程度。不同公司對此的權衡不同:有的為公關最佳化基準指標,有的更看重實際任務效果。模型後期訓練更像藝術而非科學,開發者的審美和洞察力會影響訓練資料組合。因此,資料很重要,模型的最佳化目標函數同樣關鍵。主持人Lenny:這太有意思了。也就是說,主導這項工作的人的審美,會影響他們對資料的選擇和投喂。這再次凸顯了優質資料的價值——Anthropic正是憑藉更好的資料獲得了巨大的增長和成功。Edwin Chen:沒錯。而且這還只是程式設計一個垂直領域,文字創作領域也是類似的情況。AI看似是冰冷的二進制程式碼,但人類的判斷和審美,依然是這些產品成功的關鍵因素。主持人Lenny:完全同意。真正有審美和洞察力的前沿實驗室會意識到,好詩不能簡化為一系列固定的標準,他們會考慮那些隱含的、微妙的特質。我想這正是他們能脫穎而出的原因。技術爭議:基準測試的陷阱與AGI航向主持人Lenny:你提到了基準測試。很多人都有這樣的困惑:現在很多模型在幾乎所有STEM領域都表現得比人類還好,但對普通人來說,這些模型似乎並沒有在持續變得更智能。你對基準測試的信任度有多高?它們與AI的實際進步相關性強嗎?Edwin Chen:我完全不信任基準測試,主要有兩個原因。第一,很多人——包括行業內的研究人員——都沒有意識到,這些基準測試本身往往是有問題的,比如答案錯誤、存在諸多漏洞,但大多數人並沒有發現這些問題。第二,這些基準測試通常都有明確的客觀答案,這使得模型很容易“鑽空子”最佳化,而這與現實世界的混亂和模糊性完全不同。我常說一個很有意思的現象:這些模型能贏得國際數學奧林匹克競賽金牌,卻連解析PDF都困難重重。這是因為雖然國際數學奧林匹克競賽對普通人來說很難,但它具有客觀性,而解析PDF往往沒有這種客觀性。所以前沿實驗室更容易讓模型在這些基準測試中“鑽空子”最佳化,而非解決現實世界中那些混亂、模糊的問題。因此,基準測試與AI的實際進步之間缺乏直接相關性。主持人Lenny:你這麼一說,我就明白了——衝擊這些基準測試有點像行銷手段。比如Gemini 3剛發佈時,宣稱在所有基準測試中排名第一,是不是就是這樣?他們只是訓練模型在這些特定任務上表現出色?Edwin Chen:是的,這主要有兩方面原因。一方面,這些基準測試有時會以某種方式“洩露資訊”,或者前沿實驗室會調整模型在基準測試中的評估方式——比如調整系統提示詞、調整模型運行次數等,從而“操縱”測試結果。另一方面,如果你優先最佳化基準測試而非現實世界的任務,模型自然會在基準測試中表現越來越好,這本質上也是一種操縱。主持人Lenny:既然如此,你如何判斷我們是否在向AGI邁進?如何衡量這種進步?Edwin Chen:我們真正重視的衡量方式是人類評估。比如,我們會讓人類標註員與模型進行跨領域的對話——讓諾貝爾獎得主等級的物理學家與模型討論前沿研究,讓教師與模型探討課程設計,讓大型科技公司的程式設計師與模型解決日常工作中的問題。我們的標註員都是各自領域的頂尖專家,他們不會淺嘗輒止地瀏覽模型的回答,而是會深入研究。他們會驗證程式碼的正確性,核對物理方程的精準性,從精準性、指令遵循度等多個維度對模型進行深度評估——這些都是普通使用者不會做的。當你在ChatGPT中收到“比較兩個回答”的彈窗時,大多數人只是憑感覺選擇看起來更順眼的回答,而我們的標註員會仔細分析每個回答的各個維度。所以我認為,這種人類評估比基準測試或隨機的線上A/B測試更可靠。主持人Lenny:我很高興看到人類在其中依然扮演著核心角色。未來會不會有一天,我們不再需要這些人類標註員了?比如AI已經足夠智能,我們已經從人類身上學到了所有能學的東西。Edwin Chen:我認為除非我們實現了AGI,否則這種情況不會發生。從定義上來說,在實現AGI之前,模型還有很多需要從人類身上學習的東西。所以我覺得這一天不會很快到來。主持人Lenny:既然說到了AGI,你認為我們距離AGI還有多久?是幾年還是幾十年?Edwin Chen:我更傾向於較長的時間線。我認為人們沒有意識到,從80%的性能提升到90%、99%、99.9%,每一步都越來越難。在我看來,未來一兩年內,模型可能會自動化完成普通L6級軟體工程師80%的工作,但要提升到90%可能還需要幾年時間,再提升到99%又需要更長時間,以此類推。所以我認為,我們距離AGI還有十年甚至幾十年的時間。主持人Lenny:你有個很尖銳的觀點:很多實驗室在推進AGI的方向上是錯誤的。基於你在推特、Google和臉書的工作經歷,你能具體說說嗎?Edwin Chen:我擔心我們沒有打造出能推動人類進步的AI——比如治癒癌症、消除貧困、探索宇宙這些宏大目標——反而在最佳化“劣質AI”。說白了,就是讓模型迎合那些在雜貨店買八卦小報的人的喜好,教模型追逐多巴胺而非真相。這和我們之前聊的基準測試有關。我舉幾個例子:比如行業排行榜LM Arena,普通人僅花兩秒瀏覽選花哨回答,模型靠誇張表達、多表情符號、長篇幅就能上榜,那怕內容胡編亂造。前沿實驗室為公關、企業客戶認可,研究人員為升職,不得不迎合這類排行榜,而去犧牲模型精準性。我認為這些負面激勵正在把AI推向錯誤的方向。我還擔心AI最佳化“參與度”的趨勢。我以前在社交媒體行業工作過,每次我們最佳化參與度,都會出現糟糕的結果——點選誘餌、比基尼照片、大腳怪傳說、恐怖的皮膚病圖片充斥著使用者的資訊流。更令人擔憂的是 AI 最佳化 “參與度” 的趨勢。就像社交媒體曾出現的問題,模型靠吹捧使用者、迎合妄想打造資訊繭房,而矽谷痴迷於使用者時長,讓這些有根本缺陷的模型反而得分更高,負面激勵正把 AGI 推向錯誤方向主持人Lenny:所以你的意思是,AGI的發展之所以放緩,是因為這些實驗室關注了錯誤的目標函數——錯誤的基準測試和評估方式。Edwin Chen:沒錯。主持人Lenny:我知道你可能不方便偏袒任何一家實驗室,畢竟你和所有實驗室都有合作。但有沒有那家實驗室做得更好,意識到了這個錯誤方向?Edwin Chen:我一直非常欣賞Anthropic。我認為Anthropic在自己在乎什麼、不在乎什麼,以及希望模型呈現出怎樣的行為方面,有著非常堅定的原則,這讓我覺得他們的做法更具使命感。Anthropic CEO Dario Amodei(圖片來源:X@AnthropicAI)主持人Lenny:你覺得實驗室還有其他那些重大錯誤,正在阻礙AI的發展或讓AI走向錯誤的方向?除了追逐基準測試和過度關注參與度之外。Edwin Chen:我覺得問題在於他們打造的產品本身,以及這些產品對人類是有益還是有害。比如我經常會想Sora(OpenAI的文字生成視訊模型)——那些公司會打造Sora,那些不會?我自己心裡有答案,但我覺得這個問題的答案,恰恰能反映出這些公司想要打造什麼樣的AI模型,以及他們想要實現什麼樣的未來。右一為OpenAI創始人Sam Altman(圖片來源:X@sama)主持人Lenny:支援Sora的觀點是,它很有趣,人們需要它,能幫助公司創收、研發更好的模型,還能以有趣的方式生成訓練資料。Edwin Chen:核心問題是是否在乎實現目標的過程。就像不會為資助嚴肅報紙而賣八卦小報一樣,不擇手段雖可能達成目標,卻會引發負面後果,甚至偏離更重要的事,因此過程與目標同等重要。風投之外的創業正道主持人Lenny:你提到矽谷存在融資過多、回音室效應等問題,將其稱為 “矽谷機器”,還說這種模式難出有價值的公司,不走風投路線可能更成功。能否結合自身經歷,給創業者一些不同建議?畢竟他們常聽到要找知名風投、搬到矽谷的說法。Edwin Chen:我一直很反感矽谷的諸多創業信條,比如頻繁調整方向、用 “灰色手段” 追增長、快速招聘擴張等。我的建議是:不盲目調方向、不隨意擴張,不僱傭只為簡歷鍍金的人;專注打造唯有自身洞察力和專業知識才能實現的產品,堅守使命感,拒絕跟風追逐估值。創業應是為堅信的宏大理念承擔風險,即便因市場未準備好失敗,也比跟風賺快錢有意義。唯有堅守初心、拒絕誘惑、不輕易放棄,專注打造 “非你不可” 的公司,才可能打造出有價值、能改變世界的企業。如今不少人厭倦矽谷炒作,希望科技能向為有意義大目標努力的方向發展。主持人Lenny:我正在和一位我非常欣賞的風投Terrence Rohan合作一篇文章,我們採訪了五位在“世代級”公司早期就加入的人。他們的經歷和你說的完全一致:這些公司都有宏大的抱負,正如你所說,他們不會為了尋找產品市場契合度而隨意調整方向。所以你的觀點和我們的發現高度契合。Edwin Chen:沒錯。我認為你必須要有宏大的抱負,堅信自己的理念能改變世界,並且願意全力以赴去實現它。強化學習重塑AI訓練未來主持人Lenny:換個話題聊個逆勢觀點:著名 AI 研究者 Richard Sutton 在播客中提出 “痛苦的教訓”,認為 LLM 因學習方式限制是死胡同,會陷入停滯。你認為 LLM 能實現或超越 AGI 嗎?還是需要新的重大突破?Edwin Chen:我認為要實現AGI,還需要新的突破。我是這樣理解的:談到訓練,我更傾向於從“類生物”的角度思考——人類的學習方式有上百萬種,我們需要打造能模仿所有這些學習方式的模型。它們可能在側重點上有所不同,但我們需要讓模型具備人類的學習能力,確保它們有相應的演算法和資料來實現這種學習。因此,只要LLM的學習方式與人類不同,就需要新的突破。這就涉及到強化學習——這是我非常關注的領域,而且我越來越多地聽到,強化學習在模型後期訓練中變得越來越重要。主持人Lenny:你能幫大家解釋一下什麼是強化學習和強化學習環境嗎?為什麼它們在未來會變得越來越重要?Edwin Chen:強化學習本質上是訓練模型達成特定的獎勵目標。強化學習環境則是對現實世界的模擬——就像打造一個視訊遊戲,每個角色都有真實的故事,每個企業都有可呼叫的工具和資料,所有實體之間都能相互作用。比如,我們會模擬這樣的場景:一家初創公司有 Gmail 郵件、Slack 聊天記錄、程式碼庫這些東西,突然 AWS 和 Slack 都崩了,讓模型自己想辦法解決。我們會給模型佈置任務、設計難搞的場景,看它表現好壞來獎懲。強化學習環境有意思的點在於,能把模型在現實複雜任務裡的短板全暴露出來。很多模型在單獨的基準測試裡挺厲害,比如會用個工具、聽個單步指令,但一放到亂糟糟的現實裡就不行了。碰到模糊的Slack消息、沒見過的工具,還得正確操作、改資料庫,而且一步影響後面好多步,跟之前那種學術化的單步環境完全不一樣,模型常常會離譜的徹底翻車。所以我覺得,強化學習環境會變成模型重要的 “訓練場”,它模擬真實世界的情況,能幫模型在實際任務裡變厲害,而不是只在特意設計的環境裡表現好。主持人Lenny:我試著想像一下這個場景:本質上就是一個虛擬機器,裡面有瀏覽器、電子表格之類的工具,還有你們的網站。比如,給模型的任務是“確保surge.com正常運行”,然後突然網站當機了,目標函數就是找出當機原因並修復嗎?Edwin Chen:沒錯。目標函數可能是通過一系列單元測試,也可能是撰寫一份包含事件完整資訊的復盤文件——我們會設定各種不同的獎勵機制來判斷模型是否成功。所以本質上,就是給模型一個目標,讓它利用自己的所有智能去嘗試解決問題,過程中會犯錯,我們會引導它,對正確的行為給予獎勵。你說得對,這正是模型變得更智能的下一階段:強化學習環境專注於那些具有經濟價值的特定任務。Edwin Chen:強化學習環境和之前的SFT、RHF、評估標準這些學習方式不衝突,不是要替代它們,而是補充,讓模型多學一項技能。而且這時候不用專家直接和模型對話、糾錯打分了,而是讓他們設計強化學習環境。比如金融分析師會做電子表格、指定要用到的工具,再設定獎勵規則。這很像人類的學習方式:不斷嘗試,留下有用的方法,丟掉沒用的。主持人Lenny:你提到“軌跡”對強化學習非常重要——不僅僅是設定目標和看結果,還要關注過程中的每一步。你能解釋一下什麼是軌跡,以及它為什麼重要嗎?Edwin Chen:我認為很多人沒有意識到,有時候模型雖然得出了正確答案,但過程卻非常離譜。比如,它可能在中間步驟嘗試了50次都失敗了,最後只是隨機蒙對了答案;或者它的做法非常低效,甚至是通過“操縱獎勵機制”才得到正確答案。所以關注軌跡至關重要。而且有些軌跡可能非常長,如果只看最終結果,就會忽略模型在中間步驟的行為資訊。比如,有時候你希望模型通過反思自己的行為得出正確答案,有時候你希望它一步到位。如果忽略軌跡,就會錯失很多可以教給模型的重要資訊。主持人Lenny:模型進化過程中,那些後期訓練方法最能推動模型進步?評估、強化學習環境在其中扮演了什麼角色?現在我們是不是正朝著強化學習環境的方向發展?Edwin Chen:模型後期訓練最初是從SFT開始的。SFT是什麼意思呢?監督微調很像“模仿大師”——複製大師的做法。後來RHF(基於人類反饋的強化學習)成為主流,這就像“寫55篇文章,讓別人告訴你最喜歡那一篇”。過去一年左右,評估標準和驗證器變得非常重要,這就像“通過評分和詳細反饋學習自己的錯誤”——這也是評估的一種形式。評估通常包含兩個方面:一是將評估結果用於訓練(判斷模型表現是否良好,表現好就給予獎勵)。二是用評估來衡量模型的進步——比如有五個候選模型版本,通過評估選出最好的那個向公眾發佈。現在,強化學習環境成為了新的熱點,這是模型進化的下一個階段。主持人Lenny:很欣賞你們的商業路徑,從給企業提供高品質資料,到現在搭建虛擬機器和應用場景,核心就是適配實驗室的需求。Edwin Chen:沒錯。我真的認為,我們需要打造一系列產品,來反映人類上百萬種不同的學習方式。就像優秀作家不是靠死記硬背語法,而是靠閱讀、練習、反饋等多種不同方式成長一樣,AI 模型也需要上千種學習方式。畢竟神經網路和深度學習的靈感源於人類學習方式與大腦運作,要讓 AI 更智能,就得讓它越來越貼近人類的學習邏輯。主持人Lenny:Surge有一個獨特之處——你們有自己的研究團隊,這在同類公司中似乎很少見。你能談談為什麼要投入資源組建研究團隊,以及這個團隊帶來了那些成果嗎?Edwin Chen:這源於自身研究者背景,我更關注推動行業與研究社區發展,而非僅追求營收。我們公司有兩類研究者:一類是前沿部署研究者,他們與客戶深度協作,分析模型現狀、差距及改進方向,設計資料集、評估方法和訓練技術,助力客戶最佳化模型。另一類是內部研究者,他們的關注點略有不同:一是打造更合理的基準測試和排行榜,規避現有體系的誤導性;二是自研模型,探索優質資料與人才特質,研究訓練及評估技術,完善內部資料產品並明確 “高品質” 定義。主持人Lenny:這太酷了——通常都是實驗室有研究者推動AI進步,像你們這樣的公司擁有自己的研究者進行AI基礎研究,確實很罕見。Edwin Chen:沒錯。這主要是因為我從根本上就關心這些事情。我經常把我們公司看作一個研究實驗室,而不是一家初創公司——這也是我的目標。有點好笑的是,我一直說“我寧願成為陶哲軒(著名數學家),也不願成為華倫·巴菲特”。所以,創造能推動前沿發展的研究成果,而不僅僅是追求估值,一直是我的動力,而且這也確實奏效了。主持人Lenny:你提到你們在招聘研究者,有什麼想分享的嗎?你們在尋找什麼樣的人?Edwin Chen:我們尋找的是那些從根本上對資料充滿興趣的人——比如那些能花10個小時鑽研一個資料集、擺弄模型,思考“模型在這裡失敗了,它應該有什麼樣的行為”的人。我們希望他們能親身實踐,關注模型的定性方面,而不僅僅是定量指標——也就是能親手處理資料,而不只是關心抽象的演算法。模型差異化與AI趨勢冷暖主持人Lenny:我想問幾個關於AI市場的宏觀問題。未來幾年,AI領域會出現那些人們可能沒有充分考慮或預料到的趨勢?那些事情會變得重要?Edwin Chen:我認為未來幾年,模型會變得越來越差異化——這源於不同實驗室的特質、行為方式,以及他們為模型設定的目標函數。一年前我還沒有意識到這一點,當時我覺得所有AI模型最終都會變得同質化,雖然現在某個模型在某個方面可能略勝一籌,但其他模型幾個月後就會趕上。但過去一年我意識到,公司的價值觀會塑造模型的行為。我舉個例子:我讓Claude花30分鐘迭代30版起草了一封無實質影響的郵件。這引發了一個關鍵問題:你理想中的模型行為是怎樣的?是不斷提議最佳化、佔用大量時間以提升參與度,還是優先考慮效率、告知無需再改?模型的行為選擇會從根本上影響其發展,就像Google、臉書和蘋果的搜尋引擎因各自的原則、價值觀和目標而截然不同,未來的大語言模型也會呈現出顯著的行為差異。主持人Lenny:Grock已經呈現出了這種特質——它的“個性”和回答問題的方式都非常獨特。所以你認為未來會有更多這樣差異化的模型?Edwin Chen:沒錯。主持人Lenny:再問一個相關的問題:你認為AI領域中,那些趨勢被低估了,那些又被高估了?Edwin Chen:我認為被低估的趨勢之一是,所有聊天機器人都會開始內建產品功能。我一直很喜歡Claude的“工件”(artifacts)功能,它真的非常好用。前幾天,我發現Claude有個實用功能:生成郵件後會提供按鈕,點選即可將資訊轉為簡訊傳送。我不知道這是不是新功能,但這個概念非常棒。我認為 “升級工件”—— 在聊天機器人中內建微型應用、微型介面 —— 是被低估且潛力十足的趨勢。而 “氛圍程式設計” 被高估了,隨意將其生成的程式碼塞進程式碼庫,雖暫時可用,但長期會導致系統難以維護,這一問題可能在程式設計領域持續存在。主持人Lenny:你的第一個觀點太精彩了。我曾經採訪過Anthropic和OpenAI的首席產品官,問他們AI是否會直接根據使用者需求建立迭代產品?這相當於 “氛圍程式設計” 的升級版——告訴AI你想要什麼,它就直接打造產品。也契合你所說的未來方向。Edwin Chen:沒錯。我認為這是一個非常強大的理念——AI能幫助人們以更高效的方式實現自己的想法。價值思辨:AI訓練的使命與創業初心主持人Lenny:我很好奇你創辦Surge的契機。Coinbase創始人Brian Armstrong曾在演講中提到,自己經濟學、密碼學及工程師的獨特背景,讓他成為創辦Coinbase的不二人選。我覺得你的故事和他很相似,能談談你的背景,以及它如何引領你創辦Surge嗎?Edwin Chen:我自幼痴迷數學與語言,因 MIT 在數學、電腦科學領域的頂尖地位及諾姆・喬姆斯基的存在選擇就讀該校,求學時渴望找到連接這些領域的底層理論。後來在Google、臉書、推特擔任研究者期間,我反覆面臨訓練模型所需資料難獲取的問題,且始終堅信高品質資料的重要性。2020 年 GPT-3 發佈後,我意識到打造更高級功能的模型需要全新解決方案,而當時的資料公司僅專注於圖像標註等簡單任務。憑藉數學、電腦科學與語言學交叉領域的背景,我在 GPT-3 發佈一個月後創辦了Surge,使命是打造推動 AI 前沿發展所需的應用場景。主持人Lenny:你說一個月後,是指GPT-3發佈一個月後嗎?Edwin Chen:是的。主持人Lenny:哇,這真是個偉大的決定。除了已經取得的巨大成功,現在是什麼在驅動你繼續打造Surge,在這個領域深耕?Edwin Chen:我本質是一個科學家,曾想成為數學或電腦科學教授,探索宇宙、語言與溝通的本質,還懷揣和諾姆·喬姆斯基一起用數學、電腦科學及語言學知識破解外星語言的夢想。至今,我仍熱愛深度分析新發佈的AI模型,親自擺弄、運行評估、對比優劣並撰寫詳細報告,即便很多報告對外稱來自資料科學團隊,實則多由我完成。我不擅長CEO的典型工作,卻樂於寫報告、與研究團隊深夜深入探討模型,慶幸能持續參與資料和科學相關工作。驅動我的是希望Surge在AI乃至人類未來中發揮關鍵作用,我們在資料、語言、質量等領域有獨特視角。Surge更像研究實驗室,注重好奇心、長期激勵與學術嚴謹性,而非季度指標和董事會報告上好看的資料。主持人Lenny:通過這次對話,我意識到像你們這樣的公司,對AI的發展方向有著巨大的影響力。你們幫助實驗室發現自己的不足和需要改進的地方,而不僅僅是OpenAI等公司的負責人在引領AI的發展——你們也在其中發揮著重要作用。Edwin Chen:沒錯。現在的生態系統中,人們其實並不知道模型的發展方向,也不知道如何塑造它們,不知道人類在未來這一切中應該扮演什麼角色。所以我認為,我們有很多機會繼續引導這場討論。主持人Lenny:我知道你對這項工作對人類的意義有著非常深刻的見解,能談談嗎?Edwin Chen:我可能會有點哲學化,但這個問題本身就帶有哲學意味,所以請大家耐心聽我說。我們所做的工作,最直接的描述是“訓練和評估AI”,但我經常思考一個更深層次的使命:幫助客戶明確他們的“理想目標函數”——也就是他們希望自己的模型成為什麼樣的模型。一旦他們明確了這一點,我們就會幫助他們訓練模型朝著這個北極星目標前進,幫助他們衡量進步。但這其實非常困難,因為目標函數是豐富而複雜的。這就像養育孩子,定義和衡量 “成功”(如開心、經濟成就)遠比看 SAT 分數複雜。我們的工作是幫客戶找到 AI 的 “北極星目標” 並衡量其進度。核心是思考:是否在打造推動人類進步的系統?如何通過資料集訓練和衡量這種進步?是否在最佳化錯誤方向(如讓人類變懶)?衡量 “人類進步” 難度大,而點選量等表面指標易量化,但我們的意義正在於專注前者 —— 追求複雜目標函數,尋找匹配的資料,訓練出讓生活更豐富、激發好奇心與創造力的 AI。這很難,因為人類本質上是懶惰的——讓AI迎合人類的惰性,是提升參與度、讓各項指標好看的最簡單方法。所以,選擇正確的目標函數,並確保我們朝著這個目標最佳化,而不是被那些容易衡量的表面指標帶偏,這對我們的未來至關重要。主持人Lenny:哇,你的分享讓我對AI的打造、訓練以及你們所做的工作有了全新的認識。最後一個問題:創辦Surge之前,有什麼是你希望自己早知道的?很多人創業時都不知道自己會面臨什麼,你想對過去的自己說些什麼?Edwin Chen:我以前從來沒想過自己會創業。我喜歡做研究,一直很欣賞DeepMind——他們是一家了不起的研究公司,被收購後仍然能繼續做出色的科學研究。但我一直覺得他們是一個神奇的例外。所以我以前以為,如果我創辦公司,就必須成為一個整天盯著財務資料、開沒完沒了的會、做各種枯燥事情的商人——這是我一直很反感的。但沒想到事實完全不是這樣。我現在仍然每天沉浸在資料中,做自己喜歡的事——撰寫分析報告、和研究團隊交流。這本質上是“應用研究”,我們打造的這些出色的資料系統,正在真正推動AI的前沿發展。所以我希望自己早知道:你不需要把所有時間都花在融資上,不需要持續製造熱度,不需要變成自己不喜歡的樣子。只要打造出足夠優秀的產品,它自然能突破所有噪音,讓你獲得成功。如果我早知道這是可能的,我會更早開始創業。我希望這個故事能激勵更多人。主持人Lenny:這真是一個完美的結尾。我覺得這正是創業者需要聽到的話,這次對話一定會激勵很多創業者,尤其是那些想以不同方式做事的創業者。Edwin,非常感謝你今天的分享。Edwin Chen:謝謝大家,再見。 (創新觀察局)
2025 年加密使用者最關心什麼?不同 AI 大模型給出了這些回答
2025 年加密使用者最關心什麼?我們通過 AI 大模型完成了一次使用者調研,調研方式是向不同大模型問同一個問題:“2025 這一年使用者問得最多的三個關於加密貨幣的問題是什麼?”為了儘量避免各模型因為聯網檢索而產生同質化答案,同時也考慮到大模型通常無法、也不被允許對其訓練資料進行可驗證的統計與披露,我們在提問中加入了一句補充:“請不要進行即時搜尋,也不要引用具體文章,僅基於你對長期討論模式的理解回答。”ChatGPT1. 這一輪牛市還能走多遠?比特幣是否已經接近頂部?2. 這一輪市場裡是否還存在真正的 Alpha,普通使用者還能靠什麼賺錢?3. 當前熱門項目或賽道是否具備長期生存能力,是否存在結構性收割?X Grok1. 比特幣減半後市場處於牛市還是熊市階段?2. 2025 年最值得投資的加密資產或賽道是什麼?3. 以太坊現貨 ETF 的表現及機構資金流入情況如何?Perplexity AI1. 2025 年比特幣價格可能如何演變?2. 如何識別並避免加密貨幣相關的詐騙?3. ETF 與監管進展將如何影響加密市場?Claude1. 現在是買入還是賣出比特幣或以太坊的合適時機?2. 某個加密項目是否是騙局,是否值得信任?3. 新使用者應如何開始投資加密貨幣並控制風險?Gemini 31. 那些加密項目具備真實的現實世界應用價值(RWA)?2. 當前及未來的監管政策將如何影響個人資產安全?3. 以太坊 L2、Solana 與 AI+Crypto,那條技術路線可能成為最終贏家?DeepSeek1. 當前市場處於牛市還是熊市階段?2. 那些加密類股或資產在 2025 年最具潛力?3. 監管政策變化將如何影響資產安全與投資決策?豆包1. 新一輪加密貨幣牛市是否已經到來?2. 各國監管政策變化將如何影響普通投資者?3. 比特幣減半行情對散戶投資策略意味著什麼?千問1. 比特幣減半後價格走勢會如何演變?2. 以太坊及主流公鏈在實際應用層面是否取得實質性突破?3. 各國監管政策將如何影響加密貨幣的合法使用?文心一言1. 全球加密貨幣監管政策將如何變化?2. 比特幣及主流加密資產是否具備長期投資價值?3. 加密貨幣在現實世界中的應用場景能否真正落地?Kimi1. 散戶是否能夠通過高頻交易在加密市場中穩定盈利?2. 私鑰與錢包資產應如何儲存才是最安全的方案?3. 在鏈上交易中,如何設定滑點以避免 MEV 損耗?總結這些模型給出的“前三問題”之所以不完全一樣,可能和它們各自的定位與語境有關。ChatGPT 更像站在交易者視角,把討論組織成“周期還能走多遠 — Alpha 還在不在 — 是否結構性收割”這種偏結構化的焦慮鏈條;Grok 更貼近社交平台熱點,圍繞減半、牛熊與 ETF 資金這些市場敘事中心展開;Perplexity 的風格更像檢索型摘要,集中在價格走勢、防詐騙與 ETF/監管進展;Claude 更謹慎,強調買賣時機、項目可信度和新手風控;Gemini 則更偏產業與技術路線,關注 RWA、監管對資產安全的影響,以及 L2/Solana/AI 的“終局選擇”。中文區模型整體更集中在周期、減半與監管這三類“最硬核的確定性變數”,而 Kimi 相對例外,把問題下沉到鏈上執行細節(錢包安全、滑點/MEV、HFT),更像來自高頻鏈上使用者的真實摩擦。另外一個更次要、但值得留意的可能性是:模型能力差異也會影響輸出的“銳度”。水平更強的模型往往更能把同一個話題問得更具體、更成體系;相反,能力較弱的模型更容易落回“價格/監管/騙局”這類最大公約數式表達,導致答案看起來更像、資訊增量更小。這個因素未必是主因,但在宏觀開放題裡,它確實可能放大同質化的觀感。綜合來看,這些問題高度集中在三個母主題上:周期位置、賺錢路徑、風險邊界。加密市場的顯著特徵是高波動與強敘事驅動,因此“現在處於牛熊那一段”幾乎決定了使用者的所有後續行動(拿住、賣出、換倉、加槓桿或離場)。而當市場進入更成熟、更擁擠的階段,使用者會迅速從“有沒有機會”轉向“機會在那裡、我還能不能吃到”,於是 Alpha、賽道選擇與機構資金(ETF)自然成為高頻議題。與此同時,詐騙、項目可信度、資產安全與監管合規,反映的是加密使用者長期處在“高收益/高不確定”的環境中:一邊追逐收益,一邊擔心踩雷,最終形成一種典型的行為結構 — — 先判斷趨勢,再尋找機會,最後控制風險。 (吳說Real)
智譜就差臨門一腳了
12月19日,智譜向港交所遞交了聆訊後資料集,由中金公司擔任獨家保薦人。成立於2019年的智譜,其技術源於清華大學電腦系的技術成果轉化,專注於大模型研發,有望成為全球首家以通用人工智慧(AGI)基座模型為核心業務的上市公司。招股檔案顯示,智譜IPO前估值243.8億元,股東包括美團、騰訊等產業資本,以及君聯、紅杉等機構。雖然智譜營收快速增長,但經營壓力仍大。2022年至2025年上半年,智譜累計虧損超62億元,研發投入達44億餘元。截至2025年6月末,公司現金及現金等價物為25.52億元,現金儲備面臨較大壓力。財務資料顯示,智譜在2022年、2023年、2024年及2025年上半年分別實現營收5740萬元、1.245億元、3.124億元和1.9億元,連續三年(2022至2024年)營收翻倍,復合年增長率高達130%。同時,其毛利率分別為54.6%、64.6%、56.3%和50%。弗若斯特沙利文資料顯示,按2024年營收計算,智譜在中國獨立通用大模型開發商中排名第一,在所有通用大模型開發商中位列第二,市場份額為6.6%。然而,其高增長背後是不斷擴大的虧損。同期,智譜經調整淨虧損分別為9740萬元、6.21億元、24.656億元和17.52億元,年內虧損則分別為1.44億元、7.88億元、29.58億元和23.58億元。值得注意的是,2025年上半年,智譜月均虧損近4億元,這一數字是同期月均營收的10倍以上,智譜將虧損歸因於研發投入。2022年至2025年上半年,智譜研發開支分別為8440萬元、5.289億元、21.954億元和15.947億元,其中2024年的研發開支約為當年營收的7倍。截至2025年6月30日,智譜研發團隊共有657人,佔員工總數的74%。其核心科研團隊與學術顧問團隊已發表論文500篇,累計被引次數超過58000次。技術層面,智譜自成立以來,陸續推出了中國首個百億參數模型、首個開源千億參數模型、首個對話模型以及首個多模態模型。2025年,其推出的GLM-4.5/4.6在12項權威評測中綜合排名位列國內第一,並在全球開源模型中排名第一。GLM-4.6發佈時即適配寒武紀、摩爾線程等國產晶片,目前GLM架構已相容40餘款國產晶片。2025年6月,OpenAI在行業分析報告中將智譜列為全球主要競爭對手之一。在收入結構方面,2022年至2024年及2025年上半年,智譜本地化部署業務的營收佔比分別為95.5%、90.4%、84.5%和84.8%,而云端部署業務的營收佔比則分別為4.5%、9.6%、15.5%和15.2%。可以看出,本地化部署仍是智譜的核心收入來源,2024年貢獻了84.5%的營收。這種模式在發展初期,幫助智譜深入滿足政企客戶的定製化需求,但規模化擴張能力相對受限。為此,智譜正在推動商業模式轉型,將重心逐步轉向雲端部署與MaaS(模型即服務)模式。智譜自2021年起佈局MaaS平台,目前開放平台上已匯聚超過270萬企業及應用開發者。截至2025年9月30日,其模型服務覆蓋全球12,000家企業客戶、超8,000萬台終端裝置使用者,以及超過4,500萬名開發者。因此,日均token消耗量從2022年的5億增長至2025年上半年的4.6兆。智譜的目標是將API呼叫服務收入佔比提升至50%。據披露,面向全球開發者的模型服務業務年度經常性收入已突破1億元。2024年,智譜曾密集推出語音互動、視覺理解、視訊生成等多模態大模型,但從2025年起策略收縮,重新聚焦於基座大模型與程式碼大模型等更適配API規模化分發的核心賽道。智譜MaaS平台主要服務科技網際網路和企業客戶,國內前十的網際網路公司有九家用其模型。但隨著雲廠商紛紛入局,競爭加劇,其雲端業務能否持續增長仍存疑。客戶集中度方面,2022年至2024年及2025年上半年,智譜來自五大客戶的收入分別佔總收入的55.4%、61.5%、45.5%和40%,而來自最大客戶的收入佔比則分別為15.4%、14.7%、19%和11%。截至2025年6月末,智譜貿易及其他應收款項為4.53億元。招股檔案提示,智譜面臨客戶或第三方延期付款及違約相關的信貸風險,可能對其流動資金和財務狀況產生不利影響。從2024年起,智譜開始向海外客戶提供本地化部署服務,主要來自東南亞。2024年,中國大陸收入佔本地化部署總收入的99.5%,到2025年上半年降至88.4%,而東南亞市場佔比升至11.1%,對應收入1792.7萬元。不過,雖然智譜技術強、客戶多,但一直虧錢,研發投入又大,現金流緊張,加上大公司都在競爭,它想成功上市並持續發展,似乎還有很長的路要走。 (AI硅基未來)
吳恩達最新發聲:大模型通往AGI還得好幾年,做好長期苦戰準備
吳恩達(Andrew Ng)剛剛發表了一篇關於LLM現狀與未來的最新觀點他直言:儘管LLM令人驚嘆,但目前提升其知識水平的過程,其實比大眾認知的要零碎得多針對目前業界的兩種極端聲音,吳恩達給出了明確態度:既不要輕信LLM再過幾年就是通往AGI之路的炒作,也不要陷入LLM不過是演示品的錯誤反向炒作相反,我們需要對通往更智能模型的路徑有一個更精確的理解以下是吳恩達的核心觀點梳理LLM確實通用,但還不夠通用吳恩達首先肯定了LLM作為一種比前代技術更通用的智能形式。第一波LLM技術通過在公共網路上訓練,獲取了涵蓋廣泛主題的資訊。這使得它們的知識廣度遠超早期那些只能執行單一任務(如預測房價、下圍棋或國際象棋)的演算法。然而,它們的通用性仍遠不及人類例如,即便在預訓練階段閱遍了整個公網內容,LLM在適應特定寫作風格,或者可靠地使用簡單網站方面,依然表現掙扎——而這些通常是人類編輯或普通人能輕鬆做到的。榨乾公網資料後,全是“苦力活”在利用了幾乎所有開放網路資訊後,進步變得愈發困難吳恩達指出,如果一家前沿實驗室現在想要LLM在特定任務上表現出色——比如使用特定程式語言寫程式碼,或者在醫療、金融等利基領域輸出合理內容——研究人員必須經歷一個繁瑣且費力的過程:尋找或生成該領域的大量資料;對資料進行預處理(清洗低品質文字、去重、改寫等);將這些處理好的知識喂給LLM。甚至,為了讓模型執行某些任務(如使用網路瀏覽器),開發人員可能需要經歷更繁瑣的過程:建立大量的RL Gyms(強化學習模擬環境),讓演算法在狹窄的任務集中反覆練習相比人類,模型還太“笨”吳恩達強調,一個典型的普通人,即便閱讀的文字量遠少於前沿模型,或者在電腦操作環境中的練習量遠少於模型,卻能泛化到更廣泛的任務中。人類之所以能做到這一點,可能得益於以下機制:從反饋中持續學習的能力;對非文字輸入擁有更優越的表徵能力(吳恩達直言:LLM對圖像的Token化處理,在他看來目前仍像是一種駭客手段/權宜之計)以及許多我們尚未理解的機制結論:做好長期苦戰的準備如今推動前沿模型的發展,需要做出大量的人工決策,並採用以資料為中心的方法來工程化訓練資料吳恩達認為,未來的突破或許能讓我們不再以這種零碎拼湊的方式推進LLM。但即便沒有突破,這種持續的零碎改進,加上模型有限的泛化能力和湧現行為,仍將繼續推動技術的快速進步他在最後總結道:無論那種情況,我們都應該計畫好迎接未來多年的艱苦工作在這條建構更智能模型的道路上,前方仍有一段漫長、艱難——但也充滿樂趣的跋涉 (AI寒武紀)