#模型訓練
用 460 萬美元追上 GPT-5?Kimi 團隊首次回應一切,楊植麟也來了
上周 Kimi K2 Thinking 發佈,開源模型打敗 OpenAI 和 Anthropic,讓它社交媒體捲起不小的聲浪,網友們都在說它厲害,我們也實測了一波,在智能體、程式碼和寫作能力上確實進步明顯。剛剛 Kimi 團隊,甚至創始人楊植麟也來了,他們在 Reddit 上舉辦了一場資訊量爆炸的 AMA(有問必答)活動。Kimi 團隊三位聯創,楊植麟、周昕宇、吳育昕參與回答面對社區的犀利提問,Kimi 不僅透露了下一代模型 K3 的線索、核心技術 KDA 的細節,還毫不避諱地談論了 460 萬的成本,以及與 OpenAI 在訓練成本、產品哲學上的巨大差異。460 萬美元這個數字不是官方的數字,具體的訓練成本很難量化到多少錢K3 什麼時候來,是看奧特曼的兆美中繼資料中心什麼時候建成K3 的技術將會繼續沿用,當前效果顯著的 KDA 注意力機制視覺模型還需要我們去採集更多的資料,但目前已經在做了……我們為你整理了這場 AMA 中最值得關注的幾個核心焦點,來看看這家現在算是國產開源老大的 AI 實驗室,是如何看待他們的模型,和未來 AI 的發展。叫板 OpenAI,「我們有自己的節奏」在這場 AMA 中,火藥味最足的部分,大概就是 Kimi 團隊對 OpenAI 的隔空回應。最大的噱頭之一:K3 什麼時候來?Kimi 團隊的回答非常巧妙:「在奧特曼的兆美中繼資料中心建成之前。」很明顯這一方面是幽默,因為沒有人知道 OpenAI 到底什麼時候才能建成那個資料中心,另一方面似乎也在回應外界對於 Kimi 能用更少資源追趕 GPT-5 的讚歎。當有網友貼臉開大,直接問 Kimi 怎麼看 OpenAI 要花這麼多錢在訓練上時,Kimi 坦言:「我們也不知道,只有奧特曼自己才知道」,並強硬地補充道,「我們有自己的方式和節奏。」這種自己的節奏,首先體現在產品哲學上。當被問到是否會像 OpenAI 一樣發佈 AI 瀏覽器時,團隊直言 No:我們不需要建立另一個 chromium 包裝器(瀏覽器套殼),來建構更好的模型。他們強調,目前的工作還是專注於模型訓練,能力的體現會通過大模型助手來完成。在訓練成本和硬體上,Kimi 也展現了精打細算的一面。社區好奇 K2 的訓練成本是否真的是傳聞中的 460 萬美元,Kimi 澄清了這個數字並不精準,但表示大部分的錢都是花在研究和實驗上,很難具體量化。至於硬體,Kimi 承認他們使用的是 H800 GPU 和 Infiniband,雖然「不如美國的頂級 GPU 好,而且數量上也不佔優勢」,但他們充分利用了每一張卡。模型的個性與 AI 的垃圾味一個好的模型,不僅要有智商,還要有個性。很多使用者喜歡 Kimi K2 Instruct 的風格,認為它「比較少的諂媚,同時又像散文一樣,有洞察力且獨特」。Kimi 解釋說,這是「預訓練(提供知識)+ 後訓練(增添風味)」共同作用的結果。不同的強化學習配方(即獎勵模型的不同選擇)會得到不同的風格,而他們也會有意的把模型設計為更不諂媚。大語言模型情商評估排名,圖片來源:https://eqbench.com/creative_writing.html但與此同時,也有使用者直言 Kimi K2 Thinking 的寫作風格太「AI Slop 垃圾」,無論寫什麼話題,風格都太過於積極和正面,導致讀起來 AI 味就是很重。他還舉例子說,要 Kimi 寫一些很暴力很對抗的內容時,它還是把整體的風格往積極正面那邊去靠近。Kimi 團隊的回答非常坦誠,他們承認這是大語言模型的常見問題,也提到現階段的強化學習,就是會刻意地放大這種風格。這種使用者體感與測試資料的矛盾,也體現在對 Benchmark(跑分)的質疑上。有網友尖銳地提問,Kimi K2 Thinking 是不是專門針對 HLE 等跑分進行了訓練,才會取得如此高分?畢竟這麼高的分數,好像和他實際使用中的智能不太匹配。對此,Kimi 團隊解釋說,他們在改進自主推理方面取得了一些微小的進展,這剛好讓 K2 Thinking 在 HLE 上得分很高。但他們也坦誠了努力的方向,要進一步提升通用能力,以便在更多實際應用場景中和跑分一樣聰明。網友還說,你看馬斯克的 Grok 因為做了很多 NSFW (非工作安全) 的工作,生成圖片和視訊;Kimi 完全可以利用自己的寫作優勢,讓它完成一些 NSFW 的寫作,一定能為 Kimi 帶來很多的使用者。Kimi 只能笑而不語,說這是一個很好的建議。未來是否會支援 NSFW 內容,可能還需要找到一些年齡驗證的方法,也需要進一步做好模型的對齊工作。很明顯,現階段 Kimi 是不可能支援 NSFW。核心技術揭秘:KDA、長推理與多模態作為一家被稱為「開源先鋒實驗室」的公司,而 Reddit 本身就是也是一個非常龐大和活躍的技術社區,Kimi 也在這次的 AMA 中,分享了大量的技術細節。10 月底,Kimi 在《Kimi Linear: An Expressive, Efficient Attention Architecture》的論文,詳細介紹了一種新型混合線性注意力架構 Kimi Linear,其核心正是 Kimi Delta Attention (KDA)。KDA 演算法實現,論文連結:https://arxiv.org/pdf/2510.26692通俗來說,注意力(Attention)就是 AI 在思考時,決定應該重點關注上下文那些詞語的機制。和常見的完全注意力和線性注意力不同,KDA (Kimi Delta Attention),是一種更智能、更高效的注意力機制。在這次 AMA 活動中,Kimi 也多次提到,KDA 在長序列強化學習場景中展現了性能提升,並且 KDA 相關的想法很可能在 K3 中應用。但 Kimi 也坦言,技術是有取捨的。對大多數大模型任務來說,目前混合注意力的主要目的是節省計算成本,並不是為了更好的推理;在長輸入和長輸出任務上,完全注意力的表現依然是更好的。那麼,Kimi K2 Thinking 是如何做到超長推理鏈的呢,最多 300 個工具的思考和呼叫,還有網友認為甚至比 GPT-5 Pro 還要好?Kimi Linear 模型結構Kimi 認為這取決於訓練方式,他們傾向於使用相對更多的思考 token 以獲得最佳結果。此外,K2 Thinking 也原生支援 INT4,這也進一步加速了推理過程。我們在之前的 Kimi K2 Thinking 文章中也分享了 INT4 的量化訓練技術,這是一種高效的量化技術(INT4 QAT),Kimi 沒有訓練完再壓縮,而是在訓練過程中,就保持了低精度運算模型。這能帶來兩個巨大的優勢,一個是推理速度的提升,一個是長鏈條的推理,不會因為訓練完再進行的壓縮量化,而造成邏輯崩潰。最後,關於外界期待的視覺語言能力,Kimi 明確表示:目前正在完成這項工作。之所以先發佈純文字模型,是因為視覺語言模型的資料獲取,還有訓練,都需要非常多的時間,團隊的資源有限,只能優先選擇一個方向。生態、成本與開放的未來對於開發者和普通使用者關心的問題,Kimi 團隊也一一作答。為什麼之前能處理 1M 上下文的模型消失了?Kimi 的回答言簡意賅:「成本太高了。」而對於 256K 上下文在處理大型程式碼庫時依然不夠用的問題,團隊表示未來會計畫增加上下文長度。在 API 定價上,有開發者質疑為何按「呼叫次數」而非 token 收費。對使用 Claude Code 等其他智能體工具進行程式設計的使用者來說,基於 API 請求次數的計費方式,是最不可控且最不透明的。在傳送提示之前,使用者根本無法明確工具將發起多少次 API 呼叫,或者任務將持續多長時間。Kimi 會員計畫Kimi 解釋說,我們用 API 呼叫,是為了讓使用者更清楚的知道費用是怎麼消耗的,同時符合他們團隊的成本規劃,但他們也鬆口表示會看看是否有更好的計算方法。當有網友提到自己公司不允許使用其他聊天助手時,Kimi 藉機表達了他們的核心理念:我們擁抱開源,因為我們相信通用人工智慧應該是一個帶來團結而不是分裂的追求。而對於那個終極問題——AGI 什麼時候到來?Kimi 認為 AGI 很難定義,但人們已經開始感受到這種 AGI 的氛圍,更強大的模型也即將到來。和去年瘋狂打廣告行銷的 Kimi 不同,在這場 AMA 裡,楊植麟和團隊成員的回答;確實能讓人感受到在國產開源,逐漸佔據全球大語言模型開源市場的背景下,Kimi 也更加有底氣,更明確了自己的節奏。而這個節奏很明顯,就是在這場燒錢、甚至卷太空的 AI 競賽中,繼續走開放原始碼的路,才能推動技術往前走。 (APPSO)
禮來聯手輝達建製藥業最強超算和AI工廠:加速藥物研發,發現人類無法找到的分子
禮來公司攜手輝達打造由逾1000顆Blackwell Ultra GPU組成的超級電腦和AI工廠,預計明年1月上線。該系統將加速藥物研發,支援大規模AI模型訓練。禮來首席資訊和數字官Diogo Rau表示:“我們希望能夠發現僅靠人類永遠無法發現的新分子。”禮來公司與輝達宣佈合作建設製藥行業"最強大"的超級電腦和AI工廠,旨在加速整個行業的藥物開發處理程序。周二兩家公司宣佈,禮來預計於12月完成超級電腦和AI工廠的建設,並於明年1月上線運行。這套系統將由逾1000顆輝達Blackwell Ultra GPU晶片組成,通過統一高速網路連線。超級電腦將為AI工廠提供動力,後者是專門用於大規模開發、訓練和部署藥物研發AI模型的計算基礎設施。不過禮來首席資訊和數字官Diogo Rau表示,這些新工具可能短期不會為禮來及其他藥企帶來顯著回報。Rau說:我們現在討論的這些算力發現成果,真正的效益要到2030年才能看到。AI製藥仍處早期階段製藥行業利用AI加速藥物上市的努力仍處於早期階段。目前尚無使用AI設計的藥物上市,但進展體現在進入臨床試驗的AI發現藥物數量增加,以及藥企近期聚焦AI的投資和合作夥伴關係上。禮來首席AI官Thomas Fuchs表示:這台超級電腦是一種真正新穎的科學儀器,就像生物學家的巨型顯微鏡。Fuchs強調:科學家將能夠在數百萬次實驗中訓練AI模型以測試潛在藥物,大幅擴展藥物發現的範圍和複雜程度。Rau則指出,雖然尋找新藥不是這些新工具的唯一重點,但"這是最大的機會所在"。他說:我們希望能夠發現僅靠人類永遠無法發現的新分子。精準醫療目標需AI基礎設施禮來還計畫利用超級電腦縮短藥物開發周期,幫助治療效果能更快起效。該公司表示,新的科學AI代理可以支援研究人員,先進的醫學影像能讓科學家更清晰地觀察疾病進展,並幫助開發用於精準治療的生物指標。精準醫療是一種根據個體基因、環境和生活方式差異定製疾病預防和治療的方法。輝達醫療保健副總裁Kimberly Powell說:我們希望能兌現精準醫療的承諾,沒有AI基礎設施,我們永遠無法實現這一目標。所以我們正在進行所有必要的建設,我們將看到技術的起飛,禮來就是一個確切的例子。開放平台共享研發資料多個AI模型將在禮來去年9月推出的Lilly TuneLab平台上提供。這是一個AI和機器學習平台,允許生物技術公司訪問禮來基於多年專有研究訓練的藥物發現模型。這些資料價值10億美元。禮來推出該平台旨在擴大整個行業對藥物發現工具的訪問。Kimberly Powell表示:能夠幫助到這些初創公司非常有意義,否則他們可能需要幾年時間消耗資金才能達到那個階段。她還補充說,公司“很高興參與”這項工作。作為交換,生物技術公司需要貢獻部分自身研究和資料以幫助訓練AI模型。 (invest wallstreet)
高盛發佈重磅報告:電力成為AI發展的最大瓶頸,AI基礎設施面臨挑戰
一個 250 兆瓦的 AI 資料中心上線成本高達 120 億美元,而到 2030 年全球資料中心的電力需求將暴增 160%——這組數字背後,是一場正在重塑全球基礎設施格局的資本競賽。近日,高盛集團投資銀行部門發佈報告《驅動人工智慧時代》,在這份 26 頁的報告中,高盛用一系列數字說明:制約當前 AI 發展潛力的最大瓶頸,可能不是資本或其他因素,而是驅動這些龐大算力設施運轉的電力供應。01 從鋼鐵到矽片,一部基礎設施的百年敘事為了說明當前挑戰的艱巨性,高盛追溯了一條長達一個半世紀的基礎設施投資脈絡。19 世紀的美國,鐵路是絕對的經濟引擎,其股票一度佔到股市總市值的 80%。到 1900 年,超過 21.5 萬英里的鐵軌連接起整個國家,不僅催生了郵購零售這樣的新行業,也讓中西部的農產品得以走向世界。為支援如此浩大的工程,最早的投資銀行應運而生,它們的核心任務就是將歐洲的資本引入美國的鐵路建設。進入 20 世紀,電氣化浪潮接踵而至。在 1920 年代的十年間,美國的公用事業公司籌集了巨額資金(相當於今天的 2,950 億美元),為電網增加了 50 吉瓦的容量。電力的普及不僅點亮了生活,更通過福特的流水線等創新,徹底改變了工業生產的效率。為了應對激增的電力需求,公用事業公司創造了控股公司的模式,以便獲得更低成本的融資並擴大規模。離我們更近的則是網際網路時代的基礎設施建設。據高盛估算,在網際網路泡沫前後,全球在光纖、寬頻和伺服器等核心設施上的投資總額超過了 8,000 億美元。到 2001 年,全球鋪設的光纖電纜長達 3,900 萬英里。這些資訊高速公路讓資料傳輸的成本越來越低,速度越來越快,最終孕育了我們今天所熟知的數字經濟。與此相應,資本市場也演化出了風險投資、活躍的併購市場和不斷擴張的信貸工具,為這場資訊革命提供了充足的彈藥。如今輪到人工智慧了。高盛測算,建設一個典型的 250 兆瓦 AI 資料中心,連同內部的計算裝置,平均成本高達 120 億美元。更關鍵的是,到 2030 年,全球資料中心的電力需求預計將飆升 160%,這主要是由那些能耗極高的 GPU 驅動的。而我們現有的電網,顯然沒有為這樣的未來做好準備。02 資料中心的代際革命要理解 AI 對基礎設施的特殊要求,首先需要瞭解資料中心自身正在發生的技術變革。在生成式 AI 興起之前,雲端運算是主流。企業將資料和業務從本地伺服器遷移到大型資料中心的共享伺服器上,亞馬遜、Google等科技巨頭通過“超大規模”營運,有效降低了計算和儲存的成本。那時的雲資料中心主要依靠傳統的 CPU 和空氣冷卻系統。在過去十年裡,儘管雲端運算快速發展,但資料中心的總用電量卻基本保持平穩,這主要得益於能效的持續提升。然而,這部分效率紅利已基本耗盡。運行 AI 所需的基礎設施,無論在複雜度還是資源密度上,都呈指數級增長。根據輝達在 2025 年 GTC 大會上發佈的資料,到 2027 年,一個 AI 伺服器機架的功耗將是五年前同類雲端運算裝置的 50 倍。GPU 的能耗遠超 CPU,其密集的計算叢集產生巨大熱量,必須依賴複雜的液體冷卻系統才能正常工作。報告將資料中心的發展劃分為四個階段:最初的“雲資料中心 1.0”,每個機架的功率只有 5 到 15 千瓦;經過初步改造的 AI 資料中心,功率提升至約 40 千瓦;過渡時期的 AI 資料中心則達到 130 至 200 千瓦,開始混合使用液冷和風冷;而最新的“AI 工廠”,其單機架功率已超過 500 千瓦,完全依賴液冷技術。(來源:Goldman Sachs)這種技術上的飛躍帶來了巨大的投資需求。據 New Street Research 的預測,到 2027 年,超大規模科技公司在 AI 技術上的投資累計將達到 1 兆美元。除了這些傳統巨頭,一批“新雲”公司也正在湧現,它們同樣在 GPU 和資料中心上投入數十億美元。值得注意的是,AI 的計算需求並非在擠佔傳統雲端運算的預算,而是在此基礎上創造了新的、更龐大的增量市場。根據 OpenRouter 的資料,從 2024 年 6 月到 2025 年 5 月,衡量計算量的關鍵指標——每周消耗的總 token 數,增長了超過 42 倍。(來源:Goldman Sachs)03 訓練與推理的不同邏輯AI 模型的訓練過程——即教會模型識別模式並生成內容——是整個環節中能耗最密集的部分,它需要專門的資料中心園區,配備海量的高功率 GPU、穩定的電力供應和先進的冷卻系統。由於模型訓練不直接與終端使用者互動,因此對地理位置的要求不高。開發者們傾向於選擇土地和電力成本低、監管環境友好的地區,比如美國中西部的愛荷華州、內布拉斯加州,或是氣候涼爽的北歐和東南亞部分地區。一個最典型的例子就是由 OpenAI、甲骨文和軟銀聯合發起的“星門”(Stargate)計畫,該計畫投資高達 5,000 億美元用於數字和能源基礎設施建設。其首個資料中心就選址在德克薩斯州的阿比林,一個能源豐富、人口稀少的地區。但當模型訓練完成並投入使用,進入“推理”階段(例如我們使用 ChatGPT 進行對話),情況就有所不同。推理雖然計算強度稍低,但對速度和延遲的要求極高,這意味著資料中心需要儘可能靠近終端使用者。AI 技術的突破往往難以預測,如果推理應用的發展速度超過預期,那麼那些為訓練而建在偏遠地區的資料中心,其價值就可能面臨挑戰。但無論如何,眼下資料中心的市場需求正遠超供應。全球資料中心的空置率已降至 3% 的歷史低點,在熱門市場更是接近於零,而新的大規模電力供應往往要到 2028 年以後才能到位。因此,全球在建資料中心的總面積已超過 5,000 萬平方英呎,是五年前的兩倍。即使不考慮電力限制,滿足這種需求所需的資本規模也是前所未有的。04 電是比錢更稀缺的資源高盛指出,當前制約 AI 發展的最大瓶頸,已經不是資本而是電力。在經歷了十年的平穩期後,全球資料中心的電力需求預計到 2030 年將激增 160%。這是一個驚人的數字,而我們現有的電網系統,其基礎設施的平均“年齡”已高達 40 年,完全沒有為這種爆發式增長做好準備。一邊是日新月異的 AI 技術,另一邊是老化的電網,這種結構性的脫節,正成為整個行業必須解決的關鍵難題。在美國,要擴大電力產能,需要克服繁瑣的監管審批、漫長的許可流程和供應鏈等重重障礙。過去十幾年,得益於廉價的天然氣、成本不斷下降的風能和太陽能,以及較低的利率,美國的電價一直保持在低位。但這也導致了一個意想不到的後果:可再生能源的間歇性發電衝擊了電網的穩定性(即著名的“鴨子曲線”(duck curve)現象),削弱了能夠提供 24/7 穩定電力的燃煤和核電廠的盈利能力,加速了它們的退役。如今,電網缺乏足夠的“基荷電力”來滿足預期的需求高峰。要解決這個問題,不僅需要簡化新項目的審批流程,還需要更智能的電網規劃和更靈活的需求側管理。好消息是,不斷上漲的電價和傳統發電裝置的漫長交付周期,正在倒逼行業加速對碳捕獲、分佈式能源、長時儲能等新技術的研發和應用。05 公用事業公司的艱難抉擇這場能源轉型也讓美國的公用事業公司陷入了兩難境地:一方面是服務公眾的使命和亟待更新的老化設施,另一方面是遠超傳統模式預期的電力需求增長。在過去十年裡,公用事業部門的資本支出已經翻了一番,不僅是為了滿足新增負荷,也是為了加固電網以應對極端天氣,並替換老舊裝置。許多電力公司對於大規模投資新資產心存疑慮,擔心重蹈過去投資過度、資產閒置的覆轍。AI 晶片能效的潛在突破,也讓一些人質疑這種電力需求的暴增是否能夠持續。但 AI 行業的領導者們普遍認為,隨著企業應用和雲服務的深度融合,以及智能體 AI (Agentic AI)的普及,計算需求只會持續增長,效率的提升無法抵消總量的擴張。因此,電力公司開始為資料中心這類用電大戶探索新的電價結構,例如“照付不議”合同(無論用不用都要付錢)、要求客戶預付部分建設資本,或是簽訂長期的容量承諾,以降低自身的投資風險。電力公司與科技巨頭之間的合作也日益緊密,例如 Entergy 與 Meta 的合作,就是為了共同開發發電和輸電項目,確保資料中心獲得長期可靠的電力。當然,這類項目也引發了監管機構的擔憂,即是否會將成本轉嫁給普通居民。從 2019 年到 2024 年,美國平均電費上漲了 23%,如何平衡大型工業使用者和居民使用者的利益,將是一個持續的挑戰。發電只是問題的一半,將電力輸送出去同樣是個瓶頸。在美國,新建一座天然氣發電廠並將其接入電網,通常需要 5 到 7 年時間。AI 帶來的強勁需求已經重新點燃了市場對天然氣的興趣,並催生了大型併購交易。2025 年 1 月,美國最大的清潔能源生產商星座能源宣佈以 291 億美元收購最大的天然氣發電商 Calpine,這筆交易正是在電力需求激增的大背景下發生的。高盛研究估計,到 2030 年,僅美國的電網就需要超過 7,000 億美元的投資。要緩解項目審批的延誤,聯邦層面的政策支援至關重要。隨著電網壓力的不斷增大,相關的改革法案預計將獲得更多關注。06 尋求多元化的能源解決方案面對漫長的審批和供應鏈難題,資料中心營運商和科技巨頭必須同時規劃短期(5 年內)和長期(10-15 年)的電力解決方案。高盛的研究團隊預測,到 2030 年,新增的資料中心電力需求中,約 60% 需要由新建的發電設施來滿足,其構成可能包括 30% 的天然氣聯合循環發電、30% 的天然氣調峰電廠、27.5% 的太陽能和 12.5% 的風能。(來源:Goldman Sachs)儘管新建天然氣電廠耗時漫長,但可再生能源是目前最快、最有效的補充電力的方式。然而,風能和太陽能的間歇性使其無法單獨滿足資料中心所需的全天候穩定電力,而現有的電池技術還無法實現足夠長時間的儲能。因此,儘管可再生能源是能源結構中不可或缺的一部分,但它還無法完全解決問題。不過,隨著鈉離子電池等新技術的進步,這種情況未來可能會改變。核能正重新回到人們的視野中。科技公司在謹慎投資的同時,也在積極探索利用核能的各種方式。它們傾向於通過簽訂長期購電協議來鎖定未來的電力供應,而不是直接承擔核電站的建設風險。例如,Alphabet 已與 Elementl Power 合作,為建設先進核能預留了三個廠址。微軟則通過一份長達 20 年的長期購電協議,支援重啟著名的三里島核電站一號機組。核能的優勢在於能提供可靠、穩定且零碳的基荷電力,這與資料中心的需求完美匹配。不過,核電項目歷史上普遍存在成本超支和工期延誤的問題,這對傳統的融資模式構成了挑戰。例如,2023 年上線的 Vogtle 3 號機組,其最終成本比原預算高出一倍多,工期也晚了七年。不過,該項目的成功也驗證了西屋公司 AP1000 技術的有效性,為後續機組的建設積累了寶貴經驗。要推動核能的復興,需要強有力的政策支援來分擔早期項目的風險,直到行業實現標準化的規模建設。與此同時,小型模組化反應堆(SMR,Small Modular Reactor)作為一種更靈活、更安全的核能選項,也正受到科技巨頭的密切關注。07 “表後供電”:一種創新的應對之策面對公共電網的種種限制,許多科技公司和資料中心開發商開始採取一種更為激進的策略——“表後供電”(behind the meter),即自己成為自己的電力供應商。對於那些急需穩定電力的項目,所有選項都值得考慮,甚至包括繞開公共電網。漫長的並網排隊時間,促使許多營運商開始探索在資料中心園區內直接建設微電網,或者乾脆將資料中心建在發電廠旁邊。在後一種方案中,資料中心直接從發電廠購電,無需經過公共電網的傳輸,從而大大縮短了項目上線的時間。此外,一些能源服務公司也開始提供一站式的分佈式能源解決方案,從太陽能、儲能到微電網和現場發電,幫助大型使用者在需求高峰時段增強供電的可靠性、減少排放並緩解電網壓力。在 2021 年德州大停電期間,PowerSecure 公司的微電網系統就為客戶提供了超過 2.26 吉瓦時的可靠電力。當然,這種“自給自足”的模式也帶來一些爭議。在美國孟菲斯,xAI 的 Project Colossus 就因其發電設施造成的污染而遭到當地社區的投訴。一些將資料中心與核電站建在一起的計畫,也因可能推高當地電價而被聯邦能源監管委員會叫停。(來源:xAI)08 地緣政治棋盤上的新遊戲這場基礎設施競賽的影響已遠遠超出了商業和技術的範疇,正在成為地緣政治博弈的新領域。資料常被稱為數字時代的“新石油”,但與受地理位置限制的石油不同,資料中心的選址具有高度的戰略靈活性。一個國家能否吸引全球領先的 AI 資料中心落地,正成為其在未來數字經濟中影響力的重要體現。目前,美國資料中心的供需缺口正在持續擴大。據華爾街機構預測,到 2028 年,這一缺口將超過 10 吉瓦。這意味著美國需要與全球夥伴合作,將部分計算任務,特別是對延遲不那麼敏感的模型訓練,轉移到海外。通過精心規劃的 AI 基礎設施投資,各國可以加強盟友關係,提升自身的經濟競爭力。創始人、科技巨頭和投資者們早已將目光投向全球。中東和拉丁美洲正迅速崛起為新的資料中心熱點。巴西憑藉其超過 90% 的可再生能源發電比例,吸引了數十億美元的投資。然而,全球擴張也伴隨著風險。在一些電力本就緊張的地區建設耗能巨大的資料中心,可能會加劇當地的資源不平等。同時,資料中心作為承載敏感資訊的關鍵節點,也帶來了資料主權、供應鏈安全和地緣政治風險等多重挑戰。09 資本市場的創新時刻2024 年,全球超大規模科技公司的資本支出平均每天高達 8 億美元。與此同時,美國公用事業部門的年度資本支出也達到了 2,000 億美元。隨著基礎設施和資金需求的持續增長,如何高效地獲取和部署資本,將是成功的關鍵。戰略合作,以及公私資本的創新結合,正在為這個新領域創造機會。合資企業成為一種越來越普遍的模式,它能夠整合來自公共養老基金、主權財富基金和資料中心營運商等不同參與方的專業知識和資本。2024 年,美國房地產投資信託基金 Equinix 與加拿大養老金計畫投資委員會、新加坡政府投資公司 GIC 成立合資企業,計畫籌集 150 億美元用於在美國擴張超大規模資料中心,便是一個很好的例子。手握超過 4 兆美元“干火藥”(即可用投資金)的金融機構(根據 Preqin 2024 年 9 月資料),也迫切希望在 AI 基礎設施領域找到回報可觀的投資機會。目前,AI 生態系統的融資還比較分散,從土地、電力到晶片,每個環節都有不同的解決方案。但隨著資料中心規模的不斷擴大,市場需要更全面、更整合的金融方案,為資本的可用性和價格提供更大的確定性。高盛在報告中提出了幾種長期的資本策略,例如圍繞已經穩定營運的資料中心開發專門的股權基金,或者通過最佳化風險分配來吸引保險公司、養老金等長期資本的加入。其新成立的“資本解決方案集團”,也正是為了應對這種複雜的需求,通過整合諮詢、融資和投資能力,為客戶量身定製解決方案。10 一個仍在書寫的故事高盛的這份報告並未給所有問題提供答案,它坦言“無法精確預測未來十年會如何演變”。但它清晰地勾勒出了一個框架:AI 是一種將滲透到每個行業和地理位置的經濟力量。計算與電力的這種交匯正在創造新的緊迫性。從 19 世紀的鐵路到 21 世紀的 AI 資料中心,每一次技術革命都需要三要素:願景、基礎設施和資本。AI 的願景已經無比清晰,基礎設施的藍圖也日漸明確,而資本,正在以前所未有的規模和創新的形式湧入這個領域。AI 時代的基礎設施競賽才剛剛開始。電力瓶頸、審批延誤、技術不確定性和地緣政治風險,每一個都是巨大的挑戰。但正如歷史所揭示的,每一次偉大的基礎設施建設浪潮都伴隨著懷疑和困難。最終的勝利者,將屬於那些能在不確定性中看到機遇,在複雜性中建構解決方案的人。這不僅是一個價值數兆美元的投資故事,更是一個關乎下一代技術革命能否成功的關鍵所在。 (DeepTech深科技)
輝達祭出NVFP4核彈:大模型訓練根本性轉變,GB300效率狂飆7倍
最近這幾天因為DeepSeek這句話徹底了引爆了國產晶片和股市:DeepSeek-V3.1 使用了 UE8M0 FP8 Scale 的參數精度,UE8M0 FP8是針對即將發佈的下一代國產晶片設計沒想到輝達今天直接放出王炸,推出了一種新的格式NVFP4,這個NVFP4能以 4-Bit 的速度與效率,實現 16-Bit 的生產件級訓練精度,毫不誇張的說使用 NVFP4 進行模型預訓練,標誌著 LLM 開發的重大飛躍,這是對如何大規模訓練大型模型的一次根本性轉變NVFP4 訓練目前仍處於研究階段,正在探索和驗證 4-bit 精度在大型模型預訓練中的潛力。NVIDIA 正在與亞馬遜雲科技(AWS)、Cohere、Google雲、Kimi AI、微軟 AI、Mistral、OpenAI、Perplexity、Reflection 和 Runway 等領先組織積極合作,持續圍繞 NVFP4 進行協同攻關什麼是 4-bit 量化?4-bit 量化是指將模型權重和啟動值的精度降低到僅 4 位元的過程——這與典型的 16-bit 或 32-bit 浮點格式相比是顯著的下降使用 4-bit 進行預訓練極具挑戰性,因為必須非常小心地處理梯度和更新,以在提高整體訓練速度的同時保持精準性。這需要專門的技術和方法,在將高精度張量對應到更小的一組量化值的同時保持其有效性更少的位元如何為 AI 工廠解鎖更強能力訓練後量化(PTQ)已證明 NVFP4 在提升推理吞吐量方面是一個力量倍增器,同時保持了準確性。但一個挑戰仍然存在於上游的預訓練階段——在這裡,基礎模型仍然依賴 BF16 或 FP8 來保證穩定性和收斂性。訓練是 AI 工廠消耗大部分計算、電力和時間的地方。電力預算是固定的,GPU 周期是稀缺資源,因此開發者必須充分利用每一個位元、每一個令牌和每一個訓練周期(epoch)。在這裡,吞吐量不是一個抽象的指標——它直接決定了可以建構的模型規模、可以運行的實驗數量以及取得突破的速度。這正是 4-bit 精度變得具有變革性的地方。通過削減記憶體需求、提升算術吞吐量和最佳化通訊,4-bit 預訓練使 AI 工廠能夠用相同的硬體處理更多的令牌。通過正確的量化方法,它可以提供與 FP8/BF16 相媲美的精準性,同時顯著提高吞吐量——從而解鎖更快的收斂周期、單位算力下更多的實驗次數,以及擴展到前所未有的前沿模型。換句話說,更少的位元不僅節省了成本——它們還擴展了 AI 所能達到的前沿核心方法解讀:用於預訓練的 NVFP4 量化方法為了實現 4-bit 精度的預訓練,輝達開發了一套專用的 NVFP4 預訓練方法,旨在解決大規模訓練中的核心挑戰:動態範圍、梯度波動性和數值穩定性Blackwell 是 輝達 首款原生支援 FP4 格式的架構。GB200 和 GB300 提供的海量 FP4 FLOPs 吞吐量通過加速低精度矩陣運算,同時保持大型模型收斂所需的規模和平行性,實現了高效的 4-bit 訓練下圖展示了 Blackwell Ultra 的實測 GEMM(通用矩陣乘法)性能,其速度比 Hopper 架構提升了 7 倍。現代 LLM 從根本上依賴矩陣乘法作為其核心計算元素,尤其是在其全連接層或線性層中。這使得這些運算的效率至關重要。由於 FP4 精度能夠實現更快、更高效的運算執行,所觀察到的 GEMM 加速意味著整個預訓練過程——從前向傳播到梯度更新——都運行得更快,從而縮短了訓練時間,同時支援了更大規模模型的快速開發為了實現高效的低精度訓練,輝達的 NVFP4 預訓練方法利用了若干基於其性能和精準性而挑選的關鍵技術。這些技術包括:通過 NVFP4 的微塊縮放增強數值表示: Blackwell 引入了對 NVFP4 的原生 Tensor Core 支援。NVFP4 是一種用於權重和啟動值的 4-bit 數字格式,它使用微塊縮放技術——即每組 16 個 4-bit 元素共享一個共同的縮放因子。與 MXFP4 相比,NVFP4 將塊大小從 32 個元素減少到 16 個,從而最大限度地減少了異常值的影響,並實現了更精確的縮放。這種更精細的粒度降低了量化誤差,並提高了整體模型精準性使用 E4M3 縮放因子進行 NVFP4 高精度塊編碼: 縮放因子的精度對量化質量和精準性起著至關重要的作用。與 MXFP4 不同,MXFP4 僅限於 2 的冪次方的縮放因子(E8M0),容易產生較高的舍入誤差。而 NVFP4 使用更高精度的 E4M3 縮放因子,並帶有額外的尾數位。這允許更細粒度的縮放、更好地利用有限的量化區間,以及更準確地表示塊內的數值重塑張量分佈以適應低精度格式: LLM 預訓練期間的梯度和啟動值往往帶有較大的異常值,這會影響低精度量化。對 GEMM 的輸入應用哈達瑪變換(Hadamard transforms)有助於將其分佈重塑為更接近高斯分佈的形態,從而平滑異常值,使張量更容易被精準表示。這些變換對模型架構是透明的,可以應用於前向和後向傳播中的線性層。通過量化技術保持保真度: 為了確保穩定高效的訓練,輝達採用的量化方法能夠保持前向傳播和後向傳播之間的一致性。諸如選擇性二維塊式量化等技術有助於在整個訓練周期中維持張量表示的對齊。這種一致性對於最大限度地減少訊號失真、改善收斂行為和增強整體魯棒性至關重要——尤其是在使用像 NVFP4 這樣的低精度格式時。通過隨機舍入減少偏差: 與傳統的(確定性)舍入總是將梯度舍入到最接近的可表示數值不同,隨機舍入確保梯度是隨機向上或向下舍入的,其機率與一個數離兩個可表示值之間的距離成正比。這一步驟對於減少舍入偏差、在訓練期間維持梯度流,並最終提高模型精準性至關重要實驗驗證:兆級令牌規模下的精準性與穩定性為了進行模型訓練,輝達在一個基於 Mamba-Transformer 混合架構的 120 億參數模型(12B Hybrid Mamba-Transformer model)上,使用 FP8 和 NVFP4 進行了實驗——該模型類似於 NVIDIA Nemotron Nano 2。這個模型在一個包含 10 兆令牌的大規模資料集上進行訓練,採用了分階段資料混合方法,在訓練的 70% 切換到不同的資料集組合,在 90% 時再次切換。該 12B 混合 Mamba-Transformer 模型的一個版本最初使用 8-bit 精度(FP8)進行訓練,此前的研究已證明 FP8 能與 16-bit 精度高度匹配,因此輝達將其作為比較的基準。隨後,研究人員成功地使用 NVFP4 從頭開始訓練了同一個 12B 模型,證明了這種新的低精度格式能夠支援兆級令牌規模的完整預訓練。NVFP4 的運行展現了穩定的收斂性,沒有出現通常困擾超低精度訓練的訓練不穩定或發散問題下圖顯示,在整個訓練期間,NVFP4 的驗證損失曲線與更高精度的基準(即 FP8)的損失曲線高度吻合。上文概述的量化技術確保了即使在激進的位寬縮減下,4-bit 預訓練的動態過程也與高精度運行非常相似接著,輝達將使用 NVFP4 預訓練的 12B 混合 Mamba-Transformer 模型與更高精度的 FP8 基準模型在一系列下游任務和智能領域進行了比較。下圖表明,在所有領域中,NVFP4 的性能都與 FP8 相當,突顯了其有效性。這一發現強化了最初的假設:NVFP4 是一個強大的選擇,即使在兆級令牌規模下預訓練 LLM 也能勝任——突顯了其在高效大規模前沿模型訓練中的潛力寫在最後很明顯國內以DeepSeek為代表正在推動國產晶片推理和訓練,UE8M0 FP8還僅僅是國產晶片推理側的設計,訓練側任重道遠,國際上輝達作為壟斷性的存在也沒躺在王座上啥都不干,這個NVFP4作為一個標準估計很快就會顯示出強大威力 (AI寒武紀)
騰訊Q1電話會:AI效果已顯現在廣告、遊戲和雲,GPU儲備充足、模型訓練夠用
5月14日,騰訊控股召開一季度業績電話會。此前公佈的財報顯示,公司一季度業績全面超預期,營收1800.22億元人民幣,同比增長13%,調整後淨利潤同比增長11%。騰訊CEO馬化騰表示,今年一季度,騰訊高品質收入保持堅實的增長態勢。AI能力已經對效果廣告與長青遊戲等業務產生實質性的貢獻,亦加大對元寶應用與微信內的AI等新AI機遇的投入。“我們相信,在AI戰略投入階段,現有高品質收入帶來的經營槓桿,將有助於消化這些AI相關投入產生的額外成本,保持財務穩健。我們預期,這些戰略性的AI投入將為使用者與社會創造價值,並為我們產生長期、可觀的增量回報。”騰訊高層提到,AI的效果已經從三方面出現:廣告精準度 + 使用者時長遊戲參與度雲收入(基建+API+整體方案)管理層表示,在資本支出方面和營運費用方面,都會加大AI方面投資。例如,在廣告定位、廣告效果提升方面,可以通過AI來改進廣告內容,改進內容推薦,並且改進使用者花費的時長,最終可以提高廣告收入。騰訊控股ADR美股盤前漲近4%,公司一季度營收超預估。01 “元寶”接入微信生態後的最新進展馬化騰表示,坦率地說,元寶AI目前還處在非常早期階段:從我們觀察到的情況來看,使用者已經開始使用它:他們用它來提問、對話,也會把內容發給“元寶”,讓“元寶”進行總結並幫助分析——這些就是目前看到的初始用例。隨著使用者與“元寶”的互動增多,使用頻率有望持續提升。未來,我們肯定會把微信生態的更多能力與“元寶”聊天夥伴聯通起來;我們會做各種試驗,也許再過一兩個季度,才能在系統層面給出更多資訊。目前還說不上系統性的總結。過去兩三個月,AI更深入地整合到騰訊的各項業務,但馬化騰指出,現在系統性地分析使用者行為因此有那些顯著變化為時尚早。騰訊對投放的很多AI功能還在探索的過程。總體來說,可以看到使用者與騰訊AI助手的互動在持續增加,整體使用量在上升。騰訊總裁劉熾平表示,一季度元寶的使用者規模顯著擴大,騰訊在使用者留存上投入大量精力並取得良好效果。下一階段將繼續增加功能,進一步提升留存、啟動並吸引新使用者。未來聊天機器人的生成式AI形態會隨功能而變,最終根據使用者需求,在多種互動模式之間靈活切換。02 Agentic AI與同行相比的前景和定位馬化騰表示,AI 能夠幫助使用者完成包含多步驟、需要呼叫工具,甚至連接其他應用的複雜任務。從這個角度看,可以分為兩類:一類是“通用”Agentic AI,任何人都可以做——你建立一個代理,它到外部世界替使用者完成任務;另一類則是嵌入微信生態、基於微信獨特環境的 Agentic AI,這兩者其實是不同的產品。對通用型代理,我們已在一些原生 AI 產品(如“元寶”)裡開發這項能力。起初,它們能快速回答問題;隨後加入“鏈式思考”長推理模型,能應對更複雜的提問;再往後,它們能執行更複雜的任務,逐步進化出“具身智能”能力,與其他應用、程序乃至外部 API 互動,為使用者提供幫助——這一過程會持續演進,其能力與同行的通用 Agentic AI 並無本質差異。另一方面,微信生態裡的 Agentic AI 有機會做到非常獨特,因為它能連接社交關係鏈、通訊與社區能力、公眾號和視訊號等內容體系,以及數以百萬計的小程序。這些元件涵蓋資訊、交易和營運能力,跨越多個垂直領域,因而可以建構出區別於一般 Agentic AI 的差異化產品。03 遊戲業務表現強勁本季度騰訊國內遊戲業務表現非常強勁。馬化騰表示,今年第一季度的確享受了 2024 年第一季度低基數帶來的“同比紅利”,但這種情況並不會在未來每個季度都出現。儘管如此,無論國內還是海外,遊戲收入都擁有長期的增長跑道。原因很多:營運架構與團隊調整已顯成效。去年此時我們曾深入討論過,對幾款核心國內遊戲的願景、營運方式以及團隊架構做了重大調整。如今可以看到,這些改變正在兌現預期,並有望繼續帶來正面影響。AI 賦能大型多人競技遊戲,我們認為 AI 對大型競技類多人遊戲格外有益,這些遊戲佔據了國內遊戲收入的大部分。我們已在多方面開始部署 AI,例如:用 AI 輔導新手玩家;陪伴現有玩家;預防作弊與外掛。這些功能在競技遊戲中尤為關鍵,能有效提升體驗與留存。順應中國玩家向第一人稱動作類遊戲轉移的趨勢。過去,中國市場第一人稱動作(FPS/TPS)遊戲所佔比例遠低於全球平均。我們判斷這種差距會被彌合。本季度我們重點提到的多款遊戲——《和平精英》《穿越火線手游》《使命召喚手游》《無畏契約》《三角洲行動》——均屬該品類的領軍作品,而騰訊正是這一垂類的領導者。雖然各遊戲增速不同,但整體類別在快速增長,其中《無畏契約》《三角洲行動》尤為突出。它們既支撐了本季度收入,也為未來奠定了增長跑道。劉熾平表示,AI部署到大型競技類遊戲還處於非常早期的階段,將AI接入偏內容驅動的遊戲是未來幾年要探索的領域,目前最可觸及的機會仍是AI應用於大型多人競技遊戲。04 GPU使用優先順序 如何應對推理方面需求對於美國針對高端GPU的限制,劉熾平表示,騰訊有充足的GPU現貨儲備,而且這些晶片將首先投入能立即創造回報的場景,如廣告投放與內容推薦。大模型訓練屬於第二優先順序,因為訓練通常需要更高端的晶片。實踐表明叢集規模較小也能取得很好的訓練成果,且模型後訓練階段仍有巨大潛力,不一定需要超大規模叢集。因此,憑藉現有的高端晶片庫存,騰訊未來數代模型的訓練完全“夠用”。劉熾平指出,推理方面的GPU需求相對更大,針對這方面的壓力,騰訊有多種手段,包括軟體最佳化,持續提高推理效率;模型定製與蒸餾,可針對不同場景裁剪模型尺寸或者進行模型蒸餾;晶片來源多元化,在合規的前提下,靈活使用中國本地或可進口的其他合規晶片,以及ASIC、FPGA等。05 AI還能帶來多少廣告收入的增量騰訊首席戰略官James Mitchell表示,要判斷AI對廣告收入提升,廣告點選率是核心指標。從歷史上看,橫幅廣告的點選率約為0.1%。資訊流廣告的點選率約為1.0%。AI加持後,騰訊看到某些廣告庫存的點選率可以提高到3.0%。06 關於加大AI投資 那些費用會影響收入和利潤增長的差距騰訊管理層稱,未來,收入增長和營業利潤的增速差距會縮小。根據騰訊過去培育新產品的經歷,投資和收穫期的時間錯配通常在一兩年。像一季度這樣收入增速超過營業利潤增速的情況不會持續。除了資本支出(CapEx),影響兩者增速差距的費用中,折舊攤銷的比重最大。元寶的市場推廣費用有所增加,但規模遠低於折舊。AI工程師薪酬也有影響,但那屬於人力結構最佳化,不是整體人數大增。總之,CapEx及折舊是影響差距的決定性因素。07 一季度支付交易額略有下降但4月改善的原因Mitchell表示,過去幾個季度,消費者支出一直在波動,但最近的資料呈上升趨勢,可能反映出消費者信心和消費活動在走穩。劉熾平稱,剔除關稅因素,消費模式已開始逐步復甦,現在需要觀察關稅的執行力度。未來需關注,關稅對經濟的影響以及政府刺激政策的避險。以下為電話會文字實錄全文內容:騰訊2025年一季度財報電話會議國際遊戲:《絕地求生手游》季度營收同比增長“十幾”個百分點,主要得益於“金月”主題活動和品牌聯動(如Gatty和K-pop組合Baby Monster)。《使命召喚手游》季度營收實現同比增長,主要得益於推出以“Haydo&Wins”為核心的頂級皮膚,以及全新的“SecretCache”任務獎勵系統。《三角洲行動》PC版自去年12月上線以來,使用者數量穩定增長,今年5月在Steam上達到了歷史最高同時線上人數。手游版自4月21日上線以來,成為國際市場下載量第二的手游。未來計畫在下半年推出主機版本。行銷服務:騰訊的行銷服務收入同比增長20%,達到320億元人民幣,主要受益於使用者活躍度提高、廣告平台的AI升級,以及微信交易生態的增強。各大廣告行業類別的收入均實現同比增長。在廣告技術方面,騰訊對廣告平台進行了AI能力增強,包括生成式AI廣告創作和視訊編輯工具,加快廣告製作效率,同時推出了數字人解決方案,幫助內容創作者和商家更好地開展直播活動。通過大語言模型,騰訊加深了對商品和使用者興趣的理解,從而為視訊號、小程序等各個應用中提供更精準的廣告推薦。由於廣告主更頻繁地使用行銷工具來提升內容曝光、推廣直播和轉化銷售,相關收入同比增長超過60%。小程序相關的行銷服務收入也顯著增加,主要受益於小短劇和小遊戲帶來的閉環行銷需求。此外,微信搜尋收入也迅速增長,得益於商業搜尋量和點選付費率的增加。金融科技與企業服務:騰訊金融科技和企業服務類股本季度營收達550億元人民幣,同比增長5%。其中,金融科技服務收入實現低個位數增長,主要得益於消費貸款服務和財富管理服務活動的增加。商業支付總交易額在最近幾個季度波動較大,一季度同比略有下降,但4月份已有所改善。為支援財富管理業務,騰訊整合了混元和DeepSeek大語言模型功能,將其應用於金融助手聊天機器人。企業服務收入在第一季度實現兩位數增長,主要受益於雲服務收入增加和電商交易量上升帶來的技術服務費增長。企業服務毛利率同比上升,營運效率隨之改善。為進一步提升效率,領先的網際網路平台正越來越多地採用騰訊的音視訊解決方案、TDSQL資料庫和通用雲基礎設施,以更好地管理搜尋和最佳化整體營運效率。騰訊雲中的AI相關收入同比快速增長,這主要得益於客戶對GPU、API和平台解決方案需求的增加,但也受到GPU供應不足的限制。騰訊公司高級副總裁、首席財務官羅碩瀚:2025年第一季度,騰訊總收入為1800億元人民幣,同比增長13%。毛利潤為1005億元人民幣,同比增長20%。營業利潤為576億元人民幣,同比增長10%。利息收入為37億元人民幣,同比下降12%,主要原因是利息收益率下降。財務成本為39億元人民幣,同比增長36%,主要由於本季度出現外匯虧損,而去年同期則為外匯收益。合營企業和聯營公司的利潤分成為46億元人民幣,而去年同期為22億元人民幣。非經常性項目淨利潤為76億元人民幣,較去年同期的55億元人民幣有所增加。所得稅費用同比下降3%,至137億元人民幣,主要原因是去年同期有較高的預提稅負擔。而國內企業所得稅支出同比上升。稀釋每股收益(EPS)為6.58元人民幣,同比增長25%,主要得益於淨利潤增長和股份回購後股份數量減少。由於股份減少,計算稀釋EPS的加權平均股數下降2%。2025年第一季度,騰訊的營業利潤為693億元人民幣,同比增長18%。歸屬於股東的淨利潤為613億元人民幣,同比增長22%。營業利潤和淨利潤的增長差異,部分原因是聯營企業收入增加。整體毛利率為56%,同比增長3個百分點。分部門來看,增值服務(VAS)毛利率為60%,同比提升2個百分點,主要得益於高毛利的國內遊戲收入比例增加。行銷服務毛利率為56%,同比提升1個百分點,受益於高毛利的視訊號和搜尋廣告收入增長。金融科技和企業服務毛利率為50%,同比提升5個百分點,主要由於金融科技和雲服務成本效率提升。第一季度的營運費用中,銷售和市場推廣費用為79億元人民幣,同比增長4%,主要是加大對AI原生應用的推廣力度,部分被新遊戲發佈廣告支出的減少所抵消。銷售和行銷費用佔收入的比例為4%,低於去年同期的5%。行政費用同比增長21%,達到189億元人民幣,主要原因是員工人數增加和對AI相關資產的投資加大。本季度,騰訊的GMA(除研發費用外的管理和行政費用)同比增長62%,達到147億元人民幣,主要原因是與海外子公司商業重組相關的股權激勵費用達到104億元人民幣,這部分費用未計入非IFRS營業利潤和淨利潤的計算。截至季度末,騰訊共有約10.9萬名員工,同比增加4%,環比減少1%。非IFRS營業利潤率為39%,同比提升2個百分點。接下來,我將重點介紹現金流和資產負債表的部分關鍵指標。營運資本支出為264億元人民幣,同比增長近300%,主要是加大對GPU和伺服器的投資,以增強AI能力。非營運資本支出為11億元人民幣,同比下降86%,主要是去年同期基數較高,因當時購入土地使用權。總資本支出為275億元人民幣,同比增長91%。自由現金流為471億元人民幣,同比下降9%,主要是GPU和伺服器資本支出增加。但環比增長9.5倍,主要由於遊戲收入季節性增加以及某些應付費用結算時間差異。現金餘額為902億元人民幣,環比增長17%,原因是季節性遊戲收入增加,部分被資本支出和股票回購現金流出所抵消。以下是提問環節:Q:關於Agentic AI,管理層能否談談市場前景及與競爭對手的差異化優勢?此外,管理層能否進一步闡述我們在AI商業模式(如廣告、交易、GPU租賃和訂閱)上的策略?關於電商業務,管理層能否分享一下最新的組織調整情況,尤其是微信小店的最新進展?我們未來在戰略和關鍵績效指標(KPI)方面的規劃是怎樣的?另外,我們如何看待電商生態的協同效應,以及與其他直播平台的差異化?此外,能否談談我們618大促的準備情況?Agentic AI是一個非常熱門的概念,主要指的是AI可以幫助使用者完成非常複雜的任務,這些任務通常涉及多個步驟,還可能需要使用各種工具,甚至連接其他應用程式。首先,我們可以將Agentic AI分為兩類:第一類是通用型Agentic AI,這是所有人都可以開發的,基本上就是建立一個智能代理,讓它自主完成使用者任務。第二類是微信生態內的Agentic AI,這種AI深度融合在微信及其獨特生態系統中,是專門針對微信使用場景的AI應用,具有一定的獨佔性和差異化。目前,我們正在一些AI原生產品中開發這種能力,比如元寶等。這些AI一開始只是快速回答問題,屬於簡單響應類型。隨著能力的增強,這些AI逐漸具備鏈式思維和複雜推理能力,可以解答覆雜問題。進一步發展後,這些AI甚至能夠執行更複雜的任務,例如呼叫其他應用程式和API來幫助使用者完成需求。這種演進使得我們的Agentic AI逐漸具備自主執行任務的能力,並能與其他應用程式和程序介面互動,幫助使用者高效完成任務。從這個角度來看,我們的Agentic AI和市場上其他公司的類似產品沒有本質區別,只是我們的產品更貼近微信生態,更具針對性和獨特性。另一方面,在微信生態系統中,我們認為有機會創造出獨特的Agent AI,這種AI能夠深度整合微信生態的各種獨特元件。這些元件包括社交圖譜、通訊和社區能力、內容生態,比如微信公眾號、視訊號等,以及微信中存在的數百萬個小程序,它們覆蓋了各種資訊流、交易操作,以及跨多個垂直領域的應用。這種Agent AI能夠利用微信獨特的社交、內容和服務體系,在不同場景下進行資訊整合和操作執行,形成比通用型Agent AI更具差異化的產品。這種微信生態專屬的Agent AI,與市場上其他更通用型的智能代理相比,具備獨特競爭優勢。關於AI商業模式,廣告業務是AI在微信生態中最直接受益的領域。AI提升廣告投放的精準度,幫助我們更有效地匹配使用者興趣和廣告內容,從而帶來更好的廣告效果。當廣告效果提升後,廣告收入自然也會增加。我們目前已經在效果廣告中實現了部分提升,但未來仍有更多潛力可挖,特別是在AI技術不斷進步的背景下。在廣告與交易方面,我們認為廣告和交易是緊密聯絡的。當廣告直接引導交易時,廣告的價值會顯著提升。這也是我們提升廣告收入的一個重要策略。通過將廣告和交易緊密結合,可以讓廣告效果更具實質性轉化,進而推動廣告收入增長。關於GPU租賃,GPU租賃業務主要和雲服務相關,實際上更像是轉售業務,通常是面向邏輯分析和計算需求。由於目前GPU供貨短缺,我們將其優先順序調低。在這種供不應求的情況下,GPU租賃並不是我們的主要業務方向。關於訂閱模式,在中國,AI訂閱模式並不是主流。目前大部分AI服務都是免費提供的,和國外一些收費訂閱模式不同。在中國市場,大家更傾向於免費使用AI,因此訂閱制暫時不會成為主流商業模式。關於電商組織調整,最近的電商組織調整實際上是小範圍的。此前,微信電商團隊是在開放平台部門中孵化的,隨著團隊規模擴大,我們只是正式將其獨立,成為獨立部門。管理層沒有發生變化,依然由原經理負責。因此,這次調整隻是組織架構上的調整,並不代表業務方向或策略的重大變化。Q:我主要想瞭解元寶整合進微信生態系統的最新進展。能否請管理層分享一下整合後使用者行為趨勢的變化?在整合完成後,我們希望能夠看到那些跨項目協同效應,比如小程序店舖、公眾號、視訊號等在微信生態中的協作效果?接下來我們下一步的主要發展方向是什麼?我們是否預計會將私域和公域流量結合到元寶功能中?說實話,目前這個項目還處於非常早期的發展階段。我們確實可以看到,使用者在逐漸使用元寶。他們用它來提問、對話,還有將一些內容匯入元寶,讓元寶進行總結和分析。這些是我們目前觀察到的初步使用場景。隨著使用者不斷互動和使用元寶,預計他們會越來越頻繁地使用。未來,我們肯定會逐步加強微信生態與元寶聊天助手的關聯。我們會進行不同的實驗,也許再過幾個季度,我們就能更系統地向大家匯報進展。目前來說,還為時過早,無法系統性地總結。Q:隨著使用者和企業端的使用率逐漸提升,我們在管理投資速度與收入增長之間的平衡方面,有什麼具體的計畫嗎?特別是在業務早期快速增長階段,我們將如何處理這種平衡?目前階段,我們希望全速推進需求的生成。坦白說,如果需求量大到我們的GPU都無法承載,那時候我們才會考慮如何調整速度。現在還沒到那一步,如果真有那麼大的需求量,那倒是個不錯的問題。Q:本季度國內遊戲表現很強勁,能不能幫我們分析一下,這種增長是不是因為之前2021到2022年表現比較弱,所以現在是“補償性需求”?另外,最近一些趨勢,比如熱門全球遊戲吸引大量玩家和消費,而騰訊在這些遊戲中佔比較大,再加上利用AI加快遊戲內容更新,這些因素是不是會帶來更穩定的長期增長?最近全球關於應用程式商店和應用之間收入分配的監管討論很多,比如應用程式商店抽成和遊戲收入如何分配。騰訊之前也關注過這個話題,能不能談談在中國,這種分成機制有沒有變化,尤其是在視訊遊戲領域,未來收益分配會不會有新的調整?關於國內遊戲表現強勁的問題,首先,2025年第一季度的強勁表現,部分原因是因為和2024年第一季度相比,基數較低,這對我們的表現有一定幫助。但這種對比優勢在未來季度可能不會一直存在。儘管如此,我們依然認為國內和國際遊戲收入未來有較長的增長空間。其中有很多原因,今天我就重點談三個方面:首先,去年我們對國內一些大型遊戲的管理方式做了一些調整,包括營運策略和團隊安排。這些調整已經開始顯現出我們預期的效果,並且未來有望繼續帶來更多積極成果。第二個推動遊戲業務長期增長的重要因素是AI技術的應用,尤其是在大型競技類多人遊戲中,AI的作用格外突出。這類遊戲佔據了我們國內遊戲收入的大頭,所以AI的引入對它們格外有幫助。雖然AI在遊戲中的應用方式很多,但我們目前重點探索的是以下幾個方面:第一,幫助新玩家快速上手,通過AI提供指導和培訓。第二,陪伴現有玩家,提升遊戲體驗。第三,防止作弊和駭客攻擊,保障遊戲公平性。這些AI應用在競技類多人遊戲中尤為重要,能有效提升遊戲體驗和使用者黏性。第三個推動遊戲業務長期增長的因素是遊戲類型的調整,特別是在第一人稱動作類遊戲上的佈局。以往,中國玩家對第一人稱動作類遊戲(FPS)的接受度較低,相比海外市場佔比小得多。但我們判斷,中國市場會逐漸追趕這一趨勢。我們提前佈局了這一遊戲品類,目前騰訊在中國市場的FPS遊戲領域佔據領先地位。在本季度的國內遊戲業務中,重點突出了這些FPS遊戲,包括《和平精英》《穿越火線手游》《使命召喚手游》《無畏契約》《三角洲行動》這些遊戲中,有的增速較快,比如無畏契約和三角洲行動,有的增速稍緩,但整體呈現良好增長。由於多個遊戲同步增長,使得第一人稱動作類遊戲整體表現亮眼,成為本季度國內遊戲收入增長的支柱,並為未來的長期增長奠定基礎。至於應用程式商店的收入分成方面,目前正處於調整期。過去的分成模式對數字內容創作者(尤其是遊戲公司)不公平,而實體產品提供商卻能享受更優惠的條件。作為同時營運應用程式商店和數字內容(如遊戲)的公司,我們認為應用程式商店的分成比例過高,收益分配不合理。這種調整趨勢在中國市場已經持續了幾年,數字內容創作者(包括我們在內)逐漸獲得更公平的收入分成。而在西方市場,這種變化較慢,甚至尚未發生,直到最近才有所改觀。目前有多起法律案件和監管干預正在進行,雖然短期內的變化難以預測,但長期來看,我們認為應用程式商店與數字內容提供商之間的收入分配關係將會逐漸調整,趨向更公平。過去,數字內容提供商(如遊戲公司)創造了大量價值,但因為分成不合理,實際上在補貼整個應用程式商店生態,而這種生態卻更有利於電商和不支付費用的公司。我們認為,未來會朝著更公平的方向發展,尤其在中國市場,這種趨勢已經比較明顯,而在西方市場,儘管速度較慢,但我們預計未來也會逐步顯現。Q:過去2-3個月,騰訊在將AI深入整合到各種業務應用中後,是否觀察到使用者行為有顯著變化?比如,使用者在使用“元寶”時的習慣是否有變化?這些AI技術在微信生態中是否已經被業務合作夥伴注意到?騰訊如何看待這些觀察到的使用者行為變化,是否能幫助進一步提升使用者價值和未來變現潛力?除了一些大型遊戲因AI整合而受益外,未來是否也會在一些中型遊戲中整合AI,來提升變現或啟動使用者互動?目前來說,要系統分析使用者行為變化還為時過早。現在我們主要在探索和試驗,通過增加各種AI功能,觀察那些使用者喜歡用,那些不太受歡迎。我們發現,使用者普遍喜歡和AI互動,比如提問、追問,或者使用一些分析照片的新功能。有些功能剛上線,我們還在觀察使用者反饋,看看那些功能能留住使用者,那些可能沒那麼實用。總體來看,使用者使用AI助手的頻率確實在逐步提升,隨著他們逐漸熟悉這些功能,使用者開始發現AI助手的價值,所以整體使用量在增加。目前我們主要把遊戲AI應用在大型競技類遊戲中,但這個進展還處於非常早期的階段。我們認為,繼續深耕這一方向,才是最大的機會。與此同時,我們也看到另一種潛在的機會,就是將生成式AI應用到內容驅動型遊戲中。這種AI一開始可以加速遊戲內容的創作,比如幫助遊戲工作室更快地製作內容。未來,甚至可能讓玩家生成一些遊戲內容,比如自訂地圖或劇情。最終,這種AI甚至有潛力實現動態生成內容,比如當玩家探索預設地圖之外的區域時,遊戲能夠自動生成新環境。不過,這些都是未來探索的方向,目前更實際的機會還是將遊戲AI應用在大型多人競技遊戲中,這也是我們目前主要的投入重點。Q:關於高性能GPU(圖形處理單元)。最近,美國對高性能GPU引入了許可要求。我們瞭解到,目前我們的優先順序是內部使用這些GPU。請管理層分享一下對這個情況的看法,以及這對我們的資本支出、AI開發以及產品發佈有什麼影響?關於宏觀經濟形勢。在我們的新聞稿中提到,經過去年較為保守的策略後,我們的消費者貸款業務在今年實現了同比收入增長。但考慮到經濟環境仍不確定,能否請管理層分享一些我們在市場上的觀察,包括消費者和廣告主方面的情況?關於GPU(圖形處理單元)的問題,目前形勢變化非常快。從上一季度財報電話會議以來,我們先後經歷了H20晶片的出現,緊接著美國工業與安全域(BIS)又在一夜之間出台了新的監管指引,而且這些政策都是突如其來的。因此,我們需要在完全合規的前提下靈活應對,以確保我們的AI戰略能夠順利實施。好消息是,我們之前已經儲備了相當數量的晶片,這對於我們執行AI戰略非常有幫助。這些GPU的使用將優先用於能夠帶來直接回報的應用,比如廣告業務和內容推薦產品。目前,我們確實在這些領域大量使用GPU,以快速產生收益。關於大語言模型(LLM)訓練的問題,這屬於第二優先順序,因為訓練通常需要更高端的晶片。幸運的是,過去幾個月業內觀念出現了轉變,人們開始擺脫美國科技公司所謂“規模定律”(ScalingLaw),即必須持續擴張訓練叢集的思維。但現在我們發現,即使使用較小的叢集,也可以取得不錯的訓練效果。這說明,模型訓練不一定非要依賴超大規模叢集。換言之,憑藉現有的高端晶片庫存,我們完全有能力在未來數代模型的訓練中“夠用”。更大的GPU需求主要來自推理(Inference)端,尤其是當我們進入複雜推理模型階段時,計算需求顯著增加。比如,當模型要回答一個複雜問題時,需要處理更多的Token(即大量的文字片段)。如果進入智能代理AI(Agentic AI)階段,Token需求量會更大。因此,推理計算的需求非常旺盛。針對推理側的壓力,我們有多種手段:第一,軟體最佳化。目前我們還可以通過軟體最佳化,來進一步提升推理效率。比如,如果我們能夠將推理效率提升2倍,那就相當於現有GPU算力翻倍,在不增加硬體的情況下提升計算能力。第二,定製模型,最佳化GPU使用。目前,我們可以自訂不同規模的AI模型,因為有些應用並不需要超大模型。通過定製化和模型壓縮(蒸餾),可以針對不同的使用場景,開發出輕量化模型,這樣可以顯著減少推理計算時對GPU的消耗。第三,硬體替代方案。除了GPU,我們還可以靈活使用其他類型的晶片,例如國產晶片、ASIC和FPGA、進口晶片等。總之,我們可以通過多條路徑滿足不斷擴大的推理需求,把更多精力投入軟體層面,而不是單純用“砸GPU”來解決。我們注意到,今年以來,通過平台促成的貸款質量逐步提升。這主要有兩個原因。第一,借款人篩選更精準。我們在借款人選擇上更嚴格,有效減少了壞帳風險。第二,宏觀環境改善。近年來,中國消費者儲蓄餘額大幅增加,也就是說,很多人手頭更寬裕。相比於那些儲蓄較少的人,我們更願意把錢借給儲蓄較多的人。目前,我們的貸款總額增長較為謹慎。與一些同行相比,我們平台的貸款規模還只是他們的一小部分。雖然我們會繼續保持穩健擴張,但由於貸款利潤率較高,這個業務未來仍有多年增長潛力。Q:關於AI再投資,管理層在開場時提到,收入和營運利潤之間的差距縮小,能否更詳細說明這一差距的幅度與持續時長?除了資本支出之外,還有那些費用項目會拉大(或縮小)二者的差距?關於FPS(第一人稱射擊遊戲)業務,本季度《三角洲行動》表現優異,《穿越火線手游》也有所提及。我們是否正看到FPS類遊戲的結構性崛起?在您提到的多個FPS遊戲中,是否可能出現多款“常青”產品?這種差距縮小的現象,尤其是在人工智慧(AI)部署方面,其實目前是一個全新且未知的領域,不僅對騰訊,對整個世界都是如此。因此,對於未來的持續時間和具體影響,管理層坦言沒有絕對的信心去精準預測。不過,如果要衡量這種差距縮小的時間長度,可以參考過去的經驗。騰訊過去在培育新產品直到形成大規模使用者基礎和流行度,再到實現盈利,通常這個過程大概持續1到2年。當然,具體的時間長短還取決於競爭對手在中國市場的策略,以及使用者和廣告主的行為變化。在利潤增長和收入增長差距縮小的問題上,可以參考的合理時間範圍大約是1到2年。我們不認為當前季度收入增長和利潤增長的差距會持續擴大,未來這個差距會逐步縮小。同時,我們也不預計營運槓桿會變成負數,也就是說,利潤增長不會因為投入增加而出現負增長。在成本方面,除了資本支出和折舊,還有一些市場推廣費用,比如在元寶上的推廣。此外,AI工程師的成本較高,因為具備AI專業技能的工程師工資普遍較高,但這更多是人力成本結構的問題,而非員工數量的增加。關於在中國第一人稱動作遊戲受歡迎的問題,有兩點。第一,正如我之前提到的,這在很大程度上代表了中國玩家的行為與世界其他地區長期以來的遊戲行為趨同。在世界其他地區,第一人稱動作遊戲是遊戲中的超級遊戲類型,相當於電視劇。它佔據了玩家遊戲時間和收入的40%到50%。在中國,這一比例歷史上只有10%到20%。但當我們觀察不同群體、不同世代的玩家時,我們會發現中國的年輕玩家尤其喜歡第一人稱動作遊戲,而像《無畏契約》這樣直接吸引20到30歲玩家的第一人稱動作遊戲表現尤為出色。這是一個觀察結果。第二個觀察是,雖然我們較新的第一人稱動作遊戲表現良好,但我們現有的一些遊戲,包括《和平精英》、《使命召喚手游》和《穿越火線手游》,也同樣表現不俗。我認為這其中有很多原因,但其中一個原因是,大家可能還記得,幾年前,大逃殺模式推出,在西方國家迅速走紅,《使命召喚》、《戰區》和《絕地求生》也都大受歡迎,這可以說是一種進步,意味著整個遊戲類型的擴展。在中國,我們看到了大逃殺模式的進步,最近我們又看到了所謂的“撤離射擊”模式的流行。我之前提到,《和平精英》是中國最大的第一人稱動作遊戲,其使用者增長主要源於撤離射擊模式。而對於《三角洲特種部隊》,大多數高留存使用者都玩撤離射擊模式。所以,我們相信,每隔幾年,第一人稱動作遊戲就會出現一些新的玩法模式,這些模式通常會擴大整體受眾群體,而不是蠶食現有受眾群體,而這正是目前的情況。因此,我們對多款第一人稱動作遊戲在中國取得的進展感到非常高興。Q:每個季度我們都聽到管理層提到 AI 技術是推動廣告業務發展的驅動力之一。想知道,如果將 AI 技術應用到你們的廣告業務中,還可能會帶來多大的增長空間?另外,你們視訊帳號廣告的最新廣告負載率和有效每千次展示費用 (eCPM) 是多少?關於微信搜尋,想知道,微信搜尋的最新搜尋查詢市場份額是多少?微信搜尋現在貢獻了多少廣告收入?在你們將 AI 搜尋功能加入到微信後,您是否認為使用者搜尋活動會從傳統搜尋轉向 AI 搜尋?AI在多大程度上能夠進一步提升我們的廣告收入,這實際上是一個全球性的行業問題。如果我知道這個問題的答案,那麼對理解Meta、Google以及騰訊以外的一系列公司將非常有幫助。如果我嘗試簡化這個框架,那麼AI目前為廣告收入帶來的提升,很大一部分(不是全部,但很大一部分)可以通過廣告點選率(CTR)來量化。從歷史上看,橫幅(banner)廣告的點選率約為0.1%。資訊流(feed)廣告的點選率約為1.0%。借助AI,我們已經看到某些廣告庫存的點選率可以提高到3.0%。那麼問題是,這個點選率的上限是多少?目前,沒有人知道答案,因為如果你擁有關於消費者的完整資訊或洞察力,如果你有能力推斷消費者想要什麼,或者根據消費者先前的行為推斷他們應該想要什麼,然後向該消費者投放高度精準的廣告,那麼這幾乎就變成哲學問題了。那麼,很難說上限應該是 X% 而不是 Y%。當然,AI還有其他方式可以提高廣告收入。我們可以利用AI向消費者定向提供更具吸引力的內容,這意味著他們會在資訊流中花費更多時間,從而觀看更多廣告。但我認為廣告點選率也許是最重要的。就視訊帳號的廣告負載而言,我想在過去六個月裡,我們一直保持著相當穩定的水平,目前仍在3%到4%左右。就視訊號的eCPM而言,它仍然是一個非常不錯的數字,部分原因是我們實現了高點選率,還有部分原因是廣告主在爭奪可用廣告庫存方面存在競爭。就微信搜尋查詢份額而言,我們尚未披露具體數字,但它呈現出良好的上升趨勢。至於使用者對AI搜尋的反應,我認為——我的一位同事可能有更細緻的答案。但是,a、現在還處於早期階段;b、我認為AI搜尋的整個概念有點模糊,消費者在純AI體驗中輸入提示,與在搜尋引擎中輸入查詢(傳統演算法或大語言模型驅動的結果可以回答)之間的界限該如何劃定?兩者有點融合在一起,我們認為,作為搜尋行業的一個相對較新的參與者,這(種融合)對我們來說是好事,因為這是我們獲得使用者份額並最終獲得收入份額的機會。Q:第一個問題是關於廣告業績的,廣告業績從第四季度的 17% 增長到了第一季度的 20%。想瞭解,如此強勁的業績增長或加速在多大程度上是由宏觀經濟復甦、技術進步還是庫存釋放推動的?根據之前的評論,我猜庫存釋放的影響應該是最小的。所以,即使精準量化其影響也很難,能否給出其對收入增長的影響排名?另一個問題是關於AI產品模式的。你們一直在積極地為元寶吸引使用者。能否分享一下元寶活躍使用者的反饋、留存率等等?更重要的是,就產品而言,您如何看待聊天機器人AI應用的未來發展?這有可能是生成式AI的終極形態嗎?關於廣告,我認為我不會過多解讀廣告收入增長率的逐季波動。它一直處於一個區間內,坦白說,第一季度處於該區間的上限。我們甚至不一定希望出現加速增長。對我們來說,更重要的是真正保持一個非常長的跑道,以便在未來很多年(不是幾個季度,而是很多年)內維持這個區間。如果我們發現自己離區間上限太近,那麼我們可能會花更多時間增加現有產品的廣告負載率,或者放慢針對我們新的AI產品部署廣告,真正專注於最佳化使用者使用時間和使用者體驗,而不是試圖突破區間上限。但那樣一來,這個區間存在的時間比我們希望的要短。所以我認為這是大致的概括性評論。(劉熾平Martin補充):流量的有機增長也很重要。這可能是一個非常重要的驅動因素。是的,流量增長和廣告技術的改進是導致流量區間保持在十幾位數字左右,而不是個位數的正增長或負增長,以及區間內的波動的原因。我認為這與一些季度性因素有關。但正如Martin指出的那樣,總體而言,我們的流量在增長,尤其是我們最看好的廣告資源,例如視訊號、小程序、公眾號和微信搜尋。我們正在部署廣告技術,部署AI,提高圍繞這些庫存的廣告主的回報。(劉熾平)補充一下,我們看待廣告業務的方式是,這條跑道很長,我們所做的就是努力延長這條跑道,而不是逐季管理增長率。如果我們能夠持續改進廣告技術,就能延長跑道。如果我們能夠持續增加流量,這其中很大一部分流量實際上也是由AI驅動的,因為即使有這麼多使用者訪問我們的視訊帳號,仍然有很多人進來後只看了一小會兒就離開了。如果我們能夠通過AI找到合適的內容推送給他們,那麼使用者使用時間就能顯著增加。這樣一來,我們就不必增加廣告投放量了,我們只需依靠流量的自然增長來推動收入增長,並把新的廣告投放量留到以後再投放,這樣我們的跑道就能再次延長。同時,通過減少廣告,我們實際上可以改善我們的產品體驗,這是形成虛擬循環的另一個競爭優勢。所以我認為這就是我們對廣告業務的思考方式。隨著時間的推移,如果我們能夠在微信生態系統中建構一個更強大的交易生態系統,越來越多的商家可以投放廣告,一旦點選率上升,交易就很容易促成。這樣一來,廣告主在我們這裡消費的意願就會增加,每次點選的價值也會上升。所以,我們正在做很多系統性的事情,從而延長我們廣告業務的營運時間。我們相信,從宏觀角度來看,這條營運時間非常長,我們正在不斷努力延長它。關於AI。我認為就目前而言,就在上個季度,我們的元寶使用者群實際上增長了很多。我們花了很多時間來確保能夠留住這些使用者,我認為我們已經證明了我們能夠留住使用者,並為他們提供足夠好的體驗,從而吸引他們不斷回頭,持續使用元寶。我認為,當你談到新產品的形態時,聊天功能目前確實佔據主導地位。但當我們推出更多功能時,使用者介面和格式可能會有所不同。當你嘗試為使用者執行一項複雜的任務時,它可能會變成一個項目而不是一個聊天,而且你可能需要讓這項任務停留更長時間。因此,我們會根據我們提供的功能類型來定製產品形態和使用者體驗。Q:兩個問題。一個是關於我們微信電商戰略的。我想瞭解一下我們目前看到的關鍵KPI是什麼?對於基於貨架的產品,以及目前以直播搜尋為主要形式的產品,是否有相應的計畫或時間表?第二個是支付方面的問題。我看到管理層注意到第一季度的支付額略有下降。這些是與宏觀因素相關,還是與支付策略有關?你們(管理層)之前提到了4月支付額有所改善,可否說明原因。就電商戰略而言,我認為我們不會通過設定硬性的KPI來營運。這是一個非常長期的項目,需要很長的跑道。我反覆強調“跑道”這個術語,因為我們覺得,相比像衝刺那樣設定KPI然後需要達到它,確保業務能夠長期保持增長更重要。所以,就如何建構跑道而言,我們正在實施一系列舉措。首要任務是真正改善消費者的基本購物體驗,例如,我們需要提供更高品質的產品,我們需要制定方便消費者的退貨政策,我們需要建立良好的客戶服務流程,我們需要為這些消費者提供合理的價格。這是一個。第二,我們希望吸引更多優質產品、優質品牌和積極進取的商家加入我們的生態系統,從而不斷提升供應端。第三,真正為商家帶來更多流量,並為消費者提供更多與產品和商家互動的機會。第一步是通過直播來真正增加流量。我認為這是真正能夠轉化更多銷售額的方法之一,而且效果已經得到充分驗證。其他平台已經這樣做了。我認為這更像是我們能夠做到的一件無悔之事。與此同時,隨著時間的推移,我們實際上希望為微信生態系統打造一些獨特的功能,那就是通過微信生態系統中的各種模組(例如小程序)將使用者與產品連接起來。我們知道,很多使用者已經在通過小程序購買產品。如果我們能夠將部分交易轉化為小程序,並且由於小程序擁有更好的電商交易支援基礎設施,我們實際上可以擴大交易量,這對使用者和商家都有好處。它包含社交元素、溝通元素,可以與朋友圈和搜尋建立連接。比如,在社交方面,我們之前提到過贈送功能是我們新增的一項功能,未來還會加入更多功能,並與公眾號連接。所以,我們可以加入很多潛在的連接。隨著時間的推移,這些連接將以一種非常獨特的方式為商家帶來更多交易。所以,為了長期發展我們的小程序商店和微信電商生態系統,我們正在做這些事情。我很高興地說,雖然這些只是我們第一階段的工作,但我們的小程序商店交易總額(GMV)仍然保持著非常強勁的增長。關於商業支付量的問題,我們的市場份額可能會根據補貼水平、我們接受信用卡支付交易的積極程度等等而波動。但實際上,我們不會逐月做出重大調整。因此,從第一季度到4月,我們的競爭強度並沒有顯著提升。我認為總體情況是,過去幾個季度消費者支出一直在波動,但最近的資料是呈上升趨勢。因此,這種上升趨勢可能反映了整體消費者信心和消費活動的走穩。我們希望隨著時間的推移,這種穩定能夠持續下去。當然,時間會告訴我們答案。稍微補充一下,在第一季度,交易數量持續上升,但客單價實際上下降了。我們的判斷是,隨著需求端開始回暖,供應端競爭可能進入最後階段。我認為4月的趨勢在某種程度上證實了這一點。但這實際上是在關稅開始生效之前。所以,即使沒有關稅,我認為我們清楚地看到消費模式已經觸底,並開始緩慢復甦。但現在考慮到關稅的影響,我認為我們只需要看看下一季度會發生什麼。這是非常動態的。關稅是存在的,但關稅的幅度是多少?我認為政府實際上非常支援刺激措施,而且中國政府仍有很大的空間推出更多刺激措施。現在在關稅方面有一些選擇。因此,我認為需要關注兩個因素,一是關稅及其相互作用,二是關稅對經濟的影響以及刺激措施的反向影響。 (華爾街見聞)
騰訊混元AI重大調整,將有大事發生
馬化騰敢想敢做。騰訊重構混元大模型研發體系據瞭解,近日,騰訊對其混元大模型研發體系進行了全面重構,主要是圍繞算力、演算法和資料三大核心類股展開,通過最佳化團隊部署和加碼研發投入,推動混元大模型的持續發展。調整後,騰訊成立了兩個新的部門:大語言模型部和多模態模型部,分別負責探索大語言模型和多模態大模型的前沿技術,持續迭代基礎模型,提升模型能力。同時,騰訊將進一步加強大模型資料能力和平台底座建設。其中,資料平台部專注大模型資料全流程管理與建設,機器學習平台部則聚焦機器學習與巨量資料融合平台建設,為 AI 模型訓練推理、巨量資料業務提供全面高效的 PaaS 平台底座,共同支撐騰訊混元大模型的技術研發。圖源:每日經濟新聞公眾號顯然,騰訊想要對底層技術瓶頸進行系統性突破,對混元大模型研發體系進行調整有利於整合資源,最佳化研發流程,進一步提升騰訊在AI領域的長期技術作戰能力。值得一提的是,最近一段時間以來,騰訊在AI領域的組織架構調整動作不斷——先是騰訊元寶從‌TEG(技術工程事業群)‌劃歸至‌CSIG(雲與產業事業群)‌;然後是QQ瀏覽器、搜狗輸入法、ima等原屬‌PCG(平台與內容事業群)‌的產品線及團隊,整體遷移至CSIG。完成這一系列調整後,騰訊建立起了一個包含元寶、ima、QQ瀏覽器、搜狗輸入法四大產品線的AI產品矩陣——其中,元寶是大模型時代的應用入口及標配的AI助手;ima則是提供智能辦公場景解決方案的工具產品;QQ瀏覽器是AI搜尋與資訊流重構的智能搜尋;搜狗輸入法則是自然語言互動的前端入口。通過將分散在三大事業群(TEG/PCG/CSIG)的AI產品資源集中於CSIG,騰訊形成了層級分明的"入口-工具-搜尋-互動"產品閉環,同時強化了大模型與雲服務的底層技術聯動。這些舉動說明,騰訊在AI領域的佈局不斷提速,步伐日益加快。值得一提的是,騰訊2024年四季度及年度財報顯示,騰訊研發投入再次創下歷史新高,達到707億元;2018年至今累計研發投入超過3403億元。圖源:百度騰訊總裁劉熾平在財報電話會上表示,隨著AI能力和價值的逐步顯現,騰訊加大了AI投資,以滿足內部業務需求、訓練基礎模型,並支援日益增長的推理需求。伴隨著投入研發資金的加碼,騰訊的AI戰略正在加速落地。顯然,騰訊對於AI這塊“兵家必爭之地”也是勢在必得。混元大模型的產品混元是騰訊自研的通用大模型,支援文字、圖像、視訊和3D等多種模態內容的理解與生成。圖源:百度其發展時間不過短短幾年,卻已經經過了多次技術迭代和業務發展整合——2023年9月,混元大模型正式發佈,成為國內首批全面開放的通用大模型。這是騰訊基於市場需求分析啟動的項目,也是對AI市場的初步探索,混元初期聚焦文字生成能力開發。此後,混元大模型開始不斷進行技術迭代,整合多模態技術,新增圖像創作、視訊轉譯等能力,持續最佳化推理能力。今年以來,混元大模型的技術迭代速度更是顯著加快,相繼推出快思考模型Turbo S和深度思考模型T1,在視訊生成和3D生成領域也推出多個新版本模型。混元3D生成、視訊生成、DiT文生圖及千億參數MoE語言模型等模型均已對外開源,GitHub總Star數超過2.9萬。目前為止,騰訊混元大模型已在 700 多個內部場景中部署,促進了多個業務領域的增長——混元深度融入騰訊各業務線,廣泛應用於微信、QQ、騰訊元寶、騰訊會議、騰訊文件等核心產品,提升騰訊內部產品的智能化水平,並通過騰訊雲向外輸出模型能力,幫助企業和開發者創新提效。圖源:百度不難看出,混元大模型對於騰訊而言可謂是AI業務的核心,所以騰訊加大投入力度、調整組織結構等舉措都是為了助推混元大模型的發展,從而反哺騰訊自身其他業務的發展。正如騰訊董事會主席兼首席執行官馬化騰所言,“我們相信這些加大的投資,會通過提升廣告業務的效率及遊戲的生命周期而帶來持續的回報,並隨著我們個人AI應用的加速普及和更多企業採用我們的AI服務,創造更長遠的價值。”值得注意的是,雖然騰訊有著自研的混元大模型,但是騰訊也在積極擁抱Deepseek——騰訊的系列產品是最早一批擁抱DeepSeek的產品,元寶、ima、QQ瀏覽器、騰訊文件、騰訊地圖、QQ音樂等,均宣佈同時支援混元大模型與DeepSeek模型“雙引擎”,微信搜尋也上線了“AI搜尋”功能並接入DeepSeek-R1。圖源:百度不難看出,騰訊正在積極推進“核心技術自研+擁抱先進開源”的多模型策略,以應對市場的不同需求,從而助推自身技術和實力的進步與發展。除此之外,騰訊還在大力招聘AI人才,2025年啟動三年新增‌2.8萬校招實習崗位‌計畫,技術類崗位佔比超60%,覆蓋AI演算法、大模型研發、雲端運算、遊戲引擎與數字內容等70余種崗位。圖源:騰訊微信公眾號顯然,騰訊的目的是想儲備技術人才。一方面,可以通過定向培養演算法工程師、多模態研發人才,直接參與核心項目研發來加速‌混元大模型技術迭代;另一方面,還可以應對字節跳動Seed Edge、阿里通義千問等競品的技術競爭,搶佔AI人才金字塔尖。畢竟,在AI市場中,各大企業都在紛紛發力,以圖搶佔市場先機和未來發展。AI市場競爭激烈就當今AI市場而言,競爭日漸激烈,尤其是各個科技大廠之間你追我趕互不相讓,都希望搶佔AI的高地——就阿里而言,去年12月,阿里‌啟動組織架構調整,將通義千問大模型與夸克業務合併組建"AItoC"戰略類股。通過這一調整,阿里明確了消費級AI產品戰略方向,加速AI技術向C端應用場景的滲透。今年3月,阿里推出了新夸克——新夸克基於阿里通義的推理與多模態大模型,由舊夸克全面升級為無邊界的“AI超級框”。顯然,夸克的升級體現了阿里準備在AI應用側發力的決心。有趣的是,今年阿里雲也啟動近五年最大規模AI校園招聘,重點招募大模型、多模態、AI Infra等領域人才,技術崗佔比超70%。圖源:阿里巴巴集團招聘微信公眾號不難看出,阿里也希望在AI方面儲備更多人才,從而不斷推動AI技術的發展。就字節跳動而言,前不久,字節跳動也整合了AI研發力量,將集團級核心研究部門AI Lab整體併入大模型部門Seed。與此同時,為了應對新一輪大模型競爭,字節跳動籌建了獨立於原有組織架構的 Flow和Seed,前者做AI產品,後者做大模型研發。顯而易見,字節跳動的組織調整是為了最佳化效率,強化底層技術能力,從而在市場中更具競爭力。值得注意的是,Seed自成立後就在不斷吸納來自字節內外的人才,並且開啟了Top Seed人才計畫,持續招募頂尖人才加入團隊。圖源:字節跳動招聘微信公眾號這一舉動和騰訊、阿里的目的一致,都是為了吸引更多人才來提升自身AI技術,從而搶佔AI市場份額。綜上可見,科技大廠們對於AI市場的戰略雖然不完全一致,但都離不開降本增效和人才儲備這兩個部分。畢竟,AI來源於人,若想要更好地服務於人,自然需要更多的人才來最佳化AI。在未來,AI的使用體驗或將會成為影響使用者選擇的重要因素,對此,技術、場景和生態都缺一不可,因此,AI市場的競爭或許還將不斷深入,誰能存活到最後讓人拭目以待。 (科技頭版)
OpenAI科學家揭秘:AI下半場驚天啟示!
本篇內容是提出ReAct、Tree of Thought等框架,定義SWE-bench等評測標準,推動Agent技術前沿的清華姚班、普林斯頓博士,OpenAI 科學家姚順雨,對於 AI 下半場的解讀,💡 目錄 💡01 我們正處於 AI 的半場時刻02 什麼是 AI 上半場03 AI 的有效配方04 歡迎來到 AI 下半場核心要點:1. AI發展進入“下半場• 階段轉變:從模型訓練(上半場)轉向問題定義與評估(下半場),標誌性事件是強化學習(RL)的泛化能力突破。• RL里程碑:過去RL僅限於單一任務(如AlphaGo),如今通過語言模態和推理能力,能解決軟體工程、數學解題、創意寫作等廣泛任務,實現多領域跨越。2. 上半場的核心:模型訓練主導**• 成功關鍵:演算法創新(如Transformer、GPT-3、AlexNet)推動AI進步,引用量遠超Benchmark(如Imagenet)。• 侷限性:任務定義簡單(直接轉化人類活動),依賴資料與算力堆砌,評價體系單一(以Benchmark表現為準)。3. 有效配方:RL的三大支柱•核心要素:① 演算法(如PPO、Actor-Critic)② 環境(複雜真實場景,如程式碼開發、數學推理)③ 先驗知識(語言預訓練、人類知識注入)• 成功邏輯:大規模預訓練 + 算力擴展 + 推理與行動結合,使RL突破泛化瓶頸。4. 下半場挑戰:重新定義AI範式• 評價體系 > 訓練:從“能否解決任務”轉向“如何定義有價值的問題”,需建構真實場景的評估標準(如使用者滿意度、商業價值)。• 環境與先驗被低估:RL需在複雜環境(如軟體開發、多步決策)中驗證,而非簡化模擬場景;先驗知識(如人類反饋)是泛化能力的關鍵。• 研究者思維轉變:需兼具產品經理視角,關注使用者需求與落地場景,而非僅追求模型性能。AI下半場是“定義問題”的戰爭,評價體系、環境複雜度、先驗知識將成為勝負手,而RL的泛化能力為這一轉型提供了技術基礎。以下為詳細內容01.我們正處於AI 的半場時刻We’re at AI’s halftime數十年來,AI 的核心一直在於開發新訓練方法和模型。這種路徑確實有效:打敗國際象棋和圍棋世界冠軍、在 SAT 和律師資格考試上超過大部分人、贏得 IMO(國際數學奧林匹克)和 IOI (國際資訊學奧林匹克)金牌,這些寫進 AI 歷史書裡的里程碑——DeepBlue,AlphaGo,GPT-4 和 o 系列,都來自底層訓練方法的創新,search,deep RL,scaling,reasoning。一切都在隨著時間持續進步。那麼現在到底有什麼變了?簡單來說,強化學習(reinforcement learning, RL)終於有效了。更確切地說,RL 終於有了泛化能力。經過幾次彎路,也跨過了一系列重要里程碑後,我們終於找到了正確的配方(recipe),能通過語言模態和推理能力來解決廣泛的強化學習任務。即便在一年前,如果你告訴大多數 AI 研究者,有一種 recipe 能同時應對軟體工程、創意寫作、IMO 等級的數學問題、滑鼠鍵盤操作以及長篇問答——他們只會嘲笑你在幻想。這些任務每一項都極其艱難,許多研究者整個博士期間只專注於其中一個細分領域。但今天這件事的確發生了。接下來會發生什麼?AI 的下半場——從現在開始——會從解決問題轉向定義問題。在這個新階段,Evaluation(模型評估) 會比 Training (模型訓練)更重要。我們不再只是問,“我們能不能訓練模型來解決 X ?” 而是開始問:“我們究竟應該訓練模型來做什麼,如何衡量真正的進展?”要想贏得 AI 的下半場,我們必須及時轉變心態和技能,也許要更像產品經理。02.什麼是 AI 上半場、The First half要理解 AI 上半場的意義,可以看看這個階段的 winners。先來想一個問題,你認為迄今最具影響力的 AI 論文有那些?我在 Stanford CS 224N 的課堂現場提出了這個問題,大家的答案並不意外:Transformer、AlexNet、GPT-3 等。這些論文的共同點在於它們提出了訓練更強模型的一些基礎性突破,但同時也在一些 benchmark 上展示了顯著的性能提升,從而得以發表。💡CS 224N 是 Stanford 深度學習與 NLP 主題的公開課,是過去十年 AI 領域的很多學生和學者入門 NLP 最好的課程之一。由 Chris Manning 教授主講。Chris Manning 是 Stanford 語言學和電腦科學系首任 Thomas M. Siebel 機器學習教授、人工智慧實驗室(SAIL)主任和以人為本人工智慧研究所(HAI)聯合創始人,他還是 ACM、AAAI 和 ACL 的 Fellow,並曾於 2015 年擔任 ACL 主席,是自然語言處理和機器學習領域的先鋒人物。這些經典論文還有一個潛在共性:它們幾乎都是訓練方法或模型,而不是 benchmark 或者 tasks。即便是被認為是最有影響力的基準資料集 ImageNet,它的引用量也不到 AlexNet 的三分之一。這種差距在其他案例中更加明顯。比如,Transformer 使用的主要 benchmark 是 WMT’14,WMT’14 的 workshop report 引用量大約為 1300 次,而 Transformer 本身的論文引用早已突破 16 萬次。這些對比形象地說明了 AI 上半場是關注於建構新的模型和訓練方法,evaluation 和 benchmark 則位於第二位,儘管對於學術發表體系而言,後者是十分必要的。為什麼會出現這種現象?一個重要原因是,在 AI 上半場,訓練方法比定義 tasks 更難也更令人興奮。從零開始發明一種全新的演算法或模型架構,比如反向傳播演算法、摺積神經網路(AlexNet),或是 GPT-3 所用的 Transformer,都需要非凡的洞察力和工程能力。相比之下,為 AI 定義 tasks 往往顯得更直接:我們只是把人類已經在做的事情,比如翻譯、圖像識別或下棋,轉化為 benchmark,這個過程幾乎不需要太多洞察,甚至不需要多少工程工作。訓練方法往往比具體任務更通用、適用範圍更廣,因此顯得格外有價值。比如,Transformer 架構最終推動了 CV、NLP、RL 等多個領域的進展,影響範圍遠遠超出最初驗證它效果的 WMT'14 這個翻譯資料集。一個出色的新訓練方法往往能在多個 benchmark 上取得較好效果,因為它足夠簡單、通用,它的影響也因此會超越某個具體任務。過去數十年來都是訓練方法論的創新先行,催生了許多改變世界的理念和突破,並通過在各個領域不斷提升的 benchmark 表現出來。那麼,為什麼今天這件事會發生改變?因為這些理念和突破的積累,在解決任務方面帶來了本質改變,造就了一套真正有效的 recipe。03.AI 的有效配方The recipe這套 recipe 到底是什麼?recipe 的關鍵成分並不讓人意外:大規模的語言 pre-training,資料和算力的 scaling,reasoning 和 acting 的理念。這幾個詞乍一聽很像今天出現頻率極高的 buzzwords。為什麼將這幾個詞稱為 recipe ?我們可以從 RL 的角度來看。RL 通常被認為是 AI 的“終極形態”,畢竟從理論上,它能夠保證在 game 中取勝,而在實踐上,幾乎所有 superhuman 水平的 AI 系統(比如 AlphaGo)都離不開 RL 的支撐。💡game:在博弈論中,game 指的是所有在封閉環境中,有明確輸贏的博弈任務。RL 領域有三個關鍵組成部分:演算法(algorithm)、環境(environment)和先驗知識(priors)。很長時間以來,RL 研究者主要關注演算法,比如 REINFORCE、DQN、TD-learning、actor-critic、PPO、TRPO 等,也就是 agent 如何學習的這一核心機制。💡DQN:Deep Q-Network,即深度 Q 網路,是深度強化學習的一種重要演算法,使用深度神經網路來逼近Q 值函數,並通過最大化 Q 值來選擇最優動作,其中 Q 值計算的是 Agent 執行某個行動帶來的價值變化。TD-learning:Temporal difference learning,即時序差分學習,結合了動態規劃(Dynamic Programming)和蒙特卡羅方法(Monte Carlo)的優點。Actor-critic:即演員-評論家演算法,是一種結合策略梯度和時序差分學習的強化學習方法,包括演員(Actor,負責行動)和評價者(Critic,負責評價)用神經網路分工進行博弈。PPO:Proximal Policy Optimization,即近端策略最佳化,是 OpenAI 在 2017 年提出的一種強化學習演算法,被認為是目前強化學習領域的 SOTA 方法,也是適用性最廣的演算法之一。PPO 簡化了以前的策略梯度演算法,通過幾個關鍵技術提高了訓練的穩定性和效率。這是之前 RLHF 最常用的 RL 演算法,在 reasoning model 場景下 Deepseek 提出的 GRPO 演算法正在取代成為主流。TRPO:Trust Region Policy Optimization,即置信域策略最佳化,是一種用於強化學習的策略最佳化演算法。相比之下,環境(environment)和先驗知識(priors)往往被當作既定條件,或者被儘可能簡化處理。例如,Sutton 和 Barto 的經典教材幾乎講的都是演算法,對於環境和先驗知識幾乎隻字未提。但在深度強化學習時代,環境在實踐中的重要性凸顯:一個演算法的效果往往高度依賴於它所開發和測試的環境。如果忽視環境,可能會導致我們建構的最優演算法只在過於簡化的環境中有效。那麼,為什麼我們不先思考清楚真正想要解決的環境,再去尋找最適合它的演算法?OpenAI 最初就是這麼計畫的。OpenAI 先是打造了 Gym,一個用於各類 game 的標準 RL 環境,接著又推出了 World of Bits 和 Universe,試圖將網際網路或電腦變成一個 game。這個設計很好,一旦我們可以將所有數字世界轉化為 environment,再用 RL 演算法來解決問題,我們就能實現數位領域 AGI。💡Gym:Gym 是 OpenAI 在 2016 年 4 月發佈的一個用於開發和比較 RL 演算法的工具包,提供了多種預定義環境,以便研究者和開發者可以在相同的 benchmarks 下測試他們的演算法。World of Bits 和 Universe:OpenAI 的 World of Bits 是基於 Universe 的訓練平台,也是 Universe 項目的前身。Universe 發佈於 2016 年 12 月,是一個能在幾乎所有環境中衡量和訓練 AI 通用智能水平的開源平台,目標是讓 AI Agent 能像人一樣使用電腦。這個設計很好,但並不完全奏效。雖然 OpenAI 取得了巨大的進展,比如利用 RL 解決了 Dota、機器人手等問題,但還沒有解決 computer use 或 web navigation ,並且,在一個領域表現出色的 RL agent 並不能遷移到另一個領域。某些關鍵因素仍然缺失。直到 GPT-2 或 GPT-3 出現,我們才發現缺失的是先驗知識 (priors)。你需要進行大規模 pre-training,將常識和語言知識提煉到模型中,然後通過微調使其成為網路 agent(WebGPT)或聊天 agent(ChatGPT),從而改變世界。結果發現,RL 中最重要的部分可能甚至不是 RL 演算法或環境,而是先驗知識,而這些先驗知識的獲取方式與 RL 完全無關。語言模型的 pre-training 為對話類任務提供了良好的先驗知識,但在控制電腦或玩電子遊戲方面卻不夠理想。因為這些領域和網際網路的文字分佈相差很大,直接在這些領域上做 SFT 或 RL 的泛化效果很差。我是在 2019 年意識到的這個問題,當時 GPT-2 剛剛發佈,我在它的基礎上做了 SFT 或 RL 來解決基於文字的 game,最終做出了 CALM。CALM 是世界上第一個基於 pre-training 語言模型建構的 agent,但它要花費上百萬步的 RL,才能在單一 game 中取得進展,而且無法遷移到其他 game 上。雖然這正是 RL 的特點,對 RL 研究者來說並不意外,但我仍覺得很反常,因為人類可以輕鬆上手一款新遊戲,而且在零樣本的前提下做得比 agent 更好。這時,我迎來了人生中第一個頓悟時刻:人類之所以能泛化,是因為人類不僅能做“去 2 號櫃子”、“用 1 號鑰匙打開 3 號箱子”或“用劍殺死地牢怪物”這類操作,還能思考:“地牢很危險,我需要一件武器。附近沒有武器,我需要在鎖著的櫃子或箱子裡找,3 號箱子在 2 號櫃子裡,那我應該先去那裡把櫃子打開。”思考(thinking)或推理(reasoning)是一種很特殊的行為,它並不會直接改變外部世界,但卻擁有一個開放、無限組合的空間,我們可以想一個單詞、一句話、一段話,或者一萬個隨機英語單詞,但周圍環境不會立刻發生變化。在經典 RL 理論中,reasoning 是一個糟糕的存在,因為它會讓決策變得不可能。比如,一個人需要從兩個盒子中選一個,其中一個裝著 100 萬美元,另一個是空的,這個時候預期收益是 50 萬美元。現在如果我們往這個人面前放了無數個空盒子,那麼他的預期收益就變成了 0。但如果我們在  RL 環境的動作空間(Action Space)中加上 reasoning,我們就能利用語言模型 pre-training 中獲得的先驗知識進行泛化,並可以在不同的決策中靈活分配 test-time compute。💡動作空間:不同的環境允許不同種類的動作,在給定的環境中,有效動作的集合被稱為動作空間(Action Space)。在離散動作空間(Discrete Action Space),agent 的動作數量是有限的,在連續動作空間(Continuous Action Space),動作是實值的向量。這個過程很神奇,我會在未來專門寫一篇 blog 來講。可以通過 ReAct 這篇論文先瞭解我對 agent reasoning 的看法。💡ReAct:ReAct 是姚順雨在 ReAct: Synergizing Reasoning and Acting in Language Models 中提出的框架,到今天還在 agent framework 中佔有一席之地。當下,我對於這件事的解釋是:雖然一個人面前被放置了無數個空盒子,但他在此之前,他已經在各種 game 中見過這些盒子,之前的這些選盒子的經驗能幫助他更好地識別出那個盒子更可能裝著錢。用一句抽象的話來說:語言通過 agent reasoning 來實現泛化(language generalizes through reasoning in agents.)。一旦我們擁有了正確的 RL 先驗知識(語言 pre-training)和 environment(將語言推理作為行動),演算法可能是最微不足道的部分。現在我們有了 o 系列、R1、deep research、computer-using agent,未來還會有更多的成果。多麼諷刺的轉折!長期以來,RL 研究者更關心演算法,遠勝於關心 environment ,幾乎沒有人關注先驗知識——所有的 RL 實驗本質上都是從零開始的,但我們繞了幾十年的彎路,才意識到也許我們的優先順序應該反過來。但正如 Steve Jobs 所說:You can’t connect the dots looking forward; you can only connect them looking backward.04.歡迎來到 AI 下半場The second half這套 recipe 在徹底改變 AI 的遊戲規則,AI 上半場的遊戲規則是:• 我們開發出新穎的訓練方法或模型,在各種 benchmarks 上取得更好的成果。• 我們創造出更難的 benchmarks,並繼續這個循環。現在這個遊戲規則正在被徹底改變,原因在於:• 這套 recipe 本質上已經把攻克 benchmark 的過程標準化、流程化了,我們不再需要太多新的想法。並且因為這套 recipe 具有較好的 scaling 和泛化能力,你為某個具體任務設計的全新方法可能只能帶來 5% 的提升,而下一代的 o 系列模型即使沒有專門針對這個任務訓練,也能帶來 30% 的提升。• 即使我們設計出了更難的 benchmark,它們也往往會很快(而且越來越快)被這套 recipe 攻克。我的同事 Jason Wei 做了一張精彩的圖,直觀地展示了這個趨勢。那 AI 下半場應該做什麼?如果新的訓練方法不再必要,更難的 benchmark 也會被越來越快地攻克,我們應該怎麼做?我認為我們需要從根本上重新思考“評估”(evaluation),這不僅意味著設計更新、更難的 benchmarks,而是要徹底質疑現有的評估方法,創造新的評估方法,這樣才能迫使我們發明超越現有有效的 recipe 的新方法。但這很難,因為人類有慣性,人類很少去質疑最基礎的假設——你只是理所當然地接受它們,卻沒意識到它們其實只是“假設(assumptions)”,而不是“定律(laws)”。用一個例子來說明這種慣性,假如你基於人類考試,發明出了一種史上最成功的 AI 評估方法之一。在 2021 年這也許是一個突破性的想法,但到了 3 年後,這一方法已被很多人使用,屬於非常常規的評估方法。那麼你接下來會做什麼?很可能是再設計一套更難的考試。再比如,你已經成功解決了基礎的程式設計任務,那麼你接下來會做什麼?很可能是尋找更難的程式設計任務,直到達到 IOI 金牌的水平。慣性是一種很自然的現象,但問題也正出在這裡。AI 已經在國際象棋和圍棋上戰勝了世界冠軍,在 SAT 和律師資格考試中超過了大多數人類,達到了 IOI 和 IMO 金牌的能力,但至少從經濟或 GDP 的角度看,世界並沒有發生太大變化。我將這個稱之為“效用問題(utility problem)”,我認為這是當下 AI 領域最重要的問題。也許我們很快就能解決“效用問題”,也許還不能。但無論結果如何,這個問題背後的根源可能非常簡單:我們的評估方法在很多基本假設上與現實世界的設定不同。舉兩個假設為例:• 假設 1:評估應該是自動運行通常一個 agent 會收到一個任務輸入,自動完成任務,最後得到一個任務獎勵。但現實中,agent 往往需要在整個任務過程中持續與人類互動,比如你不會給客服發一條長資訊,然後等十分鐘,期待對方給出一條詳細答覆來解決所有問題。當我們質疑這種評估假設時,就催生出了新的 benchmarks,要麼將真實人類引入互動環節(例如 Chatbot Arena),要麼引入使用者模擬(例如 tau-bench)。•假設 2:被評估的任務應該是獨立同分佈(i.i.d.)的如果你有一個包含 500 個任務的測試集,評估的時候,你會將每個任務獨立運行,最後對結果取平均,得出整體評分。但現實中,任務往往是順序進行的,而不是平行的。一位 Google 的軟體工程師在逐步熟悉 google3 倉庫後,會越來越高效地解決問題,但一個軟體工程 agent 在同一個倉庫中解決多個問題,卻無法獲得這種熟悉度。我們顯然需要 long-term memory 的方法(事實上已經有一些相關嘗試),但學術界缺乏能合理體現這種需求的正確 benchmarks,甚至缺乏質疑 i.i.d. 這個被視為機器學習基礎假設的勇氣。💡獨立同分佈:Independent and identically distributed,即 i.i.d.,是機器學習中一個重要的假設,它表明訓練資料和測試資料遵循相同的機率分佈。這個假設確保了在訓練集上訓練的模型能夠有效地在測試集上進行泛化,從而在未知資料上保持良好性能。這些假設一直以來就是默認存在的。在 AI 上半場,基於這些假設來設計 benchmarks 是合理的,因為在智能水平較低時,提高智能通常就能提升效用。現在在這些假設下,那套通用 recipe 已幾乎被保證奏效。那麼 AI 下半場這個新遊戲的玩法會是:• 我們需要開發麵向現實世界效用的全新評估設定或 task;• 我們需要用 recipe 來攻克這些評估設定或 task,或用新元件來增強 recipe,然後重複這個循環。這個遊戲很難,因為它充滿了未知,但也格外令人興奮。AI 上半場的玩家專注於攻克電子遊戲和標準化考試,AI 下半場的玩家則通過把智能轉化為有用的產品,打造出數十億甚至兆美元的公司。上半場充斥著各種不斷迭代的訓練方法和模型,而下半場在某種程度上對它們進行了篩選。通用 recipe 會輕鬆碾壓你的漸進式改進,你創造出能打破這套 recipe 的新假設。那時,你就能做出真正改變遊戲規則的研究。歡迎來到 AI 下半場!(機構調研記)