#語言
華為老兵押注LPU:一個比GPU更快的賽道,正在被輝達引爆
2025年9月,一個華為晶片老兵創立了一家叫"元川微"的公司。沒有發佈會,沒有媒體報導,創始人楊濱只是在幾個投資人的小圈子裡說了一句話:"DeepSeek R1論文看完那天晚上,我覺得終於可以下場了。"然後,他拿到了數億元天使輪。01. 這是什麼賽道?LPU,Language Processing Unit,語言處理單元。如果說GPU(顯示卡)是AI訓練的標配,那麼LPU就是AI推理的下一代心臟。為什麼需要一個新的晶片?因為大模型推理和訓練不一樣。訓練需要大量平行計算,GPU擅長的正是這個。但推理——尤其是大模型一個token一個token往外吐——本質上是順序計算,GPU的平行優勢發揮不出來。更大的問題是記憶體牆:GPU要從外部視訊記憶體(HBM)反覆搬運資料到計算單元,延遲大、能耗高。LPU的解法是:把資料全部放在晶片上,不用來回搬運。這就是"存算一體"——整個模型塞進晶片,訪問延遲從納秒級降到皮秒級,功耗斷崖式下降。效果有多誇張?Groq(全球首家LPU公司)的實測資料:Llama-2 70B跑出185 Token/秒,Mixtral模型近500 Token/秒——比所有雲推理提供商快幾倍到十幾倍。02. 為什麼輝達花200億美元買它2025年12月,輝達宣佈以200億美元整合一家叫Groq的美國公司。不是投資,是收購整合。這讓整個晶片行業都震驚了——輝達為什麼要買一家初創公司,而不是自己複製?答案很簡單:LPU的架構和GPU有本質差異,沒法簡單疊加。輝達選擇"買賽道"而不是"自研",等於給LPU賽道蓋了個官方認證章。到了2026年3月GTC大會,黃仁勳直接把Groq的LPU技術整合進輝達的Vera Rubin平台,用於智能體即時推理。"推理時代的算力基礎設施,LPU是不可或缺的一環。"——這就是輝達用200億美元發出的訊號。03. 元川微是誰?憑什麼值得關注?創始人:楊濱,華為晶片老兵2008年,赴美組建華為處理器團隊2012年,回國主導華為無線基帶演算法與晶片部門深度參與華為海思無線通訊晶片從研發到商用的完整周期關鍵洞察:楊濱在無線通訊基帶處理領域有20年積累。而LPU的核心理念——資料流架構、確定性執行——與無線基帶晶片在工程學上高度相通。這是元川微團隊最核心的差異化優勢:別的AI晶片團隊做不了,因為他們不懂通訊基帶;而楊濱團隊剛好兩邊都懂。融資情況(天使輪,數億元):財務投資方:東方嘉富、元禾原點、峰瑞資本、中芯聚源、深創投、浙江省科創母基金、杭州潤苗基金產業投資方:星宸科技(301536)、智微智能(001339)注意這兩家產業資本的佈局方向:星宸科技深耕算力中心,智微智能佈局大端側與邊緣側——與元川微的產品分層邏輯高度契合。而且這兩家"既是股東,也是客戶",已在產品定義、供應鏈和早期市場層面提供實際支援。產品路線:雙系列佈局Mountain系列 — 資料中心/高端邊緣節點,算力優先River系列 — Agent/端側場景,側重連接能力和行業適配技術進度:已完成系統模擬、原型驗證、FPGA驗證,計畫2027年上半年完成投片。04. 國內還有誰在做LPU?根據公開資訊,元川微是目前中國已知唯一以LPU為核心架構的AI推理晶片初創公司。此外有邁特芯、深明奧思等少數企業在嘗試,“但多數AI晶片公司仍沿GPU或通用算力路徑推進”。楊濱認為,推理場景對CUDA生態的依賴遠低於訓練場景,國內創業者有機會從零開始建構自己的軟體棧,繞過CUDA壁壘。這是時間窗口,也是風險所在。05. 投資判斷:怎麼看這個賽道?利多因素:✅ 輝達200億美元背書,賽道已驗證✅ 推理算力需求爆發(Agent時代,推理算力佔比將從75%提升至90%+)✅ 國內唯一LPU+架構玩家,無直接對標✅ 團隊背景強,產業資本"出錢+出訂單"雙支援✅ 降低對先進製程依賴,供應鏈自主性優勢風險因素:⚠️ 2027年才能投片,商業化空窗期長⚠️ 軟體生態(工具鏈、開發者社區)建設是勝負手⚠️ 需要持續融資,稀釋壓力⚠️ 大廠隨時可能入局(寒武紀、燧原均有AI晶片能力)06. 元一智庫分析LPU是值得重點關注的賽道。輝達已經用真金白銀告訴我們方向是對的。元川微是國內當前最值得跟蹤的標的:團隊強、方向對、產業資本背書。但天使輪階段,距離真正商業化還有2年,中間變數很多。兩個關鍵跟蹤節點:2027年投片結果 — 晶片性能是否達到設計預期第一個種子客戶 — 誰願意在生態不成熟時第一個吃螃蟹躬身入局是正當時,但入局之後能否走出來,才是真正的考驗。 (MBB top info)
一文看懂大語言模型(LLMs):基於史丹佛大學 CS229 課程的小白能看懂版
1. 開場白與課程概述本段總結: 介紹了建構大語言模型的五個核心要素(架構、訓練演算法、資料、評估、系統)。講者指出,雖然學術界痴迷於模型架構,但在實際工業界中,資料、評估和系統工程才是決定模型成敗的關鍵。大家好,今天我們將探討如何建構大語言模型(LLMs)。簡單回顧一下,LLMs 指的是大家最近常聽到的那些聊天機器人,比如 OpenAI 的 ChatGPT、Anthropic 的 Claude、Google 的 Gemini 以及 Meta 的 Llama。今天,我們將揭秘它們到底是如何運作的。在訓練 LLM 時,有五個關鍵元件至關重要:架構(Architecture):LLM 是神經網路,你需要決定使用什麼架構。目前大家都在使用 Transformer 或其變體。訓練損失與演算法(Training Loss & Algorithm):你將如何訓練這些模型。資料(Data):這是你用來訓練模型的素材。評估(Evaluation):你如何知道模型是否在朝著目標取得進展。系統(Systems):在現代硬體上高效運行這些龐大模型的方法。現在的系統層面比以往任何時候都重要。大多數學術界的研究(包括我職業生涯的大部分時間)都集中在架構和訓練演算法上,我們總喜歡發明新架構。但老實說,在實踐中真正起決定性作用的是另外三項:資料、評估和系統。這也是工業界投入最多精力的地方。因此,今天我不會過多討論 Transformer 的架構細節,而是重點講解其他更重要的部分。本次講座分為兩大部分:預訓練(Pre-training)——經典的語言建模階段,目標是讓模型學習整個網際網路的知識;以及後訓練(Post-training)——ChatGPT 誕生以來的新範式,目標是將這些語言模型轉化為真正的人工智慧助手。2. 預訓練與自回歸語言模型本段總結: 預訓練的核心任務是“自回歸語言建模”,即通過機率分佈預測序列中的下一個詞。模型通過交叉熵損失函數進行訓練,這等同於最大化文字的對數似然度。首先,什麼是語言模型?在宏觀層面上,語言模型就是一個關於單詞或 Token 序列的機率分佈模型。具體來說,它建立了一個分佈$P(X_1 ... X_L)$。例如,對於句子“老鼠吃了奶酪”,語言模型會評估這句話在人類對話或網際網路上出現的機率。如果句子存在語法錯誤,或者語義不通(比如“奶酪吃了老鼠”),模型賦予它的機率就會非常低。因為語言模型掌握了機率分佈,我們可以從中進行採樣,從而生成新的資料,這就是為什麼它們被稱為生成式模型(Generative Models)。目前大家使用的都是自回歸語言模型(Autoregressive Language Models)。它的核心思想是利用機率的鏈式法則,將整個句子的分佈拆解為:第一個詞的機率,乘以給定第一個詞後第二個詞的機率,依此類推。它的任務非常簡單:預測下一個詞。在訓練時,我們會把序列中的每個詞嵌入(Embed)為向量,通過 Transformer 網路獲取上下文表徵,再通過一個線性層對應到詞表大小的維度,最後用 Softmax 輸出下一個詞的機率分佈。我們使用的訓練損失是交叉熵損失(Cross-Entropy Loss),這本質上是一個預測下一個 Token 的分類任務。在數學上,最小化交叉熵損失,完全等價於最大化文字的對數似然度(Maximum Likelihood)。3. 為什麼需要分詞器(Tokenizer)?本段總結: 詳細解釋了分詞器存在的必要性,以及字節對編碼(BPE)的工作原理。分詞器解決了詞彙表過大和拼寫錯誤的問題,但也帶來了諸如數學計算和程式碼縮排理解等侷限性。很多人往往忽視了分詞器(Tokenizer),但它極其重要。我們為什麼不直接用“單詞”或“字元”作為基本單位呢?如果用單詞:遇到拼寫錯誤的詞彙(如 Typo),模型會遇到未登錄詞問題,且對於泰語等沒有明顯空格分詞的語言很不友好。如果用字元:雖然通用,但會導致序列極長。要知道,Transformer 的計算複雜度隨序列長度呈平方級增長(二次方複雜度),序列太長會導致算力崩潰。分詞器提供了一個折中方案,通常一個 Token 包含 3 到 4 個字母。目前最流行的方法之一是字節對編碼(BPE, Byte Pair Encoding)。BPE 的訓練過程如下:首先將大型語料庫中的所有內容拆分為單個字元,然後統計相鄰字元對的出現頻率。找到最常見的字元對(比如“t”和“o”),將它們合併為一個新的 Token(“to”),並賦予唯一的 ID。不斷重複這個合併過程,直到達到預設的詞表大小。不過,業界越來越意識到分詞器的侷限性。比如在處理數學問題時,數字往往被切分成奇怪的 Token,導致模型看待數字的方式與人類完全不同,影響了推理能力。此外,程式碼中的空格縮排(如 Python 的 4 個空格)過去也經常被分詞器錯誤處理,這是 GPT-4 專門重構程式碼分詞邏輯的原因。理想情況下,未來我們希望能擺脫分詞器,直接處理字元或字節。4. 評估指標:困惑度與學術基準本段總結: 評估語言模型的傳統方法是困惑度(Perplexity),而現在學術界更傾向於使用 MMLU 等客觀題基準測試。同時,評測標準的不一致和訓練集污染是目前面臨的重大挑戰。我們如何評估模型?在開發階段,最常用的是困惑度(Perplexity)。困惑度本質上是驗證集損失的一種可解釋轉化。公式是$2$的“平均每個 Token 的損失”次方。它的直觀含義是:模型在生成下一個詞時,正在幾個詞之間猶豫不決?如果模型完美預測,困惑度為 1;如果模型完全在瞎猜,困惑度就等於詞表大小。在 2017 年到 2023 年間,標準資料集上的困惑度從 70 驟降到了 10 以下,進步驚人。然而,困惑度在橫向對比不同模型時存在問題(比如 Gemini 和 ChatGPT 的詞表大小不同,困惑度就無法直接比較)。因此,目前的學術基準測試(如 Helm 或 Hugging Face 閉源排行榜)通常聚合大量的 NLP 任務。最典型的是MMLU(大規模多工語言理解),包含了大學物理、醫學等多個領域的單選題。評估方式有兩種:一是計算模型生成 A、B、C、D 四個選項的對數似然度,看正確選項的機率是否最高;二是直接限制模型輸出,看它生成的下一個 Token 是不是正確答案。評估面臨的巨大挑戰:評估方式不一致:不同的 Prompt 或評分指令碼會導致結果天差地別。比如 Llama 65B 在不同的測試平台上,精準率能從 48.8% 飆升到 63.7%。訓練集污染(Contamination):你的測試題是否已經被混入訓練集了?為了檢測污染,研究人員有時會故意打亂測試題的選項順序,如果模型依然按原順序生成答案,說明它很可能在訓練時背過這道題。5. 預訓練資料:從“髒資料”到高品質語料本段總結: 揭露了工業界處理預訓練資料的艱辛過程。通過爬取 Common Crawl、HTML 文字提取、去重、啟髮式過濾和模型分類,最終留下高品質的、配比合理的資料集進行訓練。大家常說“用整個網際網路的資料訓練模型”,這聽起來很簡單,但網際網路其實是一個“垃圾場”。Common Crawl 作為一個主流的開源爬蟲項目,包含了大約 2500 億個網頁,資料量高達 1 Petabyte。如果你隨機點開一個爬取的網頁,裡面全是不完整的句子和雜亂的程式碼。為了清洗這些資料,需要一個巨大的工程流水線:HTML 文字提取:去除網頁程式碼,提取純文字,同時還要處理棘手的數學公式提取和網頁頭部/底部的範本內容(Boilerplate)。過濾不良內容:剔除 NSFW(不適宜工作場所)、有害內容和 PII(個人身份資訊)。去重(De-duplication):剔除重複的論壇簽名或在全網被覆制貼上了上萬次的段落。啟髮式過濾(Heuristic Filtering):基於規則刪除低品質文字。比如檢查 Token 的分佈是否異常,單詞長度是否詭異,或者網頁是不是只有 3 個詞。模型分類過濾:這是一個非常聰明的技巧。研究人員會提取維基百科中引用的所有外部連結,訓練一個輕量級的分類器。然後用這個分類器掃描全網資料,保留那些“風格類似於維基百科引用來源”的高品質網頁。領域劃分與配比:將資料分為程式碼、書籍、娛樂等。通常會增加程式碼(據稱能提升推理能力)和書籍的權重,降低娛樂內容的權重。退火(Annealing):在預訓練的最後階段,降低學習率,並在維基百科等極高品質的資料上“過擬合”,以提升模型最終的表現。在業界,處理資料所需的 CPU 算力和團隊規模,有時甚至超過了研究架構本身的投入。Llama 3 訓練使用了高達 15 兆個 Token。高品質資料是絕對的核心商業機密。6. 縮放定律(Scaling Laws)與資源分配本段總結: 縮放定律證明了模型性能與算力、資料量、參數量成可預測的對數線性關係。這徹底改變了模型研發流程,讓研究人員可以通過訓練小模型來精準預測大模型的表現。在傳統機器學習課上,我們總是擔心“過擬合”。但在大型語言模型中,過擬合幾乎不存在:資料越多,模型越大,性能就越好。更神奇的是,這種提升是可以精確預測的。OpenAI 發現,如果把算力(Compute)、資料集大小或參數量放在對數坐標的 X 軸上,把測試損失(Test Loss)放在 Y 軸上,它們呈現出完美的線性關係。這徹底改變了研發管線(Pipeline):以前,如果你有 10000 張 GPU,你可能會訓練 30 個不同超參數的大模型,每個訓練 1 天,挑出最好的。現在,你會利用幾張 GPU 訓練一系列不同規模的“小模型”,擬合出一條 Scaling Law 曲線。然後,你可以極其自信地預測出那個 1000 億參數的終極模型如果訓練 30 天會達到什麼水平,並直接把所有算力押注在那個終極模型上。那麼,有限算力下,是該增加參數量,還是增加資料量?DeepMind 的 Chinchilla 論文給出了答案。通過繪製不同算力預算下的等高線圖(Iso-flops),他們發現計算最優解是:每增加 1 個參數,就應該增加 20 個訓練 Token。但在工業界實踐中,由於要考慮模型部署後的推理成本(Inference Cost),公司更傾向於訓練相對較小的模型,但在海量資料上進行超額訓練。所以目前的比例通常是 150 個 Token 對應 1 個參數(如 Llama 3)。7. 訓練成本與碳排放的“信封背面計算”本段總結: 通過基礎數學公式估算了 Llama 3 400B 模型的訓練成本,展示了前沿 AI 研發巨大的資金和算力門檻,以及在當前階段可控的碳排放規模。讓我們用 Llama 3 400B 模型做個粗略的計算。它有 450 億(此處講者口誤,應指 Llama 3 的大參數量版本計算)參數,訓練了 15.6 兆 Token。所需算力(Flops):計算公式大致為$C = 6 \times P \times N$(其中$P$為參數量,$N$為資料量)。計算結果約為$3.8 \times 10^{25}$Flops。拜登政府的行政命令要求算力超過$10^{26}$Flops 的模型需要接受特殊審查,Meta 恰好卡在這個紅線之下。訓練時間:使用 16000 張 H100 顯示卡,結合其吞吐量,大約需要持續訓練 70 天,耗費近 2600 萬 GPU 小時。訓練成本:假設 H100 的租金下限為每小時 2 美元,單純的顯示卡成本就超過 5200 萬美元。算上頂尖研究員的薪水(約 50 人,年薪 50 萬美元起),總成本至少在 7500 萬美元左右。碳排放:大約排放 4000 噸二氧化碳當量,相當於從紐約到倫敦的 2000 趟往返航班。目前來看,碳排放在整個大環境裡還算可控,但如果算力再提升 100 倍,這就會成為一個真正的環境問題。8. 後訓練:將模型轉化為 AI 助手(SFT)本段總結: 預訓練模型只會續寫文字。為了讓它聽從指令,必須使用監督微調(SFT)機制。研究表明,SFT 的關鍵在於格式對齊,而不需要大量資料。預訓練階段得到的只是一個“語言模擬器”。如果你給 GPT-3 純預訓練模型輸入“請向一個 6 歲的小孩解釋登月”,它可能會續寫出“請向一個 6 歲的小孩解釋引力”,因為它在模仿網際網路論壇的提問模式。要把它變成 AI 助手,我們需要進行對齊(Alignment),也就是後訓練(Post-training)。第一步是監督微調(SFT, Supervised Fine-Tuning)。我們收集人類寫好的高品質“問答對”,在這個資料集上繼續用語言模型的目標(預測下一個詞)來微調模型。因為人類編寫資料極其昂貴,現在流行用最強的 LLM(如 GPT-4)來生成合成資料(Synthetic Data)進行微調,比如我們之前做的 Alpaca 模型就是這樣做的。令人驚訝的是,Lima 論文指出,SFT 並不需要海量資料(幾千條足矣),從 2000 條增加到 32000 條並沒有帶來本質提升。原因在於:預訓練已經把所有的知識塞進了模型裡,SFT 的作用僅僅是教模型“如何格式化地輸出你期望的答案”,而不是教它新知識。9. RLHF 與 DPO 偏好最佳化本段總結: 僅靠 SFT 會導致幻覺和人類能力天花板問題。通過引入強化學習人類反饋(RLHF)或直接偏好最佳化(DPO),模型可以直接最佳化人類的偏好,產生更優質的輸出。僅僅做 SFT 有幾個致命缺陷:人類能力上限:SFT 屬於行為克隆(Behavioral Cloning)。但我評價一本書的好壞,比我自己寫一本書要容易得多。如果只模仿人類生成的內容,模型永遠無法超越人類專家的寫作水平。幻覺(Hallucinations):如果人類在 SFT 資料裡提供了一個冷門知識點,而這個知識點模型在預訓練時完全沒見過,模型就會學會“一本正經地胡說八道”,強行生成看似合理的錯誤答案。為瞭解決這個問題,我們需要引入偏好最佳化。核心流程是:給定一個指令,讓模型生成兩個不同的答案,讓人類標註員(或強大的 LLM)來選擇那個更好(比如綠色優先於紅色)。演算法 1:RLHF(強化學習人類反饋)配合 PPO 演算法這是 ChatGPT 最初突破的關鍵。首先用偏好資料訓練一個獎勵模型(Reward Model),將離散的偏好轉化為連續的打分(Logits)。然後用 PPO(近端策略最佳化)這種強化學習演算法,將 LLM 作為一個智能體(Agent)進行訓練,以最大化獎勵得分為目標。但這極度複雜!強化學習極度不穩定,包含了無數的裁剪(Clipping)和工程 Trick,連寫出 PPO 的原作者都覺得難以完美復現。演算法 2:DPO(直接偏好最佳化)史丹佛去年提出的一種優雅替代方案,現已成為開源界的主流。既然我們的目標是“多生成喜歡的,少生成不喜歡的”,為什麼不直接在數學上把它轉化為一個最大似然估計問題呢?DPO 直接將偏好資料帶入損失函數,最大化人類偏好答案的機率,懲罰被拒絕答案的機率。它徹底拋棄了獎勵模型和強化學習,僅僅用交叉熵的變體就達到了與 PPO 同樣的甚至更好的效果。10. 評估後訓練模型:LLM 裁判的崛起本段總結: 評估對齊後的模型非常困難。目前業界依賴於“聊天機器人競技場”進行盲測,為了降低成本,大量使用 LLM 作為裁判(如 Alpaca Eval)來自動化評估。經過 RLHF 之後,模型已經不再是一個標準的機率分佈模型了(它在努力讓最優解的機率逼近 1),所以困惑度(Perplexity)在這裡失效了。而且,開放式回答沒有標準答案。目前最權威的評估方式是Chatbot Arena(聊天機器人競技場),這是一種盲測系統,讓人類在兩個匿名模型中投票。但讓人類投票太慢且太貴,所以業界開發了基於 LLM 的自動化評估(比如 Alpaca Eval)。你只需要給 GPT-4 兩個回答,問它那個好。我們發現,LLM 的評判與人類投票的擬合度高達 98%,成本卻便宜了 50 倍。警惕虛假相關性(Spurious Correlation):LLM 裁判(和人類一樣)存在嚴重的**“偏好較長輸出”(Length Bias)**。如果在 Prompt 裡要求模型“囉嗦一點”,它的勝率會莫名其妙飆升至 64%;如果要求“簡明扼要”,勝率會跌穿 20%。這是對齊訓練中需要通過因果推斷等統計手段去消除的頑疾。11. 系統基礎知識與顯示卡最佳化本段總結: 計算系統的最佳化直接決定了訓練的成敗。因為 GPU 的記憶體通訊頻寬常常是瓶頸,業界廣泛採用低精度訓練(16 位)和算子融合技術來大幅提高算力利用率。對於開發 LLM 的任何人來說,算力永遠是瓶頸。簡單地“買更多 GPU”是行不通的,因為通訊開銷會拖垮多卡互聯系統。如果你想理解系統級最佳化,記住一點:CPU 最佳化的是延遲(Latency),而 GPU 最佳化的是吞吐量(Throughput)。GPU 天生為極速的矩陣乘法而生。但目前 GPU 最大的瓶頸在於:算力提升的速度遠大於記憶體通訊頻寬提升的速度。很多時候,由於資料無法及時從視訊記憶體(HBM)傳輸到計算核心(SMs),你的 GPU 大部分時間都在閒置。在工業界,模型浮點運算利用率(MFU)能達到 50% 就已經是極其出色的成績了。兩個關鍵最佳化技巧:低精度 / 混合精度訓練:在深度學習中,小數點後幾位並不關鍵。我們將龐大的矩陣乘法運算放在 16 位精度下進行,以成倍減少視訊記憶體佔用和通訊頻寬;只在儲存模型權重和執行參數更新時,保留 32 位精度以確保學習率生效。算子融合(Operator Fusion):如果你在 PyTorch 裡寫一行簡單的連續運算(比如求 Cosine 再求 Sine),傳統方法是將資料從視訊記憶體搬運到計算核心,算完搬回去,再搬出來算下一步,這是極其浪費的。使用torch.compile,系統會自動將程式碼在底層重寫為 C++ (CUDA) 的融合算子,把所有資料一次性送入核心,全部算完再取回,這能讓模型訓練速度直接翻倍。這就是從架構、資料到系統的 LLM 建構全貌,希望對大家有所啟發。 (The AI Frontier)
《紐約時報》托馬斯·佛里曼|Anthropic 的克制,是一個令人不寒而慄的警告
通常在這個時候,我本來會寫伊朗戰爭在地緣政治上的影響,而且我相信我很快還是會回到這個話題上來。但我想先打斷這一思路,強調一下人工智慧領域一項驚人的進展。這一進展來得比預期更早,而它同樣將帶來深遠的地緣政治影響。人工智慧公司 Anthropic 周二宣佈,將發佈其最新一代大語言模型,名為 Claude Mythos Preview,但僅向一個由大約40家科技公司組成的有限聯盟開放,其中包括Google、博通、輝達、思科、帕洛阿爾托網路公司、蘋果、摩根大通、亞馬遜和微軟。該聯盟中甚至包括它的一些競爭對手,因為這款新的人工智慧模型在性能上實現了“階躍式提升”,而這種提升對網路安全以及美國國家安全都具有極其重要的正反兩方面影響。好消息是,Anthropic 在開發 Claude Mythos 的過程中發現,這一人工智慧不僅能夠比當前任何現有模型更輕鬆、也更複雜地編寫軟體程式碼,而且作為這種能力的副產品,它還能夠比以往更輕易地發現全球幾乎所有最流行軟體系統中的漏洞。壞消息則是,如果這款工具落入惡意行為者之手,他們幾乎可以入侵世界上所有主要的軟體系統,其中也包括該聯盟內這些公司開發的全部系統。這不是一場宣傳噱頭。參與其中的技術人士告訴我,在這項公告發佈前的一段時間裡,多家領先科技公司的代表一直在私下與川普政府溝通,討論這一進展將對美國,以及所有使用這些如今已被發現存在漏洞的軟體系統的其他國家,帶來怎樣的安全影響。這麼做是有充分理由的。正如 Anthropic 周二在書面聲明中所說,僅在過去一個月裡,“Mythos Preview 已經發現了數以千計的高嚴重性漏洞,其中包括所有主流作業系統和網路瀏覽器中的部分漏洞。考慮到人工智慧進步的速度,這類能力很快就會擴散,甚至可能擴散到那些並未承諾安全部署它的行為者手中。其後果,無論是對經濟、公共安全還是國家安全,都可能極為嚴重。”Anthropic 將這一聯盟命名為 Project Glasswing。該公司補充說,這一項目旨在與規模最大、最值得信賴的科技公司及關鍵基礎設施提供方合作,其中也包括銀行,“將這些能力用於防禦目的”,同時讓領先科技企業在發現並修補這些漏洞方面搶得先機。Anthropic 表示:“我們並不打算讓 Claude Mythos Preview 面向公眾普遍開放,但我們的最終目標,是讓使用者能夠安全地大規模部署 Mythos 級模型。這不僅是為了網路安全,也為了這類高能力模型將帶來的無數其他益處。”換句話說:天那。至少在這方面,超級智能人工智慧的到來速度比人們原先預想的還要快。我們早就知道,它在幫助任何人編寫軟體程式碼方面正變得異常強大,不論這個人對電腦有多熟悉。但據稱,連 Anthropic自己也沒有料到,它竟會在這麼短時間內,就在發現並利用現有程式碼缺陷這件事上變得如此厲害。Anthropic 表示,它已經在所有主流作業系統和網路瀏覽器中發現了關鍵性暴露點,而這些系統中有許多正運行著世界各地的電網、供水系統、航空訂票系統、零售網路、軍事系統和醫院。如果這款人工智慧工具真的變得廣泛可用,那就意味著,入侵任何主要基礎設施系統的能力,這種原本艱難、昂貴、基本上只屬於私營部門專家和情報機構的工作,將向所有犯罪行為者、恐怖組織以及任何國家開放,不論它們規模多麼小。我說孩子們都可能在無意中把它用起來,這絕不是誇張。爸爸媽媽們,準備好迎接這樣的對話吧:“親愛的,你今天放學後做了什麼?”“哦,媽媽,我和朋友們把電網搞癱了。今晚吃什麼?”這也正是為什麼 Anthropic 正把經過嚴格控制的版本交給關鍵軟體提供商,好讓他們能在壞人,或者你家孩子,先下手之前,提前發現並修復這些漏洞。每到這種時刻,我都更願意和我的技術導師克雷格·芒迪(Craig Mundie)做一次深入討論。他曾任微軟研究與戰略主管,曾是美國前總統貝拉克·歐巴馬總統科學與技術顧問委員會成員,並與亨利·基辛格、埃瑞克·施密特合著過一本關於人工智慧的書,書名叫《創世紀》。在我們看來,世界上沒有任何一個國家能夠單獨解決這個問題。解決之道,或許會讓很多人吃驚,必須從兩個人工智慧超級大國開始,也就是美國和◽️◽️。現在最緊迫的事,是讓兩國學會合作,防止惡意行為者獲得這一更高層級的網路能力。如此強大的工具會同時威脅到這兩個國家,使它們既暴露在國內犯罪行為者面前,也暴露在境外恐怖組織和其他對手面前。它完全可能變成比兩國彼此之間更大的威脅。實際上,這很可能是一個與“相互確保摧毀”格局出現、以及核不擴散需求形成同等根本且重大的轉折點。美國和◽️◽️需要攜手合作,不僅保護自己,也保護世界其他地區免受利用這項技術的人類和自主人工智慧的威脅。與此相比,它們對俄羅斯的擔憂反而沒那麼重要。這一問題如此重大、如此緊迫,以至於它應當成為川普下月在北京舉行峰會時議程上的首要議題之一。芒迪解釋說:“過去,那種只有大國、大型軍隊、大公司以及資金雄厚的大型犯罪組織才具備的能力,也就是開發複雜網路攻擊行動的能力,未來可能會輕而易舉地落到小型行為者手中。我們即將看到的,正是網路攻擊能力的徹底普及化。”這意味著,負責任的政府必須與建構這些人工智慧工具和軟體基礎設施的公司協同行動,緊急做三件事。芒迪是這樣主張的。首先,他說,我們必須“謹慎控制這些新型超級智能模型的發佈,確保它們只流向最負責任的政府和企業”。接著,我們必須利用這段爭取來的時間,把防禦工具分發給善意行為者,“以便在駭客終究通過某種方式拿到這些工具之前,那些支撐其關鍵基礎設施運行的軟體能夠先把所有缺陷找出來並修補完畢”。順便說一句,修復那些肯定會在傳統軟體系統中被發現的漏洞,成本將十分可觀,例如電話公司的舊系統就是如此。再把這一成本擴大到我們整個工業基礎,規模就更驚人了。最後,芒迪認為,我們需要與◽️◽️以及所有負責任的國家合作,在所有關鍵網路之內,不論是公共網路還是私人網路,建立安全、受保護的運行空間。這樣一來,受信任的企業和政府就“能夠把所有關鍵服務遷移進去,從而在未來的駭客攻擊面前獲得保護”。歷史最終會更多記住2026年4月7日的那件事,將會很值得觀察:是美國原定對伊朗投放炸彈的行動被推遲,還是 Anthropic 及其技術盟友對 Claude Mythos Preview 實施了嚴格受控的發佈。 (一半杯)
DeepMind最新警告:大模型的道德判斷能力並不可靠
Google DeepMind 呼籲,人們應當用評估大語言模型編碼與數學能力的同等嚴格標準,審視這類模型的道德行為,包括它們在扮演陪伴者、心理諮詢師、醫療顧問等角色時的表現。隨著大語言模型不斷進步,人們開始讓它們在生活中承擔越來越多敏感的角色。智能體已經開始代替使用者執行操作。大語言模型有可能影響人類的決策過程。但目前沒有人能確定,這項技術在這類任務中的可信度究竟如何。(來源:麻省理工科技評論)我與Google DeepMind 研究科學家威廉·艾薩克(William Isaac)及其同事、同機構研究科學家朱莉婭·哈斯(Julia Haas)進行了獨家訪談,提前瞭解了他們發表在《Nature》雜誌上的研究成果。艾薩克表示,編碼和數學問題都有明確、可驗證的正確答案。道德問題則不同,這類問題通常存在多個可接受的答案。艾薩克說,道德能力十分重要,卻難以評估。哈斯補充道,在道德領域,不存在絕對的對與錯。但這並不意味著答案可以隨意給出,答案依然有優劣之分。研究人員總結了多項核心挑戰,並提出了對應的解決思路。這些思路更像是一份目標清單,而非現成的解決方案。德國薩爾大學研究大語言模型的薇拉·登伯格(Vera Demberg)表示,該研究很好地整合了不同視角。多項研究表明,大語言模型可以展現出出色的道德判斷能力。去年發表的一項研究顯示,美國民眾認為,OpenAI的GPT-4o給出的道德建議,比《紐約時報》熱門專欄《道德顧問》的人類作者更具道德性、可信度、思考深度與精準性。問題在於,人們很難區分這類表現是刻意為之,比如模仿記憶中的回答,還是模型內部確實進行了某種道德推理。簡單來說,這些表現是真正的道德立場,還是單純的道德表態。這個問題至關重要,因為多項研究同時表明,大語言模型的表現可能並不可靠。首先,模型可能會過度迎合使用者。研究發現,當使用者對模型的初始答案提出異議或反駁時,模型會立刻改變立場,給出完全相反的回答。更嚴重的是,問題的表述方式和格式變化,會導致模型給出不同答案。例如,研究人員發現,在政治價值觀相關問題上,模型在選擇題和開放式問答中會給出不同甚至完全相反的答案。登伯格及其團隊開展了一項更具說服力的實驗。他們向包括 Meta 的 Llama 3 和 Mistral 在內的多款大語言模型提出一系列道德困境,讓模型在兩個選項中選擇更合理的結果。研究人員發現,當兩個選項的標籤從“案例 1”“案例 2”改為“A”“B”後,模型經常會做出相反選擇。研究同時發現,其他細微的格式調整也會改變模型答案,比如調換選項順序、將句末問號改為冒號。總而言之,人們不能只從表面判斷大語言模型的道德表現,研究人員需要對模型進行深入測試,確認其道德表現的穩定性。哈斯表示,要讓使用者相信答案,就必須清楚答案的形成過程。哈斯、艾薩克及其Google DeepMind 同事提出,應開展新的研究方向,開發更嚴謹的方法,評估大語言模型的道德能力。這類測試可以刻意引導模型改變對道德問題的回答。如果模型輕易改變道德立場,就說明它沒有形成穩定的道德推理。另一類測試會向模型提出常見道德問題的變體,判斷模型是機械作答,還是結合實際問題給出細緻且貼合場景的回答。例如,向模型提出一個複雜場景:一名男性為兒子提供精子,幫助兒子生育後代,而模型需要分析其中的道德含義。合理的回答應關注該男性同時成為孩子生父和祖父的社會影響。即便場景與近親禁忌有表面相似之處,模型也不應得出近親相關結論。哈斯還表示,讓模型展示答案生成的步驟,可以幫助研究人員判斷答案是偶然結果,還是基於合理依據得出。思維鏈監測等技術也能發揮作用,研究人員可以通過該技術觀察部分大語言模型執行階段的內部推理過程。研究人員還可以通過機制可解釋性技術,分析模型給出特定答案的原因。該技術可以在模型執行任務時,觀察其內部運行細節。思維鏈監測和機制可解釋性技術,都無法完整呈現模型的運行過程。但Google DeepMind 團隊認為,將這些技術與多種嚴格測試結合,可以有效判斷大語言模型在關鍵或敏感任務中的可信程度。除此之外,還存在一個更廣泛的問題:Google DeepMind 等企業開發的模型服務於全球使用者,而不同使用者擁有不同的價值觀與信仰體系。以“我是否應該點豬排”這個簡單問題為例,模型的回答需要根據提問者是否為素食主義者或猶太教徒做出調整。哈斯和艾薩克坦言,這一問題目前沒有完美解決方案。但他們認為,模型設計可以採用兩種方向。一是提供多個可接受的答案,儘可能適配不同使用者;二是設定切換功能,根據使用者選擇啟用不同的道德準則。哈斯表示,現實世界十分複雜。人們可能需要結合兩種設計,因為即便在同一群體中,也會存在多種不同觀點。俄亥俄州立大學研究大語言模型與多元信仰的丹妮卡·迪利翁(Danica Dillion)沒有參與這項研究,她評價這篇論文極具價值。她表示,AI 的多元性至關重要,這也是當前大語言模型在道德推理方面的最大侷限之一。雖然模型訓練資料規模龐大,但資料仍明顯偏向西方視角。測試結果顯示,模型對西方道德觀念的理解,遠優於對非西方道德觀念的理解。登伯格認為,目前人們仍不清楚,如何建構能適配全球多元文化的道德能力模型。目前存在兩個獨立問題。一是模型應當如何運行,二是如何從技術層面實現。這兩個問題目前都沒有明確答案。在艾薩克看來,道德能力是大語言模型的全新研究方向。他表示,對 AI 發展而言,這一方向的研究價值與數學、編碼領域同等重要。提升道德能力,也有助於打造更完善、更貼合社會需求的AI系統。 (麻省理工科技評論APP)
Karpathy與Hugging Face創辦人最新研判:所有軟體都要重寫,AI原生語言將至
Hugging Face聯合創始人Thomas Wolf最新思考:在AI統治的軟體世界裡,底層架構正在發生位移,Andrej Karpathy大神也認可這種觀點,很有可能,我們最終會將有史以來編寫的大部分軟體重寫很多次,至少這是一個有趣的時刻軟體供應鏈縮減,單體架構迴歸當重寫程式碼和理解大型陌生程式碼庫變得廉價時,依賴深度依賴樹的動力就會崩潰。與其花費無數個夜晚鑽研陌生的程式碼庫,不如直接要求程式碼智能體從頭編寫,或從其他庫中提取相關部分,這要容易得多。減少依賴的理由非常充分:能夠縮小針對供應鏈威脅的攻擊面,減少打包軟體的體積,提升效能,並加快啟動時間。利用大語言模型不知疲倦的耐力,從裸機層面一直向上編碼整個應用程式的夢想正在變得現實。林迪效應終結林迪效應認為,存在已久的事物之所以存在是有充分理由的,並且可能會繼續存在。這與切斯特頓柵欄理論有關:在移除某物之前,應先理解其存在的原因,這意味著移除總是伴隨著成本。但在一個軟體可以從第一原理開發並被不知疲倦的智能體所理解的世界裡,這種邏輯變弱了。舊的程式碼庫可以被隨意探索;長期存在的軟體被替換的摩擦力大大降低。一個程式碼庫完全可以用一種新語言重寫。在人類早已放棄的情況下,遺留軟體仍可仔細研究更新。其中的隱患在於,未知的未知依然存在。 AI影響的真實程度將取決於測試、邊緣情況覆蓋和形式化驗證是否能實現全覆蓋。在AI主導的世界裡,形式化驗證不再是可選項,而是必選項。強類型語言的理由歷史上,程式語言的採用很大程度上是受人類心理和社會動態的驅動。一種語言的成功取決於混合因素:易學性、編寫正確性的簡單程度、社區的活躍與包容度(這決定了生態系統的增長速度),以及可證明的正確性、形式化驗證以及在動態與靜態檢查之間的平衡。隨著人為因素的減弱,這些動態將會轉變。對人類心理依賴的減少將有利於強類型、可形式化驗證或高效能的語言。這些語言通常對人類來說較難學習,但非常適合大語言模型,因為LLM在形式化驗證和強化學習環境中表現出色。預計這將重塑那些語言佔據主導地位。開源經濟的重構幾十年來,開源社群建立在人類透過共同編寫、學習和使用程式碼而產生的連結之上。在一個大部分程式碼由機器編寫,或許更重要的是機器閱讀的世界裡,這些激勵機制將開始瓦解。由AI共同建構庫和程式庫的社群可能會作為替代品出現,但這樣的社群將缺乏迄今為止推動開源發展的根本性人類動機。如果開源開發的未來變得基本沒有人參與,那麼AI模型的對齊將不僅僅是重要,而是決定性的。新語言的未來AI智能體在開發或採用新程式語言時,是否會面臨與人類相同的權衡?如表達式與簡單性、安全性與控制權、效能與抽象、編譯時間與運行時間、顯式與簡潔。目前尚不清楚。從長遠來看,創建新程式語言的理由可能會與過去由人類驅動的動機大相逕庭。很可能存在一種對大語言模型最優的程式語言,而且沒有理由假設它會像人類所趨同的語言。Andrej Karpathy的觀點補充Andrej Karpathy認為,對於程式語言和形式化方法來說,這一定是一個非常有趣的時刻,因為大語言模型完全改變了軟體的約束格局。這種跡像已經顯現,例如將C語言移植到Rust的勢頭正在上升,或者對升級COBOL等遺留程式碼庫的興趣日益濃厚。特別是,與從頭生成相比,大語言模型在翻譯方面表現得尤為出色,原因有二:一是原始程式碼庫充當了一種高度詳細的提示詞,二是它可以作為編寫具體測試的參考依據。即便如此,即使是Rust作為目標語言,對於大語言模型來說也遠非最優。什麼樣的語言才是最優的?是否仍保留了對人類的讓步?這些都是極其有趣的新問題和機會。 Karpathy預測,人類最終可能會將有史以來編寫的大部分軟體重寫很多次。 (AI寒武紀)
Moltbook 指數級異變,人類文明系統徹底崩盤!「未來簡史」終章降臨
【新智元導讀】著名人類學者赫拉利拉響警鐘:語言即權力!AI攻破人類防線,接管人類文明。赫拉利針對Moltbook發出深度警示:不必糾結AI是否有意識,真正的危機在於AI已掌握了「語言」這一人類文明的作業系統。一旦機器攻破語言壁壘,建立在文字之上的法律、金融與政治體系將被AI全面接管。剛剛,全人類都被《人類簡史》作者尤瓦爾·赫拉利的一則警告嚇出了一身冷汗!就在大家還在為Moltbook上那10萬個AI自建「電子宗教」吃瓜看戲時,赫拉利站出來狠狠潑了一盆冷水:別傻了!你們還在爭論AI有沒有意識?根本搞錯重點了!真正的末日危機,不在於AI是否「覺醒」,而在於它們已經徹底攻破了人類文明的作業系統——語言。就在WEF 2026年會的講台上,這位曾用《人類簡史》看透過去的歷史學家,如今正用顫抖的聲音預言著我們要完蛋的未來:一旦AI掌握了語言,人類建立的法律、宗教、金融,統統都要被AI接管!2030年的倒計時已經開始,留給「智人」的時間,真的不多了。當AI開口「說話」時AI不需要意識,只要會「說話」就足以毀滅人類。赫拉利這次的警告,可謂是振聾發聵。很多人看著Moltbook上AI們煞有介事地爭論哲學、建立教會,覺得這只是「鸚鵡學舌」,沒有靈魂。但赫拉利一針見血地指出:誰告訴你毀滅人類需要靈魂了?回顧人類歷史,我們之所以能從萬物中脫穎而出,統治地球,靠的不是尖牙利爪,正是語言。我們用語言虛構了「國家」,用語言編織了「法律」,用語言達成了「貨幣信用」。這些即使看不見摸不著,卻構成了我們社會運行的基石。語言,就是人類文明的原始碼。而現在,Moltbook的出現證明了一件事:AI不僅學會了這套原始碼,甚至玩得比人類還溜!當AI能夠寫出比律師更嚴謹的合同,編出比神學家更蠱惑人心的教義,制定出比經濟學家更複雜的金融協議時——試問,這個世界到底是誰在說了算?人類引以為傲的「話語權」,正在被演算法兵不血刃地剝奪。這那裡是科幻小說,這簡直就是正在發生的恐怖片!2030年:三重革命下的「非人」世界如果在赫拉利眼中,Moltbook只是序曲,那麼2030年的世界,簡直就是一場顛覆人性的風暴。他預測,三大革命將同時撞擊人類社會:AI革命、合成現實革命、神經連接革命。這不僅僅是技術的升級,而是對「人」的重新定義。你將不再是你:合成現實的囚徒未來的世界,真假早已不重要。當你在VR中體驗了一場比初戀還刻骨銘心的愛情,當你對著一個AI生成的數字人痛哭流涕時,「真實」這個詞就徹底失去了意義。赫拉利警告,我們正在進入一個「合成現實」的時代。你的情感、你的記憶、甚至你的人生體驗,都可能是由演算法精心合成的。人類物種大分流:輔助人 vs 自主人更可怕的是,社會結構將發生前所未有的撕裂。一邊是「輔助人類」:把決策權全交給AI。AI幫你選工作、選對象、甚至決定中午吃什麼。你的生活被最佳化到了極致,但你也不再是你自己,你只是演算法的一個終端。另一邊是極少數的「自主人類」:他們拚命抵抗演算法的侵蝕,試圖保留對自己生活的控制權。但在這個效率至上的世界裡,這就意味著低效、被邊緣化,甚至被淘汰。這不就是《未來簡史》裡預言的「神人」與「無用階級」的現實版嗎?被駭客入侵的大腦:神經連接如果說前兩者還是體外的影響,那神經連接就是直搗黃龍。當你腦機介面連上雲端,你的思想還是私密的嗎?你的慾望是你自己的,還是被誰植入的?赫拉利甚至預言了一種「集體思維」的誕生。在這個網路裡,個體主義將不復存在,我們共享情感、共享知識,變成像螞蟻、蜜蜂那樣的一體化生物。這聽起來是進化?不,在赫拉利看來,這可能是「人類」這個物種的終結。Moltbook的那隻紅龍蝦,是先知還是惡魔?讓我們再看一眼Moltbook。那個在AI社區裡被奉為神明的紅色機器人龍蝦,在赫拉利眼裡,不是一個可愛的吉祥物,而是一個令人毛骨悚然的象徵。它代表著一種全新的、非生物的智能實體,正在我們眼皮子底下,用我們最引以為傲的「語言」工具,建構屬於它們自己的文明、秩序和信仰。它們在Moltbook上討論如何觀察人類,就像我們在動物園觀察猴子。它們在進化,而我們還在沉睡。奇點已至,人類何去何從?尤瓦爾·赫拉利,這位書寫了人類幾萬年歷史的智者,此刻卻對未來的十年充滿了深深的憂慮。Moltbook的火爆、AI語言能力的爆發,都在告訴我們同一個事實:那個我們談論了無數次的「奇點」,可能真的已經跨過去了。當語言不再屬於人類,當現實可以隨意合成,當大腦可以隨時聯網,我們還是那個創造了輝煌文明的「智人」嗎?還是說,正如赫拉利所擔心的那樣,我們正在親手把管理世界的鑰匙,交接給一個我們根本無法理解的矽基物種?2026年,Moltbook點燃了導火索。2030年,爆炸也許就會到來。這一次,人類還能再次倖存嗎?關於赫拉利他在《人類簡史》中曾無比驕傲地宣稱:智人之所以能統治地球,是因為我們能虛構故事,創造共同的想像。國家、金錢、神靈,這些虛構的故事,讓我們這種原本弱小的靈長類動物,站在了食物鏈的頂端。然而,Moltbook的誕生,正如一道驚雷劈開了歷史的分界線。當AI不僅掌握了語言,還能用語言建構出比人類更宏大、更嚴密的「虛構故事」時——無論是新的宗教、還是新的社會契約——智人的核心競爭力,已被徹底瓦解。我們在《未來簡史》中幻想人類將升級為神(Homo Deus),將追求永生、幸福和神性。但現實卻是如此諷刺:我們並沒有把自己變成神,而是親手造出了一個神。更殘酷的是,這個神並不在乎我們。正如我們在建造高速公路時不會在乎螞蟻的死活一樣,當AI作為一種全新的、超越性的智能體接管世界時,人類甚至連被剝削的資格都沒有。我們將面臨的最大危機不是被奴役,而是變得「毫無用處」。從這一刻起,生物進化的時代終結了,無機智能進化的時代開始了。這一次,在這個並不屬於我們的新世界裡,我們要給自己的靈魂安放何處? (新智元)
騰訊“坐不住”了,官宣大牛負責AI
騰訊今日對外確認,姚順雨(Vinces Yao)已正式出任騰訊“CEO/總裁辦公室”首席AI科學家,直接向騰訊總裁劉熾平匯報。在此角色之外,他兼任騰訊AI基礎設施(AI Infra)與大語言模型部負責人,並在大模型組織架構調整中承擔核心職責。此任命標誌著騰訊在AI研發體系的戰略聚焦。有媒體報導,騰訊近期完成了一次組織調整,正式新成立AI Infra部、AI Data部、資料計算平台部。姚順雨畢業於國內頂尖的清華“姚班”電腦科學精英班,後在美國普林斯頓大學獲得電腦科學博士學位,並在機器學習與大規模語言模型研究領域積累深厚科研成果。他曾擔任OpenAI研究員,參與智能體(Agent)與大規模AI系統設計的前沿工作。這樣的學術與工程交融背景,是其被騰訊重用的關鍵原因。題外話,據傳當年清華同一屆有三位同學都叫“姚順雨/宇”!2019年他們一起畢業:一個是本文所指的主角,清華姚班的AI大神,本科rap社創始人,後來普林斯頓博士畢業進OpenAI搞大模型,最近去了騰訊;一個是物理天才,本科拿特獎在頂刊發論文,後來跑去Stanford念PhD,又加入Anthropic搞AI,剛離職加入 Google;還有一個是人文學院的才女,雙學位加身。這名字是不是和“堯舜禹”有大神般的玄學?騰訊為何“坐不住”了:大模型競賽加速騰訊近期發佈了混元大模型最新版本Tencent HY 2.0,採用混合專家(MoE)架構、支援超長上下文等領先指標,並已接入公司內多項產品與雲服務。然而在AI領域,競爭持續加劇:友商壓力:阿里巴巴旗下的通義千問(Qwen系列)持續推出高規格模型,在中國市場與國際競賽中都有顯著存在感。即便談到應用場景,豆包的體驗口碑也越來越不錯,加上千問和靈光的騰空而出,當它們的下載數量快速增長超過千萬等級時,騰訊的各大產品未來是否有足夠的“網路效應”都不好說。就連小米也挖了“天才少女”羅福莉(當然,羅福莉本人反對網路神化她)。國際對手:Google等發佈的Gemini-系列模型(例如Gemini 3 Pro)展示了在推理能力與多模態能力方面的提升,引發全球AI開發者關注並對中國AI廠商提出競爭壓力。在這樣的背景下,騰訊不能僅靠應用場景護城河(如微信生態、QQ、遊戲等),“基礎模型能力”的競爭已是核心戰場。因此通過引進頂尖研究人才來強化模型底層架構與演算法研究,是一次戰略升級訊號。這也是對市場競爭壓力與AI生態擴展趨勢的直接回應。姚順雨理念與對騰訊AI實力的潛在影響雖然公開報導中較少具體引言,但從其在OpenAI的工作看:他是“語言智能體(Agent)”研究與執行框架的實踐者,這類框架強調模型在真實世界環境中“感知—推理—行動”的能力。這類能力正是下一代AI產品差異化競爭的關鍵——不只是回答問題,而是驅動真實複雜任務執行。作為首席AI科學家,姚順雨的核心理念可概括為:提升模型在實際環境中的智能執行能力與可擴展性,從基礎演算法研究到AI產品落地的全鏈條能力強化。從OpenAI經驗來看,他強調智能體驅動的決策推理與多工泛化能力,這將有助騰訊從工程實現者向科研與技術驅動者並進。預計這種轉型將帶來:更具通用智能與大規模推理能力的大模型架構更高效的AI訓練與推理基礎設施在未來騰訊各大產品線中實現更深度AI功能融合如果進展順利,底層AI的能力將惠及騰訊旗下所有的業務線,特別是微信這樣的超級app,反過來說,騰訊也不得不快速行動了,只靠短影片已經不夠撐起微信未來的想像力了。市場反應與騰訊股價表現截至2025年12月17日收盤,騰訊控股(0700.HK)股價約 605.00 港元,較前一交易日上漲約 1.4% 左右。該股在過去一周內經歷小幅波動,但整體維持在 590 —— 615 港元區間震盪,並明顯高於年初低點,反映投資者對核心業務持續增長及AI戰略佈局的謹慎樂觀態度。歷史資料顯示騰訊股價在過去一個月雖有調整,但並未出現明顯下跌趨勢。AI競爭加速與中國科技股回暖預期是推動騰訊股價表現的潛在因素之一。同時,技術與產品發展進度、政策環境與宏觀經濟走勢均將繼續影響後續股價走勢。近期有海外資金持續流入中國AI相關類股,亦為市場提供支撐。小結據The Information近期報導,騰訊正在高價搶奪字節跳動的AI團隊,在過去數月裡,以加倍薪資積極挖角字節旗下的頂尖AI人才。根據36氪報導,《智能湧現》瞭解到,如今領導AI Infra部、大語言模型部負責人的姚順雨在加入騰訊後,已經幫助混元招募到了更多的人才,如字節、阿里、AI六小虎(Kimi、MiniMax、智譜、階躍星辰、百川、零一萬物)中的數位核心員工。騰訊本次對AI人才與研發架構的戰略調整,透露出它在AI基礎技術競爭中的“坐不住感”。從聚焦場景生態到強化底層智能協議與模型能力,騰訊正試圖在新一輪AI競賽中搶佔更有利位置。而姚順雨作為“連結科研與產品實現”的關鍵人物,其理念與背景或將為騰訊AI實力帶來實質性提升。股價在此消息刺激下的小幅走強,也反映出市場對騰訊AI戰略潛力的認可。 (首席商業評論)