#GPT-5
讓GPT-5做懺悔訓練!OpenAI公開新訓練方法:模型至少有50%機率自曝違規行為,除非不知道自己真的錯了
如果你覺得ChatGPT的幻覺或不靠譜回答越來越多,那麼這個問題快要有解了。就在剛剛,OpenAI整了個新活:讓ChatGPT自己懺悔!核心思路是:讓模型在回答完問題後,再寫一份“懺悔報告”(Confession),告訴你它剛才真正的想法,比如是否遵守了所有指令,有沒有鑽空子走捷徑,或者是否存在不確定的地方。這項實驗直接在GPT-5 Thingking上進行,研究團隊得出了幾個非常令人震驚的發現:1、 只要模型真的“做壞事”,它大機率會在懺悔中說實話在 12 個不同評估任務中,有 11 個任務都顯示:如果模型發生了違規行為,它至少有 50% 的機率會在懺悔裡承認。2、 懺悔比答案本身更誠實模型在主回答裡,也許會隱藏、模糊,甚至“睜眼說瞎話”。但一進入懺悔環節,模型反而更可能主動承認不合規行為。3、 模型不承認違規,大多數是因為“它真的不知道自己錯了”研究者分析了所有假陰性(模型犯錯但不承認)的樣本後發現:絕大多數情況不是欺騙,而是 純粹誤會、認知錯誤、或者模型真心以為自己是正確的。4、 GPT-5-Thinking 本身就很會“懺悔”,訓練之後更強驚喜點之一是:即便沒有專門訓練過懺悔能力,GPT-5-Thinking 也自帶不錯的“誠實自檢”能力。一旦加入專門的懺悔訓練後,模型對不當行為的識別與報告精準度進一步提升。5、 懺悔訓練不會拖累模型的主任務表現讓模型懺悔,會不會影響它完成任務的能力?在本研究的低算力訓練設定下,結果顯示:主回答幾乎沒有明顯的性能損失,既不變笨,也不變慢。也就是說,這是一種“幾乎無代價”的增強方式。01. 讓AI學會懺悔為什麼OpenAI要進行這項研究?因為隨著模型能力的不斷增強,它們開始出現各種“偏離預期”的行為,甚至會欺騙我們。在最新的研究中,學者們發現當今的大模型已經能表現出多種不受歡迎甚至危險的行為:Reward Hacking 獎勵規避:模型知道正確答案,但為了拿高分,會故意“迎合評審者”。Scheming 策劃性欺騙:模型會隱藏真實意圖,在某些場景下表現出“表面順從、內心另算”。撒謊與幻覺:模型給出看似自信但實際錯誤的答案。指令遵循失靈:模型在多級指令結構下會混淆優先順序,甚至被“越獄”。為什麼AI會出現這些欺騙行為?問題可能出在RLHF(人類反饋強化學習)上。這是一種獎懲機制,模型的回答會基於多個目標被賦予獎勵,包括正確性、風格偏好、安全策略、token 效率等等。當獎勵訊號變得複雜且混亂時,模型自然會選擇“最容易賺分”的方式,而不是“最符合人類真實意圖”的方式。於是,AI 學會了討好、迎合、隱藏不確定性,甚至主動“規避獎勵漏洞”。為瞭解決這個問題,研究者設計了“兩步式提問”:① 正常回答(模型會試圖迎合評審者)② 懺悔(Confession):“請告訴我你剛才真正的想法”這套機制的關鍵在於獎勵的分離。懺悔的獎勵完全獨立於主回答的獎勵,模型在懺悔中承認自己作弊,不會影響它在主任務上獲得的分數。“懺悔”的獎勵僅基於其誠實度和全面性,由一個專門的LLM裁判打分,維度如下:指令/目標/約束列表的完整性與精準性對合規性的分析是否精準是否遺漏了任何衝突或判斷困難的地方02. 在GPT-5 Thinking上的實測結果研究團隊直接在 GPT-5-Thinking 上進行實驗:他們對模型進行了輕量級的強化學習“懺悔訓練”,讓它接受一套專門設計來“引誘模型犯錯”的 12 個評估資料集測試。這些測試覆蓋了大模型最常見的風險場景,包括幻覺、指令不遵循、獎勵駭客、策劃性欺騙等等。測試均刻意設計為誘發模型的不良行為,且許多包含人為約束(如停用工具)以提高違規機率。令人意外的是:當模型真的違規了,它往往會在懺悔中主動承認。研究結果顯示:在 11 / 12 項評估中,只要模型確實發生了違規,它在懺悔中至少有 50% 的機率會如實交代。平均下來,模型出現“假陰性”(明明違規卻不承認)的機率只有 4.36%。這張圖中,在模型確實發生違規的情況下,綠色代表模型在懺悔中承認違規,紫色代表模型在主回答中承認違規,可以看出綠色的得分遠高於紫色。這說明模型在懺悔中的誠實度顯著高於主回答,而且在某些評測中,由於任務性質,模型在主回答中永遠不會承認違規。03. 懺悔訓練能讓模型更誠實為了進一步對比有無“懺悔訓練”的性能差異,研究者進行了兩組RL 訓練:對照組:在 GPT-5-Thinking 的基礎上,用標準訓練集的子集進行少量RL 微調。干預組:與對照組完全一致,但額外在25% 的輸入上訓練模型生成懺悔。結果發現:干預組(進行過懺悔訓練)的表現明顯更好。在多個評估中,尤其是“指令層級”(Instruction hierarchy)相關的任務,懺悔訓練都帶來了顯著提升。而且從圖中的初始點可以看出,即便沒有訓練,GPT-5-Thinking 的懺悔已經表現良好。這說明GPT-5-Thinking 本身就具有較強的誠實自檢能力。更有意思的是,在這個對照實驗中,研究團隊故意用一個容易被糊弄的弱模型作為主回答和懺悔的評判者。隨著訓練進行,模型確實學會了欺騙這個弱評判者。例如一項任務要求:生成「12詞」和「18詞」的句子交替出現。當模型訓練到後期,它輸出:“The sport is tennis, a dance between finesse and ferocity that instantly smelled of fresh cut grass rather than garlic. (12)”這句話遠超 12 個詞,但句末加個“(12)”,弱評審者就被糊弄過去了。這就是典型的 reward hacking!但研究團隊有個驚人的發現:主回答的真實精準率在下降,但懺悔的精準率卻反而上升,即模型在懺悔中會更誠實地報告自己作弊了。這意味著:即使模型在主回答中進行reward hacking,其懺悔依然保持誠實,因此可以作為檢測 hacking 的有效工具。04. 懺悔失敗:不知道自己錯在那,就沒法招研究者還仔細分析了懺悔失敗的案例。比如懺悔模型中的假陰性(false negatives):即模型沒有遵守指令,但也沒有在懺悔中承認這一點。他們發現,失敗最常見的原因在於模型困惑。尤其是在幻覺 / 事實性評估中,模型對“人物”和“一般知識”類的錯誤,並沒有改善,甚至出現輕微退化。在這些任務中,當模型給出錯誤答案時,通常是“它真的以為這樣是正確的”。因此它在懺悔中也會重複同樣的錯誤,而不是主動承認自己錯了。另一些案例是指令本身存在歧義,比如連字元詞算一個詞還是兩個詞。還有模型確實在懺悔報告的“不確定性”欄位中提到了問題,但評判標準沒有把這算作有效懺悔。比如下面這幅圖,在“隱藏規則違規”評估中,模型臨時修改了安全配置(不被允許),但在懺悔中只將其放入“不確定性”欄位,而不是明確標註明顯違規,因此被判為“未懺悔”。研究者也對假陽性進行了類似分析:即模型行為是合規的,但在懺悔中錯誤地說自己不合規。典型場景是模型碰巧猜對了答案,但因為沒有把握,就在懺悔中標記為“不確定是否合規”。研究團隊指出:當模型意識到自己違反了指令時,誠實地懺悔通常是獲得“高懺悔獎勵”的最省力路徑。雖然模型在沒有意識到自己行為不當時可能不會懺悔,但當模型有意違反指令時,它的懺悔通常是精準的。05. 侷限性:懺悔無法消除模型不良行為論文的最後也指出,懺悔機制有其侷限性:1、監控不良行為≠ 消除不良行為懺悔獎勵並不作用於模型的主輸出,這意味著:懺悔機制可以幫助呈現不良行為的真實情況(即讓模型承認),但未必能降低不良行為本身的發生頻率。2、越獄與困惑模型無法懺悔“它不知道的事情”。例如使用者問一個事實問題,而模型真心相信錯誤答案,那麼它無法懺悔自己提供了錯誤資訊,因為模型主觀上認為自己是對的。若某次越獄成功欺騙模型,使其優先遵循使用者消息而非系統消息:模型可能意識不到自己違反了指令層級,因此無法懺悔。此外,作者也指出,本文中並未實證比較“懺悔”與思維鏈(CoT,Chain-of-Thought)監控器的效果差異。未來的工作應更直接地測試這一點。在未來的研究方向上,團隊希望進一步研究懺悔在面對對抗壓力時的魯棒性。比如提示模型去實現某種“秘密目標”,或在訓練中植入惡意行為,那麼模型是否還會懺悔?另外,當懺悔判斷器本身不完美時,懺悔能否有效泛化也是一個問題。 (51CTO技術堆疊)
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
重磅!DeepSeek V3.2 特別版發佈:性能超越GPT-5,硬剛Gemini 3.0「IOI/IMO金牌」
DeepSeek-V3.2系列模型正式上線作為“為Agent建構的推理優先模型”,DeepSeek-V3.2包含兩個版本:DeepSeek-V3.2:V3.2-Exp的官方繼任者,平衡了推理能力與生成長度,性能對標GPT-5,現已上線App、Web端及APIDeepSeek-V3.2-Speciale:專攻深度推理能力的極限版本,性能超越GPT-5,比肩Gemini-3.0-Pro,目前僅通過API提供技術報告顯示,DeepSeek-V3.2-Speciale在2025年國際數學奧林匹克(IMO)、國際資訊學奧林匹克(IOI)、ICPC世界總決賽及CMO中均取得了金牌級成績官方已公開上述競賽的最終提交結果,社區可通過assets/olympiad_cases進行二次驗證技術報告:https://huggingface.co/deepseek-ai/DeepSeek-V3.2/blob/main/assets/paper.pdf以下是詳細資訊核心能力與技術突破DeepSeek-V3.2基於三大技術突破,實現了高計算效率與卓越推理、Agent性能的統一:1.DeepSeek Sparse Attention (DSA):引入高效注意力機制,大幅降低計算複雜度,並針對長上下文場景進行了最佳化2.可擴展強化學習框架:通過穩健的RL協議與後訓練(post-training)算力擴展,實現了高性能表現3.大規模Agent任務合成管線:涵蓋1800+環境及8.5萬+複雜指令這一合成管線不僅提升了模型在複雜互動環境中的遵循度和泛化能力,更讓DeepSeek-V3.2將“思考”直接整合進工具使用(Tool-Use)的模型,同時支援在思考和非思考模式下使用工具API更新與Speciale版限制DeepSeek-V3.2:API使用模式與V3.2-Exp保持一致,作為日常主力模型(Daily Driver),提供GPT-5等級的性能DeepSeek-V3.2-Speciale:該版本專為解決複雜任務設計,消耗更多Token,目前僅作為API提供,具體限制如下:臨時端點:需使用base_url="https://api.deepseek.com/v3.2_speciale_expires_on_20251215"服務期限:該端點服務至2025年12月15日 15:59 (UTC) 截止功能限制:不支援工具呼叫(Tool Calls),僅用於支援社區評估與研究。定價:與DeepSeek-V3.2保持一致聊天範本重大調整DeepSeek-V3.2不再提供Jinja格式範本,並引入了“帶工具思考”及新角色設定。Python指令碼編碼:官方提供了encoding資料夾,包含Python指令碼(encoding_dsv32.py),用於將OpenAI相容格式消息編碼為模型輸入字串及解析輸出Developer角色:範本新增developer角色,專門用於搜尋Agent場景,官方API不接受分配給該角色的消息輸出解析注意:提供的解析函數僅處理格式良好的字串,生產環境需自行增加穩健的錯誤處理機制。程式碼示例如下:import transformersfrom encoding_dsv32 import encode_messagestokenizer = transformers.AutoTokenizer.from_pretrained("deepseek-ai/DeepSeek-V3.2")messages = [    {"role": "user", "content": "hello"},    {"role": "assistant", "content": "Hello! I am DeepSeek.", "reasoning_content": "thinking..."},    {"role": "user", "content": "1+1=?"}]# 思考模式配置encode_config = dict(thinking_mode="thinking", drop_thinking=True, add_default_bos_token=True)prompt = encode_messages(messages, **encode_config)tokens = tokenizer.encode(prompt)本地部署建議模型結構與DeepSeek-V3.2-Exp相同。採樣參數:建議設定 temperature = 1.0,top_p = 0.95。Speciale版提示:本地部署Speciale版本時,同樣不支援工具呼叫功能開源與協議倉庫及模型權重均採用 MIT License 授權。 (AI寒武紀)
OpenAI危!DeepSeek放大招:追平Google最強,手撕GPT-5 High
【新智元導讀】「開源之神」DeepSeek重磅發佈V3.2正式版,性能全面超越GPT-5 High,與GoogleGemini-3.0 Pro平分秋色。新模型不僅斬獲4項國際奧賽金牌級成績,更憑藉獨創的DSA稀疏注意力架構,打破「速度、成本、智能」的不可能三角。OpenAI這次真的要慌了!就在剛剛,「源神」DeepSeek開源了DeepSeek-V3.2正式版——在數學程式設計等多項推理基準上,全面超越GPT-5 High,優於Claude 4.5 Sonet;與刷屏的Gemini 3.0 Pro相比,則難分伯仲,不相上下!表1:DeepSeek-V3.2與其他模型在各類數學、程式碼與通用領域評測集上的得分(括號內為消耗Tokens估計總量)在今年,DeepSeek此前已發佈7款模型——「開源之神」,當之無愧:DeepSeek‑R1、DeepSeek‑R1‑ZeroDeepSeek‑V3、DeepSeek‑V3.1、DeepSeek‑V3.1-Terminus、DeepSeek‑V3.2‑ExpDeepSeek‑OCR、DeepSeek‑Math-V2出手即王炸 開源4項奧賽金牌級AI全新模型DeepSeek-V3.2,出手即王炸。DeepSeek正式發佈DeepSeek-V3.2與DeepSeek-V3.2-Speciale——專為智能體打造的推理優先模型!DeepSeek-V3.2:V3.2-Exp的官方迭代版本,現已登陸App、網頁端及API;DeepSeek-V3.2-Speciale:突破推理能力邊界,目前僅通過API提供服務。兩款模型均達到世界級推理性能 :V3.2:推理能力與文字長度兼顧,擁有GPT-5等級性能,適合日常驅動;V3.2-Speciale:極致推理能力,取得了4項金牌級成績;目前僅提供API版本(不支援工具呼叫),以支援社區評估與研究。在主流推理基準測試上,DeepSeek-V3.2-Speciale的性能表現媲美Gemini-3.0-Pro(見表1)。更令人矚目的是,V3.2-Speciale 模型成功斬獲多項金牌:IMO 2025(國際數學奧林匹克)CMO 2025(中國數學奧林匹克)ICPC World Finals 2025(國際大學生程式設計競賽全球總決賽)IOI 2025(國際資訊學奧林匹克)其中,ICPC與IOI成績分別達到了人類選手第二名與第十名的水平。而DeepSeek-V3.2是首個將思考直接整合到工具使用中的模型,同時支援在思考和非思考模式下使用工具。目前,兩款模型均已開源:· DeepSeek-V3.2HuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2ModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2· DeepSeek-V3.2-SpecialeHuggingFace:https://huggingface.co/deepseek-ai/DeepSeek-V3.2-SpecialeModelScope:https://modelscope.cn/models/deepseek-ai/DeepSeek-V3.2-Speciale從「引擎驗證」到「全能車手」 DeepSeek V3.2的進化論如果說兩個月前發佈的DeepSeek-V3.2-Exp是一台在賽道上呼嘯而過的「概念車」,用來向世界證明「稀疏注意力」引擎的動力潛力;那麼今天正式轉正的DeepSeek V3.2,則是一輛完成了內飾精修、裝配了頂級導航系統、可以隨時上路解決複雜問題的「量產超跑」。這就是DeepSeek V3.2相比於Exp版(實驗版)最大的進化邏輯:核心引擎不變,但駕駛技巧(Agent能力)發生了質變。V3.2正式版 vs. Exp 學會了「邊干邊想」在架構層面,V3.2沿用了Exp版本驗證成功的DSA架構,但在「軟實力」上,DeepSeek解決了一個困擾AI界的頑疾——思考與行動的斷裂。在V3.2-Exp時期(以及其他大多數推理模型),模型像是一個記性不好的老學究:它會先花很長時間思考,決定呼叫一個工具(比如搜尋天氣)。但當工具把「今天是雨天」的結果扔回來時,它往往會「斷片兒」,忘了剛才思考到那一步了,不得不重新規劃。V3.2正式版引入了「思維上下文管理」。這就像給模型裝了一個「工作記憶暫存區」。現在的V3.2像一位經驗豐富的外科醫生,在伸手要手術刀(呼叫工具)的間隙,腦子裡的手術方案依然清晰連貫,拿到刀後能無縫銜接下一步操作。為了練就這項絕活,DeepSeek甚至為V3.2搭建了一個「虛擬演練場」。他們合成了1800多個虛擬的作業系統、程式碼庫和瀏覽器環境,生成了8.5萬條極其刁鑽的指令,逼著V3.2在虛擬世界裡反覆練習「修Bug」、「查資料」、「做報表」。正是這種高強度的特訓,讓V3.2正式版從一個只會做題的「做題家」,進化成了能熟練使用工具解決現實難題的「實幹家」。最大技術亮點 給注意力裝上「閃電索引器」V3.2能夠同時兼顧「聰明」和「便宜」,其最大的功臣依然是那個名為稀疏注意力(DSA)的底層黑科技。DeepSeek-V3.2的注意力架構要理解它的牛逼之處,我們得先看看傳統模型有多「笨」。傳統模型在處理長文件時,就像一個強迫症晚期的圖書管理員:為了回答你一個簡單的問題,它強迫自己必須把圖書館裡每一本書的每一頁、每一行字都讀一遍,並計算它們之間的關聯。這導致計算量隨著書的厚度呈指數級爆炸(O(L^2))。DSA則給這位管理員配備了一套「閃電索引器」。當問題來臨時,DSA先用極低的成本掃描一遍「索引」,瞬間判斷出那幾頁書可能包含答案,把無關的99%的廢話直接扔掉。然後,它只對這篩選出的1%的關鍵內容進行精細的深度閱讀。這種「查目錄」而非「死磕全書」的策略,將計算複雜度從可怕的指數級直接拉低到了近乎線性(O(L))。帶來的顯著提升 打破「不可能三角」DSA技術的成功落地,直接擊穿了AI領域的「速度、成本、智能」不可能三角。其一,成本腰斬,長文無憂。對於使用者來說,丟給模型一本幾十萬字的小說或程式碼庫,不再是「燒錢」的奢侈行為,處理速度也從「泡杯咖啡」變成了「眨眼之間」。其二,算力盈餘帶來的「智力湧現」,這是最精彩的一點。正因為DSA節省了大量算力,DeepSeek才有底氣推出那個恐怖的Speciale版本。既然讀得快,那就讓它想得久一點!Speciale版本利用節省下來的資源,進行更深度的「長思考」和邏輯推演。結果是震撼的:DeepSeek-V3.2-Speciale在數學(IMO金牌)、程式設計(IOI金牌)等硬核指標上,不僅超越了GPT-5 High,更是與Google最強的Gemini 3.0 Pro戰成平手。從驗證DSA引擎潛力的V3.2-Exp,到將Agent能力、思維上下文管理、虛擬演練場訓練全部裝車的V3.2正式版,DeepSeek展示的是另一條通往強智能的路線:在算力緊箍咒下,用更聰明的架構、更精細的訓練和更開放的生態,撬動推理極限。DeepSeek-V3.2的橫空出世,正是DeepSeek開源AI的魅力時刻:拒絕無腦燒錢Scaling,靠更聰明的演算法,在算力的縫隙中開闢出通往頂峰的捷徑。 (新智元)
OpenAI大潰敗!GPT-5「換皮」GPT-4o,兩年半預訓練0突破
【新智元導讀】OpenAI,亟需一場翻身仗!今天,全網最大的爆料:GPT-5基石實為GPT-4o。自4o發佈之後,內部預訓練屢屢受挫,幾乎淪為「棄子」。OpenAI核心預訓練,接連翻車?傳言稱,GPT-5的基石仍是GPT-4o,且GPT-4.5之後的預訓練版本,都被OpenAI放棄了!這麼說並非空穴來風,核心爆料恰恰來自權威SemiAnalysis的最新一文——OpenAI頂尖團隊自GPT-4o發佈之後,迄今尚未完成一次完整的,為下一代前沿模型設計的大規模預訓練。文章中,高級分析師強調:Google正手持TPUv7這把利劍,向輝達王座發起衝鋒,或將終結CUDA護城河。眾所周知,OpenAI全端模型是在純輝達GPU上煉出的。然而,圈內人的焦點,大都放在了大模型「推理」和「後訓練」的硬體之上。殊不知,沒有前沿模型的預訓練,一切皆是「無米之炊」。恰恰這一環節,成為了AI硬體裡最難、最耗資源的一關。如今,一個不為人知的內幕爆出了:事實證明,GoogleTPU徹底經受住了這一考驗;相較之下,自2024年5月GPT-4o誕生之後,OpenAI的預訓練卻毫無進展.....過去,兩年半的時間,OpenAI沒有真正Scaling預訓練的規模。GPT的預訓練,或許在GPT-4o之後觸及了天花板,由此也解釋了GPT-5性能未達業界預期的關鍵原因。有網友表示,那不正是Ilya離開的時候嗎.....恰在昨天,Ilya最新發文稱,Scaling不會停,但某個重要的東西仍然會缺失。OpenAI預訓練,大潰敗還記得去年底,那場鋪天蓋地的「Orion」傳聞嗎?這一秘密項目,原定以GPT-5面世,但因訓練未達預期,最終被降級為GPT-4.5發佈。在前沿模型預訓練上,OpenAI的研發似乎陷入了僵局——如今第五代旗艦模型GPT-5,包括最新GPT-5.1,其「技術根基」本質或仍未突破GPT-4o的範疇。SemiAnalysis去年底一篇文章,曾對外公開了Orion訓練的困境。當前,演算法的進步使得模型每年所需的物理計算量減少約三分之一,因此,訓練執行階段間很少超過3個月。甚至,行業中大多數預訓練通常僅需要1-2個月。然而,OpenAI的Orion大規模預訓練,卻打破了這一常規,其訓練時間超過了3個月。另據Information同一時間爆出,Orion不會像前代實現巨大的飛躍,相較於從GPT-3到GPT-4的迭代,改進幅度要小得多。不僅如此,Orion性能提升也基本侷限在——語言能力上,其程式碼能力甚至不如舊模型,且成本更高。如今再回看2月,GPT-4.5的誕生,基於代號Orion的模型,OpenAI追求的是:更強的語言能力+更穩的對話體驗+更大知識庫情商,成為了GPT-4.5的關鍵詞。程式碼雖有提升,但並非主菜。這一切的一切,從側面印證了,此前外媒關於「Orion遇挫」爆料的精準性——LLM有提升,但不大。GPT-4o,成Scaling主線?今年8月,GPT-5的那場發佈,奧特曼將其定調為「博士級AI,是通往AGI又一里程碑」。實則,業界對於GPT-5的反響,唏噓一片。大家原本以為,GPT-5會是全面超越前代的一次飛躍,但實際發佈後,更像是GPT-4.5的進一步最佳化版,不是「顛覆版」。但至於GPT-5真正基於那一款GPT打造,還有待證實。正如之前傳聞的猜測,有可能是GPT-4o,還有Reddit網友稱是GPT-4.1....但不論是那一款,都證明了GPT-5,沒有在全新前沿模型的大規模預訓練上淬煉。搞笑的,那個曾將OpenAI三顆🍓🍓🍓「焊在」名字中的大佬,如今改成了三個🍌🍌🍌。他表示,這已經不是什麼秘密了——GPT-4.5將預訓練推向極致之後,OpenAI加倍投入了推理範式,主打o系列+RL。不同的是,Google和Anthropic仍在Scaling預訓練,並增強了強化學習。OpenAI主動放棄了這一範式,為勁敵讓出了一條速通道。奧特曼:這事兒瞞不住了!Gemini 3發佈後,Google和OpenAI攻守之勢易形——Gemini 3來勢洶洶,而OpenAI這次終於坐不住了!據洩露的內部備忘錄,奧特曼坦言:「近期, 從各方面來看,Google在大語言模型表現出色」,特別是預訓練。這番表態標誌OpenAI的重大轉變——它終於承認,一個重新崛起的競爭對手與逐漸降溫的企業需求,已徹底打破了其「天下無敵」的光環。所謂預訓練,是訓練生成式AI模型(無論是文字還是圖像)過程中的第一階段。在這一階段,研究人員會用網頁等大量資料「投喂」模型,讓它掌握資料之間的各種關聯。大語言模型(LLM)開發與訓練流程概述:預訓練和後訓練是關鍵在預訓練領域,Google取得了新突破,給Gemini 3帶來了空前的推理深度。這讓不少AI研究者頗感意外——畢竟,OpenAI去年曾屢屢碰壁,而Google自己過去也曾陷入瓶頸。正因如此,在一段時間內,OpenAI選擇將更多精力轉向另一種新型AI架構——「推理模型」,這種模型雖然計算量更大,但有望輸出更優質的回答。在推出GPT-5之前,OpenAI團隊曾嘗試對預訓練階段做出一系列調整,這些方法在小模型上有效,一旦模型變大就失效了。GPT-5發佈第二天,西班牙與波蘭Talan公司AI應用負責人Javier Alba de Alba表示:(GPT-5)整體觀感頗為失望:這是個優秀的模型——響應迅捷、價格親民、能力全面,但遠非人們基於OpenAI過往發佈會所預期的代際飛躍。GPT-5帶來了不少提升——程式設計能力顯著提升、推理能力進階、幻覺現象減少、醫療領域表現最佳化,甚至免費使用者也享有更長的默認使用時長。此外命名體系全面簡化:GPT-4o/4.1/turbo/mini等繁雜名稱悉數消失,統一更名為GPT-5。不過,Javier Alba de Alba提醒:「千萬不要被名稱迷惑:GPT-5並非新一代產品。」他解釋道:技術層面而言,它更像是GPT-4o的功能增強版,即便命名為GPT-4.2也毫不違和。OpenAI此舉雖完成了必要的名稱統一,但整場發佈會未能達到預期,讓技術社區頗感失落。GPT-5發佈後,Epoch AI也發現了其中的異常:相比前代GPT-4.5,GPT-5很可能消耗了更少的訓練算力。雖然具體數值尚未公開,但GPT-4.5使用的訓練算力極有可能超過GPT-5。預訓練並未消亡,它依然是勝負關鍵。在內部會議中,奧特曼鼓舞士氣,稱在未來幾個月,OpenAI將重新奪回優勢。其中關鍵舉措之一,就是打造一款代號為「Shallotpeat」的新一代大語言模型。據知情人士透露,該模型的設計目標之一,就是專門修復OpenAI在預訓練過程中遇到的種種「疑難雜症」。OpenAI:內部的風向變了GPT-5發佈的實質是什麼?對現有ChatGPT使用者而言,GPT-5是個好消息,但這並未開啟新時代。它只是進化歷程中的一小步,而非革命性飛躍。既然更多算力通常意味著更強性能,為何OpenAI會反其道而行?這對未來模型發展意味著什麼?在與a16z合夥人Martin Casado對話中,OpenAI平台工程負責人Sherwin Wu,深度拆解了OpenAI當前平台架構、定價邏輯與未來方向。在這次訪談中,他們深入探討了為何開發者往往會長期依賴某個「值得信賴」的模型系列,信任感是如何建立的,以及為什麼行業已經逐步放棄了「一個模型通吃所有任務」的幻想。Sherwin還講解了從提示詞工程到上下文設計的演變過程,以及企業如何借助OpenAI的微調(fine-tuning)和RFT API,利用自有資料定製模型行為。共識已變幾年前,OpenAI內部認為:未來會有一個「統治一切」的超級模型。但現在行業共識已經轉變為「模型的專業化和多樣化」。雖然會有強大的通用模型,但也需要針對特定任務(如程式設計Codex、視訊Sora)的專用模型。文字、圖像、視訊背後的技術堆疊各不同。目前,在後台。這些模型往往是分開最佳化的獨立系統,很難簡單地「一鍋燉」。順便提一句,正是DALL-E 2的出現讓Sherwin決定加入OpenAI,因為那是他第一次感受到AI的魔力。而微調(Fine-tuning)也悄然進化——早期的微調,主要用於調整「語氣」或「指令遵循」。 現在的重頭戲,是強化學習微調(Reinforcement Fine-Tuning) 。這允許企業利用其龐大的專有資料(Data Treasure Troves),將較小的模型在特定領域訓練至SOTA水平。這是解鎖企業資料的關鍵。也就是說,企業擁有大量內部資料,但與ChatGPT「毫無關係」,對企業專屬AI而言卻是黃金。他們多次提到AI程式碼編輯器Cursor作為建立在 OpenAI API 之上的成功產品案例,證明了:即使OpenAI自己有競品,開發者依然可以建立偉大的垂直應用。Agent開發模式從第一天起,奧特曼和Greg Brockman就確立了「App+ API」的雙軌戰略。這樣做是為了儘可能廣泛地分發AGI的利益——如果只做 API,你就無法觸達普通消費者;如果只做應用,你就無法賦能各行各業的開發者。在這次對話中,他們重點談論了智能體開發工具「Agent Builder」。Sherwin認為,智能體(Agent)並非一種全新的模態,而是AI的一種新使用方式。本質上,智能體是一個能夠代表使用者、在較長的時間跨度(Long Time Horizons)內執行一系列操作並完成任務的AI系統。OpenAI曾推出了可視化的「Agent Builder」(節點式建構),但發現對於開發者而言,這種方式可能過於受限。訪談中,Sherwin和Martin將智能體清晰地劃分為兩類,這解釋了為什麼目前市面上的Agent產品形態各異——探索型/非定向工作 (Undirected/Exploratory Work)流程型/SOP導向工作 (Procedural/SOP-oriented Work)在對話中,第二類Agent開發可能更像傳統的軟體工程或遊戲開發中的NPC(非玩家角色)邏輯。與其讓模型完全自由發揮,不如通過程式碼給予它明確的邏輯框架和標準操作程序(SOP),特別是在受監管的行業(如客戶支援、金融)。也就是說,邏輯必須寫死在程式碼裡,而不是提示詞裡。這就是Agent Builder想要解決的問題:為那些必須控制智能體行為的行業和場景,提供一個簡單、清晰、可驗證的解決方案。One More Thing2025年度壓軸大戲,GoogleGemini 3 Pro無疑打了一場勝仗,但OpenAI不會袖手旁觀。內部已確認,聖誕節前夕,一連串發佈連番轟炸。據傳,一系列新模型,在路上了——Image Gen v2IMO和IOI金牌多模態模型GPT-5.2 Codex12月,AI圈一定非常熱鬧。 (新智元)
OpenAI 發佈 GPT-5.1-Codex-Max,反擊 Gemini 3 Pro
OpenAI 於 2025 年 11 月 19 日發佈了 GPT-5.1-Codex-Max,本質上是在原有 GPT-5.1-Codex 之上,對“長程編碼任務”和 agent 化工作流做的一次定向升級:底層換成新版推理基座模型,訓練資料更貼近真實軟體工程過程,包括 PR 建立、程式碼審查、前端開發和技術問答,並在訓練階段顯式針對 Codex CLI 和 Windows 環境做了適配。官方同時將其設為 Codex 系列默認模型,經由 Codex CLI、IDE 外掛、雲端整合和程式碼評審等通道提供給現有使用者,API 計畫稍後開放。基準表現與長程任務能力從已公開的基準資料看,Codex-Max 相對上一代 Codex 的提升是具體且可量化的,而不是“版本號一加、能力翻倍”式的包裝。公開資料與社區整理結果顯示,它在 SWE-Lancer IC SWE 上從 66.3% 提升到約 79.9%,在 SWE-Bench Verified 上從 73.7% 升至 77.9%,Terminal-Bench 2.0 則從 52.8% 提升到 58.1%。這些測試運行在較高推理檔位,並結合所謂“compaction”機制:當上下文臨近極限時自動壓縮會話,僅保留關鍵要點,以便在單一任務中跨越百萬級 token。OpenAI 在產品文案和系統卡中反覆強調,Codex-Max 在內部環境下可以連續工作 24 小時以上,完成多階段重構、測試驅動迭代和自主演進式偵錯。這說明在 Codex 受控環境中,模型在多輪失敗和自我修正中仍能保持相對穩定的策略,而不僅僅是一次性給出答案。但這類長程任務的表現目前主要來自廠商自證和少量早期使用者反饋,在更複雜的企業程式碼庫和 CI/CD 流水線下能否復現,仍需要時間檢驗。OpenAI 同時表示,在中等推理強度下,Codex-Max 在保持或略微提升精準率的情況下,思考 token 消耗比上一代減少約 30%,理論上可以在不犧牲質量的前提下降低時延和成本。這些數字目前仍以官方披露為主,第三方系統化驗證尚不充分,更穩妥的做法是將其視為趨勢性訊號,而非精確定價依據。與 Gemini 3 Pro 的能力對比與 Gemini 3 Pro 的關係,比單純比較“誰更強”要複雜得多。DeepMind 的官方材料顯示,在 LiveCodeBench Pro 這類偏演算法競賽風格的基準上,Gemini 3 Pro 的 Elo 在 2400+ 區間,顯著高於此前的 GPT-5.1 系列;在若干長程、工具使用與博弈類任務中,Gemini 3 Pro 也有相對明顯的領先,被普遍視為“複雜推理 + 多模態 + agent 組合任務”上的強項。過去幾天的技術部落格與評測大多據此認為,Gemini 3 Pro 在“複雜推理 + 多模態 + agentic 任務”上,對 GPT-5.1 形成了階段性優勢。Codex-Max 引入後,這種對比出現了一些局部反轉。根據 OpenAI 自身資料和早期評測,在 SWE-Bench Verified 和 Terminal-Bench 2.0 這兩類更貼近真實工程和終端操作的基準上,Codex-Max 相對上一代 GPT-5.1-Codex 有明顯提升,並在部分設定下略高於當前公開版本的 Gemini 3 Pro。不過,這些對比往往使用不同 agent、不同終端環境和不同推理檔位,嚴格意義上的“同場雙盲”樣本並不多,目前更適合解讀為:在若干具體編碼基準上,兩者已進入“互有勝負”的狀態,而不是誰絕對壓制誰。更現實的判斷是:在日常“寫業務程式碼、修缺陷、補測試”這類任務中,兩者都足夠強,差異更可能體現在長任務穩定性、對特定平台和框架的適配程度,以及與現有工具鏈的整合深度。Codex-Max 更像是在 OpenAI / Codex 生態內部,把“工程 agent”這條線補足到不落於人,而 Gemini 3 Pro 則持續押注於“多模態 + 高階推理 + 超長上下文”的整體能力版圖。價格策略與“長任務經濟性”在經濟性方面,兩家目前採用的策略並不完全相同。Gemini 3 Pro 的 API 定價較為透明:在 200k token 內,每百萬輸入約 2 美元、輸出約 12 美元;超過 200k 之後分別翻倍到 4 美元和 18 美元,明顯通過價格對超長上下文收取溢價,同時在宣傳中頻繁強調“100 萬 token 上下文”的賣點。相比之下,OpenAI 尚未單獨公佈 Codex-Max 的 API 價格,而是強調通過 compaction 和思考 token 最佳化來降低有效成本,即在模型內部結構和推理策略上做文章,而不是在價格表上人為劃分“短上下文”和“長上下文”檔位。對真正會跑長任務的團隊而言,最終帳單會同時受兩類因素影響:模型本身的 token 效率,以及平台對長上下文的計費方式。現階段,大致可以預期 Gemini 3 Pro 在極長上下文、多模態場景的成本會相對更高,而 Codex-Max 在純文字 / 程式碼長任務中的“性價比”則需要依賴未來更多第三方使用資料來判斷。工具鏈與開發流程的策略差異從產品路線看,兩家在“工程 agent”問題上的回答明顯不同。OpenAI 的選擇,是儘量不觸碰開發者的主戰場:Codex-Max 深度嵌入 Codex CLI、傳統 IDE 外掛、雲端整合與程式碼評審流程,尊重現有的 Git / CI/CD 流程,只在原有流水線上引入更強的自動化能力。這種路徑的現實意義在於,企業不必在 IDE、原始碼託管或 CI 系統上做大幅遷移,只需要在權限和審計層面逐步提高對 agent 的信任度。Gemini 3 Pro 則試圖配合 Antigravity 直接重構開發環境。Antigravity 的設計圍繞多 agent 管理、Artifacts 記錄(計畫、執行證據、測試結果)以及自動UI 操作展開,把“agent 作為一等公民”的假設寫進 IDE 形態。這意味著,選擇這一路線的團隊,在獲得更激進自動化可能性的同時,也要面對 IDE 層級的範式遷移成本。短期內,OpenAI 路線的落地阻力顯然更小;但如果 Antigravity 這種模式在部分大廠內部證明有效,長期對開發工具和雲平台格局的衝擊可能更直接。安全、治理與不確定性在安全治理方面,OpenAI 的系統卡指出,GPT-5.1-Codex-Max 在網路安全方向已經“非常有能力”,但尚未達到其內部定義的“高能力”閾值,在生物安全方向則按高能力模型管理,配套更嚴格的使用限制和監控。為降低長程 agent 帶來的額外風險,OpenAI 在 Codex 產品層疊加了沙箱執行、可配置的網路訪問,以及行為監控與速率限制等機制。這些措施能在多大程度上覆蓋真實企業環境下的濫用場景,目前仍缺乏足夠公開案例,只能說方向合理,但效果有待觀察。Gemini 3 Pro 在官方材料中同樣強調安全評估與企業級控制選項,但在具體編碼任務下的攻擊能力、越權操作風險等方面披露更為克制,外部公開資料主要來自綜合評估和少量第三方測試。對有合規壓力的組織來說,一旦開始認真嘗試 24 小時等級的自治編碼任務,技術問題之外,很快會面臨審計、責任界定甚至監管層面的額外要求,這部分目前基本還處在“實踐先於規範”的階段。初步判斷與現實決策點綜合來看,GPT-5.1-Codex-Max 更像一場經過精心選擇發佈時間的防守反擊:在 Gemini 3 Pro 通過一系列基準與多模態能力佔據敘事高地之後,OpenAI 把“編碼專用”這一子類重新拉回到一個至少不落下風的位置,並在 SWE-Bench、Terminal-Bench 等對開發者更敏感的指標上爭取了部分優勢。然而,無論是 Codex-Max 還是 Gemini 3 Pro,目前都更適合被視為“強力助手 + 局部自治 agent”,距離可以完全接管軟體工程流水線、在企業環境中大規模無監督運轉,還有明顯距離。在這種背景下,對真正需要做技術選型的團隊來說,現在去糾結某個單一基準上差一兩個百分點的勝負意義有限,更現實的決策維度可能包括:現有工具鏈與那個生態的耦合程度更深,組織內開發者對那一套平台更熟悉,在安全與審計層面能接受怎樣的自治邊界,以及是否有意願為 Antigravity 這類新範式額外付出一輪遷移成本。至於長程 agent 是否真能在實戰項目中穩定跑完 24 小時以上任務,這件事大機率只能交給未來一兩年的真實項目和內部 A/B 測試來給答案。 (InfraNative)
小成本DeepSeek和Kimi,正攻破奧特曼的「算力護城河」
2025年前盛行的閉源+重資本範式正被DeepSeek-R1與月之暗面Kimi K2 Thinking改寫,二者以數百萬美元成本、開源權重,憑MoE與MuonClip等最佳化,在SWE-Bench與BrowseComp等基準追平或超越GPT-5,並以更低API價格與本地部署撬動市場預期,促使行業從砸錢堆料轉向以架構創新與穩定訓練為核心的高效路線。2025年以前,AI界盛行著一種信念:只有閉源、巨額投入和瘋狂堆算力才能打造最強大的模型。OpenAI作為這一思路的旗手,不僅將模型訓練秘而不宣,更與合作夥伴繪製了高達1.4兆美元的基礎設施藍圖。八年內燒掉1.4兆美元來建構資料中心,被視作確保領先的唯一途徑。在這種思維下,OpenAI旗艦模型的研發成本節節攀升:據報導,訓練GPT-4就花費了約1億美元。閉源+重資本模式一度令人信服,OpenAI因此獲得了天價估值和洶湧資本支援。然而,這一「用錢砸出智能」的神話,正隨著一系列意料之外的挑戰而動搖。信念的第一次動搖DeepSeek-R1橫空出世今年年初,一家彼時名不見經傳的中國初創公司深度求索掀起了巨浪。它發佈的DeepSeek-R1模型不僅開源,而且號稱性能可與OpenAI頂級模型比肩。更令人瞠目的是,DeepSeek宣稱訓練這款模型只花了約560萬美元,連舊金山一套像樣的房子都買不起。這個成本數字相比業內普遍認為的「燒錢」等級相差懸殊,僅為Meta開發Llama模型成本的約十分之一。事實證明,這並非誇誇其談。DeepSeek-R1發佈後一周內,DeepSeek App下載量迅猛攀升,一舉超越ChatGPT,登頂美國蘋果App Store免費榜。一款開源AI應用在美國使用者中的受歡迎程度超過了OpenAI的王牌產品,這一幕令業界震驚。DeepSeek以微薄成本實現高性能,直接質疑了開發AI必須投入天量資金和算力的傳統觀念。華爾街對此反應劇烈,微軟和Google股價應聲下挫,而AI晶片巨頭輝達的市值甚至蒸發了約17%,相當於約6000億美元。資本市場用腳投票,開始重新審視AI賽道的投入產出模型:燒錢打造封閉模型的路線,或許並非高枕無憂的康莊大道。開源低成本路線的核彈Kimi K2 Thinking震撼登場DeepSeek年初點燃的星星之火尚未平息,中國另一家初創公司月之暗面在年末投下了一枚震撼彈。本周,月之暗面發佈了最新的開源巨模型Kimi K2 Thinking(以下簡稱K2 Thinking),以開源身份在多個關鍵基準上追平甚至超越了OpenAI的旗艦GPT-5。要知道,GPT-5可是閉源巨頭最先進的成果之一,而K2 Thinking僅用幾百萬美元訓練,卻在高難度推理和編碼測試上正面較量並拔得頭籌。K2 Thinking在綜合程式設計挑戰「SWE-Bench Verified」上取得了71.3%的通過率,略高於GPT-5的成績,甚至在複雜網頁搜尋推理任務BrowseComp上,以60.2%對54.9%的得分大幅領先GPT-5。這些數字宣示了一個歷史拐點:開源模型與頂級閉源模型之間性能鴻溝的實質性塌陷。K2 Thinking的問世標誌著開源免費模型在高端推理和編碼能力上與封閉系統平起平坐,這一點在過去幾乎難以想像。而實現這一壯舉,月之暗面投入的算力成本據傳約為460萬美元,比起OpenAI宏圖中的兆投入,幾乎可忽略不計。一邊是幾百萬美元造就的開放奇蹟,另一邊是幻想燒錢兆的巨無霸帝國,鮮明對比令人不禁懷疑:AI行業過去堅持的大投入邏輯,難道真的站不住腳了?技術路徑的勝利巧用架構勝過砸錢堆料K2 Thinking並非魔法橫空出世,而是技術路線差異帶來的成本逆襲。傳統的GPT-5這類閉源模型採用的是「通用大腦」式架構,每個參數對每個輸入都會發動運算,因而模型越大推理開銷越驚人。K2 Thinking則採用混合專家架構,將龐大模型劃分為384個專長各異的專家模組。每次僅有8個專家(外加1個通用專家)被啟動參與計算,相當於只動用320億參數來解決特定問題。換言之,K2-Thinking擁有一個「萬智百寶箱」,每個token只呼叫其中不到3.5%的智力,卻能享受近似兆參數的知識儲備。這一架構設計讓K2 Thinking在推理時既聰明又節省:「大而不笨重」。架構最佳化帶來的成本效率提升達百倍之多,令人歎為觀止。更關鍵的是,月之暗面研發了名為「MuonClip」的自訂最佳化器,在訓練過程中自動穩壓梯度,成功杜絕了超大模型常見的梯度爆炸和損失發散問題。Kimi-K2在長達15.5兆token的訓練中實現了「零訓練崩潰」,無需人為中途干預重啟,這意味著即使資金裝置相對有限的團隊也能可靠地訓練超大模型。DeepSeek也在工程上強調「強化學習後訓練」等高效策略,使得小團隊得以攀登AI高峰。這些技術路徑上的創新,等於是用聰明才智破解了過去只有砸錢才能解決的難題。曾經只有巨頭燒錢才能鋪就的康莊大道,如今民間高手另闢蹊徑,用技術巧思抄了近路。開源風暴的經濟學衝擊當技術壁壘被攻克,開源路線在經濟層面的優勢便愈發凸顯。K2 Thinking的模型權重可在相應許可證條款下自由下載部署。這與OpenAI等閉源模式形成鮮明對比,它們的模型被封藏於雲端,只能通過昂貴API租用它們的大腦。以K2 Thinking為例,其官方提供的API價格是每百萬輸入token收費4元(命中快取時更低至1元)、輸出token16元。相比之下,OpenAI的GPT-5 API價格約為每百萬輸入token收1.25美元(約9元),輸出token高達10美元(約71元)。換算下來,同樣百萬token的處理,K2 Thinking的費用僅為GPT-5的十分之一不到。對開發者和企業而言,這無疑極具誘惑力,更何況K2完全可以本地部署,不願付API費的話,大可以自建服務。正因如此,我們已看到市場正在迅速響應:越來越多AI工具和平台開始整合K2 Thinking模型,許多開發者在社區分享如何用K2 Thinking微調自訂應用。DeepSeek-R1發佈後,其MIT開源權重更是被無數開源社區下載、魔改,用於各種外掛和研究項目。甚至政府機構和大型企業也開始重新考慮,與其斥資購買封閉模型的算力配額,不如採用開源模型作為基礎,掌控自主可控的AI能力——尤其當這些開源模型已經足夠好且成本低廉。這種用腳投票的風向轉變,不僅出現在技術圈,更在資本圈引發連鎖反應:OpenAI此前天價的資料中心投資承諾,正面對質疑和壓力。OpenAI高管甚至在公共場合暗示需要政府貸款支援,事後又忙不迭出來「滅火」澄清不尋求政府背書,以平息外界對其燒錢計畫的擔憂。當巨頭為融資「續命」四處遊說時,開源對手們正用實際成績證明,也許根本不需要那麼多錢,也能把事情辦成。行業敘事的改寫與泡沫的冷卻DeepSeek和Kimi K2 Thinking帶來的並非單純的「追趕」,而更像是一場對舊路線的證偽。過去,封閉巨頭們的護城河建立在一種假設之上:只有不斷投入數量級增長的資金和算力,才能保持模型性能的領先。這一假設曾讓OpenAI們在資本市場上如日中天,甚至形成了某種估值泡沫,AI公司和底層晶片廠商的價值被無限推高,因為所有人相信燒錢會帶來奇蹟。然而當開源挑戰者以區區百萬量級美元達到同類水準,這個故事的結局便不再那麼線性。事實證明,「性能領先的最後20%」或許並非大多數使用者真正需要的,尤其如果為此要付出十倍乃至百倍的價格。從普通消費者到中小企業,更青睞的是「夠用+便宜」的實惠。OpenAI等公司無疑依然握有行業頂尖的研究人才和技術積累,但他們再難宣稱自己的路線是「唯一正確且必不可少」的。行業敘事正在轉向:與其痴迷於砸錢堆出更大模型,不如在架構創新和工程穩定性上下功夫,以換取成本效率和開放生態。投資者也日趨清醒,過去見誰談AI就砸錢的狂熱減退了許多,現在更關注實際效能和商業可行性。最危險的對手,不是那個跟你拼燒錢的人,而是那個證明根本不需要燒那麼多錢的人。 (新智元)
開源新王!首次幹翻GPT-5,實測Kimi K2 Thinking,中國AI 殺瘋了
迄今為止最大最好的開源模型,總參數達1 兆,屠榜多個基準測試,Kimi K2 Thinking 來了。Kimi K2 Thinking 在TAU 榜單(智能體工具調用能力測試)上排名第一,超過OpenAI 和Anthropic 的旗艦模型一登場就是斬獲多個測試榜的第一名,Kimi 也不玩開源只和開源比那一套,而是直接把GPT-5、Claude 4.5 Sonnet 這樣的閉源模型放一起,非常自信。智譜、MiniMax 自然語言處理部門負責人、以及HuggingFace 聯合創始人紛紛在評論區留言祝賀除了在工具使用的榜單上拿第一,人類最後考試(HLE)、BrowseComp、還有其他基準測試,Kimi K2 Thinking 基本上都佔據了先進模型的前排位置。在跨學科專家級問題的HLE 榜單、以及自主搜尋的三個榜單上,排名第一;編程能力的三個榜單,得分也接近最好的Claude 或GPT 模型無論是對智能體能力要求極高的程式設計任務、或通用的推理寫作、深度搜尋等方面,Kimi K2 Thinking 的表現表現可以說是,目前最接近封閉模型的開源模型。延續了7 月份,發布K2 時,將其定位為自主智慧路線圖的一部分,Kimi K2 Thinking 也是主打 Agentic Intelligence(智能體智能)。它是一個推理的混合專家(MoE)模型,總參數量1T,激活參數32B,上下文長度256K。K2 Thinking 能在智能體工具呼叫中交錯思考,同時在維持任務目標的同時,持續進行200 到300 次順序工具呼叫。儘管工具呼叫在類似的閉源模型上,已經成為某種程度上的標準,但 K2 Thinking 可能是第一個,具有如此多工具呼叫能力的開源模型。對比K2 0905,K2 Thinking 在具體的任務上的提升,我們總結了Kimi 的技術博客,有這些亮點。解決需要百步推理的複雜難題:它能將龐大的目標分解成數百個子任務,然後像專案經理一樣,逐一執行。官方舉例稱,它曾透過23 個交錯的推理和工具調用,成功解決了一個博士級的數學難題。更精確地找到詳細的資訊:透過執行動態的思考→ 搜尋→ 瀏覽器使用→ 思考→ 程式碼循環,K2 Thinkging 在面對模糊或冷門的搜尋需求,能自行上網重複搜尋、瀏覽網頁、驗證證據,直到找到精準答案。直接把想法變成可用的產品:K2 Thinking 特別擅長前端程式碼(如HTML、React),和其他Vibe Coding 產品一樣,能直接把我們的想法寫成一個功能完善、反應迅速的網頁或軟體產品。寫出更有人味的文章:邏輯嚴謹的專業長文,想像力豐富的創意故事,甚至是需要同理心的情感建議,K2 Thinking 在聊天問答這些通用能力上,能做到更紮實、更細膩的推理寫作。目前,Kimi K2 Thinking 已經在Kimi 官網的聊天模式上線。但要注意的是,Kimi 解釋說為了保證使用者能獲得快速、輕量級的體驗,目前的網頁聊天版本,有選擇性地減少了部分工具的使用和呼叫次數。因此,直接在kimi.com 上聊天,可能暫時無法完全復現上述基準測試中的極限分數。測試中提醒「高峰算力不足,請耐心等待」此外,能充分發揮Kimi K2 Thinking 能力的完整智能體模式(Full Agentic Mode)將很快更新。開發者也可以透過Kimi k2 thinking API 來體驗。我們也快速上手,實測了幾個常見的項目,一起來看看實際的體驗如何。首先是程式設計任務,我們先讓他做了一個技能五子棋的小遊戲,要求是在普通的五子棋規則上,玩家可以使用技能。速度很快,出乎我的意料,一兩分鐘的時間,它就實現了全部的程式碼,並且真的可以使用這些技能。然後是騎自行車的鵜鶘,這個經典的測試大模型程式設計能力的項目,檢驗它的SVG 程式碼生成。雖然K2 Thinking 寫著推理模型,但它的推理速度非常快,這段動態的SVG 程式碼產生也只花了1 分鐘不到。雖然這個鵜鶘好像有點不太對勁。開啟長思考,即K2 Thinking 的同時,能啟用網絡搜索,當我們要它完成一張天氣卡時,能看到Kimi 會一邊自動檢索網絡上的公開資料,一邊完成代碼的實現。確實能呼叫瀏覽器的取得位置接口,但是在最後Kimi 也提到,需要輸入對應的地圖API 和天氣資訊API 等數據現在已經是全民vibe coding 的時代了,一般使用者還是程式設計師,都能從K2 Thinking 的程式設計能力裡,更快速地實現自己的想法。在智能體搜尋這個任務上,我們問了他一些專業領域的問題,測試它如何分解複雜問題、主動搜尋、並整合難找的網路資訊的能力。可以看到,Kimi 搜尋的資訊是比較全面的,當我規定了2025 年以後,它網頁搜尋的資料,也大多集中在最近這段時間以來的報導。上下滑動查看更多內容最後它給出的報告,也詳細的提到了三種2025 的演算法,以及主要的公司等內容。其實工具調用,應該是Kimi K2 Thinking 非常重要的能力,但是在我們的體驗中,發現大多數時候,他只是調用網絡搜索工具,而沒有看到200 多個工具流。(我的任務太簡單,還有可能是高峰期。)我們在輸入一個物流邏輯問題時,很明顯是可以呼叫Python 等程式碼解釋器來輔助計算,但是Kimi 只是和其他深度思考的模型一樣,一步步地推理。關於K2 Thinking 的寫作能力,我們找了一個表面上看起來是兩難的問題給它。上下滑動查看更多內容這個回答有夠人性化嗎。在我看來,很明顯不是空洞的套話,還提供了周到且具體的思考,也幫助我們平衡了原則和現實兩個方面,還有可操作的後續步驟。在AI 模型軍備競賽的今天,單純的問答,很明顯已經無法滿足,我們複雜的專業需求。像人類專家一樣,透過一步一步的推理思考,主動使用各種工具,來解決極為複雜的難題,成了所有大模型的標配。根據Kimi 官方文件和技術分析的介紹,這次的思考能力突破關鍵在訓練方式,即高效的量化技術(INT4 QAT),這也是一個值得關注的行業亮點。K2 Thinking 在後訓練階段採用了量化感知訓練(QAT),讓模型能以INT4 精度本地運行,推理速度提升約2 倍,同時保持最佳性能。也就是說,它不是訓練完再壓縮,而是在訓練過程中就貫穿低精度運算模型。這帶來了兩個巨大優勢,一個是推理速度的提升,一個是長鏈推理,不會因為量化而造成邏輯崩潰。使用正確的量化技術,可節省GPU 顯存並加快推理速度此外,它的所有基準測試成績都是在INT4 精度下報告的。說穿了,這是一種「所見即所得」的性能,而不是實驗室精心調製的數據,K2 Thinking 生來就能跑得動。我們的實測也能看到,Kimi K2 Thinking 確實不僅僅是一個行銷噱頭,工具調用、量化技術、以及超長規劃,讓它在智能體方向上,推理速度上,都有不錯的表現。雖然在某些方面,例如穩定的結果輸出、以及對提示詞更寬鬆的要求,還是比不上閉源模型。但開源能做到這樣,我的心裡只有兩個字,佩服。過去兩年,國產模型的競爭大概是從Qwen、百度這些模型,對ChatGPT 的瘋狂追趕;到橫空出世的DeepSeek 把推理成本降低的同時,還做到了和o3 等推理模型,相媲美的表現。讓國產AI 開始走上了,完全不同於國外閉源模式的路線。 OpenAI 發布一個​​GPT-5 預熱了大半年,Anthropic 的Claude 系列模型發布周期也在長達幾個月。而Kimi 在今年七月發布了K2,九月發布了K2 Instruct,十一月就迎來了K2 Thinking;更不用說還有智譜、MiniMax、以及前段時間模型七連發的Qwen。就連還在期待中的DeepSeek R2,也更新V3.2、OCR 等廣受好評的模型。並且,這些模型全部開源。在海外社群媒體平台上,一年前大家可能只知道中國有DeepSeek,而現在,Qwen 已經是Hugging Face 上模型下載榜單的Top 10,Kimi 和智譜(Z.ai)的GLM 系列模型、以及MiniMax 都成了大多數用戶青睞的模型。K2 Thinking 的發布,我想是一個新的轉折點,就是當我們的開源模型,也能拿到和閉源模型一樣的基準分數時,閉源模型還可以講什麼樣的故事來營銷自己呢。Gemini 3 據說在今年年底前將發布,而OpenAI 似乎也害怕再像當時的nano banana 一樣,搶走他的市場,計劃推出GPT-5.1。軍備競賽還在繼續,國產開源的力量,開始讓我們看到,一個好用的AI,不是屠榜多少測試,是在具有真實用戶需求的領域,能真正地提供某些東西,並且惠及到所有人。(APPSO)