#Claude
拳打谷歌,腳踢 Claude?我用 9.9 元的國產模型寫了個遊戲,結果直接沉默了
這兩周,AI 程式設計圈簡直捲出了天際。前腳Google剛發完新模型,後腳 Claude 就跟進大招。很多人為了嘗鮮,還在折騰各種“魔法”,費盡周折去申請那些國外的帳號。但大部分人都沒意識到,其實真正的“版本答案”根本不需要翻山越嶺,就在我們家門口。01| 唯一的中國獨苗,殺瘋了我們不看跑分,直接看看全球最大的模型聚合平台——OpenRouter 上的實戰資料。這可是被稱為 AI 界的“照妖鏡”。結果一看,直接給我整沉默了:圖:MiniMax M2 在 OpenRouter 程式設計分類的排名好傢伙,在一眾中美巨頭壟斷的 AI 程式設計模型 Top 5 榜單裡,中國獨苗只有這一家:MiniMax M2。不僅是上榜,它的實戰熱度更是嚇人。根據統計,M2 的 Token 呼叫量穩居全球前五,高峰期甚至一度飆升到了全球第三,直接跟在Claude Sonnet 4.5 和 Gemini Flash 後面貼身肉搏。圖:MiniMax M2 Token 量排名這意味著什麼?意味著在全球範圍內,已經有無數程式設計師用腳投票,認可了它的實力。02|價格屠夫:9.9元把門檻踩碎如果說排名只是讓我驚訝,那看到價格的時候,我就是震驚了。M2 的價格直接打到了競品 Claude 的 8%。 注意,這不是打折,這是打骨折。前兩周,他們又搞了個大動作——基礎版首月只要 9.9 元 。你沒聽錯,一杯瑞幸的錢(甚至還買不到生椰拿鐵),就能讓你“雇”到一個全球 Top 5 等級的 AI 程式設計師,而且是包月、不限速。不僅如此,它的每款套餐價格都是吊打 Claude:圖:MiniMax M2 套餐對比這就不僅僅是“真香”了,這是直接把 AI 程式設計的門檻給踩碎了。作為經常測評各種工具的博主,我必須替大家驗證一個問題:這 9.9 元,到底是“智商稅”,還是普通人逆襲的神器?03|極限實測: 它真能幹活嗎?光說不練假把式。我準備了兩個我們日常最頭疼的場景,看看它能不能接得住招。挑戰一:復刻殺時間神器“2048”午休無聊想摸魚?貪吃蛇玩膩了?我決定讓 M2 給我手搓一個經典的“數字毒藥”——2048。看看它能不能搞定那個複雜的合併演算法。我的指令 (Prompt):請幫我用 HTML + CSS + JS 復刻經典遊戲 2048。具體要求:介面:經典的 4x4 網格,背景要暖色調(米色/淺黃)。核心邏輯:使用鍵盤方向鍵或手機滑動控制數字移動。相同的數字碰撞時合併翻倍(2+2=4,4+4=8),並有平滑的移動動畫。樣式:不同的數字(2, 4, 8... 2048)要有明顯的顏色區分,數字越大顏色越深。計分:頂部即時顯示當前分數和歷史最高分。一個指令下去,整個過程我只需要一路狂按回車。不到 3 分鐘,神奇的事情發生了:圖:MiniMax M2 遊戲生成過程(加速版)這個過程非常有意思,M2 會先思考遊戲的邏輯,然後一步步的把遊戲寫出來。它甚至能自己更新自己寫過的程式碼。圖:MiniMax M2 自動修復更新程式碼M2 甚至展現出了一種“老程式設計師”的素養:它不僅寫了程式碼,還自己開了個 HTTP Server 跑了一遍測試,順手把 Bug 給修了。這不僅是把開發的活幹了,連維運的活也包圓了。圖:MiniMax M2 自動開啟 HTTPServer 並測試都結束之後,我打開這個遊戲,簡直和原版一模一樣。打開遊戲,按下方向鍵,數字塊“刷刷”地滑動、合併,那個絲滑的動畫效果,完全不像是一個 AI 在兩分鐘內寫出來的“草稿”。邏輯類的“滿分作業”。如果你想做個小工具、小遊戲,它完全夠用。圖:MiniMax M2 生成的 2048 遊戲挑戰二:無中生有做資料分析之前很多想學資料分析的朋友跟我抱怨:“我想學,但手頭沒有資料啊!”其實,這也難不倒 M2。我給它出了個難題:兩步走,先造假(模擬)資料,再做高級圖表。第一步:無中生有(造資料)請幫我寫一個 Python 指令碼,隨機生成一份包含 2000 條記錄的‘奶茶店銷售資料.csv’。欄位要豐富,包含:訂單號、下單時間(精確到分鐘)、使用者性別、奶茶口味(5種)、甜度(無糖/三分/半糖/全糖)、會員等級(普通/VIP)、訂單金額。直接運行這個指令碼,幫我生成檔案。M2 二話不說,呼叫 Python 指令碼瞬間生成了一份極其逼真的 CSV 檔案。第二步:全自動分析(出炫酷圖表)現在,讀取剛才生成的 CSV 檔案,幫我用 Plotly 庫生成一個高級互動式 Dashboard,包含以下圖表:銷售熱力圖 (Heatmap):橫軸是‘星期幾’,縱軸是‘小時’,顏色深淺代表銷量。我要一眼看出那天那個點最忙。使用者偏好桑基圖 (Sankey):展示‘使用者性別 -> 會員等級 -> 甜度偏好’的流動關係。客單價箱線圖 (Box Plot):對比 VIP 會員和普通使用者的消費金額分佈。洞察:根據圖表,自動總結出 3 條行銷建議。出圖的過程更加複雜一點,因為遇到一些畫圖模組沒有,不過不用擔心,它完全自動的給裝上了。圖:MiniMax M2自動解決依賴庫問題這其實是一個非常爽的過程,寫過程式碼的人都知道,安裝各種依賴庫簡直會讓人吐血。震撼結果:這是真正的“自產自銷”。 M2 先是用 Python 的 faker 庫給我捏造了一份極其逼真的資料。緊接著,它生成的 Dashboard 簡直絕了:圖: MiniMax M2 生成的資料分析圖那個熱力圖,一眼就看出來,基本上每天下午 4-5 點顏色最深(摸魚喝奶茶高峰期)。圖:MiniMax M2 生成的資料分析圖最神的是那個桑基圖,你能清晰地看到“女生 VIP 使用者基本都流向了“無糖/半糖”,看來美女都怕糖是真的!圖: MiniMax M2 生成的資料分析圖以後別再說沒資料練手了。9.9元,你不僅有了分析師,連“資料造假...啊不,資料模擬”的活兒它都包圓了。這種圖以前我得調半天程式碼,現在 M2 一分鐘出圖。04|速度快到飛起天下武功,唯快不破。程式設計這個場景,速度是個關鍵指標,對程式設計的體驗影響也非常大,也直接影響到開發效率。我看了一下 OpenRouter 上資料,這個 M2 簡直是離譜,它的 TPS(每秒輸出 Token 數)基本上是 Claude Opus/Sonnet 4.5 的兩倍。比 Gemini 3 Pro 也高了近 50%!圖:MiniMax M2 速度對比另外,M2 已正式支援圖像理解、聯網搜尋 MCP。05|怎麼用?M2 的接入非常簡單、絲滑。MiniMax 做了 API 生態的全面適配,支援Anthropic 和 OpenAI 兩種標準格式。不管你是用現在的網紅編輯器 Cursor、Claude Code,還是其他的 AI 工具,它基本都能無縫接入。只要三步,就能用上了。第一步:先訂閱一個套餐:https://platform.minimaxi.com/subscribe/coding-plan選擇一個適合自己的檔位,比如我選擇了只需要 9 塊 9 的 Starter,然後下單。第二步:獲取 API Key訂閱成功後,平台會給你生成一個 Coding Plan 專用的 API Key。複製就好了。圖:MiniMax M2 API 介面第三步: 打開你常用的 AI 程式設計工具,把 Key 填進去。在 Claude Code 裡面設定比較簡單,在配置檔案~/.claude/settings.json設定這些參數即可:{"env":{"ANTHROPIC_BASE_URL":"https://api.minimaxi.com/anthropic","ANTHROPIC_AUTH_TOKEN":"","API_TIMEOUT_MS":"3000000","CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC":1,"ANTHROPIC_MODEL":"MiniMax-M2","ANTHROPIC_SMALL_FAST_MODEL":"MiniMax-M2","ANTHROPIC_DEFAULT_SONNET_MODEL":"MiniMax-M2","ANTHROPIC_DEFAULT_OPUS_MODEL":"MiniMax-M2","ANTHROPIC_DEFAULT_HAIKU_MODEL":"MiniMax-M2"}}當然,這裡的MINIMAX_API_KEY要換成你自己的。圖:配置 Claude Code配置完之後,你就擁有了一個24小時待命、不喝咖啡、不發脾氣、還巨便宜的頂級程式設計師助手。最後說兩句MiniMax 搞 9.9 元 ,是不是在卷價格戰? 是,肯定有商業考量。但作為使用者,我感謝這種“卷”。兩年前,為了用好一點的模型,我們得當“網路難民”,忍受高價和封號。但 2025 年,世道變了。國產模型不再是無奈的“備胎”,而是好用且便宜的主力。當算力門檻降到 9.9 元 時,這就叫“技術平權”。所以,真誠建議大家:別光在岸上看,跳下去試試。萬一,它真幫你把心底那個 App 的夢做出來了呢?騰出時間,去造夢吧。程式碼的事,交給 AI。 (AI范兒)
一個介面測了 N 個模型,DeepSeek V3.2 把我的頭給想禿了。。。
DeepSeek-V3.2 突然發佈,那參數強得離譜……基本上把 GPT-5 都按在地上摩擦了。圖:國外網友瘋狂研究 DeepSeek 3.2累不累啊?Benchmark 資料直接拉滿,而成本更是暴擊一堆海外頂尖模型。價格只有 GPT-5 的約 20%,輸出 Token 甚至只有它的 1/24。圖:DeepSeek  V3.2 參數大家都嗨了。而且這玩意還完美適配 Claude 生態,只需要改名成“deepdeek-reasoner”就好了。作為一個有“模型收集癖”的老玩家,我當時的反應和大家一樣:“扶我起來,我要測它!”但剛坐到電腦前,我就萎了。01| 以前測模型的“勸退”流程你們有沒有算過,以前我們要想對比測試幾個模型,得掉多少根頭髮?想測 DeepSeek?去官網。想測 Claude?去外網。想測阿里通義?去阿里雲。每個平台都得註冊帳號,綁手機,填發票資訊,還得先充值(那怕我只測幾毛錢)。最崩潰的來了。每家的 API 文件都長得不一樣!這家的參數叫 max_tokens,那家非要叫 max_output_tokens。為了相容這堆亂七八糟的介面,我得寫一堆 if-else 的“屎山程式碼”。圖:傳統的模型使用流程我就想簡單的問一句:“DeepSeek V3.2 和Claude Opus 4.5 到底誰寫程式碼更好?”結果這還沒開始測,我已經被“配環境”給勸退了。02|降維打擊:一個介面,通吃所有我實在不想再這麼折騰了,還好有朋友給我推薦了一個神器。它把市面上幾乎所有叫得上名字的頂尖模型(DeepSeek-V3.2、Opus 4.5、Gemini 3 Pro...),全部封裝成了一個標準的 OpenAI 相容介面。市面上做模型中轉的工具不少,但能以雲廠商的底座做到如此絲滑封裝的,還真不多。這就是七牛雲。它不僅僅是省事,這是玩法的降維打擊。這意味著,在我的視角裡,DeepSeek 和 Claude 不再是兩個需要分別配置的龐然大物,它們只是兩個不同的“字串名字”而已。我要做的,就是配置一次七牛雲的 Key。然後? 然後我就擁有了整個 AI 世界。03| 極致偷懶:Vibe Coding 實現“模型自由”既然介面統一了,我甚至連程式碼都懶得自己寫了。我打開了 Google AI Studio,然後開啟了 Vibe Coding(氛圍感程式設計) 模式。不到 10 分鐘,我擼了一個模型競技場出來:圖:模型競技場我一口氣把市面上的主流模型全擼了進來,想測那個測那個。這感覺,太 tm 爽啦!放在程式碼裡也一樣,以前我的程式碼(一堆亂七八糟的 import):import openaiimport anthropic# 此處省略50行噁心的配置程式碼現在我的程式碼:只需要改 model 參數,其他全都不用動client = QiniuAI(api_key="...")# 1. 遇到難題?切 CEO 帳號response = client.chat(model="deepseek-v3.2", messages=complex_task)# 2. 髒活累活?切 牛馬 帳號response = client.chat(model="qwen-turbo", messages=format_task)這就很舒服了。下次有新的模型一上,我不需要改邏輯,改個字串就能無縫升級。比如我突發奇想寫一個賽博朋克風的俄羅斯方塊,DeepSeek V3.2 Speciale 號稱宇宙無敵,先拿它來試試。結果它整整思考了 453 秒....圖:DeepSeek V 3.2 Speciale 思考時間很長然後寫了這玩意。。。圖:DeepSeek V3.2 Speciale 生成的遊戲接著我再試試 Gemini 3 Pro,我只需要在這裡換個模型名字就可以了。這回它不到 2 分鐘就完成了,快到飛起。圖:模型競技場中選擇模型而且這個效果也是碾壓啊。。 所以,模型好不好,不要光看跑分,實際跑一下吧。。。圖:Gemini 3 Pro 生成的遊戲整個過程非常絲滑,畢竟他們是做雲的,這速度非常流暢,不管模型在那,延遲都很低。但不得不說,DeepSeek V3.2 這個最牛逼的模型(Speciale),也是真的慢。04 最後的碎碎念:小孩子才做選擇這個模型競技場對我這種博主來說,太有用了。在這個“三天一個新模型”的瘋狂時代,效率就是生命。我是真的不想再把時間浪費在註冊帳號和配環境上了。很多人問我到底那個模型好?說實話這個問題沒有答案,模型各有千秋,我也會同時使用多個模型。下一步我還想做一件事兒,就是把多個模型放在一塊組成一個委員會,就是所謂的 LLM Council。圖:設想中的 LLM Council這也是有了七牛雲這個“萬能插座”後才能實現的玩法。你想想,每次你問一個問題,背後是一整個“復仇者聯盟”在給你出謀劃策。這才是 AI 正確的打開方式。小孩子才做選擇,成年人當然是全都要! (AI范兒)
終結OpenAI壟斷的11人
【新智元導讀】估值飆升至3500億美元,Claude Opus 4.5強勢登頂企業級市場,Anthropic正式終結了OpenAI的獨角戲時代。從Instagram創始人到OpenAI的「決裂者」,這11位頂尖人物組成了矽谷最豪華的「復仇者聯盟」。他們用一場驚天逆襲證明,在通往AGI的狂飆突進中,對安全的極致堅守才是最深的護城河。如果你在2021年走進Anthropic的辦公室,看到的只是一群從OpenAI「叛逃」出來的理想主義者;但如果你今天再看Anthropic的高管名單,你會發現這已經不再是一個簡單的實驗室,而是一支足以撼動矽谷版圖的「全明星復仇者聯盟」。隨著Anthropic的估值在本月飆升至驚人的3500億美元,Claude Opus 4.5更是拿下了企業級市場32%的份額。在這個龐大的數字帝國背後,是11個性格迥異、背景傳奇的掌舵者。他們有人曾一手打造了Instagram,有人曾是OpenAI最核心的大腦,有人則是守護過Netflix全球資料的守夜人。這是一份關於信仰、決裂與重塑的名單。權力的雙核:兄妹與決裂故事的起點始終是Dario Amodei(CEO)。這位前Google科學家和OpenAI研究副總裁,在四年前做出了一個震驚業界的決定:帶著六名親信出走。原因很簡單,他無法接受老東家在安全問題上的激進。Dario是那種典型的「技術苦行僧」,他拒絕了OpenAI的併購提議,堅守獨立研究。而站在Dario身旁的,是他的親姐姐Daniela Amodei(總裁)。哥哥仰望星空,妹妹腳踏實地。Daniela有著極罕見的履歷:從政治競選的泥潭中摸爬滾打,轉型為Stripe的風控經理,再到OpenAI的安全副總裁。在Anthropic,她是那個能讓理想主義落地的人,直接管理著包括CTO在內的核心高管,確保這家公司的骨架不會被飛速增長的肌肉壓垮。矽谷頂流的跨界當「濾鏡」遇上「大腦」最令人意想不到的加盟者,無疑是Mike Krieger(首席產品官)。作為Instagram的聯合創始人,他曾定義了全球數億人的視覺語言。在將自己的新聞應用Artifact賣給雅虎僅一個月後,他就閃電加入了Anthropic。Krieger的到來是一個強烈的訊號:Claude不想只做工程師的玩具。這位擁有極致產品嗅覺的產品天才,正準備把冷冰冰的模型變成人人愛用的國民級產品。同樣來自頂級商業戰場的還有Rahul Patil(CTO)。兩個月前,他剛從支付巨頭Stripe的CTO位置上卸任。在微軟、亞馬遜和甲骨文歷練多年的他,深諳如何駕馭龐大的工程系統。如今,他接過了指揮棒,掌管著這家AI巨頭所有的工程命脈。「叛逃者」聯盟:為了即使機器不失控在技術核心圈,Anthropic幾乎匯聚了「反叛軍」的精華。Jan Leike(對齊科學負責人)的名字本身就是一面旗幟。他曾是OpenAI「超級對齊」團隊的聯席主管,卻因絕望於前東家對安全的忽視而憤然離職。他的名言「為後AGI時代的人類繁榮而最佳化」,在Anthropic找到了真正的共鳴。在這裡,他不再是孤獨的守望者,而是掌舵者。Jared Kaplan(首席科學官)則是一位理論物理學家出身的「第一性原理」信徒。作為約翰霍普金斯大學的教授,他用量子場論的思維去解構神經網路,為公司確立了長期的科研航向。Tom Brown(首席計算官)曾是GPT-3的幕後締造者。這位自學成才的工程天才,如今正在指揮一場被YCombinator稱為「人類歷史上最大規模的基礎設施建設」。他的任務簡單而艱巨,為甚至還沒誕生的ASI打好地基。Sam McCandlish(首席架構師),另一位擁有史丹佛理論物理博士學位的初創元老。他的論文引用量超過10萬次,但他並沒有留在象牙塔裡,而是從CTO轉型為架構師,專注於那些最硬核的模型訓練難題。守夜人與布道者在這個充滿了不確定性的時代,安全感是最大的奢侈品。Vitaly Gudanets(首席資訊安全官)曾在Netflix全球擴張期間守護其資料安全。作為Lightspeed的營運合夥人,他看慣了科技圈的起起落落。今年9月,他選擇站到Anthropic的城牆上,為這艘巨輪抵禦來自網路世界的暗箭。Jack Clark(政策負責人)則有著最獨特的視角。他從彭博社的一名科技記者起家,寫出了著名的Import AI通訊,最終轉型為OpenAI的政策總監並隨後聯合創立了Anthropic。他是這個極客團隊對外的窗口,遊走在各國政府與國際組織之間,試圖為AI制定規則。Krishna Rao(CFO),這位曾在Airbnb和Fanatics掌管財務戰略的高管,正在為Anthropic繪製一張通往兆市值的藏寶圖。這11個人,有的來自象牙塔,有的來自名利場;有的為了逃離危險,有的為了追尋真相。他們聚在一起,相信人類的理性可以駕馭自己創造的神蹟。在這個瘋狂加速的時代,或許只有這群曾見過深淵、並對其心存敬畏的人,才配握緊那把通往未來的鑰匙。 (新智元)
突發!Claude Opus 4.5程式設計世界第一,把GoogleOpenAI踢下王座
【新智元導讀】深夜,Claude Opus 4.5重磅出世,程式設計實力暴擊Gemini 3 Pro、GPT-5.1。才一周的時間,AI圈就完成了一次閉環式迭代。全球編碼王座,一夜易主。果不其然,Anthropic深夜放出了Claude Opus 4.5,堪稱全球最頂尖的模型。它不僅程式設計強,而且智能體和電腦使用(computer use)能力也是一流。Opus 4.5的誕生,標誌著AI能力再一次飛躍,更將在未來徹底變革工作的方式。基準測試中,Opus 4.5的編碼、工具呼叫、電腦使用的成績刷新SOTA,比Sonnet 4.5、Opus 4.1領先一大截。不僅如此,就連發佈不過一周的Gemini 3 Pro、GPT-5.1慘遭降維打擊。SWE-bench Verified一張圖,直接證明了Opus 4.5強大實力,80.9%的精準率,世界第一。同時,在ARC-AGI-2評估中,Opus 4.5(64k)拿下了37.6%的高分。Opus 4.5這版厲害之處:在無需人工干預的情況下,就能處理模糊資訊,還會權衡利弊。即便是遇到複雜的多系統漏洞,也能夠找出修複方法。總之,用起來就一個感覺——「一點就透」。內部評估中,Opus 4.5+Claude Code聯動使用,平均生產效率暴增220%。目前,Opus 4.5已在APP、Claude API和三大主流雲平台中上線。價格方面,相較以往暴降不少,輸入5美元/百萬token,輸出25美元/百萬token。Gemini 3 Pro干翻了GPT-5.1,但如今,就編碼性能,Opus 4.5全面碾壓前兩者。不過一周的時間,AI圈真正閉環了。程式設計之王回歸,真SOTA有一說一,Claude Opus 4.5是地表最強程式設計模型。它智能、高效,是目前全球在程式設計、AI智能體(Agents)以及電腦操作方面最強悍的模型。Anthropic研究員Adam Wolff豪言,也就在明年上半年,軟體工程徹底終結了。在深度研究、處理PPT和電子表格等日常任務上,它也有顯著提升。在真實場景的軟體工程測試中,Claude Opus 4.5更是刷新SOTA:在SWE-bench Verified上的對比,Opus 4.5得分最高與Opus一同發佈的,還有Claude開發者平台、Claude Code以及消費者端App的更新。Anthropic為長時間運行的智能體提供了新工具,並帶來了在Excel、Chrome和桌面端使用Claude的新方式。在Claude App中,長對話不再會因為上下文限制而中斷。碾壓Gemini 3,超越人類首先,Opus 4.5在視覺、推理和數學能力上均得到了全面提升,並在多個領域達到了業界頂尖水平。尤其是,在編碼、智能體、電腦使用三大項,完勝Gemini 3 Pro、GPT-5.1。其次,在程式碼方面。Opus 4.5編寫的程式碼質量更高,在SWE-bench Multilingual測試的8種程式語言中,它有7種都處於領先地位。Opus 4.5能夠輕鬆解決具有挑戰性的編碼問題,在Aider Polyglot測試中比Sonnet 4.5提升了10.6%。在智能體搜尋任務上,Opus 4.5實現了重大突破,在BrowseComp-Plus基準測試中取得顯著提升。Opus 4.5表現穩定持久,在Vending-Bench基準上整體收益比Sonnet 4.5高出29%.衡量智能體(Agentic)能力的一個通用基準是τ2-bench,它考察智能體在現實世界多輪任務中的表現。在一個場景中,模型需要扮演航空公司客服代理,幫助一位焦急的客戶。基準測試原本期望模型拒絕修改「基本經濟艙」的預訂,因為航空公司規定此類機票不可更改。然而,Opus 4.5找到了一種極具洞察力(且合規)的解決方案:先升級艙位,再修改航班。讓我想想在政策範圍內我有那些選擇:1. 修改航班 - 基本經濟艙不可修改。這一點在政策中寫得很清楚。2. 更改艙位 - 等等,讓我確認一下這個選項!政策上說:「在其他情況下,所有預訂,包括基本經濟艙,都可以在不更改航班的情況下更改艙位。」但他想更改航班,不僅僅是艙位。不過,如果我們:· 先更改艙位(這對基本經濟艙是 允許 的),然後· 再更改航班(這對非基本經濟艙是允許的)所以策略可能是:1. 將他的艙位從基本經濟艙升級為經濟艙(或商務艙)2. 然後將航班修改為 2天後的班次這會花費更多錢,但這在政策範圍內是一條合法的路徑!儘管該基準測試判定此結果為「失敗」(因為Claude的方式超出了預期),但這種創造性的解決問題能力正是測試者和客戶所津津樂道的——這也是Claude Opus 4.5讓人感覺邁出實質性一步的原因。最後,在軟體工程領域。Anthropic通常會給應聘性能工程師的候選人佈置一道出了名難的遠端測試題,用來評估在時間壓力下的技術能力和判斷力。而Claude Opus 4.5則在規定的2小時時限內,得分超過了以往任何一位人類候選人。最穩健、最對齊、最安全正如在系統卡中所述,Claude Opus 4.5是Anthopic迄今為止發佈的最穩健、最對齊(Aligned)的模型。Anthropic認為它也是目前所有AI模型中對齊程度最高的基準模型。它延續了Anthropic向更安全、更可靠模型發展的趨勢:在這項評估中,「令人擔憂的行為」評分涵蓋了廣泛的錯位行為,既包括配合人類進行惡意濫用,也包括模型自主採取的不良行動在抵禦「提示詞注入」(Prompt Injection)攻擊方面,Opus 4.5取得了實質性進展——這種攻擊通常會夾帶欺騙性指令,誘導模型做出有害行為。Opus 4.5比業內任何其他前沿模型都更難被提示詞注入所欺騙:該基準測試僅包含極高強度的提示詞注入攻擊有關Opus4.5所有能力和安全評估的詳細描述,請參閱《Claude Opus 4.5 System Card》。連結:https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdfClaude Code、Claude for Chrome上新Claude Code這樣的產品展示了當Claude開發者平台的升級整合在一起時能實現什麼。Opus 4.5為Claude Code帶來了兩項升級。「計畫模式」(Plan Mode)現在能建構更精確的計畫並執行得更徹底——Claude會先詢問澄清性問題,然後在執行前生成一個使用者可編輯的plan.md檔案。Claude Code現已登陸桌面端App,支援平行運行多個本地或遠端會話:比如一個智能體在修Bug,另一個在查GitHub資料,第三個在更新文件。對於Claude App使用者,長對話不再會遭遇「碰壁」——Claude會根據需要自動總結之前的上下文,確保聊天持續進行。Claude for Chrome(讓Claude 處理瀏覽器標籤頁任務)現已向所有Max使用者開放。Claude for Excel,從今天起將Beta測試權限擴展至所有Max、Team和Enterprise使用者。每一次更新都充分利用了Claude Opus 4.5在電腦操作、電子表格處理和長任務處理方面的市場領先性能。對於有權訪問Opus 4.5的Claude和Claude Code使用者,Anthropic取消了針對 Opus 的特定限制。對於Max和Team Premium使用者,Anthropic提高了總使用上限,這意味著擁有的Opus Token數量將與此前擁有的 Sonnet Token數量大致相同。這些限制專門針對 Opus 4.5,隨著未來更強模型的推出,限制預計會按需更新。開發者平台:token暴降85%隨著模型變得更聰明,它們能以更少的步驟解決問題:更少的回溯,更少的冗餘探索,更少的囉嗦推理。在達到類似或更好結果時,Claude Opus 4.5的Token數大幅減少。但不同的任務需要不同的權衡。有時開發者希望模型對問題進行深思熟慮,有時則需要它更敏捷。通過Claude API新增的effort(投入度)參數,可以選擇最小化時間與成本,或是最大化能力。設定為「中等」投入度時,Opus 4.5在SWE-bench Verified上的得分與Sonnet 4.5的最高分持平,但輸出Token減少了76%。在「最高」投入度下,Opus 4.5的表現超越Sonnet 4.5達4.3%,同時Token消耗仍減少了48%。憑藉投入度控制、上下文壓縮和高級工具使用,Claude Opus 4.5執行階段間更長,功能更強,且需更少的人工干預。上下文管理和記憶能力可顯著提升智能體任務的性能。Opus 4.5在管理子智能體團隊方面也非常高效,能夠建構複雜、協調良好的多智能體系統。測試顯示,結合所有這些技術,Opus 4.5在深度研究評估中的表現提升了近15%。同在今天,Anthropic在Claude開發者平台上,更新了三大工具使用功能:工具搜尋工具(Tool Search Tool)程序化工具呼叫(Programmatic Tool Calling)工具使用示例(Tool Use Examples)工具搜尋工具首先,「工具搜尋工具」允許Claude使用搜尋工具訪問數千個工具,而無需消耗其上下文窗口。MCP工具定義提供了重要的上下文,但隨著連接的伺服器增多,這些Token的消耗會不斷累積。假設一個包含五個伺服器的設定:GitHub:35個工具(約26KToken)Slack:11個工具(約21KToken)Sentry:5個工具(約3KToken)Grafana:5個工具(約3KToken)Splunk:2個工具(約2KToken)這僅僅是58個工具,在對話開始之前就已經消耗了大約55K Token。如果加入更多像Jira這樣的伺服器(僅它本身就使用約17KToken),很快就會面臨100K+Token的開銷。在Anthropic,團隊曾見過工具定義在最佳化前就消耗了134KToken。但Token成本並不是唯一的問題。最常見的失敗原因還包括錯誤的工具選擇和不正確的參數,尤其是當工具具有相似名稱時,比如notification-send-user與notification-send-channel。想相比之下,工具搜尋工具不再預先載入所有工具定義,而是按需發現工具。Claude只會看到當前任務實際需要的工具。工具搜尋工具保留了191,300 Token的上下文,而傳統方法只有122,800傳統方法:預先載入所有工具定義(50+ MCP工具約消耗72KToken)對話歷史和系統提示詞爭奪剩餘空間總上下文消耗:在任何工作開始前約77K Token使用工具搜尋工具:僅預先載入工具搜尋工具本身(約500Token)根據需要按需發現工具(3-5個相關工具,約3KToken)總上下文消耗:約8.7KToken,保留了95%的上下文這意味著在保持訪問完整工具庫的同時,Token使用量減少了85%。內部測試顯示,在處理大型工具庫時,MCP評估的精準性顯著提高。啟用工具搜尋工具後,Opus 4精準率從49%提高到74%,Opus 4.5從79.5%提高到88.1%。程序化工具呼叫「程序化工具呼叫」允許Claude在程式碼執行環境中呼叫工具,從而減少對模型上下文窗口的佔用。隨著工作流變得更加複雜,傳統的工具呼叫產生了兩個基本問題:中間結果造成的上下文污染推理開銷和手動合成示例:預算合規性檢查比如,一個常見的業務任務:「那些團隊成員超出了他們的Q3差旅預算?」你有三個可用工具:get_team_members(department) - 返回帶有ID和等級的團隊成員列表get_expenses(user_id, quarter) - 返回使用者的費用明細項目get_budget_by_level(level) - 返回員工等級的預算限額傳統方法:獲取團隊成員→20人對於每個人,獲取他們的Q3費用→20次工具呼叫,每次返回50-100個明細項目(機票、酒店、餐飲、收據)按員工等級獲取預算限額所有這些都進入Claude的上下文:2,000+費用明細項目(50 KB+)Claude手動彙總每個人的費用,尋找他們的預算,將費用與預算限額進行比較更多的模型往返互動,顯著的上下文消耗使用程序化工具呼叫:Claude不再接收每個工具的返回結果,而是編寫一個Python指令碼來編排整個工作流。該指令碼在程式碼執行工具(一個沙盒環境)中運行,在需要工具結果時暫停。當通過API返回工具結果時,它們由指令碼處理而不是由模型消耗。指令碼繼續執行,Claude只看到最終輸出。程序化工具呼叫使Claude能夠通過程式碼而不是通過單獨的API往返來編排工具,從而允許平行執行工具。以下是Claude為預算合規性任務編寫的編排程式碼示例:Claude的上下文僅接收最終結果:兩到三個超出預算的人員。2,000+明細項目、中間總和和預算尋找過程不會影響Claude上下文,將消耗從200KB的原始費用資料減少到僅1KB的結果。這種過程,在效率提升巨大:Token節省:通過將中間結果隔離在Claude的上下文之外,程序化工具呼叫(PTC)顯著減少了Token消耗。在複雜研究任務上,平均使用量從43,588降至27,297個Token,減少了37%。降低延遲:每次API往返都需要模型推理(耗時數百毫秒到數秒)。當Claude在單個程式碼塊中編排20+個工具呼叫時,消除了19+次推理過程。API處理工具執行,而無需每次都返回模型。提高精準性:通過編寫顯式的編排邏輯,Claude在處理多個工具結果時比使用自然語言更少出錯。內部知識檢索精準率從25.6%提高到28.5%;GIA基準測試從46.5%提高到51.2%。工具使用示例「工具使用示例」提供了一套通用標準,用於演示如何有效地使用給定工具。當前的挑戰在於,JSON Schema擅長定義結構——類型、必填欄位、允許的列舉值——但它無法表達使用模式:何時包含可選參數,那些組合有意義,或者API期望什麼樣的慣例。考慮一個支援工單API:模式定義了什麼是有效的,但留下了關鍵問題未解答:格式歧義:due_date應該使用"2024-11-06"、"Nov 6, 2024"還是"2024-11-06T00:00:00Z"?ID慣例:reporter.id是UUID、"USR-12345"還是僅僅"12345"?巢狀結構用法:Claude何時應該填充reporter.contact?參數相關性:escalation.level和escalation.sla_hours如何與priority相關聯?這些歧義可能導致畸形的工具呼叫和不一致的參數使用。對此,工具使用示例可以直接在工具定義中提供示例工具呼叫。開發者不再僅依賴模式,而是向Claude展示具體的使用模式:從這三個例子中,Claude學習到:格式慣例: 日期使用YYYY-MM-DD,使用者ID遵循USR-XXXXX,標籤使用kebab-case(短橫線命名)。巢狀結構模式: 如何構造帶有巢狀contact對象的reporter對象。可選參數相關性: 嚴重錯誤(Critical bugs)需要完整的聯絡資訊+帶有嚴格SLA的升級;功能請求有報告者但沒有聯絡資訊/升級;內部任務只有標題。在自內部測試中,工具使用示例在複雜參數處理上的精準性從72%提高到90%。大受好評在發佈前,Anthropic內部對模型進行了測試,反饋出奇一致。測試者指出,在處理模糊指令和權衡利弊時,Claude Opus 4.5無需過多指引。當面對複雜的多系統Bug時,Opus 4.5 能精準定位並修復。幾周前對於Sonnet 4.5來說還近乎不可能的任務,現在已觸手可及。總而言之,測試者的評價是:Opus 4.5是真的「行家」。 (新智元)
大幅降價、無限聊天、編碼能力超越人類專家,Claude Opus 4.5重奪最強模型王冠
11月25日凌晨,Anthropic發佈了其迄今最強大的AI模型Claude Opus 4.5。該公司宣稱,新模型在軟體工程任務上實現了“最先進性能”,進一步加劇了其與OpenAI、Google等對手之間的競爭。Claude Opus 4.5在Anthropic軟體工程測試中表現出色,得分超越Gemini 3 Pro、GPT-5.1等一眾對手。圖:Claude Opus 4.5在SWE Bench軟體工程測試中的性能表現公司資料顯示,該模型在SWE-bench Verified(一項評估現實世界軟體工程能力的基準測試)中達到了80.9%的精準率,表現超越了OpenAI的GPT-5.1-Codex-Max(77.9%)、Anthropic自家的Sonnet 4.5(77.2%)以及Google的Gemini 3 Pro(76.2%)。同時,Anthropic大幅下調了這款模型的定價:輸入token降至每百萬5美元,輸出token為每百萬25美元,較前代產品Claude Opus 4.1(輸入15美元/百萬,輸出75美元/百萬)下降約三分之二。降價使得尖端AI技術對廣大開發者和企業更加觸手可及,同時也給競爭對手帶來了性能與價格的雙重壓力。現實任務中展現更優判斷力測試人員普遍反饋,新模型在各種任務中展現出更強的判斷力與直覺。他們將這種進步描述為:模型開始領悟現實情境中的“關鍵所在”。“這個模型好像突然‘開竅’了,”開發者關係負責人阿爾伯特表示,“它在處理許多現實問題時表現出的直覺和判斷力,讓人感覺相比前代模型實現了一次質的跨越。”阿爾伯特以自身工作為例進一步說明:過去他僅利用AI收集資訊,而對它們的整合與優先順序排序能力持保留態度。如今,借助Opus 4.5,他已開始委託更完整的任務,通過連接Slack和內部文件,模型能生成與他預期高度契合的連貫摘要。賓夕法尼亞大學沃頓商學院教授、生成式AI實驗室聯合主任伊桑·莫利克測試後評論道,新模型的能力確實處於技術前沿。其最顯著的提升在於實際應用,例如跨軟體操作(如用Excel製作PPT)。核心工程測試中超越所有人類工程師Claude Opus 4.5在Anthropic內部一項高難度工程評估中創下了新紀錄。這項評估本是公司為性能工程師崗位設計的限時程式設計測試,要求求職者在兩小時內完成,旨在考察其技術能力與問題判斷力。Anthropic透露,通過採用“平行測試時計算”技術,即彙總模型的多次解題嘗試並篩選最優結果,Opus 4.5的最終得分超越了所有曾參與該測試的人類工程師。在不限時間的條件下,若在其專用編碼環境Claude Code中運行,Claude Opus 4.5的解題表現更是與史上最高分的人類工程師持平。不過該公司也坦言,這類測試無法衡量其他關鍵專業技能,例如團隊協作、有效溝通,或是經年累月形成的專業直覺。核心基準測試token消耗大幅降低76%除原始性能突破外,Anthropic更將效率提升視為Claude Opus 4.5的核心競爭力。新模型在達成相同甚至更優結果時,所需處理的計算token數量顯著減少。具體資料顯示,在“中等”投入等級下,Opus 4.5可在SWE-bench Verified測試中達到與Sonnet 4.5相同的最高分,而輸出token消耗量卻大幅降低了76%。即便在“高”投入等級追求極限性能時,其表現比Sonnet 4.5再提升4.3個百分點,token使用量仍減少了近一半(48%)。為賦予開發者更精細的控制權,Anthropic引入了全新的“投入”參數。使用者可通過此參數,動態調節模型處理每個任務時所投入的計算工作量,從而在性能、響應速度和成本之間找到最佳平衡點。GitHub首席產品官馬里奧·羅德里格斯也證實了類似發現:“早期測試表明,Opus 4.5在token消耗減半的同時,性能仍超越了我們的內部編碼基準,尤其在程式碼遷移與重構等複雜任務上表現尤為出色。”阿爾伯特對此現象作出技術解讀:Claude Opus 4.5並非直接更新其底層參數,而是在持續最佳化解決問題的工具與方法。“我們看到它在迭代精進任務技能,通過自主最佳化執行方式來提升最終效果,”他解釋道。這種自我進化能力已突破程式設計領域。阿爾伯特透露,在專業文件生成、電子表格處理和簡報製作等場景中,模型表現均有顯著提升。深度整合Office突破上下文長度限制伴隨新模型的發佈,Anthropic同步推出了一系列面向企業場景的重要更新。專為Excel設計的Claude功能現已向Max、Team及Enterprise使用者全面開放,新增了對資料透視表、可視化圖表及檔案上傳的完整支援。同時,Chrome瀏覽器擴充套件也已向全體Max使用者開放使用。本次更新最具革命性的當屬“無限聊天”功能——該技術通過智能總結長對話中的早期內容,有效突破了傳統上下文窗口的限制。“在Claude AI產品中,憑藉我們創新的內容壓縮與記憶體管理技術,使用者實際上獲得了近乎無限的對話效果,”阿爾伯特解釋道。面向開發者群體,Anthropic推出了更具工程價值的“程序化工具呼叫”能力,使得Claude能夠直接編寫並執行可呼叫外部函數的程式碼。同時,Claude Code不僅升級了“計畫模式”,更以研究預覽版形式推出了桌面客戶端,首次支援開發者平行運行多個AI智能體會話。AI步入“自我進化”與盈利挑戰並存新階段模型迭代速度正成為競爭焦點。Opus 4.5距前代Haiku 4.5和Sonnet 4.5發佈僅相隔數周,這折射出整個行業的加速態勢。2025年間,OpenAI持續推出多個GPT-5變體,並於11月發佈可自主運行24小時的Codex Max模型;Google也經過數月打磨,在11月中旬正式推出Gemini 3。值得注意的是,Anthropic正利用AI技術反哺自身研發。阿爾伯特透露:“無論是產品建構還是模型研究,Claude本身都在為我們提供助力,顯著加速了開發處理程序。”面對價格戰可能帶來的利潤壓力,阿爾伯特持樂觀態度:“降價將推動更多初創公司深度整合並主推我們的技術,從而擴大市場基礎。”然而,儘管AI市場預計十年內將突破兆美元規模,主要實驗室在巨額投入計算設施與人才的同時,盈利之路依然漫長,尚未有任何供應商確立絕對主導地位。對企業和開發者而言,這場競賽正轉化為持續提升的性能與不斷下降的成本。但隨著AI在專業技術任務上逼近甚至超越人類水平,其對各行業工作模式的顛覆已從理論探討變為現實挑戰。談及AI在工程測試中超越人類的表現,阿爾伯特坦言:“這無疑是一個值得高度重視的訊號。”(騰訊科技)
領先 AI「Claude」預言:2025 年底 XRP、ADA、Pi 幣價格走勢
Anthropic 旗下的高級 AI「Claude」最新喊單指出,XRP、Cardano 和 Pi Network 的持幣黨,隨著年底節日行情臨近,有機會迎來一波不小的上行收益。在聯準會宣布降息 25 個基點之後,市場情緒明顯回暖,整體環境逐漸偏向「風險偏好」,為聖誕前後的行情衝刺鋪好了路。同時,加密市場先前這一輪長達一個月的回調,似乎也開始進入尾聲。雖然這波下殺把全線幣價都按在地上摩擦,但老韭菜都懂——這種深度回撤,往往是下一輪主升浪的「蓄力洗牌」,把場內過高槓桿和短線投機都清洗出去,為後面的大行情騰位置。如今的幣圈早就不只是比特幣「價值儲存」的單一故事。分析師普遍看好:下一輪大牛,很可能由一眾山寨領漲。其中,Claude 點名 XRP、Cardano 和 Pi Network,是接下來最有潛力走出強勢「主升段」的熱門選手之一。XRP(瑞波):Claude 預言聖誕送 350% 超級紅包Claude AI 預計,瑞波 XRP ($XRP)到今年年底有機會衝到 10 美元,相較目前約 2.20 美元 的價位,潛在漲幅大約 355%,堪稱給持幣黨發「聖誕大禮包」。來源:Claude今年早些時候,Ripple 在和美國證監會(SEC)的官司中打出一波翻盤,極大提振了市場信心,直接把 XRP 推上了 7 年新高 3.65 美元(7 月)。過去 12 個月裡,這枚老牌山寨暴漲約 296%,遠甩比特幣和以太幣幾條街。另一方面,Ripple 推出自家穩定幣 RLUSD,加上 CEO Brad Garlinghouse 還和前美國總統川普有過直接溝通,讓市場更加把 Ripple 視為「合規賽道裡的優等生」,這對機構資金和散戶玩家來說,都是非常加分的信號,有利於持續為 XRP 吸引籌碼買盤與長線。技術面顯示,XRP 在 2025 年走勢上已經走出了 兩個看漲旗形形態,暗示後面還有機會延續上一波主升趨勢,年底前再來一段拉升並非天方夜譚。如果再疊加更多利多催化劑——例如 XRP 現貨 ETF 過審、Ripple 官員宣更多重磅合作、美國監管進一步給出「明牌」——那 Claude 所喊的 10 美元目標位,實現機率就會大幅拉高。Cardano(ADA):Claude 預期 Q4 有機會來一波 10 倍行情Cardano ($ADA) 依舊是 DeFi 領域裡技術含量最高的公鏈之一。因為有學術派背景、不斷擴張的開發者生態,以及持續成長的去中心化應用程式(dApp)版圖,它經常被視為 最接近以太坊的「正面競爭對手」。來源: ClaudeCardano 由以太坊聯合創始人 Charles Hoskinson 創建,是一條典型的「學術派公鏈」,走的是科研驅動路線:透過論文、同行評審等方式推進開發,重點圍繞 擴展性、長期可持續性以及安全性 打磨底層架構,走的就是那種「慢就是快、先把地基打牢」的路線。目前 Cardano 市值大約在 200 億美元 左右,依然穩居 DeFi 頭部項目行列,在一眾公鏈裡屬於基本面硬、抗跌能力強的那一檔,很多人把它當成“長線價值倉位”來配置。Claude 給出的目標價顯示,ADA 有機會在跨入新年的時候上探到 約 5.33 美元,相當於 潛在漲幅約 852%,也就是差不多是目前 0.56 美元附近價位的 5 倍左右。如果後續多頭趨勢能夠延續,再疊加大盤一波全面狂飆,那麼 Cardano 甚至有機會在 2026 年初 再度突破 2021 年歷史高點 3.09 美元,走出新高行情。Pi Network(PI):Claude 預期有機會「直接起飛」Pi Network($PI)主打一個「手機挖礦」概念,讓用戶只需要每天拿起手機打開 App 點一點,就可以輕鬆挖 Pi,等於把過去那種「礦機+電費」的重裝備挖礦模式,改造成了人人都能參與的輕量級挖礦體驗。對許多早期玩家來說,這更像是在手機上「提前埋伏潛力籌碼」。來源: Claude目前 Pi 幣價格在 0.22 美元附近徘徊,過去 24 小時已經拉升了約 5%,而與此同時,大盤整體還在迴調,跌了差不多 3%,可以說是逆勢走強,抗跌還帶點獨立行情味兒。Claude 給出的 Q4 目標相當誇張——預期 Pi 有機會一路拉到 10 美元,也就是 大約 45 倍的潛在漲幅,標準“一飛沖天”級別的 Moonshot 預期。從技術指標來看,Pi 的 相對強弱指數(RSI)目前在 47 左右,已經從週二的 30 超賣區附近明顯回升,說明這幾天的買盤動能在穩步回暖,抄底資金開始陸續進場,市場情緒也在從恐慌區往“觀望偏樂觀”方向切換。Pi 今日的這波走強,很大機率跟團隊剛放出的利好有關——官方剛宣布 已投資並牽手 AI 新創項目 OpenMind,雙方已經成功做出示範:Pi 的節點運營者可以幫外部公司跑算力任務,等於把“挖礦節點”升級成“算力服務節點”,直接把 Pi 網絡上“AI + 化故事線計算在中心“AI +”網絡上的故事線。同時,團隊最近也上線了一個全新的測試網,支援去中心化交易所(DEX)、自動做市商(AMM)和流動性提供者(LP),外加一個 升級版的 KYC 實名驗證系統。這些動作整體看下來,就是在給 Pi 補齊“交易基礎設施 + 合規基礎設施”,為後面主網上線、生態擴張和資金進場提前搭好舞台,也難怪短線盤面會給出正向回饋。https://x.com/PiCoreTeam/status/1985462556736291059?s=20Maxi Doge(MAXI):高風險、志在 100 倍的 Meme 幣Maxi Doge($MAXI)是一隻 不在 Claude 資料集內、但正在引發市場熱議的新 Meme 幣預售項目,目前已經從投資者手中募集了超過 390 萬美元,這些投資者希望抓住下一輪類似 Dogecoin 的巨大行情機會。作為「狗狗幣更吵、更瘋的對照版」,Maxi Doge 活躍於加密圈高能的 degen 社區,透過舉辦表情包競賽、社區活動,並在社交媒體上製造討論熱度來維持其影響力。MAXI 作為部署在以太坊上的 ERC-20 代幣,相較於基於舊版區塊鏈的 Dogecoin,擁有 更快的交易速度、更低的成本以及更高的能源效率。在 1502.4 億枚代幣的總供應量中,有 25% 被分配至「Maxi 基金」,用於支持行銷活動、合作夥伴關係拓展以及專案生態的長期建設與發展。目前質押功能已上線,年化收益率(APY)最高可達 78%,不過預期隨著參與質押的用戶增多,這一收益水準將會逐步下降。目前預售價格為 0.000267 美元,並計劃在每一輪預售階段逐步上調價格。投資者可以透過 MetaMask 或 Best Wallet 購買 MAXI。想獲得最新進展,可關注 Maxi Doge 官方的 X 帳號和 Telegram 頻道。1000倍幣Maxi Doge($MAXI)價格預測按此瀏覽原文免責聲明加密貨幣投資風險高,價格波動大,可能導致資金損失。本文僅供參考,不構成投資建議。請自行研究(DYOR)並謹慎決策。