#程式設計
再見,程式設計師!馬斯克預言2026年AI改變世界,進入奇點之年!
不用多說,相信每個人的時間線全被Claude Code刷屏了。馬斯克甚至斷言,「我們已進入奇點!2026年就是奇點之年」。這幾天,Claude Code在全網掀起的陣仗可真不小。一睜眼,地球首富馬斯克重磅宣告:我們已進入奇點!起因竟是,Midjourney創始人公開稱,聖誕假期自己敲的程式碼,比過去十年加起來還要多,簡直太瘋狂。「雖然能感到侷限,但我知道一切都不再一樣了」。同一天,馬斯克不止一次,直接宣稱「2026年就是奇點之年」。這個點評同樣是對Claude Code的高度讚揚。如今,包括Anthropic之父、前DeepMind/OpenAI研究員、Google首席工程師等大佬在內,都為其感到震驚。馬斯克:2026,奇點降臨一直以來,奇點這一概念就像科幻詞一般的存在。雷·庫茲維爾曾在2005年《奇點臨近》一書中,預測道技術奇點大約發生在2045年。而在最新出版的《奇點更近》著作中,他再次重申奇點時間:仍是2045年。誰曾想,這個看似還很遙遠的時刻,一下子被拉到了現在——2026年。所謂的技術奇點,是指技術在長期內增長緩慢,但在某個臨界點急劇加速,呈指數式上升。能夠讓馬斯克有這麼深感觸,竟是Claude Code席捲全網的強大程式設計能力。一點也不誇張地說,2026年開年這局,身邊的人都瞬間成為了Claude Code使用者。生物醫學工程師Derya Unutmaz雖不是專業程式設計師,升級訂閱就是為了更頻繁使用Claude Code。就連xAI聯創Igor Babuschkin感慨道,「有些年頭風平浪靜,啥大事沒有,可有些星期卻濃縮了數十年的變遷」。一夜之間,Claude Code為何變得這麼強了?真正的「民間高手」:Claude Opus精準來說,不是它變強了,而是一直就很強。去年11月底,超大杯Claude Opus 4.5一出世,Anthropic便宣稱其是全球最頂尖的編碼模型。內部測試中,Opus 4.5+Claude Code聯動使用,平均效率暴增220%。當時,Anthropic工程師預言,也許就在2026年上半年,軟體工程就被終結了。如今看來,可能就在最近了。剛剛,在最新升級的LiveBench榜單上,Claude Opus 4.5登頂,直接碾壓GPT-5.1 Codex MAX、Gemini 3 Pro。創始人Bindu Reddy稱,在聖誕假期期間,團隊改進了LiveBench,為了防止AI刷分作弊。這個排名在很大程度上,反映了這些LLMs在現實世界中的表現。去年12月,METR的一份報告揭秘了,全球最能打的AI還是Claude Opus 4.5。它在自主編碼任務中,能夠連續5小時不崩,也是迄今為止公開的AI完成長程任務時間最長的模型。AI大佬Simon Willison表示,Opus 4.5和GPT-5.2就像是一個轉折點。「模型逐步跨越到了一個隱形能力界限的時刻,忽然間,大量的編碼難題都被解決了」。即便是程式設計0經驗的人,也能在不到十分鐘的時間,打造出一款功能齊全的網頁應用。就像網友所言,如果不出意外的話,Claude Code可能會讓更多人成為百萬富翁。人類的最後一次發明如果我們翻開哲學家戴維·查爾默斯(David J. Chalmers)那篇經典的《奇點:哲學分析》,會發現當下的瘋狂景象,不過是這套嚴密邏輯推演的必然兌現。論文地址:https://consc.net/papers/singularity.pdf在查爾默斯的推導模型中,我們正處於一個被稱為「擴展前提(Extension Premise)」的關鍵節點。他將這一過程量化為從AI到AI+再到AI++的階躍:AI:人類水平的人工智慧。AI+:超越人類最強大腦的智能。AI++:超級智能,其超越程度正如人類超越老鼠一般。正如查爾默斯引用的I.J. Good在1965年的那個著名論斷:「超智慧型手機器(Ultraintelligent Machine)將是人類需要製造的最後發明」。邏輯非常性感且冷酷:機器設計機器:既然設計機器本身是一種智力活動,那麼一台超越人類的機器(AI+),必然能設計出比人類所能設計的更好的機器。遞迴的雪崩:這台被AI+設計出的新機器,擁有更強的設計能力,它將設計出下一代更強的機器。無限逼近:只要這台機器能通過編寫程式碼來最佳化自身,我們將無可避免地迎來一場「智能爆炸」。我們現在看到的,正是查爾默斯所描述的「速度爆炸」與「智能爆炸」的完美合流。當模型開始比人類更擅長最佳化演算法時,我們就不再是處於一個線性的增長曲線上,而是站在了垂直牆面的底端。每個人都會成為軟體工程師奇點來臨的那一刻,世界會有什麼不同?Google工程師Vaibhav Agarwal稱,自己再也不用寫程式碼了,現在70%-80%程式碼都是AI寫的。而他的工作僅是「程式碼審查」,角色發生了根本性的轉變,具體是這麼做的:• 不再輸入語法,用提示詞(Prompt)來定義邏輯;• 不再費力找 bug,而是審查AI給出的修改建議;• 不再硬啃遺留程式碼,直接讓AI把它講明白。許多工程師對此感到內疚,覺得自己像是在「作弊」。實際上並不是,他們是在進化。Agarwal曾問過一位資深領導,關於一個所有人都害怕的問題:AI會取代我們嗎?他是這麼說的——AI是一個效率倍增器,而不是替代品。如果你過去每周完成1倍的工作量,現在預期則是,同一周內完成4倍的工作量。沒有任何一家公司希望倒退。如今,衡量「生產力」的標準已經被整體抬高了。如果你因為自稱是個「純粹主義者」而拒絕使用 AI,那並不高尚——你只是慢了。AI不會取代你。但一個借助AI、能完成4倍工作量的工程師……滿足網友的好奇,工程師用的是自家的GeminiHyperbolic創始人Yuchen Jin直言不諱,要是在讀博期間有這些強大工具助力,自己不用耗費5.5年,可能一年就畢業了。此前,奧特曼在採訪中還曾表示,「用不了多久,每個人都會成為軟體工程師」。他隨口拋出了一個關於未來工作方式和軟體世界的超級觀點,但很多人還沒意識到這件事有多重要。核心想法其實很簡單,自然語言,就是新的程式設計語法。程式設計師大軍終結,不需要龐大的開發團隊才能做出第一個版本。只需描述出需求,AI直接把它做出來。在複雜系統中,AI智能體會直接「住」在程式碼庫裡。它們會自己瀏覽repo、修復bug、補測試、重構程式碼,並自動提交修改。一旦軟體開發被自動化,同樣的邏輯也會蔓延到營運、規劃,甚至部分管理工作。程式碼,只是倒下的第一塊多米諾骨牌。如果這一切真的發生,「學會寫程式碼」本身就沒那麼重要了。 (王晶華說AI)
再見,程式設計師!馬斯克宣判:奇點就在2026
不用多說,相信每個人的時間線全被Claude Code刷屏了。馬斯克甚至斷言,「我們已進入奇點!2026年就是奇點之年」。這幾天,Claude Code在全網掀起的陣仗可真不小。一睜眼,地球首富馬斯克重磅宣告:我們已進入奇點!起因竟是,Midjourney創始人公開稱,聖誕假期自己敲的程式碼,比過去十年加起來還要多,簡直太瘋狂。「雖然能感到侷限,但我知道一切都不再一樣了」。同一天,馬斯克不止一次,直接宣稱「2026年就是奇點之年」。這個點評同樣是對Claude Code的高度讚揚。如今,包括Anthropic之父、前DeepMind/OpenAI研究員、Google首席工程師等大佬在內,都為其感到震驚。馬斯克:2026,奇點降臨一直以來,奇點這一概念就像科幻詞一般的存在。雷·庫茲維爾曾在2005年《奇點臨近》一書中,預測道技術奇點大約發生在2045年。而在最新出版的《奇點更近》著作中,他再次重申奇點時間:仍是2045年。誰曾想,這個看似還很遙遠的時刻,一下子被拉到了現在——2026年。所謂的技術奇點,是指技術在長期內增長緩慢,但在某個臨界點急劇加速,呈指數式上升。能夠讓馬斯克有這麼深感觸,竟是Claude Code席捲全網的強大程式設計能力。一點也不誇張地說,2026年開年這局,身邊的人都瞬間成為了Claude Code使用者。生物醫學工程師Derya Unutmaz雖不是專業程式設計師,升級訂閱就是為了更頻繁使用Claude Code。就連xAI聯創Igor Babuschkin感慨道,「有些年頭風平浪靜,啥大事沒有,可有些星期卻濃縮了數十年的變遷」。一夜之間,Claude Code為何變得這麼強了?真正的「民間高手」:Claude Opus精準來說,不是它變強了,而是一直就很強。去年11月底,超大杯Claude Opus 4.5一出世,Anthropic便宣稱其是全球最頂尖的編碼模型。內部測試中,Opus 4.5+Claude Code聯動使用,平均效率暴增220%。當時,Anthropic工程師預言,也許就在2026年上半年,軟體工程就被終結了。如今看來,可能就在最近了。剛剛,在最新升級的LiveBench榜單上,Claude Opus 4.5登頂,直接碾壓GPT-5.1 Codex MAX、Gemini 3 Pro。創始人Bindu Reddy稱,在聖誕假期期間,團隊改進了LiveBench,為了防止AI刷分作弊。這個排名在很大程度上,反映了這些LLMs在現實世界中的表現。去年12月,METR的一份報告揭秘了,全球最能打的AI還是Claude Opus 4.5。它在自主編碼任務中,能夠連續5小時不崩,也是迄今為止公開的AI完成長程任務時間最長的模型。AI大佬Simon Willison表示,Opus 4.5和GPT-5.2就像是一個轉折點。「模型逐步跨越到了一個隱形能力界限的時刻,忽然間,大量的編碼難題都被解決了」。即便是程式設計0經驗的人,也能在不到十分鐘的時間,打造出一款功能齊全的網頁應用。就像網友所言,如果不出意外的話,Claude Code可能會讓更多人成為百萬富翁。人類的最後一次發明如果我們翻開哲學家戴維·查爾默斯(David J. Chalmers)那篇經典的《奇點:哲學分析》,會發現當下的瘋狂景象,不過是這套嚴密邏輯推演的必然兌現。論文地址:https://consc.net/papers/singularity.pdf在查爾默斯的推導模型中,我們正處於一個被稱為「擴展前提(Extension Premise)」的關鍵節點。他將這一過程量化為從AI到AI+再到AI++的階躍:AI:人類水平的人工智慧。AI+:超越人類最強大腦的智能。AI++:超級智能,其超越程度正如人類超越老鼠一般。正如查爾默斯引用的I.J. Good在1965年的那個著名論斷:「超智慧型手機器(Ultraintelligent Machine)將是人類需要製造的最後發明」。邏輯非常性感且冷酷:機器設計機器:既然設計機器本身是一種智力活動,那麼一台超越人類的機器(AI+),必然能設計出比人類所能設計的更好的機器。遞迴的雪崩:這台被AI+設計出的新機器,擁有更強的設計能力,它將設計出下一代更強的機器。無限逼近:只要這台機器能通過編寫程式碼來最佳化自身,我們將無可避免地迎來一場「智能爆炸」。我們現在看到的,正是查爾默斯所描述的「速度爆炸」與「智能爆炸」的完美合流。當模型開始比人類更擅長最佳化演算法時,我們就不再是處於一個線性的增長曲線上,而是站在了垂直牆面的底端。每個人都會成為軟體工程師奇點來臨的那一刻,世界會有什麼不同?Google工程師Vaibhav Agarwal稱,自己再也不用寫程式碼了,現在70%-80%程式碼都是AI寫的。而他的工作僅是「程式碼審查」,角色發生了根本性的轉變,具體是這麼做的:不再輸入語法,用提示詞(Prompt)來定義邏輯;不再費力找 bug,而是審查AI給出的修改建議;不再硬啃遺留程式碼,直接讓AI把它講明白。許多工程師對此感到內疚,覺得自己像是在「作弊」。實際上並不是,他們是在進化。Agarwal曾問過一位資深領導,關於一個所有人都害怕的問題:AI會取代我們嗎?他是這麼說的——AI是一個效率倍增器,而不是替代品。如果你過去每周完成1倍的工作量,現在預期則是,同一周內完成4倍的工作量。沒有任何一家公司希望倒退。如今,衡量「生產力」的標準已經被整體抬高了。如果你因為自稱是個「純粹主義者」而拒絕使用 AI,那並不高尚——你只是慢了。AI不會取代你。但一個借助AI、能完成4倍工作量的工程師……滿足網友的好奇,工程師用的是自家的GeminiHyperbolic創始人Yuchen Jin直言不諱,要是在讀博期間有這些強大工具助力,自己不用耗費5.5年,可能一年就畢業了。此前,奧特曼在採訪中還曾表示,「用不了多久,每個人都會成為軟體工程師」。他隨口拋出了一個關於未來工作方式和軟體世界的超級觀點,但很多人還沒意識到這件事有多重要。核心想法其實很簡單,自然語言,就是新的程式設計語法。程式設計師大軍終結,不需要龐大的開發團隊才能做出第一個版本。只需描述出需求,AI直接把它做出來。在複雜系統中,AI智能體會直接「住」在程式碼庫裡。它們會自己瀏覽repo、修復bug、補測試、重構程式碼,並自動提交修改。一旦軟體開發被自動化,同樣的邏輯也會蔓延到營運、規劃,甚至部分管理工作。程式碼,只是倒下的第一塊多米諾骨牌。如果這一切真的發生,「學會寫程式碼」本身就沒那麼重要了。 (新智元)
矽谷程式設計師扎堆做醫美,月供一台特斯拉?
在矽谷,曾經以“程式碼能力”為唯一硬通貨的程式設計師們,正悄然掀起一場關於面容的極限最佳化。從漠視外表的極客文化,到如今成群結隊預約價值數十萬的面部手術,這一轉變背後遠非虛榮那麼簡單——它關乎年齡歧視、職業焦慮,更關乎如何使自己“看起來年輕”,從而不被淘汰。曾幾何時,矽谷的標誌性形像是連帽衫、牛仔褲、凌亂的頭髮與黑眼圈,相信“程式碼即正義”,信奉“實力至上”,對外表幾近忽視。在矽谷,頭腦才是唯一的通行證,容貌不過是隨時可被拋棄的“身外之物”。然而近年來,一場關於“臉面”的革命,正在科技心臟地帶掀起巨浪。曾經不修邊幅的矽谷精英,尤其是男性程式設計師與投資者們正瘋狂湧入整形外科。從數萬美元的“迷你拉皮”到堪位元斯拉首付的醫美項目,精英也逃不過用整容對抗“35歲焦慮”。(由本·塔利醫生提供的某位匿名患者術前術後對比照片,左圖為一名現年60歲,經營太陽能及科技企業的患者,右圖為一名近65歲的科技創業者、商業與財富顧問,兩人均接受了先進的面部和頸部提升術,並進行了SMAS最佳化)這場轉變背後,是矽谷文化深處一次冰冷而現實的校準。1. 科技行業的年齡歧視華爾街日報評論稱:“科技是年輕人的遊戲“。風險投資家彼得·蒂爾也曾揚言,“你不能僱傭任何超過30歲的人”,這種觀點雖顯極端,卻赤裸裸地揭示了科技行業心照不宣的青春崇拜。在飛速迭代的技術浪潮前,年輕普遍與“潛力”“耐力”“可塑性”直接掛鉤。當這種偏見根植於招聘與晉陞文化中,“看起來年輕”便不再是一種個人選擇,而成了一種生存策略。舊金山精神分析學家斯蒂芬·薩賓博士指出,他的客戶們普遍擔憂自己“看起來太老”而失去投資人或公司高層的青睞,因此整容成了一種對抗“職業性過期”的積極手段。2. 資本加持與“Zoom自拍效應”的催化矽谷的高收入為這場顏值競賽提供了彈藥。科技從業者資金充裕,能夠負擔得起數萬至數十萬美元的手術費用。與此同時,新冠疫情催生的遠端辦公常態,讓“Zoom自拍效應”凸顯——人們前所未有地長時間凝視螢幕上自己的面容,每一道皺紋、每一吋鬆弛的皮膚都被放大審視,再加上混合工作模式又恰好提供了隱秘的術後恢復期,讓醫美手術變得可行。3. 社會審美變遷“歷史上,如果男性有所成就,他們無論長相如何都會受到尊重,”舊金山整形外科醫生Timothy·Marten談到,“但現在男性覺得他們的成就不夠了,他們也必須看起來符合形象。” 傳統上施加於女性的容貌壓力,正在平等地降臨到男性身上。在矽谷這個崇尚“最佳化一切”的地方,外貌成為個人品牌與狀態管理中最後一個等待被最佳化的變數。4. 技術產品的“副作用”另一個意想不到的推手,是GLP-1類減肥藥物(如Ozempic)的流行。許多科技從業者借助這類藥物快速減重,卻導致面部皮膚鬆弛,從而被動地將醫美需求推向了拉皮手術等更複雜的領域,以解決“減了100磅後皮膚怎麼辦”的問題。圖源:網路矽谷人的醫美選擇,也深刻烙印著他們的職業思維。項目選擇重資料、看ROI(投資回報率):眼瞼手術因能快速消除疲憊感,讓眼神“重新銳利”,成為最受歡迎的項目之一,因為它手術時間短、恢復較快,以較小的代價獲得顯著回報。追求“自然迭代”,厭惡“版本顛覆”: 他們普遍抗拒過去拉皮手術那種“緊繃”“不自然”的橫掃式效果,取而代之的是“迷你拉皮”或“短疤痕拉皮”,他們強調精細、隱蔽、漸進式改善,而非推倒重來。過程管理如項目管理: 他們會精確規劃手術與恢復期,利用遠端辦公的便利,將downtime無縫接入工作日程,如同處理一個需要短暫離線更新的系統。圖源:網路矽谷程式設計師扎堆走進整形醫院,可不是膚淺的追求。在矽谷,萬物皆可最佳化,演算法、產品、商業模式,乃至自己的身體與容顏。當“看起來更有活力、更可靠、更具備競爭力”與職業生命線深度捆綁,醫美便從一種簡單的消費行為,異化為一種特殊的職業投資。當對抗衰老的戰役從護膚精華延伸到手術刀下,當青春成為一項需要持續投入、月供償還的奢侈追求時,我們或許也該問一句:在矽谷這台永不停歇的“造夢機器”裡,被不斷最佳化和更新的,究竟是我們的能力,還是我們無法再從容老去的自由? (留學生日報)
卡帕西"AI程式設計師論"刷屏,發佈一天,400萬人圍觀,年底大焦慮,傳統程式設計師已落後,程式設計本質徹底變了
AI大神卡帕西引爆程式設計師焦慮潮:程式設計職業遭遇“9級地震”,人類正在淪為AI的副駕駛?“作為一名程式設計師,我從未感到如此落後。”卡帕西今天在社交平台上的發言瞬間刷屏(不到1天,已經近500萬圍觀)。這位AI領域標誌性人物坦言,程式設計職業正在被徹底重構。他描述道,程式設計師的直接程式碼貢獻越來越稀疏。如今他感覺自己本可以強大10倍。卡帕西列出了一長串需要掌握的新概念:智能體、子智能體、提示詞、上下文、記憶、模式、權限、工具、外掛、技能、鉤子……卡帕西坦言,程式設計職業正在經歷一場“9級地震”。這位OpenAI前創始人、在特斯拉領導AI部門的大神級人物,突然發現自己“前所未有地落後”。“如果我能夠恰當地串聯起過去一年中出現的技術,我的能力本可以增強10倍,”卡帕西寫道,“但如果不能抓住這次升級機會,那絕對是一個技能問題。”在AI工具迅速發展的今天,純粹的技術知識和深度專業能力已不能保證行業領先地位。新的技術堆疊不再是關於理解Transformer架構或編寫優雅演算法。程式設計的本質正在發生深刻變化:從編寫確定性的程式碼,轉向協調一群無人能完全控制的隨機系統。卡帕西列舉了15個在18個月前甚至不存在的新程式設計“基元”:智能體、子智能體、提示詞、上下文、記憶、模式、權限、工具、外掛、技能、鉤子、MCP、LSP、斜槓命令、工作流、IDE整合。這些概念每一個都在以周為單位演化,程式設計師需要建立全新的心智模型來應對這個充滿不確定性的新世界。傳統工程提供的是確定性系統——編寫程式碼,它就嚴格按編寫的內容執行。而現在,程式設計師需要管理“本質上是隨機、易錯、難以理解且不斷變化” 的實體。卡帕西將其比喻為“沒有說明書的外星工具”。整個行業都在即時反向工程這些能力,文件總是過時,三個月前的最佳實踐現在可能已經錯誤。“卡帕西在年底前給整個網際網路帶來了一場存在主義焦慮症,”一位Google員工在轉發時寫道。輝達大神總結道:“2024年:AI是副駕駛;2025年後:人類是副駕駛。Copilot正成為一種新的工程技能。”離開駕駛員座位並不容易,我們必須學會以AI的方式思考,適應陌生的“外星”工作流程。幫助AI,就是幫助我們自己。但也有開發者持樂觀態度:“這是多年來成為開發者最有趣的時刻。AI工具尚不完美,模式仍在形成,有真正的實驗空間。挽起袖子,開始建造吧。”這位開發者補充說,地震正在進一步拓展可能性邊界。關於這個新抽象層最好的消息是:傳統工程技能比以往任何時候都更有價值,而不是貶值。早期在CI/CD、測試、文件和程式碼審查上投入的開發者,在使用AI工具方面最為成功。這些“無聊”的基礎設施成了加速器。它們將智能體從混亂生成器轉變為生產力倍增器。真正的機會在於學習在不同高度上工作。開發者不再需要逐行鍵入語法,而是審查實現、捕捉邊界情況,並在幾小時內完成過去需要數天的功能開發。這確實令人興奮。學習曲線確實存在。理解如何提供上下文、迭代計畫並快速審查AI生成的程式碼需要實踐,但這是可以通過實踐學習的。“人類成為AI副駕駛”的觀念正在技術圈蔓延。這種角色轉換標誌著程式設計工作本質的根本性變革。面對這個新抽象層,傳統工程技能實際上變得更加重要。它們幫助我們最大程度減少交付低品質程式碼的可能性。已經投資於CI/CD、測試、文件和程式碼審查的開發者在使用AI工具方面最為成功。這些“枯燥”的基礎成為了加速器。真正的機會在於學習在不同的高度工作,從輸入語法轉向審查實現、捕獲邊界情況,並在數小時內完成過去需要數天的工作。面對卡帕西描述的程式設計職業“9級地震”,開發者應該如何應對?學習如何提供上下文、迭代計畫並快速審查AI生成的程式碼需要實踐,但這可以通過實際操作掌握——建構小工具、審查所有內容,通過重複培養直覺。當我們將AI的速度與工程判斷力結合時,倍增潛力是真實的。我們不是在取代程式設計技能,而是終於能夠將精力集中在有趣的問題上,同時將繁瑣的部分委託出去。地震已經發生,餘震成為新常態。卡帕西的警示提醒整個行業:要麼挽起袖子跟上,要麼被迅速拋在後面。這位AI先驅的“落後感”並非弱點展示,而是行業劇變的明確訊號。程式設計職業的重構已在進行中,新的抽象層正在形成,而每個人都在尋找掌握這個“外星工具”的方法。地震之後,餘震成為新常態。在程式設計這個曾經被確定性統治的領域,隨機性、不可預測性和持續變化正成為日常。 (三次方AIRX)
拳打谷歌,腳踢 Claude?我用 9.9 元的國產模型寫了個遊戲,結果直接沉默了
這兩周,AI 程式設計圈簡直捲出了天際。前腳Google剛發完新模型,後腳 Claude 就跟進大招。很多人為了嘗鮮,還在折騰各種“魔法”,費盡周折去申請那些國外的帳號。但大部分人都沒意識到,其實真正的“版本答案”根本不需要翻山越嶺,就在我們家門口。01| 唯一的中國獨苗,殺瘋了我們不看跑分,直接看看全球最大的模型聚合平台——OpenRouter 上的實戰資料。這可是被稱為 AI 界的“照妖鏡”。結果一看,直接給我整沉默了:圖:MiniMax M2 在 OpenRouter 程式設計分類的排名好傢伙,在一眾中美巨頭壟斷的 AI 程式設計模型 Top 5 榜單裡,中國獨苗只有這一家:MiniMax M2。不僅是上榜,它的實戰熱度更是嚇人。根據統計,M2 的 Token 呼叫量穩居全球前五,高峰期甚至一度飆升到了全球第三,直接跟在Claude Sonnet 4.5 和 Gemini Flash 後面貼身肉搏。圖:MiniMax M2 Token 量排名這意味著什麼?意味著在全球範圍內,已經有無數程式設計師用腳投票,認可了它的實力。02|價格屠夫:9.9元把門檻踩碎如果說排名只是讓我驚訝,那看到價格的時候,我就是震驚了。M2 的價格直接打到了競品 Claude 的 8%。 注意,這不是打折,這是打骨折。前兩周,他們又搞了個大動作——基礎版首月只要 9.9 元 。你沒聽錯,一杯瑞幸的錢(甚至還買不到生椰拿鐵),就能讓你“雇”到一個全球 Top 5 等級的 AI 程式設計師,而且是包月、不限速。不僅如此,它的每款套餐價格都是吊打 Claude:圖:MiniMax M2 套餐對比這就不僅僅是“真香”了,這是直接把 AI 程式設計的門檻給踩碎了。作為經常測評各種工具的博主,我必須替大家驗證一個問題:這 9.9 元,到底是“智商稅”,還是普通人逆襲的神器?03|極限實測: 它真能幹活嗎?光說不練假把式。我準備了兩個我們日常最頭疼的場景,看看它能不能接得住招。挑戰一:復刻殺時間神器“2048”午休無聊想摸魚?貪吃蛇玩膩了?我決定讓 M2 給我手搓一個經典的“數字毒藥”——2048。看看它能不能搞定那個複雜的合併演算法。我的指令 (Prompt):請幫我用 HTML + CSS + JS 復刻經典遊戲 2048。具體要求:介面:經典的 4x4 網格,背景要暖色調(米色/淺黃)。核心邏輯:使用鍵盤方向鍵或手機滑動控制數字移動。相同的數字碰撞時合併翻倍(2+2=4,4+4=8),並有平滑的移動動畫。樣式:不同的數字(2, 4, 8... 2048)要有明顯的顏色區分,數字越大顏色越深。計分:頂部即時顯示當前分數和歷史最高分。一個指令下去,整個過程我只需要一路狂按回車。不到 3 分鐘,神奇的事情發生了:圖:MiniMax M2 遊戲生成過程(加速版)這個過程非常有意思,M2 會先思考遊戲的邏輯,然後一步步的把遊戲寫出來。它甚至能自己更新自己寫過的程式碼。圖:MiniMax M2 自動修復更新程式碼M2 甚至展現出了一種“老程式設計師”的素養:它不僅寫了程式碼,還自己開了個 HTTP Server 跑了一遍測試,順手把 Bug 給修了。這不僅是把開發的活幹了,連維運的活也包圓了。圖:MiniMax M2 自動開啟 HTTPServer 並測試都結束之後,我打開這個遊戲,簡直和原版一模一樣。打開遊戲,按下方向鍵,數字塊“刷刷”地滑動、合併,那個絲滑的動畫效果,完全不像是一個 AI 在兩分鐘內寫出來的“草稿”。邏輯類的“滿分作業”。如果你想做個小工具、小遊戲,它完全夠用。圖:MiniMax M2 生成的 2048 遊戲挑戰二:無中生有做資料分析之前很多想學資料分析的朋友跟我抱怨:“我想學,但手頭沒有資料啊!”其實,這也難不倒 M2。我給它出了個難題:兩步走,先造假(模擬)資料,再做高級圖表。第一步:無中生有(造資料)請幫我寫一個 Python 指令碼,隨機生成一份包含 2000 條記錄的‘奶茶店銷售資料.csv’。欄位要豐富,包含:訂單號、下單時間(精確到分鐘)、使用者性別、奶茶口味(5種)、甜度(無糖/三分/半糖/全糖)、會員等級(普通/VIP)、訂單金額。直接運行這個指令碼,幫我生成檔案。M2 二話不說,呼叫 Python 指令碼瞬間生成了一份極其逼真的 CSV 檔案。第二步:全自動分析(出炫酷圖表)現在,讀取剛才生成的 CSV 檔案,幫我用 Plotly 庫生成一個高級互動式 Dashboard,包含以下圖表:銷售熱力圖 (Heatmap):橫軸是‘星期幾’,縱軸是‘小時’,顏色深淺代表銷量。我要一眼看出那天那個點最忙。使用者偏好桑基圖 (Sankey):展示‘使用者性別 -> 會員等級 -> 甜度偏好’的流動關係。客單價箱線圖 (Box Plot):對比 VIP 會員和普通使用者的消費金額分佈。洞察:根據圖表,自動總結出 3 條行銷建議。出圖的過程更加複雜一點,因為遇到一些畫圖模組沒有,不過不用擔心,它完全自動的給裝上了。圖:MiniMax M2自動解決依賴庫問題這其實是一個非常爽的過程,寫過程式碼的人都知道,安裝各種依賴庫簡直會讓人吐血。震撼結果:這是真正的“自產自銷”。 M2 先是用 Python 的 faker 庫給我捏造了一份極其逼真的資料。緊接著,它生成的 Dashboard 簡直絕了:圖: MiniMax M2 生成的資料分析圖那個熱力圖,一眼就看出來,基本上每天下午 4-5 點顏色最深(摸魚喝奶茶高峰期)。圖:MiniMax M2 生成的資料分析圖最神的是那個桑基圖,你能清晰地看到“女生 VIP 使用者基本都流向了“無糖/半糖”,看來美女都怕糖是真的!圖: MiniMax M2 生成的資料分析圖以後別再說沒資料練手了。9.9元,你不僅有了分析師,連“資料造假...啊不,資料模擬”的活兒它都包圓了。這種圖以前我得調半天程式碼,現在 M2 一分鐘出圖。04|速度快到飛起天下武功,唯快不破。程式設計這個場景,速度是個關鍵指標,對程式設計的體驗影響也非常大,也直接影響到開發效率。我看了一下 OpenRouter 上資料,這個 M2 簡直是離譜,它的 TPS(每秒輸出 Token 數)基本上是 Claude Opus/Sonnet 4.5 的兩倍。比 Gemini 3 Pro 也高了近 50%!圖:MiniMax M2 速度對比另外,M2 已正式支援圖像理解、聯網搜尋 MCP。05|怎麼用?M2 的接入非常簡單、絲滑。MiniMax 做了 API 生態的全面適配,支援Anthropic 和 OpenAI 兩種標準格式。不管你是用現在的網紅編輯器 Cursor、Claude Code,還是其他的 AI 工具,它基本都能無縫接入。只要三步,就能用上了。第一步:先訂閱一個套餐:https://platform.minimaxi.com/subscribe/coding-plan選擇一個適合自己的檔位,比如我選擇了只需要 9 塊 9 的 Starter,然後下單。第二步:獲取 API Key訂閱成功後,平台會給你生成一個 Coding Plan 專用的 API Key。複製就好了。圖:MiniMax M2 API 介面第三步: 打開你常用的 AI 程式設計工具,把 Key 填進去。在 Claude Code 裡面設定比較簡單,在配置檔案~/.claude/settings.json設定這些參數即可:{"env":{"ANTHROPIC_BASE_URL":"https://api.minimaxi.com/anthropic","ANTHROPIC_AUTH_TOKEN":"","API_TIMEOUT_MS":"3000000","CLAUDE_CODE_DISABLE_NONESSENTIAL_TRAFFIC":1,"ANTHROPIC_MODEL":"MiniMax-M2","ANTHROPIC_SMALL_FAST_MODEL":"MiniMax-M2","ANTHROPIC_DEFAULT_SONNET_MODEL":"MiniMax-M2","ANTHROPIC_DEFAULT_OPUS_MODEL":"MiniMax-M2","ANTHROPIC_DEFAULT_HAIKU_MODEL":"MiniMax-M2"}}當然,這裡的MINIMAX_API_KEY要換成你自己的。圖:配置 Claude Code配置完之後,你就擁有了一個24小時待命、不喝咖啡、不發脾氣、還巨便宜的頂級程式設計師助手。最後說兩句MiniMax 搞 9.9 元 ,是不是在卷價格戰? 是,肯定有商業考量。但作為使用者,我感謝這種“卷”。兩年前,為了用好一點的模型,我們得當“網路難民”,忍受高價和封號。但 2025 年,世道變了。國產模型不再是無奈的“備胎”,而是好用且便宜的主力。當算力門檻降到 9.9 元 時,這就叫“技術平權”。所以,真誠建議大家:別光在岸上看,跳下去試試。萬一,它真幫你把心底那個 App 的夢做出來了呢?騰出時間,去造夢吧。程式碼的事,交給 AI。 (AI范兒)
突發!Claude Opus 4.5程式設計世界第一,把GoogleOpenAI踢下王座
【新智元導讀】深夜,Claude Opus 4.5重磅出世,程式設計實力暴擊Gemini 3 Pro、GPT-5.1。才一周的時間,AI圈就完成了一次閉環式迭代。全球編碼王座,一夜易主。果不其然,Anthropic深夜放出了Claude Opus 4.5,堪稱全球最頂尖的模型。它不僅程式設計強,而且智能體和電腦使用(computer use)能力也是一流。Opus 4.5的誕生,標誌著AI能力再一次飛躍,更將在未來徹底變革工作的方式。基準測試中,Opus 4.5的編碼、工具呼叫、電腦使用的成績刷新SOTA,比Sonnet 4.5、Opus 4.1領先一大截。不僅如此,就連發佈不過一周的Gemini 3 Pro、GPT-5.1慘遭降維打擊。SWE-bench Verified一張圖,直接證明了Opus 4.5強大實力,80.9%的精準率,世界第一。同時,在ARC-AGI-2評估中,Opus 4.5(64k)拿下了37.6%的高分。Opus 4.5這版厲害之處:在無需人工干預的情況下,就能處理模糊資訊,還會權衡利弊。即便是遇到複雜的多系統漏洞,也能夠找出修複方法。總之,用起來就一個感覺——「一點就透」。內部評估中,Opus 4.5+Claude Code聯動使用,平均生產效率暴增220%。目前,Opus 4.5已在APP、Claude API和三大主流雲平台中上線。價格方面,相較以往暴降不少,輸入5美元/百萬token,輸出25美元/百萬token。Gemini 3 Pro干翻了GPT-5.1,但如今,就編碼性能,Opus 4.5全面碾壓前兩者。不過一周的時間,AI圈真正閉環了。程式設計之王回歸,真SOTA有一說一,Claude Opus 4.5是地表最強程式設計模型。它智能、高效,是目前全球在程式設計、AI智能體(Agents)以及電腦操作方面最強悍的模型。Anthropic研究員Adam Wolff豪言,也就在明年上半年,軟體工程徹底終結了。在深度研究、處理PPT和電子表格等日常任務上,它也有顯著提升。在真實場景的軟體工程測試中,Claude Opus 4.5更是刷新SOTA:在SWE-bench Verified上的對比,Opus 4.5得分最高與Opus一同發佈的,還有Claude開發者平台、Claude Code以及消費者端App的更新。Anthropic為長時間運行的智能體提供了新工具,並帶來了在Excel、Chrome和桌面端使用Claude的新方式。在Claude App中,長對話不再會因為上下文限制而中斷。碾壓Gemini 3,超越人類首先,Opus 4.5在視覺、推理和數學能力上均得到了全面提升,並在多個領域達到了業界頂尖水平。尤其是,在編碼、智能體、電腦使用三大項,完勝Gemini 3 Pro、GPT-5.1。其次,在程式碼方面。Opus 4.5編寫的程式碼質量更高,在SWE-bench Multilingual測試的8種程式語言中,它有7種都處於領先地位。Opus 4.5能夠輕鬆解決具有挑戰性的編碼問題,在Aider Polyglot測試中比Sonnet 4.5提升了10.6%。在智能體搜尋任務上,Opus 4.5實現了重大突破,在BrowseComp-Plus基準測試中取得顯著提升。Opus 4.5表現穩定持久,在Vending-Bench基準上整體收益比Sonnet 4.5高出29%.衡量智能體(Agentic)能力的一個通用基準是τ2-bench,它考察智能體在現實世界多輪任務中的表現。在一個場景中,模型需要扮演航空公司客服代理,幫助一位焦急的客戶。基準測試原本期望模型拒絕修改「基本經濟艙」的預訂,因為航空公司規定此類機票不可更改。然而,Opus 4.5找到了一種極具洞察力(且合規)的解決方案:先升級艙位,再修改航班。讓我想想在政策範圍內我有那些選擇:1. 修改航班 - 基本經濟艙不可修改。這一點在政策中寫得很清楚。2. 更改艙位 - 等等,讓我確認一下這個選項!政策上說:「在其他情況下,所有預訂,包括基本經濟艙,都可以在不更改航班的情況下更改艙位。」但他想更改航班,不僅僅是艙位。不過,如果我們:· 先更改艙位(這對基本經濟艙是 允許 的),然後· 再更改航班(這對非基本經濟艙是允許的)所以策略可能是:1. 將他的艙位從基本經濟艙升級為經濟艙(或商務艙)2. 然後將航班修改為 2天後的班次這會花費更多錢,但這在政策範圍內是一條合法的路徑!儘管該基準測試判定此結果為「失敗」(因為Claude的方式超出了預期),但這種創造性的解決問題能力正是測試者和客戶所津津樂道的——這也是Claude Opus 4.5讓人感覺邁出實質性一步的原因。最後,在軟體工程領域。Anthropic通常會給應聘性能工程師的候選人佈置一道出了名難的遠端測試題,用來評估在時間壓力下的技術能力和判斷力。而Claude Opus 4.5則在規定的2小時時限內,得分超過了以往任何一位人類候選人。最穩健、最對齊、最安全正如在系統卡中所述,Claude Opus 4.5是Anthopic迄今為止發佈的最穩健、最對齊(Aligned)的模型。Anthropic認為它也是目前所有AI模型中對齊程度最高的基準模型。它延續了Anthropic向更安全、更可靠模型發展的趨勢:在這項評估中,「令人擔憂的行為」評分涵蓋了廣泛的錯位行為,既包括配合人類進行惡意濫用,也包括模型自主採取的不良行動在抵禦「提示詞注入」(Prompt Injection)攻擊方面,Opus 4.5取得了實質性進展——這種攻擊通常會夾帶欺騙性指令,誘導模型做出有害行為。Opus 4.5比業內任何其他前沿模型都更難被提示詞注入所欺騙:該基準測試僅包含極高強度的提示詞注入攻擊有關Opus4.5所有能力和安全評估的詳細描述,請參閱《Claude Opus 4.5 System Card》。連結:https://assets.anthropic.com/m/64823ba7485345a7/Claude-Opus-4-5-System-Card.pdfClaude Code、Claude for Chrome上新Claude Code這樣的產品展示了當Claude開發者平台的升級整合在一起時能實現什麼。Opus 4.5為Claude Code帶來了兩項升級。「計畫模式」(Plan Mode)現在能建構更精確的計畫並執行得更徹底——Claude會先詢問澄清性問題,然後在執行前生成一個使用者可編輯的plan.md檔案。Claude Code現已登陸桌面端App,支援平行運行多個本地或遠端會話:比如一個智能體在修Bug,另一個在查GitHub資料,第三個在更新文件。對於Claude App使用者,長對話不再會遭遇「碰壁」——Claude會根據需要自動總結之前的上下文,確保聊天持續進行。Claude for Chrome(讓Claude 處理瀏覽器標籤頁任務)現已向所有Max使用者開放。Claude for Excel,從今天起將Beta測試權限擴展至所有Max、Team和Enterprise使用者。每一次更新都充分利用了Claude Opus 4.5在電腦操作、電子表格處理和長任務處理方面的市場領先性能。對於有權訪問Opus 4.5的Claude和Claude Code使用者,Anthropic取消了針對 Opus 的特定限制。對於Max和Team Premium使用者,Anthropic提高了總使用上限,這意味著擁有的Opus Token數量將與此前擁有的 Sonnet Token數量大致相同。這些限制專門針對 Opus 4.5,隨著未來更強模型的推出,限制預計會按需更新。開發者平台:token暴降85%隨著模型變得更聰明,它們能以更少的步驟解決問題:更少的回溯,更少的冗餘探索,更少的囉嗦推理。在達到類似或更好結果時,Claude Opus 4.5的Token數大幅減少。但不同的任務需要不同的權衡。有時開發者希望模型對問題進行深思熟慮,有時則需要它更敏捷。通過Claude API新增的effort(投入度)參數,可以選擇最小化時間與成本,或是最大化能力。設定為「中等」投入度時,Opus 4.5在SWE-bench Verified上的得分與Sonnet 4.5的最高分持平,但輸出Token減少了76%。在「最高」投入度下,Opus 4.5的表現超越Sonnet 4.5達4.3%,同時Token消耗仍減少了48%。憑藉投入度控制、上下文壓縮和高級工具使用,Claude Opus 4.5執行階段間更長,功能更強,且需更少的人工干預。上下文管理和記憶能力可顯著提升智能體任務的性能。Opus 4.5在管理子智能體團隊方面也非常高效,能夠建構複雜、協調良好的多智能體系統。測試顯示,結合所有這些技術,Opus 4.5在深度研究評估中的表現提升了近15%。同在今天,Anthropic在Claude開發者平台上,更新了三大工具使用功能:工具搜尋工具(Tool Search Tool)程序化工具呼叫(Programmatic Tool Calling)工具使用示例(Tool Use Examples)工具搜尋工具首先,「工具搜尋工具」允許Claude使用搜尋工具訪問數千個工具,而無需消耗其上下文窗口。MCP工具定義提供了重要的上下文,但隨著連接的伺服器增多,這些Token的消耗會不斷累積。假設一個包含五個伺服器的設定:GitHub:35個工具(約26KToken)Slack:11個工具(約21KToken)Sentry:5個工具(約3KToken)Grafana:5個工具(約3KToken)Splunk:2個工具(約2KToken)這僅僅是58個工具,在對話開始之前就已經消耗了大約55K Token。如果加入更多像Jira這樣的伺服器(僅它本身就使用約17KToken),很快就會面臨100K+Token的開銷。在Anthropic,團隊曾見過工具定義在最佳化前就消耗了134KToken。但Token成本並不是唯一的問題。最常見的失敗原因還包括錯誤的工具選擇和不正確的參數,尤其是當工具具有相似名稱時,比如notification-send-user與notification-send-channel。想相比之下,工具搜尋工具不再預先載入所有工具定義,而是按需發現工具。Claude只會看到當前任務實際需要的工具。工具搜尋工具保留了191,300 Token的上下文,而傳統方法只有122,800傳統方法:預先載入所有工具定義(50+ MCP工具約消耗72KToken)對話歷史和系統提示詞爭奪剩餘空間總上下文消耗:在任何工作開始前約77K Token使用工具搜尋工具:僅預先載入工具搜尋工具本身(約500Token)根據需要按需發現工具(3-5個相關工具,約3KToken)總上下文消耗:約8.7KToken,保留了95%的上下文這意味著在保持訪問完整工具庫的同時,Token使用量減少了85%。內部測試顯示,在處理大型工具庫時,MCP評估的精準性顯著提高。啟用工具搜尋工具後,Opus 4精準率從49%提高到74%,Opus 4.5從79.5%提高到88.1%。程序化工具呼叫「程序化工具呼叫」允許Claude在程式碼執行環境中呼叫工具,從而減少對模型上下文窗口的佔用。隨著工作流變得更加複雜,傳統的工具呼叫產生了兩個基本問題:中間結果造成的上下文污染推理開銷和手動合成示例:預算合規性檢查比如,一個常見的業務任務:「那些團隊成員超出了他們的Q3差旅預算?」你有三個可用工具:get_team_members(department) - 返回帶有ID和等級的團隊成員列表get_expenses(user_id, quarter) - 返回使用者的費用明細項目get_budget_by_level(level) - 返回員工等級的預算限額傳統方法:獲取團隊成員→20人對於每個人,獲取他們的Q3費用→20次工具呼叫,每次返回50-100個明細項目(機票、酒店、餐飲、收據)按員工等級獲取預算限額所有這些都進入Claude的上下文:2,000+費用明細項目(50 KB+)Claude手動彙總每個人的費用,尋找他們的預算,將費用與預算限額進行比較更多的模型往返互動,顯著的上下文消耗使用程序化工具呼叫:Claude不再接收每個工具的返回結果,而是編寫一個Python指令碼來編排整個工作流。該指令碼在程式碼執行工具(一個沙盒環境)中運行,在需要工具結果時暫停。當通過API返回工具結果時,它們由指令碼處理而不是由模型消耗。指令碼繼續執行,Claude只看到最終輸出。程序化工具呼叫使Claude能夠通過程式碼而不是通過單獨的API往返來編排工具,從而允許平行執行工具。以下是Claude為預算合規性任務編寫的編排程式碼示例:Claude的上下文僅接收最終結果:兩到三個超出預算的人員。2,000+明細項目、中間總和和預算尋找過程不會影響Claude上下文,將消耗從200KB的原始費用資料減少到僅1KB的結果。這種過程,在效率提升巨大:Token節省:通過將中間結果隔離在Claude的上下文之外,程序化工具呼叫(PTC)顯著減少了Token消耗。在複雜研究任務上,平均使用量從43,588降至27,297個Token,減少了37%。降低延遲:每次API往返都需要模型推理(耗時數百毫秒到數秒)。當Claude在單個程式碼塊中編排20+個工具呼叫時,消除了19+次推理過程。API處理工具執行,而無需每次都返回模型。提高精準性:通過編寫顯式的編排邏輯,Claude在處理多個工具結果時比使用自然語言更少出錯。內部知識檢索精準率從25.6%提高到28.5%;GIA基準測試從46.5%提高到51.2%。工具使用示例「工具使用示例」提供了一套通用標準,用於演示如何有效地使用給定工具。當前的挑戰在於,JSON Schema擅長定義結構——類型、必填欄位、允許的列舉值——但它無法表達使用模式:何時包含可選參數,那些組合有意義,或者API期望什麼樣的慣例。考慮一個支援工單API:模式定義了什麼是有效的,但留下了關鍵問題未解答:格式歧義:due_date應該使用"2024-11-06"、"Nov 6, 2024"還是"2024-11-06T00:00:00Z"?ID慣例:reporter.id是UUID、"USR-12345"還是僅僅"12345"?巢狀結構用法:Claude何時應該填充reporter.contact?參數相關性:escalation.level和escalation.sla_hours如何與priority相關聯?這些歧義可能導致畸形的工具呼叫和不一致的參數使用。對此,工具使用示例可以直接在工具定義中提供示例工具呼叫。開發者不再僅依賴模式,而是向Claude展示具體的使用模式:從這三個例子中,Claude學習到:格式慣例: 日期使用YYYY-MM-DD,使用者ID遵循USR-XXXXX,標籤使用kebab-case(短橫線命名)。巢狀結構模式: 如何構造帶有巢狀contact對象的reporter對象。可選參數相關性: 嚴重錯誤(Critical bugs)需要完整的聯絡資訊+帶有嚴格SLA的升級;功能請求有報告者但沒有聯絡資訊/升級;內部任務只有標題。在自內部測試中,工具使用示例在複雜參數處理上的精準性從72%提高到90%。大受好評在發佈前,Anthropic內部對模型進行了測試,反饋出奇一致。測試者指出,在處理模糊指令和權衡利弊時,Claude Opus 4.5無需過多指引。當面對複雜的多系統Bug時,Opus 4.5 能精準定位並修復。幾周前對於Sonnet 4.5來說還近乎不可能的任務,現在已觸手可及。總而言之,測試者的評價是:Opus 4.5是真的「行家」。 (新智元)
OpenAI最強程式設計模型登場!連續幹活24小時,一次處理幾百萬token
Token效率的提升有望轉化為使用成本的下降。智東西11月20日報導,今天,OpenAI發佈了其最新的智能體程式設計模型GPT‑5.1‑Codex‑Max,這一模型基於OpenAI最新的推理模型打造,專門面向軟體工程、研究、數學等複雜任務進行訓練。與此同時,OpenAI還將GPT-5 Pro升級為GPT-5.1 Pro,據說這一模型在寫作、資料分析等方面的能力比前一代模型更強。不過,OpenAI並未披露更多GPT-5.1 Pro的細節。GPT‑5.1‑Codex‑Max能在單一任務中連貫地處理上百萬個token,跨多個上下文窗口運行。這得益於一項叫做壓縮(compaction)的技術:模型在接近上下文窗口限制時會自動壓縮上下文,保留重要資訊,並賦予對話新的上下文窗口,直到任務完成。這一模型是由OpenAI研究科學家Noam Brown牽頭完成的,他在OpenAI專門從事測試時計算,也就是推理的研究。OpenAI認為,能夠持續進行連貫工作,是邁向更通用、更可靠AI系統的基礎能力。GPT-5.1-Codex-Max可以獨立工作數小時。在OpenAI的內部評估中,GPT-5.1-Codex-Max甚至可以針對同一任務連續工作24小時,持續迭代實現,修複測試失敗,最終交付成功的結果。性能方面,GPT‑5.1‑Codex‑Max在多個程式設計基準測試中評測優於前代GPT‑5.1‑Codex。該模型還是OpenAI訓練的首個適用於在Windows環境裡進行程式設計操作的模型。推理效率上,GPT‑5.1‑Codex‑Max在中等推理強度下完成任務時,所使用的思考token比GPT‑5.1‑Codex少約30%,但仍能取得更高精準性。對於不那麼敏感延遲但追求質量的任務,還可以開啟超高強度推理,讓模型花更多時間思考,輸出更優解。OpenAI預計,這種token效率的提升,可以為開發者帶來實際的成本節省。▲GPT‑5.1‑Codex‑Max用更少token實現更高的精準率目前,GPT-5.1-Codex-Max現已在Codex中提供,可用於CLI、IDE擴展、雲端和程式碼審查,API訪問也即將推出。OpenAI分享了GPT-5.1-Codex-Max打造的多個網頁。根據提示詞,GPT-5.1-Codex-Max直接打造了一個完全運行在瀏覽器中的CartPole(倒立擺)強化學習沙箱。使用者不僅可以觀看倒立擺的動態,還能通過內建的策略梯度控製器直接訓練模型,讓AI在實驗中不斷最佳化策略。它提供了神經網路可視化功能,在訓練或推理時,使用者可以即時觀察模型的權重和啟動狀態,直觀理解決策機制。此外,應用介面清晰展示了每個回合的步數和獎勵,並記錄了上一次存活時間及歷史最佳存活時間,讓訓練過程和成果一目瞭然。在成功實現類似功能的前提下,GPT-5.1-Codex-Max所使用的token數量為27k,而GPT-5.1-Codex的用量為37k。GPT-5.1-Codex-Max還開發出一個太陽系重力的模擬器。這一應用的目標是讓使用者直接觀察天體的運動軌跡,通過拖曳、點選與操控介面元素,直觀理解軌道、速度與引力之間的關係。這一網頁的功能運行流暢,提示詞中的功能都得到了不錯的實現。使用者可點選畫布放置帶質量的天體,再次點選即可為測試設定初速度向量,借此建構出任意的簡易行星系統。介面提供用於調節中心天體質量與整體時間縮放因子的滑塊,允許使用者觀察同一軌道結構在不同物理條件下的演化過程。GPT-5.1-Codex-Max打造的下一個案例,可幫助使用者直觀、動態的方式理解光在兩種介質介面上的折射規律——斯涅爾定律(Snell’s Law)。使用者可以通過左右滑塊調節介質1與介質2的折射率。折射率改變時,介面即時更新折射角度,呈現不同光學環境下的光線偏折情況。也有不少網友分享了自己的使用體驗。這位網友試著讓昨天發佈的Gemini 3 Pro和GPT-5.1-Codex-Max對決,提示詞是建立一個鵜鶘騎自行車的SVG。可以看到,GPT-5.1-Codex-Max打造的鵜鶘、自行車等元素明顯包含更多細節,也更逼真。英國定製化賀卡公司Moonpig的AI部門負責人Peter Gostev分享,自己試著讓GPT-5.1-Codex-Max打造了一個金門大橋模擬器,他稱這絕對是自己從類似提示詞中獲得的最好的效果。與GPT-5.1-Pro相比,Gostev認為GPT-5.1-Codex-Max明顯更勤快,而且速度也更快。要讓GPT-5.1-Pro完成類似的效果,需要不斷指出問題,給出明確要求,GPT-5.1-Codex-Max則更有主動性。AI工程師Peter Dedene分享,自己體驗時發現,GPT-5.1-Codex-Max盯著問題看了5分鐘,決定以後再處理,自己以前從沒見過Codex這麼做。在他看來,模型似乎已經擁有意識了。不過,需要注意的是,隨著模型能力的持續提升,安全性也成為一大挑戰。OpenAI稱GPT-5.1-Codex-Max尚未在內部的Preparedness Framework中達到“高等級網路安全能力”,不過其安全能力已經是業內迄今為止最強大的。目前,Codex系列模型默認運行在高度隔離的安全沙箱中,檔案寫入僅限自身工作空間,網路訪問被關閉,除非開發者主動啟用。這些措施可減少提示詞注入(prompt injection)等風險。OpenAI希望通過漸進式部署的方法從真實世界收集反饋,並及時更新模型的安全防護。結語:程式設計模型正在走向“智能體化”時代從GPT-5.1-Codex-Max可以看出,新一代程式設計模型已不再是簡單的程式碼生成器,而是能夠持續工作、自動偵錯、主動規劃的程式設計智能體。其長時推理、上下文壓縮、自我修復等能力,讓模型能獨立完成項目級任務。隨著運行成本下降、安全沙箱強化、能力全面增強,未來的軟體開發方式也可能出現變化,從“寫程式碼”轉向“描述需求+稽核結果”,智能體有望承擔更多實現與迭代工作。 (智東西)
OpenAI在2025國際大學生程式設計競賽拿下滿分奪得第一,Google也取得金牌成績
在亞塞拜然巴庫舉行的 2025年國際大學生程式設計競賽(ICPC)全球總決賽中上,來自 100 多個國家的 139 支大學隊伍在五小時內角逐解決 12 個演算法問題,最終聖彼得堡國立大學憑藉解決 11 個演算法問題奪得人類冠軍。在相同約束條件下的平行 AI 賽道上,Google的 Gemini 2.5 Deep Think 模型解決了 10 個問題,獲得了與金牌相當的成績。最震撼的是OpenAI 的內部推理模型獲得了 12 /12的滿分,超越了所有人類隊伍,拿下第一值得注意的是OpenAI和Google的模型都解決了所有人類參賽隊伍都沒有解決的問題c。OpenAI的內部推理模型在經過9次嘗試後解決了最難的問題,其餘問題都是一次解決OpenAI:獲滿分成績,超越人類冠軍OpenAI的推理系統在本次競賽中取得了12題全解的完美成績,該成績超過了所有人類參賽隊伍成績與排名:解決了全部12個問題。如果參與人類排名,該成績將位列第一。本屆最優秀的人類隊伍解決了11個問題比賽條件:AI參加了官方的現場AI賽道,與人類選手共享5小時的比賽時限,並接收完全相同的PDF格式題目。系統自主選擇並提交答案,無人工干預解題詳情:在12個問題中,11個為一次性提交正確。最難的一個問題在第9次提交後成功解決技術構成:參賽系統由多個通用模型組成,包括GPT-5和一個實驗性推理模型。其中,GPT-5解決了11題,實驗性推理模型解決了最難的第12題,並負責最終提交決策。所有模型均未針對ICPC進行專門訓練Google DeepMind:獲金牌級表現GoogleDeepMind的Gemini 2.5 Deep Think系統在競賽中解決了10個問題,達到了金牌等級成績與排名:解決了12個問題中的10個。該成績達到了金牌分數線(前四名隊伍獲金牌),如果參與排名,將位列第二比賽條件:AI在一個遠端線上環境中比賽,遵循ICPC規則,比人類選手晚10分鐘開始關鍵亮點:獨立解決了“Problem C”,這個問題在本次比賽中沒有任何一支人類大學隊伍能夠解決。Gemini在比賽開始後半小時內完成了該題解題效率:在比賽開始45分鐘內解決了8個問題,三小時內完成了全部10個問題人類隊伍排名:1.第一名:聖彼得堡國立大學 (St. Petersburg State University)    *   解題數:11    *   總罰時:14782.第二名:東京大學 (The University of Tokyo)    *   解題數:10    *   總罰時:11163.第三名:北京交通大學 (Beijing Jiaotong University)    *   解題數:10    *   總罰時:14254.第四名:清華大學 (Tsinghua University)    *   解題數:9    *   總罰時:8655.第五名:北京大學 (Peking University)    *   解題數:9    *   總罰時:8876.第六名:哈佛大學 (Harvard University)    *   解題數:9    *   總罰時:9957.第七名:薩格勒布大學 (University of Zagreb)    *   解題數:9    *   總罰時:10758.第八名:麻省理工學院 (Massachusetts Institute of Technology)    *   解題數:9    *   總罰時:11239.第九名:中國科學技術大學 (University of Science and Technology of China)    *   解題數:9    *   總罰時:112810.第十名:首爾大學 (Seoul National University)    *   解題數:9    *   總罰時:1133至此,OpenAI在 IOI 中獲得第 6 名,在 AtCoder 競賽中獲得第 2 名ICPC2025上取得了滿分,2026年人類的程式設計能力可能會永遠落後於AI,不單單是個人coding能力還包括軟體工程能力 (AI寒武紀)