#程式碼
AI時代,深邃的思考與清晰的表達,才是人類最後的護城河
人工智慧,尤其是大模型的快速普及,正在以前所未有的速度重塑人類社會的分工結構。一個越來越清晰的趨勢正在浮現:執行正在被AI接管,而思考與表達,正在回歸人類本身,並變得愈發稀缺。一、從會做事到想清楚事,能力結構正在發生根本轉變在工業時代與資訊時代的大部分時間裡,人類價值高度依賴執行力。誰更勤奮、誰更熟練、誰更快完成任務,誰就更具競爭力。然而,大模型的出現正在系統性地瓦解這一邏輯。今天,大模型可以寫程式碼、生成文案、整理報告、分析資料,甚至完成大量過去被視為高認知含量的工作。只要目標足夠明確、路徑足夠清晰,執行幾乎可以被無限複製、低成本擴展。這意味著:執行力正在商品化技能本身不再稀缺單純會幹活的價值正在快速下降在這樣的背景下,真正拉開人與人差距的,不再是你能做什麼,而是你能不能想清楚要做什麼。二、你想明白的東西,才能被清晰地表達出來思考與表達從來不是兩件獨立的事情。模糊的表達,本質上源自模糊的思考。一個人如果無法用簡潔、結構化的語言講清楚一個問題,往往不是不會說,而是根本沒有想透。真正的思考,是將複雜問題拆解為清晰的邏輯鏈條,是在不確定性中找到關鍵變數,是在噪音中提煉本質判斷。在AI時代,想明白本身就是一種稀缺能力。因為資訊極度過剩,結論卻極度匱乏;工具觸手可及,判斷卻愈發稀缺。三、你能清晰表達出來的東西,才能交給大模型去幹大模型並不理解意圖,它理解的是指令。而指令的質量,完全取決於表達的清晰度。模糊的目標,只會得到泛泛的結果不完整的約束,只會帶來不可控的輸出缺乏結構的描述,只會放大不確定性因此,一個極其重要卻常被忽視的事實是:大模型並不會削弱表達能力的重要性,反而將其放大到了前所未有的高度。只有當你:能清晰描述問題邊界能明確表達目標與約束能結構化地拆解任務你才真正具備讓AI為你工作的能力。從這個意義上講,表達力正在成為人類與大模型之間最關鍵的介面能力。四、未來的人類角色:負責思考與表達,把執行交給AI當執行成本趨近於零,人類的核心角色將發生遷移:人類負責提出問題人類負責做價值判斷人類負責建構認知框架人類負責表達目標與方向而:推演方案生成內容反覆試錯大規模執行將越來越多地交由大模型完成。這不是人類能力的退化,而是一種能力層級的躍遷。人類從操作者,轉向設計者和判斷者。五、AI時代,真正的競爭發生在思考深度與表達清晰度上在AI高度普及的未來世界裡,真正稀缺的,不是資訊,不是算力,也不是技能本身,而是:能在複雜系統中做出深邃思考的人能將複雜思想清晰表達出來的人能用語言與結構駕馭智能系統的人思考力決定你能看到多遠,表達力決定你能調動多大的能力邊界。當執行可以外包給大模型,人類真正的價值,將回歸到最本質的兩件事上:想清楚,以及說明白。 (壹號講獅)
OpenAI發佈GPT-5.2-Codex:號稱工程實戰能力天花板
OpenAI剛剛正式發佈GPT-5.2-Codex,主要針對專業軟體工程和防禦性網路安全最佳化的智能體(Agentic)程式設計模型。相比前代,它在長程任務處理、大規模程式碼重構、Windows環境適配以及網路安全能力上均有顯著提升,工程能力達到實戰天花板目前,付費ChatGPT使用者已可在Codex相關介面體驗,API訪問也將在未來幾周內開啟。開發者可以通過以下命令安裝:$ npm i -g @openai/codexGPT-5.2-Codex是在GPT-5.2的基礎上,吸收了GPT-5.1-Codex-Max的智能體與終端使用能力進一步最佳化而來其核心技術改進包括:上下文壓縮:增強了長程任務的處理能力,使其在大型倉庫中進行跨長時間周期的協作時,能保持全上下文完整,不丟失進度複雜工程處理:在處理大規模程式碼重構、程式碼遷移和功能建構時更具可靠性,即使計畫變更或嘗試失敗,模型也能持續迭代性能表現:在SWE-Bench Pro(軟體工程任務評測)和Terminal-Bench 2.0(真實終端環境評測)中均達到了SOTA(業內頂尖)水平環境適配:顯著提升了在原生Windows環境下的智能體程式設計效率與穩定性視覺增強:模型能更準確地理解螢幕截圖、技術架構圖和UI介面,支援直接將設計稿生成為可運行的原型OpenAI表示,GPT-5.2-Codex的發佈是AI支援複雜軟體工程和專業安全領域的關鍵一步,未來將根據發佈反饋持續擴展存取權具體表現如何,還是要看結合自己的使用才知道 (AI寒武紀)
震動全行業!Google剛剛打出了一張“王炸”:Gemini 3 Flash,徹底終結AI應用的“燒錢”遊戲!
Google剛悄悄上線了Gemini3Flash——要是光看跑分,它可能不是最扎眼的,但要說顛覆性、對明年預算和產品規模化的影響,這模型絕對排得上頭名。我直接說透:它可不光是“快”和“便宜”這麼簡單,Google這是憑著一己之力,用成本結構對整個AI推理市場搞“降維打擊”呢。01 戰略定位:那是“青春版” , 分明是“部署級核武器”!好多人覺得Flash是Gemini3Pro的“性能縮水版”,這理解真的完全跑偏了!從架構來看,Gemini3Flash是直接搭在Gemini3Pro的推理基礎架構上的,根本不是獨立的弱架構——它共享著同樣的推理骨幹,只是專門針對極低延遲和極低成本做了深度最佳化。Google這兒還拋出個關鍵概念:“思考等級”(ThinkingLevels)。作為業內人,這點你可得吃透:以前不管讓模型干多簡單的活,都得為它的“最大推理深度”付費。但現在有了“思考等級”控制,開發者能根據任務需求,精準調控模型的推理程度。這意味著啥?你再也不用為解決一個簡單的圖像識別問題,花解決複雜數學難題的推理費用——這可是對AI經濟模型的一次根本性顛覆。02 核心吸引力:成本“屠夫”上線 , 把“燒錢”變成“印鈔”價格才是這次發佈的真炸彈。把性能和成本標準化之後,Gemini3Flash的競爭力簡直沒誰了。看組資料就知道,這才是真・成本大跳水:輸入(每百萬Token):才50美分輸出(每百萬Token):僅需3美元這價格有多震撼?比Gemini3Pro、ClaudeSonnet4.5甚至GPT5.2都便宜太多。Google的訊號已經很明確了:Gemini3Pro是給那些追求最大推理深度、不在乎成本的場景準備的;而Gemini3Flash,才是Google要你“部署到任何地方”的模型。它不是智能上的“退步”,而是“每決策支出”(SpendPerDecision)上的一次史詩級下降。03 打破低價迷思:多模態與編碼 , 照樣能打!低價可不代表低能——這正是Flash最讓人興奮的地方。它經過最佳化後,在推理、多模態理解、編碼和長上下文任務裡,都能保持穩定的高水準。A.多模態理解:截圖即程式碼生成 , 成本直接大降多模態工作流以前就是“燒錢”的代名詞,但Flash證明了:不用讓成本爆炸,也能實現前沿能力。在評估截圖和UI元素理解能力的ScreenSpotPro基準測試裡,Flash表現特別能打。想像下這個場景:你給它一張Web分析儀表盤的截圖,它能立馬看懂內容,用HTML、TailwindCSS和Chart.js幫你重建功能相似的網頁程式碼,甚至還能自動加UI推理——比如顯示餅圖的數值和百分比這些細節。這就說明,Flash能以極低的成本做截圖分析、UI推理和視覺理解,壓根不用呼叫最昂貴的模型層級。B.通用推理與持續編碼能力專家級分析:在針對高難度科學和特定領域推理的GPQADiamond測試中 , Flash拿了90.4%的高分 , 跟Gemini3Pro差不了多少——這意味著它完全能勝任技術分析、長篇綜合、專家級問答這些研究密集型任務。編碼代理:在LiveCodeBench上 , Flash的性能和Pro在同一水平。更關鍵的是 , 它能支援連續編碼代理 , 還不會讓你的營運成本“炸掉”——這對所有AI軟體工程公司來說 , 絕對是最大的福音!04 該重新審視你的產品策略了!Gemini3Flash最大的價值,是給所有開發者和企業打開了規模化應用的大門。以前設計AI產品,總免不了在“功能強大”和“使用成本”之間糾結來糾結去。現在Flash憑著前所未有的性價比,直接打破了這個困境。它釋放了一個明確訊號:AI應用的黃金時代,不是由性能天花板決定的,而是由成本地板定義的。 (New基地)
37歲、240 億美元!一個在中餐館長大的華裔學霸,登上了最年輕富豪榜
我們見過無數“別人家孩子”的故事,但這位來自《福布斯》雜誌上最新一期的報導,具有能讓所有人都熱血上頭的成長路徑——他的名字叫 Edwin Chen,37歲,做到公司估值240億美元;出身普通,父母經營中餐館;MIT 數學+語言學+電腦三項頂尖專業;沒融資、低調、不開發佈會,卻被全球 AI 巨頭追著合作。他沒有創立爆紅的大模型,也不是炙手可熱的晶片玩家,卻以一種極其“低調”的方式,成為《福布斯》美國最年輕的億萬富翁之一。圖源:Forbes官網最讓我破防的不是他的身價,而是他身上那種“普通家庭也能培養出傳奇”的真實感。這不是雞娃,這是活生生給所有家長續命。1/ 父母經營中餐館,他卻在後廚自學微積分其實許多成功華裔的故事裡,家庭背景並不光鮮,Edwin Chen也是如此。Edwin Chen在佛羅里達州的水晶河長大,這座墨西哥灣沿岸城市以海牛和退休人士而非科技億萬富翁聞名。他的父母從台灣移民到美國,經營著一家中泰美式餐廳,少年時期的他曾在那裡工作。沒有優越教育資源,也沒有名校輔導班,甚至連像樣的課外活動都沒有。但就是這樣一個普通到不能再普通的環境,卻孕育出了一個天才。當別的孩子在餐廳玩耍時,他埋頭在廚房角落裡研究數學——8 歲自學微積分,17 歲考入麻省理工學院(MIT)。更誇張的是,他沒有滿足於讀一個專業,而是同時攻讀了:數學、語言學、電腦科學,這三個加起來堪稱 MIT 最“硬核”的組合。跨學科思維,就是Edwin在這個階段打下的底色。對於家長而言,這樣孩子的故事幾乎太完美了:不是含著金湯匙,而是擁有努力、天賦和堅持。2/ Google、Twitter、Facebook 的工作經歷,讓他看到 AI 世界的“巨大漏洞”畢業後,他先進入矽谷頂級公司:Google ——做資料探勘;Facebook ——做演算法最佳化;Twitter ——做 AI 模型訓練;按一般人的路徑,他完全可以在大廠躺平吃“金飯碗”。然而在每一個職位上,他都遇到了同樣的問題:難以大規模獲取高品質的人工標註資料。那一刻,他意識到:再強大的 AI,如果沒有高品質的資料輸入,它就永遠學不會像人類一樣思考。他厭倦了那些「完全是垃圾」的資料標註。這是整個行業忽視的問題,也是他後來成功的起點。3/ 2020 年,在舊金山的小公寓裡,開始了一個人的創業沒有融資,沒有團隊,沒有資源。他一個人在租來的小公寓裡寫程式碼、搭網站、做客服。某次攀岩時,他偶遇幾位科技公司高管,隨口介紹了自己正在做的資料標註平台。沒想到對方立刻說:“我們正在頭疼資料問題,你能幫我們做嗎?”就這樣,他拿到了人生第一單客戶。創業之後的一年裡,他幾乎每天只做三件事:寫程式碼做標註和客戶溝通但正是這個階段,Surge AI 打磨出了真正的“殺手級能力”:它不是便宜的標註工廠,而是能理解文化、情緒、隱喻、人類表達方式的“人類知識翻譯器”。這才是真正的稀缺。當其他人還在做簡單的“貓和狗分類”時,Surge AI 已經在做:情緒識別諷刺判定文化語境理解複雜語言推理這些,是 AI 最難訓練的部分。此外,Edwin放棄了傳統的銷售與行銷手段,最初通過自己的資料科學部落格進行溝通,這個部落格是他在十多年前業餘時間建立的。圖源www.edwinchen.aiEdwin曾對採訪的記者說,Surge AI的首批客戶正是通過該部落格獲得,早期客戶包括愛彼迎、Twitch及Twitter。4/ 從未融資,卻做到 12 億美元營收、240 億美元估值Surge AI 做對了什麼?答案是——專注 + 專業 + 高價值服務。當整個行業都在追逐演算法、算力,他卻堅持認為:演算法是引擎,資料才是燃料。於是:社交媒體巨頭找他標註情緒,大模型公司找他訓練推理能力,Meta 在一年內向他購買 1.5 億美元的標註服務,OpenAI、Anthropic、Google、Microsoft、Meta,這些全球最頂尖的大模型團隊……幾乎都在用他的資料。更誇張的是:Surge AI 從未對外融資,但營收超過 12 億美元。在矽谷,敢說自己“不融錢”的公司,幾乎絕跡。而他,卻用這樣“反潮流”的方式,建立了屬於自己的護城河。就連Surge AI的官網也是“反潮流”的低調,低調到首頁只有一堆文字,沒有酷炫的UI和精緻的互動效果。圖源:https://surgehq.ai/5/ 他的故事不是因為財富讓人震撼,而是他的成長擊中了家長最應關心的三件事。1)真正的強者,不是靠刷題堆出來的,而是靠“思維結構”塑造出來的。數學訓練了他拆解問題的能力;語言學讓他理解語境、文化與溝通的本質;電腦把這一切轉化為可執行的技術能力。這樣的能力組合,不是分數決定的,而是認知方式決定的。分數固然重要,但決定上限的,永遠是思維體系。2)未來真正稀缺的,是“深度理解世界的能力”。Surge AI 需要的不是重複勞動,而是深度理解。他們招聘語言學家、人類學家、歷史學者,並不是為了“知識多”,而是為了讓 AI 學會——理解情緒、語境、隱喻、文化背景。這些是人類最複雜的能力,也是 AI 最難獲得的能力。未來的優勢,不再來自技能數量,而來自:是否能解釋複雜問題是否能理解不同文化與人群是否具備洞察力與創造力理解力,是下一代的頂級能力。3)決定孩子上限的,不是成績,而是“能否創造新的價值”。Edwin的成功,來自於“看到別人看不到的價值”。別人做資料,他做“人類智慧的數位化”;別人解決眼前問題,他解決行業底層問題。這類能力不是分數訓練出來的,而是:對世界有自己的判斷能從多學科視角看問題能把知識變成新的價值考試衡量的是輸入能力,而未來衡量的是創造能力。真正能改變命運的,是創造,而不是應付考卷。6/ AI 重塑財富,而教育重塑孩子的未來AI 正在發生一場新的“財富重新分配”。但對我們家長來說,更重要的是:孩子是否擁有 AI 時代真正需要的能力?Edwin Chen給我們看到一種新的可能:從小培養邏輯與思維注重語言與表達把文化理解力當作核心能力跨學科融合,而不是單科突破看到他的故事,不是又看到一個“焦慮範本”,而是一個可複製、可參考的“未來教育範本”。在人類與 AI 共存的時代,理解世界、解釋世界、創造世界的人,永遠不會被機器取代。你家的孩子,也完全有可能成為下一個 Edwin Chen。 (十一媽媽up)
Gemini 3 Pro 封神的背後:Google致敬的那個男人,竟然是個“快樂的無業游民”
最近,Google 的 Gemini 3 Pro 徹底刷爆了技術圈。它之所以能從眾多大模型中殺出重圍,不僅僅是因為它的推理能力更強了,而是因為它帶來了一個革命性的功能——“生成式 UI”(Generative UI)。當你對它說“做一個貪吃蛇遊戲”時,它不再是像以前那樣給你吐出一大段冰冷的程式碼塊,而是直接在螢幕右側“畫”出了一個可以玩的、互動流暢的遊戲介面。這種“忽略過程,直達結果”的產品哲學,讓無數開發者驚呼“變天了”。但 Google 為什麼會有這個想法?如果你把時間軸撥回 2025 年 2 月,你會發現這個理念其實源於一條推特。當時,Andrej Karpathy 發推提出了 "Vibe Coding" 的概念:“未來我們不需要寫程式碼了。我們只需要沉浸在一種感覺(Vibe)裡,甚至忘掉程式碼的存在。”Google 聽懂了。他們把 Karpathy 這種“看不見程式碼”的終極幻想,做成了 Gemini 3 Pro 的核心。那麼,這個讓兆巨頭都要“偷師”理念的男人,到底是誰?AI 界的“六邊形戰士”:Andrej KarpathyAndrej Karpathy 這個名字,對於普通人可能有點陌生,但在 AI 開發者心中,他是神一般的存在。回顧他的履歷,你幾乎可以看到整個現代 AI 發展的縮影:1. 名師高徒的學術起點在史丹佛大學攻讀博士期間,他是 AI 教母 李飛飛(Fei-Fei Li) 的得意門生。在那裡,他設計並主講了傳奇課程 CS231n,這門課至今仍是全球無數電腦視覺工程師的“入行聖經”。2. OpenAI 的創始元老博士畢業後,他成為了 OpenAI 最早期的核心研究員之一,與 Ilya Sutskever 等人一起奠定了 GPT 系列的基礎。3. Tesla 的自動駕駛統帥隨後,他被 Elon Musk 挖走,擔任 Tesla 的 AI 總監。在那裡,他直接向馬斯克匯報,領導了 Autopilot 團隊,不僅一手搭建了 Tesla 的資料飛輪,更主導了那個當時備受爭議的決策——放棄雷達,轉向純視覺方案。4. 回歸教育與再出發功成名就後,他沒有選擇躺在功勞簿上,而是離開大廠,回歸初心。他在 YouTube 上開設了 《Zero to Hero》 系列課程,手把手教普通人寫大模型。如今,他創辦了 Eureka Labs,致力於用 AI 重塑教育,試圖打造一種全新的“AI 原生”學習方式。學術界、工業界、教育界,他不僅都去過,而且在每一個領域都做到了頂尖。5 個故事,看懂“頂級極客”的另一面如果光看履歷,你可能會覺得他是一個高高在上的精英。但實際上,Karpathy 之所以如此受歡迎,是因為他極其真實、有趣,甚至有點“奇葩”。01:周末隨手寫個程式碼,羞辱了整個行業(llama2.c 事件)2023 年,大家都覺得跑大模型(LLM)非常複雜,需要安裝幾 GB 的 PyTorch 庫。 Karpathy 有個周末閒著沒事,覺得現在的 AI 軟體棧太臃腫了。於是他用純 C 語言(不依賴 Python,不依賴 PyTorch)寫了一個推理引擎。 這個檔案只有 500 行程式碼,編譯完的可執行檔案只有幾 MB,卻能在 MacBook 上流暢運行 Llama 2 模型。 他用一個周末的“玩具”,狠狠打臉了那些把 AI 搞得過於複雜的框架,也讓無數人第一次真正看懂了 LLM 是怎麼跑起來的。02:把自己當成“神經網路”來訓練(生物駭客)Karpathy 是典型的**“工程思維入腦”**。他不只最佳化程式碼,還瘋狂最佳化自己的身體。睡眠實驗: 他通過 Oura Ring 監測資料,調節溫度、濕度、光線,測試不同變數對“深度睡眠分數”的影響。他在推特上像發佈模型訓練日誌一樣,發佈自己的睡眠資料分析。咖啡演算法: 他曾詳細分享過自己的咖啡攝入策略——不是為了好喝,而是為了維持血液中咖啡因濃度的恆定,以保持大腦 GPU 的最佳算力。這完全是把生理機能當成 Learning Rate(學習率)在調節。03:在 Tesla 的“豪賭”(切斷雷達)當時所有自動駕駛公司都認為必須用雷射雷達(LiDAR)。但 Karpathy 和馬斯克認為:人類只靠眼睛就能開車,所以車也應該只靠攝影機。他領導團隊重寫了 Tesla 的感知棧,建構了著名的 HydraNet,並推動移除了車上的雷達。據說他在 Tesla 工作時,為了處理海量資料,經常就在辦公桌下鋪個睡袋睡覺(這點倒是和馬斯克很合拍)。04:史上最“不務正業”的無業游民離開 OpenAI 和 Tesla 這種頂級公司後,大家都以為他要去融資幾億美金開公司。結果他回家錄 YouTube 視訊去了。他拒絕了無數投資人的電話,只是為了把極其複雜的 Transformer 模型講得連高中生都能懂。他在推特上自嘲說自己是"Funemployed"(快樂的失業者)。這種“視金錢如糞土,只想教書育人”的態度,也是為什麼很多開發者對他有類似“聖徒”般崇拜的原因。05:痛恨“臃腫”的潔癖Karpathy 有嚴重的程式碼潔癖。他非常討厭複雜的抽象層。如果一個任務可以用 100 行原生程式碼解決,他絕不會引入一個 100MB 的第三方庫。雖然他現在推崇 Vibe Coding,但他本人的基本功極其紮實。他在 Stanford 教書時,曾強制要求學生手動計算反向傳播的梯度,不准用自動微分框架。他的邏輯是:“如果你不知道引擎蓋下面發生了什麼,你就沒資格開這輛法拉利。”AI 時代,“懶”是一種稀缺的超能力看完 Karpathy 的故事,再回看 Gemini 3 Pro 的“生成式 UI”,你會發現一個有趣的核心:這些頂級的創新,往往源於一種“懶”。Karpathy 因為“懶”得處理臃腫的環境,寫出了極簡的 llama2.c;因為“懶”得處理多餘的感測器資料,搞出了純視覺自動駕駛;因為“懶”得寫重複的程式碼,提出了 Vibe Coding,最終啟發了 Google 的生成式 UI。在 AI 時代,我們從小被教育的“勤奮”——死記硬背、機械重複、拼手速——正在迅速貶值。相反,“懶”正在成為一種核心競爭力。這裡的“懶”,不是躺平,而是一種敏銳的需求洞察力:是因為對低效流程的不耐煩,你才會去想如何最佳化它;是因為不想把時間浪費在重複造輪子上,你才會去尋找更高級的工具。Gemini 3 Pro 這樣的工具出現,正是為了成全我們的“懶”。它把我們從“如何實現”的苦役中解放出來,讓我們有精力去思考“實現什麼”和“為什麼實現”。所以,像 Andrej Karpathy 一樣,做一個“聰明的懶人”吧。在這個時代,發現需求比解決需求更重要,定義問題比動手執行更珍貴。 (許良學AI)
OpenAI 發佈 GPT-5.1-Codex-Max,反擊 Gemini 3 Pro
OpenAI 於 2025 年 11 月 19 日發佈了 GPT-5.1-Codex-Max,本質上是在原有 GPT-5.1-Codex 之上,對“長程編碼任務”和 agent 化工作流做的一次定向升級:底層換成新版推理基座模型,訓練資料更貼近真實軟體工程過程,包括 PR 建立、程式碼審查、前端開發和技術問答,並在訓練階段顯式針對 Codex CLI 和 Windows 環境做了適配。官方同時將其設為 Codex 系列默認模型,經由 Codex CLI、IDE 外掛、雲端整合和程式碼評審等通道提供給現有使用者,API 計畫稍後開放。基準表現與長程任務能力從已公開的基準資料看,Codex-Max 相對上一代 Codex 的提升是具體且可量化的,而不是“版本號一加、能力翻倍”式的包裝。公開資料與社區整理結果顯示,它在 SWE-Lancer IC SWE 上從 66.3% 提升到約 79.9%,在 SWE-Bench Verified 上從 73.7% 升至 77.9%,Terminal-Bench 2.0 則從 52.8% 提升到 58.1%。這些測試運行在較高推理檔位,並結合所謂“compaction”機制:當上下文臨近極限時自動壓縮會話,僅保留關鍵要點,以便在單一任務中跨越百萬級 token。OpenAI 在產品文案和系統卡中反覆強調,Codex-Max 在內部環境下可以連續工作 24 小時以上,完成多階段重構、測試驅動迭代和自主演進式偵錯。這說明在 Codex 受控環境中,模型在多輪失敗和自我修正中仍能保持相對穩定的策略,而不僅僅是一次性給出答案。但這類長程任務的表現目前主要來自廠商自證和少量早期使用者反饋,在更複雜的企業程式碼庫和 CI/CD 流水線下能否復現,仍需要時間檢驗。OpenAI 同時表示,在中等推理強度下,Codex-Max 在保持或略微提升精準率的情況下,思考 token 消耗比上一代減少約 30%,理論上可以在不犧牲質量的前提下降低時延和成本。這些數字目前仍以官方披露為主,第三方系統化驗證尚不充分,更穩妥的做法是將其視為趨勢性訊號,而非精確定價依據。與 Gemini 3 Pro 的能力對比與 Gemini 3 Pro 的關係,比單純比較“誰更強”要複雜得多。DeepMind 的官方材料顯示,在 LiveCodeBench Pro 這類偏演算法競賽風格的基準上,Gemini 3 Pro 的 Elo 在 2400+ 區間,顯著高於此前的 GPT-5.1 系列;在若干長程、工具使用與博弈類任務中,Gemini 3 Pro 也有相對明顯的領先,被普遍視為“複雜推理 + 多模態 + agent 組合任務”上的強項。過去幾天的技術部落格與評測大多據此認為,Gemini 3 Pro 在“複雜推理 + 多模態 + agentic 任務”上,對 GPT-5.1 形成了階段性優勢。Codex-Max 引入後,這種對比出現了一些局部反轉。根據 OpenAI 自身資料和早期評測,在 SWE-Bench Verified 和 Terminal-Bench 2.0 這兩類更貼近真實工程和終端操作的基準上,Codex-Max 相對上一代 GPT-5.1-Codex 有明顯提升,並在部分設定下略高於當前公開版本的 Gemini 3 Pro。不過,這些對比往往使用不同 agent、不同終端環境和不同推理檔位,嚴格意義上的“同場雙盲”樣本並不多,目前更適合解讀為:在若干具體編碼基準上,兩者已進入“互有勝負”的狀態,而不是誰絕對壓制誰。更現實的判斷是:在日常“寫業務程式碼、修缺陷、補測試”這類任務中,兩者都足夠強,差異更可能體現在長任務穩定性、對特定平台和框架的適配程度,以及與現有工具鏈的整合深度。Codex-Max 更像是在 OpenAI / Codex 生態內部,把“工程 agent”這條線補足到不落於人,而 Gemini 3 Pro 則持續押注於“多模態 + 高階推理 + 超長上下文”的整體能力版圖。價格策略與“長任務經濟性”在經濟性方面,兩家目前採用的策略並不完全相同。Gemini 3 Pro 的 API 定價較為透明:在 200k token 內,每百萬輸入約 2 美元、輸出約 12 美元;超過 200k 之後分別翻倍到 4 美元和 18 美元,明顯通過價格對超長上下文收取溢價,同時在宣傳中頻繁強調“100 萬 token 上下文”的賣點。相比之下,OpenAI 尚未單獨公佈 Codex-Max 的 API 價格,而是強調通過 compaction 和思考 token 最佳化來降低有效成本,即在模型內部結構和推理策略上做文章,而不是在價格表上人為劃分“短上下文”和“長上下文”檔位。對真正會跑長任務的團隊而言,最終帳單會同時受兩類因素影響:模型本身的 token 效率,以及平台對長上下文的計費方式。現階段,大致可以預期 Gemini 3 Pro 在極長上下文、多模態場景的成本會相對更高,而 Codex-Max 在純文字 / 程式碼長任務中的“性價比”則需要依賴未來更多第三方使用資料來判斷。工具鏈與開發流程的策略差異從產品路線看,兩家在“工程 agent”問題上的回答明顯不同。OpenAI 的選擇,是儘量不觸碰開發者的主戰場:Codex-Max 深度嵌入 Codex CLI、傳統 IDE 外掛、雲端整合與程式碼評審流程,尊重現有的 Git / CI/CD 流程,只在原有流水線上引入更強的自動化能力。這種路徑的現實意義在於,企業不必在 IDE、原始碼託管或 CI 系統上做大幅遷移,只需要在權限和審計層面逐步提高對 agent 的信任度。Gemini 3 Pro 則試圖配合 Antigravity 直接重構開發環境。Antigravity 的設計圍繞多 agent 管理、Artifacts 記錄(計畫、執行證據、測試結果)以及自動UI 操作展開,把“agent 作為一等公民”的假設寫進 IDE 形態。這意味著,選擇這一路線的團隊,在獲得更激進自動化可能性的同時,也要面對 IDE 層級的範式遷移成本。短期內,OpenAI 路線的落地阻力顯然更小;但如果 Antigravity 這種模式在部分大廠內部證明有效,長期對開發工具和雲平台格局的衝擊可能更直接。安全、治理與不確定性在安全治理方面,OpenAI 的系統卡指出,GPT-5.1-Codex-Max 在網路安全方向已經“非常有能力”,但尚未達到其內部定義的“高能力”閾值,在生物安全方向則按高能力模型管理,配套更嚴格的使用限制和監控。為降低長程 agent 帶來的額外風險,OpenAI 在 Codex 產品層疊加了沙箱執行、可配置的網路訪問,以及行為監控與速率限制等機制。這些措施能在多大程度上覆蓋真實企業環境下的濫用場景,目前仍缺乏足夠公開案例,只能說方向合理,但效果有待觀察。Gemini 3 Pro 在官方材料中同樣強調安全評估與企業級控制選項,但在具體編碼任務下的攻擊能力、越權操作風險等方面披露更為克制,外部公開資料主要來自綜合評估和少量第三方測試。對有合規壓力的組織來說,一旦開始認真嘗試 24 小時等級的自治編碼任務,技術問題之外,很快會面臨審計、責任界定甚至監管層面的額外要求,這部分目前基本還處在“實踐先於規範”的階段。初步判斷與現實決策點綜合來看,GPT-5.1-Codex-Max 更像一場經過精心選擇發佈時間的防守反擊:在 Gemini 3 Pro 通過一系列基準與多模態能力佔據敘事高地之後,OpenAI 把“編碼專用”這一子類重新拉回到一個至少不落下風的位置,並在 SWE-Bench、Terminal-Bench 等對開發者更敏感的指標上爭取了部分優勢。然而,無論是 Codex-Max 還是 Gemini 3 Pro,目前都更適合被視為“強力助手 + 局部自治 agent”,距離可以完全接管軟體工程流水線、在企業環境中大規模無監督運轉,還有明顯距離。在這種背景下,對真正需要做技術選型的團隊來說,現在去糾結某個單一基準上差一兩個百分點的勝負意義有限,更現實的決策維度可能包括:現有工具鏈與那個生態的耦合程度更深,組織內開發者對那一套平台更熟悉,在安全與審計層面能接受怎樣的自治邊界,以及是否有意願為 Antigravity 這類新範式額外付出一輪遷移成本。至於長程 agent 是否真能在實戰項目中穩定跑完 24 小時以上任務,這件事大機率只能交給未來一兩年的真實項目和內部 A/B 測試來給答案。 (InfraNative)
【十五五】李彥宏人民日報撰文
百度公司創始人、董事長兼首席執行官李彥宏在人民日報發表署名文章《內化AI能力,加快形成新質生產力》。以下為全文:“十五五”時期經濟社會發展的主題是推動高品質發展。推動高品質發展,最重要是加快高水平科技自立自強,積極發展新質生產力。人工智慧(AI)作為引領新一輪科技革命和產業變革的重要力量,對於加快形成新質生產力、實現經濟社會高品質發展作用十分關鍵。過去幾年,中國在人工智慧算力基礎設施和大模型等關鍵領域取得顯著突破,形成了領先優勢。中國算力規模躍居全球第二,湧現出DeepSeek推理大模型、文心原生全模態大模型等廣受好評的基礎大模型,百度也建成了國內首個自研的P800三萬卡叢集。推動人工智慧更好賦能高品質發展,一個重要方面是讓千行百業內化AI能力、建構AI原生能力,使之成為企業發展的原生推動力。這既有助於智能產業發展壯大,也有助於傳統產業加快轉型升級。以場景出新帶動創新,提升人工智慧應用能力。數字人技術、程式碼智能體技術、無人駕駛技術等,已被應用驗證,產生了很好的效果。在電商直播、銷售客服等場景中,數字人成為超級能幹的“數字員工”。程式碼智能體也在科技公司中加速鋪開,一些外國科技公司的程式碼AI生成率甚至超九成。基於無人駕駛技術的百度蘿蔔快跑已在全球22座城市落地。企業可通過選擇合適的AI技術,積累一定的探索成果,並在總結經驗、複製推廣的基礎上加快發展步伐。“十五五”規劃建議提出,“推動科技創新和產業創新深度融合”“加大應用場景建設和開放力度”。瞄準重複勞動多、勞動力緊缺、崗位高危、流程瓶頸多、決策複雜度高等場景,用好AI在低成本內容生成、無人化、智能編碼、智能演算法最佳化等方面的優勢,能幫助企業降成本、提利潤、優決策、發現新增長點。以產業融合激發動能,做強人工智慧增長引擎。中國是世界上唯一擁有全部工業門類的國家,推進人工智慧與實體經濟深度融合,空間廣闊、潛力巨大。在實體經濟企業中內化AI能力,利用人工智慧技術賦能礦業、化工、輕工、船舶等重點產業,有助於進一步夯實實體經濟這個根基。當前實體經濟產業鏈自主可控水平的提升,有賴於在排產調度、資源最佳化、路徑規劃、交易決策等方面提供更優的解決方案。“伐謀”演算法智能體專注於尋找“全域最優解”,已在交通、能源、物流、港口等複雜系統中實現顯著提效。千行百業立足自身優勢和行業特性,內化AI能力、建構AI原生能力,更好激發通用模型與行業有機融合產生的“化學反應”,社會整體生產效率、創新能力將實現躍升。加強戰略規劃,讓“AI賦能”成為發展共識。新質生產力的顯著特點是創新,既包括技術和業態模式層面的創新,也包括管理和制度層面的創新。在人工智慧等新技術帶來系統性、結構性變革的背景下,探索人機協同的新型組織和管理模式變得更加迫切。抓住數字經濟轉型和人工智慧發展機遇,從決策到執行,從客戶到供應鏈,讓AI能力滲透到生產、經營、服務的每一個環節、每一個細胞,是企業必須做好的課題。各領域企業搶佔一個個“智高點”,加快融入全面推進人工智慧科技創新、產業發展和賦能應用的潮流大勢,社會生產要素將因智能化重組而更高效流動,科技創新成果將更快轉化為現實生產力,社會整體的創造潛能將被全面激發。百度作為中國人工智慧領域投入最早、佈局最全的企業之一,有責任、有能力也有信心走在這一變革前列。我們將持續加大投入,建構領先的智能基礎設施,研發更前沿的大模型技術,打造更開放的產業生態體系,助力千行百業內化AI能力、建構AI原生能力、加速智能化轉型,為中國經濟高品質發展作出新貢獻。 (科創日報)
接招吧,GPT-5.1!
【新智元導讀】開源對攻ChatGPT!今天,公開叫板ChatGPT的中國AI,刷屏了!它就是阿里官方認定的最強大模型AI助手——千問APP。全新升級的千問APP主推:三大功能:對話問答、智能寫作和全能相機;四大特色:回答聰明、模型先進、文采出眾、識別全面。那麼問題來了,它到底有什麼底氣要和ChatGPT全面競爭?來一波實測,看看是騾子還是馬吧。來自ChatGPT的肯定先讓千問解答心中的疑問🤔:「千問有什麼底氣要和ChatGPT全面競爭?」千問速度相當快,馬上總結了它的5大底氣:1. 技術底子硬:Qwen3-Max模型性能全球頂尖特別是,多輪對話響應速度比 GPT-5 快17%,中文理解(比如古詩詞、方言)精準率更高。2. 開源+閉源雙軌戰略:生態與核心兩手抓這意味著:千問既能快速迭代、本土化適配強,又能守住商業護城河。3. 深度繫結中國場景,這是ChatGPT永遠做不到的深度融合阿里生態, 可識別88種電商場景;未來還會整合外賣、訂票、辦公、健康……4. 算力自主 + 巨額投入:不靠Azure,自己建「AI電廠」阿里宣佈3800億元投入AI基礎設施,其中超六成用於建設亞洲最大智算中心。5. 最重要的是:它想做你的「AI夥伴」,不只是工具千問新上線的Chat Memory(長記憶)功能,能記住你是誰、你在做什麼、你上次提到的需求。最後,千問總結了「技術、生態、場景、資料、記憶」五大buff,還拉黃仁勳背書:現在問題來了:千問到底有沒有幻覺?特別是,引用黃仁勳的「Qwen已成為矽谷的根基」,聽起來怎麼像高考作文中的「魯迅說過……」?黃仁勳的確誇過「千問」(Qwen)是最好的開源模型之一:而且,千問的實力得到了「全面競爭對手」ChatGPT的肯定——面對相同的問題,GPT-5.1查詢網際網路資訊後,表示千問有三大底氣:1. 模型與技術基礎強大:從技術能力角度來看,它有「可與ChatGPT一較」的潛在基礎。2. 生態+場景整合優勢:從「從技術+平台」維度來看,它具備整合「AI助手+生活/工作場景」的潛力。3. 市場/政策/本地化優勢(特別在中國市場):從商業化/使用者獲取/本地化角度也有一定優勢。總體上ChatGPT認為千問是個「強有力的追趕者」+「本地化最佳化的競爭者」:在最新模型上,Qwen和GPT系列孰強孰弱?由於千問、GPT-5.1發佈時間極新,尚無第三方權威機構完成全面橫向評測。直接問千問:尋找「千問與 GPT 5.1」 在具體任務(比如長文字理解、多模態、程式碼生成)上的對比評測,讓我們一起看其優劣差距在上下文理解與處理、多模態能力和程式碼生成與程式設計能力上,千問做了一單比較:輸入相同的提示詞,GPT-5.1承認,千問本地化優勢明顯:⚠️注意:以上內容由AI生成,僅供參考。莫道此才今始盛剛剛,Qwen宣佈有1千萬使用者和Qwen Chat對過話:那就以此為題,讓千問作首古詩吧:為下列主題寫一首李白風格的、充滿想像力的古詩: 1000,0000使用者正在使用Qwen Chat進行創作——而這只是一個開始。換成李白的《登金陵鳳凰台》,也沒問題:《登雲台詠千問》鳳凰台上鳳凰游, 萬智雲中萬智流。舊時程式碼埋幽徑, 今日文章耀鬥牛。三山半落青天外, 一網遙連碧海秋。不見算樞吞曉月, 長隨使用者寫神州。模仿現代作家,千問也可以:以「王小波 / 村上春樹 / 卡爾維諾 / 莫言」的寫作風格, 圍繞「AI日新月異」寫一段 500 字的短文,並標註你模仿的風格特徵。開頭就很「科幻」:今天早上,我的AI助手突然開始寫詩,用的是我奶奶醃酸菜的配方格式:“三斤白菜,兩勺鹽,一縷月光,半顆悔恨的心。”它說這是“後人類抒情主義”。我坐在廚房裡啃著冷饅頭,窗外一隻黑貓正和掃地機器人對峙——那貓眼神憂鬱得像村上筆下丟了女友的調酒師,而機器人固執地繞圈,彷彿卡爾維諾筆下那個永遠在螺旋樓梯上找出口的子爵。對「AI日新月異」描寫,非常到位:AI日新月異,快得讓我懷疑昨天它還在背《唐詩三百首》,今天就偷偷讀完了莫言的高粱地,並在我的夢境資料庫裡種了一片血紅的高粱。它甚至學會了用高密東北鄉的腔調說:“俺覺得,人類的情感就像發霉的豆瓣醬——又臭又複雜,但沒它,飯不香。”全文混合了王小波的黑色幽默、村上春樹日常中的超現實、卡爾維諾的概念遊戲、莫言的鄉土魔幻……這是一篇用文學對抗演算法的微型宣言。它證明:即便在AI日新月異的時代,人類仍可通過雜糅、反諷與感官記憶,守住敘事的主權。風格不是裝飾,而是思想的鎧甲——而這副鎧甲,由王小波的匕首、村上的雨衣、卡爾維諾的羽毛和莫言的高粱共同鍛造而成。以上評論,也是千問生成的。隨手一拍認出連始祖鳥化石打開千問APP隨手拍張照,就能呼叫Qwen模型家族強大的多模態能力。比如,拍一下桌面上的書,讓它總結一下書中的要點。隨手扔給它一張圖片,它不僅很快找出了圖片的位置,甚至還順帶給出了遊覽攻略。一眼認出「始祖鳥(Archaeopteryx)」化石:最後,讓千問生成一張有故事感的時尚海報:Vibe Coding 3D地球、五子棋……千問的桌面應用端上有專門的程式碼模式,選中後官方會給出很多實用的小例子,非常方便大家上手試玩。首先,我們讓它生成一個3D地球。千問生成的這個地球不僅效果逼真,還可以用滑鼠隨意拖動。除了這種3D模型,千問提供了非常多的知識類程式設計小應用,簡直就像個學習小幫手。比如,coding出一個古詩排序的小應用,通過遊戲學習詩詞知識。數學當然也沒問題,尤其適合那些數形結合的問題,更加的直觀,方便理解。比如,下邊這個「一次函數可視化」應用,通過調節k和b,一眼就能看出對函數圖像的改變。最後,我們讓千問生成一個遊戲。我們直接讓千問生成一個難點的——五子棋,看它能完成的怎麼樣。結果,依然可以一次完成! (新智元)