#程式碼
Gemini 3 Pro 封神的背後:Google致敬的那個男人,竟然是個“快樂的無業游民”
最近,Google 的 Gemini 3 Pro 徹底刷爆了技術圈。它之所以能從眾多大模型中殺出重圍,不僅僅是因為它的推理能力更強了,而是因為它帶來了一個革命性的功能——“生成式 UI”(Generative UI)。當你對它說“做一個貪吃蛇遊戲”時,它不再是像以前那樣給你吐出一大段冰冷的程式碼塊,而是直接在螢幕右側“畫”出了一個可以玩的、互動流暢的遊戲介面。這種“忽略過程,直達結果”的產品哲學,讓無數開發者驚呼“變天了”。但 Google 為什麼會有這個想法?如果你把時間軸撥回 2025 年 2 月,你會發現這個理念其實源於一條推特。當時,Andrej Karpathy 發推提出了 "Vibe Coding" 的概念:“未來我們不需要寫程式碼了。我們只需要沉浸在一種感覺(Vibe)裡,甚至忘掉程式碼的存在。”Google 聽懂了。他們把 Karpathy 這種“看不見程式碼”的終極幻想,做成了 Gemini 3 Pro 的核心。那麼,這個讓兆巨頭都要“偷師”理念的男人,到底是誰?AI 界的“六邊形戰士”:Andrej KarpathyAndrej Karpathy 這個名字,對於普通人可能有點陌生,但在 AI 開發者心中,他是神一般的存在。回顧他的履歷,你幾乎可以看到整個現代 AI 發展的縮影:1. 名師高徒的學術起點在史丹佛大學攻讀博士期間,他是 AI 教母 李飛飛(Fei-Fei Li) 的得意門生。在那裡,他設計並主講了傳奇課程 CS231n,這門課至今仍是全球無數電腦視覺工程師的“入行聖經”。2. OpenAI 的創始元老博士畢業後,他成為了 OpenAI 最早期的核心研究員之一,與 Ilya Sutskever 等人一起奠定了 GPT 系列的基礎。3. Tesla 的自動駕駛統帥隨後,他被 Elon Musk 挖走,擔任 Tesla 的 AI 總監。在那裡,他直接向馬斯克匯報,領導了 Autopilot 團隊,不僅一手搭建了 Tesla 的資料飛輪,更主導了那個當時備受爭議的決策——放棄雷達,轉向純視覺方案。4. 回歸教育與再出發功成名就後,他沒有選擇躺在功勞簿上,而是離開大廠,回歸初心。他在 YouTube 上開設了 《Zero to Hero》 系列課程,手把手教普通人寫大模型。如今,他創辦了 Eureka Labs,致力於用 AI 重塑教育,試圖打造一種全新的“AI 原生”學習方式。學術界、工業界、教育界,他不僅都去過,而且在每一個領域都做到了頂尖。5 個故事,看懂“頂級極客”的另一面如果光看履歷,你可能會覺得他是一個高高在上的精英。但實際上,Karpathy 之所以如此受歡迎,是因為他極其真實、有趣,甚至有點“奇葩”。01:周末隨手寫個程式碼,羞辱了整個行業(llama2.c 事件)2023 年,大家都覺得跑大模型(LLM)非常複雜,需要安裝幾 GB 的 PyTorch 庫。 Karpathy 有個周末閒著沒事,覺得現在的 AI 軟體棧太臃腫了。於是他用純 C 語言(不依賴 Python,不依賴 PyTorch)寫了一個推理引擎。 這個檔案只有 500 行程式碼,編譯完的可執行檔案只有幾 MB,卻能在 MacBook 上流暢運行 Llama 2 模型。 他用一個周末的“玩具”,狠狠打臉了那些把 AI 搞得過於複雜的框架,也讓無數人第一次真正看懂了 LLM 是怎麼跑起來的。02:把自己當成“神經網路”來訓練(生物駭客)Karpathy 是典型的**“工程思維入腦”**。他不只最佳化程式碼,還瘋狂最佳化自己的身體。睡眠實驗: 他通過 Oura Ring 監測資料,調節溫度、濕度、光線,測試不同變數對“深度睡眠分數”的影響。他在推特上像發佈模型訓練日誌一樣,發佈自己的睡眠資料分析。咖啡演算法: 他曾詳細分享過自己的咖啡攝入策略——不是為了好喝,而是為了維持血液中咖啡因濃度的恆定,以保持大腦 GPU 的最佳算力。這完全是把生理機能當成 Learning Rate(學習率)在調節。03:在 Tesla 的“豪賭”(切斷雷達)當時所有自動駕駛公司都認為必須用雷射雷達(LiDAR)。但 Karpathy 和馬斯克認為:人類只靠眼睛就能開車,所以車也應該只靠攝影機。他領導團隊重寫了 Tesla 的感知棧,建構了著名的 HydraNet,並推動移除了車上的雷達。據說他在 Tesla 工作時,為了處理海量資料,經常就在辦公桌下鋪個睡袋睡覺(這點倒是和馬斯克很合拍)。04:史上最“不務正業”的無業游民離開 OpenAI 和 Tesla 這種頂級公司後,大家都以為他要去融資幾億美金開公司。結果他回家錄 YouTube 視訊去了。他拒絕了無數投資人的電話,只是為了把極其複雜的 Transformer 模型講得連高中生都能懂。他在推特上自嘲說自己是"Funemployed"(快樂的失業者)。這種“視金錢如糞土,只想教書育人”的態度,也是為什麼很多開發者對他有類似“聖徒”般崇拜的原因。05:痛恨“臃腫”的潔癖Karpathy 有嚴重的程式碼潔癖。他非常討厭複雜的抽象層。如果一個任務可以用 100 行原生程式碼解決,他絕不會引入一個 100MB 的第三方庫。雖然他現在推崇 Vibe Coding,但他本人的基本功極其紮實。他在 Stanford 教書時,曾強制要求學生手動計算反向傳播的梯度,不准用自動微分框架。他的邏輯是:“如果你不知道引擎蓋下面發生了什麼,你就沒資格開這輛法拉利。”AI 時代,“懶”是一種稀缺的超能力看完 Karpathy 的故事,再回看 Gemini 3 Pro 的“生成式 UI”,你會發現一個有趣的核心:這些頂級的創新,往往源於一種“懶”。Karpathy 因為“懶”得處理臃腫的環境,寫出了極簡的 llama2.c;因為“懶”得處理多餘的感測器資料,搞出了純視覺自動駕駛;因為“懶”得寫重複的程式碼,提出了 Vibe Coding,最終啟發了 Google 的生成式 UI。在 AI 時代,我們從小被教育的“勤奮”——死記硬背、機械重複、拼手速——正在迅速貶值。相反,“懶”正在成為一種核心競爭力。這裡的“懶”,不是躺平,而是一種敏銳的需求洞察力:是因為對低效流程的不耐煩,你才會去想如何最佳化它;是因為不想把時間浪費在重複造輪子上,你才會去尋找更高級的工具。Gemini 3 Pro 這樣的工具出現,正是為了成全我們的“懶”。它把我們從“如何實現”的苦役中解放出來,讓我們有精力去思考“實現什麼”和“為什麼實現”。所以,像 Andrej Karpathy 一樣,做一個“聰明的懶人”吧。在這個時代,發現需求比解決需求更重要,定義問題比動手執行更珍貴。 (許良學AI)
OpenAI 發佈 GPT-5.1-Codex-Max,反擊 Gemini 3 Pro
OpenAI 於 2025 年 11 月 19 日發佈了 GPT-5.1-Codex-Max,本質上是在原有 GPT-5.1-Codex 之上,對“長程編碼任務”和 agent 化工作流做的一次定向升級:底層換成新版推理基座模型,訓練資料更貼近真實軟體工程過程,包括 PR 建立、程式碼審查、前端開發和技術問答,並在訓練階段顯式針對 Codex CLI 和 Windows 環境做了適配。官方同時將其設為 Codex 系列默認模型,經由 Codex CLI、IDE 外掛、雲端整合和程式碼評審等通道提供給現有使用者,API 計畫稍後開放。基準表現與長程任務能力從已公開的基準資料看,Codex-Max 相對上一代 Codex 的提升是具體且可量化的,而不是“版本號一加、能力翻倍”式的包裝。公開資料與社區整理結果顯示,它在 SWE-Lancer IC SWE 上從 66.3% 提升到約 79.9%,在 SWE-Bench Verified 上從 73.7% 升至 77.9%,Terminal-Bench 2.0 則從 52.8% 提升到 58.1%。這些測試運行在較高推理檔位,並結合所謂“compaction”機制:當上下文臨近極限時自動壓縮會話,僅保留關鍵要點,以便在單一任務中跨越百萬級 token。OpenAI 在產品文案和系統卡中反覆強調,Codex-Max 在內部環境下可以連續工作 24 小時以上,完成多階段重構、測試驅動迭代和自主演進式偵錯。這說明在 Codex 受控環境中,模型在多輪失敗和自我修正中仍能保持相對穩定的策略,而不僅僅是一次性給出答案。但這類長程任務的表現目前主要來自廠商自證和少量早期使用者反饋,在更複雜的企業程式碼庫和 CI/CD 流水線下能否復現,仍需要時間檢驗。OpenAI 同時表示,在中等推理強度下,Codex-Max 在保持或略微提升精準率的情況下,思考 token 消耗比上一代減少約 30%,理論上可以在不犧牲質量的前提下降低時延和成本。這些數字目前仍以官方披露為主,第三方系統化驗證尚不充分,更穩妥的做法是將其視為趨勢性訊號,而非精確定價依據。與 Gemini 3 Pro 的能力對比與 Gemini 3 Pro 的關係,比單純比較“誰更強”要複雜得多。DeepMind 的官方材料顯示,在 LiveCodeBench Pro 這類偏演算法競賽風格的基準上,Gemini 3 Pro 的 Elo 在 2400+ 區間,顯著高於此前的 GPT-5.1 系列;在若干長程、工具使用與博弈類任務中,Gemini 3 Pro 也有相對明顯的領先,被普遍視為“複雜推理 + 多模態 + agent 組合任務”上的強項。過去幾天的技術部落格與評測大多據此認為,Gemini 3 Pro 在“複雜推理 + 多模態 + agentic 任務”上,對 GPT-5.1 形成了階段性優勢。Codex-Max 引入後,這種對比出現了一些局部反轉。根據 OpenAI 自身資料和早期評測,在 SWE-Bench Verified 和 Terminal-Bench 2.0 這兩類更貼近真實工程和終端操作的基準上,Codex-Max 相對上一代 GPT-5.1-Codex 有明顯提升,並在部分設定下略高於當前公開版本的 Gemini 3 Pro。不過,這些對比往往使用不同 agent、不同終端環境和不同推理檔位,嚴格意義上的“同場雙盲”樣本並不多,目前更適合解讀為:在若干具體編碼基準上,兩者已進入“互有勝負”的狀態,而不是誰絕對壓制誰。更現實的判斷是:在日常“寫業務程式碼、修缺陷、補測試”這類任務中,兩者都足夠強,差異更可能體現在長任務穩定性、對特定平台和框架的適配程度,以及與現有工具鏈的整合深度。Codex-Max 更像是在 OpenAI / Codex 生態內部,把“工程 agent”這條線補足到不落於人,而 Gemini 3 Pro 則持續押注於“多模態 + 高階推理 + 超長上下文”的整體能力版圖。價格策略與“長任務經濟性”在經濟性方面,兩家目前採用的策略並不完全相同。Gemini 3 Pro 的 API 定價較為透明:在 200k token 內,每百萬輸入約 2 美元、輸出約 12 美元;超過 200k 之後分別翻倍到 4 美元和 18 美元,明顯通過價格對超長上下文收取溢價,同時在宣傳中頻繁強調“100 萬 token 上下文”的賣點。相比之下,OpenAI 尚未單獨公佈 Codex-Max 的 API 價格,而是強調通過 compaction 和思考 token 最佳化來降低有效成本,即在模型內部結構和推理策略上做文章,而不是在價格表上人為劃分“短上下文”和“長上下文”檔位。對真正會跑長任務的團隊而言,最終帳單會同時受兩類因素影響:模型本身的 token 效率,以及平台對長上下文的計費方式。現階段,大致可以預期 Gemini 3 Pro 在極長上下文、多模態場景的成本會相對更高,而 Codex-Max 在純文字 / 程式碼長任務中的“性價比”則需要依賴未來更多第三方使用資料來判斷。工具鏈與開發流程的策略差異從產品路線看,兩家在“工程 agent”問題上的回答明顯不同。OpenAI 的選擇,是儘量不觸碰開發者的主戰場:Codex-Max 深度嵌入 Codex CLI、傳統 IDE 外掛、雲端整合與程式碼評審流程,尊重現有的 Git / CI/CD 流程,只在原有流水線上引入更強的自動化能力。這種路徑的現實意義在於,企業不必在 IDE、原始碼託管或 CI 系統上做大幅遷移,只需要在權限和審計層面逐步提高對 agent 的信任度。Gemini 3 Pro 則試圖配合 Antigravity 直接重構開發環境。Antigravity 的設計圍繞多 agent 管理、Artifacts 記錄(計畫、執行證據、測試結果)以及自動UI 操作展開,把“agent 作為一等公民”的假設寫進 IDE 形態。這意味著,選擇這一路線的團隊,在獲得更激進自動化可能性的同時,也要面對 IDE 層級的範式遷移成本。短期內,OpenAI 路線的落地阻力顯然更小;但如果 Antigravity 這種模式在部分大廠內部證明有效,長期對開發工具和雲平台格局的衝擊可能更直接。安全、治理與不確定性在安全治理方面,OpenAI 的系統卡指出,GPT-5.1-Codex-Max 在網路安全方向已經“非常有能力”,但尚未達到其內部定義的“高能力”閾值,在生物安全方向則按高能力模型管理,配套更嚴格的使用限制和監控。為降低長程 agent 帶來的額外風險,OpenAI 在 Codex 產品層疊加了沙箱執行、可配置的網路訪問,以及行為監控與速率限制等機制。這些措施能在多大程度上覆蓋真實企業環境下的濫用場景,目前仍缺乏足夠公開案例,只能說方向合理,但效果有待觀察。Gemini 3 Pro 在官方材料中同樣強調安全評估與企業級控制選項,但在具體編碼任務下的攻擊能力、越權操作風險等方面披露更為克制,外部公開資料主要來自綜合評估和少量第三方測試。對有合規壓力的組織來說,一旦開始認真嘗試 24 小時等級的自治編碼任務,技術問題之外,很快會面臨審計、責任界定甚至監管層面的額外要求,這部分目前基本還處在“實踐先於規範”的階段。初步判斷與現實決策點綜合來看,GPT-5.1-Codex-Max 更像一場經過精心選擇發佈時間的防守反擊:在 Gemini 3 Pro 通過一系列基準與多模態能力佔據敘事高地之後,OpenAI 把“編碼專用”這一子類重新拉回到一個至少不落下風的位置,並在 SWE-Bench、Terminal-Bench 等對開發者更敏感的指標上爭取了部分優勢。然而,無論是 Codex-Max 還是 Gemini 3 Pro,目前都更適合被視為“強力助手 + 局部自治 agent”,距離可以完全接管軟體工程流水線、在企業環境中大規模無監督運轉,還有明顯距離。在這種背景下,對真正需要做技術選型的團隊來說,現在去糾結某個單一基準上差一兩個百分點的勝負意義有限,更現實的決策維度可能包括:現有工具鏈與那個生態的耦合程度更深,組織內開發者對那一套平台更熟悉,在安全與審計層面能接受怎樣的自治邊界,以及是否有意願為 Antigravity 這類新範式額外付出一輪遷移成本。至於長程 agent 是否真能在實戰項目中穩定跑完 24 小時以上任務,這件事大機率只能交給未來一兩年的真實項目和內部 A/B 測試來給答案。 (InfraNative)
【十五五】李彥宏人民日報撰文
百度公司創始人、董事長兼首席執行官李彥宏在人民日報發表署名文章《內化AI能力,加快形成新質生產力》。以下為全文:“十五五”時期經濟社會發展的主題是推動高品質發展。推動高品質發展,最重要是加快高水平科技自立自強,積極發展新質生產力。人工智慧(AI)作為引領新一輪科技革命和產業變革的重要力量,對於加快形成新質生產力、實現經濟社會高品質發展作用十分關鍵。過去幾年,中國在人工智慧算力基礎設施和大模型等關鍵領域取得顯著突破,形成了領先優勢。中國算力規模躍居全球第二,湧現出DeepSeek推理大模型、文心原生全模態大模型等廣受好評的基礎大模型,百度也建成了國內首個自研的P800三萬卡叢集。推動人工智慧更好賦能高品質發展,一個重要方面是讓千行百業內化AI能力、建構AI原生能力,使之成為企業發展的原生推動力。這既有助於智能產業發展壯大,也有助於傳統產業加快轉型升級。以場景出新帶動創新,提升人工智慧應用能力。數字人技術、程式碼智能體技術、無人駕駛技術等,已被應用驗證,產生了很好的效果。在電商直播、銷售客服等場景中,數字人成為超級能幹的“數字員工”。程式碼智能體也在科技公司中加速鋪開,一些外國科技公司的程式碼AI生成率甚至超九成。基於無人駕駛技術的百度蘿蔔快跑已在全球22座城市落地。企業可通過選擇合適的AI技術,積累一定的探索成果,並在總結經驗、複製推廣的基礎上加快發展步伐。“十五五”規劃建議提出,“推動科技創新和產業創新深度融合”“加大應用場景建設和開放力度”。瞄準重複勞動多、勞動力緊缺、崗位高危、流程瓶頸多、決策複雜度高等場景,用好AI在低成本內容生成、無人化、智能編碼、智能演算法最佳化等方面的優勢,能幫助企業降成本、提利潤、優決策、發現新增長點。以產業融合激發動能,做強人工智慧增長引擎。中國是世界上唯一擁有全部工業門類的國家,推進人工智慧與實體經濟深度融合,空間廣闊、潛力巨大。在實體經濟企業中內化AI能力,利用人工智慧技術賦能礦業、化工、輕工、船舶等重點產業,有助於進一步夯實實體經濟這個根基。當前實體經濟產業鏈自主可控水平的提升,有賴於在排產調度、資源最佳化、路徑規劃、交易決策等方面提供更優的解決方案。“伐謀”演算法智能體專注於尋找“全域最優解”,已在交通、能源、物流、港口等複雜系統中實現顯著提效。千行百業立足自身優勢和行業特性,內化AI能力、建構AI原生能力,更好激發通用模型與行業有機融合產生的“化學反應”,社會整體生產效率、創新能力將實現躍升。加強戰略規劃,讓“AI賦能”成為發展共識。新質生產力的顯著特點是創新,既包括技術和業態模式層面的創新,也包括管理和制度層面的創新。在人工智慧等新技術帶來系統性、結構性變革的背景下,探索人機協同的新型組織和管理模式變得更加迫切。抓住數字經濟轉型和人工智慧發展機遇,從決策到執行,從客戶到供應鏈,讓AI能力滲透到生產、經營、服務的每一個環節、每一個細胞,是企業必須做好的課題。各領域企業搶佔一個個“智高點”,加快融入全面推進人工智慧科技創新、產業發展和賦能應用的潮流大勢,社會生產要素將因智能化重組而更高效流動,科技創新成果將更快轉化為現實生產力,社會整體的創造潛能將被全面激發。百度作為中國人工智慧領域投入最早、佈局最全的企業之一,有責任、有能力也有信心走在這一變革前列。我們將持續加大投入,建構領先的智能基礎設施,研發更前沿的大模型技術,打造更開放的產業生態體系,助力千行百業內化AI能力、建構AI原生能力、加速智能化轉型,為中國經濟高品質發展作出新貢獻。 (科創日報)
接招吧,GPT-5.1!
【新智元導讀】開源對攻ChatGPT!今天,公開叫板ChatGPT的中國AI,刷屏了!它就是阿里官方認定的最強大模型AI助手——千問APP。全新升級的千問APP主推:三大功能:對話問答、智能寫作和全能相機;四大特色:回答聰明、模型先進、文采出眾、識別全面。那麼問題來了,它到底有什麼底氣要和ChatGPT全面競爭?來一波實測,看看是騾子還是馬吧。來自ChatGPT的肯定先讓千問解答心中的疑問🤔:「千問有什麼底氣要和ChatGPT全面競爭?」千問速度相當快,馬上總結了它的5大底氣:1. 技術底子硬:Qwen3-Max模型性能全球頂尖特別是,多輪對話響應速度比 GPT-5 快17%,中文理解(比如古詩詞、方言)精準率更高。2. 開源+閉源雙軌戰略:生態與核心兩手抓這意味著:千問既能快速迭代、本土化適配強,又能守住商業護城河。3. 深度繫結中國場景,這是ChatGPT永遠做不到的深度融合阿里生態, 可識別88種電商場景;未來還會整合外賣、訂票、辦公、健康……4. 算力自主 + 巨額投入:不靠Azure,自己建「AI電廠」阿里宣佈3800億元投入AI基礎設施,其中超六成用於建設亞洲最大智算中心。5. 最重要的是:它想做你的「AI夥伴」,不只是工具千問新上線的Chat Memory(長記憶)功能,能記住你是誰、你在做什麼、你上次提到的需求。最後,千問總結了「技術、生態、場景、資料、記憶」五大buff,還拉黃仁勳背書:現在問題來了:千問到底有沒有幻覺?特別是,引用黃仁勳的「Qwen已成為矽谷的根基」,聽起來怎麼像高考作文中的「魯迅說過……」?黃仁勳的確誇過「千問」(Qwen)是最好的開源模型之一:而且,千問的實力得到了「全面競爭對手」ChatGPT的肯定——面對相同的問題,GPT-5.1查詢網際網路資訊後,表示千問有三大底氣:1. 模型與技術基礎強大:從技術能力角度來看,它有「可與ChatGPT一較」的潛在基礎。2. 生態+場景整合優勢:從「從技術+平台」維度來看,它具備整合「AI助手+生活/工作場景」的潛力。3. 市場/政策/本地化優勢(特別在中國市場):從商業化/使用者獲取/本地化角度也有一定優勢。總體上ChatGPT認為千問是個「強有力的追趕者」+「本地化最佳化的競爭者」:在最新模型上,Qwen和GPT系列孰強孰弱?由於千問、GPT-5.1發佈時間極新,尚無第三方權威機構完成全面橫向評測。直接問千問:尋找「千問與 GPT 5.1」 在具體任務(比如長文字理解、多模態、程式碼生成)上的對比評測,讓我們一起看其優劣差距在上下文理解與處理、多模態能力和程式碼生成與程式設計能力上,千問做了一單比較:輸入相同的提示詞,GPT-5.1承認,千問本地化優勢明顯:⚠️注意:以上內容由AI生成,僅供參考。莫道此才今始盛剛剛,Qwen宣佈有1千萬使用者和Qwen Chat對過話:那就以此為題,讓千問作首古詩吧:為下列主題寫一首李白風格的、充滿想像力的古詩: 1000,0000使用者正在使用Qwen Chat進行創作——而這只是一個開始。換成李白的《登金陵鳳凰台》,也沒問題:《登雲台詠千問》鳳凰台上鳳凰游, 萬智雲中萬智流。舊時程式碼埋幽徑, 今日文章耀鬥牛。三山半落青天外, 一網遙連碧海秋。不見算樞吞曉月, 長隨使用者寫神州。模仿現代作家,千問也可以:以「王小波 / 村上春樹 / 卡爾維諾 / 莫言」的寫作風格, 圍繞「AI日新月異」寫一段 500 字的短文,並標註你模仿的風格特徵。開頭就很「科幻」:今天早上,我的AI助手突然開始寫詩,用的是我奶奶醃酸菜的配方格式:“三斤白菜,兩勺鹽,一縷月光,半顆悔恨的心。”它說這是“後人類抒情主義”。我坐在廚房裡啃著冷饅頭,窗外一隻黑貓正和掃地機器人對峙——那貓眼神憂鬱得像村上筆下丟了女友的調酒師,而機器人固執地繞圈,彷彿卡爾維諾筆下那個永遠在螺旋樓梯上找出口的子爵。對「AI日新月異」描寫,非常到位:AI日新月異,快得讓我懷疑昨天它還在背《唐詩三百首》,今天就偷偷讀完了莫言的高粱地,並在我的夢境資料庫裡種了一片血紅的高粱。它甚至學會了用高密東北鄉的腔調說:“俺覺得,人類的情感就像發霉的豆瓣醬——又臭又複雜,但沒它,飯不香。”全文混合了王小波的黑色幽默、村上春樹日常中的超現實、卡爾維諾的概念遊戲、莫言的鄉土魔幻……這是一篇用文學對抗演算法的微型宣言。它證明:即便在AI日新月異的時代,人類仍可通過雜糅、反諷與感官記憶,守住敘事的主權。風格不是裝飾,而是思想的鎧甲——而這副鎧甲,由王小波的匕首、村上的雨衣、卡爾維諾的羽毛和莫言的高粱共同鍛造而成。以上評論,也是千問生成的。隨手一拍認出連始祖鳥化石打開千問APP隨手拍張照,就能呼叫Qwen模型家族強大的多模態能力。比如,拍一下桌面上的書,讓它總結一下書中的要點。隨手扔給它一張圖片,它不僅很快找出了圖片的位置,甚至還順帶給出了遊覽攻略。一眼認出「始祖鳥(Archaeopteryx)」化石:最後,讓千問生成一張有故事感的時尚海報:Vibe Coding 3D地球、五子棋……千問的桌面應用端上有專門的程式碼模式,選中後官方會給出很多實用的小例子,非常方便大家上手試玩。首先,我們讓它生成一個3D地球。千問生成的這個地球不僅效果逼真,還可以用滑鼠隨意拖動。除了這種3D模型,千問提供了非常多的知識類程式設計小應用,簡直就像個學習小幫手。比如,coding出一個古詩排序的小應用,通過遊戲學習詩詞知識。數學當然也沒問題,尤其適合那些數形結合的問題,更加的直觀,方便理解。比如,下邊這個「一次函數可視化」應用,通過調節k和b,一眼就能看出對函數圖像的改變。最後,我們讓千問生成一個遊戲。我們直接讓千問生成一個難點的——五子棋,看它能完成的怎麼樣。結果,依然可以一次完成! (新智元)
60億美元狙殺比特幣?
比特幣是人為憑空創造的,本質就是一串程式碼,一個美國教授宣稱花60億美元就能把比特幣干垮。川普為了應對美債危機,試圖把加密貨幣和美債繫結在一起,還宣稱這是完美的計畫,這不就是鐵鎖連舟嘛,一千八百年前就有個姓曹的這麼幹過,最後被孫劉聯手一把火給燒了。所以川普再次宣佈對華加征關稅時,黃金沒崩,但加密貨幣卻崩了,創造了加密貨幣有史以來的最大虧損。這件事很簡單,算力約等於電力,全球最大的電力在那裡,誰就有能力對比特幣發起突然攻擊。川普隨便口嗨加征關稅之後,他的秘書應該是提醒了他,所以那條消息又被他默默的撤回了。1先得搞懂比特幣的命門在那。這玩意兒不像咱們存在銀行裡的錢,有國家背書,它靠的是 “區塊鏈” 技術維持安全。簡單說,就是全世界無數台電腦(叫 “礦機”)一起記帳,每筆交易都得多數電腦認可才算數。這就像一群人輪流管帳本,誰也沒法單獨改數,安全性全靠 “人多勢眾”。那教授說的 “60億擊潰” 是咋回事?核心套路叫 “51% 攻擊”。意思是只要掌控了全網51% 以上的礦機算力,就能隨心所欲改帳本 —— 比如把花出去的幣再偷回來,或者乾脆凍結別人的帳戶。教授算過一筆帳:現在買礦機、租場地、付電費,湊夠能打贏的算力,總成本大概60億美元。這件事情一個普通的企業是很難完成。首先算力這東西不是固定的,比特幣全網算力每天都在漲,就像你剛湊夠51%,別人又加了新礦機,之前的投入可能直接打水漂。有老礦工算過,真要發動攻擊,實際花的錢可能得翻兩三倍,而且還得在短時間內秘密集結這麼多裝置,根本藏不住。更關鍵的是,比特幣早就不是 “孤軍奮戰” 了。現在很多礦機都掌握在大型礦池手裡,這些機構本身就靠比特幣吃飯,肯定會聯合起來防禦。之前就有小平台試過搞攻擊,剛露出苗頭就被全網礦機集體抵制,最後賠得底朝天。但如果做這件事不是一個單純的企業或者個人,而是一個國家呢。2有意思的是,這事兒還扯出個更實在的問題:比特幣到底值不值得投?就在這篇論文引發熱議的時候,英國最大的投資平台剛發了聲明,直接說 “比特幣不是資產”,因為它沒有任何內在價值,既不能像股票那樣分紅,也不能像黃金那樣避險,純粹是炒來炒去的數位遊戲。不過話說回來,60億攻擊論也給幣圈敲了警鐘。比特幣的安全靠的是算力,可算力集中在少數人手裡就是隱患。而且這幾年各國對加密貨幣的監管越來越嚴,就算沒人發動攻擊,政策變動也可能讓它跌得很慘。總結下:美國教授的60億攻擊論,更像紙面上的推演,真要實操難度極大。但這事兒也暴露了比特幣的本質 —— 沒有內在價值,全靠市場信心和技術維繫。普通人要是想進場,可得想清楚:你賭的到底是技術革命,還是另一場擊鼓傳花的遊戲?回溯過往二十年崩盤史,2000年是網際網路泡沫破裂,2008年是美國房地產次級貸,2020年是全球疫情,2026年全球大崩盤主要誘因應該就是數字貨幣泡沫崩盤所導致的。 (新魚財經)
算力寡頭的崛起:AI 基礎設施秩序
在 2025 年的科技敘事裡,“算力” 幾乎取代了 “模型”,成為新的關鍵詞。訓練資料與演算法創新仍在持續,但決定一家企業能否進入下一階段競爭的,不再是研究突破,而是能否獲得足夠的 GPU。在 a16z(Andreessen Horowitz)的視角中,這種轉變並非短期現象,而是一場基礎設施權力的重組。當算力成為 AI 產業的硬通貨,整個技術堆疊的價值開始從上層應用,回流到最底層的資源控制:晶片製造、雲調度、電力供給、資本密度,統統成為新的戰略要地。正如 a16z 合夥人 Martin Casado 所說:“當創新成本由演算法轉向硬體與能源,競爭就從工程能力轉向資本結構。”Dylan Patel 在 a16z 播客《GPT-5、NVIDIA、Intel》中形容輝達投資英特爾,是 “一種縱向自我保護”;Casado 則進一步指出,一個新的 “算力寡頭秩序” 正在成形 ——少數同時掌握計算、模型與能源分配權的公司,將定義未來 AI 的速度上限。本篇筆記試圖透過 a16z 近三個月(7–9 月)播客中幾位核心合夥人的公開討論,觀察他們如何理解這場從技術到資本的結構性遷移。從晶片到雲,再到資本,我們正見證一個新世界的建立:程式碼仍在寫,但計算的 “權” 與 “能”,正悄然集中。|註: a16z(Andreessen Horowitz)是一家總部位於矽谷的風險投資機構,由 Marc Andreessen 與 Ben Horowitz 創立。它以長期投資技術底層架構聞名,其 Podcast 常被視為矽谷未來趨勢的 “思想窗口”。01|晶片層:a16z 眼中的 “能源秩序”在 a16z 與行業專家的播客討論中,晶片層始終被視為 AI 產業重構的起點。在 《Dylan Patel: GPT-5, NVIDIA, Intel》 一集中,Patel 與 a16z 的 Erin Price-Wright、Guido Appenzeller 共同討論了一個核心問題:“為什麼 ‘複製 NVIDIA’ 幾乎不可能?”(1)複製 NVIDIA:困難不在晶片,而在系統協同Patel 指出:即使你能造出與 NVIDIA 性能接近的 GPU,也很難複製其系統性效率。這背後的瓶頸不在電晶體,而在協同層:包括節點工藝、HBM 記憶體頻寬、網路互連、能耗管理、熱設計等。每一處邊緣差距都會在規模化叢集中被放大為成本和性能損耗。他稱這種現象為 “系統性摩擦(Systemic Friction)”,並提醒聽眾:“晶片不是一塊矽片,而是一整條產業管線。”a16z 在這段對話中延伸出一個關鍵判斷:硬體競爭的本質,是供應鏈與系統架構的耦合能力。因此,要複製 NVIDIA,不只是抄硬體,而是重建一整套協同基礎設施。(2)NVIDIA 投資 Intel:產業風險下的戰略重構2025 年 7 月,NVIDIA 宣佈向 Intel 投資 50 億美元 —— 表面看是競爭者之間的罕見合作,但在 Patel 的分析中,這一行為本質上是一種戰略保險。他從兩條路徑解讀:1. 供應鏈保險(Supply Chain Hedge):在 GPU 供應緊張、HBM 記憶體受限的環境下,NVIDIA 需要確保 CPU / 封裝 / 製造等環節的穩定性。通過繫結 Intel,可以強化異構協同和製造冗餘。2. 政策避險(Policy Hedge):在出口管制、反壟斷監管高壓下,這種 “友敵式投資” 能緩解政治與產業層的摩擦。a16z 的主持人 Appenzeller 在節目中評論:“這不是一筆財務投資,而是結構性博弈。它重新定義了什麼叫 ‘產業聯盟’。”在 a16z 的語境下,這意味著:算力寡頭之間不再是零和關係,而是權力結構的互鎖。(3)算力即能源:物理極限與地理壁壘Patel 在同一播客中強調:“算力消耗的不是矽,而是電。”一個 10 萬張 GPU 的資料中心,其最大瓶頸往往不是晶片,而是電網容量與冷卻效率。他指出,美國新建的 AI 資料中心多集中在德州、俄勒岡、弗吉尼亞等電價低、氣候冷的地區,而非舊金山或紐約這樣的科技中心。a16z 將這種現象定義為 “能源可得性壁壘(Energy Accessibility Barrier)”:當算力與電力繫結後,能源供應本身就成為競爭力的一部分。Patel 的結論極具警示性:“資料中心的選址差異,正在決定全球 AI 的速度差。”在 a16z 的視角中,這正是未來 “算力秩序” 的雛形:技術進步最終被物理條件重新約束,而能源效率成為新的護城河。02|雲層:a16z 眼中的 “算力入口”如果說晶片層定義了誰能製造算力,那麼雲層則決定了誰能分配算力。a16z 合夥人 Jennifer Li 在 8 月的播客 《The AI Infrastructure Stack》 中指出:“AI 的底層設施,正在從硬體棧轉向調度棧。真正的控制點,不是晶片,而是調度系統。”這句話,是 a16z 理解 “AI 基礎設施秩序” 的轉折點。(1)算力的抽象化:從晶片到服務Jennifer Li 在那期播客中,系統地拆解了 AI 技術堆疊的演進路徑:從模型到推理,再到資料與調度,每一層都在被重新封裝。她強調,未來基礎設施的核心,不在於 GPU 的數量,而在於是否能將算力 “抽象化” 為可組合、可呼叫、可計費的服務。她舉例:訓練階段需要長時、高密度 GPU 叢集;推理階段則要求低延遲、分佈式呼叫;而一套成熟的算力平台,必須能在兩者之間靈活切換。這正是 a16z 投資策略中的核心邏輯:算力不再是固定資產,而是一種動態可交易的服務。(2)協議層崛起:算力的 “通用語言”a16z 在基礎設施投資中持續押注 “協議層(protocol layer)”。Li 解釋道:“協議的意義在於,使算力可遷移、可互換、可程式設計。”在 2025 年的播客中,她提到多家被投公司正在建構跨雲相容的算力協議,允許開發者通過統一 API 在不同雲之間呼叫 GPU 資源。這意味著,雲端運算的壟斷格局可能被 “協議抽象” 重新定義。對 a16z 來說,這並不是 “去中心化” 的理想主義,而是對資源調度效率的再設計。Jennifer Li 總結說:“算力的未來,不是更多晶片,而是更好的調度語言。”(3)延遲與地域:新的算力地理學a16z 另一位合夥人 Appenzeller 在隨後的 《Edge vs Cloud Tradeoffs in AI 》節目中補充指出:推理任務的增長,正在迫使算力分佈發生位移 —— 從集中式雲端運算,回到更接近使用者的邊緣節點。在他們看來,這種 “分佈式反向遷移”,並非對雲的替代,而是其自然演化:“延遲成本,正在成為新的地理壁壘。”這意味著,誰能在關鍵區域(如電力穩定、氣候冷、網路頻寬好的地區)部署低延遲算力節點,誰就掌握了下一代 AI 應用的流量入口。因此,在 a16z 的判斷框架裡:雲層的競爭,不是 AWS vs Azure 的延續,而是 “入口層 vs 延遲層” 的新戰場。(4)總結:雲層的權力邏輯綜合 a16z 在多期播客的判斷,可以提煉出他們對雲層的三層邏輯:在這一層意義上,Jennifer Li 的結論顯得尤其簡潔:“雲不再是工具,而是通道;誰控制了通道,誰就定義了速度。”03|資本層:a16z 如何看待 “算力的金融化”當晶片和雲都在加速集中,a16z 認為第三個權力中心正在浮現:資本本身。Martin Casado 在 7–9 月的兩期節目 《Monopolies vs Oligopolies in AI》 與 《The Economics of AI Infrastructure》 中提出,AI 的競爭邏輯已經從 “技術創新” 轉向 “資本密度競爭”。(1)技術紅利的終點:資本密度驅動期Casado 指出,AI 的邊際創新效率正在下降:訓練集規模逼近上限、演算法創新趨緩,而模型迭代的速度卻越來越快。他給出的關鍵數字是:“訓練一個 GPT-5 等級模型的成本,在 50 億至 100 億美元之間。”這意味著,AI 不再是工程師之間的賽跑,而是資本預算之間的比拚。Casado 把這一階段稱為 “資本密度驅動期(capital-intensive phase)”:創新上限,由能否獲得電力與現金流共同決定。(2)算力資產化:GPU 的金融化處理程序在 《The Economics of AI Infrastructure》 節目中,Casado 提出了一個核心概念:“Compute as an asset.”他認為,GPU 已經具備了傳統生產要素的三重屬性:可折舊(有壽命周期);可出租(推理租賃市場成熟);可抵押(資本市場開始建立 GPU 抵押信用線)。換句話說,算力已經成為一種可計價、可交易的資產類別。a16z 的另一位合夥人 Chris Dixon 曾用更直白的比喻說:“Compute is the new oil field of AI.”他們認為,這一趨勢意味著:AI 不僅在 “消費算力”,而是在 “建設資產”。(3)寡頭格局的形成:資本的幾何效應Casado 進一步指出,算力市場不會 “回歸均衡”。原因有三:資本門檻極高(硬體投資與資料中心支出形成自然壁壘);模型迭代依賴網路效應(規模優勢強化領先者的地位);資本集中度與效率正相關(更多融資意味著更快實驗與部署)。因此,AI 產業正進入他稱之為 “功能性寡頭(functional oligopoly)” 的階段。這不是反競爭,而是資本密度的自然後果。“在訓練成本呈指數上升的世界裡,贏家必須是資本充沛的玩家。”——Martin Casado,a16z Podcast,2025 年 8 月(4)為什麼 a16z 仍投早期公司看似矛盾的是:a16z 一邊承認寡頭格局,一邊仍在積極投資早期 AI 基礎設施公司。Casado 在節目中解釋,這並非兩難,而是雙層下注邏輯:他稱這種模式為 “Anti-Oligopoly Efficiency Dividend”——即使無法挑戰寡頭,也能在效率紅利中捕捉收益。(5)長期預測:算力市場將類比能源市場Casado 在結尾提出一個極具象徵性的比喻:“AI 計算的終局,會像能源市場。能源巨頭掌控供應,衍生市場提供流動性。”a16z 的長期假設是:算力將成為新的能源資產;協議層將成為新的交易系統;資本將決定創新的速度極限。這三點,構成了他們對未來 5–10 年 AI 基礎設施秩序的核心預測。結語|算力秩序的終極問題在 a16z 看來,AI 的競爭已經從演算法層滑向物理層、從技術紅利走向資本密度。這場遷移的核心,不是 “創新” 消失,而是創新的物理邊界被重新定義。他們提出的三層結構 ——晶片層:製造權;雲層:分配權;資本層:定價權;構成了 AI 世界新的權力分佈圖。模型仍然重要,但模型的命運,取決於它能否買到足夠的電力、時間與現金流。當技術的上限被物理與金融雙重約束,矽谷正在重新學習一個古老的問題:在一個能源決定速度的世界裡,創新的真正稀缺是什麼?—— a16z 給出的答案,或許是:自由分配算力的權力。 (複利貓的慢思考)
矽谷爆發反AI「起義」!程式設計師拒用Cursor被一周解僱
【新智元導讀】AI席捲職場,大廠裁員與崗位替代加速。奧特曼稱能被AI取代的工作並非「真工作」。矽谷上演「程式碼戰爭」:有人擁抱Cursor/Claude提效,有人拒用AI遭解僱。在效率與質量拉扯中,人類價值與工作定義正被重寫。當一個人花十年成為行業專家,卻在一天內被一行「AI提示詞」取代,丟了工作。他該如何在失落中重新定義「自我價值」?被AI取代工作的現像已經屢見不鮮,尤其是在科技行業,尤其是在大廠。Ian Carter,33歲,微軟的技術項目經理,今年5月份就被裁員。直到今天,他依然還沒有找到工作!至於為什麼諸如微軟這類科技大廠都在裁員,其中最為重要的因素便是:對AI大量的、瘋狂的投資!隨之而來的,是那些只需要「通用技能」的工作,很快就會這些AI所取代。所以,當AI全面碾壓人類時,對「工作的定義」,也許是時候換個看法了!如果工作被AI淘汰那它本就不是「真工作」重複一遍,如果你的工作能被AI替代,那這份工作就不能被視為是「真工作」。這是奧特曼最新的觀點。最近,他一直在喋喋不休地談論著「工作毀滅論」。什麼是真工作,什麼假工作?在上周三OpenAI的DevDay大會上接受Rowan Cheung採訪時,奧特曼拋出了一個觀點:你今天所做的工作——那些可能馬上就要被AI變革或淘汰的工作——並非「真正的工作」。重要的事情,還真的說了三遍。當然這個觀點並不是「空中樓閣」,是在Cheung引用了他最喜歡的思想實驗後提出的。即設想半個世紀前的農民會如何看待我們今天的現實?「如果你告訴五十年前的農民,一個叫網際網路的奇妙事物將創造十億個新工作崗位,他大機率不會相信你。」同樣地,簡單換算和替換下,假設現在是55年後的2080年:「如果你告訴五十年前的農民(現在有個梗是今天的程式設計師也是新時代農民工),一個叫AI的奇妙事物將創造數十億個新工作崗位,他大機率也不會相信你。」更加能夠證明這個事實的是,AI的發展要比網際網路技術快很多,很多,很多倍!相比歷史上其他的技術革命,電力、自動駕駛、壓縮機、網際網路、電腦、社交媒體等,AI技術被「採納」的速度是「有史以來」最快的!AI技術革命,也許也是人類歷史的最後一場技術革命了!在「AI智能」時代,十億知識工作者的飯碗將在新崗位出現之前受到威脅。我們現在並不清楚AI在幾十年後會創造出什麼樣的工作,正如過去的農民無法想像網際網路如何催生出一個完整的經濟體一樣。「關於那個農民,」奧特曼說,他(農民)不僅不會相信你(網際網路創造數十億崗位)。而且他很可能會看著你我所做的事情說,「你們所做的,不算真正的工作」。奧特曼表示,這讓他感覺「稍微不那麼擔心了」,但「在某些其他方面反而更擔心了」。他是這麼解釋的:如果你在種地,你就在做人們真正需要的事,你在為他們生產糧食,維持他們的生命。(過去技術體下的視角)農民會把這種工作定義為「真正的工作」。但那位農民會把我們的現代工作視為「打發時間的遊戲」,因此這不是一份「真正的工作」。同樣的類比,很有可能,如果我們能看到未來的那些工作,我們也會覺得:也許我們的工作不像農民的工作那麼「真實、親民」,但比起未來的某種AI形式下工作,還是要真實多了。畢竟我們現在還是用AI輔助,以後可能人人都是魔法師,揮一揮手中的AI魔棒,工作就完成了。說不定未來的工作都是左手指揮ChatGPT、右手牽著DeepSeek、左腳踩Gemini、右腳踏著Grok。人?好像只要動嘴就行,甚至還有未來的腦機介面所預示的場景,念頭一起,言出法隨。聽起來有點繞,簡單說就是:當AI改變現在和未來的就業格局時,不必過分恐慌——新的工作形態終將出現,只是我們現在還無法想像。每個時代的人都難以理解下一代的工作形式。AI會改變工作的本質,但「工作」這一概念不會消失。我們今天擔心AI讓人失業,就像過去的農民無法想像程式設計師或設計師的存在。未來的人也許會覺得我們的工作「更真」,就像我們覺得農耕更「真實」一樣。或者,粗暴一點,如果你的工作被AI代替,他就不是「真工作」,畢竟未來反正是要被替代、被消失的。不過,奧特曼覺得「人類和工作」這事兒總會自己找到出路的。「我非常願意相信人類的內在驅動力始終如一,」奧特曼說,「而且我認為,我們總能找到足夠多的事情來做。」拒用Cursor一周解僱矽谷爆發反AI程式碼起義關於「AI如何重塑工作、過去的農民、今天的碼農、未來的人」的討論,並非停留在哲學層面。在現實世界裡,這種變化已經悄然開始,但過程當然是痛苦的。在矽谷,金融科技獨角獸Ramp的辦公室裡,一場關於AI寫程式碼的「內部革命」正在上演。一些「舊時代」的經理們開始感到一種「新式頭痛」,因為實習生和他們的「新AI工作」。這個夏天,公司高層正以前所未有的熱情,鼓勵所有人擁抱AI編碼工具,甚至還在內部設立了一個Claude Code重度使用者的排行榜,像遊戲一樣激勵員工使用AI。然而,當這些年輕人提交的程式碼湧入系統時,經理們被一堆又一堆「AI糊弄出來的粗糙程式碼」淹沒了。這些程式碼表面上看起來光鮮亮麗,能夠運行,但內部結構卻像一個混亂的迷宮,充滿了隱藏的邏輯陷阱和潛在的漏洞。無獨有偶,在另一家機器人初創公司,一個更慘痛的教訓正在上演。這家公司曾聘請了一名大學生來編寫軟體,這位年輕人是AI編碼助手Cursor的忠實信徒,幾乎完全依賴它來完成工作。起初,一切看起來都很高效。然而,當這位學生離職後,真正的噩夢降臨了。接手程式碼庫的資深工程師們發現,他們完全無法理解這些由AI生成、缺乏人類邏輯和註釋的神秘「黑箱」。最終,他們花了整整兩個月的時間,進行了一場艱苦卓絕的「數字考古」,才勉強弄清楚這些程式碼的運作方式。「我們當初還不如直接聘請一位經驗更豐富的工程師,」公司的一位機器人專家事後無奈地總結道。程式碼戰爭在舊金山的一家小型AI初創公司Mixus裡,創始人Shai Magzimof親身經歷了這場「程式碼戰爭」中最直接的對抗。Mixus總共只有五名全職員工,每一位都是核心戰力。然而,Magzimof的兩位軟體工程師卻公然「抗命」,拒絕重度使用Cursor或任何其他流行的新型編碼輔助軟體。「他們竟然覺得,自己能比Cursor做得更好,」Magzimof回憶起當時的場景,語氣中至今仍夾雜著難以置信。其中一位工程師表示,自己會用Cursor來自動補全單行程式碼,但這遠未達到Magzimof所期望的「重度依賴」——那種將AI深度融入創作流程的革命性變革。「你在開玩笑嗎?」Magzimof的質問在辦公室裡迴響。他將這種固執歸結為一種根深蒂固的情結——「工程師的自負」。他認為,這些精英花費了數年光陰和巨額學費才掌握了這門複雜的「手藝」,現在一個AI跑出來說它能做得更快更好,這無異於對他們整個職業生涯的否定。「你讓他們拋棄過去的一切,轉而擁抱AI,」Magzimof說,「他們就是不願意。」最終,Magzimof將兩人全部解僱,其中一人入職僅僅一周。Mixus的風波並非孤立的內部矛盾,而是整個行業宏大圖景的縮影。在過去九個月裡,一股由CEO們親自掀起的AI編碼狂潮席捲了整個行業。OpenAI和Anthropic競相推出更智能的編碼程序,開發Cursor的初創公司Anysphere,估值在過去一年裡瘋漲近12倍。微軟的薩蒂亞·納德拉、Alphabet的桑達爾·皮查伊、Salesforce的馬克·貝尼奧夫,這些科技巨擘們紛紛站台,宣稱在他們的公司裡,AI已經承擔了20%到50%的程式碼編寫工作。Anthropic的CEO Dario Amodei更是語出驚人,預測到九月份AI將編寫90%的新程式碼。儘管這個數字最終被證明過於激進,但它清晰地傳遞了一個訊號:擁抱AI編碼,不是選擇題,而是必答題。或許,技術上的爭論終有解決的一天,但真正引發這場「程式碼戰爭」的,是一個超越了程式碼、效率和bug,直抵他們作為創造者身份核心的問題:「如果AI能寫出卓越的程式碼,那麼我作為一個人的價值,又體現在那裡?」這個問題,至今無人能答。 (新智元)
一文讀懂OpenAI DevDay:應用、Agent、程式碼三連擊,勾勒AI商業帝國的統治藍圖
如果說,前幾天剛剛登頂App榜的Sora2是OpenAI技術硬實力的直觀展現,那麼美國時間10月6日舉辦的OpenAIDevDay,則更清晰地展示了OpenAI的野心。整場發佈會的內容可拆解為四個部分,除了API開放之外,其他三個部分一起構成了OpenAI的未來藍圖,也可能是所有AI公司的未來路徑:建構一個以AI為絕對核心的全新軟體生態體系。發佈會上展示的功能,大多可視為過去兩年 AI 技術演進的線性延伸,並無太多意外之處。但 OpenAI 此次首次將這一藍圖更系統化、平台化地呈現出來。現在,就讓我們一起逐步拆解,這個宏大的藍圖都由什麼建構而成。LLM,作為軟體的唯一入口“LLM即將成為所有軟體的入口”,這個在2024年人們腦中還略顯模糊的想像,到2025年已然成為共識。OpenAI此次推出的Apps SDK,基於已建成的MCP體系,首次將這一願景的實現路徑完整呈現出來。Apps SDK是一套完整的開發堆疊,允許開發者在ChatGPT內部建構真實、可互動的應用程式。通過這套SDK,開發者可以連接自己的資料、觸發具體操作、並渲染出完全互動式的使用者介面。此前,Claude、GitHub Copilot等其他產品雖有工具使用能力,但只是將外部服務的結果以文字形式返回,缺乏真正的上下文理解和自然的互動介面。換言之,過去的工具難以真正被“用起來”,而OpenAI的Apps SDK讓使用者能在LLM中像在電腦上一樣使用App。現場展示了這樣一個案例:當使用者正在為寵物狗業務進行頭腦風暴時,可以直接“@”出Canva,它會立刻理解之前使用者和它聊到的所有點子,並根據“色彩豐富、異想天開”的模糊要求,生成一系列精美的海報。如果靈感迸發,使用者甚至可以要求它把其中一張海報直接擴展成一份完整的商業計畫書(Pitch Deck)。而當業務需要擴張時,ChatGPT會根據上下文建議使用者考慮“匹茲堡”這個城市,並無縫喚起Zillow應用,直接擴大到全螢幕,幫助尋找合適的房源,使用者只需要再在ChatGPT內提出新要求,就能讓它篩選出“帶院子的三居室”。接著,使用者還可以跟它繼續溝通,在ChatGPT裡問它諸如“這個房子離狗狗公園有多遠”之類的問題。這一系列操作行雲流水,背後展現的是Apps SDK將不同應用無縫融合的能力。使用者無需在不同軟體間切換,只需通過對話,就能在一個統一的入口中,讓最合適的工具在最恰當的時機出現,並協同完成一項複雜的任務。OpenAI發佈的重要進展是基於MCP,使開發者可以設計其應用的邏輯和介面。結合GPT本身對圖像的識別能力,它讓App更“自然”地融合在了對話過程中。因為對話和理解的便捷性,尤其是OpenAI在這場展示中著重強調的對上下文的記憶和理解,使用者可以很容易地在GPT中呼叫多種App去完成同一個工作。演示中有一段跨對話記憶的展示,ChatGPT在另一個對話中延續了上一個對話的話題這種強大的上下文理解能力,正是LLM有望成為主流軟體入口的核心競爭力之一。而App也不再是功能孤島,而是能被隨時喚醒、能充分理解對話背景的“外掛”,並以最合適的使用者介面融入當前的對話流中。使用者的主入口只有一個,就是ChatGPT的對話方塊。那如何讓App更好地適應使用者需求,和對話更好的連接,以推動萬物都在LLM內的大計呢?這就要靠這場發佈會的第二部分,AgentKit了。Agent時代來得太慢我們來推一把此前行業間普遍將2025 年稱作 “Agent元年”,可如今時間已行至10月,市場上卻始終未出現能復刻去年 Manus 那般、引發行業震盪的現象級Agent產品。OpenAI希望讓Agent時代來得更快,他們推出了號稱“最簡便、快捷”的Agent開發工具包——AgentKit。面對Dify、Coze等市場主流工具,OpenAI的答案是:讓一切回歸可視化。AgentKit的核心是一套可視化的畫布“Agent Builder”,開發者不再需要從零開始編寫程式碼,而是通過拖曳和連接不同的功能節點,比如檔案搜尋等,來直觀地設計和測試複雜的業務流程。此外,AgentKit還提供了名為“ChatKit”的可嵌入聊天元件,讓開發者能輕鬆地將具備品牌定製能力的聊天介面整合到自己的應用中。同時,它還有一個Connector功能,可以直接把Agentkit的Agent工具建構和企業內部資料和工具聯絡到一起。為了展示AgentKit的便捷性,產品經理Christina在現場僅用了8分鐘,從零開始為一個靜態的DevDay活動官網建構並上線了一個智能問答Agent。從演示中可以看到,AgentKit只有Agent、End(結束)、Note(筆記)三個功能節點,各個Agent間,可以用條件、同時進行和使用者許可三個邏輯點決定分叉走向。每個Agent中,可以使用檔案搜尋、安全防護和MCP應用這三個工具。也可以將他們作為功能點加在外部。目前看,這個AgentKit並沒有整體在設計邏輯上超越Dify類工具很多,但確實更精簡,更易用。但是,如果想讓習慣了Dify類使用者真正轉投OpenAI門下,還有兩個重要的原因:第一,是RFT(強化學習微調)的定製。第三方工具只能將GPT作為API“黑箱”呼叫,而AgentKit則能深入模型內部進行最佳化。目前,OpenAI已經開始實驗對GPT-5的RFT功能,開發者可以通過RFT來定製OpenAI的推理模型,還可以專門訓練模型,讓其學會在最恰當的時機、以最優的方式呼叫工具,從而實現更好的推理效果。這對於想用GPT作為基礎模型,達成最好的Agent效果的公司和開發者來講,是個巨大的優勢。第二,是AgentKit的Evals類股。它增加了“資料集建構”、“跟蹤評估”和“自動化提示最佳化”等能力,允許開發者對工作流進行端到端的評估,精準定位並修復問題。這對於Agent開發而言,確實十分便捷。今天的展示,不禁讓我想到了當年OpenAI發佈的Agentalpha版本,就是GPTStore的命運。當時,模型主要依賴上下文,無法有效呼叫工具和資料,導致應用場景受到很大限制。而當下,Agent面臨的一些具體落地問題,這個框架是否能夠解決還是疑問重重。但是,OpenAI已經開始做了,這些問題也許可以更快地找到解法。Codex,小露了未來程式設計的一手不論是開發Agent,還是部署App,最底層的都是程式設計。據Sam Altman介紹,自八月上線以來,Codex已經處理了40T的token,成為OpenAI增長最快的產品之一。從程式設計師社群的反饋來看,Codex的出現確實讓Claude一直以來的程式設計王者地位搖搖欲墜。本次發佈會中,Codex正式從研究預覽版轉為正式版(GA),其主要更新來自於對企業和工程團隊的深度支援,具體可以分為三個方面:首先是Slack整合。這是一個被社區呼籲已久的功能。現在,團隊可以直接在日常溝通的Slack頻道中呼叫Codex,讓它在對話流裡直接回答技術問題或編寫程式碼片段,無需切換應用 。其次是推出了全新的Codex SDK。這使得企業可以將Codex的能力作為模組,自動化並擴展到自己內部的開發工作流中 ,讓Codex能更好地融入企業現有開發體系。最後,OpenAI提供了一套新的後台管理與報告工具。這包括了環境控制、監控、分析儀表盤等一系列功能,讓企業的管理者能夠更好地追蹤和管理Codex在組織內的使用情況。但這些升級,遠不如現場最後的那段演示來得震撼。演示者Raman的目標是僅通過對話,讓現場的語音助手呼叫Codex SDK,命令它做一個滾動的開發者名單。Codex在後台即時修改了前端應用的React程式碼,螢幕上立刻開始滾動開發者的姓名。這個場景就是OpenAI預想的軟體開發的未來——你甚至不需要看到程式碼,軟體就可以在與你的對話中,即時地自我迭代和進化。API開放GPT-5 Pro、Sora 2全面上線除了上述三個構成全新生態的類股,發佈會第四部分是相對傳統的API更新。首先,OpenAI迄今為止最強大的模型GPT-5 Pro 正式通過API向所有開發者開放。其次,為了普及語音互動,OpenAI發佈了一款更小、更便宜的語音模型 GPT Real-time mini。它的成本比之前的版本降低了70%,但保留了同樣優秀的音質和情感表現力,無疑將大大降低開發者建構語音應用的門檻。而其中最重要的是Sora 2 API的開放。這意味著,開發者終於可以將OpenAI頂級的視訊生成能力,整合到自己的產品中。這個API的開放,表明未來在各種應用中,我們都可以方便地用上Sora 2來創作內容了。商業帝國的輪廓已經蓋住了AGI的圖景今年的旗艦模型GPT-5,儘管依舊強大,卻缺少了當初GPT-4發佈時那種跨時代的驚豔感,它更像是一次穩健但可預期的迭代。Sora 2的發佈也是如此,其真正的驚豔之處,並非視訊生成技術本身相較於早它發佈的Veo3等競品。而是其產品團隊精準洞察到了社交媒體的下一個爆點:將真實的人物無縫融入AI生成的視訊中。這是一個天才的產品構想,但它的光芒更多來自於商業嗅覺,而非底層的技術革命。此次 DevDay,正是這一趨勢的集中爆發。無論是試圖將所有應用納入對話方塊的 Apps SDK、旨在統一開發標準的 AgentKit,還是面向企業深度定製的 Codex,OpenAI 的每一步動作,都在朝著一條早已清晰的路徑深耕:搭建一個以自家大模型為絕對核心、封閉且極具掌控力的軟體生態。只是,我們分明能感受到,OpenAI 早年那種自帶的神秘感與對未知領域的探索氣質,正變得越來越淡;曾經讓人腎上腺素飆升的 “驚豔感”,似乎也在慢慢褪色。如今的 OpenAI,商業帝國的輪廓愈發清晰,甚至已經隱隱蓋住了通用人工智慧(AGI)的遠景圖景。 (騰訊科技)