#2碼
OpenClaw 帶來的「非線性狂飆」,程式碼正在成為新世界的基礎設施
2026 年初,AI 圈瀰漫著一種奇異的撕裂感。最近 Founder Park 密集組織了兩場 OpenClaw 閉門交流。在現場,我能明顯感覺到創業者和開發者那種複雜的情緒:興奮又焦慮,確定又迷茫。Claude Code 的負責人 Boris Cherny 在 X 上坦言,已經兩個月沒親手寫過、甚至改過一行程式碼了。Andrej Karpathy 也公開了他的工作流變化:從 80% 手寫程式碼,迅速倒置為 80% 由 AI 生成。他 在 2023 年 1 月的那條置頂推文也成了預言:「最熱門的新程式語言是英語」。沒人再手寫程式碼了。與此同時,作為「容器」的軟體,也正在變形。一邊是 AI 的瘋狂溢出,OpenClaw 在 GitHub 狂攬 18.7 萬星標,還在飆升;Anthropic 發佈了 11 個專業外掛,將 Claude Cowork 直接升級為自主執行的「數字員工」。另一邊是舊模式的崩塌,SaaS 遭遇 「SaaSpocalypse」(SaaS 末日),軟體股數千億美元市值說沒就沒。這一切變化太快,快到我們甚至來不及形成穩定的觀點。但有一點是確定的:我們正處在一個巨大的「範式斷裂」時刻。01 人類與程式碼,是一部漫長的「馴化史」我曾經多次走訪矽谷的電腦博物館,認真探尋了下我們人類與程式碼的關係,發現這其實是一部漫長的「馴化史」,大致可以分為三個階段,但這三個階段的底層邏輯,其實是同一個:提升「人」的生產力。第一階段,是「馴化期」(1950s - 1990s)這個時候,我們像是鐵匠,把程式碼鍛造成一個個「標準零件」。無論是 FORTRAN 的數學庫,還是 Windows 的動態連結庫(DLL),核心思想都是「復用」。我們把通用的邏輯封裝起來,下次用的時候直接拿來裝配,不用再費力重鑄。這時的程式碼,是一個聽話、可靠、毫無意外的工具。人類寫一行,機器執行一行。第二階段,是「培育期」(1990s - 2020s)隨著更智能的整合開發環境(IDE)成熟普及,程式碼開始變得有點「靈氣」了。它不再只是被動地等待指令,而是會「猜」你想做什麼,幫你自動補全、提示錯誤。人類依然是主導者,但程式碼不再是完全被動的字元——它在學習、在適應、在與開發者形成默契的對話。這是「夥伴化」的萌芽。第三階段,是「爆發期」(2020s - 2025)以 GitHub Copilot 為代表的大模型工具,把這種默契推向了極致。它不再是幫你補全一行程式碼,而是能寫出整個函數甚至整個模組。它像一個能力超強的「副駕駛」,你只要告訴它目的地,它就能幫你處理大部分常規操作。我們與它的關係,變成了飛行員與智能副駕。從「工具」到「夥伴」再到「副駕」,這條路走了七十年。它看起來在不斷進化,但背後有一個從未改變的根本前提:這一切都是在放大「人」的生產力。無論程式碼多智能,它始終是我們思想的延伸,是我們意志的執行者。方向盤始終握在我們手裡。我們是那個生產者,程式碼是那個最高效的生產工具。而在近期發生的一切,不再是關於如何讓副駕更聰明,而是關於副駕突然對你說:「你到後座去吧,接下來我來開。」02 過去一年裡,程式碼開始「非線性狂飆」真正的轉折點,發生在過去這短短的一年多時間裡。程式碼的進化突然從線性增長,變成了一場「非線性」的溢出。當程式碼開始擁有我們無法完全預期的「自主性」時,它就像一種被注入系統的新能量,開始不可阻擋地溢出我們為它設定的所有「容器」。這個溢出,導致了一環扣一環的連鎖反應。首先,撐破了「人機協作」的框架,生產關係被重構。當 Claude Code 團隊可以做到兩個月內 100% 由 AI 完成開發時,意味著程式碼的自主性已經強大到可以「承包」整個生產環節。一個深刻的轉變發生了:「執行」這個環節,正在迅速地商品化。過去,一個優秀程式設計師的價值,很大程度上體現在他能用多麼優雅和高效的方式,把一個模糊的想法,翻譯成精確的、機器可以穩定執行的程式碼。這個「翻譯」過程,就是「執行」,它本身是有價值的。但現在,這個價值正在被 AI 稀釋。我們不再需要手把手地教機器「怎麼做」,而只需要清晰地定義「做什麼」和「為什麼做」。這不僅僅是「生產者」到「質檢員」的角色變化,這是一種「認知價值」的遷移。人類的價值,正被迫從「如何實現」這個技術層面,上移到「意圖定義」和「品味判斷」這兩個更抽象的層面。什麼是好的產品?什麼是值得解決的問題?AI 給出的十個方案裡,那一個才符合我們對美、效率和人性的最終追求?這是一種新的認知分工:AI 負責不知疲倦地「執行」,而我們,必須成為更優秀的「思考者」和「決策者」。那個曾經由「執行力」定義的價值容器,已經被撐破了。其次,撐破了「生產協同」的容器,程式碼產能正在瘋狂增殖。當程式碼的自主性足以「承包」執行環節後,它必然不滿足於只待在我們的編輯器裡。它會溢出,去重構整個數字世界的形態。今年爆火的 OpenClaw 就是一個訊號。它本質上已經不是一個「程式設計工具」了,而是一個能接管你整個作業系統的「AI 智能體框架」,是一支可以被賦予任務、在你的數字世界裡主動穿行、調動資源來完成目標的「小分隊」。讓 OpenClaw 幫你整理檔案,這只是表層任務。更「嚇人」的是,如果它在整理中發現一種無法處理的檔案格式,它可能不會立刻放棄選擇報錯,而是會自己去搜尋推斷、尋找解法、調度工具,甚至創造工具。並且,OpenClaw 還具備自主迭代工具本身的能力。這就是更本質的變化:程式碼的生產,正在從一種由人類規劃的、目標明確的「建造行為」,變成一種由 AI 驅動的、為了達成被給定的目標而進行的「生態演化」。開放原始碼專案裡開始湧入大量 AI 貢獻的程式碼,其數量和速度,都遠超人類貢獻者。這就給人類帶來了一個前所未遇的、更棘手的問題:當程式碼的生產力被拉滿甚至溢出,我們該如何管理和協同?當一個大型項目中,有無數個 AI Agent 在同時提交程式碼,我們如何保證它們的目標是一致的?如何進行程式碼審查?如何整合這些甚至連我們都未曾規劃過的、由 AI 即興創造出來的「新功能」?所以,這裡被撐破的,不僅僅是「應用」的邊界。更是我們過去對於「生產」和「協同」的認知邊界。它把生產力推到了一個我們自己都不知道該如何運用的境地。03 從工具到土壤:程式碼正在成為新世界的基礎設施當我們意識到,人的價值正在從「執行」向「定義」遷移,而程式碼產能正在瘋狂增殖時,一幅全新的圖景正在展開。程式碼,以及承載程式碼的軟體,也在經歷一次深刻的「質變」。第一層質變,軟體正在從「為人服務」的應用層,下沉為「為 AI 服務」的基礎設施層。軟體股的暴跌,以及「SaaSpocalypse」(SaaS 末日)概念的出現,就是一個例證。過去,我們使用軟體的方式是打開一個圖形介面(UI),去點選、輸入、操作。軟體的價值很大程度上體現在它的使用者體驗(UX)上。但未來,你的主要互動對像是 AI 智能體。你不會再打開 Excel,而是直接對 AI 說「分析一下上個季度的銷售資料,做成圖表」;你也不會再登錄 CRM,AI 會自動幫你同步所有客戶資訊。軟體的終端使用者會從「人」變成「AI」。這意味著,傳統軟體的「殼」(UI/UX)價值在迅速降低,而它內在的「核」(API 介面)變得至關重要。軟體本身並沒有消失,而是變成了被 AI 呼叫的基礎能力,像水和電一樣,融入了整個智能生態的底層。這是 SaaS 公司商業模式面臨的根本性挑戰。第二層質變,程式碼正在從「人類智慧的產物」,變成「AI 的母語」,人類放手建造的細節工作。過去,程式碼是人類與機器溝通的中間語言。但現在,當 Anthropic 的 Opus 4.6 擁有 1M 上下文和自適應思考能力,能對整個程式碼庫保持長程規劃;OpenAI 的 GPT-5.3-Codex「可以在幾天時間內從零開始建構功能高度複雜的遊戲和應用程式」。這些模型不再需要人類把需求拆成逐行指令,它們直接用程式碼思考、用程式碼協作、用程式碼驗證彼此的產出。在這個過程中,人類正在從「施工現場」退到「設計室」。我們只負責提出目標(「我想要一個什麼樣的應用」),而不再關心具體的實現過程。這是自電腦發明以來,人類第一次在數字世界裡,主動退出了數字世界的施工環節。第三層質變,人的價值正在從「技術實現」,遷移到「價值定義」。當 AI 包攬了從程式碼生產、測試、部署,到軟體呼叫、維運監控的全流程,人類還剩下什麼?不只是程式設計師的職業轉型,而是關乎未來世界裡,人類作為一個物種的核心競爭力。我們不再是「建築工人」,甚至不只是「建築師」,我們必須成為那個提出「我們為什麼要建一座操場,而不是一座雕像?」的「定義者」。我們的價值,在於我們的意圖、我們的審美、我們的道德判斷,以及我們定義一個值得追求的目標的能力。04 我們被自己的造物,拽著向前跑把這一切串起來,我能感受到一種強烈的反差感。我們花了七十年,一步步地把程式碼這個工具打磨得越來越先進,期待著用它去解決我們提出的問題。但今天,我們親手創造的這個技術環境,這個生產力被無限放大的新現實,正在反過來,瘋狂地拉扯著我們向前跑。過去,我們向技術要答案;現在,是技術在向我們提問。這不再是一個關於「工具」的故事,這是一個關於「關係」的故事。我們與我們創造物之間的關係,正在發生倒置。我們不再是那個唯一推著石頭上山的人,石頭自己開始滾動,甚至反過來催促我們去為它尋找新的、更陡峭的山坡。這其中有焦慮,有失控感,但更多的,是一種前所未有的機遇。因為商業的本質,最終還是關於人。而這個新環境,正在以前所未有的力量,迫使我們去思考更本質的問題,去成為更純粹的「價值定義者」。程式設計已死,程式設計萬歲。作為「打字員」的程式設計師會消逝,但會誕生更多作為「定義者」的人類。 (Founder Park)
一個人的好萊塢:Seedance2.0 正在把導演椅發給普通人
凌晨 3 點的義烏小商品城凌晨 3 點,義烏小商品城的燈還亮著。李建國沒有在第 7 次修改拍攝指令碼,也沒有給那個總愛遲到的攝影師打電話。他蹲在倉庫門口,用一張皺巴巴的煙盒紙,隨手畫了幾格分鏡。不是因為他變懶了。而是因為他心裡很清楚——2 月 24 日之後,他再也不需要花 8000 塊請攝影師了。他只需要打開即夢後台,上傳 9 張競品參考圖,敲下一行字:“從窗邊緩緩推進,光影要王家衛風格。”然後等 10 分鐘。這不是一次工具升級,這是一次權力交接。一、技術平權的終極形態從「手藝人」到「思想者」字節剛剛釋放的Seedance 2.0,正在完成影像創作史上規模最大的一次——去技能化。過去,拍視訊是一門典型的手藝活:你得懂 180 度法則你得會調色曲線你得知道什麼時候切特寫、什麼時候拉遠景這些往往需要三年學徒期才能掌握的技能,如今被壓縮成了一個按鈕:9 張參考圖 + 3 段音訊 + 一段自然語言描述→ AI 自動生成從分鏡到成片的完整工作流這意味著什麼?意味著:義烏的小店主,不再需要看攝影師臉色,他自己就是導演縣城寶媽,不必在 PR 時間軸前崩潰,只需“喂”三個參考視訊,就能生成帶情感節拍的親子 vlog那些有好故事卻社恐的編劇,終於可以繞過演員和鏡頭,讓視覺直接為敘事服務當技術門檻被歸零,內容產業的核心競爭力發生了殘酷遷移:從「你會不會用相機」 → 「你有沒有審美」從「你懂不懂剪輯」 → 「你會不會講故事」視覺敘事,第一次從手工業,變成了思想者的遊戲。二、新職業正在出現審美極客與 AI 導演的崛起Seedance 2.0 真正顛覆的,不是某一個崗位,而是創作權的分配方式。2025 年,我們幾乎可以確定一件事:抖音內容供給會指數級爆炸。但這並不等於內卷升級,恰恰相反——這是新物種的出現。第一種人:審美極客他們可能是前廣告公司的美術指導,也可能是小紅書上的視覺收藏家。他們的核心資產不是裝置,而是參考庫:知道那 9 張圖能“喂”出賽博朋克知道一句話怎麼寫,才能復刻《花樣年華》的色調知道如何與 AI 談判美學他們用 Seedance 生產電影級短片,但不再熬夜調色,只花時間做一件事:判斷什麼是“好看”的。第二種人:AI 原生導演他們可能是懂產品卻恐懼鏡頭的帶貨主播,也可能是腦子裡有完整分鏡卻沒錢拍的學生導演。Seedance 2.0 支援多語言唇形同步、音訊驅動表情,這意味著:“表演”和“拍攝”這兩個最昂貴的環節,正在被解耦。你不再需要演員,只需要一個好的提示詞工程;你不再需要片場,只需要一個好的視覺策展人。未來的劇組,可能只有兩個人:一個負責想,一個負責告訴 AI 該怎麼想。三、狂歡背後的算力暗戰當創意爆發撞上物理極限但在這場狂歡背後,有一個被嚴重低估的風險。如果所有視訊模型都按 Seedance 2.0 這個標準卷——支援 54 秒連續鏡頭、多模態輸入、影視級畫質——崩的可能不是影視行業,而是地球的伺服器。當:每個義烏店主都能日更 100 條 4K 視訊每個寶媽都能生成 54 秒電影級 vlog視訊生成進入“工業化批次生產”我們面對的,將是一場算力饑荒。字節敢放出 Seedance 2.0,是因為它背後站著抖音和 TikTok 的分佈式算力基建。但對中小平台來說,這更像是一張——算力軍備競賽的入場券。跟不上,內容生態就會被降級。Seedance 2.0 真正重新定義的,不只是導演,而是:誰,才有資格大規模生產影像。四、給普通人的行動指南如果你現在還在糾結:該買索尼 A7M4 還是佳能 R5——停手。未來三個月,你會看到兩種人迅速分化:一種人還在討論“這相機直出膚色好不好”另一種人已經在建構自己的     AI 導演語言庫他們在做什麼?收集 1000 張參考圖整理 50 套提示詞範本把自己從「操作工」升級為「指揮官」Seedance 2.0 目前仍在測試,2 月 24 日正式開放。這不是一個產品節點,而是一個職業分水嶺。結語:導演椅已經發下來了150 年前,攝影術出現時,畫家恐慌——他們以為繪畫已死。結果,我們迎來了印象派與現代藝術。當技術不再是門檻,人反而更值錢了。Seedance 2.0 把導演椅發給了 14 億人。現在稀缺的,不是技術,而是——你敢不敢坐上去,喊那聲「Action」。只是這一次:你的場記板是鍵盤你的演員是參數你的對手,是另外 14 億個同樣拿著 AI 的人你準備好了嗎? (混沌的市場)
沒寫一行程式碼,38歲文科生用AI做出爆款App!這4個“外行”的逆襲,藏著普通人最大的機會
就在跨年之際,馬斯克的“舊世界1000天倒計時”宣言,又給AI恐慌狠狠地加了一把柴。巨頭和寓言,離普通人太遠,也只是AI時代水面上的冰山一角。我們關注的是普通人能夠複製的成功經驗。最近,我們找到了4位“吃螃蟹的人”,他們的共同點是,不太專業,甚至都是文科生。但是,都抓住了AI帶來的時代紅利。AI的爆發對王博源來說,更多的不是“被替代”的焦慮,而是終於等到了能夠讓他“創造宇宙”工具的興奮。在2025年最後一天,這個完全沒有IT背景的38歲前媒體記者,自己用AI做出來的杜比全景聲音樂APP“全景新聲”上線App Store的TestFlight 。根本不會畫畫的連續創業者,用AI創作了品質相當不錯的職場諷刺短片,創造出了深受網友認可的“牛馬”IP。還有成熟的商業廣告導演,借助AI,讓作品更具特色,成為AI創業公司喜歡的廣告合作商。但他也會在深夜悲傷,因為他引以為傲的、幾十年訓練出來的創作風格,“在未來的AI時代裡面可能只是一顆種子。”他們有著相似的經歷,那就是主動去瞭解,把AI融入自己的日常生活或者工作環境。於是一些東西被重塑了。這些案例或許能夠給我們啟發。在面對AI時,籠統的恐慌或者無視,是沒有建設意義的。不管是宏觀,還是圍觀層面的個人,我們都可以想辦法通過AI而受益。38歲文科生 用AI寫了11萬行程式碼王博源今年38歲了。英文專業畢業後,他十多年都在做科技報導,跟文字打交道。但十幾歲就拆過電腦的王博源,冥冥中一直在等一個機會,一個不被程式語言束縛、自由“創造”的機會。他終於等到了。王博源是一個狂熱的杜比全景聲音樂愛好者。當Apple Music在2021年推出杜比全景聲功能時,128個聲道的聽覺震撼,讓他第一次發現聽過無數遍的林肯公園《混合理論》,竟然有那麼多新細節。但Apple Music無法批次查詢杜比格式的音樂,於是他用Notion做了一個華語杜比全景聲音樂資料庫網頁,手動錄入了足足7333首曲目。這樣王博源在音樂發燒友圈子逐漸有了認知度。但網頁功能有限,無法搜尋,且隨著曲庫的補充越來越卡頓。他諮詢碼農好友,把這個網頁做成一個APP有沒有戲。朋友善意地勸阻他,“最好想明白再做”。但是AI是這麼鼓勵他的——“這個東西可以實現!”然後建議他一步一步從註冊伺服器,到怎麼去部署,到下載AI程式設計開發工具。一開始他把Cursor等幾個工具交替使用,但Cursor太貴了,逐漸地CodeBuddy成為主要平台。王博源就這樣闖進了vibe coding的新世界。開局反而是更容易的。一開始跟AI聊需求,AI會大包大攬,提供一個特別完整的東西。但跑起來王博源才發現,不是出錯,就是不符合想像。他就在這個程式碼地基上,翻看AI的深度思考記錄,用跟AI聊天的方式最佳化程式碼——搜尋結果要全部顯示、顯示圖示要對齊、自動抓取資料……AI有時像一個只懂悶頭幹活的打工人。AI修改程式碼,時不時會把原本穩定的功能,連帶給改掉了。最讓他挫敗的場景是,錯誤資訊一直存在,他不斷跟AI聊,它總是告訴你改好了,但問題依然在,“非常崩潰”。但當王博源連續“命中”時——用自然語言提需求,AI修改,運行成功,他感覺自己“進入一種心流模式,非常爽!有一種錯覺,好像擁有了超能力。”就這樣程式設計了10天,“全景新聲”小程序在2025年6月9日上線。雖然功能很簡單,主要是資料檢索和展示,但體驗流暢,互動完整。半年下來,小程序在業內圈子有不少反饋。有人用自己廠牌介面的截圖去給投資人看,有混音師用全景新聲資料頁面去提交月報。還有人在小紅書群裡評價說,“匠人作品,太難得了,對杜比真的是如數家珍”,讓王博源感動不已。朋友誇他,“有程式設計師思維了”。王博源感慨,“我所有的朋友,包括我自己都很驚訝。”誰曾想,一個至今仍看不懂程式碼的中年文科生,竟然靠自己一個人10天就成功開發出了一個小程序。他甚至能自主發現bug,還指揮AI,按照他的邏輯成功debug了。在第一版小程序載入巨慢時,他想了想問題可能在那,直接命令CodeBuddy把第一次打開到第一次載入完的所有步驟梳理一遍,發現3個tag的內容都預載入了。實際上只需要載入首頁。“那是我第一次質疑AI,我說這個肯定不對。AI回覆說,你說得很對。”改了之後,速度馬上正常了。就在2025年最後一天,王博源在TestFlight上線了全景新聲IOS APP,非常有紀念意義。這是一個比小程序的資料、互動、介面、合規更複雜的項目,還加上了音樂收聽的功能,完成了一個使用者行為邏輯的閉環。iOS APP介面這依舊是王博源獨立跟CodeBuddy聊出來的。而這背後,也是因為AI程式設計工具的進步極其迅速,越來越聰明,更能理解需求,不需要專門的prompt。以他的主力平台CodeBuddy為例,功能越來越多,支援MCP後可以直接偵錯,skills上線後IOS效果程式設計更簡單了,慢慢地更有一站式的感覺。這半年多,他投注了極大熱情在程式設計創造上,遊戲都幾乎不玩了,每天刷自己APP用於debug,APP日均時長超過8小時。“我不是要跟別人競爭,我只是想做一個自己滿意的APP。”這種親自創造的成就感,跟做媒體時完全不一樣,是一種層次更複雜的互動。工具清單:CodeBuddy,作為一站式開發平台,主要用plan模式進行自然語言程式設計,用skills進行IOS效果程式設計。多選用DeepSeek3.2或混元模型。Xcode,作為iOS運行模擬器。0繪畫基礎用AI做動漫IP 讓打工人深深共鳴朱旭2016年來到北京,進了網際網路行銷、培訓行業,當時的朝陽行業。在大廠待過幾年後,他在前輩的帶領下走上了創業之路。一開始,朱旭真人出鏡,教人怎麼整合資源做短影片,但他發現自己的鏡頭表現力不夠。他也跟朋友合夥創業做陪診師教學項目,但隨著平台對醫療金融等監管升級,涉醫療內容也不好做了。朱旭前兩次的創業經歷,更多基於過往已有的經驗。當2024年5月,朱旭看到身邊的朋友用AI花幾分鐘生成的視訊,效果完全不遜於以前他拉一堆機器、燈光、演員、服化道做出來的鏡頭,他對行業的認知被顛覆了——這是一次劃時代的生產力躍升,“一瞬間覺得,應該去搞!”這次朱旭選擇了職場賽道,因為這類話題是他最熟悉的領域,多年的職場經歷讓他積累了很多選題靈感。“第一個成稿還沒發出去時,我就覺得,這個事好像能成。”很快,《午夜公司怪談》一炮而紅。在這個小短片裡,穿著T恤的牛,在公司加班,公司斷網,網線沒插好,但“想插這個網線得先立項,總監三天後做了批覆,需要連夜開會商量……預算不夠,人事提議加個內部headcount,小李兼顧插網線……”網友被深深戳中內心了,“我一直覺得這種形式主義只在體制內流行呢”,“我們公司就是這樣的,採購兩個蓄電池,供應商五個起售,公司就說找新的供應商,價格還不能比以前的高……快半個月了還沒有結果……”“朱牛馬”IP就這麼立住了。朱旭慢慢拓展團隊,開始穩定輸出扎心內容。一開始,海外軟體效果更好,朱旭用ChatGPT生詞,用runway、Luma生成視訊。幾次AI應用大爆發後,朱旭多次遷徙,逐漸形成了穩定的工作流。如今朱旭會用元寶生成歌詞。元寶有資料夾方便團隊工作化運轉。給定一個話題和故事走向,再給定一個韻腳,讓它以黑色幽默的風格去拓展場景和故事,結尾要有反轉。用元寶創作的工作流當選題不夠明確,AI還能給予靈感。比如《顛倒歌》就是元寶做了核心的創意,“老鼠給貓繫鈴鐺,鸚鵡在會議室演講……”現象描述和諷刺,甚至比人還要犀利。生成歌曲,則多用Suno。朱旭自認“五音不全”,抽卡的曲子就常常選旋律說唱。這麼多曲子,人還是要承擔最終的“裁判”職責。他的第一判斷標準就是吐字要清晰,第二是節奏要快——因為後台資料反饋給出了演算法的偏好,抒情慢歌資料差,資訊量要密集,要有反轉。而Suno能力也迅速進化,能明顯聽出隨著時間推進,“朱牛馬”作品的rap節奏和flow變化,越來越有水平。視訊生成這步,朱旭最能感受到技術躍遷的影響。朱旭一開始為了避免恐怖谷效應,選了2D動漫形式。最早他多用Midjourney和大段風格化提示詞去控一致性。後來Vidu推出“多主體參考”,算是一個巨大的迭代,解決了“主體一致性”這個根本難題,後來變成各平台的常規化功能。現在動作遷移、推拉搖移複雜鏡頭調度等功能也有了,讓朱牛馬動畫的“PPT感”越來越弱。整個工作流跑順了,朱旭工作室的商業化也有所斬獲。“朱牛馬”被朱旭作為一個展示AI內容的窗口,一方面去連結B端的非標業務訂單,比如廣告製作、帳號代營運;另一方面則是嘗試C 端的業務,比如製作“AI短影片組合技”這類標準化課程。在朱旭看來,AI在相當程度上是起到“平權”的作用。對他這樣一個不會畫畫、不會作曲唱歌的創作者,降低了創作門檻,讓他能夠做出“朱牛馬”這樣的綜合性作品。它能讓很多人的短板得到彌補,讓他們的想像力,進一步地擴大。但這可能需要一個前提,那就是作為個體,需要展現行動力,去學習新興事物。工具清單:元寶:選題策劃+生成歌詞+指令碼分鏡Suno:生成音樂Midjourney:生成靜態畫面Vidu:生成視訊開發一個AI創作工具 輔助人類表達主體性對於大多數網際網路使用者,AI時代彷彿一夜之間突然降臨。也有極少數人,雖然不在行業內,但在ChatGPT、Deepseek等節點到來之初,就清楚AI技術的演進路線。這些人的選擇也許更有啟發。王依然就是這樣的人,他是B站Up主“圖靈的貓”,從2019年開始做AI科普內容,而且做到了頭部,2024年已經成為B站百大。在AI浪潮更廣泛到來時,他會做些什麼呢?最容易想到的就是,能不能用大模型來助力自己生產內容。但一直到2024年,他都完全拒絕使用大模型生產內容。王依然認為,大模型生成內容的過程是一個黑盒。你給一些提示詞,馬上就會有一篇看上去還行的內容。實在太容易了,於是這種批次化生產的AI內容,在全球網際網路氾濫。這些由AI批次生產的低品質內容,被《韋氏詞典》稱為“Slop”,列入2025年度熱詞。其實這種幾秒鐘就能出一篇的內容,對於電商等行業需要的一些說明類的文稿,也不是不能用。但一定達不到B站百大Up主的要求。AI無法提供“獨家洞見”或是“萬里挑一的有趣靈魂”。對於王依然來說,這不是大模型的問題,而是如何使用大模型的問題。作為科普Up主,他一直在跟蹤大模型的能力成長,在大模型迭代幾輪後,他認為大模型已經具備作為工具,幫助生產內容的能力。2024年,王依然的團隊開始搭建用AI幫助創作的工作流,具體來說,就是把黑盒拆開,讓創作者可以參與進去。經過一段時間的研發,他們最終把創作過程拆分成五個環節。選題 :AI幫忙把模糊想法具體化,形成選題;調研 :讓AI幫你看看,這個選題在各平台的資料表現;大綱 :AI幫你形成一個你滿意的寫作框架;寫作:AI熟悉你的寫作風格後,寫出和你的風格很接近的文字;素材:配圖配音以及視訊,通過API自動連接市場上所有主流生圖、音訊、視訊大模型。工作流搭好後,團隊自己先試用,而後又小範圍找人試用,王依然說,效果還可以。既然能幫助自己,為什麼不把這個工具產品化,推向更多的使用者呢?於是Creaibo創伴誕生了。王依然很快就意識到,這類垂直應用,不只是在國內市場,在海外市場也可以找到足夠的付費使用者。Creaibo在2025年11月率先於海外上線,目前處於內測階段,全平台已有千萬曝光。Creaibo在海外的種草階段,還曾拿到Product Hunt網站的Product of the Day第一名的成績。從B站Up主到AI創業,王依然的業務拓展很絲滑。一方面,團隊確實有一定的技術實力,另一方面,他也有對於內容創作的深刻理解。同時,現在AI創業的基礎設施也非常完善,支援像王依然這樣的創業者去挑選,來搭建產品、實現功能。Creaibo的核心功能靈感畫布,可能是很多自媒體同學想要的功能。就是當你有了一個模糊的想法時,只要輸入一段話一個連結,就可以獲得符合你個人風格的選題。甚至完全沒有靈感的時候,“靈感盲盒”可以根據你的個人風格來推薦靈感。這是怎麼做到的呢?當然不是魔術,底層工具是騰訊雲ES所提供的AI搜尋引擎,簡單來說,就是把你之前的作品以及你日常常用的各種資料來源上傳後,大模型就能根據你的風格特點,把搜尋和分析結果推薦給你。而使用者的“個人風格DNA”,實際上是被拆分為一系列特徵的向量或文字標籤,搜尋引擎可以基於相似性,匹配計算不同靈感內容與使用者個人風格的相似度。實際上,要完成靈感畫布的基本功能,根據市面上現有的產品,王依然有眾多路線選擇。在比較了主流的搜尋引擎、向量資料庫、以及更多的技術堆疊,綜合多方因素,他最終選型了騰訊雲ES。這其中最重要的考量是,騰訊雲ES可以通過統一技術堆疊來解決文字搜尋、向量搜尋、聚合分析、AI整合等全部需求,它避免了混合技術堆疊帶來的系統複雜度、成本開銷、偵錯追蹤、維運投入等挑戰。ES 是當前業內最流行的搜尋引擎,在AI時代廣泛用於多模態搜尋和知識庫建構,它獨特的文字和向量混合搜尋,兼顧召回率和搜尋精準度。騰訊雲ES自研了文字和向量融合排序、量化裁剪、平行檢索和 GPU 推理等能力,大幅提升了混合搜尋的功能和性能。舉個例子,Creaibo支援你把“使用者畫像偏好”、“內容熱度和新鮮度”等業務指標作為條件來最佳化結果,這就是基於騰訊雲ES的獨特能力。更重要的是,騰訊雲提供的是一站式服務,對於開發者來說,等於是提供了一個技術底座,所有功能都可以在這個底座上完成,不需要另外搭配技術堆疊。例如,Creaibo 通過靈感畫布生成多個靈感後,你可以針對B站或小紅書進行一下市場分析,預測一下這個選題最終的閱讀量。這就需要資料聚合分析能力,而ES本身就有開箱即用的聚合分析能力,完全可以支援這個需求的實現。而且,整個產品搭載在騰訊雲TKE上面,也可以非常方便地快速迭代。借助這套系統,Creaibo的定位是AI輔助創作,可以讓AI寫的沒有那麼AI味,真正言之有物,讓整個過程中包括從靈感到編輯,都變得更高效。“AI輔助創作,跟抄襲、洗稿的界限在那裡?”王依然會時不時地被問到這個問題。王依然希望Creaibo成為“創作夥伴”,而非單純的效率工具,批次生產網際網路垃圾。內容水平、特色,核心還是要看使用者本身的創作能力。王依然認為,身處技術變革大潮中,短期的焦慮是無意義的,因為你無法控制技術浪潮的方向。真正能讓你立於不敗之地的,是長期積累的“資產”,這個資產指的是是對於AI的認知。至於人與AI的關係,王依然認為,人的主體性才是最堅固的護城河。他所說的主體性是指每個人對世界的獨特理解、判斷和價值偏好。作為熟悉AI技術全景地圖的人,王依然的選擇是面對AI浪潮,將技術進步視為人類的增強工具。其實這是一種相對樂觀的態度,曾經賈伯斯對科技的願景,也是將其作為人類大腦的自行車。工具清單:騰訊雲ES:騰訊雲提供的雲託管Elasticsearch服務,核心是開箱即用的AI搜尋引擎。騰訊雲ES在AI時代廣泛用於文字搜尋、向量搜尋、RAG建構等領域,已經成功支援了騰訊IMA、微信視訊號、微信讀書等產品來服務海內外數以億計的客戶。Creaibo網站支援國內主流AI生成模型,海外版支援Sora 2、Nano banana Pro等模型。國內版:www.creaibo.com/海外版:https://creaibo.io/All in AI帶來機會 但長跑沒有盡頭王文楷使用AI,是一件命中註定的事。差不多2021年,他已經開始接觸AI了,最初是用Stable Diffusion做工作流測試。那時王文楷還是風格抽象的影像藝術家,畢業於紐約大學電影學院的他發現,Stable Diffusion生成圖像的超現實風格,和自己的作品很有契合點,能帶來靈感。比如,王文楷曾生成了“蝴蝶翅膀裡面流出石油”這樣的場景,傳統三維場景很難做,也超出一般人的想像邊界。後來成為廣告片導演,王文楷也不排斥AI進入他的工作流,“我的攝影本身就有很多後期合成和PS的成分在裡面”。2023年之後,王文楷已經開始用AI來做特效輔助視覺。2025年,王文楷稱之為爆炸的一年。一方面,AI在視訊方向上的發展速度越來越快,精細度越來越高,最重要的進步就是可控性;也正因為可控,AI視訊能夠商用了,客戶對於AI工具的接受度越來越高,甚至大品牌甲方,也能接受全篇使用AI。尤其是Nano Banana出來後,王文楷感覺看到了智能的存在。他要求Nano Banana生成公元前一百年某事件圖片。完成這個要求,AI必須理解時間、空間、人文歷史處理程序。結果,出來的視訊真的是那麼回事。王文楷的很多作品,都使用了AI介入後期,甚至在拍攝階段就需要為AI效果進行前期調度。比如給某電商平台做的短片中,在模特實拍之後,王文楷再用AI生成宇宙背景、漂浮的星雲寶石等等。片子的真實、虛幻元素渾然一體,質感很高。這個片子使用了騰訊混元大模型。可能是由於公司有遊戲背景,混元中有很多高品質的三維資產。王文楷還用AI生成很多項目的效果預覽,能更好地跟客戶溝通想法,展示藝術創作能力,獲得客戶信任。王文楷因此在業界也頗有“擅做AI效果”的口碑。比如,奔馳的AMG GTXX概念車的短片項目,就直接找上王文楷。概念車用了很多內部新技術,要做宣傳片卻缺乏真實素材。王文楷用AI做出了概念車極速奔馳的效果,反響“蠻炸裂的”。隨著市場對AI接受度的提升,他的大客戶也越來越多。此外,他的工作室能夠接一些預算很低的單子。時尚大刊配合明星封面做的幾分鐘時長的推廣視訊,只有簡單的物料,預算也很低,但是給導演團隊的製作空間很大,他就大比例採用AI來做畫面,低成本製作但成片出來也很有質感。擁抱AI,給王文楷帶來了很多優勢。因此,王文楷非常積極地去學習AI的任何新進展。因為AI還在高速發展中,每一個新工具出來,都會有一部分過去經驗完全失效。這幾年他有一半時間,都all in AI,跟蹤新的工具,去學習、試用以及思考如何融入工作流裡面去。王文楷很好地融入了AI時代,雖然他說有時候可能在深夜還是會有一點悲傷,“我們引以為傲的、甚至花了幾十年訓練出來的時代風格,在未來的AI時代裡面可能只是一顆種子。”一些規模更大的廣告和影視公司,已經有了高度流水線式的AI視訊製作團隊,把每個工作流都拆分得非常細,生圖師就是一天八小時都在生圖,成為AI時代的螺絲釘,不需要對整個製作有什麼瞭解。王文楷還是希望從個人的靈感出發,以類似“一人公司”的模式對外合作,堅持“手搓AI”。因為這樣才能做出有趣的東西。他堅持在作品中保留人的創意。目前王文楷只是把AI生成的內容混合進最終的作品中,可能是30%,或是70%。接下來市場的變化也許會比技術來得更猛烈。王文楷發現,越來越多他的大客戶,都在內部成立了AI創作團隊。他的客戶也許會越來越少,因為客戶自己幹是他無法阻止的趨勢。不想“倒在AI的春天裡”,王文楷已經開始計畫做AI視訊培訓業務。AI是這個時代最好的老師,但是長期積累的經驗也同樣有價值。工具清單:Midjourney,文生圖,訓練專屬的個人高辨識度風格系統,作為可以復用的種子。混元,圖生3D,世界模型,骨骼驅動功能。Nano Banana,生圖性能好。Lovart,AI工具整合平台。尾聲這是4個在AI時代吃螃蟹的故事。機會到來時,不是每一個人都在當下就清楚意識到,AI到底給普通人帶來了什麼?往小裡說,“AI是這個時代最好的老師”,普通人有機會填平技術鴻溝;往大裡說,一個重寫人生敘事的機會。AI會改變各行各業,反過來說,每一個人都有機會用AI逆襲。關鍵是我們如何看得見、看得起、看得懂、跟得上,把AI帶來的混亂變成階梯。 (創業邦)
GPT-5.3-Codex 發佈:首個自我訓練的模型
今天,可算是又炸了一輪啊……讓不讓人睡覺了!就在過去一小時內,OpenAI 發佈了 GPT-5.3-Codex,Anthropic 發佈了 Opus 4.6(100萬 context)Claude Opus 4.6 發佈,跑分霸榜,價格不變。兩顆重磅炸彈,幾乎同時落地。建立在這些模型之上的 Agent 們,接下來怕是要起飛了。而就在 Anthropic 放出 Claude Opus 4.6 的同一天,OpenAI 緊跟著扔出了 GPT-5.3-Codex,號稱迄今為止最強的 agentic coding 模型。Sam Altman 本人也第一時間發了推:GPT-5.3-Codex 來了!最強編碼性能(57% SWE-Bench Pro,76% TerminalBench 2.0,64% OSWorld)。任務執行中可即時引導,工作過程中提供即時更新。更快!相同任務的 token 消耗不到 5.2-Codex 的一半,每個 token 的速度還快了 25% 以上!電腦使用能力也很強。那這個 GPT-5.3-Codex 到底強在那呢?且往下看。自己訓自己GPT-5.3-Codex 有一個很「離譜」的特點:它參與了自己的創造過程。OpenAI 團隊在訓練過程中,就用早期版本的 GPT-5.3-Codex 來 debug 自己的訓練、管理自己的部署、診斷測試結果和評估。換句話說,這個模型幫著把自己「生」出來了。OpenAI 的研究團隊用 Codex 來監控和偵錯這次發佈的訓練過程。它不僅能排查基礎設施問題,還能追蹤訓練過程中的模式變化,對互動質量做深度分析,提出修復建議,甚至為研究員建構可視化應用來精確理解模型行為的差異。工程團隊也在用 Codex 最佳化和適配 GPT-5.3-Codex 的運行環境。當出現影響使用者的邊界情況時,團隊成員直接讓 Codex 去定位 context 渲染的 bug,排查快取命中率低的根因。在發佈期間,GPT-5.3-Codex 還在幫團隊動態擴縮 GPU 叢集以應對流量高峰,保持延遲穩定。有一位資料科學家用 GPT-5.3-Codex 建構了新的資料管道,做出了比標準儀表盤工具豐富得多的可視化結果,然後和 Codex 一起分析,三分鐘內就從數千個資料點中提煉出了關鍵洞察。全面屠榜GPT-5.3-Codex 在多個基準測試上刷新了紀錄:SWE-Bench Pro 拿下 56.8%,這是一個衡量真實世界軟體工程能力的嚴格評估。和只測 Python 的 SWE-Bench Verified 不同,SWE-Bench Pro 覆蓋了四種程式語言,更抗資料污染,也更貼近工業場景。GPT-5.2-Codex 是 56.4%,GPT-5.2 是 55.6%。Terminal-Bench 2.0 達到 77.3%,遠超 GPT-5.2-Codex 的 64.0%。這個基準測試衡量的是 coding agent 所需的終端操作能力。OSWorld-Verified 拿下 64.7%,而 GPT-5.2-Codex 只有 38.2%。OSWorld 是一個在視覺桌面環境中完成生產力任務的 agentic 電腦使用基準,這個提升幅度可以說是「斷崖式領先」了。GDPval 上以 70.9% 的勝率或平局率持平 GPT-5.2。GDPval 是 OpenAI 在 2025 年發佈的評估,衡量模型在 44 個職業的知識工作任務上的表現,包括做簡報、處理電子表格等。網路安全 CTF 挑戰 達到 77.6%,GPT-5.2-Codex 是 67.4%。SWE-lancer IC Diamond 拿到 81.4%,超過 GPT-5.2-Codex 的 76.0%。而且值得注意的是,GPT-5.3-Codex 完成這些任務所消耗的 token 比任何之前的模型都要少。又強又省,這才是真本事。不只是寫程式碼GPT-5.3-Codex 的定位已經不僅僅是一個程式碼生成工具了。OpenAI 稱:從寫程式碼的 agent,變成了幾乎能做開發者和專業人士在電腦上做的一切事情的 agent。軟體工程師、設計師、產品經理、資料科學家做的遠不止寫程式碼。GPT-5.3-Codex 被設計為支援軟體生命周期中的所有工作:debug、部署、監控、寫 PRD、編輯文案、使用者研究、測試、指標分析等等。它的 agentic 能力甚至超越了軟體領域,能幫你做幻燈片、分析電子表格中的資料。OpenAI 結合了前沿編碼能力、美學改進和壓縮能力,做出了一個能在數天內從零建構高度功能化的複雜遊戲和應用的模型。為了測試長時間運行的 agentic 能力,他們讓 GPT-5.3-Codex 建構了兩款遊戲:一個賽車遊戲的第二版和一個潛水遊戲,使用的只是通用的跟進提示,比如「fix the bug」或「improve the game」,GPT-5.3-Codex 就在數百萬 token 的互動中自主迭代。在網頁開發方面,GPT-5.3-Codex 也比前代更懂你的意圖。簡單或不夠詳細的提示,現在會默認生成功能更完善、預設值更合理的網站,給你一個更強的起點去實現想法。比如讓兩代模型分別建構一個落地頁,GPT-5.3-Codex 會自動把年度方案顯示為折算後的月價格讓折扣更直觀,還會做一個自動輪播的使用者評價元件,而不是只放一條。開箱即用的完成度明顯更高了。邊幹活邊對話隨著模型能力越來越強,瓶頸已經從「agent 能做什麼」轉移到了「人類如何方便地與多個平行工作的 agent 互動、指導和監督」。GPT-5.3-Codex 在這方面做了一個關鍵改進:互動式協作。以前你給 Codex 一個任務,然後等它給你最終結果。現在不一樣了,GPT-5.3-Codex 會在工作過程中頻繁給你更新,讓你即時瞭解關鍵決策和進展。你可以隨時提問、討論方案、調整方向,而不會丟失上下文。它會告訴你它在幹什麼,回應你的反饋,從頭到尾都讓你參與其中。更像是和一位同事協作,而不是給一台機器下命令。在 Codex 應用中可以通過 Settings > General > Follow-up behavior 開啟這個功能。首個「高能力」安全評級GPT-5.3-Codex 是 OpenAI 在 Preparedness Framework 下首個被評為網路安全相關任務「高能力」的模型,也是他們首個直接訓練來識別軟體漏洞的模型。雖然沒有確鑿證據表明它能端到端地自動化網路攻擊,但 OpenAI 採取了預防性措施,部署了迄今最全面的網路安全安全端,包括安全訓練、自動化監控、高級能力的可信訪問以及包含威脅情報的執行管道。因為網路安全天然是雙重用途的,OpenAI 採取了「基於證據、迭代推進」的方法,加速防禦者發現和修復漏洞的能力,同時減緩濫用。具體措施包括:推出 Trusted Access for Cyber 試點項目,加速網路防禦研究。擴大 Aardvark(安全研究 agent)的私有 beta 測試,作為 Codex Security 產品套件的首個產品。與開源維護者合作,為 Next.js 等廣泛使用的項目提供免費程式碼庫掃描,上周就有安全研究員用 Codex 發現了 Next.js 的漏洞並已披露。在 2023 年發起的 100 萬美元網路安全資助計畫的基礎上,OpenAI 還承諾投入 1000 萬美元的 API 額度,用於加速網路防禦,特別是針對開放原始碼軟體和關鍵基礎設施系統。可用性GPT-5.3-Codex 現已向所有 ChatGPT 付費使用者開放,覆蓋 Codex 可用的所有平台:應用、CLI、IDE 擴展和網頁端。API 訪問正在安全地推進中。速度方面,比 GPT-5.2-Codex 快了 25%,token 消耗則不到前代的一半。GPT-5.3-Codex 是與 NVIDIA GB200 NVL72 系統協同設計、訓練和部署的。方向變了OpenAI 在文章最後說到:GPT-5.3-Codex 讓 Codex 從「寫程式碼」走向了「用程式碼作為工具來操作電腦、端到端地完成工作」。最初聚焦於成為最好的 coding agent,現在已經演變成了一個更通用的電腦協作者,擴展了誰能建構以及用 Codex 能做什麼的邊界。同一天,Anthropic 發 Opus 4.6,OpenAI 發 GPT-5.3-Codex。兩家在 agentic coding 這條賽道上的軍備競賽,已經進入白熱化了。cli 中也已經能用了:而方向也越來越清晰:不是讓模型寫更多程式碼,而是讓模型用程式碼去搞定一切。而另一個值得注意的是:GPT 5.3 Codex 今日正式發佈,而數小時前同時發佈的還有人工智慧代理平台 Frontier。這種發布周期的縮短意味著什麼呢?OpenAI 在近 6 個月內發佈了 5 個主要版本/更新,而此前 15 個月總共才只發佈了 7 個版本。對於日益複雜的模型,根據 OpenAI 自己的發佈公告,越來越多地使用#AI生成的程式碼來建構,這要麼是因為真正的功能程式碼開發改進而帶來的速度提升,要麼是因為在競爭壓力下通過更多的質量保證而實現的加速。這次的 GPT-5.3-Codex,可還是參與了自己的訓練過程的……有意思。 (AGI Hunt)
程式設計已死,鍵盤長草!Claude Code之父對談Kaparthy,全程爆金句
【新智元導讀】Andrej Karpathy與Claude Code負責人Boris Cherny展開了一場關於程式設計未來的終極對談。面對AI接管100%程式碼編寫的現狀,Karpathy坦言人類正處於「腦萎縮」與能力進化的十字路口。本文深度解析了從Software 2.0到Agentic Coding的範式轉移,揭示了在Opus 4.5等強力模型加持下,程式設計師如何從「搬磚工」進化為「指揮官」,以及不僅要面對效率的飛躍,更要警惕「垃圾程式碼末日」的隱憂。2026年的開篇,科技圈被一場關於「程式設計本質」的深度對話引爆。這場對話的雙方,一位是特斯拉前AI總監、OpenAI創始成員 Andrej Karpathy,他是「Software 2.0」概念的提出者,一直站在程式設計範式轉移的最前沿;另一位是 Claude Code 的締造者、Anthropic 的核心人物 Boris Cherny,他正在親手打造終結傳統程式設計的工具。他們的討論不僅僅是關於工具的迭代,更像是一場關於人類技能邊界的哲學思辨。當程式碼不再由人類一個個字元敲擊而出,我們究竟是在進化,還是在退化?這場對話揭示了一個殘酷而興奮的事實:我們正處於從「指令式程式設計」向「聲明式意圖」徹底轉型的奇點。「我兩個月沒手寫過一行程式碼了」 從輔助到接管震撼的開場白來自 Claude Code 的負責人 Boris Cherny。「兩天狂發 49 個 PR!」 這是 Boris 團隊目前的工作常態。他透露,Claude Code 團隊目前的開發工作幾乎100% 由 Claude Code 結合 Opus 4.5 完成。「對我個人而言,這種情況已經持續兩個多月了,我甚至不再手動進行任何小微信調。」 Boris 的話語中透著一種跨越時代的自信。無論是在 CLI 命令列,還是在 iOS 手機端,程式碼的生成、測試、提交,全流程由 AI 接管。這不僅僅是一個效率提升的故事,而是一個工作流重構的故事。Boris 分享了他極其硬核的「AI 原生」工作流:他通常會在終端同時運行 5 個 Claude 實例,甚至在 Web 端再開 5-10 個。他不再是那個逐行敲程式碼的工匠,而是一個指揮著一支 AI 軍團的指揮官。他使用「Plan Mode」(計畫模式)讓 AI 先思考策略,確立方案後再切換到執行模式。這種「平行化開發」的能力,讓一個人的產出足以匹敵一個傳統的小型開發團隊。而 Karpathy 的體驗也印證了這一點。他在長文中感嘆:「2025年11月,我還是80%手動+20% AI;到了12月,直接變成了80% AI + 20%手動。」「我在用英語程式設計。」Karpathy 略帶自嘲但也無比誠實地承認,「這有點傷自尊,告訴 AI 該寫什麼,就像在指揮一個實習生。但當你習慣了那種大規模駕馭軟體的『程式碼操作』能力後,你根本回不去了。」深度解析 從 Software 2.0 到 Agentic Coding要理解 Karpathy 的震撼,我們必須回溯他在 2017 年提出的 「Software 2.0」 概念。當時的 Software 2.0,是指用神經網路權重替代人工編寫的邏輯(Software 1.0)。程式設計師的角色從「編寫規則」變成了「整理資料」。而今天,我們正在邁入 Software 3.0 或者說是 Agentic Coding(代理編碼) 的時代。在這個階段,只有「意圖」(Intent)是人類提供的,而實現細節(Implementation)完全由 AI 掌控。Karpathy 敏銳地指出,這種轉變標誌著程式設計範式從「命令式」(Imperative)向「聲明式」(Declarative)的終極飛躍。過去:你需要告訴電腦「第一步做什麼,第二步做什麼,如果出錯怎麼辦」。現在:你只需要定義「成功標準是什麼」。正如 Boris 團隊所實踐的,利用 Claude Opus 4.5 強大的長程推理能力和 CLAUDE.md 這樣的記憶檔案,AI 能夠理解項目的整體架構上下文。Opus 4.5 在 CodeClash.ai 等基準測試中展現出的統治力,證明了它不僅僅是一個程式碼補全工具,而是一個具備邏輯推理、能夠自我修正的「工程師」。它不僅能寫程式碼,還能管理依賴、重構架構、甚至編寫測試用例來驗證自己的程式碼。這種「循環驗證」(Looping)能力是 Agentic Coding 的核心。AI 不再是寫完就忘,它會在一個封閉的循環中運行測試、讀取報錯、修改程式碼,直到通過測試為止。這正是 Karpathy 提到的「Feel the AGI」(感受通用人工智慧)的時刻——看著 AI 在30分鐘內不知疲倦地嘗試幾十種方案最終解決難題,人類感受到了前所未有的「槓桿效應」。10x 工程師的重新定義 通才的勝利隨著 AI 接管具體的編碼工作,「程式設計師」這個職業的定義正在被劇烈重寫。Boris 直言不諱:「我們現在傾向於招募『通才』(Generalists)。」在 LLM 能夠自動補全所有技術細節的時代,過去那些死記硬背的 API、特定語言的奇技淫巧,不再是護城河。你不需要記住 Python 的某個庫函數的具體參數,因為 AI 肯定記得比你清楚。真正的 「10x 工程師」 依然存在,但他們的能力模型發生了重組。未來的頂級工程師將是那些擁有宏觀視野的人——他們必須是能橫跨 產品與設計、業務甚至底層架構 的多面手。他們是產品經理:能清晰定義需求,識別偽需求。他們是架構師:能設計高可用的系統結構,指揮 AI 去填充模組。他們是測試官:能敏銳地發現 AI 邏輯中的漏洞,制定嚴格的驗收標準。Karpathy 也提出了深刻的疑問:「借助 LLM,通才是否會全面碾壓專才?」答案似乎是肯定的。AI 擅長填補微觀的細節(Fill in the blanks),而人類需要負責宏觀的戰略(Grand Strategy)。未來的程式設計,更像是玩《異星工廠》(Factorio)或者《星海爭霸》——你在指揮千軍萬馬,而不是親自去挖每一塊礦石。那些只專注於「把需求翻譯成程式碼」的初級程式設計師(Junior Devs),將面臨最嚴酷的生存危機。「廢用性萎縮」與 「Slopacolypse」繁榮背後的陰影然而,這場革命並非沒有陰影。Karpathy 最深刻的擔憂在於——「腦萎縮」(Atrophy)。「我已經注意到,我手動寫程式碼的能力正在緩慢退化。」Karpathy 描述這種感覺。在大腦的認知功能中,生成(Generation)和辨別(Discrimination)是兩種完全不同的能力。以前的程式設計師通過大量的「生成」訓練(寫程式碼)來強化邏輯;而現在,我們越來越依賴「辨別」能力(Review 程式碼)。這就像計算器的普及讓我們喪失了心算能力一樣。雖然我們還能讀懂程式碼(Review),但那種從零建構系統、對每一行程式碼都了然於胸的「肌肉記憶」正在消失。當你不再親自處理記憶體管理、不再親自偵錯並行死鎖,你對電腦系統的底層理解是否也會隨之膚淺化?更可怕的是 Karpathy 預測的 2026年 「Slopacolypse」(垃圾程式碼末日)。隨著 AI 生成內容的氾濫,網際網路和程式碼庫可能被大量低品質、看似正確實則充滿隱患的「垃圾」(Slop)填滿。GitHub 上可能充斥著由 AI 生成的、無人能維護的「屎山」。Karpathy 警告:目前的 AI 仍然會犯錯,不是簡單的語法錯誤,而是那種「粗心的初級程式設計師」才會犯的微妙概唸錯誤。它們會過度抽象,會堆砌死程式碼(Dead Code),會盲目順從你的錯誤假設。如果不加節制,軟體工程的熵將急劇增加。對此,Boris 則持一種「技術樂觀主義」態度。他認為「垃圾末日」不會到來,理由是——AI 審 AI。「我們在 Anthropic,每個 PR 都會開啟一個新的上下文窗口,讓 Claude 去 Review Claude 寫的程式碼。」這種「左腳踩右腳」的螺旋上升,被 Boris 視為解藥。隨著模型能力(特別是 Opus 4.5 及其後續版本)的提升,AI 清理垃圾程式碼、重構程式碼的能力將超過它製造垃圾的速度。未來的 IDE 可能不僅是程式碼編輯器,更是一個全自動的垃圾回收站,即時清洗著 AI 產生的冗餘。昇華:相位轉換的一年Karpathy 將 2026 年定義為 「行業代謝新能力、發生相位轉換(Phase Shift)的關鍵一年」。這不僅僅是效率的提升,而是物種的進化。我們正在經歷從「手工匠人」到「工業化生產」的劇變。在這個新時代,人類的角色從「建築工」變成了「建築師」。我們失去的是搬磚的手感,得到的是建造摩天大樓的視野。程式設計不再是關於「語法」和「演算法」的苦修,而是關於「想像力」和「邏輯」的釋放。但正如 Karpathy 所言,看著 AI 不知疲倦地在30分鐘內解決一個只有人類專家才能解決的難題,那種 「Feel the AGI」(感受通用人工智慧) 的時刻,既讓人興奮,也讓人感到一絲作為碳基生物的落寞。程式設計已死,程式設計萬歲。死的是作為「打字員」的程式設計師,活下來的是作為「創造者」的我們。當你不再需要為語法報錯而抓狂時,唯一限制你的,就只剩下你的想像力,和對世界本質的理解了。 (新智元)
大事不好!機器人學會預測未來了
不得了,機器人現在開始學會腦補未來了。這就是螞蟻靈波又又又又(連續第4天)開放原始碼的狠活兒——全球首個用於通用機器人控制的因果視訊-動作世界模型,LingBot-VA。怎麼個腦補法?簡單來說啊,以前的機器人(尤其是基於VLA的)幹活兒,主打一個條件反射:眼睛看到什麼,手立刻就動一下。這叫“觀察-反應”模式。但LingBot-VA就不一樣了,它通過自回歸視訊預測打破了這種思考方式,在動手之前,腦子裡先把未來幾秒的畫面推演出來。說實話,用想像力做決策,在機器人控制這塊還是相當新鮮的。但這不是LingBot-VA唯一的亮點,還包括:記憶不丟失:做長序列任務(比如做早餐)時,它會記得自己剛才幹了什麼,狀態感知極強。高效泛化:只要給幾十個演示樣本,它就能適應新任務;換個機器人本體,也能hold住。因此在LingBot-VA的加持下,像清洗細小的透明試管這種高精度任務,機器人已經是可以輕鬆拿捏:正如我們剛才提到的,今天是螞蟻靈波連續第四天開源。如果說前幾天的開源是給機器人加強了眼睛(LingBot-Depth)、大腦(LingBot-VLA)和世界模擬器(LingBot-World),那麼今天的LingBot-VA,就是讓這具軀殼真正擁有了靈魂——一個行動中的世界模型,讓想像真正落到執行層面。如此一來,通用機器人的天花板,算是被螞蟻靈波往上頂了一截。正如網友所述:從預測到執行;說實話這是巨大的飛躍。讓想像力先行一步LingBot-VA在架構設計上選擇了一條更進一步的路徑。在傳統的VLA(視覺-語言-動作)範式中,模型通常會將視覺理解、物理變化推理、低層動作控制這三項複雜任務放在同一個神經網路中處理,這在學術界被稱為表徵纏繞(Representation Entanglement)。為了追求更高的樣本效率和更強的泛化能力,LingBot-VA選擇把這團亂麻解開,提出了一套全新的解題思路:先想像世界,再反推動作。為了實現這個想法,螞蟻靈波團隊採用了一個兩步走的策略:視訊世界模型:先預測未來的視覺狀態(接下來會發生什麼)。逆向動力學(Inverse Dynamics):基於視覺的變化,反推出應該執行什麼動作(為了達到這個畫面,手該怎麼動)。這與傳統VLA有著本質區別:它不直接從“現在”跳到“動作”,而是要經過一下“未來”這個步驟。如何實現?螞蟻靈波團隊主要將三個架構層面作為突破口。首先就是視訊與動作的自回歸交錯序列。在LingBot-VA的模型裡,視訊Token和動作Token被放進了同一條時間序列裡。為了保證邏輯嚴密,團隊引入了因果注意力(Causal Attention)。這就像給模型定了一條死規矩:只能用過去的資訊,絕對不能偷看未來。同時,借助KV-cache技術,模型擁有了超強的長期記憶。它清楚地知道自己三步之前做了什麼,任務絕對不會失憶。其次是Mixture-of-Transformers (MoT) 的分工協作。這一步主要是為瞭解決我們前面提到的表徵纏繞的問題。我們可以把過程理解為“左右互搏”,但又很默契的一種配合:視訊流:寬而深,負責繁重的視覺推演。動作流:輕而快,負責精準的運動控制。這兩個流共享注意力機制,資訊互通,但在各自的表徵空間裡保持獨立。這樣一來,視覺的複雜性不會干擾動作的精準度,動作的簡單性也不會拉低視覺的豐富度。最後就是工程設計相關的工作。畢竟光有理論是不好使的,“實踐才是檢驗真理的唯一標準”:部分去噪(Partial Denoising):做動作預測時,其實不需要每一次都把未來畫面渲染得高畫質無碼。模型學會了從帶有噪點的中間狀態裡提取關鍵資訊,計算效率大大提升。非同步推理(Asynchronous Inference):機器人在執行當前動作的時候,模型已經在後台瘋狂計算下一步了。推理和執行平行,延遲感幾乎消失。FDM 接地(Grounding):為了防止模型想像力脫離現實,系統會用真實的觀測資料不斷校正想像,避免出現開放式的幻覺漂移。實驗結果與能力驗證在瞭解完理論之後,我們再來看實驗效果。螞蟻靈波團隊在真機實驗和模擬基準上,對LingBot-VA進行了全方位的實測。在真機測試中,LingBot-VA覆蓋了三類最具挑戰性的任務。首先是長時序任務,比如準備早餐(烤面包、倒水、擺盤)、拆快遞(拿刀、劃箱、開蓋)。這些任務步驟繁多,但凡中間有一步有誤,那可以說是滿盤皆輸。從LingBot-VA的表現來看,一個字,穩。即便是不小心失敗了,機器人也會記得進度,嘗試重來。第二類是高精度任務,比如擦試管、擰螺絲。這要求動作精度達到毫米級,得益於MoT架構,動作流不再受視覺噪聲的干擾,手極穩。剛才我們已經看了擦拭管的案例,再來看個擰螺絲的:第三類任務是針對可變形物體,例如折衣服、折褲子。這些任務的難點在於物體處於一個隨時變化的狀態,但LingBot-VA通過視訊推演,預判了布料的形變,操作行雲流水。除此之外,LingBot-VA在RoboTwin 2.0和LIBERO這兩個硬核模擬基準上,也是很能打的。尤其是在RoboTwin 2.0的雙臂協作任務中,無論是簡單的固定場景(Easy),還是複雜的隨機場景(Hard),LingBot-VA都展現出了不錯的實力:RoboTwin 2.0 (Easy):成功率92.93%,比第二名高出4.2%。RoboTwin 2.0 (Hard):成功率91.55%,比第二名高出4.6%。而且有一個趨勢非常明顯:任務越難、序列越長(Horizon變大),LingBot-VA的領先優勢就越大。在 Horizon=3 的長任務中,它的優勢甚至擴大到了9%以上。而在LIBERO基準測試中,LingBot-VA更是拿下了98.5%的平均成功率,刷新了SOTA記錄。總結一下,通過這些實驗,我們可以清晰地看到LingBot-VA的三個核心特質:長期記憶:在一個來回擦盤子的計數任務中,普通VLA模型擦著擦著就忘了擦了幾下,開始亂擦;LingBot-VA 則精準計數,擦完即停。這就是KV-cache的起到的作用。少樣本適應:面對全新的任務,只需提供50條左右的演示資料,稍微微調一下,它就能學會。這比那些動輒需要成千上萬條資料的模型,效率高了幾個數量級。泛化能力:訓練時用的是某種杯子,測試時換個形狀、換個顏色,或者把杯子隨便擺個位置,它依然能精準識別並操作。連續四天開源,已經產生影響把時間軸拉長,回看這四天的連續開源,我們會發現螞蟻靈波下了一盤大棋。因為這四個開放原始碼專案拼湊在一起,就會形成一條非常清晰的技術主線:Day 1: LingBot-Depth——解決“看清”的問題。讓感知能夠更加清晰。Day 2: LingBot-VLA——解決“連接”的問題。打通語言、視覺到動作的通用介面。Day 3: LingBot-World——解決“理解”的問題。建構可預測、可想像的世界模型。Day 4: LingBot-VA——解決“行動”的問題。把世界模型真正嵌入控制閉環,讓想像指導行動。這四塊拼圖湊在一起,釋放了一個強烈的訊號:通用機器人正在全面走向視訊時代。視訊,不再僅僅是訓練用的資料素材,它正在成為推理的媒介,成為連接感知、記憶、物理和行動的統一表徵。這對於整個行業來說,價值是巨大的。對通用機器人來說,長任務、複雜場景、非結構化環境,這些曾經的硬傷,現在有了系統性的解法。從具身智能路線來看,世界模型不再是一個可選項,它正式成為了機器人的中樞能力,從“能動”進化到“會想再動”。並且螞蟻靈波的持續不斷地開源動作,不僅僅是提供了程式碼、模型這麼簡單,更是一條可復現、可擴展的技術範式。而蝴蝶效應也在行業中開始顯現。就在這兩天,Google宣佈通過Project Genie項目讓更多人體驗Genie 3;宇樹科技宣佈開源UnifoLM-VLA-0……海外媒體也對螞蟻靈波的開源動作有了不小關注,點評道:螞蟻集團發佈了名為LingBot-World的高品質機器人AI模擬環境。這家中國金融科技公司完善了一套完整的開源工具包,用於物理AI系統的開發。這也是在全球機器人領域主導權爭奪戰中的一項戰略性舉措。嗯,螞蟻靈波的壓力是給到位了。總而言之,LingBot-VA的出現,標誌著世界模型第一次真正站上了機器人控制的主舞台。項目地址:https://technology.robbyant.com/lingbot-vaGitHub地址:https://github.com/robbyant/lingbot-va項目權重:https://huggingface.co/robbyant/lingbot-vahttps://www.modelscope.cn/collections/Robbyant/LingBot-va (量子位)