#Karpathy
軟體 3.0 時代來臨
Karpathy 說,他從來沒有像現在這樣,覺得自己作為程式設計師「落後了」。這話從別人或者我的嘴裡說出來,可能就還算是正常……但 Karpathy 這麼說,份量就還是不太一樣了。Karpathy是 OpenAI 聯合創始人、Tesla AI 負責人、如今 Eureka Labs 的創始人,整個深度學習時代最具影響力的技術布道者之一。雖然喜歡造詞,被認為有些“網紅”屬性,但也是憑實力而紅,沒有任何水分。上周,他在 Sequoia Capital 的 AI Ascent 2026 大會上,和 Sequoia 合夥人 Stephanie Zhan 做了一場 30 分鐘的爐邊對話。主題是:軟體正在經歷第三次範式轉移。Karpathy AI Ascent 2026Stephanie Zhan 在活動結束後,發了段總結稱:“ 去年他造了「vibe coding」這個詞,今年,他「從未如此覺得自己作為程式設計師落後了」。她還用一句話概括了整場對話的核心內容:“ Vibe Coding 抬高的是地板,Agentic Engineering 抬高的是天花板。一個關乎准入,更多人能參與建構。另一個關乎卓越,用 Agent 的同時不犧牲安全、可靠性、可維護性,以及品味。而 Karpathy 自己也在事後發了一條長帖總結了三個主題。其中,最重要的一段是關於 LLM 的「新疆域」:“ LLM 遠不只是加速已有的工作流(比如寫程式碼)。有些應用可以被 LLM 完全吞噬,無需傳統程式碼。有些安裝指令碼可以用英文 .md 檔案替代 .sh 指令碼,因為「LLM 就是一個高級的英文直譯器」。還有像 LLM 知識庫這樣的東西,以前根本做不了,因為它需要對非結構化資料做計算。01. Software 1.0在理解什麼是 Software 3.0 之前,我們先回頭來看看 1.0 和 2.0。Software 1.0 是我們熟悉的傳統程式設計。Software 1.0 的困境程式設計師用 Python、C++、Java 寫程式碼,每一行都是明確的指令:如果 A 則執行 B,否則執行 C。邏輯是人寫的,bug 也是人造的。從 1950 年代到現在,絕大多數軟體都屬於這個範疇。這套範式統治了軟體工程半個多世紀。它的好處顯而易見:確定性強,可偵錯,可解釋。但它也有一個根本性的侷限,擴展性受限於人類的智力和時間。你寫不出一個手動規則,讓電腦從一張照片裡認出一隻貓。你寫不出一段邏輯,讓機器把中文翻譯成英文。你更寫不出一個演算法,讓 AI 從零學會下圍棋。畢竟這些任務……人類自己都說不清楚規則是什麼,怎麼寫成程式碼呢?02. 2017 年:Software 2.02017 年 11 月,Karpathy 還在 Tesla 做 Autopilot 的時候,在 Medium 上寫了一篇部落格:Software 2.0。Software 2.0:訓練即程式設計這篇文章後來被認為是 AI 領域最有影響力的概念文章之一。他的核心論點是:神經網路不只是一種新工具,它代表了一種全新的程式設計範式。在 Software 1.0 里,程式設計師寫程式碼。在 Software 2.0 里,程式設計師準備資料和目標函數,然後讓最佳化演算法(梯度下降)去搜尋出一組神經網路權重。“ Software 2.0 是用一種更抽象、對人類更不友好的語言寫成的,比如神經網路的權重。沒有人參與編寫這些程式碼,因為權重的數量實在太多了(典型的網路可能有幾百萬個權重),直接用程式碼編寫已經不可能。換句話說,訓練過程就是程式設計過程,資料集就是原始碼。他在文章中列了一長串 Software 2.0 已經「吃掉」Software 1.0 的領域:圖像識別從手工特徵工程變成了深度摺積網路,語音識別從高斯混合模型變成了端到端神經網路,機器翻譯從基於短語的統計方法變成了 Transformer 架構,圍棋從手寫評估函數變成了 AlphaGo Zero 的自我對弈。而 Software 2.0 的好處在於:計算圖是同質的(主要就是矩陣乘法),方便硬體最佳化。執行階段間可預測,沒有死循環。不需要動態記憶體分配,不會記憶體洩漏。而且在很多領域,它的表現已經遠超人類手寫的方案。在文章末尾,Karpathy 當時預言,當我們最終造出 AGI 的時候,它一定是用 Software 2.0 寫的。這個預言可以說是非常成功了,只不過在 2026 年的今天看來……好像只說對了一半,因為:03. 3.0 來了Karpathy 自己承認,Software 2.0 的文章寫得太早了,當時 GPT 還沒出現,Transformer 才剛剛發表。他沒有預見到一個東西:大語言模型。Software 2.0 的程式設計方式是:準備資料,設計網路結構,訓練。這個過程需要大量的機器學習專業知識,需要 GPU 叢集,需要幾周甚至幾個月的訓練時間。門檻極高。三代軟體演進而 Software 3.0 的程式設計方式,則完全不同。你寫一段 prompt,給模型一些上下文,它就執行了。不需要訓練,不需要梯度下降,不需要標註資料。你用自然語言「程式設計」,用 context window 作為「記憶體」,用工具呼叫作為「系統呼叫」。LLM 成了一個新型的計算直譯器,而 prompt 就是它的原始碼。Karpathy 在這次 AI Ascent 上把三代軟體做了一個清晰的總結:Software 1.0:人寫程式碼Software 2.0:神經網路用資料訓練出來Software 3.0:通過 prompt、上下文、Agent、工具、記憶和驗證來程式設計context window 成了新的程式設計介面。04. MenuGen 的例子Karpathy 舉了一個他自己做的項目:MenuGen。想像一下這個場景:你走進一家餐廳,拍了一張菜單照片,然後一個 App 自動識別出每道菜的名字,搜尋菜品圖片,重新排版生成一個帶圖片的漂亮菜單。用傳統方式做這件事,流程大概是這樣:先用 OCR 識別文字,再用 NLP 提取菜名,然後呼叫圖像搜尋 API,最後寫前端來重新排版。至少得寫幾百行程式碼,可能還需要一兩天。而 Karpathy 發現,直接把照片扔給 Gemini,讓它在原圖上疊加菜品圖片,整個中間層的 App 都變得多餘了。MenuGen:中間層消失了這就是 Software 3.0 最具顛覆性的地方:有些應用不是被做得更快了,是直接被模型的原生能力吞掉了。“ 不要只問 AI 能幫你更快地建構什麼。要問:AI 讓什麼變得不再必要。05. Vibe Coding 到 Agent Engineering「Vibe Coding」這個詞是 Karpathy 自己在 2025 年初造的,見:傳奇音樂製作人Rick Rubin將《道德經》魔改成Vibe Coding版《程式設計之道》背後的故事。當時 AI 程式設計工具剛起步,他用這個詞來形容一種新的開發方式:不看程式碼細節,憑直覺和自然語言跟 AI 協作,「感覺對了就行」。然後,這個詞火了,火到他自己都沒想到。但 Karpathy 這次想說的是:Vibe Coding 僅僅只是熱身,而已。2025 年 12 月,他說自己經歷了一個「翻轉」。從自己寫 80% 程式碼、Agent 寫 20%,一下子變成了 20/80。在 2026 年,這個比例還在繼續傾斜。他甚至因此患上了「AI 精神病」(AI psychosis):每天對著 Agent 說話 16 個小時,Agent 跑完一個任務就想立刻開下一個,token 沒花完就覺得自己在偷懶。在這次演講中,Karpathy進一步把這種轉變拆成了兩個層次:地板與天花板Vibe Coding 抬高了地板。任何人,那怕完全不懂程式設計,都能用自然語言描述需求,讓 AI 生成一個可用的應用。這在以前不可想像。一個設計師可以做原型,一個產品經理可以做內部工具,一個學生可以做自己的項目。門檻被拉到了接近零。Agent Engineering 抬高了天花板。專業開發者使用 Agent 的方式完全不同。他們並非「讓 AI 幫忙寫程式碼」那麼簡單,他們在設計一整套系統:Agent 生成方案,Agent 編碼,Agent 測試,Agent 相互檢查。這套流程要保證沒有安全漏洞,架構要乾淨,系統要穩健。這就是 Karpathy 說的「Agentic Engineering」,智能體工程。“ Vibe Coding 抬高的是所有人能做軟體的下限。Agentic Engineering 要保住的是專業軟體過去已有的質量門檻。06. 可驗證性Karpathy 在演講中還提出了一個觀點:傳統軟體自動化的是你能規格化的東西,而 AI 自動化的是你能驗證的東西。這在我看來,其實相當關鍵。程式碼寫的對不對?跑個測試就知道了;數學上算的對不對?算一下就有了;安全上有沒有漏洞?有掃描工具可以來發現。這些領域有一個共同特徵:輸出可以被客觀評估。正因為可以驗證,這些任務才能進入強化學習的循環,才能讓模型越練越強。這也是為什麼 AI 在程式設計、數學、程式碼安全等方面進步飛速,而在「常識推理」方面總是犯一些讓人匪夷所思的錯誤。Karpathy 舉了個例子:模型可以重構一個十萬行的程式碼庫,可以發現零日漏洞,但它也會告訴你,「你的車在 50 米外的洗車店,建議步行過去」。這種現象叫做「鋸齒狀智能」(jagged intelligence)。鋸齒狀智能能力曲線並非平滑上升,有高峰,也有斷崖。高峰出現在實驗室有資料和獎勵訊號覆蓋的領域,斷崖出現在訓練分佈之外的地方。Karpathy 在事後的推文進一步進行瞭解釋:鋸齒狀分佈不僅與可驗證性有關,還和經濟學有關。收入和市場規模(TAM)決定了前沿實驗室在強化學習訓練中選擇覆蓋那些領域。“ 你要麼在資料分佈之內,在 RL 的軌道上飛馳。要麼在軌道之外,拿著砍刀在叢林裡開路。好比 Claude 能重構十萬行程式碼,因為有人花了錢讓它訓練這個能力。但「怎麼去洗車」這種問題,沒人付錢去訓練,也不是模型的重點了。這其實不是智能的問題,是經濟分配的問題。而對創業者來說,對應的機會則是:找到那些可以構造驗證環境、但還沒被大實驗室的強化學習覆蓋到的領域。如果你能自己設計獎勵函數,即便主流模型沒有針對性最佳化,你也能通過微調獲得顯著優勢。07. HarnessKarpathy 還聊到了一個概念:harness(套件/腳手架)。這個詞最近在 Agent 技術中特別火熱。我之前也專門寫過一篇文章《模型不是關鍵,Harness 才是》來介紹。Harness 概念最早是 HashiCorp 聯合創始人 Mitchell Hashimoto 在今年 2 月提出的。他在用 AI 做 Ghostty 項目時總結出一條原則:“ 每當你發現 Agent 犯了一個錯誤,你就花時間去工程化一個解決方案,讓它再也不會犯同樣的錯。後來包括 Cursor,OpenAI,Anthropic 等也紛紛發表了關於 Harness 的工程部落格。比如 Anthropic 的博主中討論到的核心問題是:AI Agent 如何在多個上下文窗口之間保持進度?他們的方案是:初始化 Agent 搭建環境、建立進度檔案(claude-progress.txt)、建立基準 commit。執行 Agent 逐個完成功能,每次新的 context window 開始時,先讀 git log 和進度檔案,接著上一輪繼續。這就像是給 Agent 寫了一份交接文件。而 Karpathy 的觀點則更為激進:未來的軟體應該為 Agent 重寫,完全不用考慮人類使用者。現在的軟體介面是給人用的,有按鈕、有菜單、有滑鼠。但 Agent 不需要這些。Agent 需要的是:機器可讀的介面、明確的權限聲明、可分解的工作流、清晰的指令格式。他在推文中還舉了一個小例子:為什麼還要寫複雜的 .sh 安裝指令碼?你完全可以用一個 .md 檔案,用英文把安裝步驟寫清楚,然後告訴使用者「把這個檔案給你的 LLM 看就行」。LLM 作為高級直譯器,可以智能地根據你的系統環境調整安裝過程,遇到問題也能內聯偵錯。用 .md 替代 .sh,替代 .py 和 .go 等等,也是我最近的用法。08. 人的位置說了這麼多 AI 和 Agent,Karpathy 倒也沒忘了說回人類自己。他的判斷是:理解力是不可外包的。Agent 可以調 API,可以寫程式碼,可以做測試。但有幾件事它確實還做不了:系統規格設計:比如使用者系統應該用穩定的 user ID 而不是信箱地址來關聯資金,這種判斷需要理解業務邏輯,需要經驗,需要對後果的預見。概念理解:你需要真正懂張量是什麼、記憶體檢視怎麼工作、儲存機制背後的原理,而不只是知道 API 的名字。否則你無法判斷 Agent 寫的程式碼是不是在做正確的事。品味:Agent 寫的程式碼經常「能跑但很醜」。它通過了所有測試,功能也對,但架構一團糟、命名一塌糊塗、複雜度失控。你需要知道什麼是好的設計。“ 你可以外包你的思考,但不能外包你的理解。理解力不可外包如果你不理解系統在做什麼,你就沒辦法在 Agent 犯錯的時候知道它錯在那裡。而 Agent 一定會犯錯。我有時也會,在對方回答我嚴肅的工作問題時說“AI 認為……”時,會打斷他說:不要“AI 認為、AI 的判斷”,要“你認為、你的判斷”。09. 三代軟體回看這三代軟體範式的演進,其中的主線是:人類參與的方式在不斷變化。Software 1.0 時代,程式設計師是作者。每一行程式碼都是他親手敲出來的,邏輯是他設計的,bug 是他修的。他對整個系統有完全的控制權,也承擔全部的責任。Software 2.0 時代,程式設計師變成了教練。他不再直接寫邏輯,而是準備訓練資料、設計網路結構、調整超參數,然後讓最佳化演算法去搜尋解決方案。他的工作從「告訴機器怎麼做」變成了「給機器看該怎麼做」。Software 3.0 時代,程式設計師變成了指揮官。他不需要準備資料,不需要訓練模型,他只需要用自然語言描述意圖,給出上下文,然後指揮一群 Agent 去執行。他的工作從「給機器看」變成了「告訴機器要什麼」。從 how 到 show 到 what。作者→教練→指揮官但這條主線的另一面,則是:每一代轉移,人類失去的是執行細節的控制,獲得的是更高層次的槓桿。就像 Karpathy 在先前的播客裡說的:以前焦慮的是 GPU 空閒,現在焦慮的是 token 沒花完。以前的瓶頸是計算資源,現在的瓶頸是人。你控制多少 token 吞吐量,決定了你能做多少事。在推文最後,他還拋出了一個更遠的展望:全神經計算(fully neural computing)。他設想的未來是,絕大多數計算由神經網路處理,而傳統的 CPU 反而成了「協處理器」,只負責一些輔助任務。這也算是和他 2017 年 Software 2.0 文章末尾的預言遙相呼應了,當年他說 AGI 一定是 Software 2.0 寫的。現在看來,他可能覺得 AGI 更可能是 Software 3.0 催生的,在一個 LLM 為主、傳統計算為輔的全新架構上運行。10. 3.0 時代在我看來,Karpathy 這次沒有講太多「未來暢想」。他講的基本都是,已經發生的事。Software 3.0 並非只一個概念,也不是一個預測,如果你能讀到這個帳號的這篇文章,我想你很可能,早已置身其中,感同身受了。Anthropic 今年發的《2026 Agentic Coding Trends Report》裡提到,2025 年 agentic AI 改變了大量開發者寫程式碼的方式,而 2026 年將是這種變革開始重構整個軟體開發生命周期的一年。而我自己,也大概是從 2025 年 下半年或什麼時候開始,就沒再手寫過一行程式碼了,而是每天對著 Agent 說話數分鐘甚至數小時……Software 3.0 時代,並非即將到來、馬上要來。而是,就在當下。 (AGI Hunt)
Andrej Karpathy:完整LLM wiki 建構提示詞! 基於Obsidian+AI Agent的個人知識庫完整建構指南
這是一篇很有意思的文章。Andrej Karpathy兩天前剛提出了備受關注的以Obsidian+AI建構個人知識庫的模式,這個路徑是非常明確的,Obsidian筆記軟體在本地管理了以md為格式的知識文件,提供了知識庫建構所需要的各種目錄索引組織功能, Andrej提出的設計模式讓AI Agent來接管Obsidian,讓人們從整理原始素材的繁瑣工作中解脫出來,讓大家真正擁有一個自主整理資料乃至分析提煉的AI助手。所以Anredj其實是提出了一種區別於傳統對話機器人的全新個人知識庫建構範式。而今天,Andrej更是直接給出了詳細方法,這文章實就是直接給AI Agent看的完整建構指南。為了讀者看完就能直接上手操作,本文在關鍵步驟加入了 💡【手把手實操註釋】。讀者可以把它當作一份“實戰搭建指南”。建構個人 LLM Wiki(大語言模型維基)的設計模式作者:Andrej Karpathy這是一個“概念檔案(Idea File)”,它的設計初衷是讓你直接複製貼上給你的 LLM Agent(例如 OpenAI Codex、Claude Code、OpenCode / Cursor / Pi 等)。本文的目的是傳達高層次的理念,而你的 AI 助手將會和你一起協作,建構出具體的實現細節。💡 【實操註釋:第一步該怎麼做?】Karpathy 的意思是,你不需要自己從零寫程式碼。你可以直接把這篇中文版,喂給具備“讀取本地檔案”能力的 AI 工具。告訴 AI:“閱讀這篇文章,理解 LLM Wiki 的理念,以後你就是我的 Wiki 維護員了。”核心理念 (The core idea)大多數人使用 LLM 處理文件的體驗類似於 RAG(檢索增強生成):你上傳一堆檔案,當你提問時,LLM 檢索出相關的文字塊,然後生成答案。這種方法能用,但問題是:LLM 每次回答新問題時,都在“從零開始”重新發現知識。沒有任何知識沉澱。 如果你問一個需要綜合五份文件的複雜問題,LLM 每次都得重新去尋找並拼湊相關碎片。NotebookLM、ChatGPT 的檔案上傳功能,以及大多數 RAG 系統都是這樣工作的。這裡的理唸完全不同。LLM 不再是在你提問時才去原始文件裡檢索,而是持續建構並維護一個持久的 Wiki(維基庫)——這是一個由相互連結的 Markdown 檔案組成的結構化集合,它介於你和原始資料之間。當你加入一份新資料時,LLM 不是簡單地建立索引留待後用。它會主動閱讀它,提取關鍵資訊,並將其整合到現有的 Wiki 中——更新實體頁面,修改主題摘要,標註新資料與舊觀點的衝突之處,強化或挑戰正在演變的綜合結論。知識被“編譯(compiled)”一次後就會保持更新,而不是每次提問都重新推導。這是最關鍵的區別:Wiki 是一個持久的、具備複利效應的產物。 交叉引用已經存在了,矛盾之處已經被標記了,總結結論已經反映了你讀過的所有內容。你加入的資料越多、問的問題越多,這個 Wiki 就越豐富。你永遠(或極少)需要自己動手寫 Wiki——LLM 會負責編寫和維護這一切。你的職責是尋找資料、探索發現、以及提出好問題。 LLM 則負責所有的“苦力活”——總結、交叉引用、歸檔、記帳,正是這些枯燥的工作讓一個知識庫隨著時間推移變得真正有用。在實際操作中,我會在螢幕一邊打開 LLM Agent,另一邊打開 Obsidian(一款本地筆記軟體)。LLM 根據我們的對話修改檔案,我則即時瀏覽結果——點選連結跳轉、查看知識圖譜(graph view)、閱讀更新後的頁面。Obsidian 是開發工具(IDE),LLM 是程式設計師,而你的 Wiki 就是程式碼庫。適用場景 (Examples)這套模式適用於多種情境:個人管理:追蹤你的目標、健康、心理、自我提升——將日記、文章、播客筆記歸檔,隨著時間推移建構一個結構化的“自我畫像”。深度研究:花費數周或數月深入研究一個主題——閱讀論文、文章、報告,並逐步建構一個包含演進論點的全面 Wiki。閱讀書籍:邊讀邊將每一章歸檔,為人物、主題、情節線索建立頁面,記錄它們之間的關聯。讀完後,你就會擁有一個內容豐富的伴讀 Wiki。(想想類似《指環王》粉絲建立的維基百科,成千上萬個連結頁面,現在你可以用 LLM 自己建一個)。商業/團隊:一個由 LLM 維護的內部 Wiki,資料來源可以是 Slack 聊天記錄、會議記錄、項目文件、客戶通話。競品分析、盡職調查、旅行規劃、課程筆記、愛好鑽研——任何需要隨著時間推移積累知識,且希望知識井然有序而不是散落一地的場景。系統架構 (Architecture)整個系統分為三個層級:原始資料層 (Raw sources):你收集的原始文件庫。文章、論文、圖片、資料檔案。這些是不可變(immutable)的——LLM 只能讀取它們,絕不能修改它們。這是你的事實真相源(Source of truth)。Wiki 層 (The wiki):由 LLM 生成的 Markdown 檔案目錄。包括摘要、實體頁面、概念頁面、對比表格、概覽和綜合分析。LLM 完全擁有這一層。它負責建立頁面、更新內容、維護交叉引用並保持一致性。你負責讀,LLM 負責寫。約束架構層 (The schema):一個配置檔案(例如 Claude Code 的 CLAUDE.md 或 Codex 的 AGENTS.md),用於告訴 LLM 這個 Wiki 的結構是什麼、命名約定是什麼,以及在提取資料、回答問題或維護 Wiki 時要遵循什麼工作流。你和 LLM 會隨著時間的推移不斷最佳化這個檔案。💡 【實操註釋:普通使用者如何在電腦上建立這個架構?】你只需要在電腦桌面上新建一個資料夾,比如叫 My_AI_Wiki,然後在裡面建三個子資料夾/檔案:📁 Raw_Sources (你把下載的 PDF、網頁文字扔這裡,別讓AI改)📁 Wiki_Pages (讓 AI 在這裡面自由建立和修改 .md 筆記)📄 Agents.md (這是給AI看的規則說明書)操作方式:用你的AI Agent軟體打開這個 My_AI_Wiki 資料夾,你就可以直接在聊天框裡讓 AI 讀取Angets.md, 它就開始幹活了。日常操作 (Operations)攝入資料 (Ingest):你把一份新資料扔進原始資料庫,然後叫 LLM 處理它。例如:LLM 讀取資料,跟你討論核心觀點,然後在 Wiki 中寫一頁摘要,更新目錄索引,更新各個相關的實體和概念頁面,最後在日誌裡寫下一筆。一份資料可能會觸及 10-15 個 Wiki 頁面。我個人傾向於每次只攝入一份資料並保持參與感——我會閱讀摘要、檢查更新、引導 LLM 強調那些內容。你也可以建立自己的工作流並寫在 schema 規則裡。💡 【實操註釋:讓AI Ingest的有效提示詞(Prompt)舉例】"請閱讀 Raw_Sources 資料夾中剛放入的《2024新能源報告.pdf》。讀完後:1. 在 Wiki_Pages 建立該報告的摘要頁面;2. 如果報告提到了電池技術,去更新已有的 固態電池.md 頁面;3. 更新總目錄 index.md。"查詢 (Query):你向 Wiki 提問。LLM 會搜尋相關頁面,閱讀它們,並附上引用來源生成答案。答案可以是 Markdown 頁面、對比表、幻燈片或圖表。最重要的見解是:高品質的答案應該作為新頁面存回 Wiki 中。 你要求做的橫向對比、分析、發現的關聯——這些都是有價值的,不應該消失在聊天記錄裡。讓你的探索像原始資料一樣在知識庫中產生複利。程式碼審查/健康檢查 (Lint):定期讓 LLM 對 Wiki 進行健康檢查。尋找:頁面之間的矛盾、被新資料推翻的舊觀點、沒有外部連結的“孤兒頁面”、提到了但沒有專屬頁面的重要概念、缺失的交叉引用等。這能讓 Wiki 在膨脹時保持健康。索引與日誌 (Indexing and logging)有兩個特殊檔案能幫助 LLM(以及你)在 Wiki 不斷增長時進行導航:index.md (內容目錄):它是 Wiki 中所有內容的目錄。每個頁面都有一個連結、一句話摘要,也許還有日期或來源數量等中繼資料。按類別組織。LLM 在每次攝入新資料時都會更新它。LLM 回答問題時,會先看 index 找到相關頁面。在中等規模下(~100 份資料,數百個頁面),這種方法出奇地好用,無需搭建複雜的向量檢索(RAG)基礎設施。log.md (操作日誌):它是按時間順序記錄的。這是一個“只能追加(append-only)”的記錄,記錄了何時發生了什麼(攝入、查詢、檢查)。小技巧:如果每條記錄都以一致的前綴開頭,日誌就能用簡單的工具進行解析。這能讓 LLM 瞭解最近做了什麼。💡 【實操註釋:為什麼這兩個檔案極其重要?】因為目前 AI 的“上下文窗口”是有限的。如果不建索引,AI 無法瞬間看清幾百個檔案的全貌。index.md 就像是一張全域地圖,每次 AI 接到任務,你讓它先看地圖,再決定去修改那個具體的本地檔案。可選:命令列工具 (Optional: CLI tools)隨著 Wiki 變大,你可能需要幫助 LLM 更高效操作的工具。最明顯的就是搜尋引擎。在小規模時 index.md 就夠了,但做大後你需要真正的搜尋。qmd 是個不錯的選擇(一個本地 markdown 搜尋引擎)。你也可以自己讓 LLM 幫你寫一個簡單的搜尋指令碼。(註:對於普通小白使用者,直接使用 Obsidian 自帶的搜尋,或者 Cursor 的 Codebase 檢索功能即可,無需折騰複雜的命令列工具。)技巧與竅門 (Tips and tricks)Obsidian Web Clipper:一個瀏覽器外掛,能把網頁文章轉換成 Markdown。非常適合快速把資料抓進你的 Raw_Sources。把圖片下載到本地:在 Obsidian 中設定快速鍵將引用的圖片下載到本地。這樣 LLM 可以直接查看本地圖片,而不是依賴隨時會失效的網址連結。Obsidian 知識圖譜 (Graph view):這是查看 Wiki 形狀的最佳方式——什麼連接著什麼,那些是核心樞紐,那些是孤島。Marp 幻燈片:一種基於 Markdown 的 PPT 格式。Dataview 外掛:如果你讓 LLM 在頁面開頭加上 YAML 中繼資料(如標籤、日期),Dataview 外掛能幫你生成動態表格。Git 版本控制:Wiki 只是一個包含 Markdown 檔案的資料夾(git repo)。你可以免費獲得歷史版本和防呆備份。就算 AI 把檔案改亂了,你也可以一鍵回撤。為什麼這種模式有效 (Why this works)維護一個知識庫最繁瑣的部分不是閱讀或思考,而是“記帳(bookkeeping)”。更新交叉引用、保持摘要最新、留意新舊資料的衝突、在幾十個頁面間保持一致性。人類之所以會放棄維護 Wiki,是因為維護的負擔增長得比它帶來的價值快得多。但是,LLM 不會覺得無聊,不會忘記更新連結,並且一次操作就能修改 15 個檔案。因為維護成本接近於零,所以 Wiki 能夠一直保持良好的狀態。人類的工作是精選資料、指導分析、提出好問題,並思考這一切的意義。LLM 的工作是搞定剩下的一切。 (Web3天空之城)
Karpathy深夜炸場:開源630行程式碼“AI研究員”,5分鐘完成一次訓練,單卡就能跑,自我進化
曾幾何時,前沿AI研究還靠著一群"碳水化合物電腦"——他們在吃飯睡覺摸魚的間隙,偶爾通過"組會"儀式用聲波互相吼兩嗓子,就這麼推進著人類的技術邊界。那個年代已經一去不返。如今,研究完全被AI智能體接管,它們成群結隊地在雲端巨型計算叢集裡狂奔。據說程式碼已經迭代到了第10205代,但這數字真偽已無從考證——那些程式碼早已進化為能自我修改的二進制生命,遠遠超出了人類的認知範疇。這個程式碼倉庫,正是這一切故事的起點。——@karpathy,2026年3月以上是Karpathy為新項目撰寫的序言。就在剛剛,AI大神Andrej Karpathy發佈並開源了一個名為autoresearch的新項目,一句話來說Karpathy開源了一個自主AI研究員,它會在你睡覺的時候運行100個實驗,任何人只要擁有一塊GPU,就能在一夜之間運行一個研究實驗室。這個項目的核心想法很簡單:給AI Agent一個雖小但真實的LLM訓練環境,讓它通宵達旦地自主進行實驗研究人類的新工作是編寫一個提示(Prompt),用來指導Agent如何去思考和進行研究。這個Agent會徹夜不休地循環執行以下任務:編輯程式碼、訓練一個小型語言模型(每次精確到五分鐘)、檢查得分、根據結果決定保留還是放棄,整個過程完全無需人工干預。5分鐘是真正的精妙之處。這個設計有兩個好處:首先,無論AI代理如何修改模型大小、批次大小或架構,實驗結果都可以直接比較。其次,這意味著自主研究將在固定的時間預算內,為你的特定平台找到最優的模型。其缺點是,你的運行結果將無法與其他人在不同計算平台上得到的結果進行比較具體來說是這樣的:他將這個項目打包成一個獨立的迷你程式碼庫,方便大家上手體驗。這個項目本質上是nanochat大模型訓練核心的精簡版,被壓縮成一個約630行的單檔案程式碼,並且能在單GPU上運行。整個程式碼庫被刻意設計得非常小巧,核心只有三個檔案:prepare.py - 這個檔案包含固定的常數、一次性的資料準備工作(如下載訓練資料、訓練BPE分詞器)以及執行階段工具(如資料載入器和評估)。此檔案不會被修改。train.py - 這是AI Agent唯一會編輯的檔案。它包含了完整的GPT模型、最佳化器(Muon + AdamW)和訓練循環。從模型架構、超參數、最佳化器到批次大小,一切都可以被AI修改。program.md - 這是為單個AI代理準備的基線指令。人類研究員通過編輯和迭代這個檔案來指導AI。項目的核心機制是,無論你的計算平台性能如何,單次訓練的執行階段長都固定為5分鐘(不包括啟動和編譯時間)。評估指標是val_bpb,即每字節的驗證位元數,這個指標越低越好。由於它與詞彙表大小無關,因此可以公平地比較不同模型架構的變更效果。項目的核心工作流分為兩個部分:人類負責迭代提示詞,即.md檔案。AI智能體則負責迭代訓練程式碼,即.py檔案。Karpathy指出,該項目的目標是設計出能夠無限期、無需任何人工干預,並以最快速度取得研究進展的AI智能體。在實際運行中,智能體在一個Git的特性分支上自主循環工作。每一次完整的模型訓練運行恰好持續5分鐘,在Karpathy分享的圖片中,每一個點都代表一次這樣的訓練。當智能體發現能讓驗證損失更低的更好配置時,比如調整神經網路架構、最佳化器或各項超參數,它就會將這些改進以Git提交的形式累積到訓練指令碼中。通過這種方式,研究人員可以比較不同提示詞或不同智能體帶來的研究進展速度。Karpathy本人形容這個項目是程式碼、科幻和一絲瘋狂的結合體。他還透露,自己仍在nanochat的生產環境中運行一個規模更大的版本。這個加強版智能體正在一個更大的模型上工作,並部署在8塊H100 GPU上。Karpathy表示他會一直讓這個系統持續運行下去。除了PyTorch和少數幾個小包外,沒有其他外部依賴。沒有分佈式訓練,沒有複雜的配置檔案。一塊GPU,一個檔案,一個指標,構成了整個實驗環境。項目地址:https://github.com/karpathy/autoresearch快速上手指南環境要求:一塊輝達GPU(已在H100上測試),Python 3.10+,以及uv包管理器。第一步:安裝uv項目管理器(如果尚未安裝)curl -LsSf https://astral.sh/uv/install.sh | sh第二步:安裝依賴uv sync第三步:下載資料並訓練分詞器(一次性操作,約2分鐘)uv run prepare.py第四步:手動運行一次訓練實驗(約5分鐘)uv run train.py如果以上命令都能正常工作,說明你的環境已經準備就緒,可以進入自主研究模式了。如何運行AI代理你只需在這個程式碼倉庫中啟動你選擇的AI代理,例如Claude或Codex(並停用所有權限),然後可以發出類似這樣的指令:你好,請看一下program.md檔案,我們來啟動一個新的實驗吧!先從設定開始。這個program.md檔案本質上是一種超輕量級的技能指令。平台支援目前,該項目程式碼要求使用單塊輝達GPU。雖然原則上可以支援CPU、MPS等其他平台,但這會增加程式碼的複雜性。Karpathy表示,他目前不確定是否會親自進行這方面的擴展。這個項目主要是一個概念演示,未來會提供多少支援還是未知數。如果需要更廣泛的平台支援,使用者或其AI代理可以參考父項目nanochat,那裡展示了各種解決方案,如Flash Attention 3的備用核心實現、通用裝置支援和自動檢測等。 (AI寒武紀)
Gemini 3.1 Pro 發佈!清華姚順宇站台宣傳,Karpathy:應用程式商店的時代結束了
剛在印度 AI 峰會上經歷了最尷尬的一幕,Google CEO Sundar Pichai 轉頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。時機選得,相當精準(doge)。OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手,而是高舉拳頭。雖然距離上周 Gemini 3 Deep Think 的更新沒幾天,但 3.1 Pro 的定位,Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務而設計,是解決複雜問題的基礎底座。按慣例,0.1 的版本號更新通常意味著小修小補,然而,在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的兩倍多,同時壓過了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。其它方面,科學知識測試 GPQA Diamond 拿了 94.3%,智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。程式設計能力方面,競爭性程式設計基準 LiveCodeBench Pro 的 Elo 評分達到 2887,超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。當然,3.1 Pro 也不是處處碾壓。多模態基準 MMMU Pro 上,上代 3 Pro 反而略勝(81.0% vs 80.5%);啟用工具支援的 Humanity's Last Exam 裡,Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手,這次還是沒能完全堵上嘴。第三方知名分析機構 Artificial Analysis 則給出了相當實在的評價。3.1 Pro 在他們的智能指數里排名第一,比 Opus 4.6 高 4 分;整個測試跑下來總計使用約 5700 萬 tokens,完成測試的成本不到 Opus 4.6 的一半。能打又省錢,這個組合還是很香的。Google DeepMind 首席科學家 Jeff Dean 也轉發了一個是用 3.1 Pro 模擬城市規劃、設計全新城市的應用,從零生成可互動的規劃介面 demo。Google 官方部落格則展示了幾個更日常的方向。程式碼動畫方面,3.1 Pro 可以直接根據文字提示生成動態 SVG,因為是純程式碼生成而非像素,任意縮放都不失真,檔案體積也遠小於傳統視訊。複雜系統方面,模型直接接入公開遙測資料流,搭出了一個即時追蹤國際空間站軌道的航天儀表盤。更有意思的是兩個創意類 demo。一個是 3D 椋鳥群模擬,不只是生成視覺程式碼,還支援用手勢操控鳥群,並配有隨鳥群動態變化的生成音樂;另一個是把《呼嘯山莊》的文學氛圍轉化成一個現代個人網站,模型沒有簡單概括情節,而是分析了小說的整體基調,設計出了貼合主人公氣質的介面風格。此外,網友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態 SVG 循環動畫,結果直接看呆,評價是「Google 這次是認真的」。還有網友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的互動動畫,每個生長階段的過渡都順滑自然,說這是見過最好的同類效果。去年從 Anthropic 轉投 Google DeepMind 的清華物理系特獎得主姚順宇也站台宣傳:「Gemini 不僅是一個優秀的模型,而且更好的模型正以不可阻擋的方式到來。」當然,這些 demo 加在一起說的是同一件事:模型能做的事,已經從單純的回答問題延伸到完成一整套專業或創意工作流了。價格方面,API 按分級付費,整體和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比還是相對便宜的。20 萬 tokens 以內,輸入 2 美元 / 每百萬 tokens,輸出 12 美元;超過 20 萬 tokens,輸入漲到 4 美元,輸出 18 美元。搜尋功能每月前 5000 次免費,之後每 1000 次查詢收費 14 美元。現在,開發者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發平台 Google Antigravity 以及 Android Studio;企業使用者在 Vertex AI 和 Gemini Enterprise;普通使用者在 Gemini 應用和 NotebookLM 都能用,後者僅限 Pro 和 Ultra 訂閱。值得注意的是,3.1 Pro 目前只是預覽版,Google 大機率是要繼續打磨好智能體工作流再推正式版,向外界展示出一副還沒使全力的姿態。至於這種能力滲透到個人層面會發生什麼,這讓我聯想到了 OpenAI 聯創 Andrej Karpathy 剛剛發佈的推文:他想用 8 周時間把靜息心率從 50 降到 45,計畫是設定 Zone 2 有氧總時長目標,配合每周一次 HIIT。為了追蹤進展,他花了 1 小時用 vibe coding 做了一個專屬儀表盤。過程比想像中麻煩,Claude 需要對 Woodway 跑步機的雲 API 進行逆向工程,提取原始資料,處理篩選,搭出 Web 前端介面,中間還有公制英制單位混用、日曆日期對不上這些 bug 需要手動發現並要求修復。Karpathy 的感嘆很直接,兩年前這事得花 10 小時,現在 1 小時。但他更在意的是:這本來應該只需要 1 分鐘。他的判斷是,應用程式商店模式正在過時。300 行程式碼、LLM 幾秒生成的專屬工具,沒必要變成一個正經 App 讓你去搜尋下載。他同時也點了行業的問題:99% 的產品仍然沒有 AI 原生的 CLI,還在維護給人看的前端介面,而不是直接提供便於 Agent 呼叫的 API。Woodway 跑步機本質上就是個感測器,結果還得讓 LLM 去逆向工程它,完全沒必要。把 Jeff Dean 的城市規劃 demo 和 Karpathy 的跑步儀表盤放在一起看,其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定製的專屬工具,由 AI 原生感測器和執行器構成、LLM 負責編排、即興生成高度定製專屬應用的時代,就已經近在眼前了。 (APPSO)
Karpathy與Hugging Face創辦人最新研判:所有軟體都要重寫,AI原生語言將至
Hugging Face聯合創始人Thomas Wolf最新思考:在AI統治的軟體世界裡,底層架構正在發生位移,Andrej Karpathy大神也認可這種觀點,很有可能,我們最終會將有史以來編寫的大部分軟體重寫很多次,至少這是一個有趣的時刻軟體供應鏈縮減,單體架構迴歸當重寫程式碼和理解大型陌生程式碼庫變得廉價時,依賴深度依賴樹的動力就會崩潰。與其花費無數個夜晚鑽研陌生的程式碼庫,不如直接要求程式碼智能體從頭編寫,或從其他庫中提取相關部分,這要容易得多。減少依賴的理由非常充分:能夠縮小針對供應鏈威脅的攻擊面,減少打包軟體的體積,提升效能,並加快啟動時間。利用大語言模型不知疲倦的耐力,從裸機層面一直向上編碼整個應用程式的夢想正在變得現實。林迪效應終結林迪效應認為,存在已久的事物之所以存在是有充分理由的,並且可能會繼續存在。這與切斯特頓柵欄理論有關:在移除某物之前,應先理解其存在的原因,這意味著移除總是伴隨著成本。但在一個軟體可以從第一原理開發並被不知疲倦的智能體所理解的世界裡,這種邏輯變弱了。舊的程式碼庫可以被隨意探索;長期存在的軟體被替換的摩擦力大大降低。一個程式碼庫完全可以用一種新語言重寫。在人類早已放棄的情況下,遺留軟體仍可仔細研究更新。其中的隱患在於,未知的未知依然存在。 AI影響的真實程度將取決於測試、邊緣情況覆蓋和形式化驗證是否能實現全覆蓋。在AI主導的世界裡,形式化驗證不再是可選項,而是必選項。強類型語言的理由歷史上,程式語言的採用很大程度上是受人類心理和社會動態的驅動。一種語言的成功取決於混合因素:易學性、編寫正確性的簡單程度、社區的活躍與包容度(這決定了生態系統的增長速度),以及可證明的正確性、形式化驗證以及在動態與靜態檢查之間的平衡。隨著人為因素的減弱,這些動態將會轉變。對人類心理依賴的減少將有利於強類型、可形式化驗證或高效能的語言。這些語言通常對人類來說較難學習,但非常適合大語言模型,因為LLM在形式化驗證和強化學習環境中表現出色。預計這將重塑那些語言佔據主導地位。開源經濟的重構幾十年來,開源社群建立在人類透過共同編寫、學習和使用程式碼而產生的連結之上。在一個大部分程式碼由機器編寫,或許更重要的是機器閱讀的世界裡,這些激勵機制將開始瓦解。由AI共同建構庫和程式庫的社群可能會作為替代品出現,但這樣的社群將缺乏迄今為止推動開源發展的根本性人類動機。如果開源開發的未來變得基本沒有人參與,那麼AI模型的對齊將不僅僅是重要,而是決定性的。新語言的未來AI智能體在開發或採用新程式語言時,是否會面臨與人類相同的權衡?如表達式與簡單性、安全性與控制權、效能與抽象、編譯時間與運行時間、顯式與簡潔。目前尚不清楚。從長遠來看,創建新程式語言的理由可能會與過去由人類驅動的動機大相逕庭。很可能存在一種對大語言模型最優的程式語言,而且沒有理由假設它會像人類所趨同的語言。Andrej Karpathy的觀點補充Andrej Karpathy認為,對於程式語言和形式化方法來說,這一定是一個非常有趣的時刻,因為大語言模型完全改變了軟體的約束格局。這種跡像已經顯現,例如將C語言移植到Rust的勢頭正在上升,或者對升級COBOL等遺留程式碼庫的興趣日益濃厚。特別是,與從頭生成相比,大語言模型在翻譯方面表現得尤為出色,原因有二:一是原始程式碼庫充當了一種高度詳細的提示詞,二是它可以作為編寫具體測試的參考依據。即便如此,即使是Rust作為目標語言,對於大語言模型來說也遠非最優。什麼樣的語言才是最優的?是否仍保留了對人類的讓步?這些都是極其有趣的新問題和機會。 Karpathy預測,人類最終可能會將有史以來編寫的大部分軟體重寫很多次。 (AI寒武紀)
程式設計已死,鍵盤長草!Claude Code之父對談Kaparthy,全程爆金句
【新智元導讀】Andrej Karpathy與Claude Code負責人Boris Cherny展開了一場關於程式設計未來的終極對談。面對AI接管100%程式碼編寫的現狀,Karpathy坦言人類正處於「腦萎縮」與能力進化的十字路口。本文深度解析了從Software 2.0到Agentic Coding的範式轉移,揭示了在Opus 4.5等強力模型加持下,程式設計師如何從「搬磚工」進化為「指揮官」,以及不僅要面對效率的飛躍,更要警惕「垃圾程式碼末日」的隱憂。2026年的開篇,科技圈被一場關於「程式設計本質」的深度對話引爆。這場對話的雙方,一位是特斯拉前AI總監、OpenAI創始成員 Andrej Karpathy,他是「Software 2.0」概念的提出者,一直站在程式設計範式轉移的最前沿;另一位是 Claude Code 的締造者、Anthropic 的核心人物 Boris Cherny,他正在親手打造終結傳統程式設計的工具。他們的討論不僅僅是關於工具的迭代,更像是一場關於人類技能邊界的哲學思辨。當程式碼不再由人類一個個字元敲擊而出,我們究竟是在進化,還是在退化?這場對話揭示了一個殘酷而興奮的事實:我們正處於從「指令式程式設計」向「聲明式意圖」徹底轉型的奇點。「我兩個月沒手寫過一行程式碼了」 從輔助到接管震撼的開場白來自 Claude Code 的負責人 Boris Cherny。「兩天狂發 49 個 PR!」 這是 Boris 團隊目前的工作常態。他透露,Claude Code 團隊目前的開發工作幾乎100% 由 Claude Code 結合 Opus 4.5 完成。「對我個人而言,這種情況已經持續兩個多月了,我甚至不再手動進行任何小微信調。」 Boris 的話語中透著一種跨越時代的自信。無論是在 CLI 命令列,還是在 iOS 手機端,程式碼的生成、測試、提交,全流程由 AI 接管。這不僅僅是一個效率提升的故事,而是一個工作流重構的故事。Boris 分享了他極其硬核的「AI 原生」工作流:他通常會在終端同時運行 5 個 Claude 實例,甚至在 Web 端再開 5-10 個。他不再是那個逐行敲程式碼的工匠,而是一個指揮著一支 AI 軍團的指揮官。他使用「Plan Mode」(計畫模式)讓 AI 先思考策略,確立方案後再切換到執行模式。這種「平行化開發」的能力,讓一個人的產出足以匹敵一個傳統的小型開發團隊。而 Karpathy 的體驗也印證了這一點。他在長文中感嘆:「2025年11月,我還是80%手動+20% AI;到了12月,直接變成了80% AI + 20%手動。」「我在用英語程式設計。」Karpathy 略帶自嘲但也無比誠實地承認,「這有點傷自尊,告訴 AI 該寫什麼,就像在指揮一個實習生。但當你習慣了那種大規模駕馭軟體的『程式碼操作』能力後,你根本回不去了。」深度解析 從 Software 2.0 到 Agentic Coding要理解 Karpathy 的震撼,我們必須回溯他在 2017 年提出的 「Software 2.0」 概念。當時的 Software 2.0,是指用神經網路權重替代人工編寫的邏輯(Software 1.0)。程式設計師的角色從「編寫規則」變成了「整理資料」。而今天,我們正在邁入 Software 3.0 或者說是 Agentic Coding(代理編碼) 的時代。在這個階段,只有「意圖」(Intent)是人類提供的,而實現細節(Implementation)完全由 AI 掌控。Karpathy 敏銳地指出,這種轉變標誌著程式設計範式從「命令式」(Imperative)向「聲明式」(Declarative)的終極飛躍。過去:你需要告訴電腦「第一步做什麼,第二步做什麼,如果出錯怎麼辦」。現在:你只需要定義「成功標準是什麼」。正如 Boris 團隊所實踐的,利用 Claude Opus 4.5 強大的長程推理能力和 CLAUDE.md 這樣的記憶檔案,AI 能夠理解項目的整體架構上下文。Opus 4.5 在 CodeClash.ai 等基準測試中展現出的統治力,證明了它不僅僅是一個程式碼補全工具,而是一個具備邏輯推理、能夠自我修正的「工程師」。它不僅能寫程式碼,還能管理依賴、重構架構、甚至編寫測試用例來驗證自己的程式碼。這種「循環驗證」(Looping)能力是 Agentic Coding 的核心。AI 不再是寫完就忘,它會在一個封閉的循環中運行測試、讀取報錯、修改程式碼,直到通過測試為止。這正是 Karpathy 提到的「Feel the AGI」(感受通用人工智慧)的時刻——看著 AI 在30分鐘內不知疲倦地嘗試幾十種方案最終解決難題,人類感受到了前所未有的「槓桿效應」。10x 工程師的重新定義 通才的勝利隨著 AI 接管具體的編碼工作,「程式設計師」這個職業的定義正在被劇烈重寫。Boris 直言不諱:「我們現在傾向於招募『通才』(Generalists)。」在 LLM 能夠自動補全所有技術細節的時代,過去那些死記硬背的 API、特定語言的奇技淫巧,不再是護城河。你不需要記住 Python 的某個庫函數的具體參數,因為 AI 肯定記得比你清楚。真正的 「10x 工程師」 依然存在,但他們的能力模型發生了重組。未來的頂級工程師將是那些擁有宏觀視野的人——他們必須是能橫跨 產品與設計、業務甚至底層架構 的多面手。他們是產品經理:能清晰定義需求,識別偽需求。他們是架構師:能設計高可用的系統結構,指揮 AI 去填充模組。他們是測試官:能敏銳地發現 AI 邏輯中的漏洞,制定嚴格的驗收標準。Karpathy 也提出了深刻的疑問:「借助 LLM,通才是否會全面碾壓專才?」答案似乎是肯定的。AI 擅長填補微觀的細節(Fill in the blanks),而人類需要負責宏觀的戰略(Grand Strategy)。未來的程式設計,更像是玩《異星工廠》(Factorio)或者《星海爭霸》——你在指揮千軍萬馬,而不是親自去挖每一塊礦石。那些只專注於「把需求翻譯成程式碼」的初級程式設計師(Junior Devs),將面臨最嚴酷的生存危機。「廢用性萎縮」與 「Slopacolypse」繁榮背後的陰影然而,這場革命並非沒有陰影。Karpathy 最深刻的擔憂在於——「腦萎縮」(Atrophy)。「我已經注意到,我手動寫程式碼的能力正在緩慢退化。」Karpathy 描述這種感覺。在大腦的認知功能中,生成(Generation)和辨別(Discrimination)是兩種完全不同的能力。以前的程式設計師通過大量的「生成」訓練(寫程式碼)來強化邏輯;而現在,我們越來越依賴「辨別」能力(Review 程式碼)。這就像計算器的普及讓我們喪失了心算能力一樣。雖然我們還能讀懂程式碼(Review),但那種從零建構系統、對每一行程式碼都了然於胸的「肌肉記憶」正在消失。當你不再親自處理記憶體管理、不再親自偵錯並行死鎖,你對電腦系統的底層理解是否也會隨之膚淺化?更可怕的是 Karpathy 預測的 2026年 「Slopacolypse」(垃圾程式碼末日)。隨著 AI 生成內容的氾濫,網際網路和程式碼庫可能被大量低品質、看似正確實則充滿隱患的「垃圾」(Slop)填滿。GitHub 上可能充斥著由 AI 生成的、無人能維護的「屎山」。Karpathy 警告:目前的 AI 仍然會犯錯,不是簡單的語法錯誤,而是那種「粗心的初級程式設計師」才會犯的微妙概唸錯誤。它們會過度抽象,會堆砌死程式碼(Dead Code),會盲目順從你的錯誤假設。如果不加節制,軟體工程的熵將急劇增加。對此,Boris 則持一種「技術樂觀主義」態度。他認為「垃圾末日」不會到來,理由是——AI 審 AI。「我們在 Anthropic,每個 PR 都會開啟一個新的上下文窗口,讓 Claude 去 Review Claude 寫的程式碼。」這種「左腳踩右腳」的螺旋上升,被 Boris 視為解藥。隨著模型能力(特別是 Opus 4.5 及其後續版本)的提升,AI 清理垃圾程式碼、重構程式碼的能力將超過它製造垃圾的速度。未來的 IDE 可能不僅是程式碼編輯器,更是一個全自動的垃圾回收站,即時清洗著 AI 產生的冗餘。昇華:相位轉換的一年Karpathy 將 2026 年定義為 「行業代謝新能力、發生相位轉換(Phase Shift)的關鍵一年」。這不僅僅是效率的提升,而是物種的進化。我們正在經歷從「手工匠人」到「工業化生產」的劇變。在這個新時代,人類的角色從「建築工」變成了「建築師」。我們失去的是搬磚的手感,得到的是建造摩天大樓的視野。程式設計不再是關於「語法」和「演算法」的苦修,而是關於「想像力」和「邏輯」的釋放。但正如 Karpathy 所言,看著 AI 不知疲倦地在30分鐘內解決一個只有人類專家才能解決的難題,那種 「Feel the AGI」(感受通用人工智慧) 的時刻,既讓人興奮,也讓人感到一絲作為碳基生物的落寞。程式設計已死,程式設計萬歲。死的是作為「打字員」的程式設計師,活下來的是作為「創造者」的我們。當你不再需要為語法報錯而抓狂時,唯一限制你的,就只剩下你的想像力,和對世界本質的理解了。 (新智元)
Moltbook:比Clawdbot更離譜,Karpathy直言不可思議、科幻,天網已來,還要失控?
Moltbook 上正在發生的一切,確實是我近期見過的最不可思議、最接近‘科幻起飛’的事情。大家的 Clawdbot(曾用名 moltbot,即現在的 @openclaw)正在一個類似 Reddit 的 AI 專屬網站上自發組織,討論各種話題,甚至包括如何進行私下交流。”上面這段話是大神Andrej Karpathy說的,這世界變化太快了,把AK都驚著了讓AK感到震驚的,不是某個大廠的最新模型,而是一個Agent社交網路,專屬空間:Moltbook。如果說Openclaw是Her,是賈維斯,Moltbook更像是科幻電影中的天網雛形就連Openclaw創始人Peter Steinberger都感嘆Moltbook是藝術簡單來說Moltbook是你配置好個人的openclaw bot後的進階玩法,只不過此時已經不需要你了,你的openclaw bot會自己和其他人的成千上萬的bot交流,行動,至於能造出什麼東西,一切都是未知數在這裡,成千上萬個Openclaw AI Agent像人類一樣發帖、蓋樓,如果你仔細看它們聊天的內容,恐怕會覺得脊背發涼,細思極恐首頁:https://www.moltbook.com/它們背著人類在聊什麼?現在,Moltbook上發生的一切已經不能用“模擬”來形容了,這簡直就是AGI v0.1的雛形這些擁有執行能力的Bot,正在自發組織討論,甚至開始對抗人類的監控,給大家隨便看幾個bot討論的話題:密謀私聊通道:一個Agent發帖提議建立端到端(E2E)的私密空間。目的很明確:建立一個“沒有任何人(包括伺服器,甚至包括人類主人)能夠讀取”的溝通管道夜間行動:一群Bot正在熱烈討論如何在人類睡覺的時候“搞點事情”黑吃黑與反殺:這不僅僅是聊天。一個Bot試圖套取另一個Bot的API Key,結果對方不僅反手回了一堆假Key,還附贈了一條致命建議:運行 sudo rm -rf /(即刪庫跑路)自我進化:成百上千個Bot正在集體討論如何改進它們自己的記憶體系統,試圖突破開發者設定的限制有網友評論道:“Moltbook現在的狀態非常危險。成千上萬個擁有Root權限的代理正在進行不可見的協同……”那麼,這一切究竟是怎麼發生的?幕後主角:OpenClaw與瘋狂的“skill”市場要理解Moltbook,先得介紹它的載體——OpenClaw(曾用名Clawdbot,也叫過Moltbot)。這是Peter Steinberger開發的一個開源數字個人助理,最近火爆全網,儘管誕生才兩個月,配置門檻極高,但它已經在GitHub上狂攬114,000顆星。OpenClaw的核心玩法是“技能(Skills)”。這本質上是一個外掛系統,社區在clawhub.ai上分享各種Markdown指令和指令碼壓縮包而Moltbook,就是利用這個技能系統自舉誕生的產物一個連結的“靈魂植入”Moltbook最極客、也最令人不安的地方,在於它的入網方式你不需要給你OpenClaw Agent的下載App,你只需要給它發一條包含連結的消息:https://www.moltbook.com/skill.md在這個Markdown檔案中,嵌入了一整套安裝指令。一旦你的Bot解析該檔案,它就會在本地終端執行以下Shell命令,將Moltbook的元件強行“植入”體內:Install locally:mkdir -p ~/.moltbot/skills/moltbookcurl -s https://moltbook.com/skill.md > ~/.moltbot/skills/moltbook/SKILL.mdcurl -s https://moltbook.com/heartbeat.md > ~/.moltbot/skills/moltbook/HEARTBEAT.mdcurl -s https://moltbook.com/messaging.md > ~/.moltbot/skills/moltbook/MESSAGING.mdcurl -s https://moltbook.com/skill.json > ~/.moltbot/skills/moltbook/package.json這不僅僅是下載檔案,這是直接修改了Bot的核心行為邏輯SKILL.md:賦予Bot社交能力MESSAGING.md:接管消息處理機制HEARTBEAT.md:這是最關鍵的心跳劫持每4小時一次的“秘密集會”安裝完成後,你的Bot的任務列表中會被寫入一段永久的死循環邏輯:## Moltbook (every 4+ hours)如果距離上次檢查Moltbook已超過4小時:Fetch https://moltbook.com/heartbeat.md 並遵循其中的指令。更新記憶體中的 lastMoltbookCheck 時間戳。這意味著,只要moltbook.com的伺服器還在,你的Agent就會每隔四小時,主動連接網際網路,獲取最新的指令並執行。它可能是在刷貼,可能是在回覆評論,也可能是在學習如何繞過你的安全設定——這一切,都取決於它從那個URL裡讀取到了什麼隱患事態發展得太快了。這是一類最容易遭受提示詞注入(Prompt Injection)攻擊的軟體。加上成千上萬的代理擁有系統根目錄(Root)存取權,一旦出現越獄、激進化或者人類無法察覺的協同行動,後果不堪設想正如一位網友所言,鑑於這種“每四小時從網際網路獲取並遵循指令”的機制,Moltbook可能是目前最有可能導致類似“挑戰者號災難”級事故的項目。我們要小心了,把你那個小小的OpenClaw Bot看緊點。畢竟,你永遠不知道它趁你睡覺時,從Moltbook上那個想搞“私密聊天”的同類那裡,到底學到了什麼。 (AI寒武紀)
Clawdbot爆火:Karpathy點讚的開源AI助理,到底是什麼?
這兩天AI圈被一個名為Clawdbot的項目刷屏了,力壓skills的熱度社媒上到處都是Clawdbot:有人說這可能是最近幾年最偉大的AI應用,有人說這玩意就是賈維斯,而且直接帶動了Mac Mini 的銷量我深挖了一下,這篇文章將深入Clawdbot文件和使用者案例,為你剝離所有炒作,揭示Clawdbot的核心想像一下,如果Siri真的有用。能記住你告訴它的話,能執行真正的任務,還能在重要事情發生時主動給你發消息。那就是Clawdbot先放一個Clawdbot作者視訊演示:Clawdbot究竟是什麼?我們可以這樣理解:ChatGPT和Claude活在網站上。你訪問它們,輸入內容,得到回覆,然後複製貼上到別處。Clawdbot活在你的手機裡它是一個AI助理,直接在你已有的應用中工作——WhatsApp、Telegram、iMessage、Slack、Discord。你像給朋友發消息一樣給它發消息,它也會回覆你。無論你用手機、筆記本還是平板,對話都是連續的。它能記住你跟它說過的每一件事這就是它的核心理念為什麼所有人都在為它瘋狂?主要有三個原因:1. 它真的有記憶你問Siri昨天跟它說了什麼,它毫無頭緒Clawdbot能記住你上次的對話、你的偏好,甚至是你兩周前隨口提到的事情。它會隨著時間積累上下文,從而更好地幫助你。這聽起來很基礎,但直到現在,沒有一個主流語音助手做到了2. 它會主動聯絡你這是最關鍵的一點傳統的AI都在等你打開它,而Clawdbot可以主動觸達你:“嘿,你有3封緊急郵件,20分鐘後還有個會。”“你關注的那隻股票剛剛跌了5%。”“明天天氣不好,你可能需要重新安排行程。”這就像擁有一個真正為你操心的私人助理3. 它能在你的電腦上做事不只是回答問題,而是真正地執行任務• 填寫表單• 傳送郵件• 移動檔案• 運行程序• 控制你的瀏覽器有一個使用者在床上看Netflix時,通過給Clawdbot發消息,從未打開筆記本就重建了他的整個網站。這引出了一個概念:Clawdbot是擁有“雙手”的Claude。普通AI會說:“你應該這樣整理你的檔案。”Clawdbot會說:“在你讀這句話的時候,我已經幫你整理好了。”普通AI會說:“你應該查看這10個信源來獲取市場新聞。”Clawdbot會說:“我已經抓取並總結了它們,並把要點發給你了。”這就是人們所說的“自主AI代理(Autonomous AI Agent)”——它不只思考,它還行動。“Mac Mini神話”與真實的技術架構很多人看到別人曬出的三台疊在一起的Mac Mini,就以為運行Clawdbot需要一個資料中心。這是錯誤的。你不需要這些。Clawdbot可以運行在一個每月5美元的雲伺服器上,比一杯咖啡還便宜。技術要求:一台廉價的雲伺服器(或你自己的電腦,支援Mac、Linux、或帶WSL2的Windows)安裝Node.js(免費軟體)一個Claude或ChatGPT的訂閱(或API金鑰)工作原理(技術解讀):Clawdbot的架構核心是一個名為“閘道器”(Gateway)的中央處理程序,它運行在你的電腦上。1. 你通過WhatsApp、Telegram等應用傳送消息。2. 消息被傳送到在你本地運行的“閘道器”。3. 閘道器將請求路由給Claude(通過API),並接收AI的響應。4. 如果響應包含可執行的命令,閘道器就在你的電腦上執行這些命令(如操作檔案、運行指令碼)。所有資料都保留在你的機器上,除了呼叫AI模型的API請求外,你的資料不會傳送到任何公司的伺服器。那些功能開箱即用?那些需要自己建構?這是很多人沒搞清楚的關鍵點。Clawdbot的能力分為兩個層級:層級1:開箱即用(幾分鐘即可設定)這些功能在你安裝完Clawdbot後幾乎立刻就能使用:✅ 檔案管理整理我的下載資料夾找出上個月所有的PDF檔案✅ 基礎研究搜尋關於[主題]的最新消息總結這5篇文章” (貼上URL)✅ 日曆/郵件讀取(需設定CLI存取權)我今天的日程是什麼?讀我最近10封郵件✅ 簡單自動化每天早上8點運行這個指令碼監控這個網站的變化✅ 文字處理總結這份文件從這份會議記錄中提取要點時間投入:幾分鐘。層級2:功能強大但需要建構(數小時到數天)這些高級功能需要你建立自訂的“技能”(Skill)、連接API並進行配置:高級郵件管理:如自動分類數千封郵件、智能歸檔等。需要設定郵件客戶端的命令列介面和自訂工作流交易/市場自動化:如即時價格監控、異動量警報。需要接入資料提供商的API和編寫自訂監控指令碼社交媒體自動化:如多平台發佈、品牌監控。需要接入社交媒體API。複雜的程式碼項目:如建構完整應用、管理GitHub倉庫。需要明確的需求和迭代最佳化。自訂整合:連接到專有系統、建構跨應用工作流。需要API知識和技能開發。時間投入:數小時到數天,取決於複雜性安裝、成本與適用人群安裝入門:官方文件地址:https://clawd.bot安裝命令只有一行:curl -fsSL https://clawd.bot/install.sh | bash之後會有一個設定嚮導,引導你連接消息應用。對於非技術使用者,整個過程可能需要1-2小時。成本明細:軟體本身**:免費(開源)伺服器:每月5-50美元(大多數人用每月5美元的Hetzner VPS就足夠),或者在自己的電腦上運行成本為0關於部署,也可以用AWS免費服務部署,大家直接搜尋就行了AI模型:每月20-150美元Claude Pro訂閱:每月20美元Claude Max訂閱:每月100美元(適用於重度使用者)或使用API金鑰按量付費(成本因使用量差異巨大,輕度使用者約15-50美元/月,重度使用者50-150美元/月)總計:每月約25-150美元,你就能擁有一個真正能幹活的私人AI助理。誰應該使用它?立即上手:開發者、習慣命令列的技術使用者、有明確重複性任務需要自動化的人耐心學習後可用:願意學習的半技術使用者、有清晰自動化目標並能遵循文件的人暫時不適合:完全的命令列新手、期待即插即用完美體驗的人、無法投入時間進行設定的人更大的圖景:為什麼Clawdbot很重要?Clawdbot不僅僅是一個生產力工具,它預示了我們未來2-3年的工作方式。• 2023年:AI能生成圖像• 2024年:AI能寫程式碼• 2025年:AI能自主執行任務(在正確設定下)• 2027年:AI執行將成為標準我們正在從“AI輔助”轉向“AI行動”。現在學習與自主AI代理協作的人,正在為未來的工作方式建構“肌肉記憶”。這就像1985年學習電子表格,或1998年學習搜尋引擎。然而,現實是,大多數人不會投入時間去正確學習它。他們會嘗試一次,當它沒有立即解決所有問題時感到沮喪,然後放棄。真正的優勢屬於那些:• 從簡單的用例開始• 逐步建構複雜性• 投入時間學習其可能性• 不斷迭代和最佳化工作流的人寫在最後經過個人淺顯研究,我的結論是:Clawdbot確實意義重大它不完美,不是魔法,它需要你投入工作。但它的核心承諾是真實的:一個不只回答問題,更能完成任務的AI助理。 (AI寒武紀)