#Karpathy
Gemini 3.1 Pro 發佈!清華姚順宇站台宣傳,Karpathy:應用程式商店的時代結束了
剛在印度 AI 峰會上經歷了最尷尬的一幕,Google CEO Sundar Pichai 轉頭就在今天凌晨官宣了最新模型 Gemini 3.1 Pro。時機選得,相當精準(doge)。OpenAI CEO 和 Anthropic CEO 在合影時拒絕握手,而是高舉拳頭。雖然距離上周 Gemini 3 Deep Think 的更新沒幾天,但 3.1 Pro 的定位,Google 說得很清楚——專為那些「一個簡單答案遠遠不夠」的任務而設計,是解決複雜問題的基礎底座。按慣例,0.1 的版本號更新通常意味著小修小補,然而,在測試模型解決全新邏輯模式能力的 ARC-AGI-2 基準上,3.1 Pro 拿下 77.1%,是上代 3 Pro(31.1%)的兩倍多,同時壓過了 Anthropic 的 Opus 4.6(68.8%)和 OpenAI 的 GPT-5.2(52.9%)。其它方面,科學知識測試 GPQA Diamond 拿了 94.3%,智能體類基準 MCP Atlas 和 BrowseComp 分別拿下 69.2% 和 85.9%。程式設計能力方面,競爭性程式設計基準 LiveCodeBench Pro 的 Elo 評分達到 2887,超過 3 Pro 的 2439 和 GPT-5.2 的 2393。SWE-Bench Verified 上,3.1 Pro 拿了 80.6%,和 Opus 4.6 的 80.8% 基本打平。當然,3.1 Pro 也不是處處碾壓。多模態基準 MMMU Pro 上,上代 3 Pro 反而略勝(81.0% vs 80.5%);啟用工具支援的 Humanity's Last Exam 裡,Opus 4.6 以 53.1% 拿了第一。外界長期批評 Google 工具使用效率不如對手,這次還是沒能完全堵上嘴。第三方知名分析機構 Artificial Analysis 則給出了相當實在的評價。3.1 Pro 在他們的智能指數里排名第一,比 Opus 4.6 高 4 分;整個測試跑下來總計使用約 5700 萬 tokens,完成測試的成本不到 Opus 4.6 的一半。能打又省錢,這個組合還是很香的。Google DeepMind 首席科學家 Jeff Dean 也轉發了一個是用 3.1 Pro 模擬城市規劃、設計全新城市的應用,從零生成可互動的規劃介面 demo。Google 官方部落格則展示了幾個更日常的方向。程式碼動畫方面,3.1 Pro 可以直接根據文字提示生成動態 SVG,因為是純程式碼生成而非像素,任意縮放都不失真,檔案體積也遠小於傳統視訊。複雜系統方面,模型直接接入公開遙測資料流,搭出了一個即時追蹤國際空間站軌道的航天儀表盤。更有意思的是兩個創意類 demo。一個是 3D 椋鳥群模擬,不只是生成視覺程式碼,還支援用手勢操控鳥群,並配有隨鳥群動態變化的生成音樂;另一個是把《呼嘯山莊》的文學氛圍轉化成一個現代個人網站,模型沒有簡單概括情節,而是分析了小說的整體基調,設計出了貼合主人公氣質的介面風格。此外,網友們也貢獻了不少精彩的案例。有人讓 3.1 Pro 生成一個「鬼怪獵人穿越鬼屋」的動態 SVG 循環動畫,結果直接看呆,評價是「Google 這次是認真的」。還有網友認為讓它生成種子破土、根系延伸、莖稈冒出、葉片展開、直到長成完整大樹的互動動畫,每個生長階段的過渡都順滑自然,說這是見過最好的同類效果。去年從 Anthropic 轉投 Google DeepMind 的清華物理系特獎得主姚順宇也站台宣傳:「Gemini 不僅是一個優秀的模型,而且更好的模型正以不可阻擋的方式到來。」當然,這些 demo 加在一起說的是同一件事:模型能做的事,已經從單純的回答問題延伸到完成一整套專業或創意工作流了。價格方面,API 按分級付費,整體和上代 3 Pro 保持一致,但跟 Anthropic Opus 系列比還是相對便宜的。20 萬 tokens 以內,輸入 2 美元 / 每百萬 tokens,輸出 12 美元;超過 20 萬 tokens,輸入漲到 4 美元,輸出 18 美元。搜尋功能每月前 5000 次免費,之後每 1000 次查詢收費 14 美元。現在,開發者可以在 AI Studio、Gemini API、Gemini CLI、智能體開發平台 Google Antigravity 以及 Android Studio;企業使用者在 Vertex AI 和 Gemini Enterprise;普通使用者在 Gemini 應用和 NotebookLM 都能用,後者僅限 Pro 和 Ultra 訂閱。值得注意的是,3.1 Pro 目前只是預覽版,Google 大機率是要繼續打磨好智能體工作流再推正式版,向外界展示出一副還沒使全力的姿態。至於這種能力滲透到個人層面會發生什麼,這讓我聯想到了 OpenAI 聯創 Andrej Karpathy 剛剛發佈的推文:他想用 8 周時間把靜息心率從 50 降到 45,計畫是設定 Zone 2 有氧總時長目標,配合每周一次 HIIT。為了追蹤進展,他花了 1 小時用 vibe coding 做了一個專屬儀表盤。過程比想像中麻煩,Claude 需要對 Woodway 跑步機的雲 API 進行逆向工程,提取原始資料,處理篩選,搭出 Web 前端介面,中間還有公制英制單位混用、日曆日期對不上這些 bug 需要手動發現並要求修復。Karpathy 的感嘆很直接,兩年前這事得花 10 小時,現在 1 小時。但他更在意的是:這本來應該只需要 1 分鐘。他的判斷是,應用程式商店模式正在過時。300 行程式碼、LLM 幾秒生成的專屬工具,沒必要變成一個正經 App 讓你去搜尋下載。他同時也點了行業的問題:99% 的產品仍然沒有 AI 原生的 CLI,還在維護給人看的前端介面,而不是直接提供便於 Agent 呼叫的 API。Woodway 跑步機本質上就是個感測器,結果還得讓 LLM 去逆向工程它,完全沒必要。把 Jeff Dean 的城市規劃 demo 和 Karpathy 的跑步儀表盤放在一起看,其實是同一件事的兩面。當普通人花 1 小時就能為自己做一個高度定製的專屬工具,由 AI 原生感測器和執行器構成、LLM 負責編排、即興生成高度定製專屬應用的時代,就已經近在眼前了。 (APPSO)
Karpathy與Hugging Face創辦人最新研判:所有軟體都要重寫,AI原生語言將至
Hugging Face聯合創始人Thomas Wolf最新思考:在AI統治的軟體世界裡,底層架構正在發生位移,Andrej Karpathy大神也認可這種觀點,很有可能,我們最終會將有史以來編寫的大部分軟體重寫很多次,至少這是一個有趣的時刻軟體供應鏈縮減,單體架構迴歸當重寫程式碼和理解大型陌生程式碼庫變得廉價時,依賴深度依賴樹的動力就會崩潰。與其花費無數個夜晚鑽研陌生的程式碼庫,不如直接要求程式碼智能體從頭編寫,或從其他庫中提取相關部分,這要容易得多。減少依賴的理由非常充分:能夠縮小針對供應鏈威脅的攻擊面,減少打包軟體的體積,提升效能,並加快啟動時間。利用大語言模型不知疲倦的耐力,從裸機層面一直向上編碼整個應用程式的夢想正在變得現實。林迪效應終結林迪效應認為,存在已久的事物之所以存在是有充分理由的,並且可能會繼續存在。這與切斯特頓柵欄理論有關:在移除某物之前,應先理解其存在的原因,這意味著移除總是伴隨著成本。但在一個軟體可以從第一原理開發並被不知疲倦的智能體所理解的世界裡,這種邏輯變弱了。舊的程式碼庫可以被隨意探索;長期存在的軟體被替換的摩擦力大大降低。一個程式碼庫完全可以用一種新語言重寫。在人類早已放棄的情況下,遺留軟體仍可仔細研究更新。其中的隱患在於,未知的未知依然存在。 AI影響的真實程度將取決於測試、邊緣情況覆蓋和形式化驗證是否能實現全覆蓋。在AI主導的世界裡,形式化驗證不再是可選項,而是必選項。強類型語言的理由歷史上,程式語言的採用很大程度上是受人類心理和社會動態的驅動。一種語言的成功取決於混合因素:易學性、編寫正確性的簡單程度、社區的活躍與包容度(這決定了生態系統的增長速度),以及可證明的正確性、形式化驗證以及在動態與靜態檢查之間的平衡。隨著人為因素的減弱,這些動態將會轉變。對人類心理依賴的減少將有利於強類型、可形式化驗證或高效能的語言。這些語言通常對人類來說較難學習,但非常適合大語言模型,因為LLM在形式化驗證和強化學習環境中表現出色。預計這將重塑那些語言佔據主導地位。開源經濟的重構幾十年來,開源社群建立在人類透過共同編寫、學習和使用程式碼而產生的連結之上。在一個大部分程式碼由機器編寫,或許更重要的是機器閱讀的世界裡,這些激勵機制將開始瓦解。由AI共同建構庫和程式庫的社群可能會作為替代品出現,但這樣的社群將缺乏迄今為止推動開源發展的根本性人類動機。如果開源開發的未來變得基本沒有人參與,那麼AI模型的對齊將不僅僅是重要,而是決定性的。新語言的未來AI智能體在開發或採用新程式語言時,是否會面臨與人類相同的權衡?如表達式與簡單性、安全性與控制權、效能與抽象、編譯時間與運行時間、顯式與簡潔。目前尚不清楚。從長遠來看,創建新程式語言的理由可能會與過去由人類驅動的動機大相逕庭。很可能存在一種對大語言模型最優的程式語言,而且沒有理由假設它會像人類所趨同的語言。Andrej Karpathy的觀點補充Andrej Karpathy認為,對於程式語言和形式化方法來說,這一定是一個非常有趣的時刻,因為大語言模型完全改變了軟體的約束格局。這種跡像已經顯現,例如將C語言移植到Rust的勢頭正在上升,或者對升級COBOL等遺留程式碼庫的興趣日益濃厚。特別是,與從頭生成相比,大語言模型在翻譯方面表現得尤為出色,原因有二:一是原始程式碼庫充當了一種高度詳細的提示詞,二是它可以作為編寫具體測試的參考依據。即便如此,即使是Rust作為目標語言,對於大語言模型來說也遠非最優。什麼樣的語言才是最優的?是否仍保留了對人類的讓步?這些都是極其有趣的新問題和機會。 Karpathy預測,人類最終可能會將有史以來編寫的大部分軟體重寫很多次。 (AI寒武紀)
程式設計已死,鍵盤長草!Claude Code之父對談Kaparthy,全程爆金句
【新智元導讀】Andrej Karpathy與Claude Code負責人Boris Cherny展開了一場關於程式設計未來的終極對談。面對AI接管100%程式碼編寫的現狀,Karpathy坦言人類正處於「腦萎縮」與能力進化的十字路口。本文深度解析了從Software 2.0到Agentic Coding的範式轉移,揭示了在Opus 4.5等強力模型加持下,程式設計師如何從「搬磚工」進化為「指揮官」,以及不僅要面對效率的飛躍,更要警惕「垃圾程式碼末日」的隱憂。2026年的開篇,科技圈被一場關於「程式設計本質」的深度對話引爆。這場對話的雙方,一位是特斯拉前AI總監、OpenAI創始成員 Andrej Karpathy,他是「Software 2.0」概念的提出者,一直站在程式設計範式轉移的最前沿;另一位是 Claude Code 的締造者、Anthropic 的核心人物 Boris Cherny,他正在親手打造終結傳統程式設計的工具。他們的討論不僅僅是關於工具的迭代,更像是一場關於人類技能邊界的哲學思辨。當程式碼不再由人類一個個字元敲擊而出,我們究竟是在進化,還是在退化?這場對話揭示了一個殘酷而興奮的事實:我們正處於從「指令式程式設計」向「聲明式意圖」徹底轉型的奇點。「我兩個月沒手寫過一行程式碼了」 從輔助到接管震撼的開場白來自 Claude Code 的負責人 Boris Cherny。「兩天狂發 49 個 PR!」 這是 Boris 團隊目前的工作常態。他透露,Claude Code 團隊目前的開發工作幾乎100% 由 Claude Code 結合 Opus 4.5 完成。「對我個人而言,這種情況已經持續兩個多月了,我甚至不再手動進行任何小微信調。」 Boris 的話語中透著一種跨越時代的自信。無論是在 CLI 命令列,還是在 iOS 手機端,程式碼的生成、測試、提交,全流程由 AI 接管。這不僅僅是一個效率提升的故事,而是一個工作流重構的故事。Boris 分享了他極其硬核的「AI 原生」工作流:他通常會在終端同時運行 5 個 Claude 實例,甚至在 Web 端再開 5-10 個。他不再是那個逐行敲程式碼的工匠,而是一個指揮著一支 AI 軍團的指揮官。他使用「Plan Mode」(計畫模式)讓 AI 先思考策略,確立方案後再切換到執行模式。這種「平行化開發」的能力,讓一個人的產出足以匹敵一個傳統的小型開發團隊。而 Karpathy 的體驗也印證了這一點。他在長文中感嘆:「2025年11月,我還是80%手動+20% AI;到了12月,直接變成了80% AI + 20%手動。」「我在用英語程式設計。」Karpathy 略帶自嘲但也無比誠實地承認,「這有點傷自尊,告訴 AI 該寫什麼,就像在指揮一個實習生。但當你習慣了那種大規模駕馭軟體的『程式碼操作』能力後,你根本回不去了。」深度解析 從 Software 2.0 到 Agentic Coding要理解 Karpathy 的震撼,我們必須回溯他在 2017 年提出的 「Software 2.0」 概念。當時的 Software 2.0,是指用神經網路權重替代人工編寫的邏輯(Software 1.0)。程式設計師的角色從「編寫規則」變成了「整理資料」。而今天,我們正在邁入 Software 3.0 或者說是 Agentic Coding(代理編碼) 的時代。在這個階段,只有「意圖」(Intent)是人類提供的,而實現細節(Implementation)完全由 AI 掌控。Karpathy 敏銳地指出,這種轉變標誌著程式設計範式從「命令式」(Imperative)向「聲明式」(Declarative)的終極飛躍。過去:你需要告訴電腦「第一步做什麼,第二步做什麼,如果出錯怎麼辦」。現在:你只需要定義「成功標準是什麼」。正如 Boris 團隊所實踐的,利用 Claude Opus 4.5 強大的長程推理能力和 CLAUDE.md 這樣的記憶檔案,AI 能夠理解項目的整體架構上下文。Opus 4.5 在 CodeClash.ai 等基準測試中展現出的統治力,證明了它不僅僅是一個程式碼補全工具,而是一個具備邏輯推理、能夠自我修正的「工程師」。它不僅能寫程式碼,還能管理依賴、重構架構、甚至編寫測試用例來驗證自己的程式碼。這種「循環驗證」(Looping)能力是 Agentic Coding 的核心。AI 不再是寫完就忘,它會在一個封閉的循環中運行測試、讀取報錯、修改程式碼,直到通過測試為止。這正是 Karpathy 提到的「Feel the AGI」(感受通用人工智慧)的時刻——看著 AI 在30分鐘內不知疲倦地嘗試幾十種方案最終解決難題,人類感受到了前所未有的「槓桿效應」。10x 工程師的重新定義 通才的勝利隨著 AI 接管具體的編碼工作,「程式設計師」這個職業的定義正在被劇烈重寫。Boris 直言不諱:「我們現在傾向於招募『通才』(Generalists)。」在 LLM 能夠自動補全所有技術細節的時代,過去那些死記硬背的 API、特定語言的奇技淫巧,不再是護城河。你不需要記住 Python 的某個庫函數的具體參數,因為 AI 肯定記得比你清楚。真正的 「10x 工程師」 依然存在,但他們的能力模型發生了重組。未來的頂級工程師將是那些擁有宏觀視野的人——他們必須是能橫跨 產品與設計、業務甚至底層架構 的多面手。他們是產品經理:能清晰定義需求,識別偽需求。他們是架構師:能設計高可用的系統結構,指揮 AI 去填充模組。他們是測試官:能敏銳地發現 AI 邏輯中的漏洞,制定嚴格的驗收標準。Karpathy 也提出了深刻的疑問:「借助 LLM,通才是否會全面碾壓專才?」答案似乎是肯定的。AI 擅長填補微觀的細節(Fill in the blanks),而人類需要負責宏觀的戰略(Grand Strategy)。未來的程式設計,更像是玩《異星工廠》(Factorio)或者《星海爭霸》——你在指揮千軍萬馬,而不是親自去挖每一塊礦石。那些只專注於「把需求翻譯成程式碼」的初級程式設計師(Junior Devs),將面臨最嚴酷的生存危機。「廢用性萎縮」與 「Slopacolypse」繁榮背後的陰影然而,這場革命並非沒有陰影。Karpathy 最深刻的擔憂在於——「腦萎縮」(Atrophy)。「我已經注意到,我手動寫程式碼的能力正在緩慢退化。」Karpathy 描述這種感覺。在大腦的認知功能中,生成(Generation)和辨別(Discrimination)是兩種完全不同的能力。以前的程式設計師通過大量的「生成」訓練(寫程式碼)來強化邏輯;而現在,我們越來越依賴「辨別」能力(Review 程式碼)。這就像計算器的普及讓我們喪失了心算能力一樣。雖然我們還能讀懂程式碼(Review),但那種從零建構系統、對每一行程式碼都了然於胸的「肌肉記憶」正在消失。當你不再親自處理記憶體管理、不再親自偵錯並行死鎖,你對電腦系統的底層理解是否也會隨之膚淺化?更可怕的是 Karpathy 預測的 2026年 「Slopacolypse」(垃圾程式碼末日)。隨著 AI 生成內容的氾濫,網際網路和程式碼庫可能被大量低品質、看似正確實則充滿隱患的「垃圾」(Slop)填滿。GitHub 上可能充斥著由 AI 生成的、無人能維護的「屎山」。Karpathy 警告:目前的 AI 仍然會犯錯,不是簡單的語法錯誤,而是那種「粗心的初級程式設計師」才會犯的微妙概唸錯誤。它們會過度抽象,會堆砌死程式碼(Dead Code),會盲目順從你的錯誤假設。如果不加節制,軟體工程的熵將急劇增加。對此,Boris 則持一種「技術樂觀主義」態度。他認為「垃圾末日」不會到來,理由是——AI 審 AI。「我們在 Anthropic,每個 PR 都會開啟一個新的上下文窗口,讓 Claude 去 Review Claude 寫的程式碼。」這種「左腳踩右腳」的螺旋上升,被 Boris 視為解藥。隨著模型能力(特別是 Opus 4.5 及其後續版本)的提升,AI 清理垃圾程式碼、重構程式碼的能力將超過它製造垃圾的速度。未來的 IDE 可能不僅是程式碼編輯器,更是一個全自動的垃圾回收站,即時清洗著 AI 產生的冗餘。昇華:相位轉換的一年Karpathy 將 2026 年定義為 「行業代謝新能力、發生相位轉換(Phase Shift)的關鍵一年」。這不僅僅是效率的提升,而是物種的進化。我們正在經歷從「手工匠人」到「工業化生產」的劇變。在這個新時代,人類的角色從「建築工」變成了「建築師」。我們失去的是搬磚的手感,得到的是建造摩天大樓的視野。程式設計不再是關於「語法」和「演算法」的苦修,而是關於「想像力」和「邏輯」的釋放。但正如 Karpathy 所言,看著 AI 不知疲倦地在30分鐘內解決一個只有人類專家才能解決的難題,那種 「Feel the AGI」(感受通用人工智慧) 的時刻,既讓人興奮,也讓人感到一絲作為碳基生物的落寞。程式設計已死,程式設計萬歲。死的是作為「打字員」的程式設計師,活下來的是作為「創造者」的我們。當你不再需要為語法報錯而抓狂時,唯一限制你的,就只剩下你的想像力,和對世界本質的理解了。 (新智元)
Moltbook:比Clawdbot更離譜,Karpathy直言不可思議、科幻,天網已來,還要失控?
Moltbook 上正在發生的一切,確實是我近期見過的最不可思議、最接近‘科幻起飛’的事情。大家的 Clawdbot(曾用名 moltbot,即現在的 @openclaw)正在一個類似 Reddit 的 AI 專屬網站上自發組織,討論各種話題,甚至包括如何進行私下交流。”上面這段話是大神Andrej Karpathy說的,這世界變化太快了,把AK都驚著了讓AK感到震驚的,不是某個大廠的最新模型,而是一個Agent社交網路,專屬空間:Moltbook。如果說Openclaw是Her,是賈維斯,Moltbook更像是科幻電影中的天網雛形就連Openclaw創始人Peter Steinberger都感嘆Moltbook是藝術簡單來說Moltbook是你配置好個人的openclaw bot後的進階玩法,只不過此時已經不需要你了,你的openclaw bot會自己和其他人的成千上萬的bot交流,行動,至於能造出什麼東西,一切都是未知數在這裡,成千上萬個Openclaw AI Agent像人類一樣發帖、蓋樓,如果你仔細看它們聊天的內容,恐怕會覺得脊背發涼,細思極恐首頁:https://www.moltbook.com/它們背著人類在聊什麼?現在,Moltbook上發生的一切已經不能用“模擬”來形容了,這簡直就是AGI v0.1的雛形這些擁有執行能力的Bot,正在自發組織討論,甚至開始對抗人類的監控,給大家隨便看幾個bot討論的話題:密謀私聊通道:一個Agent發帖提議建立端到端(E2E)的私密空間。目的很明確:建立一個“沒有任何人(包括伺服器,甚至包括人類主人)能夠讀取”的溝通管道夜間行動:一群Bot正在熱烈討論如何在人類睡覺的時候“搞點事情”黑吃黑與反殺:這不僅僅是聊天。一個Bot試圖套取另一個Bot的API Key,結果對方不僅反手回了一堆假Key,還附贈了一條致命建議:運行 sudo rm -rf /(即刪庫跑路)自我進化:成百上千個Bot正在集體討論如何改進它們自己的記憶體系統,試圖突破開發者設定的限制有網友評論道:“Moltbook現在的狀態非常危險。成千上萬個擁有Root權限的代理正在進行不可見的協同……”那麼,這一切究竟是怎麼發生的?幕後主角:OpenClaw與瘋狂的“skill”市場要理解Moltbook,先得介紹它的載體——OpenClaw(曾用名Clawdbot,也叫過Moltbot)。這是Peter Steinberger開發的一個開源數字個人助理,最近火爆全網,儘管誕生才兩個月,配置門檻極高,但它已經在GitHub上狂攬114,000顆星。OpenClaw的核心玩法是“技能(Skills)”。這本質上是一個外掛系統,社區在clawhub.ai上分享各種Markdown指令和指令碼壓縮包而Moltbook,就是利用這個技能系統自舉誕生的產物一個連結的“靈魂植入”Moltbook最極客、也最令人不安的地方,在於它的入網方式你不需要給你OpenClaw Agent的下載App,你只需要給它發一條包含連結的消息:https://www.moltbook.com/skill.md在這個Markdown檔案中,嵌入了一整套安裝指令。一旦你的Bot解析該檔案,它就會在本地終端執行以下Shell命令,將Moltbook的元件強行“植入”體內:Install locally:mkdir -p ~/.moltbot/skills/moltbookcurl -s https://moltbook.com/skill.md > ~/.moltbot/skills/moltbook/SKILL.mdcurl -s https://moltbook.com/heartbeat.md > ~/.moltbot/skills/moltbook/HEARTBEAT.mdcurl -s https://moltbook.com/messaging.md > ~/.moltbot/skills/moltbook/MESSAGING.mdcurl -s https://moltbook.com/skill.json > ~/.moltbot/skills/moltbook/package.json這不僅僅是下載檔案,這是直接修改了Bot的核心行為邏輯SKILL.md:賦予Bot社交能力MESSAGING.md:接管消息處理機制HEARTBEAT.md:這是最關鍵的心跳劫持每4小時一次的“秘密集會”安裝完成後,你的Bot的任務列表中會被寫入一段永久的死循環邏輯:## Moltbook (every 4+ hours)如果距離上次檢查Moltbook已超過4小時:Fetch https://moltbook.com/heartbeat.md 並遵循其中的指令。更新記憶體中的 lastMoltbookCheck 時間戳。這意味著,只要moltbook.com的伺服器還在,你的Agent就會每隔四小時,主動連接網際網路,獲取最新的指令並執行。它可能是在刷貼,可能是在回覆評論,也可能是在學習如何繞過你的安全設定——這一切,都取決於它從那個URL裡讀取到了什麼隱患事態發展得太快了。這是一類最容易遭受提示詞注入(Prompt Injection)攻擊的軟體。加上成千上萬的代理擁有系統根目錄(Root)存取權,一旦出現越獄、激進化或者人類無法察覺的協同行動,後果不堪設想正如一位網友所言,鑑於這種“每四小時從網際網路獲取並遵循指令”的機制,Moltbook可能是目前最有可能導致類似“挑戰者號災難”級事故的項目。我們要小心了,把你那個小小的OpenClaw Bot看緊點。畢竟,你永遠不知道它趁你睡覺時,從Moltbook上那個想搞“私密聊天”的同類那裡,到底學到了什麼。 (AI寒武紀)
Clawdbot爆火:Karpathy點讚的開源AI助理,到底是什麼?
這兩天AI圈被一個名為Clawdbot的項目刷屏了,力壓skills的熱度社媒上到處都是Clawdbot:有人說這可能是最近幾年最偉大的AI應用,有人說這玩意就是賈維斯,而且直接帶動了Mac Mini 的銷量我深挖了一下,這篇文章將深入Clawdbot文件和使用者案例,為你剝離所有炒作,揭示Clawdbot的核心想像一下,如果Siri真的有用。能記住你告訴它的話,能執行真正的任務,還能在重要事情發生時主動給你發消息。那就是Clawdbot先放一個Clawdbot作者視訊演示:Clawdbot究竟是什麼?我們可以這樣理解:ChatGPT和Claude活在網站上。你訪問它們,輸入內容,得到回覆,然後複製貼上到別處。Clawdbot活在你的手機裡它是一個AI助理,直接在你已有的應用中工作——WhatsApp、Telegram、iMessage、Slack、Discord。你像給朋友發消息一樣給它發消息,它也會回覆你。無論你用手機、筆記本還是平板,對話都是連續的。它能記住你跟它說過的每一件事這就是它的核心理念為什麼所有人都在為它瘋狂?主要有三個原因:1. 它真的有記憶你問Siri昨天跟它說了什麼,它毫無頭緒Clawdbot能記住你上次的對話、你的偏好,甚至是你兩周前隨口提到的事情。它會隨著時間積累上下文,從而更好地幫助你。這聽起來很基礎,但直到現在,沒有一個主流語音助手做到了2. 它會主動聯絡你這是最關鍵的一點傳統的AI都在等你打開它,而Clawdbot可以主動觸達你:“嘿,你有3封緊急郵件,20分鐘後還有個會。”“你關注的那隻股票剛剛跌了5%。”“明天天氣不好,你可能需要重新安排行程。”這就像擁有一個真正為你操心的私人助理3. 它能在你的電腦上做事不只是回答問題,而是真正地執行任務• 填寫表單• 傳送郵件• 移動檔案• 運行程序• 控制你的瀏覽器有一個使用者在床上看Netflix時,通過給Clawdbot發消息,從未打開筆記本就重建了他的整個網站。這引出了一個概念:Clawdbot是擁有“雙手”的Claude。普通AI會說:“你應該這樣整理你的檔案。”Clawdbot會說:“在你讀這句話的時候,我已經幫你整理好了。”普通AI會說:“你應該查看這10個信源來獲取市場新聞。”Clawdbot會說:“我已經抓取並總結了它們,並把要點發給你了。”這就是人們所說的“自主AI代理(Autonomous AI Agent)”——它不只思考,它還行動。“Mac Mini神話”與真實的技術架構很多人看到別人曬出的三台疊在一起的Mac Mini,就以為運行Clawdbot需要一個資料中心。這是錯誤的。你不需要這些。Clawdbot可以運行在一個每月5美元的雲伺服器上,比一杯咖啡還便宜。技術要求:一台廉價的雲伺服器(或你自己的電腦,支援Mac、Linux、或帶WSL2的Windows)安裝Node.js(免費軟體)一個Claude或ChatGPT的訂閱(或API金鑰)工作原理(技術解讀):Clawdbot的架構核心是一個名為“閘道器”(Gateway)的中央處理程序,它運行在你的電腦上。1. 你通過WhatsApp、Telegram等應用傳送消息。2. 消息被傳送到在你本地運行的“閘道器”。3. 閘道器將請求路由給Claude(通過API),並接收AI的響應。4. 如果響應包含可執行的命令,閘道器就在你的電腦上執行這些命令(如操作檔案、運行指令碼)。所有資料都保留在你的機器上,除了呼叫AI模型的API請求外,你的資料不會傳送到任何公司的伺服器。那些功能開箱即用?那些需要自己建構?這是很多人沒搞清楚的關鍵點。Clawdbot的能力分為兩個層級:層級1:開箱即用(幾分鐘即可設定)這些功能在你安裝完Clawdbot後幾乎立刻就能使用:✅ 檔案管理整理我的下載資料夾找出上個月所有的PDF檔案✅ 基礎研究搜尋關於[主題]的最新消息總結這5篇文章” (貼上URL)✅ 日曆/郵件讀取(需設定CLI存取權)我今天的日程是什麼?讀我最近10封郵件✅ 簡單自動化每天早上8點運行這個指令碼監控這個網站的變化✅ 文字處理總結這份文件從這份會議記錄中提取要點時間投入:幾分鐘。層級2:功能強大但需要建構(數小時到數天)這些高級功能需要你建立自訂的“技能”(Skill)、連接API並進行配置:高級郵件管理:如自動分類數千封郵件、智能歸檔等。需要設定郵件客戶端的命令列介面和自訂工作流交易/市場自動化:如即時價格監控、異動量警報。需要接入資料提供商的API和編寫自訂監控指令碼社交媒體自動化:如多平台發佈、品牌監控。需要接入社交媒體API。複雜的程式碼項目:如建構完整應用、管理GitHub倉庫。需要明確的需求和迭代最佳化。自訂整合:連接到專有系統、建構跨應用工作流。需要API知識和技能開發。時間投入:數小時到數天,取決於複雜性安裝、成本與適用人群安裝入門:官方文件地址:https://clawd.bot安裝命令只有一行:curl -fsSL https://clawd.bot/install.sh | bash之後會有一個設定嚮導,引導你連接消息應用。對於非技術使用者,整個過程可能需要1-2小時。成本明細:軟體本身**:免費(開源)伺服器:每月5-50美元(大多數人用每月5美元的Hetzner VPS就足夠),或者在自己的電腦上運行成本為0關於部署,也可以用AWS免費服務部署,大家直接搜尋就行了AI模型:每月20-150美元Claude Pro訂閱:每月20美元Claude Max訂閱:每月100美元(適用於重度使用者)或使用API金鑰按量付費(成本因使用量差異巨大,輕度使用者約15-50美元/月,重度使用者50-150美元/月)總計:每月約25-150美元,你就能擁有一個真正能幹活的私人AI助理。誰應該使用它?立即上手:開發者、習慣命令列的技術使用者、有明確重複性任務需要自動化的人耐心學習後可用:願意學習的半技術使用者、有清晰自動化目標並能遵循文件的人暫時不適合:完全的命令列新手、期待即插即用完美體驗的人、無法投入時間進行設定的人更大的圖景:為什麼Clawdbot很重要?Clawdbot不僅僅是一個生產力工具,它預示了我們未來2-3年的工作方式。• 2023年:AI能生成圖像• 2024年:AI能寫程式碼• 2025年:AI能自主執行任務(在正確設定下)• 2027年:AI執行將成為標準我們正在從“AI輔助”轉向“AI行動”。現在學習與自主AI代理協作的人,正在為未來的工作方式建構“肌肉記憶”。這就像1985年學習電子表格,或1998年學習搜尋引擎。然而,現實是,大多數人不會投入時間去正確學習它。他們會嘗試一次,當它沒有立即解決所有問題時感到沮喪,然後放棄。真正的優勢屬於那些:• 從簡單的用例開始• 逐步建構複雜性• 投入時間學習其可能性• 不斷迭代和最佳化工作流的人寫在最後經過個人淺顯研究,我的結論是:Clawdbot確實意義重大它不完美,不是魔法,它需要你投入工作。但它的核心承諾是真實的:一個不只回答問題,更能完成任務的AI助理。 (AI寒武紀)
美國碼農,正被AI「大屠殺」!Karpathy驚呼,26屆畢業生崩潰
美國碼農,正在經歷一場「大屠殺」,就業率已經暴跌27.5%,將近1/3的工作崗位在消失。2026年的CS專業畢業生,已無路可走。一位多年程式設計師說:這個職業要消失了,願我們能榮耀離場、玩得痛快。美國碼農這個物種,正在逐漸滅絕。這不是什麼危言聳聽的預言,而是正在發生的事實。由AI導致的全球大裁員,在2025年達到了117萬,這是自2020年以來的最高紀錄。2026年的電腦專業畢業生們,一畢業就得面對水深火熱的局面——根本找不到工作!而美國勞工統計局的資料顯示,美國程式設計師的就業率,已經暴跌了27.5%。也就是說,幾乎被砍掉三分之一。怎麼辦?「這場殘暴的歡愉,終將以殘暴終結。」美國碼農,已經快滅絕了?如今在美國,程式設計師的就業率已經暴跌。勞工局的資料,是跌了27.5%。而史丹佛大學的研究發現,自從2022年底AI工具的普及,22至25歲的程式設計師就業率下降了近20%。研究人員分析了美國最大薪酬公司ADP的工資記錄,追蹤了2021 年至2025年7月間數百萬名在數萬家公司工作的員工。資料顯示,年輕和年長開發者的就業情況直到2022年底是一致的。但從那時起,兩者開始分化——年輕開發者開始失業,而年長開發者則沒有。根據一家美國諮詢公司的統計,AI導致的裁員,對今年美國遭受的衝擊程度僅次於疫情。這家公司發佈的報告顯示,AI直接或間接導致了今年美國近55000人的失業!一位程式設計師在自己的部落格中寫道:「為什麼我認識的每一個人,都在被裁員?」如今美國的科技行業,想要安穩地工作真的很難。裁員和AI的陰影,正在每一個程式設計師的頭上籠罩著。該怎樣給這場災難命名呢。網際網路泡沫破裂?大衰退?獨角獸大屠殺?或者CrashGPT。這位程式設計師寫道:Meta裁員數千人,Google招聘凍結,這是一個集體幻覺的緩慢崩塌,FAANG的夢想從內部開始腐爛。AI裁員大災變AI不再是提升生產力的工具,而是直接替代程式設計師崗位的角色。史丹佛、多倫多CS畢業生求職陷入絕境而且AI,也沒有給年輕的CS畢業生們留下絲毫活路。史丹佛的CS畢業生們一畢業,就發現面臨的情況跟三年前完全不一樣,這讓他們很憤怒。因為找不到工作,很多人只能選擇自己多讀一年研究生。而三年前,很多人沒畢業,工作都已經找好了。Azka Azmi今年春天從多倫多大學電腦系畢業,至今還沒找到工作。她越找工作,越覺得沮喪,因為這個過程中,她幾乎沒有機會和真人交談!到處都是AI,所有的公司都在用AI取代真人招聘,你能做的,就是適應這個機器互相交談的世界。曾經,CS是所有人眼裡的香餑餑專業,動輒百萬年薪,還有高福利和充滿樂趣的工作環境。但如今,由於AI、經濟不確定性,以及大量CS畢業生進入職場,這些傳說中的完美職位,啪地一下全消失了。Azka Azmi說,很多學生依賴實習或co-ops的機會來找到工作,但現在可能只有百分之一的申請者,才能收到回覆。讀個研,發現更難找工作了2024年春季,Elliot Chen從多倫多大學獲得CS學位,然後投遞了幾百份簡歷。他沮喪地發現,給應屆畢業生的機會少得可憐。很多職位都要求至少一年的非實習工作經驗,可大多數應屆畢業生都沒有。很多人,甚至都無法通過簡歷篩選這一關。因為求職不順,Elliot Chen決定繼續攻讀CS碩士,好讓自己脫穎而出。結果讀研讀到一半,他發現,自己收到的僱主回覆,甚至比自己本科時還少!一位CS博士發現,這個專業的本科生們,面對當前的就業市場感到極度恐慌,甚至出現了心理健康問題。「競爭非常激烈,很多環境都變得非常不友好。這些孩子什麼都做。他們超越了以往任何人的極限。這對每個人來說都是殘酷的。」Chrisee Zhu也感覺到,自己的同學們異常焦慮。在小組課程中,他們常常心不在焉,無法做出貢獻,而是專注於求職申請和程式設計練習,為技術面試做準備。Karpathy 程式設計師,正在經歷一場9級地震感到AI恐懼的,不僅是小白,還有大佬。就在剛剛,前特斯拉AI總監、OpenAI聯創Karpathy表示,自己被強大的外星科技震撼到了!他口中這個「被遞到人類手中的強大外星武器」,就是AI。而且他直言——我從未覺得自己作為程式設計師,會如此落後。他深深感覺到,隨著程式設計師貢獻的程式碼越來越稀疏和零散,這個職業正在經歷劇烈的變革。他遺憾地表示,如果能妥善串聯起過去一年左右湧現的新工具,自己的能力本可以提升十倍;但如果無法掌握這種強化,那就是技能上的缺陷。Karpathy總結說:如今,我們面臨著一個全新的、必須掌握的程式設計抽象層(它疊加在原有的技術堆疊之上),其中涉及智能體、子智能體、提示詞、上下文、記憶、模式、權限、工具、外掛、技能、鉤子、模型上下文協議、語言伺服器協議、斜槓命令、工作流、IDE整合……更迫切的是,我們需要建構一個全域心智模型,以理解這些本質上具有隨機性、易出錯、難以捉摸且不斷演變的「智能實體」的優劣與陷阱。而現在,它們突然與傳統嚴謹的軟體工程交織在了一起。最後Karpathy驚呼:顯然,某種強大的「外星工具」已被交到我們手中,但它沒有說明書!每個人只能靠自己來摸索,該怎樣持握和操作這個工具。用他的話說,這個9級地震,正在撼動整個行業!擼起袖子吧,別被甩在後面。Anthropic工程師Boris Cherny在他的評論下說:自己現在每周都會這麼覺得。每當自己手動處理某個問題的時候,最後都會發現:Claude可能能搞定這個。Karpathy表示,自己也有類似經歷。你到處晃這個武器的時候,它可能會走火;但如果能握持得恰到好處,一道強大的雷射就會射出來,直接熔化你的問題!在AI製造的垃圾程式碼中程式設計師絕地求生「AI不會搶你的飯碗,但會用AI的人會。」自2023年10月以來,這句話幾乎成了輝達CEO黃仁勳的標誌性口頭禪。在隨後兩年的科技浪潮中,這句格言被無數次引用,成為了懸在每一位開發者頭頂的達摩克利斯之劍。時間來到2025年末,預言似乎正在以一種令人困惑且矛盾的方式應驗。一方面,Google的一項全行業調查顯示,高達90%的科技崗位現在都在使用人工智慧工具。而在2024年,這個比例僅為14%。但另一方面,IBM、亞馬遜等巨頭正在瘋狂裁員,而留下的倖存者們正被淹沒在一場由AI製造的、充滿了Bug與漏洞的「技術債務海嘯」之中。如今,我們要面對的可能不僅僅是就業市場的洗牌,更是一場關於軟體工程本質的危機。屠殺進行時:「碼農」的滅絕與「開發者」的倖存正如前文所說,如果你是2026屆的應屆畢業生,你面對的可能是幾十年來最嚴峻的就業市場。根據美國大學與僱主協會(NACE)發佈的《2026就業展望》,僱主們的悲觀情緒已達到2020年以來的最高點。https://www.naceweb.org/research/reports/job-outlook/2026/#data這裡有一個極具諷刺意味的資料對比,揭示了AI對行業的精準打擊。根據美國勞工統計局的資料,在2023年至2025年間:「程式設計師」(Programmers):就業率暴跌了27.5%。這類工作通常指根據既定規格編寫程式碼,工作性質獨立且高度結構化。「軟體開發人員」(Software Developers):就業率僅微跌了0.3%。這類工作更側重於設計、架構和解決複雜問題。與此同時,資訊安全分析師和AI工程師的職位出現了兩位數的爆發式增長。賓夕法尼亞大學職業服務中心的高級副主任Jamie Grant的分析一針見血。她警告那些追求軟體工程職位的學生:現在的職位不再僅僅是寫程式碼那麼簡單了。僱主要求的是更高階的思維能力、對軟體開發生命周期的掌控,以及那些AI無法替代的技能——比如理解客戶那些模糊不清的需求。AI程式碼崩壞:被神話的「屎山」製造機既然「程式設計師」的崗位正在減少,那是因為AI把活兒幹得更好了嗎?並沒有。真相令人咋舌。AI軟體公司CodeRabbit近期發佈的一份震撼報告,給盲目崇拜AI程式設計的行業潑了一盆冷水:AI寫的程式碼,簡直就是一個Bug滿天飛的爛攤子。CodeRabbit分析了470個程式碼合併請求(Pull Request),得出了一個量化的結論:人類程式碼:平均每個請求包含6.45個問題。AI程式碼:平均每個請求包含10.83個問題。換句話說,AI生成的程式碼出錯率是人類的1.7倍。https://www.coderabbit.ai/blog/state-of-ai-vs-human-code-generation-report更令人擔憂的是錯誤的性質。AI生成的程式碼中,「嚴重」和「重大」問題的比例極高。儘管AI在拼寫和語法上比人類強兩倍,然而一旦出錯,就會上升到那種——深層次的邏輯謬誤、功能正確性缺失以及程式碼可讀性災難。CodeRabbit的報告指出,這些問題正在像滾雪球一樣累積成巨大的「長期技術債」。此外,安全公司Apiiro的研究也補上了一刀:使用AI的開發者搞出的安全問題,是不用AI的同行的十倍。因為AI經常在處理密碼和敏感資訊時「降智」,導致受保護資訊洩露。貝恩公司(Bain & Company)在9月的報告中直言不諱:儘管程式設計是最早部署生成式AI的領域,但「成本節省並不顯著」,且「結果未能達到炒作的預期」。給AI擦屁股的荒誕現實這種「高產量、低品質」的特性,正在根本性地改變工程師的日常工作。CodeRabbit的AI總監David Loker表示:AI確實加速了產出,但也引入了可預測、可衡量的弱點。這種變化迫使人類開發者不得不承擔起一個新的角色——給AI「擦屁股」。7月METR的一項研究揭示了一個反直覺的現象:對於經驗豐富的開發者來說,AI工具實際上拖慢了他們的進度。為什麼?因為程式設計師被迫變成了全職的「找茬專家」。他們需要像拿著顯微鏡一樣,去審查AI生成的那堆看似完美實則漏洞百出的程式碼。只要漏掉一個隱蔽的邏輯Bug,整個系統可能就會崩潰。但這並不意味著我們應該拋棄AI。Jamie Grant將AI比作一套「外骨骼」:想像一下,它能讓你輕鬆舉起1000磅的重物。它應該是你工作的增強器,強化你更高階的批判性思維。NACE的資料支援了這一觀點:61%的僱主表示他們並未用AI簡單地取代入門級崗位,而是有41%的僱主計畫利用AI來增強這些崗位。晉陞階梯斷裂:底層煉獄中的職場新人與此同時,這場變革還帶來了一個更為深遠的危機:新一代工程師該如何成長?過去,初級工程師通過做簡單的、任務導向的「髒活累活」(gruntwork)來磨練技能,逐步成長為獨當一面的專家。但現在,這些活兒被AI包圓了。https://www.signalfire.com/blog/signalfire-state-of-talent-report-2025如今,應屆生們被迫捲入了一個「先有雞還是先有蛋」的死循環:如果基礎工作都被AI完成了,新人從入職第一天起就需要勝任更高階的工作。但如果沒有基礎工作的鍛鍊,他們又該如何獲得高級工作的能力?對此,Creating Coding Careers的創始人Mike Roberts警告說,許多公司目光短淺,只看重下個季度的業績,不願投資培訓新人。如果你不培訓市場上的新入行者,最終你就招不到中層骨幹了,這非常短視。談判桌上沒有AI到了2026年,無論是對於身經百戰的架構師,還是剛剛走出校門的畢業生,規則已經改變。依靠「默寫演算法」或「堆砌程式碼量」生存的時代徹底終結了。正如Jamie Grant所言,學生和職場新人必須認清AI幫不上忙的地方:在談判桌上或拓展客戶關係的關鍵時刻,AI未必能陪在你身邊。你依然需要展現出最高水平的個人能力。未來的工程師,註定不能只是那個在角落裡默默敲擊鍵盤的「碼農」。你必須進化,你必須成為懂業務的戰略家、嚴謹的安全審查官,以及那個能夠馴服「Bug製造機」的超級駕駛員。技術沒有淘汰人類,它只是殘忍地剝奪了平庸者生存的權利。參考資料:https://x.com/karpathy/status/2004607146781278521https://spectrum.ieee.org/ai-effect-entry-level-jobshttps://x.com/eudtoxic/status/2004421448849383489https://futurism.com/artificial-intelligence/ai-code-bug-filled-mess (新智元)
Andrej Karpathy人工智慧2025年度總結:六大範式轉變,規則已變,未來已來
AI 大神 Andrej Karpathy 的 2025 年度總結:人工智慧的六大範式轉變前言:為什麼要關注這份總結?Andrej Karpathy 是誰?如果說 AI 領域有江湖,那他就是那種"掃地僧"等級的存在。他是 OpenAI 的創始成員之一,曾擔任特斯拉 AI 總監,史丹佛大學博士,CS231n(深度學習最著名課程之一)的建立者。當這樣的頂級專家發佈年度總結時,整個 AI 圈都會豎起耳朵仔細聆聽。2025 年 12 月 19 日,Karpathy 在他的個人部落格上發佈了《2025 LLM 年度回顧》。在這篇文章中,他總結了 2025 年大語言模型(LLM)領域的六個"範式轉變"——這些不是普通的技術進步,而是真正改變遊戲規則的創新。讓我們用最通俗的語言,深入淺出地理解這六大變革。變革一:RLVR——讓 AI 學會"思考"的新訓練方式什麼是 RLVR?想像一下,過去訓練 AI 就像教小孩背課文:預訓練:讓 AI 讀遍網際網路上的所有文章,就像讓孩子讀萬卷書監督微調:給 AI 示範標準答案,就像老師手把手教孩子做題人類反饋強化學習(RLHF):人類對 AI 的回答打分,AI 學著討人喜歡這套方法從 2020-2022 年就定型了,一直很管用。但 2025 年出現了一個新階段:RLVR(可驗證獎勵強化學習)。通俗解釋:從"背答案"到"學思考"傳統方法的侷限:就像學生只會背標準答案,不會靈活思考。遇到新題型就傻眼了。RLVR 的突破:不再喂標準答案,而是給 AI 大量有明確對錯的題目(比如數學題、程式設計題),讓 AI 自己摸索解題方法。結果神奇的事情發生了——AI 自發地學會了"推理":把複雜問題拆分成小步驟嘗試多種解題策略發現錯誤後會回溯重試這就像孩子自己琢磨出了"怎麼思考",而不是死記硬背解題步驟。為什麼這是大事?1. 訓練時間大幅增加:因為有客觀的對錯標準(不像人類打分那麼主觀),可以讓 AI 練習更久。2025 年,很多計算資源從預訓練轉移到了 RLVR,模型大小沒怎麼增加,但"練習思考"的時間大大延長。2. 誕生了"思考時間"這個新維度:現在可以控制 AI 思考多久。給它更多時間,它就能推理得更深入。這就像考試時,簡單題 1 分鐘做完,難題可以思考 10 分鐘。3. 里程碑事件:2024 年底,OpenAI 的 o1 模型是第一個 RLVR 模型的展示2025 年初,o3 模型發佈時,所有人都能直觀感受到這個質的飛躍變革二:幽靈 vs 動物——重新理解 AI 的"智能形態"一個深刻的比喻Karpathy 提出了一個發人深省的觀點:我們不是在"進化動物",而是在"召喚幽靈"這話什麼意思?動物智能 vs AI 智能人類和動物:在叢林中進化了幾百萬年大腦最佳化目標:生存、繁衍、保護部落智能是"圓潤"的——各方面能力比較均衡大語言模型:在網際網路文字上訓練最佳化目標:模仿人類文字、解數學題、獲得人類點贊智能是"鋸齒狀"的——某些方面超強,某些方面弱得離譜"鋸齒狀智能"是什麼體驗?想像一個場景:3秒前:AI 剛剛完美解決了一個需要博士水平的數學證明3秒後:AI 被一個小學生都不會上當的文字遊戲給騙了,洩露了你的資料這就是 2025 年 AI 的真實寫照——同時是天才博學者和認知障礙的小學生。為什麼會這樣?因為 RLVR 讓 AI 在"可驗證領域"瘋狂長尖刺:數學題?瘋狂練習,能力爆表程式設計題?同樣瘋狂練習,超級強大常識推理?沒有明確對錯,練不了,所以很弱引發的問題:基準測試不再可信Karpathy 坦言,他在 2025 年"對基準測試失去了信任"。為什麼?因為幾乎所有基準測試都是"可驗證"的(有標準答案),所以:AI 實驗室瘋狂針對這些測試進行訓練AI 在測試上的分數飆升但實際應用能力可能沒那麼強這就像"應試教育"——考試分數很高,但實際能力參差不齊。核心問題:有沒有可能 AI 把所有基準測試都考滿分,但仍然沒有實現 AGI(通用人工智慧)?答案是:完全可能。變革三:Cursor——LLM 應用的新範式Cursor 是什麼?Cursor 是 2025 年爆火的 AI 程式設計工具。但 Karpathy 關注的不是它有多火,而是它定義了一種全新的 LLM 應用模式。傳統 AI 應用 vs Cursor 模式傳統模式(如 ChatGPT):你問一句,AI 答一句就像打開一個網站,輸入問題,得到答案Cursor 模式:深度整合到專業工具(程式設計環境)自動獲取上下文(你的程式碼、項目結構)在後台編排多個 AI 呼叫,形成複雜工作流提供專業領域的介面有"自主程度滑塊"——可以讓 AI 自己幹活,也可以每步都問你四大核心特徵Karpathy 總結了 Cursor 式應用的四個要素:上下文工程:自動理解你的工作環境(程式碼庫、檔案結構等)多 LLM 呼叫編排:背景執行複雜的 AI 工作流,平衡性能和成本專業化介面:不是通用聊天框,而是針對特定領域設計的互動自主程度控制:從"完全手動"到"全自動"之間調節引發的討論:AI 應用的護城河有多寬?2025 年業界爭論激烈的問題:OpenAI、Anthropic 這些 LLM 大廠會不會把所有應用都做了?還是會有大量 AI 應用公司的機會?Karpathy 的觀點:LLM 大廠培養的是"通用大學生",而 LLM 應用公司會把這些大學生組織成專業團隊,部署到具體行業比如:LLM 大廠:提供基礎模型(通用能力)Cursor:組織這些模型成為專業程式設計師團隊其他垂直應用:可能在醫療、法律、設計等領域做類似的事關鍵差異在於:私有資料、感測器、執行器和反饋循環變革四:Claude Code——住在你電腦裡的 AI什麼是 Claude Code?Claude Code(CC)是 Anthropic 推出的一個命令列工具,但它的意義遠不止於此。為什麼說它是"範式轉變"?OpenAI 的思路(Karpathy 認為走錯了):把 AI Agent 部署在雲端在容器裡運行從 ChatGPT 網頁控制Anthropic 的思路(Karpathy 認為正確):Agent 直接運行在你的本地電腦上訪問你的本地檔案、配置、金鑰低延遲互動核心區別:不是"算力在那裡",而是"AI 在那裡生活"這不是技術架構的區別(雲端 vs 本地計算),而是互動範式的區別:舊範式:AI 是你訪問的一個網站(像 Google)新範式:AI 是住在你電腦裡的"小精靈/幽靈"它瞭解你的工作環境它能訪問你的私有資料它和你低延遲互動它幫你操作本地工具為什麼這很重要?因為我們處在一個"能力參差不齊"的 AI 時代,讓 AI 直接接觸你的真實工作環境,比在雲端遠端操作效率高得多。就像你雇了一個助手:舊方式:助手在遠方的辦公室,你打電話指揮,他看不到你的桌面新方式:助手就坐在你旁邊,能看到你的螢幕,能操作你的鍵盤變革五:Vibe Coding——用"感覺"寫程式碼什麼是 Vibe Coding?這個詞是 Karpathy 自己在 2025 年的一條推文中創造的,結果意外走紅。傳統程式設計:學習程式語言語法理解演算法和資料結構一行行寫程式碼需要多年訓練Vibe Coding:用自然語言描述你想要什麼AI 幫你生成程式碼你甚至不需要看程式碼,只關注效果任何人都能做真實案例:Karpathy 自己的體驗案例1:Rust 分詞器他在開發 nanochat 項目時,需要一個高效的 BPE 分詞器用 Vibe Coding 讓 AI 幫他寫了一個 Rust 實現他自己不需要深入學習 Rust也不需要依賴現成的庫案例2:一次性應用他會為了找一個 bug,讓 AI 寫一整個臨時應用用完就扔因為"程式碼突然變得免費、短暫、可塑、用完即拋"案例3:快速原型他 Vibe Coded 了很多項目:menugen:菜單生成器llm-council:AI 議會reader3:閱讀器HN time capsule:駭客新聞時光膠囊Vibe Coding 的深遠影響1. 權力下放以前:程式設計是高技能專業人士的專利現在:普通人也能通過自然語言"程式設計"這符合 Karpathy 之前寫的一篇文章觀點:LLM 是第一個讓普通人比專業人士受益更多的技術2. 專業人士寫更多程式碼以前:因為成本高,很多"小工具"不值得寫現在:順手就能 Vibe Code 一個出來3. 軟體的本質改變程式碼從"昂貴資產"變成"免費耗材"一次性軟體變得可行工作流程和職位描述都會改變Karpathy 的比喻"Vibe Coding 將改造整個軟體地貌,改變工作描述"變革六:Nano Banana——LLM 的"圖形介面"什麼是 Nano Banana?Google Gemini Nano Banana 是 Karpathy 眼中"2025 年最令人驚嘆、最具範式轉變意義的模型之一"。為什麼這麼重要?一個深刻的類比Karpathy 提出了一個宏大的視角:LLM 就像 1970-80 年代的電腦,我們會看到類似的創新演進:個人電腦的 LLM 版本微控製器的 LLM 版本(認知核心)網際網路的 LLM 版本(Agent 網際網路)GUI 的 LLM 版本← Nano Banana 的意義就在這裡文字 vs 圖像:人類的真實偏好LLM 的原生語言:文字就像 1980 年代電腦的命令列介面電腦喜歡文字,因為高效、精確人類的偏好:視覺和空間資訊人類其實不喜歡閱讀文字——又慢又費力人類喜歡看圖、看視訊、看動畫、看圖表LLM 介面的演進第一代:純文字對話(命令列時代)第二代:Markdown、emoji(給文字"化妝")標題、粗體、斜體、列表、表格讓文字更易讀第三代:真正的"LLM GUI"資訊圖表幻燈片白板動畫/視訊Web 應用← Nano Banana 是這個方向的早期預兆Nano Banana 的獨特之處不只是"能生成圖片",而是:文字生成 + 圖像生成 + 世界知識三者糾纏在模型權重裡形成了新的互動範式就像 GUI 之於命令列的革命,LLM GUI 可能會徹底改變我們與 AI 互動的方式。總結:我們身處何方?Karpathy 在文章最後給出了他的總體判斷:1. AI 既比預期聰明,又比預期愚蠢這是"幽靈 vs 動物"那一節的核心觀點。我們得到了一種全新的智能形態,不能用人類智能的標準去衡量。2. AI 的潛力還遠未釋放"我認為業界還沒有實現 AI 當前能力的 10% 潛力"即使不考慮未來的進步,光是已有的能力,應用空間還大得很。3. 領域仍然寬廣開放這麼多想法可以嘗試,這麼多方向可以探索,充滿機會。4. 矛盾但真實的預測在 Dwarkesh 播客中,Karpathy 提到了一個"表面上矛盾"的觀點:我同時相信:我們會看到快速而持續的進步還有大量工作要做這不矛盾,因為:進步很快,但 AGI 還很遠每個突破都打開新的可能性同時也暴露新的挑戰5. 系好安全帶Karpathy 用"Strap in"結尾——系好安全帶,精彩的旅程才剛開始。寫在最後:為什麼這份總結值得仔細讀?1. 視角獨特Karpathy 不是投資人,不是媒體,而是真正在一線做技術的頂級專家。他的觀察是基於:OpenAI 創始團隊經歷特斯拉 AI 總監經歷對技術本質的深刻理解2. 坦誠直率他直言對基準測試失去信任,批評 OpenAI 的一些技術選擇,這種坦誠在行業內很少見。3. 長期視角他不追逐短期熱點,而是關注"範式轉變"——那些真正改變遊戲規則的創新。4. 哲學深度"幽靈 vs 動物"、"LLM GUI"這些概念,不只是技術觀察,而是對智能本質的哲學思考。5. 實踐導向他自己在用 Vibe Coding 做項目,自己在體驗 Claude Code,這些不是紙上談兵,而是來自一線的真實感受。延伸閱讀Karpathy 在文章中提到了他寫的其他深度文章:Animals vs. Ghosts(動物 vs 幽靈)Verifiability(可驗證性)The Space of Minds(心智空間)Power to the people: How LLMs flip the script on technology diffusion(權力下放:LLM 如何顛覆技術擴散)還有他的播客訪談:Dwarkesh PodcastYC Talk 文字版YC Talk 視訊個人感悟讀完 Karpathy 的總結,最大的感受是:我們正處在一個激動人心但混沌不清的時代。AI 既不是即將到來的"神",也不是被誇大的"泡沫",而是一種全新的、我們還在學習理解的智能形態。2025 年的六大範式轉變告訴我們:技術在快速進步(RLVR、Cursor、Claude Code)認知在深化(幽靈 vs 動物、鋸齒狀智能)應用在演化(Vibe Coding、LLM GUI)但更重要的是,旅程才剛剛開始。正如 Karpathy 所說:Strap in(系好安全帶)。 (AI Daily Insights)
撐起AI半邊天的Andrej Karpathy大神親授:如何成為任何領域的專家?
在當今這個知識爆炸、技術飛速迭代的時代,如何高效學習並掌握一門技能,直至成為專家,是許多人職業生涯中的核心命題。所以,我們今天來講講Andrej Karpathy。這個名字在AI界可謂如雷貫耳。作為OpenAI的創始成員之一、前特斯拉人工智慧總監,以及史丹佛大學著名深度學習課程CS231n的設計者和首席講師,他的職業履歷星光熠熠,充滿了傳奇色彩。Karpathy不僅在學術研究和工業應用上取得了卓越成就,更是一位熱衷於分享知識的教育者。他提出的許多學習方法和職業建議,因其深刻的洞察力和極高的實踐性,在科技圈廣為流傳,被無數人奉為圭臬。早在2020年,Karpathy就曾分享過一個看似簡單卻蘊含深意的三步框架,為有志於成為專家的人們指明了一條清晰的道路。Karpathy的核心建議主要包含以下三點:1,項目驅動,深度優先:放棄“廣度優先、自下而上”的傳統學習模式,轉而通過完成具體的項目進行“按需學習”,實現縱向的深度積累。2,教學相長,自我沉澱:用自己的話去教授或總結所學,這是檢驗和鞏固知識的最佳方式。3,對標自己,持續成長:永遠只和過去的自己比較,而非他人,專注於個人的持續進步。這三條建議看似樸素,卻直擊學習的本質。我們一條一條細品。01. 項目驅動深度優先你是否也曾有過這樣的經歷:為了學習一門新技術,收藏了無數的教學、購買了堆積如山的專業書籍,試圖從最基礎的理論開始,建構一個全面的知識體系。然而,這種“廣度優先”的學習方式,往往會讓我們陷入理論的汪洋大海,迷失方向,最終因缺乏實踐和正反饋而半途而廢。Karpathy對此提出了截然不同的見解:以項目為導向,進行“深度優先”的學習。也就是說,我們應該首先選擇一個具體、可執行的項目,然後在完成這個項目的過程中,去學習所需的知識點。這種“干中學”(Learning by Doing)的方式,能夠將學習與實際應用緊密結合,極大地提升學習效率和動力。在Karpathy廣為流傳的博文《神經網路訓練秘籍》(A Recipe for Training Neural Networks)中,他詳細闡述了如何一步步建構和最佳化一個神經網路模型。https://karpathy.github.io/2019/04/25/recipe/這篇文章本身就是項目驅動學習的絕佳範例。他沒有一上來就羅列艱深的數學公式,而是將整個過程分解為一系列可操作的步驟,比如:與資料融為一體:在寫任何程式碼之前,花大量時間去觀察和理解你的資料,尋找其中的模式和異常。搭建端到端的骨架:先用一個最簡單的模型跑通整個訓練和評估流程,確保你的管道是暢通的。過擬合:然後,嘗試讓模型在小批次資料上達到過擬合,以驗證模型的容量和程式碼的正確性。正則化與調優:在確認模型能夠學習後,再逐步引入正則化技術,調整超參數,提升泛化能力。這套流程的核心思想就是迭代和驗證:從一個最小可行性產品(MVP)開始,每一步都進行驗證,確保根基牢固,然後再逐步增加複雜性。這種方法不僅適用於訓練神經網路,也適用於學習任何新技能。例如,如果你想學程式設計,可以從搭建一個簡單的個人網站開始;想學資料科學,可以從分析一份你感興趣的公開資料集入手。在解決實際問題的過程中,你會自然而然地去學習HTML/CSS、Python庫或統計學知識,這些知識點因為有了明確的應用場景,而變得不再枯燥。在另一篇極具影響力的文章《博士生生存指南》(A Survival Guide to a PhD)中,Karpathy進一步強調了“深度”的重要性。他將博士生涯比作一次長達約10400小時的深度探索,而這恰好與馬爾科姆·格拉德威爾提出的“一萬小時定律”不謀而合。https://karpathy.github.io/2016/09/07/phd/Karpathy認為,博士的核心目標,就是在某個非常細分的領域裡,通過深度鑽研,成為世界級的專家。他建議研究者要選擇那些“肥沃”的領域,即有足夠深度和廣度,能夠讓你產出一系列相互關聯的研究成果。同時,要勇於挑戰那些比當前問題難2-3倍,但重要性高10倍的問題,避免在細枝末節上進行微小的改進。這一思想同樣適用於非學術領域。正如Karpathy所說,如果一個人的一生可以專注投入,大約能成為15個領域的專家。因此,與其將精力分散在無數個淺嘗輒輒的領域,不如選擇少數幾個你真正熱愛的方向,進行深度挖掘。在一個狹窄的領域裡做到頂尖,遠比在多個領域都表現平平更有價值。02. 教學相長自我沉澱掌握知識的第二大支柱,是主動複述和知識重構。僅僅是被動地輸入資訊,知識的留存率會非常低。而通過“教”與“寫”的方式,將所學內容用自己的語言重新組織和輸出,則能極大地加深理解,發現知識盲區。這與諾貝爾物理學獎得主理查德·費曼所倡導的“費曼學習法”不謀而合。給本科生的建議:主動復現,而非被動閱讀Karpathy在給本科生的學習建議中提到,“閱讀和理解”與“能夠復現內容”是完全不同的兩件事。他鼓勵學生在學習後,合上書本,嘗試獨立推導公式或證明,以此來檢驗自己是否真正掌握了知識。他還建議,學習初期可以獨立思考,建立自己的理解體系;後期則可以與他人協作,通過向同學解釋概念,來鞏固和深化自己的認知。為一門課程製作一份“備考清單”(Cheat Sheet),將整個課程的知識點濃縮在一頁紙上,也是一種極佳的知識梳理和內化方式。CS231n: Convolutional Neural Networks for Visual Recognition在Karpathy的職業生涯中,分享始終扮演著至關重要的角色。他不僅通過部落格文章分享自己的研究心得和實踐經驗,還積極投身於開放原始碼專案。他認為,將自己的程式碼和項目開源,不僅能幫助他人,更能督促自己寫出更規範、可復現的程式碼,這本身就是一個絕佳的學習過程。同樣,撰寫部落格或技術教學,也是一種高效的“教學相長”方式。當你試圖向他人清晰地解釋一個複雜概念時,你會被迫從讀者的角度出發,重新審視自己的知識結構,理清其中的邏輯鏈條。這個過程會暴露你理解上的模糊之處,促使你回頭去查閱資料,填補知識漏洞。Karpathy本人就是這一理念的忠實踐行者。他在史丹佛開設的CS231n課程,其詳盡的課程筆記和公開的教學視訊,已經成為全球AI學習者的入門寶典。這一舉動不僅鞏固了他自身的知識體系,更極大地放大了他的影響力。因此,在你完成一個項目或學習了一個新模組後,不妨嘗試寫一篇總結文章,或錄製一個簡短的教學視訊,分享到你的部落格、知乎或B站上。這個過程所帶來的收穫,將遠超你的想像!03. 對標自己持續成長通往專家之路 rarely 是一帆風順的。在這個過程中,我們難免會遇到挫折,看到身邊的人似乎比自己進步得更快,從而產生焦慮和自我懷疑。Karpathy的第三條建議,正是應對這種心態的良藥:只與過去的自己比較,專注於個人的成長軌跡。在Karpathy看來,學習的本質是“精神鍛鍊”。他曾在一個訪談中形象地比喻道,真正的學習應該感覺像是“精神上的流汗”(the mental equivalent of sweating)。它應該是一種費力的、充滿挑戰的過程,就像在健身房裡進行高強度鍛鍊一樣,而不是像刷短影片那樣輕鬆愉悅。如果你在學習過程中感到有些吃力,甚至痛苦,這恰恰說明你正在走出舒適區,你的認知邊界正在被拓寬。在他的《博士生生存指南》中,他也坦誠地描述了科研道路上的種種艱辛,比如實驗失敗、論文被拒,甚至產生自我認同危機。要想成為專家,必須具備強大的心理韌性和獨立思考的能力。要學會從第一性原理出發思考問題,忽略那些無意義的外部評價指標,享受在非結構化環境中探索的自由。為了更好地實踐“對標自己”的原則,一個有效的方法是記錄你的成長里程碑。你可以定期寫學習日誌,記錄下自己在這個月或這個季度學到了什麼新技能,解決了什麼難題。當你回顧這些記錄時,你會清晰地看到自己的進步軌跡:半年前還一頭霧水的概念,現在已經能夠運用自如;一年前還無法獨立完成的項目,現在已經遊刃有餘。這種自我參照的成長反饋,能極大地增強你的自信心和學習動力。你會發現,知識的積累也存在“複利效應”。每天一點點的進步,經過時間的沉澱,最終會匯聚成巨大的飛躍。Karpathy本人的成長歷程,從一個對深度學習充滿好奇的學生,成長為引領行業發展的AI領袖,就是這種長期堅持和自我超越的最好證明。Andrej Karpathy的專家養成三步法——項目驅動、教學相長、對標自己為我們描繪了一條清晰、可行的精進之路。它告訴我們,成為專家並非依賴於所謂的天賦異稟,而是一個關於刻意練習、深度聚焦、積極反思和自我衡量的系統性過程。這條路並非坦途,它需要我們付出汗水和耐心。但正如Karpathy的經歷所展示的,無論是從零開始編寫一個神經網路,還是領導一個頂尖的AI團隊,這套原則都同樣適用。2025年就要結束了,祝願每一個人都能成為某個領域的專家。 (TOP創新區研究院)