Andrej Karpathy人工智慧2025年度總結:六大範式轉變,規則已變,未來已來
AI 大神 Andrej Karpathy 的 2025 年度總結:人工智慧的六大範式轉變
前言:為什麼要關注這份總結?
Andrej Karpathy 是誰?如果說 AI 領域有江湖,那他就是那種"掃地僧"等級的存在。他是 OpenAI 的創始成員之一,曾擔任特斯拉 AI 總監,史丹佛大學博士,CS231n(深度學習最著名課程之一)的建立者。當這樣的頂級專家發佈年度總結時,整個 AI 圈都會豎起耳朵仔細聆聽。
2025 年 12 月 19 日,Karpathy 在他的個人部落格上發佈了《2025 LLM 年度回顧》。在這篇文章中,他總結了 2025 年大語言模型(LLM)領域的六個"範式轉變"——這些不是普通的技術進步,而是真正改變遊戲規則的創新。
讓我們用最通俗的語言,深入淺出地理解這六大變革。
變革一:RLVR——讓 AI 學會"思考"的新訓練方式
什麼是 RLVR?
想像一下,過去訓練 AI 就像教小孩背課文:
- 預訓練:讓 AI 讀遍網際網路上的所有文章,就像讓孩子讀萬卷書
- 監督微調:給 AI 示範標準答案,就像老師手把手教孩子做題
- 人類反饋強化學習(RLHF):人類對 AI 的回答打分,AI 學著討人喜歡
這套方法從 2020-2022 年就定型了,一直很管用。但 2025 年出現了一個新階段:RLVR(可驗證獎勵強化學習)。
通俗解釋:從"背答案"到"學思考"
傳統方法的侷限:就像學生只會背標準答案,不會靈活思考。遇到新題型就傻眼了。
RLVR 的突破:不再喂標準答案,而是給 AI 大量有明確對錯的題目(比如數學題、程式設計題),讓 AI 自己摸索解題方法。結果神奇的事情發生了——AI 自發地學會了"推理":
- 把複雜問題拆分成小步驟
- 嘗試多種解題策略
- 發現錯誤後會回溯重試
這就像孩子自己琢磨出了"怎麼思考",而不是死記硬背解題步驟。
為什麼這是大事?
1. 訓練時間大幅增加:因為有客觀的對錯標準(不像人類打分那麼主觀),可以讓 AI 練習更久。2025 年,很多計算資源從預訓練轉移到了 RLVR,模型大小沒怎麼增加,但"練習思考"的時間大大延長。
2. 誕生了"思考時間"這個新維度:現在可以控制 AI 思考多久。給它更多時間,它就能推理得更深入。這就像考試時,簡單題 1 分鐘做完,難題可以思考 10 分鐘。
3. 里程碑事件:
- 2024 年底,OpenAI 的 o1 模型是第一個 RLVR 模型的展示
- 2025 年初,o3 模型發佈時,所有人都能直觀感受到這個質的飛躍
變革二:幽靈 vs 動物——重新理解 AI 的"智能形態"
一個深刻的比喻
Karpathy 提出了一個發人深省的觀點:
我們不是在"進化動物",而是在"召喚幽靈"
這話什麼意思?
動物智能 vs AI 智能
人類和動物:
- 在叢林中進化了幾百萬年
- 大腦最佳化目標:生存、繁衍、保護部落
- 智能是"圓潤"的——各方面能力比較均衡
大語言模型:
- 在網際網路文字上訓練
- 最佳化目標:模仿人類文字、解數學題、獲得人類點贊
- 智能是"鋸齒狀"的——某些方面超強,某些方面弱得離譜
"鋸齒狀智能"是什麼體驗?
想像一個場景:
- 3秒前:AI 剛剛完美解決了一個需要博士水平的數學證明
- 3秒後:AI 被一個小學生都不會上當的文字遊戲給騙了,洩露了你的資料
這就是 2025 年 AI 的真實寫照——同時是天才博學者和認知障礙的小學生。
為什麼會這樣?
因為 RLVR 讓 AI 在"可驗證領域"瘋狂長尖刺:
- 數學題?瘋狂練習,能力爆表
- 程式設計題?同樣瘋狂練習,超級強大
- 常識推理?沒有明確對錯,練不了,所以很弱
引發的問題:基準測試不再可信
Karpathy 坦言,他在 2025 年"對基準測試失去了信任"。為什麼?
因為幾乎所有基準測試都是"可驗證"的(有標準答案),所以:
- AI 實驗室瘋狂針對這些測試進行訓練
- AI 在測試上的分數飆升
- 但實際應用能力可能沒那麼強
這就像"應試教育"——考試分數很高,但實際能力參差不齊。
核心問題:有沒有可能 AI 把所有基準測試都考滿分,但仍然沒有實現 AGI(通用人工智慧)?答案是:完全可能。
變革三:Cursor——LLM 應用的新範式
Cursor 是什麼?
Cursor 是 2025 年爆火的 AI 程式設計工具。但 Karpathy 關注的不是它有多火,而是它定義了一種全新的 LLM 應用模式。
傳統 AI 應用 vs Cursor 模式
傳統模式(如 ChatGPT):
- 你問一句,AI 答一句
- 就像打開一個網站,輸入問題,得到答案
Cursor 模式:
- 深度整合到專業工具(程式設計環境)
- 自動獲取上下文(你的程式碼、項目結構)
- 在後台編排多個 AI 呼叫,形成複雜工作流
- 提供專業領域的介面
- 有"自主程度滑塊"——可以讓 AI 自己幹活,也可以每步都問你
四大核心特徵
Karpathy 總結了 Cursor 式應用的四個要素:
- 上下文工程:自動理解你的工作環境(程式碼庫、檔案結構等)
- 多 LLM 呼叫編排:背景執行複雜的 AI 工作流,平衡性能和成本
- 專業化介面:不是通用聊天框,而是針對特定領域設計的互動
- 自主程度控制:從"完全手動"到"全自動"之間調節
引發的討論:AI 應用的護城河有多寬?
2025 年業界爭論激烈的問題:
- OpenAI、Anthropic 這些 LLM 大廠會不會把所有應用都做了?
- 還是會有大量 AI 應用公司的機會?
Karpathy 的觀點:
LLM 大廠培養的是"通用大學生",而 LLM 應用公司會把這些大學生組織成專業團隊,部署到具體行業
比如:
- LLM 大廠:提供基礎模型(通用能力)
- Cursor:組織這些模型成為專業程式設計師團隊
- 其他垂直應用:可能在醫療、法律、設計等領域做類似的事
關鍵差異在於:私有資料、感測器、執行器和反饋循環
變革四:Claude Code——住在你電腦裡的 AI
什麼是 Claude Code?
Claude Code(CC)是 Anthropic 推出的一個命令列工具,但它的意義遠不止於此。
為什麼說它是"範式轉變"?
OpenAI 的思路(Karpathy 認為走錯了):
把 AI Agent 部署在雲端
- 在容器裡運行
- 從 ChatGPT 網頁控制
Anthropic 的思路(Karpathy 認為正確):
- Agent 直接運行在你的本地電腦上
- 訪問你的本地檔案、配置、金鑰
- 低延遲互動
核心區別:不是"算力在那裡",而是"AI 在那裡生活"
這不是技術架構的區別(雲端 vs 本地計算),而是互動範式的區別:
舊範式:AI 是你訪問的一個網站(像 Google)
新範式:AI 是住在你電腦裡的"小精靈/幽靈"
- 它瞭解你的工作環境
- 它能訪問你的私有資料
- 它和你低延遲互動
- 它幫你操作本地工具
為什麼這很重要?
因為我們處在一個"能力參差不齊"的 AI 時代,讓 AI 直接接觸你的真實工作環境,比在雲端遠端操作效率高得多。
就像你雇了一個助手:
- 舊方式:助手在遠方的辦公室,你打電話指揮,他看不到你的桌面
- 新方式:助手就坐在你旁邊,能看到你的螢幕,能操作你的鍵盤
變革五:Vibe Coding——用"感覺"寫程式碼
什麼是 Vibe Coding?
這個詞是 Karpathy 自己在 2025 年的一條推文中創造的,結果意外走紅。
傳統程式設計:
- 學習程式語言語法
- 理解演算法和資料結構
- 一行行寫程式碼
- 需要多年訓練
Vibe Coding:
- 用自然語言描述你想要什麼
- AI 幫你生成程式碼
- 你甚至不需要看程式碼,只關注效果
- 任何人都能做
真實案例:Karpathy 自己的體驗
案例1:Rust 分詞器
- 他在開發 nanochat 項目時,需要一個高效的 BPE 分詞器
- 用 Vibe Coding 讓 AI 幫他寫了一個 Rust 實現
- 他自己不需要深入學習 Rust
- 也不需要依賴現成的庫
案例2:一次性應用
- 他會為了找一個 bug,讓 AI 寫一整個臨時應用
- 用完就扔
- 因為"程式碼突然變得免費、短暫、可塑、用完即拋"
案例3:快速原型他 Vibe Coded 了很多項目:
- menugen:菜單生成器
- llm-council:AI 議會
- reader3:閱讀器
- HN time capsule:駭客新聞時光膠囊
Vibe Coding 的深遠影響
1. 權力下放
- 以前:程式設計是高技能專業人士的專利
- 現在:普通人也能通過自然語言"程式設計"
這符合 Karpathy 之前寫的一篇文章觀點:LLM 是第一個讓普通人比專業人士受益更多的技術
2. 專業人士寫更多程式碼
- 以前:因為成本高,很多"小工具"不值得寫
- 現在:順手就能 Vibe Code 一個出來
3. 軟體的本質改變
- 程式碼從"昂貴資產"變成"免費耗材"
- 一次性軟體變得可行
- 工作流程和職位描述都會改變
Karpathy 的比喻
"Vibe Coding 將改造整個軟體地貌,改變工作描述"
變革六:Nano Banana——LLM 的"圖形介面"
什麼是 Nano Banana?
Google Gemini Nano Banana 是 Karpathy 眼中"2025 年最令人驚嘆、最具範式轉變意義的模型之一"。
為什麼這麼重要?一個深刻的類比
Karpathy 提出了一個宏大的視角:
LLM 就像 1970-80 年代的電腦,我們會看到類似的創新演進:
- 個人電腦的 LLM 版本
- 微控製器的 LLM 版本(認知核心)
- 網際網路的 LLM 版本(Agent 網際網路)
- GUI 的 LLM 版本← Nano Banana 的意義就在這裡
文字 vs 圖像:人類的真實偏好
LLM 的原生語言:文字
- 就像 1980 年代電腦的命令列介面
- 電腦喜歡文字,因為高效、精確
人類的偏好:視覺和空間資訊
- 人類其實不喜歡閱讀文字——又慢又費力
- 人類喜歡看圖、看視訊、看動畫、看圖表
LLM 介面的演進
第一代:純文字對話(命令列時代)
第二代:Markdown、emoji(給文字"化妝")
- 標題、粗體、斜體、列表、表格
- 讓文字更易讀
第三代:真正的"LLM GUI"
- 資訊圖表
- 幻燈片
- 白板
- 動畫/視訊
- Web 應用
- ← Nano Banana 是這個方向的早期預兆
Nano Banana 的獨特之處
不只是"能生成圖片",而是:
- 文字生成 + 圖像生成 + 世界知識
- 三者糾纏在模型權重裡
- 形成了新的互動範式
就像 GUI 之於命令列的革命,LLM GUI 可能會徹底改變我們與 AI 互動的方式。
總結:我們身處何方?
Karpathy 在文章最後給出了他的總體判斷:
1. AI 既比預期聰明,又比預期愚蠢
這是"幽靈 vs 動物"那一節的核心觀點。我們得到了一種全新的智能形態,不能用人類智能的標準去衡量。
2. AI 的潛力還遠未釋放
"我認為業界還沒有實現 AI 當前能力的 10% 潛力"
即使不考慮未來的進步,光是已有的能力,應用空間還大得很。
3. 領域仍然寬廣開放
這麼多想法可以嘗試,這麼多方向可以探索,充滿機會。
4. 矛盾但真實的預測
在 Dwarkesh 播客中,Karpathy 提到了一個"表面上矛盾"的觀點:
我同時相信:
- 我們會看到快速而持續的進步
- 還有大量工作要做
這不矛盾,因為:
- 進步很快,但 AGI 還很遠
- 每個突破都打開新的可能性
- 同時也暴露新的挑戰
5. 系好安全帶
Karpathy 用"Strap in"結尾——系好安全帶,精彩的旅程才剛開始。
寫在最後:為什麼這份總結值得仔細讀?
1. 視角獨特
Karpathy 不是投資人,不是媒體,而是真正在一線做技術的頂級專家。他的觀察是基於:
- OpenAI 創始團隊經歷
- 特斯拉 AI 總監經歷
- 對技術本質的深刻理解
2. 坦誠直率
他直言對基準測試失去信任,批評 OpenAI 的一些技術選擇,這種坦誠在行業內很少見。
3. 長期視角
他不追逐短期熱點,而是關注"範式轉變"——那些真正改變遊戲規則的創新。
4. 哲學深度
"幽靈 vs 動物"、"LLM GUI"這些概念,不只是技術觀察,而是對智能本質的哲學思考。
5. 實踐導向
他自己在用 Vibe Coding 做項目,自己在體驗 Claude Code,這些不是紙上談兵,而是來自一線的真實感受。
延伸閱讀
Karpathy 在文章中提到了他寫的其他深度文章:
- Animals vs. Ghosts(動物 vs 幽靈)
- Verifiability(可驗證性)
- The Space of Minds(心智空間)
- Power to the people: How LLMs flip the script on technology diffusion(權力下放:LLM 如何顛覆技術擴散)
還有他的播客訪談:
- Dwarkesh Podcast
- YC Talk 文字版
- YC Talk 視訊
個人感悟
讀完 Karpathy 的總結,最大的感受是:我們正處在一個激動人心但混沌不清的時代。
AI 既不是即將到來的"神",也不是被誇大的"泡沫",而是一種全新的、我們還在學習理解的智能形態。
2025 年的六大範式轉變告訴我們:
- 技術在快速進步(RLVR、Cursor、Claude Code)
- 認知在深化(幽靈 vs 動物、鋸齒狀智能)
- 應用在演化(Vibe Coding、LLM GUI)
但更重要的是,旅程才剛剛開始。
正如 Karpathy 所說:Strap in(系好安全帶)。 (AI Daily Insights)