Andrej Karpathy人工智慧2025年度總結：六大範式轉變，規則已變，未來已來

2025/12/21

•

AI 大神 Andrej Karpathy 的 2025 年度總結：人工智慧的六大範式轉變

前言：為什麼要關注這份總結？

Andrej Karpathy 是誰？如果說 AI 領域有江湖，那他就是那種"掃地僧"等級的存在。他是 OpenAI 的創始成員之一，曾擔任特斯拉 AI 總監，史丹佛大學博士，CS231n（深度學習最著名課程之一）的建立者。當這樣的頂級專家發佈年度總結時，整個 AI 圈都會豎起耳朵仔細聆聽。

2025 年 12 月 19 日，Karpathy 在他的個人部落格上發佈了《2025 LLM 年度回顧》。在這篇文章中，他總結了 2025 年大語言模型（LLM）領域的六個"範式轉變"——這些不是普通的技術進步，而是真正改變遊戲規則的創新。

讓我們用最通俗的語言，深入淺出地理解這六大變革。

變革一：RLVR——讓 AI 學會"思考"的新訓練方式

什麼是 RLVR？

想像一下，過去訓練 AI 就像教小孩背課文：

預訓練：讓 AI 讀遍網際網路上的所有文章，就像讓孩子讀萬卷書
監督微調：給 AI 示範標準答案，就像老師手把手教孩子做題
人類反饋強化學習（RLHF）：人類對 AI 的回答打分，AI 學著討人喜歡

這套方法從 2020-2022 年就定型了，一直很管用。但 2025 年出現了一個新階段：RLVR（可驗證獎勵強化學習）。

通俗解釋：從"背答案"到"學思考"

傳統方法的侷限：就像學生只會背標準答案，不會靈活思考。遇到新題型就傻眼了。

RLVR 的突破：不再喂標準答案，而是給 AI 大量有明確對錯的題目（比如數學題、程式設計題），讓 AI 自己摸索解題方法。結果神奇的事情發生了——AI 自發地學會了"推理"：

把複雜問題拆分成小步驟
嘗試多種解題策略
發現錯誤後會回溯重試

這就像孩子自己琢磨出了"怎麼思考"，而不是死記硬背解題步驟。

為什麼這是大事？

1. 訓練時間大幅增加：因為有客觀的對錯標準（不像人類打分那麼主觀），可以讓 AI 練習更久。2025 年，很多計算資源從預訓練轉移到了 RLVR，模型大小沒怎麼增加，但"練習思考"的時間大大延長。

2. 誕生了"思考時間"這個新維度：現在可以控制 AI 思考多久。給它更多時間，它就能推理得更深入。這就像考試時，簡單題 1 分鐘做完，難題可以思考 10 分鐘。

3. 里程碑事件：

2024 年底，OpenAI 的 o1 模型是第一個 RLVR 模型的展示
2025 年初，o3 模型發佈時，所有人都能直觀感受到這個質的飛躍

變革二：幽靈 vs 動物——重新理解 AI 的"智能形態"

一個深刻的比喻

Karpathy 提出了一個發人深省的觀點：

我們不是在"進化動物"，而是在"召喚幽靈"

這話什麼意思？

動物智能 vs AI 智能

人類和動物：

在叢林中進化了幾百萬年
大腦最佳化目標：生存、繁衍、保護部落
智能是"圓潤"的——各方面能力比較均衡

大語言模型：

在網際網路文字上訓練
最佳化目標：模仿人類文字、解數學題、獲得人類點贊
智能是"鋸齒狀"的——某些方面超強，某些方面弱得離譜

"鋸齒狀智能"是什麼體驗？

想像一個場景：

3秒前：AI 剛剛完美解決了一個需要博士水平的數學證明
3秒後：AI 被一個小學生都不會上當的文字遊戲給騙了，洩露了你的資料

這就是 2025 年 AI 的真實寫照——同時是天才博學者和認知障礙的小學生。

為什麼會這樣？

因為 RLVR 讓 AI 在"可驗證領域"瘋狂長尖刺：

數學題？瘋狂練習，能力爆表
程式設計題？同樣瘋狂練習，超級強大
常識推理？沒有明確對錯，練不了，所以很弱

引發的問題：基準測試不再可信

Karpathy 坦言，他在 2025 年"對基準測試失去了信任"。為什麼？

因為幾乎所有基準測試都是"可驗證"的（有標準答案），所以：

AI 實驗室瘋狂針對這些測試進行訓練
AI 在測試上的分數飆升
但實際應用能力可能沒那麼強

這就像"應試教育"——考試分數很高，但實際能力參差不齊。

核心問題：有沒有可能 AI 把所有基準測試都考滿分，但仍然沒有實現 AGI（通用人工智慧）？答案是：完全可能。

變革三：Cursor——LLM 應用的新範式

Cursor 是什麼？

Cursor 是 2025 年爆火的 AI 程式設計工具。但 Karpathy 關注的不是它有多火，而是它定義了一種全新的 LLM 應用模式。

傳統 AI 應用 vs Cursor 模式

傳統模式（如 ChatGPT）：

你問一句，AI 答一句
就像打開一個網站，輸入問題，得到答案

Cursor 模式：

深度整合到專業工具（程式設計環境）
自動獲取上下文（你的程式碼、項目結構）
在後台編排多個 AI 呼叫，形成複雜工作流
提供專業領域的介面
有"自主程度滑塊"——可以讓 AI 自己幹活，也可以每步都問你

四大核心特徵

Karpathy 總結了 Cursor 式應用的四個要素：

上下文工程：自動理解你的工作環境（程式碼庫、檔案結構等）
多 LLM 呼叫編排：背景執行複雜的 AI 工作流，平衡性能和成本
專業化介面：不是通用聊天框，而是針對特定領域設計的互動
自主程度控制：從"完全手動"到"全自動"之間調節

引發的討論：AI 應用的護城河有多寬？

2025 年業界爭論激烈的問題：

OpenAI、Anthropic 這些 LLM 大廠會不會把所有應用都做了？
還是會有大量 AI 應用公司的機會？

Karpathy 的觀點：

LLM 大廠培養的是"通用大學生"，而 LLM 應用公司會把這些大學生組織成專業團隊，部署到具體行業

比如：

LLM 大廠：提供基礎模型（通用能力）
Cursor：組織這些模型成為專業程式設計師團隊
其他垂直應用：可能在醫療、法律、設計等領域做類似的事

關鍵差異在於：私有資料、感測器、執行器和反饋循環

變革四：Claude Code——住在你電腦裡的 AI

什麼是 Claude Code？

Claude Code（CC）是 Anthropic 推出的一個命令列工具，但它的意義遠不止於此。

為什麼說它是"範式轉變"？

OpenAI 的思路（Karpathy 認為走錯了）：

把 AI Agent 部署在雲端

在容器裡運行
從 ChatGPT 網頁控制

Anthropic 的思路（Karpathy 認為正確）：

Agent 直接運行在你的本地電腦上
訪問你的本地檔案、配置、金鑰
低延遲互動

核心區別：不是"算力在那裡"，而是"AI 在那裡生活"

這不是技術架構的區別（雲端 vs 本地計算），而是互動範式的區別：

舊範式：AI 是你訪問的一個網站（像 Google）

新範式：AI 是住在你電腦裡的"小精靈/幽靈"

它瞭解你的工作環境
它能訪問你的私有資料
它和你低延遲互動
它幫你操作本地工具

為什麼這很重要？

因為我們處在一個"能力參差不齊"的 AI 時代，讓 AI 直接接觸你的真實工作環境，比在雲端遠端操作效率高得多。

就像你雇了一個助手：

舊方式：助手在遠方的辦公室，你打電話指揮，他看不到你的桌面
新方式：助手就坐在你旁邊，能看到你的螢幕，能操作你的鍵盤

變革五：Vibe Coding——用"感覺"寫程式碼

什麼是 Vibe Coding？

這個詞是 Karpathy 自己在 2025 年的一條推文中創造的，結果意外走紅。

傳統程式設計：

學習程式語言語法
理解演算法和資料結構
一行行寫程式碼
需要多年訓練

Vibe Coding：

用自然語言描述你想要什麼
AI 幫你生成程式碼
你甚至不需要看程式碼，只關注效果
任何人都能做

真實案例：Karpathy 自己的體驗

案例1：Rust 分詞器

他在開發 nanochat 項目時，需要一個高效的 BPE 分詞器
用 Vibe Coding 讓 AI 幫他寫了一個 Rust 實現
他自己不需要深入學習 Rust
也不需要依賴現成的庫

案例2：一次性應用

他會為了找一個 bug，讓 AI 寫一整個臨時應用
用完就扔
因為"程式碼突然變得免費、短暫、可塑、用完即拋"

案例3：快速原型他 Vibe Coded 了很多項目：

menugen：菜單生成器
llm-council：AI 議會
reader3：閱讀器
HN time capsule：駭客新聞時光膠囊

Vibe Coding 的深遠影響

1. 權力下放

以前：程式設計是高技能專業人士的專利
現在：普通人也能通過自然語言"程式設計"

這符合 Karpathy 之前寫的一篇文章觀點：LLM 是第一個讓普通人比專業人士受益更多的技術

2. 專業人士寫更多程式碼

以前：因為成本高，很多"小工具"不值得寫
現在：順手就能 Vibe Code 一個出來

3. 軟體的本質改變

程式碼從"昂貴資產"變成"免費耗材"
一次性軟體變得可行
工作流程和職位描述都會改變

Karpathy 的比喻

"Vibe Coding 將改造整個軟體地貌，改變工作描述"

變革六：Nano Banana——LLM 的"圖形介面"

什麼是 Nano Banana？

Google Gemini Nano Banana 是 Karpathy 眼中"2025 年最令人驚嘆、最具範式轉變意義的模型之一"。

為什麼這麼重要？一個深刻的類比

Karpathy 提出了一個宏大的視角：

LLM 就像 1970-80 年代的電腦，我們會看到類似的創新演進：

個人電腦的 LLM 版本
微控製器的 LLM 版本（認知核心）
網際網路的 LLM 版本（Agent 網際網路）
GUI 的 LLM 版本← Nano Banana 的意義就在這裡

文字 vs 圖像：人類的真實偏好

LLM 的原生語言：文字

就像 1980 年代電腦的命令列介面
電腦喜歡文字，因為高效、精確

人類的偏好：視覺和空間資訊

人類其實不喜歡閱讀文字——又慢又費力
人類喜歡看圖、看視訊、看動畫、看圖表

LLM 介面的演進

第一代：純文字對話（命令列時代）

第二代：Markdown、emoji（給文字"化妝"）

標題、粗體、斜體、列表、表格
讓文字更易讀

第三代：真正的"LLM GUI"

資訊圖表
幻燈片
白板
動畫/視訊
Web 應用
← Nano Banana 是這個方向的早期預兆

Nano Banana 的獨特之處

不只是"能生成圖片"，而是：

文字生成 + 圖像生成 + 世界知識
三者糾纏在模型權重裡
形成了新的互動範式

就像 GUI 之於命令列的革命，LLM GUI 可能會徹底改變我們與 AI 互動的方式。

總結：我們身處何方？

Karpathy 在文章最後給出了他的總體判斷：

1. AI 既比預期聰明，又比預期愚蠢

這是"幽靈 vs 動物"那一節的核心觀點。我們得到了一種全新的智能形態，不能用人類智能的標準去衡量。

2. AI 的潛力還遠未釋放

"我認為業界還沒有實現 AI 當前能力的 10% 潛力"

即使不考慮未來的進步，光是已有的能力，應用空間還大得很。

3. 領域仍然寬廣開放

這麼多想法可以嘗試，這麼多方向可以探索，充滿機會。

4. 矛盾但真實的預測

在 Dwarkesh 播客中，Karpathy 提到了一個"表面上矛盾"的觀點：

我同時相信：

我們會看到快速而持續的進步
還有大量工作要做

這不矛盾，因為：

進步很快，但 AGI 還很遠
每個突破都打開新的可能性
同時也暴露新的挑戰

5. 系好安全帶

Karpathy 用"Strap in"結尾——系好安全帶，精彩的旅程才剛開始。

寫在最後：為什麼這份總結值得仔細讀？

1. 視角獨特

Karpathy 不是投資人，不是媒體，而是真正在一線做技術的頂級專家。他的觀察是基於：

OpenAI 創始團隊經歷
特斯拉 AI 總監經歷
對技術本質的深刻理解

2. 坦誠直率

他直言對基準測試失去信任，批評 OpenAI 的一些技術選擇，這種坦誠在行業內很少見。

3. 長期視角

他不追逐短期熱點，而是關注"範式轉變"——那些真正改變遊戲規則的創新。

4. 哲學深度

"幽靈 vs 動物"、"LLM GUI"這些概念，不只是技術觀察，而是對智能本質的哲學思考。

5. 實踐導向

他自己在用 Vibe Coding 做項目，自己在體驗 Claude Code，這些不是紙上談兵，而是來自一線的真實感受。

個人感悟

讀完 Karpathy 的總結，最大的感受是：我們正處在一個激動人心但混沌不清的時代。

AI 既不是即將到來的"神"，也不是被誇大的"泡沫"，而是一種全新的、我們還在學習理解的智能形態。

2025 年的六大範式轉變告訴我們：

技術在快速進步（RLVR、Cursor、Claude Code）
認知在深化（幽靈 vs 動物、鋸齒狀智能）
應用在演化（Vibe Coding、LLM GUI）

但更重要的是，旅程才剛剛開始。

正如 Karpathy 所說：Strap in（系好安全帶）。 (AI Daily Insights)