什麼是大模型蒸餾？一篇講透AI如何複製能力

2026/06/11

•

AI速讀

本文詳述 AI 知識蒸餾技術的三年跨度演進：2015 年辛頓定義了將大模型機率分佈（暗知識）傳遞給小模型的基礎；2023 年 Alpaca 證明了利用大模型生成資料可讓小模型模仿行為能力；2025 年 DeepSeek-R1 則將蒸餾對象升級為「推理過程」，使小模型不再僅是模仿語氣，而是學會思考。作者指出，這場革命打破了巨頭對算力的壟斷，讓強大智能得以在低資源环境下普及，標誌著 AI 進入能力分發的新時代。

一、那口鐵鍋

大約一千年前，某個中國釀酒師的作坊裡。

一口鐵鍋，滿滿噹噹裝著發酵了十天的酒醅。底下，炭火慢慢燒著。

酒精被加熱，變成蒸汽，順著竹管往上走，遇到冷水，重新凝結成液體，一滴一滴，落入陶罐。

釀酒師彎腰，用手指沾了一點，送到嘴邊。

烈。

比之前濃多了。

他可能沒意識到，他正在重現人類歷史上最精妙的物理提純過程。他不知道"蒸餾"這個詞，但他明白一件事：糧食裡有精華，要把精華取出來，你不能直接擠，不能直接過濾，你要先把它變成氣，再把氣變成液體。

精華，在蒸汽裡。

這個道理沿用了一千年——然後，被一個叫傑佛瑞·辛頓（Geoffrey Hinton）的英國老頭，用到了他絕對沒想到的地方。

二、那個悶聲幹了三十年的人

說到辛頓，先說說他的家譜。

他的高祖父是喬治·布林（George Boole）——今天所有程序裡的 if-else、and/or/not，布林代數，全是他的遺產。你每天用的手機，裡面跑的每一行程式碼，追根溯源都跟這個人有關。

所以有人說：辛頓的 DNA 裡大概真的有點什麼。

1980 年代，AI 界的主流是"專家系統"——把人類知識寫成規則，讓機器執行："如果患者發燒且白細胞升高，則診斷為感染。"這條路短期有效，吸引了大量資金和人才。

神經網路研究者是邊緣人。

辛頓是邊緣人裡的邊緣人。

他在多倫多大學埋著頭，研究一個沒人覺得有前途的問題：機器能不能從資料裡自己學會規律？不靠規則，不靠人工編碼，靠資料，靠連接，靠迭代。

主流 AI 圈的人覺得他在浪費時間，除了加拿大高等研究院（CIFAR）等極少數機構願意提供關鍵的資金續命，他幾乎是在邊緣地帶孤獨地幹了近三十年。

2012 年，他的學生亞歷克斯·克里熱夫斯基——旁邊還站著一個叫伊利亞·蘇茨克維爾的年輕人，後來 OpenAI 的聯合創始人——用 AlexNet 參加 ImageNet 圖像競賽，把第二名甩開了近 11 個百分點（10.9%）。

AI 圈當天炸鍋。

三十年的孤獨，在一個下午畫上了句號。

三、勝利之後，新的麻煩

但麻煩很快跟上來了。

深度學習爆發後，所有人都在做同一件事：堆參數。

VGG、GoogleNet、ResNet……每一代都比上一代更深更寬，效果也更好。道理簡單粗暴：想要更聰明的 AI，給它更多神經元就行。

然而這些模型，大到沒法用。

2013 年，辛頓加入 Google Brain。Google要把 AI 塞進 Android 手機——語音助手、圖像識別、即時翻譯。但一個動輒幾百 MB 的大模型，手機的晶片和記憶體根本承受不起。

辛頓想到一個問題：這些大模型，真的需要每一個參數嗎？

有人做過實驗：把訓練好的大型網路，隨機刪掉 90% 的參數。

結果……模型性能基本沒變。

等一下。

九成的參數，刪了，沒事。

這說明神經網路裡有大量冗餘。於是有人想：那直接訓練一個小網路代替大網路，行不行？

不行。

同樣的資料，同樣的方法，小網路就是學不到大網路那些精妙的特徵。你想省材料直接建小樓，樓歪了。那些冗餘，恰恰幫助了訓練——更多參數意味著更多梯度通路，更容易找到好的解。

那正確的路是什麼？

辛頓想到了那口鐵鍋，想到了那縷蒸汽。

四、答案藏在"錯誤"裡

2015 年，辛頓和Google工程神傑夫·迪恩（Jeff Dean）等人發了一篇論文——

Distilling the Knowledge in a Neural Network

知識蒸餾（Knowledge Distillation），正式登場。

核心思想，一句話：讓小模型不只學正確答案，而是學大模型對答案的完整"理解"。

聽起來抽象，我翻譯一下。

給大模型看一個手寫數字"2"，它的輸出是這樣的：

數字 2：機率 96.2%
數字 3：機率  2.1%
數字 8：機率  1.4%
其他數字：合計 0.3%

傳統訓練叫硬標籤：答案是 2，對；不是 2，錯。非黑即白。這就像一個只會打勾打叉、從不解釋為什麼的老師改卷子。

但辛頓盯著那個輸出，看到了別的東西——數字 3 有 2.1% 的機率，數字 8 有 1.4%。

這不是噪聲。這是知識。

這說明大模型認為：這個"2"的某些筆畫特徵，和"3"有點像；某些彎曲的方式，和"8"有點關聯。這是它看過數百萬張手寫數字之後，內化的對數字結構的深層理解——2 和 3 同族，和 8 也有淵源，和 7 基本沒關係。

這些藏在機率分佈裡的細微關聯，辛頓給它起了一個極好聽的名字：

暗知識（Dark Knowledge）。

物理學裡有暗物質——無法直接觀測，卻真實存在，影響著宇宙的結構。暗知識也是這樣：它不出現在最終答案裡，卻藏在那些微小的機率數值裡，代表著模型真正理解這個世界的方式。

用這些豐富的機率分佈來訓練小模型，而不是只告訴它"答案是 2"，小模型就能學到大模型對數字結構的深層理解，而不只是記住幾個正確答案。

這就是蒸餾的本質：傳遞理解，而不只是傳遞結論。

就像那口鐵鍋——你蒸餾的，不是酒醅本身，而是酒醅裡那縷昇華的精華。

五、溫度：把藏著的東西逼出來

但還有一個技術問題：大模型輸出的機率，通常極度集中。

"數字 2 的機率 96.2%，其他幾乎為 0"——這和硬標籤幾乎沒區別，那 2.1% 的暗知識幾乎看不見，淹沒在小數點後面。

怎麼把暗知識逼出來？

辛頓的解法叫溫度（Temperature）。

想想那口蒸餾鐵鍋。火候不夠，酒精蒸發太慢，雜質也多；火候太猛，水分全蒸發，精華也跑了。恰到好處的溫度，才能讓酒精那縷蒸汽，穩穩地順管升上去。

溫度參數的作用類似：把機率分佈"加熱"，讓原本壓縮在一個類別裡的確定性慢慢擴散到其他類別，那些被遮蔽的暗知識就浮出了水面。

訓練時溫度升高，暗知識清晰；推理時溫度恢復正常，給出明確答案。

學習時需要模糊，判斷時需要清晰。

這個邏輯，其實挺像人的。

論文發出去，一開始反響平平——很多人覺得"不就是軟化一下輸出嘛，有什麼大不了的"。但隨著時間推移，引用次數慢慢攀升，最終突破 2 萬次。每一次引用，都是一個研究者在說：這個洞察，改變了我的工作。

2018 年，辛頓獲得圖靈獎，電腦科學的諾貝爾獎。

那個在黑暗裡挖了三十年的人，終於看到了泉水湧出。

六、2023 年：600 美元的革命

辛頓的蒸餾論文誕生於 2015 年。那時候深度學習主要處理圖像分類這類"選擇題"，蒸餾用起來順手。

然後，語言模型來了。

2022 年 11 月，ChatGPT 橫空出世。普通人第一次覺得 AI 真的懂了自己的意思——能聊天、寫程式碼、分析合同、安慰失眠的人。

但這個東西，帶不回家。

GPT-4 的參資料傳超過兆，推理一次需要幾十張專業顯示卡同時工作，每次對話成本以美分計。部署到自己的伺服器上——那是大公司的遊戲。

於是一個樸素的念頭，在很多人腦海裡冒出來：

有沒有可能，讓一個小模型，學會 ChatGPT 的本事？

2023 年 3 月，史丹佛大學。幾個研究生坐在一起，做了一個頗為大膽的決定——用 ChatGPT 生成訓練資料，然後拿這些資料，微調 Meta 剛開放原始碼的 LLaMA-7B。

流程不複雜：先手工寫 175 條不同類型的指令，喂給 GPT-3.5，讓它基於這些例子自動生成更多的同類指令和對應回答。就這樣滾雪球，生成了 52000 條"指令-回答"資料。然後用這些資料微調 LLaMA。

整個計畫的預算：600 美元。

他們把訓練好的模型取名Alpaca（羊駝）。發佈當天，人們湧入試用，然後——

驚呆了。

這件事證明了一件重要的事：

大模型的"行為能力"，可以通過資料傳遞給小模型。

不需要復刻大模型的每一個參數，只需要讓大模型"表演"足夠多次，然後讓小模型照著學——這是一種新的蒸餾，不蒸機率分佈，蒸行為。

Alpaca 之後，開源社區沸騰了。Vicuna 來了，WizardLM 來了，微軟研究院的 Orca 來了……一串名字，代表了 2023 年最精彩的一段 AI 賽跑。

但這些模型有一個共同的天花板：

它們學會了怎麼聽起來聰明，但沒有真正學會怎麼想。

遇到真正需要推理的問題，很快就原形畢露。

這個天花板，兩年後被徹底打破了。

七、深水炸彈

2025 年 1 月 20 日，周一。

DeepSeek——杭州一家 2023 年成立的 AI 公司，背後是量化基金幻方科技——在 GitHub 上發佈了 R1 模型的技術報告，同時開放了一系列蒸餾版本的模型權重。

矽谷的研究者們陸續醒來，打開報告，沉默了相當長的時間。

一個320 億參數（32B）的蒸餾版本，在數學競賽測試 AIME 2024 上，得分 72.6%，超過了 OpenAI o1-mini 的 70.0%——而 o1-mini 的參數量，估計是它的數十倍。

數字是真實的，不是筆誤。

但比數字更讓人震撼的，是 DeepSeek 告訴了所有人：他們是怎麼做到的。

秘密並不神秘：蒸餾的不是答案，而是推理過程本身。

DeepSeek-R1 全量版是一個 671B 的巨型模型，通過強化學習訓練出了極強的推理能力。它解一道數學題時，會先在"思考區域"裡寫出完整過程——嘗試因式分解，展開驗證，代入檢驗，發現算錯了，重頭再來——像一個認真的學生打草稿，把所有中間步驟都寫出來，才給出最終答案。

然後，DeepSeek 把 R1 生成的這些帶完整推理過程的資料，用來訓練 7B 的小模型。

小模型學到的，不是"這道題答案是 x=2 或 x=3"，而是"遇到二次方程，先試因式分解，展開驗證，最後代入檢驗"——一套推理範本，思維方式本身。

這就是為什麼效果截然不同：

Alpaca 的學生，背了很多優秀作文，能模仿語氣，但不會真正寫作。

DeepSeek 蒸餾出來的學生，跟著老師做了大量解題，真正學會瞭解題。

這是蒸餾技術的一次質的飛躍：從傳遞知識，到傳遞能力。從讓小模型知道答案，到讓小模型學會思考。

八、三扇門

退一步，看清這場十年演變的全貌。

2015 年，辛頓的論文。知識可以蒸餾，答案裡有暗知識，用軟標籤傳遞大模型的深層理解。

這是奠基。一個大腦對世界的理解，可以流進一個更小的大腦。

2023 年，Alpaca。大模型的行為可以用資料傳遞，開源社區可以用 600 美元蒸餾出有用的小模型。

這是民主化。AI 的能力開始流出大公司的邊界，流向普通人的手裡。

2025 年，DeepSeek-R1。推理能力本身可以被蒸餾，小模型能獲得真正的思維能力，而不只是表面的流暢。

這是突破。我們第一次看到，一個真正會推理的小模型，從一個更大的大腦裡被蒸餾出來。

三次進步，三扇門。

但為什麼這件事重要？重要的不只是"小模型變強了"，重要的是：

AI 的能力，不再只屬於少數擁有巨型算力的機構。

OpenAI 訓練 GPT-4，據說超過一億美元。通過蒸餾，一個初創公司、一所大學、一個有好奇心的工程師，可以在有限資源下，訓練出在特定任務上接近 GPT-4 水平的專用模型。

這個邏輯，有點像當年的 Android——智慧型手機不再只是蘋果一家的專屬，製造門檻被拉低，能力被廣泛分發。

蒸餾，是 AI 世界的 Android 時刻。

當然，隱憂也是真實的。蒸餾有天花板——小模型最多和老師一樣強，不能超越。蒸餾有倫理爭議——OpenAI 的服務條款明確禁止用 API 輸出訓練競爭產品，整個開源社區都在這條線上跳舞。這些問題，沒有簡單的答案。

但有一點是確定的：這扇門，已經打開了。

尾聲：那縷蒸汽

我們繞了一圈，回到開頭那口鐵鍋。

一千年前的釀酒師不知道"蒸餾"這個詞，但他明白精華在蒸汽裡。後來，煉金術士繼承了這個思路，阿拉伯學者把它系統化，歐洲化學家把它提煉成科學，香水師用它萃取玫瑰的靈魂，醫藥師用它提純有效成分……

蒸餾這件事，在人類歷史裡出現了無數次，每次介質不同，但道理相同：

複雜裡有精華。提取精華，讓精華流動，讓更多人用上精華——這是人類對知識傳遞最本能的衝動。

從糧食裡提酒，從教師的大腦裡提知識，從兆參數的模型裡提推理能力——形式變了，本質沒變。

辛頓當年在多倫多堅持的那個信念——智能可以從資料裡學出來——現在有了一個新的推論：

智能，也可以從大腦傳遞到小腦。

那縷蒸汽，升起來了。

它會凝結成什麼，落在那裡，我們還不知道。

但它已經在路上了。 (AI Native啟示錄)

科技