ChatGPT背後人工智能算法

2023/02/05

•

ChatGPT背後人工智能算法，關鍵的原創技術，其實全部都是國外公司發明的。這裡做一點簡單的科普，人工智能原創性研究，ChatGPT不是普通的公司能夠復刻的出來的。所以，大A的炒作，洗洗睡吧。

深度殘差網絡（ResNet）由微軟（亞洲）研究院發明。在此之前，研究員們發現深度神經網絡的效果要比淺層神經網絡要好得多，這也就是所謂的深度學習。

但是，一旦神經網絡過於深，那麼網絡學習、訓練的過程就會爆炸，也就是人工智能學不出來了，這很奇怪，理論上網絡越深越好。

為了解決這個問題，在普通的神經網絡的基礎上，ResNet提出了殘差連接，也就是把淺層部分的表徵直接加和到深層，防止深度網絡出現退化。因為淺層的直接連接，所以保證了網絡至少能夠有淺層的水平，後面的深層部分擺爛也不要緊。

這篇論文的影響是深刻的，是頂級會議“計算機視覺與模式識別”（CVPR）的最佳論文，之後這個殘差網絡的技術滲透到了所有的神經網絡結構，包括AlphaGo和ChatGPT，成為了深度學習的基礎。甚至可以說，這篇論文奠定了2015年之後深度學習的黃金發展期。

Transformer由谷歌提出，其原理是提出了自註意力機制（Attention），具體比較複雜，我就不展開了。

這篇文章直接改變了深度學習模型的設計理念。在此之前，圖像數據，例如人臉識別，一般適用卷積神經網絡（CNN），例如上述提到的ResNet就是嵌入到CNN中做圖像識別和目標檢測。然後文本數據、自然語言數據，一般採用循環神經網絡（RNN）處理。

但是，Transformer在圖像上戰勝了CNN，在文本上戰勝了RNN，成為大一統模型！甚至，我們現在做AI+創新藥，也用Transformer建模藥物分子，其他的模型結構幾乎全部被淘汰了！

Transformer除了大一統，多才多藝處理所有類型的數據之外，還把深度學習向著大模型方向引導，ChatGPT便是大模型，我們馬上會介紹。

BERT還是由谷歌提出，預訓練深層的雙向Transformer。

首先，預訓練旨在用大量的數據訓練一個模型，這就要求這個模型“腦容量”足夠大，所以需要用到深層的雙向Transformer。上古時期的CNN、RNN沒有這麼強大的學習能力。

其次，預訓練是怎麼做的呢？其實很簡單：

（1）比如有一段文字，我隨機的去掉一些單詞，然後讓模型複原出來這些被去掉的單詞。

（2）我手裡有一段故事，其中有很多句子。我把這些句子隨機打亂，拿出兩句句子A和B，問你：A是不是B的下一句句子？也就是上下文預測。

注意，這樣的預訓練不需要去標註數據，只需要輸入大量的語料庫即可。這就加速了數據的收集。

其次，很重要的一點是這樣的模型預訓練完成之後，能夠去做其他的自然語言任務。只需要在下游其他任務的小數據上面進行微調即可，實現了一個模型打天下。在以前，不同的自然語言任務都需要不同的算法去處理，但是BERT經過微調之後可以處理所有任務。

ChatGPT的基礎便是OpenAI提出的GPT，他做的事情和BERT差不多，也就是預訓練，只是預訓練的方式不一樣。

GPT全名叫做Generative Pre-trained Transformer，用生成式方法預訓練的Transformer，知道我為什麼要大篇幅介紹Transformer和預訓練了吧？

GPT-3有1750億參數，45TB的訓練數據（1TB=1000GB），燒了1200萬美元的費用進行訓練。訓練所使用的設備包括285000 個CPU和10000 個GPU。這個模型的護城河有兩點：（1）訓練數據的收集，（2）訓練和維護所產生的費用。

AIGC中的圖像生成是怎麼火起來的呢？是一個叫做擴散模型（Diffusion Model）的生成模型。

首先，生成模型已經有10多年的研究歷史了，比較知名的有：

（1）生成對抗網絡（GAN），加拿大蒙特利爾大學研究者於2014年提出。

（2）變分自編碼器（VAE），2013年被荷蘭阿姆斯特丹大學的研究者提出。

（3）歸一化流（Normalizing Flow），谷歌於2015年提出。

但是上述的三個模型在生成高清圖像上效果均不理想，所以沒有商用化的潛力。

但是，擴散模型改變了這一切。擴散模型可以追溯到2015年，被美國斯坦福大學和加州大學伯克利分校的研究者提出：

後來在2022年被發揚光大。Stable Diffusion（穩定擴散模型）的開源，加速了其應用，所謂的開源就是把代碼公開，這樣所有人都能使用。且Stable Diffusion是海外機構——一個德國慕尼黑的大學Ludwig Maximilian University of Munich開源的。

注意到，Diffusion是沒有商業護城河的，因為算法是公開的，所有人都能使用，且訓練快速，稍微有幾張顯卡就能使用，門檻很低。

ChatGPT模型的護城河在於訓練數據收集和燒錢的計算過程，因此，除了百度這種在人工智能領域有一定積累的大公司，既有數據的積累，也有研究上的積累，其他公司洗洗睡吧。（胡紫怡）