ChatGPT背後人工智能算法,關鍵的原創技術,其實全部都是國外公司發明的。這裡做一點簡單的科普,人工智能原創性研究,ChatGPT不是普通的公司能夠復刻的出來的。所以,大A的炒作,洗洗睡吧。
深度殘差網絡(ResNet)
深度殘差網絡(ResNet)由微軟(亞洲)研究院發明。在此之前,研究員們發現深度神經網絡的效果要比淺層神經網絡要好得多,這也就是所謂的深度學習。
但是,一旦神經網絡過於深,那麼網絡學習、訓練的過程就會爆炸,也就是人工智能學不出來了,這很奇怪,理論上網絡越深越好。
為了解決這個問題,在普通的神經網絡的基礎上,ResNet提出了殘差連接,也就是把淺層部分的表徵直接加和到深層,防止深度網絡出現退化。因為淺層的直接連接,所以保證了網絡至少能夠有淺層的水平,後面的深層部分擺爛也不要緊。
這篇論文的影響是深刻的,是頂級會議“計算機視覺與模式識別”(CVPR)的最佳論文,之後這個殘差網絡的技術滲透到了所有的神經網絡結構,包括AlphaGo和ChatGPT,成為了深度學習的基礎。甚至可以說,這篇論文奠定了2015年之後深度學習的黃金發展期。
Transformer(沒有中文翻譯,勉強翻譯成“變形金剛”)
Transformer由谷歌提出,其原理是提出了自註意力機制(Attention),具體比較複雜,我就不展開了。
這篇文章直接改變了深度學習模型的設計理念。在此之前,圖像數據,例如人臉識別,一般適用卷積神經網絡(CNN),例如上述提到的ResNet就是嵌入到CNN中做圖像識別和目標檢測。然後文本數據、自然語言數據,一般採用循環神經網絡(RNN)處理。
但是,Transformer在圖像上戰勝了CNN,在文本上戰勝了RNN,成為大一統模型!甚至,我們現在做AI+創新藥,也用Transformer建模藥物分子,其他的模型結構幾乎全部被淘汰了!
Transformer除了大一統,多才多藝處理所有類型的數據之外,還把深度學習向著大模型方向引導,ChatGPT便是大模型,我們馬上會介紹。
BERT
BERT還是由谷歌提出,預訓練深層的雙向Transformer。
首先,預訓練旨在用大量的數據訓練一個模型,這就要求這個模型“腦容量”足夠大,所以需要用到深層的雙向Transformer。上古時期的CNN、RNN沒有這麼強大的學習能力。
其次,預訓練是怎麼做的呢?其實很簡單:
(1)比如有一段文字,我隨機的去掉一些單詞,然後讓模型複原出來這些被去掉的單詞。
(2)我手裡有一段故事,其中有很多句子。我把這些句子隨機打亂,拿出兩句句子A和B,問你:A是不是B的下一句句子?也就是上下文預測。
注意,這樣的預訓練不需要去標註數據,只需要輸入大量的語料庫即可。這就加速了數據的收集。
其次,很重要的一點是這樣的模型預訓練完成之後,能夠去做其他的自然語言任務。只需要在下游其他任務的小數據上面進行微調即可,實現了一個模型打天下。在以前,不同的自然語言任務都需要不同的算法去處理,但是BERT經過微調之後可以處理所有任務。
GPT
ChatGPT的基礎便是OpenAI提出的GPT,他做的事情和BERT差不多,也就是預訓練,只是預訓練的方式不一樣。
GPT全名叫做Generative Pre-trained Transformer,用生成式方法預訓練的Transformer,知道我為什麼要大篇幅介紹Transformer和預訓練了吧?
GPT-3有1750億參數,45TB的訓練數據(1TB=1000GB),燒了1200萬美元的費用進行訓練。訓練所使用的設備包括285000 個CPU和10000 個GPU。這個模型的護城河有兩點:(1)訓練數據的收集,(2)訓練和維護所產生的費用。
拓展:AIGC
AIGC中的圖像生成是怎麼火起來的呢?是一個叫做擴散模型(Diffusion Model)的生成模型。
首先,生成模型已經有10多年的研究歷史了,比較知名的有:
(1)生成對抗網絡(GAN),加拿大蒙特利爾大學研究者於2014年提出。
(2)變分自編碼器(VAE),2013年被荷蘭阿姆斯特丹大學的研究者提出。
(3)歸一化流(Normalizing Flow),谷歌於2015年提出。
但是上述的三個模型在生成高清圖像上效果均不理想,所以沒有商用化的潛力。
但是,擴散模型改變了這一切。擴散模型可以追溯到2015年,被美國斯坦福大學和加州大學伯克利分校的研究者提出:
後來在2022年被發揚光大。Stable Diffusion(穩定擴散模型)的開源,加速了其應用,所謂的開源就是把代碼公開,這樣所有人都能使用。且Stable Diffusion是海外機構——一個德國慕尼黑的大學Ludwig Maximilian University of Munich開源的。
注意到,Diffusion是沒有商業護城河的,因為算法是公開的,所有人都能使用,且訓練快速,稍微有幾張顯卡就能使用,門檻很低。
總結
ChatGPT模型的護城河在於訓練數據收集和燒錢的計算過程,因此,除了百度這種在人工智能領域有一定積累的大公司,既有數據的積累,也有研究上的積累,其他公司洗洗睡吧。(胡紫怡)
