人工智慧(AI)最近的進步主要歸結於一點:規模。
大約在本世紀初,人工智慧實驗室注意到,不斷擴大演算法或模型的規模,並持續為其提供更多資料,可以極大地提高演算法和模型的性能。
最新的一批AI模型擁有數千億到超過兆個內部網路連線,並通過消耗網際網路的大量資源,學會像我們一樣編寫程式碼。
訓練更大的演算法需要更強的計算能力。因此,根據非營利性人工智慧研究機構EpochAI的資料,為了達到這一點,專門用於人工智慧訓練的計算能力每年都在翻兩番。
如果這一增長持續到2030年,未來的AI模型將擁有比當今最先進的演算法(如OpenAI的GPT-4)高出10,000倍的計算能力。
Epoch在最近的一份研究報告中寫道:“如果繼續下去,我們可能會在本十年末看到人工智慧的巨大進步,就像2019年GPT-2的簡陋文字生成和2023年GPT-4的複雜問題解決能力之間的差別一樣。”
但現代人工智慧已經吸納了大量的電力、數以萬計的先進晶片和數兆的線上實例。與此同時,該行業已經經歷了晶片短缺,而且研究表明它可能會耗盡高品質的訓練資料。
假設公司繼續投資人工智慧擴展:這樣的增長速度在技術上可行嗎?
Epoch在報告中探討了人工智慧擴展的四大制約因素:電力、晶片、資料和延遲。總結:保持增長在技術上是可能的,但並不確定。原因如下:
電根據Epoch的資料,這相當於23000個美國家庭的年耗電量。但是,即使提高了效率,在2030年訓練一個前沿人工智慧模型所需的電力也將是現在的200倍,即大約6千兆瓦。這相當於目前所有資料中心耗電量的30%。
能提供這麼多電力的發電廠很少,而且大多數發電廠可能都簽訂了長期合同。但這是假設一個發電站就能為一個資料中心供電。
Epoch認為,企業將尋找可以通過當地電網從多個發電廠供電的地區。考慮到計畫中的公用事業增長,走這條路雖然吃緊,但還是有可能的。
為了更好地打破瓶頸,公司可以在多個資料中心之間分配訓練。在這種情況下,它們會在多個地理位置獨立的資料中心之間分批傳輸訓練資料,從而降低任何一個資料中心的電力需求。
這種策略需要快速、高頻寬的光纖連接,在技術上是可行的,Google雙子座超級電腦的訓練運行就是一個早期的例子。
總而言之,Epoch提出了從1千兆瓦(本地電源)到45千兆瓦(分佈式電源)的各種可能性。公司利用的電力越多,可訓練的模型就越大。在電力有限的情況下,可以使用比GPT-4高出約10000倍的計算能力來訓練模型。
所有這些電力都用於運行人工智慧晶片。其中一些晶片向客戶提供完整的人工智慧模型;一些則訓練下一批模型。Epoch仔細研究了後者。
人工智慧實驗室使用圖形處理器(GPU)訓練新模型,而輝達是GPU領域的佼佼者。台積電(TSMC)生產這些晶片,並將它們與高頻寬記憶體夾在一起。預測必須考慮到所有這三個步驟。根據Epoch的說法,GPU生產可能還有剩餘產能,但記憶體和封裝可能會阻礙發展。
這考慮到預計的行業產能增長,他們認為2030年可能會有2000萬到4億個AI晶片用於AI訓練。其中一些將用於現有模型,而人工智慧實驗室只能購買其中的一小部分。
範圍如此之大,說明模型存在很大的不確定性。但考慮到預期的晶片容量,他們認為一個模型可以在比GPT-4高出約5萬倍的計算能力上進行訓練。
眾所周知,人工智慧對資料的渴求和即將到來的稀缺性是一個制約因素。有人預測,到2026年,高品質的公開資料流將枯竭。但Epoch認為,至少在2030年之前,資料稀缺不會阻礙模型的發展。
他們寫道,按照目前的增長速度,人工智慧實驗室將在五年內耗盡高品質的文字資料,版權訴訟也可能影響供應。
Epoch認為這給他們的模型增加了不確定性。但即使法院做出有利於版權持有者的判決,像VoxMedia、《時代》、《大西洋月刊》等公司改採取的複雜的執法和許可協議也意味著對供應的影響將是有限的。
但至關重要的是,現在的模型在訓練中不僅僅使用文字。例如,Google的Gemini就是通過圖像、音訊和視訊資料進行訓練的。
非文字資料可以通過字幕和指令碼的方式增加文字資料的供應。非文字資料還可以擴展模型的能力,比如識別冰箱食物的圖片並推薦晚餐。
更推測性的是,它甚至可能導致遷移學習,即在多種資料類型上訓練出來的模型優於僅在一種資料類型上訓練出來的模型。
Epoch稱,還有證據表明,合成資料可以進一步擴巨量資料量,但具體有多少還不清楚。
DeepMind長期以來一直在其強化學習演算法中使用合成資料,Meta公司也使用了一些合成資料來訓練其最新的人工智慧模型。
但是,在不降低模型質量的前提下,使用多少合成資料可能會有硬性限制。而且,合成資料的生成還需要更昂貴的計算能力。
不過總的來說,包括文字、非文字和合成資料在內,Epoch估計有足夠的資料來訓練人工智慧模型,其計算能力是GPT-4的8萬倍。
最後一個限制因素與即將推出的演算法的規模有關。演算法越大,資料穿越其人工神經元網路所需的時間就越長。這可能意味著訓練新演算法所需的時間變得不切實際。
這一點有些技術性。簡而言之,Epoch考察了未來模型的潛在規模、平行處理的訓練資料批次規模,以及在人工智慧資料中心伺服器內部和伺服器之間處理資料所需的時間。這樣就能估算出訓練一個一定規模的模型需要多長時間。
主要啟示以目前的設定來訓練人工智慧模型終究會遇到天花板,但不會持續太久。
據Epoch估計,按照目前的做法,我們可以用比GPT-4高出100萬倍的計算能力來訓練人工智慧模型。
我們會注意到,在每種限制條件下,可能的人工智慧模型的規模都會變大,也就是說,晶片的上限比功率高,資料的上限比晶片高,以此類推。
但是,如果我們把所有限制因素放在一起考慮,那麼模型只能在遇到第一個瓶頸時才有可能實現。在這種情況下,瓶頸就是功率。即便如此,技術上還是可以實現大幅擴展。
Epoch認為:“如果綜合考慮,這些人工智慧瓶頸意味著到本十年末,訓練運行高達2e29FLOP是可行的。”
這將代表著相對於當前模型的大約10,000倍的擴展,意味著歷史上的擴展趨勢可以不間斷地持續到2030年。
雖然所有這些都表明持續擴展在技術上是可能的,但這也做出了一個基本假設:人工智慧投資將按需要增長,以資助擴展,並且擴展將繼續產生令人印象深刻的進步,更重要的是,有用的進步。
目前,各種跡象表明,科技公司將繼續投入歷史性的巨額現金。在人工智慧的推動下,新裝置和不動產等方面的支出已經躍升至多年來從未見過的水平。
Alphabet首席執行官Sundar Pichai在上一季度的財報電話會議上表示:“經歷這樣的曲線時,投資不足的風險要遠遠大於投資過度的風險。”
但支出還需要進一步增長。Anthropic公司首席執行官Dario Amodei估計,今天訓練的模型成本可能高達10億美元,明年的模型成本可能接近100億美元,此後幾年每個模型的成本可能達到1000億美元。
這是一個令人眼花繚亂的數字,但企業可能願意為此付出代價。據報導,微軟已經為其Stargate人工智慧超級電腦投入了這麼多資金,該項目是微軟與OpenAI的合作項目,將於2028年推出。
不言而喻,投資數百億或數千億美元的意願並不能保證。畢竟這一數字超過許多國家的GDP和科技巨頭目前年收入的一大部分。隨著人工智慧的光芒逐漸褪去,人工智慧能否持續增長可能會變成一個“你最近為我做了什麼”的問題。
投資者已經在檢查底線。如今,投資金額與回報金額相比相形見絀。為了證明加大投入是合理的,企業必須證明其規模不斷擴大,能夠生產出更多更強大的人工智慧模型。
這意味著即將推出的模型面臨著越來越大的壓力,必須超越漸進式的改進。如果收益下降,或者有足夠多的人不願意為人工智慧產品買單,情況可能會發生變化。
此外,一些評論家認為,大型語言和多模態模型可能只是個昂貴的死胡同。而且,總有可能出現突破,就像這一輪的突破一樣,表明我們可以用更少的資源完成更多的任務。我們的大腦只需一個燈泡的能量就能持續學習,而不需要網際網路那樣龐大的資料量。
Epoch稱,儘管如此,如果目前的方法“能將相當一部分經濟任務自動化”,其經濟回報可能高達數兆美元,足以證明花費的合理性。許多業內人士都願意下這個賭注。但究竟結果如何,目前還不得而知。 (元宇宙之心MetaverseHub)