AI升級：正在接近“人”的GPT-4

2023/03/15

•

AI的“下一步”，OpenAI並沒有讓市場等太久。

3月15日，OpenAI正式發布了多模態預訓練大模型GPT-4。作為迄今為止規模最大、功能最強大的多模態預訓練模型，GPT-4實現了語言與圖片的融合，令計算機更好地理解了人類的交流方式。

“這是OpenAI努力擴展深度學習的最新里程碑。” OpenAI在對GPT-4的官方介紹中表示，“GPT-4是一個大型多模態模型，它接受圖像和文本輸入、進行文本輸出，雖然在許多現實場景中它尚不如人類，但在各種專業和學術基准上表現出與人類相當的性能。”

自1956年人工智能概念首次被提出後，人工智能在巔峰與暗流中游走數年，如今再次來到了轉折時刻。

“我能考贏90%的人類”

從整體而言，GPT-4實現了多重能力的躍升。

與此前的版本相比，GPT4在語言、文本、圖像三個層面利用大量數據訓練AI系統。由此，GPT-4具備強大的識圖能力，文字輸入限制也提升至2.5萬字；GPT-4的回答準確性也顯著提升，還能夠生成歌詞、創意文本從而實現風格變化。同時，GPT-4在各類專業測試及學術基准上也表現優良。

“在日常對話中，GPT-4與GPT-3.5之間的差距或許微妙，但當任務複雜度足夠高的時候，GPT-4將具備更可靠、更具創造性的特點，且能夠處理更細緻的指令。”圍繞GPT-4與前代大模型的對比，OpenAI介紹稱。

例如，根據OpenAI公佈的實驗數據，GPT-4參加了多種基准考試測試，包括美國律師資格考試Uniform Bar Exam、法學院入學考試LSAT、“美國高考” SAT數學部分和證據性閱讀與寫作部分的考試，在這些測試中，它的得分高於88%的應試者。相較之下，GPT-3.5版本大模型的成績是倒數10%。

“如果說GPT3系列模型給大家證明了，AI能夠在一個模型裡做多個任務（也就是所謂通用），GPT4在很多任務上已經是人類水平（human-level），在很多專業和學術考試上超越90%的人類。”出門問問創始人&CEO李志飛評論稱。

除了足夠“聰明”之外，相較於此前的GPT模型而言，GPT-4最大的突破之一是在文本之外還能夠處理圖像內容。OpenAI表示，用戶同時輸入文本和圖像的情況下，比如帶有文本和照片的文檔、圖表或者屏幕截圖，它能夠生成相應的自然語言和代碼等文本。

除了普通圖片，GPT-4還能處理更複雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等。

此外，在多語種方面，GPT-4也體現出優越性。在測試的26種語言中，GPT-4在24種語言方面的表現均優於GPT-3.5等其他大語言模型的英語語言性能，其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中，GPT-4能夠達到80.1%的準確性。

與ChatGPT語言風格平靜、固定冗長的特點不同， GPT-4引入了全新的API功能“系統”消息，允許用戶以及開發人員通過該功能定制AI風格和任務，實現不同的用戶體驗。

儘管GPT-4功能強大，但同時OpenAI仍坦言，與早期GPT模型類似，GPT-4也具備局限性。其依然會形成推理錯誤，因而在使用語言模型輸出時需要非常小心，最好以人工核查、附加上下文或避免高風險使用的方式予以輔助。

在參數量方面，此次OpenAI並未公佈GPT-4的模型參數和數據規模，也並未給出技術原理。此前，GPT-3的參數量則為1750億。OpenAI 表示，正在開源OpenAI Evals 軟件框架，它被用於創建和運行基準測試以評估GPT-4 等模型，同時可以逐樣本地檢查模型性能。

“GPT-4的模型發布，本身是技術持續升級迭代發展的必然階段。 AI行業每一年都會有些新模型發布，趨勢就是大模型、多模態。”在接受21世紀經濟報導記者採訪時，IDC中國研究總監盧言霞表示，“多模態肯定是必然趨勢，畢竟AI要真正達到人的智慧，需要處理多模數據。且在各行業場景裡，大都是涉及多模態數據的處理。”

探索商業應用

儘管GPT-4已經引爆輿論，多位從業人員躍躍欲試，但目前GPT-4沒有免費版本。

從應用角度而言，在GPT-4發布後，OpenAI也直接升級了ChatGPT。目前，GPT-4的訪問權限僅面向ChatGPT Plus的付費訂閱用戶及企業和開發者開放。OpenAI方面稱，想要訪問GPT-4的API，用戶可以註冊等待，公司將邀請部分開發者進行體驗。

目前，GPT-4已有部分行業應用。根據OpenAI官網給出的案例，GPT4已在教育、社會公益、金融、娛樂等方面進行應用並展開商業合作，包括Duolingo（多鄰國）、Khan Academy（可汗學院）等教育企業。

此外，在微軟的產品生態中，GPT-4也有落地。在GPT-4發布後，微軟方面宣布，目前全新必應預覽版中已經搭載了定製版本的GPT-4。

“微軟有望在產業中通過GPT-4不斷拓展下游新興領域，應用於更多的場景中，並利用其多模態模型成本改變傳統AI客制化與定制化的特點，逐步向通用化方向發展。”華鑫證券計算機研究團隊分析稱。

作為微軟的對手之一，谷歌也在緊鑼密鼓地追趕ChatGPT。近日，谷歌聯合柏林工業大學團隊推出史上最大的視覺語言模型——PaLM-E，參數量高達5620億。作為一種多模態具身視覺語言模型（VLM），PaLM-E不僅可以理解圖像，還能理解、生成語言，可以執行各種複雜的機器人指令而無需重新訓練。

而在3月14日，谷歌進一步宣布，計劃將人工智能技術整合到Gmail電子郵件和Google Docs文檔等辦公應用中。谷歌的一位發言人表示，將向部分個人消費者和一些商業及教育用戶開放上述新功能，但並未說明何時將廣泛推出這些新功能，以及是否會額外收費。

不過從用戶角度而言，對GPT-4的熱情仍高於一切。由於GPT-4僅限於ChatGPT Plus訂閱用戶使用，當晚大批新訂用戶湧入，以至於OpenAI的付款系統一度宕機。

不僅僅是GPT-4，市面上所有的大模型，都有可能替代現有的AI應用。關鍵是在哪些場景裡，大模型能夠取得比現有應用更好的效果。（21tech）