AI的“下一步”,OpenAI並沒有讓市場等太久。
3月15日,OpenAI正式發布了多模態預訓練大模型GPT-4。作為迄今為止規模最大、功能最強大的多模態預訓練模型,GPT-4實現了語言與圖片的融合,令計算機更好地理解了人類的交流方式。
“這是OpenAI努力擴展深度學習的最新里程碑。” OpenAI在對GPT-4的官方介紹中表示,“GPT-4是一個大型多模態模型,它接受圖像和文本輸入、進行文本輸出,雖然在許多現實場景中它尚不如人類,但在各種專業和學術基准上表現出與人類相當的性能。”
自1956年人工智能概念首次被提出後,人工智能在巔峰與暗流中游走數年,如今再次來到了轉折時刻。
“我能考贏90%的人類”
從整體而言,GPT-4實現了多重能力的躍升。
與此前的版本相比,GPT4在語言、文本、圖像三個層面利用大量數據訓練AI系統。由此,GPT-4具備強大的識圖能力,文字輸入限制也提升至2.5萬字;GPT-4的回答準確性也顯著提升,還能夠生成歌詞、創意文本從而實現風格變化。同時,GPT-4在各類專業測試及學術基准上也表現優良。
“在日常對話中,GPT-4與GPT-3.5之間的差距或許微妙,但當任務複雜度足夠高的時候,GPT-4將具備更可靠、更具創造性的特點,且能夠處理更細緻的指令。”圍繞GPT-4與前代大模型的對比,OpenAI介紹稱。
例如,根據OpenAI公佈的實驗數據,GPT-4參加了多種基准考試測試,包括美國律師資格考試Uniform Bar Exam、法學院入學考試LSAT、“美國高考” SAT數學部分和證據性閱讀與寫作部分的考試,在這些測試中,它的得分高於88%的應試者。相較之下,GPT-3.5版本大模型的成績是倒數10%。
“如果說GPT3系列模型給大家證明了,AI能夠在一個模型裡做多個任務(也就是所謂通用),GPT4在很多任務上已經是人類水平(human-level),在很多專業和學術考試上超越90%的人類。”出門問問創始人&CEO李志飛評論稱。
除了足夠“聰明”之外,相較於此前的GPT模型而言,GPT-4最大的突破之一是在文本之外還能夠處理圖像內容。OpenAI表示,用戶同時輸入文本和圖像的情況下,比如帶有文本和照片的文檔、圖表或者屏幕截圖,它能夠生成相應的自然語言和代碼等文本。
除了普通圖片,GPT-4還能處理更複雜的圖像信息,包括表格、考試題目截圖、論文截圖、漫畫等。
此外,在多語種方面,GPT-4也體現出優越性。在測試的26種語言中,GPT-4在24種語言方面的表現均優於GPT-3.5等其他大語言模型的英語語言性能,其中包括部分低資源語言如拉脫維亞語、威爾士語等。在中文語境中,GPT-4能夠達到80.1%的準確性。
與ChatGPT語言風格平靜、固定冗長的特點不同, GPT-4引入了全新的API功能“系統”消息,允許用戶以及開發人員通過該功能定制AI風格和任務,實現不同的用戶體驗。
儘管GPT-4功能強大,但同時OpenAI仍坦言,與早期GPT模型類似,GPT-4也具備局限性。其依然會形成推理錯誤,因而在使用語言模型輸出時需要非常小心,最好以人工核查、附加上下文或避免高風險使用的方式予以輔助。
在參數量方面,此次OpenAI並未公佈GPT-4的模型參數和數據規模,也並未給出技術原理。此前,GPT-3的參數量則為1750億。OpenAI 表示,正在開源OpenAI Evals 軟件框架,它被用於創建和運行基準測試以評估GPT-4 等模型,同時可以逐樣本地檢查模型性能。
“GPT-4的模型發布,本身是技術持續升級迭代發展的必然階段。 AI行業每一年都會有些新模型發布,趨勢就是大模型、多模態。”在接受21世紀經濟報導記者採訪時,IDC中國研究總監盧言霞表示,“多模態肯定是必然趨勢,畢竟AI要真正達到人的智慧,需要處理多模數據。且在各行業場景裡,大都是涉及多模態數據的處理。”
探索商業應用
儘管GPT-4已經引爆輿論,多位從業人員躍躍欲試,但目前GPT-4沒有免費版本。
從應用角度而言,在GPT-4發布後,OpenAI也直接升級了ChatGPT。目前,GPT-4的訪問權限僅面向ChatGPT Plus的付費訂閱用戶及企業和開發者開放。OpenAI方面稱,想要訪問GPT-4的API,用戶可以註冊等待,公司將邀請部分開發者進行體驗。
目前,GPT-4已有部分行業應用。根據OpenAI官網給出的案例,GPT4已在教育、社會公益、金融、娛樂等方面進行應用並展開商業合作,包括Duolingo(多鄰國)、Khan Academy(可汗學院)等教育企業。
此外,在微軟的產品生態中,GPT-4也有落地。在GPT-4發布後,微軟方面宣布,目前全新必應預覽版中已經搭載了定製版本的GPT-4。
“微軟有望在產業中通過GPT-4不斷拓展下游新興領域,應用於更多的場景中,並利用其多模態模型成本改變傳統AI客制化與定制化的特點,逐步向通用化方向發展。”華鑫證券計算機研究團隊分析稱。
作為微軟的對手之一,谷歌也在緊鑼密鼓地追趕ChatGPT。近日,谷歌聯合柏林工業大學團隊推出史上最大的視覺語言模型——PaLM-E,參數量高達5620億。作為一種多模態具身視覺語言模型(VLM),PaLM-E不僅可以理解圖像,還能理解、生成語言,可以執行各種複雜的機器人指令而無需重新訓練。
而在3月14日,谷歌進一步宣布,計劃將人工智能技術整合到Gmail電子郵件和Google Docs文檔等辦公應用中。谷歌的一位發言人表示,將向部分個人消費者和一些商業及教育用戶開放上述新功能,但並未說明何時將廣泛推出這些新功能,以及是否會額外收費。
不過從用戶角度而言,對GPT-4的熱情仍高於一切。由於GPT-4僅限於ChatGPT Plus訂閱用戶使用,當晚大批新訂用戶湧入,以至於OpenAI的付款系統一度宕機。
不僅僅是GPT-4,市面上所有的大模型,都有可能替代現有的AI應用。關鍵是在哪些場景裡,大模型能夠取得比現有應用更好的效果。(21tech)