GPT-4正式發布, 具備多模態和超越上一代的專業學術能力

OpenAI:我們剛剛發布了GPT-4,這是OpenAI在擴大深度學習方面的最新里程碑。1 )GPT-4是一個大型的多模態模型(接受圖像和文本輸入,發出文本輸出),雖然在許多現實世界的場景中能力不如人類。2 )但GPT-4在各種專業和學術基准上表現出人類水平的表現。

例如它通過了模擬的律師考試,分數在應試者的前10%;相比之下GPT-3.5的分數則在後10%左右。我們花了6個月的時間,利用我們對抗學習和來自ChatGPT的經驗反複調整GPT-4,結果在事實性、可引導性以及合規性取得了有史以來最好的結果(儘管遠非完美)。

在過去的兩年裡,我們重建了整個深度學習堆棧,並與Azure一起,為我們的工作負荷從頭開始共同設計了一台超級計算機。一年前,我們訓練了GPT-3.5作為系統的第一次"試運行"。我們發現並修復了一些錯誤,並改進了我們的理論基礎。因此,我們的GPT-4訓練運行(至少對我們來說是如此!)前所未有的穩定,成為我們第一個訓練性能能夠提前準確預測的大型模型。隨著我們繼續專注於可靠的擴展,我們的目標是磨練我們的方法,以幫助我們越來越提前地預測和準備未來的能力--我們認為這對安全至關重要。

我們正在通過ChatGPT和API發布GPT-4的文本輸入功能。為了準備更廣泛地提供圖像輸入功能,我們正在與一個合作夥伴緊密合作,以開始。我們還在開源OpenAI Evals,這是我們自動評估人工智能模型性能的框架,允許任何人報告我們模型中的缺點,以幫助指導進一步的改進。


GPT4與上一代GPT3.5在不同考試中的分數對比

展望-圖像輸入:GPT-4可以接受文本和圖像的提示,這與純文本平行,讓用戶指定任何視覺或語言任務。具體來說,它可以生成文本輸出(自然語言、代碼等),給定的輸入包括穿插的文本和圖像。在一系列的領域中,包括帶有文字和照片的文件、圖表或屏幕截圖,GPT-4表現出與純文本輸入類似的能力。此外,它還可以使用為純文本語言模型開發的測試時間技術,包括少數幾個鏡頭和思維鏈提示。目前圖像輸入仍然是沒有公開提供的一個研究方向。


AI的可引導性:我們一直在努力實現我們在定義人工智能行為的文章中概述的計劃的各個方面,包括可引導性。與經典的ChatGPT個性的固定言語、語氣和風格不同,開發者(以及很快ChatGPT用戶)現在可以通過在"系統"消息中描述這些方向來規定他們的AI的風格和任務。系統消息允許API用戶在範圍內大幅定制他們的用戶體驗。我們將繼續在這裡進行改進,但我們鼓勵你嘗試並讓我們知道你的想法。


GPT4的局限性:儘管有這樣的能力,GPT-4也有與早期GPT模型類似的局限性。最重要的是,它仍然不是完全可靠的(它對事實產生"幻覺",並出現推理錯誤)。在使用語言模型的輸出時,特別是在高風險的情況下,應該非常小心,準確的協議(如人類審查,用額外的背景接地,或完全避免高風險的使用)與特定的使用案例的需求相匹配。雖然仍然是一個真實的問題,但相對於以前的模型(這些模型本身也在不斷改進),GPT-4大大減少了幻覺。在我們的內部對抗性事實性評估中,GPT-4的得分比我們最新的GPT-3.5高40%。



TruthfulQA等外部評測:該基準測試了模型從對抗性選擇的不正確陳述中分離事實的能力。這些問題與在統計學上具有吸引力的事實錯誤答案配對。GPT-4基礎模型在這項任務上只比GPT-3.5略勝一籌;然而在RLHF後訓練(應用我們對GPT-3.5使用的相同過程)之後,存在很大差距。

他的模型在輸出時可能會有各種偏差--我們在這些方面已經取得了進展,但仍有更多工作要做。根據我們最近的博文,我們的目標是使我們建立的人工智能係統具有合理的默認行為,以反映廣泛的用戶價值觀,允許這些系統在廣泛的範圍內進行定制,並獲得公眾對這些範圍的意見。

GPT-4通常缺乏對其絕大部分數據截止後(2021年9月)發生的事件的了解,也不會從其經驗中學習。它有時會犯一些簡單的推理錯誤,這似乎與這麼多領域的能力不相符,或者過於輕信用戶的明顯虛假陳述。有時它也會像人類一樣在困難的問題上失敗,例如在它產生的代碼中引入安全漏洞。

GPT-4也可能在預測中自信地犯錯,在它可能犯錯的時候不注意反複檢查工作。有趣的是,基礎的預訓練模型是高度校準的(它對答案的預測信心一般與正確的概率相匹配)。然而,通過我們目前的後訓練過程,校準程度降低了。

總的來說,我們的模型級干預措施增加了誘發不良行為的難度,但這樣做仍然是可能的。此外,仍然存在"越獄"的情況,以產生違反我們使用指南的內容。隨著人工智能係統的"每個令牌的風險"的增加,在這些干預措施中實現極高的可靠性將變得至關重要;目前,重要的是用部署時間的安全技術來補充這些限制,如監測濫用。

GPT-4和後續模型有可能以有益和有害的方式大大影響社會。我們正在與外部研究人員合作,以改善我們對潛在影響的理解和評估,以及建立對未來系統中可能出現的危險能力的評估。我們將很快分享我們對GPT-4和其他人工智能係統的潛在社會和經濟影響的更多思考。


API和費用:要獲得GPT-4 API(請在我們的等待名單上註冊。我們將從今天開始邀請一些開發者,並逐步擴大規模,以平衡容量與需求。如果你是研究人工智能的社會影響或人工智能對接問題的研究人員,你也可以通過我們的研究人員訪問計劃申請補貼的訪問。一旦你有了訪問權,你就可以向gpt-4模型提出純文本請求(圖像輸入仍處於有限的測試階段),隨著時間的推移,我們會自動更新到我們推薦的穩定模型(你可以通過調用gpt-4-0314來鎖定當前版本,我們將支持到6月14日)。定價為每1000 promt token0.03美元,每1000 completion token0.06美元。默認的速率限制是每分鐘40k代幣和每分鐘200個請求。


GPT-4的上下文長度限制為8,192個token。我們還提供支持32,768個token(約50頁文本)版本的有限訪問,gpt-4-32k,它也將隨著時間的推移自動更新(當前版本gpt-4-32k-0314,也支持到6月14日)。價格是每1000 prompt token0.06美元,每1000 completion tokens.0.12美元。我們仍在改進長上下文的模型質量,並希望得到關於它在你的使用案例中的表現的反饋。我們正在根據容量以不同的速度處理對8K和32K引擎的請求。(行業報告研究院)