GPT-4來了！10秒鐘做出一個網站，考試中擊敗90%的人類

2023/03/16

•

3月15日，#GPT4做一個網站只要十秒#登上熱搜。

當地時間週二（3月14日），人工智能研究公司OpenAI公佈了其大型語言模型的最新版本——GPT-4。

在官方演示中，GPT-4幾乎就只花了十來秒的時間，識別了手繪網站圖片，並根據要求實時生成了網頁代碼製作出了幾乎與手繪版一樣的網站。

除了普通圖片，GPT-4還能處理更複雜的圖像信息，包括表格、考試題目截圖、論文截圖、漫畫等，例如根據專業論文直接給出論文摘要和要點。

此外，該公司還表示，GPT-4在許多專業測試中表現出超過絕大多數人類的水平。OpenAI還稱，GPT-4參加了多種基准考試測試，包括美國律師資格考試Uniform Bar Exam、法學院入學考試LSAT、“美國高考”SAT數學部分和證據性閱讀與寫作部分的考試，在這些測試中，它的得分高於88%的應試者。

OpenAI表示，在內部評估中，GPT-4產生正確回應的可能性要比GPT-3.5高出40%。而且GPT-4是多模態的，同時支持文本和圖像輸入功能。OpenAI稱，GPT-4比以前的版本“更大”，這意味著其已經在更多的數據上進行了訓練，並且在模型文件中有更多的權重，這使得它的運行成本更高。

據OpenAI介紹，在某些情況下，GPT-4比之前的GPT-3.5版本有了巨大改進，新模型將產生更少的錯誤答案，更少地偏離談話軌道，更少地談論禁忌話題，甚至在許多標準化測試中比人類表現得更好。

例如，GPT-4在模擬律師資格考試的成績在考生中排名前10%左右，在SAT閱讀考試中排名前7%左右，在SAT數學考試中排名前11%左右。

OpenAI表示，已經與多家公司合作，要將GPT-4結合到他們的產品中，包括Duolingo、Stripe和Khan Academy。GPT-4模型也將以API的形式，提供給付費版ChatGPT Plus的訂閱用戶。開發者可以註冊，用它打造應用。微軟此後表示，新款的必應（Bing）搜索引擎將運行於GPT-4系統之上。

OpenAI表示，雖然兩個版本在日常對話中看起來很相似，但當任務複雜到一定程度時，差異就表現出來了，GPT-4更可靠、更有創造力，能夠處理更微妙的指令。“在我們的內部評估中，它產生正確回應的可能性比GPT-3.5高40%。”

此外，GPT-4還有了一個質的飛躍——可以開始處理圖像。經常使用ChatGPT的人肯定知道，它只能處理文本，但GPT-4開始接受圖像作為輸入介質。

據Open AI演示，用戶提問：解釋下圖的笑點是什麼，並對圖片中的每部分進行描述。GPT-4的回答如下圖所示：

據封面新聞，不過，與早期的GPT模型一樣，GPT-4仍然存在一定的局限性。

OpenAI稱，它並不完全可靠，可能會出現推理錯誤，“GPT-4缺乏對絕大多數數據切斷後（2021年9月）發生的事件的了解，並且無法從中吸取經驗教訓……它有時會出現簡單的推理錯誤，它會輕信用戶明顯的虛假陳述，有時它會像人類一樣在難題上失敗，例如在它生成的代碼中引入安全漏洞。”

基於此，OpenAI提醒，用戶在使用語言模型時應格外小心，最好輔助以人工審查、附加上下文、或完全避免在高風險情況下使用它。

由於僅限於Plus訂閱用戶使用，當晚，大批新訂用戶湧入，以至於OpenAI的付款系統被擠爆了。

OpenAI透露，摩根士丹利正在使用GPT-4來組織數據，而電子支付公司Stripe正在測試GPT-4是否有助於打擊欺詐。其他客戶還包括語言學習公司Duolingo、Khan Academy和冰島政府。

據不完全統計，截至今年3月初，A股已有近20家上市公司宣布相關業務已經接入類似ChatGPT技術，或正在研究相關技術與數字人結合的應用場景。國盛證券在研報中表示，以GPT系列為代表的大型語言模型(LLM)能教會機器以統計方式理解自然語言，完成此前人類進行的內容讀取和理解。隨著多模態帶來的模型全面化，人工智能將向著擁有人類解釋能力這一目標更進一步。(每日經濟新聞)