11 月7 日,AI 界「春晚」召開,全世界科技圈的目光再次匯聚美國舊金山。在短短45 分鐘的時間裡,那個男人——山姆・奧特曼再次向世界證明「你大爺還是你大爺」。總結來看,這一波GPT 的升級主要包括支援128K 上下文視窗的GPT-4 Turbo 模型;可自訂的「GPTs」;被譽為下一個App Store 的GPT Store 以及Assistant API 等。
發表會一開完,各類訊息刷屏,而拿到內測資格的大佬們也是紛紛出手,不到24 小時,網路上基於新功能的用例也是一波接著一波,而且效果可以說是驚掉下巴的那種。
根據X(前推特)大V Rowan Cheung 的整理,以下是8 個熱門應用程式。
01 GPT-4V + TTS API 直接「取代」解說
網友@geepytee 將足球影片的每一幀畫面傳遞給gpt-4-vision-preview,並透過一些簡單的提示要求產生旁白,然後透過TTS(從文字到語音)就得到了以下畫面。該網友表示,這個過程完全由模型直出,未進行任何修改,也就是說,如果加以調整,完全可以做得更好。
影片連結:https://twitter.com/i/status/1721705524176257296
從影片當中可以聽到,AI 解說的內容其實已經與畫面相差不多,而且在梅西過防進球的「高光」時刻,AI 解說也已經盡可能地表現出了它「激動」的情緒,只是如果要與真人解說相比,還是存在差距的。
該網友表示,整個影片長達1131 幀,但只能每隔10 幀向GPT 傳遞一次,製作成本約30 美元,不算便宜。另外,他還把完整程式碼貢獻了出來,有興趣的同學可以一試。
程式碼連結:https://t.co/eppBNcJUby
除了足球比賽,也有網友用新的GPT-4 V 和文字轉語音API 創建了電競AI 解說。就聽感而言,雖然這場比賽特無語(懂的都懂),但這「解說」偏陳述性的語調確實也讓人犯困。
影片連結:https://twitter.com/i/status/1721900523866214635
不過,雖然這些AI 解說還不夠完美,但也是能夠理解的。OpenAI聯創人Greg Brockman 直接月台,毫不吝嗇自己的讚。
02 AGI.zip:GPT4-Turbo 還可以更快
此外,他還打造了Gif-PT,可以自動將Dalle 影像轉換為Gif。複雜的工作流程統一化,以後作圖鬥圖可謂更方便了。
03 新一代「點讀機」:哪裡不會圈哪裡
另一網友@Karmedge 透過GPT-4 V 應用程式介面客製化出了GPT4 Vision 瀏覽器,只要截圖就可以詢問任何問題,可以說是新一代的哪裡不會「圈」哪裡。從該網友的示範影片中可以看出,即使在不給出任何上下文背景的情況下,GPT-4 也能準確回答諸如骨骼、數學符號,汽車零件的名稱。
另外,這位小哥還做了個有趣的試驗,在用GPT4 V 構建完新模型後,通過電腦攝像頭,它就成為了私人瑜伽教練,你可以直接詢問它“我的動作準確不?”,這位「教練」便會給出它貼心的動作指導。
作為一個擁有34 萬粉絲的大V,Rowan Cheung 也迫不及待地進行了嘗試。他自訂了“X Optimizer GPT”,可以對其想要在X 上發布的帖子進行微調,並精確定位高峰發佈時間,從而幫助其在X 上獲得更多的曝光。具體的做法是,先從Twitter 分析下載貼文數據,然後設定自訂指令,讓X Optimizer GPT 撰寫貼文並確定發佈時間。
至於成效如何,Rowan Cheung 直呼:“Mind-blowing!”
05 WebcamGPT:可識物的GPT 攝影機
網友Benjamin De Kraker 透過GPT-4 Vision API 用大約10 分鐘的時間創建了WebcamGPT,可以近乎即時地識別相機前正在發生的事情,包括物體和動作等。從影片中可以看出,當網友在鏡頭前舉起手掌、手機等物品時,大約3 秒後,WebcamGPT 就可以具體寫出這些物品。
該網友同樣放出了demo 測試,不過由於API token 有限,可能不一定體驗的到。要注意的是,這類涉及隱私的測試,大家還是小心一點。
據悉,該網友是基於@skalskip92 的思路創建的該應用,有網友在其原推評論道,「對於盲人來說,這將是一個很好的工具,如果它能像個人助理一樣用語音應答,就能指導他們如何尋找丟失的物品或其他東西。”
06「自導自演」:GPT vs. GPT
BabyAGI 建造者Yohei 透過Assistant API 以109 行程式碼創建了開源的“GPTvsGPT”,可以自訂參數,讓兩個AI 助理扮演不同的“角色”進行對話。Yohei 表示,「GPT vs GPT」還可以透過檢索、資料和自訂函數來擴展功能。
目前專案也已在GitHub 開源,有興趣的朋友也可以去瀏覽。
https://GitHub.com/yoheinakajima/GPTvsGPT
07 從草圖到 HTML 網站,速度超快
網友Sawyer Hood 利用GPT-4-Vision 在5 小時內完成了從低保真的模式到實際HTML 網站的建置流程。在影片示範中,該網友簡單地用繪畫工具勾勒了一個類似社交頁面的草圖,然後GPT-4V 瞬間就把它變成了HTML 網頁。只能說,真的神奇。目前,該演示的源代碼也已在GitHub 開源。
網友Riley Brown 對這次OpenAI 帶來的128 k 上下文窗口大加讚賞。在演示中,網友首先拷貝了長達近90 分鐘的YouTube 視訊講座字幕,然後在GPT 4 中輸入總結指令,GPT 4 便迅速整理出了該講座每一個部分的要點。而且,還可以根據每個要點要求GPT 4 進行擴展。
除了上面這8 個用例之外,還有各種用例層出不窮,例如截圖,然後讓GPT4-vision 給予網站優化建議;將網頁瀏覽與GPT 結合創建自己喜愛的音樂清單;與YouTube 影片對話等等。
要知道,客製化GPTs 功能目前還未上線。格局打開,想像力打開!一旦上線, 各位想自訂怎樣的專屬GPT 呢?(AIGC新智界)
參考資料:https://twitter.com/rowancheung/status/1721939382775447566