「AI 春晚」結束不到24 小時，大批GPT 新用例出爐

2023/11/08

•

11 月7 日，AI 界「春晚」召開，全世界科技圈的目光再次匯聚美國舊金山。在短短45 分鐘的時間裡，那個男人——山姆・奧特曼再次向世界證明「你大爺還是你大爺」。總結來看，這一波GPT 的升級主要包括支援128K 上下文視窗的GPT-4 Turbo 模型；可自訂的「GPTs」；被譽為下一個App Store 的GPT Store 以及Assistant API 等。

發表會一開完，各類訊息刷屏，而拿到內測資格的大佬們也是紛紛出手，不到24 小時，網路上基於新功能的用例也是一波接著一波，而且效果可以說是驚掉下巴的那種。

根據X（前推特）大V Rowan Cheung 的整理，以下是8 個熱門應用程式。

01 GPT-4V + TTS API 直接「取代」解說

網友@geepytee 將足球影片的每一幀畫面傳遞給gpt-4-vision-preview，並透過一些簡單的提示要求產生旁白，然後透過TTS（從文字到語音）就得到了以下畫面。該網友表示，這個過程完全由模型直出，未進行任何修改，也就是說，如果加以調整，完全可以做得更好。

影片連結：https://twitter.com/i/status/1721705524176257296

從影片當中可以聽到，AI 解說的內容其實已經與畫面相差不多，而且在梅西過防進球的「高光」時刻，AI 解說也已經盡可能地表現出了它「激動」的情緒，只是如果要與真人解說相比，還是存在差距的。

該網友表示，整個影片長達1131 幀，但只能每隔10 幀向GPT 傳遞一次，製作成本約30 美元，不算便宜。另外，他還把完整程式碼貢獻了出來，有興趣的同學可以一試。

程式碼連結：https://t.co/eppBNcJUby

除了足球比賽，也有網友用新的GPT-4 V 和文字轉語音API 創建了電競AI 解說。就聽感而言，雖然這場比賽特無語（懂的都懂），但這「解說」偏陳述性的語調確實也讓人犯困。

影片連結：https://twitter.com/i/status/1721900523866214635

‌不過，雖然這些AI 解說還不夠完美，但也是能夠理解的。OpenAI聯創人Greg Brockman 直接月台，毫不吝嗇自己的讚。

02 AGI.zip：GPT4-Turbo 還可以更快

曾經創造了大熱AI 智能體BabyAGI 的Nick Dobos 覺得GPT4-Turbo 不夠快，於是就增加了20 個預置熱鍵以加快速度。據悉，新版本是基於使用自訂指令製作的agi dop zip 的早期版本。最佳化的版本可以自動儲存長期記憶，可重複使用，追蹤目前任務，也可使用.sql 匯出到任何聊天工具。

此外，他還打造了Gif-PT，可以自動將Dalle 影像轉換為Gif。複雜的工作流程統一化，以後作圖鬥圖可謂更方便了。

03 新一代「點讀機」：哪裡不會圈哪裡

另一網友@Karmedge 透過GPT-4 V 應用程式介面客製化出了GPT4 Vision 瀏覽器，只要截圖就可以詢問任何問題，可以說是新一代的哪裡不會「圈」哪裡。從該網友的示範影片中可以看出，即使在不給出任何上下文背景的情況下，GPT-4 也能準確回答諸如骨骼、數學符號，汽車零件的名稱。

另外，這位小哥還做了個有趣的試驗，在用GPT4 V 構建完新模型後，通過電腦攝像頭，它就成為了私人瑜伽教練，你可以直接詢問它“我的動作準確不？”，這位「教練」便會給出它貼心的動作指導。

04「小編助手」：可以幫助優化推文的自訂GPT

作為一個擁有34 萬粉絲的大V，Rowan Cheung 也迫不及待地進行了嘗試。他自訂了“X Optimizer GPT”，可以對其想要在X 上發布的帖子進行微調，並精確定位高峰發佈時間，從而幫助其在X 上獲得更多的曝光。具體的做法是，先從Twitter 分析下載貼文數據，然後設定自訂指令，讓X Optimizer GPT 撰寫貼文並確定發佈時間。

至於成效如何，Rowan Cheung 直呼：“Mind-blowing！”

05 WebcamGPT：可識物的GPT 攝影機

網友Benjamin De Kraker 透過GPT-4 Vision API 用大約10 分鐘的時間創建了WebcamGPT，可以近乎即時地識別相機前正在發生的事情，包括物體和動作等。從影片中可以看出，當網友在鏡頭前舉起手掌、手機等物品時，大約3 秒後，WebcamGPT 就可以具體寫出這些物品。

該網友同樣放出了demo 測試，不過由於API token 有限，可能不一定體驗的到。要注意的是，這類涉及隱私的測試，大家還是小心一點。

據悉，該網友是基於@skalskip92 的思路創建的該應用，有網友在其原推評論道，「對於盲人來說，這將是一個很好的工具，如果它能像個人助理一樣用語音應答，就能指導他們如何尋找丟失的物品或其他東西。”

06「自導自演」：GPT vs. GPT

BabyAGI 建造者Yohei 透過Assistant API 以109 行程式碼創建了開源的“GPTvsGPT”，可以自訂參數，讓兩個AI 助理扮演不同的“角色”進行對話。Yohei 表示，「GPT vs GPT」還可以透過檢索、資料和自訂函數來擴展功能。

目前專案也已在GitHub 開源，有興趣的朋友也可以去瀏覽。

https://GitHub.com/yoheinakajima/GPTvsGPT

‌

07 從草圖到 HTML 網站，速度超快

網友Sawyer Hood 利用GPT-4-Vision 在5 小時內完成了從低保真的模式到實際HTML 網站的建置流程。在影片示範中，該網友簡單地用繪畫工具勾勒了一個類似社交頁面的草圖，然後GPT-4V 瞬間就把它變成了HTML 網頁。只能說，真的神奇。目前，該演示的源代碼也已在GitHub 開源。

08 講座報告神器：用 128k 上下文視窗總結近90 分鐘的寫作講座

網友Riley Brown 對這次OpenAI 帶來的128 k 上下文窗口大加讚賞。在演示中，網友首先拷貝了長達近90 分鐘的YouTube 視訊講座字幕，然後在GPT 4 中輸入總結指令，GPT 4 便迅速整理出了該講座每一個部分的要點。而且，還可以根據每個要點要求GPT 4 進行擴展。

除了上面這8 個用例之外，還有各種用例層出不窮，例如截圖，然後讓GPT4-vision 給予網站優化建議；將網頁瀏覽與GPT 結合創建自己喜愛的音樂清單；與YouTube 影片對話等等。

要知道，客製化GPTs 功能目前還未上線。格局打開，想像力打開！一旦上線，各位想自訂怎樣的專屬GPT 呢？（AIGC新智界）

參考資料：https://twitter.com/rowancheung/status/1721939382775447566

科技