Google 最出圈的 AI 產品,把 OpenAI CEO 也驚豔了

Google,矽谷的代言人,AI 界的巨擘,技術牛,論文多,做給消費者用的 AI 產品,卻幾乎沒有出圈的。

不過,也有一個例外:NotebookLM,甚至連死對頭 Sam Altman 也覺得它很酷。


偏偏 NotebookLM 走的還是一條有些小眾的賽道——播客。

指路:https://notebooklm.google.com/


不想看的內容,讓 AI 聊給你聽就好了

NotebookLM 受歡迎,主要是因為一個功能:Audio Overview(音訊概覽)。

更通俗地理解,就是 AI 播客。任何你懶得消化的內容,都可以丟給它試試,幾分鐘轉成一男一女的對談,比原來的材料更加親民。


NotebookLM 支援上傳多種格式的內容


不過有些遺憾,音訊概覽雖然可以消化中文材料,但只能輸出英文。


好奇海外的 AI 能不能理解國產劇的愛恨情仇,我上傳了一段描述甄嬛生平的文字,大約 500 多字,NotebookLM 用 2 分鐘左右,就生成了 5 分鐘左右的音訊。

光聽英文音訊不太直觀,所以我下載了音訊,上傳到通義聽悟,看看 AI 在聊些什麼。

AI 解讀得一針見血,不僅讀懂甄嬛,也理解皇帝,抓住了宮斗劇的主要矛盾——權力。


腦洞更大一點,以後一個人追劇再也不會寂寞,AI 就是性價比最高的追劇搭子,還能陪練英語,教我們「not my cup of tea」(不是我的菜)這樣的地道表達。


與其精讀外刊和專八文章,不如基於我們自己喜歡的內容,讓 AI 生成英文學習資料,畢竟,興趣是最好的老師。

除了陪著學習英語和八卦,輸出正經的分析,NotebookLM 也沒問題。

我以 PDF 的形式上傳了一篇吐槽 AI 廣告的、3700 字左右的文章——《滿大街的 AI 廣告,是一次審美大降級》

基於這篇文章,NotebookLM 用 5 分鐘左右生成了一段 11 分 40 秒的音訊。

作為文章作者本人的我,像是遇到了兩個熱情又很懂我的讀者,NotebookLM 對文章進行了重新詮釋,創造了一個相關又獨立的作品。

播客的開頭,AI 自然地引出了主題,男聲問,你有沒有看到過一些糟糕的廣告,奇怪它們居然能上街?女聲答,你說得不錯,這就是我們要討論的主題。


同時,AI 也懂靈活變通,不照搬文章的邏輯,而是重新編排了素材,改寫觀點的表達方式,但核心相同,甚至自己舉出例子,將 AI 廣告類比到 AI 音樂。


對於怎麼吐槽,AI 也有自己的見解,看得出來努力表現幽默了,但還是有些西式。


除了具體的內容,聲音的質感好壞,同樣很影響收聽體驗,畢竟,播客是聲音媒介。

AI 不說字正腔圓,至少發音清晰,口條不錯,語氣抑揚頓挫,會用上「what」「ouch」「you know」等語氣詞,聊著聊著還會笑出聲,傳播著快活的空氣。


可以說,AI 播客已經「初具人形」,至少聽得下去,不會像很多 AI 圖片、視訊一樣,讓人陷入恐怖谷,敬而遠之。


分分鐘的內容轉換,知識更容易進腦子了

使用 NotebookLM時,有一點需要注意:它不會搜尋新的資訊,而是基於我們上傳的資料處理資訊。


所以,它不全面,不客觀,但足夠個性,忠於每個人自己的素材。

我的一位同事說,NotebookLM 適合寫文章的人做播客。

這話很有道理,NotebookLM 本質是實現了內容形式之間快速的轉換,將複雜的內容加工得更好理解。

我願稱之為,「這知識它不進腦子啊」的 N 種解決辦法。

NotebookLM 的強大,離不開 Google 大模型 Gemini 1.5 Pro 的長文字能力和多模態表現。

經過測試,讓它讀 37.8 萬字的《馬斯克傳》不在話下。

同時,NotebookLM 還能處理視訊,我上傳了一個評測 Meta 眼鏡的 YouTube 視訊。


左邊是原視訊和視訊文案,右邊是 NotebookLM 的解讀


除了用音訊解讀之外,NotebookLM 還能用多種方式,幫你理解你上傳的內容,而且,都是自動的,最多隻需要你點選一下。

每次上傳材料,NotebookLM 都會給出「摘要」和「建議的問題」。前者讓你對內容有大致的瞭解,而後者解決了越長大越不愛舉手的人類的難題:不知道該問什麼。

點選「建議的問題」,NotebookLM 既能幫你回答,還會附上引用來源,如果上傳內容是視訊,引用參照的是視訊的文案。


其他小功能也類似,建議都點選試試,我比較喜歡「常見問題解答」,AI 的自問自答,基本上囊括了一個陌生事物的入門知識。


然後可以再讓 AI 生成「簡報文件」,不僅提供資訊,也給出了觀點。


當然,你也可以自己在輸入框輸入問題,該引用的還是引用,但如果沒有明確來源的,NotebookLM 會強調是推測。雖然 AI 仍有幻覺,但它已經盡到了告知義務。


底層模型的支援是 NotebookLM 的基礎,還有人套出了 NotebookLM 的系統提示詞,解釋了為什麼音訊概覽很親民。


圖片來自:X@JadenGeller


其中一條很有意思,規定了兩個 AI 角色,一個是主持人,一個是專家,相輔相成,主持人熱情地強調有趣的觀點,專家則提供分析、背景資訊和更廣闊的視角。

其餘都是對內容總結的要求,語氣避免單調和機械,結構清晰,引人入勝,舉出貼近生活的例子,在爭議問題上保持中立,提供的資訊不停留在表面,讓聽眾能形成自己的結論,並且覺得學到了新東西......


討論《馬斯克傳》時,NotebookLM 保持中立


這完全是一款優秀人類播客的要求了,具備強烈的、服務聽眾的意識。

然而,NotebookLM 不支援中文終究不太友好,等待之外,也可以試試平替。

開放原始碼的 Open NotebookLM、根據文件生成播客的 Podial、國內開發者的 PodLM......

除了 NotebookLM,Google 自己還有一款專門將論文轉換成音訊的產品:Illuminate。


第一個音訊解讀的是 Transformer 模型鎮圈論文《Attention is All You Need》


它以主持人和專家的對話形式,一問一答,幫你通俗易懂地解讀論文。

看似小眾的播客,為什麼因為 AI 反而成了一條熱門的賽道?


消費什麼,怎麼消費,以後我們自己決定

語音,是人類最自然的互動模式之一,輸入和輸出都非常符合大腦的認知習慣。

我們有教科書,但還是需要老師講課,幫助理解複雜的內容。而當我們可以用口語解釋概念,講給別人聽,才說明我們真正掌握了它。

NotebookLM 做到了用簡單的語言重新詮釋書面的概念,同時包含了情緒、語氣,帶來了更自然的感官體驗。


同時,它又是個性化的,以前我們只有收聽的習慣,但我們現在有了創作的權利。

我們能隨時做 AI 播客給自己聽,內容隨意。

可以是感興趣的大部頭文章、書籍,克服收藏即閱讀的壞習慣,也可以讓 AI 解讀自己的作品、簡歷,收穫不要錢的情緒價值,滿足人類自戀的需求。

當我上傳自己的文字版簡歷,NotebookLM 煞有其事地輸出一通彩虹屁,比 AI 陪伴產品情商更高,叫人瘋狂嘴角上揚。


音訊就不放上來了,這是部分內容


我們也能隨時聽 AI 播客,吃飯、健身、開車、做家務不無聊了,播客本身就是一種陪伴媒介。

GPT-4o 的高級語音模式,其實也是一個語音產品,但 AI 播客和它的使用場景不太一樣,聊天找話題很難,不管是和人類還是和 AI,但 AI 播客可以自嗨。


OpenAI 創始成員 Andrej Karpathy,很看好 NotebookLM,說這可能是又一個大語言模型產品的新互動範式,讓他想起了 ChatGPT。


他甚至花了兩個小時,生成了一個以歷史為主題的 10 集播客系列,上傳到 Spotify,生成的過程很值得參考。

  • 用 ChatGPT、Claude、Google 找到有意思的話題。
  • 基於相關的維基百科條目讓 NotebookLM 生成音訊。
  • 用 NotebookLM 編寫播客簡介。
  • 用 Ideogram 生成播客封面。

我們也可以按照這個模式,探索自己感興趣的領域,就像產出 AI 繪畫、音樂、視訊那樣。

NotebookLM 的下一步是什麼呢?

在一次採訪裡,NotebookLM 團隊負責人 Raiza Martin 提出了一個構想——未來可以有一個 AI 編輯介面,支援任何輸入和輸出。

視訊、音訊、電子郵件、社交媒體......所有我們感興趣的內容和形式,都可以生成任何格式的內容。如何消費內容,由使用者決定。


散步時,我們想聽播客,工作時,文字效率更高。資訊只是食材,可以有十八般做法。

很多時候,AI 其實就是在改變獲取資訊的方式,但消化知識的工具,和知識一樣重要。

ChatGPT 為難懂的知識找到通俗的解釋,AI 搜尋讓我們不用自己翻網頁找連結,AI 總結讓我們不必親自看文章......吾生也有涯,而知也無涯,但我們可以更愉快地做一個在海邊撿起貝殼的孩子。 ( APPSO )