Sam Altman 太“壞了”,昨天DeepMind產品負責人logan 宣佈今天要發新新東西,結果又被sam截胡,OpenAI終於丟出了瀏覽器產品:ChatGPT Atlas。Sam 新口號(新大餅):重塑瀏覽器
就在剛剛,OpenAI 正式推出名為 ChatGPT Atlas 的全新人工智慧驅動的瀏覽器,旨在通過將對話式 AI 深度整合到使用者的日常網頁瀏覽體驗中,從而徹底改變人們與網際網路互動的方式。其核心理念是,AI 提供了一個十年一遇的契機,可以重新思考瀏覽器的本質和功用。Atlas 並非簡單地在傳統瀏覽器上附加一個聊天按鈕,而是將 ChatGPT 作為其“跳動的心臟”,使其成為一個能理解、協助甚至代為執行任務的智能伴侶
介面長這樣,感覺平平無奇:
ChatGPT Atlas引入了三個核心功能:
讓聊天無處不在的“隨行聊天 (Chat Anywhere)”、能夠跨網站學習使用者偏好的“瀏覽器記憶 (Browser Memory)”以及可以自主操作網頁完成複雜任務的“代理模式 (Agent Mode)”。通過這些創新,ChatGPT Atlas 致力於將瀏覽體驗從被動的資訊展示,轉變為一種主動、高效且高度個性化的協同工作流程
ChatGPT Atlas 今天面向全球的 macOS 使用者正式上線。所有使用者均可下載和使用基礎版的瀏覽器,更高級的“代理模式 (Agent Mode)”功能,在初期將僅對 Plus 和 Pro 付費使用者開放,Windows、iOS 和 Android 平台的版本正在開發中
以下是詳細解讀,先不要看會不會顛覆現有的額瀏覽器,大家可以感受一下OpenAI的思路,感興趣的接著往下看:
Atlas產品負責人 Adam Fry 詳細介紹了構成 ChatGPT Atlas 體驗的三大核心功能支柱。Atlas 在提供創新功能的同時,也保留了所有使用者熟悉的傳統瀏覽器元素,如標籤頁、書籤、密碼自動填充等,確保了無縫的過渡體驗。以下是三個功能解析
1.Chat comes with you anywhere (隨行聊天)
這個功能旨在解決使用者在傳統工作流中反覆在不同標籤頁之間複製和貼上內容的痛點。在 Atlas 中,無論你正在撰寫電子郵件、編輯文件還是瀏覽任何網頁,ChatGPT 都可以被即時呼叫。它會以側邊欄或行內工具的形式出現,並且能夠理解你當前頁面的上下文
這意味著當你需要幫助時,AI 助手就在你手邊,並且因為它瞭解你正在做什麼,所以能夠提供更具相關性和幫助性的建議。這徹底改變了以往需要打開一個專門的 ChatGPT 標籤頁,再將內容貼上過去進行處理的繁瑣流程
2.Browser Memory (瀏覽器記憶)
該功能將 ChatGPT 廣受歡迎的“記憶 (memory)”特性從單一的聊天會話擴展到了整個網路瀏覽體驗中。Adam 解釋說,使用者之所以喜愛 ChatGPT 的記憶功能,是因為隨著使用時間的增長,它會變得越來越個性化,更能理解使用者的需求。在 Atlas 中,這種個性化的學習能力將貫穿你訪問的每一個網站。瀏覽器會安全地、選擇性地記住你的偏好、歷史記錄和行為模式,從而提供更加貼心和高效的幫助。這使得整個瀏覽器體驗隨著你的使用而不斷進化,變得越來越懂你,最終成為一個真正為你量身定製的工具
3.Agent (代理模式)
這是 Atlas 最具突破性的功能。在代理模式下,ChatGPT 不再僅僅是一個提供資訊和建議的助手,而是能夠主動為你“採取行動 (take actions)”的執行者。當你授權它時,螢幕上會出現一個代表代理的小游標,它會像人類使用者一樣開始在網頁上點選、輸入和導航。舉例來說,代理可以幫助你預訂餐廳或機票,甚至直接在你正在處理的文件中進行編輯。這一功能將瀏覽器從一個資訊消費工具,轉變為一個可以為你分擔實際工作的強大生產力平台
統一的主螢幕
Atlas 的主螢幕,這是使用者每次打開應用或新建標籤頁時都會看到的介面。螢幕中央是一個醒目的編輯器 ,使用者可以直接在這裡像平常一樣向 ChatGPT 提問。同時,使用者也可以方便地訪問所有的工具、模型選擇以及包含聊天歷史的側邊欄
然而,由於它是一個瀏覽器,這個介面能做的事情遠不止聊天。具有多種互動方式:
智能導航:輸入“hacker news”,瀏覽器會直接識別意圖並跳轉到相應的 URL
自然語言書籤:用自然語言說出“open my commits for this galaxy diff”,瀏覽器便能理解並打開你之前收藏的一個特定的 GitHub 提交頁面
基於記憶的搜尋:當不確定一份文件的具體位置時,輸入了“搜尋關於Atlas core design 文件”。瀏覽器開始搜尋瀏覽記憶,並會成功找到了儲存在 Google Docs 中的目標檔案,點選即可打開
主螢幕編輯器的下方是“建議 ”區域。這是 Atlas 個性化功能的初步體現。這些建議會根據 Atlas 對你近期活動的理解,為你生成可能感興趣的內容,從簡單的新聞故事到更高級的代理任務委託。你使用 Atlas 的次數越多,這些建議就會變得越精準
隨行聊天:伴侶側邊欄的實際應用
比如切換到了一個 GitHub 頁面,上面是有一些正在處理的一些程式碼。在任何網頁的右上角,使用者都會看到一個“ask chatgpt”按鈕。點選後,螢幕右側會滑出一個“側邊欄 ”
在這個側邊欄中,你可以執行所有與 ChatGPT 相關的常規操作,但關鍵區別在於,它現在能夠看到並理解當前網頁的具體內容。這是一個重大的解鎖,它將瀏覽器從一個僅僅為你展示資訊的工具,轉變為一個能夠理解資訊,甚至在某些情況下為你編輯資訊的智能夥伴
演示兩個場景:
1.讓ChatGPT 總結當前程式碼差異 (diff) 的內容,AI 迅速給出了準確的摘要
2.提出了一個更複雜的問題:“將這個提交挑選到今天要發佈的 RC 版本中安全嗎?”。AI 會給出一個比如“風險很低”的評估
全新的搜尋範式
Atlas 對搜尋功能的重大升級。在瀏覽器中搜尋一部想看的電影時,搜尋結果頁面頂部出現了一系列標籤,如圖片、視訊和新聞 ,讓使用者可以像在傳統搜尋引擎中一樣快速切換內容類型,同時又不失核心的聊天體驗
最有趣的創新在於點選搜尋結果後的互動。比如當點選一條影評連結時,頁面並非全螢幕跳轉,而是默認將聊天側邊欄滑入,並將網頁連結以分屏檢視的形式打開。這種設計是讓你在瀏覽搜尋結果時,身邊始終有一個 AI 伴侶。這創造了一種“多輪體驗 ”,你可以就當前瀏覽的頁面內容持續與 AI 進行對話和提問,而不是被簡單地傳送到一個網頁後就中斷了與搜尋引擎的互動
在看著四星好評的影評時,可以直接在側邊欄問 ChatGPT:你能用五個或更少的詞總結這篇評論嗎?,可以立即得到更精煉回答
游標聊天:行內 AI 輔助
一個非常普遍的工作流程是我們在郵件或文件中寫好初稿,複製到 ChatGPT 進行潤色,再把修改後的結果貼上回來。Atlas 的目標是扁平化這個流程
你可以在郵件草稿中,他選中了一段寫得較為隨意的文字,文字旁邊立即出現了一個小的ChatGPT 小部件。點選後,輸入指令:潤色我的語言。AI 隨即在原地提供了一個更優雅、更專業的版本。當他點選“更新 ”按鈕時,原始選中的文字就被 AI 生成的新文字無縫替換了。這種功能允許使用者執行“範圍非常明確的編輯”,極其有用
不得不服,別管實際工作表現如何,OpenAI的互動設計還是很酷炫的,這在Agent 模式裡也體現的淋漓盡致
Atlas 的高級功能——代理模式 (Agent Mode)。Atlas 如何被賦予能力,代表使用者在網路上自主執行任務呢?
專業任務自動化
第一個場景設定在工作中。比如工作團隊正在用一個 Google Doc 非正式地規劃一個鬼屋項目。現在面臨兩個挑戰:
1.文件中有些成員沒有填寫他們本周的任務(標記為“to-do”)。他需要禮貌地在文件中留言提醒他們
2.團隊使用一個名為 Linear 的正式項目管理工具,他需要將 Google Doc 中所有已填寫的任務,遷移並建立為 Linear 中的“issues”(任務)
如果自己項目管理經驗不足,也不太熟悉 Linear 的操作。因此,可以將這項繁瑣的任務完全委託給 Atlas 的代理模式。點選了介面上的“Agent Mode”按鈕,並下達了指令。這個模式告訴 ChatGPT,希望它能在 Atlas 內部“代表我採取行動 “
啟動後,螢幕上出現了一個獨立的代理游標,開始自主地在 Google Doc 頁面上移動和點選,就像一個真人在操作一樣。OpenAI強調,這個代理是在使用者的本地瀏覽器中運行,可以訪問使用者所有的本地認證資訊(如登錄狀態)和歷史記錄,感覺就像是“使用者自身的自然延伸 ”。使用者可以即時觀看代理的操作過程,也可以切換到其他標籤頁做自己的事,讓代理在背景執行
經過一段時間:
結果顯示,代理不僅成功地在 Linear 中建立了所有任務並正確地標記了負責人,還在 Google Doc 中為那些未完成任務的同事留下了禮貌的提醒評論。這個功能極大地節省你的時間和精力,實現了從“vibe coding”(憑感覺程式設計)到“vibe lifing”(憑感覺生活)的跨越,讓使用者可以將生活和工作中各種繁瑣的任務委託給 Atlas 代理
個人生活輔助
一個常見的煩惱:需要根據用餐人數(8人)重新計算食材用量,並列出購物清單。可以首先使用普通的聊天功能詢問 Atlas:為八個人做這道菜我需要買什麼食材?。ChatGPT 迅速閱讀了網頁,完成了計算,並生成了一份清晰的購物清單
接下來,將任務升級。在確認自己只需要購買肉和蔬菜後,對 ChatGPT 說:你能幫我訂購這些肉和蔬菜嗎?。此時,ChatGPT 識別出這是一個需要實際操作的任務,並主動請求授權以代理模式接管瀏覽器。點選“繼續 (continue)”後,代理便開始了行動
代理會展現出個性化能力:它知道你習慣電商購物,於是直接導航到了該網站。在搜尋框中輸入商品名稱,並將正確的商品逐一加入到購物車中。最終,代理並沒有直接下單付款,而是將裝滿商品的購物車準備好,交由你最後稽核和確認。這體現了其作為“助手”而非完全自主決策者的設計理念,確保使用者始終擁有最終控制權
在展示代理模式強大能力的同時,OpenAI團隊也花了大量篇幅強調其圍繞安全和使用者控制所做的設計。與 ChatGPT 共享整個瀏覽器的存取權也帶來了一系列全新的風險。因此,將安全性根植於從模型到產品體驗的每一個環節至關重要。
內建的安全保障與操作邊界
首先,代理模式有一些硬性限制以保障基礎安全。它只能在使用者打開的瀏覽器標籤頁內操作,無法執行使用者電腦上的本地程式碼,也無法訪問瀏覽器之外的任何檔案。它的活動範圍被嚴格限制在使用者的網路瀏覽會話中
精細的使用者控制:登錄與登出狀態
Atlas 賦予了使用者精細的控制權。在一個新標籤頁中,使用者可以隨時決定 ChatGPT 代理是以“登錄 (logged in)”狀態還是“登出 (logged out)”狀態運行
登錄狀態:代理可以使用使用者在該網站的登錄憑證和個人資料,適合需要訪問個性化資訊(如 Instacart 購物歷史)的任務。
登出狀態:代理在沒有個人資料存取權的情況下執行任務,適用於那些不需要登錄的通用操作
團隊建議使用者在執行每項任務前仔細考慮,代理是否真的需要訪問你的登錄資訊,從而以最小權限原則來保障資料安全
可選且透明的記憶功能
“瀏覽器記憶 (browser memories)”功能也是完全可選的。使用者在首次設定瀏覽器時就可以選擇是否開啟。即使開啟後,使用者也可以隨時在設定中查看、管理甚至刪除這些記憶。這確保了使用者對自己的資料擁有完全的知情權和控制權
用於保護隱私的隱身模式
對於任何使用者不希望被瀏覽器或 ChatGPT 記憶的瀏覽活動和查詢,Atlas 同樣提供了標準的“隱身窗口”。團隊以一個幽默的例子說明了其用途,比如當你想問一個私密問題時,就可以使用隱身模式來保護隱私
Sam Altman 認為人工智慧的崛起代表著一個十年一遇的罕見機會 ,促使我們去重新思考瀏覽器的定義、使用方式,以及如何更高效、更愉快地利用網路。他指出,自從標籤頁 (tabs) 出現以來,瀏覽器領域在很長一段時間內都未曾見過重大的創新。這讓 OpenAI 的團隊感到興奮,因為他們看到了一個真正重塑這一核心工具的巨大潛力
Altman 提出了一個核心的時代類比:在過去的網際網路時代,瀏覽器的網址列 (URL bar) 和搜尋框 (search box) 是人們與網路互動的主要入口,是一種完美的模式。而現在,隨著人們開始以新的方式使用網際網路,他們相信“聊天體驗 ”將成為未來與網路互動的全新、更佳的模式。基於這一理念,團隊開始著手設計一款以對話式體驗為中心的瀏覽器
Atlas 的工程負責人 Ben Goodger 進一步闡述了這一設計哲學。他強調,Atlas 的誕生源於一個簡單而深刻的問題:如果你能和你的瀏覽器聊天會怎樣?。從這個想法出發,團隊重新構想了整個瀏覽體驗,目標是用簡潔的對話取代多年來積累的混亂和複雜 。一個關鍵的設計原則是,要避免讓 Atlas 感覺像是“一個僅僅被釘上聊天按鈕的舊瀏覽器”。相反,他們將 ChatGPT 置於產品的核心,使其成為 Atlas “跳動的心臟 (the beating heart of Atlas)”。這意味著 ChatGPT 將始終陪伴在使用者身邊,隨時準備在你瀏覽網頁時提供幫助
Sam Altman 認為當前展示的功能僅僅是這個項目的早期階段。未來真正令人興奮的可能性在於,當使用者的“自訂指令”能夠跟隨他們到網路的每一個角落時,會發生什麼。他描繪了一個未來場景:一個越來越瞭解你的代理,能夠主動為你整合資訊,發現你可能在網際網路上感興趣的內容,並將它們彙集在一起。這將遠遠超出當前演示的範圍,實現更高層次的智能協同 (AI寒武紀)