ChatGPT 版的「賈維斯」真的要來了。
去年12 月,OpenAI CEO Sam Altman 公佈了有趣的調查,網友們最期待OpenAI 在2025 年實現的技術突破中,AGI 高居榜首,緊隨其後的是智能體。
如今,這個期待似乎即將部分成真。
根據外媒The Information 引述知情人士消息,OpenAI 正準備在本周推出一項名為Operator 的新ChatGPT 功能,能夠自動透過網路瀏覽器完成預訂餐廳或規劃旅行等複雜任務。
Operator 的功能設計相當人性化,具體來說,它為用戶提供了餐飲與活動、送貨、購物和旅行等多種任務類別,每個類別都配有相應的建議提示。
當使用者輸入需求後,聊天介面會彈出一個小型瀏覽器窗口,即時展示Operator 的操作過程。在執行任務時,它會根據需要詢問細節訊息,例如餐廳預訂的具體時間和人數。
值得一提的是,使用者不僅可以手動控制這個介面,還能保存任務並與他人分享。雖然目前Operator 還不支援Gmail 操作,但使用者可以登入其他網站,且登入狀態會在多次會話間保持。
不過,先前有消息稱,Operator 在執行任務時使用的截圖內容可能被惡意利用,導致「提示注入攻擊」,存在嚴重的安全隱患。
因此,即便本周官宣,也未必會立即上線,但願這不會又是一個「期貨」。針對相關置評請求,OpenAI 尚未回應。
事實上,這類能夠控制使用者設備、協助完成複雜操作的AI 功能正成為國內外AI 企業競相追逐的下一個風口。
去年10 月,Anthropic 就發布了一項名為「Computer Use」的電腦操作功能。
該功能允許開發者透過API 指導Claude 像人類一樣操作計算機,包括查看螢幕、移動遊標、點擊按鈕和輸入文字。它標誌著AI 在模擬人類與電腦互動方面邁出了重要一步。
短短兩個月後,Google 也推出了名為Project Mariner 的項目,由Google DeepMind 開發,基於Gemini 2.0 模型,它可以在Google Chrome 瀏覽器上為用戶執行任務。
將視野轉入國內,智譜也發布了名為AutoGLM-Web 的網頁版自動駕駛功能。
透過智譜清言插件,使用者可以讓AI 在百度、微博、知乎、Github 等多個平台上自動檢索、生成內容和互動,甚至支援跨網站操作,為用戶帶來「全自動」上網體驗。
在OpenAI 的五級AGI 路線圖中,智能體正是處於L3 級別,其特點是不僅能思考,還能代表使用者採取行動,執行複雜任務。
業內人士認為,智能體是通往通用人工智慧(AGI)的必經之路,透過建構能夠自主決策和執行任務的智能體,可以逐步實現更接近人類水平的通用智能。
而在這場通往AGI 的競賽中,中國科技公司也正在加速佈局。
1 月23 日,APPSO 獲悉,字節豆包大模型團隊已在內部組建AGI 長期研究團隊,代號“Seed Edge”,鼓勵項目成員探索更長周期、不確定的和大膽的AGI 研究課題。
有接近字節的知情人士透露,Seed Edge 的目標是探索AGI 的新方法,代號名中的Seed 是豆包大模型團隊名稱,而Edge 代表最前沿的AGI 探索。
目前,Seed Edge 初步確定了五大研究方向,包括:
探索推理能力的邊界
探索感知能力的邊界
探索軟硬一體的下一代模型設計
探索下一代AI 學習範式
探索下一個scaling 方向
另外據晚點從字節內部獲取的信息,字節創始人張一鳴非常重視和強調加強AI 研究投入,不僅親自研讀論文、關注技術細節,還與頂尖AI 研究者密切交流,並鼓勵字節AI 研究團隊探索、研究基礎課題。
在新加坡,他甚至組建了一個專門的研究團隊,包括新加坡國立大學原教授、現任字節研究員的馮佳時,自2023 年起擔任其技術顧問。
在中國科技巨頭中,字節應該是擁有大量資源且行動最迅速的,大有All in AI之勢。在這場通往AGI 的競賽中,贏家或許還未可知,但改變已悄悄開啟。(APPSO)