高能訪談:亞馬遜押注智能體以贏得AI競爭

亞馬遜 AGI 研究實驗室負責人 David Luan曾是 OpenAI 早期研究負責人,主導了 GPT-2、GPT-3 和 DALL-E 的開發;離開 OpenAI 後,他聯合創辦了專注智能體的 AI 研究實驗室 Adept;去年夏天,他又離開 Adept 加入亞馬遜,現負責領導亞馬遜位於舊金山的 AGI 實驗室。  David 團隊的工作是亞馬遜的重中之重,這也是他首次對外詳細闡述自己的進展。

David,歡迎來到節目。

謝謝邀請,我很高興來到這裡。

很高興請到你,我們有很多可聊的。我特別想知道你們團隊在亞馬遜的動向,但首先觀眾肯定想瞭解你的背景,以及你如何走到今天——你在 AI 領域資歷深厚,經歷豐富。能否先簡單回顧你的 AI 之路,以及你是如何來到亞馬遜的?

首先,說我在這個領域“資歷深厚”實在太好笑了——相對其他行業,我只做了 15 年 AI,並不算長。

可在 AI 年曆裡,15 年就是永恆。

確實。我當初入行只是單純覺得有趣:能打造像人一樣思考、甚至超人的系統,太酷了!我完全沒料到它會爆發成今天這樣。

我的經歷大致如下:2017 年到 2020 年中,我在 OpenAI 領導研究和工程團隊,我們做了 GPT-2、GPT-3,還有 CLIP 和 DALL-E。那段時間每天都很開心,身邊都是最好的朋友,大家試各種有趣的研究點子,沒有現在這種壓力。

之後我在 Google 負責大模型,訓練了當時很強的 PaLM。沒多久,我們一群人就出來創業,我的團隊創立了 Adept——第一家專注 AI 智能體的公司,我們發明了“電腦使用智能體”。亞馬遜一年前把我們招來,就是讓我們為亞馬遜做智能體。

好的,回頭細聊亞馬遜。先問個 OpenAI 相關:我們離 GPT-5 發佈不到一周,你怎麼評價這個模型?它透露了行業什麼訊號?你第一次看到它時怎麼想?你肯定有前同事參與了開發。

我認為這標誌著行業已高度成熟:各家實驗室都學會了如何可靠地“流片”出越來越好的模型。我一再強調,前沿實驗室的任務不是“訓練某個模型”,而是“建造一座工廠”,能源源不斷地產出更強的模型——這是兩種完全不同的進步哲學。

GPT-5 最有趣的地方在於,如今的前沿模型在能力上趨於收斂。我以前的同事、現任 MIT 教授 Phillip Isola 提出“柏拉圖式表徵假說”:就像柏拉圖的洞穴寓言,現實只有一個,人類只看到投影,LLM 也只通過訓練資料看到現實的切片。隨著資料量增大,所有 LLM 都會趨向於表徵同一個共享現實,因此能力趨同。

不過,也有人並不認同“單一現實”。我在 Google I/O 聽 Sergey Brin 和 Demis Hassabis 說,我們活在多重現實裡。你在圈子裡遇到過這種看法嗎?

(笑)這話題超出我的薪酬等級了,我個人確實相信只有一個現實。

好吧,多重現實先放一邊。說到趨同,現在基準測試似乎越來越不重要了,模型改進也在“商品化”。GPT-5 也許能在 LMArena 霸榜幾個月,直到 Gemini 3.0 出現。如果真如此,也許真正重要的是人們如何使用這些模型,以及他們對模型的情感。

比如 OpenAI 把 4o 模型請回來,因為使用者對它產生了情感,Reddit 上有人說“就像我最好的朋友被帶走了”。可怕,但這就是現實。看到 GPT-5 及使用者反應時,你預見到這種情感依附了嗎?

Google 2020 年的 LaMDA/Meena 就是 ChatGPT 之前的 ChatGPT,僅限內部使用。當時我們就看到員工對 AI 系統產生個人依戀。人類太擅長擬人化了,我並不意外。

至於基準測試,現在就像“考前劃範圍”,大家都知道題,都想刷高分,像早期數位相機的“像素大戰”,其實跟拍照好壞沒多大關係。

我認為行業缺乏創造力的地方在於:AGI 遠不止聊天和寫程式碼,那只是最先跑通的兩類用例。真正有趣的問題是:我該跑向那個賽道?為什麼要花時間去把模型在奧數上提高 5%?我和團隊堅持智能體願景,是因為想解決遠比現在更廣闊的問題。

好,那回到你負責的亞馬遜 AGI 實驗室。先問個人:你在 OpenAI 參與啟動 GPT 時,AGI 對你意味著什麼?現在呢?定義有變化嗎?

OpenAI 當時的 AGI 定義是:在經濟價值任務上超越人類的系統。2018 年這算一個“末日北極星”,但今天我們已遠超此。現在讓我興奮的不是替代人類,而是打造“每個知識工作者的通用隊友”。

如果 AI 能幫人類完成日常大部分電腦操作,那才是我心中的第一個里程碑。

這比很多抽象定義更具體。Sam Altman 說 AGI 是能自我改進的模型,你則更關注實際用例。

自我改進當然酷,但對人類有什麼用?我更在意如何把最通用的超級技術交到每個人手裡,讓人獲得巨大槓桿。

所以,對亞馬遜來說,AGI 不只是“替我購物”這個梗。回到你加入亞馬遜時,你和 Andy Jassy 他們怎麼定義 AGI 的戰略價值?亞馬遜業務龐雜,但這個理念橫跨所有業務,對嗎?

如果把計算看作樂高,過去是“租伺服器、租儲存、寫程式碼再拼裝”。現在程式碼由 AI 寫,未來連決策都由 AI 做,於是“智能體”將成為新的原子級積木。亞馬遜必須贏下智能體這一局,才能釋放巨大經濟價值,而這與亞馬遜在雲端運算、基礎設施上的優勢天然契合。

很多人概念上知道智能體是方向,但絕大多數人要麼沒用過,要麼用了不靈——這就是現狀。你能舉出目前最好的智能體例子,或告訴大家未來會怎樣嗎?

我理解那些被反覆忽悠“智能體是未來”卻試用後大失所望的人。現在的智能體大多隻是“多幾步的聊天機器人”,或者瀏覽器外掛,四倍耗時、三分之一機率出錯。

舉個真正的智能體例子:我要做藥物發現,已知某受體,需找能與之結合的小分子。今天你問 ChatGPT,它會給你一篇漂亮 Markdown 綜述,但這只是搜尋總結。真正的智能體,是你把它連到濕實驗平台,它讀遍文獻、提出實驗、親自上手、看結果、再迭代,直到完成目標——這才是真正的槓桿。

但 LLM 仍然幻覺、撒謊,讓人怎麼放心讓它操作銀行帳戶、部署程式碼、跑實驗?

LLM 訓練是“行為克隆”,只是模仿人類文字,並不理解因果。要讓 AI 成為可靠決策者,必須讓它在真實環境中試錯,學習“我做 X 得到 Y”的因果機制。

我們亞馬遜團隊的研究路線就是大規模“自我對弈”(self-play)。像 DeepMind 當年用圍棋模擬器自我對弈發現超人類策略一樣,我們建造了大量“RL 健身房”(gym),每個 gym 是一個知識工作場景:Salesforce、ERP、CAD、EMR、會計軟體……模型在這些沙盒裡設目標、試錯、獲得獎勵,從而學得因果。

行業裡這種做法獨特嗎?

最終大家都會走到這一步,因為網際網路文字資料已見頂,而訓練智能體需要大量環境。我們因 Adept 的積累,比任何人都更專注此問題。

這些“健身房”會變成物理健身房嗎?你有機器人背景。

我們確實有 Pieter Abbeel 等機器人大牛,內部曾想用 Equinox、Barry’s Bootcamp 當項目代號(笑)。OpenAI Gym 早期只有遊戲與機器人玩具任務,現在我們直接把人類電腦裡的真實任務搬進健身房。未來當然可擴展到機器人。

最終形態是:一個 99% 可靠、可完成各種電腦任務的模型+系統,作為 AWS 服務,支撐未來無數應用。

最近我和 Perplexity CEO Aravind Srinivas 聊他的 Comet 瀏覽器。很多人認為瀏覽器介面是消費者端大規模智能體的入口。你怎麼看?

聊天機器人絕不是長期答案。想像我爸打電話讓我遠端修 iPad:看不到螢幕、頻寬極低,這就是今天用聊天機器人完成任務的體驗。我們缺的是“共享畫布”式的平行協作介面,而非垂直的一問一答。

你們團隊與亞馬遜其他部門如何協作?你們是完全獨立,還是參與 Nova 基礎模型?

亞馬遜讓我們保持高度獨立,因為 AGI 窗口只剩 2–5 年,必須極速前進。同時,我們把建構的技術堆疊也反哺 Nova 基礎模型。

你們的工作已影響到 Alexa Plus 嗎?

Alexa Plus 能用我們技術遠端開瀏覽器,上 Thumbtack 替你約水管工,是首個量產的 Web Agent。但目前仍脆弱。

Alexa Plus 是不是你們的“大規模健身房”?通過數千萬裝置快速迭代提升可靠性?

Alexa Plus 只是眾多客戶之一。亞馬遜內部幾乎覆蓋了所有知識工作場景,可為我們提供海量私有多步工作流資料,用於訓練更聰明的智能體。

亞馬遜物流、倉儲機器人會與你們結合嗎?

我們與 Pieter Abbeel 的機器人團隊很近,內部也在推動智能體的落地試用。

能否舉個例子說明亞馬遜內部怎麼使用智能體?

亞馬遜內部幾乎覆蓋所有知識領域,大家熱情很高。我們有個內部頻道(名字保密),全球各地團隊排隊申請試用,用我們的框架自動化他們的營運任務。

你們已對外發佈 Nova Act 研究預覽版,實際使用情況如何?

Nova Act 面向企業與開發者,已用於醫生註冊、Navan 旅行預訂、93 步 QA 流程等,可靠性達 95% 以上,遠超行業平均 60%。

你預計多久能看到“RL智能體的 GPT 時刻”?

不到一年。我們已組建全鏈條團隊,每天都在加速。

有人說 GPT-5 預示 AI 進步放緩,你同意嗎?

完全不同意。預訓練這條 S 曲線尚未枯竭,但已不如以前陡峭;接著是 RL 與可驗證獎勵。當一條曲線放緩,總有下一條接上——智能體就是下一跳,我們提出的訓練配方正是主要加速器之一。

Nova 作為 LLM 並非業界最強,是否意味著真正重要的是你們說的智能體,屆時 Nova 會更有價值?還是 Nova 仍需成為最強 LLM?

每次訓練範式更替,都會給新玩家一次“換道超車”機會。舊範式對在位者是包袱。GPT-2/3 帶來文字 LLM,RLHF、多模態、推理模型相繼讓 Gemini、DeepSeek 等抓住機會。下一輪是智能體——若亞馬遜能率先跑通配方,就能憑規模一舉衝到前沿。

你是最早“反向收購式招聘”的案例之一。講講離開 Adept、帶技術團隊加入亞馬遜的決策?

當時 Adept 融資 4.5 億美元,如今只是“零花錢”。要留在前沿,就必須擁有最頂尖算力。若不能,只能轉型做別的,而那並非我的目標。我想解決 AGI 最後四大研究難題,每項都需要百億美元級叢集,只有亞馬遜願意 all-in。

如果反壟斷不存在,亞馬遜會直接收購 Adept 嗎?

我無法揣測交易結構,我只是 AI 研究者(笑)。

這些“反向收購式招聘”對研究圈、創業圈的二階影響?

確實改變了加入初創公司的人的預期:創始人可能隨時帶技術團隊離開。但另一方面,AI 人才市場極度稀缺,需求又極大,價格自然高。

全球真正能從零訓練前沿模型的核心人才有多少?

最核心、敢把巨額算力託付給他的,大概不到 150 人;加上極有價值的貢獻者,總數不到 1000。

這群精英會不會被自己打造的超級智能取代?

領域會擴張,但訓練大模型就像頂級球隊——無法簡單堆人數,精英圈仍將相對固定。

對想加入 AI 初創、實驗室或大廠的年輕人有何建議?

1. 小團隊 +巨量算力才是正確配方;

2. 產品形態與模型需共同設計,別只做另一個聊天機器人或程式碼助手;

3.未來五年還會出現 6–7 個全新的殺手級產品形態,提前發現它們才是高賠率下注。

謝謝 David,祝你健身房訓練順利! (壹號講獅)