Gemini 3的意義:AI已超越“幻覺階段”,逼近人類,“人機協作”將從“人對AI糾錯”走向“人指導AI工作”

Ethan Mollick認為,Gemini 3的出現意味著具備自主行動能力的“代理模型”正在崛起,它雖然並非完美無瑕,但其所犯的錯誤已不再是無中生有的“幻覺”,而更接近人類在判斷或意圖理解上的偏差。隨著AI能力的提升,人機協作正從“人類修復AI的錯誤”進化為“人類指導AI的工作”。

Google最新發佈的Gemini 3模型正標誌著人工智慧領域的一個關鍵轉折點。

美東時間18日周二,Google正式發佈備受期待的該司迄今最強大人工智慧(AI)模型Gemini 3,並於發佈首日立即在Google搜尋、Gemini應用程式App及多個開發者平台同步上線,在多個盈利產品中投入使用。

Google高管在新聞發佈會上強調,在衡量人工智慧模型性能的幾個熱門行業排行榜上,Gemini 3處於領先地位。GoogleAI研究實驗室DeepMind的CEO Demis Hassabis表示,Gemini 3是"世界上最好的多模態理解模型",也是公司迄今最強大的智能體和程式碼生成模型。

根據沃頓商學院教授Ethan Mollick的深度測評,Gemini 3的發佈及其配套工具“Antigravity”展示了驚人的“代理”能力。與三年前的GPT-3模型相比,AI不再僅僅是生成文字,而是能夠編寫程式碼、建構可互動的應用、執行多步驟任務。

Mollick指出,這種從“描述”到“行動”的飛躍,意味著AI正從一個對話夥伴,演變為一個可以接入電腦並完成實際工作的通用工具。

Mollick的結論是,我們正從“聊天機器人時代”邁向“數字同事時代”。Gemini 3雖然並非完美無瑕,但其所犯的錯誤已不再是無中生有的“幻覺”,而更接近人類在判斷或意圖理解上的偏差。

這表明,人機協作的模式正在改變,人類所做的將不再是修正AI的低級錯誤,而是為其提供高階的戰略指引和方向。這或許是自ChatGPT發佈以來,AI領域發生的最大變革。

以下為Ethan Mollick測評文章全文:

三年,從 GPT-3 到 Gemini 3

從聊天機器人到智能體

Ethan Mollick

2025 年 11 月 19 日

我一直在測試Google新發佈的 Gemini 3 模型。它非常出色。但與其羅列基準數字,不如讓 AI 親自演示這三年我們走了多遠——我就是這樣做的。

ChatGPT 發佈至今已近三年。在它上線前幾天,我在這份 Substack 上寫了第一篇關於 OpenAI 更早期的 GPT-3 的文章。隨後 ChatGPT 橫空出世,我立刻又寫了一篇:“我通常對技術預測很謹慎,但這次它會比我們預期得更快、更劇烈地改變我們的世界。不再只是自動化重複、危險的工作,現在第一批被 AI 顛覆的,可能是更偏分析、創意、寫作與溝通的崗位。”

今天看來,我說對了。

(插圖:三年前我用 GPT-3.5 後的首篇文章截圖)

我可以口頭解釋初代 ChatGPT 與今天Google發佈的 Gemini 3 有多大差距,但沒必要。我把上面那張截圖扔給 Gemini 3,唯寫了一句話:

我:“做點東西,讓大夥兒看看 AI 這三年進步了多少。”

Gemini:“當然可以。你這條推文來自 2022 年 11 月——現代 AI 熱潮的前夜。當時最大的‘哇點’是 AI 能寫一段通順的文字,或者給‘糖果動力超光速飛船逃離水獺’這種傻題目寫首小詩。

為了展示進步,我不僅用文字描述,而是直接給你做了一個可互動、可遊玩的‘糖果動力超光速飛船模擬器’。

2022 年,AI 只能描述引擎;2025 年,AI 能把引擎寫出來、把介面畫出來,還讓你親自開飛船。”

它真的做了一個迷你遊戲:我得靠糖果能量擺脫追殺的水獺,途中穿插小詩和各種搞笑更新。讀這篇部落格的人大概早知道 AI 能寫程式碼,但更有趣的是——當你不再把 Gemini 3 當成“聊天框”,而當成“別的東西”時,它還能幹什麼。

會寫程式碼的工具,不只是“寫程式碼的工具”

伴隨 Gemini 3,Google還發佈了 Antigravity。程式設計師一看就懂:它跟 Claude Code、OpenAI Codex 類似,給你電腦權限,能在指導下自主寫程序。

如果你不是程式設計師,可能會忽略它——我覺得這是錯的。“會寫程式碼”不等於“當程式設計師”,而是“能完成任何在電腦上才能完成的活兒”。 於是,這些工具的本質被徹底改寫。

Gemini 3 極擅長寫程式碼,這一點即使你不自認“程式設計師”也與你息息相關。AI 界的一個底層視角是:你在電腦上做的任何事,歸根到底都是程式碼;只要 AI 能寫程式碼,它就能建儀表盤、扒網站、做 PPT、讀檔案…… 這讓“會寫程式碼的智能體”成了通用工具。Antigravity 把這一理念產品化:給我一個“收件箱”,我把任務派給智能體,它們需要批准或幫助時會通知我。

(插圖:四個智能體同時跑,一個在幹活,一個等我回應)

我跟它們不用程式碼,用英語;它們用程式碼替我幹活。Gemini 3 擅長做計畫,知道該幹什麼、何時請示。比如我把歷年 newsletter 的稿子全放在一個資料夾,然後吩咐:

“給我做一個漂亮的網頁,彙總我對 AI 的所有預測,再上網搜搜那些說對了那些說錯了。”

它讀完所有檔案、跑程式碼、先遞給我一份可編輯的方案——這是它第一次開口問我,理解之準確讓我驚訝。我小改幾處,放它去幹。

隨後它搜網頁、建站、接管瀏覽器驗效果,再把成品打包給我。我像對真人同事一樣提修改意見,它繼續迭代。

它並非完美無缺——智能體還沒到那一步。我沒發現幻覺,但確有地方需要我糾正,不過那些錯誤更像“人類同事會有的判斷偏差或誤解”,而非傳統 AI 的離譜幻覺。重要的是,我感覺自己能夠掌控人工智慧的決策,因為人工智慧會定期檢查並確認其工作,而且我的操作過程清晰可見。這種感覺更像是管理一位隊友,而不是通過聊天介面與人工智慧進行溝通。

博士級智力?

Antigravity 並非唯一驚喜。另一重震撼在於——它展現了真正的“判斷力”。

我常吐槽:AI benchmark 已經捲成一鍋粥。Gemini 3 在大多數榜單上領先(也許還打不過 200 美元的 GPT-5 Pro,但等 Gemini 3 的“深度思考”版出來可能就翻盤)。行業愛用一句廣告詞:“博士級智力”。我決定真刀真槍測一下。

我把十年前眾籌研究的一堆舊檔案扔給它——檔案名稱像“project_final_seriously_this_time_done.xls”,格式還是上古 STATA。命令只有一句:

“自己摸懂資料結構,把 STATA 檔案清理好,準備做新分析。”

它真的把損壞的資料恢復了,把複雜環境摸透了。

接著我給了它一個典型“博士二年級小論文”任務,不加任何提示:

“很好,現在用這些資料寫一篇原創論文。深入調研領域,把主題拔高到創業或戰略理論的層面,做嚴謹統計,寫成期刊格式。”

它自己選題、提假設、跑統計、出圖表、排版成文——最難的“選題與可執行性平衡”它自己走鋼絲搞定了。我僅含糊地說“再充實、再改進”,最終拿到 14 頁論文。

(插圖:論文前兩頁)

更驚豔的是,它自創了一個指標:用 NLP 把項目描述與海量描述做數學比對,衡量“眾籌創意獨特性”。程式碼自己寫,結果自己驗。

所以,這算“博士級”嗎?

如果你指“能幹頂尖高校裡一個合格研究生的活”,部分答案是“yes”。但它也有研究生通病:統計方法有瑕疵、理論跳躍過大、證據鏈不夠嚴謹…… 我們已越過“幻覺”階段,進入更微妙、更“人類”的缺陷區。有趣的是,當我像帶學生一樣給開放建議(“再多補眾籌文獻以確立方法”),它提升顯著——也許再多引導就能接近“博士”。

Gemini 3 是什麼?

它是一個極出色的“思考+執行”夥伴,全球數十億人可隨手呼叫;也是一面鏡子,照出 AI 並未放緩、智能體崛起、人類需學會管理“聰明 AI”等多重趨勢。

三年前,我們為“機器能寫水獺詩”而驚嘆;不到 1000 天後,我在跟一個自建研究環境的智能體辯論統計方法。

聊天機器人時代正在讓位於“數字同事”時代。

沒錯,Gemini 3 仍不完美,需要會指揮、會核查的“人類經理”。但“人在回路”正從“人替 AI 擦屁股”演變為“人指導 AI 幹活”——這也許是 ChatGPT 發佈以來最大的範式遷移。

彩蛋:

我讓 Gemini“純用程式碼給我做一張 Substack 封面圖,先查尺寸”,它先上網搜規格,再純靠數學畫圖,一條龍搞定。

** obligatory 警告:**

讓 AI 智能體獲得電腦權限有風險——它可能不經詢問就移動/刪除檔案,甚至洩露文件。等工具面向非程式設計師時會好很多;當下務必謹慎。 (invest wallstreet)