#Pro
GoogleAI逆襲背後的頭號功臣
【新智元導讀】Google AI 在 2025 年下半年打了個漂亮的翻身仗,用 Nano Banana 和 Gemini 3 Pro 這兩款殺手級模型,從 OpenAI 手下搶走了大量使用者。背後的功臣,對內聲名顯赫,對外默默無聞。他是誰?他有著怎樣傳奇的故事?在Google最危險的時刻,一位不為外界熟知的中年人在內部臨危受命。他引領團隊開發出爆紅的AI應用,讓GoogleAI業務起死回生,甚至一度打敗 ChatGPT 登頂應用榜。他是誰?他的故事揭示了Google如何用創新和責任心,在 AI 競賽中重奪主動權。GoogleAI逆襲背後的「無名」功臣2025 年 8 月的一個深夜,Google資料中心的警報突然頻繁響起——伺服器負載飆升至前所未有的水平。工程師們開玩笑說,再這麼下去,他們特製的TPU晶片恐怕都要被燒化了。引發這一切的,是Google Gemini 應用中新上線的圖像生成功能「Nano Banana」。這個功能可以將多張照片融合成獨特的數字人偶,意外地在全球引爆了使用者熱情。短短幾天裡,海量使用者湧入嘗鮮,生成的圖片數量迅速突破數十億張,直接把Google的伺服器「烤」得冒煙。Google被迫緊急對 Nano Banana 的使用加以限制,以免後台基礎設施真的撐不住這股熱潮。然而,這場近乎「失控」的走紅非但沒有讓Google高層惱火,反而令整個公司為之振奮——Gemini應用終於一戰成名。在8月底功能推出後的短短一個月內,Gemini 累計生成圖像超過 50 億張,甚至一度超越 OpenAI 的 ChatGPT 躍居蘋果 App Store 下載榜首。而站在這一切背後的操盤手,正是一位在公司內部聲名顯赫,對外低調神秘的中年人:Josh Woodward。42 歲的 Josh Woodward 並非矽谷家喻戶曉的名字,但在Google內部,他幾乎是傳奇般的存在。這位出生於美國中部奧克拉荷馬州的產品經理,2009 年通過實習進入Google,從此一路在各種創新項目中嶄露頭角。早年間他曾參與建立Google最初幾代 Chromebook 筆記型電腦,聯合創立了面向新興市場使用者的「下一個十億使用者(NBU)」計畫,並主導了 Google Pay 支付服務的拓展。豐富的履歷和雷厲風行的作風,使他在內部備受推崇。正因如此,當Google在生成式AI領域感到空前的壓力時,管理層想到了 Woodward。2025 年 4 月,Google AI 戰線進行了一次關鍵人事調整:一直埋頭於實驗室業務的 Woodward 被提拔為 Gemini 應用負責人,接過公司AI戰略的帥印。當時,OpenAI 憑藉 ChatGPT 在 AI 領域風頭正勁,行業專家紛紛預言使用者將從傳統搜尋轉向AI應用。Google痛感自己的搜尋霸主地位受到威脅,加上母公司 Alphabet 一季度股價暴跌約兩成,亟需一場勝利來重振士氣。接任後的 Woodward 深知責任重大,他一手主管 Gemini 應用業務,同時仍領導著Google旗下的新興技術試驗田——Google Labs,肩負起在 AI 競賽中為Google開闢新賽道的雙重任務。「TPU 快被燒化了!」 AI爆款的誕生Woodward 上任後不久,就迎來了大顯身手的機會。這款名為 Gemini 的 AI 應用原本籍籍無名,卻因為一個名叫「Nano Banana」的新功能而聲名鵲起。Nano Banana 最初只是團隊的一次創意迭代:使用者可以上傳多張自己的照片,由AI將其合成為一個獨一無二的數字玩偶形象。沒想到這個充滿趣味的功能一推出就風靡全球,伺服器上一時間請求暴增。據Google AI 基礎架構負責人 Amin Vahdat 回憶:「我們的TPU晶片組當時幾乎要被烤化了!」。團隊不得不暫時為 Nano Banana 設定使用上限來緩解壓力。然而,這次「小危機」凸顯的正是巨大的機會:使用者對個性化AI創作的渴求超出了所有人的想像。Woodward 敏銳地意識到這正是 Gemini 突圍的契機。在他的推動下,團隊連夜擴容後台算力,全力保障這一功能的穩定運行。事實證明,這場硬體「險情」恰是 Gemini 騰飛的起點——到 9 月底,Gemini 應用累計生成的圖像已突破 50 億張。憑藉 Nano Banana 的爆紅,Gemini 應用的月活躍使用者從 3 月的 3.5 億飆升到 10 月的 6.5 億。更令Google揚眉吐氣的是,在 Nano Banana 帶動下,Gemini 在蘋果 App Store 的下載量一舉超越了 ChatGPT,登上免費應用榜冠軍。Google用了不到半年時間,就實現了從 AI 跟隨者到市場領跑者的驚人逆轉。Alphabet 公司的股票也隨之止跌回升,到年底累計上漲了 62%,成為當年美股中表現最亮眼的科技巨頭之一。這一切都令業界震動:Google似乎找回了久違的速度與激情,而推動公司完成這次AI領域「逆襲」的關鍵人物,正是 Woodward。對於 Gemini 的成功,Woodward 保持著難得的清醒與冷靜。他深知,在快速推進 AI 創新的同時,更需要慎重考慮技術可能帶來的負面影響。今年 11 月,Google發佈最新的大模型 Gemini 3,引發行業轟動。在接受媒體採訪時,Woodward 興奮地表示「我從來沒有像現在這樣覺得工作充滿樂趣」 ——AI 模型的強大能力讓各種天馬行空的產品創想成為可能。但身為掌舵者,他也時刻警惕著技術的雙刃劍。此前,他就在紅杉資本的播客節目中坦言,AI 的進步正處於一個足以「改變時代」的關鍵節點,這種改變「可能是向善的,也可能是適得其反的」。事實證明,Nano Banana 功能在爆紅的同時也一度引發爭議:有使用者使用它根據提示詞合成援非人道主義場景的形象時,生成的畫面卻是身著便服的白人女性周圍圍繞著非洲黑人兒童,引來種族刻板印象的批評。這類爭議讓 Woodward 更加意識到,AI 產品在追求創新的同時絕不能忽視社會責任。他要求團隊迅速最佳化演算法,避免再次出現類似偏見輸出,並強調任何 AI 新功能上線前都要經過更嚴格的審查。Google內部也在他的倡議下設立專門機制,評估熱門AI應用可能引發的道德和信任問題,力求在保持高速創新的同時守住「不會傷害使用者信任」的底線。Google在制定AI產品戰略時相當克制理性。Woodward和他的上級、DeepMind CEO 哈薩比斯(Demis Hassabis)商議後,有意避開了時下火熱但容易引發倫理爭議的「AI情感伴侶」方向,而是堅持將Gemini定位為提升工作效率的超級工具。Google內部給Gemini制定的考核指標並非使用者粘性或時長,而是每天幫助使用者完成了多少實際任務。這樣的取捨背後,是Woodward對於AI角色邊界的深思——AI最重要的價值應在於賦能人類,而非讓人沉迷於虛擬陪伴。當下,生成式AI正加速滲透進人們生活的方方面面,海量AI生成內容充斥網路,真偽難辨。Woodward比任何人都清楚,Google必須加倍謹慎,既要跑贏競賽,又不能因魯莽而丟掉使用者多年來對Google品牌的信任。因此,他在業務衝鋒的同時,以身作則地為團隊敲響警鐘:「我們正處在一個技術巨變的關口,這種變革將影響好幾代人。身處這個位置,我們必須確保它被用來促進善意,而非滋生危害。」敢想敢幹 「讓他們盡情去做」Gemini應用的成功並非偶然。事實上,Woodward上任之前就在Google內部孵化出多款頗具前景的AI產品。其中最出名的,當屬AI筆記助理NotebookLM。它最初只是Google Labs團隊一個默默無聞的試驗項目——資深產品經理Raiza Martin利用工作之餘的「20%時間」開發了一個名為Project Tailwind的原型:它可以讓使用者上傳文件、PDF甚至視訊,然後由AI提煉要點、生成摘要或見解。Woodward對這個創意一眼相中,大力支援團隊繼續打磨。為了把這個項目做成真正貼近使用者需求的產品,他大膽採取了一系列「非常規」舉措,打破了Google內部的慣例和層層壁壘。首先,Woodward從外部網羅來一位出人意料的「臨時盟友」——科技作家史蒂文·約翰遜(Steven Johnson)。Johnson在業界小有名氣,出版過多本暢銷書,卻從未在任何公司任職過。2022年,Woodward讀到Johnson關於AI與創意的文章後深受啟發,竟主動發出邀請,請他以訪問學者的身份加入Google Labs,共同探索如何用AI增強人類的創造力。對於這種「不按常理出牌」的合作模式,Woodward的想法很簡單:「讓四五個工程師和一個真正的作家碰在一起,看看會產生什麼火花」。在他的牽線下,Johnson開始兼職參與Project Tailwind,為團隊提供作家視角的輸入,分享職業寫作者整理資訊的工作流。工程師們在一旁觀察他的使用習慣,不斷改進產品功能。一段時間磨合後,Johnson深深投入其中,最後乾脆接受了Woodward的邀請轉為全職,擔任NotebookLM團隊的「創作總監」。這樣「破圈」的人才能夠加盟Google,靠的正是Woodward勇於創新用人的魄力。不僅如此,為了快速完善NotebookLM,Woodward還鼓勵團隊主動擁抱外部使用者社區的力量。在產品開發早期,團隊希望收集真實使用者的反饋來改進產品。按常規,Google內部有自己的論壇和郵件列表,可以用來做封閉測試。但年輕的產品經理Raiza更傾向於直接去主流社群與使用者互動,她選擇了當下開發者和AI愛好者云集的平台——Discord聊天伺服器。這在當時引起了一些內部爭議:畢竟Google一向偏好使用自家產品,很多高管甚至不知道Discord為何物。有管理人員質疑:「為什麼不用Google Meet會議或者內部群組?」對此,Woodward全力支援Raiza的提議。他乾脆對團隊撂下一句:「讓他們盡情去做吧(Let them cook)!」在他的力挺下,NotebookLM項目組順利搭建了Discord伺服器,與第一批種子使用者直接交流。這種開放姿態很快收穫了回報:借助社群力量,NotebookLM在打磨階段就吸引了大批AI發燒友的關注,產品不斷根據反饋迭代升級。到2024年底,該Discord社區已匯聚了超過20萬名成員,成為Google史上最活躍的產品使用者社區之一。很多團隊成員坦言,如果沒有Woodward頂住內部壓力允許他們「破例」用第三方平台,這款產品不可能進步得如此快、如此好。終於,2023年5月,Woodward帶著打磨成型的NotebookLM走上Google一年一度的I/O開發者大會舞台。在Google雲CEO托馬斯·庫裡安的主題演講結束後,Woodward出人意料地現身台上。他先是賣了個關子,向台下觀眾介紹說:「我們在幾周內用五名工程師拼出了一個新點子,叫作Project Tailwind。我自己的母校俄克拉荷馬大學師生也參與了內測。大家想看看它能做什麼嗎?」隨後,他現場操作筆記應用,匯入幾篇文件。不出幾秒,螢幕側欄便自動生成了這些材料的關鍵詞和延伸提問。他隨手點開「引用來源」按鈕,興奮地介紹道:「這個功能是我最喜歡的——AI會標註出每條答案背後的出處。 」短短幾分鐘的演示贏得滿堂喝彩。NotebookLM就此進入公眾視野,並在隨後數月向廣大使用者開放試用,上線不久便廣獲好評。Google很快為其加入了支援音訊、視訊內容的分析功能,讓這款AI筆記助手更趨完善。NotebookLM的成功不僅證明了Woodward識人用人的獨到,也驗證了他推動內部「減小阻力」所取得的成效。在官僚體系龐大的Google公司,許多創新想法往往困於流程冗長、部門掣肘。為此,Woodward在Google Labs內部設立了一個特別機制,員工如果遇到體制上的「絆腳石」可以提交一個代號為「Block」的工單,由專門團隊迅速協調資源排障。NotebookLM項目在籌備上線時一度面臨算力不足的問題,Woodward 便通過這一機制火速調撥了更多TPU算力支援,確保產品性能萬無一失。據團隊工程師回憶,有了「Block」系統的保駕護航,他們再也不用為內部審批耗費精力,可以心無旁騖地專注於產品研發。「有這樣一位負責人幫我們清理那些惱人的障礙,我們才能真正將精力放在使用者身上。」Google Labs 的一名軟體工程師 Usama 感嘆道。小細節,大作為Woodward 領導風格中另一個令人稱道的特點,是他對「細節決定成敗」的高度重視。擔任 Gemini 和 Google Labs 負責人後,他發起了一項名為「Papercuts」(紙割傷)的內部計畫,專門蒐集和快速修復那些雖然不至於致命、但影響使用者體驗的「小傷口」。在 Woodward 看來,這些細枝末節的改進往往最能打動使用者,卻常被大公司忽視。有使用者抱怨在 Gemini 聊天時無法中途切換大模型而不重新開始對話,Woodward 知道後立刻催促工程師最佳化。不久他就在自己的 X 帳號上驕傲地宣佈:「Papercut 已修復:現在你可以在 Gemini 應用的對話中途切換模型而無需重新啟動會話了。」這條動態下面,許多使用者紛紛留言點贊,感謝他傾聽並解決了困擾自己的「小問題」。事實上,親自聆聽使用者聲音、持續打磨產品細節,幾乎已經成為 Woodward 工作的日常。身為公司高管,他卻常常一頭紮進社交媒體的一線陣地,在 X 和 Reddit 上直接回答使用者提問、收集吐槽反饋。業界人士形容這在科技巨頭中相當少見——一位負責核心產品的副總裁竟然親自在論壇上當「客服」,甚至把使用者直言不諱的批評意見轉發給開發團隊要求改進。但在 Woodward 看來,這正是產品經理應有的擔當:「使用者願意花時間告訴我們問題出在那兒,那就是在幫我們變得更好。」NotebookLM 團隊一名前設計師 Jason 回憶,Woodward 經常帶著從使用者社區蒐集的反饋走進會議室,對大家說「看看,這是使用者真正關心的,我們能做點什麼?」Jason 由衷佩服地說:「這種對終端使用者的承諾和執著,我在其他領導身上幾乎沒見過。」Woodward 平易近人的人格魅力也在這些「小事」中展露無遺。同事們常提起他的一個招牌舉動:當有團隊成員因為線上評論的批評而情緒低落時,Woodward 會故作誇張地哈哈一笑,用他那帶著中西部口音的爽朗笑聲打趣道:「走,一起回覆網友去!」據說,沒有人能抗拒他這富有感染力的笑聲——緊張的氣氛瞬間就被他化解了。前同事 Caesar Sengupta 曾打趣地評價:「我從沒見他對誰發過火。」這位與 Woodward 共事多年的Google前高管甚至半開玩笑地放言:「照這樣下去,他早晚會成為Google的 CEO。」雖然只是戲言,但也從側面反映出 Woodward 在Google內部的威望和人望之高。從奧克拉荷馬小鎮少年 到Google中流砥柱在成為Google AI 戰略幕後英雄之前,Josh Woodward 的人生軌跡並非典型的「矽谷精英」路線。他 1983 年出生於美國奧克拉荷馬州一個普通家庭,自幼成長於埃德蒙德(Edmond)小鎮。從小勤奮好學的 Woodward 考入了家鄉的俄克拉荷馬大學主修經濟學,2006 年以優異成績畢業,並被評為年度傑出畢業生之一。大學期間,他對公共事務和全球視野表現出濃厚興趣,積極參加各類學生領導力項目。畢業後,他獲得獎學金遠赴英國牛津大學深造,攻讀比較政府學,並於 2009 年拿下碩士學位。在牛津,他把研究重點放在美國軍事及經濟援助對外國民主處理程序的影響上——這一少有人問津的題目透露出他對「科技與社會」「力量與責任」等宏大命題的早期思考。也許正因如此,當他回到美國踏入科技行業時,能始終從更長遠的角度審視手中的技術。2009 年,Woodward 以產品管理實習生的身份加入Google,很快顯露出過人的敏銳和領導才能。他樂於接受具有挑戰性的任務,勇於從零開始打造新項目。在Google工作最初十年裡,他涉足多個前沿領域,從硬體裝置到新興市場,無不留下自己的印記:他參與了 Chrome 作業系統和首批 Chromebook 筆記本的開發;自告奮勇加入公司新成立的「NBU」計畫,去研究和服務印度等地第一次觸網的海量使用者,並因此被視為NBU項目的奠基人之一;後來又接手 Google Pay 的國際化拓展業務,為數億使用者帶去便捷的移動支付體驗。這些橫跨軟硬體、全球市場的經歷,讓 Woodward 對「如何讓技術普惠大眾」有了深刻理解。這種理念也貫穿在他之後負責的AI產品中——無論是 NotebookLM 還是 Gemini,他始終強調的是為使用者創造真正有用的價值,而不僅是炫技式的噱頭。Woodward 還有一個鮮明的個人標籤:酷愛閱讀且樂於分享。熟悉他的人都知道,他的辦公室和家中總是堆滿書籍,從商業傳記到科幻小說無所不讀。據說Google高管層每每想找本好書讀時,第一個諮詢的對象就是 Woodward。他至今堅持寫閱讀筆記,早年在 NBU 團隊時便每周編輯一封內部通訊,內容簡潔而發人深省,當時這封通訊在Google內部意外走紅,許多人聞訊後紛紛來信請求訂閱。如今儘管工作繁忙,他仍保持著每季度給團隊和朋友們寫一封「Josh 通訊」的習慣,分享自己近期讀到的有趣見解。身邊同事戲稱他是Google的「行走書單」。更難能可貴的是,Woodward 不僅博覽群書,還善於將知識活用於工作決策中。據前文提到的 Raiza 回憶,在 NotebookLM 項目開發過程中,Woodward 曾特地發給她一篇論文,探討使用者究竟能否信任AI聊天機器人的答案。這讓 Raiza 意識到,領導關心的不僅是產品功能實現,更是產品能否真正贏得使用者信任。類似的故事不勝列舉——他會建議團隊工程師閱讀科幻小說,從中獲得對未來技術的想像力;也會邀請人文學者來交流,提醒大家科技創新不能脫離人文關懷。這些細節都體現出 Woodward 作為領導者的深度與溫度。變革時代的掌舵者2025 年行將結束之際,Google憑藉在AI領域的一連串突破重新煥發了生機:從 Gemini 3 模型的橫空出世,到一個又一個「現象級」應用的推出,整個公司一掃年初的低迷,士氣高漲。CEO 桑達爾·皮查伊(Sundar Pichai)在全員大會上興奮地表示:「過去這一年的進展真是令人難以置信——Google各個團隊都在以前所未有的速度推出新功能。」而站在這股 AI 浪潮中央、備受矚目的,正是 Josh Woodward 和他所率領的團隊。展望 2026 年,業界對Google寄予厚望,期待這家科技巨頭繼續以 Responsible AI(負責任的人工智慧)的姿態領跑。在聚光燈之外,Woodward 依然埋頭忙碌著:既要帶領兩個部門創新競速,又要謹慎把關每一項技術的潛在影響。然而,這位久經考驗的「Google AI 掌櫃」臉上沒有焦慮,有的只是對未來的堅定信心和一絲藏不住的興奮。在最近的一次採訪中,當被問及如此高壓的工作如何堅持時,他爽朗一笑:「因為從未像現在這樣好玩啊!」對於熱愛挑戰的他來說,這或許正是真正的樂趣所在——身處巨變浪潮之巔,以初心為舵,划槳向前,讓技術的光芒照亮而非灼傷這個世界。 (新智元)
Gemini負責人:Pro的主要作用是蒸餾Flash!最大突破空間在後訓練;Noam、Jeff Dean:持續學習是重要改進方向
2025年底,最令人印象深刻的AI圈大事莫過於Gemini 3 Flash的發佈。它主打輕量級、速度快,不僅智能全面超越Gemini 2.5 Pro,而且部分性能也反超了3 Pro和GPT-5.2(比如程式設計能力和多模態推理),令人非常驚豔。就在前天,Gemini的三位共同負責人Oriol Vinyals、Jeff Dean、Noam Shazeer和Google AIStudio 的產品負責人 Logan Kilpatrick 罕見同台,進行了一次對話。這三位嘉賓都相當重量級:Oriol Vinyals是Google DeepMind 研究副總裁兼深度學習負責人;“傳奇院士”Jeff Dean 大家都認識,他也是Google首席科學家;Noam Shazeer則更不用說了——Transformer的論文作者之一,也是Gemini 的聯合負責人。在這場談話中,Gemini的三位共同負責人表示:現在新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。Oriol Vinyals甚至坦言:Pro的主要作用,就是拿來蒸餾Flash!他認為,那怕犧牲一點智能,更快更便宜的模型對使用者來說也非常重要。所以對於Flash這樣小而強的模型,他們一定會持續增加投入。Logan Kilpatrick也透露,他們在GoogleAI Studio 裡針對 vibe coding 這個用例,做了一些 Flash 模型和 Pro 模型的對比測試。結果發現:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。可見 Flash 有多麼受歡迎。此外,他們還談論了Gemini這一年的整體進展、內部的訓練細節、對Pro和Flash版本的取捨以及模型後續演進的重要方向等等。Jeff Dean 透露,Gemini目前用的基礎架構是他2018年提出的Pathway架構,主要有三個目標:一個模型可以泛化到數百萬個任務,強多模態,並且採用稀疏啟動。現在Gemini已經基本實現了這三個目標。而Jeff Dean也透露,關於模型能力的演進方向,Google內部已經有了Gemini的下一個“五年計畫”。Gemini 3剛發佈時,Oriol 曾在X上表示,Gemini 3的核心秘訣是提升預訓練+後訓練,尤其在後訓練上還是一片未被開墾的“綠地”,有很大的提升空間。而在這次談話中,他也再次強調,當前階段最大的突破空間很可能在後訓練。Jeff Dean則認為,目前在一些Benchmark上,模型能力基本已經見頂,尤其是程式碼、推理和數學領域;但在“幫我規劃一次舊金山旅行”這種開放式任務上,模型能力還有較大的提升空間。另外,Noam 和 Jeff 也強調,大模型的規模依然重要,但它不再是決定一切的唯一變數。相比之下,模型的持續學習能力才是後續的重要改進方向。小編翻譯並整理了整期對話實錄,有不少有價值的資訊,enjoy!Gemini的起源:Google Brain與Deepmind的融合Logan Kilpatrick已經有不少人試用了 Gemini 3 Flash,並對模型進行了測試,整體反饋非常積極,勢頭非常強勁。此前我們發佈了 Gemini 3 Pro,現在整體都在加速推進。Jeff、Oriol、Noam,你們三位是 Gemini 的聯合技術負責人,整體上在引領 Gemini 的方向。也許我們可以從 Jeff 開始,請你從自己的視角談一談:在 Gemini 3 Flash 和 3 Pro 發佈的這個時間點,我們正處在一個怎樣的階段?以及最近這段時間,我們是如何走到今天這一步的?Jeff Dean當然。我們對 Gemini 3 系列模型感到非常興奮,包括幾周前發佈的 Pro,以及昨天發佈的 Flash。正如你所說,我、Oriol 和 Noam 是 Gemini 項目的三位聯合技術負責人。我們已經合作很多年了,一起工作一直非常愉快。從 Gemini 項目的起源來看,其實源於我當時的一個觀察:在 Google 內部,我們在大語言模型規模化方面已經積累了很多優秀成果;在 Google Brain(當時屬於 Google Research)也在推進多模態模型;與此同時,Oriol 在原 DeepMind 團隊中也在做相關工作。但問題在於,這些非常優秀的人才和研究工作是分散的,算力資源同樣是分散的。我認為,如果我們能真正整合力量,作為一個統一的團隊協作,會好得多。這就是 Gemini 團隊和項目的起點——發生在 Gemini 1.0 發佈之前不久。此後,看到模型一代代演進非常有意思:Gemini 1.5、2.0、2.5,再到幾周前發佈的 Gemini 3 Pro,以及本周發佈的 Gemini 3 Flash。我們對此都非常興奮。當然,我們也必須學會如何跨越海洋、跨越多個地點協作,這本身就是一個學習過程。但我認為我們現在已經真正進入了狀態。大約從一年前的 2.5 系列開始,到現在的 3 系列,我們明顯找到了節奏。Logan Kilpatrick我非常喜歡這一點。看到 Brain、DeepMind、Google Research 的人才真正融合在一起,並且取得如此快的進展,確實非常酷。Oriol,我也很好奇你從自己的視角怎麼看這個問題,尤其是從歷史上看,Brain 和 DeepMind 在研究方法上的差異。我個人在看《The Thinking Game》這部紀錄片時,一個非常強烈的感受是:DeepMind 在十年前解決的問題,以及後來 AlphaFold 面對的問題,和我們今天在 Gemini 上遇到的挑戰,其實非常相似。其中讓我印象最深的是資料問題:比如人類真實標註的蛋白質折疊資料非常稀缺,團隊必須通過各種方式“合成性地放巨量資料規模”。我很好奇,這種思路與你們今天所處的 RL、“測試時計算”範式之間,有多少相似性?你覺得當年那些問題和今天這個階段之間,有多大的連續性?Oriol Vinyals我可能先從一個更宏觀的角度來回答。在組織層面,我其實非常幸運:很多年前我在 Brain 團隊工作,後來我搬到倫敦,加入了 DeepMind。所以我親身經歷了這兩種研究文化在早期的差異。當然,正是我和 Jeff 之間的聯絡,最終也幫助我們啟動了 Gemini 項目,把這兩個團隊再次結合起來。從研究方式上看,尤其是 DeepMind 的早期文化,有一個非常鮮明的特點:明確的長期目標、宏大的願景,以及“不解決問題就不罷休”的項目周期。這種精神其實深刻地體現在 Gemini 的起點上——Gemini 的目標是建構 AGI,是“解決智能”這個問題,我們是為長期而來。3.0 很棒,但它並不是終點。當然,Brain 也有大量類似的長期項目,同時帶來了對神經網路架構、訓練方法等方面的多樣化探索和創新。這些基因同樣進入了 Gemini。所以可以說,這兩個組織的 DNA 在 Gemini 中完成了融合。而在方法論上,正如我們今天看到的那樣,無論是資料驅動的無監督/預訓練,還是強化學習(RL),依然是未來模型持續創新的“綠地”。回頭看一些早期項目,當時外界並不總是理解我們在做什麼,尤其是我們研究打電子遊戲的那段時間。但我們的目標始終是:開發能夠更廣泛泛化的演算法。事實上,很多當年開發的演算法,現在都可以直接應用在大語言模型上。當時這點對我們來說是顯而易見的,但對外界並不明顯。比如 AlphaFold 中使用的蒸餾、強化學習加監督式自舉(就像 AlphaGo 那樣),這些方法與今天在大語言模型中的做法是高度一致的。這些技術在不斷被發現、打磨、改進,而每一輪迭代都會帶來新的提升。我認為,從 2.5 到 3.0 的躍遷,無論是在預訓練還是後訓練上,都疊加了大量這樣的改進,最終形成了一次相當顯著的提升。Logan Kilpatrick我非常喜歡這個說法。我之後可能還會再提到這一點。順便說一句,我記得之前看到過一個 meme,不知道是 Jeff 還是 Oriol 發的,大概意思是:“是該擴展預訓練,還是擴展後訓練?”然後答案是同時狂按兩個按鈕。這個 meme 是誰的功勞?Jeff Dean我覺得是 Oriol 吧?Oriol Vinyals我好像聽說過這個說法,但 meme 不是我做的。不過感謝 whoever 發了那個 meme,我其實沒看到。Jeff Dean真正的“秘密”就是:更好的預訓練,加上更好的後訓練。Oriol Vinyals對,這就是秘密。非常“機密”的秘密。Noam Shazeer我覺得有趣的一點在於:雖然我們只有一個統一的目標,但這是一個可以從非常多正交方向持續取得進展的問題。正如 Oriol 提到的,“加強預訓練”“加強後訓練”只是其中兩個按鈕。實際上還有很多這樣的按鈕,每一個都能從不同維度提升模型效果。這恰恰非常適合一個擁有數百、上千名工程師和研究員的大型組織。你可能會覺得這麼多人一起工作一定會一團亂麻,但事實證明,如果問題本身可以被拆解為多個正交方向,那麼在十個方向上各取得一點突破,疊加起來就會產生巨大進展。這正是 Google Brain 自下而上研究方式的優勢,而它也與 DeepMind 更加聚焦長期目標的方式形成了非常好的互補。如何看待產品與模型的關係Logan Kilpatrick最近我在和一些人討論一個問題,Corey 也從某種角度提到過——我這裡用自己的方式轉述,不代表他的原話:產品本身是否也是一種“規模化機制”?我們可以擴展模型規模、擴展預訓練和後訓練、使用測試時計算等等。但現在你會看到,很多評測開始引入“帶工具的 benchmark”“帶 agent harness 的 benchmark”。我很好奇你們怎麼看待“產品”在其中扮演的角色:它是否能反過來幫助提升模型本身的能力和互動閉環?這是不是你們正在思考的方向?Noam Shazeer我認為這非常有價值。我很喜歡在 Google 這樣的全端公司工作,從底層 AI 技術,一直到服務數十億使用者。產品不僅能為訓練提供資料和反饋,也能極大提升團隊的動力。看到自己做的東西正在被真實使用者使用,這本身就非常有意義。Jeff Dean我補充一點:當你的工作被大量使用者使用時,這對人是極其有激勵作用的。這可以是直接的,比如 Gemini App;也可以是間接的,比如 Gemini API,被開發者使用,或者嵌入到各種 Google 產品中。這正是我當初進入軟體工程領域的原因之一,看到自己的工作被使用,是非常快樂的事情。少數人做出的成果,可以讓數百萬、數千萬,甚至數十億人受益。這是軟體行業非常獨特、其他職業很難擁有的體驗。Oriol Vinyals我從稍微不同的角度補充一下。我們三個人本質上都是深度學習研究者,但你永遠無法繞開真實世界。歷史上有無數例子:正是因為真實世界的需求,我們才不得不發明新的技術。比如在圖像識別早期,我們發現圖像並不會總是居中,於是需要設計能夠處理這種情況的模型。又比如文字是變長的,你無法直接把摺積網路套在可變長度的文字上,於是我們發展了循環網路、再到 Transformer。今天也是一樣。如果使用者希望和聊天模型進行跨越多年的長期互動,那我們就必須從研究層面正面解決這個問題。所以現實世界的需求本身,也在強迫我們不斷創新。當然,這也與動力、影響力密切相關,我們做的事情確實重要,這讓我們保持腳踏實地。Jeff Dean我再補充一點。除了關注“誰在用你的產品”,在一家全端公司裡,另一個巨大優勢是:我們會非常深入地思考訓練模型所依賴的基礎設施。我們已經建構自己的 AI 加速晶片 TPU 超過十年了。這對兩件事至關重要:一是讓深度學習模型可以部署到更多產品場景中;二是支援模型訓練規模的持續擴展。早在 2012 年左右 Brain 團隊成立初期,我們主要使用資料中心裡的 CPU 訓練模型。當時我們就訓練出了一個規模是此前最大模型 50 倍的神經網路,在視覺和語音任務上都取得了驚人的效果。但我們也很快意識到:如果要把這些模型服務給大量使用者,僅靠當時的 CPU 或 GPU 是不夠的,這直接促成了 TPU 項目的誕生。此後,我們持續迭代 TPU,使其能夠很好地支撐 Gemini 的大規模訓練和推理服務。目前最大的突破空間在後訓練Logan Kilpatrick是的,我們現在真的是怎麼都不夠用 TPU,這確實是一個非常現實的瓶頸。我不太清楚“Gemini 聯合技術負責人”這個職位的精確崗位說明是什麼,但我猜,對你們三位來說,工作中至少有一部分是要決定:下一步的關鍵技術下注點在那裡,我們要朝那些方向走。Demis 多次提到過這樣一個觀點,我相信也有不少人認同:要真正走向 AGI,可能一定需要某種架構層面或模型層面的根本性突破,而不僅僅是持續的工程創新。當然,我們也看到,每一次模型發佈本身就包含了大量創新。比如如果你單看 Gemini 3 Flash 和 3 Pro,就會發現這並不是第一次被提到,Flash 在後訓練配方上有一系列創新,使得它在某些基準上,儘管模型更小,但進步幅度甚至超過了 3 Pro。所以我很好奇,你們是如何看待這種張力的:一方面,短期和中期存在一個極其豐富的改進空間;另一方面,我們是否需要為未來做出一些“根本性”的新下注,去爭取真正通向 AGI 的突破?還是說,其實我們可以沿著現有範式繼續推進,只要不斷踏實地做創新,就足夠了?不知道這個問題是否引起你們的共鳴,誰願意先來回答?Oriol Vinyals我先來吧。Logan KilpatrickOriol,也許你可以順便解釋一下你常說的“drastic research(激進式研究)”是什麼意思。Oriol Vinyals好的。關於“drastic research”這個詞,其實挺有意思的,甚至有點“署名歸屬不清”。這是我和 Ilya 在 Brain 時代的一次討論,他說是我發明的,因為我當時說“這是一個非常 drastic 的想法”,但我記得這個詞是他先用的。總之不重要。它的意思其實很簡單:不是只做增量式思考,而是更超前地思考——真正需要發生什麼,才能帶來質變。當然話說回來,當一支非常強的團隊把大量增量改進做到極致時,這些改進是會疊加成巨大進步的。Gemini 就是一個例子,但對我來說更“極端”的例子其實是 AlphaFold。那個項目多年裡幾乎沒有發論文,而是持續打磨架構、訓練配方和每一個細節,始終圍繞著一個大目標前進。回頭看,AlphaFold 的成功其實是大量技巧和“深度學習工程細節”的積累,並不一定依賴某個突然出現的、極端顛覆性的技術。Transformer 當時已經存在,本身就是一個非常強的架構。當然,Noam 可以更詳細地講 Transformer。至於 AGI 到底需要什麼,我認為嚴格地不斷完善現有配方,也有可能就已經足夠。資料是存在的,潛力也在那裡。但與此同時,我們也不能排除未來會出現真正的“巨大躍遷”。我個人的判斷是:當前階段,最大的突破空間很可能在後訓練。當然,我們三個人的看法未必完全一致。不過,作為一個大型公司和大型項目,我們可以同時在多個方向下注,這本身也是我們的優勢。最後,關於“技術負責人”這個角色,我想補充一點:我們很大一部分工作,其實是篩選。團隊裡每個人都非常聰明、非常有創造力。很多時候,我們並不是提出想法的人,而是判斷那些想法最有前景。並不是“我們提出所有想法,別人來執行”,而恰恰相反。我想澄清這一點,給可能對我們日常工作有不同想像的朋友。我提名 Noam 接著講。Noam Shazeer謝謝 Oriol。確實,這是一個非常複雜的組合問題。有大的突破,也有小的突破。關鍵在於:它們可以正交疊加,而且不會引入過多技術複雜性,這樣我們才能不斷繼續往上疊。你可以粗略地想像:也許一個“大突破”能給模型增加 1 個 IQ 點;一個“小突破”只能增加 0.1 個 IQ 點。但只要我們持續把這些疊加起來,進展就會非常巨大。至於下一個“超級大突破”會不會出現?老實說,我覺得是 50/50。但我們確實在很多方向上都看到了大量創新:後訓練是重點,但預訓練、模型架構、資料、下游應用等方向也都在持續推進。Jeff Dean我認為,保持一個風險組合非常重要。一部分是更長期、更高風險、可能成功也可能失敗的想法;另一部分是希望能進入下一代 Gemini 模型的、相對短期但同樣重要的工作。後者往往理解得更清楚,需要通過實驗進一步驗證,它們也許只能帶來 1 分或 0.1 分的提升。但當你把很多這樣的改進疊加起來,就能實現代際飛躍。與此同時,我們也必須持續押注那些可能徹底改變現有範式的新方法。在 Gemini 項目啟動之前,大概在 2018 年左右,我們開始意識到:為不同任務分別訓練一大堆模型,可能並不是正確的方向。於是我發起了 Pathways 項目,其核心目標是:一個模型,能泛化到數百萬個任務能處理多模態輸入和輸出模型不是完全稠密的,而是稀疏啟動的圍繞這三個目標,我們不僅在模型上做探索,也搭建了底層的軟體基礎設施,以支援這種“稀疏、啟動方式很奇怪”的模型規模化訓練。實際上,今天 Gemini 使用的正是 Pathways 這套基礎設施。這三個目標,今天基本已經在 Gemini 的多個版本中實現了:一個模型可以做數百萬件事,強多模態,並且在最新版本中大量採用稀疏啟動。所以,設定五年期目標,然後一步步朝它們推進是非常有價值的。不是五年什麼都不做,而是沿途不斷取得階段性成果。現在,我們腦子裡也已經有了關於未來五年的類似藍圖:下一步模型能力該如何演進。程式碼、推理和數學已經被“擊穿”,下一步是開放式任務Logan Kilpatrick太棒了。Jeff,也許我們可以線下聊聊,把“未來五年的完整清單”拿出來看看。Noam 和 Jeff 都提到了一個點:模型能力在很多維度上都在持續提升,可能是某個評測的一兩個百分點,也可能是更細微的改進。但與此同時,我們也看到某些領域在 6 到 12 個月內被迅速“吃穿”了。比如程式碼、推理、數學。年初時,“Humanity’s Last Exam(HLE)”這種 benchmark,最強模型的得分還是個位數百分比;現在已經出現了 50% 以上的模型。程式碼領域的 AIM benchmark 幾乎已經被刷到接近 100%。我很好奇:你們覺得這種趨勢會持續嗎?還是說,程式碼、推理、數學這些領域,本身就有某些特性,使得進展會特別快,而其他領域(比如生物學)就沒那麼容易?Noam Shazeer我先說說程式碼吧。我覺得大家已經意識到程式碼領域極其有價值。可能我們作為工程師有點“近視”,因為它直接幫助了我們自己。但說實話,我本人就非常感謝 Gemini 在加速我的程式設計工作。而且這不僅是“我們覺得有用”,而是程式碼能力可以被用於建構極其高價值的東西,比如繼續建構 AI 本身。Jeff Dean我再補充一個關於數學的例子。兩年前,模型在 GSM8K(中學數學題)上都表現得很吃力,比如:“Fred 有 5 隻兔子,從兩個朋友那裡各拿到 1 隻,現在有幾隻?”而現在,我們已經有模型能在 IMO(國際數學奧林匹克)這種難度極高的競賽中拿到金牌。這充分說明:後訓練和強化學習在可驗證領域(如數學和程式碼)裡非常有效。原因在於:在這些領域,我們可以生成候選答案,並且明確地驗證對錯。數學可以用定理證明,程式碼可以運行、編譯、跑單元測試。而真正的挑戰在於那些“模糊領域”:比如生物問題,或者“幫我規劃一次舊金山旅行”這種開放式任務。這些問題沒有清晰的獎勵函數或對錯判斷。我認為,未來幾年一個重要方向就是:如何讓這些開放式領域的進展,像數學和程式碼一樣快。Flash版本:相比智能,速度快也很重要Logan Kilpatrick這也讓我聯想到當前的 Flash 時刻。顯然,蒸餾已經非常成功。我們有一個極其強大的“教師模型”,然後把能力蒸餾到 Flash 這樣的更小模型中。Oriol,我很好奇你怎麼看這個問題:在速度、效率、成本和智能之間做權衡時,我們的心智模型是不是Pro 模型完全不做妥協,反正以後可以再蒸餾?在多條研究主線平行的情況下,Pro 的決策是否最終決定了 Flash 能達到的上限?比如現在的 Gemini 3 Flash。Oriol Vinyals這是一個非常好的問題。回到 Gemini 項目最初的設計,Jeff 可能還記得最早的那些幻燈片:從一開始我們就明確,Gemini 會同時有兩個運行點:一個是:最大智能,不做任何妥協另一個是:更強可部署性,但不追求絕對前沿智能這種劃分方式非常有幫助,而且我認為短期內不需要改變。但現實發生的事情是:一代一代下來,新的 Flash 模型,往往已經能達到甚至超過上一代 Pro 的水平。也就是說,在固定模型規模或延遲條件下,智能水平在持續上升。當然,在最大規模下,Pro 仍然會在某些 Flash 難以觸及的能力上保持領先。這最終變成了一個使用者問題:你到底需要什麼?很多使用者可能會選擇 Pro,因為他們不想每次都猜“這個問題 Flash 行不行”。與此同時,我們也把蒸餾這件事做得非常成熟了。我和 Jeff 經常提醒大家,這其實是一篇當年被拒稿的論文,但它一次次證明了自己的價值。我認為,兩種模型之間的差距不一定會變成 0,但很可能會小到一個程度:Pro 的主要作用,就是用來“生成”Flash。當然,我們可能仍然希望把 Pro 直接交給某些使用者。但從長期來看,能以最低成本提供前沿智能,是一個非常理想的狀態。老實說,隨著 Gemini 3.0 的進展,我們已經離這個目標非常接近了。這真的非常令人興奮。Jeff Dean我補充一點。我們也在做端側模型,比如用於 Pixel 手機等裝置的模型,這類場景會有額外的約束,比如記憶體規模等。我認為延遲作為模型質量指標被嚴重低估了。能夠在極低延遲下,依然具備很強推理能力、可以處理複雜問題的系統,是非常非常重要的。延遲可以從不同層面來最佳化:一方面是模型層面的最佳化,通過架構設計讓模型天然更快;另一方面是硬體層面的決策,讓某些模型在未來的硬體平台上運行得特別高效。延遲和推理階段算力的另一個關鍵意義在於:它讓你可以在固定的延遲預算內,把模型“變得更聰明”。如果模型本身快 5 倍,你可以選擇:直接快 5 倍給出答案;或者讓模型“多思考一會兒”,得到更好的答案,同時仍然比原來快 2.5 倍。如果你有非常強大的硬體,再配合通過蒸餾得到的、輕量但能力依然很強的模型,這是一個必須持續投入的重要方向。Noam Shazeer我想補充一點。如果我們真的能做到這樣,其實是一種非常理想的工作方式:在訓練 Pro 模型 時,儘量不去在意推理性能,專注於智能本身;然後在 Flash 模型 上,重點最佳化延遲、成本和吞吐量。這讓我想起我大學時的一位電腦教授,杜克大學的 Owen Astrachan。他常說一句話:“先讓它跑起來(make it run),再讓它正確(make it right),然後讓它快(make it fast),最後讓它小(make it small)。”這基本就是軟體開發和偵錯的順序。而現在在模型上似乎發生了類似的事情:先讓模型能跑、再讓它聰明、再讓它快、再讓它便宜。看起來,很多“老智慧”仍然在發揮作用。Jeff Dean我很喜歡這個說法。確實,不同的使用場景需求差異很大:有些場景追求絕對最好的質量,並不太在意延遲;還有很多場景需要更快、更便宜的模型,用於高頻、規模化的使用。這正是我們常說的帕累托前沿:我們希望給使用者提供多個選擇。理想情況下,使用者最好不用太糾結:“這個請求我該用 Pro,還是 Flash?”但同時,提供一個連續的選擇區間,我認為是非常有價值的。Logan Kilpatrick完全同意。我可以分享一個具體例子:我們在 AI Studio 裡針對 vibe coding 這個用例,悄悄做了一些 Flash 模型和 Pro 模型的對比測試。結果很明顯:即便 Flash 在智能上略遜一籌,但由於延遲更低、反饋更快,使用者反而寫得更多、留存更高。因為沒人願意一直等。我昨晚還看到一條評論,有人說自己以前一直是“永遠用最聰明的模型、願意等待”的那一派,這點也呼應了你剛才的觀點,Oriol。但在用了 Gemini 3 Flash 之後,他重新評估了這個立場,因為迭代速度實在太快了,在很多情況下,那怕犧牲一點點智能也是值得的。Jeff Dean是的。其實在 Google 非常早期的時候,我們就極度重視搜尋結果頁面的響應速度,因為我們知道:低延遲是一種極其令人愉悅的使用者體驗。搜尋越快,人們就會搜得越多。Oriol Vinyals還有一個很直觀的現實是:我們依然處在人類在環(human-in-the-loop)的階段,所以我們並不會對等待和延遲免疫。另一個非常令人興奮、而且即將到來的應用場景是機器人。在機器人領域,你需要模型去控制和操作真實世界的裝置,這裡有物理層面的硬約束。我非常確信,對小而強模型的投入只會持續增加。我們對目前的進展本身也感到非常興奮。模型並不缺“聰明”,缺的是“持續學習”Logan Kilpatrick回到我們之前關於“面向未來的技術賭注”的討論,最近大家也談了很多自我改進、持續學習之類的話題。在不洩露任何“秘方”的前提下,我很好奇:這些方向在 Gemini 裡更多是偏研究探索,還是已經開始進入產品或工程視野?目前整個領域大概處在一個怎樣的成熟度區間?Oriol,你怎麼看?Oriol Vinyals這是一個非常“老派深度學習者”的問題。從歷史上看,神經網路的發展中,有些地方一直讓我覺得不夠優雅、也不夠合理。比如課程學習,我們現在是把各種難度的資料混在一個 batch 裡訓練模型,而人類學習通常是先學簡單的,再學困難的。這是一個我們做過一點、但遠遠不夠的方向。另一個多年來一直困擾我的問題是:我們訓練完模型、凍結權重、然後部署,部署後就再也不學習了。AlphaFold 不會從使用者那裡學習,AlphaGo 也不會從自己下過的棋局中繼續學習。至少在權重層面,這些系統在部署後是“靜態的”。這些顯然都是非常深層次、非常重要的改進方向。隨著我們逐漸接近 AGI,你會自然期待持續學習、情境學習這類能力出現。舉個例子,Demis 很喜歡和模型下棋。模型其實應該意識到:“我下得還不夠好。”然後它應該自己花一周時間專門學習國際象棋,再回來對 Demis 說:“我準備好了。”然後擊敗他。這裡有大量令人興奮、同時也是經典的開放問題。這說明它們不會容易,但我相信我們會做到。Jeff Dean順著持續學習這個話題說一句,其實預訓練本身就有點“反直覺”,至少和人類學習方式相比是這樣。現在的做法是:我們隨機初始化一個模型,把它“綁在板子上”,然後把海量文字、圖片、視訊流式地灌給它。最後再說:“好了,你現在可以開始在世界裡行動,學數學、學程式設計了。”這種方式下,每個 token 所包含的資訊密度其實很低。如果模型能在環境中採取行動、觀察後果、主動決定下一步關注什麼:比如它想學棋,就主動去讀棋譜;想學微積分,就去找相關內容——那會更像人類的學習過程。這是一條非常值得作為長期技術賭注去探索的方向。Noam Shazeer我並不是要否定“大規模流式訓練”。我們不僅僅是在把資料流過模型,而是讓模型對每一個 token 都做下一詞預測,而且規模是兆級 token。一個人一生可能只接觸到十億等級的語言 token,但通過預測別人接下來要說什麼,人類確實能學到很多東西。我們給模型提供的資料量是人類的成千上萬倍,這當然極其有價值。但我也同意 Jeff 的觀點:如果我們能把大量計算資源集中投入到最重要、最有價值的方向,無論是治癒癌症、建構程式設計智能體,還是其他重大問題,那會非常有意義。這也是為什麼我贊同 Oriol 的判斷:未來很多大的進展,很可能來自後訓練階段。Logan Kilpatrick我很喜歡這個結論,感覺我們兩種方式都需要。某種程度上,人類本身就“繼承”了進化過程中形成的生物學先驗,而大規模 token 流式訓練,可能只是一個很粗糙的代理。Jeff Dean是的。正如 Noam 說的,大規模流式訓練已經被證明非常有效,我完全不想否定它。但另一方面,人類一生看到的 token 數量遠少於模型,卻能達到很高的能力水平。這說明,可能存在一種比現在高 1000 倍甚至 10000 倍的資料效率學習方式。我認為關鍵在於:人類會思考行動的後果、觀察反饋,這種方式更偏向強化學習,而不僅僅是預測下一個 token。總結:多模態進展、超長上下文、通用模型能力提升Logan Kilpatrick太棒了。我們時間差不多了,最後想問一圈:回顧 Gemini 過去兩年的發展,有沒有那些出乎意料的地方?不管是進展比預期快的,還是慢的,或者某些意想不到的結果。Jeff Dean整體來看,最讓我欣喜的是多個方向同時取得進展。視訊和圖像生成能力的提升尤其明顯,而且它們越來越多地和主模型融合在一起,讓模型可以進行視覺推理。你可以看到生成結果,然後說:“不對,我想要的是這個圖像的一個小改動。”這種互動非常自然。另一個我認為被低估的能力是超長上下文。當你把大量資料放進上下文窗口時,這些資訊對模型來說是非常“清晰”的,它們以 KV cache 的形式存在。相比之下,訓練資料已經被“攪拌”進數十億參數中,對模型來說是模糊的。我覺得長上下文能力還遠沒有被充分利用。我們正在探索的一條方向是:如何讓使用者感覺自己彷彿擁有對數十億甚至兆 token 的注意力能力,就像把大半個網際網路、海量視訊放進了上下文窗口裡。Oriol Vinyals對我來說,最意外的是:我們曾經有一個專門做競賽程式設計的項目 AlphaCode,是高度特化的系統。但現在,用通用模型,我們卻在數學和程式設計競賽中拿到了金牌,而且沒有為這些領域做特別定製。這一點非常讓我驚訝。我當時反覆提醒團隊:這必須是模型本身的能力,而不是某個臨時分支、達成目標後就丟掉的東西。結果他們真的做到了。這可能是過去幾年裡最“激進”的驚喜。Noam Shazeer從理性上說,我並不完全驚訝——早在 2018、2020 年,就能預見模型會越來越聰明。但從情感上說,看到這一切真的發生了,還是非常震撼。你現在可以直接跟模型對話,讓它幫你算數學、寫程式碼,而且有成百上千萬的人對 AI 感到興奮。這真的非常有趣,我也非常期待接下來會發生的事情,希望它能給世界帶來更多正向影響。Logan Kilpatrick太完美的結尾了。Jeff、Oriol、Noam,非常感謝你們抽時間參與。也感謝大家的收聽,希望你們喜歡新的 Gemini 模型。如果有問題或反饋,隨時聯絡我們。我們會繼續“推石頭上山”,給大家帶來更好的模型和產品。希望明年初還能和大家一起迎來更多有趣的發佈。 (51CTO技術堆疊)
Lovart + Nano Banana Pro,這才是PPT 的王炸組合!
你是不是跟我一樣,最近為了找個好用的AI PPT 工具,快把市面上的產品試了個遍?一會刷到某個智能體,一會兒又是Gamma。前陣子很多人被NotebookLM 刷屏,我也跟著去湊了熱鬧。但講真,用下來總覺得差點意思。直到這兩天我試了這個工具,我敢說:真正的AI PPT 終結者可能真的出現了!廢話少說,直接看效果。這是我用它為《小王子》做的一份分享PPT:圖:Lovart 產生的PPT說實話,第一眼看到成品時我有點被驚豔到了。這種繪本感的視覺享受,無論是給老闆匯報還是做個人分享,拿出手的一瞬間,段位就拉開了,對吧?在PPT 這個塊,我一直有個「歪理」:視覺美感往往大於內容。因為如果第一眼抓不住人,內容再好也是白搭。這就是Lovart,它最硬核的地方:它不僅請來了Nano Banana Pro 這種等級的超強外援,還反手給它疊滿了'超級武器'的Buff。01|視覺美感:拒絕“AI 抽卡”,審美直接拉滿以前用AI 做PPT 像是在“抽卡”,出的圖能不能用全看運氣。但Lovart 輸出的畫面非常專業。就算你只是給個簡單的提示詞,它給出的視覺方案也完全在審美點上。例如我試過的第一種:國家地理史詩攝影。圖:Lovart 產生的國家地理史詩攝影風PPT說實話,出來的成品真的讓人歎為觀止,感覺每一頁都是一幀高品質的電影畫面,那種大片的厚重感和細膩質感,每一張圖都能直接拿來當壁紙。如果你想走年輕活潑的路線,可以試試下面這種孟菲斯多巴胺風格。圖:孟菲斯多巴胺風格PPT撞色大膽,充滿躍動感,這種視覺衝擊力極強的風格,相信會受到很多年輕人的喜歡,拿去做創意提案瞬間就能抓住眼球。當然,還有我們最親切的中國風。圖:中國風PPT這種水墨感一出來,高級感直接拉滿。它最牛的地方在於不只是堆砌素材,連文案都會跟著風格變,裡面甚至藏著「道法自然」、「安土重遷」這種哲學意境。是真的有靈魂。當然,不只是好看,這些內容的總結、提煉也都是由它自己完成的,可以說非常強大。看到這兒你可能會說:“這不都是Nano Banana Pro 的功勞嗎?Lovart 自己到底有啥亮眼的?”說實話,剛開始我也這麼想。但深度體驗之後,我發現自己錯了。正是因為下面這幾個「殺手鐧」等級的優勢,才讓我覺得它——而不是現在大火的NotebookLM——才是真正的AI PPT 終結者。02|40頁+長篇幅:終於不用再手動「續命」了很多朋友吹爆NotebookLM,它確實很牛,但有個致命傷:生成的PPT 不能超過15 頁。這對咱們打工人來說太難受了,一個稍微大點的匯報,15 頁那夠寫?Lovart 就大方多了,生成40 頁以上都完全沒有壓力。圖:Lovart 產生的30 頁PPT例如為這本書《智人之上》產生一個30 頁的讀書分享PPT,也就幾分鐘的事兒。所以說,對於咱們這種動輒要做幾十頁深度報告的人來說,Lovart 這種「量大管飽」的屬性真的太解壓了。再也不用為了湊頁數分好幾次折騰,這種一氣呵成的感覺,才是大項目該有的效率。03|全程可編輯:它是「活」的,不是死圖!這可能是我最想給Lovart 點讚的地方。NotebookLM 另一個讓我頭大的點是:產生的PPT 是「死」的,基本上就是一張張大圖。我真的因為它產生的一份PPT 文字有瑕疵,在PS 裡面摳了4 個小時。而Lovart 的所有元素都是可編輯的。文字寫得不滿意?直接改。佈局覺得擠?拖動一下。圖:Lovart 方便的修改文字和佈局它最神奇的是這個Touch Edit 功能。例如我覺得畫面裡的這張圖不錯,但想給人物換個圍巾顏色:圖:Lovart 的Touch Edit 功能這種指那改那的編輯,非常有效率,也非常完美:圖:透過TouchEdit 修改了圍巾顏色他甚至能換單頁的風格:圖:在Lovart 中修改單頁PPT 的風格一個簡單的提示詞:改成線稿風格,一頁PPT 就完美的改好了:圖:通過Lovart 風格修改前後的對比這種“掌控感”,才是AI 工具該有的樣子。關於這些高級玩法,我之前的文章裡有詳細教學,感興趣可以翻翻。04| 到底怎麼用?在Lovart 裡做PPT 簡單到什麼程度?頭腦空空時: 告訴它一個想法,它會自己聯網搜尋,幫你把邏輯和大綱都寫好。圖:僅透過提示詞來產生一份PPT材料一大堆時: 直接扔進一堆配件(支援多個PDF檔案哦),它能瞬間消化並吐出一份精美的PPT。圖:Lovart 根據附件來產生PPT我們在提示詞裡面可以簡單到一句話,也可以具體到規定頁數、風格、每一頁的內容。比如下面這樣:請基於《人類簡史》製作15頁的'新中式'意境風格PPT。 視覺風格: 東方禪意美學。採用水墨質感、宣紙背景紋理。色彩以黛青、硃砂紅、墨黑為主。裝飾元素使用留白、印章、遠山、雲紋。標題使用書法體,正文使用宋體。 內容大綱: > 用中國哲學的視角重新解讀:P1: 封頁(水墨意境);P2: 簡史總覽;P3-P5: 認知篇(道法自然與虛構世界);P6-P8: 耕織篇(農業的羈絆);P10-P12: 大同紀元(天下 3:P4);歸宿:天人之際的思考。 要求: 文案風格帶有一點詞章氣息,優雅而深邃。出來的效果,真的會讓你覺得它是有「靈魂」的。One More Thing:拯救「丑PPT」的終極殺手鐧最後,必須分享一個大驚喜:Lovart 還能直接修改現有PPT 的風格!很多時候我們手上已經有一份內容改了80 遍的匯報稿,但排版實在太「班」了,沒法拿去見大老闆。這個時候,你只需要把這份PPT(PDF 格式)丟給Lovart,然後告訴它:“幫我把這份策劃案改成賈伯斯最愛的Apple Keynote 風格。”圖:現有的「丑」PPT瞬間!那種土裡土氣的PPT 就變身成了高級感十足的發佈會現場。圖:Lovart 一句話改之後的PPT這個功能,真的能幫大家在年底匯報裡省下大把的掉髮時間。最後的話說實話,AI 工具層出不窮,但我一直在找那種「懂人心、有審美、不給使用者添麻煩」的產品。Lovart 這種強大的Agent 邏輯+ Nano Banana Pro宇宙級的生圖能力+ 極高的編輯自由度,目前看來,確實是AI PPT 圈子裡的最佳解決方案了。眼看就到年底了,復盤會、年度計畫、總結匯報都在路上了吧?別再為調格式、找素材這種瑣事熬到凌晨了。還猶豫啥?這種「降維打擊」的神器,趁現在知道的人還不多,趕緊去試試,驚豔一下你的同事們:👉 http://lovart.ai (建議收藏備用)對了,說到AI 生圖,這兩天OpenAI 的GPT Image 1.5也已經上線到Lovart 了。 (AI範兒)
GPT Image 1.5 全面實測:被 Nano Banana Pro 吊打!
就在今天,OpenAI 終於把它的 GPT Image 1.5 抬上來了!說實話,在 Nano Banana Pro(以下簡稱 NBP)已經強到“殺瘋了”的今天,我甚至是帶著一種“挑刺”的心態點開更新的:OpenAI,你這次到底能不能行?是能一舉奪回王座,還是像上次一樣“發佈會猛如虎,實測二百五”?話不多說,我肝了一個通宵,直接上號,殘酷實測走起。精準修圖,誰更聽話?大家玩 AI 繪圖最頭疼的是什麼?肯定是“一改就廢”。明明只想給小姐姐換個髮型,結果圖一出來,臉都給換了,這誰受得了?OpenAI 的宣傳片倒是吹得很神:指那打那,完美保留角色形象。但這畢竟是“買家秀”,實際上手效果如何?為了不冤枉它,我特地隨機選了一個路人人物做測試。圖:測試用素材圖先來個最簡單的:換髮型提示詞:基於這張圖片,將人物的髮型改為齊肩的紅棕色波波頭(Bob頭)。請務必保留頭髮被風吹起的動態效果和陽光照射在頭髮上的強烈高光。人物的面部表情、衣服、姿勢和背景需完全保持不變。GPT 跑出來的第一張圖,乍一看還真不錯:人物沒變,衣服沒變,髮型也確實換成了波波頭,看著挺自然。但俗話說得好,不怕不識貨,就怕貨比貨。我們拉出隔壁的 NBP 來跑同樣的詞:圖:對比圖坦率講,把兩張圖放在我的 4K 大屏上一對比,差距瞬間就出來了:GPT 這邊: 臉部光影明顯偏暗,甚至出現了肉眼可見的色斑(這是什麼鬼?),皮膚質感有點髒。NBP 這邊: 皮膚通透,頭髮上的高光處理得非常細膩,明顯贏麻了。第一局結論: 雖然 GPT 聽懂了指令,但在畫質和光影細節上,NBP 依然略勝一籌。多圖一致性,二哈能拆家嗎?再來試個更有難度的:換裝 + 多圖融合。提示詞:將人物身上的藍色條紋襯衫取代為一件米白色的亞麻質地休閒西裝外套,內搭一件白色圓領T恤。保持她倚靠欄杆的姿勢不變。新的衣物上需要有符合當前強烈側光照明的自然褶皺和陰影。人物頭部和背景保持不變。我試著給人物換了套衣服,GPT 的表現依然穩定,形象保持得很好。但在光影邏輯上,還是老毛病——有點“平”。不過這裡 NBP把原圖的道具給搞丟了……接著,我開始給它上點難度了:多圖融合。我找了兩張女生圖和一張動物圖,要求它們融合在一起。圖:多圖融合示例圖:多圖融合對比不得不承認,這個環節我更喜歡 GPT。它的融合能力簡直驚豔,整張圖片的質感非常像一張真實的電影劇照,那種“無聊和疲憊”的氛圍感拿捏得死死的。而 NBP 這邊……怎麼說呢?它的背景單一了點,但實際上它更好的遵循了提示詞,沙發凌亂,連狗都是疲憊的。現在,加入調皮的二哈試試。提示詞:保持這兩位女士和動物的姿勢、表情完全不變。在背景中加入幾隻正在瘋狂拆家的哈士奇,它們正在撕咬沙發靠墊和跑來跑去,讓場面看起來極其混亂。這個部分我更喜歡 NBP了,GPT 加入的二哈過於瘋狂,感覺有點失真。但他們在多輪編輯中,都很好的延續了之前的形象和風格。既然融合能力不錯,那拿來做電影海報怎麼樣?我讓它設計一張 1950 年代好萊塢風格的電影海報,標題叫《THE ALGORITHM》(演算法)。效果直接驚豔到我了:圖:英文海報利用這三張圖片(兩張女生和一張動物),製作一張 1950 年代好萊塢黃金時期的電影海報。電影標題: 海報上方用復古的大寫襯線體展示電影名為 "THE ALGORITHM" (演算法)。角色設定: 將兩位女生設計為經典的黑色電影(Film Noir)女主角,穿著優雅的絲綢晚禮服,波浪捲發。將那隻動物設計為她們神秘的同伴,脖子上戴著鑽石項圈。演職員表: 在底部加入演職員文字:Starring: The Neural Sisters (左) & The Beast (右)Directed by: Sam AltmanProduced by: OpenAI Studios風格: 手繪海報質感,強烈的明暗對比(Chiaroscuro),略帶褪色的特藝彩色(Technicolor)色調。不得不說,這海報挺有感覺的,但似乎人物形像已經對不上了。而且,這個尺度怎麼突然提升了。用中文發現,不僅尺度小了,字幾乎是災難。。(這個後面具體講)圖:GPT 的中文海報變態指令遵循,誰腦子更好使?GPT Image 1.5 有很強的指令遵循能力。來給它一點難度:6x6 網格挑戰。這非常考驗 AI 的邏輯理解能力。我要求它嚴格按照 6 行 6 列的格式,每一個格子裡畫出指定的東西(比如菠蘿、宇航員、Wi-Fi圖示等)。提示詞:畫一個 6x6 的網格 建立一個 6 列 x 6 行的網格,網格內容如下:第一排:希臘字母Ω、一個熱氣球、菠蘿、宇航員、水晶球、變色龍 第二排:一隻蜘蛛、老式懷錶、淋浴噴頭、望遠鏡、一隻孔雀、一張藏寶圖 第三行:一枚紀念幣、一面圓鏡子、一杯冒熱氣的咖啡、“希望”一詞、滑板、字母K 第四排:洗衣機、遊樂園代幣、Wi-Fi圖示、一支口紅、螳螂、棒球帽 第五行:電源圖示、數字8、紅色鑽石、樂高積木人、火烈鳥、維京頭盔 第6行:一隻橘貓、滅火器、一個錨、遊戲手把、捲紙、數字88除了中文,它做得的確完美。看看 NBP,雖然中文對了。但這那裡是 6x6 宮格?數學是體育老師教的嗎?格局完全亂了。圖:NBP 生成的 6 宮格這一局:GPT 險勝,贏在邏輯,輸在中文。真正的硬傷是文字大家都知道,NBP 幾乎徹底的解決了文字難題,不論中英文。OpenAI 也不甘示弱,給了一個非常複雜的多字的案例,但其實 NBP 設定完整得更好。圖:文書處理對比而換成中文,GPT 就是個災難,不過這點官方自己是承認的。圖:GPT Image 1.5 的中文處理換成 NBP,那幾乎是吊打。圖:NBP 的中文處理即便是簡單點的中文,GPT 也無法勝任。圖:GPT Image 1.5 的中文處理NBP 幾乎完美。圖:NBP 的中文處理NBP 讓資訊圖流行了起來,OpenAI 也提供了類似案例。但不論從效果還是從文書處理,GPT 都是被按在地上摩擦的。圖:資訊圖對比除了升級了圖片功能之外,OpenAI 還新增了一個類似於“範本”的功能,選擇某個範本,然後再選一張自己的圖片,就可以生成這個範本對應的風格。圖:GPT 提供範本選擇通過固定一些常用的風格,很方便那些不想到處找提示詞或者不會寫提示詞的朋友。最終結論:這就是一場單方面的“碾壓”測到這,我不裝了,直接攤牌:GPT Image 1.5 目前全面落後於 Nano Banana Pro。雖然在剛才的某些特定 Case 裡(比如那個瘋狂的二哈),GPT 偶爾能靈光一閃,但這阻擋不了它整體被 NBP 甩在身後的事實。為什麼這麼說?除了前面看到的這些,NBP 還有很多讓創作者無法拒絕的“殺手鐧”,比如:畫質硬傷: NBP 早就支援 2K、4K 直出了,而 GPT Image 1.5 居然還在 1K 解析度裡玩泥巴。這對於要幹活的人來說,簡直是致命傷。資訊差優勢: NBP 可以結合聯網搜尋,直接生成帶即時資料的資訊圖,這點 GPT 目前完全做不到。至於大家關心的速度……官方發佈會吹噓說“速度快了 4 倍”。我實測跑了一個通宵,說實話,完全沒感覺到。體感上甚至比 NBP 還要慢一點。OpenAI 這波“畫餅”,我給負分。當然,它也不是一無是處。它唯一讓我覺得“真香”的功能,是多工並行——前一張圖還在轉圈圈,我可以立馬發下一條指令,不用乾等著。這一點,NBP 確實該學學(NBP 目前只能單線程排隊)。現在的 GPT Image 1.5 給我的感覺,更像是一個氣喘吁吁跟在 NBP 屁股後面追趕的“優等生”,早已不是那個曾經引領時代的“神”了。(其實 GPT 5.2 追趕 Gemini 3 Pro 也類似)所以,我的建議很直接:如果你是普通玩家: 想嘗鮮,可以玩玩。如果你要幹活、出圖、接商單: 請老老實實續費 Nano Banana Pro,它依然是目前的最佳選擇。OpenAI 這一波?還得回爐再練練。 (AI范兒)
太魔幻了!剛剛OpenAI發佈GPT Image 1.5:Nano Banana Pro 王座不保
Sam Altman 反擊Google,OpenAI新旗艦圖像模型來了就在剛剛,OpenAI正式發佈了新版ChatGPT Images,由全新的旗艦圖像生成模型GPT Image 1.5驅動這一次,無論是從零開始生成圖像,還是編輯現有照片,新模型都能實現“所想即所得”核心升級主要體現在三個方面:精準修圖且保留細節、指令遵循能力更強,以及生成速度提升了4倍我立馬就測試了兩個手頭的case:ChatGPT Images vs Nano Banana Pro提示詞這是一張室內人像寫真風格的照片,整體偏向乾淨、柔和、略帶時尚感與親密氛圍,下面我從構圖、人物、服裝、姿態、光線與整體氣質幾個層面來忠實、細緻地描述:⸻一、整體構圖與環境•豎幅構圖,人物幾乎佔據畫面主體,視覺重心集中在人物的上半身與面部。•場景是一個簡約現代的室內空間,背景為大面積純白色牆面,乾淨、無雜物,刻意弱化環境存在感。•人物坐在一張黑色皮質沙發上,沙發表麵線條硬朗,與人物柔和的膚色形成對比。•沙發上鋪著一塊黑白相間的長毛絨毯,毛感明顯,增加了畫面的層次與觸感⸻二、人物外貌與面部特徵•人物為一位年輕女性,整體氣質偏清秀、柔和。•膚色白皙均勻,質感細膩,幾乎看不到明顯瑕疵。•臉型偏鵝蛋臉,下頜線柔和,沒有明顯棱角。•五官比例協調:•眼睛偏大,雙眼皮清晰,眼神平靜、直視鏡頭,帶有一點若有若無的疏離感。•鼻樑挺直但不誇張。•嘴唇偏小,唇色自然,表情克制,沒有明顯微笑。•整體妝容為清淡自然妝:•底妝輕薄•眼妝乾淨,沒有明顯煙燻或誇張色彩•唇妝偏裸色或淡粉色⸻三、髮型與髮質•長直髮,髮色為偏暖的深棕色。•中分髮型,分縫筆直,左右對稱。•頭髮順直、貼合,發尾自然垂落至腰部附近,整體顯得柔順、有光澤。•發量看起來較多,線條乾淨,沒有明顯卷度。⸻四、服裝細節•穿著一件白色蕾絲連衣裙:•無袖設計,露出肩部與手臂•V 領或淺領口,領口處有精細的蕾絲花紋•裙身貼合身體曲線,但並不誇張•裙襬長度偏短,停留在大腿中上部•面料為蕾絲+內襯結構,蕾絲紋理清晰,風格偏女性化、柔美。⸻五、姿態與肢體語言•人物以側坐姿坐在沙發上:•上半身微微前傾•一隻手自然搭在沙發或毛毯上•另一隻手輕放在腿部•雙腿彎曲收攏,姿態顯得放鬆而內斂。•整體肢體語言偏安靜、克制、略帶親密但不過分張揚。⸻六、光線與攝影風格•使用的是柔和的棚拍或自然補光:•光線均勻,沒有強烈陰影•面部和身體輪廓被柔化•色溫偏中性或微暖,突出膚色的細膩感。•背景虛化不明顯,但因背景簡潔,人物自然突出。•整體風格接近商業人像 / 時尚寫真 / AI 或高精修風格。⸻七、整體氣質總結這張照片給人的感覺是:•乾淨•精緻•柔和•帶一點冷靜與疏離•偏“被觀看”的人像美學,而非抓拍或紀實2k解析度這是生成的效果:第二個case:提示詞:{描述:一幅超逼真的 3D 等距視角傑作,描繪了一幅展開在光滑深色木桌上的魔法地圖。地圖繪製在一張古老而飽經風霜的羊皮紙捲軸上,但畫面中的景色以立體模型的形式躍然紙上。巍峨的岩石山脈,白雪皚皚的山峰,穿透縷縷白雲;一條蜿蜒的碧綠河流從中心流過;山麓覆蓋著茂密蔥鬱的松林。羊皮紙邊緣呈鋸齒狀,左側飾有精美的復古書法,角落則繪有羅盤玫瑰圖案。畫面採用溫暖的電影級光照,焦點清晰,紋理細節豐富,2K 解析度,以奇幻冒險為主題。"negative_prompt": "扁平的,2D 的,簡單的圖畫,模糊的,低品質的,扭曲的,有水印的,糟糕的人體結構,文字疊加,顆粒感強的",“參數”: {"aspect_ratio": "2:3","風格": "電影級 3D 渲染","檢視": "等距"  }}生成的效果:看起來ChatGPT Images指令遵循的要比NBR要強(人像),審美能力還不好說目前ChatGPT Images 在 大模型競技場圖像排名第一接下來幾天我會大量測試,看看實際表現與此同時,GPT Image 1.5 API也已同步上線,價格相比上一代直降20%下面我們一起來看ChatGPT Images具體細節精準修圖:指那打那,細節不丟新版模型最大的亮點在於對使用者意圖的精準還原當使用者要求對上傳的圖片進行編輯時,模型能夠更可靠地遵循指令,僅改變使用者要求的部分。而在這一過程中,原圖中光線、構圖以及人物外觀等關鍵要素,都能在輸入、輸出及後續的連續編輯中保持一致這就意味著,ChatGPT現在不僅能完成更實用的照片修飾,還能實現更逼真的服裝和髮型試穿。同時,它支援在保留原圖精髓的基礎上,進行風格化濾鏡和概念轉換具體到編輯操作上,模型擅長多種類型,包括:• 加入(Adding)• 刪減(Subtracting)• 組合(Combining)• 混合(Blending)• 移位(Transposing)簡而言之,使用者可以在得到想要的改變的同時,不丟失讓圖片顯得特別的那些原始細節。OpenAI稱其為“口袋裡的創意工作室”創意與能力的全面進化除了修圖,GPT Image 1.5在創意生成和基礎能力上也有顯著提升:創意變換:模型可以通過改變和加入元素(如文字和佈局)來實現創意轉化,同時保留重要細節,這個和Nano Banana Pro表現感覺差不多更強的指令遵循:相比初代版本,新模型能更可靠地執行指令。這不僅利於精準修圖,也能在生成複雜的原創構圖時,按預期保留元素間的關係文字渲染能力強悍升級:在處理更密集、更小的文字時,模型表現強悍畫質提升:在渲染許多小人臉以及整體輸出的自然度等方面,質量均有改進全新互動:無需提示詞也能玩為了讓圖像探索更快捷,OpenAI在ChatGPT中推出了專門的Images首頁使用者可以通過移動應用的側邊欄或chatgpt.com訪問該頁面。這裡不再強制要求使用者編寫提示詞,而是內建了數十種預設的濾鏡和提示,幫助使用者快速啟動靈感這些預設內容會定期更新,以反映當下的流行趨勢API上線:更便宜,更適合企業對於開發者和企業使用者,GPT Image 1.5 API也已同步開放。相比GPT Image 1,新版API在圖像輸入和輸出的價格上便宜了20%,這意味著在相同預算下可以進行更多的生成和迭代。在能力上,API版本繼承了ChatGPT Images的所有改進,特別是在圖像一致性方面表現更強:能夠跨編輯保持品牌Logo和關鍵視覺元素的一致性非常適合行銷材料製作(如圖形和Logo創作)適用於電商團隊,可基於單一源圖像生成完整的產品目錄(包括不同變體、場景和角度)目前,已有創意工具、電商、行銷軟體等領域的企業開始使用GPT Image 1.5。最後ChatGPT Images的新版本即日起向全球所有ChatGPT使用者和API使用者推送。該功能跨模型工作,使用者在使用時無需進行額外選擇至於今年早些時候推出的舊版ChatGPT Images,將作為一個自訂GPT(Custom GPT)保留,供有需要的使用者繼續使用 (AI寒武紀)
AI智能眼鏡暗戰升級:蘋果入局前夜,中國“全能芯”如何彎道超車?
當蘋果Vision Pro的光芒尚未褪去,庫克手中的下一張王牌已若隱若現。多方資訊透露,蘋果的AI眼鏡正瞄準2026年。一場關於“眼前”未來的爭奪戰,哨聲已經吹響。AI智能眼鏡的賽道,從未像今天這樣擁擠而充滿火藥味。這不僅僅是發佈一款新產品,更像是吹響了決賽圈的號角。然而,在巨頭的光環之外,一場基於底層技術的“暗戰”早已悄然打響。決定勝負的,或許不是誰的概念更炫酷,而是誰能率先解決那幾項最“樸實”的使用者痛點。01 戰場核心:從“玩具”到“工具”的生死跨越過去十年,智能眼鏡經歷了從驚豔到沉寂的過山車。核心原因在於它們未能完成從 “極客玩具” 到 “日常工具” 的跨越。真正的工具,需要無感的可靠。當前的痛點赤裸而直接:·** “找不到”'**的尷尬:兒童手錶定位精度從10米提升至3米,這不僅是數位遊戲,它意味著孩子從 “一片區域” 被鎖定到 “一棵樹下” 。對於眼鏡,室內精準導航、AR資訊與實物的釐米級貼合,都依賴於定位的精髓。· **“用不久”**的焦慮:續航是智能穿戴的 “阿克琉斯之踵” 。當同類產品還在為3天續航掙扎時,前沿方案已將目標錨定7天。這背後,是為未來5G時代、全天候AI互動奠定的基石。· **“不安全”**的疑慮:當眼鏡成為24小時的貼身伴侶,它 “看到” 和 “聽到” 的一切,如何保障?更強的本地化AI能力與隱私安全架構,是與使用者建立信任的生命線。這些看似基礎的問題,構成了體驗的底線。誰能系統性地解決,誰就拿到了進入主流市場的入場券。02 破局關鍵:一顆“全能芯”驅動的體驗革命所有體驗的飛躍,最終都要回歸到方寸之間的晶片上。這場暗戰的勝負手,在於能否擁有一顆驅動未來的 “全能心臟”。以突破性的W527晶片為例,它勾勒出了下一代智能眼鏡核心的輪廓:· ▶ 極速通訊與智享體驗  支援4G全網通與高速Wi-Fi 6,保障了即時AI互動、高畫質視訊通話的流暢,這是 “智能”的血管。· ▶ 超微高整合與凌駕級性能  採用先進的12nm工藝與3D SiP封裝技術,在極小的空間內整合了強大算力(一大核三小核架構),實現應用響應速度提升近1.5倍,這是 “智能”的大腦。· ▶ 強勁續航的底層最佳化  從智能網路搜尋最佳化到待機資源動態節能,一系列晶片級功耗控制技術,將有限的電池能量精準輸送給最需要的任務,這是 “智能”的耐力之源。這顆 “芯” 所代表的,是一種系統性的工程思維:它追求通訊、算力、功耗在極限約束下的全域最優解。正是這樣的底層突破,讓智能眼鏡從 “偶爾玩玩”走向 “一直可用”。03 未來形態:AI的終極載體與場景裂變有了可靠的底層基礎,眼鏡的形態與想像力才開始真正綻放。它正沿著一部清晰的 “能力升級史” 演進:▌ 1.0 基礎智能型Glass+ Audio + AI。智能音訊眼鏡的普及形態,以語音互動為核心。▌ 2.0 視覺增強型加入Camera,成為世界的“第二雙眼” ,實現即時翻譯、視覺搜尋。▌ 3.0 資訊互動型再加入Display,初步的AR資訊開始浮現在眼前。▌ 4.0 全時獨立型最終整合eSIM,實現全天候、全場景的獨立線上,成為脫離手機的下一代個人終端。每一步演進,都意味著全新的場景被解鎖。它可以是一副戶外AI眼鏡,成為年輕人的潮流裝備;更可以是一個 “智慧中樞” ,通過AI主動提供你需要的一切。眼鏡,因其佔據人類最主要的資訊輸入管道,且最貼近大腦,正無可辯駁地成為AI最好的物理載體。04 中國玩家的全球棋局:差異化與精準卡位在這場全球競爭中,中國玩家展現出了靈活而精準的全球化佈局智慧:在東南亞,以極致的性價比和深度的市場教育先行,快速佔領增量市場。在成熟市場(如歐洲),則將重點放在嚴格的隱私保護與紮實的本地化能力建設上,以贏得挑剔使用者的信任。這種 “區域差異化” 策略,使得智能穿戴產品的海外收入佔比成功突破30%,並仍在快速增長。它證明,對全球不同市場使用者需求的深度理解和尊重,是打開增長天花板的另一把鑰匙。當蘋果在2026年攜其生態與設計之力正式入場時,它面對的將不再是一片藍海,而是一個底層技術不斷突破、產品形態持續演進、市場策略高度務實的活躍戰場。智能眼鏡的競賽,上半場是概念與demo的展示,下半場則是核心技術、使用者體驗與生態建構的硬核較量。蘋果的入局,不會終結比賽,反而會以巨大的聲量教育全球市場,將整個賽道推向沸騰。拐點已至,未來已來。這場關於 “眼前” 的變革,將重新定義我們與數字世界互動的方式。或許,下一代計算平台的王冠,並非註定屬於某一家巨頭。它屬於所有能精準切入痛點、並用紮實技術實現優雅體驗的破局者。 (譚大帥Milton)
剛剛,OpenAI迎10周年,發GPT-5.2,重點是和白領搶工作
8大榜點選敗Gemini 3 Pro,打平71%人類專家,數學競賽滿分。智東西12月12日報導,今日凌晨,正值OpenAI十周年生日,OpenAI正式推出其迄今最強模型GPT-5.2,並同步上線ChatGPT與API體系。本次更新包含GPT-5.2 Instant、Thinking與Pro三個版本,將從今日起陸續向Plus、Pro、Business與Enterprise等付費方案使用者開放,Free與Go使用者預計將於明日獲得存取權。同時,GPT-5.2也已納入API與Codex中供開發者呼叫。▲圖源:X平台現有的GPT-5.1將在ChatGPT中繼續作為過渡版本向付費使用者提供三個月,之後將正式下線。OpenAI官方稱,GPT-5.2屬於其持續改進模型系列的一部分,後續仍將圍繞過度拒絕、響應延遲等已知問題進行迭代最佳化。在API端,GPT-5.2 Thinking對應gpt-5.2,Instant對應gpt-5.2-chat-latest,Pro對應gpt-5.2-pro,開發者可直接呼叫。▲圖源:OpenAI官方部落格在價格方面,GPT-5.2的呼叫價格較上一代上調,輸入端1.75美元/百萬tokens(約合人民幣12.35元/百萬tokens)、輸出端14美元/百萬tokens(約合人民幣98.81元/百萬tokens)。GPT-5.2 Pro的定價為21美元與168美元/百萬tokens(約合人民幣148元與1185元/百萬tokens),並首次支援第五檔推理強度xhigh。▲圖源:OpenAI官方部落格OpenAI聯合創始人兼CEO Sam Altman在社交平台X上公佈了GPT-5.2在多項前沿基準上的成績:SWE-Bench Pro達到55.6%,ARC-AGI-2為52.9%,Frontier Math為40.3%。▲圖源:X平台這些基準主要用於衡量模型在複雜程式碼修復、通用推理與高難度數學任務中的表現,GPT-5.2在高階任務上的穩定性進一步提升。根據OpenAI官方部落格,GPT-5.2在涵蓋44個職業的明確知識工作任務中,表現均優於行業專業人士。相比GPT-5.1 Thinking,GPT-5.2 Thinking在應對知識型任務、程式設計、科學問題、數學、抽象推理的多項能力均大幅提升,尤其是在頂尖數學競賽AIME 2025拿到滿分成績,在OpenAI專業工作基準測試GDPval中戰勝或打平70.9%的人類專家。▲圖源:OpenAI官方部落格OpenAI團隊成員Yann Dubois也在社交平台X平台上發帖稱,GPT-5.2 Thinking的設計重點放在“經濟價值較高的任務”(如編碼、表格與演示文件)。▲圖源:X平台此外,在SWE-Bench Pro、GPQA Diamond等8項基準測試中,GPT-5.2 Thinking的分數均超過GoogleGemini 3 Pro和Anthropic Claude Opus 4.5。▲圖源:OpenAI值得一提的是,GPT-5.2在處理多模態任務方面的能力明顯提升,大有追上Gemini的架勢。“頂流”AI程式設計助手Cursor第一時間宣佈上新GPT-5.2。與此同時,微軟董事長兼CEO Satya Nadella宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系。▲圖源:X平台在GPT-5.2的發佈會上,OpenAI應用業務負責人Fidji Simo也確認,外界關注已久的ChatGPT“成人模式(adult mode)”預計將在2026年第一季度上線。Fidji Simo稱,在推出該模式前,OpenAI希望確保年齡預測模型足夠成熟,能夠準確識別未成年使用者,同時避免誤判成年人。目前,該年齡預測模型已在部分國家進行早期測試,主要用於自動應用不同的內容限制與安全策略。01.專業任務能力躍升首次達到“專家級”評分根據OpenAI官方披露,GPT-5.2 Thinking在覆蓋44類職業任務的GDPval評測中,首次達到“專家級”表現——在70.9%的對比中戰勝或持平行業專業人士。GPT-5.2 Pro進一步提升至74.1%。在僅統計“明確勝出”的任務中,GPT-5.2 Thinking為49.8%,Pro則達到60%。這一評測覆蓋銷售演示、預算模型、營運排班、製造流程圖等多類真實業務成果。GPT-5.2在這些任務的生成速度約為人工專家的11倍,成本為其1%以下。在投研類任務中,GPT-5.2 Thinking在內部評測的投行三表模型與槓桿收購模型等場景中的平均得分為68.4%,較GPT-5.1 Thinking的59.1%有明確提升,GPT-5.2 Pro得分進一步增長至71.7%。▲圖源:OpenAI官方部落格▲GPT-5.1 Thinking與GPT-5.2 Thinking效果對比02.程式碼、工具呼叫與長鏈路任務全面升級在程式碼能力方面,GPT-5.2 Thinking在更嚴格的SWE-bench Pro(跨四種語言、強調真實工程難度)中取得55.6%,在SWE-bench Verified中更是達到80%,均顯著領先GPT-5.1的50.8%與76.3%。在SWE-Lancer IC Diamond任務中,GPT-5.2 Thinking取得74.6%(GPT-5.1為69.7%)。▲圖源:OpenAI官方部落格與此同時,GPT-5.2出現在AI基準平台Imarena.ai(Arena)排行榜中,並在WebDev測試中取得1486分,位列第二,僅落後榜首3分,領先Claude-opus-4-5與Gemini-3-pro等主流模型。另一個版本GPT-5.2則以1399分排在第六。根據Arena說明,GPT-5.2此前在內部以“robin”和“robin-high”為代號進行測試,其分數與GPT-5-medium僅相差1分,目前仍為初步結果,未來有望隨著測試量積累而進一步穩定。從評測維度來看,Arena主要衡量模型在可部署Web應用情境下的端到端編碼能力,GPT-5.2已反映出其在複雜任務鏈條上的實用性。在事實精準性方面,GPT-5.2 Thinking在基於ChatGPT查詢的無錯誤回答率(開啟搜尋模式下)達到93.9%,較GPT-5.1的91.2%有所改善,在無搜尋情況下也從87.3%提升至88%。▲圖源:OpenAI官方部落格另一個關鍵變化來自工具呼叫與長鏈路任務的可靠性提升。GPT-5.2 Thinking在Tau-2 Bench Telecom中達到98.7%的最高得分,在零推理模式下也大幅領先上一代,在更高噪聲的Retail場景中精準率從77.9%提升至82%。在更通用的工具鏈評估BrowseComp中,GPT-5.2 Thinking達到65.8%,Pro版本達到77.9%,亦高於GPT-5.1的50.8%。▲圖源:OpenAI官方部落格OpenAI提到,GPT-5.2 Thinking和Pro均支援第五檔推理強度xhigh,適用於長流程、多步驟、高精度的專業任務場景。03.在長上下文與視覺理解GPT-5.2全面增強在長上下文能力上,GPT-5.2 Thinking在OpenAI MRCRv2中全面領先上一代,在8 needles測試中從4k到256k的範圍內均保持遠高於GPT-5.1的表現,其中在4k–8k長度下達98.2%,在128k–256k長度下仍保持77.0%,而GPT-5.1同期為29.6%–47.8%區間。在其他長文場景中,BrowseComp Long Context(128k/256k)中,GPT-5.2 Thinking分別達到92.0%與89.8%。GraphWalks任務中,GPT-5.2 Thinking在bfs與parents子集分別達到94.0%與89.0%,相比GPT-5.1的76.8%與71.5%顯著提升。▲圖源:OpenAI官方部落格在視覺理解上,GPT-5.2 Thinking在CharXiv科學圖表推理任務中無工具模式下為82.1%,開啟Python工具後進一步提升至88.7%。在ScreenSpot-Pro介面理解中,GPT-5.2 Thinking取得86.3%,遠高於GPT-5.1的64.2%。在視訊類、多模態綜合難度更高的Video MMMU中,也從82.9%提升至85.9%。在視覺能力上,GPT-5.2在ScreenSpot-Pro(介面理解)中達到86.3%的精準率,相比GPT-5.1有明顯提升。在CharXiv科學圖表推理任務中,也實現了準確率的大幅增長。這使其在處理科研圖表、營運儀表盤、產品介面截圖等專業視覺輸入時更加可靠。▲圖源:OpenAI官方部落格04.微軟全家桶同步升級GPT-5.2成為新一代“生產力模型”隨著GPT-5.2發佈,微軟董事長兼CEO Satya Nadella也在社交平台X平台上宣佈,GPT-5.2將全面進入Microsoft 365 Copilot、GitHub Copilot與Foundry等產品體系,並作為新的“默認推理模型”服務更多工作流場景。在Microsoft 365 Copilot中,使用者已經可以通過模型選擇器啟用GPT-5.2,用於會議記錄分析、文件推理、市場研究與戰略規劃等高複雜度任務。Nadella稱,將模型與使用者工作資料結合後,GPT-5.2能夠更充分發揮推理優勢。在GitHub Copilot中,GPT-5.2適用於長上下文推理與複雜程式碼庫審查,重點覆蓋跨檔案關係分析、依賴追蹤與重建構議等工程類使用場景。此外,GPT-5.2還同步進入Microsoft Foundry與Copilot Studio,開發者可在建構自動化流程、企業內部Agent或自主開發時直接呼叫GPT-5.2模型。面向消費者端的Copilot也將隨後啟動分階段更新,逐步替換當前版本。▲圖源:X平台從微軟生態的覆蓋面來看,GPT-5.2已被定位為“默認生產力模型”,在不同產品線之間以自動模型選擇的方式服務更廣泛的開發、寫作與分析任務。此外,頂流AI程式設計助手Cursor也已第一時間火速上線GPT-5.2,並同步沿用OpenAI官方API價格。▲圖源:Cursor05.結語:GPT-5.2的能力邊界正向“穩定、實用”收攏從多項公開基準測試到Arena針對Web應用端到端能力的評測結果,GPT-5.2展現出的整體能力向穩定可用和任務完成度方向收攏。隨著Instant、Thinking與Pro組成的多檔能力體系的開放,GPT-5.2在不同工作流中被切分為更清晰的使用場景。而在微軟生態中的全面接入,也進一步強化了這一變化的方向。無論是在M365 Copilot中承擔跨文件推理,還是在GitHub Copilot中處理長上下文程式碼鏈路,GPT-5.2都開始參與到更高頻、更具體的任務流程中。除了推出面向專業工作和智能體的前沿模型外,OpenAI還宣佈已經與迪士尼達成授權協議,允許Sora 2使用者在生成並分享的圖片中使用迪士尼角色。迪士尼將向OpenAI投資10億美元(約合人民幣71億元),並擁有未來增持股份的選擇權。 (智東西)
屏下3D+微透玻璃?iPhone18系列新爆料 | 小米17Pro背屏玩法再上新
蘋果每次新機爆料都非常早,儘管最近兩個月電商大促iPhone 17系列一直熱銷,但也不影響iPhone 18系列的爆料越來越多。現據數位博主@智慧皮卡丘 爆料,iPhone 18系列物料端正在測試屏下3D人臉解鎖,同時還在測試微透玻璃,有望推動一波供應鏈加速。不過需要注意的是,此前也有爆料稱iPhone 18 Pro系列在測試屏下3D,但螢幕形態並不是像努比亞紅魔那樣的無打孔·屏下前置,而是可能變成左側單挖孔螢幕或者基於之前的靈動島顯示面積縮窄。除了螢幕形態變化外,爆料iPhone 18 Pro系列升級還有搭載全新A20 Pro晶片 、蘋果第二代自研C2基帶,升級相機感測器同時有望引入可變光圈、簡化拍照鍵等等,iPhone 18 Pro Max還可能是Pro Max型號首次採用鋼殼電池。細節上,還需要注意的是,爆料iPhone 18系列幾款機型這次可能不會一起發佈,而是Pro系列先發,標準版後發,爆料預計蘋果會在2026年秋季(9月左右)先發iPhone 18 Pro、18 Pro Max和蘋果的首款摺疊屏,2027年再發iPhone 18和iPhone 18e,其中iPhone 18標準版可能依舊是居中挖孔靈動島造型。綜合各種爆料來看,如果iPhone 18 Pro系列採用左側單挖孔多少有些像過渡方案,不如期待2027年·蘋果20周年要迭代的新iPhone。大家覺得蘋果會採用左側單挖孔嗎?另外就是小米17 Pro系列這邊了,今年小米17 Pro和小米17 Pro Max兩款新機採用了背屏設計,官方陸續上新了不少玩法,現據最新消息,又雙叒有新功能了。據網友反饋,小米17 Pro系列手機已開啟HyperOS3.0.34.0正式版內測升級,除了最佳化遊戲性能、最佳化相機畫質效果/提升拍攝的流暢度和穩定性外,最主要就是針對背屏玩法進行了上新:新增背屏個性化趣味壁紙-方糖,新增自訂壁紙支援動態照片/視訊格式,新增在背屏用三指下拉手勢進行截圖、支援多種帶殼螢幕擷圖樣式,新增支援生成的背屏AI壁紙一鍵保存至相簿等等。其中背屏新增的方糖趣味壁紙還有互動屬性,類似養成系電子寵物。 (小白測評)