Nano Banana,OpenAI你學不會
奧特曼向OpenAI的全體員工發了一封內部信,他坦言道,雖然OpenAI仍處於領先地位,但是Google正在縮短差距。並且奧特曼也承認,正是由於Google最近一系列的產品發佈,為OpenAI帶來了不小的壓力。
事實也正如奧特曼所言,Google這次帶來的,除了贏得滿堂彩的Gemini 3 Pro,還有讓整個AIGC圈震撼的Nano Banana Pro。在此之前,所有生圖模型的底層邏輯都是臨摹世界。通過海量的資料庫,尋找最接近描述的圖,將其拼湊給你。
而Nano Banana Pro的出現,則徹底打破了這個規則。它並不是在“畫圖”,而是在“模擬物理世界”。其最大的突破在於,引入了思維鏈(Chain of Thought)推理機制,先讓模型進行思考,再去畫圖。
在落下第一個像素之前,模型會先在潛空間內進行邏輯推演,計算物體的數量、確定光影的投射角度、規劃空間巢狀關係。它不再依賴文字作為中轉站,推理結果直接以高維向量的形式指導像素生成。
那麼問題來了,為什麼OpenAI開發不出Nano Banana Pro?
一
在回答問題之前,不妨先看看Nano Banana Pro,它和OpenAI現在生圖主要使用的GPT-4o到底有何區別。
以“三個蘋果”的生成任務為例,提示詞為:“左側蘋果帶有咬痕,中間蘋果附著水珠,右側蘋果呈現腐爛狀態”。面對這一指令,GPT-4o通常會迅速生成一張色彩明豔、構圖完美的圖像。
但在細節核驗時往往暴露出機率生成的缺陷,中間蘋果上面的水珠其排布不符合客觀規律,而右邊蘋果的腐爛看起來又過於刻意。
相比之下,Nano Banana Pro輸出的圖像不僅數量精確,且每個對象的屬性都嚴格對應——左側的缺口、中間的折射光感、右側的氧化紋理,均被精準還原。
這種表象差異的背後,是兩條截然不同的技術路徑。
GPT-4o的生成機制本質上基於統計學相關性,它在海量訓練資料中檢索“蘋果+咬痕”的視覺特徵,並通過機率分佈進行拼貼與融合。它並未真正理解“三個”的數量概念,也未建構“腐爛”的物理模型,僅是根據高維空間中的特徵距離進行近似匹配。
而Nano Banana Pro引入了思維鏈(Chain-of-Thought, CoT)機制,將圖像生成過程從單純的“像素預測”升級為“邏輯推演”。在落下第一個像素前,模型內部已完成了一輪符號化的規劃:首先確立實體對象(Object 1, 2, 3),隨即分配空間坐標,最後繫結物理屬性。
針對“咬痕”,它推演的是幾何形態的改變;針對“水珠”,它計算的是光學反射與折射的物理規律;針對“腐爛”,它模擬的是材質屬性的演變。這是一套從語義理解到邏輯規劃,再到執行生成的全鏈路閉環。
這種機制在處理涉及物理規律的複雜場景時優勢尤為凸顯。
提示詞“窗檯上的半杯水,陽光從左側射入”。
GPT-4o所生成的圖片,僅0具備視覺合理性,但在物理上自相矛盾的光影關係。此時,窗檯左側應存在由玻璃杯反射出來的陽光,但是圖片中僅存在右側折射出來的光線。
而具Nano Banana Pro會先行計算光源向量,推導陰影投射方向以及液體介質的光線折射率。這種基於物理常識的推理,使得生成結果不再是視覺元素的堆砌,而是對物理世界的數字模擬。
更為深層的架構差異在於,OpenAI目前的體系存在顯著的“文字資訊瓶頸”(Text Information Bottleneck)。在ChatGPT中呼叫繪圖功能時,使用者的簡短指令往往會被GPT改寫為一段詳盡的Prompt,再傳遞給圖片生成模型。
這一過程看似豐富了細節,實則引入了噪聲。文字作為一維的線性資訊載體,在描述三維空間關係、拓撲結構及複雜的物體屬性繫結時,存在天然的低頻寬缺陷。改寫過程極易導致原始意圖中的關鍵約束被修飾性語言淹沒,造成資訊的有損傳輸。
此外,漢字對於圖片生成大模型來說也是一個噩夢。GPT-4o在很長時間裡,寫字都是“亂碼生成器”,甚至讓它寫“OpenAI”,它都能寫成“OpanAl”或者一堆奇怪的符號。
我讓GPT-4o以字母榜LOGO為參考,生成一個字母榜的招牌。
但Nano Banana Pro實現了對文字的精準控制。在同樣的提示詞下,Nano Banana Pro提取出了上方的字母榜,左右兩側的A和Z,以及最下方的弧線,並將這些元素置於不同的圖層、不同的材質。
Nano Banana Pro則採用了原生多模態(Native Multimodal)架構,這是一種統一模型的解決方案。
使用者的輸入在模型內部直接對應為包含語義、空間及物理屬性的高維向量,無需經過“文字-圖像”的轉譯中介。這種端到端的對應關係,如同建築師直接依據藍圖施工,而非依賴翻譯人員的口述傳達,從而根除了中間環節的資訊熵增。
但這也造成了另外一個問題,提示詞門檻被拉高了。我們回到一開始三個蘋果的提示詞上。
這是輸入給GPT-4o的提示詞,簡單易懂,就是在描述畫面構成。
而這是給Nano Banana Pro的提示詞。看起來就像Python程式碼一樣,通過函數和()來控制生成的圖片。
在涉及計數、方位佈局、多物體屬性繫結(Attribute Binding)等精確控制任務上,Nano Banana Pro表現出色。它能清晰區分不同對象的屬性歸屬,避免了擴散模型常見的“屬性洩露”問題(如將紅杯子的顏色錯誤渲染到藍杯子上)。
當然,GPT-4o依然保有其獨特的生態位。其優勢在於推理速度與基於RLHF(人類反饋強化學習)調優後的審美直覺。
由於剝離了複雜的邏輯推理環節,其生成效率更高,且更能迎合大眾對高飽和度、戲劇化光影的視覺偏好。對於追求視覺衝擊力而非邏輯嚴謹性的通用場景,GPT-4o依然是高效的選擇。
然而,當需求從“好看”轉向“精準”,從“相關性”轉向“因果性”,Nano Banana Pro所代表的“先思考、後執行”模式便構成了降維打擊。它犧牲了部分的生成速度與討好眼球的濾鏡感,換取了對物理邏輯的忠實還原。
二
橘生淮南則為橘,生於淮北則為枳。Nano Banana Pro和GPT-4o之所以會有如此的差距,正是因為其開發者,Google和OpenAI在AI這條路上,選擇兩種完全不同的發展方向。
Google選擇的是“原生多模態”這條路。
就是從模型訓練的第一天起,文字、圖像、視訊、音訊就混在一起,扔進同一個神經網路裡讓它學。在Gemini的眼裡,一這些事物本質上沒有區別,都是資料。它不需要先把圖片翻譯成文字,再去理解文字。
這就像一個人從小就會說中文、英文、法文,這三種語言在他腦子裡是同時存在的,他不需要先把英文翻譯成中文再思考。
而OpenAI走的是“模組化拼接”這條路。
它的邏輯是,讓專業的人做專業的事。GPT-5負責理解語言和邏輯推理,GPT-4o負責生成圖像,Whisper負責處理語音。
每個模組都做得很好,然後通過API把它們連起來。這就像一個團隊,有文案、有設計師、有程式設計師,大家各司其職,通過開會和文件來協作。
這兩種路線,沒有絕對的對錯,但會導致完全不同的結果。
Google最大的優勢,來自於YouTube。這是全世界最大的視訊庫,裡面有幾十億小時的視訊內容。這些視訊不是靜態的圖片,而是包含了時間序列、因果關係、物理變化的動態資料。Gemini從一開始就是“看這些視訊長大的”。
換句話說,Gemini從誕生之初,就理解物理世界的基本運行邏輯。杯子掉在地上會摔碎,水倒進杯子裡會形成液面。這些東西不是靠文字描述學來的,而是通過看真實世界的視訊,自己總結出來的。
所以當你讓Nano Banana Pro畫“一個杯子從桌子上掉下來的瞬間”,它不會畫出一個漂浮在空中、姿態僵硬的杯子。它會畫出杯子在下落過程中的傾斜角度,杯子裡的水濺起來的形態,甚至是杯子即將觸地時周圍空氣的擾動感。因為它見過太多這樣的場景,它知道真實世界是怎麼運作的。
除了YouTube,Google還有另一個護城河:OCR。Google做了幾十年的光學字元識別,從Books到Lens,Google積累了全球最大的“圖片-文字”對齊資料庫。這直接導致了Gemini在文字渲染上的碾壓性優勢。
它知道漢字在圖片裡應該長什麼樣,知道不同字型、不同大小、不同排列方式下,文字應該怎麼呈現。這也是為什麼Nano Banana Pro能精準識別漢字。
反觀OpenAI,它的起家靠的是文字。從GPT-1到GPT-3再到GPT-5,它在語言模型上一路狂奔,確實做到了世界頂級。但視覺能力是後來才加上去的。
DALL-E早期是獨立發展的,訓練資料主要來自網路抓取的靜態圖片,來自Common Crawl這樣的資料集。這些圖片質量參差不齊,而且都是靜態的,沒有時間維度,沒有物理過程,沒有因果關係。
所以DALL-E學到的,更多是“這個東西大概長這樣”,而不是“這個東西為什麼長這樣”或者“這個東西會怎麼變化”。它可以畫出一隻很漂亮的貓,但它不理解貓的骨骼結構,不理解貓的肌肉如何運動,不理解貓在跳躍時身體會呈現什麼姿態。它只是見過很多貓的照片,然後學會了“貓長這樣”。
更關鍵的是訓練方式的差異。
正是因為OpenAI走的是RLHF路線。所以他們雇了大量的人類標註員,給生成的圖片打分:“這張好看嗎?”“這張更符合要求嗎?”標註員們在選擇的時候,自然而然會傾向於那些色彩鮮豔、構圖完美、皮膚光滑、光影戲劇化的圖片。
這導致GPT-4o被訓練成了一個“討好型人格”的畫家。它學會了怎麼畫出讓人眼前一亮的圖,學會了怎麼用高對比度和飽和色來抓住眼球,學會了怎麼把皮膚修得像瓷器一樣光滑。但代價是,它犧牲了物理真實感。
GPT-4o生成的圖片,有一種很典型的“DALL-E濾鏡”。皮膚像塗了蠟,物體表面特別光滑,光影過度戲劇化,整體感覺就是“一眼假”。它不敢畫出皮膚上的毛孔,不敢畫出布料的褶皺,不敢畫出不完美的光照。因為在訓練過程中,那些帶有瑕疵的、粗糙的、不那麼“美”的圖片,都被標註員打了低分。
而Google沒有走這條路。Gemini的訓練更注重“真實”而不是“美”。世界本就如此,它沒有書本裡描繪的那麼美。
三
那麼Google又是如何追上OpenAI,以至於讓奧特曼發內部信來強調危機感的呢?
Google選擇在“精準性”和“邏輯”上發力。Google將其稱為“Grounding”,也就是“親民”,也就是“真實性”。
為了實現這個目標,Google把思考過程,引入了圖像生成過程。這個決策會大大增加計算成本,因為在生成圖像的時候加入推理步驟,生成速度也就變慢了。但Google判斷這個代價是值得的,因為它換來的是質的提升。
當你給Nano Banana Pro一個提示詞,比如“畫一個廚房,左邊是冰箱,右邊是灶台,中間的桌子上放著三個碗”,模型不會直接開始畫。它會先啟動思維鏈:
首先,識別場景類型:廚房。然後,識別對象:冰箱、灶台、桌子、碗。接著,確定空間關係:冰箱在左,灶台在右,桌子在中間。再確定數量:三個碗。然後推理物理邏輯:廚房裡通常會有什麼光源?桌子應該離冰箱和灶台多遠才合理?三個碗應該怎麼排列?最後,確定視角和構圖:從什麼角度看這個場景最合適?
這一整套思考完成後,模型會在內部生成一些“思考圖像”,這些圖像使用者看不到的,但它們幫助模型理清了思路。最後,模型才開始生成真正的輸出圖像。
這個過程看起來複雜,但它解決了一個核心問題:讓模型“理解”而不是“猜測”。
GPT-4o以及市面上絕大多數生成圖片的模型,都是靠機率猜,“使用者說廚房,那我就把我見過的廚房元素拼起來,大概就對了。”
而Nano Banana Pro則是真正去理解廚房這個概念:“使用者說廚房,廚房是用來洗菜做飯的,所以這個廚房需要滿足這些空間關係和物理邏輯,我要按照這個邏輯來建構。”
反觀OpenAI,它目前的策略是把最強的推理能力集中在o1系列模型上,也就是之前代號為Strawberry的項目。o1在數學推理和程式碼生成上確實很強,它能解決一些人類數學家都覺得有挑戰的問題,能寫出複雜的演算法程式碼。
至於圖像生成,OpenAI的判斷是:目前GPT-4o的“直覺式”生成已經足夠好了,足夠維持使用者體驗,足夠在市場上保持領先,並不需要繼續提升。
還有一個因素是產品理念的差異。OpenAI一直強調的是PMF,也就是Product-Market Fit,產品市場契合度。它的策略是“快速迭代,快速驗證”。
DALL-E 3隻要能通過提示詞和GPT-4拼起來用,那就先發佈,先佔領市場。後台的架構可以慢慢改,使用者看不見的地方可以慢慢最佳化。
這個市場策略被稱為“膠水科技”,其最大的弊端在於積累的技術債太多了。當你一開始選擇了模組化拼接的架構,後面想要改成原生多模態,就不是簡單地加幾行程式碼的問題了。這可能需要重新訓練整個模型,需要重新設計資料管道,需要重新建構工具鏈。
Google慢工出細活,可他們也有自己的難處。
原生多模態模型的維護成本也更高。如果你想提升圖像生成能力,就需要調整整個模型。這就是為什麼,Nano Banana Pro只能伴隨著Gemini 3的更新,沒辦法自己單獨更新。
這種“按下葫蘆浮起瓢”的問題,在模組化架構裡就不存在,因為當你只需要最佳化圖像生成模組,根本不用擔心影響到文字模組。
所以OpenAI確實沒辦法訓練出來Nano Banana Pro。
然而這並不意味著Google可以高枕無憂了,因為AI領域迭代速度太快了。我敢打賭,不出半個月,就會有一大幫生圖模型問世,直接對標Nano Banana Pro。 (虎嗅APP)