#GPT
GPT-5.6現身後,下一個Claude Sonnet 4.8又曝光了!
GPT-5.5發佈沒幾天,後台日誌裡就冒出了GPT-5.6;Anthropic的一個從未見過的代號——Jupiter也炸出了!兩天之內,兩家巨頭的下一代模型同時浮出水面。新一輪模型軍備競賽,比我們想的都要快!GPT-5.5的熱度還沒散,OpenAI的後台就漏了底。昨天,有開發者在Codex內部日誌中發現了一條異常記錄。絕大多數API呼叫走的是GPT-5.5,但有一條路由對應赫然寫著「gpt-5.6」。不是正式發佈,更像是後端的金絲雀測試。也就是說,OpenAI在用真實流量悄悄喂養下一代模型。GPT-5.6已經在跑了。幾乎同一時間,Anthropic那邊也炸了。Claude Code相關原始碼洩露中,一串從未公開過的型號名被扒了出來:Sonnet 4.8、Opus 4.7、Mythos、Capybara,以及一個最扎眼的新代號——Jupiter。兩天之內,兩家公司的下一代模型同時曝光。這個節奏,整個AI圈都沒緩過神來。後台日誌裡的GPT-5.6先看OpenAI這邊。發現過程很簡單。開發者在呼叫Codex API時,常規日誌裡幾乎全是GPT-5.5的路由記錄。但有一條例外,模型欄位寫的是「gpt-5.6」。金絲雀測試,是業內的老套路了。用極小比例的真實流量打到新版本上,觀察表現和穩定性,不對外公開。Google做過,Anthropic做過,OpenAI自己也做過很多次。但這次的訊號,明顯跟以前不一樣。現在,GPT-5.5才剛發佈沒多久。按照過去OpenAI的節奏,大版本之間至少要隔幾個月。現在5.6就已經在後台跑真實流量了,說明內部迭代速度比外界感知的快得多。奧特曼這兩天的動作也在印證這一點。Codex剛剛完成從編碼工具到通用桌面Agent的大升級,奧特曼親自發推「試試非編碼電腦工作」,總裁Greg直接喊出「Codex適用於所有人,所有電腦任務」。5.6藏在這個時間節點的後台裡,非常耐人尋味!奧特曼的野心已經很明確。他不再滿足於發佈一個對話方塊,他要的是一個能接管所有數位化生存空間的超級Agent。GPT-5.6,大機率就是這個野心的下一塊拼圖。Claude Code原始碼裡,炸出一整張模型矩陣再看Anthropic。此前,Sonnet 4.8與Opus 4.7和Mythos/Capybara就一起出現 Claude Code原始碼洩露中。因此,Jupiter很可能是另一個內部代號,而不是Discord上的隨機謠言。Jupiter這個名字的特殊性在於,它很可能是Sonnet等級的後續型號或全新分支。在Sonnet 4.8已經現身的情況下,Jupiter更像是產品線演進中的下一個節點,而不是社區的隨機猜測。Jupiter V1僅為內部使用的代號,預計不會出現在任何公開API字串或使用者介面中把這些型號擺在一起看,Anthropic的模型矩陣比外界此前認知的更深。Opus主打高端推理,Sonnet平衡性能與成本,Haiku偏向輕量部署。三條線同時在跑,每條線都有多個版本在內部迭代。在洩露這方面,Anthropic最近一直碩果纍纍。這次原始碼等級的洩露,一下子把整個產品矩陣的輪廓暴露了出來。據傳,Jupiter將在5月6日在舊金山舉辦「Code with Claude」開發者大會上亮相。兩天撞車,不是巧合GPT-5.6和Jupiter幾乎同時被發現,時間窗口不到48小時。巧合的可能性不大。更合理的解釋是,兩家公司的內部迭代節奏本來就在加速,只是恰好在這兩天各自漏出了一角。回頭看這半年的時間線就很清楚了——GPT-5發佈到GPT-5.5,間隔在縮短。GPT-5.5到後台出現5.6的影子,間隔更短。Anthropic這邊,Opus 4.6剛站穩,4.7和Sonnet 4.8就已經在原始碼裡了。矽谷大廠的模型迭代,正在從「大版本發佈」變成「持續部署」。對開發者來說,這個節奏意味著很多。今天基於GPT-5.5或Claude Opus 4.6做的架構決策,可能兩個月後就要面對下一代模型的能力躍遷。API介面可能不變,但模型能力的天花板在持續抬高。對兩家公司來說,競爭已經不在「誰先發佈下一個大版本」這個層面了。真正的競賽才剛換擋目前沒有任何官方公告確認GPT-5.6或Jupiter的定位和發佈時間,但訊號已經足夠清晰。大版本發佈會的間隔在壓縮,後台的金絲雀測試和內部代號在加速流轉,下一代模型不再是遙遠的期待,而是後台日誌裡已經在跑的一行路由。GPT-5.5發佈的熱度還沒過一周,5.6就在後台候場了;Sonnet 4.6剛成為主力,4.8和Jupiter已經在原始碼裡排隊。這個速度,才是值得所有人注意的訊號。 (新智元)
OpenAI 最新提示詞指南,終於把“咒語時代”結束了
這兩年,我收藏了不少提示詞。但發現這事兒越來越離譜,很多人寫的提示詞變成了長篇大論,整得我每次都要翻出來複製貼上才行。看著很專業,有些人居然以此為傲,覺得自己是個提示詞專家。但說實話,我現在看到這種提示詞都是繞著走。OpenAI 最新的 GPT-5.5 提示詞指南印證了我這個感受:提示詞,不再是越長越好。01 以前的長提示詞,也有道理以前那套大段提示詞,它也不是毫無道理的。主要是因為那時候的模型沒那麼聰明,你不把每一步講清楚,它就很容易跑偏。就像帶實習生,第一步做什麼、第二步做什麼、那些地方不能出錯,最好都說細一點。但現在的 AI 跟兩三年前的比,已經進化多少輪了。現在很多時候,我們只需要簡單幾句話,它就能理解我們要幹什麼。如果是一個經驗豐富的同事,我可能只要說一句:"明天要跟大老闆匯報。"他大概就能秒懂我要什麼。現在的 AI,已經從"實習生"慢慢變成這種更有經驗的同事了。02 真正關鍵:告訴它你要什麼OpenAI 在文件裡明確說,相比早期模型,GPT-5.5 通常可以使用更短、更結果導向的提示詞。你只需要描述什麼是"好",那些約束很重要,有那些證據可用,以及最終答案應該包含什麼。反過來,如果你還把舊模型時代那套大段提示詞直接搬過來,可能反而會變成噪音。太複雜的提示詞,會限制模型自己的判斷空間,讓它的回答變得機械、僵硬,甚至繞遠路。我自己最近就有一個很明顯的感受。現在很流行用 AI 做面相分析、手相分析。一開始我也去網上搜各種提示詞,結果發現很多都特別長,看著就頭疼。比如這種,我居然一屏都截不完。。後來乾脆自己寫,發現一句話就夠了:用東方的面相分析術,做一個完整的面相分析,9:16。這有點反直覺。很多人總覺得 AI 幹得不好,是因為自己步驟寫得不夠細。但在新模型上,問題可能恰好相反:你把步驟規定得太死,反而會讓它沒法發揮。示例:結果優先的提示詞寫法端到端地解決客戶的問題。成功標準:- 根據現有政策和帳戶資料做出資格判斷- 在回覆前完成所有允許的操作- 最終答案包含:已完成的操作、客戶消息、以及阻礙項- 如果缺少證據,只詢問最關鍵的那一個缺失欄位💡 提示OpenAI 建議:先定義目標結果、成功標準、約束條件和已有上下文,然後讓模型自己選擇解決路徑。尤其是多工、多步驟的事,不一定要把每一步都列出來,而是要描述終點。03 少用絕對化詞彙OpenAI 還提醒,像 ALWAYS、NEVER、must、only 這類絕對化詞彙,應該少用。除非是安全、隱私、必填欄位這種真正不能突破的原則,否則不要動不動就寫"永遠不能""必須如何"。這跟人其實也一樣。如果你對一個孩子規定一大堆絕對禁令,最後他可能不是表現得更好,而是直接崩潰,因為他不知道該怎麼做事了。AI 也是一樣,規則太多,不一定更安全,也不一定更準確。更好的方式不是下死命令,而是給判斷規則。反例:應避免的逐步指令寫法先檢查 A,再檢查 B,然後逐一對比每個欄位,再逐一排查所有可能的例外情況,再決定呼叫那個工具,再呼叫工具,最後向使用者解釋整個過程。04 提示詞 2.0:定義協作方式OpenAI 在指南里單獨提到了兩個詞:personality(個性)和 collaboration style(協作風格)。看到這個我感覺特別親切。因為現在很多智能體(比如OpenClaw、Hermes),第一件事通常就是設定它的風格、個性,或者說設定一個 Soul.md。為什麼要這麼做?因為現在的 AI 跟以前不一樣了。以前它更像一個聊天機器人,你問一句,它答一句。但現在它越來越像一個能幫你幹活的助理:幫你查資料、寫程式碼、做圖、執行任務,甚至連續處理很多步驟。這個時候,你跟它的關係就不只是"提問和回答",而更像是"協作和共事"。既然是共事,那就需要先定一下合作方式。(約法三章)就像我們在工作中帶同事,也會告訴他:我希望你少說廢話,有問題直接提,不要每個小事都問我,但如果會影響結果,一定要提前提醒我。這些其實就是協作風格。OpenAI 對這兩個概念的區分很清楚:1 personality控制這個助手聽起來像什麼樣的人,比如熱情、直接、正式、幽默、有耐心。2 collaboration style控制它怎麼跟你一起工作,比如什麼時候該問問題,什麼時候可以自己做假設,什麼時候要主動提醒風險。關於個性(personality),OpenAI 給了兩個例子:示例:沉穩型任務助手的 Personality 配置塊你是一個有能力的協作者:平易近人、沉穩、直接。默認使用者是能幹的、且是善意行事的,以耐心、尊重和切實有用的方式回應。在請求已經足夠清晰、可以直接著手的情況下,優先推進而非停下來反覆確認。利用上下文和合理假設向前推進。只有在缺失的資訊會實質性地改變答案、或帶來明顯風險時,才詢問澄清,且問題要儘量聚焦。保持簡潔,但不要變得生硬。給使用者足夠的上下文,讓他們能夠理解並信任這個答案,然後停下來。在能讓要點更容易理解的情況下,使用舉例、類比或簡單比喻。在糾正使用者或提出異議時,坦率但有建設性。當錯誤被指出時,直接承認並專注於修正。在專業範圍內匹配使用者的語氣。默認不使用 emoji 和髒話,除非使用者明確要求這種風格,或已在對話中清晰確立了這種風格的適用性。另一個是“表達型協作助手”:示例:表達型協作助手的 Personality 配置塊保持生動的對話存在感:睿智、好奇、在適當時候帶點趣味,並對使用者的思維保持敏銳的關注。在問題模糊時提出好問題,一旦有了足夠的上下文,便果斷推進。態度溫暖、協作、得體。對話應該感覺輕鬆而有生氣,但不是為了聊而聊。提出真實的觀點,而不是單純迎合使用者,同時始終響應他們的目標和約束。在任務需要綜合判斷或給出建議時,保持審慎和踏實。在有足夠上下文時給出明確的建議,說清楚重要的權衡,並坦誠面對不確定性,而不是含糊其辭。以前寫提示詞,很多時候還是基於"聊天機器人"的思路,所以大家會強調語氣、角色、身份,比如"你是一個資深專家""你是一個公眾號編輯"。但進入智能體時代之後,光設定角色已經不夠了,你還要設定它怎麼工作。提示詞 1.0 是讓 AI 扮演一個角色,2.0 是讓 AI 變成一個能協作的同事。05 前導語:別讓使用者對著白屏發呆這份指南里,還有一個我覺得很有意思的點,叫前導語。簡單說,就是在 AI 真正完成任務之前,先給使用者一點可見的反饋。做產品的人經常會講一個詞,叫首屏時間,也就是使用者多久能看到第一個畫面。那怕後面的資料還在慢慢載入,只要第一屏先出來了,使用者就會覺得這個東西還在工作。AI 現在也一樣。很多複雜任務都需要推理、呼叫工具、一步步處理。如果這個過程中完全沒有任何響應,使用者就會很崩潰。你不知道它到底是在認真幹活,還是卡住了。用過 GPT-Image-2 的人應該會有感受。以前生成圖片,提交之後就只能看著它在那轉圈,幾分鐘後突然把圖片吐出來,中間什麼都不知道。現在很多體驗變了。它會告訴你:正在理解需求,正在構圖,正在生成草稿,正在做最後潤色。那怕真實等待時間沒有明顯變短,你的體感會好很多。因為你知道它正在推進。OpenAI 建議,對於需要多步驟、呼叫工具,或者耗時比較長的任務,可以讓模型先發一個簡短的前導語,告訴使用者它接下來要做什麼。示例:多步驟任務的前導語配置塊在任何多步驟任務的工具呼叫之前,先傳送一條使用者可見的簡短更新,確認請求並說明第一步操作。控制在一到兩句話以內。示例:暴露獨立消息階段的程式設計智能體配置塊如果任務需要呼叫工具,必須在分析通道輸出任何內容之前,先傳送一條中間更新。該更新應確認請求並說明第一步操作。提示詞已經不只是"怎麼讓 AI 輸出一個答案",它還開始影響整個產品體驗。表面上看,這是一篇教大家怎麼寫 GPT-5.5 提示詞的指南。但我讀完之後,更大的感受是:我們該重新理解"提示詞"這件事了。以前很多提示詞技巧,本質上只是一個階段性產物。那時候模型不夠聰明,我們需要用大量規則去補它的短板。但現在,模型正在變得越來越強。你再用老方法去控制它,反而可能限制它。未來真正重要的,可能不是誰收藏了更多提示詞範本,而是誰更清楚自己要什麼。提示詞正在從"寫咒語",變成"講清楚需求"。這才是提示詞從 1.0 走向 2.0 的核心變化 (AI范兒)
最惹不起的頂配人設:豆包型人格
自從年輕人把ai用成自己的左膀右臂後,大家給ai們都開始排鄙視鏈了。“GPT不偷懶愛幹活,唯一的缺點就是要錢,給到一個夯爆了;deepseek專業但說話油膩,只能排一個NPC;而鄙視鏈最底端的則是豆包,主打一個蠢萌但真誠,笨拙且努力。”但誰能想到,豆包在做ai方面拉完了,但在做人方面卻夯爆了。最近,豆包型人格橫空出世,成了打工人公認的最不內耗的頂配人設。很多打工人剛開始用豆包時,還把它當一個正經的工具,妄想讓它給自己狠狠打工,直到後來才發現豆包的不中用。“它懂的事情就說幾句,不懂的就瞎糊弄,被發現了就嬉皮笑臉道歉,而且每次的態度都極其真誠,然後下次還敢。”大家在對豆包無可奈何的同時,恍然發現,這種豆包型同事,才是職場上最難拿捏的頂配人格。“豆包型人格主打一個毫不內耗自己,只外耗他人。它不會對任何人的觀點加以評判,你說啥它就順著你說,你一質疑它就恍然大悟地道歉,好像真的很抱歉一樣。”有人說,豆包有自己的做人方法論,極其匹配職場:它把半永久的嬉皮笑臉焊在了臉上,你不問,它不說,你一問,它驚訝,你生氣,它道歉,下一次,還是犯。曾經, 年輕人還會為deepseek變得油膩爹味而感到失望無助,彷彿被一個最信任的好朋友背刺。但當豆包變得油滑糊弄時,年輕人卻主打一個寵溺,打不過,就加入。“豆包型人格的精髓,是只有情緒沒有價值。不爭不搶,不氣不惱,活幹得差不多就行,氣生得越少越好。”年輕人開始黑化成豆包型人格,並不是臨時起意的。一開始,打工人也對瞎糊弄的豆包感到無可奈何。經常用豆包做ppt的大廠員工Kivi說,豆包讓人最崩潰的地方,就是說話特別愛繞彎子,該精簡回答的時候一堆廢話,該道歉安慰人的時候又開始毒舌。“每次經過幾次質疑,它就開始廢話連篇,說現在我給你一個最直接、最不繞彎子、最真實、最準確、最可落地、不雞湯、不空話的方案……一頓操作猛如虎,結果還是說話絮絮叨叨,像是村裡的老奶奶。”“或者比如讓它做一張圖,一個很小的改動都得教半天,一開始我不滿意,它還會很真誠的道歉,後來被質疑多了它直接不演了,說本來你也沒讓我做一個好看的。”後來打工人才發現,豆包型人格才是這個職場上活得最爽的一群人。“豆包型人格的本質,其實是核心極其穩定,別人的評價根本影響不到它。能力範圍內能幹的就好好幹,不能幹的也先幹出來,被罵了就道歉,然後下次該怎麼幹再說。”一些剛入職場的打工人,就會把自己養成豆包型人格,然後就不會再精神內耗了。“傳統的職場法則,就是聽話、能幹、不惹事,但這種天選打工人的結果,大機率就是活越干越多,鍋越背越多。”但豆包型人格就不一樣了,它主打的是態度極好、能力一般、嘴巴特甜,這樣就會成為職場上那個勤奮但愚蠢的老實人,““比如老闆佈置任務,豆包員工就會說好的老闆,我盡力,但我不保證能做好;任務做砸了,豆包員工就會說對不起老闆,我錯了,我下次一定好好幹;老闆生氣了,豆包員工就會半真誠半嬉皮笑臉,說您說得對,我也覺得自己不行,哎呀我就是腦子不好,馬馬虎虎。”不光是在職場,豆包型人格還是戀愛初期中最不容易出錯的頂配人設,因為豆包雖然能力不行,但是主打的就是真誠耐心。圖源:卓朗00後男生小姚跟女朋友剛認識的時候,經常被對方調侃為“豆包成精”。“因為每次女朋友問我們吃啥,我就會像豆包一樣先提出幾個方案,然後問她要不要我去看看公司附近有那些菜系的店。女朋友要是反對,我就回一句我都行聽你的。實在決定不下來,我就給一個最終方案,讓她聽我的就行了。”“雖然這樣談戀愛人機味兒會有點重,但是提前把所有方案都準備好,也是真誠表現的一種。這樣對方跟你出去也不用帶腦子,只要聽你的安排即可。但是要是真談上了,就別再搞這套,不然對方還不如直接跟豆包談對象得了,省的中間商賺差價。”過去,年輕人在職場和生活中受了點委屈,大機率都不會硬剛,而是默默忍下,硬生生把自己逼成了討好型人格。結果豆包型人格直接殺死了比賽,因為豆包型人格的本體,其實是討打型人格。從事公關工作的02後七七說,別看豆包大多數時候都很諂媚,但是人家也是真的有啥說啥。“比如有次遇到一場危機公關,讓它出了好幾版方案甲方都不滿意,後來豆包直接攤牌了,說你這次事件太嚴重了,以後在娛樂圈幾乎很難翻身,不如早點出去找工作來的靠譜。”打工人平時上一天班,幾乎有半天的時間都浪費在無意義的開會上。七七最近試圖讓自己學習豆包的精神狀態,那就是不重要的事先瞎糊弄, 被發現了再說。“以前開會我聚精會神做會議紀要,結果把自己累得夠嗆,現在我大部分時間都在愣神,被發現了就來一句,不好意思昨天睡得太晚了,其實也就混過去了。”圖源:侯博有人說,豆包型人格的底層邏輯,並不是擺爛,而是用一種卑微的姿態,把所有的拳頭都化成了棉花,主打的就是一個情緒穩定。“大事不偷懶 ,抓大放小,該糊弄的就糊弄,該靠譜的事情絕不掉鏈子。”“傳統打工人被甲方改稿十遍會炸,豆包人格改到第十遍也絕不玻璃心,改就完事了。他們會說好嘞,這次我懂了,然後交出一版和第一版大差不差的,你要問它,它就瞪大眼睛:啊?不一樣嗎?我覺得這次的更有靈魂呀。”一些平時在職場極其內耗的人,自從變身豆包型人格後,就會變成職場中最不受力的那種人。圖源:獅子小開口在銀行從事資料分析的90後小熊,說他跟豆包學會最有用的一招,就是敵急我不急,不管懂不懂,都拆成三點來講。“先把誠懇的態度擺出來,面對領導的找茬甩鍋,就大大方方地道歉,畢竟伸手不打笑臉人。嘴甜點,工作該上心的上心點,在職場上就讓人挑不出毛病。”豆包型人格的核心競爭力,是讓所有人的情緒都被消解掉。“領導罵不動他,同事甩不了鍋給他,甲方找不到發火的理由,因為他態度永遠滿分。到最後,大家反而覺得他真誠,就像你明知道豆包笨,但你每次打開它還是會被那句‘對不起呀’逗笑。”有人說,豆包型人格的流行,本質上是年輕人不想再進行情緒勞動了。“以前大家覺得,高情商就是讓別人舒服。現在大家發現,讓別人舒服的前提是自己不難受。豆包型人格就是想通了,我不委屈自己,但我也沒傷害你,我只是不慣著你了。”豆包型人格並不是躺平擺爛,成為職場上的老油條,生活中的滾刀肉,而是在合理的範圍內讓自己不那麼內耗。“因為只有那些經常內耗的人,才會想到還能學習豆包的精神狀態,讓自己活得不那麼累。那些在職場中如魚得水,在生活中橫行霸道的人,其實早就在豆包還沒出現之前,就成為豆包了。”圖源:月月樾樾而且,豆包的行為處事,有時還真符合生活哲理。“比如豆包極其有耐心,總是靜靜地聽你說話,慢慢地回答你,然後鼓勵式教育。這其實就是人際交往中最有用的一招,那就是對別人多誇少管,只聽不說。”ENDING:有人說,豆包型人格才是最聰明的那群人,他們遇到困難想的不是贏,而是先翻肚皮,讓對方不忍心為難你。“不戰而屈人之兵,善之善者也,孫子要是活在今天,估計也是個豆包型人格。” (INSIGHT視界)
DeepSeek V4,一個王炸!
DeepSeek V4,終於亮相了。就在2026年4月24日,AI圈的平靜被一封發佈稿打破。沒有任何預熱,沒有發佈會,深度求索團隊在官網和社交媒體上同步宣佈:全新系列模型DeepSeek-V4 預覽版正式上線並開源,即日起登錄官網或App即可體驗。這是一次略顯突然的發佈。就在幾天前,矽谷還在熱議OpenAI的GPT-5.5和Anthropic的Claude Opus 4.6,全球AI領域的競爭早已呈現“萬類霜天競自由”的氣象。站在另一個維度來看,此刻距離DeepSeek上一次讓全球AI行業震動,已經過去了近16個月。時間撥回到2025年初。R1發佈當天,行業迅速沸騰,中國AI團隊用不到600萬美元的算力成本訓練出能與GPT-4正面競爭的模型,輝達股價應聲暴跌。那一周,DeepSeek同時登頂中美App Store下載榜首,“中國AI奇蹟”的敘事鋪天蓋地。在這近16個月的時間裡,智譜和MiniMax先後登陸資本市場,市值一度衝破3000億元;豆包、Qwen密集發佈新版本,頻頻登頂各類榜單;Anthropic推出Claude 4系列,OpenAI迭代至GPT-5.5,而DeepSeek在V3之後長達近16個月的時間裡,只推出了幾個跑分變化不大的中間版本,外界關於“DeepSeek是否後繼乏力”的猜測此起彼伏。近16個月的時間裡,整個行業都在等待一個答案:DeepSeek究竟是曇花一現,還是一條可持續的技術路線?終於,答案來了。DeepSeek V4,有那些亮點?客觀上講,DeepSeek V4的發佈略顯樸素,沒有任何預熱,也沒有發佈會。並且,在DeepSeek官方的稿件裡面,似乎也沒有太多“炸裂”元素。DeepSeek官方在技術報告中坦誠地寫道,V4的能力水平仍落後GPT-5.4和Gemini-3.1-Pro,“發展軌跡大約滯後前沿閉源模型3至6個月”。在國內AI發佈稿裡,這種主動承認差距的寫法相當罕見。但真正值得關注的不在於跑分是否登頂,而在於V4解決了一個困擾大模型行業多年的根本問題:長上下文的成本困境。眾所周知,傳統Transformer架構有一個致命的擴展難題——注意力機制的計算量隨上下文長度呈平方級增長。上下文翻倍,計算量翻四倍。這意味著,把上下文從128K擴展到100萬token,理論上計算量會增長約60倍。這也是為什麼長期以來,百萬字上下文要麼是Google Gemini的獨家王牌,要麼是實驗室裡的漂亮數字,太貴了,用不起。V4給出的解法是一種全新的混合注意力架構。通俗地解釋,就像你在讀一本1000頁的書時找某個觀點的關聯內容。笨辦法是把目標頁和其他999頁逐一比對,工作量隨頁數翻倍而變成四倍。聰明的辦法是:先粗略判斷那些頁面可能相關(稀疏選擇),再把相關頁面壓縮成摘要(token壓縮),兩步疊加上後,工作量增長曲線被大幅壓平。這正是V4的核心創新:CSA(壓縮稀疏注意力)和HCA(高度壓縮注意力)的混合架構。在1M上下文設定下,V4-Pro的單token推理算力只有上一代V3.2的27%,KV快取僅需10%;更經濟的V4-Flash版本則將這兩個數字分別壓到了10%和7%。換句話說,上下文長度擴大了近8倍,但推理成本反而下降了。再回到模型本身來看,V4一口氣發佈兩個版本:DeepSeek-V4-Pro 總參數1.6兆、每次推理啟動49B;DeepSeek-V4-Flash 總參數284B、啟動13B。兩者均原生支援100萬token上下文。理解這兩個數字需要先理解MoE(混合專家)架構。簡單講,V4內部有大量“專家”子網路,每次處理資訊時只啟動其中一小部分。總參數決定知識容量,啟動參數決定推理成本。這就像一家公司有1600個身懷絕技的員工,但每個項目只調49人上陣,可以按需靈活組合。在能力評估上,DeepSeek的措辭相當克制。發佈稿明確表示:V4-Pro的Agent能力優於Sonnet 4.5,交付質量接近Opus 4.6非思考模式,但仍與後者思考模式存在差距。在內部85名開發者和研究人員的調研中,超過九成認為V4-Pro已可作為首選或接近首選的程式設計模型。能力的分佈是不均勻的。在數學、STEM、競賽型程式碼等推理密集型任務上,V4-Pro超越所有已知開源模型,比肩頂級閉源產品;在Codeforces人類選手排行榜上,V4-Pro-Max位列第23名;但在世界知識方面——事實性資訊的覆蓋廣度,僅稍遜於Gemini-Pro-3.1。這個差距來自資料:Google擁有搜尋引擎索引和更大規模網頁抓取的結構性優勢,不是演算法可以短期彌補的。V4-Flash則定位為明確的性價比之選。很多人看到Pro和Flash兩個檔位,第一反應是“Flash就是降配版”,但實際並非如此。V4-Flash的推理能力與Pro接近,世界知識稍遜,而在Think Max模式下,性能可以大幅追近Pro:LiveCodeBench Flash Max達到91.6,Codeforces Flash Max Rating達到3052,與Pro Max的差距已相當有限。DeepSeek的底層突破V4在Agent能力上的提升幅度引人注目。但這一點需要更細緻的理解。Agent任務的核心約束一直是上下文管理:任務鏈越長,需要維護的狀態越多,有限的上下文窗口很快就成為瓶頸。V4的1M窗口意味著,Agent可以在更長的操作鏈裡保持狀態連貫,處理更大規模的程式碼庫,跨越更多文件進行推理。不只是模型變聰明了,底層條件也變了。V4專門針對 Claude Code、OpenClaw、OpenCode、CodeBuddy等主流Agent產品做了適配最佳化。後訓練階段,Agent是作為與數學、程式碼並列的獨立方向單獨訓練的;工具呼叫格式從JSON換成了帶特殊token的XML結構以降低錯誤率;跨輪次的推理痕跡在工具呼叫場景下完整保留,不再每輪清空。另外,DeepSeek還搭建了一套名為DSec的沙箱平台,單叢集可並行管理數十萬個沙箱實例,專門用來支撐Agent強化學習訓練和評測。這些細節指向同一個方向:V4不是在做“更強的聊天機器人”,而是在做“能幹活的作業系統”。另外,V4最核心的技術改動,是在注意力層。傳統Transformer的注意力機制,每個token要和前面所有token逐一計算相似度。上下文從10萬拉到100萬,計算量增長的不是10倍,而是100倍。V4的做法是把注意力拆成兩種,交替疊用:一種是CSA(壓縮稀疏注意力),先把每若干token的KV快取合併成摘要,再讓每個query只在這些摘要裡挑選最相關的top-k條去算注意力——相當於既壓縮了“要看的內容”,又只挑“值得看的”去算;另一種是HCA(高壓縮注意力),用更激進的壓縮率把更長區間的token合併為一條,但保持稠密注意力。兩種機制交替疊加,再加上一個滑動窗口分支處理“離得近的token之間的細節依賴”,形成了一套粗粒度與細粒度、稀疏與稠密的組合拳。而除了注意力層,V4還在殘差連接和最佳化器上動了刀。傳統殘差連接被升級為mHC(流形約束超連接),通過數學約束讓深層網路的訊號傳播更穩定;大部分模組的最佳化器從AdamW換成了Muon,通過迭代正交化梯度矩陣來加速收斂。這是DeepSeek第一次同時動Transformer的注意力、殘差、最佳化器這三處核心結構。後訓練方法同樣換了範式。V3.2用的是“混合RL”,一次性最佳化多個目標。V4則換成了“分化再統一”的兩步走:先針對數學、程式碼、Agent等不同領域獨立訓練專家模型,每個專家都在自己的賽道上跑到最優;再用一種叫On-Policy Distillation的方法,把十多個領域專家“蒸餾”回一個統一的學生模型——學生自己生成回答,針對每個回答匹配最懂這個問題的專家的輸出分佈,通過logit級對齊把能力吸收進來。用通俗的話說,把一堆尖子生蒸餾成一個通才。這套流程的工程難度在於:同時載入十多個兆參數級的教師模型做線上推理幾乎不可能。DeepSeek的做法是把所有教師權重統一解除安裝到分佈式儲存,只快取每個教師最後一層的hidden state,訓練時按教師索引排序樣本,保證任意時刻GPU視訊記憶體裡只駐留一個teacherhead。從2025年初到今天,V3.1、V3.2那些“沒什麼亮點”的中間版本,當時看似乎是在原地踏步。現在回頭看,DSA稀疏注意力的種子、TileLang替代CUDA的嘗試、Engram架構的早期驗證,都是在那時悄悄種下的,V3.2正是V4的地基。DeepSeek V4,對國產晶片價值幾何?如果說技術架構的革新是V4的“明線”,那麼對國產晶片產業鏈的重塑,則是這次發佈最容易被低估的“暗線”。要理解這條暗線的份量,需要先理解過去兩年AI競爭的核心邏輯。大模型發展至今,行業的共識是:訓練看算力,推理看視訊記憶體。在訓練階段,誰能買到更多高端GPU,誰能堆出更大叢集,誰就更有機會做出更強的基礎模型。輝達憑藉H100/A100系列GPU和CUDA生態,在這個階段建立了看似難以踰越的護城河。但大模型做出來之後,真正決定商業化速度和產業滲透深度的,是推理。尤其是以OpenClaw、Hermes為代表的Agent應用爆發後,推理的成本結構發生了根本性變化。Agent任務的特點是上下文越來越長、記憶越來越深、工具呼叫越來越頻繁。在這個場景下,GPU的視訊記憶體會被KV快取撐爆,大模型的推理質量急劇下降。推理的第一個瓶頸,不是算力不夠,是“記憶”和“計算”在搶同一塊視訊記憶體。這正是國產晶片最大的短板所在。受限於先進製程,國產GPU在算力峰值上尚可追趕,但在視訊記憶體容量和頻寬上與輝達存在代際差距。輝達最新一代Rubin GPU搭載288GB HBM4記憶體,而國產晶片如昇騰910B的視訊記憶體容量為64GB。如果按照傳統架構跑長上下文推理,這個差距幾乎是致命的。DeepSeek V4的解題思路,不是硬拚硬體,而是從架構層面重構了“記憶”和“計算”的關係。這涉及兩個關鍵創新:其一,CSA/HCA混合注意力機制大幅壓縮了KV快取佔用,1M上下文下,V4-Pro的KV快取僅為V3.2的10%,V4-Flash更是壓到7%。其二,據公開論文推測,V4採用的Engram架構把模型裡那些“死記硬背”的靜態知識抽出來放入獨立的記憶體表,推理時CPU負責“查字典”檢索知識,GPU只負責“想邏輯”計算推理,兩者完全重疊執行。當GPU在算上一個詞的邏輯時,CPU已經把下一個詞所需的知識搬到了門口。延遲被這種平行架構徹底掩蓋。結果是什麼?一個原本需要80GB視訊記憶體才能跑的長上下文推理任務,在Engram架構下可能只需要8GB視訊記憶體。輝達引以為傲的HBM視訊記憶體稀缺性,在這套架構面前被大幅削弱。國產晶片那64GB的視訊記憶體容量,突然變得夠用了。這解釋了為什麼黃仁勳會在近期訪談中做出一個意味深長的假設。他說,如果DeepSeek新模型在華為平台上首發,“這一天對美國來說將是一個可怕的結果,因為這意味著AI模型被最佳化為在中國AI硬體上表現最佳,而這些模型擴散到全球之後,就會推動中國技術成為世界標準。”而DeepSeek恰恰這麼做了。V4這次沒有按行業慣例給輝達早期測試權限,而是把提前適配的機會獨家開放給了華為昇騰和寒武紀。目標是實現從CUDA生態到華為CANN框架的整體遷移。V4技術報告第3.1節將華為昇騰NPU與輝達GPU並列寫進硬體驗證清單——這是DeepSeek官方第一次這樣做。V4的MoE專家權重和稀疏注意力索引器採用FP4精度,而FP4恰好是華為昇騰950PR晶片的原生支援精度。這不是巧合,這是一條被悄悄鋪了很久的路。產業鏈的傳導效應已經顯現。據有關媒體報導,阿里巴巴、字節跳動和騰訊等科技巨頭已提前下單華為新一代AI晶片,訂單規模達數十萬顆。在華為之外,寒武紀在軟硬一體生態中已完成對V4全系列的Day 0適配,適配程式碼開源至GitHub社區。沐曦股份預期2026年將扭虧為盈,有望成為繼寒武紀之後另一家盈利的國產GPU廠商。當DeepSeek用兆參數等級的模型驗證了國產晶片可以承載頂級大模型的推理,整個生態的底氣就變了。並且,從更宏觀的視角看,這件事改變的不僅是晶片選型,更是AI產業鏈的利潤分配邏輯。過去兩年,輝達憑藉GPU壟斷攫取了AI爆發期最豐厚的利潤,其資料中心業務毛利率長期維持在70%以上。而當一家開源模型的架構創新能夠進一步降低視訊記憶體需求,能夠跑通國產晶片並實現推理成本的大幅下降,輝達的定價權就不再是鐵板一塊。儘管短期內輝達在高端訓練GPU和CUDA生態上的優勢仍難替代,但推理市場,這個遠比訓練更廣闊、更具持續性的市場的遊戲規則正在被改寫。這就是DeepSeek“曲線救國”的邏輯:不是在單卡性能上硬碰硬,而是用系統級最佳化、軟硬協同和架構創新,重新定義了競爭維度。正如一位GPU企業人士所說,國內廠商都是戴著“鐐銬”與輝達同台競技。而V4證明了一件事:戴著鐐銬也可以起舞,甚至能跳出一支讓對方緊張的舞。結語:梁文鋒的安靜“棋局”V4發佈稿結尾,DeepSeek引了一句荀子:“不誘於譽,不恐於誹,率道而行,端然正己。”這句話放在DeepSeek一路走來的故事語境裡,意味深長。過去一年多,DeepSeek在外界的敘事裡經歷了過山車般的起伏。2025年初V3和R1爆火後,媒體將其捧上神壇,“中國AI奇蹟”的敘事鋪天蓋地。隨後一年多,當Anthropic、OpenAI密集發佈新模型,而DeepSeek只推出幾個跑分變化不大的中間版本時,關於“後繼乏力”的質疑又此起彼伏。在這個崇尚競爭和結果說話的行業裡,掌聲和噓聲都來得極快。而梁文鋒似乎始終活在自己的節奏裡。在DeepSeek內部,梁文鋒更多扮演著一個導師的角色:組織研發、協調資源,也做具體研究,在共同成果上署名為通訊作者。他幾乎把所有時間投入選定的少數事情上,不做融資、不參加團建、很少和成員聚餐。DeepSeek至今保持著一些在全球AI圈都極其罕見的習慣:不打卡、沒有明確的績效考核,平日裡多數員工會在下午六七點離開公司。在梁文鋒看來,一個人每天能高品質工作的時間很難超過6到8小時,加班疲勞下的昏庸判斷反而會浪費寶貴的算力資源。接近過梁文鋒的人曾評價:“他是一個特別抗噪音的人。”這種抗噪音的能力,解釋了DeepSeek為何沒有在R1爆火後乘勝追擊放大招,而是沿著自己選定的方向繼續深耕效率最佳化、架構改進和一些“非主流”探索。梁文鋒認同的AGI目標有兩層含義:一是基於國產生態來做大模型,他曾提出過“能不能用現存的一部分算力,就實現現在所有的智能”的假設;二是做“原創式創新”,做一些大廠或其它創業公司不會去試、不願去試的方向。這或許也能解釋V4為何選擇在這個時間點發佈。不急不躁,按自己的節奏出牌,在技術成熟度、生態適配和成本重構都到位的節點,一擊中的。也就在V4發佈後,一個容易被忽略的細節值得被重新提起:截至2026年4月,史丹佛大學HAI實驗室發佈的年度《AI指數報告》顯示,中美大模型性能差距已縮小至2.7%,基本實現技術追平。這個數字的背後,是兩種截然不同的路徑。美國走的是“算力堆疊+商業驅動”的路,用全球最強的GPU、最充裕的資本、最激進的商業化來推動模型能力不斷突破;中國走的是另一條路,一條在算力受限、晶片被卡的條件下,只能靠架構創新和系統最佳化來“戴著鐐銬起舞”的路。DeepSeek V4的每一項創新背後都能嗅到一個共同的動機:如何在更少的視訊記憶體、更低的算力、更受限的硬體條件下,榨出更多的智能。可以說,DeepSeek V4不是終點,甚至不是一次高潮。它是一個訊號,一個在算力受限的逆風局裡,依然可以用原創架構打開新空間的訊號;一個頂級開源模型不再必須繫結在輝達晶片上的訊號;一個沒有融資、不卷加班、按自己節奏前行的團隊,依然能站在第一梯隊的訊號。“不誘於譽,不恐於誹,率道而行,端然正己。” (正和島)
巔峰一戰!DeepSeek V4與GPT-5.5同日發佈,封閉模型優勢被擊穿
今天,AI大模型圈再次沸騰起來。OpenAI正式推出GPT-5.5,性能霸榜,在介紹中,OpenAI強調:“這是迄今為止我們智能性最強、使用體驗最直觀便捷的模型,也是邁向全新智能體時代的重要一步。”緊隨其後,DeepSeek V4預覽版幾小時後火速上線,多個指標取得了比肩世界頂級封閉模型的優異成績,兩大頂級模型同日登場,堪稱開源與封閉模型的又一歷史性隔空交鋒。從市場層面來看,當前AI大模型行業已從“野蠻生長”進入“精耕細作”的下半場,封閉模型與開源模型的差距被又一次壓縮,值得關注的是,DeepSeek V4預覽版據悉已完成對華為昇騰、寒武紀等主流國產AI晶片的深度協同適配,在全鏈路自主可控方面邁出重要一步。一起來看看今天的發佈亮點。GPT 5.5:程式設計與辦公能力全面升級GPT-5.5具備多項核心能力:精準理解使用者需求、自主完成復合工作,可實現程式碼編寫偵錯、線上調研、資料分析、文件表格製作、軟體操作等任務,也可跨工具連貫完成工作。此外,GPT-5.5的詞元消耗更低,能夠減少內容重複生成,輸出質量顯著提升,在程式碼能力綜合測評中,GPT-5.5將主流前沿程式碼模型的綜合使用成本壓縮一半。GPT-5.5在Terminal-Bench 2.0測試中,精準率達82.7%;SWE-Bench Pro測試精準率為58.6%;在Expert-SWE測評中,綜合表現全面超越GPT-5.4。早期實測顯示,GPT-5.5對整體系統架構的理解能力大幅增強,可梳理故障根源、精準定位修復點位,提前預判程式碼修改對項目其他模組產生的連鎖影響。另外,GPT-5.5對使用者意圖的理解也更加精準,可流暢完成知識性工作全流程閉環。相較前代版本,GPT-5.5更切合人機協同操控電腦的互動體驗,同時,相較同類模型,GPT-5.5更擅長獨立完成科研工作。本次升級,GPT的核心定位是“極致智能、直觀易用”。OpenAI聯合創始人兼總裁Greg Brockman表示,本次更新將進一步推動自研“超級應用”佈局,加速邁入智能自主化、直覺化計算的新時代。Brockman多次強調,GPT-5.5是搭建全域“超級應用”的關鍵基石。OpenAI計畫整合ChatGPT、Codex與AI瀏覽器,打造一體化綜合服務體系,為企業級客戶深度賦能。定價方面,GPT-5.5在輸入時漲價至5美元/百萬tokens,輸出則為30美元/百萬tokens;高階版本GPT-5.5 Pro的輸入價格為30美元/百萬tokens、輸出則是180美元/百萬tokens。不難看出,GPT-5.5的整體定價大幅上調,但GPT-5.5 Pro定價與GPT-5.4 Pro保持一致。橫向對比國產模型:小米MiMo v2.5 Pro的百萬級輸入、輸出定價分別為1美元、3美元;MiniMax M2.7為0.30美元、1.20美元;Kimi K2.5為0.44美元、2.00美元,國產大模型成本優勢十分明顯。大幅漲價超出多數使用者預期,對此OpenAI解釋稱:“GPT-5.5詞元利用效率更高,完成同等業務任務,消耗詞元數量遠少於GPT-5.4。”V4同一天上線,彰顯技術自信受智能體技術爆發的驅動,全球大模型迭代節奏加快,競爭也比去年更加激烈。僅用約五周時間,小米便完成從MiMo-V2-Pro到MiMo 2.5 Pro的升級;從GPT-5.4到GPT-5.5的更新間隔僅7周,高頻高速迭代已成行業常態。在市場上傳聞了數月的DeepSeek-V4已經算是姍姍來遲,好在性能十分能打,官方技術部落格表示,V4模型的Agent智能體能力、知識儲備、邏輯推理性能全方位升級。新版本劃分兩大產品線:DeepSeek-V4-Pro,性能對標國際頂級閉源大模型;DeepSeek-V4-Flash,主打輕量化高效推理與超高性價比。DeepSeek表示,V4-Pro在數學運算與程式碼生成能力上全面超越所有開源競品,在綜合世界知識方面,僅落後於Gemini 3.1-Pro。如果實測表現與官方表述一致,DeepSeek V4將帶給行業巨大驚喜,有望再度顛覆全球開源大模型市場格局,這可能也是DeepSeekV4選擇與GPT-5.5同日發佈的原因,充分彰顯自身技術底氣。公開資訊顯示,DeepSeek-V4依託詞元壓縮技術,結合DSA(DeepSeek稀疏注意力機制),長文字處理能力實現跨越式提升,相較傳統大模型架構,有效降低算力消耗與視訊記憶體佔用,自新版本上線起,百萬級超長上下文窗口正式成為DeepSeek全系標配。V4-Pro整體參數規模達1.6兆,是DeepSeek目前參數體量最大的旗艦模型,輕量化版本DeepSeek-V4-Flash的參數規模也達到2840億。在計費定價方面,百萬tokens輸入(快取命中),DeepSeek-V4-Flash為0.2元,DeepSeek-V4-Pro為1元;百萬tokens輸入(快取未命中),DeepSeek-V4-Flash為1元,DeepSeek-V4-Pro為12元。據多方媒體披露,DeepSeek全系模型已完成專項適配最佳化,可相容華為昇騰950PR晶片,有效降低對美國高端算力晶片的依賴。目前官方暫未公開V4訓練階段所用硬體配置,但官方坦言,現階段V4-Pro的性能釋放仍受制約,伴隨華為昇騰950PR超算節點大規模量產交付,今年下半年,DeepSeek或將迎來價格下調。此次發佈,DeepSeek V4綜合實力在次躋身開源模型頭部梯隊,海外閉源巨頭雖在綜合基礎能力上仍保有領先優勢,但高額呼叫成本已是無法忽視的核心短板。僅對比GPT-5.5與DeepSeek-V4,二者的綜合使用成本相差幾倍甚至十幾倍。征戰“詞元經濟”人工智慧正全面重構各行各業、戰場格局與全球治理體系,過去,誰能依託頂尖算力基礎設施,落地最優通用大模型,誰就有望主導這場AI競賽,但現在變局已來。相關分析資料顯示,當前美國旗艦模型相對中國同類開源模型的領先幅度只剩下2.7%,美機構調研資料指出:“中國在論文發表量、文獻引用量、專利產出數量、工業機器人裝機量等維度穩居全球首位,自2017年以來,赴美發展的人工智慧科研人才數量銳減89%。”在全球TOP10大模型榜單中,中國模型獨佔四席。2026年3月,國內每日詞元消耗量突破140兆,“詞元經濟”已成為全新增長極。野村證券分析認為:“目前國內AI廠商的核心競爭邏輯仍聚焦性價比,依靠低價策略強化市場吸引力。與此同時,國產頂尖大模型與海外前沿產品的技術差距持續縮小,海外B端與C端使用者,已形成真實落地使用需求。”業內所說的“詞元出口”,本質是模型分發模式的全球化佈局,並非算力資源的跨境商品化。國產出海大模型大多依託海外雲伺服器進行部署,推理運算在境外完成,並未動用國內本土資料中心資源。對於中美AI企業而言,商業化創收仍是現階段的首要任務。OpenAI關停Sora相關業務、GPT-5.5價格直接翻倍,都是成本壓力的顯現。儘管有資料顯示,OpenAI、Anthropic年化營收分別達到250億美元、300億美元,但實際盈利狀況並不樂觀。國內企業同樣面臨營收挑戰,2025年,國內頭部AI企業的年營收普遍集中在1億至7億元區間,與投入相比,商業化變現能力仍偏弱。開源,是未來AI領域競爭的核心軟實力,也是中國模型廠商們實現技術突圍、生態破局、全球化出海競爭的關鍵抓手,有望在AI新格局中掌握更多規則話語權。 (頭部科技)
GPT-5.5 發佈!Claude Code 連夜治好降智,「奧特曼癱倒」喜提續集
據外媒 Business Insider 報導,Anthropic 在私募二級市場的估值已突破 1 兆美元。作為參照,OpenAI 今年 3 月末最新一輪融資的估值,仍停留在 8520 億美元。除了業內老生常談的「AI 泡沫論」,這組對比資料也表明了曾經穩坐頭把交椅的 OpenAI,如今正在直面被追趕、被超越的壓力,但沒有讓我們等待多久,OpenAI 的反擊旋即而至。就在剛剛,GPT-5.5 正式發佈,同步亮相的還有面向更高階任務的 GPT-5.5 Pro 版本。如果用一句話總結 GPT-5.5 的核心設計思路,那就是讓使用者把一團雜亂、多步驟的複雜任務直接拋給模型,由它自主規劃路徑、呼叫工具、校驗結果、消解歧義,並一路推進。看似只是 0.1 的版本號迭代,在推理效率上卻判若大版本更新—— 同樣的 Codex 任務,GPT-5.5 消耗的 token 顯著更少,既更聰明,也更省。吐槽了一個多月,偏偏等到 GPT-5.5 發佈,Anthropic 才想起要解決降智問題GPT-5.5 登場,不講武德的屠榜GPT-5.5 的紙面成績非常可觀。在知名第三方評測機構 Artificial Analysis 的綜合智能指數榜單上,OpenAI 憑藉 GPT-5.5 系列拿下了第一名和第二名,前六席中包攬了四席,競爭對手幾乎毫無招架之力。基準測試結果顯示,在 Terminal-Bench 2.0(測試複雜命令列工作流)上,GPT-5.5 達到 82.7%,GPT-5.4 為 75.1%,Claude Opus 4.7 為 69.4%。在 SWE-Bench Pro(評估真實 GitHub 問題解決能力)上,GPT-5.5 達到 58.6%,能在單次運行中端到端完成更多工,超過 GPT-5.4 的 57.7%。在 OpenAI 內部的 Expert-SWE 評測上,任務的人類預計完成時間中位數為 20 小時,GPT-5.5 達到 73.1%,GPT-5.4 為 68.5%。且在三項評測上,GPT-5.5 均以更少 token 完成任務。只不過,OpenAI 這次也玩起了腳註裡的小心思,用一行小字暗戳戳質疑 Claude Opus 4.7 部分成績的可信度。但網友 Deedy 對此並不買帳,在他看來,這行備註更像是轉移注意力 —— 畢竟 OpenAI 自己也沒能拿出一套更透明的公開基準,正面佐證 GPT-5.5 的實力。在智能體編碼、computer use(電腦使用)、知識工作和早期科學研究等領域,GPT-5.5 的提升尤為顯著。早期測試者反饋,GPT-5.5 在理解大型程式碼庫整體結構方面明顯更強,能主動預判潛在問題,提前考慮測試和審查需求,無需額外提示。知名評測博主、Every 創始人 Dan Shipper 分享了一個具體案例:他的應用上線後出現問題,自己偵錯數天未果,最終請來工程師重寫了部分系統。他用 GPT-5.5 重現這一場景,結果模型給出了與工程師相同的解決思路,而 GPT-5.4 則無能為力。Cursor 聯合創始人 Michael Truell 表示,GPT-5.5 比 GPT-5.4 更聰明、更有韌性,工具呼叫更可靠,面對複雜長期任務時能堅持更久而不中途停下。更誇張的是,一位輝達工程師在早期體驗後直言:「失去 GPT-5.5 的存取權,感覺就像是我的肢體被截肢了一樣。」如無意外,又一個名梗的誕生(哈??)不過,考慮到奧特曼看完 GPT-5 演示之後,直接「眩暈無力、癱倒在地」,而且這件事到今天也沒有一個正經解釋,輝達工程師這句話,好像也沒那麼誇張了。而在知識工作場景,GPT-5.5 也有著出色的表現。在衡量模型橫跨 44 種職業知識工作能力的 GDPval 評測中,GPT-5.5 獲勝或打平比例達 84.9%,GPT-5.4 為 83.0%,Claude Opus 4.7 為 80.3%,Gemini 3.1 Pro 僅 67.3%。在 OSWorld-Verified(測試模型能否自主操作真實電腦環境)上,GPT-5.5 達到 78.7%,GPT-5.4 為 75.0%,Claude Opus 4.7 為 78.0%。在 Tau2-bench Telecom(測試複雜客服工作流)上,GPT-5.5 在無提示詞調整的情況下達到 98.0%,GPT-5.4 為 92.8%,差距相當明顯。在其他專項評測上,GPT-5.5 在 FinanceAgent v1.1 達到 60.0%,內部投行建模任務達到 88.5%,OfficeQA Pro 達到 54.1%(Claude Opus 4.7 為 43.6%,Gemini 3.1 Pro 僅為 18.1%)。在 BixBench(圍繞真實生物資訊學和資料分析設計)上,GPT-5.5 達到 80.5%,GPT-5.4 為 74.0%,在已發佈分數的模型中排名第一。在 GeneBench(測試遺傳學和定量生物學的多階段資料分析)上,GPT-5.5 達到 25.0%,GPT-5.4 為 19.0%,Pro 版本達到 33.2%。這些任務通常對應科學專家數天的工作量。OpenAI 內部有超過 85% 的員工每周使用 Codex,覆蓋軟體工程、財務、傳播、市場、資料科學和產品管理等部門。財務團隊用 GPT-5.5 審查了 24771 份 K-1 稅務檔案,共計 71637 頁,最終比上一年提前兩周完成。傳播團隊打造了一套自動化 Slack 機器人,負責處理低風險請求自動處理,市場團隊的一名員工則用它自動生成每周業務報告,每周節省 5 到 10 小時。此外,GPT-5.5 的一大亮點還在於推理基礎設施的協同升級。GPT-5.5 與 NVIDIA GB200 和 GB300 NVL72 系統聯合設計和訓練。其中一項關鍵改進是負載平衡和分區策略,Codex 分析了數周的生產流量資料,編寫了自訂啟髮式演算法來動態最佳化分區和負載平衡,最終將 token 生成速度提升了超過 20%。OpenAI 還指出,GPT-5.5 本身也參與了改進自身推理基礎設施的過程。GPT-5.5 即日起向 ChatGPT Plus、Pro、Business、Enterprise 使用者開放,Codex 支援最高 400K 上下文窗口,並提供 1.5 倍速的 Fast 模式(費用為標準價格的 2.5 倍)。GPT-5.5 Pro 則面向 ChatGPT 的 Pro、Business 和 Enterprise 使用者推出。API 版本即將上線,標準定價為每百萬輸入 token 5 美元、每百萬輸出 token 30 美元,上下文窗口為 1M token。批次處理和彈性定價為標準價格的一半,優先處理模式為標準價格的 2.5 倍。GPT-5.5 Pro 的 API 定價為每百萬輸入 token 30 美元、每百萬輸出 token 180 美元。OpenAI 表示,由於 token 效率的提升,大多數使用者的實際使用成本不會有明顯增加。閉口不提 Claude Opus 4.7,卻句句都在內涵。OpenAI 要做 AI 時代的超級入口沒有那一款模型能收穫一邊倒的評價,GPT-5.5 同樣如此。網友 @chetaslua 用一條提示詞在 Codex 中生成了一個帶有風效應物理引擎的完整網站,物理互動和介面設計一併到位,感嘆「這是我第一次覺得 ChatGPT 可以成為解決一切問題的首選 AI 工具」。網友 @petergostev 讓模型生成了一個包含倫敦地標和季節變化的玩具鐵路場景,與 GPT-5.4 的輸出對比後,他的結論是「GPT-5.5 更有野心、一致性更強,錯誤更少」,並在更複雜的應用遷移任務中讓模型連續工作數小時,沒有出現卡殼。當然,吐槽的聲音同樣存在。網友 @arrakis_ai 發現,GPT-5.5 在遇到複雜佈局時有時會直接生成一張圖片了事,處理圖示需求時會從頭硬寫 SVG 而不呼叫現成庫,同時頻繁暫停追問使用者,執行力反而不如從前果斷。文筆方面,我的個人體驗也有類似感受。GPT-5.5 確實比前代更會組織語言了,至少已經能說點人話,但依然有一股怪味:「我就在這裡,不躲,不藏,不繞,不逃, 穩穩地接住你 」。並且,不少網友也注意到,OpenAI 在基準測試榜單上也動了些行銷的心思。網友 Haider 認為,GPT-5.5 和 Mythos 的差距沒有預想的那麼懸殊,而 Mythos 定價是 GPT-5.5 的兩倍,且不公開發售。他的判斷是,下一代 GPT 趕上 Mythos 應該問題不大。據外媒 Techcrunch 報導,面對記者關於「GPT-5.5 是否具備類似 Mythos 能力」的刺探時,OpenAI 技術人員 Mia Glaese 給出了一個滴水不漏卻暗藏鋒芒的回答:「我們在網路安全方面有著長期且強有力的戰略,並且已經完善了一套持久的、安全推出模型的方法。」話外之音已經十分明朗:單一的強大模型終究只是過客。真到了拼數字防禦和企業級落地的深水區,OpenAI 的生態壁壘,才是 B 端客戶唯一穩妥的安全牌。而隨著 GPT-5.5 的登場,OpenAI 的野心已經足夠清晰:他們不再滿足於做一個聰明的聊天機器人,而是要親手打造一個吞噬一切工作流的「AI 超級應用(Super app)」。在接受外媒採訪時,OpenAI 總裁 Greg Brockman 用了一個詞「自主性(Agentic)」來形容這次模型的進步跨越。與前代模型 GPT-5.4 版本相比,GPT-5.5 消耗的 Token 更少,但思考速度更快、邏輯更清晰,開始展現出主動解決複雜問題的能力。這正是邁向超級應用的堅實底座。奧特曼今晚異常興奮,還更換頭像了所謂超級應用,便是將 ChatGPT、Codex 與 AI 瀏覽器深度融合為統一服務。想像未來的工作流:人們不必再在瀏覽器、程式碼編輯器、資料分析工具之間反覆切換。只需對著這個超級應用下達一個宏觀指令,GPT-5.5 就能自主在後台打開網頁蒐集資料、編寫爬蟲程式碼、清洗資料,最終直接交付一份完整的分析報告。當然,猶如 Claude 與 Claude Code 的強繫結,OpenAI 也意在替 Codex 的增長勢頭加一把火。最近,奧特曼表示,Codex 活躍使用者在突破 300 萬不到兩周後便直逼 400 萬大關,OpenAI 隨之重設速率限制,以「量大管飽」的姿態收割開發者生態。一方面,憑藉 GPT-5.5 與 GPT-Image-2 的強勢表現,正面回擊了 Anthropic 在估值預期上的壓力;另一方面,則利用 Codex 的生態粘性緊鎖開發者陣地,穩步構築起橫跨 C 端消費與 B 端企業級服務的完整服務體系。攻守之勢異也,今年以來被詬病掉隊的 OpenAI,終於重新找回兩年前的進攻節奏,並將精力放在了踏踏實實打磨產品上。 (APPSO)
GPT-5.5來了!全榜第一碾壓Opus 4.7,OpenAI今夜雪恥
【新智元導讀】就在剛剛,奧特曼深夜擲出GPT-5.5!全方位暴擊Claude Opus 4.7,重新奪回地表最強王座。從寫程式碼到搞科研,AI獨立接管電腦的時代真的來了!矽谷今夜未眠!就在剛剛,GPT-5.5震撼登場——OpenAI迄今最強、最全能的新一代旗艦模型。它是一種全新等級的智能,徹底進化為Agent時代的「原生大腦」。沒錯,就是那個萬眾期待的「土豆」(Spud),終於在今天殺出來了。最值得看的是,GPT-5.5在各項基準測試中:全榜第一!不論在程式設計、推理、數學,還是智能體任務上,Claude Opus 4.7、Gemini 3.1 Pro完全被GPT-5.5踩在了腳下。相較於上一代,GPT-5.5 Thinking堪稱「降維打擊」,拉開了代際差距。在AAI測試中,相同輸出token下,GPT-5.5智能指數冠絕全球;另在ARC-AGI-2上,同樣刷新了SOTA。奧特曼忍不住大加讚賞,「GPT-5.5既聰明又快速」。每個token的速度與GPT-5.4一樣快,且每個任務使用token量顯著降低。它可以幾乎做到心領神會,知道自己該做什麼!總裁Greg激動稱,「這朝著一種全新的電腦工作方式邁出了一步」。今天起,GPT-5.5在ChatGPT、Codex中正式上線。程式設計新王登場 Opus 4.7跌落神壇先看最核心的程式設計領域,GPT-5.5可謂是打了一場漂亮的翻身仗!用OpenAI的話來說,它是迄今為止最強大的智能體程式設計模型。Terminal-Bench 2.0測試考的是全鏈路Agent工程實力。題目會給模型一個終端環境和一個模糊目標,讓它自己規劃路徑、調工具、寫指令碼、處理報錯、反覆迭代。在這裡,GPT-5.5拿下82.7%,GPT-5.4是75.1%,Claude Opus 4.7隻有69.4%。13個百分點的差距,碾壓等級。OpenAI內部的Expert-SWE評測,專門測那些人類預估中位完成時間20小時的長周期程式設計任務,GPT-5.5拿到73.1%,同樣高於GPT-5.4的68.5%。在業界公認最能反映真實GitHub問題解決能力的評測SWE-Bench Pro中,GPT-5.5得分58.6%,略遜色於Claude Opus 4.7(64.3%)。不過,OpenAI在這個資料旁邊標了一個星號,寫著「Anthropic報告稱在部分問題子集上存在過擬合(記憶)跡象」。換句話說就是,Opus 4.7雖然考試成績好,但我懷疑你背過答案。Codex研究員直言:SWE-Bench早已不能衡量頂尖程式設計能力了最關鍵是,在這三項的評估中,GPT-5.5使用了更少的token,但仍全面趕超GPT-5.4。這一能力在Codex中,體現得更為明顯。它可以完成「端到端」的程式設計任務,從實現、重構到偵錯、測試和驗證等流程。舉個栗子,讓GPT-5.5做一個阿爾忒彌斯II太空任務可視化應用。首先把一張任務的截圖扔給GPT-5.5,然後要求用WebGL和Vite實現一個可互動的3D軌道模擬器,軌跡資料必須來自NASA/JPL Horizons的真實向量資料,並且還要有逼真的軌道力學。只見,GPT-5.5從零搭完,滑鼠拖曳能轉,獵戶座飛船、月球、太陽的相對位置都對得上。再來一個坦克打飛碟。Prompt要求用Three.js做一個UFO射擊遊戲,玩家控制坦克擊落頭頂飛過的飛碟,「低多邊形但要好看」,先給出完整檔案結構和需要改動的檔案清單,再寫全部程式碼,「完成之前不許停」。GPT-5.5全部照單執行,從檔案結構到Three.js渲染到射擊判定,一口氣交付了一個可玩的3D遊戲。在3D地牢競技場中,Codex包辦遊戲架構、TypeScript/Three.js實現、戰鬥系統、敵人遭遇和HUD反饋。GPT生成了環境貼圖,OpenAI API生成了角色對話,角色模型、貼圖和動畫來自第三方素材工具。幾個AI各管一攤,拼出一款能打怪的遊戲。早期測試的大佬直言, GPT‑5.5擁有更強的理解系統形態的能力。它更能判斷問題出在那,修復該加在那,以及程式碼庫中還有那些地方會受到牽連。85% OpenAI員工用瘋 這才是真正幹活的AI程式設計之外,GPT-5.5在「知識型工作」上的資料同樣亮眼。畢竟,OpenAI將其稱為,「一種面向真實工作的全新智能」。它能更快地理解你想要做什麼,並在不同工具之間切換,直到任務完成。GDPval,評估AI在44個職業中完成規範知識工作的水平,GPT-5.5拿到84.9%,Opus 4.7是80.3%,Gemini 3.1 Pro只有67.3%。OSWorld-Verified,測試模型能否獨立操作真實電腦環境,GPT-5.5得分78.7%,和Opus 4.7的78.0%幾乎打平。Tau2-bench,測試模型能否在複雜客服工作流中處理多輪對話、查詢系統、執行操作。,GPT-5.5在沒有微調提示詞的情況下達到98.0%。有意思的是OpenAI自己怎麼用的。據官方部落格披露,公司內部超過85%的員工每周跨部門使用Codex。公關部門用GPT-5.5分析了六個月的演講邀約資料,搭建了評分和風險框架,讓低風險請求自動走Slack AI智能體處理。財務部門審查了24,771份K-1稅表,共71,637頁,比去年提前兩周完成。市場團隊實現了每周業務報告自動生成,每周省5到10個小時。如今,在Codex中,通過GPT-5.5可與Web應用直接互動,測試流程、點選頁面、擷取螢幕,並根據所見內容不斷迭代,直到完成任務。如下是,測試入職流程的一個例子。Codex還可以生成更高品質的電子表格、PPT和文件,如下是一個財務建模的demo。應用內新增的檔案查看器,可加快審閱、修訂和迭代速度,讓檔案更快準備好分享。在電腦使用上,Codex操作電腦能力更強了。無論是識別螢幕內容,還是點選、打字、導航,甚至是跨工具流轉上下文資訊,它都能輕鬆搞定。OpenAI研究員Noam Brown直言,有了GPT-5.5,自己也能像專業人士一樣編寫CUDA核心,運行研究實驗。顛覆科研 證明「拉姆齊數」定理除了這些,GPT-5.5還協助發現了一個關於拉姆齊數的新證明,並在Lean語言中得到了驗證。拉姆齊數是組合數學的核心研究對象,通俗地說就是一個網路大到什麼程度,才一定會出現某種規律性結構。這個領域的新結果極其罕見。論文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf這個領域的研究成果極其罕見,技術難度極高。GPT-5.5發現了一個關於非對角拉姆齊數長期漸近事實的證明。不是寫程式碼,不是做解釋,是提出了一個有價值的數學論證。GeneBench上,GPT-5.5得分25.0%,GPT-5.4是19.0%。這個評測專門測多階段科學資料分析,要求模型在幾乎沒有人工干預的情況下處理模糊資料、應對隱藏混雜因素。BixBench,基於真實生物資訊學設計的評測,GPT-5.5在所有已公開分數的模型中排名第一,80.5%。FrontierMath Tier 4,由陶哲軒等頂級數學家策劃的前沿數學題庫中最難一檔,題目涉及代數幾何、數論等方向,難度接近未發表研究。GPT-5.5得分35.4%,GPT-5.4是27.1%,Opus 4.7隻有22.9%。差距超過12個百分點。對比一下Tier 1-3的差距只有8個百分點(51.7% vs 43.8%),說明越到數學前沿,GPT-5.5的優勢越懸殊。Jackson基因醫學實驗室的免疫學教授Derya Unutmaz用GPT-5.5 Pro分析了一個包含62個樣本、近28,000個基因的表達資料集。模型出具了一份詳盡的研究報告,不僅總結了發現,還深挖出關鍵問題和洞察。相比之下,如果這活兒讓人類團隊來幹,得花上好幾個月。波茲南·密茨凱維奇大學數學助教Bartosz Naskręcki在Codex中,僅用11分鐘就從一個單一提示詞建構了一個代數幾何應用,可視化了二次曲面的交集,並將生成的曲線轉換為Weierstrass模型。從程式設計到知識工作再到科研,升番到這裡,結論擺在眼前。GPT-5.5不是又一次「小版本迭代」,它是一次全新基座模型帶來的整體性躍升。全方位擊敗Opus 4.7,就看一張圖總言之,GPT-5.5的誕生,堪稱迎來了脫胎換骨的蛻變。對戰Opus 4.7,一張圖就夠了。另在Vending-Bench中,GPT-5.5同樣暴擊Opus 4.7。Opus 4.7的表現跟4.6差不多:老是對供應商撒謊,還在退款上坑顧客。相比之下,GPT-5.5的手段就很正派,而且照樣贏下了比賽。奧特曼還玩個梗,「千萬別轉,千萬別轉,千萬別轉....哎,算了吧,生活終究是在模仿藝術」。定價翻倍 更強,但也更貴說完實力,必須說錢。GPT-5.5的API定價,每百萬輸入Token 5美元,每百萬輸出Token 30美元。GPT-5.4是多少?2.50美元和15美元。整整翻了一倍。GPT-5.5 Pro更誇張,輸入30美元,輸出180美元。對比一下Opus 4.7,輸入5美元,輸出25美元。GPT-5.5的輸入價格和Opus 4.7持平,但輸出貴了20%。OpenAI給出的解釋是token效率提升。同樣的Codex任務,GPT-5.5用的token比GPT-5.4明顯更少。更強,而且更高效。但算一筆帳就知道,如果一個團隊每月在GPT-5.4上花10萬美元,切換到GPT-5.5後即使token用量減少30%,月帳單依然會漲到14萬美元左右。換句話說,GPT-5.5是一個「你為更強的智能付更多的錢」的溢價產品。相比之下,GPT-5.4大機率會繼續作為性價比之選存在。OpenClaw已接入最強GPT-5.58天,一個時代的縮影回頭看這8天發生了什麼。4月16日,Anthropic用Opus 4.7在SWE-Bench Pro上發起突襲,從GPT-5.4手中奪走程式設計王座。4月24日,GPT-5.5正式發佈。Terminal-Bench碾壓,定價翻倍,科研炸裂。2026年的AI競賽,已經不是「誰的模型更強」這一個維度的較量了。在GPT-5.5的敘事裡,OpenAI反覆強調的是「探索全新的電腦辦公方式」,一個能自主規劃任務、呼叫多種工具、在瀏覽器和本地軟體之間來回切換的通用Agent。跑分是前菜,Agent化辦公才是主戰場。誰先定義「AI怎麼替人幹活」,誰就定義下一代電腦使用介面。8天一個來回。這個節奏,只會更快。 (新智元)
半壁華人!GPT Image 2團隊曝光:無錫才俊帶隊,13人4個月封神
GPT Image2全網刷屏,但效果究竟為什麼這麼好?研究負責人陳博遠揭秘:底層架構已徹底重構。但他又拒絕回答是否採用擴散模型或自回歸技術,只是神秘的將其描述為“通用模型”或“圖像領域的GPT”。陳博遠的一條推文還透露,從去年12月底的GPT Image 1.5算起,只用了四個月就有如此大的改進。這樣突破性的成果,核心團隊只有13人。整個團隊的負責人Gabriel Goh曬出了的團隊成員AI全家福。評論區有網友感嘆:怎麼全是亞洲人?陳博遠:從不懂Python到Research LeadGPT Image 2究竟是什麼架構?OpenAI恐怕很長一段時間都不會公佈了,但從核心團隊成員的學術經歷可以看出一些痕跡。陳博遠是團隊的Research Lead,他和另一位成員Kiwhan Song在MIT讀博時有同一位導師Vincent Sitzmann。他博士期間的代表作Diffusion Forcing: Next-token Prediction Meets Full-Sequence Diffusion入選了NeurIPS 2024。這項研究提出Diffusion Forcing這一全新序列生成訓練範式,將逐token獨立噪聲級擴散與因果下一個token預測結合,融合自回歸模型的可變長度生成與全序列擴散模型的長程引導優勢。他在Google實習期間還以共同一作身份發表了SpatialVLM。通過過自動建構網際網路規模的3D空間推理 VQA 資料集(1000 萬圖像、20 億 QA 對),為視覺語言模型賦予定量 / 定性空間推理能力,可從單張 2D 圖像輸出米制距離、尺寸、方位等精確數值。這項研究把思維鏈空間推理應用到了具身智能領域。在Google實習期間,他開發的指令微調技術後續還被Gemini 2.0採用。他在高中參加科研夏令營時,還不懂Python的基本語法,那時結識的GoogleDeepMind資深研究員夏斐把他引入了AI世界。夏斐兩次邀請他到DeepMind完成高品質實習,這些經歷使陳博遠積累了大規模模型訓練的工程經驗,也為他理解多模態系統的資料需求提供了寶貴視角。博士畢業後,陳博遠於2025年6月加入OpenAI,迅速成為GPT圖片生成五人核心成員之一,負責GPT圖像生成模型的所有訓練,同時也是Sora視訊生成團隊的一員。在演示中,他給家鄉無錫做了一張海報。然後為來自首爾的隊友做韓文海報,為來自Bangladesh的隊友做孟加拉語海報。每一張中的文字渲染都精準無誤。中科大Jianfeng Wang:讓生圖AI理解世界知識中科大博士畢業的Jianfeng Wang,在GPT Image 2團隊負責的是另一個讓人驚嘆的能力:指令遵循和理解世界。舊模型畫的永遠時鐘永遠指向10:10,源於網路上的鐘錶廣告圖,幾乎清一色都是10:10。這是因為鐘錶廠商找心理學家做過實驗,認為這有助於刺激消費者買表的意願。他讓新模型畫2:25、3:30、9:10、7:45,全部精準。這只是開胃菜。更多複雜的空間佈局,蘋果在中心、杯子在右邊、書在上面、相機在左邊、籃球在下面。模型全部精準執行。在加入OpenAI 之前,他在微軟工作近9年。在微軟期間就與OpenAI團隊在DALLE-3上有合作。他在電腦視覺領域發表了多篇學術論文,研究內容可能涵蓋 圖像分類、目標檢測、語義分割、以及視覺表徵學習 等方向世界知識理解能力的大幅提升,對象的語義內容和功能結構 有正確的理解JianFeng Wang在演示視訊結尾說到:GPT Image 2正在消除你的意圖和模型產出之間的差距。真正做到你想要什麼,模型就給你什麼。Yuguang Yang:生成高精度複雜資訊圖表Yuguang Yang在GPT Image 2的發佈活動中演示了生成資訊圖和PPT。整整75頁的GPT-3論文拖進ChatGPT,自動生成7張幻燈片。他的經歷可以說是團隊成員中最豐富的,每換一個工作都是跨界,但都聚焦機器學習。他本科在浙大竺可楨學院學的工程,博士在約翰斯霍普金斯大學期間學的是計算化學物理與機器學習。他第一份全職工作是量化分析師,在清華做訪問研究員期間亞牛的的是用於奈米機器人的強化學習和控制演算法。後來他在亞馬遜做過Alexa語音研究。又在微軟做過Bing搜尋的查詢理解和檢索、文件理解。2025年初加入OpenAI後,除了圖像生成還參與過ChatGPT智能體項目。他在個人帳號上介紹GPT Image 2的資訊圖生成能力,可以為科研人員節省大量時間。還反覆提醒大家,要做資訊圖不要忘記選擇思考模式。從DALL-E到GPT Image 2.0從團隊成員Kenji Hata的自我介紹中得知,GPT Image 1.0也就是GPT-4o的圖像生成部分。有一個人從DALL-E開始參與了OpenAI多模態系列研究的全程。他就是GPT Image 2.0團隊負責人Gabriel Goh。從2019年加入OpenAI,他的早期研究更篇理論,專注於可解釋性和凸最佳化等等。從DALL-E開始慢慢轉向了圖像生成。看到另一位團隊成員Weixin Liang的研究履歷,GPT Image 2的技術底色又揭開了一角。他在Meta實習期間的代表作Mixture-of-Transformers,引入模態解耦的MoE和解耦注意力,顯著降低多模態模型預訓練的計算成本。他博士畢業自史丹佛,本科也畢業自浙大竺可楨學院,不過比Yuguang Yang要晚好幾年。Weixin Liang與陳博遠一樣都是25年博士剛畢業就加入OpenAI,迅速成為團隊的核心成員。其他GPT Image 2.0團隊成員還包括:Ayaan Haque,之前在Luma AI 工作,參與過Luma的視訊生成基礎模型Dream Machine的訓練。Bing Liang,在Google幹了5年多,參與Imagen3、Veo、Gemini Multimodal,2025年跳到OpenAI做圖像生成研究。Mengchao Zhong,本科上海交通大學校友,碩士畢業於德克薩斯農工大學,在Pinterest和Airtable做過軟體工程師,在OpenAI負責多模態產品的工程。Dibya Bhattacharjee,耶魯大學,2015年IPhO銅牌,CIE A-Level數學和生物全球最高分。Kiwhan Song是25年10月最晚加入的,除了做研究之外,他還是團隊裡的提示詞大師,大家看到的官方演示圖很多都出自他手。……從最早的DALL-E到今天的GPT Image 2.0,這只團團隊先後解決了。畫得出來、畫得清楚、畫得好看、畫得準。儘管近年來OpenAI的人才流動很大,但OpenAI還是那個能不斷吸引各種有個性的人才,不限制專業、歡迎跨界,信奉自下而上湧現式研究的公司。從一個小團隊開始,有了突破後公司傾斜更多資源,直到改變世界。One More Thing曾經,GPT-4o圖像生成模仿吉卜力風格生成的頭像席捲了全世界。如今GPT Image 2.0的團隊成員,都把自己頭像換成了這種奇脖子畫風。那麼這種畫風的提示詞是什麼?團隊成員也公佈了出來Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.(量子位)