#GPT-4o
OpenAI大潰敗!GPT-5「換皮」GPT-4o,兩年半預訓練0突破
【新智元導讀】OpenAI,亟需一場翻身仗!今天,全網最大的爆料:GPT-5基石實為GPT-4o。自4o發佈之後,內部預訓練屢屢受挫,幾乎淪為「棄子」。OpenAI核心預訓練,接連翻車?傳言稱,GPT-5的基石仍是GPT-4o,且GPT-4.5之後的預訓練版本,都被OpenAI放棄了!這麼說並非空穴來風,核心爆料恰恰來自權威SemiAnalysis的最新一文——OpenAI頂尖團隊自GPT-4o發佈之後,迄今尚未完成一次完整的,為下一代前沿模型設計的大規模預訓練。文章中,高級分析師強調:Google正手持TPUv7這把利劍,向輝達王座發起衝鋒,或將終結CUDA護城河。眾所周知,OpenAI全端模型是在純輝達GPU上煉出的。然而,圈內人的焦點,大都放在了大模型「推理」和「後訓練」的硬體之上。殊不知,沒有前沿模型的預訓練,一切皆是「無米之炊」。恰恰這一環節,成為了AI硬體裡最難、最耗資源的一關。如今,一個不為人知的內幕爆出了:事實證明,GoogleTPU徹底經受住了這一考驗;相較之下,自2024年5月GPT-4o誕生之後,OpenAI的預訓練卻毫無進展.....過去,兩年半的時間,OpenAI沒有真正Scaling預訓練的規模。GPT的預訓練,或許在GPT-4o之後觸及了天花板,由此也解釋了GPT-5性能未達業界預期的關鍵原因。有網友表示,那不正是Ilya離開的時候嗎.....恰在昨天,Ilya最新發文稱,Scaling不會停,但某個重要的東西仍然會缺失。OpenAI預訓練,大潰敗還記得去年底,那場鋪天蓋地的「Orion」傳聞嗎?這一秘密項目,原定以GPT-5面世,但因訓練未達預期,最終被降級為GPT-4.5發佈。在前沿模型預訓練上,OpenAI的研發似乎陷入了僵局——如今第五代旗艦模型GPT-5,包括最新GPT-5.1,其「技術根基」本質或仍未突破GPT-4o的範疇。SemiAnalysis去年底一篇文章,曾對外公開了Orion訓練的困境。當前,演算法的進步使得模型每年所需的物理計算量減少約三分之一,因此,訓練執行階段間很少超過3個月。甚至,行業中大多數預訓練通常僅需要1-2個月。然而,OpenAI的Orion大規模預訓練,卻打破了這一常規,其訓練時間超過了3個月。另據Information同一時間爆出,Orion不會像前代實現巨大的飛躍,相較於從GPT-3到GPT-4的迭代,改進幅度要小得多。不僅如此,Orion性能提升也基本侷限在——語言能力上,其程式碼能力甚至不如舊模型,且成本更高。如今再回看2月,GPT-4.5的誕生,基於代號Orion的模型,OpenAI追求的是:更強的語言能力+更穩的對話體驗+更大知識庫情商,成為了GPT-4.5的關鍵詞。程式碼雖有提升,但並非主菜。這一切的一切,從側面印證了,此前外媒關於「Orion遇挫」爆料的精準性——LLM有提升,但不大。GPT-4o,成Scaling主線?今年8月,GPT-5的那場發佈,奧特曼將其定調為「博士級AI,是通往AGI又一里程碑」。實則,業界對於GPT-5的反響,唏噓一片。大家原本以為,GPT-5會是全面超越前代的一次飛躍,但實際發佈後,更像是GPT-4.5的進一步最佳化版,不是「顛覆版」。但至於GPT-5真正基於那一款GPT打造,還有待證實。正如之前傳聞的猜測,有可能是GPT-4o,還有Reddit網友稱是GPT-4.1....但不論是那一款,都證明了GPT-5,沒有在全新前沿模型的大規模預訓練上淬煉。搞笑的,那個曾將OpenAI三顆🍓🍓🍓「焊在」名字中的大佬,如今改成了三個🍌🍌🍌。他表示,這已經不是什麼秘密了——GPT-4.5將預訓練推向極致之後,OpenAI加倍投入了推理範式,主打o系列+RL。不同的是,Google和Anthropic仍在Scaling預訓練,並增強了強化學習。OpenAI主動放棄了這一範式,為勁敵讓出了一條速通道。奧特曼:這事兒瞞不住了!Gemini 3發佈後,Google和OpenAI攻守之勢易形——Gemini 3來勢洶洶,而OpenAI這次終於坐不住了!據洩露的內部備忘錄,奧特曼坦言:「近期, 從各方面來看,Google在大語言模型表現出色」,特別是預訓練。這番表態標誌OpenAI的重大轉變——它終於承認,一個重新崛起的競爭對手與逐漸降溫的企業需求,已徹底打破了其「天下無敵」的光環。所謂預訓練,是訓練生成式AI模型(無論是文字還是圖像)過程中的第一階段。在這一階段,研究人員會用網頁等大量資料「投喂」模型,讓它掌握資料之間的各種關聯。大語言模型(LLM)開發與訓練流程概述:預訓練和後訓練是關鍵在預訓練領域,Google取得了新突破,給Gemini 3帶來了空前的推理深度。這讓不少AI研究者頗感意外——畢竟,OpenAI去年曾屢屢碰壁,而Google自己過去也曾陷入瓶頸。正因如此,在一段時間內,OpenAI選擇將更多精力轉向另一種新型AI架構——「推理模型」,這種模型雖然計算量更大,但有望輸出更優質的回答。在推出GPT-5之前,OpenAI團隊曾嘗試對預訓練階段做出一系列調整,這些方法在小模型上有效,一旦模型變大就失效了。GPT-5發佈第二天,西班牙與波蘭Talan公司AI應用負責人Javier Alba de Alba表示:(GPT-5)整體觀感頗為失望:這是個優秀的模型——響應迅捷、價格親民、能力全面,但遠非人們基於OpenAI過往發佈會所預期的代際飛躍。GPT-5帶來了不少提升——程式設計能力顯著提升、推理能力進階、幻覺現象減少、醫療領域表現最佳化,甚至免費使用者也享有更長的默認使用時長。此外命名體系全面簡化:GPT-4o/4.1/turbo/mini等繁雜名稱悉數消失,統一更名為GPT-5。不過,Javier Alba de Alba提醒:「千萬不要被名稱迷惑:GPT-5並非新一代產品。」他解釋道:技術層面而言,它更像是GPT-4o的功能增強版,即便命名為GPT-4.2也毫不違和。OpenAI此舉雖完成了必要的名稱統一,但整場發佈會未能達到預期,讓技術社區頗感失落。GPT-5發佈後,Epoch AI也發現了其中的異常:相比前代GPT-4.5,GPT-5很可能消耗了更少的訓練算力。雖然具體數值尚未公開,但GPT-4.5使用的訓練算力極有可能超過GPT-5。預訓練並未消亡,它依然是勝負關鍵。在內部會議中,奧特曼鼓舞士氣,稱在未來幾個月,OpenAI將重新奪回優勢。其中關鍵舉措之一,就是打造一款代號為「Shallotpeat」的新一代大語言模型。據知情人士透露,該模型的設計目標之一,就是專門修復OpenAI在預訓練過程中遇到的種種「疑難雜症」。OpenAI:內部的風向變了GPT-5發佈的實質是什麼?對現有ChatGPT使用者而言,GPT-5是個好消息,但這並未開啟新時代。它只是進化歷程中的一小步,而非革命性飛躍。既然更多算力通常意味著更強性能,為何OpenAI會反其道而行?這對未來模型發展意味著什麼?在與a16z合夥人Martin Casado對話中,OpenAI平台工程負責人Sherwin Wu,深度拆解了OpenAI當前平台架構、定價邏輯與未來方向。在這次訪談中,他們深入探討了為何開發者往往會長期依賴某個「值得信賴」的模型系列,信任感是如何建立的,以及為什麼行業已經逐步放棄了「一個模型通吃所有任務」的幻想。Sherwin還講解了從提示詞工程到上下文設計的演變過程,以及企業如何借助OpenAI的微調(fine-tuning)和RFT API,利用自有資料定製模型行為。共識已變幾年前,OpenAI內部認為:未來會有一個「統治一切」的超級模型。但現在行業共識已經轉變為「模型的專業化和多樣化」。雖然會有強大的通用模型,但也需要針對特定任務(如程式設計Codex、視訊Sora)的專用模型。文字、圖像、視訊背後的技術堆疊各不同。目前,在後台。這些模型往往是分開最佳化的獨立系統,很難簡單地「一鍋燉」。順便提一句,正是DALL-E 2的出現讓Sherwin決定加入OpenAI,因為那是他第一次感受到AI的魔力。而微調(Fine-tuning)也悄然進化——早期的微調,主要用於調整「語氣」或「指令遵循」。 現在的重頭戲,是強化學習微調(Reinforcement Fine-Tuning) 。這允許企業利用其龐大的專有資料(Data Treasure Troves),將較小的模型在特定領域訓練至SOTA水平。這是解鎖企業資料的關鍵。也就是說,企業擁有大量內部資料,但與ChatGPT「毫無關係」,對企業專屬AI而言卻是黃金。他們多次提到AI程式碼編輯器Cursor作為建立在 OpenAI API 之上的成功產品案例,證明了:即使OpenAI自己有競品,開發者依然可以建立偉大的垂直應用。Agent開發模式從第一天起,奧特曼和Greg Brockman就確立了「App+ API」的雙軌戰略。這樣做是為了儘可能廣泛地分發AGI的利益——如果只做 API,你就無法觸達普通消費者;如果只做應用,你就無法賦能各行各業的開發者。在這次對話中,他們重點談論了智能體開發工具「Agent Builder」。Sherwin認為,智能體(Agent)並非一種全新的模態,而是AI的一種新使用方式。本質上,智能體是一個能夠代表使用者、在較長的時間跨度(Long Time Horizons)內執行一系列操作並完成任務的AI系統。OpenAI曾推出了可視化的「Agent Builder」(節點式建構),但發現對於開發者而言,這種方式可能過於受限。訪談中,Sherwin和Martin將智能體清晰地劃分為兩類,這解釋了為什麼目前市面上的Agent產品形態各異——探索型/非定向工作 (Undirected/Exploratory Work)流程型/SOP導向工作 (Procedural/SOP-oriented Work)在對話中,第二類Agent開發可能更像傳統的軟體工程或遊戲開發中的NPC(非玩家角色)邏輯。與其讓模型完全自由發揮,不如通過程式碼給予它明確的邏輯框架和標準操作程序(SOP),特別是在受監管的行業(如客戶支援、金融)。也就是說,邏輯必須寫死在程式碼裡,而不是提示詞裡。這就是Agent Builder想要解決的問題:為那些必須控制智能體行為的行業和場景,提供一個簡單、清晰、可驗證的解決方案。One More Thing2025年度壓軸大戲,GoogleGemini 3 Pro無疑打了一場勝仗,但OpenAI不會袖手旁觀。內部已確認,聖誕節前夕,一連串發佈連番轟炸。據傳,一系列新模型,在路上了——Image Gen v2IMO和IOI金牌多模態模型GPT-5.2 Codex12月,AI圈一定非常熱鬧。 (新智元)
OpenAI公開未來路線圖!具體到28年3月AI研究員將完全自主,奧特曼承認“關於GPT-4o我們搞砸了”
OpenAI完成史上最重要的一次組織架構調整後,緊接著開了一場直播。首次公開了內部研究目標的具體時間表,其中最引人注目的是“在2028年3月實現完全自主的AI研究員”,具體到月份。這次發佈會資訊密度非常大,連奧特曼自己都說:“鑑於這些內容的重要性,我們將以不同尋常的透明度分享我們的具體研究目標、基礎設施計畫和產品戰略。”難道重組後的OpenAI,真的重新Open了?不過也有一些事故,本來OpenAI發帖徵集大家的問題,結果抱怨GPT-4o對敏感對話強制路由機制的人太多,兩人支支吾吾面面相覷了一陣。奧特曼最終還是承認“這次我們搞砸了”。我們的目標是在保護脆弱使用者的同時給成人使用者更多自由。我們有義務保護未成年使用者,保護那些不在合理心態下的成人使用者。隨著年齡驗證的建立,我們將能夠更好地做出平衡。這不是我們最好的工作,但我們會改進。2028年讓AI自己做研究,OpenAI給出明確時間表直播一開始,奧特曼就承認自己的錯誤。過去,我們把AGI想像成”天上的神諭”,超級智能會自動為人類創造美好的事物。但現在我們意識到,真正重要的是創造工具,讓人們用這些工具創造自己的未來。這種思維轉變並非偶然,人類歷史上每一次技術革命都源於更好的工具,從石器到蒸汽機,從電腦到網際網路。OpenAI相信,AI將是下一個改變文明處理程序的工具,而他們的使命是讓這個工具儘可能強大、易用且普惠。接下來,首席科學家Jakub Pachocki公開了一份OpenAI內部的目標和路線圖。2026年9月,AI研究實習生等級。能夠通過大量計算顯著加速研究人員工作2028年3月,完全自動化的AI研究員,能夠自主完成大型研究項目在介紹研究進展時他特別強調,OpenAI相信深度學習系統距離超級智能“可能不到十年”,這裡超級智能指的是在大量關鍵領域都比人類更聰明的系統。他們對AI能力進展的量化方式是看模型能完成的任務所需的時間跨度,從最初的幾秒鐘任務,到現在的五小時任務(比如在國際數學和資訊學競賽中擊敗頂尖選手),這個時間跨度正在快速延長。想想模型目前在問題上花費的思考時間,再想想你願意在真正重要的科學突破上花費多少時間,讓模型使用整個資料中心的計算資源來思考都是可以接受的,這裡有巨大的提升空間。Pachocki還詳細介紹了一項名為“思維鏈忠實度”(Chain of Thought Faithfulness)的新技術。簡單來說,就是在訓練時故意不去監督模型的內部推理過程,讓它保持對實際想法的忠實表達。我們不引導模型思考“好的想法”,而是讓它保持對實際想法的忠實。在五層AI安全架構中,思維鏈忠實度瞄準最頂層的價值對齊。AI真正關心什麼?它能否遵守高層次的原則?面對不明確或衝突的目標時會怎麼做?它是否缺乏人性?這個問題之所以重要,是因為:當系統進行長時間思考時,我們無法為每一步都提供詳細指令當AI變得非常聰明時,可能面對人類無法完全理解的問題當AI處理超出人類能力的問題時,完整的規範變得困難甚至不可能在這些情況下必須依賴更深層的對齊,人們無法為每個細節編寫規則,必須依賴AI內在的價值觀。傳統方法在訓練期間查看並指導模型的思維過程,實際上是在教它說我們想聽的話,而不是保持對它真實思考過程的忠實。目前,這種方法已經在OpenAI內部廣泛使用,用於理解模型如何訓練、傾向如何演變。以及與外部合作研究,通過查看未受監督的思維鏈,能夠檢測到潛在的欺騙行為。不過讓AI的價值觀不與監控對抗還只是成功的一半。理想情況下還希望AI的價值觀實際上能夠幫助監控模型,這是OpenAI下一步正在大力研究的內容。新架構亮相:非營利基金會掌控一切備受關注的OpenAI重組方案終於揭曉,與原方案相比出人意料地簡潔。舊的架構包括多個相互關聯的複雜實體:新架構只剩兩層:核心是OpenAI基金會(OpenAI Foundation),這個非營利組織將完全控制下屬的公益公司OpenAI Group。基金會初始將持有公益公司約26%的股權,但如果業績優異,這個比例可以通過認股權證增加。Sam Altman希望OpenAI基金會成為史上最大的非營利組織,首個重大承諾是投入250億美元用於AI輔助疾病治療研究。除了醫療研究,基金會還將重點投入一個全新的領域——AI Resilience。OpenAI聯合創始人Wojciech Zaremba特別介紹了這個概念,它比傳統的AI安全範圍更廣。舉例來說,即使OpenAI能阻止模型用於危險用途,但如果有人使用其他模型搞事,整個社會仍需要在問題發生時有快速響應機制。Zaremba認為這就像網際網路早期的網路安全,當時人們都不敢在網上輸入信用卡號,遇到病毒還要互相打電話提醒斷網。但現在有了完整的網路安全產業鏈,人們才敢把最私密的資料和畢生積蓄放在網上。在基礎設施方面,OpenAI首次公開了他們的投資規模:目前已承諾的基礎設施建設總計超過30GW(吉瓦),總財務義務約1.4兆美元。奧特曼還透露了一個長期目標:建立一個基礎設施工廠,每周能夠創造1GW的算力,並希望將每吉瓦的成本在五年生命周期內降至200億美元左右。為了實現這個目標,OpenAI考慮投入機器人技術,用來幫助建設資料中心。為了讓大家理解這個規模,OpenAI重點介紹了他們在德克薩斯州阿比林建設的首個星際之門資料中心,在多個地點建設中,這是進展最快的。這個工地每天有數千人在施工,整個供應鏈涉及數十萬甚至上百萬人,從晶片設計、製造到組裝,再到能源供應。問答環節同樣精彩Q1:技術變得令人上癮,然而Sora模仿TikTok,ChatGPT可能會加入廣告,為什麼重複同樣的模式?奧特曼:請根據我們的行動來判斷我們。如果Sora變成讓人刷的上癮而不是被用來創作,我們會取消這個產品。我們希望不會犯前人的錯誤,但可能會犯新錯誤,需要快速演進和緊密的反饋循環。Q2:AI導致的大規模失業何時會發生?Pachocki:很多工作將在未來幾年自動化,什麼工作將取代這些工作?什麼樣的新追求值得所有人參與?”我認為會有幾個方面:能夠理解更多關於世界的東西,令人難以置信的各種新知識、新娛樂、新智能,將為人們提供相當多的意義和成就感。Q3:內部模型比公開部署的模型領先多少?Pachocki對下一代模型有很強的期望,預計未來幾個月和一年會有快速進展,但沒有隱瞞什麼極其瘋狂的東西。奧特曼補充說他們開發了很多元件,當把它們組合在一起時,才會有令人印象深刻的成果。今天我們只是有很多這樣的元件,不是坐擁未向世界展示的巨大成果,但預計一年後有機會實現AI能力的巨大飛躍。Q4:OpenAI如何能為免費版本使用者提供這麼多功能?Jakub首先從技術角度解釋了這個現象:當OpenAI開發出新一代模型(比如GPT-5)時,它代表了智能的新前沿,也就是目前AI能達到的最高水平。達到這個前沿後,很快就能找到更便宜的方法來複製這種能力。奧特曼從商業角度補充了這個討論:過去幾年,特定單位智能的價格每年下降約40倍。這裡出現了一個看似矛盾的情況,為什麼仍需要大量基礎設施?他們AI越便宜,人們越想使用,最終總的成本預計只會增加。OpenAI在此做出承諾,只要商業模式依然有效,就致力於繼續將我們能做到的最好技術放入免費層。Q5:ChatGPT是OpenAI的終極產品嗎?還是通往更偉大事物的前身?Pachocki解釋作為研究實驗室,最初並沒有打算建構聊天機器人。但他們現在已經認識到這個產品與整體使命的一致性,ChatGPT讓每個人都能使用強大的AI,不需要程式設計知識,不需要技術背景。奧特曼認為聊天介面是一個很好的介面,但不會是唯一的介面,人們使用這些系統的方式將隨時間發生巨大變化。對於五分鐘以下的任務,聊天介面表現很好,可以來回提問,逐步完善直到滿意。但對於五小時的任務就需要更豐富的介面,那五年或五個世紀的任務呢?這幾乎超出了我們的想像。奧特曼隨後描繪了他心目中最重要的演進方向:一個環境感知的、總是存在的夥伴,觀察你生活並在你需要時主動幫助你的服務。視訊回放:https://openai.com/live/?video=1131297184 (量子位)
世界上第一張照片,被AI 「修復」成了科幻片
曝曬+ 瀝青+ 錫板= 世界上第一張照片?聽起來有些像是化學實驗,但這正是被學界普遍認可的世界上第一張照片——《勒格哈的窗外景色》的誕生方式,儘管具體年份仍有爭議,但也即將度過200 歲的生日。照片的作者尼埃普斯站在自家二樓的工作室窗邊,架好鏡頭,對準庭院和遠處景色,連續曝光幾天,才在一塊拋光錫板上捕捉到這段模糊而珍貴的影像。如今將近兩個世紀過去,這張照片卻意外成了AI 的「整活素材」。AI 修復世界上第一張照片,越修越離譜腦洞大開的Reddit 網友嘗試用GPT-4o 等生成式AI 工具「復原」這張歷史影像,在網友的搗鼓下,這張老照片,迎來了它意想不到的版本。例如在這個版本中,《星際大戰》的帝國戰艦降落在尼埃普斯的家中,整個畫面瞬間穿越成了科幻片。霓虹迷霧瀰漫,綠藍紫光交織的高樓林立,中心人物身披斗篷、站在高台之上,背對鏡頭,只能說,和19 世紀的法國鄉村風景風馬牛不相及。玩梗的網友沉浸在AI 修圖藝術,已經不知天地為何物了。紅瓦屋頂統一配色、煙囪冒著蒸汽,路徑彎彎繞像糖漿流動,一下子從紀實風變成了動畫風。再看這個版本,太空船沒了、光污染也沒了,原圖開始包含左牆、右屋,以及中央斜坡結構。相較於GPT-4o,《勒格哈的窗外景色》在Flux 模型的復原中,被處理成了一座被遺棄的歷史遺址,屋頂只剩下零星紅瓦,彷彿早已被風雨和時間掏空。還好,也有神來一筆的時刻,由OpenAI o3 模型修復的畫面力,熟悉的斜屋頂、塔樓、鄉村小窗和光照角度,與最初的尼埃普斯作品勉強有些關係。看到這,你或許會認為AI 修復這張老照片,狠狠刷了一波存在感,但這股熱鬧背後,其實也有不少穿幫的細節,最典型的,便是照片中央那塊模糊的三角形高亮區域,讓AI 們集體翻車。這張照片的復原版本早在1952 年就已面世。倫敦柯達實驗室在歷史學者赫爾穆特·格恩斯海姆的指導下,用底片對原圖略作修飾並公開發佈,讓大眾第一次清晰看見照片原貌。實際上,當中那塊三角形亮斑,並不是建築結構,而是庭院地面在長時間曝光下,被陽光照射後留下的亮斑。圖像左右是莊園的建築牆面,遠處依稀可見的則是一棵樹和農田的地平線。看得出AI 很努力,但顯然不太理解這種19 世紀的拍照方式。尼埃普斯用的感光材料,是把瀝青混合薰衣草油塗在錫板上,在窗邊放上幾天(也有一種說法是8 小時),靠太陽一點點灼印出圖像。只有陽光最強的部分,才會在板上留下痕跡。從實際復原的渲染圖來看,上述大多數AI 修圖的版本都與實際建築結構相差甚遠。復原渲染圖| Paulo Quartilho1999 年,法國攝影學院Spéos 的創始人皮埃爾-伊夫·馬黑,曾租下當年尼埃普斯用作實驗室的房間,並聯合法國科研團隊進行了實地考證,還為此專門拍了一支紀錄片。有趣的是,他們發現,在19 世紀末的一次房屋翻修中,為了好騰出空間加裝煙囪和壁爐,尼埃普斯的窗戶被整體左移了大約70 釐米,馬黑團隊也從地板結構中找到了原窗的位置,並將屋內陳設完全還原到當年的狀態。此外,尼埃普斯拍下《勒格哈的窗外景色》時,他並沒有「拍底片—翻印正片」這個流程,而是把感光層直接安裝在暗箱裡,讓光線在錫板上留下一次成像。這決定了相片天生就是倒置影像,需要手動翻轉才能像我們習慣那樣正立過來。如今,尼埃普斯居住地被改造成了博物館,每年7 月到8 月開放,現在還有特定的官網可以查詢預約時間。遊客可以在尼埃普斯故居博物館中,透過窗口眺望那片熟悉又陌生的庭院景觀。AI 幻覺,正吞噬真實早在生成式AI 爆紅之前,AI 修復古畫、還原黑白照片的新聞就已經屢見不鮮。只是隨著GPT-4o、Gemini 等多模態大模型的上線,修圖這件事變得更快、更普及。當下的影像修復,底層大多基於擴散模型。其基本機制是分兩步驟:先人為往影像中加入高斯噪聲,逐步「破壞」影像結構;再在反向過程中透過學習將雜訊一步步「復原」,最終產生一張看起來「無損」的影像。在實際影像修復任務中,AI 只會對損壞區域進行取樣和重建,不修改已知區域。這種方式可以確保修復內容風格統一,且兼顧效率與品質。而有些模型,像是SPIRE 這樣的語意控制框架,則會透過提示詞把修複方向「鎖定」在使用者指定的內容上。 ControlNet 等模組負責保持模型的「語意一致性」和「修圖邊界感」,避免過度發揮。為了修得更「像」,還會引入了重採樣機制。如果AI 修出來的內容偏題、風格不符,模型會偵測到不合理,(如語意特徵不一致),會將結果「退回上一步」重新修。這個回溯跳躍長度越長,AI 就越有可能糾正自己的「幻覺」。北京理工大學與澳洲國立大學今年聯合發佈了關於GPT-4o 影像修復能力的實驗結果。研究團隊採用了一種直覺式方案:將退化影像輸入GPT-4o,提取語義特徵併疊加其「修復建議」,產生最終影像。結果卻是,好看是真的,但畫面精準度就另當別論了。GPT-4o 產生的圖片視覺衝擊力拉滿,在CLIP-IQA 等主觀指標上得分很高。但在像素級對比上卻掉了鍊子,PSNR(峰值訊號雜訊比)得分甚至低於原圖。換句話說,GPT 修得可能「更假了」。就像《勒格哈的窗外景色》,被AI 修成一張看起來合理的復原圖。你若沒留個心眼,很可能就信了。當然,AI 修錯一張照片,不稀奇;但可怕的是,修錯之後,沒人覺得有問題。倘若AI 修圖是以原圖為基礎進行補全、美化,屬於加工,那麼AI 生成圖基於文字或模糊圖像直接構造全新圖,屬於重構甚至偽造,現實中,AI 圖像替代真圖的情況已屢見不鮮。去年,Facebook 上廣為流傳著一張黑白老照片,附文寫著:「亨利福特坐在他第一輛汽車福特四輪車中,攝於1896 年。」結果對比歷史館藏,這張照片完全不對。人物長相不符,車輛設計也錯,AI 圖中的車還有方向盤、穿模的手,堪稱AI 幻覺的教科書案例。類似的還有一張號稱萊特兄弟首次動力飛行的。畫面中兩名年輕男子站在一架古董雙翼飛機前,表情神情自若。但對照歷史檔案,這也是張假照片。更深一層的擔憂在於,這一切並不容易被察覺。尤其是,生成式AI 氾濫成災的當下,人們往往不會質疑一張看起來合理的歷史照片,尤其是在它配著權威文案,被數萬人轉發、點贊之後。如同哲學家、社會學家讓·鮑德里亞所提出的「擬像」理論:擬像將會吞噬現實。現代社會中的圖像、廣告、媒體、AI 不斷製造和傳播看似真實的東西,讓人們失去對現實的判斷能力。大家開始相信圖像、相信標籤、相信故事,而不是去追問「這是真的嗎」。也因此,值得警惕的是,當我們提起世界第一張照片,引用的或許既不是原圖,而是出自某個AI 模型的「高仿」作品。甚至那時候,它修得對不對,沒人再去查證。所以說,下一次刷到百年前的人文瞬間,先別急著點贊,世界第一張照片或許還在博物館,而我們記住的那張,很有可能是AI 瞎編的。 (APPSO)
經濟學人承認,矽谷精英都在偷偷用中國AI
GPT-4這樣的頂級模型,是“專有模型”(proprietary AI models)。就是技術是保密的,你只能通過付費API來呼叫它,核心程式碼和資料你都摸不著。美國科技巨頭們正斥巨資 (spending megabucks) 投入這場競賽,試圖破解彼此的秘密。然而,在中國,戰場完全不同。史丹佛大學的AI大牛吳恩達 (Andrew Ng) 將其形容為一場“達爾文式的殊死搏鬥” (a Darwinian life-or-death struggle)。但這搏鬥,並不是發生在密不透風的實驗室裡,而是在“開源模型”的競技場上。今年一月,一家名叫“深度求索”(DeepSeek)的中國初創公司,幾乎憑藉“一己之力”撼動了全球市場。他們幹了件大事:把一個非常先進的AI模型,直接免費開放了。而且他們的研發成本極低 (developed on a shoestring),根本沒花多少錢。如今,連美國頂級的風險投資公司安德森·霍洛維茨 (Andreessen Horowitz, a16z) 的合夥人都說,現在走進他們辦公室的創業者,十有八九用的都是中國製造的AI模型。他說:“我敢說有八成可能性 (I’d say 80% chance),他們用的都是中國的開源模型。”想不到吧。矽谷的未來,竟然在悄悄地建立在中國的AI基石之上。這裡要澄清一個概念,嚴格來說,中國公司提供的不是完全的“開放原始碼軟體”(open-source software),那種是連原始碼都給你。它們提供的是“開放權重模型”(open-weight models)。簡單理解,就是AI模型訓練好之後,內部有無數個參數,這些參數就像是它學到的所有知識和能力的濃縮。中國公司把這些核心的“權重” (weights) 開放了,讓所有人都能下載、修改、部署在自己的伺服器上。這直接導致了一個驚人的結果:在各種智力測試中,今年發佈的中國開源模型,已經超越了美國的同類對手,比如社交巨頭Meta的Llama系列。而且,它們的能力正在迅速逼近 (closing in on) 那些最頂尖的專有模型。面對這種壓力,就連曾經的開源先鋒OpenAI也坐不住了。諷刺的是,它的名字裡就帶著“Open”(開放),但為了賺錢和防止技術濫用,它早就轉向了“閉門造車”的專有模型路線。最近,他們發現自己的客戶越來越多地在使用包括中國模型在內的開源方案,於是趕緊推出了一個自己的開源模型,叫gpt-oss。西雅圖艾倫人工智慧研究所的專家說得很直白:中國公司是“全身心投入”(go all-in),把他們最好的模型拿出來開源;而美國公司呢,總是把那個“閃亮的新東西” (the shiny new thing)藏起來,留作自家的專有產品。艾倫人工智慧研究所的Ali Farhadi說:“As hard as it is for us all to swallow, I think we’re behind [on open weights] now.”“儘管我們大家都不太願意承認,但我認為我們(在開源權重方面)現在已經落後了。”你可能會問,美國專有模型賺的錢、獲得的估值(OpenAI最高可達5000億美元),都遠遠超過中國的開源模型。錢可以用來投入再創新,這難道不是一個良性循環嗎?沒錯。但開源模型玩的是另一套邏輯。美國的巨頭們,正在“拓展智能的邊界” (pushing the frontiers of intelligence),他們想造出最強的“超級大腦”。而中國的開源力量,則更專注於“鼓勵AI的普及應用” (encouraging adoption of AI)。它們讓企業、政府和研究人員能夠更輕鬆地把AI技術應用到各個“犄角旮旯” (nooks and crannies) 的具體場景中。因為開源,你可以把模型部署在本地 (on premises),而不是完全依賴雲服務,這對於資料安全和定製化來說至關重要。換句話說,一條路是向上走,追求極致的高度;另一條路是向外鋪,追求極致的廣度。但《經濟學人》在文末給出了一個發人深省的結尾:如果中國的策略成功了,那麼“深度求索”帶來的衝擊波 (the DeepSeek shock),可能僅僅只是一個開始。未來的AI世界,或許不是由一個“最強大腦”一統天下,而是由無數個經過定製、深入到生活和工作方方面面的AI共同構成。如果是那樣,誰掌握了“普及”的鑰匙,誰就可能掌握了未來。 (王不留)
GPT-5波折超乎想像!奧特曼連夜回應一切:4o重新上陣,團隊緊急補救
奧特曼和OpenAI團隊回應關於GPT-5的所有問題。GPT-5發布會,大家都看了吧~感覺現在整個世界,都在討論GPT-5。網友們都吵翻了天,直播的時候跑分圖都能畫錯,這也算AGI?更有網友哭著喊著:還我GPT-4o!但另一邊呢?畫風完全不一樣,很多網友實測後表示「GPT-5強無敵」。這種又愛又恨的奇妙感覺,恰恰說明了一件事:我們對AGI,太期待了!這種讓整個AI圈都「炸鍋」的盛況,上一次或許還是ChatGPT橫空出世那會兒。2022年11月30日,ChatGPT上線,才短短不到3年,我們對GPT-5的期待已經是AGI了!這世界,因為AI,真的變得太快了。面對GPT-5發布後的所有的疑問和口誅筆伐,奧特曼,終於回應了這一切。奧特曼「回應」所有問題首先是,面對沸騰的輿論,GPT-5剛發表後的第一時間,奧特曼就表示要進行一波全面更新。我們會繼續努力保障系統穩定,並持續聽取大家的回饋。一次上線這麼多新東西,我們預料到過程會有些磕磕絆絆。但實際的波折比我們預想的還要多一些!在完成全面部署後,我們會將ChatGPT Plus用戶的GPT-5使用限額加倍。Plus使用者將可選擇繼續使用4o。我們會持續關注其使用情況,並依此決定舊版模型會保留多久。從今天起,GPT-5會感覺更聰明。 (昨天,模型的自動切換器出了故障,當機了大半天,導致GPT-5表現得笨了很多。)我們會讓你更清楚地看到,回答每一個問題的究竟是那個模型。我們會調整使用者介面,讓使用者更方便地手動觸發模型的「思考」過程。完全向所有使用者開放的過程比我們預想的要長一些。這畢竟是一次規模龐大的系統性變更。舉個例子,在過去24小時裡,我們的API流量就幾乎翻了一倍…(雖然大家嘴上罵著,但是都管不住手啊)我們確實低估了使用者會如此重視GPT-4o的某些特性,即便GPT-5在絕大多數方面都表現得更好。關於GPT-4o和GPT-5(Chat版本)的相對優劣,使用者的看法大相逕庭。這件事讓我們明白,不存在一個能滿足所有人的模型,我們需要為不同使用者提供好的個性化訂製方案。我們正在集中精力完成GPT-5的全面推送並確保系統穩定。OpenAI GPT-5團隊「回應一切」與此同時,每次發布會後的「例行公事」AMA問答環節也已完成,奧特曼和眾多高管在線答疑。太長不看版:GPT-4o回歸:Plus使用者將重新獲得4o的使用權限,支援時長取決於使用情況;是否同時提供4o/4.1與GPT-5正在研究中。考慮推出不限量模式。(以前的Plus用4.1是無限的)GPT-5將自動啟用推理能力,下次更新會讓切換更順滑,可用「think hard」強制進入推理模式。新語音模型:更快、更好地遵循指示。將支援IDE中使用第三方外掛。偏見處理較好,GPT-5 mini更有人情味。計畫讓Plus使用者無限次使用推理模型,並提升GPT-5 mini推理的使用額度。遺憾的是,由於算力成本限制,沒能實現100萬Token的上下文。AMA問答參與成員:· 奧特曼(CEO)· Sulman Choudhry(工程)· Yann Dubois(研究)· Alexander Embiricos(產品)· Tarun Gogineni(研究)· Saachi Jain(安全)· Christina Kim(研究)· Elaine YaLe(研究)· Daniel Levine(產品)· Eric Mitchell(研究)· Michelle Pokrass(研究)· Max Schwarzer(研究)問:請讓4o回歸吧。別移除不同的模型版本,大家各有所好。奧特曼:好的,我們都聽到了大家對4o的呼聲;我們會為Plus用戶重新上線4o,並會根據使用情況來決定支援它多久。問:請給我們一個選項,可以同時使用GPT-4o/4.1和GPT-5。奧特曼:我們正在研究這個問題。是必須同時擁有4o和4.1,還是只有4o就夠了?問:別忘了Plus訂閱用戶曾經有過不限量的模式。奧特曼:我們該搞一個不限量的東西!問:之前那幾張圖表是怎麼回事?看起來很有誤導性。奧特曼:圖裡的資料是精準的,但長條圖和簡報搞砸了。當初壓根就不該放那張幻燈片。我們正在整理一份更好的對比資料供大家參考。問:現在大多數人還是把ChatGPT當聊天機器人。它的用途將如何演變?Sulman Choudhry:ChatGPT正在為使用者完成越來越多具有經濟價值的工作。人與ChatGPT的互動方式,應該從「提問」逐漸轉變為更適合「做事」的模式。隨著大家學會用新的方式來使用ChatGPT,這個轉變會逐漸發生。問:ChatGPT語音功能自發布以來有什麼改進嗎?Sulman Choudhry:我們昨天上線了一個新的語音模型,它在指令遵循和響應速度上都更加出色。問:你們會直接整合類似Cursor的功能嗎?Alexander Embiricos:你試過Codex CLI嗎?這是我們的開源編碼智能體,可以在本地運行。問:GPT-4.5的寫作品質怎麼了?Tarun Gogineni:我們希望GPT-5的思考模式(thinking)能寫得更好、更有趣。問:GPT-5在處理偏見問題上有什麼不同嗎?Saachi Jain:當然!實際上我們對這方面所取得的進展感到非常興奮。 GPT-5mini會讓人感覺更有人情味,而不是那麼平淡乏味。問:為什麼這些新模型還沒有整合在一起?Christina Kim:我們希望盡快把最強的模型透過統一的體驗提供給大家。未來的版本會繼續將它們融合起來。問:感覺ChatGPT-5的個性更平淡了。Christina Kim:我們是刻意訓練GPT-5這麼做的,讓它在默認情況下表現得更中立;你仍然可以通過風格指令來引導它的表達方式。問:模型之間的切換會變快嗎?Elaine YaLe:會的! GPT-5會自動判斷是否需要啟用推理能力。在下個版本更新中,切換過程應該會更順滑。問:有沒有什麼提示詞可以強制開啟「思考」模式?Elaine YaLe:你可以在提示詞裡加上「think hard」 (認真思考),就能直接觸發推理模式。問:ChatGPT會允許在IDE裡使用第三方外掛嗎?Daniel Levine:會的,這正是我們的目標。我們希望ChatGPT能藉助外部工具幫你建構軟件。問:身為長期的Plus使用者,我能無限使用推理功能嗎?Eric Mitchell:我們正在推進一個讓Plus使用者可以無限次使用推理功能的計畫。問:你們在新套餐裡削減了推理功能的使用量。Eric Mitchell:我們正在努力讓大家能用gpt-5-mini進行更多推理!我們的目標絕不是限制大家使用推理功能。問:它的編碼能力和Opus4.1比怎麼樣?Michelle Pokrass:兩個都是非常棒的模特兒!我們不方便過度評論其他實驗室的模型,但我們認為GPT-5的思考模式(thinking)是我們發佈過的最強編碼模型。問:你們最想在GPT-5中實現、但最終沒能做到的功能是什麼?Michelle Pokrass:我們曾經非常希望在GPT-5中實現高達100萬Token的更長上下文,但部分由於算力成本的限制,目前還無法實現。為了測試GPT-5的幻覺問題,我們問了3次GPT-5「9.11和9.9那個數字更大」這個問題。3次問答,3種模式下,GPT-5都完全回答正確,沒有幻覺出現!而GPT-5、GPT-5Thinking和GPT-5Pro模式下的回答都體現了不同模型的特點,Pro模式甚至思考了接近1分鐘。參考資料:https://www.reddit.com/r/ChatGPT/comments/1mkae1l/gpt5_ama_with_openais_sam_altman_and_some_of_the/https://x.com/OpenAI/status/1953548075760595186 (新智元)
支援中文好像有點問題,變成方塊
神秘AI模型洩露:性能碾壓GPT-4!
一個沒有技術文件、沒有參數披露的匿名AI模型,竟然在EQ-Bench基準測試中擊敗了所有知名大模型!這背後究竟隱藏著什麼技術突破? 🔍技術表現分析:EQ-Bench榜首的含金量7月31日上線的"地平線阿爾法"(Horizon Alpha)在OpenRouter平台的表現堪稱驚豔。與傳統的邏輯推理測試不同,EQ-Bench專門評估AI模型在情感智能和創意寫作方面的能力——這恰恰是大語言模型最難突破的技術壁壘。更值得關注的是,該模型在標準測試和長文字生成測試中都取得了頂級成績。這表明其架構在處理不同長度文字時都能保持一致的高品質輸出,這在技術上意味著什麼?模型可能採用了全新的注意力機制設計。傳統Transformer架構在處理長文字時往往會出現性能衰減,而"地平線阿爾法"的表現暗示其可能突破了這一技術瓶頸。架構推測:可能的技術創新點從有限的性能資料中,我們可以推測幾個關鍵技術特徵:1. 混合專家系統(MoE)最佳化 :模型在創意寫作上的卓越表現,很可能採用了針對不同任務類型的專家模組。這種架構能夠在保持模型規模的同時,大幅提升特定領域的處理能力。2. 改進的位置編碼機制:長文字一致性表現暗示其可能使用了RoPE(旋轉位置編碼)的升級版本,或者全新的位置感知機制,解決了傳統模型在長序列處理中的位置資訊丟失問題。3. 多模態融合能力:雖然目前只展示了文字能力,但其在情感理解方面的突出表現,可能暗示模型具備了跨模態的情感感知能力。有趣的是,有開發者測試發現"地平線阿爾法"在數學推理任務上表現平平,這種"偏科"現像在技術上很有啟發性:專業化訓練策略 🎯與GPT-4追求全能不同,該模型可能採用了領域專精的訓練策略這種設計哲學更接近人類專家的認知模式——在特定領域深度最佳化訓練資料特化模型在創意寫作上的突出表現,暗示其訓練語料可能包含了大量高品質的文學作品、創意寫作樣本,而非傳統的網頁爬取資料。開源趨勢的技術推動力"地平線阿爾法"的出現,實際上反映了當前AI技術發展的幾個重要趨勢:1. 模型效率革命:阿里巴巴的Qwen3-Thinking採用了"分離訓練"策略,即推理模型和指令模型獨立訓練,這種方法在保證性能的同時大幅降低了計算成本。2. 超大規模參數探索 🚀:月之暗面的Kimi K2突破兆參數規模,直接挑戰了"參數越多性能越強"的技術假設,探索新的規模化路徑。3. 架構多樣化創新:歐洲Mistral AI的Devstral專門針對程式碼生成最佳化,展現了垂直領域專用模型的技術潛力。從技術角度看,"地平線阿爾法"的匿名發佈策略本身就很耐人尋味。在AI領域,技術細節的保密通常意味著:核心演算法突破:可能涉及全新的架構設計或訓練方法資料優勢:擁有獨特的高品質訓練資料集計算資源創新:在模型推理效率上實現了重大突破OpenAI內部的技術壓力也在倒逼創新。面對中國廠商在開源領域的技術攻勢,GPT-5必須在架構創新上實現質的飛躍,而不僅僅是參數規模的提升。從技術發展的角度看,你認為"地平線阿爾法"最可能採用了那種架構創新?是混合專家系統的突破,還是全新的注意力機制設計?歡迎技術大佬們在評論區分析討論,也請轉發給身邊的AI技術愛好者! 💡 (澤問科技)
比GPT-4更懂數學?中國首個形式數學推理大模型發佈,DeepSeek-Prover-V2攻破高階數學推理壁壘
在 LLM 能力迅猛擴展的今天,語言模型在對話、程式碼、文字生成中已展現出驚人的表現。然而,“能說”並不等於“能證”。尤其在數學這個對邏輯鏈條嚴絲合縫要求極高的領域,AI 是否具備真正的“思考能力”,依然是未解之問。近日,DeepSeek 團隊發佈了其全新模型 DeepSeek-Prover-V2,向這個問題給出了一個具有里程碑意義的答案。這是一款專門為 形式化數學證明(Formal Theorem Proving)而設計的大模型,支援 Lean 4 系統的嚴謹語法,借助 DeepSeek-V3 強大的自然語言推理能力,實現了“自然語言 + 形式證明”的聯動,首次在複雜推理任務中達到了接近人類解題者的水平。圖源:Deepseek01 為什麼數學難?一場關於AI 數學家的冷啟動實驗傳統的大模型在處理數學問題時面臨兩個困境:自然語言理解不等於嚴謹推理:大模型雖擅長語言生成,但在嚴格定義、公理體系下的形式推導上常常出錯。資料稀缺:真實的數學證明語料非常稀缺,尤其是 Lean 4 這種形式語言的資料難以收集。生成式 AI 的最大瓶頸之一,不再是畫得好不好,而是畫得對不對。這背後,本質是 AI 圖像生成模型“缺乏空間理解能力”,無法基於使用者意圖精準地構圖和佈局。圖源:Novita形式化數學與語言模型的鴻溝為什麼數學難?數學問題的難點不在於知識本身,而在於它對邏輯的嚴謹性提出了極高要求。傳統大模型可以“模糊應答”,但在 Lean 等形式化語言系統中,每一步推理都必須滿足:明確的前提;完整的中間演繹;可復現、可驗證的形式語法。換句話說,僅靠語言建模能力,並不能實現有效的自動數學證明。02 創新路徑從子目標分解到強化學習的全流程範式DeepSeek-Prover-V2 的成功,歸功於其極具創新性的技術架構,引入了 “子目標分解 + 強化學習” 的新範式,整體流程如下:1)冷啟動資料建構:融合自然語言與形式邏輯目標:建構可用於訓練的高品質推理樣本首先利用 DeepSeek-V3 提出 子目標分解(Subgoal Decomposition),將複雜定理拆解為多個易於處理的推理單元;同時生成每一步推理的自然語言解釋(Chain-of-Thought);利用 Lean 4 語言形式化這些推理過程,確保每一步可驗證、可執行;通過呼叫 7B 較小模型完成子目標的自動形式證明,建構成完整“非形式 + 形式”資料對,組成冷啟動訓練集。這一階段最大貢獻是:首次系統性地建構出語言-邏輯對應的高品質數學資料集。最終,整個流程構成了一條新穎的“遞迴式數學證明生成管線”,既保留了大模型的推理靈活性,又建構了形式語言的邏輯嚴謹性。圖源:Deepseek2)強化學習階段:從“能模仿”走向“能思考”目標:最佳化模型的綜合推理能力,提升生成證明的完整性在建構完冷啟動資料後,DeepSeek-Prover-V2 進入第二階段:強化學習訓練。這一階段的關鍵在於:對於一類“整體難以一次證明,但子目標均已解決”的問題,通過拼接所有子目標的證明,生成原問題的完整證明;將完整證明過程與 DeepSeek-V3 的推理鏈(即“人類思路”)相結合,作為訓練樣本;採用二分類獎勵機制(正確 vs 錯誤)進行強化學習微調,逐步提高模型解決“推理盲點”的能力。最終產出的DeepSeek-Prover-V2-671B同時具備語言理解能力和形式推理能力。👉快速嘗試示例:圖源:Deepseek03 模型性能性能要求不低,但本地運行無壓力在數學推理最具代表性的兩個測試集上,DeepSeek-Prover-V2 交出了亮眼答卷:PutnamBench 是從美國著名數學競賽 Putnam Exam 中抽取的高難度題目,代表著大學數學的上限挑戰。能解決其中的近 50 題,標誌著模型已具備攻克非套路性數學難題的能力。此外,模型還在高階數學科目上展現了跨學科遷移能力,包括抽象代數、泛函分析、實變函數、機率論等。ProverBench:首個“競賽 + 教材”雙源 Lean 評測集為更系統地評估模型的泛化能力,團隊還同步發佈了 ProverBench 資料集,包含 325 道數學題目,覆蓋高中競賽與本科課程:AIME 24&25:真實中學生數學競賽題;教材/教學題:涵蓋代數、微積分、數論、分析等核心科目。這標誌著 Lean 語言首次擁有兼具教學性與挑戰性的公開測試集,為下一階段的AI 數學能力排名打下基礎。開放生態:模型、資料與 API 全部開放支援最長 32K 上下文輸入,適用於多步鏈式推理任務;可直接呼叫 Huggingface 介面進行推理,也可通過 OpenRouter 實現 API 快速接入。此外,模型所用程式碼全部開源,適合二次研究與跨場景遷移(如程式碼形式驗證、合約安全等)。04 寫在最後從數學到自動程式設計的通路是否已開啟?DeepSeek-Prover-V2 的發佈,揭示出一種 未來 AI 推理的新範式:自然語言 → 子目標結構化 → 形式語言驗證;結合強化學習,實現“AI 自主建構邏輯世界”。這意味著,在教育領域,它可用於打造新一代 AI 數學助教;在科研領域,它為複雜定理驗證提供自動化工具;在工程實踐中,它的框架可遷移至自動程式設計、合約驗證等高邏輯場景。潛在應用包括:🎓 教育:AI 數學助教、作業自動批改;🧮 科研:複雜定理的形式驗證、證明輔助;🧑‍💻 工業:程式碼正確性驗證、形式合約系統建模;🧠 認知建模:研究人類如何構造推理鏈條與分解問題。DeepSeek-Prover-V2 是中國團隊在基礎模型領域的一次重大突破,也是對“AI 是否能真正理解數學”的有力回應。在大模型“模仿語言”的時代逐漸過渡到“建構邏輯”的新紀元,DeepSeek 給出的答案,是用推理和形式語言架起橋樑。 (Frank的神經網路)
GPT-4o 生圖超全玩法彙總!直接抄作業就能驚豔朋友圈|附30+寶藏AI提示詞&教學
GPT-4o 生圖火了,提示詞也跟著捲起來了。你以為朋友圈好看的AI 圖片需要複雜的Prompt(提示詞),其實不然,有時候,三言兩語說出你的需求,就能激發出AI 驚人的創造力。我們從全網蒐羅了30+ 個GPT-4o 的實測提示詞(來源看標註):有的可以一鍵生成CCD 風iPhone 自拍,有的能把emoji 變成毛絨玩具,還有讓你穿越進《泰坦尼克號》的Q 版傳送門。這些提示詞有個共同特點:簡單、直接、好上手,就算你從沒研究過Prompt,也能一鍵抄作業,玩出超出預期的效果。超現實/創意風格微型立體場景作者:@doteyPrompt:微型立體場景呈現,運用移軸攝影的技法,呈現出Q 版「孫悟空三打白骨精」場景🔗 https://x.com/dotey/status/1911609122547449886雲彩形態捕捉筆者:@umesh_aiPrompt:一張照片捕捉到白天的景象,天空中零散的雲朵形成了一個[主體/物體]的形狀,位於一個[地點]上方。🔗 https://x.com/umesh\_ai/status/1913628737872027805毛絨立體emoji作者:@doteyPrompt:將一個簡單平面的向量圖示[想產生的 emoji ] 轉化為柔軟、立體、毛茸茸的可愛物體。整體造型被濃密的毛髮完全覆蓋,毛髮質感極其真實,帶有柔和的陰影。物體居中懸浮於乾淨的淺灰色背景中,輕盈漂浮。整體風格超現實,富有觸感和現代感,帶來舒適和俏皮的視覺感受。採用攝影棚級燈光,高解析度渲染,比例為1:1。🔗 https://x.com/gizakdag/status/1911075302941622512充氣玩具emoji作者:@gizakdagPrompt:Create a high-resolution 3D render of [想生成的emoji] designed as an inflatable, puffy object. The shape should appear soft, rounded, and air-filled — like a plush balloon or blow-up toy. Use a soo​​kure le tle blow-up lek s s​​psm. to emphasize the inflatable look. The form should be slightly irregular and squishy, with gentle shadows and soft lighting that highlight volume and realism. Place it on a clean, minimal background (light gray🔗 https://x.com/gizakdag/status/1912858535643197927隨拍iPhone 自拍作者:@jiamimaodashuPrompt:請畫一張極度平凡無奇的iPhone 自拍照,沒有明確的主體或構圖感,就像是隨手一拍的快照。照片略帶運動模糊,陽光或店內燈光不均導致輕微曝光過度。角度尷尬、構圖混亂,整體呈現出一種刻意的平庸感-就像是從口袋裡拿手機時不小心拍到的一張自拍照。主角是「人物」,晚上,旁邊是「地方」。角色傳送門場景作者:@dotey1️⃣ 上傳參考圖2️⃣ Prompt:照片中的角色的3D Q 版形象穿過傳送門,牽著觀眾的手,在將觀眾拉向前時動態地回頭一看。傳送門外的背景是觀眾的現實世界,一個典型的程式設計師的書房,有書桌,顯示器和筆記本電腦,傳送門內是角色所處的3D Q 版世界,細節可以參考照片,整體呈藍色調,和現實世界形成鮮明對比。傳送門散發著神秘的藍色和紫色色調,是兩個世界之間的完美橢圓形框架處在畫面中間。從第三人稱視角拍攝的攝影機角度,顯示觀看者的手被拉入角色世界。3:2 的寬高比。🔗 https://x.com/dotey/status/1908910838636765204氣球造型藝術作者:@ZHO_ZHO_ZHOPrompt:變成玩偶形狀的氦氣球🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1910976632141267237職業OOTD 系列作者:@ZHO_ZHO_ZHO1️⃣ 上傳參考圖2️⃣ Prompt:為圖片人物生成不同職業風的OOTD,時尚穿搭和配飾,和人物色系一致的純色背景,Q版3d,c4d渲染,保持人臉特徵,姿勢都要保持一致,人物的比例腿很修長構圖:4:3 豎幅,頂部文字:OOTD,左側為人物ootd q 版形象,右側為穿搭的單件展示🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1909892294217781714立體相框作者:@doteyPrompt:將場景中的角色轉化為3D Q 版風格,放在一張拍立得照片上,相紙被一隻手拿著,照片中的角色正從拍立得照片中走出,呈現出突破二維相片邊框、進入二維現實空間的視覺效果。🔗 https://x.com/dotey/status/1908238003169903060重現《泰坦尼克號》作者:@balconychy1️⃣ 上傳參考圖2️⃣ Prompt:將附圖中的人物轉換成可愛Q 版3D 造型場景:在豪華遊輪最頂尖的船頭,船頭是尖的。男士帶著女士站在泰坦尼克號船頭,男士雙手摟著女士的腰,女士雙臂伸展穿著連衣裙,迎著風,臉上洋溢著自由與暢快。此時天色呈現出黃昏的暖色調,大海在船下延展。除了人物用Q 版3D 造型以外,其他環境都是實物。🔗 https://x.com/balconychy/status/1909916265067557299國風牆壁圖作者:@91380936539Prompt:街頭高大中式城牆壁畫上畫著一個國風美女穿著藍色漢服,戴耳墜,長頭髮,頭上帶了髮簪,一隻手伸出剛好接住掉落花瓣,圍牆外面長著一棵高大茂盛的大樹,整棵大樹長滿藍色花朵,樹冠長到花上並向下垂,下垂,下垂花層覆蓋著頭髮,女人頭髮大量繁密,女人頭髮構成麻布花,花朵從牆頂傾瀉而下,彷彿給女人戴上了一頂絢麗的花帽子。背景藍天白雲,地面是瀝青路,路上鋪滿了掉落的藍色花瓣,路上有行人走過超高畫質畫質,細節逼真,高畫質攝影,畫面真實3D 風格遊戲角色現實場景作者:@ZHO_ZHO_ZHOPrompt:超寫實的3D 渲染畫面,重現了2008 年《命令與征服:紅色警戒3》中娜塔莎的角色設計,完全依照原版建模。場景設定在一個昏暗雜亂的2008 年代臥室裡,角色正坐在地毯上,面對一台正在播放《命令與征服:紅色警戒3》的老式電視和遊戲機手把。整個房間充滿了2008 年代的懷舊氛圍:零食包裝袋、汽水罐、海報以及糾纏在一起的電線。娜塔莎·沃爾科娃在畫面中被抓拍到轉頭的一瞬,回眸看向鏡頭,她那標誌性的空靈美麗面容上帶著一抹純真的微笑。她的上半身微微扭轉,動態自然,彷彿剛剛被閃光燈驚到而做出的反應。閃光燈輕微地過曝了她的臉和衣服,使她的輪廓在昏暗的房間中更加突出。整張照片顯得原始而自然,強烈的明暗對比在她身後投下深邃的陰影,畫面充滿觸感,帶有一種真實的2008 年膠片快照的模擬質感。 」🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1913648013144137840照片轉3D Q 版作者:@dotey1️⃣ 上傳一張參考圖片。2️⃣ Prompt:將場景中的角色轉化為3D Q版風格,同時保持原本的場景佈置和服裝造型不變。🔗 https://x.com/dotey/status/1908194518345678865極簡產品渲染作者:@doteyPrompt:畫一部iPhone:🎨 視覺元素(Visual Elements)🟢 造型語言(Shape Language)圓潤的邊緣、平滑柔和的外形,採用簡化幾何造型。🎨 色彩(Colors)主色調:柔和米色、淺灰色、暖橙色。強調色:暖橙色用於焦點元素。明暗處理:柔和漸變,平滑過渡,避免強烈的陰影和高光。💡 光照(Lighting)類型:柔和、漫反射光照。光源方向:上方稍偏右。陰影風格:微妙且漫射,無銳利或高對比度的陰影。🧱 材質(Materials)表面紋理:啞光、平滑的表面,帶有微妙的明暗變化。反射性:低或無,避免明顯的光澤。🖼️ 構圖(Composition)對象呈現:單一、居中的物體,周圍留大量負空間。視角:輕微傾斜視角,呈現適度的三維感,但無明顯的景深效果。背景:純色、低飽和度,與主體協調且不干擾視線。✒️ 字排版(Typography)字型風格:極簡、無襯線字型。文字位置:左下角,尺寸小巧且不突出。字型顏色:灰色,與背景形成低對比度。🖥️ 渲染風格(Rendering Style)技術手法:3D渲染,採用簡化的低多邊形風格。細節程度:中等細節,以形狀和色彩為主,避免複雜紋理和細節。🎯 風格目標(Purpose)建立乾淨、美觀的視覺效果,強調簡潔、親和力和現代感。🔗 https://x.com/dotey/status/1907131027253772399人物水晶球作者:@balconychy首先上傳一張照片Prompt:將附圖中的人物轉換成水晶球場景。整體環境:水晶球放在窗戶旁桌面上,背景模糊,暖色調。陽光透過球體,灑下點點金光,照亮了周圍的黑暗。水晶球內部:人物是可愛Q 版3D 造型,彼此間滿眼的愛意。🔗 https://x.com/balconychy/status/1909908568129655248體素風格圖示作者:@BrettFromDJ @ZHO_ZHO_ZHO產生步驟:1️⃣ 以作者的圖作為參考2️⃣ 上傳照片/描述物體/用emoji3️⃣ 將圖片/描述轉換為參考圖一樣的體素3D 圖標,Octane 渲染,8k🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1910671581962985788低多邊形幾何渲染作者:@azed_aiPrompt:一個[想產生的物件] 的低多邊形3D 渲染圖,由乾淨的三角形面構成,具有平坦的[想生成的顏色] 和[想生成的顏色] 表面。環境是一個風格化的數字沙漠,具有極簡的幾何形狀和環境光遮蔽效果。🔗 https://x.com/azed\_ai/status/1912084257918595342迷你建築場景作者:@doteyPrompt:3D Q 版迷你風格,充滿奇趣的迷你星巴克咖啡館,外觀就像一個巨大的外帶咖啡杯,還有蓋子和吸管。建築共兩層,大大的玻璃窗清晰地展示出內部溫馨而精緻的設計:木質的家具、溫暖的燈光以及忙碌的咖啡師們。街上有可愛的小人仔漫步或坐著,四周佈置著長凳、街燈和植物盆栽,營造出迷人的城市一角。整體採用城市微縮景觀風格,細節豐富、逼真,畫面光線柔和、呈現出午後愜意的感受。🔗 https://x.com/dotey/status/1913759515700285569螢幕穿越效果作者:@madpencil_Prompt:這是一幅「Trompe l'oeil」(障眼法)錯覺畫面,畫中A(主角)穿著(服飾),彷彿從一個巨大的螢幕中走出來。螢幕上展示的是xyz 社群媒體介面,使用者名稱為「@」,顯示有1K 點讚和12 到20 條評論,周圍還漂浮著愛心眼和笑臉等表情符號。背景可以根據你的喜好進行設定。🔗 https://x.com/madpencil\_/status/1915099250079469907動漫/Q 版風格求婚場景Q 版化作者:@balconychyPrompt:將照片裡的兩個人轉換成Q 版3D 人物,場景換成求婚,背景換成淡雅五彩花瓣做的拱門,背景換成浪漫顏色,地上散落著玫瑰花瓣。除了人物採用Q 版3D 人物風格,其他環境採用真實寫實風格。🔗 https://x.com/balconychy/status/1909417750587486469中式婚禮Q 版化作者:@balconychy1️⃣ 上傳一張情侶照片2️⃣ 輸入Prompt:將照片裡的兩個人轉換成Q 版3D 人物,中式古裝婚禮,大紅色顏色,背景「囍」字剪紙風格圖案。服飾要求:寫實,男士身著長袍馬褂,主體為紅色,上面以金色繡龍紋圖案,彰顯尊貴大氣,胸前繫著大紅花,寓意喜慶吉祥。女士所穿是秀禾服,同樣以紅色為基調,飾有精美的金色花紋與鳳凰刺繡,展現出典雅華麗之感,頭上搭配花朵髮飾,增添柔美溫婉氣質。二者皆為中式婚禮中經典著裝,蘊含著對新人婚姻美滿的祝福。頭飾需求:男士:中式狀元帽,主體紅色,飾有金色紋樣,帽頂有精緻金飾,盡顯傳統儒雅莊重。女士:鳳冠造型,以紅色花朵為中心,搭配金色立體裝飾與垂墜流蘇,華麗富貴,古典韻味十足。🔗 https://x.com/balconychy/status/1909418699150237917婚禮全家福作者:@balconychy1️⃣ 上傳參考圖2️⃣ Prompt:將照片裡的轉換成Q 版3D 人物,父母婚禮服飾,孩子是美麗的花童。父母,西式婚禮服飾,父親禮服,母親結婚。孩子手捧鮮花。背景是五彩鮮花做的拱門。除了人物是3D Q 版,環境其他都是寫實。整體放在一個相框裡。🔗 https://x.com/balconychy/status/1909426314643222595多姿勢表情Q 版貼紙作者:@dotey1️⃣ 上傳參考照片2️⃣ Prompt:創作一套全新的chibi sticker,共六個獨特姿勢,以使用者形象為主角:1. 雙手比出剪刀手,俏皮地眨眼;2. 淚眼汪汪、嘴唇微微顫動,呈現可愛哭泣的表情;3. 張開雙臂,做出熱情的大大擁抱姿勢;4. 側臥入睡,靠著迷你枕頭,帶著甜甜的微笑;5. 自信滿滿地向前方伸手指,周圍點綴閃亮特效;6. 手勢飛吻,周圍飄散出愛心表情。保留chibi 美學風格:誇張有神的大眼睛、柔和的面部線條、活潑俏皮的短款黑色髮型、配以大膽領口設計的白色服飾,背景使用充滿活力的紅色,並搭配星星或彩色紙屑元素進行裝飾。周邊適當留白。Aspect ratio: 9:16🔗 https://x.com/dotey/status/1909800530739679488Q 版俄羅斯娃娃作者:@ZHO_ZHO_ZHO1️⃣ 上傳參考圖2️⃣ Prompt:把圖片人物生成變成Q 版可愛俄羅斯娃娃🪆,大到小一共五個,放在精緻的木桌上,橫幅3:4 比例🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1911669883315818497Q 版鑰匙扣特寫作者:@azed_ai1️⃣ 上傳參考圖2️⃣ Prompt:一張特寫照片,展示了一個人手中拿著一個可愛、色彩鮮豔的鑰匙扣。鑰匙扣是根據[參考圖片]製作的Q版風格形象,採用柔軟的橡膠材質,輪廓使用了醒目的黑色描邊,並連接著一個小巧的銀色鑰匙圈。背景為中性色調,使鑰匙扣的細節更加突出。🔗 https://x.com/azed\_ai/status/1916521742052503804吉卜力風格轉換1️⃣ 上傳參考圖2️⃣ Prompt:圖片改為吉卜力風格動漫手辦展示作者:@dotey1️⃣ 上傳參考圖2️⃣ Prompt:把照片中的人物變成《海賊王》(One Piece)動漫主題手辦包裝盒的風格,以等距視角(isometric)呈現。包裝盒內展示的是基於照片人物的《海賊王》動漫畫風設計的形象,旁邊搭配有日常必備物品(蘋果筆記本電腦,手機,眼鏡,帽子,咖啡)同時,在包裝盒旁邊還應呈現該手辦本體的實物效果,採用逼真的、具有真實感的渲染風格。🔗 https://x.com/dotey/status/1909047547563213145數字寶貝搭配作者:@ZHO_ZHO_ZHO1️⃣ 上傳參考圖2️⃣ Prompt:為我產生一張數字寶貝風格的圖片,並為我配對一隻數字寶貝RPG 角色屬性卡作者:@berryxia_aiPrompt:製作一張RPG 收藏風格的數字角色卡。主角是一位[職業或角色],自信地站立,身邊配有與其工作相關的工具或像徵物。整體採用3D 卡通風格渲染,搭配柔和的光照,展現鮮明的個性。卡片中包含技能條或屬性數值,例如:[技能1 +x]、[技能2 +x]。 在卡片頂部加入標題橫幅,底部設定姓名牌。卡片邊框設計為乾淨俐落的線條,類似真實的角色模型包裝盒。背景應貼合該職業的主題風格,配色以溫暖高光和與職業匹配的色調為主。🔗 https://x.com/berryxia\_ai/status/1911334680437411849平面設計風格諷刺主題海報作者:@ZHO_ZHO_ZHOPrompt:為我產生諷刺海報:「想生成的話」🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1905287637084274742四格主題漫畫作者:@doteyPrompt:make a colorful page of manga describing the theory of relativity. add some humor🔗 https://x.com/dotey/status/1904980568107819060Prompt:Can you create a PS2 video game case of "Grand Theft Auto: Far Far Away" a GTA based in the Shrek Universe.🔗 https://x.com/dotey/status/1904978767090524372簡筆劃表情系列作者:@ZHO_ZHO_ZHO1️⃣ 上傳參考圖2️⃣ Prompt:先把圖片人物變成手繪簡筆畫風格然後把簡筆畫按照吐舌頭、微笑、皺眉、驚訝、思考、眨眼生成一系列表情包🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1909907741948399873/photo/1動漫主題貼紙集作者:@richardchangPrompt:動漫名稱+stickers🔗 https://x.com/richardchang/status/1909086122959139312/photo/2手繪資訊圖卡片作者:@doteyPrompt:創作一張手繪風格的資訊圖卡片,比例為9:16 豎版。卡片主題鮮明,背景為帶有紙質肌理的米色或米白色,整體設計體現質樸、親切的手繪美感。卡片上方以紅黑相間、對比鮮明的大號毛筆草書字型突出標題,吸引視覺焦點。文字內容均採用中文草書,整體佈局分為2 至4 個清晰的小節,每節以簡短、精煉的中文短語表達核心要點。字型保持草書流暢的韻律感,既清晰可讀又富有藝術氣息。周邊適當留白。卡片中點綴簡單、有趣的手繪插畫或圖標,例如人物或像徵符號,以增強視覺吸引力,引發讀者思考與共鳴。整體佈局注意視覺平衡,預留足夠的空白空間,確保畫面簡潔明了,易於閱讀和理解。「想生成的話」🔗 https://x.com/dotey/status/1907870919852179850復古廣告海報作者:@doteyPrompt:復古宣傳海報風格,突顯中文文字,背景為紅黃放射狀圖案。畫面中心位置有一位美麗的年輕女性,以精緻復古風格繪製,面帶微笑,氣質優雅,具有親和力。主題是GPT最新AI繪畫服務的廣告促銷,強調「驚爆價9.9/張」、「適用各種場景、圖像融合、局部重繪」、「每張提交3 次修改」、「AI 直出效果,無需修改」,底部醒目標註「有意向點右下『我想要』」,繪製一個手指下方顯示按鈕動作,左下角展示按鈕。🔗 https://x.com/dotey/status/1905251524248248650扁平化Q 版貼紙作者:@ZHO_ZHO_ZHO @dotey1️⃣ 上傳參考圖2️⃣ Prompt:把這張照片設計成一個極簡扁平插畫風格的Q 版貼紙,厚白邊,保留人物特徵,風格要可愛一些,人物要超出圓形區域邊框,圓形區域要為純色不要3d 感,透明背景🔗 https://x.com/ZHO\_ZHO\_ZHO/status/1908044836953108490紙藝招聘廣告作者:@doteyPrompt:The image shows professional drivers of cars and trucks at work, impressive urban and rural speeds, a positive team environment and modern visuals of the fleet - all this advertises a vacancy for driversion to comancy toet, all this. institutions: "Apply today - we will start tomorrow!"🔗 https://x.com/dotey/status/1905021792642564406時尚雜誌封面作者:@doteyPrompt:一位美麗的女子身穿粉紅色旗袍,頭戴精緻的花飾,秀髮中點綴著色彩繽紛的花朵,頸間裝飾著優雅的白色蕾絲領子。她的一隻手輕托著幾隻大型蝴蝶。整體拍攝風格呈現高畫質細部質感,類似時尚雜誌封面設計,照片上方中央位置標示文字「FASHION DESIGN」。畫面背景採用簡約的純淺灰色,以突顯人物主體。🔗 https://x.com/dotey/status/1912536019905233194請相信,你的想像力就是最好的提示詞。別被覆雜的術語和格式勸退,打開聊天框,把你腦海中那個畫面、那個瞬間、那種氛圍說出來,AI 就有可能把它變成圖像,說不定,下一張刷屏全網的神圖,就誕生在你的三言兩語之間。最後,也想說一句:本文所展示的這些提示詞,並非憑空而來,而是網友在一次次試錯、分享中總結出來的寶貴經驗。他們願意把自己的Prompt 毫無保留地公開,就是為了讓更多人輕鬆上手、自由創作。向這些提示詞的貢獻者致敬,也歡迎你加入他們的行列。 (APPSO)