#P圖
深扒GPT Image 2:疑似“吞”下了GPT-4o,OpenAI沒把它當“生圖”模型訓練
GPT Image 2 憑什麼這麼強?是擴散模型又迭代了一版?是把 DiT 的參數量從 7B 擴到 20B?是訓了更多高品質資料?這些答案都對,但都不夠。以下是我們與多位從業者交流後,提煉出的幾個值得關注的技術方向,並嘗試做出更清晰的解釋。先給結論:OpenAI 很可能已經不在“純擴散模型”這條主賽道上了。他們已經把圖像生成從“美術課”調到了“語文課”——用一個能讀懂指令、能記住上下文、能理解物體關係的 LLM 主導語義規劃,至於最後一步的像素生成,可能由擴散元件或其他解碼器完成。而這個LLM,極大可能是GPT-4o。支撐這個推論的,首先是兩條直接線索。1. 模型自述2. C2PA溯源驗證C2PA 是一種內容溯源標準,相當於給每張 AI 生成的圖打上一個數字身份證。任何人拿到這張圖,都能查到它是由 GPT Image 2 生成的、生成時間是什麼、經過了那些修改。有專業人士在metadata2go.com上對image 2生成的圖片進行中繼資料提取。發現在actions_software_agent_name一欄上記錄著GPT-4o。這也能理解為什麼這次image 2的表現驚人了。圖片源於: 【深入調查:OAI最新圖像模型底層是GPT-4o - 祈星函 | 小紅書 - 你的生活興趣社區】 https://www.xiaohongshu.com/discovery/item/69ea80200000000020003800?source=webshare&xhsshare=pc_web&xsec_token=CB9e0Yo8HLTCLA1XJWh0wUnT3SogJv370RfNnvUD6YFVY=&xsec_source=pc_share單憑這兩條當然不足以拆解全部秘密。但當我們帶著“LLM 主導”的假定回頭審視它的每一項能力躍遷時,這些變化,忽然有了統一的解釋。一、圖像語義,從像素到token1.1過去兩年,AI 生圖領域有一條不成文的鄙視鏈:Midjourney 負責美學,Stable Diffusion 負責可控性,DALL·E 負責……嗯,負責被 OpenAI 發佈。但不管你站那一隊,有一件事是所有人的共識——文字是 AI 的鬼門關。你能讓 AI 畫出逆光下緬因貓毛髮的半透明質感,卻無法讓它寫對招牌上的“Coffee”六個字母。一個能理解頂級光影描述的模型,在文字上給出的結果彷彿楔形文字。這件事的荒誕與根源,就藏在擴散模型的工作原理裡。先說擴散模型為什麼寫不好字?因為它的核心是一個從噪聲中還原圖像的“雕塑家”:訓練時,向清晰照片逐步撒噪聲,直到變成純電視雪花,模型學習逆向去噪。生成時,從一片隨機噪聲開始,每步都靠 U-Net 預測並擦除噪聲,幾十步迭代後“雕”出毛髮、虹膜和光影。這個過程本質上在還原連續的、可以用機率無限逼近的紋理。毛髮可以稍微硬一點或軟一點,顏色可以偏暖 5%,無傷大雅。但文字是離散符號,不存在“像不像”,只有“是不是”。字母 A 就是 A,你不能給它加 15% 的 B 和 8% 的 C 還指望它依然是 A。擴散模型的每一步去噪都是一個微小“估計”,用在紋理上是風格,用在文字上就是 O 變 0,或是拼出 WElcOm e。最終就成了外行眼中的“楔形文字”。不僅如此,擴散模型天然缺乏跨輪編輯的穩定一致性。你讓它改一個局部,它本質上是整張圖重新畫一遍,沒改動的地方也會悄悄漂移。但GPT Image 2現在不僅能“寫對字”,還能保持“有記憶”的一致性例如:你修改一個字之後,周圍的文字會自動調整間距;當你把“咖啡”改成“紅茶”,它不只是替換那個詞,而是連帶把杯子的顏色從深棕調成了琥珀色。這說明文字在它的系統裡不是圖層標註,而是畫面語義的一部分。文字內容的改動會像語言中的主語替換一樣,連鎖驅動畫面其他元素的合理變化。GPT Image 2 與其他模型對比圖1.2它不再把圖像當圖像看,而是把圖像當語言看。這聽起來像玄學,但其實是個很具體的工程選擇。要理解這件事,得先搞明白一個概念:Tokenizer。Tokenizer 的作用是把一種東西“翻譯”成另一種東西。GPT 處理文字前,會先把“你好”這個詞切碎編號,變成一個數字 ID,比如 [11892]。這是文字 token 化。圖像能不能也這麼幹?當然能。你把一張圖切成 16×16 的網格,每個格子編個號,也是一種 token 化。但這種做法太笨重——一張 1024×1024 的圖會變成幾千個 token,LLM 還沒開始畫就先被淹死了。所以過去兩年,各家大模型公司在拼一件事:怎麼把一張圖壓成儘量少的 token,同時還不丟關鍵資訊。這事有多難呢?想像你是一個情報員,要把《蒙娜麗莎》用一封電報發出去。電報局規定你最多隻能發 256 個字。你怎麼辦?你不能說“一個女人在笑”,因為對方畫不出來;你也不能逐個像素描述,因為字數不夠。你必鬚髮明一套只有你和對方懂的密語——“52號微笑、3號背景、17號手勢”——對方收到後能八九不離十地還原出來。這就是 OpenAI 在 tokenizer 上干的 事。從 CLIP 到 DALL·E 再到 GPT-4o,他們逐漸建構了一種能夠在視覺與語言之間進行對應的語義表示體系。這意味著:圖像和文字被投影到了同一個對齊後的語義 embedding 空間。現在在 LLM 眼裡,“一隻逆光的緬因貓”這行字,和一張逆光緬因貓的照片,是同一個語義空間裡的兩套坐標。它能像理解文字一樣理解圖像,也能像生成文字一樣生成圖像。所以當你說“把第三行公司名改成團夥名”,它不是在修圖軟體裡找那個圖層,而是在改寫一段描述這個畫面的密文。改完後,解碼器再把密文翻譯回像素。這就是為什麼文字突然能寫對了。因為對 LLM 來說,寫一個W和寫一個我,沒有任何本質區別——都是它在密語系統裡調整幾個 token 的事。1.3既然 GPT Image 2 很可能把圖像變成了語義密文,那這串密文怎麼變回一張能看的圖?如果直接把 token 對應成像素,畫質必然一塌糊塗,這是自回歸模型的通病:它極度擅長決定畫什麼,卻不太擅長畫得好看——就像建築系教授徒手畫效果圖,空間關係全對,筆觸就是不及美院學生。而擴散模型正好相反,紋理光影以假亂真,卻經常不知道自己在畫啥。因此,一個高度自洽的推測浮現:讓兩款模型打配合。自回歸負責定調:根據你的 prompt 生成那幾百個語義 token,敲定畫面裡有什麼、它們的位置關係、整體構圖邏輯。這一步決定了“聽得懂”,也保證了多輪編輯時對修改對象的記憶與一致性。擴散負責潤色:拿到這串語義 token 後,不再負責理解內容,只負責填充高保真像素,把既定框架變成光影自然的成圖。這一步決定了“畫得好”。這不是理論空想。Google 發過一篇叫 Transfusion 的論文,Meta 搞過 Chameleon,走的都是類似路線。當然,這一切都是基於公開資訊和模型表現的推斷。OpenAI 有沒有在用?2026 年 4 月的媒體會上,OpenAI 拒絕回答任何關於模型架構的問題。拒絕本身就是一個訊號。如果這個假設成立,那就解釋了一切——文字寫對是因為自回歸天然懂離散符號;多輪編輯一致是因為自回歸記住了那一串 token;畫質沒崩是因為擴散在最後一關做了精細渲染。二、資料飛輪,GPT-4o 自己教自己生圖2.1但上文那個能把圖像壓成幾百個 token 的“密語系統”,到底是怎麼訓出來的?為什麼不是別的模型,偏偏是GPT-4o?答案藏在一件看起來最沒有技術含量的事裡:資料標註。在 AI 圈,資料標註長期處於鄙視鏈底端。研究員聊架構可以聊一晚上,聊資料標註三句話就冷場。但 GPT Image 2 這次的表現,甚至表明OpenAI 可能已經不需要人工標註了。而GPT-4o 本身就是全世界最強的圖像理解模型之一。你給它一張圖,它能寫出一段比真人標註師還細膩的描述。所以OpenAI 可以把過去幾年積累的幾十億張圖片,重新“過一遍水”——用 GPT-4o 生成新的、高維度的標註。但到這裡,只解決了“描述”的問題,沒解決“篩選”的問題。一個模型生成一百張圖,並不是每一張都值得拿來當下一輪訓練的教材。這裡需要一套嚴格的“質檢”機制——在機器學習裡,這叫拒絕採樣。具體來說就是,GPT-4o 先根據一段 prompt 生成一批圖像,然後根據美學偏好、指令匹配度、物理合理性等多條標準,逐張打分。批到符合條件的才“收下”,連同它為自己撰寫的詳細解析,一起塞進下一輪訓練集。批到不及格的就直接扔掉。這保證飛輪裡的資料不是在低水平循環,而是在有選擇地自我提純。上一代模型給下一代模型當老師,下一代模型再給下下代當老師。每轉一圈,對世界的理解就深一層。大家的差距也在這個過程中越來越大。這也解釋了為什麼Midjourney在畫質上能和OpenAI掰手腕,但在指令遵循和文字渲染上被拉開代差。當然,聽上去像個永動機騙局——自己教自己,那不得越教越傻?學術界確實有這個擔憂,管它叫模型崩潰:模型反覆吃自己吐出來的東西,會逐漸丟失分佈的尾部資訊,生成結果越來越單一、越來越平庸。但OpenAI在文字側已經證明:只要老師模型足夠強,並且配合拒絕採樣這樣的嚴格篩選機制,這事不但不會崩,還能加速,形成資料飛輪。2.2這個飛輪裡還有一個重要且難搞的角色——RLHF 在圖像側的質檢員。我們在文字側已經習慣了 RLHF(Reinforcement Learning from Human Feedback,基於人類反饋的強化學習):給一段文字打分,判斷它有用、有趣、符合人類偏好,這件事 GPT-4o 做得很好。但在圖像側,難度驟升。因為質檢員需要同時盯住三條線:美學偏好;指令遵循;安全過濾。三條線的標準各不相同,甚至互相衝突。一道強光影可能很“好看”,但壓暗了 prompt 裡要求的某個細節,就會被“指令遵循”扣分。一層安全濾鏡可能誤傷正常的醫學解剖圖,又得回頭調閾值。這種多維度權衡,在文字側已經跑通,但在圖像側變得前所未有的複雜。而 OpenAI 之所以能做成,很可能是因為他們把圖像側的問題全部拉回了自己最擅長的戰場:語言理解。美學偏好被轉譯成一段構圖評語,指令遵循被轉譯成一組約束條件的核對清單,安全過濾被轉譯成一套規則判例。所有判斷最終都落到了 LLM 的語義空間裡。可能這才是資料飛輪真正的底牌。不是資料多,而是從標註、篩選到打分,全鏈路都被統一到了一個理解框架裡。拒絕採樣負責海選淘汰,RLHF 負責精修調優,兩者共享一套語義標準,飛輪才轉得起來。三、工程解法,兼顧推理速度和對話整合3.1到這裡,我們聊的都是效果。接下來聊一個經常被刻意繞開的話題:推理速度。先不說審美和一致性上的飛躍,且說一個看似矛盾的現象:生圖質量躍升了一個代際,但速度並沒有明顯變慢。這本身就是一種工程奇蹟——OpenAI 是怎麼做到的?自回歸模型的運作方式是逐 token 生成——每個 token 都依賴上一個 token 的完成。擴散模型則不同,它可以在整張畫布上平行去噪,一次處理所有像素。按理論推算,如果 GPT Image 2 確實用了自回歸架構,它的推理延遲應該比純擴散模型高出一個數量級。但實際體驗是:沒有。第一條線索:Token 壓縮率可能遠超預期。 如果一張 1024×1024 的圖只需要 256 個 token 就能完整描述,對 Transformer 來說就是一次呼吸的事。這意味著 OpenAI 不僅做到了語義對齊,更在壓縮率上做到了極致,把高資訊密度濃縮到幾行字的程度。第二條線索:推理架構的深度最佳化。 混合架構中,自回歸生成的是粗粒度的語義 token,決定“畫什麼”,不負責“畫成什麼樣”。生成步驟大幅縮短,擴散模型只用在最後一小段“按圖施工”,而不是從頭噪到尾。第三條線索:投機解碼(Speculative Decoding)可能被用到了圖像側。 用一個更小的“草稿模型”快速生成候選 token,再由大模型一次性驗證,這套 LLM 推理加速經典技巧如果用在圖像 token 上,速度可以成倍提升。OpenAI 在 GPT-4 時代已把這套玩熟,移植到圖像側沒有原理障礙。所以結論是:GPT Image 2 的快,不是因為擴散模型變快了,而是因為可能它把最慢的語義規劃,從擴散模型手裡搶了過來,交給了擅長快速推理的 LLM。3.2比速度更影響體驗的,是與對話系統的整合。在傳統圖像生成工具中,例如 Midjourney 或基於 Stable Diffusion 的工作流,使用者通常通過編寫 prompt 來控制輸出結果。雖然這些工具已經支援諸如variations、inpainting和歷史記錄等功能,但整體流程仍然以“單次輸入 → 單次輸出”為主,使用者需要通過多次嘗試逐步逼近目標效果。這種過程在實踐中往往表現為反覆試錯:使用者根據結果調整 prompt,但模型對指令的理解程度並不完全透明,因此需要多輪迭代來校正偏差。相比之下,整合在對話系統中的圖像生成引入了連續上下文機制,改變了互動方式。使用者可以在多輪對話中逐步細化需求模型能夠利用對話歷史理解“當前修改”對應的對象或屬性修改請求可以以更自然語言的形式表達,而不需要一次性寫出完整 prompt例如,在多輪互動中,使用者可以先生成一個基礎場景,再逐步提出局部修改(如顏色、位置、風格)。最後,模型基於上下文生成新的結果。對話式互動還帶來另一個優勢:需求澄清能力clarification。將模糊的自然語言意圖,逐步轉化為更具體的生成條件,從而提高生成結果與使用者預期之間的一致性。結語在 GPT Image 2 出現之前,AI 生圖領域的討論框架是這樣的:“擴散模型的縮放定律還能走多遠?”“DiT 架構和 UNet 架構誰更優?”“Flow Matching 會不會取代 DDPM?”“多模態對齊的損失函數怎麼設計?”這些問題都有價值,但它們共享一個隱含前提:圖像生成是一個獨立的、需要專門架構來解決的問題。而GPT Image 2 給出的的回答是:不一定。如果我們把鏡頭再拉遠一點,GPT Image 2 的出現其實指向了一個更大的命題:世界模型。讓我們重新思考什麼是生成,以及世界。 (矽星人)
4月新勢力銷量解析:零跑霸榜,陣營分化加劇
5月1日國際勞動節,恰逢新勢力車企集中公佈4月份交付成績的節點。一大早,零跑汽車、小米汽車、理想汽車、嵐圖、智己、蔚來汽車、鴻蒙智行等頭部新勢力陸續發佈交付快報,我們一起來看看吧!1. 零跑汽車:13個月霸榜銷冠,新品成增長核心引擎零跑汽車4月交付71387台,同比增長73.9%,強勢刷新品牌單月銷量歷史紀錄,再度登頂新勢力銷量冠軍。從2025年3月至12月連續10個月奪冠,到2026年2月至4月持續領跑,零跑汽車已實現13個月霸榜新勢力銷冠的壯舉,在行業下行期展現出極強的市場競爭力。新品成為銷量增長的核心驅動力:零跑A10作為3月底上市的全新車型,4月迎來首個完整交付月,首月大定突破4萬台,創下零跑訂單增速紀錄,成為名副其實的爆款車型。另一款新車零跑D19於4月16日上市,上市僅15天大定便突破1.5萬台,4月交付約6000台,以“百萬體驗、二十萬價格”的高性價比,對高端家庭市場形成降維打擊。目前,零跑汽車在售產品涵蓋A10、Lafa5、B01、B10、C16、C10、C11、D19等多款車型,提供純電+增程雙動力選擇,產品矩陣全面覆蓋不同細分市場。2026年零跑年度銷量目標為105萬輛,截至4月底累計交付202572輛,完成年度目標的19.29%,剩餘8個月平均每月需交付超10萬輛,後續產能與交付壓力依舊較大。2. 理想汽車:穩步前行,累計交付突破166萬輛理想汽車4月交付新車34085輛,保持穩健交付態勢。截至2026年4月30日,理想汽車歷史累計交付量達1669442輛,成為新勢力中累計交付量率先突破160萬輛的品牌之一,其家庭定位車型持續獲得市場認可,穩固佔據中高端新能源SUV市場份額。3. 鴻蒙智行:逆勢增長,多品牌矩陣儲備增長勢能鴻蒙智行4月交付32759台,同比增長18.9%,在行業下滑背景下實現逆勢增長;1-4月累計銷量同比增長36%,增長勢頭強勁。其銷量增長主要依賴問界品牌,佔比約70%,其中4月22日上市的問界M6表現突出,定位25-30萬級中大型SUV,上市15分鐘大定破萬,發佈一周內交付5000台,佔4月總交付量的15.26%,成為走量核心車型。4. 小米汽車:交付穩步破3萬,持續夯實市場地位小米汽車4月交付超30000輛,延續穩步增長態勢,憑藉豐富的產品佈局和智能科技優勢,持續夯實在中高端新能源市場的地位,1-4月累計銷量表現亮眼,成為新勢力中的中堅力量。5. 蔚來汽車:多品牌協同增長,累計交付突破111萬輛蔚來汽車4月交付29356台),同比增長22.8%,多品牌協同發展成效顯著。其中,蔚來品牌交付19024台,樂道品牌交付5352台,同比增長21.6%,螢火蟲品牌交付4980台,三大品牌形成互補,覆蓋不同細分市場需求。2026年1-4月,蔚來累計交付112821台,同比增長71%;截至4月底,蔚來公司累計交付新車1110413台,累計交付量突破110萬輛,品牌影響力持續提升,後續隨著ES9、樂道L80等新車於5月上市,有望進一步拉動銷量增長。6. 嵐圖汽車:同比大增51%,新品預售表現強勁嵐圖汽車4月交付15146輛,同比增長51%,增長勢頭強勁。其中,追光、夢想家兩款車型持續放量,成為銷量主力;全新車型泰山X8預售訂單突破3萬,市場關注度較高,為後續銷量增長注入新動力。7. 智己汽車:同比大漲130%,高端市場站穩腳跟智己汽車4月交付10016輛,1-4月同比大漲130%,增長勢頭迅猛。憑藉LS6、LS8雙車發力,智己汽車在高端純電市場逐步站穩腳跟,產品力獲得市場認可,成為高端新能源市場的重要參與者。8. 小鵬汽車:交付快報暫未發佈總結一下:4月新勢力銷量整體呈現“頭部領跑、兩極分化、新品驅動”的特點,在國內新能源市場同比下滑11%的背景下,頭部品牌憑藉產品優勢和精準定位實現逆勢增長,接下來新能源市場競爭將更加白熱化。 (玩車專家)
量子計算中國五傑:技術路線、商業落地與未來格局深度對比
本源量子、圖靈量子、玻色量子、華翊量子、兩儀萬象——五家非上市量子計算企業,合計估值約317億元,覆蓋超導、光量子、相干光、離子阱、中性原子五條技術路線。創始團隊分別源自郭光燦體系、潘建偉體系、楊振寧體系三大中國量子學術譜系。本文基於IT橘子、證監會公告、新華網、36氪、投中網等公開可追溯資料,所有資料均可交叉驗證。一、估值格局1. 本源量子,約92億元中科大郭光燦院士團隊創立。2025年9月進入科創板IPO輔導(證監會公告),彼時估值約69億元,2026年4月攀升至近百億。"本源悟空"72位超導量子晶片營運超兩年,完成全球163國80余萬次計算任務。2024年營收9,938萬元,國內唯一千萬級營收量子企業。2. 圖靈量子,70億元上海交大金賢敏教授創立。2026年4月27日完成新一輪數億元融資(36氪/投中網獨家),國家創業投資引導基金長三角基金與浦東新區國資聯合領投。今年以來連續2輪融資近10億元,這是國家創業投資引導基金在量子領域的首個直投項目。2025年訂單破億,CAGR 200%。3. 玻色量子,65億元清華海歸團隊(文凱+馬寅)創立。2026年3月完成B輪10億元(新華網),年度量子單筆最大融資。"馭量·山海1000"千位元可擴展專用量子機,超頻模式3000+位元,五年四次迭代。建成中國首個規模化專用量子計算製造工廠。4. 華翊量子,50億元清華大學段路明院士團隊。保真度99.99%+全球領先。HYQ-B100實現100+離子位元。相干時間小時級,遠超超導(微秒級)和光量子(毫秒級)。已與中國移動研究院合作。5. 兩儀萬象,40億元2024年8月成立,五家中最年輕。清華翟薈教授(楊振寧院士關門弟子)創立。2026年4月實現全球首個萬級中性原子捕獲——10,064個原子,超越加州理工6,100個紀錄(騰訊/新浪/搜狐4月23-24日)。與科大訊飛合資成立"量智開物"。二、技術路線詳解🔬 本源量子 · 超導路線"本源悟空"搭載72位自主超導晶片"悟空芯",自研"本源天機4.0"測控系統支援500+量子位元,國產稀釋製冷機SL1000突破美國禁運,自研量子作業系統"本源司南"。超導是最主流路線(IBM、Google同路線),操控快、成熟度高、全端自主可控。挑戰在於極低溫(10mK以下)工程門檻。🔬 圖靈量子 · 光量子路線TuringQ Gen2大規模可程式設計光量子系統,100+光子位元操控。主導建成國內首個光子晶片中試線(110nm製程),採用薄膜鈮酸鋰材料體系。推出國內首個光量子AI程式設計框架DeepQuantum和"量擎"雲平台。室溫運行、相容半導體工藝、天然適配AI。挑戰在於位元相干時間短,大規模整合難度高。🔬 玻色量子 · 相干光路線"馭量·山海1000"——國內首個千位元級可擴展專用量子電腦,標準模式1,000位元,超頻模式3,000+位元。2026中關村論壇正式發佈。專注組合最佳化、分子模擬等專用場景,落地快、訂單明確。挑戰在於通用性有限。🔬 華翊量子 · 離子阱路線段路明院士獨創二維離子陣列架構,突破傳統一維離子阱擴展瓶頸。保真度99.99%+(全球最高水平之一),相干時間達小時級。第三代目標300-600位元。保真度在量子化學和精密測量領域不可替代,量子糾錯潛力大。挑戰在於位元擴展速度較慢。🔬 兩儀萬象 · 中性原子路線10,064個中性原子捕獲——全球首個萬級紀錄,超越加州理工6,100個。"追風"AI演算法20ms內完成萬原子陣列重排。與科大訊飛合資成立"量智開物"。首款商用整機計畫2027年春發佈。原子天然全同、長相干時間、強擴展性,被視為通用容錯最優路徑之一。三、創始團隊:中國量子學術譜系五家企業呈現三條清晰的學術傳承脈絡。郭光燦體系 → 本源量子 + 華翊量子中科大郭光燦院士是中國量子資訊學科奠基人之一。弟子郭國平創辦本源量子(超導路線),另一弟子段路明創辦華翊量子(離子阱路線)。一條學術血脈衍生出兩條技術路線。潘建偉體系 → 圖靈量子金賢敏師從潘建偉院士,中科大博士、牛津博士後。在牛津期間註冊公司Q-WindowX,是全球最早推進量子計算產業化的人之一。楊振寧體系 → 兩儀萬象翟薈為清華大學教授,楊振寧院士關門弟子。"兩儀"取自《易經》"太極生兩儀",在量子語境中隱喻量子位元的二元性。海歸雙核 → 玻色量子文凱(清華本碩、史丹佛博士,CIM方向國際先驅)與馬寅(航天系統10年精密儀器專家),構成"學術+工程"互補驅動。四、商業化處理程序商業化路徑分化為三個梯隊。第一梯隊:本源量子唯一實現營收規模化的企業。全端覆蓋——從晶片設計、測控系統、作業系統到量子云平台。2024年營收9,938萬元,預計2026-2027年衝刺科創板IPO。第二梯隊:圖靈量子 + 玻色量子處於訂單爆發到營收規模化的過渡期。圖靈2025年訂單破億(CAGR 200%),玻色多台真機交付(單價5,000萬至1億元)。兩者均已獲國家級資本重倉,分別預計2027年和2028年IPO。第三梯隊:華翊量子 + 兩儀萬象仍處"技術領先、商業待啟"階段。華翊科研院所訂單佔比80%,兩儀首款整機2027年春發佈。兩者全球技術指標均處世界級水平,但商業化仍需時間。五、資本市場節奏據IT橘子資料,截至2026年3月17日,國內量子計算賽道累計收錄150起融資事件,融資總額達112.05億元。2026年Q1融資額22.04億元,逼近2025全年24.73億元。1月11.4億元(圖靈B輪、量旋C輪等大額交易),2月4.5億元(相干科技Pre-A輪等),3月截至17日6.2億元(3月11日單日3起融資;邏輯位元數億元)。估值分化明顯:本源量子(~92億)、圖靈量子(70億)、玻色量子(65億)三家頭部形成估值優勢,正在拉開與華翊(50億)、兩儀(40億)的身位。國家創業投資引導基金三個區域基金(京津冀/長三角/粵港澳大灣區,各500億以上規模)已開始下場。預計2027-2030年將迎來首批"量子計算第一股"。六、趨勢展望超導路線(本源)短期領跑。8年積澱、年營收近億,2026-2027年科創板IPO推進中,正加速180+位元機型。但面臨IBM、Google等國際巨頭的直接競爭。光量子/相干光(圖靈/玻色)落地速度最快。室溫運行、低成本、AI融合的天然適配性是兩大核心優勢。圖靈70億入圍國家隊直投、玻色B輪10億登頂年度最大量子融資。圖靈"沿途下蛋"策略已見成效。離子阱(華翊)保真度王者。99.99%+保真度在量子化學、精密測量領域有不可替代價值。量子糾錯時代將釋放其最大潛力。中性原子(兩儀萬象)長期潛力最大。10,064個原子捕獲創全球紀錄,首次將位元資源突破萬量級。2027年首款整機發佈是關鍵節點。賽道加速分化,資本市場進入"搶籌"階段。Q1融資22億逼近2025全年。本源即將IPO、圖靈國家隊直投、玻色B輪10億,三家頭部加速拉開差距。量子計算已從"局部賽馬"進入"國家隊佈局"階段。 (洪泰智造)
矽谷這一夜,屬於中國機器人!圖靈獎得主、輝達大牛全來了
【新智元導讀】一場全球峰會在矽谷引爆!不僅有圖靈獎得主站台,更有Big Seven巨頭的頂級科學家現身。這家成立近兩年中國公司,一口氣甩出三大新品。美西時間4月28日,具身智能行業有史以來,第一場全球性峰會在矽谷落幕!這場大會星光熠熠——2015年圖靈獎得主、公鑰密碼學奠基人Martin Hellman做開場主旨演講,主題是「安全、智能與物理世界的交匯」。輝達GEAR Lab高級研究科學家、亞馬遜前沿AI研究院科學家、史丹佛大學副教授同台對談,上千名來自全球的AI學者、開發者和投資人到場。張藝興也驚喜現身在這場名為GEIS(全球具身智能創新大會)的峰會上,一口氣發佈三款核心產品,覆蓋世界模型、靈巧手和人形機器人。如此豪華的陣容,硬核的發佈,倒像是矽谷本土巨頭的畫風。誰能想到,GEIS的發起方竟是一家成立剛滿兩年的中國公司——魔法原子(MagicLab)。在矽谷辦會、請圖靈獎得主站台,具身智能賽道還從未有過這種先例。機器人缺的不是胳膊腿,是腦子過去兩年,人形機器人的關節扭矩越來越大,自由度越來越多,翻跟頭的姿勢越來越花。但一個尷尬的事實始終沒變,絕大多數機器人離開預設好的demo場景,就「不會幹活」了。問題出在那?目前主流的VLA(視覺-語言-動作)大模型已經能讓機器人聽懂指令、看見場景,但一旦進入真實環境,光照變了、桌面材質換了、物體擺放位置偏了幾釐米,泛化能力就開始崩。說到底,機器人缺的不是更強的胳膊腿,是一個真正能理解物理世界的「大腦」。這才是核心瓶頸。這正是魔法原子此次發佈的世界模型Magic-Mix要解的題。世界模型Magic-Mix,自己教自己Magic-Mix由兩個核心引擎協同運作。第一個叫Magic-Mix WAM,負責物理環境理解、空間推演和動作決策。通俗地說,它讓機器人在動手之前,先在「腦子裡」模擬一遍接下來會發生什麼。抓一個杯子,手指接觸杯壁的瞬間會產生多大的力?杯子的重心在那?如果桌面是濕的,摩擦係數怎麼變?這些物理常識層面的推演,是VLA模型不擅長的,而世界模型恰好補上了這塊。第二個引擎叫Magic-Mix Creator,是一個離線資料生成器。它的工作是大批次合成訓練資料樣本,持續喂給WAM做訓練和迭代。以上兩個引擎組合在一起,形成了一個閉環,海量資料生成→模型訓練→訓練結果反饋→資料再生成。換言之,Magic-Mix是一個能「自我進化」的動態系統。機器人在真實場景中每執行一次任務,產生的資料都會回流到這個閉環裡,驅動模型持續進化。在訓練機制上,Magic-Mix有一個很硬核的設計,視訊動作雙專家協同訓練。一個專家負責「看」,從視訊資料中學習物理世界的運行規律;另一個專家負責「動」,把觀察到的規律轉化為具體的動作策略。兩個專家共享底層資訊,但梯度更新彼此隔離,避免互相干擾。這套機制還引入了目標圖像約束和失敗圖像特徵輸入。系統不僅學習「成功長什麼樣」,也學習「失敗長什麼樣」,從而在執行長線程任務時減少誤差累積。而支撐這套系統運轉的底層基礎,是資料。資料,恰恰是當前具身智能最大的瓶頸。真機資料採集成本高、周期長、場景覆蓋有限,這是全行業面臨的共性難題。魔法原子給出的解法是「兩條腿走路」——一方面,大力投入真機資料採集。日均採集約16000條,VLM層模型參數量達3B,已積累約36萬條真機資料;另一方面,通過Magic-Mix Creator大批次合成訓練資料,實現萬倍等級的資料體量擴展。其建構的Robot Data Pool,高品質資料集規模已超100萬小時。這套「真機採集+合成擴展」的資料飛輪,大幅降低了對純真機資料的依賴,也為模型訓練提供了持續穩定的彈藥補給。從行業視角看,誰能率先跑通資料閉環,誰就能在具身智能的下半場佔據先機。一個可以想像的場景是,如果這套世界模型率先在家庭環境中跑通,機器人就能在廚房里根據檯面上食材的擺放位置自主規劃切菜、裝盤的動作序列,而不需要人類預先編排每一步。從水龍頭出水的角度到碗碟疊放的高度,這些細碎的物理變數都在世界模型的推演範圍內。家庭這種高度非結構化的場景都能應對,工業產線上相對標準化的任務就更不在話下。這是世界模型真正的戰略意義:它是為所有場景提供底層能力支撐。誰先把世界模型跑通,誰就拿到了具身智能規模化落地的「萬能鑰匙」。靈巧手H01,比人手還「敏感」有了「大腦」的決策能力,還需要足夠精密的執行終端。會上,同期發佈的新一代靈巧手MagicHand H01,有幾個參數值得單獨拎出來看。20個自由度,其中15個為主動自由度,整機重量僅1公斤,額定負載卻達到10公斤。機器人的手越重,對整機負載的擠壓就越大,留給實際作業的有效載荷就越少。H01把自重壓到了1公斤,幾乎不吃整機的負載預算。44個高解析度三維觸覺感測器覆蓋手掌和指尖,力感知解析度達到0.05牛頓。要知道,人類指尖的力感知閾值大約在0.05到0.1牛頓之間。H01在力感知精度上,已經摸到了人手的下限。但H01最有辨識度的能力是「未觸先覺」。產品具備0到40mm的動態感知範圍,接近覺解析度達到0.5毫米,能夠在真正接觸物體之前就完成動作預判。配合5mm級的硬體閉環響應系統,機器人的手在離物體還有幾釐米的時候就已經開始調整姿態和力度了。這在護理、康復訓練、家庭服務這類場景中尤其關鍵。機器人跟人近距離接觸時,靠碰撞檢測做事後補救太晚了,H01能在接觸發生之前就完成力度和軌跡的調整。1秒內完成完整開合動作,響應速度足以應對工業產線節拍。同時支援適配市面上多款人形機器人本體,不繫結自家平台。這個開放策略在靈巧手賽道並不常見。更具實用價值的是,H01被設計為通用模組,可適配市面上多款人形機器人本體。這是一個明確的生態化訊號:魔法原子不只想給自家機器人配上靈巧手,而是想讓H01成為行業的「標準件」。MagicBot X1,7×24小時不下班三款產品中的最後一塊拼圖是旗艦人形機器人MagicBot X1。上一代Gen1,身高174cm、42個自由度、雙臂搬運負重20公斤,是魔法原子在春晚和工廠產線上驗證過的主力機型。而這一次,X1在Gen1基礎上做了幾個關鍵升級。第一是運動能力大幅提升。X1身高拉到180cm,體重70kg,全身31個主動自由度(Gen1是42個總自由度,但主動自由度數未公開披露),極限關節扭矩從Gen1的體系升級到450N·m。整機運動速度綜合提升30%以上,運動範圍提升超過50%。更高的扭矩和更大的運動範圍組合起來,意味著X1能在更複雜的空間姿態下完成作業。舉個栗子,工業場景中經常需要機器人彎腰探進裝置內部做檢測或取件,這類動作對軀幹和肩關節的運動範圍要求很高,Gen1在某些極限角度下會受限。X1提升50%的運動範圍,直接拓寬了它在柔性生產場景中的適用面。第二是續航問題的根本解法。Gen1綜合續航最高5小時,對於需要兩班倒,甚至三班倒的工業場景來說不夠用。X1沒有選擇堆更大的電池,而是做了雙電池熱插拔系統,支援不斷電更換電池,直接實現7×24小時連續作業。工廠不需要等機器人「下班充電」,維運人員換塊電池就行。這個設計思路比單純拼電池容量更務實。第三是產品化程度。X1一共有兩個SKU:開箱即用「標準版」,以及面向高校和開發者「科研版」,支援底層二次開發和外形定製。Gen1在產品化層面更偏向定製項目交付,X1從一開始就是衝著標準化量產去的。到這裡,技術拼圖閉環了。Magic-Mix世界模型是「大腦」,H01靈巧手是「雙手」,X1人形機器人是「身體」。從感知、決策到執行,一口氣補齊。行業拐點已至,誰在真正落地?站在更宏觀的視角來看,GEIS上大會上的集中發佈折射出的是,整個具身智能行業正在經歷的結構性轉折。年初,智源研究院在發佈的《2026十大AI技術趨勢》中指出,具身智能正迎來行業「出清」,中國已有超過230家具身智能企業,其中人形機器人企業超過100家。但這一輪競爭的技術難度、資金需求遠超過往,當前企業數量遠超賽道的物理承載量與資本供給能力。換言之,2026年,是具身智能從「百團大戰」走向「諸侯割據」的分水嶺。誰能從實驗室走向量產交付,誰能打通從技術到產品再到商業的完整鏈路,誰就能在洗牌中存活並勝出。從這個角度審視魔法原子的GEIS發佈,其戰略意圖更加清晰——世界模型提供理解世界的能力,靈巧手提供精細操作的能力,人形機器人提供全場景作業的身體平台。而「閉環」,恰恰是此次GEIS矽谷發佈會的核心敘事。全端自研+全球押注支撐這套閉環的底層,是魔法原子硬體自研率超過90%的全端路線。自研關節模組峰值扭矩525N·m,專利佈局超150項,自建資料採集工廠日產真機資料16000條。這條路線的代價是研發投入大、周期長,但回報也擺在那裡。成立兩年內,從春晚百台群控、蘇超近300台戶外暴雨群控到香港論壇4.5小時零故障商務服務,連續完成了一條跨場景驗證鏈。拿下大健康領域1.5億元單筆訂單。業務覆蓋全球50個國家和地區,海外收入佔比超過60%。GEIS大會上,魔法原子總裁顧詩韜首次對外披露長期目標——2036年衝刺140億美元營收,未來五年投入10億美元打造全球開發者生態。大會現場與矽谷AI企業Openmind、PrismaX AI、Cosmicbrain AI、Physis完成簽約,基於「千景共創」計畫向生態夥伴開放硬體樣機、開發資金和核心技術支援。當全球具身智能行業還在為「大腦」和「身體」誰先誰後爭論不休時,魔法原子選擇了一條更樸素也更難走的路徑——兩手都要抓,兩手都要硬。這家從江蘇走出來的公司,正在矽谷用一場發佈會向全球宣告:中國具身智能的全端時代,已經到來。 (新智元)
“被嚇到!”AI生圖已經這麼逼真了?網友:以後還能信嗎...
近日社交平台被一組圖片刷屏了:千禧年間的小學生在小賣鋪買零食一張印刷完好的數學試卷馬斯克在直播間賣瑜伽褲....你能看出那張是AI生成的嗎?答案是——全部4月22日,美國人工智慧公司OpenAI對外正式推出ChatGPT Images 2.0模型,這是其ChatGPT平台內圖像生成功能的最新一次升級。由於其生成的圖片真假難辨,相關話題迅速沖上熱搜,引發網友熱議。模型發佈後,一些用GPT-Image-2生成的AI假圖已經開始在網路上開始傳播。比如,“Tim Cook加入小米汽車”的“官宣圖”,粗看分辨不出AI的痕跡。隨後,小米發文闢謠。網傳圖片據瞭解,生成的圖片之所以真假難辨,是因為該大模型解決了以往AI細節粗糙、文字亂碼扭曲的問題。有網友測試用該模型生成全篇《出師表》,內容工整規範,幾乎零錯漏。不過,也有眼尖的網友在其它圖片中發現,生圖過程中會偶爾出現少量文字差錯。另據澎湃新聞,記者實測後發現,GPT-Image-2還存在嚴重的安全漏洞。記者將個人身份證上傳到ChatGPT後,要求把身份證中的人臉換成庫克。Image-2不僅改變了人臉,還替換了人名和出生年月日資訊,並同步替換了身份證號碼中的出生年月日資訊。圖源:澎湃新聞該模型不僅無法識別個人敏感資訊,而且也沒有阻攔使用者進行修改、偽造證件的提示詞。此外,GPT-Image-2的所有直出圖均沒有標註“AI生成”的水印或提示,進一步加大了核實和甄別的難度。面對該大模型生成的圖片,不少網友感嘆,第一反應是 “被嚇到了”。還有網友實測,只需簡單輸入一句話,就能一鍵生成精美的商業設計圖,擔心“設計師是不是要失業了”。許多網友擔憂,未來圖片真假將更難分辨。按照國家相關規定,AI生成內容應強制標註,而面對不斷升級的海外AI工具,大家也呼籲加快完善AI領域的法律法規,進一步加強監管。更有網友直言,有圖有真相的時代,已經過去了。“以後都要問一句,這是真的嗎?” (河南衛視)
【中東戰局】美軍所扣伊朗船隻或載軍民兩用物品,航線涉及中國港口
海事安全消息人士周一表示,周日被美軍登船並扣押的伊朗籍集裝箱船“圖斯卡號”(Touska)很可能裝載了華盛頓方面認定的“軍民兩用”物品,即既可用於軍事也可用於民用的貨物。美軍攔截圖斯卡號視訊畫面 美國中央司令部經由路透供圖根據 Marine Traffic 船舶追蹤平台的資料,這艘小型集裝箱船隸屬於已遭美國製裁的伊朗伊斯蘭共和國航運公司(IRISL)集團,周日在阿曼灣、伊朗恰巴哈爾港外海被登船檢查,並在1308 GMT(台北時間21:08)最後一次報告其位置。美國中央司令部表示,圖斯卡號船員在長達六小時內未遵守多次警告,該船違反了美國實施的海上封鎖。不願具名的安全消息人士稱,初步評估認為,該船在從亞洲航行返程後,所載貨物很可能包含軍民兩用物品。其中一名消息人士表示,該船此前曾運輸過被認定為軍民兩用的物資。消息人士未具體說明這些物品的細節。美國中央司令部曾表示,金屬、管材、電子元件等貨物既可用於工業用途,也可能具有軍事用途,屬於可被扣押的範圍。伊朗外交部未立即回應置評請求。據伊朗國家媒體周一報導,伊朗軍方稱該船從中國駛來,並指責美國實施“武裝海盜行為”。伊朗方面表示,已準備好就這種“公然侵略”與美軍對抗,但由於船上有船員家屬在場而受到制約。據資料分析公司 SynMax 的衛星分析,該船於3月25日在中國太倉港靠泊,並於3月29日至30日抵達中國南部的高欄港。中國外交部發言人郭嘉昆周一稱,荷姆茲海峽局勢敏感複雜,中國對美方強制截停有關船隻表示關切,希望有關方以負責任的態度恪守停火協定,避免激化矛盾,加劇局勢緊張,為海峽通行恢復正常提供必要條件。**停火期限逼近,和平談判前景存疑**一名伊朗高級官員周一告訴路透,伊朗正在考慮參加在巴基斯坦舉行的與美國的和平談判。不過該官員強調尚未作出決定。這位未具名的伊朗高級官員表示,德黑蘭正在“積極考慮”參與此次會談。這與其此前排除參會可能性並誓言將對美國侵略行為進行報復的表態有所轉變。該官員稱,作為調解方的巴基斯坦正積極努力,以解除美國的封鎖並確保伊朗的參與。伊朗外長阿拉格齊(Abbas Araqchi)表示,美國“持續違反停火協議”是繼續推進外交處理程序的主要障礙。阿拉格齊在與巴基斯坦外長達爾的電話交談中表示,伊朗在綜合考慮各方因素的同時,尚未決定下一步如何行動。另一消息人士向路透透露,美國副總統范斯周一仍在美國,否認了他已啟程前往巴基斯坦參加會談的報導。這進一步加劇了不確定性。美國總統川普於4月7日宣佈與伊朗達成為期兩周的停火,但未明確說明具體何時結束。一位參與談判的巴基斯坦消息人士稱,停火將於美國東部時間周三晚8點(台北時間周四上午8點)到期。 (路透財經早報)
史上最萌墊底,2026機器人半馬梗圖大賞
就在剛剛,2026 北京亦莊人形機器人半程馬拉松鳴槍開跑。前三名使用機器人均為榮耀「閃電」,成績如下:🥇 第一名:齊天大聖隊,成績 00:50:26🥈 第二名:雷霆閃電隊,成績 00:50:56🥉 第三名:星火燎原隊,成績 00:53:01冠亞軍成績僅差 30 秒,前三名全部跑進 53 分鐘,大幅刷新去年冠軍 2 小時 40 分的成績,也全面刷新了人類半馬世界紀錄。300 余台機器人,26 個主流品牌,13 個省市區的選手加上德法巴西的海外實驗室,以極其賽博的姿態在 21.0975 公里的賽道上集體競速。現場人山人海,放眼望去好多(機器)人啊。本以為是一場硬核技術大考,結果直播打開 5 分鐘,就無縫切換到了看綜藝的心態。帶大家康康今天賽道上最值得被截圖保存的名場面。現場觀眾看得津津有味,連人類跑手都在起跑區主動為機器人加油,畫面莫名帶感。先出場的幾乎都是被寄予厚望的種子選手,來自北京榮耀的絕影赤兔隊率先發槍,出戰機型是今年熱度極高的「閃電」。按照今年的賽事規則,參賽機器人分為自主導航和遙控操作兩種模式,遙控組的成績要乘以 1.2 的加權係數,再疊加比賽過程中的各類罰時,第一個沖線的機器人未必就是最終冠軍。起跑採用流水線式單發出場,每 30 秒放行一台。行進過程中機器人全程靠右,左側留給超越與避障的專用通道,跟隨車必須與機器人保持至少 20 米的安全距離。機器人風馳電掣地跑, 前面出發的機器人的瞬時速度幾乎都保持在 6m/s 到 8m/s。開跑沒多久,後面出發的機器人就完成了對前面隊伍的反超,仔細看,一些機器人背後都綁了降溫用的冰袋。然後是今天的第一個名場面,一台機器人跑著跑著突然剎停,看起來想上車了。也有一台機器人跑偏了賽道,直接貼上路邊圍欄,完成了堪稱影帝級的碰瓷表演。機器人在奔跑途中對前方障礙物相當敏感,稍有不對就會急剎摔倒。所以組委會要求機器人間隔出發,本身就是為了避免這種連環追尾。機器人不吃能量膠,但賽道中途設有能量補給站,用來換電和應急處置。有的機器人在補給的過程掉裝備了,完全沒察覺。速度不夠,造型來湊。再加上被風一吹就飄起來的髮絲,人形機器人今天的 OOTD 有了。由於賽道環境相較去年更複雜。賽程全長 21.0975 公里,首次引入南海子公園生態路段,賽道融合平地、坡道、彎道、狹窄路段等 10 余種地形,12 個左轉道、10個右轉道,包含接近 90° 的彎道,十分考驗機器人的路徑規劃與動態平衡能力。所以跑到中段摔倒,基本是家常便飯。賽道上另一個名場面,真人跑者和機器人並肩競速,結果機器人一個加速直接超過了人類選手。畫面定格的那一刻,堪比一幅世界名畫。人類選手望向機器人的那一刻,他在想什麼。中後段起跑的人形機器人基本都是另一種畫風,慢悠悠地晃著,像喝了假酒,主打一個健康完賽就好。最揪心的一幕出現在沖線前,一路保持節奏的機器人,眼看終點近在咫尺,突然撲通一下栽倒在地。緊急搶救上線,擔架小哥都已經衝進賽道了,在工程師的幫助下,它自己又顫顫巍巍地爬起來完成了撞線。於是,第一隻沖線的機器人出現了。由於是間隔出發,前面的機器人已經跑完,後面的隊伍還沒發車。中段出現了一台小鼻嘎機器人,手裡還拿著奶瓶,主打一個萌系賽道。話說身高這麼矮的機器人,到了終點真能夠得到撞線的那根線嗎。天氣越跑越熱,補給站除了換電之外,順帶還承擔了物理降溫的任務。然後是頂流出場,來自大灣區的雞型機器人也下場營業。喲嚯,跑著跑著還有主動停下來飯撒的,姿勢相當到位,懷疑是觸發了對人類友善協議。還有機器人跑到一半突然停止擺臂,單臂凌空,一副楊過獨戰天下的武俠范。一台機器人衝過終點之後,可能是過於興奮,一鼓作氣衝進了旁邊的綠化帶,最後被救護人員抬了出來。也有選手在終點前來了一段百米衝刺的蛇形走位,經典場面之王不見王。完賽之後也有溫情時刻,辛苦了那麼久,工程師和自家機器人美美合照。對了,今天的完賽獎牌長這樣。金屬機甲風的設計基調,通體鍛造質感,線條硬朗,結構錯落。更有巧思的是中間那塊可展開結構,拉開之後整塊獎牌直接化身一台立體的小人形機器人。完賽獎盃則長這樣。本次比賽開始前,網友問得最多的問題是:為什麼機器人一定要長得像人呢?其實人形機器人之所以執著於雙足直立,是因為人類社會的一切基礎設施都是按「人」這個形態設計的。一台人形機器人如果真要走進工廠、走進家庭,適配物理世界的人形結構其實更合適。道理雖然懂了,但看完今天的賽道,我有一個大膽的想法,為了讓機器人跑得更快,為什麼不直接給他換上兩個輪子呢?沒錯,就是下面這個👇那如果再進一步,四個輪子加上流線型車身,速度絕對再上一個台階。你看,它已經變成了一輛車。所以還是算了,兩條腿的路,得自己走。今天賽道上那些摔跤、碰瓷、一頭衝進綠化帶的鋼鐵身影,是人形機器人最笨拙的樣子,也可能是它們最後一批還會出洋相的歲月。至於人形機器人跑步等競賽到底有沒有意義,我們電影其實早就給出了答案:機器人會跑步,沒用。機器人會功夫,或許也用處不大。但當一台會功夫的人形機器人以 8m/s 的速度跑過來找你切磋的時候,就很有用了。 (APPSO)