重磅開源！240億參數力壓Nano Banana 2

2026/04/11

•

當多數圖像AI還停留在「會生成、不會懂空間」的階段，京東開源JoyAI-Image-Edit，把圖像編輯從平面修圖推向空間智能，也讓外界第一次看清：京東的AI佈局，從來不是追風口，而是死磕自己最有勝算的真實場景。

這一刻，圖像AI升維了！

過去兩年，我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸，畫賽博朋克街道比電影還炫，畫一隻手有六根手指也能讓你覺得是藝術。

Grok生成的AI圖像

所有人都以為，圖像AI已經快到頭了。

直到你真的上手用它幹點正經事——想換個角度看看自家客廳？透視關係瞬間崩塌，沙發像在漂浮，落地燈穿牆而過。

想把前景的蘋果和後面的書調一下前後順序？遮擋關係直接錯亂，比例全面失衡，畫面宛如一場災難現場。

你氣不氣？你崩不崩潰？

它們會畫畫，卻不懂空間。

它們能生成驚豔的像素，卻看不懂像素背後那個立體的、有前後、有深度、有光影邏輯的真實世界。

它們是熟練的「平面裱糊匠」，卻不是懂事的「空間觀察者」。

這道檻兒，橫在圖像AI面前。

誰來邁？

JoyAI-Image-Edit把「空間智能」刻進骨子裡的開源模型

4月初，京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。

程式碼已經放在GitHub上，以Apache 2.0協議釋出，推理程式碼全部開放，開發者可以直接拿去做應用。

目前，系統已完成對ComfyUI的支援，並全面相容Diffusers格式的模型權重與推理流程，方便開發者進行靈活部署與二次開發。

連結：https://github.com/jd-opensource/JoyAI-Image
體驗地址：https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space
開源權重：https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit

這是一件大事。

因為它不是又一個「更好用的AI修圖工具」，而是業內首個把「空間智能」寫進模型架構底層的開源一體化圖像模型，讓模型真正「理解空間，編輯空間」。

野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》，直譯過來就是「在統一的多模態理解與生成中，喚醒空間智能」。

技術上，JoyAI-Image把一個80億參數的多模態語言模型（MLLM）和一個160億參數的多模態擴散Transformer（MMDiT）耦合在一起，形成一個共享介面，讓空間意圖從指令解析一路貫穿到圖像生成。

更關鍵的是它背後的資料和訓練哲學：一條可擴展的資料流水線，包含空間理解資料（OpenSpatial）、長文字渲染資料、編輯資料（SpatialEdit），再加上多階段的最佳化策略。

這套架構的精髓在那？

在於「理解」和「生成」第一次形成了真正的閉環。

過去的圖像模型，理解歸理解、生成歸生成，兩邊各玩各的。

而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環協作：更強的空間理解讓生成和編輯更可控，而視角變換這類生成操作又反過來為空間推理提供新的證據。

JoyAI-Image在圖像理解、合成與編輯方面均展現了全面領先的能力

說人話就是：模型一邊「看」一邊「畫」，一邊「畫」又幫它看得更清楚。

這才是真正意義上的空間智能覺醒。

落到具體能力上，JoyAI-Image支援三種空間編輯提示範式：物體移動（Object Move）、物體旋轉（Object Rotation）和相機控制（Camera Control）。

第一，相機控制。你可以用一句大白話告訴它——「把相機往右偏30度，往下俯15度，再拉近一點」——模型會在保持場景幾何一致性的前提下，給你生成一張全新視角的圖像，透視關係、遮擋關係、光影關係全都對得上。

編輯指令：Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.

編輯指令：Move the camera.
Camera rotation: Yaw -45.0°, Pitch 22.5°.
Camera zoom: unchanged.
Keep the 3D scene static; only change the viewpoint.

第二，物體旋轉與空間漫遊。支援連續的視角移動，能生成一整串邏輯連貫的多視角圖像序列。

什麼意思？就好像你戴著一台虛擬相機，真的在這個三維場景裡「走動」，每一幀都立得住。

編輯指令：Rotate the sneaker to show the front view.

編輯指令：rotate the girl to show the rear left side view.

編輯指令：rotate the elephant to show the front view.

第三，物體空間關係操控。挪動、旋轉、縮放畫面中的任何一個物體，場景整體結構保持穩定，遮擋自然合理，光影過渡順滑，不會再出現變形、錯位、比例失衡那些老毛病。

編輯指令：Move the coffee into the red box

編輯指令：move the red car into the red box, remove the red box, remove the red car

這種空間編輯能力帶來很多有趣的新玩法──

給定第一幀（上圖）後，你利用空間編輯能力生成視訊的最後一幀（下圖）。

然後，由視訊生成模型在兩者之間建立平滑的旋轉過渡，還能保持背景的一致性。

更硬核的是橫評。

和Qwen-Image-Edit、Nano Banana Pro相比，JoyAI-Image-Edit能夠忠實執行相機運動，合成最具診斷性的新視角，這些高保真的新視角有效地消除了複雜空間關係的歧義。

同樣讓模型「換個角度看世界」，別人換出來的畫面或許能看，但JoyAI-Image-Edit換出來的畫面，是真的對，這對於把模型投入真實生產和應用環境來說至關重要。

與此同時，它還全面相容15類通用編輯能力——替換、刪除、加入、風格遷移、細節精修、長文字渲染，樣樣拿得出手；尤其在空間推理、長文字渲染以及空間可控操作上表現尤為出色。

比如，輸入一行指令就給小貓戴上皇冠。

或者將行人從圖片中移走。

長文字渲染更是拿手。

頂尖的空間編輯×全面的通用編輯，這是真正的「文武雙全」。

為什麼是電商和具身？

一個模型的價值，不在跑分，而在用在那。

JoyAI-Image-Edit最能發揮威力的兩個戰場，一個是電商，一個是具身智能——恰好都是京東的主場。

做電商的品牌客戶，是對空間編輯最飢渴的使用者。

一件商品拍進來，要換背景、換角度、換搭配、換場景、換光線。

過去這些活兒要麼靠攝影師重拍，要麼靠設計師通宵P圖，要麼靠AI生成一堆「塑料感」假圖。

有了JoyAI-Image-Edit，一張主圖可以自動衍生出幾十種視角和場景，商品還是那個商品，形象保持一致，細節不穿幫，成本直接砍到腳踝。

對於服務著數百萬商家的京東來說，這不是錦上添花，這是水和電。

具身智能的場景，則是空間理解最硬的剛需。

機器人要在真實世界裡幹活，第一件事就是「看懂」空間——那是桌子、那是椅子、杯子離我多遠、我伸手能不能夠到。

空間理解能力，就是機器人「理解世界」的核心底座。

而機器人行業的卡脖子問題是「資料」，如何能生產海量供機器人訓練的資料，光靠本體採集、遙操是不夠的，這時候JoyAI-Image-Edit能派上很大用場。

在具身智能的實測演示中，使用者只需輸入一句自然語言提示詞（比如「機器人左手舉起來」），並用畫框框選目標區域，就能對指定物體的動作、姿態和旋轉角度進行精細化操控.

在機器人做家務的實拍場景裡，模型完整保留了背景環境、物體空間關係與物理合理性，生成了機器人抬手的全新姿態。

這已經不是「修圖」，這是給機器人預演動作，也給機器人走進生活提供了大量優質的資料養料。

現在，京東正在將AI能力融入其「超級供應鏈」。

把空間智能的鑰匙交給所有人

這一次，京東選擇了Apache2.0協議開源，任何開發者、任何企業都可以自由地使用、修改、商用這個模型。

這件事的份量比想像中要重。

因為空間智能是通往AGI的「最後一公里」——一個AI如果連物體在空間中的位置關係都搞不清楚，談何理解世界？

而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源，等於把一把關鍵鑰匙交到了整個社區手裡。

對電商從業者，它是成本殺手；對設計師，它是隨身的三維助手；對機器人團隊，它是視覺感知的現成底座；對學術研究者，它是可以站在上面繼續往前走的巨人肩膀。

更重要的是，它讓空間智能這件事，不再是少數幾家閉源巨頭的專利。

不追風口，只押自己最懂的場景

這兩年大廠卷AI捲得飛起，參數比大小、榜單比名次、發佈會比排場，每個人都想成為下一個OpenAI。

但京東的節奏一直挺「穩」——不湊熱鬧，不跟風，它的AI佈局始終死死咬住一條主線：聚焦自己最懂、最具稟賦的實體場景，把AI扎到產業最深處。

過去一段時間，京東在AI上的動作密集得驚人：

開源基礎大模型JoyAI-LLM Flash，用基於「纖維叢」理論的FiberPO強化學習方法，在19個權威基準上躋身一梯隊；
京東雲「龍蝦」系列產品上線後，一周token呼叫量環比暴漲455%；
數字人JoyStreamer性能超越國際SOTA，覆蓋電商直播、文旅講解、新聞主播20多個場景；
JoyInside附身智能已經深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌，接入後帶動硬體對話輪次平均提升120%；

更猛的是，京東宣佈要建全球規模最大、場景最全的具身智能資料採集中心，兩年內攢下超過1000萬小時真實場景資料，動員數十萬人搞「人類史上最大的資料採集行動」。

看懂這份清單，你就看懂了京東的AI邏輯：零售、物流、工業、健康、具身——每一步都踩在自己的供應鏈和場景資源上。

別人在雲端打參數戰，京東在地上打場景戰。

別人在比誰的模型更聰明，京東在比誰的AI更能幹活、更能賺錢、更能落地。

而這一次開放原始碼的JoyAI-Image-Edit，正是這套打法的最新一塊拼圖。

京東的打法也給整個行業提了個醒：AI的競爭，終究不是參數的競爭，而是場景的競爭、落地的競爭、價值的競爭。

誰最懂自己的主場，誰就能把AI真正用起來。

零售、物流、工業、具身——京東把AI扎進了自己最肥沃的那幾畝地，然後讓種子在產業的土壤裡發芽。

屬於空間智能的時代，才剛剛開始。 (新智元)

從這裡可透過《Google 新聞》追蹤鉅亨號創作者