#JoyAI | 熱門關鍵字 | 鉅亨號

當多數圖像AI還停留在「會生成、不會懂空間」的階段，京東開源JoyAI-Image-Edit，把圖像編輯從平面修圖推向空間智能，也讓外界第一次看清：京東的AI佈局，從來不是追風口，而是死磕自己最有勝算的真實場景。這一刻，圖像AI升維了！過去兩年，我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸，畫賽博朋克街道比電影還炫，畫一隻手有六根手指也能讓你覺得是藝術。Grok生成的AI圖像所有人都以為，圖像AI已經快到頭了。直到你真的上手用它幹點正經事——想換個角度看看自家客廳？透視關係瞬間崩塌，沙發像在漂浮，落地燈穿牆而過。想把前景的蘋果和後面的書調一下前後順序？遮擋關係直接錯亂，比例全面失衡，畫面宛如一場災難現場。你氣不氣？你崩不崩潰？它們會畫畫，卻不懂空間。它們能生成驚豔的像素，卻看不懂像素背後那個立體的、有前後、有深度、有光影邏輯的真實世界。它們是熟練的「平面裱糊匠」，卻不是懂事的「空間觀察者」。這道檻兒，橫在圖像AI面前。誰來邁？JoyAI-Image-Edit把「空間智能」刻進骨子裡的開源模型4月初，京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。程式碼已經放在GitHub上，以Apache 2.0協議釋出，推理程式碼全部開放，開發者可以直接拿去做應用。目前，系統已完成對ComfyUI的支援，並全面相容Diffusers格式的模型權重與推理流程，方便開發者進行靈活部署與二次開發。連結：https://github.com/jd-opensource/JoyAI-Image體驗地址：https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space開源權重：https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit這是一件大事。因為它不是又一個「更好用的AI修圖工具」，而是業內首個把「空間智能」寫進模型架構底層的開源一體化圖像模型，讓模型真正「理解空間，編輯空間」。野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》，直譯過來就是「在統一的多模態理解與生成中，喚醒空間智能」。技術上，JoyAI-Image把一個80億參數的多模態語言模型（MLLM）和一個160億參數的多模態擴散Transformer（MMDiT）耦合在一起，形成一個共享介面，讓空間意圖從指令解析一路貫穿到圖像生成。更關鍵的是它背後的資料和訓練哲學：一條可擴展的資料流水線，包含空間理解資料（OpenSpatial）、長文字渲染資料、編輯資料（SpatialEdit），再加上多階段的最佳化策略。這套架構的精髓在那？在於「理解」和「生成」第一次形成了真正的閉環。過去的圖像模型，理解歸理解、生成歸生成，兩邊各玩各的。而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環協作：更強的空間理解讓生成和編輯更可控，而視角變換這類生成操作又反過來為空間推理提供新的證據。JoyAI-Image在圖像理解、合成與編輯方面均展現了全面領先的能力說人話就是：模型一邊「看」一邊「畫」，一邊「畫」又幫它看得更清楚。這才是真正意義上的空間智能覺醒。落到具體能力上，JoyAI-Image支援三種空間編輯提示範式：物體移動（Object Move）、物體旋轉（Object Rotation）和相機控制（Camera Control）。第一，相機控制。你可以用一句大白話告訴它——「把相機往右偏30度，往下俯15度，再拉近一點」——模型會在保持場景幾何一致性的前提下，給你生成一張全新視角的圖像，透視關係、遮擋關係、光影關係全都對得上。編輯指令：Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.編輯指令：Move the camera.Camera rotation: Yaw -45.0°, Pitch 22.5°.Camera zoom: unchanged.Keep the 3D scene static; only change the viewpoint.第二，物體旋轉與空間漫遊。支援連續的視角移動，能生成一整串邏輯連貫的多視角圖像序列。什麼意思？就好像你戴著一台虛擬相機，真的在這個三維場景裡「走動」，每一幀都立得住。編輯指令：Rotate the sneaker to show the front view.編輯指令：rotate the girl to show the rear left side view.編輯指令：rotate the elephant to show the front view.第三，物體空間關係操控。挪動、旋轉、縮放畫面中的任何一個物體，場景整體結構保持穩定，遮擋自然合理，光影過渡順滑，不會再出現變形、錯位、比例失衡那些老毛病。編輯指令：Move the coffee into the red box編輯指令：move the red car into the red box, remove the red box, remove the red car這種空間編輯能力帶來很多有趣的新玩法──給定第一幀（上圖）後，你利用空間編輯能力生成視訊的最後一幀（下圖）。然後，由視訊生成模型在兩者之間建立平滑的旋轉過渡，還能保持背景的一致性。更硬核的是橫評。和Qwen-Image-Edit、Nano Banana Pro相比，JoyAI-Image-Edit能夠忠實執行相機運動，合成最具診斷性的新視角，這些高保真的新視角有效地消除了複雜空間關係的歧義。同樣讓模型「換個角度看世界」，別人換出來的畫面或許能看，但JoyAI-Image-Edit換出來的畫面，是真的對，這對於把模型投入真實生產和應用環境來說至關重要。與此同時，它還全面相容15類通用編輯能力——替換、刪除、加入、風格遷移、細節精修、長文字渲染，樣樣拿得出手；尤其在空間推理、長文字渲染以及空間可控操作上表現尤為出色。比如，輸入一行指令就給小貓戴上皇冠。或者將行人從圖片中移走。長文字渲染更是拿手。頂尖的空間編輯×全面的通用編輯，這是真正的「文武雙全」。為什麼是電商和具身？一個模型的價值，不在跑分，而在用在那。JoyAI-Image-Edit最能發揮威力的兩個戰場，一個是電商，一個是具身智能——恰好都是京東的主場。做電商的品牌客戶，是對空間編輯最飢渴的使用者。一件商品拍進來，要換背景、換角度、換搭配、換場景、換光線。過去這些活兒要麼靠攝影師重拍，要麼靠設計師通宵P圖，要麼靠AI生成一堆「塑料感」假圖。有了JoyAI-Image-Edit，一張主圖可以自動衍生出幾十種視角和場景，商品還是那個商品，形象保持一致，細節不穿幫，成本直接砍到腳踝。對於服務著數百萬商家的京東來說，這不是錦上添花，這是水和電。具身智能的場景，則是空間理解最硬的剛需。機器人要在真實世界裡幹活，第一件事就是「看懂」空間——那是桌子、那是椅子、杯子離我多遠、我伸手能不能夠到。空間理解能力，就是機器人「理解世界」的核心底座。而機器人行業的卡脖子問題是「資料」，如何能生產海量供機器人訓練的資料，光靠本體採集、遙操是不夠的，這時候JoyAI-Image-Edit能派上很大用場。在具身智能的實測演示中，使用者只需輸入一句自然語言提示詞（比如「機器人左手舉起來」），並用畫框框選目標區域，就能對指定物體的動作、姿態和旋轉角度進行精細化操控.在機器人做家務的實拍場景裡，模型完整保留了背景環境、物體空間關係與物理合理性，生成了機器人抬手的全新姿態。這已經不是「修圖」，這是給機器人預演動作，也給機器人走進生活提供了大量優質的資料養料。現在，京東正在將AI能力融入其「超級供應鏈」。把空間智能的鑰匙交給所有人這一次，京東選擇了Apache2.0協議開源，任何開發者、任何企業都可以自由地使用、修改、商用這個模型。這件事的份量比想像中要重。因為空間智能是通往AGI的「最後一公里」——一個AI如果連物體在空間中的位置關係都搞不清楚，談何理解世界？而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源，等於把一把關鍵鑰匙交到了整個社區手裡。對電商從業者，它是成本殺手；對設計師，它是隨身的三維助手；對機器人團隊，它是視覺感知的現成底座；對學術研究者，它是可以站在上面繼續往前走的巨人肩膀。更重要的是，它讓空間智能這件事，不再是少數幾家閉源巨頭的專利。不追風口，只押自己最懂的場景這兩年大廠卷AI捲得飛起，參數比大小、榜單比名次、發佈會比排場，每個人都想成為下一個OpenAI。但京東的節奏一直挺「穩」——不湊熱鬧，不跟風，它的AI佈局始終死死咬住一條主線：聚焦自己最懂、最具稟賦的實體場景，把AI扎到產業最深處。過去一段時間，京東在AI上的動作密集得驚人：開源基礎大模型JoyAI-LLM Flash，用基於「纖維叢」理論的FiberPO強化學習方法，在19個權威基準上躋身一梯隊；京東雲「龍蝦」系列產品上線後，一周token呼叫量環比暴漲455%；數字人JoyStreamer性能超越國際SOTA，覆蓋電商直播、文旅講解、新聞主播20多個場景；JoyInside附身智能已經深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌，接入後帶動硬體對話輪次平均提升120%；更猛的是，京東宣佈要建全球規模最大、場景最全的具身智能資料採集中心，兩年內攢下超過1000萬小時真實場景資料，動員數十萬人搞「人類史上最大的資料採集行動」。看懂這份清單，你就看懂了京東的AI邏輯：零售、物流、工業、健康、具身——每一步都踩在自己的供應鏈和場景資源上。別人在雲端打參數戰，京東在地上打場景戰。別人在比誰的模型更聰明，京東在比誰的AI更能幹活、更能賺錢、更能落地。而這一次開放原始碼的JoyAI-Image-Edit，正是這套打法的最新一塊拼圖。京東的打法也給整個行業提了個醒：AI的競爭，終究不是參數的競爭，而是場景的競爭、落地的競爭、價值的競爭。誰最懂自己的主場，誰就能把AI真正用起來。零售、物流、工業、具身——京東把AI扎進了自己最肥沃的那幾畝地，然後讓種子在產業的土壤裡發芽。屬於空間智能的時代，才剛剛開始。 (新智元)