#JoyAI
重磅開源!240億參數力壓Nano Banana 2
當多數圖像AI還停留在「會生成、不會懂空間」的階段,京東開源JoyAI-Image-Edit,把圖像編輯從平面修圖推向空間智能,也讓外界第一次看清:京東的AI佈局,從來不是追風口,而是死磕自己最有勝算的真實場景。這一刻,圖像AI升維了!過去兩年,我們見過太多「神級」圖像模型——畫貓比真貓還毛茸茸,畫賽博朋克街道比電影還炫,畫一隻手有六根手指也能讓你覺得是藝術。Grok生成的AI圖像所有人都以為,圖像AI已經快到頭了。直到你真的上手用它幹點正經事——想換個角度看看自家客廳?透視關係瞬間崩塌,沙發像在漂浮,落地燈穿牆而過。想把前景的蘋果和後面的書調一下前後順序?遮擋關係直接錯亂,比例全面失衡,畫面宛如一場災難現場。你氣不氣?你崩不崩潰?它們會畫畫,卻不懂空間。它們能生成驚豔的像素,卻看不懂像素背後那個立體的、有前後、有深度、有光影邏輯的真實世界。它們是熟練的「平面裱糊匠」,卻不是懂事的「空間觀察者」。這道檻兒,橫在圖像AI面前。誰來邁?JoyAI-Image-Edit把「空間智能」刻進骨子裡的開源模型4月初,京東探索研究院正式對外開源自研的JoyAI-Image-Edit圖像模型。程式碼已經放在GitHub上,以Apache 2.0協議釋出,推理程式碼全部開放,開發者可以直接拿去做應用。目前,系統已完成對ComfyUI的支援,並全面相容Diffusers格式的模型權重與推理流程,方便開發者進行靈活部署與二次開發。連結:https://github.com/jd-opensource/JoyAI-Image體驗地址:https://huggingface.co/spaces/stevengrove/JoyAI-Image-Edit-Space開源權重:https://modelscope.cn/models/jd-opensource/JoyAI-Image-Edit這是一件大事。因為它不是又一個「更好用的AI修圖工具」,而是業內首個把「空間智能」寫進模型架構底層的開源一體化圖像模型,讓模型真正「理解空間,編輯空間」。野心就寫在標題上——《JoyAI-Image:Awakening Spatial Intelligence in Unified Multimodal Understanding and Generation》,直譯過來就是「在統一的多模態理解與生成中,喚醒空間智能」。技術上,JoyAI-Image把一個80億參數的多模態語言模型(MLLM)和一個160億參數的多模態擴散Transformer(MMDiT)耦合在一起,形成一個共享介面,讓空間意圖從指令解析一路貫穿到圖像生成。更關鍵的是它背後的資料和訓練哲學:一條可擴展的資料流水線,包含空間理解資料(OpenSpatial)、長文字渲染資料、編輯資料(SpatialEdit),再加上多階段的最佳化策略。這套架構的精髓在那?在於「理解」和「生成」第一次形成了真正的閉環。過去的圖像模型,理解歸理解、生成歸生成,兩邊各玩各的。而JoyAI-Image的核心原則是理解、生成、編輯三者之間的閉環協作:更強的空間理解讓生成和編輯更可控,而視角變換這類生成操作又反過來為空間推理提供新的證據。JoyAI-Image在圖像理解、合成與編輯方面均展現了全面領先的能力說人話就是:模型一邊「看」一邊「畫」,一邊「畫」又幫它看得更清楚。這才是真正意義上的空間智能覺醒。落到具體能力上,JoyAI-Image支援三種空間編輯提示範式:物體移動(Object Move)、物體旋轉(Object Rotation)和相機控制(Camera Control)。第一,相機控制。你可以用一句大白話告訴它——「把相機往右偏30度,往下俯15度,再拉近一點」——模型會在保持場景幾何一致性的前提下,給你生成一張全新視角的圖像,透視關係、遮擋關係、光影關係全都對得上。編輯指令:Move the camera. - Camera rotation: Yaw 90.0°, Pitch 0.0°. - Camera zoom: unchanged. - Keep the 3D scene static; only change the viewpoint.編輯指令:Move the camera.Camera rotation: Yaw -45.0°, Pitch 22.5°.Camera zoom: unchanged.Keep the 3D scene static; only change the viewpoint.第二,物體旋轉與空間漫遊。支援連續的視角移動,能生成一整串邏輯連貫的多視角圖像序列。什麼意思?就好像你戴著一台虛擬相機,真的在這個三維場景裡「走動」,每一幀都立得住。編輯指令:Rotate the sneaker to show the front view.編輯指令:rotate the girl to show the rear left side view.編輯指令:rotate the elephant to show the front view.第三,物體空間關係操控。挪動、旋轉、縮放畫面中的任何一個物體,場景整體結構保持穩定,遮擋自然合理,光影過渡順滑,不會再出現變形、錯位、比例失衡那些老毛病。編輯指令:Move the coffee into the red box編輯指令:move the red car into the red box, remove the red box, remove the red car這種空間編輯能力帶來很多有趣的新玩法──給定第一幀(上圖)後,你利用空間編輯能力生成視訊的最後一幀(下圖)。然後,由視訊生成模型在兩者之間建立平滑的旋轉過渡,還能保持背景的一致性。更硬核的是橫評。和Qwen-Image-Edit、Nano Banana Pro相比,JoyAI-Image-Edit能夠忠實執行相機運動,合成最具診斷性的新視角,這些高保真的新視角有效地消除了複雜空間關係的歧義。同樣讓模型「換個角度看世界」,別人換出來的畫面或許能看,但JoyAI-Image-Edit換出來的畫面,是真的對,這對於把模型投入真實生產和應用環境來說至關重要。與此同時,它還全面相容15類通用編輯能力——替換、刪除、加入、風格遷移、細節精修、長文字渲染,樣樣拿得出手;尤其在空間推理、長文字渲染以及空間可控操作上表現尤為出色。比如,輸入一行指令就給小貓戴上皇冠。或者將行人從圖片中移走。長文字渲染更是拿手。頂尖的空間編輯×全面的通用編輯,這是真正的「文武雙全」。為什麼是電商和具身?一個模型的價值,不在跑分,而在用在那。JoyAI-Image-Edit最能發揮威力的兩個戰場,一個是電商,一個是具身智能——恰好都是京東的主場。做電商的品牌客戶,是對空間編輯最飢渴的使用者。一件商品拍進來,要換背景、換角度、換搭配、換場景、換光線。過去這些活兒要麼靠攝影師重拍,要麼靠設計師通宵P圖,要麼靠AI生成一堆「塑料感」假圖。有了JoyAI-Image-Edit,一張主圖可以自動衍生出幾十種視角和場景,商品還是那個商品,形象保持一致,細節不穿幫,成本直接砍到腳踝。對於服務著數百萬商家的京東來說,這不是錦上添花,這是水和電。具身智能的場景,則是空間理解最硬的剛需。機器人要在真實世界裡幹活,第一件事就是「看懂」空間——那是桌子、那是椅子、杯子離我多遠、我伸手能不能夠到。空間理解能力,就是機器人「理解世界」的核心底座。而機器人行業的卡脖子問題是「資料」,如何能生產海量供機器人訓練的資料,光靠本體採集、遙操是不夠的,這時候JoyAI-Image-Edit能派上很大用場。在具身智能的實測演示中,使用者只需輸入一句自然語言提示詞(比如「機器人左手舉起來」),並用畫框框選目標區域,就能對指定物體的動作、姿態和旋轉角度進行精細化操控.在機器人做家務的實拍場景裡,模型完整保留了背景環境、物體空間關係與物理合理性,生成了機器人抬手的全新姿態。這已經不是「修圖」,這是給機器人預演動作,也給機器人走進生活提供了大量優質的資料養料。現在,京東正在將AI能力融入其「超級供應鏈」。把空間智能的鑰匙交給所有人這一次,京東選擇了Apache2.0協議開源,任何開發者、任何企業都可以自由地使用、修改、商用這個模型。這件事的份量比想像中要重。因為空間智能是通往AGI的「最後一公里」——一個AI如果連物體在空間中的位置關係都搞不清楚,談何理解世界?而把這樣一個在空間一致性上達到世界一流水準的模型徹底開源,等於把一把關鍵鑰匙交到了整個社區手裡。對電商從業者,它是成本殺手;對設計師,它是隨身的三維助手;對機器人團隊,它是視覺感知的現成底座;對學術研究者,它是可以站在上面繼續往前走的巨人肩膀。更重要的是,它讓空間智能這件事,不再是少數幾家閉源巨頭的專利。不追風口,只押自己最懂的場景這兩年大廠卷AI捲得飛起,參數比大小、榜單比名次、發佈會比排場,每個人都想成為下一個OpenAI。但京東的節奏一直挺「穩」——不湊熱鬧,不跟風,它的AI佈局始終死死咬住一條主線:聚焦自己最懂、最具稟賦的實體場景,把AI扎到產業最深處。過去一段時間,京東在AI上的動作密集得驚人:開源基礎大模型JoyAI-LLM Flash,用基於「纖維叢」理論的FiberPO強化學習方法,在19個權威基準上躋身一梯隊;京東雲「龍蝦」系列產品上線後,一周token呼叫量環比暴漲455%;數字人JoyStreamer性能超越國際SOTA,覆蓋電商直播、文旅講解、新聞主播20多個場景;JoyInside附身智能已經深度接入近百個家電家居品牌、40多個機器人與AI玩具品牌,接入後帶動硬體對話輪次平均提升120%;更猛的是,京東宣佈要建全球規模最大、場景最全的具身智能資料採集中心,兩年內攢下超過1000萬小時真實場景資料,動員數十萬人搞「人類史上最大的資料採集行動」。看懂這份清單,你就看懂了京東的AI邏輯:零售、物流、工業、健康、具身——每一步都踩在自己的供應鏈和場景資源上。別人在雲端打參數戰,京東在地上打場景戰。別人在比誰的模型更聰明,京東在比誰的AI更能幹活、更能賺錢、更能落地。而這一次開放原始碼的JoyAI-Image-Edit,正是這套打法的最新一塊拼圖。京東的打法也給整個行業提了個醒:AI的競爭,終究不是參數的競爭,而是場景的競爭、落地的競爭、價值的競爭。誰最懂自己的主場,誰就能把AI真正用起來。零售、物流、工業、具身——京東把AI扎進了自己最肥沃的那幾畝地,然後讓種子在產業的土壤裡發芽。屬於空間智能的時代,才剛剛開始。 (新智元)
沸騰了!人工智慧
今天,在京東全球科技探索者大會(JDD)上,京東宣佈,未來三年,將持續投入,帶動形成兆規模的人工智慧生態。這次大會,京東首次系統展示了AI全景佈局,不僅升級“JoyAI”大模型品牌,還一口氣發佈三款C端產品、四大場景應用和三大深度平台,意圖把供應鏈優勢延伸至使用者端。受此消息帶動,京東集團港股股價盤中漲幅近7%。9月25日,京東宣佈:未來三年,將持續投入,帶動形成兆規模的人工智慧生態三款產品全面押注AI新互動本次發佈的三款AI原生應用分別:京犀App、他她它、JoyInside 2.0——京東正在跳出傳統電商語境,全面押注AI驅動的新互動。JoyInside2.0已接入超30家品牌即將上線的京犀App,被定位為“下一代購物與生活服務超級入口”,不只“聽懂人話”,更理解商品,意圖實現真正意義上的超個性化推薦。據透露,AI購物、AI試衣等體驗後續將從主站遷入這款獨立App。“他她它”App則搭載新版JoyAI大模型,內建一位什麼都能聊的“萬能博士”智能體,既能查天氣、點外賣、聊財經,還可根據使用者性格切換對話風格。同時,推出“AI圈子”,借智能體互連幫使用者尋找同頻夥伴,甚至可嵌入多類硬體,實現IP聯名和“記憶一致”的跨裝置體驗。同時,京東正式推出行業首個“附身智能平台”JoyInside 2.0,強調全齡陪伴、擬人互動和言行一致三大能力,為機器人、AI玩具、智能眼鏡等終端“裝上大腦”。目前已有超過30家硬體品牌接入,相關產品已上線京東。從模型升級到生態擴容,從B端賦能到C端破局——京東正在AI戰場重力出擊。供應鏈上長出四大深度應用對比其他大廠,京東在AI佈局上顯得尤為“聚焦”——始終緊扣產業深度應用與自身核心命脈:供應鏈。AI重塑供應鏈,已成為其最明確的戰略主線,並已在零售、物流、健康、工業四大場景跑通落地、成效顯著。9月25日,京東首次系統展示了AI全景佈局在零售場景,大模型正在深度融入商家經營全流程。目前,已有包含京麥商家AI助手、廣告智能投放Agent、京點點在內的50多款專業AI工具,服務超300萬商家,每周輔助完成超3000萬次經營決策。此外,零售創新AI平台,為商家提供從內容創作、行銷推廣,到供應鏈最佳化、客服服務等采銷關鍵環節。未來,還將拓展到創意洞察,策略執行等更高階經營環節,幫助商家實現全鏈路經營提效,成為品牌增長的新引擎。在物流場景,在今年的JDD大會上全新升級的超腦大模型2.0,全面走向多模態,實現智能裝置的自主決策與多裝置智能協作,成倍提升物流供應鏈作業效率。在物流倉內,儲存、搬運、分揀、分播、運輸等方向的多款“狼族”產品全面接入超腦大模型,實現自主決策與智能協同工作。截至目前,在全球,“狼族”產品已經規模化部署超500個物流倉。在健康場景,京東健康持續開源“京醫千詢2.0”,這也是行業首個突破可信推理及全模態能力的醫療大模型。在工業場景,基於5710萬工業品SKU、超40個細分行業資料,訓練的行業首個工業大模型,目前已經服務超1萬家工業企業,提供商品、採購、履約與營運數智化服務,幫企業把供應鏈成本打下來,把效率提上去。大廠紛紛加碼AI,產業場景跑起來了和年初一窩蜂曬大模型跑分、刷榜Benchmark的情形截然不同,這一輪,所有人話鋒一轉,齊刷刷指向四個字——產業落地。行業關心的是:到底怎麼用?用在那兒?效果行不行?一句話,AI正在走出“技術狂歡”,邁入“應用淘金”。9月以來,各大廠大會“排期戰”如火如荼,“搶嘉賓大戰”更是悄然換角——以前爭的是院士、技術大牛,現在拼的是真正有落地案例的企業創始人和CIO。翻翻議程就知道,製造業、金融、能源等行業的代表成了新晉“香餑餑”。這背後是一個清晰的訊號:大模型技術正快速普及,壁壘逐漸消融,下一戰,就看誰更懂行業、更能扎深場景。9月25日京東全球科技探索者大會在北京召開應用之爭表面波瀾不驚,底層卻是真金白銀的“軍備競賽”。年初,就傳出字節全年資本支出超200億美元、大部分押注AI;隨後阿里高調官宣:未來三年砸下3800億,重倉雲端運算與AI基建;騰訊也在年報會上表態,2025年AI相關資本開支要佔到收入“低雙位數百分比”——外界測算,規模直奔千億。除了直接砸錢,大廠們也紛紛“走出去”,靠股權投資鋪生態、卡位賽道。阿里一邊直投AI初創,一邊借道私募基金佈局產業鏈,不久前剛領投了AI視訊生成領域單輪最大一筆融資;字節跳動一筆罕見的投資也浮出水面,以全資收購方式殺入醫療健康賽道,打算在生態內推出AI健康科普與諮詢;京東則更加聚焦,在“具身智能”方向連續落子,自6月以來,已相繼投資智元、帕西尼、眾擎等一批機器人企業。“AI軍備賽“,正從模型層捲向生態與場景的深水區。AGI前夜:深度應用進入“量產階段”,成為科技牛市的有力支撐年初至今,A股人工智慧類股累計漲幅近80%,機器人類股也漲超40%,成為本輪科技行情當之無愧的領漲主線。行情背後,是AI應用落地與商業化處理程序的全面提速。在邁向AGI的前夜,AI應用已悄然進入“量產階段”——工業質檢、智能投顧、AI輔助診斷等場景滲透率快速提升,越來越多企業借AI實現切實的降本、增效與創新。據IDC預測,2024年中國AI市場規模將突破300億美元,增速保持在25%以上。而全球最大數字基礎設施投資機構博楓更預計,未來十年AI基礎設施投資規模將超7兆美元,AI與機器人技術有望撬動全球10兆美元的生產力增長。機構共識鮮明:AI正步入價值兌現期。華泰證券指出,隨著下游需求爆發和商業模式清晰,AI企業盈利狀況有望持續改善。中長期看,那些手握核心技術、強生態能力和清晰場景佈局的公司,將擁有更確定的成長空間。產業高景氣、資金持續流入、政策利多延續——AI類股在三重動力支撐下,仍有望帶領這場科技牛市繼續向前。 (中國基金報)