京东开源240亿参数JoyAI-Image-Edit，图像编辑迈入空间智能新纪元

发布时间：2026-04-12 15:02 来源：快讯作者：周伟

当多数图像生成工具还在平面修图的层面徘徊时，京东推出的开源模型JoyAI-Image-Edit已将技术推向空间智能的新维度。这款模型突破了传统AI对空间关系的模糊处理，能够精准理解三维场景中的物体位置、遮挡关系和光影逻辑，为图像编辑领域带来革命性变革。

传统图像AI在处理空间任务时常出现透视错乱、物体漂浮等低级错误。例如调整家具位置时，沙发可能脱离地面；改变拍摄角度时，墙壁会出现扭曲变形。这些缺陷源于模型缺乏对真实三维世界的理解，仅能机械组合像素而无法把握空间逻辑。京东研发团队通过将空间智能融入模型底层架构，使系统能够像人类一样感知场景深度和物体关系。

该模型采用创新性的双模态耦合设计，将80亿参数的多模态语言模型与160亿参数的扩散Transformer深度整合。这种架构使空间指令解析与图像生成形成闭环——当用户要求"将相机右移30度"时，系统不仅调整视角，还会自动修正新视角下的遮挡关系和光影变化。测试数据显示，在复杂场景的视角转换任务中，其生成的图像空间一致性比同类模型提升47%。

在电商领域，这项技术展现出巨大应用价值。品牌商可通过单一产品图自动生成数十种展示视角，无需重新拍摄或人工修图。某家居品牌实测显示，使用该模型后新品上架效率提升3倍，视觉素材成本降低65%。模型支持物体旋转、相机移动等15类编辑操作，能精准控制每个物体的空间位置，甚至可生成符合物理规律的动态序列。

具身智能领域成为另一个重要应用场景。在机器人训练中，系统可根据自然语言指令生成海量合成数据。当要求"机器人左手举起"时，模型不仅调整机械臂姿态，还会保持背景环境合理性，生成符合物理规则的动作序列。这种数据生成能力有效解决了机器人训练的数据瓶颈问题，为实体智能设备落地提供关键支持。

技术实现层面，研发团队构建了包含空间理解数据、长文本渲染数据和编辑数据的多阶段训练体系。通过可扩展的数据流水线，模型同时具备空间推理和通用编辑能力。在横向评测中，其相机控制精度比主流模型提高32%，物体空间关系处理准确率达91%，特别在复杂场景的透视保持方面表现突出。

京东选择Apache 2.0协议开源该模型，提供完整的推理代码和模型权重。开发者可在GitHub、Hugging Face等平台获取资源，并基于Diffusers格式进行二次开发。这种开放策略使中小团队也能利用先进的空间智能技术，推动整个行业的技术普惠。目前已有超过200家企业申请商用授权，涵盖电商、设计、机器人等多个领域。

在AI技术竞争日益激烈的背景下，京东的差异化路线引人注目。不同于追求参数规模的军备竞赛，该公司将技术扎根于零售、物流等实体场景，通过解决真实产业问题实现价值创造。从基础大模型到数字人，再到具身智能数据中心，其技术布局始终围绕供应链优化展开。这种务实策略或许预示着AI发展的新方向——让技术回归服务实体经济的本质。

更多>同类内容