京东开源240亿参数JoyAI-Image-Edit,图像编辑迈入空间智能新纪元

   发布时间:2026-04-12 15:02 作者:周伟

当多数图像生成工具还在平面修图的层面徘徊时,京东推出的开源模型JoyAI-Image-Edit已将技术推向空间智能的新维度。这款模型突破了传统AI对空间关系的模糊处理,能够精准理解三维场景中的物体位置、遮挡关系和光影逻辑,为图像编辑领域带来革命性变革。

传统图像AI在处理空间任务时常出现透视错乱、物体漂浮等低级错误。例如调整家具位置时,沙发可能脱离地面;改变拍摄角度时,墙壁会出现扭曲变形。这些缺陷源于模型缺乏对真实三维世界的理解,仅能机械组合像素而无法把握空间逻辑。京东研发团队通过将空间智能融入模型底层架构,使系统能够像人类一样感知场景深度和物体关系。

该模型采用创新性的双模态耦合设计,将80亿参数的多模态语言模型与160亿参数的扩散Transformer深度整合。这种架构使空间指令解析与图像生成形成闭环——当用户要求"将相机右移30度"时,系统不仅调整视角,还会自动修正新视角下的遮挡关系和光影变化。测试数据显示,在复杂场景的视角转换任务中,其生成的图像空间一致性比同类模型提升47%。

在电商领域,这项技术展现出巨大应用价值。品牌商可通过单一产品图自动生成数十种展示视角,无需重新拍摄或人工修图。某家居品牌实测显示,使用该模型后新品上架效率提升3倍,视觉素材成本降低65%。模型支持物体旋转、相机移动等15类编辑操作,能精准控制每个物体的空间位置,甚至可生成符合物理规律的动态序列。

具身智能领域成为另一个重要应用场景。在机器人训练中,系统可根据自然语言指令生成海量合成数据。当要求"机器人左手举起"时,模型不仅调整机械臂姿态,还会保持背景环境合理性,生成符合物理规则的动作序列。这种数据生成能力有效解决了机器人训练的数据瓶颈问题,为实体智能设备落地提供关键支持。

技术实现层面,研发团队构建了包含空间理解数据、长文本渲染数据和编辑数据的多阶段训练体系。通过可扩展的数据流水线,模型同时具备空间推理和通用编辑能力。在横向评测中,其相机控制精度比主流模型提高32%,物体空间关系处理准确率达91%,特别在复杂场景的透视保持方面表现突出。

京东选择Apache 2.0协议开源该模型,提供完整的推理代码和模型权重。开发者可在GitHub、Hugging Face等平台获取资源,并基于Diffusers格式进行二次开发。这种开放策略使中小团队也能利用先进的空间智能技术,推动整个行业的技术普惠。目前已有超过200家企业申请商用授权,涵盖电商、设计、机器人等多个领域。

在AI技术竞争日益激烈的背景下,京东的差异化路线引人注目。不同于追求参数规模的军备竞赛,该公司将技术扎根于零售、物流等实体场景,通过解决真实产业问题实现价值创造。从基础大模型到数字人,再到具身智能数据中心,其技术布局始终围绕供应链优化展开。这种务实策略或许预示着AI发展的新方向——让技术回归服务实体经济的本质。

 
 
更多>同类内容
全站最新
热门内容
本栏最新