字节Seed团队新论文：破解AI生图模型能力叠加难题，实现高效编辑与生成双赢

发布时间：2026-07-02 08:53 来源：快讯作者：任飞扬

在火山引擎FORCE原动力大会上，字节跳动再次展示了其在图像与视频生成领域的创新实力。图像生成模型Seedream 5.0 Pro和视频生成模型Seedance 2.5的亮相，标志着该公司在多模态生成技术上迈出了重要一步。Seedream 5.0 Pro不仅支持交互式精准编辑，还能将画面拆解为多图层，直接生成可编辑的分层设计图；而Seedance 2.5则将单段原生时长延长至30秒，并支持50个素材的联合参考，为视频创作提供了更多可能性。

回顾过去一年多的发展历程，字节跳动的生成模型几乎保持了每月更新的频率。其中，2025年9月发布的Seedream 4.0是一个关键节点，它首次将“按文字生成图片”和“修改已有图片”两种功能整合到同一个模型中。然而，这种整合并非简单相加，实际操作中常常面临能力冲突的问题。例如，增加局部编辑功能可能会影响文生图的基本性能，而叠加全局改写功能又可能导致局部编辑出现混乱。模型在处理多种任务时，就像多人同时操控方向盘，最终结果往往偏离预期方向。

为了解决这一难题，字节Seed团队联合新加坡国立大学等高校，在arXiv平台上发布了一篇名为DanceOPD的论文。该研究由NUS资深教授Tat-Seng Chua参与指导，体现了工业界与学术界的深度合作。论文提出了一种新方法，旨在为生成模型添加新功能的同时，不削弱原有能力。这一研究不仅具有学术价值，更与用户实际使用场景高度契合。在字节的AI创作工具即梦中，用户通常会连续进行多个操作：先生成图片，再修改背景、更换风格、扩展画幅或进行局部重绘。理想情况下，这些操作应由同一个模型完成，但现实中每增加一种编辑功能，要么需要额外部署专用模型，要么将功能硬塞进主模型导致文生图质量下降。DanceOPD提供了一种新的解决方案：将训练好的“编辑专家”模型作为“冻结教师”，通过蒸馏技术将其能力迁移到主模型中，且仅更新少量轻量参数，避免对主模型的基础结构造成影响。

从产品逻辑来看，这种方法实现了“增量加能力”。Seedream系列模型从4.0到5.0的迭代过程中，每次更新都为主模型增添了新功能。传统做法通常采用重训或权重融合，但这些方法存在风险：新功能提升的同时，老功能可能退化。论文中的实测结果显示，采用权重融合方式时，文生图分数基本保持不变，但图片编辑能力直接归零，这正是传统方法局限性的体现。而DanceOPD采用的硬路由蒸馏技术，理论上可以在不影响现有能力的情况下添加新的编辑功能，显著降低了迭代成本和失败概率。

该研究还解决了两个具体问题：其一，将CFG（无分类器引导）作为一种能力场吸收进模型权重中，省去了推理时的额外计算，对于处理海量C端请求的即梦产品而言，每张图片节省一次计算都意味着实际成本的降低；其二，Seedream 5.0主打的精致纹理和SeedEdit主打的“非编辑区域保持不动”功能，在DanceOPD框架中分别对应“写实场吸收”和“保留型局部编辑场”，均得到了明确支持。

尽管论文尚未明确说明这套机制已应用于哪个版本的Seedream模型，目前仍处于研究阶段，但其瞄准的问题、采用的技术底座（计划支持SD3.5、Z-Image等开源流匹配模型）与字节跳动的产品路线高度一致。要理解这篇论文的核心贡献，需先了解当前主流生图模型的工作原理。这些模型通常采用流匹配技术，将“从随机噪声生成清晰图片”的过程分解为无数微小位移，每个位置都有一个“速度场”指导数据移动方向。文生图、局部编辑和全局改写分别对应不同的速度场，但这些场之间往往相互干扰，导致生成结果模糊不清。论文将这种能力丢失现象命名为“capability identity”，即能力的身份缺失。

针对这一问题，业界此前尝试过多种方法，如联合训练、权重融合和离策略蒸馏等，但这些方法都存在局限性：联合训练会稀释编辑能力，权重融合会导致编辑能力崩溃，离策略蒸馏则面临训练与部署场景不匹配的问题。DanceOPD提出了三招创新解决方案：第一招是硬路由，不再平均多个教师模型的结论，而是为每个训练样本指定唯一教师，确保能力身份不被模糊；第二招是采用在策略蒸馏，在学生模型实际生成轨迹的状态上进行教学，而非在教师模型或数据中的状态上进行；第三招是选择低噪声点进行单点对齐，采用简单的均方误差（MSE）作为对齐方式，避免使用复杂的奖励模型或对抗判别器。实验数据显示，硬路由配单点MSE的组合在图像编辑评测GEditBench上取得了5.347的分数，比最强基线高出8.1%；在局部编辑加全局编辑的组合上取得5.498的分数，比最强对照高出16.1%；同时，衡量文生图基本功的Geneval指标不降反升。

虽然DanceOPD的官方代码尚未公开，GitHub上显示“等待批准发布”，且计划支持的Seedream、SeedEdit教师模型也不开源，导致外部难以立即复现论文结果，但其核心机制——硬路由加在策略蒸馏——已通过简单实验得到验证。研究人员用两个目标分布代替两种能力，一个圆环代表“文生图”，四个角的点簇代表“编辑”，各配一个冻结的教师速度场，然后用三种策略训练同一个小网络。软融合策略将两个教师模型的箭头平均教学，结果导致生成圆环时出现点簇，文生图能力被编辑功能干扰；而DanceOPD的硬路由加在策略蒸馏策略则成功保持了两种能力的独立性，量化结果显示，到目标分布的平均偏差从软融合的0.239降至0.028，降幅约88%。对于字节跳动这样已将多能力生图技术产品化的企业而言，DanceOPD的研究为解决能力冲突问题提供了清晰的思路，也为AI图片的直接修改提供了高效路径。

更多>同类内容