在火山引擎FORCE原动力大会上,字节跳动再次展示了其在图像与视频生成领域的创新实力。图像生成模型Seedream 5.0 Pro和视频生成模型Seedance 2.5的亮相,标志着该公司在多模态生成技术上迈出了重要一步。Seedream 5.0 Pro不仅支持交互式精准编辑,还能将画面拆解为多图层,直接生成可编辑的分层设计图;而Seedance 2.5则将单段原生时长延长至30秒,并支持50个素材的联合参考,为视频创作提供了更多可能性。
回顾过去一年多的发展历程,字节跳动的生成模型几乎保持了每月更新的频率。其中,2025年9月发布的Seedream 4.0是一个关键节点,它首次将“按文字生成图片”和“修改已有图片”两种功能整合到同一个模型中。然而,这种整合并非简单相加,实际操作中常常面临能力冲突的问题。例如,增加局部编辑功能可能会影响文生图的基本性能,而叠加全局改写功能又可能导致局部编辑出现混乱。模型在处理多种任务时,就像多人同时操控方向盘,最终结果往往偏离预期方向。
为了解决这一难题,字节Seed团队联合新加坡国立大学等高校,在arXiv平台上发布了一篇名为DanceOPD的论文。该研究由NUS资深教授Tat-Seng Chua参与指导,体现了工业界与学术界的深度合作。论文提出了一种新方法,旨在为生成模型添加新功能的同时,不削弱原有能力。这一研究不仅具有学术价值,更与用户实际使用场景高度契合。在字节的AI创作工具即梦中,用户通常会连续进行多个操作:先生成图片,再修改背景、更换风格、扩展画幅或进行局部重绘。理想情况下,这些操作应由同一个模型完成,但现实中每增加一种编辑功能,要么需要额外部署专用模型,要么将功能硬塞进主模型导致文生图质量下降。DanceOPD提供了一种新的解决方案:将训练好的“编辑专家”模型作为“冻结教师”,通过蒸馏技术将其能力迁移到主模型中,且仅更新少量轻量参数,避免对主模型的基础结构造成影响。
从产品逻辑来看,这种方法实现了“增量加能力”。Seedream系列模型从4.0到5.0的迭代过程中,每次更新都为主模型增添了新功能。传统做法通常采用重训或权重融合,但这些方法存在风险:新功能提升的同时,老功能可能退化。论文中的实测结果显示,采用权重融合方式时,文生图分数基本保持不变,但图片编辑能力直接归零,这正是传统方法局限性的体现。而DanceOPD采用的硬路由蒸馏技术,理论上可以在不影响现有能力的情况下添加新的编辑功能,显著降低了迭代成本和失败概率。
该研究还解决了两个具体问题:其一,将CFG(无分类器引导)作为一种能力场吸收进模型权重中,省去了推理时的额外计算,对于处理海量C端请求的即梦产品而言,每张图片节省一次计算都意味着实际成本的降低;其二,Seedream 5.0主打的精致纹理和SeedEdit主打的“非编辑区域保持不动”功能,在DanceOPD框架中分别对应“写实场吸收”和“保留型局部编辑场”,均得到了明确支持。
尽管论文尚未明确说明这套机制已应用于哪个版本的Seedream模型,目前仍处于研究阶段,但其瞄准的问题、采用的技术底座(计划支持SD3.5、Z-Image等开源流匹配模型)与字节跳动的产品路线高度一致。要理解这篇论文的核心贡献,需先了解当前主流生图模型的工作原理。这些模型通常采用流匹配技术,将“从随机噪声生成清晰图片”的过程分解为无数微小位移,每个位置都有一个“速度场”指导数据移动方向。文生图、局部编辑和全局改写分别对应不同的速度场,但这些场之间往往相互干扰,导致生成结果模糊不清。论文将这种能力丢失现象命名为“capability identity”,即能力的身份缺失。
针对这一问题,业界此前尝试过多种方法,如联合训练、权重融合和离策略蒸馏等,但这些方法都存在局限性:联合训练会稀释编辑能力,权重融合会导致编辑能力崩溃,离策略蒸馏则面临训练与部署场景不匹配的问题。DanceOPD提出了三招创新解决方案:第一招是硬路由,不再平均多个教师模型的结论,而是为每个训练样本指定唯一教师,确保能力身份不被模糊;第二招是采用在策略蒸馏,在学生模型实际生成轨迹的状态上进行教学,而非在教师模型或数据中的状态上进行;第三招是选择低噪声点进行单点对齐,采用简单的均方误差(MSE)作为对齐方式,避免使用复杂的奖励模型或对抗判别器。实验数据显示,硬路由配单点MSE的组合在图像编辑评测GEditBench上取得了5.347的分数,比最强基线高出8.1%;在局部编辑加全局编辑的组合上取得5.498的分数,比最强对照高出16.1%;同时,衡量文生图基本功的Geneval指标不降反升。
虽然DanceOPD的官方代码尚未公开,GitHub上显示“等待批准发布”,且计划支持的Seedream、SeedEdit教师模型也不开源,导致外部难以立即复现论文结果,但其核心机制——硬路由加在策略蒸馏——已通过简单实验得到验证。研究人员用两个目标分布代替两种能力,一个圆环代表“文生图”,四个角的点簇代表“编辑”,各配一个冻结的教师速度场,然后用三种策略训练同一个小网络。软融合策略将两个教师模型的箭头平均教学,结果导致生成圆环时出现点簇,文生图能力被编辑功能干扰;而DanceOPD的硬路由加在策略蒸馏策略则成功保持了两种能力的独立性,量化结果显示,到目标分布的平均偏差从软融合的0.239降至0.028,降幅约88%。对于字节跳动这样已将多能力生图技术产品化的企业而言,DanceOPD的研究为解决能力冲突问题提供了清晰的思路,也为AI图片的直接修改提供了高效路径。






















