字节跳动推出Seedance 1.5 pro：多语种方言支持音视频同步生成新突破

发布时间：2025-12-17 00:07 来源：快讯作者：郑浩

字节跳动近日正式推出全新音视频生成模型Seedance 1.5 pro，这款模型突破传统生成模式，首次实现从文本或图像直接生成带同步音频的视频内容。该技术通过音视频联合生成框架，将语音合成与动态画面创作整合为单一流程，为内容创作者提供更高效的工具。

技术团队透露，模型采用基于MMDiT架构的深度学习框架，通过多阶段数据链路优化与强化学习算法，显著提升音画同步精度。在语音表现上，该系统支持中、英、日等多语种输出，并能精准模拟四川话、粤语等方言的语音特征，口型匹配误差率较前代降低40%。画面生成方面，模型具备自主运镜能力，可自动完成长镜头跟随、希区柯克式变焦等复杂镜头运动，使静态画面产生电影级动态效果。

实际应用测试显示，Seedance 1.5 pro在影视剧本可视化、广告创意制作、互动短剧开发等领域展现潜力。测试案例中，模型生成的短视频在指令遵循度、音质清晰度等指标上获得提升，尤其在多语言叙事场景中表现突出。不过研发团队指出，当前版本在处理高速运动物体的物理模拟、多角色对话场景的逻辑连贯性等方面仍需优化，后续将通过扩展训练数据集与算法迭代持续改进。

该模型的推出标志着生成式AI向多媒体一体化创作迈出重要一步。相比传统分阶段制作流程，Seedance 1.5 pro将声画创作整合为端到端生成，理论上可将内容制作周期缩短60%以上。目前研发团队正与多家影视机构合作，探索AI辅助创作的工业化应用路径，重点攻关复杂场景下的物理引擎优化与多模态交互设计。

更多>同类内容