数码之家

 找回密码
 立即注册

QQ登录

只需一步,快速开始

微信登录

微信扫一扫,快速登录

搜索
查看: 57|回复: 0

[科技] 字节跳动:新一代视频创作模型Seedance 2.0正式发布

[复制链接]
发表于 2026-2-12 23:39:39 | 显示全部楼层 |阅读模式

爱科技、爱创意、爱折腾、爱极致,我们都是技术控

您需要 登录 才可以下载或查看,没有账号?立即注册 微信登录

x
据字节跳动 Seed 官方微信公众号消息,今天,新一代视频创作模型 Seedance 2.0 正式发布。
Seedance 2.0 采用统一的多模态音视频联合生成架构,支持文字、图片、音频、视频四种模态输入,集成了目前业界最全面的多模态内容参考和编辑能力。相比 1.5 版本,Seedance 2.0 的生成质量大幅提升,其在复杂交互和运动场景下的可用率更高,物理准确度、逼真度、可控性显著增强,更加贴合工业级创作场景的需求。
其核心亮点如下:
复杂场景下更高可用率:凭借出色的运动稳定性和物理还原能力,模型在多主体交互和复杂运动场景中表现出色,生成可用率达到业界 SOTA 水平。
多模态能力显著强化:基于统一的多模态音视频联合架构训练,支持混合模态输入,允许用户同时输入多达 9 张图片、3 段视频、3 段音频以及自然语言指令,模型可参考输入素材中的构图、动作、运镜、特效、声音等元素,打破传统视频生成的素材边界。
视频生成可控性大幅提升:模型的指令遵循与一致性表现全面提升,并支持稳定可控的视频延长、视频编辑,让普通用户也能像导演一样,轻松掌控视频创作全流程。
深度支持工业级内容创作:模型支持 15 秒高质量多镜头音视频输出,具备双声道音频能力,可实现极致拟真的视听效果,配合参考和编辑能力,能大幅降低影视、广告、电商、游戏等场景的内容制作成本。
字节跳动称,依靠海量世界知识、稀疏架构的效能优势,以及多模态联合训练涌现的强大泛化能力,Seedance 2.0 解决了物理规律遵循及长效一致性的难题,同时也赋予创作者前所未有的自由度,让音视频生成的质量和可控性达到专业生产场景要求。
不过字节跳动也指出,Seedance 2.0 还远不完美,其生成结果仍存在诸多瑕疵。未来,我们将持续探索大模型与人类反馈的深度对齐,让更高效、更稳定、更具想象力的音视频生产工具,服务更多创作者。
目前,Seedance 2.0 已上线即梦 AI、豆包等平台。
项目主页:
体验入口:
1)即梦网页端-视频生成-选择 Seedance 2.0;
2)豆包 App 对话框-Seedance2.0-选择 2.0 模型;
3)火山方舟体验中心-选择 Doubao-Seedance-2.0。
IT之家附官方详细介绍如下:
拟真视听效果和导演级操控,让音视频生成“所想即所见”
凭借基础能力和多模态效果的跃升,Seedance 2.0 将为用户带来全新的创作体验。
Seedance 2.0 能完成前代模型难以实现的多人竞技运动生成,音频效果更加自然沉浸,输入也不再局限于单一的文字或图片,创作过程更自然、高效,让用户能像真正的“导演”一样掌控创作。下面,我们将具体介绍其能力特点。
1.稳定呈现复杂运动和交互,真实还原物理规律
Seedance 2.0 的生成表现显著提升,尤其在人物动作建模方面展现出此前未有的自然性、连贯性与物理合理性。
它能高保真地合成时序精密的复杂交互场景,比如在双人花滑场景中,模型较好地演绎了同步起跳、空中旋转、精准落冰等一系列高难度动作,同时,生成过程保持了对现实世界运动规律的遵循,避免了以往 AI 视频常见的物理谬误。
在更细腻的特写镜头中,无论是微妙的光影折射变化、衣物随风颤动时所呈现的重力感,还是人物与环境之间自然流畅的交互动作,模型生成的画面均展现出高度逼真的细节与严密的物理逻辑,宛如真实实拍。
2.支持多模态“全能参考”,创作自由度大幅提升
Seedance 2.0 支持多模态全能参考,允许组合输入不同文本、图片、视频、音频。模型可精准理解多模态输入内容,并按指令要求参考其画面构图、镜头语言、动作节奏、音效特点等元素进行生成,甚至可以直接参考文字分镜内容,创作自由度大幅提升。
3.更强可控性,精准遵循生成和编辑指令
Seedance 2.0 视频生成的可控性也大幅提升。其指令遵循表现出色,即便面对包含大量角色互动和精细动作描述的复杂脚本,也能做到精准还原生成,并保持稳定的主体一致性。同时,模型还具备一定的编导思维,可自主规划镜头语言,并设计视觉呈现模版。
4.双声道音频能力,高仿真沉浸音效同步生成
Seedance 2.0 还升级了音频能力,集成双声道立体声技术,可实现高仿真、沉浸式的音效生成。模型支持背景音乐、环境音效或人物解说等音频多轨并行输出,精准对齐画面节奏。
同时,模型的音效设计高度自然,能真实还原磨砂玻璃轻刮声、毛绒织物揉搓声、亚克力板轻敲声、气泡纸轻捏声等细腻音效,强化场景沉浸感。配合严格的音画时序控制,确保音频与视觉动作严丝合缝,可以更好地支持专业级视听内容创作。
5.全场景广泛适配,降低专业内容制作门槛
针对视频内容生产的多元化需求,Seedance 2.0 展现出极高的场景适配性。无论是商业广告、影视特效,还是游戏动画、解说视频,模型均能提供高质量的生成效果。
通过 AI 生成替代复杂的特效制作和实拍流程,Seedance 2.0 可大幅度降低专业音视频内容的制作成本,缩短生产周期,帮助创作者和企业更好地落地创意。
Seedance 2.0 评测结果,综合表现达到行业领先
为客观全面地评估 Seedance 2.0 在多模态场景的综合能力,团队协同影视领域的专家,建立了覆盖音视频生成、参考及编辑场景的综合评测集及相关评测标准。本次评估重点考察模型在多模态参考生成、复杂音视频指令遵循、复杂运动稳定性、专业镜头语言、音视频表现力及视听一体化协同等维度的表现。
1.文生视频、图生视频评测
在视频维度,Seedance 2.0 处于业内领先水平。其运动稳定性、指令遵循及画面美感维度均有显著提升,有效改善了结构准确性和崩坏问题,生成的复杂动作流畅细腻。模型可精准呈现高张力大动作与精细的微表情,并支持专业级组合运镜与叙事节奏控制。
针对长脚本及开放性指令,模型能较好响应并合理发挥。同时,其生成视频具有一定的影视化美感,物体材质、光影构图及服化道设计均表现出较好的完成度。不过,Seedance 2.0 仍需持续改进细节稳定性、拟真度及动态生动性。
在音频维度,Seedance 2.0 依然表现强劲,音频表现力大幅提升。其双声道音频层次丰富、细腻,并可根据场景匹配更适合提示词情境的音效或曲调旋律。相比上一版本,模型的视听一体化体验进一步强化,台词、音效、背景音乐和画面内容更加契合,同时,针对中文方言、戏曲及演唱场景,其指令响应准确度明显提升。不过,Seedance 2.0 仍需继续解决多人口型匹配、偶现音频失真等问题。
Seedance 2.0 文字生成视频能力评测
Seedance 2.0 图片生成视频能力评测

您需要登录后才可以回帖 登录 | 立即注册 微信登录

本版积分规则

APP|手机版|小黑屋|关于我们|联系我们|法律条款|技术知识分享平台

闽公网安备35020502000485号

闽ICP备2021002735号-2

GMT+8, 2026-2-23 09:02 , Processed in 0.499201 second(s), 17 queries , Gzip On, Redis On.

Powered by Discuz!

© 2006-2026 MyDigit.Net

快速回复 返回顶部 返回列表