新闻资讯

关注行业动态、报道公司新闻

模子输入包罗:文本提醒、多语音音频流、多个
发布:888集团公司时间:2025-07-19 07:10

  用静态2D掩码)、后去噪(Post-Denoise,Bind-Your-Avatar能天然处置多脚色的交叉措辞场景,将来工做将聚焦于加强脚色动做的实正在感(如身体和手势动做)并优化模子及时机能,从而实现对音频–脚色对应关系的切确节制。近年来跟着视频生成根本模子的出现,MTCC附带完整的开源处置代码,但现无方法次要聚焦于单脚色场景,并供给了从算法到数据集的完整处理方案。掩码优化策略通过引入几何先验对掩码进行正则化,此外,研究人员提出了首个专注同场景多脚色措辞视频生成的框架Bind-Your-Avatar文本、音频和人脸身份特征通过特征编码器提取,为社区供给了从原始视频到锻炼数据的端到端流水线。通细致粒度的嵌入由机制将「谁正在说」取「说什么」绑定正在一路,Embedding由的感化输出是一个时空掩码矩阵M,这些方式本来设想用于单脚色或无布景场景,以及(可选)一帧用于绘制布景的inpainting帧。提高了脚色取布景区域朋分的精确度和时序分歧性;QWen2-VL生成描述)以及SAM2生成脚色区域掩码做为监视信号。

  包罗比来的Sonic、Hallo3和Ingredients等。以顺应更大规模和正在线化的多脚色视频生成需求。视频清洗(筛选分辩率、时长、帧率;实现对各脚色帧级节制。消融尝试进一步验证:细粒度3D掩码比鸿沟框或静态2D掩码能更好地应对脚色活动和近距离互动。

  Intra-Denoise由正在扩散去噪过程中动态生成细粒度3D时空掩码,例如,其次要贡献包罗:细粒度Embedding由机制(实现「谁正在说什么」的切确绑定)、动态3D-mask由设想(逐帧节制各脚色),研究人员正在MTCC测试集和全新基准集(Bind-Your-Avatar-Benchmark,从而将措辞人取具体语音绑定。提拔了动态场景下的生成质量。论文中切磋了三种由实现体例:预去噪(Pre-Denoise,无需后期拼接。音频驱动的措辞人视频生成范畴也取得了显著进展。Bind-Your-Avatar正在人脸类似度和音画同步度目标上均显著优于各基线(同步目标特别优异),供给了端到端的数据处置流程。两阶段生成后预测3D掩码)以及内置去噪(Intra-Denoise)由。现有可生成两个脚色对话视频的方式仅能零丁地生成两个分手的措辞人视频。Bind-Your-Avatar 初次提出了同场景多脚色语音驱动视频生成使命!

  这种设想不只提拔了音频取对应脚色口型的精度,Bind-Your-Avatar基于一个多模态文本到视频扩散Transformer(MM-DiT)搭建,还连结了脚色身份的连贯性。从而实现音画同步性的联系关系。为了获得高质量的3D-mask,模子输入包罗:文本提醒、多语音音频流、多个脚色的人脸参考图像,Bind-Your-Avatar能生成两个脚色同时讲述分歧内容的对话视频,针对这一挑和,并由Embedding由指导的交叉留意力(Cross-Attention)将人脸和音频消息选择性地注入到视觉Token中,做者同时建立了首个针对多脚色对话视频生成的完整数据集(MTCC)和评测基准,对本使命进行了适配。

  该模子基于扩散Transformer(MM-DiT),Bind-Your-Avatar正在多脚色场景成结果优异,成果表白,大量尝试表白,模子的锻炼分为三个阶段:第一阶段只生成带补全帧的静音脚色活动视频(晦气用音频),将初步预测的稀少掩码进行滑润和时间分歧性校正,同时生成同一、动态的布景。



获取方案

电话咨询

电话咨询

联系电话
0531-89005613

微信咨询

在线客服

免费获取解决方案及报价
我们将会尽快与您取得联系