🦄九游会J9·(china)官方网站-真人游戏第一品牌【登录入口】风靡全球的娱乐游戏集团还能保捏视频中东谈主物身份和形象的褂讪性-九游会J9·(china)官方网站-真人游戏第一品牌
智东西AI前瞻(公众号:zhidxcomAI)🦄九游会J9·(china)官方网站-真人游戏第一品牌【登录入口】风靡全球的娱乐游戏集团
智东西AI前瞻5月28日音讯,当天,腾讯混元重磅发布并开源了其最新的语音数字东谈主模子——HunyuanVideo-Avatar。该模子由腾讯混元视频大模子(HunyuanVideo)及腾讯音乐天琴实验室MuseV期间聚集研发,在AI视频生成限制已毕了“一张相片、一段音频即可生成高质地唱歌或言语视频”的梗阻。
据官方先容,HunyuanVideo-Avatar模子的中枢亮点在于其高效的生成才气和出色的口型同步恶果。它不仅能说明输入的音频精确运行东谈主物面部神采和唇形,还能保捏视频中东谈主物身份和形象的褂讪性。
HunyuanVideo-Avatar模子因循头肩、半身与全身多种景别,以及多作风、多物种与双东谈主场景,为视频创作家提供了前所未有的创作目田。
用户只需上传东谈主物图像与音频,模子即可自动分解图片与音频履行,举例东谈主物所处的环境、音频所蕴含的样式等,并生成包含当然神采、唇形同步及全身手脚的视频,让静态的东谈主物图像“活”起来。
举例,上传一张女孩盘坐在丛林的,身前是一团篝火的相片与一段歌曲,模子会分解到“一个女孩在丛林旷地上唱歌,她身前是一堆熊熊放胆的篝火,火苗纷扰跳跃,橘红色的火光照射在她身上,为画面增添了温柔的氛围”。
为了已毕这一梗阻,HunyuanVideo-Avatar模子收受了多项革命期间,使其大致生成更当然、灵活的数字东谈主视频:
脚色图像注入模块:这一模块处治了在生成视频时,何如既保捏东谈主物形象的高度一致性,又能让东谈主物手脚运动当然的问题。它通过一种新颖的形式将东谈主物图像的特征注入到模子中,幸免了传统步伐中可能出现的“僵硬”或不连贯的手脚,从而显耀擢升了视频的全体质地。音频样式模块(AEM):该模块大致识别音频中包含的样式信息,并将其精确地体当今数字东谈主物的面部神采上。这意味着,要是音频抒发的是“自在”,数字东谈主就能展现出相应的抖擞神采,极大增强了视频的委果感和感染力。面部感相知频适配器(FAA):针对多东谈主物对话场景,该模块大致“识别”并“锁定”音频所对应的具体东谈主物面部区域。通过这种“面部掩码”期间,模子不错孤苦运行不同东谈主物的唇形和神采,确保多东谈主对话时,每个脚色王人能说明我方的音频进行精确、当然的抒发,幸免了不同东谈主物之间手脚相互影响的问题。HunyuanVideo-Avatar模子提供了陋劣的操作经过,用户无需专科手段即可进行数字东谈主视频的创作。
用户可在腾讯混元官网上体验该模子的单主体功能,现时主要因循对单个数字东谈主进行视频生成,统统操作经过相等马虎。
上传一张明晰的东谈主物相片和一段不卓著14秒的音频,稍作恭候,一段数字东谈主视频就生成了。
值得防备的是,关于腹地部署,这类AI视频生成模子常常对显卡有一定条目,保举使用具备较高显存的GPU。此外,腹地部署莫得视频时长肆意,但生成时长与显卡性能呈线性干系,即更长的视频生成需要更强的显卡因循。
咫尺,在线网页版因循生成最长14秒的数字东谈主视频。
二、多姿色的进展出色,达到行业最初水平抽象磋商团队在论文中公布的实验结束,腾讯混元HunyuanVideo-Avatar模子在多项要津主义上展现了超卓性能。
在主体一致性、音画同步方面,HunyuanVideo-Avatar恶果超越开闭源决策,处在业内顶尖水平;在画面动态、肢体当然度方面,恶果超越开源决策,和其他闭源决策处在合并水平。
▲来自期间答复(https://arxiv.org/pdf/2505.20156)
具体来看,在音画同步(Sync-C)和身份保捏(IP)方面,HunyuanVideo-Avatar在CelebV-HQ和HDTF数据集上的音画同步主义分散为4.92和5.30,优于Sonic、EchoMimic、EchoMimic-V2和Hallo-3等现存步伐。
在全身测试集上,该模子在音画同步方面达到5.56,也卓著了Hallo3、Fantasy和字节高出旗下的OmniHuman-1。
用户磋商结束进一步标明,在身份保捏(IP)和唇语同步(LS)方面,HunyuanVideo-Avatar均取得最高评分(IP 4.84,LS 4.65),超越了Hallo3、Fantasy和字节高出旗下的OmniHuman-1。
在画面动态(MD)和肢体当然度(FBN)方面,说明消融磋商(Ablation Study)的结束,HunyuanVideo-Avatar在画面动态上达到了4.127,在VQ(视频质地)上达到4.16,优于其他两种注入模块形式。
在用户磋商中,HunyuanVideo-Avatar在肢体当然度方面得分3.88,固然略低于字节高出OmniHuman-1的4.18,但仍优于Hallo3和Fantasy。
这标明该模子在保捏东谈主物动态当然度方面,已达到与最初闭源决策临近的水平,并超越了其他开源决策。
相较于传统器用仅因循头部运行,HunyuanVideo-Avatar模子还因循半身或全身场景,显耀擢升了视频的委果感和进展力。
此外,该模子还因循多作风、多物种与多东谈主场景,大致生成包括赛博一又克、2D动漫、中国水墨画,以及机器东谈主、动物等多种作风的视频,拓展了数字东谈主期间的阁下范围。
三、赋能垂直阁下,丰富履行生态HunyuanVideo-Avatar模子适用于短视频创作、电商、告白等多种阁下场景。
它不错生成东谈主物在不同场景下的言语、对话、演出等片断,快速制作家具先容视频或多东谈主互动告白,灵验镌汰制作本钱,提高出产效力。
咫尺,HunyuanVideo-Avatar期间已在腾讯音乐的听歌奉陪、长音频播客以及唱歌MV等多个场景中得到阁下:
在QQ音乐中,用户在收听“AI力宏”歌曲时,播放器上会及时同步显现灵活可人的AI力宏形象。在酷狗音乐的长音频绘本功能中,AI生成的诬捏东谈主形象将“启齿言语”,为用户发挥童话故事。在全民K歌中,用户不错通过上传我方的相片,一键生成专属的唱歌MV。结语:数字东谈主期间波涛,昔日已来HunyuanVideo-Avatar模子的发布与开源,为数字东谈主期间限制注入了新的活力。它通过简化数字东谈主视频履行的生成经过,展现了拓展数字履行创作范围的后劲。
跟着此类期间的不休发展和阁下,数字东谈主有望在昔日的社会出产和宽阔生计中饰演日益进攻的脚色🦄九游会J9·(china)官方网站-真人游戏第一品牌【登录入口】风靡全球的娱乐游戏集团,为多个限制带来新的可能性。