生成数据智能

用户被微软的图像转视频工具 – VASA-迷住了

日期:

随着人工智能霸主地位的争夺仍在继续,微软现在希望利用其最新工具 VASA-1 将人们的肖像照片转换为会说话的面孔或视频。

根据这家科技巨头的一份研究论文,微软正在将人工智能竞赛提升到另一个水平, 瓦萨 1,用于创建具有视觉情感技能(VAS)的虚拟角色的逼真说话面孔的框架,全部来自肖像。

也可以参考: 视频游戏行业急于就人工智能问题组建工会

从肖像到会说话的面孔

尽管该工具尚未向公众开放,但它可以拍摄单张肖像照片和语音音频,并生成超现实的说话脸部视频,具有精确的唇音同步、逼真的面部行为以及实时生成的自然头部运动。

该工具仍处于微软研究团队的研究预览阶段,演示视频“看起来令人印象深刻”。

据介绍,虽然 Nvidia 和 Runway 等公司已经拥有类似的头部运动和口型同步技术,但 VASA-1 似乎“具有更高的质量和真实感”,这减少了嘴部伪影。 汤姆指南.

此外,这种音频驱动动画的方法也类似于最近的 视频博主人工智能 谷歌研究的模型。

据微软称,虽然演示示例中的所有图像都是由 Dall-E 合成的,但 VASA-1 仍然可以为真实图片制作动画。

该演示展示了不同的人以几乎自然的动作、面部表情和眼睛运动进行交谈,“在其他工具中没有看到嘴顶部和底部周围的伪影。”

它也不需要正面肖像风格的图像即可工作。

VASA-1 让人们议论纷纷

人工智能爱好者似乎已经被 X 平台上的这项技术迷住了,他们将其描述为“狂野”和“疯狂”。

“我们在每个版本之间获得的改进令人难以置信,” 说过 莱纳斯·埃肯斯坦。

其他人则认为,世界正在见证“媒体内容创建方式及其消费方式的巨大转变”。

“这太令人兴奋了,真实感是一流的,”另一位名叫 Sam 的爱好者说道。

尽管其他人认可该工具的能力,但他们也认为微软推出一个容易被操纵的工具有点不负责任。 选举深度造假.

“在选举前就放弃这个是很疯狂的,” X平台上的Rowan Cheung。

另一个用户 埃文·克斯特尔 评论中严厉警告:“微软研究院的 VASA-1 是一个游戏规则改变者,它仅通过照片和音频即可创建超现实的人工智能生成视频。”

“从复兴经典电影传奇到个性化媒体,可能性是无限的。但让我们对深度造假风险保持警惕。”

世界上已经出现大量选举深度造假事件,政客的声音或图像被人工智能操纵以传播宣传。今年全球约有三分之一的人口将参加投票。

然而,微软的研究人员表示这只是为了演示,目前没有计划公开发布或向开发人员提供。

VASA-1 如何工作?

据 Tom's Guide 报道,研究人员自己对该模型“与歌曲完美口型同步,毫无问题地反映歌手的歌词,尽管训练数据集中没有使用音乐”的能力感到惊讶。

此外,VASA-1 还可以处理不同的图像风格,包括著名的历史肖像 蒙娜丽莎.

该工具凭借其先进的口型同步功能可用于游戏。专家表示,这可能会改变沉浸感。

此外,该技术还有助于为社交媒体视频创建头像,例如 Synthesia 和 HeyGen 等公司。

基于 AI 的电影和音乐视频制作还可以利用 VASA-1 技术制作更逼真的视频。

随着微软入股 OpenAI,VASA-1 有可能成为“未来副驾驶”的一部分 一体化。”

现货图片

最新情报

现货图片

在线答疑

你好呀! 我怎么帮你?