谷歌推出多模态 VLOGGER AI:让静态肖像图动起来“说话”

2024-03-19 11:33:25

  谷歌近日在 GitHub 页面发布博文,介绍了 VLOGGER AI 模型,用户只需要输入一张肖像照片和一段音频内容,

  VLOGGER AI 是一种适用于虚拟肖像的多模态 Diffusion 模型,使用 MENTOR 数据库进行训练,该数据库中包含超过 80 万名人物肖像,以及累计超过 2200 小时的影片,从而让 VLOGGER 生成不同种族、不同年龄、不同穿着、不同姿势的肖像影片。

  研究人员表示:“和此前的多模态相比,VLOGGER 的优势在于不需要对每个人进行训练,不依赖于人脸检测和裁剪,可以生成完整的图像,并且考虑了广泛的场景,这些对于正确合成交流的人类至关重要”。

  Google 将 VLOGGER 视为迈向“通用聊天机器人”的一步,之后 AI 就可以通过语音、手势和眼神交流以自然的方式与人类互动。

  VLOGGER 的应用场景还包括可以用于报告、教育场域和旁白等,也可剪辑既有的影片,如果对影片中的表情不满意就能加以调整。

  附上论文参考

下一篇:全球物联网安全规范 1.0 版发布,提高智能家居产品安全性
上一篇:我国渤海中北部海域再获大发现,秦皇岛27-3油田探明储量1.04亿吨
返回顶部小火箭