热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

蒙娜丽莎说Rap的秘密,这个AI算法绝不能错过!

蒙娜丽莎说Rap、苏轼先生开口念诗、Gollum唱BlackPink的IceCream。是的,你没有看错,本篇给大家介绍的这个AI算法可以让你零基础5分

蒙娜丽莎说Rap、苏轼先生开口念诗、Gollum唱Black Pink的Ice Cream。是的,你没有看错,本篇给大家介绍的这个AI算法可以让你零基础5分钟实现上述超级Fancy的特效,亲手制作点击量过百万、霸榜热搜的超级视频

话不多说,让我们先看效果!

2e7ac35235ed7e9c723d4cfe903c08da.gif

ae4aea8e64831d87fff4f587c36930ef.gif

怎么样?小编没有在骗人吧。并且,最近大火的虚拟美妆博主柳夜熙、上周百度发布的央视总台首个AI手语主播以及各大虚拟偶像等等数字人的核心技术中,让数字人开口说话的也是这个AI算法。

那这到底是什么神奇的技术呢?答案就是飞桨开源套件PaddleGAN中的新晋宠儿:Wav2lip模型

赶紧上项目查看源码及文档教程吧,这个项目还提供热门GAN模型,如AnimeGANv2、GauGAN、First Order Motion的实现。开源不易,望大家Star支持!

https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md

02da22efb593b96eefa51482aa00a21c.png

更贴心的是,完整项目代码已公开于AI Studio,大家动动手指即可体验:

https://aistudio.baidu.com/aistudio/projectdetail/3156519?ref=feijiang2

下面呢,我们就来给大家拆解下这个技术原理,和具体的操作步骤,手把手教你实现苏轼念诗,蒙娜丽莎唱Rap或者任何你心仪的Idol说情话da2a3ab75019c34e54ed5d1d9c1a5519.png

这是一个输入一段语音,使目标人物图片、视频的唇形,根据语音进行自动匹配并运动起来的任务。因此,我们需要准备一段音频和一段人像/动漫人物视频,将音频和视频输入Wav2lip模型中,经过Wav2lip模型预测后,便会输出一段目标人物/动漫人物说出输入音频的视频,至此,「千万级」配音视频就完成啦~

a4d5a52dbd83b33aa319d210c2b7f618.png

PaddleGAN的唇形迁移能力

Wav2lip

Wav2lip模型实现唇形与语音精准同步突破的关键在于:

  • 采用了唇形同步判别器,以强制生成器持续产生准确而逼真的唇部运动。

  • 此外,通过在鉴别器中,使用多个连续帧而不是单个帧,并使用视觉质量损失(而不仅仅是对比损失)来考虑时间相关性,从而改善了视觉质量。

58f65d2ec155538bffccc358edd640dc.png

万能的Wav2lip模型适用于任何人脸、任何语音、任何语言!对任意视频都能达到很高的准确率,都可以实现无缝地与原始视频融合,无论是视频效果还是语音效果都很逼真

与此同时,PaddleGAN针对Wav2Lip模型进行了高清优化,使唇形拟合更细腻,更加逼真。

ec8b9007db3b9966df3a3c0e7fc1d259.png

PaddleGAN Wav2lip的

使用方法

在PaddleGAN的帮助下,完成上述神奇的自制「配音/对口型」只需两步:

1.下载PaddleGAN并所需安装包

# 下载PaddlePaddle安装包
# 从github上克隆PaddleGAN代码(如下载速度过慢,可用gitee源)
!git clone https://gitee.com/PaddlePaddle/PaddleGAN
#!git clone https://github.com/PaddlePaddle/PaddleGAN
#本地安装PaddleGAN
%cd /home/aistudio/PaddleGAN
!pip install -v -e .
!pip install -r requirements.txt
!pip install librosa
!pip install numba==0.53.1

2.使用唇形合成命令

%cd applications/
!python tools/wav2lip.py \--face /home/aistudio/1.jpeg \--audio /home/aistudio/2.m4a \--outfile /home/aistudio/pp_put.mp4 \--face_enhancement

只需在如下命令中的face参数和audio参数分别换成自己的视频和音频路径,然后运行即可生成和音频同步的视频,运行完成后,会在当前文件夹下生成文件名为outfile参数指定的视频文件,该文件即为和音频同步的视频文件:

  • face: 原始视频,视频中的人物的唇形将根据音频进行唇形合成

  • audio:驱动唇形合成的音频,视频中的人物将根据此音频进行唇形合成

  • outfile:成品视频名

  • face_enhancement:添加人脸增加特效

PaddleGAN的

花样玩法

以为PaddleGAN就止于此?NoNoNo~

c42fbcf9f9561aab5fe0db6094ab19c6.gif

免费开源宝藏套件PaddleGAN的能力当然不止于唇形迁移/生成的技术,里面满满都是种类丰富、趣味的图像/视频生成、处理能力,热门的前沿模型,如AnimeGANv2、GauGAN、First Order Motion等模型等待大家探索。

图像风格迁移、视频修复、图像超分辨率、人像动漫化、照片动漫化、人脸编辑等等。

bf0f4fe573bb37be2346c659dc3679a7.gif

d226eb9e0ba90d3244fe047543d70069.png

PaddleGAN就如一个「游乐场」,欢迎各位「玩家」加入,体验各类「游戏设施」,无需门票,如果玩得开心,记得点Star支持下~

https://github.com/PaddlePaddle/PaddleGAN/blob/develop/README_cn.md 1bbbf2e01b8cc69396e4053d4955f79c.png

关注公众号,获取更多技术内容~


推荐阅读
  • 树莓派语音控制的配置方法和步骤
    本文介绍了在树莓派上实现语音控制的配置方法和步骤。首先感谢博主Eoman的帮助,文章参考了他的内容。树莓派的配置需要通过sudo raspi-config进行,然后使用Eoman的控制方法,即安装wiringPi库并编写控制引脚的脚本。具体的安装步骤和脚本编写方法在文章中详细介绍。 ... [详细]
  • sklearn数据集库中的常用数据集类型介绍
    本文介绍了sklearn数据集库中常用的数据集类型,包括玩具数据集和样本生成器。其中详细介绍了波士顿房价数据集,包含了波士顿506处房屋的13种不同特征以及房屋价格,适用于回归任务。 ... [详细]
  • 开源Keras Faster RCNN模型介绍及代码结构解析
    本文介绍了开源Keras Faster RCNN模型的环境需求和代码结构,包括FasterRCNN源码解析、RPN与classifier定义、data_generators.py文件的功能以及损失计算。同时提供了该模型的开源地址和安装所需的库。 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • Python实现变声器功能(萝莉音御姐音)的方法及步骤
    本文介绍了使用Python实现变声器功能(萝莉音御姐音)的方法及步骤。首先登录百度AL开发平台,选择语音合成,创建应用并填写应用信息,获取Appid、API Key和Secret Key。然后安装pythonsdk,可以通过pip install baidu-aip或python setup.py install进行安装。最后,书写代码实现变声器功能,使用AipSpeech库进行语音合成,可以设置音量等参数。 ... [详细]
  • 本文讨论了在Windows 8上安装gvim中插件时出现的错误加载问题。作者将EasyMotion插件放在了正确的位置,但加载时却出现了错误。作者提供了下载链接和之前放置插件的位置,并列出了出现的错误信息。 ... [详细]
  • CSS3选择器的使用方法详解,提高Web开发效率和精准度
    本文详细介绍了CSS3新增的选择器方法,包括属性选择器的使用。通过CSS3选择器,可以提高Web开发的效率和精准度,使得查找元素更加方便和快捷。同时,本文还对属性选择器的各种用法进行了详细解释,并给出了相应的代码示例。通过学习本文,读者可以更好地掌握CSS3选择器的使用方法,提升自己的Web开发能力。 ... [详细]
  • 基于dlib的人脸68特征点提取(眨眼张嘴检测)python版本
    文章目录引言开发环境和库流程设计张嘴和闭眼的检测引言(1)利用Dlib官方训练好的模型“shape_predictor_68_face_landmarks.dat”进行68个点标定 ... [详细]
  • Python操作MySQL(pymysql模块)详解及示例代码
    本文介绍了使用Python操作MySQL数据库的方法,详细讲解了pymysql模块的安装和连接MySQL数据库的步骤,并提供了示例代码。内容涵盖了创建表、插入数据、查询数据等操作,帮助读者快速掌握Python操作MySQL的技巧。 ... [详细]
  • 基于移动平台的会展导游系统APP设计与实现的技术介绍与需求分析
    本文介绍了基于移动平台的会展导游系统APP的设计与实现过程。首先,对会展经济和移动互联网的概念进行了简要介绍,并阐述了将会展引入移动互联网的意义。接着,对基础技术进行了介绍,包括百度云开发环境、安卓系统和近场通讯技术。然后,进行了用户需求分析和系统需求分析,并提出了系统界面运行流畅和第三方授权等需求。最后,对系统的概要设计进行了详细阐述,包括系统前端设计和交互与原型设计。本文对基于移动平台的会展导游系统APP的设计与实现提供了技术支持和需求分析。 ... [详细]
  • 本文介绍了如何使用PHP向系统日历中添加事件的方法,通过使用PHP技术可以实现自动添加事件的功能,从而实现全局通知系统和迅速记录工具的自动化。同时还提到了系统exchange自带的日历具有同步感的特点,以及使用web技术实现自动添加事件的优势。 ... [详细]
  • 在Android开发中,使用Picasso库可以实现对网络图片的等比例缩放。本文介绍了使用Picasso库进行图片缩放的方法,并提供了具体的代码实现。通过获取图片的宽高,计算目标宽度和高度,并创建新图实现等比例缩放。 ... [详细]
  • 本文介绍了在开发Android新闻App时,搭建本地服务器的步骤。通过使用XAMPP软件,可以一键式搭建起开发环境,包括Apache、MySQL、PHP、PERL。在本地服务器上新建数据库和表,并设置相应的属性。最后,给出了创建new表的SQL语句。这个教程适合初学者参考。 ... [详细]
  • 本文介绍了在rhel5.5操作系统下搭建网关+LAMP+postfix+dhcp的步骤和配置方法。通过配置dhcp自动分配ip、实现外网访问公司网站、内网收发邮件、内网上网以及SNAT转换等功能。详细介绍了安装dhcp和配置相关文件的步骤,并提供了相关的命令和配置示例。 ... [详细]
  • 本文介绍了Java工具类库Hutool,该工具包封装了对文件、流、加密解密、转码、正则、线程、XML等JDK方法的封装,并提供了各种Util工具类。同时,还介绍了Hutool的组件,包括动态代理、布隆过滤、缓存、定时任务等功能。该工具包可以简化Java代码,提高开发效率。 ... [详细]
author-avatar
浪迹天涯嶵_罚
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有