热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

【世界最大人脸对齐数据集】ICCV2017:距离解决人脸对齐已不远

在一篇已经被ICCV2017接收的论文中,诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集,以及精准实现2D、3D以及2D到3D人脸对齐的

在一篇已经被ICCV 2017接收的论文中,诺丁汉大学的研究人员提出了他们号称是迄今最大3D人脸对齐数据集,以及精准实现2D、3D以及2D到3D人脸对齐的网络。研究人员用《我们距离解决2D&3D人脸对齐问题还有多远》为题,首次调查了在所有现有2D人脸对齐数据集和新引入的大型3D数据集上,距离达到接近饱和性能(saturating performance)还有多远。

ImageNet百万级精准标记数据集开启了图像识别新时代,人们也由此意识到,数据跟算法同样重要。为了构建更好的模型和算法,越来越多的研究人员开始在数据集方面展开探索,而且,标记数据的方法也不仅仅限于耗时耗力的人工。

这方面最新的一项成果,是诺丁汉大学计算机视觉实验室的研究人员即将在ICCV 2017发表的论文,研究人员在论文中描述了他们创建的迄今最大的3D人脸对齐数据集(约230,000幅精准标记图像),以及他们使用2D到3D转换生成标记的方法。

论文标题名为《我们距离解决2D&3D人脸对齐还有多远?》(How far are we from solving the 2D & 3D Face Alignment problem? And a dataset of 230,000 3D facial landmarks)。研究人员希望,在此数据集的基础上,人脸对齐问题将迎来更大更快的发展。

效果展示:使用论文提出的网络(被作者称为“世界上最准确的人脸对齐网络”)检测面部特征点,2D和3D坐标都适用。来源:项目的Github

人脸对齐,计算机视觉过去几十年研究最多的一个议题

随着深度学习的出现和大规模注释数据集的发展,近来的工作已经显示出即使在最具挑战性的计算机视觉任务上也达到前所未有的准确性。在这项工作中,作者专注于特征点定位(landmark localization),尤其是人脸特征点定位,也被称为人脸对齐(face alignment),“人脸对齐”也可以说是过去几十年来计算机视觉中研究最多的主题之一。

近来关于使用卷积神经网络(CNN)的特征点定位的工作已经推动了其他领域的界限,例如如人体姿态估计,但目前尚不清楚在人脸对齐方面取得怎样的成果。

历史上,根据任务的不同,有不同的技术已被用于特征点定位。例如,在神经网络出现之前,人体姿态估计的工作主要是基于图结构(pictorial structure)和各种复杂的扩展(extension),因为它们能够模拟大的外观变化, 适应广泛的人类姿势。这些方法虽然没有被证明能够实现用于人脸对齐任务的级联回归方法(cascaded regression method)表现出的高精确度,但另一方面,级联回归方法的性能在初始化不准确的情况下,或有大量的自我封闭的特征点或大的平面内旋转时会变差。

最近,基于热图回归(heatmap regression)的完全卷积神经网络架构彻底改变了人体姿态估计,即使对于最具挑战性的数据集也得到非常高的准确度。由于它们对端到端训练和人工工程的需求很少,这种方法可以很容易地应用于人脸对齐问题。

5大贡献,包括首次构建强大基准,使用2D-3D方法构建迄今最大数据集

作者表示,按照这个路径,“我们的主要贡献是构建和训练这样一个强大的人脸对齐网络,并首次调查在所有现有的2D人脸对齐数据集和新引入的大型3D数据集上距离达到接近饱和性能(saturating performance)有多远”。

更具体地说,他们的贡献是:

1. 首次构建了一个非常强大的基准(baseline),结合state-of-the-art的特征点定位架构和state-of-the-art的 residual block,并在非常大的综合扩展的2D人脸特征点数据集训练。然后,我们对所有其他2D数据集(约230000张图像)进行评估,调查我们距离解决2D人脸对齐问题还有多远。

2. 为了解决3D人脸对齐数据集少的问题,我们进一步提出了一种将2D注释转换为3D注释的2D特征点CNN方法,并使用它创建LS3D-W数据集,这是迄今最大、最具挑战性的3D人脸特征点数据集(约230000张图像),这是将现有的几乎所有数据集统一起来得到的。

3. 然后,我们训练了一个3D人脸对齐网络,并在新的大型3D人脸特征点数据集进行评估,调查我们距离解决3D人脸对齐问题尚有多远。

4. 我们进一步研究影响人脸对齐性能的所有“传统”因素,例如大姿态,初始化和分辨率,并引入“新的”因素,即网络的大小。

5. 我们的研究结果显示,2D和3D人脸对齐网络都实现了非常高准确度的性能,这可能是接近了所使用的数据集的饱和性能。

2D-FAN结构:通过堆叠四个HG构建的人脸对齐网络(Face Alignment Network ,FAN),其中所有的 bottleneck blocks(图中矩形块)被替换为新的分层、并行和多尺度block。

方法及数据:2D、3D标注及2D-3D转换都接近饱和性能

作者首先构建了一个人脸对齐网络“FAN”(Facee Alignment Network),然后基于FAN,构建了2D-to-3D-FAN,也即将给定图像2D面部地标转换为3D的网络。作者表示,据他们所知,在大规模2D/3D人脸对齐实验中训练且评估FAN这样强大的网络,还尚属首次。

他们基于人体姿态估计最先进的架构之一HourGlass(HG)来构建FAN,并且将HG原有的模块bottleneck block替换为一种新的、分层并行多尺度结构(由其他研究人员提出)。

2D-to-3D-FAN网络架构:基于人体姿态估计架构HourGlass,输入是RGB图像和2D面部地标,输出是对应的3D面部地标。

2D-FAN标记结果

3D-FAN标记结果

下面是跟现有方法(红色)的对比,这样看更能明显地看出新方法的精度:

除了构建FAN,作者的目标还包括创建首个超大规模的3D面部地标数据集。目前3D面部地标的数据还十分稀少,因此也让这项工作贡献颇大。鉴于2D-FAN卓越的效果,作者决定使用2D-to-3D-FAN来生成3D面部地标数据集。

但是,这也带来了一个问题,那就是评估2D转3D数据很难。现有的最大同类数据集是AFLW2000-3D。于是,作者先使用2D-FAN,生成2D面部地标标注,再使用2D-to-3D-FAN,将2D数据转换为3D面部地标,最后将生成的3D数据与AFLW2000-3D进行比较。

结果发现,两者确实有差异,下图展示了差异最大的8幅图像标记结果(白色是论文结果):

作者表示,造成差异的最大原因是,以前的方法半自动标记管道对一些复杂姿态没有生成准确的结果。于是,在改进数据后,他们将AFLW2000-3D纳入现有数据集,创建了LS3D-W(Large Scale 3D Faces in-the-Wild dataset),一共包含了大约230,000幅标记图像,也是迄今最大的3D人脸对齐数据集。

作者之后从各个方面评估了LS3D-W数据集的性能。研究结果表明,他们的网络已经达到了数据集的“饱和性能”,在构图、分辨率,初始化以及网络参数数量方面表现出了超高的弹性(resilience)。更多信息参见论文。

作者表示,虽然他们还没有在这些数据集中去探索一些罕见姿态的效果,但只要有足够多的数据,他们确信网络也能够表现得一样好。

论文:我们距离解决2D&3D人脸对齐还有多远?

摘要

本文研究了一个非常深的神经网络在现有的2D和3D人脸对齐数据集上达到接近饱和性能的程度。为这个目的,我们提出做了5个贡献:(a)结合最先进的人脸特征点定位(landmark localization)架构和最先进的残差模块(residual block),我们首次构建了一个非常强大的基准,在一个非常大的2D人脸特征点数据集(facial landmark dataset)上训练,并在所有其他人脸特征点数据集上进行评估。(b)我们创建了一个将2D特征点标注转换为3D,并统一所有现有的数据集,从而创建了迄今最大、最具有挑战性的3D人脸特征点数据集LS3D-W(约230000张图像)。(c)然后,我们训练一个神经网络来进行3D人脸对齐(face alignment),并在新的LS3D-W数据集上进行评估。(d)我们进一步研究影响人脸对齐性能的所有“传统”因素,例如大姿态( large pose),初始化和分辨率,并引入一个“新的”因素,即网络的大小。(e)我们的研究显示2D和3D人脸对齐网络都实现了非常高的性能,这很可能接近所使用的数据集的饱和性能。训练和测试代码以及数据集可以从 https://www.adrianbulat.com/face-alignment/ 下载。


  • 论文:https://arxiv.org/pdf/1703.07332.pdf

  • Github:https://github.com/1adrianb/face-alignment

以及模型下载


  • 2D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-FAN-300W.t7

  • 3D-FAN:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN.t7

  • 2D-to-3D FAN:https://www.adrianbulat.com/downloads/FaceAlignment/2D-to-3D-FAN.tar.gz

  • 3D-FAN-depth:https://www.adrianbulat.com/downloads/FaceAlignment/3D-FAN-depth


推荐阅读
  • 【论文】ICLR 2020 九篇满分论文!!!
    点击上方,选择星标或置顶,每天给你送干货!阅读大概需要11分钟跟随小博主,每天进步一丢丢来自:深度学习技术前沿 ... [详细]
  • 生成式对抗网络模型综述摘要生成式对抗网络模型(GAN)是基于深度学习的一种强大的生成模型,可以应用于计算机视觉、自然语言处理、半监督学习等重要领域。生成式对抗网络 ... [详细]
  • 浏览器中的异常检测算法及其在深度学习中的应用
    本文介绍了在浏览器中进行异常检测的算法,包括统计学方法和机器学习方法,并探讨了异常检测在深度学习中的应用。异常检测在金融领域的信用卡欺诈、企业安全领域的非法入侵、IT运维中的设备维护时间点预测等方面具有广泛的应用。通过使用TensorFlow.js进行异常检测,可以实现对单变量和多变量异常的检测。统计学方法通过估计数据的分布概率来计算数据点的异常概率,而机器学习方法则通过训练数据来建立异常检测模型。 ... [详细]
  • 背景应用安全领域,各类攻击长久以来都危害着互联网上的应用,在web应用安全风险中,各类注入、跨站等攻击仍然占据着较前的位置。WAF(Web应用防火墙)正是为防御和阻断这类攻击而存在 ... [详细]
  • OCR:用字符识别方法将形状翻译成计算机文字的过程Matlab:商业数学软件;CUDA:CUDA™是一种由NVIDIA推 ... [详细]
  • 3年半巨亏242亿!商汤高估了深度学习,下错了棋?
    转自:新智元三年半研发开支近70亿,累计亏损242亿。AI这门生意好像越来越不好做了。近日,商汤科技已向港交所递交IPO申请。招股书显示& ... [详细]
  • ICRA2019最佳论文  Making Sense of Vision and Touch: SelfSupervised Learning of Multimodal Representatio
    文章目录摘要模型架构模态编码器自监督预测控制器设计策略学习控制器设计实验结论和展望会议:ICRA2019标题:《MakingSenseofVision ... [详细]
  • 本文介绍了在Python张量流中使用make_merged_spec()方法合并设备规格对象的方法和语法,以及参数和返回值的说明,并提供了一个示例代码。 ... [详细]
  • 统一知识图谱学习和建议:更好地理解用户偏好
    本文介绍了一种将知识图谱纳入推荐系统的方法,以提高推荐的准确性和可解释性。与现有方法不同的是,本方法考虑了知识图谱的不完整性,并在知识图谱中传输关系信息,以更好地理解用户的偏好。通过大量实验,验证了本方法在推荐任务和知识图谱完成任务上的优势。 ... [详细]
  • Learning to Paint with Model-based Deep Reinforcement Learning
    本文介绍了一种基于模型的深度强化学习方法,通过结合神经渲染器,教机器像人类画家一样进行绘画。该方法能够生成笔画的坐标点、半径、透明度、颜色值等,以生成类似于给定目标图像的绘画。文章还讨论了该方法面临的挑战,包括绘制纹理丰富的图像等。通过对比实验的结果,作者证明了基于模型的深度强化学习方法相对于基于模型的DDPG和模型无关的DDPG方法的优势。该研究对于深度强化学习在绘画领域的应用具有重要意义。 ... [详细]
  • 建立分类感知器二元模型对样本数据进行分类
    本文介绍了建立分类感知器二元模型对样本数据进行分类的方法。通过建立线性模型,使用最小二乘、Logistic回归等方法进行建模,考虑到可能性的大小等因素。通过极大似然估计求得分类器的参数,使用牛顿-拉菲森迭代方法求解方程组。同时介绍了梯度上升算法和牛顿迭代的收敛速度比较。最后给出了公式法和logistic regression的实现示例。 ... [详细]
  • 本博文基于《Amalgamationofproteinsequence,structureandtextualinformationforimprovingprote ... [详细]
  • 知识图谱表示概念:知识图谱是由一些相互连接的实体和他们的属性构成的。换句话说,知识图谱是由一条条知识组成,每条知识表示为一个SPO三元组(Subject-Predicate-Obj ... [详细]
  • 人工智能推理能力与假设检验
    最近Google的Deepmind开始研究如何让AI做数学题。这个问题的提出非常有启发,逻辑推理,发现新知识的能力应该是强人工智能出现自我意识之前最需要发展的能力。深度学习目前可以 ... [详细]
  • 2017亚马逊人工智能奖公布:他们的AI有什么不同?
    事实上,在我们周围,“人工智能”让一切都变得更“智能”极具讽刺意味。随着人类与机器智能之间的界限变得模糊,我们的世界正在变成一个机器 ... [详细]
author-avatar
马黛茶总部
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有