热门标签 | HotTags
当前位置:  开发笔记 > 编程语言 > 正文

声纹识别模型解析之GE2E

论文:GENERALIZEDEND-TO-ENDLOSSFORSPEAKERVERIFICATION思想:本文是在Google上一篇论文attention-basedmodel(T

论文:

  GENERALIZED END-TO-END LOSS FOR SPEAKER VERIFICATION

思想:

  本文是在Google上一篇论文attention-based model(TE2E[1])的基础上,针对损失函数做的改进,提出了GE2E loss;GE2E loss包含softmax和contrast两种具体形式,每种形式的目标不仅仅是增大样本与所属说话人中心的cosine得分,同时减小样本与非所属说话人中心cosine得分;此外,在GE2E计算consine得分时,采用相似矩阵计算形式,一次性计算所有consine得分,相比TE2T,可显著加速计算;再者,论文还提出了多数据源同时训练的正则话策略,也在一定程度上对效果有所提升。

值得一提的时,该网络结构即可以用于文本相关说话人确认任务,也可以用于文本无关说话人辨别任务;不同任务时,输入序列位置、输入序列长度以及test时的输入样本特征表达的计算形式有所区别。

模型:

  网络采用多层LSTMP形式,提取输入样本的说话人表达;然后计算验证样本和所有说话人中心的cosine得分;最后通过softmax或contrast进行基于相似度得分的损失统计,反向传播更新参数。



  • LSTMP:每层LSTM后接一层线性映射层,以达到减少参数的目的;LSTM结构具有较好的时序建模特性。



技术分享图片



  • 相似度得分:带权重的cosine得分;与TE2E不同的是,这里计算的不是两个样本间的得分;而是验证样本与说话人中心之间的consine得分;这里,说话人中心的计算为先对特征表达进行L2归一化,然后再计算属于该说话人的所有特征表达的均值



技术分享图片

技术分享图片

需要说明的是,训练过程中计算验证样本与所属说话人的相似度得分时,计算去掉该样本的说话人中心使得训练更稳定

技术分享图片

 

技术分享图片

其中,M表示说话人样本个数



  • 损失函数:GE2E的目标函数,使得在训练过程中,验证样本与所属说话人中心的得分逐渐趋紧于1,同时使得与其它说话人中心的得分趋近于0


    • softmax




技术分享图片




    • contrast




 

技术分享图片

   其中,j、k 代表说话人,1=技术分享图片

 

技术分享图片

 

训练:





  • 数据集


    • 文本相关


      • “OK Google” ~630k speakers ~150M utts

      • “OK/Hey Google” ~1.2M utts ~ 18k speakers


    • 文本无关:30M utts 18K speakers


  • MutilReader:本文中提出了一种multiReader训练策略,该策略将多个不同数据源数据进行融合训练,不同数据源之间相互起到正则化作用,使得模型更加鲁棒;此外,multiReader策略通过调节对应的目标函数权重因子,还能较好的处理数据源之间的不平衡



技术分享图片

其中,K为第K个数据源,αk为第K个数据源的权重因子;



  • 输入特征:40维log-fbanks

  • 输入序列:


    • 文本相关:通过关键词检测得到的800ms的分割片段

    • 文本无关:随机获取的[140,180]帧范围内的分割片段




技术分享图片



  • 模型结构:


    • 文本相关:3*LSTMP(128,64)

    • 文本无关:3*LSTMP(768,256)


  • 训练细节参数:


    • batch: N=64speakers 每个speakers包含M=10utts

    • 优化算法:SGD

    • 学习率:0.01,每隔30M steps学习率降为之前的1/2

    • clip_grad:3

    • cosine权重:(w,b)=(10,-5)


  • 测试:


    • 文本相关:输入序列仍然是通过关键词检测获取的800ms分割片段,然后输入到网络中提取特征表达

    • 文本无关:对输入样本采用滑窗的形式,窗口大小为160帧,每个窗口分割片段输入到网络中提取特征表达并进行L2归一化;最后将各个窗口的表达取均值作为该样本的特征表达




技术分享图片

实验:



  • 本文提出的MultiReader策略相对于直接进行数据混合,能够较好的处理数据源之间的不平衡问题,使得模型更加鲁棒,相应的效果也更好



技术分享图片



  • 在文本相关说话人确认任务中,GE2E损失训练的模型相比于TE2E,EER更低,效果更好;此外,MultiReader策略能够进一步提升效果



技术分享图片



  • 在文本无关说话人辨别任务中,GE2E损失训练的模型相比于TE2E、CE交叉熵,EER也更低;表明在文本相关和文本无关说话人识别中,GE2E要比TE2E更好



技术分享图片



  • 无论是文本相关,还是在文本无关说话人识别任务,GE2E相比于TE2E,识别效果都更好,同时训练速度也更快;文本相关任务中,GE2E训练时间不到TE2E的60%,文本无关任务中,GE2E训练速度约为TE2E的3倍;原因在于,GE2E采用相似度矩阵的形式,将验证样本与说话人中心的consine得分进行一次矩阵运算,相比于TE2E的逐个cosine得分计算,速度具有明显优势;



技术分享图片

公式中,GE2E的一次更新,相当于TE2E的至少2(N-1)次迭代,M为说话人句子个数,P为抽取的句子个数,P=M意味着抽取说话人所有样本

结论:

  论文从损失函数层面进行优化和改进,提出了softmax和contrast两种损失;这两种损失的目的都是使得验证样本与所属说话人中心之间的得分趋近于1,同时与其它说话人中心的得分趋近于0;从实验效果看,GE2E相比于attentioned-based 的TE2E确实效果更好;论文还提出了一种MultiReader的多数据源融合训练策略,相比于直接将不同的数据源进行混合训练,将不同数据源按照权重因子进行加和,实验结果证明该策略能够较好的处理数据不平衡的问题;此外,论文在计算相似度得分的时候,采用矩阵相乘的形式运算,可以极大的提升训练速度。

Reference:

[1]https://wangquan.me/files/research/attention_ICASSP_2018.pdf(TE2E)

[2]https://arxiv.org/abs/1710.10467(本文)


推荐阅读
  • HDU 2372 El Dorado(DP)的最长上升子序列长度求解方法
    本文介绍了解决HDU 2372 El Dorado问题的一种动态规划方法,通过循环k的方式求解最长上升子序列的长度。具体实现过程包括初始化dp数组、读取数列、计算最长上升子序列长度等步骤。 ... [详细]
  • 本文介绍了OC学习笔记中的@property和@synthesize,包括属性的定义和合成的使用方法。通过示例代码详细讲解了@property和@synthesize的作用和用法。 ... [详细]
  • 知识图谱——机器大脑中的知识库
    本文介绍了知识图谱在机器大脑中的应用,以及搜索引擎在知识图谱方面的发展。以谷歌知识图谱为例,说明了知识图谱的智能化特点。通过搜索引擎用户可以获取更加智能化的答案,如搜索关键词"Marie Curie",会得到居里夫人的详细信息以及与之相关的历史人物。知识图谱的出现引起了搜索引擎行业的变革,不仅美国的微软必应,中国的百度、搜狗等搜索引擎公司也纷纷推出了自己的知识图谱。 ... [详细]
  • 本文内容为asp.net微信公众平台开发的目录汇总,包括数据库设计、多层架构框架搭建和入口实现、微信消息封装及反射赋值、关注事件、用户记录、回复文本消息、图文消息、服务搭建(接入)、自定义菜单等。同时提供了示例代码和相关的后台管理功能。内容涵盖了多个方面,适合综合运用。 ... [详细]
  • 本文介绍了lua语言中闭包的特性及其在模式匹配、日期处理、编译和模块化等方面的应用。lua中的闭包是严格遵循词法定界的第一类值,函数可以作为变量自由传递,也可以作为参数传递给其他函数。这些特性使得lua语言具有极大的灵活性,为程序开发带来了便利。 ... [详细]
  • 基于layUI的图片上传前预览功能的2种实现方式
    本文介绍了基于layUI的图片上传前预览功能的两种实现方式:一种是使用blob+FileReader,另一种是使用layUI自带的参数。通过选择文件后点击文件名,在页面中间弹窗内预览图片。其中,layUI自带的参数实现了图片预览功能。该功能依赖于layUI的上传模块,并使用了blob和FileReader来读取本地文件并获取图像的base64编码。点击文件名时会执行See()函数。摘要长度为169字。 ... [详细]
  • 本文讨论了Alink回归预测的不完善问题,指出目前主要针对Python做案例,对其他语言支持不足。同时介绍了pom.xml文件的基本结构和使用方法,以及Maven的相关知识。最后,对Alink回归预测的未来发展提出了期待。 ... [详细]
  • 本文讨论了如何优化解决hdu 1003 java题目的动态规划方法,通过分析加法规则和最大和的性质,提出了一种优化的思路。具体方法是,当从1加到n为负时,即sum(1,n)sum(n,s),可以继续加法计算。同时,还考虑了两种特殊情况:都是负数的情况和有0的情况。最后,通过使用Scanner类来获取输入数据。 ... [详细]
  • 本文介绍了C#中数据集DataSet对象的使用及相关方法详解,包括DataSet对象的概述、与数据关系对象的互联、Rows集合和Columns集合的组成,以及DataSet对象常用的方法之一——Merge方法的使用。通过本文的阅读,读者可以了解到DataSet对象在C#中的重要性和使用方法。 ... [详细]
  • Mac OS 升级到11.2.2 Eclipse打不开了,报错Failed to create the Java Virtual Machine
    本文介绍了在Mac OS升级到11.2.2版本后,使用Eclipse打开时出现报错Failed to create the Java Virtual Machine的问题,并提供了解决方法。 ... [详细]
  • 本文介绍了在SpringBoot中集成thymeleaf前端模版的配置步骤,包括在application.properties配置文件中添加thymeleaf的配置信息,引入thymeleaf的jar包,以及创建PageController并添加index方法。 ... [详细]
  • 本文讲述了作者通过点火测试男友的性格和承受能力,以考验婚姻问题。作者故意不安慰男友并再次点火,观察他的反应。这个行为是善意的玩人,旨在了解男友的性格和避免婚姻问题。 ... [详细]
  • 本文详细介绍了Linux中进程控制块PCBtask_struct结构体的结构和作用,包括进程状态、进程号、待处理信号、进程地址空间、调度标志、锁深度、基本时间片、调度策略以及内存管理信息等方面的内容。阅读本文可以更加深入地了解Linux进程管理的原理和机制。 ... [详细]
  • 1,关于死锁的理解死锁,我们可以简单的理解为是两个线程同时使用同一资源,两个线程又得不到相应的资源而造成永无相互等待的情况。 2,模拟死锁背景介绍:我们创建一个朋友 ... [详细]
  • 本文主要解析了Open judge C16H问题中涉及到的Magical Balls的快速幂和逆元算法,并给出了问题的解析和解决方法。详细介绍了问题的背景和规则,并给出了相应的算法解析和实现步骤。通过本文的解析,读者可以更好地理解和解决Open judge C16H问题中的Magical Balls部分。 ... [详细]
author-avatar
菜123
这个家伙很懒,什么也没留下!
PHP1.CN | 中国最专业的PHP中文社区 | DevBox开发工具箱 | json解析格式化 |PHP资讯 | PHP教程 | 数据库技术 | 服务器技术 | 前端开发技术 | PHP框架 | 开发工具 | 在线工具
Copyright © 1998 - 2020 PHP1.CN. All Rights Reserved | 京公网安备 11010802041100号 | 京ICP备19059560号-4 | PHP1.CN 第一PHP社区 版权所有