当前位置: 首页 > news >正文

it行业网站模板肇庆seo公司咨询23火星

it行业网站模板,肇庆seo公司咨询23火星,网站开发欠款,京东企业网站建设思路文章目录1 Task Introduction2 模型架构3 模型介绍3.1 i-vector3.2 d-vector3.3 x-vector3.4 more4 End to End本文为李弘毅老师【Speaker Verification】的课程笔记#xff0c;课程视频youtube地址#xff0c;点这里#x1f448;(需翻墙)。 下文中用到的图片均来自于李宏毅… 文章目录1 Task Introduction2 模型架构3 模型介绍3.1 i-vector3.2 d-vector3.3 x-vector3.4 more4 End to End本文为李弘毅老师【Speaker Verification】的课程笔记课程视频youtube地址点这里(需翻墙)。 下文中用到的图片均来自于李宏毅老师的PPT若有侵权必定删除。 文章索引 上篇 - 4-2 More than Tacotron 下篇 - 6 Vocoder 总目录 1 Task Introduction 在之前的课程当中已经讲过了语音转文字文字转语音语音转语音这几个这次要来讲一下语音转类别。也就是给语音分类。 与语音转类别相关的任务有情感识别语音事件检测自闭识别关键词识别等等这些技术都是大同小异今天主要来讲一下【语者验证】。 语者验证指的就是输入两段语音输出这两段语音是同一个人说出来的概率。有一个应用场景就是【银行客服】。当我们第一次打电话给银行或者去银行的时候客服会把我们的声音记录下来然后当我们下一次再打电话给银行的时候银行就可以比对以下这次的声音和之前的声音是否都是我们说出的如果不是的话就需要额外的验证手续了。在判断是否为同一个语者发出的声音时会人为设置一个threshold大于该值则为同一个人说的否则不是。threshold的大小可以根据场景需求设置。 不难想象只要我们的threshold取的不同模型的正确率也就会不同。那么我们如何来评价这个模型的好坏呢有一个指标叫做Equal Error Rate(EER)EER指的就是下图中橙色斜线与蓝色曲折线的交点值大小。橙色的线就是一条斜率为1的直线蓝色的线是我们在取不同大小的threshold时代表模型结果的FP和FN的值的位置。FP指的是不同语者被判断成同一个语者的概率FN指的是同一语者被判断成不同语者的概率。如果蓝色的线和橙色的线的交点值越小那么模型越好。 2 模型架构 整个模型从框架上来说其实并不复杂。模型就是一个可以抽取语音中语者信息的网络然后输入一段语音之后就可以吐出这段语音对应的语者信息向量也成为speaker embedding。整个过程可以分为三个阶段 训练模型 找一个有多个人说话的数据集然后把这些语音放到模型里去训练得到一个得以抽取说话人语者信息的模型。用来训练的数据集一般会比较大。谷歌的非公开数据集有18000个语者说的3600万条语音。这个真的是非常大了我们没法得到这样的数据集。目前的公开数据集可以使用VoxCeleb或者VoxCeleb2。这些公开的数据集就比谷歌的数据集要小很多啦。录入模板音 把说话人第一次说话的声音录入下来输入模型中讲吐出的语者信息向量作为模板存放起来对比声音 把新加入的声音输入模型当中得到语者信息向量将其与之前存放起来的模板进行相似度的计算判断是否是同一人说的 3 模型介绍 3.1 i-vector i-vector不是深度学习的模型。李老师说这个模型可以说是语音界最后一个被深度学习打败的模型在16年左右还是比深度学习的模型效果好的。这个模型这里不做介绍它就是一个不管输入多长的语音都可以吐出一个400维的向量的模型。 3.2 d-vector d-vector是14年提出的一个和i-vector效果差不多的深度学习模型。差不多就是说还没有i-vector好。它的思想很简单在训练的时候就是截取语音中的一小段之后把这段放到DNN里去训练最后输出这段话是哪个人说的。训练结束之后倒数第二层的feature就是我们要的speaker embedding了。 在实际预测的时候我们的输入语音是不等长的因此d-vector会把语音截成多段然后取这几段特征的平均值作为最后的speaker embedding。 3.3 x-vector x-vector是d-vector的升级版它在训练的时候就考虑了整段声音信号的信息。它会把每一小段的声音信号输出的特征算一个mean和variance然后concat起来再放进一个DNN里去来判断是哪个说话人说的。其他的部分和d-vector一致。 当然今天我们再来看的时候会把DNN直接换成RNN就可以了。 3.4 more 除了以上讲到的这几种方法之外还有很多其他的方法比如加入了attention的又比如NetNLAD等等。这里不细讲这些方法这些方法的框架都是一样的只不过模型内部有所改变。想了解的同学可以直接看文献。 4 End to End 以上说到的方法都是train一个speaker recognition的模型然后拿它的特征来做相似度的计算。其实相似度计算这部分也可以直接放进模型里去训练做成一个end-to-end的模型。我们的数据集还是和之前的一样有一堆多个speaker说的话我们知道每句话是哪个speaker说的。在end-to-end训练的时候我们会把k段同一个人A说的话放进模型里得到一个平均之后的特征然后再从数据集中抽取一段A说的话作为正样本抽取一段非A说的话作为负样本然后也输入模型得到一个特征。两个特征做相似度的计算希望正样本下的score越高越好负样本下的score越低越好。 这种做法也可以分为text-dependent和text-independent。text-dependent就是输入的语音所说的话是固定知道的。text-independent就是输入的话是随机的。在text-independent的时候我们可以在抽出来的特征这里加一个discriminator用来做语音转文字。我们的模型就是要试图去骗过这个discriminator两者共同进步。这个也是很多地方都用到的一个方法。
http://www.fuzeviewer.com/news/28321/

相关文章:

  • 普陀手机网站建设网页设计与网站建设教材
  • 定做网站多少钱网站设计找谁做
  • 游戏网站开发公司桂林市防疫最新政策
  • 推广网站发布文章中山服装网站建设
  • 如何做好网站的优化ps海报模板素材免费
  • 怎么做类似淘宝一样的网站网站建设报价单模板下载
  • 大气蓝色律师网站phpcms模板广州市建设工程检测协会网站
  • 跨境电商网站建设成本中建集团
  • 网站建设税种分类做室内设计兼职的网站
  • 可以做项目的网站国产长尾关键词拘挖掘
  • 上海徐汇做网站广东东莞最新消息通知
  • 校园网站建设成本关键词搜索引擎
  • 电子商务网站建设课程的心得wordpress 无法创建页面
  • tp3企业网站开发百度云百度的网址是多少
  • 商会网站怎么做镇江网站建设方案
  • 赚钱的网站平台泰安手机网站
  • 想建个网站做推广易企秀h5制作官网登录
  • 网站主题有哪些常州网站制作
  • 筑梦网站建设wordpress 用户积分系统
  • 网站优化分析软件wordpress图片上传压缩
  • 泸州城建设档案管网站ui设计做兼职的网站有哪些
  • 企业商务网站建设策划书网站院长信箱怎么做
  • 网页在线发短信平台北京seo关键词
  • 中山火炬开发区建设局网站做儿童业态招商要去哪些网站
  • 网站制作 服务器 系统互联网品牌推广
  • 高平做网站太原免费网络推广哪里朿
  • 安庆市网站建设制作苏州网站建设自助建站模板
  • 高校网站建设 调查搜索引擎推广入口
  • 中国冶金建设协会网站建立一个团购网站需要多少钱
  • 电子商城网站学习网站二次开发