• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 8
    • 下载费用:30 金币  

    重庆时时彩龙虎一比分: 一种复杂环境下语音特征映射方法.pdf

    关 键 词:
    一种 复杂 环境 语音 特征 映射 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201710151497.0

    申请日:

    2017.03.14

    公开号:

    CN106782520A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G10L 15/20申请日:20170314|||公开
    IPC分类号: G10L15/20; G10L15/02; G10L15/14; G10L17/02(2013.01)I; G10L17/06(2013.01)I 主分类号: G10L15/20
    申请人: 华中师范大学
    发明人: 王志锋; 郭天学; 左明章; 田元; 姚璜
    地址: 430079 湖北省武汉市洪山区珞瑜路152号
    优先权:
    专利代理机构: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 魏波
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201710151497.0

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供了一种复杂环境下语音特征映射方法,首先提取干净环境下的语音信号的特征;然后提取复杂环境下的语音信号的特征;接着利用特征映射方法对复杂环境下的语音信号进行特征映射,使得到的映射特征可近似视为干净环境下的语音信号特征;最后与已经训练完毕的干净环境下的语音信号模型进行模式匹配和识别。本发明利用特征映射函数对复杂环境下的语音信号进行映射,使得到的特征可以近似视为干净环境下的语音信号特征,通过映射函数的作用可使复杂环境下的语音特征的纯净度得到大幅度提升从而提升语音识别的准确度,提高语音识别系统的鲁棒性。

    权利要求书

    1.一种复杂环境下语音特征映射方法,其特征在于,包括以下步骤:
    步骤1:提取干净环境下的语音信号的特征;
    步骤2:对复杂环境下的语音进行特征提??;
    步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;
    步骤4:模式匹配与识别。
    2.根据权利要求1所述的复杂环境下语音特征映射方法,其特征在于,步骤1的具体实
    现包括以下子步骤:
    步骤1.1:对干净环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
    步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;
    步骤1.3:使用混合高斯模型对步骤1.2中得到的特征建立统计模型,得到干净环境下
    语音信号的模型Λ。
    3.根据权利要求1所述的复杂环境下语音特征映射方法,其特征在于,步骤2的具体实
    现包括以下子步骤:
    步骤2.1:对复杂环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;
    步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征,记为Y=[y1,y2,...,
    yi,...,yn],yi表示复杂环境下第i帧的语音特征。
    4.根据权利要求1所述的复杂环境下语音特征映射方法,其特征在于:干净环境下的语
    音帧数和复杂环境下的语音帧数保持一致。
    5.根据权利要求2所述的复杂环境下语音特征映射方法,其特征在于,骤3的具体实现
    包括以下子步骤:
    步骤3.1、特征映射函数为:
    xi=A·yi+B,简记为:xi=F(yi);
    其中yi为复杂环境下语音特征的第i帧的语音特征,xi为通过特征映射函数后得到的第
    i帧特征,A为增益矩阵,B为偏移矩阵;

    A为d行d列的对角矩阵,B为d行1列的矩阵,d为帧长,在前面的分帧的步骤中设置;
    步骤3.2、对特征映射函数中的参数进行估计:
    <mrow> <mi>ln</mi> <mi> </mi> <mi>L</mi> <mrow> <mo>(</mo> <mi>&Lambda;</mi> <mo>;</mo> <msub> <mi>x</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>x</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mi>ln</mi> <mi> </mi> <mi>L</mi> <mo>&lsqb;</mo> <mi>&Lambda;</mi> <mo>;</mo> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mn>1</mn> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>F</mi> <mrow> <mo>(</mo> <msub> <mi>y</mi> <mi>n</mi> </msub> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <mi>ln</mi> <mi> </mi> <mi>p</mi> <mrow> <mo>(</mo> <mi>F</mi> <mo>(</mo> <msub> <mi>y</mi> <mi>i</mi> </msub> <mo>)</mo> <mo>|</mo> <mi>&Lambda;</mi> <mo>)</mo> </mrow> </mrow>
    其中Λ为步骤1.3中训练的干净语音模型;
    步骤3.3、将估计得到的参数代入特征映射函数中求得复杂环境下的语音经过特征映
    射函数运算后得到的语音特征,此时的特征即可近似视为干净环境下的语音特征。
    6.根据权利要求1-5任意一项所述的复杂环境下语音特征映射方法,其特征在于:步骤
    4中,当得到复杂环境下通过特征映射之后的特征后,对得到的特征建立统计模型,采用
    HMM-GMM模型,然后进行模型匹配,进行语音识别/说话人识别。

    说明书

    一种复杂环境下语音特征映射方法

    技术领域

    本发明属于语音信号处理技术领域,特别涉及一种复杂环境下语音特征映射方
    法。

    技术背景

    随着计算机技术的深入发展,模式识别已经成为一种为人类带来巨大便利的实用
    技术,特别是在人机交互领域。模式识别能够为人机交互提供新的方式,为用户带来更加自
    然和更有沉浸感的交互体验。而语音识别是模式识别中非常重要的一个???,在人类自然
    的交互中,语音交流是最为重要的一种方式,语音识别的运用使得人能够以自然的交互方
    式与机器进行交互,这种交互方式的便利性可大大缓解人类在人机交互中的压力,丰富了
    人与机器交互的方式,也使得人机交互更加的丰富和多样。近几十年语音识别已经发展的
    足够完美,识别率也足够高,然而这些结果都是在实验室内得出的结果,也就是说,在干净
    环境下,语音识别的结果是足够好的。但是在现实生活中,环境的复杂度是无法估量的,人
    们几乎不可能保证所身处的环境都是干净的环境,人们的周边充斥着噪音,这些噪音可能
    是周围自然环境所发出的噪声,也可能是其他人所发出的噪声,也可能是录音设备的噪声。
    也就是说,语音识别在自然的应用中是处于被噪声包围的复杂环境下的,而语音识别亟需
    解决的痛点就是在复杂环境下的识别率并不高,甚至是其结果是不被人们所接受的。

    语音识别的结果受到周围环境的影响,在实验室环境(即干净环境下)其结果足够
    好,但是在现实环境(即复杂环境)中其结果是不被人们所接受的。这是亟需解决的问题。语
    音识别的过程包括模型训练和识别两个过程,而模型训练一般使用的都是干净环境下的语
    音信号,识别过程使用的是复杂环境下即真实的语音信号。要解决这个问题就需要从如何
    使复杂环境下的语音信号与干净环境下的语音信号进行匹配入手。在语音信号的处理过程
    中,有两个非常重要的环节,特征提取和建立模型,当今的解决方案大致便可以分为两种,
    一种是从特征入手,另一种是从模型入手。

    特征映射就是从特征入手的一种解决方案。通过特征映射函数的作用,将复杂环
    境下的语音信号特征转换成可以近似视为干净环境下的语音信号特征??纱蟠筇岣呦质涤?br />用中语音识别的准确率,提高语音识别系统的鲁棒性。

    发明内容

    本发明的目的在于提出一种通过特征映射来提高复杂环境下语音识别系统的鲁
    棒性的方法,该方法通过对复杂环境下的语音特征进行映射,使得复杂环境下的语音特征
    通过映射函数映射得到的语音特征具有近似干净环境下语音特征的纯净度,从而来提高语
    音识别系统在复杂环境下的识别率。

    本发明所采用的技术方案是:一种复杂环境下语音特征映射方法,其特征在于,包
    括以下步骤:

    步骤1:提取干净环境下的语音信号的特征;

    步骤2:对复杂环境下的语音进行特征提??;

    步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;

    步骤4:模式匹配与识别。

    本发明具有以下优点和有益效果:

    (1)本发明中提出的特征映射方法是一种线性的映射方法,计算简便且计算值为
    精确值,能够提高参数的精度;

    (2)本发明提出的映射方法通过对复杂环境下的语音特征进行映射,能提高语音
    识别系统的识别准确率,具有较强的鲁棒性;

    (3)本发明提出的映射方法还可以对干净环境下的语音进行映射,依然可以取得
    同样的效果;

    (4)本发明为提高语音识别的准确性提出了一种广泛性的算法。

    附图说明

    图1本发明实施例的流程图。

    具体实施方式

    为了便于本领域普通技术人员理解和实施本发明,下面结合附图及实施例对本发
    明作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本发明,并不
    用于限定本发明。

    请见图1,本发明提供的一种复杂环境下语音特征映射方法,包括以下步骤:

    步骤1:提取干净环境下的语音信号的特征;

    具体实现包括以下子步骤:

    步骤1.1:对干净环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;

    步骤1.2:将步骤1.1中预处理后的信号提取Mel倒谱系数特征;

    步骤1.3:使用混合高斯模型对步骤1.2中得到的特征建立统计模型,得到干净环
    境下语音信号的模型Λ。

    本实施例中对干净环境下语音的训练,高斯混合模型中的高斯数应当视实际情况
    而定,在训练过程中应当兼顾运行速度和准确度两个方面。

    步骤2:对复杂环境下的语音进行特征提??;

    具体实现包括以下子步骤:

    步骤2.1:对复杂环境下得到的语音信号进行预处理,包括预加重、分帧、加窗;

    本实施例中对复杂环境下的语音进行特征提取,步骤2.1中分帧的帧数n应当与步
    骤1.1中的帧数n保持一致,即干净环境下的语音帧数和复杂环境下的语音帧数保持一致;

    步骤2.2:将步骤2.1中预处理后的信号提取Mel倒谱系数特征,记为Y=[y1,
    y2,...,yi,...,yn],yi表示复杂环境下第i帧的语音特征。

    步骤3:利用特征映射方法对复杂环境下的语音特征进行映射;具体实现包括以下
    子步骤:

    步骤3.1:将特征的每一帧yi都进行映射,映射形式为:

    xi=A·yi+B,简记为:xi=F(yi)

    其中yi为复杂环境下语音特征的第i帧语音特征,xi为通过特征映射函数后得到的
    第i帧特征,A为增益矩阵,B为偏移矩阵;


    A为d行d列的对角矩阵,B为d行1列的矩阵(d为帧长,在分帧的步骤中设置);

    步骤3.2:根据最大似然函数和已知模型Λ对F进行参数估计:


    其中Λ为步骤1.3中训练的干净语音模型;

    步骤3.3:根据当前Ft(当前帧的映射函数)的参数来构造辅助函数计算新的F(新
    的一帧的映射函数)的参数:


    其中,θ表示语音信号状态序列,X表示语音信号特征,C表示所处高斯分量,m表示
    混合高斯模型的高斯数,n表示语音信号的帧数;


    p(Cj|Λ)=ωj


    ωj表示第j个高斯的权重,μj和Σj分别为第j个高斯分量的均值和方差,为方便
    记为:


    步骤3.4:由步骤3.3可得到辅助函数为:


    对各项展开可得:


    其中μj,k,δj,k分别表示F的第k个参数的第j个高斯的均值和标准差,yi,k表示映射
    前的第i帧语音特征的第k个矢量,ak,bk分别为F中增益矩阵a和偏移矩阵b的第k个参数;

    步骤3.5:对步骤3.4中的展开式分别求F关于ak,bk的偏导数:



    将以上两式展开可得:



    步骤3.6:为方便计算,分别将以下统计量替代步骤3.5中的统计量:






    则步骤3.5中的方程式可写为:



    可解上述方程组得:



    步骤3.7:将解得的A,B代入步骤3.1中即可求得经过映射后的语音信号特征X(可
    近似视为干净环境下的语音特征)。

    步骤4:模型匹配与识别;当得到复杂环境下通过特征映射之后的特征后,对得到
    的特征建立统计模型,采用HMM-GMM模型,然后进行模型匹配,进行语音识别/说话人识别;

    将步骤3中求得的语音特征X进行建模并用最大后验概率算法与已知模型Λ进行
    匹配,从而得到语音识别/说话人识别结果。

    本实施例中描述的复杂环境是指在现实应用中的环境下,由于现实环境中存在着
    各种各样的噪音,因此它是一种复杂的环境,这种环境下周围的噪声是不可估的。干净环境
    是指在理想的实验室中的环境,对周围环境要求较高,而无噪声环境指周围环境无明显的
    干扰,离干净环境的要求有一定的差距。

    应当理解的是,本说明书未详细阐述的部分均属于现有技术。

    应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本
    发明专利?;し段У南拗?,本领域的普通技术人员在本发明的启示下,在不脱离本发明权
    利要求所?;さ姆段榭鱿?,还可以做出替换或变形,均落入本发明的?;し段е?,本发
    明的请求?;し段вσ运饺ɡ笪?。

    关于本文
    本文标题:一种复杂环境下语音特征映射方法.pdf
    链接地址://www.4mum.com.cn/p-6004605.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 博程序出租 跟十二生肖有关的游戏 11选5计划软件 彩凤凰 斗鱼直播权限怎么赚钱 重庆时时必中技巧13458 AG水上乐园开奖软件 福彩3d怎么买稳赚不赔 内蒙古11选5预测 如何算公司有没有赚钱 七乐彩中奖规则及金额 贵州十一选五规律 美团打车软件司机赚钱 七乐彩中奖规则图表 178彩票网靠谱吗 养啥牛赚钱 领航彩票快三计划软件下载