• 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
    • / 16
    • 下载费用:30 金币  

    重庆时时彩gt娱乐: 一种语音识别方法及系统.pdf

    关 键 词:
    一种 语音 识别 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201510447962.6

    申请日:

    2015.07.24

    公开号:

    CN106384587A

    公开日:

    2017.02.08

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G10L 15/02申请日:20150724|||公开
    IPC分类号: G10L15/02; G10L15/06(2013.01)I 主分类号: G10L15/02
    申请人: 科大讯飞股份有限公司; 讯飞智元信息科技有限公司
    发明人: 刘俊华; 袁胜龙; 胡国平; 郭武; 凌震华; 胡郁; 刘庆峰
    地址: 230088 安徽省合肥市高新开发区望江西路666号
    优先权:
    专利代理机构: 北京维澳专利代理有限公司 11252 代理人: 党丽;江怀勤
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510447962.6

    授权公告号:

    |||

    法律状态公告日:

    2017.03.08|||2017.02.08

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种语音识别方法及系统,包括:接收待识别语音信号,并提取所述语音信号的声学特征;根据所述声学特征及预先训练的声学模型,获取各建模单元的后验概率;对所述建模单元后验概率进行压缩平滑处理,获取各建模单元处理后的后验概率;对所述语音信号所有帧的建模单元处理后的后验概率进行解码,得到语音识别结果。本发明由于在获得建模单元后验概率后,对其分布进行压缩平滑处理,增大了建模单元的后验概率对应的多个候选序列对正确语音识别结果的覆盖率,进而提升语音识别效果。

    权利要求书

    1.一种语音识别方法,其特征在于,包括:
    接收待识别语音信号,并提取所述语音信号的声学特征;
    根据所述声学特征及预先训练的声学模型,获取各建模单元的后验概率;
    对所述建模单元后验概率进行压缩平滑处理,获取各建模单元处理后的后
    验概率;
    对所述语音信号所有帧的建模单元处理后的后验概率进行解码,得到语音
    识别结果。
    2.根据权利要求1所述的方法,其特征在于,所述对所述建模单元后验
    概率进行压缩平滑处理,获取各建模单元处理后的后验概率包括:
    确定变换函数类型,所述变换函数类型包括线性变换函数、非线性变换函
    数;
    选取待调整应用场景对应的训练数据进行针对所述类型的变换函数参数
    调整,获取待调整应用场景最优变换函数参数;
    获取所述最优变换函数参数对应的各建模单元的后验概率,作为各建模单
    元处理后的后验概率。
    3.根据权利要求2所述的方法,其特征在于,所述变换函数具有以下任
    一个或多个特性:
    概率特性:输出值非负,且所有建模单元后验概率之和为1;
    压缩平滑特性:能够减小输入的各建模单元的后验概率波动范围,增加设
    定个数的候选序列对正确结果的覆盖度,所述候选序列为候选建模单元的序
    列;
    单射性:给定不同的输入具有不同的输出,保持原有各建模单元的后验概
    率的区分性。
    4.根据权利要求2所述的方法,其特征在于,所述选取待调整应用场景
    对应的训练数据进行变换函数参数调整,获取待调整应用场景最优变换函数参
    数包括:
    选取参考应用场景对应的训练数据进行变换函数参数调整,获取参考应用
    场景变换函数参数;
    获取参考应用场景变换函数参数对应的各建模单元的后验概率;
    初始化待调整应用场景对应的变换函数参数,并获取待调整应用场景的初
    始化变换函数参数对应的各建模单元的后验概率;
    计算待调整应用场景对应的各建模单元的后验概率与参考应用场景对应
    的各建模单元的后验概率分布距离,并以此距离调整待调整应用场景对应的变
    换函数参数,获取待调整应用场景最优变换函数参数。
    5.根据权利要求2所述的方法,其特征在于,所述方法还包括:
    在进行后验概率压缩平滑处理时,表征变换函数参数估计指标采用Oracle
    的字错误率指标或者实际词项权重指标ATWV。
    6.一种语音识别系统,其特征在于,包括:
    接收???,用于接收待识别语音信号;
    声学特征提取???,用于提取所述语音信号的声学特征;
    后验概率获取???,用于根据所述声学特征及预先训练的声学模型,获取
    各建模单元的后验概率;
    后验概率处理???,用于对所述建模单元后验概率进行压缩平滑处理,获
    取各建模单元处理后的后验概率;
    解码???,用于对所述语音信号所有帧的建模单元处理后的后验概率进行
    解码,得到语音识别结果。
    7.根据权利要求6所述的系统,其特征在于,所述后验概率处理??榘?br />括:
    变换函数类型确定单元,用于确定变换函数类型,所述变换函数类型包括
    线性变换函数、非线性变换函数;
    变换函数参数获取单元,用于选取待调整应用场景对应的训练数据进行针
    对所述类型的变换函数参数调整,获取待调整应用场景最优变换函数参数;
    后验概率获取单元,获取所述最优变换函数参数对应的各建模单元的后验
    概率,作为各建模单元处理后的后验概率。
    8.根据权利要求7所述的系统,其特征在于,所述变换函数参数获取单
    元包括:
    第一参数获取子单元,用于选取参考应用场景对应的训练数据进行变换函
    数参数调整,获取参考应用场景变换函数参数;
    第一后验概率获取子单元,用于获取参考应用场景变换函数参数对应的各
    建模单元的后验概率;
    第二参数初始化子单元,用于初始化待调整应用场景对应的变换函数参
    数;
    第二后验概率获取子单元,用于获取待调整应用场景的初始化变换函数参
    数对应的各建模单元的后验概率;
    第二参数获取子单元,用于计算待调整应用场景对应的各建模单元的后验
    概率与参考应用场景对应的各建模单元的后验概率分布距离,并以此距离调整
    待调整应用场景对应的变换函数参数,获取待调整应用场景最优变换函数参
    数。
    9.根据权利要求7所述的系统,其特征在于,所述后验概率处理??樵?br />进行后验概率压缩平滑处理时,表征变换函数参数估计指标采用Oracle的字
    错误率指标或者实际词项权重指标ATWV。

    说明书

    一种语音识别方法及系统

    技术领域

    本发明涉及语音识别领域,具体涉及一种语音识别方法及系统。

    背景技术

    随着互联网技术的日益发展,语音识别技术已进入工业、通信、家电、汽
    车、家庭服务、医学等各个领域。语音识别技术就是让机器通过识别和理解过
    程把语音信号转变为相应的文本或命令的技术。语音识别技术主要包括特征提
    取技术、模式匹配准则及模型训练技术三个方面。

    随着神经网络,例如深度神经网络DNN技术的快速发展,基于神经网络
    的语音识别系统已然成为了当下最主流的语音识别技术。现有的语音识别系统
    中用于语音识别的神经网络在训练过程中,根据训练数据中语音的标注信息,
    神经网络训练的目标是使得输入语音帧数据特征所对应的建模单元输出的后
    验概率为1,而其他建模单元输出的后验概率为0。因而神经网络在最终完成
    训练后,其输出节点的建模单元的后验概率较为尖锐,即每帧数据的概率输出
    集中在某几个输出节点上,其他节点上非常小。在这种情况下,如果训练数据
    充足,那么用于语音识别的神经网络输出的建模单元的后验概率区分性较好,
    进而使得整个语音识别效果较好;然而如果训练数据较少,不能涵盖各种发音
    情况,那么在进行语音识别时往往会因为尖锐的建模单元的后验概率输出导致
    语音识别错误放大,最终影响语音识别效果。

    发明内容

    本发明实施例提供一种语音识别方法及系统,解决训练数据较少时,基于
    神经网络的语音识别系统对于训练数据未覆盖到的发音,往往会使得错误放大
    的问题,以提高连续语音的识别效果。

    为此,本发明实施例提供如下技术方案:

    一种语音识别方法,包括:

    接收待识别语音信号,并提取所述语音信号的声学特征;

    根据所述声学特征及预先训练的声学模型,获取各建模单元的后验概率;

    对所述建模单元后验概率进行压缩平滑处理,获取各建模单元处理后的后
    验概率;

    对所述语音信号所有帧的建模单元处理后的后验概率进行解码,得到语音
    识别结果。

    优选的,所述对所述建模单元后验概率进行压缩平滑处理,获取各建模单
    元处理后的后验概率包括:

    确定变换函数类型,所述变换函数类型包括线性变换函数、非线性变换函
    数;

    选取待调整应用场景对应的训练数据进行针对所述类型的变换函数参数
    调整,获取待调整应用场景最优变换函数参数;

    获取所述最优变换函数参数对应的各建模单元的后验概率,作为各建模单
    元处理后的后验概率。

    优选的,所述变换函数具有以下任一个或多个特性:

    概率特性:输出值非负,且所有建模单元后验概率之和为1;

    压缩平滑特性:能够减小输入的各建模单元的后验概率波动范围,增加设
    定个数的候选序列对正确结果的覆盖度,所述候选序列为候选建模单元的序
    列;

    单射性:给定不同的输入具有不同的输出,保持原有各建模单元的后验概
    率的区分性。

    优选的,所述选取待调整应用场景对应的训练数据进行变换函数参数调
    整,获取待调整应用场景最优变换函数参数包括:

    选取参考应用场景对应的训练数据进行变换函数参数调整,获取参考应用
    场景变换函数参数;

    获取参考应用场景变换函数参数对应的各建模单元的后验概率;

    初始化待调整应用场景对应的变换函数参数,并获取待调整应用场景的初
    始化变换函数参数对应的各建模单元的后验概率;

    计算待调整应用场景对应的各建模单元的后验概率与参考应用场景对应
    的各建模单元的后验概率分布距离,并以此距离调整待调整应用场景对应的变
    换函数参数,获取待调整应用场景最优变换函数参数。

    优选的,所述方法还包括:

    在进行后验概率压缩平滑处理时,表征变换函数参数估计指标采用Oracle
    的字错误率指标或者实际词项权重指标ATWV。

    一种语音识别系统,包括:

    优选的,接收???,用于接收待识别语音信号;

    声学特征提取???,用于提取所述语音信号的声学特征;

    后验概率获取???,用于根据所述声学特征及预先训练的声学模型,获取
    各建模单元的后验概率;

    后验概率处理???,用于对所述建模单元后验概率进行压缩平滑处理,获
    取各建模单元处理后的后验概率;

    解码???,用于对所述语音信号所有帧的建模单元处理后的后验概率进行
    解码,得到语音识别结果

    优选的,所述后验概率处理??榘ǎ?br />

    变换函数类型确定单元,用于确定变换函数类型,所述变换函数类型包括
    线性变换函数、非线性变换函数;

    变换函数参数获取单元,用于选取待调整应用场景对应的训练数据进行针
    对所述类型的变换函数参数调整,获取待调整应用场景最优变换函数参数;

    后验概率获取单元,获取所述最优变换函数参数对应的各建模单元的后验
    概率,作为各建模单元处理后的后验概率。

    优选的,所述变换函数参数获取单元包括:

    第一参数获取子单元,用于选取参考应用场景对应的训练数据进行变换函
    数参数调整,获取参考应用场景变换函数参数;

    第一后验概率获取子单元,用于获取参考应用场景变换函数参数对应的各
    建模单元的后验概率;

    第二参数初始化子单元,用于初始化待调整应用场景对应的变换函数参
    数;

    第二后验概率获取子单元,用于获取待调整应用场景的初始化变换函数参
    数对应的各建模单元的后验概率;

    第二参数获取子单元,用于计算待调整应用场景对应的各建模单元的后验
    概率与参考应用场景对应的各建模单元的后验概率分布距离,并以此距离调整
    待调整应用场景对应的变换函数参数,获取待调整应用场景最优变换函数参
    数。

    优选的,所述后验概率处理??樵诮泻笱楦怕恃顾跗交硎?,表征变
    换函数参数估计指标采用Oracle的字错误率指标或者实际词项权重指标
    ATWV。

    本发明实施例提供的一种语音识别方法及系统,通过提取待识别语音信息
    的声学特征,并根据其与预先训练好的声学模型,获取建模单元后验概率,通
    过对该建模单元后验概率进行压缩平滑处理,使得处理后的建模单元的后验概
    率对正确结果的覆盖度更高,然后对处理后各帧的建模单元的后验概率进行解
    码以实现语音识别。由于在获得建模单元后验概率后,对其分布进行压缩平滑
    处理,增大了建模单元的后验概率对应的多个候选序列对正确语音识别结果的
    覆盖率,进而提升语音识别效果。

    附图说明

    为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施
    例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是
    本发明中记载的一些实施例,对于本领域普通技术人员来讲,还可以根据这些
    附图获得其他的附图。

    图1是现有语音识别方法的一种流程图;

    图2是本发明实施例提供的语音识别方法的流程图;

    图3是本发明实施例提供的提取声学特征方法的一种流程图;

    图4是本发明实施例提供的语音识别系统的一种结构示意图;

    图5是本发明实施例提供的语音识别系统的后验概率处理??榈囊恢纸?br />构示意图;

    图6是本发明实施例提供的语音识别系统的变换函数参数获取单元的一
    种结构示意图。

    具体实施方式

    为了使本技术领域的人员更好地理解本发明实施例的方案,下面结合附图
    和实施方式对本发明作进一步的详细说明。以下实施例是示例性的,仅用于解
    释本发明,而不能解释为对本发明的限制。

    为了更好地理解本发明,下面首先对现有技术中语音识别方法进行简单说
    明。现有的语音识别方法流程图如图1所示,首先接收待识别语音信号,并提
    取所述语音信号的声学特征;然后,基于声学特征及预先训练的声学模型,得
    到建模单元后验概率,最终对语音信号所有帧的建模单元后验概率进行解码,
    实现语音识别。其中,所述声学模型可以为神经网络(Neural Networks,NN),
    例如深度神经网络(Deep Neural Networks,DNN)、递归神经网络(Recurrent
    Neural Network,RNN)、卷积神经网络(Convolution Neural Network,CNN)
    等,其输入为语音信号的声学特征,输出为建模单元的后验概率,建模单元可
    以为音素、音节等,也可以为考虑协同发音的三元音素等,神经网络由于其自
    学习功能,已成为当下主流的语音识别技术采用的声学模型。但是,神经网络
    训练的目标是使得输入语音信号的每帧数据特征所对应的建模单元输出的后
    验概率为1,而其他建模单元输出的后验概率为0,使得输出节点的建模单元
    的后验概率分布较尖锐。当训练数据充足时,使用神经网络识别效果较好;当
    训练数据较少时,会因根据神经网络获取的尖锐分布的建模单元后验概率导致
    语音识别错误放大。

    本发明提供的语音识别方法及系统,由于根据声学特征获取建模单元的后
    验概率后,对其进行压缩平滑处理,有效提升了处理后的建模单元的后验概率,
    对正确结果的覆盖率,提高了语音识别的应用效果。

    为了更好的理解本发明的技术方案和技术效果,以下将结合流程图和具体
    的实施例进行详细的描述。

    如图2所示,是本发明实施例提供的语音识别方法的流程图,包括以下步
    骤:

    步骤S01,接收待识别语音信号,并提取所述语音信号的声学特征。

    在本实施例中,通过麦克风等设备接收待识别语音信息,然后对其进行处
    理获取声学特征。简单来说,声学特征是一个帧序列,而每帧就是一个多维向
    量,一种示意的提取声学特征的流程图如图3所示,本实施例不做具体限制。

    步骤S02,根据所述声学特征与预先训练的声学模型,获取各建模单元的
    后验概率。

    在本实施例中,所述声学模型为神经网络,具体可以为DNN、RNN或
    CNN等。声学模型的输入为语音信号的声学特征O=(o1,o2,L,oT),其中T为
    语音信号长度,单位为帧,输出为建模单元的后验概率P(si|ot),表示第t帧特
    征,第i个建模单元出现的后验概率,i=1,2,…,N,N表示建模单元总数。其
    中,建模单元可以为音素、音节、单词、句子等,以“科大讯飞实验室”为例
    进行说明:音素:k-e-d-a-x-un-f-ei-sh-i-y-an-sh-i;音节:在汉语中通常为单字:
    科-大-讯-飞-实-验-室;单词:科大-讯飞-实验室;句子:科大讯飞实验室;此
    外,还可以为考虑协同发音的三元音素(tri-phone):ei-sh+i和an-sh+i。具体的,
    可以通过将待识别语音信号的声学特征输入预先训练的声学模型进行计算,获
    得建模单元后验概率。

    步骤S03,对所述建模单元后验概率进行压缩平滑处理,获取各建模单元
    处理后的后验概率。

    在本实施例中,对所述建模单元后验概率进行压缩平滑处理,使得处理后
    的建模单元的后验概率分布更平滑,并且其波动范围小于处理前的建模单元的
    后验概率的波动范围,从而增加建模单元的后验概率的候选序列对正确语音识
    别结果的覆盖度,其中,候选序列的个数可以为预先设定的个数,也可以是根
    据实际情况或特定规则,由计算机自动获取的。所述压缩平滑处理可以通过函
    数变换的方式进行,例如,通过满足一定特性的函数,以建模单元的后验概率
    为参数进行变换,得到建模单元处理后的后验概率;此外,还可以通过图形处
    理的方式达到对建模单元的后验概率进行压缩平滑处理的目的,例如,将各建
    模单元的后验概率绘制在笛卡尔坐标系中,形成散点图、折线图或曲线图等,
    然后对其进行图像处理,获得分布的更加平滑且波动范围小于处理前波动范围
    的分布图,并根据其获得各建模单元处理后的相应后验概率。此外,现有技术
    中能使处理后的建模单元的后验概率分布较处理前,具有压缩平滑效果的方式
    都适用,以上方式仅为压缩平滑处理的示例,在此不做限定。

    在本实施例中,以通过变换函数来实现对建模单元后验概率进行压缩平滑
    处理为例,进行详细说明?;袢「鹘5ピ砗蟮暮笱楦怕?,具体可以包括:
    将建模单元的后验概率Pi(si|ot),变换为P'(si|ot)=f(P(si|ot)),其中f(x)是变换
    函数,为获得压缩平滑处理的效果并满足实际应用的需求,f(x)应当满足以下
    任一或多种特性:

    1)概率特性:输出值非负,且所有建模单元后验概率之和为1;

    2)压缩平滑特性:能够减小输入的建模单元后验概率波动范围,增加设
    定个数的候选序列对正确结果的覆盖度,所述候选序列为候选建模单元的序
    列;

    3)单射性:给定不同的输入具有不同的输出,保持压缩平滑处理前各建
    模单元的后验概率的区分性。

    在本实施例中,首先确定变换函数类型,所述变换函数类型包括线性变换
    函数、非线性变换函数。具体的,本实施例提供两种相对简单和方便操作的变
    换函数:线性变换函数flinear(P(si|ot)),非线性变换函数fnon-linear(P(si|ot)),
    分别如式(1)、式(2)所示:

    线性变换函数:

    <mrow> <msup> <mi>P</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>(</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>=</mo> <mfrac> <mrow> <msup> <mi>P</mi> <mi>&beta;</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msup> <mi>P</mi> <mi>&beta;</mi> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow>

    非线性变换函数:

    <mrow> <msup> <mi>P</mi> <mo>&prime;</mo> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <msub> <mi>f</mi> <mrow> <mi>n</mi> <mi>o</mi> <mi>n</mi> <mo>-</mo> <mi>l</mi> <mi>i</mi> <mi>n</mi> <mi>e</mi> <mi>a</mi> <mi>r</mi> </mrow> </msub> <mo>(</mo> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>)</mo> <mo>=</mo> <mfrac> <mrow> <msub> <mi>log</mi> <mi>a</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>log</mi> <mi>a</mi> </msub> <mi>P</mi> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>2</mn> <mo>)</mo> </mrow> </mrow>

    其中,β和a分别为线性变换函数参数和非线性变换函数参数,K为语音
    信息的总帧数。

    然后,选取待调整应用场景对应的训练数据进行针对确定的类型的变换函
    数参数调整,获取待调整应用场景最优变换函数参数。需要说明的是,在不同
    的应用场景中,所注重的指标不同,即在不同的应用场景中,进行变换函数参
    数调整时,所采用的变换函数参数估计指标不同。例如:

    1.对于语音识别应用场景,在进行后验概率压缩平滑处理时,表征变换函
    数参数估计指标采用Oracle的字错误率(Oracle Word Error Rate,OWER)指
    标,也就是说,通过所述候选序列对正确结果覆盖度来评价当前变换函数参数
    是否为最优变换函数参数,具体公式如式(3)所示:

    <mrow> <mi>O</mi> <mi>W</mi> <mi>E</mi> <mi>R</mi> <mo>=</mo> <munderover> <mstyle> <mi>min</mi> </mstyle> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <mi>W</mi> <mi>E</mi> <mi>R</mi> <mrow> <mo>(</mo> <msub> <mi>S</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>3</mn> <mo>)</mo> </mrow> </mrow>

    其中WER(Si)表示第i个候选序列识别结果的词错误率,其数学表达式
    如式(4)所示:

    <mrow> <mi>W</mi> <mi>E</mi> <mi>R</mi> <mrow> <mo>(</mo> <mi>S</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mo>#</mo> <mi>d</mi> <mi>e</mi> <mi>l</mi> <mo>+</mo> <mo>#</mo> <mi>i</mi> <mi>n</mi> <mi>s</mi> <mo>+</mo> <mo>#</mo> <mi>s</mi> <mi>u</mi> <mi>b</mi> </mrow> <mrow> <mo>#</mo> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>4</mn> <mo>)</mo> </mrow> </mrow>

    其中,#del,#ins和#sub分别表示删除错误,插入错误,替代错误个数,
    #ref为参考答案的个数。调整β或a使得OWER最小,当OWER最小时,其
    相应的β即为线性变换函数参数,相应的a即为非线性变换函数参数。

    需要说明的是,上述获取变换函数参数的方式只是给出了一般语音识别任
    务的参数调整方法,对于式(3)和式(4)可根据不同应用场景而重新设定,
    本发明不对其表现形式作限定。

    2.对于关键词检索应用场景,在进行后验概率压缩平滑处理时,表征变换
    函数参数估计指标采用ATWV(Actual Term Weight Value,实际词项权重指标)
    指标,具体如式(5)所示:

    <mrow> <mi>A</mi> <mi>T</mi> <mi>W</mi> <mi>V</mi> <mo>=</mo> <mn>1</mn> <mo>-</mo> <mfrac> <mn>1</mn> <mi>K</mi> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>w</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <mo>(</mo> <mrow> <mfrac> <msub> <mi>N</mi> <mrow> <mi>m</mi> <mi>i</mi> <mi>s</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> <msub> <mi>N</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> </mfrac> <mo>+</mo> <mi>&gamma;</mi> <mfrac> <msub> <mi>N</mi> <mrow> <mi>f</mi> <mi>a</mi> <mi>l</mi> <mi>s</mi> <mi>e</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> <mrow> <mi>T</mi> <mo>-</mo> <msub> <mi>N</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> <mrow> <mo>(</mo> <mi>w</mi> <mo>)</mo> </mrow> </mrow> </msub> </mrow> </mfrac> </mrow> <mo>)</mo> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>5</mn> <mo>)</mo> </mrow> </mrow>

    其中,K为关键词个数,Nref(w)为测试集合中第w个关键词目标个数,
    Nmiss(w)和Nfalse(w)表示给定阈值条件下未检测第w个关键词的个数,以及检测
    出来的错误的个数,T表示表示集合数据的总时长,通常以秒为单位,γ是根
    据具体任务而提前确定的一个参数,例如,在国际NIST关键词检索任务比赛
    中,γ被预设为999.9。需要说明的是,γ根据实际任务设定,例如有些场景
    关注召回率,那么γ就需要设定的比较小,反之如果用户希望正确率更高,则
    γ就需要设定的比较大。特别的,只有一组语音库关键词查询任务时,则确定
    最优变换参数后只要对语音库进行关键词检索即完成任务。对于多组语音库关
    键词查询任务,如果改组语音库有具有标注信息可以构建测集合确定最优参
    数,否则需要借助下面参考语音库的信息确定最优参数。

    最后,获取该变换函数类型及最优变换函数参数对应的各建模单元的后验
    概率,将其作为处理后的后验概率。

    步骤S04,对所述语音信号所有帧的建模单元处理后的后验概率进行解
    码,得到语音识别结果。

    在本实施例中,对处理后的各帧的后验概率进行解码以实现语音识别,所
    述解码为通过设计算法得到最优词串,所述设计算法可以为:Viterbi算法等,
    在此不做特殊限定。

    至此,通过本发明提供的方法,对接收的待识别语音信号的建模单元后验
    概率,进行压缩平滑处理,使得所述候选序列对正确结果的覆盖度提高,能有
    效提升语音识别效果。

    在实际应用中,受各种因素的影响,例如,不同的应用场景对应的训练数
    据特性不完全相同,使得在一个应用场景对应的训练数据调整出来的变换函数
    参数对于另一个应用场景并不一定适用;并且,通过选取待调整应用场景对应
    的训练数据进行变换函数参数调整,获取最优变换函数参数的方式较繁琐和耗
    时,效率不高;此外,在未能收集到相应的应用场景的充足训练数据等情况时,
    获取较优的变换函数参数会比较困难;针对于此,本发明提供的方法还包括:
    首先选择一个参考应用场景进行变换函数参数调整,对于其它场景,调整其相
    应的变换函数参数,使得处理后的后验概率分布与参考场景相应处理后的后验
    概率分布尽可能的接近,达到准确高效获取变换函数参数的目的,具体可以包
    括:

    选取参考应用场景训练数据进行变换函数参数调整,获取参考应用场景变
    换函数参数;

    获取参考应用场景变换函数参数对应的各建模单元的后验概率;

    初始化待调整应用场景对应的变换函数参数,并获取待调整应用场景的初
    始化变换函数参数对应的各建模单元的后验概率;

    计算待调整应用场景对应的各建模单元的后验概率与参考应用场景对应
    的各建模单元的后验概率分布距离,并以此距离调整待调整应用场景对应的变
    换函数参数,获取待调整应用场景的最优变换函数参数。

    在实际应用中,上述获取变换函数参数的步骤,在待调整应用场景对应的
    训练数据少于参考应用场景对应的训练数据时,能得到最优的待调整应用场景
    相应的变换函数参数;此外,参考应用场景与待调整应用场景的后验概率分布
    距离可以通过多种技术手段获得,该后验概率分布距离可以采用
    Kullback-Leibler distance(KLD距离),欧式距离,cos相关度距离等。以下根
    据直方图获取后验概率分布距离为例进行说明。

    在一个具体实施例中,通过调整待调整应用场景对应的各建模单元的后验
    概率与参考应用场景对应的各建模单元的后验概率分布距离,获取待调整应用
    场景的变换函数参数,具体如下所述:

    1)判断待调整应用场景相应的训练数据是否充足,例如,通过将其与预
    先设定的最接近参考场景的训练数据进行对比,当待调整应用场景对应的训练
    数据多于预先设定的最接近参考场景的训练数据时,判定待调整应用场景相应
    的训练数据为充足,否则为不充足;需要说明的是,上述判断标准仅仅是一种
    示例,还可以通过判断当前语音信息所属的语种是否为小语种或待调整应用场
    景的时长信息等作为判断标准,可以根据待识别语音信息的特征而定,这里不
    做限定。当判断结果为充足时,采用步骤S03中相应的方式获取待调整应用场
    景的变换函数参数;当判断结果为不充足时,执行步骤2)。

    2)选取参考应用场景对应的训练数据进行变换函数参数调整,获取参考
    应用场景变换函数参数;所述参考应用场景的训练数据应足够充足,用以获得
    较优的变换函数参数,其中,获取参考应用场景相应的变换函数参数的过程,
    可以与步骤S03中获取待调整应用场景的变换函数参数的过程相同,在此不再
    详述。

    3)获取参考应用场景变换函数对应的各建模单元的后验概率,并统计其
    直方图分布;后验概率直方图分布示意公式如式(6)所示:

    <mrow> <msub> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>T</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </msub> </mfrac> <munderover> <mo>&Sigma;</mo> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>T</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </msub> </munderover> <msup> <mi>P</mi> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mi>L</mi> <mo>,</mo> <mi>N</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>6</mn> <mo>)</mo> </mrow> </mrow> </msup> </mrow>

    其中,ot表示参考应用场景中第t帧语音特征,Tref表示参考应用场景中
    总的语音帧数,P"(si|ot)表示对P'(si|ot)按照从大到小排序后的后验概率分
    布。

    4)初始化待调整的应用场景对应的变换函数参数,并获取待调整应用场
    景的初始化变换函数参数对应的各建模单元后验概率的直方图分布;其中,待
    调整应用场景变换函数参数初始化,一般根据实际应用情况及经验设定变换函
    数参数初始值。待调整应用场景相应处理后的建模单元后验概率直方图分布示
    意公式如式(7)所示:

    <mrow> <msub> <mi>h</mi> <mrow> <mi>e</mi> <mi>v</mi> <mi>a</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <msub> <mi>T</mi> <mrow> <mi>e</mi> <mi>v</mi> <mi>a</mi> </mrow> </msub> </mfrac> <munderover> <mstyle> <mo>&Sigma;</mo> </mstyle> <mrow> <mi>t</mi> <mo>=</mo> <mn>1</mn> </mrow> <msub> <mi>T</mi> <mrow> <mi>e</mi> <mi>v</mi> <mi>a</mi> </mrow> </msub> </munderover> <msup> <mi>P</mi> <mrow> <mo>&prime;</mo> <mo>&prime;</mo> </mrow> </msup> <mrow> <mo>(</mo> <msub> <mi>s</mi> <mi>i</mi> </msub> <mo>|</mo> <msub> <mi>o</mi> <mi>t</mi> </msub> <mo>)</mo> </mrow> <mo>,</mo> <mi>i</mi> <mo>=</mo> <mn>1</mn> <mo>,</mo> <mn>2</mn> <mo>,</mo> <mi>L</mi> <mo>,</mo> <mi>N</mi> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>7</mn> <mo>)</mo> </mrow> </mrow>

    其中,ot表示第t帧应用场景中的语音特征,Teva表示待调整应用场景中
    语音的帧数,P"(si|ot)表示对P'(si|ot)按照从大到小排序后的各建模单元的后
    验概率分布。由于P'(si|ot)是β或a的函数,heva(i)也是β或a的函数,改变
    变换函数参数,相应后验概率分布也会不同。

    5)计算待调整应用场景对应的各建模单元的后验概率与参考应用场景对
    应的各建模单元的后验概率的直方图的分布距离,并以此距离调整待调整应用
    场景对应的变换函数参数,获取待调整应用场景最优变换函数参数;具体可以
    为:

    计算参考应用场景和待调整应用场景相应建模单元的后验概率直方图
    分布KLD距离,具体公式如式(8)所示:

    <mrow> <mi>D</mi> <mrow> <mo>(</mo> <msub> <mi>h</mi> <mrow> <mi>e</mi> <mi>v</mi> <mi>a</mi> </mrow> </msub> <mo>|</mo> <mo>|</mo> <msub> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>N</mi> </munderover> <msub> <mi>h</mi> <mrow> <mi>e</mi> <mi>v</mi> <mi>a</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> <mi>log</mi> <mfrac> <mrow> <msub> <mi>h</mi> <mrow> <mi>e</mi> <mi>v</mi> <mi>a</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>h</mi> <mrow> <mi>r</mi> <mi>e</mi> <mi>f</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>i</mi> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

    根据KLD距离调整变换函数参数,具体如下所述:通过调整变换函数参
    数,使得待调整应用场景相应建模单元的后验概率分布与参考应用场景相应建
    模单元的后验概率分布之间的KLD距离达到最小值,其相应的变换函数参数
    即为最优的变换函数参数,具体如式(9)、式(10)所示:

    对于线性变换函数:

    β=argβminD(heva||href) (9)

    对于非线性变换函数:

    α=argαminD(heva||href) (10)

    需要说明的是,根据参考应用场景相应变换函数参数获取待调整应用场景
    相应变换函数参数的过程,尤其适用于多应用场景,即多个识别任务已知的情
    况下。如果应用场景并不是全部已知,即可以简单的理解为应用场景是按顺序
    逐个进行处理的,有先后顺序,第一个应用场景需要根据其对应的训练数据调
    整变换函数参数,并将第一个应用场景作为参考应用场景,后续应用场景为待
    调整应用场景,此时需要对比待调整应用场景对应的训练数据与参考应用场景
    对应的训练数据,只有待调整应用场景对应的训练数据比参考应用场景对应的
    训练数据少时,才采用根据参考应用场景相应变换函数参数获取待调整应用场
    景相应变换函数参数的方式;否则待调整应用场景根据其相应训练数据进行变
    换函数参数调整,并将该应用场景作为参考应用场景。

    本发明实施例提供的语音识别方法,通过将待识别语音信息的各建模单元
    的后验概率,进行压缩平滑处理,使得各建模单元处理后的后验概率相应的所
    述候选序列对正确语音识别结果的覆盖率显著提高,并最终导致语音识别效果
    提升。此外,本发明还提供了通过函数变换对建模单元的后验概率进行压缩平
    滑处理的实施形式,以及相应变换函数参数的获取方式,能有效提升该语音识
    别方法的准确率及效率。

    相应的,本发明还提供了语音识别系统:

    接收???01,用于接收待识别语音信号;

    声学特征提取???02,用于提取所述语音信号的声学特征;

    后验概率获取???03,用于根据所述声学特征与预先训练的声学模型,
    获取各建模单元的后验概率;

    后验概率处理???04,用于对所述建模单元后验概率进行压缩平滑处理,
    获取各建模单元处理后的后验概率;

    解码???05,用于对所述语音信号所有帧的建模单元处理后的后验概率
    进行解码,得到语音识别结果。

    本实施例中,所述后验概率处理???04具体通过变换函数实现对各建模
    单元的后验概率进行压缩平滑处理,所述后验概率处理???04包括:

    变换函数类型确定单元501,用于确定变换函数类型,所述变换函数类型
    包括线性变换函数、非线性变换函数;

    变换函数参数获取单元502,用于选取待调整应用场景对应的训练数据进
    行针对所述变换函数类型确定单元501确定的变换函数类型的变换函数参数
    调整,获取待调整应用场景最优变换函数参数;

    后验概率获取单元503,获取所述最优变换函数参数对应的各建模单元的
    后验概率,作为各建模单元处理后的后验概率。

    需要说明的是,在实际应用中,不同的应用场景对应的训练数据特性不完
    全相同,并且变换函数参数获取单元502较繁琐和耗时,此外,当待调整应用
    场景相应的训练数据较少时,变换函数参数获取单元502较难获取好的变换函
    数参数;因此所述后验概率处理???04还可以包括:

    第一参数获取子单元601,用于选取参考应用场景对应的训练数据进行变
    换函数参数调整,获取参考应用场景变换函数参数;

    第一后验概率获取子单元602,用于获取参考应用场景变换函数参数对应
    的各建模单元的后验概率;

    第二参数初始化子单元603,用于初始化待调整应用场景对应的变换函数
    参数;

    第二后验概率获取子单元604,用于获取待调整应用场景的初始化变换函
    数参数对应的各建模单元的后验概率;

    第二参数获取子单元605,用于计算待调整应用场景对应的各建模单元的
    后验概率与参考应用场景对应的各建模单元的后验概率分布距离,并以此距离
    调整待调整应用场景对应的变换函数参数,获取待调整应用场景最优变换函数
    参数。

    当然,该系统还可以进一步包括存储???未图示),用于保存预先训练
    的声学模型、常用参考应用场景相关信息,如训练数据、变换函数参数等。这
    样,以方便对待识别语音信息进行计算机自动处理,并存储语音识别结果相关
    信息等。

    本发明实施例提供的语音识别系统,通过声学特征提取??榻邮盏拇?br />别语音信号的声学特征提取出来,并通过后院概率获取??榈慕峁朐は妊盗?br />的声学模型获取各建模单元的后验概率,然后通过后验概率处理??槎院笱楦?br />率获取??榛袢〉母鹘5ピ暮笱楦怕式醒顾跗交?,使得通过该系统
    获取的各建模单元后验概率相应候选序列对正确语音识别结果的覆盖率增大,
    最终通过解码???,对所述语音信号所有帧的建模单元处理后的后验概率进行
    解码,得到语音识别结果。解决了待调整应用场景相应训练数据较少时,基于
    神经网络的语音识别系统对于训练数据未覆盖到的发音,往往会使得错误放大
    的问题,提高了连续语音的识别效果。

    本说明书中的各个实施例均采用递进的方式描述,各个实施例之间相同相
    似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之
    处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述得
    比较简单,相关之处参见方法实施例的部分说明即可。以上所描述的系统实施
    例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是
    物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以
    位于一个地方,或者也可以分布到多个网络单元上??梢愿菔导实男枰≡?br />其中的部分或者全部??槔词迪直臼凳├桨傅哪康?。本领域普通技术人员在
    不付出创造性劳动的情况下,即可以理解并实施。

    以上对本发明实施例进行了详细介绍,本文中应用了具体实施方式对本发
    明进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及设备;同
    时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用
    范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

       内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种语音识别方法及系统.pdf
    链接地址://www.4mum.com.cn/p-6014564.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 繁星国际网址 nba比分直播新浪 赚钱卖淫 大乐透大小走势图带坐标2 德州扑克官方网站 快乐10分私彩 网络棋牌游戏外挂透视 163比分网 江苏快三遗漏二同号 广东快乐十分开奖直播软件下载 贵州十一选五走势 彩票网站标红 打麻将必胜绝技 河北快3走势图彩吧助手 广西十一选五走势图 至尊线上娱乐网站