• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 15
    • 下载费用:30 金币  

    重庆时时彩前二走势图: 语音识别方法和装置.pdf

    关 键 词:
    语音 识别 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410129541.4

    申请日:

    2014.04.01

    公开号:

    CN103915092A

    公开日:

    2014.07.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G10L 15/02申请日:20140401|||公开
    IPC分类号: G10L15/02; G10L15/06(2013.01)I 主分类号: G10L15/02
    申请人: 百度在线网络技术(北京)有限公司
    发明人: 李博; 王志谦; 胡娜; 穆向禹; 贾磊; 魏伟
    地址: 100085 北京市海淀区上地十街10号百度大厦三层
    优先权:
    专利代理机构: 北京清亦华知识产权代理事务所(普通合伙) 11201 代理人: 张大威
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410129541.4

    授权公告号:

    ||||||

    法律状态公告日:

    2019.01.25|||2014.08.06|||2014.07.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。

    权利要求书

    权利要求书
    1.  一种语音识别方法,其特征在于,包括:
    采集用户输入的语音信息;
    对所述语音信息进行特征提取,得到特征信息;
    根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。

    2.  根据权利要求1所述的方法,其特征在于,所述得到特征信息之后,所述方法还包括:
    对所述特征信息进行过滤,得到过滤后的特征信息,以对所述过滤后的特征信息进行解码。

    3.  根据权利要求2所述的方法,其特征在于,所述对所述特征信息进行过滤,包括:
    对所述特征信息进行跳帧提取。

    4.  根据权利要求1至3任一项所述的方法,其特征在于,所述根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,包括:
    对所述特征信息进行数据压缩,根据所述数据压缩过的声学模型,对数据压缩后的特征信息进行计算,得到声学模型打分;
    根据语言???,对声学模型打分后的数据进行运算,得到语言模型打分;
    根据所述声学模型打分和所述语言模型打分,得到识别后的语音信息。

    5.  根据权利要求4所述的方法,其特征在于,所述对数据压缩后的特征信息进行计算,包括:
    对数据压缩后的特征信息进行并行运算。

    6.  根据权利要求5所述的方法,其特征在于,所述并行运算包括如下项中的至少一项:
    数据并行运算、指令并行运算、线程并行运算。

    7.  一种语言识别装置,其特征在于,包括:
    采集???,用于采集用户输入的语音信息;
    提取???,用于对所述语音信息进行特征提取,得到特征信息;
    解码???,用于根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。

    8.  根据权利要求7所述的装置,其特征在于,还包括:
    过滤???,用于对所述特征信息进行过滤,得到过滤后的特征信息,以对所述过滤后的特征信息进行解码。

    9.  根据权利要求8所述的装置,其特征在于,所述过滤单元具体用于:
    对所述特征信息进行跳帧提取。

    10.  根据权利要求7至9任一项所述的装置,其特征在于,所述解码??榫咛逵糜冢?BR>对所述特征信息进行数据压缩,根据所述数据压缩过的声学模型,对数据压缩后的特征信息进行计算,得到声学模型打分;
    根据语言???,对声学模型打分后的数据进行运算,得到语言模型打分;
    根据所述声学模型打分和所述语言模型打分,得到识别后的语音信息。

    11.  根据权利要求10所述的装置,其特征在于,所述解码??槎允菅顾鹾蟮奶卣餍畔⒔屑扑?,包括:
    对数据压缩后的特征信息进行并行运算。

    12.  根据权利要求11所述的装置,其特征在于,所述解码??榻械牟⑿性怂憔咛灏ㄈ缦孪钪械闹辽僖幌睿?BR>数据并行运算、指令并行运算、线程并行运算。

    说明书

    说明书语音识别方法和装置
    技术领域
    本发明涉及智能处理技术领域,尤其涉及一种语音识别方法和装置。
    背景技术
    语音识别是信息技术领域重要的技术之一,语音识别的目标是使机器听懂人的自然语言,由识别后的语音作为控制信号可以应用在不同的领域。
    目前,语音识别通常采用在线方式,用户输入的语音信息由网络传入云端,经云端的服务器进行识别并将结果传回给用户。
    但是,这种在线方式需要依赖网络。
    发明内容
    本发明旨在至少在一定程度上解决相关技术中的技术问题之一。
    为此,本发明的一个目的在于提出一种语音识别方法,该方法可以不依赖网络实现语音识别。
    本发明的另一个目的在于提出一种语音识别装置。
    为达到上述目的,本发明第一方面实施例提出的语音识别方法,包括:采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。
    本发明第一方面实施例提出的语音识别方法,通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。
    为达到上述目的,本发明第二方面实施例提出的语音识别装置,包括:采集???,用于采集用户输入的语音信息;提取???,用于对所述语音信息进行特征提取,得到特征信息;解码???,用于根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。
    本发明第二方面实施例提出的语音识别装置,通过离线的方式进行语音识别,可以 不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。
    为达到上述目的,本发明第三方面实施例提出的移动设备,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为移动设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。
    本发明第三方面实施例提出的移动设备,通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。
    本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。
    附图说明
    本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
    图1为本发明一实施例提出的语音识别方法的流程示意图;
    图2为本发明实施例中离线方式的语音识别的流程示意图;
    图3为本发明另一实施例提出的语音识别方法的流程示意图;
    图4为本发明实施例中过滤特征信息的示意图;
    图5为本发明实施例中利用声学模型进行处理的流程示意图;
    图6为本发明另一实施例提出的语音识别装置的结构示意图;
    图7为本发明另一实施例提出的语音识别装置的结构示意图。
    具体实施方式
    下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。
    图1为本发明一实施例提出的语音识别方法的流程示意图,该方法包括:
    S11:移动设备采集用户输入的语音信息;
    其中,移动设备可以为手机、平板电脑等。
    相关技术中,移动设备接收到用户输入的语音信息后,会通过网络发送给云端的服务器,由服务器进行识别并返回识别结果。
    而本实施例中,为了避免语音识别受限于网络,可以由移动设备自身完成语音识别,实现离线方式的语音识别。
    S12:移动设备对用户输入的语音信息进行特征提取,得到特征信息。
    其中,参见图2,可以首先将用户输入的模拟语音信息转换为数字语音信息。之后,可以根据语音激活检测(Voice Activity Detector,VAD)确定语音起始点和终止点,再进行特征提取。
    S13:移动设备根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。
    其中,如图2所示,解码步骤往往占据着绝大部分的时间。解码器通过对声学模型的匹配和语言模型的处理来实现语音特征值和文本字串的对应关系,其中声学模型又比语言模型复杂得多。因此,对声学模型的优化会给整个语音识别系统的效率带来大量收益。本实施例通过对声学模型进行数据压缩,以避免庞大的声学模型难以运行在移动设备中。
    本实施例通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。
    图3为本发明另一实施例提出的语音识别方法的流程示意图,该方法包括:
    S31:移动设备采集用户输入的语音信息。
    S32:移动设备对语音信息进行特征提取,得到特征信息。
    S33:移动设备对特征信息进行过滤处理,得到过滤后的特征信息。
    其中,如图4所示,在一段语音信息中,由于字与字之间的停顿,带来很多无用的信息。本实施例通过过滤掉这些无用信息,以保证输入到解码器中的特征信息紧凑有效。
    过滤处理包括但不限于跳帧等。
    S34:移动设备根据数据压缩后的声学模型,对输入的过滤后的特征信息进行计算,得到声学模型打分。
    具体的,利用声学模型进行处理的流程可以参见图5,包括:
    S51:对输入数据进行数据压缩。
    其中,输入数据是指过滤后的特征信息。
    S52:利用数据压缩过的声学模型,对数据压缩后的输入数据进行并行计算,得到输出数据,其中,输出数据是数据压缩的声学模型打分。
    其中,对输入数据进行数据压缩的算法与声学模型的数据压缩算法一致,以进行相应匹配。
    本实施例中的优化可以包括数据结构优化和计算模式优化,其中,数据结构优化是指对输入数据以及声学模型都进行了压缩。计算模式优化是指采用并行运算。
    在解码器??橹?,本实施例采用了数据压缩方法,使本来非常庞大的声学模型压缩到适合在移动设备中使用的规模,同时能够保证整体识别率没有下降。此外,由于整个解码过程中的操作数均是压缩过的数据,所以,虽然相比于一般的解码过程,本实施例多了数据压缩和数据解压的过程,但是得益于压缩过的数据量比原数据量小一个量级,而且输入压缩和输出解压的计算量远小于模型打分的计算,因此,整体解码时间大大短于没有压缩数据的解码。
    本实施例在对数据进行压缩的同时,也充分发掘了数据计算的并行性。在对大量输入数据进行解码时,不同的输入数据在进行计算时完全没有数据依赖,而且同一数据的计算中也存在毫无关联的数个步骤,因此本实施例采用各种并行手段,包括但不限于数据并行、指令并行、线程并行等,对整个解码过程进行并行优化,取得了巨大的时间收益。
    在采用以上两种优化手段之后,解码时间在整体识别时间中的占比由原来的95%以上缩减到了20%以下,加速达到150倍以上;模型规模也缩减到原来的15%。这一指标完全适合应用于移动设备中。
    S53:对输出数据进行解压缩,得到声学模型打分。
    在得到声学模型打分后,还可以获取语言模型打分,最后根据声学模型打分和语言模型打分,得到识别后的语音信息。即,本实施例的方法还包括:
    S35:移动设备对经过声学模型匹配后的数据进行语言模型打分,得到语言模型打分。
    其中,经过声学模型处理后,可以得到声学模型中每个字对应的得分,之后根据每个字对应的得分,可以对相应的字进行语言模型打分。
    由于语言模型相对于声学模型简单很多,因此,可以将目前服务器采用的语言模型应用到移动设备中,采用目前的语言模型处理流程。
    S36:移动设备根据声学模型打分和语言模型打分,得到结合后的打分。
    最终模型的打分由声学模型的得分和语言模型的得分相结合得到,该方式包括但 不限于加权求和:
    score=Wam·scoream十Wlm·scorelm
    其中,score为最终得分,Wam和Wlm分别是声学模型和语言模型的权重,scoream和scorelm分别为声学模型和语言模型的打分。
    S37:移动设备将最高的结合后的打分对应的文字片断,确定为语音识别后得到的文字片断。
    本实施例可以在移动设备上实现离线语音识别,可以应用在地图导航、手机输入等软件中,使得用户不需要手动输入信息,直接采用语音完成相应控制,提升用户体验。本实施例通过对解码部分的声学模型进行计算以及数据的优化,既能够保证识别率,又能将占用的系统资源控制在一个合理的范围内,十分适合部署在移动设备上。
    图6为本发明另一实施例提出的语音识别装置的结构示意图,该装置60包括采集???1、提取???2和解码???3。
    采集???1用于采集用户输入的语音信息;
    其中,该装置可以具体为移动设备,移动设备可以为手机、平板电脑等。
    相关技术中,移动设备接收到用户输入的语音信息后,会通过网络发送给云端的服务器,由服务器进行识别并返回识别结果。
    而本实施例中,为了避免语音识别受限于网络,可以由移动设备自身完成语音识别,实现离线方式的语音识别。
    提取???2用于对所述语音信息进行特征提取,得到特征信息;
    其中,可以首先将用户输入的模拟语音信息转换为数字语音信息。之后,可以根据语音激活检测(Voice Activity Detector,VAD)确定语音起始点和终止点,再进行特征提取。
    解码???3用于根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。
    其中,解码步骤往往占据着绝大部分的时间。解码器通过对声学模型的匹配和语言模型的处理来实现语音特征值和文本字串的对应关系,其中声学模型又比语言模型复杂得多。因此,对声学模型的优化会给整个语音识别系统的效率带来大量收益。本实施例通过对声学模型进行数据压缩,以避免庞大的声学模型难以运行在移动设备中。
    本实施例通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。
    图7为本发明另一实施例提出的语音识别装置的结构示意图,该装置60还包括过滤???4。
    过滤???4用于对所述特征信息进行过滤,得到过滤后的特征信息,以对所述过滤后的特征信息进行解码。
    其中,如图3所示,在一段语音信息中,由于字与字之间的停顿,带来很多无用的信息。本实施例通过过滤掉这些无用信息,以保证输入到解码器中的特征信息紧凑有效。
    一个实施例中,所述过滤???4具体用于:对所述特征信息进行跳帧提取。
    一个实施例中,所述解码???3具体用于:
    对所述特征信息进行数据压缩,根据所述数据压缩过的声学模型,对数据压缩后的特征信息进行计算,得到声学模型打分;
    根据语言???,对声学模型打分后的数据进行运算,得到语言模型打分;
    根据所述声学模型打分和所述语言模型打分,得到识别后的语音信息。
    一个实施例中,所述解码???3对数据压缩后的特征信息进行计算,包括:
    对数据压缩后的特征信息进行并行运算。
    一个实施例中,所述解码???3进行的并行运算具体包括如下项中的至少一项:
    数据并行运算、指令并行运算、线程并行运算。
    其中,对输入数据进行数据压缩的算法与声学模型的数据压缩算法一致,以进行相应匹配。
    本实施例中的优化可以包括数据结构优化和计算模式优化,其中,数据结构优化是指对输入数据以及声学模型都进行了压缩。计算模式优化是指采用并行运算。
    在解码器??橹?,本实施例采用了数据压缩方法,使本来非常庞大的声学模型压缩到适合在移动设备中使用的规模,同时能够保证整体识别率没有下降。此外,由于整个解码过程中的操作数均是压缩过的数据,所以,虽然相比于一般的解码过程,本实施例多了数据压缩和数据解压的过程,但是得益于压缩过的数据量比原数据量小一个量级,而且输入压缩和输出解压的计算量远小于模型打分的计算,因此,整体解码时间大大短于没有压缩数据的解码。
    本实施例在对数据进行压缩的同时,也充分发掘了数据计算的并行性。在对大量输入数据进行解码时,不同的输入数据在进行计算时完全没有数据依赖,而且同一数据的计算中也存在毫无关联的数个步骤,因此本实施例采用各种并行手段,包括但不限于数据并行、指令并行、线程并行等,对整个解码过程进行并行优化,取得了巨大的时间收益。
    在采用以上两种优化手段之后,解码时间在整体识别时间中的占比由原来的95%以上缩减到了20%以下,加速达到150倍以上;模型规模也缩减到原来的15%。这一指标完全适合应用于移动设备中。
    在得到声学模型打分后,还可以获取语言模型打分,最后根据声学模型打分和语言模型打分,得到识别后的语音信息。
    最终模型的打分由声学模型的得分和语言模型的得分相结合得到,该方式包括但不限于加权求和:
    score=Wam·scoream+Wlm·scorelm
    其中,score为最终得分,Wam和Wlm分别是声学模型和语言模型的权重,scoream和scorelm分别为声学模型和语言模型的打分。
    其中,可以将最高的结合后的打分对应的文字片断,确定为语音识别后得到的文字片断。
    本实施例可以在移动设备上实现离线语音识别,可以应用在地图导航、手机输入等软件中,使得用户不需要手动输入信息,直接采用语音完成相应控制,提升用户体验。本实施例通过对解码部分的声学模型进行计算以及数据的优化,既能够保证识别率,又能将占用的系统资源控制在一个合理的范围内,十分适合部署在移动设备上。
    本发明实施例还提供了一种移动设备,该移动设备包括壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为移动设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
    S11’:采集用户输入的语音信息;
    其中,移动设备可以为手机、平板电脑等。
    相关技术中,移动设备接收到用户输入的语音信息后,会通过网络发送给云端的服务器,由服务器进行识别并返回识别结果。
    而本实施例中,为了避免语音识别受限于网络,可以由移动设备自身完成语音识别,实现离线方式的语音识别。
    S12’:对用户输入的语音信息进行特征提取,得到特征信息。
    其中,可以首先将用户输入的模拟语音信息转换为数字语音信息。之后,可以根据语音激活检测(Voice Activity Detector,VAD)确定语音起始点和终止点,再进行特征提取。
    S13’:根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别 后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。
    其中,解码步骤往往占据着绝大部分的时间。解码器通过对声学模型的匹配和语言模型的处理来实现语音特征值和文本字串的对应关系,其中声学模型又比语言模型复杂得多。因此,对声学模型的优化会给整个语音识别系统的效率带来大量收益。本实施例通过对声学模型进行数据压缩,以避免庞大的声学模型难以运行在移动设备中。
    本实施例通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。
    另一实施例中,处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:
    S31’:采集用户输入的语音信息。
    S32’:对语音信息进行特征提取,得到特征信息。
    S33’:对特征信息进行过滤处理,得到过滤后的特征信息。
    其中,如图4所示,在一段语音信息中,由于字与字之间的停顿,带来很多无用的信息。本实施例通过过滤掉这些无用信息,以保证输入到解码器中的特征信息紧凑有效。
    过滤处理包括但不限于跳帧等。
    S34’:根据数据压缩后的声学模型,对输入的过滤后的特征信息进行计算,得到声学模型打分。
    具体的,得到声学模型打分的流程可以包括:
    S51’:对输入数据进行数据压缩。
    其中,输入数据是指过滤后的特征信息。
    S52’:利用数据压缩过的声学模型,对数据压缩后的输入数据进行并行计算,得到输出数据,其中,输出数据是数据压缩的声学模型打分。
    其中,对输入数据进行数据压缩的算法与声学模型的数据压缩算法一致,以进行相应匹配。
    本实施例中的优化可以包括数据结构优化和计算模式优化,其中,数据结构优化是指对输入数据以及声学模型都进行了压缩。计算模式优化是指采用并行运算。
    在解码器??橹?,本实施例采用了数据压缩方法,使本来非常庞大的声学模型压缩到适合在移动设备中使用的规模,同时能够保证整体识别率没有下降。此外,由于整个解码过程中的操作数均是压缩过的数据,所以,虽然相比于一般的解码过程,本实施例多了数据压缩和数据解压的过程,但是得益于压缩过的数据量比原数据量小一个量级,而且输入压缩和输出解压的计算量远小于模型打分的计算,因此,整体解码 时间大大短于没有压缩数据的解码。
    本实施例在对数据进行压缩的同时,也充分发掘了数据计算的并行性。在对大量输入数据进行解码时,不同的输入数据在进行计算时完全没有数据依赖,而且同一数据的计算中也存在毫无关联的数个步骤,因此本实施例采用各种并行手段,包括但不限于数据并行、指令并行、线程并行等,对整个解码过程进行并行优化,取得了巨大的时间收益。
    在采用以上两种优化手段之后,解码时间在整体识别时间中的占比由原来的95%以上缩减到了20%以下,加速达到150倍以上;模型规模也缩减到原来的15%。这一指标完全适合应用于移动设备中。
    S53’:对输出数据进行解压缩,得到声学模型打分。
    在得到声学模型打分后,还可以获取语言模型打分,最后根据声学模型打分和语言模型打分,得到识别后的语音信息。即,本实施例的方法还包括:
    S35’:对经过声学模型匹配后的数据进行语言模型打分,得到语言模型打分。
    其中,经过声学模型处理后,可以得到声学模型中每个字对应的得分,之后根据每个字对应的得分,可以对相应的字进行语言模型打分。
    由于语言模型相对于声学模型简单很多,因此,可以将目前服务器采用的语言模型应用到移动设备中,采用目前的语言模型处理流程。
    S36’:根据声学模型打分和语言模型打分,得到结合后的打分。
    最终模型的打分由声学模型的得分和语言模型的得分相结合得到,该方式包括但不限于加权求和:
    score=Wam·scoream+Wlm·scorelm
    其中,score为最终得分,Wam和Wlm分别是声学模型和语言模型的权重,scoream和scorelm分别为声学模型和语言模型的打分。
    S37’:将最高的结合后的打分对应的文字片断,确定为语音识别后得到的文字片断。
    本实施例可以在移动设备上实现离线语音识别,可以应用在地图导航、手机输入等软件中,使得用户不需要手动输入信息,直接采用语音完成相应控制,提升用户体验。本实施例通过对解码部分的声学模型进行计算以及数据的优化,既能够保证识别率,又能将占用的系统资源控制在一个合理的范围内,十分适合部署在移动设备上。
    需要说明的是,在本发明的描述中,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。
    流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的???、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。
    应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。
    本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。
    此外,在本发明各个实施例中的各功能单元可以集成在一个处理??橹?,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个??橹?。上述集成的??榧瓤梢圆捎糜布男问绞迪?,也可以采用软件功能??榈男问绞迪?。所述集成的??槿绻匀砑δ苣?榈男问绞迪植⒆魑懒⒌牟废刍蚴褂檬?,也可以存储在一个计算机可读取存储介质中。
    上述提到的存储介质可以是只读存储器,磁盘或光盘等。
    在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
    尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

    关于本文
    本文标题:语音识别方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6130848.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 彩票软件公司 河南快3多期开奖结果查询 七星彩走势图带坐标 吉林快三预测与推荐 广东11选5技巧稳赚 竞彩半全场开奖 打麻将哪个平台好 981棋牌游戏官方网站 2018码报图片 牛牛群主赚钱吗 pc蛋蛋开奖结果 湖南幸运赛车网上买 新时时彩历史开奖信息 快乐10分复式计算器 3月14双色球号码查询 云南时时彩娱乐平台