• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩新亚: 语音指令的识别方法、装置和智能终端.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201910002074

    申请日:

    20190102

    公开号:

    CN109545197A

    公开日:

    20190329

    当前法律状态:

    实质审查的生效

    有效性:

    审中

    法律详情: 实质审查的生效
    IPC分类号: G10L15/06;G10L15/16;G10L15/22;G10L15/26 主分类号: G10L15/06;G10L15/16;G10L15/22;G10L15/26
    申请人: 珠海格力电器股份有限公司
    发明人: 文皓;张新;毛跃辉;韩雪;陶梦春
    地址: 519070 广东省珠海市香洲区前山金鸡西路789号
    优先权:
    专利代理机构: 11522 代理人: 梁永芳
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201910002074

    授权公告号:

    法律状态公告日:

    20190423

    法律状态类型:

    实质审查的生效

    摘要

    本发明提出一种语音指令的识别方法、装置和智能终端,其中识别方法,包括:预先建立多个声学模型,任一声学模型用于识别一种子语言,子语言为任意一种语言的官方语言或方言;获取语音指令并判断语音指令中是否采用了多种子语言;当语音指令中采用了多种子语言时,根据语音指令的发音和/或语调确定语音指令中采用的目标子语言;采用目标子语言对应的目标声学模型确定语音指令的语义,从而解决了当用户夹杂使用多种子语言时无法识别语音指令的问题。

    权利要求书

    1.一种语音指令的识别方法,其特征在于,包括: 预先建立多个声学模型,任一所述声学模型用于识别一种子语言,所述子语言为任意一种语言的官方语言或方言; 获取语音指令并判断所述语音指令中是否采用了多种所述子语言; 当语音指令中采用了多种所述子语言时,根据语音指令的发音和/或语调确定所述语音指令中采用的目标子语言; 采用所述目标子语言对应的目标声学模型确定所述语音指令的语义。 2.根据权利要求1所述的语音指令的识别方法,其特征在于, 所述声学模型为神经网络模型。 3.根据权利要求1-2任一项所述的语音指令的识别方法,其特征在于,判断所述语音指令中是否采用了多种所述子语言,包括: 将所述语音指令传入各个所述声学模型进行识别; 若各个所述声学模型对所述语音指令的识别率均低于预设识别率,则认定所述语音指令中采用了多种子语言。 4.根据权利要求1-3任一项所述的语音指令的识别方法,其特征在于,采用所述目标子语言对应的目标声学模型确定所述语音指令的语义,包括: 将所述语音指令分为多个语音段,其中,任一所述语音段采用一种所述目标子语言; 根据所述语音段采用的目标子语言确定所述语音段对应的目标声学模型; 采用所述目标声学模型对对应的语音段进行识别,得到所述语音段对应的第一识别结果; 根据所述第一识别结果确定所述语音指令的语义。 5.根据权利要求4所述的语音指令的识别方法,其特征在于,根据所述第一识别结果确定所述语音指令的语义,包括: 确定各个所述语音段在所述语音指令中的第一排序; 按照所述第一排序对各个所述语音段对应的所述第一识别结果进行排列得到第二识别结果; 用所述第二识别结果对应的语义作为所述语音指令的语义。 6.一种语音指令的识别装置,其特征在于,包括: 建模单元,用于预先建立多个声学模型,任一所述声学模型用于识别一种子语言,所述子语言为任意一种语言的官方语言或方言; 获取单元,用于获取语音指令并判断所述语音指令中是否采用了多种所述子语言; 语言识别单元,用于当语音指令中采用了多种所述子语言时,根据语音指令的发音和/或语调确定所述语音指令中采用的目标子语言; 语义识别单元,用于采用所述目标子语言对应的目标声学模型确定所述语音指令的语义。 7.根据权利要求6所述的语音指令的识别装置,其特征在于, 所述声学模型为神经网络模型。 8.根据权利要求6-7任一项所述的语音指令的识别装置,其特征在于,所述获取单元判断所述语音指令中是否采用了多种所述子语言,包括: 将所述语音指令传入各个所述声学模型进行识别; 若各个所述声学模型对所述语音指令的识别率均低于预设识别率,则认定所述语音指令中采用了多种子语言。 9.根据权利要求6-8任一项所述的语音指令的识别装置,其特征在于,所述语义识别单元采用所述目标子语言对应的目标声学模型确定所述语音指令的语义,包括: 将所述语音指令分为多个语音段,其中,任一所述语音段采用一种所述目标子语言; 根据所述语音段采用的目标子语言确定所述语音段对应的目标声学模型; 采用所述目标声学模型对对应的语音段进行识别,得到所述语音段对应的第一识别结果; 根据所述第一识别结果确定所述语音指令的语义。 10.根据权利要求9所述的语音指令的识别装置,其特征在于,所述语义识别单元根据所述第一识别结果确定所述语音指令的语义,包括: 确定各个所述语音段在所述语音指令中的第一排序; 按照所述第一排序对各个所述语音段对应的所述第一识别结果进行排列得到第二识别结果; 用所述第二识别结果对应的语义作为所述语音指令的语义。 11.一种智能终端,其特征在于,包括处理器、存储器以及存储在存储器上可在处理器上运行的程序,所述处理器执行所述程序时实现权利要求1-5任一所述方法的步骤。 12.一种智能终端,其特征在于,包括如权利要求6-10任一所述的装置。

    说明书


    语音指令的识别方法、装置和智能终端
    技术领域


    本发明涉及语音控制领域,特别涉及一种语音指令的识别方法、装置和智能终端。


    背景技术


    现在语音识别基本都是基于普通话识别,或者是纯粹的方言或者英文识别等。如
    果用户的语音指令以普通话和方言混合穿插的形式或者普通话和英文混合穿插的形式来
    发出,现在的语音识别系统会很难识别,直接导致识别不出用户的意图,这样的语音识别给
    人的感觉就不怎么友好。


    因此,当用户发出的语音指令中包含多种语言或包括多种方言时,准确识别语音
    指令的语义,以提高用户体验,是现有技术中亟待解决的问题。


    发明内容


    本发明提供了一种语音指令的识别方法、装置和智能终端,以在用户发出的语音
    指令中包括多种语言或包括多种方言时准确识别用户的意图,以提高用户体验。


    为了解决上述问题,作为本发明的一个方面,提供了一种语音指令的识别方法,包
    括:


    预先建立多个声学模型,任一声学模型用于识别一种子语言,子语言为任意一种
    语言的官方语言或方言;


    获取语音指令并判断语音指令中是否采用了多种子语言;


    当语音指令中采用了多种子语言时,根据语音指令的发音和/或语调确定语音指
    令中采用的目标子语言;


    采用目标子语言对应的目标声学模型确定语音指令的语义。


    可选的,声学模型为神经网络模型。


    可选的,判断语音指令中是否采用了多种子语言,包括:


    将语音指令传入各个声学模型进行识别;


    若各个声学模型对语音指令的识别率均低于预设识别率,则认定语音指令中采用
    了多种子语言。


    可选的,采用目标子语言对应的目标声学模型确定语音指令的语义,包括:


    将语音指令分为多个语音段,其中,任一语音段采用一种目标子语言;


    根据语音段采用的目标子语言确定语音段对应的目标声学模型;


    采用目标声学模型对对应的语音段进行识别,得到语音段对应的第一识别结果;


    根据第一识别结果确定语音指令的语义。


    可选的,根据第一识别结果确定语音指令的语义,包括:


    确定各个语音段在语音指令中的第一排序;


    按照第一排序对各个语音段对应的第一识别结果进行排列得到第二识别结果;


    用第二识别结果对应的语义作为语音指令的语义。


    本申请还提出一种语音指令的识别装置,包括:


    建模单元,用于预先建立多个声学模型,任一声学模型用于识别一种子语言,子语
    言为任意一种语言的官方语言或方言;


    获取单元,用于获取语音指令并判断语音指令中是否采用了多种子语言;


    语言识别单元,用于当语音指令中采用了多种子语言时,根据语音指令的发音和/
    或语调确定语音指令中采用的目标子语言;


    语义识别单元,用于采用目标子语言对应的目标声学模型确定语音指令的语义。


    可选的,声学模型为神经网络模型。


    可选的,获取单元判断语音指令中是否采用了多种子语言,包括:


    将语音指令传入各个声学模型进行识别;


    若各个声学模型对语音指令的识别率均低于预设识别率,则认定语音指令中采用
    了多种子语言。


    可选的,语义识别单元采用目标子语言对应的目标声学模型确定语音指令的语
    义,包括:


    将语音指令分为多个语音段,其中,任一语音段采用一种目标子语言;


    根据语音段采用的目标子语言确定语音段对应的目标声学模型;


    采用目标声学模型对对应的语音段进行识别,得到语音段对应的第一识别结果;


    根据第一识别结果确定语音指令的语义。


    可选的,语义识别单元根据第一识别结果确定语音指令的语义,包括:


    确定各个语音段在语音指令中的第一排序;


    按照第一排序对各个语音段对应的第一识别结果进行排列得到第二识别结果;


    用第二识别结果对应的语义作为语音指令的语义。


    本申请还提出一种智能终端,包括处理器、存储器以及存储在存储器上可在处理
    器上运行的程序,处理器执行程序时实现本申请提出的任一方法的步骤。


    本申请还提出另一种智能终端,包括本申请提出的任一的装置。


    本发明提出了一种语音指令的识别方法、装置和智能终端,根据语音指令的发音
    和/或语调确定所述语音指令中采用的目标子语言,并调用对应的声学模型对语音指令进
    行识别得到语音指令的语义,从而解决了当用户夹杂使用多种子语言时无法识别语音指令
    的问题。


    附图说明


    图1为本发明实施例中一种语音指令的识别方法的流程图;


    图2为本发明实施例中一种语音指令的识别装置的组成图。


    具体实施方式


    为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明具体实施例及
    相应的附图对本发明技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本发明一
    部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员在没有做
    出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。


    需要说明的是,本发明的说明书和权利要求书及上述附图中的术语“目标”、“第
    二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用
    的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或
    描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆
    盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于
    清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品
    或设备固有的其它步骤或单元。


    对于具有语音识别功能的终端,用户可以通过向终端发送语音指令以控制终端,
    或从终端获取到想要的数据,但是,现有的终端往往只能识别一种语言的官方语言或某一
    种方言,当用户同时使用多种语言发出语音指令或是采用多种方言发出语音指令时,终端
    往往无法准确的识别用户的意图,导致无法正确的对用户发出的语音指令做出反馈,降低
    了用户体验。


    如图1所示,本申请提出一种语音指令的识别方法,包括:


    S11:预先建立多个声学模型。


    具体的,本申请提出的方法可以用于手机、平板等终端,也可以用于服务器,可以
    在服务器上建立并保存多个声学模型,也可以在手机、平板等终端上建立多个声学模型,任
    一声学模型用于识别一种子语言,子语言为任意一种语言的官方语言或方言;声学模型是
    对声学、语言学、说话环境、说话人性别、口音等差异的标识,声学模型是指一组字序列构成
    的知识表示,声学模型是确定说话人性别、口音、语言的知识库,能够确定用户说的是什么
    词。具体而言,子语言例如可以是汉语中的普通话或四川话,即汉语的官方语言或方言,也
    可以是英格兰英语、苏格兰英语、美式英语等,还可以是大阪地区的日语、九州地区的日语
    等,即任意一种子语言可以是汉语的官方语言或方言、日语的官方语言或方言、英语的官方
    语言或方言等等,即子语言具有两种属性,一是语种、二是类别,语种是指语言的种类,例
    如:汉语、英语、日语、法语,类别包括:官方语言和方言,此处的方言需要具体指明对应的使
    用地区,例如四川方言、东北方言,若两个子语言的语种不同或是类别不同,则属于不同子
    语言,例如英语官方语言和汉语官方语言属于不同的子语言,普通话和四川话也属于不同
    的子语言,当两个子语言的语种相同且都是方言时,如果方言对应的使用地区不同,则也属
    于不同的子语言,例如四川话和东北话都属于汉语方言,但使用的地区不同,因此属于不同
    的子语言,在本申请中建立的各个声学模型为不同的子语言进行识别,在使用本申请提出
    的子语言时,将语音数据作为输入值,输出值时输入的语音数据的语义,此处的语义可以以
    任意一种文字进行表示,语音数据所采用的语种的文字进行表示。


    S12:获取语音指令并判断语音指令中是否采用了多种子语言。


    具体的,此处是手机、平板等终端通过麦克风接收用户发出的语音指令,也可以是
    服务器接收到终端上传的语音指令,在接收到语音指令后判断其是否只使用了一种子语
    言,即判断用户是否是用某一种语言的官方语言或方言发出的语音指令。


    S13:当语音指令中采用了多种所述子语言时,根据语音指令的发音和/或语调确
    定语音指令中采用的目标子语言;


    具体的,此时用户是采用了至少2中子语言发出的语音指令,例如用户同时用普通
    话夹杂英格兰英语发出语音指令,或者用户用普通话夹杂广东话发出语音指令,甚至用普
    通话中夹杂广东话和英格兰英语发出语音指令。此处的目标子语言是语音指令中所采用的
    子语言,即上述举例中的普通话、广东话和英格兰英语,在此处目标子语言的个数为至少2
    个。不同种类的自语言对应的发明和语调各有特点,此处的发音可以是各种子语言中的基
    本音,例如英语中的元音。以普通话为例,普通话中的通话语音的特点是:声母除舌尖后擦
    音、鼻音、边音外,无浊音;韵母多复元音,鼻韵母有前后之分;没有声母的清浊对立,没有入
    声韵,尖团合流,声调较少,调式简单,另外有轻声和儿化韵。普通话语音有鲜明的特点:普
    通话的音节结构特点是:简单,声音响亮。普通话中,一个音节最多只有4个音素,其中,发音
    响亮的元音占优势,是一般音节中不可缺少的成分。一个音节内可以连续出现几个元音(最
    多三个),如“坏(huài)”,而且普通话音节中没有复辅音,即没有像英语“lightning(闪
    电)”、俄语“Встреча(遇见)”那样几个辅音连在一起的现象。同时普通话中音节界限分明,
    节律感强。普通话的音节组成特点是:音节一般都是由声母、韵母、声调三部分组成,声母在
    前,韵母紧随其后,再带一个贯穿整个音节的声调,便有了鲜明的音节界限。从音素分析的
    角度观察,辅音和元音互相间隔而有规律地出现,给人周而复始的感觉,因而极便于切分音
    节。此外普通话声调变化特点是:音调抑扬顿挫,富有表达性。普通话声调变化高低分明,
    高、扬、转、降区分明显,能够较强的表达一个人的情感。本申请中的语调包括上述的音节结
    构特点、音节组成特点和音调变化特点中的一个或多个。


    S13:采用目标子语言对应的目标声学模型确定语音指令的语义。


    具体的,目标声学模型是目标子语言对应的声学模型,在确定了语音指令所采用
    的目标子语言后,就可以采用目标声学模型对语音指令中的各个组成部分分别进行识别,
    得到目标声学模型中各个组成部分对应的语义,在确定了各个组成部分的语义后,将其组
    成符合语法和逻辑的语句,即可确定语音指令的语义。例如;用户发出的是:打开air
    conditioner。其中分别采用了普通话和英格兰英语,则分别用普通话对应的声学模型识别
    了“打开”,用英格兰英语对应的声学模型识别了“air conditioner”为空调,则会最终确定
    语音指令的语义为:打开空调??裳〉?,本申请提出的方法还包括:根数所述语音指令的语
    义执行对应的操作。例如在上述实施例中,在识别语音指令为:打开空调后,就会自动打开
    空调。与现有技术相比,本申请的特点在于利用各种子语言的发音和语调确定语义指令中
    所采用的目标子语言,从而确定出语音指令的语义,解决了现有技术中当用户夹杂采用英
    语和汉语,或夹杂使用普通话和方言等多种子语言时无法识别语音指令的问题。


    优选地,在本申请提出的方法中,声学模型为神经网络模型。例如可以是卷积神经
    网络、残差神经网络等,神经网络模型的输入值为语音数据,输出值为语音数据对应的语
    义,采用神经网络模型的优点在于可以不断对神经网络模型进行训练,从而随着输入的语
    音数据越多,神经网络模型的输出值越接近语音数据的真实语义。建立神经网络模型的方
    法可以是任一现有技术中的方法。


    优选地,判断语音指令中是否采用了多种子语言,包括:


    将语音指令传入各个声学模型进行识别;


    若各个声学模型对语音指令的识别率均低于预设识别率,则认定语音指令中采用
    了多种子语言。


    具体的,在本申请中,可以依次用各个所述语音模型对语音指令进行轮询识别,如
    果每一个语音模型都无法完整的识别语音指令则认定其采用了多种子语言,识别率是声学
    模型识别出的语音指令的可识别部分占语音指令总量的百分比,例如可以是以语音指令的
    长度为标准,语音指令的长度为10秒,如果能够识别语音指令中时长为8秒的内容,则识别
    率为80%,当然也可以以其他方法计算识别率,对此本申请不作限定,此处设置预设识别率
    的作用是因为用户在输入语音指令时外界环境的噪音可能会被录入,这部分环境噪音是无
    法识别的,因此设置预设识别率,例如可以是95%,当语音指令中的95%的内容都可以被同
    一个声学模型准确识别时则认为语音指令中只采用了一种子语言。而低于95%时认为采用
    了多种子语言,预设识别率小于1,因而可以避免因为环境噪音错误判断是否采用了多种子
    语言的问题。


    可选的,在本申请提出的方法中,采用目标子语言对应的目标声学模型确定语音
    指令的语义,包括:


    将语音指令分为多个语音段,其中,任一语音段采用一种目标子语言;


    根据语音段采用的目标子语言确定语音段对应的目标声学模型;


    采用目标声学模型对对应的语音段进行识别,得到语音段对应的第一识别结果;


    根据第一识别结果确定语音指令的语义。


    具体的,在已经确定了语音指令中采用了多种子语言后,需要按照语音指令中各
    部分所采用的子语言对应的声学模型分别识别各部分的语义,因此需要先对语音指令进行
    分段,以防止在识别某一部分语音指令时其他子语言对该部分的识别结果造成干扰。在对
    语音指令进行分割时,可以是根据语音指令的发音和语调对语音指令进行分段得到多个语
    音段,可以预先建立分段神经网络模型,分段神经网络模型的输入值为语音指令,分段神经
    网络模型的输出值为至少1个语音段,当语音指令中采用了多种子语言时,将语音指令传入
    分段神经网络模型以将语音指令分为多个语音段。不同的子语言的发音和语调都具有各自
    的特点,以发音和语调对语音指令进行分段,而不是基于语义进行分段,因为省去了翻译的
    步骤,因而可以提高运算速度,为了提高分段神经网络模型的准确度,需要输入大量的语音
    指令对分段神经网络模型进行充分的训练。在分段时,优选的将分段的端点设置在两种子
    语言的交汇处,即在语音指令中相邻的两个语音段采用不同的子语言。本申请中分段神经
    网络模型因为可以识别不同的子语言,因此也可以使用分段神经网络去判断语音指令中是
    否采用了多种子语言,当分段神经网路模型的输出值只有一个语音段时,表明语音指令中
    只采用了一种子语言。


    可选的,根据第一识别结果确定语音指令的语义,包括:


    确定各个语音段在语音指令中的第一排序;


    按照第一排序对各个语音段对应的第一识别结果进行排列得到第二识别结果;


    用第二识别结果对应的语义作为语音指令的语义。


    具体的,例如:用户发出的语音指令为:打开air conditioner,则将其拆分为两个
    语音段,分别为“打开”和“air conditioner”,在分别确定了各个语音段的语音后(air
    conditioner为空调)得到第一识别结果,第一识别结果为多个,为各个语音段的识别结果,
    在确定在语音指令中“air conditioner”位于“打开”后面,因此对第一识别结果进行排序
    得到第二识别结果“打开空调”,作为语音指令的语义。通过确定第一排序,可以准确的确定
    语音指令的语义,各个语音段的识别结果为第一识别结果,而第一识别结果可能包括多个
    语义,例如当中文中夹杂有英文单词时,英文单词通常有多种含义,而要具体确定应当采用
    哪种含义时,需要结合相邻的语音段的含义,即在本申请中,在确定任一语音段的第一识别
    结果的语义时,以相邻的语音段的识别结果为参照,获取与相邻的语音段的识别结果相匹
    配且符合语法的第一结果的语义。例如:用户发出语音指令为:查询联想天逸系列电脑bus
    类型时,此处bus单词的含义包括:公交车和总线,而结合了“bus”前面的语音段中的“电脑”
    即可以知道,用户此处是希望查询联想天逸系列电脑的总线类型。


    本申请还提出一种语音指令的识别装置,如图2所示,包括:


    建模单元10,用于预先建立多个声学模型,任一声学模型用于识别一种子语言,子
    语言为任意一种语言的官方语言或方言;


    获取单元20,用于获取语音指令并判断语音指令中是否采用了多种子语言;


    语言识别单元30,用于当语音指令中采用了多种子语言时,根据语音指令的发音
    和/或语调确定语音指令中采用的目标子语言;


    语义识别单元40,用于采用目标子语言对应的目标声学模型确定语音指令的语
    义。


    具体的,本申请提出的装置可以用于手机、平板等终端,也可以用于服务器,建模
    单元10可以在服务器上建立并保存多个声学模型,也可以在手机、平板等终端上建立多个
    声学模型?;袢〉ピ?0可以是包括手机上的麦克风和处理器,也可以是服务器上的接收器
    和对应的处理器。当用户是采用了至少2中子语言发出的语音指令时,例如用户同时用普通
    话夹杂英格兰英语发出语音指令,或者用户同时用普通话和广东话发出语音指令,甚至用
    普通话、广东话和英格兰英语发出语音指令。此处的目标子语言是语音指令中所采用的子
    语言,即上述举例中的普通话、广东话和英格兰英语,在此处目标子语言的个数为至少2个。
    不同种类的自语言对应的发明和语调各有特点,此处的发音可以是各种子语言中的基本
    音,例如英语中的元音。以普通话为例,普通话中的通话语音的特点是:声母除舌尖后擦音、
    鼻音、边音外,无浊音;韵母多复元音,鼻韵母有前后之分;没有声母的清浊对立,没有入声
    韵,尖团合流,声调较少,调式简单,另外有轻声和儿化韵。普通话语音有鲜明的特点:普通
    话的音节结构特点是:简单,声音响亮。普通话中,一个音节最多只有4个音素,其中,发音响
    亮的元音占优势,是一般音节中不可缺少的成分。一个音节内可以连续出现几个元音(最多
    三个),如“坏(huài)”,而且普通话音节中没有复辅音,即没有像英语“lightning(闪电)”、
    俄语“Встреча(遇见)”那样几个辅音连在一起的现象。同时普通话中音节界限分明,节律
    感强。普通话的音节组成特点是:音节一般都是由声母、韵母、声调三部分组成,声母在前,
    韵母紧随其后,再带一个贯穿整个音节的声调,便有了鲜明的音节界限。从音素分析的角度
    观察,辅音和元音互相间隔而有规律地出现,给人周而复始的感觉,因而极便于切分音节。
    此外普通话声调变化特点是:音调抑扬顿挫,富有表达性。普通话声调变化高低分明,高、
    扬、转、降区分明显,能够较强的表达一个人的情感。本申请中的语调包括上述的音节结构
    特点、音节组成特点和音调变化特点。本申请利用各种子语言的发音和语调确定语义指令
    中所采用的目标子语言,从而确定出语音指令的语义,解决了现有技术中当用户夹杂使用
    英语和汉语,或夹杂使用普通话和方言等多种子语言时无法识别语音指令的问题。


    可选的,本申请提出的装置还包括:控制单元,用于根据所述语音指令的语义执行
    相应的操作。例如语音指令的语义为打开空调,则控制单元会向空调发送开机指令。


    可选的,声学模型为神经网络模型。例如可以是卷积神经网络、残差神经网络等,
    神经网络模型的输入值为语音数据,输出值为语音数据对应的语义,采用神经网络模型的
    优点在于可以不断对神经网络模型进行训练,从而随着输入的语音数据越多,神经网络模
    型的输出值越接近语音数据的真实语义。建立神经网络模型的方法可以是任一现有技术中
    的方法。


    可选的,获取单元20判断语音指令中是否采用了多种子语言,包括:将语音指令传
    入各个声学模型进行识别;若各个声学模型对语音指令的识别率均低于预设识别率,则认
    定语音指令中采用了多种子语言。


    具体的,在本申请中,获取单元20可以依次用各个所述语音模型对语音指令进行
    轮询识别,如果每一个语音模型都无法完整的识别语音指令则认定其采用了多种子语言,
    此处设置预设识别率的作用是因为用户在输入语音指令时外界环境的噪音可能会被录入,
    这部分环境噪音是无法识别的,因此设置预设识别率,例如可以是95%,当语音指令中的
    95%的内容都可以被同一个声学模型准确识别时则认为语音指令中只采用了一种子语言。
    而低于95%时认为采用了多种子语言,预设识别率小于1,因而可以避免因为环境噪音错误
    判断是否采用了多种子语言的问题。


    可选的,语义识别单元40采用目标子语言对应的目标声学模型确定语音指令的语
    义,包括:


    将语音指令分为多个语音段,其中,任一语音段采用一种目标子语言;


    根据语音段采用的目标子语言确定语音段对应的目标声学模型;


    采用目标声学模型对对应的语音段进行识别,得到语音段对应的第一识别结果;


    根据第一识别结果确定语音指令的语义。


    具体的,在已经确定了语音指令中采用了多种子语言后,需要按照语音指令中各
    部分所采用的子语言对应的声学模型分别识别各部分的语义,因此需要先对语音指令进行
    分段,以防止在识别某一部分语音指令时其他子语言对该部分的识别结果造成干扰。在对
    语音指令进行分割时,可以是根据语音指令的发音和语调对语音指令进行分段得到多个语
    音段,本申请还可以包括预先建立的分段神经网络模型,分段神经网络模型的输入值为语
    音指令,分段神经网络模型的输出值为至少1个语音段,当语音指令中采用了多种子语言
    时,将语音指令传入分段神经网络模型以将语音指令分为多个语音段。不同的子语言的发
    音和语调都具有各自的特点,以发音和语调对语音指令进行分段,而不是基于语义进行分
    段,因为省去了翻译的步骤,因而可以提高运算速度,为了提高分段神经网络模型的准确
    度,需要输入大量的语音指令对分段神经网络模型进行充分的训练。在分段时,优选的将分
    段的端点设置在两种子语言的交汇处,即相邻的两个语音段采用不同的子语言。本申请中
    分段神经网络模型因为可以识别不同的子语言,因此分段神经网络也可以用于判断语音指
    令中是否采用了多种子语言,当分段神经网路模型的输出值只有一个语音段时,表明语音
    指令中只采用了一种子语言。


    可选的,语义识别单元40根据第一识别结果确定语音指令的语义,包括:


    确定各个语音段在语音指令中的第一排序;


    按照第一排序对各个语音段对应的第一识别结果进行排列得到第二识别结果;


    用第二识别结果对应的语义作为语音指令的语义。


    具体的,例如:用户发出的语音指令为:打开air conditioner,则将其拆分为两个
    语音段,分别为“打开”和“air conditioner”,在分别确定了各个语音段的语音后(air
    conditioner为空调)得到第一识别结果,第一识别结果为多个,为各个语音段的识别结果,
    在确定在语音指令中“air conditioner”位于“打开”后面,因此对第一识别结果进行排序
    得到第二识别结果“打开空调”,作为语音指令的语义。通过确定第一排序,可以准确的确定
    语音指令的语义,各个语音段的识别结果为第一识别结果,而第一识别结果可能包括多个
    语义,例如当中文中夹杂有英文单词时,英文单词通常有多种含义,而要具体确定应当采用
    哪种含义时,需要结合相邻的语音段的含义。


    本申请还提出一种智能终端,包括处理器、存储器以及存储在存储器上可在处理
    器上运行的程序,处理器执行程序时实现本申请提出的任一方法的步骤。


    本申请还提出另一种智能终端,包括本申请提出的任一的装置。本申请提出的智
    能终端可以是手机、平板电脑、智能穿戴设备等。


    以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技
    术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修
    改、等同替换、改进等,均应包含在本发明的?;し段е?。


    关 键 词:
    语音 指令 识别 方法 装置 智能 终端
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:语音指令的识别方法、装置和智能终端.pdf
    链接地址://www.4mum.com.cn/p-6154569.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03