• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 20
    • 下载费用:30 金币  

    ui重庆时时彩平台: 声音识别结果检验方法和设备、声音识别及音频监视系统.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210092352.5

    申请日:

    2012.03.31

    公开号:

    CN103366734A

    公开日:

    2013.10.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G10L 15/00申请日:20120331|||公开
    IPC分类号: G10L15/00(2013.01)I; G10L25/78(2013.01)I 主分类号: G10L15/00
    申请人: 佳能株式会社
    发明人: 郭莉莉; 沈海峰
    地址: 日本东京
    优先权:
    专利代理机构: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 欧阳帆
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210092352.5

    授权公告号:

    ||||||

    法律状态公告日:

    2015.11.25|||2013.11.20|||2013.10.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提供了用于检验声音识别结果的方法和设备、声音识别系统和用于自动检测异常音频事件的音频监视系统。该用于检验声音识别结果的方法包括:接收步骤,从声音识别引擎接收当前窗的声音识别结果的N个最好的列表;第一计算步骤,基于当前窗的N个最好的列表来计算N个最好的列表中的所有候选声音的第一概率分布;第二计算步骤,基于包括当前窗的长窗的N个最好的列表来计算所有所述候选声音的第二概率分布;第三计算步骤,计算第一概率分布与第二概率分布之间的距离作为置信度;以及检验步骤,利用置信度来检验当前窗的声音识别结果。得益于本发明,能够减少误警并且能够提高识别性能。

    权利要求书

    权利要求书
    1.  一种用于检验声音识别结果的方法,包括:
    接收步骤,从声音识别引擎接收当前窗的声音识别结果的N个最好的列表;
    第一计算步骤,基于所述当前窗的N个最好的列表来计算所述N个最好的列表中的所有候选声音的第一概率分布;
    第二计算步骤,基于包括当前窗的长窗的N个最好的列表来计算所有所述候选声音的第二概率分布;
    第三计算步骤,计算第一概率分布与第二概率分布之间的距离作为置信度;以及
    检验步骤,利用所述置信度来检验当前窗的声音识别结果。

    2.  一种用于检验声音识别结果的方法,包括:
    接收步骤,从声音识别引擎接收当前窗的声音识别结果的N个最好的列表;
    第一计算步骤,基于所述当前窗的N个最好的列表来计算所述N个最好的列表中的所有候选声音的第一概率分布;
    第二计算步骤,基于包括当前窗的长窗的N个最好的列表来计算所有所述候选声音的第二概率分布;
    确定步骤,确定所述当前窗的N个最好的列表中的第一候选声音是否是一种目标声音;
    如果所述确定步骤确定第一候选声音不是一种目标声音,则在不进行任何检验的情况下直接输出所述N个最好的列表;以及
    如果所述确定步骤确定第一候选声音是一种目标声音,则执行计算第一概率分布与第二概率分布之间的距离作为置信度的第三计算步骤以及利用所述置信度来检验当前窗的声音识别结果的检验步骤。

    3.  根据权利要求1或权利要求2所述的方法,其中第一概率分 布和第二概率分布中的每一个均是所述候选声音的概率的直方图。

    4.  根据权利要求1或权利要求2所述的方法,其中长窗还包括紧接在当前窗之前的至少一个先前窗。

    5.  根据权利要求1或权利要求2所述的方法,其中长窗还包括紧接在当前窗之后的至少一个后续窗。

    6.  根据权利要求1或权利要求2所述的方法,其中长窗还包括紧接在当前窗之前的至少一个先前窗和紧接在当前窗之后的至少一个后续窗。

    7.  根据权利要求1或权利要求2所述的方法,其中第二概率分布是长窗中的当前窗的概率分布与其它窗的概率分布的加权和。

    8.  根据权利要求1或权利要求2所述的方法,其中所述距离是基于第一概率分布与第二概率分布的相关值来计算的。

    9.  根据权利要求1或权利要求2所述的方法,其中所述检验步骤包括:
    将所述置信度与预定的阈值进行比较;以及
    如果所述置信度大于所述预定的阈值则直接输出所述N个最好的列表,而如果所述置信度不大于所述预定的阈值则在输出所述N个最好的列表之前修改所述当前窗的N个最好的列表中的第一候选声音。

    10.  一种用于检验声音识别结果的设备,包括:
    接收单元,被配置为从声音识别引擎接收当前窗的声音识别结果的N个最好的列表;
    第一计算单元,被配置为基于所述当前窗的N个最好的列表来计算所述N个最好的列表中的所有候选声音的第一概率分布;
    第二计算单元,被配置为基于包括当前窗的长窗的N个最好的列表来计算所有所述候选声音的第二概率分布;
    第三计算单元,被配置为计算第一概率分布与第二概率分布之间的距离作为置信度;以及
    检验单元,被配置为利用所述置信度来检验当前窗的声音识别结果。

    11.  一种用于检验声音识别结果的设备,包括:
    接收单元,被配置为从声音识别引擎接收当前窗的声音识别结果的N个最好的列表;
    第一计算单元,被配置为基于所述当前窗的N个最好的列表来计算所述N个最好的列表中的所有候选声音的第一概率分布;
    第二计算单元,被配置为基于包括当前窗的长窗的N个最好的列表来计算所有所述候选声音的第二概率分布;
    确定单元,被配置为确定所述当前窗的N个最好的列表中的第一候选声音是否是一种目标声音;以及
    处理单元,包括:
    直接输出单元,被配置为在所述确定单元确定第一候选声音不是一种目标声音的情况下,在不进行任何检验的情况下直接输出所述N个最好的列表;
    第三计算单元,被配置为在所述确定单元确定第一候选声音是一种目标声音的情况下,计算第一概率分布与第二概率分布之间的距离作为置信度;以及
    检验单元,被配置为在所述确定单元确定第一候选声音是一种目标声音的情况下,利用所述第三计算单元计算的置信度来检验当前窗的声音识别结果。

    12.  根据权利要求10或权利要求11所述的设备,其中第一概率分布和第二概率分布中的每一个均是所述候选声音的概率的直方图。

    13.  根据权利要求10或权利要求11所述的设备,其中长窗还包括紧接在当前窗之前的至少一个先前窗。

    14.  根据权利要求10或权利要求11所述的设备,其中长窗还包括紧接在当前窗之后的至少一个后续窗。

    15.  根据权利要求10或权利要求11所述的设备,其中长窗还包括紧接在当前窗之前的至少一个先前窗和紧接在当前窗之后的至少一个后续窗。

    16.  根据权利要求10或权利要求11所述的设备,其中第二概率分布是长窗中的当前窗的概率分布与其它窗的概率分布的加权和。

    17.  根据权利要求10或权利要求11所述的设备,其中所述距离是基于第一概率分布与第二概率分布的相关值来计算的。

    18.  根据权利要求10或权利要求11所述的设备,其中所述检验单元包括:
    比较单元,被配置为将所述置信度与预定的阈值进行比较;以及
    一个单元,被配置为如果所述置信度大于所述预定的阈值则直接输出所述N个最好的列表,而如果所述置信度不大于所述预定的阈值则在输出所述N个最好的列表之前修改所述当前窗的N个最好的列表中的第一候选声音。

    19.  一种声音识别系统,包括:
    声音识别引擎,被配置为输出所输入的声音信号的声音识别结果 的N个最好的列表;
    根据权利要求10到18中的任何一项所述的用于检验声音识别结果的设备;以及
    输出单元,被配置为输出经检验的声音识别结果。

    20.  一种用于自动检测异常音频事件的音频监视系统,包括根据权利要求19所述的声音识别系统。

    说明书

    说明书声音识别结果检验方法和设备、声音识别及音频监视系统
    技术领域
    本发明涉及用于检验声音识别结果的方法和设备、声音识别系统和用于自动检测异常音频事件的音频监视系统。
    背景技术
    置信度(Confidence Measure,CM)技术通常被用于减少声音识别过程中的误警(false alarm)。更具体而言,在获得声音识别结果之后,基于该声音识别结果来计算置信度。然后,将置信度与预定的阈值进行比较,从而检验该声音识别结果。置信度是用于评估声音识别结果的可靠性的分数。在许多实际的应用中,优良的置信度可以较大程度地有益于声音识别过程。
    一般,声音识别结果以N个最好的(N-best)列表的形式输出,该N-best列表由被排序的N个最好的候选声音以及它们的识别分数构成,如下面的表1中示例性地示出的。
    表1N-best列表
     ID  声音  识别分数 候选1  尖叫声  0.59 候选2  枪击声  0.42 候选3  CS-1  0.35 候选4  玻璃破碎声  0.32 候选5  CS-2  0.26 …  …  …
    在现有技术中,已经提出了基于置信度的不同的计算方法来检验 具有N-best列表形式的声音识别结果的各种方法。
    例如,美国专利No.6125345(在下文中被称为“现有技术1”)公开了一种用于检验声音识别结果的方法,在该方法中,计算置信度的过程包括以下两个步骤。也就是说,在步骤1中,获得N-best列表中的第一候选声音的识别分数S1和第二候选声音的识别分数S2。第一候选声音在N-best列表中具有最高的识别分数,并且第二候选声音在N-best列表中具有第二高的识别分数。然后,在步骤2中,计算上述两个识别分数之间的差作为置信度,如公式(1)所示。
    CM=S1-S2    (1)
    另外,美国专利申请公开No.2009/0006102(在下文中被称为“现有技术2”)也公开了一种用于检验声音识别结果的方法,在该方法中,计算置信度的过程包括以下三个步骤。也就是说,在步骤1中,获得N-best列表中的第一候选声音和第二候选声音以及它们的识别分数S1和S2。
    然后,在步骤2中,计算与第一候选声音对应的分类模型和与第二候选声音对应的分类模型之间的距离D。分类模型由一个或多个高斯混合组成。距离测度(distance measure)是基于第一候选声音和第二候选声音的两个分类模型的混合之间的马氏距离(Mahalanobis距离)的加权和。
    然后,在步骤3中,计算上述两个识别分数之间的差除以距离D的对数,以作为置信度,如公式(2)所示。
    CM=log[1000*(S1-S2)/D]    (2)
    然而,本发明的发明人发现了,在包括现有技术1和现有技术2中公开的那些方法在内的传统的检验方法中,存在几个问题。更具体而言,在现有技术1中公开的方法中,由于在没有归一化的情况下计算置信度,因此在不同的条件下难以设定鲁棒的阈值。在现有技术2中公开的方法中,它仅仅使用了第一候选声音和第二候选声音的识别分数之差来确定置信度,但是没有使用N-best列表中的识别分数之间的其它关系。
    另外,在传统的检验方法中,仅仅基于当前的识别结果来确定置信度,而没有考虑在较长时段上的识别结果(即,背景噪声的影响)。
    上述问题会影响置信度的精确度,并且因此导致声音识别过程中的误警。
    发明内容
    因此,需要新的用于检验声音识别结果的方法和设备,其能够减少误警并且提高识别性能。
    为了解决上述技术问题,根据本发明的一个方面,本发明提供一种用于检验声音识别结果的方法,其包括:接收步骤,从声音识别引擎接收当前窗的声音识别结果的N-best列表;第一计算步骤,基于所述当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布;第二计算步骤,基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布;第三计算步骤,计算第一概率分布与第二概率分布之间的距离作为置信度;以及检验步骤,利用所述置信度来检验当前窗的声音识别结果。
    根据本发明的另一方面,为了解决上述技术问题,本发明提供一种用于检验声音识别结果的方法,其包括:接收步骤,从声音识别引擎接收当前窗的声音识别结果的N-best列表;第一计算步骤,基于所述当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布;第二计算步骤,基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布;确定步骤,确定所述当前窗的N-best列表中的第一候选声音是否是一种目标声音;如果所述确定步骤确定第一候选声音不是一种目标声音,则在不进行任何检验的情况下直接输出所述N-best列表;以及如果所述确定步骤确定第一候选声音是一种目标声音,则执行计算第一概率分布与第二概率分布之间的距离作为置信度的第三计算步骤以及利用所述置信度来检验当前窗的声音识别结果的检验步骤。
    根据本发明的另一方面,本发明提供一种用于检验声音识别结果 的设备,其包括:接收单元,被配置为从声音识别引擎接收当前窗的声音识别结果的N-best列表;第一计算单元,被配置为基于所述当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布;第二计算单元,被配置为基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布;第三计算单元,被配置为计算第一概率分布与第二概率分布之间的距离作为置信度;以及检验单元,被配置为利用所述置信度来检验当前窗的声音识别结果。
    根据本发明的另一方面,本发明提供一种用于检验声音识别结果的设备,其包括:接收单元,被配置为从声音识别引擎接收当前窗的声音识别结果的N-best列表;第一计算单元,被配置为基于所述当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布;第二计算单元,被配置为基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布;确定单元,被配置为确定所述当前窗的N-best列表中的第一候选声音是否是一种目标声音;以及包括直接输出单元、第三计算单元和检验单元的处理单元,所述直接输出单元被配置为在所述确定单元确定第一候选声音不是一种目标声音的情况下在不进行任何检验的情况下直接输出所述N-best列表,所述第三计算单元被配置为在所述确定单元确定第一候选声音是一种目标声音的情况下计算第一概率分布与第二概率分布之间的距离作为置信度,所述检验单元被配置为在所述确定单元确定第一候选声音是一种目标声音的情况下利用所述第三计算单元计算的置信度来检验当前窗的声音识别结果。
    根据本发明的另一方面,本发明提供一种声音识别系统,其包括:声音识别引擎,被配置为输出所输入的声音信号的声音识别结果的N-best列表;如上所述的用于检验声音识别结果的设备;以及输出单元,被配置为输出经检验的声音识别结果。
    根据本发明的另一方面,本发明提供一种用于自动检测异常音频事件的音频监视系统,其包括如上所述的声音识别系统。
    得益于根据本发明的上述方法和设备,由于不仅使用当前窗的概 率分布而且使用长窗的概率分布来计算置信度,因此能够减少误警并且能够提高识别性能。
    根据参照附图的以下描述,本发明的其它特性特征和优点将变得清晰。
    附图说明
    并入说明书中并且构成说明书的一部分的附图示出了本发明的实施例,并且与描述一起用于说明本发明的原理。
    图1是示出能够实施本发明的实施例的计算机系统的硬件配置的框图。
    图2是示出了根据本发明的第一实施例的用于检验声音识别结果的方法的流程图。
    图3示出了示例性的具有直方图形式的概率分布。
    图4是示出了根据本发明的第一实施例的用于检验声音识别结果的设备的框图。
    图5是示出了根据本发明的第二实施例的用于检验声音识别结果的方法的流程图。
    图6是示出了根据本发明的第二实施例的用于检验声音识别结果的设备的框图。
    图7示出了在分别使用根据本发明的检验方法、现有技术1中公开的检验方法和现有技术2中公开的检验方法的情况下的实验结果。
    图8示出了声音识别系统的示意性框图。
    具体实施方式
    下面将参考附图来详细描述本发明的实施例。
    请注意,类似的参考数字和字母指的是图中的类似的项目,因而一旦在一幅图中定义了一个项目,就不需要在之后的图中讨论了。
    在本公开中,术语“第一”、“第二”等仅仅被用来在元件或步骤之间进行区分,而并不意图表示时间顺序、优先级或重要性。
    首先,将说明在本公开的上下文中的一些术语的含义。
    在声音识别过程中,要被识别的输入声音信号将被分段成多个帧。一个“窗”由连续的预定数量的帧构成,并且术语“当前窗”指的是包括当前处理的帧的那个窗。除了当前帧之外,当前窗可以还包括紧接在当前帧之前的多个先前帧和/或紧接在当前帧之后的多个后续帧??梢愿菥咛逵τ美慈范ǖ鼻按?。
    一个“长窗”包括当前窗,并且比当前窗长。一般,长窗由包括当前窗在内的连续的多个窗构成。更具体而言,除了当前窗之外,长窗可以还包括紧接在当前窗之前的至少一个先前窗和/或紧接在当前窗之后的至少一个后续窗??梢愿菥咛逵τ美慈范ǔご?。在一种实施方式中,长窗可以包括在当前窗之前的所有先前窗。
    图1是示出能够实施本发明的实施例的计算机系统1000的硬件配置的框图。
    如图1中所示,计算机系统包括计算机1110。计算机1110包括经由系统总线1121连接的处理单元1120、系统存储器1130、固定非易失性存储器接口1140、可移动非易失性存储器接口1150、用户输入接口1160、网络接口1170、视频接口1190和输出外围接口1195。
    系统存储器1130包括ROM(只读存储器)1131和RAM(随机存取存储器)1132。BIOS(基本输入输出系统)1133驻留在ROM 1131中。操作系统1134、应用程序1135、其它程序???136和某些程序数据1137驻留在RAM 1132中。
    诸如硬盘之类的固定非易失性存储器1141连接到固定非易失性存储器接口1140。固定非易失性存储器1141例如可以存储操作系统1144、应用程序1145、其它程序???146和某些程序数据1147。
    诸如软盘驱动器1151和CD-ROM驱动器1155之类的可移动非易失性存储器连接到可移动非易失性存储器接口1150。例如,软盘1152可以被插入到软盘驱动器1151中,以及CD(光盘)1156可以被插入到CD-ROM驱动器1155中。
    诸如麦克风1161和键盘1162之类的输入设备被连接到用户输入接口1160。
    计算机1110可以通过网络接口1170连接到远程计算机1180。例如,网络接口1170可以经由局域网1171连接到远程计算机1180?;蛘?,网络接口1170可以连接到调制解调器(调制器-解调器)1172,以及调制解调器1172经由广域网1173连接到远程计算机1180。
    远程计算机1180可以包括诸如硬盘之类的存储器1181,其存储远程应用程序1185。
    视频接口1190连接到监视器1191。
    输出外围接口1195连接到打印机1196和扬声器1197。
    图1所示的计算机系统仅仅是说明性的并且决不意图对本发明、其应用或用途进行任何限制。
    图1所示的计算机系统可以被实施于任何实施例,可作为独立计算机,或者也可作为设备中的处理系统,可以移除一个或更多个不必要的组件,也可以向其添加一个或更多个附加的组件。
    (第一实施例)
    图2是示出了根据本发明的第一实施例的用于检验声音识别结果的方法的流程图。
    如图2所示,在接收步骤210中,从声音识别引擎接收当前窗的声音识别结果的N-best列表。
    在声音识别过程中,声音信号被输入到声音识别引擎中。然后,产生一系列带有其对应的识别分数的潜在的识别候选声音。声音识别引擎根据识别候选声音的识别分数将识别候选声音排序成N-best列表,并且然后输出N-best列表。
    在第一计算步骤220中,基于当前窗的N-best列表来计算该N-best列表中的所有候选声音的第一概率分布。
    对于N-best列表中的每个候选声音,存在一个识别分数,该识别分数是当前窗中的每个帧的识别分数的归一化的和。在一种实施方 式中,每个候选声音的识别分数被视为其概率。第一概率分布可以是候选声音的概率的直方图,如图3中示例性地示出的。在图3中,附图标记“候选声音”指的是N-best列表中的候选声音。要注意,这些示出的候选声音(诸如,“CS”、“尖叫声”、“枪击声”和“玻璃破碎声”)仅仅是示例性的,并且适用于本发明的候选声音不限于这些声音。
    在第二计算步骤230中,基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布。
    第二概率分布也可以是候选声音的概率的直方图。在一种实施方式中,第二概率分布是长窗中的当前窗的概率分布与其它窗的概率分布的加权和??梢栽は染龆ㄈㄖ?。
    例如,在长窗包括当前窗和所有的先前窗的情况下,可以采用0.9作为先前窗的权重,并且可以采用0.1作为当前窗的权重。更具体而言,如果当前窗索引小于30(也就是说,当前窗属于在声音识别过程开始之后的初始的30个窗),则一般将当前窗视为背景噪声,而不是识别的对象,因此长窗中的概率分布对于每个候选声音将是先前窗中的识别分数的归一化的和。如果当前窗索引不小于30,则长窗中的概率分布将是先前窗中的识别分数的0.9倍与当前窗中的识别分数的0.1倍的和。
    要注意的是,虽然图2的流程图示出了在第二计算步骤之前执行第一计算步骤,但是本领域技术人员明白,该顺序仅仅是示例性的而非限制性的,并且第二计算步骤当然可以在第一计算步骤之前被执行。
    然后,在第三计算步骤240中,计算第一概率分布与第二概率分布之间的距离作为置信度。
    任何距离计算方法都可以被用于该步骤。例如,在一种实施方式中,可以基于第一概率分布与第二概率分布的相关值来计算该距离。
    该相关值表示当前窗与长窗之间的声音的相似程度。
    如下地计算该相关值:
    ρXY=1nBestΣi=1nBest(X[i]-E(X))*(Y[i]-E(Y))1nBestΣi=1nBest(X[i]-E(X))21nBestΣi=1nBest(Y[i]-E(Y))2---(3)]]>
    其中
    E(X)=1nBestΣi=1nBestX[i]]]>
    E(Y)=1nBestΣi=1nBestY[i]]]>
    在公式(3)中,X[i]是当前窗的第一概率分布中的各个候选声音的概率,Y[i]是长窗的第二概率分布中的各个候选声音的概率。该距离可以是如上所述计算的相关值的倒数。
    在该步骤中计算的距离可以是其它类型的距离,诸如Kullback-Leibler距离(KL距离)、对称的KL距离、马氏距离(Mahalanobis距离)等。
    KL距离是两个概率分布(在同一个事件空间之上)如何不同的测度。对于离散的(不一定是有限的)概率分布,P={P[1],...,P[n]},并且Q={Q[1],...,Q[n]},如下面的公式(4)所示地定义KL距离。
    DKL(P||Q)=ΣiP[i]·log2(P[i]Q[i])---(4)]]>
    由于该KL距离是从Q到P的距离的不对称的信息理论测度,因此它严格来讲不是距离度量(distance metric)。因此,如在文献D.Pinto、J.M.Benedí和P.Rosso的“Clustering narrow-domain short texts by using the kullback-leibler distance”,Proc.of the CICLing2007 Conference,volume 4394 of Lecture Notes in Computer Science,第611-622页,Springer-Verlag,2007中讨论的,可以使用下面的不同的对称Kullback-Leibler距离。
    DKLD1(P||Q)=DKL(P||Q)+DKL(Q||P)
    DKLD2(P||Q)=Σx∈X(P(x)-Q(x))logP(x)Q(x)]]>
    DKLD3(P||Q)=12[DKL(P||P+Q2)+DKL(Q||P+Q2)]]]>
    DKLD4(P||Q)=max(DKL(P||Q)+DKL(Q||P))
    另外,Mahalanobis距离(或对于其平方值的“广义平方点间距离(generalized squared interpoint distance)”)也可以被定义为具有协方差矩阵S的两个向量和之间的相异测度:
    d(x→,y→)=(x→-y→)S-1(x→-y→).]]>
    然后,在检验步骤250中,利用置信度来检验当前窗的声音识别结果。
    在一种实施方式中,检验步骤250可以包括:将置信度与预定的阈值进行比较;以及如果该置信度大于该预定的阈值则直接输出该N-best列表,而如果该置信度不大于该预定的阈值则在输出该N-best列表之前修改当前窗的N-best列表中的第一候选声音。
    可以根据具体的应用、环境条件或精确度要求来预先确定该阈值??梢远杂τ谟缮舴掷嗥髌拦赖拿扛鍪侗鸷蜓《≡癫煌你兄?。
    在一种实施方式中,可以动态地确定该预定的阈值。例如,可以根据输入声音信号的信噪比(SNR)和/或使用的预定模型的数量来对阈值进行加权,如美国专利No.6735562中所公开的。
    虽然图2的流程图显示了这些步骤的具体顺序,但是本领域技术人员明白,该顺序仅仅是示例性的,并且该顺序是根据具体的应用而确定的。
    图4是示出了根据本发明的第一实施例的用于检验声音识别结果的设备400的框图。
    如图4所示,用于检验声音识别结果的设备400包括:接收单元410、第一计算单元420、第二计算单元430、第三计算单元440和检验单元450。
    更具体而言,接收单元410被配置为从声音识别引擎接收当前窗的声音识别结果的N-best列表。
    第一计算单元420被配置为基于当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布。
    第二计算单元430被配置为基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布。
    第三计算单元440被配置为计算第一概率分布与第二概率分布之间的距离作为置信度。
    检验单元450被配置为利用置信度来检验当前窗的声音识别结果。
    该设备400中的各个单元可以被配置为执行图2中的流程图所示出的各个步骤。
    在上述的用于检验声音识别结果的方法和设备中,通过使用声音识别结果中所有的N个最好的候选声音的统计信息来计算置信度。也就是说,根据本发明,可以更精确地获得置信度,从而可以减少声音识别过程中的误警。因此,可以提高声音识别性能。
    (第二实施例)
    图5是示出了根据本发明的第二实施例的用于检验声音识别结果的方法的流程图。如从图5中可以看出的,根据第二实施例的方法与根据第一实施例的方法的不同之处在于,在执行第三计算步骤之前增加了确定步骤540。在根据第二实施例的声音识别过程中,意图识别(检测)目标声音(或多个目标声音)。如果当前窗的N-best列表的第一候选声音(其在N-best列表中具有最高的识别分数)不是一种目标声音,则没有必要检验这种声音识别结果。
    如图5所示,在接收步骤510中,从声音识别引擎接收当前窗的 声音识别结果的N-best列表。
    在第一计算步骤520中,基于当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布。
    在第二计算步骤530中,基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布。
    然后,在确定步骤540中,确定当前窗的N-best列表中的第一候选声音是否是一种目标声音。
    如果确定步骤540确定第一候选声音不是一种目标声音,则在不进行任何检验的情况下直接输出所述N-best列表(图5中的步骤570)。
    如果确定步骤540确定第一候选声音是一种目标声音,则执行计算第一概率分布与第二概率分布之间的距离作为置信度的第三计算步骤550以及利用所述置信度来检验当前窗的声音识别结果的检验步骤560。
    图5的方法中的步骤510-530以及步骤550-560与根据第一实施例的方法中的步骤210-250类似,因此步骤210-250的相应描述也可以适用于步骤510-530以及步骤550-560。
    另外,在一种实施方式中,检验步骤560可以包括:将置信度与预定的阈值进行比较;以及如果置信度大于预定的阈值则直接输出N-best列表,而如果置信度不大于预定的阈值则在输出N-best列表之前将当前窗的N-best列表中的第一候选声音修改为背景噪声。
    虽然图5的流程图显示了这些步骤的具体顺序,但是本领域技术人员明白,该顺序仅仅是示例性的,并且该顺序是根据具体的应用而确定的。例如,确定步骤540可以在第一计算步骤520之前被执行,并且因此如果确定结果为否,则还可以跳过第一计算步骤和第二计算步骤。
    图6是示出了根据本发明的第二实施例的用于检验声音识别结果的设备600的框图。
    如图6所示,用于检验声音识别结果的设备600包括:接收单元 610、第一计算单元620、第二计算单元630、确定单元640和处理单元650。
    更具体而言,接收单元610被配置为从声音识别引擎接收当前窗的声音识别结果的N-best列表。
    第一计算单元620被配置为基于当前窗的N-best列表来计算所述N-best列表中的所有候选声音的第一概率分布。
    第二计算单元630被配置为基于包括当前窗的长窗的N-best列表来计算所有所述候选声音的第二概率分布。
    确定单元640被配置为确定所述当前窗的N-best列表中的第一候选声音是否是一种目标声音。
    处理单元650包括直接输出单元651,所述直接输出单元651被配置为在确定单元640确定第一候选声音不是一种目标声音的情况下在不进行任何检验的情况下直接输出所述N-best列表。此外,处理单元650还包括第三计算单元652和检验单元653,所述第三计算单元652被配置为在确定单元640确定第一候选声音是一种目标声音的情况下计算第一概率分布与第二概率分布之间的距离作为置信度,所述检验单元653被配置为在确定单元640确定第一候选声音是一种目标声音的情况下利用所述第三计算单元652计算的置信度来检验当前窗的声音识别结果。
    该设备600中的各个单元可以被配置为执行图5中的流程图所示出的各个步骤。
    在上述的根据本发明的第二实施例的用于检验声音识别结果的方法和设备中,如第一实施例中的那样,通过使用声音识别结果中所有的N个最好的候选声音的统计信息来计算置信度。也就是说,根据本发明,可以更精确地获得置信度,从而可以减少声音识别过程中的误警。因此,可以提高声音识别性能。另外,根据第二实施例的用于检验声音识别结果的方法和设备可以避免不必要的计算操作。
    以上在第一和第二实施例中描述的单元是用于实施本公开中描述的处理的示例性和/或优选的???。这些单元可以是硬件单元(诸如 现场可编程门阵列(FPGA)、数字信号处理器或专用集成电路等)和/或软件???诸如计算机可读程序)。以上并未详尽地描述用于实施各个步骤的单元。然而,只要有执行某个处理的步骤,就可以有用于实施同一处理的对应的功能??榛虻ピ?由硬件和/或软件实施)。通过所描述的步骤以及与这些步骤对应的单元的所有组合限定的技术方案都被包括在本申请的公开内容中,只要它们构成的这些技术方案是完整并且可应用的。
    (实验)
    在下文中,将详细描述几个实验,这些实验可以验证本发明优于现有技术的技术效果。在该实验中,意图从背景噪声中识别出(检测出)尖叫声。分别使用了6种背景噪声:幼儿园、学校、办公室、街道、商店和车站。目标声音(即,上述的尖叫声)以SNR15被添加到背景噪声中。
    至于声音识别,采用了基于高斯混合模型(Gaussian Mixture Model,GMM)的识别引擎。采用用于背景噪声和目标声音的声学模型。
    在实验中,F分数(F_score)被用作评估测度??悸亲既仿?precision)和召回率(recall)两者来计算F_score。F_score的最好值为1而最坏值为0。在实验中,通过以下公式来计算F_score:
    F_score=2*precision*recall/(precision+recall)
    图7示出了在分别使用根据本发明的检验方法、现有技术1中公开的检验方法和现有技术2中公开的检验方法的情况下的实验结果。
    在图7中,附图标记“本发明”代表使用根据本发明的检验方法的情况。更具体而言,根据本发明的检验方法基于上述公式(3)来计算置信度。横坐标“1-7”代表采用不同阈值的七种实验?!捌骄鵉_score”意味着在上述6种背景噪声之下获得的F_score的平均值。
    从图7可以看出:
    与现有技术1相比,在不同的背景噪声之间的平均性能可以从 77.64%提高到85%,相对提高了32.92%;以及
    与现有技术2相比,在不同的背景噪声之间的平均性能可以从83.75%提高到85%,相对提高了7.42%。
    因此,上述实验结果证明通过使用根据本发明的方法提高了识别性能。
    (应用示例)
    根据本发明的用于检验声音识别结果的方法和设备可以被用于许多应用中。例如,根据本发明的这种方法和设备可以被用于声音识别系统。
    图8示出了声音识别系统的示意性框图。声音识别系统800包括声音识别引擎810、根据本发明的用于检验声音识别结果的设备820以及输出单元830。
    更具体而言,声音识别引擎810被配置为输出所输入的声音信号的声音识别结果的N-best列表。声音识别引擎810可以用各种方式来实现,并且没有特别的限制。
    设备820可以是根据本发明的任何的用于检验声音识别结果的设备,例如设备400或设备600。
    输出单元830被配置为输出经检验的声音识别结果。
    上述声音识别系统可以被应用于用于自动检测异常音频事件(诸如尖叫声、枪击声等)的音频监视系统。该音频监视系统可以被独立地安装,或者可以被并入多媒体自动监视系统中。该音频监视系统对于公共场所(诸如,银行、地铁、机场等)的安全特别有用。
    可以通过许多方式来实施本发明的方法和设备。例如,可以通过软件、硬件、固件、或其任何组合来实施本发明的方法和设备。上述的方法步骤的次序仅是说明性的,本发明的方法步骤不限于以上具体描述的次序,除非以其它方式明确说明。此外,在一些实施例中,本 发明还可以被实施为记录在记录介质中的程序,其包括用于实现根据本发明的方法的机器可读指令。因而,本发明还覆盖存储用于实现根据本发明的方法的程序的记录介质。
    虽然已通过示例详细展示了本发明的一些具体实施例,但是本领域技术人员应当理解,上述示例仅意图是说明性的而不限制本发明的范围。本领域技术人员应该理解,上述实施例可以在不脱离本发明的范围和实质的情况下被修改。本发明的范围是通过所附的权利要求限定的。

    关 键 词:
    声音 识别 结果 检验 方法 设备 音频 监视 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:声音识别结果检验方法和设备、声音识别及音频监视系统.pdf
    链接地址://www.4mum.com.cn/p-5779349.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03