• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 18
    • 下载费用:30 金币  

    重庆时时彩走势诀窍: 分析音频文件的语音特征的方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201310652731.X

    申请日:

    2013.12.05

    公开号:

    CN104700831A

    公开日:

    2015.06.10

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G10L 15/06申请日:20131205|||公开
    IPC分类号: G10L15/06(2013.01)I; G10L25/51(2013.01)I 主分类号: G10L15/06
    申请人: 国际商业机器公司
    发明人: 施琴; 张世磊; 刘文; 秦勇
    地址: 美国纽约
    优先权:
    专利代理机构: 北京市中咨律师事务所11247 代理人: 周良玉; 于静
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310652731.X

    授权公告号:

    ||||||

    法律状态公告日:

    2018.03.06|||2015.07.08|||2015.06.10

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种分析音频文件的语音特征的方法和装置,该分析方法包括:采用多种声学模型对音频文件中的语音内容进行语音识别,以获得多个识别结果;对比所述多个识别结果以获得对比结果;基于对比结果确定所述音频文件的语音声学特征。分析装置与上述分析方法相对应。本发明还提供了基于以上分析的音频文件的语音特征向用户推荐音频文件的方法和装置。利用本发明实施例的方法和装置,可以对音频文件进行语音分析,从而为用户提供关于音频文件中语音内容特点的丰富信息?;谡庋男畔?,还可以为用户推荐适合用户水平的音频文件。

    权利要求书

    权利要求书
    1.  一种分析音频文件的语音特征的方法,包括:
    采用多种声学模型对所述音频文件中的语音内容进行语音识别,以获得多 个识别结果;
    对比所述多个识别结果以获得对比结果;
    基于对比结果确定所述音频文件的语音声学特征。

    2.  根据权利要求1的方法,其中:
    采用多种声学模型对所述音频文件的语音内容进行语音识别包括,采用与 讲话者无关的SI声学模型和与讲话者有关的SD声学模型分别对所述音频文件 中的语音内容进行语音识别,以分别获得SI识别结果和SD识别结果;
    对比所述多个识别结果以获得对比结果包括,获得所述SI识别结果和SD 识别结果之间的识别差异;
    所述基于对比结果确定所述音频文件的语音声学特征包括,基于上述识别 差异,确定所述音频文件的语音标准度。

    3.  根据权利要求2的方法,其中分别获得SI识别结果和SD识别结果包 括:采用SI声学模型对所述音频文件的语音内容进行语音识别,以获得SI识 别结果;基于所述音频文件中的语音内容对SI声学模型进行调整,从而获得 SD声学模型;采用获得的SD声学模型对所述音频文件的语音内容进行语音识 别,以获得SD识别结果。

    4.  根据权利要求1的方法,其中所述多种声学模型包括多种方言模型; 所述对比结果示出基于多种方言模型获得的识别结果之间的准确度对比;所述 基于对比结果确定所述音频文件的语音声学特征包括,基于上述准确度对比, 确定所述音频文件中语音内容的方言特征。

    5.  根据权利要求1的方法,还包括,基于所述多个识别结果的至少一部 分,确定所述音频文件中语音的语速。

    6.  根据权利要求1的方法,还包括,基于所述音频文件的信噪比,确定 其背景噪声水平。

    7.  根据权利要求1的方法,还包括,基于所述音频文件的文件属性,确 定其录音条件。

    8.  根据权利要求1的方法,还包括:
    获取与所述音频文件中的语音内容相对应的文本;
    基于所述文本,确定所述音频文件的语音内容特征。

    9.  根据权利要求8的方法,其中确定所述音频文件的语音内容特征包括:
    确定文本中单词的类别和各类别单词的分布;
    基于上述分布,确定所述音频文件的词汇类别。

    10.  根据权利要求8的方法,其中确定所述音频文件的语音内容特征包括:
    采用多种n元语言模型分析所述文本中的单词组合;
    基于对单词组合的分析,确定所述音频文件中语音内容的句法级别。

    11.  一种为用户推荐音频文件的方法,包括:
    确定用户适合的语音特征;
    获取多个音频文件各自的语音特征,所述多个音频文件各自的语音特征通 过利用权利要求1-10之一的方法对所述多个音频文件进行分析而确定;
    将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用 户。

    12.  一种用于分析音频文件的语音特征的装置,包括:
    语音识别单元,配置为采用多种声学模型对所述音频文件中的语音内容进 行语音识别,以获得多个识别结果;
    结果对比单元,配置为对比所述多个识别结果以获得对比结果;
    声学特征确定单元,配置为基于对比结果确定所述音频文件的语音声学特 征。

    13.  根据权利要求12的装置,其中:
    所述语音识别单元配置为,采用与讲话者无关的SI声学模型和与讲话者有 关的SD声学模型分别对所述音频文件中的语音内容进行语音识别,以分别获 得SI识别结果和SD识别结果;
    所述结果对比单元配置为,获取所述SI识别结果和SD识别结果之间的识 别差异;
    所述声学特征确定单元配置为,基于上述识别差异,确定所述音频文件的 语音标准度。

    14.  根据权利要求13的装置,其中所述语音识别单元进一步配置为:采用 SI声学模型对所述音频文件中的语音内容进行语音识别,以获得SI识别结果; 基于所述音频文件中的语音内容对SI声学模型进行调整,从而获得SD声学模 型;采用获得的SD声学模型对所述音频文件中的语音内容进行语音识别,以 获得SD识别结果。

    15.  根据权利要求12的装置,其中所述语音识别单元配置为采用多种方言 模型;所述结果对比单元配置为获取基于多种方言模型获得的识别结果之间的 准确度对比;所述声学特征确定单元配置为,基于上述准确度对比,确定所述 音频文件中语音内容的方言特征。

    16.  根据权利要求12的装置,还包括语速确定单元,配置为基于所述多个 识别结果的至少一部分,确定所述音频文件中语音的语速。

    17.  根据权利要求12的装置,还包括噪声确定单元,配置为基于所述音频 文件的信噪比,确定其背景噪声水平。

    18.  根据权利要求12的装置,还包括录音条件确定单元,配置为基于所述 音频文件的文件属性,确定其录音条件。

    19.  根据权利要求12的装置,还包括内容特征确定单元,其包括:
    文本获取???,配置为获取与所述音频文件中的语音内容相对应的文本;
    确定???,配置为基于所述文本,确定所述音频文件的语音内容特征。

    20.  根据权利要求19的装置,其中所述确定??榕渲梦?
    确定文本中单词的类别和各类别单词的分布;
    基于上述分布,确定所述音频文件的词汇类别。

    21.  根据权利要求19的装置,其中所述确定??榕渲梦?
    采用多种n元语言模型分析所述文本中的单词组合;
    基于对单词组合的分析,确定所述音频文件中语音内容的句法级别。

    22.  一种为用户推荐音频文件的装置,包括:
    用户特征确定单元,配置为确定用户适合的语音特征;
    文件特征获取单元,配置为获取多个音频文件各自的语音特征,所述多个 音频文件各自的语音特征通过利用权利要求12-21之一的装置对所述多个音频 文件进行分析而确定;
    匹配单元,配置为将语音特征与所述用户适合的语音特征相匹配的音频文 件推荐给所述用户。

    说明书

    说明书分析音频文件的语音特征的方法和装置
    技术领域
    本发明涉及音频分析和处理,更具体而言,涉及分析音频文件的语音特征 的方法和装置。
    背景技术
    现有技术中已经提出多种方法来分析各类应用对象。例如,搜索引擎可以 捕获网站内容,并通过提取关键词等方式分析网站内容,还可以根据关键词或 其他分析结果为网站打上标签。一些图片处理工具可以对图片进行分析,例如 比对两个图片的相似性,进而进行模糊匹配等。然而,对于音频文件,特别是 主要包含语音内容的音频文件,现有技术并没有有效的方法对其进行内容和特 征的分析。而另一方面,在许多情况下,希望获得关于音频文件的特征信息, 从而可以对音频文件进行分类、匹配、推荐等进一步操作。
    在一个典型例子中,外语学习者获得了一些外语内容的音频文件,以期进 行听力练习。然而,由于现有技术并没有有效的音频分析方法,学习者只能根 据音频文件的标题、来源(来源于新闻播报、电影片段或是专用听力材料)等 信息来选择音频文件,并且只能在听过该音频文件之后才能判断所选择的音频 文件是否符合自己的听力水平。这显然浪费了大量的时间和精力。
    在另一例子中,提供音频文件的资料库期望对音频文件进行分类或分级, 以便于进行管理或向用户推荐音频文件。然而,在无法对音频文件进行有效分 析的情况下,资料库只能根据该音频文件的文件大小、作者等属性信息进行分 类,无法基于更加本质的与音频有关的特征进行分类。
    因此,希望提出新的方案,能够有效地对音频文件的语音特征进行分析。
    发明内容
    考虑到现有技术中的不足,本发明提出一种方案,旨在对音频文件的语音 特征进行分析。
    根据本发明的一个方面,提供了一种分析音频文件的语音特征的方法,包 括:采用多种声学模型对所述音频文件中的语音内容进行语音识别,以获得多 个识别结果;对比所述多个识别结果以获得对比结果;基于对比结果确定所述 音频文件的语音声学特征。
    根据本发明另一方面,提供了一种为用户推荐音频文件的方法,包括:确 定用户适合的语音特征;获取多个音频文件各自的语音特征,所述多个音频文 件各自的语音特征通过利用前述方面的方法对所述多个音频文件进行分析而确 定;将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。
    根据本发明另一方面,提供了一种用于分析音频文件的语音特征的装置, 包括:语音识别单元,配置为采用多种声学模型对所述音频文件中的语音内容 进行语音识别,以获得多个识别结果;结果对比单元,配置为对比所述多个识 别结果以获得对比结果;声学特征确定单元,配置为基于对比结果确定所述音 频文件的语音声学特征。
    根据本发明又一方面,提供了一种为用户推荐音频文件的装置,包括:用 户特征确定单元,配置为确定用户适合的语音特征;文件特征获取单元,配置 为获取多个音频文件各自的语音特征,所述多个音频文件各自的语音特征通过 利用前述方面的装置对所述多个音频文件进行分析而确定;匹配单元,配置为 将语音特征与所述用户适合的语音特征相匹配的音频文件推荐给所述用户。
    利用本发明实施例的方法和装置,可以对音频文件进行语音分析,从而为 用户提供关于音频文件中语音内容特点的信息?;谡庋男畔?,还可以为用 户推荐适合用户水平的音频文件。
    附图说明
    通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以 及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中, 相同的参考标号通常代表相同部件。
    图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的 框图;
    图2示出根据一个实施例的分析音频文件的方法的流程图;
    图3A和3B示出根据本发明实施例的标记音频文件的例子;
    图4示出根据一个实施例的推荐音频文件的方法的流程图;
    图5示出根据本发明一个实施例的分析音频文件的语音特征的装置的示意 框图;以及
    图6示出根据本发明一个实施例的推荐音频文件的装置的示意框图。
    具体实施方式
    下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了 本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被 这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透 彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
    所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程 序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也 可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结 合的形式,本文一般称为“电路”、“??椤被颉跋低场?。此外,在一些实施例中, 本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形 式,该计算机可读介质中包含计算机可读的程序代码。
    可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以 是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可 以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或 器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的 列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机 存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM 或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储 器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是 任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件 使用或者与其结合使用。
    计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据 信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种 形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计 算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介 质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或 者器件使用或者与其结合使用的程序。
    计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括—— 但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
    可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计 算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、 Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程 序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机 上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机 上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中, 远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)— 连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供 商来通过因特网连接)。
    下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程 图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和 /或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令 可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从 而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装 置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
    也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理 装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的 指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指 令装置(instruction means)的制造品(manufacture)。
    也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其 它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列 操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上 执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
    图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的 框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施 例的功能和使用范围带来任何限制。
    如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系 统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16, 系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总 线18。
    总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控 制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线 结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构 (ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标 准协会(VESA)局域总线以及外围组件互连(PCI)总线。
    计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以 是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性 介质,可移动的和不可移动的介质。
    系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随 机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可 以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。 仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1 未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移 动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光 盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些 情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18相连。存储 器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序 ???,这些程序??楸慌渲靡灾葱斜痉⒚鞲魇凳├墓δ?。
    具有一组(至少一个)程序???2的程序/实用工具40,可以存储在例如存 储器28中,这样的程序???2包括——但不限于——操作系统、一个或者多 个应用程序、其它程序??橐约俺绦蚴?,这些示例中的每一个或某种组合中 可能包括网络环境的实现。程序???2通常执行本发明所描述的实施例中的功 能和/或方法。
    计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设 备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服 务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个 其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种 通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还 可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网 (WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过 总线18与计算机系统/服务器12的其它??橥ㄐ?。应当明白,尽管图中未示出, 可以结合计算机系统/服务器12使用其它硬件和/或软件???,包括但不限于: 微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带 驱动器以及数据备份存储系统等。
    以下结合附图和具体例子描述本发明的实施方式。在本发明的实施例中, 采用多种声学模型对音频文件进行语音识别,基于不同声学模型下的识别结果 来确定音频文件的语音声学特征。在一些实施例中,还可以分析获得该音频文 件的更多语音特征,例如包括语速、背景噪声水平、以及语音内容特征等。下 面结合附图描述上述发明构思的实现。
    图2示出根据一个实施例的方法的流程图。如图2所示,根据一个实施例, 分析音频文件的语音特征的方法包括以下步骤:首先,在步骤201,采用多种 声学模型对音频文件进行语音识别,以获得多个识别结果;在步骤202,对比 所述多个识别结果以获得对比结果;在步骤203,基于对比结果确定所述音频 文件的语音声学特征。下面结合例子描述上述各个步骤的具体执行方式。
    如前所述,有待分析的音频文件是包含语音内容的音频文件。对于语音内 容来说,现有技术中已经提出多种声学模型用于对语音内容进行语音识别?;?于不同声学模型下语音识别的结果,可以确定出音频文件的一些语音声学特征。 可以根据要确定的具体特征项目来选择采用的声学模型。
    在一个实施例中,在步骤201中采用的多种声学模型包括与讲话者无关 (Speaker Independent,SI)的声学模型和与讲话者有关(Speaker Dependent, SD)的声学模型。也就是说,在步骤201,分别采用SI声学模型和SD声学模 型对音频文件进行语音识别,从而获得SI模型下的SI识别结果和SD模型下的 SD识别结果。
    本领域技术人员可以理解,声学模型包括对不同声音、单词、单词部分及 其组合进行建模的数据,从而对输入的语音音频进行识别。一般地,声学模型 基于对语音输入数据进行训练而获得,该训练过程涉及对文本语料库中各个单 词的声音表征进行统计和建模,该建??梢岳缁谝温矶品蚰P?HMM) 等。
    通过记录多个讲话者的语音数据,并基于该语音数据进行训练,可以获得 与讲话者无关的声学模型,或称SI声学模型。由于SI声学模型基于多个不同 讲话者提供的语音输入,因此可以代表一般讲话者的语音特征。进而,可以将 SI声学模型作为标准语音声学模型。
    另一方面,考虑到个体讲话者唯一的讲话特征,还提出了与讲话者有关的 声学模型,即SD声学模型。SD声学模型是通过对特定讲话者的语音输入进行 训练而获得,可以较好地表征上述特定讲话者的讲话特征,改进语音识别的准 确度。在一个例子中,可以直接基于特定讲话者的大量语音输入进行训练,从 而获得针对该特定讲话者的SD声学模型?;蛘?,一般地,可以通过在SI声学 模型的基础上针对特定讲话者进行适应和调整而获得SD声学模型。具体地, 可以利用有限的讲话者特定语音数据来调整SI声学模型,以生成SD声学模型。 上述调整可以迭代执行。现有技术中已经提出了训练SI声学模型和SD声学模 型的方法,因此在此略过对训练过程的详细描述。
    基于以上SI声学模型和SD声学模型的特点,在本发明实施例中,分别采 用SI声学模型和SD声学模型对音频文件进行语音识别,通过比对两种声学模 型下的识别结果来确定音频文件的语音标准度。具体地,在一个实施例中,预 先确定并获取针对待分析音频文件的SD声学模型。于是,在步骤201中,可 以并行地分别采用SI声学模型和SD声学模型对音频文件进行语音识别,从而 分别获得SI识别结果和SD识别结果。在另一实施例中,在利用SI声学模型进 行语音识别的同时,训练形成SD声学模型。具体地,在该实施例中,步骤201 包括,首先采用SI声学模型对音频文件进行语音识别,以此获得SI识别结果。 在进行上述语音识别的过程中,还基于音频文件中的语音内容对SI声学模型进 行适应和调整,从而获得SD声学模型。接着,利用获得的SD声学模型再次对 音频文件进行语音识别,从而获得SD识别结果。一般地,由于对SI声学模型 进行了针对性的调整,SD声学模型所获得的SD识别结果在识别准确度上要高 于SI识别结果。
    在步骤202,对比以上两种识别结果,从而获得对比结果。此时,对比结 果示出基于SI声学模型的SI识别结果和基于SD声学模型的SD识别结果之间 的识别差异。接着,在步骤203,基于上述识别差异,确定所述音频文件的语 音标准度。具体地,如上所述,SI声学模型反映了标准语音特征,而SD声学 模型反映了特定讲话者的特征。因此,如果这两种声学模型下的识别结果比较 接近,则意味着,音频文件中的语音接近标准发音,语音标准度较高;反之, 如果这两种声学模型下的识别结果差异较大,则意味着,音频文件中的语音并 不标准,语音标准度较低。相应地,在一个例子中,将语音标准度确定为反比 于SI识别结果和SD识别结果之间的识别差异。由此,基于SI声学模型和SD 声学模型的识别差异,确定出音频文件的语音标准度。在一个例子中,根据识 别差异的大小,将语音标准度量化为不同级别,例如5级表示非常标准,1级 表示严重偏离标准语音等。
    除了采用SI声学模型和SD声学模型来确定语音标准度,还可以采用其他 声学模型确定音频文件的其他声学特征。在一个实施例中,可以利用多种方言 模型来确定音频文件的方言特征??梢岳斫?,即使对于同一种语言,不同国家 和地区的发音也具有不同的特点。以英语为例,美式英语和英式英语在发音上 具有较大的区别。在其他国家和地区,例如中国、印度、日本等,人们的英语 发音也具有其相应的特点?;谝陨峡悸?,可以基于某个地区的多个讲话者的 语音输入进行训练,从而获得该地区的方言模型。在获得多个地区的多种方言 模型的基础上,可以利用这些方言模型确定有待分析的音频文件的方言特征。 具体地,在步骤201,分别采用多种方言模型对音频文件进行语音识别,获得 多个识别结果。接着,在步骤202,对比获得的多个识别结果,更具体而言, 对比上述多个识别结果的准确度。在一个实施例中,某种声学模型下识别结果 的准确度被估计为利用该声学模型对音频文件进行语音识别的识别率??梢岳?解,在语音识别过程中,如果所采用的声学模型不适于该音频文件的语音内容, 那么会出现一些音素无法识别的情况,例如,无法将某些音素或音素组合匹配 到有意义的单词。这时,可以利用识别率来评估该声学模型的识别结果的准确 度。在另一实施例中,可以直接获得与音频文件的语音内容对应的文本。此时, 可以通过将识别结果与上述文本进行比对来更直接地确定该识别结果的准确 度。由此,可以根据需要利用上述方法确定步骤201获得的各个方言模型下的 识别结果的准确度。进而,在步骤202,比对各个识别结果的准确度,并且, 在步骤203,基于上述准确度对比,确定音频文件中语音内容的方言特征。更 具体而言,在步骤203,将准确度最高的方言模型确定为该音频文件所适用的 声学模型,并将该方言模型对应的方言特征确定为该音频文件中语音内容的方 言特征。
    以上通过比对多种声学模型的识别结果,可以确定出音频文件的语音标准 度和方言特征。在一个实施例中,还可以直接基于多种声学模型的识别结果的 准确度,确定音频文件的整体语音清晰度。具体地,首先在步骤201,分别采 用多种声学模型对音频文件进行语音识别,上述多种声学模型包括各种被认为 可能适用于音频文件的声学模型,例如包括但不限于前述的SI声学模型、SD 声学模型、方言模型等。进而,利用前述的确定识别率或对比文本的方法以及 可能的其他方法确定各个识别结果的准确度。接着在步骤202,通过对比各个 识别结果,确定识别结果的总体准确度。具体地,在一个例子中,将各个识别 结果中最高的准确度确定作为总体准确度;在另一例子中,将各个识别结果的 准确度的均值作为总体准确度?;箍梢酝ü渌绞饺范ㄊ侗鸾峁淖芴遄既?度。进而,在步骤203,基于上述总体准确度,确定音频文件的语音清晰度。 可以理解,总体准确度越高,意味着音频文件的可辨识性越强,语音清晰度越 高。
    实际上,语音清晰度是表征音频文件的语音发音是否易于识别的一个总体 声学特征,它受到多方面因素的影响。除了讲话者独有的发音特点、方言特征 之外,讲话语速、噪声水平、录音条件等因素都会不同程度地影响音频文件的 可识别性。因此,本发明的实施例还提出针对上述各种声学特征项目进行分析。
    在一个实施例中,分析音频文件的语音特征的方法还包括,确定所述音频 文件中语音的语速。在一个例子中,可以基于以上步骤201中获得的多个识别 结果的至少一部分来确定语速。具体地,可以在语音识别过程中,统计识别的 单词数目和这些单词的发音时长,据此确定语速。利用语音识别的识别结果, 既可以确定出一段音频的总体平均语速,也可以确定出特定语句的语速。在一 个实施例中,可以根据预定标准将确定出的语速划分为若干等级。例如,语速 越快,等级越高,语音可识别性越低。
    在一个实施例中,分析音频文件的语音特征的方法还包括,确定所述音频 文件的背景噪声水平。具体地,可以分析所述音频文件的信噪比,基于信噪比 确定背景噪声水平。较小的信噪比对应于较大的背景噪声,进而使得音频文件 中的语音内容难以识别。
    在一个实施例中,分析音频文件的语音特征的方法还包括,基于所述音频 文件的文件属性,确定所述音频文件的录音条件。具体地,上述文件属性可以 包括,该音频文件的位速、采样率、声道等。这些属性信息可以用于确定该音 频文件的音频质量或录音条件。例如,较高的位速,较高的采样率对应于较高 的音频质量或较好的录音条件,较好的录音条件一般来说会使得音频文件中的 语音易于识别。
    除了以上对音频文件的语音声学特征进行分析之外,本发明的实施例还可 以分析音频文件的语音内容特征。实际上,语音声学特征反映了语音内容在声 学上是否易于识别,而语音内容特征反映了语音内容本身是否易于理解。两方 面的特征综合在一起,决定了用户是否易于获得音频文件的内容信息。为了确 定上述内容特征,在一个实施例中,分析音频文件的语音特征的方法还包括, 获取与音频文件中的语音内容相对应的文本,并且基于所述文本,确定所述音 频文件的语音内容特征。
    在一些情况下,与音频文件的语音内容相对应的文本是可以直接获得的。 例如,一些音频文件是专用于外语听力训练的听力材料,这些音频文件常常附 带有对应的文本。一些音频文件来自新闻播报或电影片段等视频,而这些视频 常常配有字幕。通过提取视频字幕也可以获得音频文件对应的文本。对于难以 直接获得对应文本的音频文件,可以将前述步骤201中语音识别的结果作为对 应文本。
    在获得了音频文件的对应文本的基础上,可以基于该文本,确定音频文件 的语音内容特征。具体地,在一个实施例中,确定语音内容特征包括,确定文 本中单词的类别和各类别单词的分布;基于上述分布,确定所述音频文件的词 汇(vocabulary)类别??梢岳斫?,现有技术中已经提供了多种数据库和标准用 于对单词进行类别划分。在一个例子中,可以依据数据库提供的信息,对单词 进行主题领域的划分。例如,“学?!?,“暑假”,“班级”等单词可以被划分到教 育这一主题领域,而“动能”,“势能”,“重力”等单词可以被划分到科学,更 具体地,物理这一主题领域。在另一例子中,可以依据教育类数据库提供的信 息,对单词进行难度的划分,例如,将不同单词分类为初级、中级、高级等难 度水平。在获得了文本中各个单词的类别的基础上,可以统计获得各类别单词 的分布,例如,某类别单词占单词总数目的百分比等?;诟梅植?,就可以确 定整个文本的词汇类别。例如,可以将相对于单词总数目占有最大百分比的单 词类别确定为整个文本的词汇类别?;蛘?,也可以将各类别量化为类别值(例 如初级为1,中级为2,高级为3),通过对各个类别的单词数目进行加权求和 以及求平均,来确定整个文本的词汇类别。
    除了上述词汇特征之外,文本的句法特征也会影响其可理解性。为此,根 据一个实施例,分析音频文件的语音特征的方法还包括:采用多种n元语言模 型分析文本中的单词组合;基于对单词组合的分析,确定所述音频文件的句法 级别。
    语言模型(Language Model,LM)已经广泛地应用在需要自然语言处理的各 种应用中,例如语音识别、机器翻译、词性标注、句法分析和信息检索。语言 模型通过模型训练而形成,可以描述给定单词序列在语言中的出现概率的分布。 由于句子往往由任意长度的字串构成,因此常常使用n元语言模型来描述不定 长度的单词组合的概率。在现有技术中,可以基于不同语料库训练出不同的语 言模型。在一个例子中,基于已有的具有不同句法难度级别的多个语料库,训 练出多个不同级别的n元语言模型。为了分析音频文件的语音内容的句法级别, 采用上述训练出的多个不同级别的n元语言模型来分析与语音内容对应的文本 中的单词组合。所述单词组合可以是一个短语,一个句子甚至是整篇文本。通 过这样的分析,可以确定出,文本中的单词组合在各个n元语言模型下的出现 概率,并将出现概率较大的n元语言模型的级别确定为该单词组合的句法级别。 通过采用上述方法利用多个不同级别的n元语言模型对文本中的各种单词组合 进行分析,可以确定整个文本的总体句法级别,也就是对应的音频文件的语音 内容的句法级别。在一个例子中,可以将确定的句法级别进行量化。
    在以上实施例中,分析了音频文件的多种语音声学特征和语音内容特征。 然而,可以理解,以上实施例所描述的对具体特征的分析仅仅出于示例目的; 在阅读本说明书的情况下,本领域技术人员还可以对上述实施例进行修改,采 用更多的方式对更多的具体特征进行分析。分析获得的各种具体特征的特征值 可以作为标签来标记音频文件,使得用户可以直接获得关于该音频文件是否易 于识别、易于理解的更多更丰富的信息。
    图3示出根据本发明实施例的标记音频文件的例子。如图3A所示,在一 个例子中,对于某个包含语音内容的音频文件“演讲片段1”,可以根据上述实 施例的描述分析该音频文件的各项特征,并在文件的属性或标签中直接示出分 析结果,即特征值。例如,图3A的示例性音频文件的语音特征包括,语音标 准度为较为标准,方言特征为美式英语,语速为2个单词/秒,噪声水平为中等, 语音总体清晰度为中等清晰,词汇类别为中级难度,句法级别为高级难度等。 在图3B的例子中,将图3A的分析结果量化为不同级别,并用图标示出该不同 级别,以使得音频文件的特征呈现更加清楚和直观。
    除了如图3所示分别示出各项具体特征的分析结果之外,还可以为各项具 体特征赋予相应权重,从而基于各项具体特征的级别和权重计算得出音频文件 的语音内容的总体可理解度。
    在以上对包含语音内容的音频文件进行分析的基础上,本发明实施例还提 供一种为用户推荐音频文件的方法。图4示出根据一个实施例的推荐音频文件 的方法的流程图。如图4所示,为用户推荐音频文件的方法包括:首先在步骤 401,确定用户适合的语音特征;在步骤402,获取分别采用前述实施例的方法 所确定的多个音频文件各自的语音特征;进而在步骤403,将语音特征与所述 用户适合的语音特征相匹配的音频文件推荐给用户。
    具体地,首先在步骤401,确定用户适合的语音特征。在一个实施例中, 可以提供接口,用于接收关于用户适合的语音特征的输入信息。通过接收该输 入信息,可以获取用户适合的语音特征。在另一实施例中,可以基于已知等级 的语音内容或文本内容向用户提供一些问题作为测试,基于用户对这些问题的 反馈来确定用户适合的语音特征。所确定的语音特征可以包括多种具体特征, 例如语音标准度、方言特征、语音清晰度、语速等语音声学特征,以及例如词 汇类别,句法等级等语音内容特征。在一个实施例中,所确定的语音特征也可 以是基于多种具体特征而给出的总体可理解度。
    接着,在步骤402,获取分别采用前述实施例的分析方法确定的多个音频 文件各自的语音特征。在一个实施例中,可以采用前述实施例的分析方法,预 先确定多个音频文件各自的语音特征。在另一实施例中,可以根据获取的用户 适合的语音特征的具体特征项目,相应地确定多个音频文件的对应项目作为其 语音特征。
    在分别获取了用户适合的语音特征和多个备选音频文件的语音特征的基础 上,在步骤403,将语音特征与所述用户适合的语音特征相匹配的音频文件推 荐给用户。在一个实施例中,可以逐个对比各个特征项目来确定与用户匹配的 音频文件。具体地,对于某些特征项目(例如可以量化的特征项目),可以预先 设定一偏差阈值;当用户适合的语音特征在该特征项目中的特征值与某音频文 件的对应特征值相差不大于上述偏差阈值的情况下,可以认为该音频文件在该 特征项目上与用户相匹配。对于某些特征项目(例如方言特征),在特征值相等 的情况下才认为音频文件在该特征项目上与用户匹配。通过这样的方式,可以 确定出某个音频文件与用户相匹配的特征项目的数目。在一个实施例中,将与 用户相匹配的特征项目的数目大于一数目阈值的音频文件作为适合用户的音频 文件,推荐给用户。在另一实施例中,所确定的用户适合的语音特征是基于多 个特征项目给出的总体可理解度。在此情况下,对应地确定各个音频文件的总 体可理解度,并逐个与用户适合的可理解度进行比较。将与用户适合的总体可 理解度的偏差在预定范围内的音频文件确定为适合用户的音频文件,进而推荐 给用户。如此,推荐给用户的音频文件在语音特征上适合用户的水平,满足用 户的需要,提高了用户获取适合的音频文件的效率。
    基于同一发明构思,本发明的实施例还提供了一种用于分析音频文件的语 音特征的装置。图5示出根据本发明一个实施例的分析音频文件的语音特征的 装置的示意框图。在图5中,该装置总体表示为500。如图所示,用于分析音 频文件的语音特征的装置500包括:语音识别单元501,配置为采用多种声学 模型对所述音频文件中的语音内容进行语音识别,以获得多个识别结果;结果 对比单元502,配置为对比所述多个识别结果以获得对比结果;声学特征确定 单元503,配置为基于对比结果确定所述音频文件的语音声学特征。
    根据一个实施例,上述语音识别单元501配置为:采用与讲话者无关的SI 声学模型和与讲话者有关的SD声学模型分别对所述音频文件进行语音识别, 以分别获得SI识别结果和SD识别结果;上述结果对比单元502配置为,获取 所述SI识别结果和SD识别结果之间的识别差异;上述声学特征确定单元503 配置为,基于上述识别差异,确定所述音频文件的语音标准度。
    在一个实施例中,上述语音识别单元501配置为:采用SI声学模型对所述 音频文件进行语音识别,以获得SI识别结果;基于所述音频文件中的语音内容 对SI声学模型进行调整,从而获得SD声学模型;采用获得的SD声学模型对 所述音频文件进行语音识别,以获得SD识别结果。
    根据另一个实施例,上述语音识别单元501配置为采用多种方言模型;上 述结果对比单元502配置为获取基于多种方言模型获得的识别结果之间的准确 度对比;上述声学特征确定单元503配置为,基于上述准确度对比,确定所述 音频文件中语音内容的方言特征。
    根据一个实施例,上述装置500还包括语速确定单元(未示出),配置为基 于所述多个识别结果的至少一部分,确定所述音频文件中语音的语速。
    在一个实施例中,上述装置500还包括噪声确定单元(未示出),配置为基 于所述音频文件的信噪比,确定其背景噪声水平。
    在一个实施例中,上述装置500还包括录音条件确定单元(未示出),配置 为基于所述音频文件的文件属性,确定其录音条件。
    根据一个实施例,上述装置500还包括内容特征确定单元(未示出),其包 括:文本获取???,配置为获取与所述音频文件中的语音内容相对应的文本; 以及确定???,配置为基于所述文本,确定所述音频文件的语音内容特征。
    根据一个实施例,上述确定??榕渲梦喝范ㄎ谋局械ゴ实睦啾鸷透骼啾?单词的分布;基于上述分布,确定所述音频文件的词汇类别。
    根据另一实施例,上述确定??榕渲梦翰捎枚嘀謓元语言模型分析所述 文本中的单词组合;基于对单词组合的分析,确定所述音频文件中语音内容的 句法级别。
    在另一方面,本发明的实施例还提供了一种为用户推荐音频文件的装置。 图6示出根据本发明一个实施例的推荐音频文件的装置的示意框图。在图6中, 该装置总体表示为600。如图所示,用于为用户推荐音频文件的装置600包括: 用户特征确定单元601,配置为确定用户适合的语音特征;文件特征获取单元 602,配置为获取多个音频文件各自的语音特征,所述多个音频文件各自的语音 特征通过利用前述实施例的用于分析音频文件的语音特征的装置而确定;匹配 单元603,配置为将语音特征与所述用户适合的语音特征相匹配的音频文件推 荐给所述用户。在一个实施例中,文件特征获取单元602通过图5的分析装置 500形成。在另一实施例中,文件特征获取单元602连接到前述的分析装置500, 从中获得关于多个音频文件的语音特征的分析结果。
    以上用于分析音频文件的语音特征的装置500和用于向用户推荐音频文件 的装置600的具体执行方式可以参照之前结合具体例子对图2和图4方法的描 述,在此不再赘述。
    利用本发明实施例的方法和装置,可以对音频文件进行语音分析,从而为 用户提供关于音频文件中语音内容的特点的信息?;谡庋男畔?,还可以为 用户推荐适合用户水平的音频文件。
    可以理解,附图中的流程图和框图显示了根据本发明的多个实施例的系统、 方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程 图或框图中的每个方框可以代表一个???、程序段或代码的一部分,所述???、 程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指 令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不 同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地 执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意 的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合, 可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专 用硬件与计算机指令的组合来实现。
    以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的, 并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的 情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。 本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场 中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露 的各实施例。

    关 键 词:
    分析 音频文件 语音 特征 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:分析音频文件的语音特征的方法和装置.pdf
    链接地址://www.4mum.com.cn/p-5890457.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03