• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 22
    • 下载费用:30 金币  

    重庆时时彩在哪里下: 基于模式的音频检索方法和系统.pdf

    关 键 词:
    基于 模式 音频 检索 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201210505562.2

    申请日:

    2012.11.30

    公开号:

    CN103853749A

    公开日:

    2014.06.11

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121130|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 国际商业机器公司
    发明人: 张世磊; 涂旭东; 金锋; 金琴; 刘文; 秦勇
    地址: 美国纽约
    优先权:
    专利代理机构: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 邹姗姗
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210505562.2

    授权公告号:

    ||||||

    法律状态公告日:

    2017.04.26|||2014.07.09|||2014.06.11

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提供了一种基于模式的音频检索方法和系统。所述音频检索方法包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。利用本发明的方法和系统,能够无需人工参与标记而自动基于背景模式迭代地进行音频类标记和检索,从而提供更准确合理的音频检索结果。

    权利要求书

    权利要求书
    1.  一种基于模式的音频检索方法,包括:
    基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;
    获取目标音频数据的音频标记序列;
    基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及
    输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。

    2.  根据权利要求1所述的方法,其中,基于模式对多个源音频数据进行标记包括:
    (a)对每个源音频数据进行划分,以获得多个分段;
    (b)基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;
    (c)根据针对多个所述源音频数据所确定的音频类序列,基于模式构建判决树;
    (d)针对判决树上的每个叶节点,训练分段标记模型;
    (e)利用所训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及
    (f)在满足预定迭代条件的情况下,重复上述操作(b)至(e)。

    3.  根据权利要求2所述的方法,其中,对每个源音频数据进行划分包括以下的任何一个或多个:
    依照源音频数据中的静音进行划分;
    依照预定时长的音频窗对源音频数据进行划分;以及
    按时间均匀划分源音频数据。

    4.  根据权利要求2所述的方法,其中,基于所获得的多个分段利用聚类算法确定每个源音频数据的音频类序列包括:
    利用从所获得的多个分段提取的音频特征来构建混合高斯模型(GMM);和
    基于所构建的GMM,利用聚类算法基于特定音频特征和音频类距离,确定源音频数据的音频类序列。

    5.  根据权利要求2所述的方法,其中,根据针对多个所述源音频数据所确定的音频类序列基于模式构建判决树包括:
    定义所确定的音频类序列中的音频类作为判决树的根节点;
    基于被定义为根节点的音频类在音频类序列中的上下文,构建模式问题集;以及
    基于所构建的模式问题集,对所确定的音频类序列中的音频类进行分支,从而构建判决树的叶节点。

    6.  根据权利要求4所述的方法,其中,针对判决树上的每个叶节点训练分段标记模型包括:
    针对判决树上的每个叶节点,训练隐马尔可夫模型(HMM)和持续时间模型。

    7.  根据权利要求2所述的方法,其中,利用所训练的分段标记模型获得源音频数据的音频标记序列并调整对源音频数据的划分包括:
    利用所训练的分段标记模型,确定源音频数据的音频类距离;
    基于所训练的分段标记模型,利用从所述源音频数据提取的音频特征和所确定的音频类距离进行Viterbi解码;以及
    根据Viterbi解码结果,获得源音频数据的音频标记序列,并调整对源音频数据的划分。

    8.  根据权利要求2所述的方法,其中,对源音频数据进行划分以获得多个分段包括:
    确定源音频数据是否为语音数据;以及
    基于所述确定的结果,对源音频数据进行划分以获得多个分段。

    9.  根据权利要求2所述的方法,其中,所述预定迭代条件包括以下的任何一个或多个:
    对源音频数据的划分的调整量不小于预定分段差值;以及
    迭代次数小于预定迭代次数阈值。

    10.  根据权利要求2所述的方法,其中,获取目标音频数据的音频标记序列包括:
    基于所训练的分段标记模型,对所述目标音频数据进行Viterbi解码,以获得该目标音频数据的音频标记序列。

    11.  根据权利要求2至10中任一项所述的方法,其中,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度包括:
    确定与目标音频数据和源音频数据相关的音频类之间的音频类距离;
    通过将目标音频数据的音频标记序列与源音频数据的音频标记序列进行比较,基于所确定的音频类距离来计算序列匹配得分;
    通过计数目标音频数据和源音频数据的音频类序列中各音频类的个数,计算计数匹配得分;以及
    以各自的加权值组合所计算的序列匹配得分和计数匹配得分,计算目标音频数据与源音频数据的匹配度。

    12.  一种基于模式的音频检索系统,包括:
    标记装置,配置为基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;
    目标获取装置,配置为获取目标音频数据的音频标记序列;
    匹配度确定装置,配置为基于所述目标获取装置获取的目标音频数据的音频标记序列和所述标记装置获取的各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及
    检索输出装置,配置为输出由所述匹配度确定装置确定的匹配度高于预定匹配度阈值的源音频数据,作为检索结果。

    13.  根据权利要求12所述的系统,其中,所述标记装置包括:
    划分装置,配置为对每个源音频数据进行划分,以获得多个分段;
    聚类装置,配置为基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;
    判决树构建装置,配置为根据所述聚类装置针对多个所述源音频数据确定的音频类序列,基于模式构建判决树;
    模型训练装置,配置为针对由所述判决树构建装置构建的判决树上的每个叶节点,训练分段标记模型;
    分段调整装置,配置为利用由所述模型训练装置训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及
    迭代条件判断装置,配置为判断是否满足预定迭代条件。

    14.  根据权利要求13所述的系统,其中,所述划分装置通过以下的任何一个或多个来对每个源音频数据进行划分:
    依照源音频数据中的静音进行划分;
    依照预定时长的音频窗对源音频数据进行划分;以及
    按时间均匀划分源音频数据。

    15.  根据权利要求13所述的系统,其中,所述聚类装置包括:
    第一聚类子装置,配置为利用从所获得的多个分段提取的音频特 征来构建混合高斯模型(GMM);和
    第二聚类子装置,配置为基于所述第一聚类子装置构建的GMM,利用聚类算法基于特定音频特征和音频类距离,确定源音频数据的音频类序列。

    16.  根据权利要求13所述的系统,其中,所述判决树构建装置包括:
    第一判决树构建子装置,配置为定义由所述聚类装置确定的音频类序列中的音频类作为判决树的根节点;
    第二判决树构建子装置,配置为基于被第一判决树构建子装置定义为根节点的音频类在音频类序列中的上下文,构建模式问题集;以及
    第三判决树构建子装置,配置为基于所构建的模式问题集,对所确定的音频类序列中的音频类进行分支,从而构建判决树的叶节点。

    17.  根据权利要求15所述的系统,其中,所述模型训练装置包括:配置为针对判决树上的每个叶节点训练隐马尔可夫模型(HMM)和持续时间模型的装置。

    18.  根据权利要求13所述的系统,其中,所述分段调整装置包括:
    第一分段调整子装置,配置为利用由所述模型训练装置训练的分段标记模型,确定源音频数据的音频类距离;
    第二分段调整子装置,配置为基于所训练的分段标记模型,利用从所述源音频数据提取的音频特征和由所述第一分段调整子装置确定的音频类距离进行Viterbi解码;以及
    第三分段调整子装置,配置为根据由所述第二分段调整子装置获得的Viterbi解码结果,获得源音频数据的音频标记序列,并调整对源音频数据的划分。

    19.  根据权利要求13所述的系统,其中,所述划分装置包括:
    语音识别装置,配置为确定源音频数据是否为语音数据;和
    划分执行装置,配置为基于所述语音识别装置确定的结果,对源音频数据进行划分以获得多个分段。

    20.  根据权利要求13所述的系统,其中,所述预定迭代条件包括以下的任何一个或多个:
    对源音频数据的划分的调整量不小于预定分段差值;以及
    迭代次数小于预定迭代次数阈值。

    21.  根据权利要求13所述的系统,其中,所述目标获取装置包括:
    配置为基于所训练的分段标记模型,对所述目标音频数据进行Viterbi解码,以获得该目标音频数据的音频标记序列的装置。

    22.  根据权利要求13至21中任一项所述的系统,其中,所述匹配度确定装置包括:
    音频类相似度确定装置,配置为确定与目标音频数据和源音频数据相关的音频类之间的音频类距离;
    序列比较装置,配置为通过将目标音频数据的音频标记序列与源音频数据的音频标记序列进行比较,基于由所述音频类相似度确定装置确定的音频类距离来计算序列匹配得分;
    计数比较装置,配置为通过计数目标音频数据和源音频数据的音频类序列中各音频类的个数,计算计数匹配得分;以及
    匹配度计算装置,配置为以各自的加权值组合由所述序列比较装置计算的序列匹配得分和由所述计数比较装置计算的计数匹配得分,计算目标音频数据与源音频数据的匹配度。

    说明书

    说明书基于模式的音频检索方法和系统
    技术领域
    本发明总体上涉及多媒体信息检索领域,特别地,涉及基于模式的音频检索方法和系统。
    背景技术
    互联网的广泛普及推动了多媒体信息技术的高速发展??纱踊チ匣竦玫亩嗝教迨萘考彼僭龀?。例如,在YouTube网站上每分钟上传的音视频文件达48小时之多。海量的数据使得不可能逐一进行浏览,而且对数据的索引和检索也更具挑战。
    如何从资料库中准确地找到所需题材的数据文件是多媒体信息检索领域的研究热点之一。例如,婚庆设计公司可能希望根据少量婚庆典礼样本,找到海量素材用以制作最终的婚庆文件。电台的节目制作人或者视频网站的制作团队,希望基于有限资料从海量数据中搜索到感兴趣的节目类型,为快速的节目制作提供帮助。此外,用户可能希望对自有的多媒体数据库进行自动的标记归档,从而进行更有效的管理。
    相比于基于视频的检索,基于音频的检索适用范围更广,例如在只能获得音频数据的情况下(例如,无线电广播)。音频包含了有助于理解内容的相当大量的信息,而且相比于视频来说音频文件通常较小。因此,在例如由于网络上传容量限制而不得不将视频文件压缩至略模糊的情况下,音频却可以制作得较为清晰。
    然而,现有技术的音频索引和检索方法有诸多缺陷。首先,现有的音频索引和检索方法需要大量的手工标记。例如对于音频网站,通常存在大量的无标记文件或者简单标记的文件,这些文件之间没有很好的描述,而且缺乏与其他数据有效的相关性推荐连接。工作人员只 能人工对部分著名节目或者访问量高的文件进行手工标记和推荐连接。因此,这样的音频索引和检索方法仅能用于特定领域和有限的数据样本集。
    其次,现有的音频索引和检索方法仅仅基于音频标记本身进行建模,这会使得索引和检索结果不准确。例如,同样是水流声,在自然河流背景模式下和家庭厨房背景模式下的意义是完全不同的。再例如,鼓掌声在娱乐节目、谈话节目或体育节目中也是有所不同的。如果用户输入一段河流流水声作为样本,希望从多媒体数据库中检索出类似的素材,那么现有的音频检索方法会不区分地给出包括自然河流模式下和家庭厨房模式下的水流声的数据文件。显然,在不考虑上下文的情况下,很多音频检索的结果是不准确的。
    再次,现有的音频检索方法通常采用单次顺序检索策略,即先将音频数据分段,接着针对每段进行分类识别。由此,先前步骤中的错误会影响后续步骤的执行结果,导致逐步累积到最后的检索结果中,使得检索结果不准确甚至完全偏离检索目标。
    因此,需要一种无需人工参与标记而自动执行的音频检索方法和系统。
    进一步,需要一种基于背景模式并可以考虑音频类相似度的音频检索方法和系统。
    再进一步,需要一种能够自动消除累积误差从而提供更为准确的检索结果的音频检索方法和系统。
    发明内容
    本发明的一个目的在于,自动对源音频数据进行基于模式的标记和建模,并考虑音频类相似度地提供准确的音频检索结果。
    为此,本发明的音频检索方法和系统通过迭代分段与聚类整合处理来对源音频数据进行自动音频标记,在每次迭代中构建基于背景模式的判决树并针对判决树上的叶节点训练分段标记模型,最后基于模式比较并结合音频类相似度来提供音频检索结果。
    根据本发明的第一方面,提供了一种基于模式的音频检索方法,包括:基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;获取目标音频数据的音频标记序列;基于目标音频数据的音频标记序列和各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及输出匹配度高于预定匹配度阈值的源音频数据,作为检索结果。
    在一个实施例中,基于模式对多个源音频数据进行标记包括,针对每个源音频数据执行如下操作:(a)对每个源音频数据进行划分,以获得多个分段;(b)基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;(c)根据针对多个所述源音频数据所确定的音频类序列,基于模式构建判决树;(d)针对判决树上的每个叶节点,训练分段标记模型;(e)利用所训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及(f)在满足预定迭代条件的情况下,重复上述操作(b)至(e)。
    根据本发明的第二方面,提供了一种基于模式的音频检索系统,包括:标记装置,配置为基于模式对多个源音频数据进行标记,以获取各源音频数据的音频标记序列;目标获取装置,配置为获取目标音频数据的音频标记序列;匹配度确定装置,配置为基于所述目标获取装置获取的目标音频数据的音频标记序列和所述标记装置获取的各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度;以及检索输出装置,配置为输出由所述匹配度确定装置确定的匹配度高于预定匹配度阈值的源音频数据,作为检索结果。
    在一个实施例中,所述标记装置包括:划分装置,配置为对每个源音频数据进行划分,以获得多个分段;聚类装置,配置为基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列;判决树构建装置,配置为根据所述聚类装置针对多个所述源音频数据确定的音频类序列,基于模式构建判决树;模型训练装置,配置为针对由所述判决树构建装置构建的判决树上的每个叶节点,训练分段标记 模型;分段调整装置,配置为利用由所述模型训练装置训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分;以及迭代条件判断装置,配置为判断是否满足预定迭代条件。
    利用本发明的方法和系统,能够无需人工参与标记而自动执行音频检索。
    利用本发明的方法和系统,能够基于背景模式迭代地进行音频类标记,从而提供更准确合理的音频检索结果。
    利用本发明的方法和系统,能够考虑音频类相似度并结合背景模式地进行音频检索。
    附图说明
    通过结合附图对本公开示例性实施方式进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显,其中,在本公开示例性实施方式中,相同的参考标号通常代表相同部件。
    图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器的框图。
    图2是例示了根据本发明实施例的基于模式的音频检索方法的总流程图。
    图3示意性地示出了音频类序列的一个示例。
    图4是例示了根据本发明实施例的用于对源音频数据进行基于模式的音频类标记的处理的流程图。
    图5示意性地示出了聚类处理的一个示例。
    图6是例示了根据本发明实施例的用于基于模式构建判决树的处理的流程图。
    图7示意性地示出了判决树构建处理的一个示例。
    图8是例示了根据本发明实施例的用于确定目标音频数据与源音频数据之间的匹配度的处理的流程图。
    图9示出了根据本发明实施例的基于模式的音频检索系统的功能框图。
    具体实施方式
    下面将参照附图更详细地描述本公开的优选实施方式。虽然附图中显示了本公开的优选实施方式,然而应该理解,可以以各种形式实现本公开而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。
    所属技术领域的技术人员知道,本发明可以实现为系统、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等),还可以是硬件和软件结合的形式,本文一般称为“电路”、“??椤被颉跋低场?。此外,在一些实施例中,本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
    可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
    计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可 读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
    计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、电线、光缆、RF等等,或者上述的任意合适的组合。
    可以以一种或多种程序设计语言或其组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言—诸如”C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
    下面将参照本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,这些计算机程序指令通过计算机或其它可编程数据处理装置执行,产生了实现流程图和/或框图中的方框中规定的功能/操作的装置。
    也可以把这些计算机程序指令存储在能使得计算机或其它可编程数据处理装置以特定方式工作的计算机可读介质中,这样,存储在计算机可读介质中的指令就产生出一个包括实现流程图和/或框图中的方框中规定的功能/操作的指令装置(instruction  means)的制造品(manufacture)。
    也可以把计算机程序指令加载到计算机、其它可编程数据处理装 置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
    图1示出了适于用来实现本发明实施方式的示例性计算机系统/服务器12的框图。图1显示的计算机系统/服务器12仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
    如图1所示,计算机系统/服务器12以通用计算设备的形式表现。计算机系统/服务器12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,系统存储器28,连接不同系统组件(包括系统存储器28和处理单元16)的总线18。
    总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
    计算机系统/服务器12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机系统/服务器12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
    系统存储器28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统/服务器12可以进一步包括其它可移动/不可移动的、易失性/非易失性计算机系统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(图1未显示,通常称为“硬盘驱动器”)。尽管图1中未示出,可以提供用于对可移动非易失性磁盘(例如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,DVD-ROM或者其它光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质接口与总线18 相连。存储器28可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序???,这些程序??楸慌渲靡灾葱斜痉⒚鞲魇凳├墓δ?。
    具有一组(至少一个)程序???2的程序/实用工具40,可以存储在例如存储器28中,这样的程序???2包括——但不限于——操作系统、一个或者多个应用程序、其它程序??橐约俺绦蚴?,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序???2通常执行本发明所描述的实施例中的功能和/或方法。
    计算机系统/服务器12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24等)通信,还可与一个或者多个使得用户能与该计算机系统/服务器12交互的设备通信,和/或与使得该计算机系统/服务器12能与一个或多个其它计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口22进行。并且,计算机系统/服务器12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。如图所示,网络适配器20通过总线18与计算机系统/服务器12的其它??橥ㄐ?。应当明白,尽管图中未示出,可以结合计算机系统/服务器12使用其它硬件和/或软件???,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统等。
    如前所述,本发明的音频检索方法和系统通过迭代分段与聚类整合处理来对源音频数据进行自动音频标记,在每次迭代中构建基于背景模式的判决树并针对判决树上的叶节点训练分段标记模型,最后基于模式比较并结合音频类相似度来提供音频检索结果。
    下面将参照图2至图9来具体地描述本发明的实施例。图2是例示了根据本发明实施例的基于模式的音频检索方法200的总流程图。首先,需要对例如包括在音频数据库中的多个源音频数据进行基于模式的音频类标记,以获取各源音频数据的音频标记序列(步骤202)。
    需要说明的是,本文中所称的“音频类”是指针对音频的一种分 类。理想情况下,“音频类”可以是一段音频所涉及的事件类别,例如枪声、流水声、欢呼声或尖叫声等。然而,一般情况下,“音频类”不一定严格对应于音频所涉及的事件类别,其可以仅仅是基于特定音频处理算法(例如,聚类算法)的运算结果,并且可能不具备语义含义。在本发明中无需知晓每个音频类所具体代表的事件类别就能够进行准确的音频标记和检索,正因此本发明的音频类和检索方法是无需监督而自动执行的。
    音频数据是由连续或不连续的多段音频构成,故而本文所称的“音频类序列”是指随时间的一系列音频类,其记载了音频数据中顺序出现的音频类及其相应的持续时间。图3中示出了理想情况下的音频类序列的一个示例。本文中所称的“背景模式”或“模式”是指音频数据所涉及的环境情况,例如自然河流、家庭厨房、车站、娱乐节目、谈话节目或体育节目等。
    图4详细地例示了步骤202的一种具体实现处理400,其中通过迭代分段与聚类整合处理来对源音频数据进行自动音频标记,在每次迭代中构建基于背景模式的判决树并针对判决树上的叶节点训练分段标记模型。
    处理400可以在步骤402处开始。在步骤402中,对多个源音频数据中的每一个源音频数据进行划分,以获得多个分段。在一个实施例中,可以依照源音频数据中的静音进行划分。在另一实施例中,可以依照预定时长的音频窗对源音频数据进行划分。在又一实施例中,可以按时间均匀划分源音频数据。在还一实施例中,可以采用静音划分、音频窗划分和按时间均匀划分中任意多个的组合来对源音频数据进行划分。
    需要说明的是,步骤402中对源音频数据的划分结果可能比较粗略。通过后续的迭代聚类处理、判决树构建处理和模型训练处理,并通过采用Viterbi算法,可以得到越来越准确的划分。
    然后,在步骤404中,基于步骤402中的划分获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列。在一个示例中,利 用从所获得的多个分段提取的音频特征来构建混合高斯模型(GMM)。一旦确定了模型,就可以确定各音频类的距离。接着,基于所构建的GMM,利用聚类算法基于特定音频特征(例如,时域或频域的音频特征)和音频类距离,逐级聚类并最终确定源音频数据的音频类序列。
    根据聚类算法和预定聚类准则,聚类处理可以在期望的聚类级别处停止。本例中将聚类处理停止的级别处的变量定义为“音频类”,而将其下各级别处的变量定义为“音频子类”。相应地,一系列按时间顺序排列的音频类可以构成“音频类序列”。如前所述,应当理解,步骤404中获得的音频类和音频子类可能是无语义含义的。
    图5示出了聚类处理的一个示例,其中L1中的各点表示根据从多个音频分段提取的音频特征构建的GMM模型变量,L2、L3....Ln表示利用聚类算法基于特定时域或频域音频特征和音频类距离获得的音频聚类级别,其中Ln中的各点(例如,a、b、c、d、e等)被定义为音频类,而L2至Ln-1中的各点可以被认为是该音频数据的音频子类。
    接下来,在步骤406中,根据步骤404针对多个源音频数据确定的多个音频类序列,基于模式构建判决树。图6示出了步骤406的基于模式构建判决树的一种具体实现处理600。首先,在步骤602处,将步骤404中确定的音频类序列中的各音频类(例如,图5中Ln级中的a、b、c、d、e……)定义为判决树的根节点。
    接着,在步骤604中,基于被定义为根节点的音频类在音频类序列中的上下文,构建模式问题集。模式问题集可以按照预定规则来构建,例如使得分支的区分性最大。在一个示例中,音频类的上下文可以指音频类序列中在该音频类之前和之后的音频类。在另一示例中,音频类的上下文可以指在步骤404中的聚类处理中针对该音频类获得的一个或多个音频子类。音频类的上下文在一定程度上可以反映音频类的背景模式。例如,对于与火车汽笛声相关的音频类,若该音频类在序列中的前一音频类与广播声相关,而该音频类在序列中的后一音 频类与嘈杂人声相关,则很有可能是火车站的背景模式。但是,若前一音频类与枪声相关,后一音频类与欢呼声相关,那很有可能是“铁道游击队”之类的电影场景模式。
    最后,在步骤606中,以所构建的模式问题集,对音频类序列中的音频类进行分支,从而构建判决树的叶节点。本文中所称的“判决树的叶节点”是指判决树中不具备任何向下的子节点的节点。即,任何具备向下的子节点的节点均定义为“根节点”。需要说明的是,可以将判决树向下分支到预定节点级别,例如当每个叶节点内所包含的音频标记个数低于预定阈值时结束对判决树的构建。
    图7示出了判决树构建处理的一个示例,其中音频类b例如是图5的示例中通过聚类处理获得的音频类序列中的一个音频类。假设通过聚类处理针对多个源音频数据获得的音频类序列中包含音频类b的共有四组,如图7所示,分别为(a-b+c)、(a-b+e)、(d-b+a)和(d-b+c),其中符号“-”表示音频类b在序列中的前一音频类,而符号“+”表示音频类b在序列中的后一音频类。即,(a-b+c)表示音频类b在序列中的前一个音频类是a而后一个音频类是c。
    利用基于上下文的问题集合,逐步将音频类b向下分支直到例如b1、b2、b3、b4等的叶节点。例如,可以首先选择“上下文中是否包含音频类a”作为问题来对音频类b进行分支,因此,分支出(d-b+c)并将其定义为叶节点b1。接着,可以选择“前一音频类是否为a”作为问题来进一步分支,由此分支出(d-b+a)并将其定义为叶节点b2。然后,可以选择“后一音频类是否为c”作为问题再进一步分支,由此区分开(a-b+e)和(a-b+c)并将其分别定义为叶节点b3和b4。至此,完成了对判决树的构建。
    回到图4,接下来,在步骤408中,针对判决树上的每个叶节点,训练分段标记模型。在一个示例中,分段标记模型可以包括隐马尔可夫模型(HMM)和持续时间模型。然后,利用所训练的分段标记模型,获得每个源音频数据的音频标记序列,并调整对该源音频数据的划分(步骤410)。需要说明的是,本文中所称的“音频标记序列” 与音频类序列相关但不同于音频类序列,其并不对应于音频所涉及的事件类别,而仅仅是基于某些音频处理算法(例如,Viterbi算法)的运算结果,以便于后续的匹配处理。在本发明的一个实施例中,步骤410可以通过如下操作来实现:首先,利用在步骤408训练的分段标记模型,确定源音频数据的音频类距离;接着,基于所训练的分段标记模型,利用从源音频数据提取的音频特征和所确定的音频类距离进行Viterbi解码;最后,根据Viterbi解码结果,获得源音频数据的音频标记序列,并调整对源音频数据的划分。
    接下来,进入判定步骤412,确定是否满足预定迭代条件。在一个示例中,预定迭代条件可以包括:对源音频数据的划分的调整量不小于预定分段差值,以及/或者,迭代次数小于预定迭代次数阈值。
    在步骤412中判定需要进行迭代的情况下,方法400转到步骤404,以基于在步骤410中重新调整后的分段来进行聚类处理、判决树构建处理和分段标记模型训练处理。而在步骤412中判定可以跳出迭代,则在步骤414中输出所获得的音频数据的音频标记序列。
    在本发明的一个实施例中,在步骤402对音频数据进行划分之前还可以确定源音频数据是否为语音数据(步骤416)。音频数据库中所包含的源音频数据可能是语音数据也可能是非语音数据??梢岳帽玖煊蚬闹С窒蛄炕⊿VM)方法来进行语音/非语音的区分。准确地区分语音和非语音,有助于后续的分段、聚类、判决树构建和模型训练步骤。
    下面返回到图2的方法200,在步骤202中获取了各源音频数据的音频标记序列之后,方法200进行到步骤204。在步骤204中,获取目标音频数据的音频标记序列。在本发明的一个实施例中,可以基于例如在图4的步骤408处训练好的分段标记模型,对目标音频数据进行Viterbi解码,以获得该目标音频数据的音频标记序列。
    接下来,在步骤206处,基于步骤204处获得的目标音频数据的音频标记序列和步骤202处获得的各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度。
    图8示出了步骤206的确定目标音频数据与源音频数据之间的匹配度的一种具体实现处理800,其中综合考虑音频类之间的相似度以及背景模式的匹配性来检索和排序与目标音频数据相关的源音频数据。
    首先,在步骤802处,确定与目标音频数据和源音频数据相关的音频类之间的音频类距离。例如可以基于在图4的步骤408处训练好的分段标记模型来确定音频类距离。接着,在步骤804处,通过将目标音频数据的音频标记序列与源音频数据的音频标记序列进行比较,基于在步骤802中确定的音频类距离来计算序列匹配得分。在一个示例中,可以利用动态时间归整(DTW)算法以音频类距离作为权重来计算目标音频数据的音频标记序列与源音频数据的音频标记序列之间的相似度,即序列匹配得分。
    接着,在步骤806处,通过计数目标音频数据和源音频数据的音频类序列中各音频类的个数,计算计数匹配得分。例如,可以计数每种音频类在特定时段内出现多少次。计数匹配得分计算有助于发现类似的背景模式。最后,在步骤808中,以各自对应的加权值组合步骤804中计算的序列匹配得分和步骤806中计算的计数匹配得分,从而确定目标音频数据与源音频数据的匹配度。需要说明的是,序列匹配得分和计数匹配得分各自对应的加权值可以根据实际需要或者根据经验值来确定。在一个示例中,可以仅考虑序列匹配和计数匹配中的任一种。例如,可以仅仅基于序列匹配得分来确定目标音频数据与源音频数据的匹配度。
    回到图2,在步骤206中确定目标音频数据与源音频数据之间的匹配度之后,方法200进行到步骤208,即输出匹配度高于预定匹配度阈值的源音频数据作为检索结果。到此,方法200结束。在有些实施例中,在确定了检索结果之后,还可以将源音频数据添加到音频数据库中用以进一步训练如图4的步骤408中的分段标记模型。
    图9示出了根据本发明实施例的基于模式的音频检索系统900的功能框图。音频检索系统900的功能??榭梢杂墒迪直痉⒚髟淼挠?件、软件或硬件和软件的结合来实现。本领域技术人员可以理解的是图9中所描述的功能??榭梢宰楹掀鹄椿蛘呋殖勺幽??,从而实现上述发明的原理。因此,本文的描述可以支持对本文描述的功能??榈娜魏慰赡艿淖楹?、或者划分、或者更进一步的限定。
    音频检索系统900能够无需人工参与标记而自动基于背景模式迭代地进行音频类标记和检索,从而提供更准确合理的音频检索结果。音频检索系统900可以包括标记装置902、目标获取装置904、匹配度确定装置906和检索输出装置908。
    标记装置902被配置为基于模式对例如包括在音频数据库中的多个源音频数据进行标记,以获取各源音频数据的音频标记序列。在一个实施例中,标记装置902可以包括划分装置912、聚类装置914、判决树构建装置916、模型训练装置918、分段调整装置920以及迭代条件判断装置922?;肿爸?12配置为对每个源音频数据进行划分,以获得多个分段。在一个示例中,划分装置912可以通过以下中的任一个或任多个的组合来对源音频数据进行划分:依照源音频数据中的静音进行划分;依照预定时长的音频窗对源音频数据进行划分;以及按时间均匀划分源音频数据。在一个实施例中,划分装置912包括配置为确定源音频数据是否为语音数据的语音识别装置和配置为基于语音识别装置确定的结果对源音频数据进行划分以获得多个分段的划分执行装置。
    聚类装置914可以配置为基于所获得的多个分段,利用聚类算法确定每个源音频数据的音频类序列。在一个示例中,聚类装置914包括:第一聚类子装置,配置为利用从所获得的多个分段提取的音频特征来构建GMM;和第二聚类子装置,配置为基于第一聚类子装置构建的GMM,利用聚类算法基于特定音频特征和音频类距离,确定源音频数据的音频类序列。
    判决树构建装置916可以配置为根据聚类装置914针对多个源音频数据确定的音频类序列,基于模式构建判决树。在一个示例中,判决树构建装置916包括:第一判决树构建子装置,配置为定义由聚类 装置914确定的音频类序列中的音频类作为判决树的根节点;第二判决树构建子装置,配置为基于被第一判决树构建子装置定义为根节点的音频类在音频类序列中的上下文,构建模式问题集;以及第三判决树构建子装置,配置为基于所构建的模式问题集,对所确定的音频类序列中的音频类进行分支,从而构建判决树的叶节点。
    模型训练装置918可以配置为针对由判决树构建装置916构建的判决树上的每个叶节点,训练分段标记模型。在一个示例中,分段标记模型例如为HMM和持续时间模型。
    分段调整装置920可以被配置为利用由模型训练装置918训练的分段标记模型,获得每个源音频数据的音频标记序列并调整对该源音频数据的划分。在一个示例中,分段调整装置920包括:第一分段调整子装置,配置为利用由模型训练装置918训练的分段标记模型,确定源音频数据的音频类距离;第二分段调整子装置,配置为基于所训练的分段标记模型,利用从源音频数据提取的音频特征和由第一分段调整子装置确定的音频类距离进行Viterbi解码;以及第三分段调整子装置,配置为根据由第二分段调整子装置获得的Viterbi解码结果,获得源音频数据的音频标记序列,并调整对源音频数据的划分。
    迭代条件判断装置922可以被配置为判断是否满足预定迭代条件。在一个示例中,预定迭代条件可以包括:对源音频数据的划分的调整量不小于预定分段差值,以及/或者,迭代次数小于预定迭代次数阈值。
    目标获取装置904可以被配置为获取目标音频数据的音频标记序列。在一个实施例中,目标获取装置904可以包括配置为基于模型训练装置918训练的分段标记模型,对目标音频数据进行Viterbi解码,以获得该目标音频数据的音频标记序列的装置。
    匹配度确定装置906可以被配置为基于目标获取装置904获取的目标音频数据的音频标记序列和标记装置902获取的音频数据库中的各源音频数据的音频标记序列,根据预定匹配规则确定目标音频数据与源音频数据之间的匹配度。
    在一个实施例中,匹配度确定装置906包括:音频类相似度确定装置,配置为确定与目标音频数据和源音频数据相关的音频类之间的音频类距离;序列比较装置,配置为通过将目标音频数据的音频标记序列与源音频数据的音频标记序列进行比较,基于由音频类相似度确定装置确定的音频类距离来计算序列匹配得分;计数比较装置,配置为通过计数目标音频数据和源音频数据的音频类序列中各音频类的个数,计算计数匹配得分;以及匹配度计算装置,配置为以各自的加权值组合由序列比较装置计算的序列匹配得分和由计数比较装置计算的计数匹配得分,计算目标音频数据与源音频数据的匹配度。
    检索输出装置908可以被配置为输出音频数据库中由匹配度确定装置906确定的匹配度高于预定匹配度阈值的源音频数据,作为检索结果。
    利用本发明的方法和系统,能够无需人工参与标记而自动执行音频检索。
    利用本发明的方法和系统,能够基于背景模式迭代地进行音频类标记,从而提供更准确合理的音频检索结果。
    利用本发明的方法和系统,能够考虑音频类相似度并结合背景模式地进行音频检索。
    附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个???、程序段或代码的一部分,所述???、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标记的功能也可以以不同于附图中所标记的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
    以上已经描述了本发明的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本技术领域的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本技术领域的其它普通技术人员能理解本文披露的各实施例?!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:基于模式的音频检索方法和系统.pdf
    链接地址://www.4mum.com.cn/p-6148024.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 开元国际棋牌 德州哪有玩麻将的 四川时时彩微信群 北京pk10一码人工计划 天天捕鱼赢话费双管炮 重庆快乐十分技巧分析 飞乐音响股票 北京pk10是国家开的吗 三肖必中特l三肖中特期期准免费 秒速时时彩官方金祥 云南快乐十分开奖走势图一 山西快乐十分首页 青鹏棋牌大厅下载3.0 福彩开奖六加一规则 足彩总进球数 极速快乐十分开奖结果查询今天