• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩遗漏数据怎么追: 基于模糊支持向量机的可靠性检测的情感说话人识别方法.pdf

    关 键 词:
    基于 模糊 支持 向量 可靠性 检测 情感 说话 识别 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110121720.X

    申请日:

    2011.05.12

    公开号:

    CN102201237A

    公开日:

    2011.09.28

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G10L 17/00申请日:20110512|||公开
    IPC分类号: G10L17/00 主分类号: G10L17/00
    申请人: 浙江大学
    发明人: 杨莹春; 陈力; 吴朝晖
    地址: 310027 浙江省杭州市西湖区浙大路38号
    优先权:
    专利代理机构: 杭州裕阳专利事务所(普通合伙) 33221 代理人: 江助菊
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110121720.X

    授权公告号:

    102201237B||||||

    法律状态公告日:

    2013.03.13|||2011.11.23|||2011.09.28

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了基于模糊支持向量机的可靠性检测的情感说话人识别方法,通过提取语音分量特征,并将其与UBM模型中对应的权重结合形成通用背景模型分量特征;将得到的通用背景模型分量特征作为模糊隶属度,建立通用背景模型分量下的模糊支持向量机模型;利用模糊支持向量机模型进行可靠性检测从而得到可靠特征;对可靠特征进行计算并识别说话者,提高了说话人识别系统的鲁棒性,改善系统识别说话人的性能。

    权利要求书

    1.基于模糊支持向量机的可靠性检测的情感说话人识别方法,其特征在于:包括如下步骤1)提取语音分量特征,并将其与UBM模型中对应的权重结合形成通用背景模型分量特征;2)将所述步骤1)得到的通用背景模型分量特征;作为模糊隶属度,建立通用背景模型分量下的模糊支持向量机模型;3)利用所述步骤2)的模糊支持向量机模型进行可靠性检测从而得到可靠特征;4)对所述步骤3)的可靠特征进行计算识别说话者。2.根据权利要求1所述的基于模糊支持向量机的可靠性检测的情感说话人识别方法,其特征在于:所述提取语音分量特征包括如下步骤:1)?采集语音信号,对其进行信号预处理;2)?对预处理后的语音信号进行特征提取;所述特征提取选取基于梅尔倒谱系数的特征提取方法和/或基于线性预测倒谱系数的特征提取方法;所述预处理依次包括如下步骤:采样量化、去零漂、预加重和加窗。3.根据权利要求1所述的基于模糊支持向量机的可靠性检测的情感说话人识别方法,其特征在于:所述形成通用背景模型分量特征包括如下步骤:1)将采集的语音信号随机分成开发库和评测库;2)选取所述开发库中的所有语音并提取特征,将其通过????????????????????????????????????????????????方法训练通用背景模型;3)对所述每帧语音分别在通用背景各高斯模型分量上计算后验概率作为权重;4)?将步骤2)和步骤3)结合形成通用背景模型分量特征。4.根据权利要求2所述的基于模糊支持向量机的可靠性检测的情感说话人识别方法,其特征在于:所述模糊支持向量机模型为每个高斯分量上的中性-情感特征的两类模糊支持向量机分类器,所述两类模糊支持向量机分类器的正样本选为所述语音中的中性语音、负样本选为是所述语音中的情感语音。5.根据权利要求1~4所述的基于模糊支持向量机的可靠性检测的情感说话人识别方法,其特征在于:所述模糊支持向量机进行可靠性检测包括如下步骤:1)通过公式计算测试语音在每个高斯分量下的加权可靠性得分;所述、为每个高斯分量下的分类面的参数2)通过公式将所有高斯分量的情感概率计算加权和;所述为权重特征3)通过步骤2)得到的结果判断是否为可靠特征,如果结果小于所设定的阈值则将其作为可靠特征,否则剔除。6.根据权利要求1~4所述的基于模糊支持向量机的可靠性检测情感说话人的识别方法,其特征在于:?所述通用背景模型分量特征计算识别说话者包括如下步骤;1)训练每个说话人的高斯混合模型,自适应说话人模型采用最大后验概率的方法;2)通过公式得到第个说话人模型中测试语音的似然得分,通过公式得到整句测试语句得分;所述为实验中设定的特征可靠性检测的阈值,为高斯分布的概率密度3)根据步骤2)中得分最大的识别说话人即所述表示说话人身份标识。

    说明书

    基于模糊支持向量机的可靠性检测的情感说话人识别方法

    技术领域

    本发明涉及信号处理和模式识别,特别涉及一种基于模糊支持向量机的可靠性特征检测的情感说话人识别方法。

    背景技术

    说话人识别技术是指利用信号处理和模式识别方法,根据说话人的语音识别其身份的技术,主要包括两个步骤:说话人模型训练和语音测试。

    目前,说话人识别采用的主要特征包括梅尔倒谱系数(????????????????????????????????????????????????),线性预测编码倒谱系数(),感觉加权的线性预测系数()。说话人识别的算法主要包括矢量量化(),通用背景模型方法(),支持向量机()等等。其中,在整个说话人识别领域应用非常广泛。

    在情感说话人识别中,训练语音通常为中性情感语音,因为在现实应用中,一般情况下用户只会提供中性发音下的语音训练自己的模型。而测试时,语音可能包括各种情感的语音,如高兴,悲伤等。然而,传统的说话人识别系统并不能处理这种训练和测试条件的失配,因此,情感说话人识别需要解决的是说话人在训练和测试阶段的情感不一致而导致的说话人识别系统性能下降的问题。

    我们通过实验观察发现,由于说话人在不同情感状态下的发声状态存在差异而导致语音特征的空间分布存在差异,因此,相对于中性训练模型而言,情感语音特征与其不匹配,可视为不可靠特征,在测试阶段加以剔除后将有助于系统识别性能的提升。

    发明内容

    针对现有技术的不足,本发明提出一种基于模糊支持向量机的可靠性特征检测的情感说话人识别方法,通过剔除测试语音中的情感语音特征来降低模型失配程度,从而提高说话人识别系统的鲁棒性,改善说话人识别的性能。

    为了解决上述技术问题,本发明的技术方案如下:

    基于模糊支持向量机的可靠性检测的情感说话人识别方法,包括如下步骤

    1)??提取语音分量特征,并将其与UBM模型中对应的权重结合形成通用背景模型分量特征;

    2)??将所述步骤1)得到的通用背景模型分量特征作为模糊隶属度,建立通用背景模型分量下的模糊支持向量机模型;

    3)??对所述步骤2)的模糊支持向量机模型进行可靠性检测从而得到可靠特征;

    4)??对所述步骤3)的可靠特征进行计算识别说话者。

    作为可选方案:所述提取语音分量特征包括如下步骤:

    1)?采集语音信号,对其进行信号预处理;

    2)对预处理后的语音信号进行特征提取;

    所述特征提取选取基于梅尔倒谱系数的特征提取方法和/或基于线性预测倒谱系数的特征提取方法;

    所述预处理依次包括如下步骤:

    采样量化、去零漂、预加重和加窗。

    作为可选方案:所述形成通用背景模型分量特征包括如下步骤:

    1)将采集的语音信号随机分成开发库和评测库;

    2)选取开发库中的所有语音并提取特征,将其通过方法训练通用背景模型;

    3)对所述每个测试语音分别在通用背景各高斯模型上计算权重;

    4)?将步骤2)和步骤3)结合形成通用背景模型分量特征

    作为可选方案:所述模糊支持向量机模型为每个高斯分量上的可靠-不可靠特征的两类模糊支持向量机分类器,所述两类模糊支持向量机分类器的正样本选自所述开发库中的中性语音、负样本选自所述开发库中的情感语音。

    作为可选方案:上述模糊支持向量机进行可靠性检测包括如下步骤:

    1)通过公式计算测试语音在每个高斯分量下的可靠性得分;

    所述、为每个高斯分量下的分类面的参数

    2)通过公式计算测试语音在所有高斯分量下的加权可靠性得分;

    所述为权重特征

    3)通过步骤2)得到的结果判断是否为可靠特征,如果结果大于所设定的阈值则将其作为可靠特征,否则剔除。

    作为可选方案:通过上述特征计算识别说话者包括如下步骤;

    1)训练每个说话人的高斯混合模型,自适应说话人模型采用最大后验概率的方法;

    2)通过公式得到第个说话人模型中测试语音的似然得分,通过公式得到整句测试语句得分;

    所述为实验中设定的特征可靠性检测的阈值,为高斯分布的概率密度

    3)根据步骤2)中得分最大的识别说话人即

    所述表示说话人身份标识。

    本发明的有益效果在于:通过剔除语音段落中受情感变化影响较严重的不可靠特征,提高说话人识别系统的鲁棒性,改善系统识别说话人的性能。

    附图说明

    图1为基于模糊支持向量机的可靠性检测情感说话人的识别方法的基本原理图。

    具体实施方式

    下面将结合附图和具体实施例对本发明做进一步说明。

    如图1所示,基于模糊支持向量机的可靠性检测的情感说话人识别方法主要包括四个步骤

    1)提取语音分量特征,并将其与UBM模型中对应的权重结合形成通用背景模型分量特征;

    2)将所述步骤1)得到的通用背景模型分量特征作为模糊隶属度,建立通用背景模型分量下的模糊支持向量机模型UCFSVM;

    3)对所述步骤2)的模糊支持向量机模型UCFSVM进行可靠性检测通过得分的大小判断得到可靠特征;

    4)对所述步骤3)的可靠特征进行计算识别说话者。

    通用背景模型分量特征提取包括:

    采集语音信号,对其进行信号预处理,预处理的步骤包括采样量化,去零漂,预加重和加窗。

    对预处理后的语音进行特征提取,采用的特征提取方法可以是基于梅尔倒谱系数()的特征提取方法、基于线性预测倒谱系数的特征提取方法()中的一种或者两种。

    对于每段语音,得到一段特征序列,其中每帧特征是一个维的向量,表示该语句中特征的总帧数。

    将所有训练模型的语音通过算法训练模型。每一个测试语音的特征分别在各高斯模型上求取权重。假设的模型参数为,其中,、和分别表示权重、均值和方差。则特征属于第个高斯分量的后验概率可以表示为:

    其中,表示高斯分布的概率密度。

    后验概率也可以理解为该特征属于该分量的权重,将原特征和权重结合,即可形成新的通用背景模型分量特征。

    上述步骤(1)形成的特征包含了特征在上的权重,使得新构建的权重特征不仅能够充当训练模糊支持向量机时的模糊隶属度角色,同时也能充当计算可信度时的各高斯分量重要性的权重角色。

    建立通用背景模型分量下的模糊支持向量机模型:

    在模型的基础上,为每个高斯分量训练一个可靠-不可靠特征的两类模糊支持向量机模型。其中中性特征被认为是可靠特征,情感特征被认为是不可靠特征,正样本选自开发库的中性语音,负样本选取的是其中的情感语音。其中,每个样本的模糊隶属度为步骤(1)中提及的权重特征。

    训练模糊支持向量机的方法为:对于一个带隶属度标记的训练样本集:;

    其中每个训练数据,如其为情感语音,则视为不可靠语音,其相应的标签,如其为中性语音,其标签为。

    优化超平面的问题等效为:

    其中,是一个常数,表示将从映射到得特征空间向量,隶属度代表相应的数据属于某一类的程度,,分别表示分类超平面的线性系数和偏移量。该问题可以采用解线性不等式的理论解决。(Chun-Fu?Lin,?Sheng-De?Wang.?Fuzzy?Support?Vector?Machines.?IEEE?Transactions?on?Neural?Networks,?13(2):464-471,?March?2002.)。

    上面式子可以转换为其对偶表达形式:

    同时,根据库恩-塔克条件:

    由上两式可以求解得到每个高斯分量下的分类面参数:和。

    基于模糊支持向量机的特征可靠性检测

    对于测试语音特征,需要计算其为可靠特征的得分,如果可靠性得分过低,要将其剔除。得分的计算分为两步:首先,求取该特征在通用背景模型单个高斯分量下的模糊支持向量机上的可靠性得分。其次,计算该特征在通用背景模型所有高斯分量下的模糊支持向量机上的可靠性得分的加权和,表示为:

    其中,表示该特征在该高斯分量上的权重,的含义如上文所示。该得分可以用来判断其是否为可靠特征,如果得分大于阀值,则认为其为可靠特征,否则,将其剔除。

    可靠特征得分计算

    经过上述步骤(3)的可靠特征检测之后,需要计算整个语句的得分。

    首先需要训练每个说话人的高斯混合模型,自适应说话人模型采用最大后验概率()的方法。

    其次,对于第个说话人模型,测试语音特征的似然得分可以通过计算在第个说话人的似然得分得到,即下式:

    对于整句测试语句,其得分计算方法为:

    为实验中设定的可靠性的阈值,如果可靠性得分大于阈值,则该特征得分保留,否则,会被剔除。

    最后,选择该语句的目标说话人时选择得分最大的说话人的。

    实验结果

    实验中采用的数据库为中文情感语音数据库(MASC)。该数据库是在安静的环境下采用奥林巴斯DM-20录音笔录制的。该数据库包含68个母语为汉语的68个说话人,其中男性45人,女性23人。每个说话人共有5种情感的发音:中性、生气、高兴、愤怒和悲伤。每个说话人会在中性条件下朗读2段中性的段落,同时,会在每种情感下说出5个单词和20句语句各3遍。

    本实验是在IBM服务器上进行的。其配置为:CPU?E5420,主频2.5GHz。内存为4G。

    实验中,前18个说话人的语音作为开发库,18人的中性段落语音用于训练模型,该18个人5种情感下的的语句发音用于训练模糊支持向量机模型。后50个说话人组成评测集,每个说话人的模型是采用其中性段落自适应出来。五种情感语音下的所有语句用来进行测试,测试语音共计15,000句()。实验中,模拟的是说话人鉴别的过程,实验结果和基准的实验结果比较见表1。

    表?本方法效果和基准实验效果比较

    情感分类
    基准方法
    本方法
    中性
    96.23%
    95.50%
    愤怒
    31.50%
    37.60%
    高兴
    33.57%
    39.47%
    惊慌
    35.00%
    39.77%
    悲伤
    61.43%
    63.63%
    平均
    51.55%
    55.19%

    从上述实验结果可以看出,本方法可以有效地检测出语句中的可靠特征,在各情感状态下,识别的准确率得到了较大的提高。同时,总体的识别准确率也提高了3.64%。说明本方法对提高说话人识别系统的性能和鲁棒性有很大的帮助。

    以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员,在不脱离本发明构思的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的?;し段?。

    关于本文
    本文标题:基于模糊支持向量机的可靠性检测的情感说话人识别方法.pdf
    链接地址://www.4mum.com.cn/p-5875047.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 超级大乐透基本走势图 k10五码三期必中 天津时时开奖记录记录 中国体育彩票自助机 篮球投注技巧 大小单双倍投规律 香港好彩手机报码开将免费资料大全 双色球稳赚不赔绝招 黑龙江时时图表 11选五任5胆拖技巧 2019女篮比赛赛程 北京pk走势图 新时时历史开奖记录 北京pk10两期计划软件 时时彩平台哪个好 体育彩票投注截止时间