• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩奖金对照表: 一种基于语音和群智感知的人群数量监测方法.pdf

    关 键 词:
    一种 基于 语音 感知 人群 数量 监测 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611014719.6

    申请日:

    2016.11.15

    公开号:

    CN106782496A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G10L 15/02申请日:20161115|||公开
    IPC分类号: G10L15/02; G10L15/20; G10L17/26(2013.01)I; G10L25/90(2013.01)I 主分类号: G10L15/02
    申请人: 北京科技大学
    发明人: 阳小龙; 洪鹭燕; 孙奇福
    地址: 100083 北京市海淀区学院路30号
    优先权:
    专利代理机构: 成都行之专利代理事务所(普通合伙) 51220 代理人: 温利平
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611014719.6

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种基于语音和群智感知的人群数量监测方法,通过对收集的语音片段取MFCC和Pitch等语音特征参数,再基于Pitch和MFCC联合特征参数进行性别识别、个体区分和人数统计,最后将人数统计的结果以热力图形式进行可视化显示。这样弥补了简单利用Pitch线性区分男女的不足,实现了人群规模监测,也提高了人群规模统计的快速性、准确性。

    权利要求书

    1.一种基于语音和群智感知的人群数量监测方法,其特征在于,包括以下步骤:
    (1)、提取MFCC和Pitch特征参数,并将这两个特征参数融合成联合均值
    (1.1)、将收集的语音S切分为t秒的若干个片段,S={S1,S2,...};
    (1.2)、MFCC向量处理
    设第k个语音片段Sk中包含K帧语音,从每帧语音中提取n维的MFCC向量(m0,m1,...,
    mn-1),将K个MFCC向量求均值再将作为语音片段Sk的MFCC特征参数;
    <mrow> <mover> <mi>M</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>)</mo> </mrow> </mrow>
    <mrow> <mo>(</mo> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mi>K</mi> </mfrac> <mo>,</mo> <mo>(</mo> <mrow> <mi>j</mi> <mo>=</mo> <mn>0</mn> <mo>,</mo> <mn>1</mn> <mo>,</mo> <mo>...</mo> <mo>,</mo> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> <mo>)</mo> <mo>)</mo> </mrow>
    其中,mij表示语音片段Sk的第i帧MFCC向量的第j维MFCC系数;
    (1.3)、Pitch向量处理
    设每帧语音中提取的Pitch值为p,语音片段Sk中共计提取出K个p,比较每个p值是否在
    50~450Hz之间,如果在则保留该帧语音,如果不在则删除该帧语音;
    将保留的K'(K'≤K)帧语音的K'个p求均值
    <mrow> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>K</mi> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> </mrow> <msup> <mi>K</mi> <mo>&prime;</mo> </msup> </mfrac> </mrow>
    再比较是否在50~450Hz之间,如果在,则保留该语音片段Sk,并将作为语音片段Sk
    的Pitch特征参数;如果不在,则删除该语音片段Sk;
    (1.4)、将MFCC和Pitch特征参数融合成联合均值向量
    在n维MFCC向量均值的第n+1维位置处增加Pitch向量均值的对数组成n+维的
    联合均值向量
    <mrow> <mover> <mrow> <mi>M</mi> <mi>P</mi> </mrow> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mo>...</mo> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>l</mi> <mi>n</mi> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
    (2)、基于MFCC和Pitch特征参数的性别识别
    (2.1)、定义一个人数统计集合R,并初始R为1;以第一个语音片段S1为基准,在语音S中
    依次挑选两个语音片段S1、S2,并按照步骤(1)所述方法进行处理;
    (2.2)、将MFCC和Pitch特征参数归一化到同一量级,再对这两个归一化值加权求和,如
    下:
    <mrow> <mi>S</mi> <mo>=</mo> <mi>&alpha;</mi> <mfrac> <mrow> <msub> <mi>S</mi> <mrow> <mi>m</mi> <mi>f</mi> <mi>c</mi> <mi>c</mi> </mrow> </msub> <mo>+</mo> <msub> <mi>&lambda;</mi> <mrow> <mi>m</mi> <mi>f</mi> <mi>c</mi> <mi>c</mi> </mrow> </msub> </mrow> <mover> <mi>S</mi> <mo>&OverBar;</mo> </mover> </mfrac> <mo>+</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>-</mo> <mi>&alpha;</mi> <mo>)</mo> </mrow> <mfrac> <mrow> <msub> <mi>&lambda;</mi> <mrow> <mi>p</mi> <mi>i</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> </mrow> </msub> <mo>-</mo> <msub> <mi>F</mi> <mrow> <mi>p</mi> <mi>i</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> </mrow> </msub> </mrow> <msub> <mi>&lambda;</mi> <mrow> <mi>p</mi> <mi>i</mi> <mi>t</mi> <mi>c</mi> <mi>h</mi> </mrow> </msub> </mfrac> </mrow>
    其中,Smfcc表示MFCC向量均值的n维系数的和,Fpitch表示Pitch向量均
    值表示Smfcc的均值;λmfcc表示男女Smfcc调节参数;λpitch表示男女Pitch分界值;α表示权
    重调节系数,用于调节MFCC和Pitch归一化值在加权和中所占的比例;
    (2.3)、根据S大小分别识别这两段语音的性别,如果S>0时,则识别为男性;否则为女
    性;
    (2.4)、判断这两语音片段的性别是否相同,如果性别不同,则R+1,并返回步骤(2.1),
    重新挑选下一个语音片段与S1比较;如果性别相同,则进行进入步骤(3);
    (3)、相同性别下基于联合均值向量的不同个体区分
    (3.1)、在相同性别下,利用余弦相似法计算两语音片段的联合均值向量的余弦相
    似度dcs
    <mrow> <msub> <mi>d</mi> <mrow> <mi>c</mi> <mi>s</mi> </mrow> </msub> <mo>=</mo> <mi>a</mi> <mi>r</mi> <mi>c</mi> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mi>P</mi> <mi>Q</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>a</mi> <mi>r</mi> <mi>c</mi> <mi>c</mi> <mi>o</mi> <mi>s</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <mi>P</mi> <mo>&times;</mo> <mi>Q</mi> </mrow> <mrow> <mo>|</mo> <mi>P</mi> <mo>|</mo> <mo>&times;</mo> <mo>|</mo> <mi>Q</mi> <mo>|</mo> </mrow> </mfrac> <mo>)</mo> </mrow> </mrow>
    其中,P、Q分别代表两个语音片段的联合均值向量| |表示取模;
    (3.2)、相同性别下的不同个体区分
    若余弦相似度dcs大于预设的上限阈值θd,即dcs>θd,则判断这两段语音片段来自不同
    的个体,则将R+1,并返回步骤(2.1),重新挑选下一个语音片段与S1比较;若余弦相似度dcs
    小于预设的下限阈值θs,即dcs<θs,则这两段语音片段来自同一个体,再进入步骤(4);若相
    似度dcs介于θd和θs之间,即θs≤dcs≤θd,则R不变,并返回步骤(2.1),重新挑选下一个语音片
    段与S1比较;
    (4)、相同个体的正向聚类
    (4.1)、利用Pitch的K-L散度方法计算两语音片段的K-L散度dkl
    <mrow> <msub> <mi>d</mi> <mrow> <mi>k</mi> <mi>l</mi> </mrow> </msub> <mo>=</mo> <mn>0.5</mn> <mo>&times;</mo> <mo>&lsqb;</mo> <mrow> <mo>(</mo> <mi>q</mi> <mo>-</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&times;</mo> <msubsup> <mi>&sigma;</mi> <mi>p</mi> <mi>T</mi> </msubsup> <mo>+</mo> <msubsup> <mi>&sigma;</mi> <mi>q</mi> <mi>T</mi> </msubsup> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>q</mi> <mo>-</mo> <mi>p</mi> <mo>)</mo> </mrow> <mo>&rsqb;</mo> <mo>+</mo> <mn>0.5</mn> <mo>&times;</mo> <mrow> <mo>(</mo> <msubsup> <mi>&sigma;</mi> <mi>p</mi> <mi>T</mi> </msubsup> <msub> <mi>&sigma;</mi> <mi>q</mi> </msub> <mo>+</mo> <msubsup> <mi>&sigma;</mi> <mi>q</mi> <mi>T</mi> </msubsup> <msub> <mi>&sigma;</mi> <mi>p</mi> </msub> <mo>-</mo> <mn>2</mn> <mi>I</mi> <mo>)</mo> </mrow> </mrow>
    其中p、q表示两个语音片段特征参数Pitch的均值向量;σ表示两个语音片段特征参数
    Pitch方差;I表示单位矩阵;
    (4.2)、判断散度dkl是否小于预设的阈值T,如果dkl小于T,将两语音片段的特征参数进
    行合并;如果dkl大于等T,则R不变,并返回步骤(2.1),重新挑选下一个语音片段与S1比较;
    (5)、判断以语音片段S1为基准时,所有语音片段是否都与S1比较完成,如果未比较完
    成,则返回步骤(2.1),重新挑选下一个语音片段与S1比较;如果比较完成,则以语音片段S2
    为基准,进入一下轮语音片段的比较,并依次类推,直到所有的语音片段两两比对结束。
    2.根据权利要求1所述的一种基于语音和群智感知的人群数量监测方法,其特征在于,
    所述步骤(4.2)中,两语音片段的特征参数进行合并的方法为:
    设语音片段S1共有帧特征参数,帧
    特征参数;语音片段S2共有帧特征参数,帧
    特征参数;
    通过正向聚类的特征归并后,语音片段S1共有帧特
    征参数,帧特征参数;
    正向聚类后的新联合均值向量为:
    <mrow> <mover> <mrow> <mi>M</mi> <mi>P</mi> </mrow> <mo>&OverBar;</mo> </mover> <mo>=</mo> <mrow> <mo>(</mo> <msub> <mi>c</mi> <mn>0</mn> </msub> <mo>,</mo> <msub> <mi>c</mi> <mn>1</mn> </msub> <mo>,</mo> <mn>...</mn> <mo>,</mo> <msub> <mi>c</mi> <mrow> <mi>n</mi> <mo>-</mo> <mn>1</mn> </mrow> </msub> <mo>,</mo> <mi>l</mi> <mi>n</mi> <msup> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mo>&prime;</mo> </msup> <mo>)</mo> </mrow> <msub> <mi>c</mi> <mi>j</mi> </msub> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mover> <mi>n</mi> <mo>~</mo> </mover> <mo>+</mo> <mover> <mi>m</mi> <mo>~</mo> </mover> </mrow> </munderover> <msub> <mi>m</mi> <mrow> <mi>i</mi> <mi>j</mi> </mrow> </msub> </mrow> <mrow> <mover> <mi>n</mi> <mo>~</mo> </mover> <mo>+</mo> <mover> <mi>m</mi> <mo>~</mo> </mover> </mrow> </mfrac> <mo>,</mo> <msup> <mover> <mi>p</mi> <mo>&OverBar;</mo> </mover> <mo>&prime;</mo> </msup> <mo>=</mo> <mfrac> <mrow> <munderover> <mo>&Sigma;</mo> <mrow> <mi>i</mi> <mo>=</mo> <mn>1</mn> </mrow> <mrow> <mover> <mi>n</mi> <mo>~</mo> </mover> <mo>+</mo> <mover> <mi>m</mi> <mo>~</mo> </mover> </mrow> </munderover> <msub> <mi>p</mi> <mi>i</mi> </msub> </mrow> <mrow> <mover> <mi>n</mi> <mo>~</mo> </mover> <mo>+</mo> <mover> <mi>m</mi> <mo>~</mo> </mover> </mrow> </mfrac> <mo>.</mo> </mrow>

    说明书

    一种基于语音和群智感知的人群数量监测方法

    技术领域

    本发明属于群智感知技术领域,更为具体地讲,涉及一种基于语音和群智感知的
    人群数量监测方法。

    背景技术

    智能移动设备的快速发展为群智感知的应用奠定了基础。群智感知是指普通用户
    的移动设备(手机、平板电脑等)作为基本感知单元,通过移动互联网进行有意识或无意识
    的协作,实现感知任务分发与感知数据收集,完成大规模的、复杂的社会感知任务。群智感
    知在社会感知的应用方面有很多。例如,Ubigreen项目跟踪用户活动对环境带来的影响,鼓
    励用户绿色出行;BikeNet项目采集自行车用户的骑行数据,让参与者分享最喜爱的骑行路
    线与环境状况;im2GPS项目利用互联网数百万计的GPS标记图片,估计用户的地理位置信
    息。

    以语音为载体的群智感知,可广泛应用于城市热点感知、人群监测等。例如:通过
    人群监测,可以判断:一家餐馆是否顾客盈门?演讲中演讲者与听众的互动是否热烈?某个
    人在日常生活中是否社交活动非?;钤??该应用是利用用户手机自带的录音功能收集周边
    讲话人的语音数据,对其分析处理后计算出说话人数。

    然而,目前语音群智感知应用的人群统计准确率不高,其主要原因在于性别误判
    和相同性别下不同个体的区分度不够。以典型的Crowd++系统为例,它在性别识别中只是使
    用基频(Pitch)阈值法区分男女,忽略了中性人群Pitch重叠区域的处理,性别误判导致了
    统计误差累加。更重要的是,在相同性别下,它采用的基于MFCC的距离度量方法根本不能有
    效区分不同个体。

    发明内容

    本发明的目的在于克服现有技术的不足,提供一种基于语音和群智感知的人群数
    量监测方法,通过Pitch和MFCC联合特征参数进行性别识别,完成人数统计,实现了人群规
    模统计的快速性和准确性。

    为实现上述发明目的,本发一种基于语音和群智感知的人群数量监测方法,其特
    征在于,包括以下步骤:

    (1)、提取MFCC和Pitch特征参数,并将这两个特征参数融合成联合均值

    (1.1)、将收集的语音S切分为t秒的若干个片段,S={S1,S2,...};

    (1.2)、MFCC向量处理

    设第k个语音片段Sk中包含K帧语音,从每帧语音中提取n维的MFCC向量(m0,
    m1,...,mn-1),将K个MFCC向量求均值再将作为语音片段Sk的MFCC特征参数;



    其中,mij表示语音片段Sk的第i帧MFCC向量的第j维MFCC系数;

    (1.3)、Pitch向量处理

    设每帧语音中提取的Pitch值为p,语音片段Sk中共计提取出K个p,比较每个p值是
    否在50~450Hz之间,如果在则保留该帧语音,如果不在则删除该帧语音;

    将保留的K'(K'≤K)帧语音的K'个p求均值


    再比较是否在50~450Hz之间,如果在,则保留该语音片段Sk,并将作为语音片
    段Sk的Pitch特征参数;如果不在,则删除该语音片段Sk;

    (1.4)、将MFCC和Pitch特征参数融合成联合均值向量

    在n维MFCC向量均值的第n+1维位置处增加Pitch向量均值的对数组成n+
    1维的联合均值向量


    (2)、基于MFCC和Pitch特征参数的性别识别

    (2.1)、定义一个人数监测集合R,并初始R为1;以第一个语音片段S1为基准,在语
    音S中依次挑选两个语音片段S1、S2,并按照步骤(1)所述方法进行处理;

    (2.2)、将MFCC和Pitch特征参数归一化到同一量级,再对这两个归一化值加权求
    和,如下:


    其中,Smfcc表示MFCC向量均值的n维系数的和,Fpitch表示Pitch向
    量均值表示Smfcc的均值;λmfcc表示男女Smfcc调节参数;λpitch表示男女Pitch分界值;α表
    示权重调节系数,用于调节MFCC和Pitch归一化值在加权和中所占的比例;

    (2.3)、根据S大小分别识别这两段语音的性别,如果S>0时,则识别为男性;否则为
    女性;

    (2.4)、判断这两语音片段的性别是否相同,如果性别不同,则R+1,并返回步骤
    (2.1),重新挑选下一个语音片段与S1比较;如果性别相同,则进行进入步骤(3);

    (3)、相同性别下基于联合均值向量的不同个体区分

    (3.1)、在相同性别下,利用余弦相似法计算两语音片段的联合均值向量的余
    弦相似度dcs


    其中,P、Q分别代表两个语音片段的联合均值向量||表示取模;

    (3.2)、相同性别下的不同个体区分

    若余弦相似度dcs大于预设的上限阈值θd,即dcs>θd,则判断这两段语音片段来自
    不同的个体,则将R+1,并返回步骤(2.1),重新挑选下一个语音片段与S1比较;若余弦相似
    度dcs小于预设的下限阈值θs,即dcs<θs,则这两段语音片段来自同一个体,再进入步骤(4);
    若相似度dcs介于θd和θs之间,即θs≤dcs≤θd,则R不变,并返回步骤(2.1),重新挑选下一个语
    音片段与S1比较;

    (4)、相同个体的正向聚类

    (4.1)、利用Pitch的K-L散度方法计算两语音片段的K-L散度dkl


    其中,p、q表示两个语音片段特征参数Pitch的均值向量;σ表示两个语音片段特征
    参数Pitch方差;I表示单位矩阵;

    (4.2)、判断散度dkl是否小于预设的阈值T,如果dkl小于T,将两语音片段的特征参
    数进行合并;如果dkl大于等T,则R不变,并返回步骤(2.1),重新挑选下一个语音片段与S1比
    较;

    (5)、判断以语音片段S1为基准时,所有语音片段是否都与S1比较完成,如果未比较
    完成,则返回步骤(2.1),重新挑选下一个语音片段与S1比较;如果比较完成,则以语音片段
    S2为基准,进入一下轮语音片段的比较,并依次类推,直到所有的语音片段两两比对结束。

    本发明的发明目的是这样实现的:

    本发明一种基于语音和群智感知的人群数量监测方法,通过对收集的语音片段取
    MFCC和Pitch等语音特征参数,再基于Pitch和MFCC联合特征参数进行性别识别、个体区分
    和人数统计,最后将人数统计的结果以热力图形式进行可视化显示。这样弥补了简单利用
    Pitch线性区分男女的不足,实现了人群规模监测,也提高了人群规模统计的快速性、准确
    性。

    同时,本发明一种基于语音和群智感知的人群数量监测方法还具有以下有益效
    果:

    (1)、采用基于Pitch和MFCC联合特征的性别识别方法,解决了中性人群Pitch重叠
    区域处理问题;

    (2)、基于MFCC和Pitch联合特征参数重新定义了余弦相似度,并基于该定义提出
    了不同个体区分方法,不同特征结合能取得更好的识别性能,这样解决了针对影响数统计
    准确率的性别误判和相同性别下不同个体的区分度不够的问题;

    (3)、本发明提出了一种基于Pitch的K-L散度正向聚类方法,以无需性别判别即可
    实现同一个体不同语音帧间的特征归并,弥补了基于性别的正向聚类方法的不足,减少统
    计误差积累。

    附图说明

    图1是本发明基于语音和群智感知的人群数量监测方法流程图;

    图2是本发明中不同个体区分示意图;

    图3是本发明系统部署示意图。

    具体实施方式

    下面结合附图对本发明的具体实施方式进行描述,以便本领域的技术人员更好地
    理解本发明。需要特别提醒注意的是,在以下的描述中,当已知功能和设计的详细描述也许
    会淡化本发明的主要内容时,这些描述在这里将被忽略。

    实施例

    为了方便描述,先对具体实施方式中出现的相关专业术语进行说明:

    MFCC(Mel Frequency Cepstrum Coefficient):Mel频率倒谱系数;

    Pitch:基频;

    在本实施例中,如图1所示,本发明一种基于语音和群智感知的人群数量监测方
    法,包括以下步骤:

    (1)、提取MFCC和Pitch特征参数,并将这两个特征参数融合成联合均值

    (1.1)、将收集的语音S切分为3秒的若干个片段,S={S1,S2,...};

    (1.2)、MFCC向量处理

    设第k个语音片段Sk中包含K帧语音,从每帧语音中提取19维的MFCC向量(m0,
    m1,...,m18),将K个MFCC向量求均值再将作为语音片段Sk的MFCC特征参数;



    其中,mij表示语音片段Sk的第i帧MFCC向量的第j维MFCC系数;

    (1.3)、Pitch向量处理

    因人类的Pitch在50~450Hz之间,与环境背景音的Pitch有较大差异,因此本文只
    须保留Pitch在50~450Hz的语音帧就能滤除较大部分的语音静音片段。本发明这样处理提
    取的Pitch:

    设每帧语音中提取的Pitch值为p,语音片段Sk中共计提取出K个p,比较每个p值是
    否在50~450Hz之间,如果在则保留该帧语音,如果不在则删除该帧语音;

    将保留的K'(K'≤K)帧语音的K'个p求均值


    再比较是否在50~450Hz之间,如果在,则保留该语音片段Sk,并将作为语音片
    段Sk的Pitch特征参数;如果不在,则删除该语音片段Sk;

    (1.4)、将MFCC和Pitch特征参数融合成联合均值向量

    在19维MFCC向量均值的第20维位置处增加Pitch向量均值的对数组成
    20维的联合均值向量


    (2)、基于MFCC和Pitch特征参数的性别识别

    (2.1)、定义一个人数监测集合R,并初始R为1;以第一个语音片段S1为基准,在语
    音S中依次挑选两个语音片段S1、S2,并按照步骤(1)所述方法进行处理;

    (2.2)、将MFCC和Pitch特征参数归一化到同一量级,再对这两个归一化值加权求
    和,如下:


    其中,Smfcc表示MFCC向量均值的19维系数的和,Fpitch表示Pitch
    向量均值表示Smfcc的均值,取值范围在10~18之间,本发明取为13时性别判别效果最
    佳;λmfcc表示男女Smfcc调节参数,取0.15时最合适;λpitch表示男女Pitch分界值,取值为
    160Hz;α表示权重调节系数,用于调节MFCC和Pitch归一化值在加权和中所占的比例,因
    Pitch在性别识别中仍占主导地位,故α设置为0.05左右;

    (2.3)、根据S大小分别识别这两段语音的性别,如果S>0时,则识别为男性;否则为
    女性;

    (2.4)、判断这两语音片段的性别是否相同,如果性别不同,则R+1,并返回步骤
    (2.1),重新挑选下一个语音片段与S1比较;如果性别相同,则进行进入步骤(3);

    (3)、相同性别下基于联合均值向量的不同个体区分

    主要计算两个语音片段基于MFCC向量和Pitch的联合均值向量的余弦相似度。仅
    基于MFCC单一特征参数进行相似性度量,人数统计准确率普遍偏低。为此,本发明提出了基
    于联合均值向量的相似性度量的不同个体区分方法,提高该方法的统计准确率。

    (3.1)、在相同性别下,利用余弦相似法计算两语音片段的联合均值向量的余
    弦相似度dcs


    其中,P、Q分别代表两个语音片段的联合均值向量||表示取模;

    (3.2)、相同性别下的不同个体区分

    不同个体区分示意图如图2所示,若余弦相似度dcs大于预设的上限阈值θd,即dcs>
    θd,则判断这两段语音片段来自不同的个体,则将R+1,并返回步骤(2.1),重新挑选下一个
    语音片段与S1比较;若余弦相似度dcs小于预设的下限阈值θs,即dcs<θs,则这两段语音片段
    来自同一个体,再进入步骤(4);若相似度dcs介于θd和θs之间,即θs≤dcs≤θd,则R不变,并返
    回步骤(2.1),重新挑选下一个语音片段与S1比较;θd和θs的选取与录音的智能手机型号有
    关,本实例使用的机型是HTC M8t,θd取19.5,θs取为13.5;

    (4)、相同个体的正向聚类

    若两个语音片段识别成同一个体,进行基于Pitch的正向聚类,并将合并语音特征
    参数MFCC和Pitch;由于人在说话中一般会连续发音超过3秒,如果相邻语音片段经过识别
    是同一个人,则相邻的语音特征参数合并,即扩展合成新的MFCC系数矩阵和Pitch值,能够
    减小语音片段两两对比的计算量;本发明提出基于Pitch的K-L散度方法,无需性别识别即
    可进行同一个人的特征归并;

    (4.1)、利用Pitch的K-L散度方法计算两语音片段的K-L散度dkl


    其中p、q表示两个语音片段特征参数Pitch的均值向量;σ表示两个语音片段特征
    参数Pitch方差;I表示单位矩阵;

    (4.2)、判断散度dkl是否小于预设的阈值T=9,如果dkl小于9,将两语音片段的特
    征参数进行合并;如果dkl大于等9,则R不变,并返回步骤(2.1),重新挑选下一个语音片段与
    S1比较;

    (5)、判断以语音片段S1为基准时,所有语音片段是否都与S1比较完成,如果未比较
    完成,则返回步骤(2.1),重新挑选下一个语音片段与S1比较;如果比较完成,则以语音片段
    S2为基准,进入一下轮语音片段的比较,并依次类推,直到所有的语音片段两两比对结束。

    实例

    系统部署如图3所示,将多个智能终端的人数统计感知数据汇总到云服务器,进行
    融合处理,将处理结果结合地图进行可视化显示,人群规模以热力图形式展现;利用云平台
    建立后台Web服务器和数据库,通过http协议发送数据包括日期、时间、人数、MFCC参数、性
    别、经度、纬度;WebService通过解析脚本将感知数据存储在平台的数据库中;利用百度地
    图Android定位SDK提供的LBS定位服务接口,将数据库里的人数统计结果结合地理位置信
    息加载到地图上进行图形界面显示,最终,将人数统计结果融合以热力图形式进行可视化
    显示。

    尽管上面对本发明说明性的具体实施方式进行了描述,以便于本技术领域的技术
    人员理解本发明,但应该清楚,本发明不限于具体实施方式的范围,对本技术领域的普通技
    术人员来讲,只要各种变化在所附的权利要求限定和确定的本发明的精神和范围内,这些
    变化是显而易见的,一切利用本发明构思的发明创造均在?;ぶ?。

    关于本文
    本文标题:一种基于语音和群智感知的人群数量监测方法.pdf
    链接地址://www.4mum.com.cn/p-6004599.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 北京pk10天一期计划 推广淘宝优惠券如何赚钱 安徽快十一选5任5遗漏 排列三怎么最容易中奖 pk10五码循环不死模式 11选5胆拖投注方法 摆摊烤什么赚钱吗 欢乐生肖是什么彩 dnf打造垫子赚钱吗 浙江快乐12预测一定牛 老公赚钱老婆花铃声 m4r 北京pk10一期人工计划 多宝鱼游戏的玩法 双色球预测最准确的 掷骰子的技巧 五星定位胆稳赚公式