• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:30 金币  

    重庆时时彩跨度杀号: 情绪识别方法和装置以及智能交互方法和设备.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201611035249.1

    申请日:

    2016.11.22

    公开号:

    CN106570496A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06K 9/00申请日:20161122|||公开
    IPC分类号: G06K9/00; G10L25/63(2013.01)I 主分类号: G06K9/00
    申请人: 上海智臻智能网络科技股份有限公司
    发明人: 何嘉; 朱频频
    地址: 201803 上海市嘉定区金沙江西路1555弄398号7层
    优先权:
    专利代理机构: 北京布瑞知识产权代理有限公司 11505 代理人: 孟潭
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611035249.1

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明一实施例提供了一种情绪识别方法和装置以及智能交互方法和设备,解决了现有技术中的智能交互方式无法根据用户的情绪状态不同提供差别化的应答服务的问题。其中的情绪识别方法包括:根据用户的语音消息获取语音情绪识别结果,所述语音情绪识别结果包括预设的至少两种情绪分类的一种;根据用户的面部图像获取面部情绪识别结果,所述面部情绪识别结果也包括预设的所述至少两种情绪分类的一种;以及当所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类。

    权利要求书

    1.一种情绪识别方法,其特征在于,包括:
    根据用户的语音消息获取语音情绪识别结果,所述语音情绪识别结果包括预设的至少
    两种情绪分类的一种;
    根据用户的面部图像获取面部情绪识别结果,所述面部情绪识别结果也包括预设的所
    述至少两种情绪分类的一种;以及
    当所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的情绪分类时,判
    断用户的情绪状态为所述相同的情绪分类。
    2.根据权利要求1所述的方法,其特征在于,进一步包括,当所获取的语音情绪识别结
    果和所获取的面部情绪识别结果为不同的情绪分类时,判断用户的情绪状态为默认的正常
    状态。
    3.根据权利要求1所述的方法,其特征在于,当所获取的语音情绪识别结果和所获取的
    面部情绪识别结果为相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类包
    括:
    计算所获取的语音情绪识别结果的置信度,并计算所获取的面部情绪识别结果的置信
    度;以及
    当所述语音情绪识别结果的置信度大于第一置信度阈值,所述面部情绪识别结果的置
    信度大于第二置信度阈值,且所获取的语音情绪识别结果和所获取的面部情绪识别结果为
    相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类;或,当所述语音情绪识别
    结果的置信度与语音权重系数的乘积与所述面部情绪识别结果的置信度与面部权重系数
    的乘积之和大于第三置信度阈值,且所获取的语音情绪识别结果和所获取的面部情绪识别
    结果为相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类。
    4.根据权利要求1所述的方法,其特征在于,所述预设的至少两种情绪分类包括以下几
    种情绪分类中的至少两种:高兴、惊讶、愤怒、痛苦、疲劳、正常和兴奋。
    5.根据权利要求1至4中任一所述的方法,其特征在于,根据用户的语音消息获取语音
    情绪识别结果包括:
    提取所述用户的语音消息中的声纹特征信息;
    将所述提取的声纹特征信息与多个预设的声音情感模型中的声纹特征信息相匹配,其
    中所述多个预设的声音情感模型分别对应不同的情绪分类;以及
    根据匹配的声音情感模型获取对应的情绪分类。
    6.根据权利要求5所述的方法,其特征在于,所述声音情感模型为预先建立。
    7.根据权利要求6所述的方法,其特征在于,所述声音情感模型通过如下步骤预先建
    立:
    采集中性情感语料,基于所采集的中性情感语料中的声纹特征获得中性情感模型,所
    述中性情感模型包括与声纹特征对应的多个特征分量;
    采集不同情感状态下的语料,将所述不同情感状态下的语料中的声纹特征与所述中性
    情感模型中的各特征分量进行对比;以及
    基于所述不同情感状态下的语料中的声纹特征与所述中性情感模型中的各特征分量
    之间的区别,通过计算获得不同情感状态下的声音情感模型。
    8.根据权利要求5所述的方法,其特征在于,进一步包括:
    基于所述用户的语音消息中的声纹特征信息与所述匹配的声音情感模型中的声纹特
    征信息之间的区别,自适应调整所述匹配的声音情感模型。
    9.根据权利要求1至4中任一所述的方法,其特征在于,根据用户的面部图像获取面部
    情绪识别结果包括:
    提取用户的面部图像中的面部特征信息;以及,
    根据所提取的面部特征信息判别所对应的情绪分类。
    10.根据权利要求9所述的方法,其特征在于,提取用户的面部图像中的面部特征信息
    包括:获取用户的面部图像所包括的多个特征区域和/或特征点相对于无情绪状态面部图
    像所包括的所述多个特征区域和/或所述特征点之间的位置差别信息;所述多个特征区域
    和/或特征点为预先设定的;
    其中根据所提取的面部特征信息判别所对应的情绪分类包括:根据所述位置差别信息
    获取对应的情绪分类,其中所述位置差别信息与所述情绪分类之间的映射关系为预先建
    立;
    或,提取用户的面部图像中的面部特征信息包括:获取用户的面部图像相对于无情绪
    状态面部图像之间的整体灰度差别信息;
    其中根据所提取的面部特征信息判别所对应的情绪分类包括:根据所述整体灰度差别
    信息获取对应的情绪分类,其中所述整体灰度差别信息与所述情绪分类之间的映射关系为
    预先建立。
    11.一种智能交互方法,其特征在于,包括:
    获取用户的语音消息所对应的语义信息;
    根据如权利要求1至4中任一所述的方法识别用户的情绪状态;以及
    根据所述获取的语义信息和所述识别的情绪状态确定对应的应答服务信息,其中所述
    语义信息和所述情绪状态与所述应答服务信息之间的映射关系为预先建立。
    12.根据权利要求11所述的方法,其特征在于,
    获取用户的语音消息所对应的语义信息包括:
    对获取的用户的语音信息进行语音识别,得到文字信息;
    根据所述文字信息与预存的语义模板匹配,以确定匹配的语义模板;以及
    获取与所述匹配的语义模板对应的语义信息,其中所述语义模板与所述语义信息之间
    的映射关系为预先建立的,同一语义信息对应一个或多个语义模板。
    13.一种情绪识别装置,其特征在于,包括:
    语音情绪识别???,配置为根据用户的语音消息获取语音情绪识别结果,所述语音情
    绪识别结果包括预设的至少两种情绪分类的一种;
    面部情绪识别???,配置为根据用户的面部图像获取面部情绪识别结果,所述面部情
    绪识别结果也包括预设的所述至少两种情绪分类的一种;以及
    情绪决策???,配置为当所获取的语音情绪识别结果和所获取的面部情绪识别结果为
    相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类。
    14.根据权利要求13所述的装置,其特征在于,其中所述情绪决策??榻徊脚渲梦?br />当所获取的语音情绪识别结果和所获取的面部情绪识别结果为不同的情绪分类时,判
    断用户的情绪状态为默认的正常状态。
    15.根据权利要求13所述的装置,其特征在于,所述情绪决策??榘ǎ?br />第一置信度计算单元,配置为计算所获取的语音情绪识别结果的置信度;
    第二置信度计算单元,配置为计算所获取的面部情绪识别结果的置信度;以及
    决策单元,配置为当所述语音情绪识别结果的置信度大于第一置信度阈值,所述面部
    情绪识别结果的置信度大于第二置信度阈值,且所获取的语音情绪识别结果和所获取的面
    部情绪识别结果为相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类;或,当
    所述语音情绪识别结果的置信度与语音权重系数的乘积与所述面部情绪识别结果的置信
    度与面部权重系数的乘积之和大于第三置信度阈值,且所获取的语音情绪识别结果和所获
    取的面部情绪识别结果为相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分
    类。
    16.根据权利要求13至15中任一所述的装置,其特征在于,所述语音情绪识别??榘?br />括:
    声纹提取单元,配置为提取所述用户的语音消息中的声纹特征信息;以及
    声音情绪分类单元,配置为将所述提取的声纹特征信息与多个预设的声音情感模型中
    的声纹特征信息相匹配,其中所述多个预设的声音情感模型分别对应不同的情绪分类;以
    及根据匹配的声音情感模型获取对应的情绪分类。
    17.根据权利要求16所述的装置,其特征在于,进一步包括:
    声音情感模型建立???,配置为预先建立所述声音情感模型。
    18.根据权利要求17所述的装置,其特征在于,所述声音情感模型建立??榘ǎ?br />中性情感模型建立单元,配置为采集中性情感语料,基于所采集的中性情感语料中的
    声纹特征获得中性情感模型,所述中性情感模型包括与声纹特征对应的多个特征分量;
    对比单元,配置为采集不同情感状态下的语料,将所述不同情感状态下的语料中的声
    纹特征与所述中性情感模型中的各特征分量进行对比;以及
    模型计算单元,配置为基于所述不同情感状态下的语料中的声纹特征与所述中性情感
    模型中的各特征分量之间的区别,通过计算获得不同情感状态下的声音情感模型。
    19.根据权利要求16所述的装置,其特征在于,进一步包括:
    自适应调整???,配置为基于所述用户的语音消息中的声纹特征信息与所述匹配的声
    音情感模型中的声纹特征信息之间的区别,自适应调整所述匹配的声音情感模型。
    20.根据权利要求13至15中任一所述的装置,其特征在于,所述面部情绪识别??榘?br />括:
    特征提取单元,配置为提取用户的面部图像中的面部特征信息;以及,
    面部情绪分类单元,配置为根据所提取的面部特征信息判别所对应的情绪分类。
    21.根据权利要求20所述的装置,其特征在于,所述特征提取单元进一步配置为:获取
    用户的面部图像所包括的多个特征区域和/或特征点相对于无情绪状态面部图像所包括的
    所述多个特征区域和/或所述特征点之间的位置差别信息;所述多个特征区域和/或特征点
    为预先设定的;
    其中所述面部情绪分类单元进一步配置为,根据所述位置差别信息获取对应的情绪分
    类,其中所述位置差别信息与所述情绪分类之间的映射关系为预先建立;
    或,所述特征提取单元进一步配置为:获取用户的面部图像相对于无情绪状态面部图
    像之间的整体灰度差别信息;
    其中所述面部情绪分类单元进一步配置为,根据所述整体灰度差别信息获取对应的情
    绪分类,其中所述整体灰度差别信息与所述情绪分类之间的映射关系为预先建立。
    22.一种智能交互设备,其特征在于,包括:
    语义理解装置,配置为获取用户的语音消息所对应的语义信息;
    如权利要求13至15中任一所述的情绪识别装置,配置为识别用户的情绪状态;以及
    应答服务装置,配置为根据所述获取的语义信息和所述识别的情绪状态确定对应的应
    答服务信息,其中所述语义信息和所述情绪状态与所述应答服务信息之间的映射关系为预
    先建立。
    23.根据权利要求22所述的智能交互设备,其特征在于,
    所述语义理解装置包括:
    语音识别???,配置为对获取的用户的语音信息进行语音识别,得到文字信息;
    模板匹配???,配置为根据所述文字信息与预存的语义模板匹配,以确定匹配的语义
    模板;以及
    语义匹配???,配置为获取与所述匹配的语义模板对应的语义信息,其中所述语义模
    板与所述语义信息之间的映射关系为预先建立的,同一语义信息对应一个或多个语义模
    板。
    24.根据权利要求22所述的设备,其特征在于,所述智能交互设备为机顶盒。

    说明书

    情绪识别方法和装置以及智能交互方法和设备

    技术领域

    本发明涉及人工智能技术领域,具体涉及一种情绪识别方法和装置以及智能交互
    方法和设备。

    背景技术

    随着人工智能技术的不断发展以及人们对于交互体验要求的不断提高,智能交互
    方式已逐渐开始替代一些传统的人机交互方式,并且已成为一个研究热点。然而,现有智能
    交互方式仅能大概分析出用户消息的语义内容,并无法识别用户当前的情绪状态,因而无
    法根据用户的情绪状态不同提供差别化的应答服务。

    发明内容

    有鉴于此,本发明实施例提供了一种情绪识别方法和装置以及智能交互方法和设
    备,解决了现有技术中的智能交互方式无法根据用户的情绪状态不同提供差别化的应答服
    务的问题。

    本发明一实施例提供的一种情绪识别方法包括:

    根据用户的语音消息获取语音情绪识别结果,所述语音情绪识别结果包括预设的
    至少两种情绪分类的一种;

    根据用户的面部图像获取面部情绪识别结果,所述面部情绪识别结果也包括预设
    的所述至少两种情绪分类的一种;以及

    当所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的情绪分类
    时,判断用户的情绪状态为所述相同的情绪分类。

    本发明一实施例提供的一种智能交互方法包括:

    获取用户的语音消息所对应的语义信息;

    根据如前所述的情绪识别方法识别用户的情绪状态;以及

    根据所述获取的语义信息和所述识别的情绪状态确定对应的应答服务信息,其中
    所述语义信息和所述情绪状态与所述应答服务信息之间的映射关系为预先建立。

    本发明一实施例提供的一种情绪识别装置包括:

    语音情绪识别???,配置为根据用户的语音消息获取语音情绪识别结果,所述语
    音情绪识别结果包括预设的至少两种情绪分类的一种;

    面部情绪识别???,配置为根据用户的面部图像获取面部情绪识别结果,所述面
    部情绪识别结果也包括预设的所述至少两种情绪分类的一种;以及

    情绪决策???,配置为当所获取的语音情绪识别结果和所获取的面部情绪识别结
    果为相同的情绪分类时,判断用户的情绪状态为所述相同的情绪分类。

    本发明一实施例提供的一种智能交互设备包括:

    语义理解装置,配置为获取用户的语音消息所对应的语义信息;

    如前所述的情绪识别装置,配置为识别用户的情绪状态;以及

    应答服务装置,配置为根据所述获取的语义信息和所述识别的情绪状态确定对应
    的应答服务信息,其中所述语义信息和所述情绪状态与所述应答服务信息之间的映射关系
    为预先建立。

    本发明实施例提供的一种情绪识别方法和装置以及智能交互方法和设备,综合语
    音情绪识别结果和面部情绪识别结果两者来确定用户的情绪状态。当所获取的语音情绪识
    别结果和所获取的面部情绪识别结果为相同的情绪分类时,才判断用户的情绪状态为所述
    相同的情绪分类。由此可准确地判断出用户当前的情绪状态,并提供对应的应答服务,提高
    了用户体验效果,使得智能交互更加智能和准确。

    附图说明

    图1所示为本发明一实施例提供的一种情绪识别方法的流程示意图。

    图2所示为本发明一实施例提供的一种情绪识别方法中获取语音情绪识别结果的
    流程示意图。

    图3所示为本发明一实施例提供的一种情绪识别方法中预先建立声音情感模型的
    流程示意图。

    图4所示为本发明一实施例提供的一种情绪识别方法中获取面部情绪识别结果的
    流程示意图。

    图5所示为本发明一实施例提供的一种智能交互方法的流程示意图。

    图6所示为本发明一实施例提供的一种情绪识别装置的结构示意图。

    图7所示为本发明另一实施例提供的一种情绪识别装置的结构示意图。

    图8所示为本发明一实施例提供的一种智能交互设备的结构示意图。

    图9所示为本发明一实施例提供的一种智能交互设备中语义理解装置的结构示意
    图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
    整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例?;诒?br />发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实
    施例,都属于本发明?;さ姆段?。

    图1所示为本发明一实施例提供的一种情绪识别方法的流程示意图。如图1所示,
    该情绪识别方法包括:

    步骤101:根据用户的语音消息获取语音情绪识别结果,该语音情绪识别结果包括
    预设的至少两种情绪分类的一种。

    由于用户在不同情绪状态下的用户语音消息会包含不同的声纹特征,通过预学习
    这些不同情绪状态下的声纹特征即可识别出用户语音消息所体现出的情绪状态,具体的获
    取语音情绪识别结果的过程在后续实施例中详细阐述。预设的至少两种情绪分类可具体包
    括以下多个情绪分类中的至少两组:高兴、惊讶、愤怒、痛苦、疲劳、正常和兴奋等。

    步骤102:根据用户的面部图像获取面部情绪识别结果,该面部情绪识别结果也包
    括该预设的至少两种情绪分类的一种。

    用户在不同情绪状态下的面部表情也会有所变化,因此通过预学习这些不同情绪
    状态下的面部表情特征,获取或采集用户的面部图像,并提取面部图像中的面部特征就可
    识别出用户面部图像的情绪状态,具体的获取面部情绪识别结果的过程也在后续实施例中
    详细阐述。

    步骤103:当所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的
    情绪分类时,判断用户的情绪状态为该相同的情绪分类。

    在获取了语音情绪识别结果和面部情绪识别结果后,综合这两种情绪识别结果来
    确定用户当前的情绪状态。当所获取的语音情绪识别结果和所获取的面部情绪识别结果为
    相同的情绪分类时,才判断用户的情绪状态为该相同的情绪分类。例如,若面部情绪识别结
    果为“高兴”的情绪分类,语音情绪识别结果也为“高兴”的情绪分类,则可判断用户当前的
    情绪状态为高兴。

    在本发明一实施例中,当所获取的语音情绪识别结果和所获取的面部情绪识别结
    果为不同的情绪分类时,为避免做出错误的情绪状态判断以及根据该错误的情绪状态提供
    错误的应答服务,则认为用户的情绪状态为默认的正常状态。例如,若面部情绪识别结果为
    “高兴”的情绪分类,而语音情绪识别结果为“痛苦”的情绪分类,为避免做出错误的情绪状
    态判断并由此导致错误的应答服务,且由于根据“正?!钡那樾髯刺峁┑挠Υ鸱窨墒?br />应于大多数的用户当前需求,因此则认为用户的情绪状态为“正?!?。

    在本发明一实施例中,还可利用置信度来衡量语音情绪识别结果和面部情绪识别
    结果的准确性,并通过衡量置信度的大小来衡量最终的用户情绪状态的准确性。在统计学
    上,置信度也称为可靠度、置信水平、或置信系数。由于样本具有随机性,当利用抽样对总体
    参数作出估计时,所得出的结论总是不确定的。因此,可采用数理统计中的区间估计法来估
    计一个估计值与总体参数之间的误差在一定允许的范围以内的概率有多大,这个相应的概
    率即称作置信度。例如,假设预设的情绪分类与表征语音情绪识别结果的一个变量有关,
    即,根据该变量值的大小语音情绪识别结果可对应到不同的情绪分类。当要获取语音情绪
    识别结果的置信度时,先通过多次的语音情绪识别过程得到该变量的多个测量值,然后将
    该多个测量值的均值作为一个估计值。再通过区间估计法来估计该估计值与该变量的真值
    之间的误差范围在一定范围内的概率,这个概率值越大说明这个估计值越准确,即当前的
    语音情绪识别结果的置信度越高。应当理解,上述表征语音情绪识别结果的变量可根据语
    音情绪识别的具体算法而确定,本发明对此不做限定。

    具体而言,可计算所获取的语音情绪识别结果的置信度,并计算所获取的面部情
    绪识别结果的置信度。只有当语音情绪识别结果的置信度大于第一置信度阈值,面部情绪
    识别结果的置信度大于第二置信度阈值,且所获取的语音情绪识别结果和所获取的面部情
    绪识别结果为相同的情绪分类时,才判断用户的情绪状态为该相同的情绪分类。这样即使
    所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的情绪分类,也并不一定
    做出最终的情绪状态判断,因为若语音情绪识别结果或面部情绪识别结果的置信度较低的
    话,语音情绪识别结果或面部情绪识别结果本身可能并不准确。

    在本发明另一实施例中,考虑到在不同的应用场景下用户语音消息以及面部图像
    对最终的情绪状态判断的影响权重可能不同,例如,当前应用场景下所获取的用户语音消
    息质量较差,而用户的面部图像较清晰时,则面部情绪识别结果对于最终情绪状态判断的
    影响权重就应大一些,因此可通过设置语音权重系数和面部权重系数来分配语音情绪识别
    结果和面部情绪识别结果对最终情绪状态判断的影响权重。例如,若语音情绪识别结果的
    置信度x1,语音权重系数为a,面部情绪识别结果为x2,面部权重系数为b,则可得到y=ax1+
    bx2,其中a和b为范围0至1的数值,此时只要y的值大于第三置信度,且所获取的语音情绪识
    别结果和所获取的面部情绪识别结果为相同的情绪分类时,则判断用户的情绪状态为该相
    同的情绪分类。由此可见,通过设置语音权重系数和面部权重系数,提供了一种根据不同应
    用场景可灵活调整的情绪识别机制,进一步提高了情绪识别结果的准确性。

    应当理解,上述的第一置信度阈值、第二置信度阈值以及第三置信度阈值均可由
    开发人员根据实际的场景需求和实验经验而确定,本发明并不做具体限定。

    还应当理解,用户语音消息和用户面部图像可以通过本地的声音采集装置和图像
    采集装置获取,也可以通过第三方实时获取,本发明对用户语音消息和用户面部图像的获
    取方式不做具体限定。

    图2所示为本发明一实施例提供的一种情绪识别方法中获取语音情绪识别结果的
    流程示意图。如图2所示,该获取语音情绪识别结果的流程可包括:

    步骤201:提取用户的语音消息中的声纹特征信息。

    步骤202:将提取的声纹特征信息与多个预设的声音情感模型中的声纹特征信息
    相匹配,其中多个预设的声音情感模型分别对应不同的情绪分类。

    步骤203:根据匹配的声音情感模型获取对应的情绪分类。

    用户在不同情绪状态下所发出的用户语音消息是具备不同的声纹特征信息的,通
    过提取这些声纹特征信息与预设的声音情感模型中的声纹特征信息相匹配,便可找到相对
    应的声音情感模型,并由此确定声音情感模型所对应的情绪分类。

    在本发明一实施例中,还可基于用户的语音消息中的声纹特征信息与匹配的声音
    情感模型中的声纹特征信息之间的区别,自适应调整匹配的声音情感模型。这样随着交互
    层级的不断加深,声音情感模型的匹配度也会越来越高,语音情绪识别结果的准确度也会
    越来越高。

    在本发明一实施例中,声音情感模型可为预先建立。在一进一步实施例中,如图3
    所示,声音情感模型可通过如下步骤预先建立:

    步骤301:采集中性情感语料,基于所采集的中性情感语料中的声纹特征获得中性
    情感模型,中性情感模型包括与声纹特征对应的多个特征分量。

    具体而言,用户被要求以各种不同的情感状态读出语料,其中中性情感语料对应
    的是用户并不存在情感倾向时的正常情感状态。通过提取该中性情感语料中与声纹特征对
    应的多个特征分量便可得到中性情感模型,具体的训练过程可通过高斯混合模型训练完
    成。

    步骤302:采集不同情感状态下的语料,将不同情感状态下的语料中的声纹特征与
    中性情感模型中的各特征分量进行对比。

    对于用户所阅读的其他带有情感倾向的语料内容,需要提取这些不同情感状态下
    的语料中的声纹特征,并将这些声纹特征与中性情感模型中的各特征分量进行对比,确定
    在各特征分量上与中性情感模型的区别。

    步骤303:基于不同情感状态下的语料中的声纹特征与中性情感模型中的各特征
    分量之间的区别,通过计算获得不同情感状态下的声音情感模型。

    具体而言,根据不同情感状态下的语料的声纹特征与中性情感模型中的各特征分
    量之间的区别来调整中性情感模型的各特征分量,通过该调整过程便可得到不同情感状态
    下的声音情感模型。其中的每种声音情感模型对应一种情感状态,且包含一种各特征分量
    的组合。

    图4所示为本发明一实施例提供的一种情绪识别方法中获取面部情绪识别结果的
    流程示意图。如图4所示,该面部情绪识别结果的获取过程包括:

    步骤401:提取用户的面部图像中的面部特征信息。

    具体而言,面部特征信息可为体现用户面部特征的局部特征的集合,或为用户面
    部的整体特征。局部特征的集合例如用户的面部图像所包括的多个特征区域和/或特征点
    相对于无情绪状态面部图像所包括的多个特征区域和/或特征点之间的位置差别信息,用
    户面部的整体特征例如用户的面部图像相对于无情绪状态面部图像之间的整体灰度差别
    信息。

    步骤402:根据所提取的面部特征信息判别所对应的情绪分类。

    面部特征信息与情绪分类之间的映射关系为预先建立,根据所提取到的面部特征
    信息便可确定对应的情绪分类。该根据预先建立的映射关系判别情绪分类的方法可通过隐
    马尔可夫模型方法、人工神经网络、支持向量机、AdaBoost算法、贝叶斯决策、线性判别分析
    法、最近邻法以及核判别分析法等实现。

    图5所示为本发明一实施例提供的一种智能交互方法的流程示意图。如图5所示,
    该智能交互方法包括:

    步骤501:获取用户的语音消息所对应的语义信息。

    语义消息仅能代表用户的语音消息的语义内容,但并不能反映用户当前的情绪状
    态,因此需要后续的情绪识别过程识别用户的情绪状态。该语义信息的获取过程可具体包
    括:对获取的用户的语音信息进行语音识别,得到文字信息;根据所述文字信息与预存的语
    义模板匹配,以确定匹配的语义模板;以及获取与该匹配的语义模板对应的语义信息,其中
    语义模板与语义信息之间的映射关系为预先建立,同一语义信息可对应一个或多个语义模
    板。

    在本发明一实施例中,用户语音消息的文本内容可与知识库中的“标准问”对应,
    “标准问”是用来表示某个知识点的文字,主要目标是表达清晰,便于维护。这里的“问”不应
    被狭义地理解为“询问”,而应广义地来理解一“输入”,该“输入”具有对应的“输出”。用户在
    向智能交互机器输入时,最理想的情况是使用标准问,则机器的智能语义识别系统马上能
    够理解用户的意思。

    然而,用户往往并非使用的是标准问,而是标准问的一些变形的形式,即为扩展
    问。因此,对于智能语义识别而言,知识库里需要有标准问的扩展问,该扩展问与标准问表
    达形式有略微差异,但是表达相同的含义。因此,在本发明一进一步实施例中,语义模板为
    表示某一种语义内容的一个或多个抽象语义表达式的集合,由开发人员根据预定的规则结
    合语义内容生成,即通过一个语义模板就可描述所对应语义内容的多种不同表达方式的语
    句,以应对用户语音消息的文本内容可能的多种变形。这样将用户消息的文本内容与预设
    的语义模板进行匹配,避免了利用仅能描述一种表达方式的“标准问”来识别用户消息时的
    局限性。

    抽象语义是对本体类属性的进一步抽象。一个类别的抽象语义通过一组抽象语义
    表达式的集合来描述一类抽象语义的不同表达,为表达更为抽象的语义,这些抽象语义表
    达式在组成元素上进行了扩充。当这些扩充的元素一旦被赋予了相应的值就可以表达各种
    各样的具体语义。

    每一个抽象语义表达式主要可包括缺失语义成分和语义规则词。缺失语义成分由
    语义成分符表示,当这些缺失的语义成分被填充了相应的值(即内容)后可以表达各式各样
    的具体语义。

    抽象语义的语义成分符可包括:

    [concept]:表示主体或客体成份的词或短语。

    比如:“彩铃如何开通”中的“彩铃”。

    [action]:表示动作成分的词或短语。

    比如:“信用卡如何办理”中的“办理”。

    [attribute]:表示属性成份的词或短语。

    比如:“iphone有哪些颜色”中的“颜色”。

    [adjective]:表示修饰成分的词或短语。

    比如:“冰箱哪个品牌便宜”中的“便宜”。

    一些主要的抽象语义类别示例有:

    概念说明[concept]是什么

    属性构成[concept]有哪些[attribute]

    行为方式[concept]如何[action]

    行为地点[concept]在什么地方[action]

    行为原因[concept]为什么会[action]

    行为预测[concept]会不会[action]

    行为判断[concept]有没有[attribute]

    属性状况[concept]的[attribute]是不是[adjective]

    属性判断[concept]是不是有[attribute]

    属性原因[concept]的[attribute]为什么这么[adjective]

    概念比较[concept1]和[concept2]的区别在哪里

    属性比较[concept1]和[concept2]的[attribute]有什么不同之处

    问句在抽象语义层面的成份判断可以通过词性标注来做一般的评判,concept对
    应的词性为名词,action对应的词性为动词、attribute对应的词性为名词、adjective对应
    的是形容词。

    以类别为“行为方式”的抽象语义[concept]如何[action]为例,该类别的抽象语
    义集合下可包括多条抽象语义表达式:

    抽象语义类别:行为方式

    抽象语义表达式:

    a.[concept][需要|应该?][如何]<才[可以]?><进行?>[action]

    b.{[concept]~[action]}

    c.[concept]<的?>[action]<方法|方式|步骤?>

    d.<有哪些|有什么|有没有><通过|用|在>[concept][action]<的?>[方法]

    e.[如何][action]~[concept]

    上述a、b、c、d四个抽象语义表达式都是用来描述“行为方式”这一抽象语义类别
    的。语义符号“|”表示“或”关系,语义符号“?”表示该成分可有可无。

    应当理解,虽然上面给出了一些语义成分词、语义规则词和语义符号的示例,但语
    义成分词的具体内容和词类,语义规则词的具体内容和词类以及语义符号的定义和搭配都
    可由开发人员根据该智能交互方法所应用的具体交互业务场景而预设,本发明对此并不做
    限定。

    在本发明一实施例中,根据用户语音消息的文本内容确定匹配的语义模板的过程
    可通过相似度计算过程实现。具体而言,计算用户语音消息的文本内容与多个预设的语义
    模板之间的多个文本相似度,然后将文本相似度最高的语义模板作为匹配的语义模板。相
    似度可采用如下计算方法中的一种或多种:编辑距离计算方法,n-gram计算方法,
    JaroWinkler计算方法以及Soundex计算方法。在一进一步实施例中,当识别出用户语音消
    息的文本内容中的语义成分词和语义规则词时,用户语音消息和语义模板中所包括语义成
    分词和语义规则词还可被转化成简化的文本字符串,以提高语义相似度计算的效率。

    在本发明一实施例中,如前所述,语义模板可由语义成分词和语义规则词构成,而
    这些语义成分词和语义规则词又与这些词语在语义模板中的词性以及词语之间的语法关
    系有关,因此该相似度计算过程可具体为:先识别出用户语音消息文本中的词语、词语的词
    性以及语法关系,然后根据词语的词性以及语法关系识别出其中的语义成分词和语义规则
    词,再将所识别出的语义成分词和语义规则词引入向量空间模型以计算用户语音消息的文
    本内容与多个预设的语义模板之间的多个相似度。在本发明一实施例中,可以如下分词方
    法中的一种或多种识别用户语音消息的文本内容中的词语、词语的词性以及词语之间的语
    法关系:隐马尔可夫模型方法、正向最大匹配方法、逆向最大匹配方法以及命名实体识别方
    法。

    在本发明一实施例中,如前所述,语义模板可为表示某一种语义内容的多个抽象
    语义表达式的集合,此时通过一个语义模板就可描述所对应语义内容的多种不同表达方式
    的语句,以对应同一标准问的多个扩展问。因此在计算用户语音消息的文本内容与预设的
    语义模板之间的语义相似度时,需要计算用户语音消息的文本内容与多个预设的语义模板
    各自展开的至少一个扩展问之间的相似度,然后将相似度最高的扩展问所对应的语义模板
    作为匹配的语义模板。这些展开的扩展问可根据语义模板所包括的语义成分词和/或语义
    规则词和/或语义符号而获得。

    步骤502:根据如前任一所述的情绪识别方法识别用户的情绪状态。

    具体的情绪识别方法如前面的实施例所述,在此不再赘述。

    步骤503:根据获取的语义信息和识别的情绪状态确定对应的应答服务信息,其中
    语义信息和情绪状态与应答服务信息之间的映射关系为预先建立。

    这样便可实现根据用户情绪状态不同而提供不同应答服务的智能交互方式。例
    如,当该智能交互方法应用在一种智能机顶盒上时,若用户A发出的用户语音消息为“推荐
    一部电影给我吧”,机顶盒根据声纹以及图像综合识别出此时用户A的情绪为不高兴的状
    态,因此会根据用户的情绪状态推荐节目内容,机顶盒所提供的应答服务便可为:“推荐您
    一部喜剧片吧:《疯狂的石头》”。再例如,若用户A发出的用户语音消息为“今天8点有什么节
    目”,机顶盒根据声纹以及图像综合识别出此时用户A的情绪为开心高兴的状态,因此根据
    用户的情绪状态触发个性化的语音交互,机顶盒所提供的应答服务便可为:“今天8点有您
    喜欢看的探索频道的荒野求生节目,看您今天这么高兴,要不要陪您聊会天啊?!?br />

    图6所示为本发明一实施例提供的一种情绪识别装置的结构示意图。如图6所示,
    该情绪识别装置60包括语音情绪识别???1,面部情绪识别???2以及情绪决策???3。

    语音情绪识别???1根据用户的语音消息获取语音情绪识别结果,语音情绪识别
    结果包括预设的至少两种情绪分类的一种。面部情绪识别???2根据用户的面部图像获取
    面部情绪识别结果,面部情绪识别结果也包括该预设的至少两种情绪分类的一种。情绪决
    策???3从语音情绪识别???1和面部情绪识别???2分别获取语音情绪识别结果以及
    面部情绪识别结果,当所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的
    情绪分类时,判断用户的情绪状态为相同的情绪分类。

    由此可见,本发明实施例所提供的情绪识别装置综合了语音情绪识别结果和面部
    情绪识别结果两者来确定用户的情绪状态,可准确地判断出用户当前的情绪状态,并提供
    对应的应答服务,提高了用户体验效果,使得智能交互更加智能和准确。

    在本发明一实施例中,当情绪决策???3所获取的语音情绪识别结果和所获取的
    面部情绪识别结果为不同的情绪分类时,为避免做出错误的情绪状态判断以及根据该错误
    的情绪状态提供错误的应答服务,且由于根据“正?!钡那樾髯刺峁┑挠Υ鸱窨墒视?br />于大多数的用户当前需求,情绪决策???3直接判断用户的情绪状态为默认的正常状态。

    在本发明一实施例中,如图7所示,情绪决策???3包括:第一置信度计算单元
    631、第二置信度计算单元632以及决策单元633。第一置信度计算单元631和第二置信度计
    算单元632分别计算所获取的语音情绪识别结果和面部情绪识别结果的置信度。决策单元
    633分别从第一置信度计算单元631和第二置信度计算单元632获取置信度计算结果。当语
    音情绪识别结果的置信度大于第一置信度阈值,面部情绪识别结果的置信度大于第二置信
    度阈值,且所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的情绪分类
    时,决策单元633判断用户的情绪状态为相同的情绪分类;或,当语音情绪识别结果的置信
    度与语音权重系数的乘积与面部情绪识别结果的置信度与面部权重系数的乘积之和大于
    第三置信度阈值,且所获取的语音情绪识别结果和所获取的面部情绪识别结果为相同的情
    绪分类时,决策单元633判断用户的情绪状态为相同的情绪分类。通过利用置信度来衡量语
    音情绪识别结果和面部情绪识别结果的准确性,并通过衡量置信度的大小来衡量最终的用
    户情绪状态的准确性,可进一步提高情绪识别结果的准确性。

    在本发明一实施例中,如图7所示,语音情绪识别???1包括:声纹提取单元611和
    声音情绪分类单元612。声纹提取单元611提取用户的语音消息中的声纹特征信息,声音情
    绪分类单元612将声纹提取单元611所提取的声纹特征信息与多个预设的声音情感模型中
    的声纹特征信息相匹配,并根据该匹配的声音情感模型获取对应的情绪分类,其中多个预
    设的声音情感模型分别对应不同的情绪分类。

    在本发明一实施例中,如图7所示,该情绪识别装置60进一步包括:用于预先建立
    声音情感模型的声音情感模型建立???4。具体而言,声音情感模型建立???4可包括:中
    性情感模型建立单元641、对比单元642和模型计算单元643。中性情感模型建立单元641用
    于采集中性情感语料,基于所采集的中性情感语料中的声纹特征获得中性情感模型,该中
    性情感模型包括与声纹特征对应的多个特征分量。对比单元642用于采集不同情感状态下
    的语料,将不同情感状态下的语料中的声纹特征与中性情感模型建立单元641所建立的中
    性情感模型中的各特征分量进行对比。模型计算单元643用于基于不同情感状态下的语料
    中的声纹特征与中性情感模型中的各特征分量之间的区别,通过计算获得不同情感状态下
    的声音情感模型。

    在本发明一实施例中,如图7所示,该情绪识别装置60进一步包括:自适应调整模
    块65,用于基于用户的语音消息中的声纹特征信息与匹配的声音情感模型中的声纹特征信
    息之间的区别,自适应调整匹配的声音情感模型。这样随着交互层级的不断加深,声音情感
    模型的匹配度也会越来越高,语音情绪识别结果的准确度也会越来越高。

    在本发明一实施例中,如图7所示,面部情绪识别???2包括:特征提取单元621和
    面部情绪分类单元622。特征提取单元621提取用户的面部图像中的面部特征信息。面部情
    绪分类单元622根据特征提取单元621所提取的面部特征信息判别所对应的情绪分类。

    在本发明一实施例中,特征提取单元621获取用户的面部图像所包括的多个特征
    区域和/或特征点相对于无情绪状态面部图像所包括的多个特征区域和/或特征点之间的
    位置差别信息;多个特征区域和/或特征点为预先设定的。然后,面部情绪分类单元622根据
    特征提取单元621所获取的位置差别信息获取对应的情绪分类,其中位置差别信息与情绪
    分类之间的映射关系为预先建立。

    在本发明另一实施例中,特征提取单元621获取用户的面部图像相对于无情绪状
    态面部图像之间的整体灰度差别信息。然后面部情绪分类单元622根据该整体灰度差别信
    息获取对应的情绪分类,其中整体灰度差别信息与情绪分类之间的映射关系为预先建立。

    图8所示为本发明一实施例提供的一种智能交互设备的结构示意图。如图8所示,
    该智能交互设备80包括:语义理解装置81、如前任一所述的情绪识别装置60和应答服务装
    置82。语义理解装置81用于获取用户的语音消息所对应的语义信息。情绪识别装置60用于
    识别用户的情绪状态。应答服务装置82根据语义理解装置81获取的语义信息和情绪识别装
    置60识别的情绪状态确定对应的应答服务信息,其中语义信息和情绪状态与应答服务信息
    之间的映射关系为预先建立。由此便可实现根据用户情绪状态不同而提供不同应答服务的
    智能交互方式。

    如附图9所示,在本发明一实施例中,语义理解装置81可包括:语音识别???11、
    模板匹配???12以及语义匹配???13。语音识别???11用于对获取的用户的语音信息
    进行语音识别,得到文字信息。模板匹配???12用于根据所述文字信息与预存的语义模板
    匹配,以确定匹配的语义模板。语义匹配???13用于获取与该匹配的语义模板对应的语义
    信息,该语义模板与该语义信息之间的映射关系为预先建立的,同一语义信息对应一个或
    多个语义模板。语义信息可以为标准问,语义模板可以为对应某标准问的抽象语义表达式
    或对应某标准问的扩展问。

    该语义理解装置81通过采用抽象的语义模板,同一个语义模板可对应多个表达方
    式的语句。当用户输入用户语音消息时,将用户语音消息的文本内容与多个预设的语义模
    板进行匹配即可,避免了单纯采用的标准问来识别和解析用户语音消息的文本内容,能够
    实时准确解析多样化的用户语音消息,降低了交互层级,提供了更加自由顺畅的智能交互
    体验。

    在本发明一实施例中,该智能交互设备80可为机顶盒,可根据用户的语音以及用
    户当前情绪状态为用户推送不同的节目内容。

    应当理解,上述实施例所提供的情绪识别装置60中记载的每个??榛虻ピ加肭?br />述情绪识别方法的一个方法步骤相对应,智能交互设备80中记载的每个??橐灿肭笆龅闹?br />能交互方法的一个方法步骤相对应。由此,前述的方法步骤描述的操作和特征同样适用于
    情绪识别装置60和智能交互设备80中所包含的对应的??楹偷ピ?,重复的内容在此不再赘
    述。

    本发明的教导还可以实现为一种计算机可读存储介质的计算机程序产品,包括计
    算机程序代码,当计算机程序代码由处理器执行时,其使得处理器能够按照本发明实施方
    式的方法来实现如本文实施方式所述的情绪识别方法和智能交互方法。计算机存储介质可
    以为任何有形媒介,例如软盘、CD-ROM、DVD、硬盘驱动器、甚至网络介质等。

    应当理解,虽然以上描述了本发明实施方式的一种实现形式可以是计算机程序产
    品,但是本发明的实施方式的方法或装置可以被依软件、硬件、或者软件和硬件的结合来实
    现。硬件部分可以利用专用逻辑来实现;软件部分可以存储在存储器中,由适当的指令执行
    系统,例如微处理器或者专用设计硬件来执行。本领域的普通技术人员可以理解上述的方
    法和设备可以使用计算机可执行指令和/或包含在处理器控制代码中来实现,例如在诸如
    磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或
    电子信号载体的数据载体上提供了这样的代码。本发明的方法和装置可以由诸如超大规模
    集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编
    程逻辑设备等的可编程硬件设备的硬件电路实现,也可以用由各种类型的处理器执行的软
    件实现,也可以由上述硬件电路和软件的结合例如固件来实现。

    应当理解,尽管在上文的详细描述中提及了装置的若干??榛虻ピ?,但是这种划
    分仅仅是示例性而非强制性的。实际上,根据本发明的示例性实施方式,上文描述的两个或
    更多???单元的特征和功能可以在一个???单元中实现,反之,上文描述的一个???单
    元的特征和功能可以进一步划分为由多个???单元来实现。此外,上文描述的某些???
    单元在某些应用场景下可被省略。

    应当理解,为了不模糊本发明的实施方式,说明书仅对一些关键、未必必要的技术
    和特征进行了描述,而可能未对一些本领域技术人员能够实现的特征做出说明。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
    神和原则之内,所作的任何修改、等同替换等,均应包含在本发明的?;し段е?。

    关 键 词:
    情绪 识别 方法 装置 以及 智能 交互 设备
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:情绪识别方法和装置以及智能交互方法和设备.pdf
    链接地址://www.4mum.com.cn/p-6092803.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03