• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 17
    • 下载费用:30 金币  

    重庆时时彩国家: 一种评论数据的处理方法及处理装置.pdf

    关 键 词:
    一种 评论 数据 处理 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611091123.6

    申请日:

    2016.12.01

    公开号:

    CN106776931A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161201|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 珠海市魅族科技有限公司
    发明人: 谭领城; 李梦婷; 李翔
    地址: 519000 广东省珠海市科技创新海岸魅族科技楼
    优先权:
    专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 王宝筠
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611091123.6

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明实施例公开了一种评论数据的处理方法及处理装置,涉及数据处理和数据挖掘领域,用于解决现有技术对评论语句的情感倾向的判断不够准确的问题。本发明实施例方法包括:获取情感倾向已知的样本评论语句;计算样本评论语句的句向量;利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器;利用情感分类器对待测评论语句的情感倾向进行预测。

    权利要求书

    1.一种评论数据的处理方法,其特征在于,包括:
    获取情感倾向已知的样本评论语句;
    计算所述样本评论语句的句向量;
    利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类
    器进行训练,得到情感分类器;
    利用所述情感分类器对待测评论语句的情感倾向进行预测。
    2.根据权利要求1所述的评论数据的处理方法,其特征在于,所述情感倾向包括第一情
    感、第二情感和第三情感;
    所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模
    型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于
    计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所
    述待测评论语句的情感倾向为第三情感的第三概率。
    3.根据权利要求2所述的评论数据的处理方法,其特征在于,利用所述样本评论语句的
    句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情感
    模型,包括:
    判断所述样本评论语句的情感倾向是否为第一情感;
    若是,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;
    若否,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;
    利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模型;
    利用所述第一情感模型对待测评论语句的情感倾向进行预测包括:
    利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型的第
    一集合的概率。
    4.根据权利要求3所述的评论数据的处理方法,其特征在于,利用所述情感分类器对待
    测评论语句的情感倾向进行预测包括:
    分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测评论
    语句的情感倾向进行预测,得到第一概率、第二概率和第三概率;
    确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感模型
    为目标情感模型;
    确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。
    5.根据权利要求1至4中任一项所述的评论数据的处理方法,其特征在于,所述计算所
    述样本评论语句的句向量包括:
    对所述样本评论语句进行分词,得到样本词集合;
    利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所述样
    本评论语句对应的样本词向量集合;
    计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。
    6.一种评论数据的处理装置,其特征在于,包括:
    获取???,用于获取情感倾向已知的样本评论语句;
    计算???,用于计算所述样本评论语句的句向量;
    训练???,用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基
    于学习的分类器进行训练,得到情感分类器;
    预测???,用于利用所述情感分类器对待测评论语句的情感倾向进行预测。
    7.根据权利要求6所述的评论数据的处理装置,其特征在于,所述情感倾向包括第一情
    感、第二情感和第三情感;
    所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情感模
    型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型用于
    计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计算所
    述待测评论语句的情感倾向为第三情感的第三概率。
    8.根据权利要求7所述的评论数据的处理装置,其特征在于,所述训练??榘ǖ谝谎?br />练子???,所述第一训练子??橛糜诶盟鲅酒缆塾锞涞木湎蛄坑胨鲅酒缆塾锞?br />的情感倾向对基于学习的分类器进行训练得到所述第一情感模型,所述第一训练子??榘?br />括:
    判断单元,用于判断所述样本评论语句的情感倾向是否为第一情感;
    第一添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向是第一情感
    时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;
    第二添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向不是第一情感
    时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;
    建模单元,用于利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第
    一情感模型;
    所述预测??榘ǖ谝辉げ獾ピ?,用于利用所述第一情感模型对待测评论语句的情感
    倾向进行预测,所述第一预测单元包括:
    计算子单元,用于利用所述第一情感模型计算所述待测评论语句的句向量属于所述第
    一情感模型的第一集合的概率。
    9.根据权利要求8所述的评论数据的处理装置,其特征在于,所述预测??榘ǎ?br />预测子???,用于分别利用所述第一情感模型、所述第二情感模型和所述第三情感模
    型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率,所述预
    测单元包括所述第一预测子单元;
    第一确定子???,用于确定所述第一概率、所述第二概率和所述第三概率中取值最大
    的概率对应的情感模型为目标情感模型;
    第二确定子???,用于确定所述目标情感模型对应的情感倾向为所述待测评论语句的
    情感倾向。
    10.根据权利要求6至9中任一项所述的评论数据的处理装置,其特征在于,所述计算模
    块包括:
    分词子???,用于对所述样本评论语句进行分词,得到样本词集合;
    第一计算子???,用于利用基于Word2Vec的神经网络计算所述样本词集合中的样本词
    的词向量,得到所述样本评论语句对应的样本词向量集合;
    第二计算子???,用于计算所述样本词向量集合的中心向量,作为所述样本评论语句
    的句向量。

    说明书

    一种评论数据的处理方法及处理装置

    技术领域

    本发明涉及数据处理和数据挖掘领域,具体涉及一种评论数据的处理方法及处理
    装置。

    背景技术

    随着信息技术的发展,互联网已经成为当今社会人们获取信息的重要渠道,互联
    网快捷、方便的特性,以及强大的交互能力,为人们交流思想、阐明观点、发表意见提供了新
    的平台,因此也产生了大量的评论数据,比如微博中的评论数据、电子商务中关于商品的评
    论数据等。评论数据通常带有人们的情感倾向,情感倾向可认为是主体对某一客体主观存
    在的内心喜恶,比如可以理解为人们对某客体表达自身观点所持的态度是支持还是反对,
    是正面情感还是负面情感。例如“赞美”与“表扬”为褒义词,表达正面情感,而“龌龊”与“丑
    陋”为贬义词,表达负面情感。对评论数据的情感倾向进行分类标记,可以方便对大量的评
    论数据进行分析,帮助企业、政府、消费者等更好的把握用户的偏好,从而对自己的产品或
    者工作上的改进产生良好的指导作用。

    现有技术中,大多是基于情感词典或者分析评论语句的语法而得到评论语句的情
    感倾值,最后根据情感倾值判定评论语句的情感倾向。

    但是,简单的基于情感词典或者评论语句的语法,忽略了网络语言灵活性的特点,
    对评论语句的情感倾向的判断不够准确。

    发明内容

    本发明提供一种评论数据的处理方法及处理装置,用于解决现有技术对评论语句
    的情感倾向的判断不够准确。

    本发明实施例的一方面提供了一种评论数据的处理方法,包括:

    获取情感倾向已知的样本评论语句;

    计算所述样本评论语句的句向量;

    利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的
    分类器进行训练,得到情感分类器;

    利用所述情感分类器对待测评论语句的情感倾向进行预测。

    结合第一方面,在第一方面的第一种可能的实现方式中,所述情感倾向包括第一
    情感、第二情感和第三情感;

    所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情
    感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型
    用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计
    算所述待测评论语句的情感倾向为第三情感的第三概率。

    结合第一方面的第一种可能的实现方式,在第一方面的第二种可能的实现方式
    中,利用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器
    进行训练得到所述第一情感模型,包括:

    判断所述样本评论语句的情感倾向是否为第一情感;

    若是,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集
    合;

    若否,则将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集
    合;

    利用所述第一集合和所述第二集合进行二分类训练建模,得到所述第一情感模
    型;

    利用所述第一情感模型对待测评论语句的情感倾向进行预测包括:

    利用所述第一情感模型计算所述待测评论语句的句向量属于所述第一情感模型
    的第一集合的概率。

    结合第一方面的第二种可能的实现方式,在第一方面的第三种可能的实现方式
    中,利用所述情感分类器对待测评论语句的情感倾向进行预测包括:

    分别利用所述第一情感模型、所述第二情感模型和所述第三情感模型对所述待测
    评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率;

    确定所述第一概率、所述第二概率和所述第三概率中取值最大的概率对应的情感
    模型为目标情感模型;

    确定所述目标情感模型对应的情感倾向为所述待测评论语句的情感倾向。

    结合第一方面、第一方面的第一种可能的实现方式、第一方面的第二种可能的实
    现方式和第一方面的第三种可能的实现方式之中任意一种,在第一方面的第四种可能的实
    现方式中,所述计算所述样本评论语句的句向量包括:

    对所述样本评论语句进行分词,得到样本词集合;

    利用基于Word2Vec的神经网络计算所述样本词集合中的样本词的词向量,得到所
    述样本评论语句对应的样本词向量集合;

    计算所述样本词向量集合的中心向量,作为所述样本评论语句的句向量。

    本发明实施例的第二方面提供了一种评论数据的处理装置,包括:

    获取???,用于获取情感倾向已知的样本评论语句;

    计算???,用于计算所述样本评论语句的句向量;

    训练???,用于利用所述样本评论语句的句向量与所述样本评论语句的情感倾向
    对基于学习的分类器进行训练,得到情感分类器;

    预测???,用于利用所述情感分类器对待测评论语句的情感倾向进行预测。

    结合第二方面,在第二方面的第一种可能的实现方式中,所述情感倾向包括第一
    情感、第二情感和第三情感;

    所述情感分类器包括第一情感模型、第二情感模型和第三情感模型,所述第一情
    感模型用于计算所述待测评论语句的情感倾向为第一情感的第一概率,所述第二情感模型
    用于计算所述待测评论语句的情感倾向为第二情感的第二概率,所述第三情感模型用于计
    算所述待测评论语句的情感倾向为第三情感的第三概率。

    结合第二方面的第一种可能的实现方式,在第二方面的第二种可能的实现方式
    中,所述训练??榘ǖ谝谎盗纷幽??,所述第一训练子??橛糜诶盟鲅酒缆塾锞?br />的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行训练得到所述第一情
    感模型,所述第一训练子??榘ǎ?br />

    判断单元,用于判断所述样本评论语句的情感倾向是否为第一情感;

    第一添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向是第一情
    感时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第一集合;

    第二添加单元,用于当所述判断单元判定所述样本评论语句的情感倾向不是第一
    情感时,将所述样本评论语句的句向量加入预建的所述第一情感模型的第二集合;

    建模单元,用于利用所述第一集合和所述第二集合进行二分类训练建模,得到所
    述第一情感模型;

    所述预测??榘ǖ谝辉げ獾ピ?,用于利用所述第一情感模型对待测评论语句的
    情感倾向进行预测,所述第一预测单元包括:

    计算子单元,用于利用所述第一情感模型计算所述待测评论语句的句向量属于所
    述第一情感模型的第一集合的概率。

    结合第二方面的第二种可能的实现方式,在第二方面的第三种可能的实现方式
    中,所述预测??榘ǎ?br />

    预测子???,用于分别利用所述第一情感模型、所述第二情感模型和所述第三情
    感模型对所述待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率,所
    述预测单元包括所述第一预测子单元;

    第一确定子???,用于确定所述第一概率、所述第二概率和所述第三概率中取值
    最大的概率对应的情感模型为目标情感模型;

    第二确定子???,用于确定所述目标情感模型对应的情感倾向为所述待测评论语
    句的情感倾向。

    结合第二方面、第二方面的第一种可能的实现方式、第二方面的第二种可能的实
    现方式和第二方面的第三种可能的实现方式之中任意一种,在第二方面的第四种可能的实
    现方式中,所述计算??榘ǎ?br />

    分词子???,用于对所述样本评论语句进行分词,得到样本词集合;

    第一计算子???,用于利用基于Word2Vec的神经网络计算所述样本词集合中的样
    本词的词向量,得到所述样本评论语句对应的样本词向量集合;

    第二计算子???,用于计算所述样本词向量集合的中心向量,作为所述样本评论
    语句的句向量。

    从以上技术方案可以看出,本发明实施例具有以下优点:

    本发明获取情感倾向已知的样本评论语句,计算所述样本评论语句的句向量,利
    用所述样本评论语句的句向量与所述样本评论语句的情感倾向对基于学习的分类器进行
    训练,得到情感分类器,并利用所述情感分类器对待测评论语句的情感倾向进行预测,本发
    明为基于大数据的情感倾向预测,和简单的基于情感词典或者评论语句的语法进行预测相
    比,对评论语句的情感倾向的判断更加准确。

    附图说明

    图1是本发明评论数据的处理方法一个实施例示意图;

    图2是本发明对基于学习的分类器进行训练得到第一情感模型的方法一个实施例
    示意图;

    图3是本发明评论数据的处理方法另一个实施例示意图;

    图4是本发明评论数据的处理装置一个实施例示意图;

    图5是本发明评论数据的处理装置另一个实施例示意图。

    具体实施方式

    本发明实施例提供了一种评论数据的处理方法及处理装置,用于提高对评论数据
    的情感倾向判断的准确性。

    为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的
    附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
    本发明一部分的实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人
    员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本发明?;さ姆?br />围。

    本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第
    四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理
    解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示
    或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于
    覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限
    于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产
    品或设备固有的其它步骤或单元。

    为便于理解,下面对本发明实施例中的具体流程进行描述,请参阅图1,本发明实
    施例中评论数据的处理方法一个实施例包括:

    101、获取情感倾向已知的样本评论语句;

    获取情感倾向已知的样本评论语句,每个样本评论语句对应一个确定的情感倾
    向。

    102、计算样本评论语句的句向量;

    得到情感倾向已知的样本评论语句之后,可以计算样本评论语句的句向量。

    103、利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类
    器进行训练,得到情感分类器;

    计算得到样本评论语句的句向量之后,可以利用样本评论语句的句向量和样本评
    论语句的情感倾向对基于学习的分类器进行训练,得到情感分类器。

    104、利用情感分类器对待测评论语句的情感倾向进行预测。

    得到情感分类器之后,可以利用情感分类器对待测评论语句的情感倾向进行预
    测。

    本发明获取情感倾向已知的样本评论语句,并计算样本评论语句的句向量,之后
    利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得
    到情感分类器,并利用情感分类器对待测评论语句的情感倾向进行预测,由于本发明为基
    于大数据的情感倾向预测,和简单的基于情感词典或者评论语句的语法进行预测相比,对
    评论语句的情感倾向的判断更加准确。

    大多数的情感极性判断都是正面和负面的二分类判断,而本发明中可以对至少三
    种情感进行判断,也就是说,获取的样本评论语句,其情感倾向可以包括第一情感、第二情
    感和第三情感,相应的,情感分类器可以包括第一情感模型、第二情感模型和第三情感模
    型,第一情感模型用于计算待测评论语句的情感倾向为第一情感的第一概率,第二情感模
    型用于计算待测评论语句的情感倾向为第二情感的第二概率,第三情感模型用于计算待测
    评论语句的情感倾向为第三情感的第三概率。在这里,第一情感倾向、第二情感倾向和第三
    情感倾向可以分别指正面情感、负面情感和中性情感。由于本发明中多了一个中性的预测,
    不同于常规的正负面的二分类预测,因此本发明的情感倾向预测结果更准确。

    若情感分类器包括第一情感模型、第二情感模型和第三情感模型,那么图1对应的
    实施例中,利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进
    行训练,得到情感分类器,就包括利用样本评论语句的句向量与样本评论语句的情感倾向
    对基于学习的分类器进行训练,分别得到第一情感模型、第二情感模型和第三情感模型。作
    为优选,下面具体说明,在获取情感倾向已知的样本评论语句,并计算样本评论语句的句向
    量之后,利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行
    训练得到第一情感模型的具体过程,请参阅图2,对基于学习的分类器进行训练得到第一情
    感模型的方法包括:

    201、判断样本评论语句的情感倾向是否为第一情感,若是,则执行步骤202,若否,
    则执行步骤203;

    对获取到的情感倾向已知的样本评论语句进行判断,判断其情感倾向是否为第一
    情感,若样本评论语句的情感倾向是第一情感,则执行步骤202,若样本评论语句的情感倾
    向不是第一情感,则执行步骤203。

    202、将样本评论语句的句向量加入预建的第一情感模型的第一集合;

    若判定样本评论语句的情感倾向是第一情感,则将样本评论语句的句向量加入预
    建的第一情感模型的第一集合。

    203、将样本评论语句的句向量加入预建的第一情感模型的第二集合;

    若判定样本评论语句的情感倾向是第一情感,则将样本评论语句的句向量加入预
    建的第一情感模型的第二集合。

    204、利用第一集合和第二集合进行二分类训练建模,得到第一情感模型;

    通过步骤201至步骤203,可以将获取的样本评论语句分为两类,一类位于第一集
    合中,另一类位于第二集合中,第一集合中的样本评论语句对应的情感倾向为第一情感,第
    二集合中的样本评论语句对应的情感倾向为非第一情感。接下来可以利用第一集合和第二
    集合进行二分类训练建模,具体的,可以将第一集合中的样本评论语句的标签设为第一情
    感,将第一情感的标签值设为1,将第二集合中的样本评论语句的标签设为非第一情感,将
    非第一情感的标签值设为0,将标记有第一情感和非第一情感的样本评论语句用于
    Logistic二分类训练建模,得到第一情感模型,之后可以根据Logistic二分类预测远离,以
    预测待测评论语句的标签为第一情感的概率,即待测评论语句属于第一情感的第一集合的
    概率,或者说,待测评论语句的情感倾向为第一情感的概率。

    在获取情感倾向已知的样本评论语句,并计算样本评论语句的句向量之后,利用
    样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类器进行训练,得到第
    二情感模型和第三情感模型的过程,与上述得到第一情感模型的过程类似,此处不再赘述。
    得到第二情感模型和第三情感模型之后,可以分别利用第二情感模型和第三情感模型对待
    测评论语句的情感倾向进行预测,即计算待测评论语句的情感倾向为第二情感的概率以及
    计算待测评论语句的情感倾向为第三情感的概率。

    如上,若情感倾向包括第一情感、第二情感和第三情感,情感分类器包括第一情感
    模型、第二情感模型和第三情感模型,请参阅图3,本发明实施例中评论数据的处理方法另
    一个实施例包括:

    301、获取情感倾向已知的样本评论语句;

    获取情感倾向已知的样本评论语句,每个样本评论语句对应一个确定的情感倾
    向。由于评论对象不同,用户表达自身情感倾向所常用的评论语句往往有很大差异,比如对
    政府政策的评论语句和对商品的评论语句,其常用词汇、句式等往往有很大差异。因此,为
    了提高情感分类器的准确性,可以针对不同的评论对象构建不同的情感分类器。在本实施
    例中,以评论对象为商品为例进行说明。

    获取情感倾向已知的样本评论语句的方法可以为:

    1、获取商品的评论语句,并通过人工分析并标记评论语句的情感倾向,标记类别
    有第一情感、第二情感和第三情感,标记后的评论语句即为情感倾向已知的样本评论语句;

    2、通过网络爬虫工具,从电商网站上分别爬取情感倾向为第一情感的评论语句、
    情感倾向为第二情感的评论语句以及情感倾向为第三情感的评论语句。经过此步骤之后,
    便获得一定数量的情感倾向已知的样本评论语句。

    上述两种方法仅作为举例,在实际使用中,也可以通过其他方法获取情感倾向已
    知的样本评论语句,此处不做具体限定。

    302、对样本评论语句进行分词,得到样本词集合;

    获取到样本评论语句之后,可以利用分词工具对样本评论语句进行分词。具体的,
    可以为:把样本评论语句存入到分布式数据库,从并行计算框架中读入分布式数据库中的
    样本评论语句,并利用标准的分词工具对分布式数据库中的样本评论语句进行并行化分
    词,之后将每条评论语句对应的分词结果保存到分布式数据库中,每条评论语句对应的分
    词结果(或者说样本词)组成一个样本词集合。

    303、利用基于Word2Vec的神经网络计算样本词集合中的样本词的词向量,得到样
    本评论语句对应的样本词向量集合;

    在得到样本词集合之后,可以将样本词集合中的每个分词结果,或者说样本词集
    合中的每个样本词转换为数值向量。具体的,可以为:从分布式数据库中读入样本评论语句
    对应的样本词集合,在并行计算框架中调用基于神经网络的Word2Vec算法,将样本词集合
    中的样本词转换为对应的数值向量,为了将此处的数值向量与句向量区分开,可以将样本
    词对应的数据向量称作词向量。将每个样本词集合中的所有样本词转换为对应的词向量之
    后,可以将每个样本词集合对应的词向量组成样本词向量集合。

    304、计算样本词向量集合的中心向量,作为样本评论语句的句向量;

    得到样本词向量集合之后,可以计算该样本词向量集合中的样本词向量的中心向
    量,并将计算得到的中心向量作为该样本评论语句的句向量。在实际使用中,也可以计算该
    样本词向量集合的样本词向量的平均向量或者和向量,此处不做具体限定。

    305、利用样本评论语句的句向量与样本评论语句的情感倾向对基于学习的分类
    器进行训练,分别得到第一情感模型、第二情感模型和第三情感模型;

    在计算得到样本评论语句的句向量之后,可以利用样本评论语句的句向量与样本
    评论语句的情感倾向对基于学习的分类器进行训练,分别得到第一情感模型、第二情感模
    型和第三情感模型,具体的步骤可以参阅图2对应的实施例。

    306、分别利用第一情感模型、第二情感模型和第三情感模型对待测评论语句的情
    感倾向进行预测,得到第一概率、第二概率和第三概率;

    得到第一情感模型、第二情感模型和第三情感模型之后,可以对情感倾向未知的
    商品评论语句的情感倾向进行预测,比如对实时从本商铺的评论数据中获取的新增商品评
    论语句进行预测,为了表述方便,将这部分评论语句称为待测评论语句。那么,得到第一情
    感模型、第二情感模型和第三情感模型之后,可以分别利用第一情感模型、第二情感模型和
    第三情感模型对待测评论语句的情感倾向进行预测??梢岳玫谝磺楦心P投源馄缆塾?br />句的情感倾向进行预测,可以得到该待测评论语句的情感倾向为第一情感的概率为第一概
    率??梢岳玫诙楦心P投愿么馄缆塾锞涞那楦星阆蚪性げ?,可以得到该待测评论
    语句的情感倾向为第二情感的概率为第二概率??梢岳玫谌楦心P投愿么馄缆塾锞?br />的情感倾向进行预测,可以得到该待测评论语句的情感倾向为第三情感的概率为第三概
    率。利用情感模型对待测评论语句进行预测的具体过程请参阅图2对应的实施例。

    307、确定第一概率、第二概率和第三概率中取值最大的概率对应的情感模型为目
    标情感模型;

    分别利用第一情感模型、第二情感模型和第三情感模型计算得到第一概率、第二
    概率和第三概率之后,可以对三者的大小进行比较,确定第一概率、第二概率和第三概率中
    取值最大的概率对应的情感模型为目标情感模型。假设第一概率的取值最大,那么第一概
    率对应的情感模型为第一情感模型,之后可以将第一情感模型确定为目标情感模型。

    308、确定目标情感模型对应的情感倾向为待测评论语句的情感倾向。

    确定目标情感模型之后,可以确定目标情感模型对应的情感倾向为待测评论语句
    的情感倾向。在本实施例中,假设第一情感模型为目标情感模型,那么待测评论语句的情感
    倾向为第一情感。

    上面对本发明实施例中的评论数据的处理方法进行了描述,下面对本发明实施例
    中的评论数据的处理装置进行描述。

    请参阅图4,本发明实施例中评论数据的处理装置的一个实施例包括:

    获取???01,用于获取情感倾向已知的样本评论语句;

    计算???02,用于计算样本评论语句的句向量;

    训练???03,用于利用样本评论语句的句向量与样本评论语句的情感倾向对基
    于学习的分类器进行训练,得到情感分类器;

    预测???04,用于利用情感分类器对待测评论语句的情感倾向进行预测。

    请参阅图5,本发明实施例中评论数据的处理装置的另一个实施例包括:

    获取???01,用于获取情感倾向已知的样本评论语句。

    计算???02,用于计算样本评论语句的句向量,计算???02包括:

    分词子???021,用于对样本评论语句进行分词,得到样本词集合;

    第一计算子???022,用于利用基于Word2Vec的神经网络计算样本词集合中的样
    本词的词向量,得到样本评论语句对应的样本词向量集合;

    第二计算子???023,用于计算样本词向量集合的中心向量,作为样本评论语句
    的句向量。

    训练???03,用于利用样本评论语句的句向量与样本评论语句的情感倾向对基
    于学习的分类器进行训练,得到第一情感模型、第二情感模型和第三情感模型;

    预测???04,用于利用第一情感模型、第二情感模型和第三情感模型对待测评论
    语句的情感倾向进行预测,预测???04包括:

    预测子???041,用于分别利用第一情感模型、第二情感模型和第三情感模型对
    待测评论语句的情感倾向进行预测,得到第一概率、第二概率和第三概率,预测单元包括第
    一预测子单元;

    第一确定子???042,用于确定第一概率、第二概率和第三概率中取值最大的概
    率对应的情感模型为目标情感模型;

    第二确定子???043,用于确定目标情感模型对应的情感倾向为待测评论语句的
    情感倾向。

    所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,
    装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。

    所述的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的
    方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,单元的划分,仅仅为一种
    逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可
    以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间
    的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,
    可以是电性,机械或其它的形式。

    作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的
    部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络
    单元上??梢愿菔导实男枰≡衿渲械牟糠只蛘呷康ピ词迪直臼凳├桨傅哪康?。

    另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
    是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
    元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

    集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可
    以存储在一个计算机可读取存储介质中?;谡庋睦斫?,本发明的技术方案本质上或者
    说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现
    出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备
    (可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例方法的全部或部分
    步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机
    存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介
    质。

    以上,以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实
    施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各
    实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改
    或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

    关于本文
    本文标题:一种评论数据的处理方法及处理装置.pdf
    链接地址://www.4mum.com.cn/p-6021041.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 彩票365app下载安装 中国女篮对日女篮比赛 ipad上好用的计划软件下载 炸金花两个人怎么打套 新疆时时走势直播 全天北京pk计划数据 北京赛车精准计划软件app 5码二期计划怎么滚雪球 北京pk10赛车计划软件手机版 5分彩计划软件 重庆时时彩助手官方版 大乐透19101期预测 资金盘提现规则 广东时时11选5技巧 重庆时时彩龙虎和诀窍 3d5码组六遗漏统计表