• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 27
    • 下载费用:30 金币  

    重庆时时彩108期开奖: 一种新闻文本情绪倾向分析方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201310462920.0

    申请日:

    2013.09.30

    公开号:

    CN103793371A

    公开日:

    2014.05.14

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20130930|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 铭传大学
    发明人: 卢阳正; 陈振南; 柯淑津; 魏裕珍
    地址: 中国台湾台北市
    优先权: 2012.10.30 TW 101140206
    专利代理机构: 北京科龙寰宇知识产权代理有限责任公司 11139 代理人: 孙皓晨
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310462920.0

    授权公告号:

    ||||||

    法律状态公告日:

    2016.06.01|||2014.06.11|||2014.05.14

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提出了一种新闻文本情绪倾向分析方法,该方法包括以下步骤:拆解文本成若干个句子,每个句子包括至少一个分句,且每个分句包括至少一个词汇;分析每个词汇的属性,其中属性为乐观词汇、悲观词汇、非情绪词汇及否定修饰词汇中的一种;累计每个分句中所有词汇的属性,以推算出每个分句的情绪倾向;以单个句子为单位累加每个分句的情绪倾向,从而计算出文本情绪倾向熵值,以决定文本的情绪倾向。

    权利要求书

    权利要求书
    1.  一种新闻文本情绪倾向分析方法,其特征在于,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,且每个子句包括至少一个词汇;使用所述情绪词汇库与所述否定修饰词汇库对所述若干个句子以及每个分句的每个词汇进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用所述有限状态自动机与所述代表符号,以推算每个分句的情绪倾向属于乐观、悲观或中性;以句子为单位分别累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算经累加后所有句子所对应的每种情绪倾向的熵值;依据计算出的熵值决定所述新闻文本的情绪倾向属于乐观、悲观或中性。

    2.  根据权利要求1所述的新闻文本情绪倾向分析方法,其特征在于,所述每个分句的情绪倾向的判定过程是在每个分句的目前状态基础上加入该分句的下一个词汇后,由所述有限状态自动机根据最新加入的词汇转换下一状态;而在进一步加入再下一个词汇前,所述下一状态又取代原有目前状态成为目前状态,如此循环运作,直至所有分句均被判定完毕;当分句的目前状态为乐观,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和乐观;当分句的目前状态为悲观,分句的下一词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成悲观、悲观、乐观和悲观;当分句的目前状态为中性,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和中性;每个分句的情绪倾向起始状态均为中性,当某一个特定分句的最终状态为乐观时,表示该特定分句的情绪倾向为乐观;当特定分句的最终状态为悲观时,表示该特定分句的情绪倾向为悲观;当特定分句的最终状态为中性时,表示该特定分句的情绪倾向为中性。

    3.  根据权利要求1或2所述的新闻文本情绪倾向分析方法,其特征在于,其中所述以句子为单位分别累加的步骤进一步包含下列步骤:
    对每种情绪倾向在所述新闻文本内的出现频率作正规化处理,并将正规化后的出现频率转化成发生机率pij;由pij计算每种情绪倾向的熵值:
    ej=-kΣi=1mPijlnPij]]>
    其中k=1/ln(m),i=1,2,3…m,m表示句子的总数目,j=1,2,3…n,n表示每种情绪倾向的总数目;
    求算评估值=(熵值+-熵值-)/(熵值++熵值-)
    其中“熵值+”为情绪倾向为乐观时的熵值,“熵值-”为情绪倾向为悲观时的熵值,当评估值大于第一门坎值时,所述新闻文本的情绪倾向为乐观,当评估值小于第二门坎值时,所述新闻文本的情绪倾向为悲观。

    4.  根据权利要求1-3所述的新闻文本情绪倾向分析方法,其特征在于,其中所述第一门坎值为一个正实数值,所述第二门坎值为一个负实数值。

    5.  根据权利要求1-4所述的新闻文本情绪倾向分析方法,其特征在于,其中所述新闻文本为财经新闻、政治新闻或国际新闻中的一种,所述新闻文本中的每个句子以句号与其他句子彼此分隔,每个句子中的每个分句以逗号或分号与该句子的其他分句彼此分隔。

    6.  一种新闻文本情绪倾向分析方法,其特征在于,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,每个子句包括至少一个词汇;使用所述否定修饰词汇库与所述情绪词汇库对所述若干个句子进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用所述有限状态自动机与每个分句的每个词汇的代表符号来推算每个分句的情绪倾向。

    7.  根据权利要求6所述的新闻文本情绪倾向分析方法,其特征在于,进一步包括以下步骤:经累加所述新闻文本中每个句子所包含的每 个分句的每种情绪倾向后,计算新闻文本中每种情绪倾向的熵值,以决定所述新闻文本的情绪倾向属于乐观、悲观或中性。

    8.  一种分析文本的方法,其特征在于,包括以下步骤:提供若干个词汇库以及一有限状态自动机;分析所述文本以产生若干个句子,每个句子包括至少一个分句,每个分句包括至少一个词汇;将每个词汇与若干个复数词汇库进行比对,以标示每个词汇的属性以及对应该属性的代号;使用所述有限状态自动机比对每个代号,以推算每个分句的情绪倾向;以单个句子为单位累加每种情绪倾向从而计算出所述文本中每种情绪倾向的熵值;依据熵值决定所述文本的情绪状态。

    9.  根据权利要求8所述的分析文本的方法,其特征在于,其中所述文本为新闻闻本,所述若干个词汇库包括一情绪词汇库与一否定修饰词汇库,所述情绪词汇库包括若干个乐观词汇与若干个悲观词汇,所述否定修饰词汇库包括若干个否定修饰词汇,所述文本的情绪倾向属于乐观、悲观或中性。

    10.  一种分析文本的方法,其特征在于,包括以下步骤:拆解所述文本成若干个句子,每个句子包括至少一个分句,且每个分句包括至少一个词汇;分析每个词汇的属性,其中所述属性为乐观词汇、悲观词汇、非情绪词汇及否定修饰词汇中的一种;累加每个分句中每个词汇的属性,以推算每个分句的情绪倾向;以单个句子为单位累加每个分句的每种情绪倾向,从而计算出所述文本中每种情绪倾向的熵值,以决定所述文本的情绪倾向。

    说明书

    说明书一种新闻文本情绪倾向分析方法
    技术领域
    本发明涉及一种新闻文本情绪倾向分析方法,尤其涉及一种使用有限状态自动机与熵值的新闻文本情绪倾向分析方法。
    背景技术
    财经领域的新闻文本情绪倾向分析的相关研究证实,财经新闻的内容?;嵊跋旖鹑谑谐〉墓善奔鄹?、交易量,甚至公司未来的营收;因此具有重要的实际运用价值。
    目前有关新闻文本情绪倾向分析的现有技术中,已存在利用机器学习技术来自动判断财经新闻的情绪倾向为乐观或悲观的技术。但是该技术尚须经过情绪语言的模型训练与测试,所以必须收集相当大数量的历史数据用于训练,以及必须先行计算语料的词汇机率分布等数据,故其应用上较受限制,存在进一步改善的空间。
    因此,如何进一步改善新闻文本情绪倾向分析的现有技术,以使其无须经过情绪语言的模型训练与测试,以及无须计算语料的词汇机率分布,并提高使用效率,是需要进一步探讨的课题。
    发明内容
    本发明主要目的在于提出一种新闻文本情绪倾向分析方法。
    本发明提供的新闻文本情绪倾向分析方法,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机(finite state automata);对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,且每个子句包括至少一个词汇;使用情绪词汇库与否定修饰词汇库对若干个句子以及每个分句的每个词汇进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用有限状态自动机与代表符号,以推算每个分句的情绪倾向属于乐 观、悲观或中性;以句子为单位分别累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算经累加后所有句子所对应的每种情绪倾向的熵(entropy)值;依据计算出的熵值决定新闻文本的情绪倾向属于乐观、悲观或中性。
    可选的,本发明提供的新闻文本情绪倾向分析方法中,每个分句的情绪倾向的判定过程是在每个分句的目前状态基础上加入分句的下一个词汇后,由有限状态自动机根据最新加入的词汇转换下一状态;而在进一步加入再下一个词汇前,下一状态又取代原有目前状态成为目前状态,如此循环运作,直至所有分句均被判定完毕;当分句的目前状态为乐观,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和乐观;当分句的目前状态为悲观,分句的下一词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成悲观、悲观、乐观和悲观;当分句的目前状态为中性,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和中性;每个分句的情绪倾向起始状态均为中性,当某一个特定分句的最终状态为乐观时,表示该特定分句的情绪倾向为乐观;当特定分句的最终状态为悲观时,表示该特定分句的情绪倾向为悲观;当特定分句的最终状态为中性时,表示该特定分句的情绪倾向为中性。
    可选的,本发明提供的新闻文本情绪倾向分析方法中,以句子为单位分别累加的步骤进一步包含下列步骤:
    对每种情绪倾向在新闻文本内的出现频率作正规化处理,并将正规化后的出现频率转化成发生机率pij;由pij计算每种情绪倾向的熵值:
    ej=-kΣi=1mPijlnPij]]>
    其中k=1/ln(m),i=1,2,3…m,m表示句子的总数目,j=1,2,3…n,n表示每种情绪倾向的总数目;
    求算评估值=(熵值+-熵值-)/(熵值++熵值-)
    其中“熵值+”为情绪倾向为乐观时的熵值,“熵值-”为情绪倾向 为悲观时的熵值,当评估值大于第一门坎值时,新闻文本的情绪倾向为乐观,当评估值小于第二门坎值时,新闻文本的情绪倾向为悲观。
    可选的,本发明提供的新闻文本情绪倾向分析方法中,第一门坎值为一个正实数值,第二门坎值为一个负实数值。
    可选的,本发明提供的新闻文本情绪倾向分析方法中,新闻文本为财经新闻、政治新闻或国际新闻中的一种,新闻文本中的每个句子以句号与其他句子彼此分隔,每个句子中的每个分句以逗号或分号与该句子的其他分句彼此分隔。
    本发明还提供了另一种新闻文本情绪倾向分析方法,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包含至少一个子句,每个子句包含至少一个词汇;使用否定修饰词汇库与情绪词汇库对若干个句子进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用有限状态自动机与每个分句的每个词汇的代表符号来推算每个分句的情绪倾向。
    可选的,上述本发明提供的另一种新闻文本情绪倾向分析方法,进一步包括以下步骤:累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算新闻文本中每种情绪倾向的熵值,以决定新闻文本的情绪倾向属于乐观、悲观或中性。
    本发明提供了一种分析文本的方法,包括以下步骤:提供若干个词汇库以及一有限状态自动机;分析文本以产生若干个句子,每个句子包括至少一个分句,每个分句包括至少一个词汇;将每个词汇与若干个词汇库进行比对,以标示每个词汇的属性以及对应该属性的代号;使用有限状态自动机比对该代号,以推算每个分句的情绪倾向;以单个句子为单位累加每种情绪倾向,从而计算出该文本中每种情绪倾向的熵值;以及依据该熵值决定该文本的情绪状态。
    可选的,上述本发明提供的分析文本的方法中,其中文本为新闻闻本,若干个词汇库包括一情绪词汇库与一否定修饰词汇库,情绪词汇库包括若干个乐观词汇与若干个悲观词汇,否定修饰词汇库包括若干个否 定修饰词汇,文本的情绪倾向属于乐观、悲观或中性。
    本发明还提供了另一种分析文本的方法,包括以下步骤:拆解文本成若干个句子,每个句子包括至少一个分句,且每个分句包括至少一个词汇;分析每个词汇的属性,其中属性为乐观词汇、悲观词汇、非情绪词汇及否定修饰词汇中的一种;累加每个分句中所有词汇的每种属性,以推算每个分句的情绪倾向;以单个句子为单位累加每个分句的每种情绪倾向从而计算出该文本中每种情绪倾向的熵值,以决定该文本的情绪倾向。
    本发明提供的新闻文本情绪倾向分析方法具有无需建立语料的词汇机率分布,以分句为单位,经由有限状态自动机推估分句的情绪倾向,以及整合各分句的情绪倾向,经由熵值计算,推估文本情绪倾向等特色,具有提高新闻文本情绪倾向分析效率以及缩短新闻文本情绪倾向分析方法的相关应用??榈慕⑹奔涞扔诺?。
    附图说明
    图1为本发明较佳实施例用于新闻文本情绪倾向分析方法的流程图。
    附图标记说明:1-情绪词汇库;2-否定修饰词汇库;3-有限状态自动机。
    具体实施方式
    如图1所示为本发明较佳实施例用于新闻文本情绪倾向分析方法的流程图。在图1中显示有一情绪词汇库1、一否定修饰词汇库2、以及一有限状态自动机3。如图1所示,该用于新闻文本情绪倾向分析方法,包括以下步骤:
    步骤101:提供一新闻文本;
    步骤102:进行分句与分词处理;
    步骤103:转换分句词汇为情绪符号;
    步骤104:通过有限状态自动机决定每个分句的情绪倾向;
    步骤105:输出分句情绪倾向;
    步骤106:以句子为单位累计各分句情绪倾向;
    步骤107:计算文本的情绪倾向熵值;
    步骤108:推估文本的情绪倾向。
    如图1所示情绪词汇库1包括若干个乐观词汇与若个悲观词汇,例如:
    情绪词汇库:



    另外,如图1所示的否定修饰词汇库2包括若干个否定修饰词汇,
    例如:
    否定修饰词汇库:

    如前所述,依据本发明构想所提出的用于分析新闻文本情绪倾向的方法,具有以下特色:
    1、不需建立语料的词汇机率分布;
    2、以分句为单位,经由有限状态自动机推估分句的情绪倾向;以及整合各分句的情绪倾向,经由熵值计算,推估文本的情绪倾向。
    此外,如图1所示的有限状态自动机3,其各分句的情绪倾向的决定,是依据下表进行一状态转换,最左侧行中所示为各分句的目前状态,最上侧列中所示为输入的下一词汇的代号,表中各状态为为各分句的下一状态。其中,S0表示其情绪倾向为乐观,S1表示其情绪倾向为悲观,S2表示其情绪倾向为中性。

    1、输入符号说明:+:表示乐观词汇;-:表示悲观词汇;~:表示否定修饰词汇;?:表示非情绪词汇。
    2、各分句的情绪倾向的起始状态为S2。
    3、当最终状态为S0时表示输入分句的情绪倾向属乐观;当最终状态为S1时表示输入分句的情绪倾向属悲观;当最终状态为S2时表示输入分句的情绪倾向属中性。
    4、该有限状态自动机的上述矩阵值,是通过观察随机产出的文本 所获得规则。
    以本发明所提出的用于分析新闻文本情绪倾向方法来分析新闻的两个范例,分别列示如下。本发明所提出的用于分析新闻文本情绪倾向的方法,使用一则情绪新闻为样本范例,通过断词系统将语料断词,经由上述如图1所示的有限状态自动机3的概念运算,最后应用熵值计算该新闻文本的情绪倾向的运算过程如下:
    情绪倾向的判定可分为下列几个步骤:
    1、建立特征词汇数据库;
    2、利用“有限状态自动机”,将词汇情绪状态转换为分句的情绪状态;
    3、统计每个子句中各分句的情绪分类,通过熵值计算出这三类情绪的统计量。
    一、新闻文本偏负面情绪的范例(以下文本已经过断词处理):
    下则新闻含标题共有4个句子,每个句子的分句数分别为1、4、5、4,如表1说明。
    各分句词汇内容依据情绪词汇库与否定修饰词汇库再转换为情绪符号,通过有限状态自动机输出分句情绪倾向,如表2说明:
    依据表2,以句子为单位累计各分句情绪倾向,再通过熵推估该篇文章的情绪倾向,详细说明如下述(表3):


    (备注:以空格来表示词汇被断开之处)
    (表1)

    (表2)


    (表3)

    熵值权重计算步骤:
    步骤一:正规化矩阵表中各分句情绪倾向Xij的接近程度dij。
    (表4)

    以第二句为例:1/4=0.25,2/4=0.5。
    (表5)

    步骤二:将dij转化成发生机率Pij。
    (表6)

    以情绪倾向〝+〞为例:0.25/0.75=0.3333,0.5/0.75=0.6667
    (表7)

    步骤三:由Pij计算各准则之熵值ej。
    k=1/lnm,i=1,2,3,...,m,j=1,2,3,...,n
    其中m为句子,n为情绪倾向,情绪倾向包括正向(+)、负向(-)与无法判断(?)。
    (表8)(表9)

    (表10)各情绪倾向之熵值ej

    评估值=(熵+-熵-)/(熵++熵-)
    =(0.4591-0.7595)/(0.4591+0.7595)=-0.2465
    情绪门坎设定:情绪倾向门坎可依使用者自行设定,例如,乐观门坎值=0.1,若情绪倾向≧0.1,则判断为乐观新闻;例如,悲观门坎值=-0.1,若情绪倾向≦-0.1,则判断为悲观新闻。因为上述新闻文本的评估值=-0.2465≤-0.1,故上述新闻文本,经判断其情绪倾向为悲观,亦即其为一悲观新闻。
    经熵值运算后,可推估新闻文本的情绪倾向,除财经新闻外,其他新闻文本,例如政治新闻或国际新闻,其情绪样本判断逻辑均与上述财 经新闻相同,故本发明所提出的情绪倾向分析方法,可运用在推估大量文本情绪倾向上。
    二、新闻文本偏正面情绪的范例(以下文本已经过断词处理):

    上则新闻含标题共有7个句子,每个句子的分句数分别为1、3、6、7、2、2、4,如表11说明:
    (表11)


    各分句词汇内容依据情绪词汇库与否定修饰词汇库再转换为情绪符号,通过有限状态自动机输出分句情绪倾向,如表12说明:
    (表12)


    依据表12,以句子为单位累加各分句的情绪倾向,再通过熵推估该篇文章的情绪倾向,详细说明如下述:
    (表13)

    熵值权重计算步骤:
    步骤一:正规化矩阵表中各分句情绪倾向Xij的接近程度dij。
    (表14)

    以第六句为例:1/2=0.5,1/2=0.5。
    (表15)

    步骤二:将dij转化成发生机率Pij。
    (表16)

    以情绪倾向〝+〞为例:1/4.014=0.2491,0.5/4.014=0.1246
    (表17)


    步骤三:由Pij计算各准则之熵值ej。
    k=1/lnm,i=1,2,3,...,m,j=1,2,3,...,n
    其中,m为句子,n为情绪倾向,情绪倾向包括正向(+)、负向(-)与无法判断(?)。
    (表18)(表19)

    (表20)各情绪倾向的熵值ej


    评估值=(熵+-熵-)/(熵++熵-)
    =(0.9010-0.4360)/(0.9010+0.4360)=0.35
    因为上述新闻文本的评估值=0.35≥0.1,故上述新闻文本,经判断其情绪倾向为乐观,亦即其为一乐观新闻。
    三、依据本发明提供的用于分析新闻文本情绪倾向方法的正确率实验:
    (一)、正确情绪倾向判别
    由五位人工判别情绪新闻30则,采用多数决制,决定出“正确情绪倾向”,结果如表21所示:
    (表21)


    1.“新闻3”中四位认为此篇文章情绪倾向为正,一位为负。经由多数表决可判定,此文章正确情绪倾向为正。
    2.“新闻8”中四位认为此篇文章情绪倾向为正,一位为负。经由多数表决可判定,此文章正确情绪倾向为正。
    3.“新闻28”中一位认为此篇文章情绪倾向为正,四位为负。经由多数表决可判定,此文章正确情绪倾向为负。
    (二)、人工判断正确率
    随机抽样出五位人员判断,当其中意见不相符合时,判断为人工判别错误,样本包含30则新闻,其中“新闻3”、“新闻8”与“新闻28”,共三则的人工判断结果不一致,因此(30-3)/30=0.9,可求出人工判断正确率为90%,平均花费时间为18.6分钟。
    (三)、机器判断正确率
    机器判断结果与正确情绪倾向相比较,结果如表22所示:
    (表22)
    30则情绪新闻机器判断结果花费时间5.1秒错误题数5正确率83.3%
    由上述分析与结果可知,当样本包含30则新闻时,经人工判读的正确率为90%,平均花费时间为18.6分钟。而使用依据本发明所提出的用于分析新闻文本情绪倾向方法,由机器判断的正确率为83.3%,所花费的时间则仅需5.1秒,故使用本发明所提出的方法,可验证由机器判断文本的情绪倾向确实具有相对较高的正确率,且花费相对较短的时间,因此可通过本发明提供的分析文本情绪倾向方法,由机器先行推估新闻文本的情绪倾向,再由人工检验其正确性,将可大量减少所投入的人力与时间,且质量的一致性亦可获得控制。故本发明所提出的用于分析新闻文本情绪倾向方法确实具有其优点。
    本发明提供的新闻文本情绪倾向分析方法,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包括至少一个子句,且每个子句包括至少一个词汇;使用情绪词汇库与否定修饰词汇库对若干个句子以及每个分句的每个词汇进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用有限状态自动机与代表符号,以推算每个分句的情绪倾向属于乐观、悲观或中性;以句子为单位分别累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算经累加后所有句子所对应的每种情绪倾向的熵值;依据计算出的熵值决定新闻文本的情绪倾向属于乐观、悲观或中性。
    本发明提供的新闻文本情绪倾向分析方法中,每个分句的情绪倾向的判定过程是在每个分句的目前状态基础上加入分句的下一个词汇后,由有限状态自动机根据最新加入的词汇转换下一状态;而在进一步加入 再下一个词汇前,下一状态又取代原有目前状态成为目前状态,如此循环运作,直至所有分句均被判定完毕;当分句的目前状态为乐观,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和乐观;当分句的目前状态为悲观,分句的下一词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成悲观、悲观、乐观和悲观;当分句的目前状态为中性,分句的下一个词汇分别为乐观词汇、悲观词汇、否定修饰词汇和非情绪词汇时,加入下一个词汇后,分句的下一状态分别变成乐观、悲观、悲观和中性;每个分句的情绪倾向起始状态均为中性,当某一个特定分句的最终状态为乐观时,表示该特定分句的情绪倾向为乐观;当特定分句的最终状态为悲观时,表示该特定分句的情绪倾向为悲观;当特定分句的最终状态为中性时,表示该特定分句的情绪倾向为中性。
    本发明提供的新闻文本情绪倾向分析方法中,以句子为单位分别累加的步骤进一步包含下列步骤:
    对每种情绪倾向在新闻文本内的出现频率作正规化处理,并将正规化后的出现频率转化成发生机率pij;由pij计算每种情绪倾向的熵值:
    ej=-kΣi=1mPijlnPij]]>
    其中k=1/ln(m),i=1,2,3…m,m表示句子的总数目,j=1,2,3…n,n表示每种情绪倾向的总数目;
    求算评估值=(熵值+-熵值-)/(熵值++熵值-)
    其中“熵值+”为情绪倾向为乐观时的熵值,“熵值-”为情绪倾向为悲观时的熵值,当评估值大于第一门坎值时,新闻文本的情绪倾向为乐观,当评估值小于第二门坎值时,新闻文本的情绪倾向为悲观。
    本发明提供的新闻文本情绪倾向分析方法中,第一门坎值为一个正实数值,第二门坎值为一个负实数值。
    本发明提供的新闻文本情绪倾向分析方法中,新闻文本为财经新闻、政治新闻或国际新闻中的一种,新闻文本中的每个句子以句号与其他句子彼此分隔,每个句子中的每个分句以逗号或分号与该句子的其他 分句彼此分隔。
    本发明还提供了另一种新闻文本情绪倾向分析方法,包括以下步骤:提供一情绪词汇库、一否定修饰词汇库与一有限状态自动机;对新闻文本进行分句分词处理,以产生若干个句子,其中每个句子包含至少一个子句,每个子句包含至少一个词汇;使用否定修饰词汇库与情绪词汇库对若干个句子进行词汇比对,以标示每个词汇为乐观词汇、悲观词汇、非情绪词汇或否定修饰词汇;依据词汇比对结果,将每个词汇分别转换为一个代表符号;使用有限状态自动机与每个分句的每个词汇的代表符号来推算每个分句的情绪倾向。
    上述本发明提供的另一种新闻文本情绪倾向分析方法,进一步包括以下步骤:累加新闻文本中每个句子所包含的每个分句的每种情绪倾向后,计算新闻文本中每种情绪倾向的熵值,以决定新闻文本的情绪倾向属于乐观、悲观或中性。
    本发明提供了一种分析文本的方法,包括以下步骤:提供若干个词汇库以及一有限状态自动机;分析文本以产生若干个句子,每个句子包括至少一个分句,每个分句包括至少一个词汇;将每个词汇与若干个词汇库进行比对,以标示每个词汇的属性以及对应该属性的代号;使用有限状态自动机比对该代号,以推算每个分句的情绪倾向;以单个句子为单位累加每种情绪倾向,从而计算出该文本中每种情绪倾向的熵值;以及依据该熵值决定该文本的情绪状态。
    上述本发明提供的分析文本的方法中,其中文本为新闻闻本,若干个词汇库包括一情绪词汇库与一否定修饰词汇库,情绪词汇库包括若干个乐观词汇与若干个悲观词汇,否定修饰词汇库包括若干个否定修饰词汇,文本的情绪倾向属于乐观、悲观或中性。
    本发明还提供了另一种分析文本的方法,包括以下步骤:拆解文本成若干个句子,每个句子包括至少一个分句,且每个分句包括至少一个词汇;分析每个词汇的属性,其中属性为乐观词汇、悲观词汇、非情绪词汇及否定修饰词汇中的一种;累加每个分句中所有词汇的每种属性,以推算每个分句的情绪倾向;以单个句子为单位累加每个分句的每种情绪倾向从而计算出该文本中每种情绪倾向的熵值,以决定该文本的情绪 倾向。
    综上所述,本发明提供了一种新闻文本情绪倾向分析方法,该方法具有不需建立语料的词汇机率分布,以分句为单位,经由有限状态自动机推估分句的情绪倾向,以及整合各分句之情绪倾向,经由熵值计算,推估文本情绪倾向等特色,具有提高新闻文本情绪倾向分析效率以及缩短新闻文本情绪倾向分析方法的相关应用??榈慕⑹背痰扔诺?,故其确实具有进步性与新颖性。
    以上本发明所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。

    关 键 词:
    一种 新闻 文本 情绪 倾向 分析 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种新闻文本情绪倾向分析方法.pdf
    链接地址://www.4mum.com.cn/p-6156933.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03