• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 38
    • 下载费用:20 金币  

    重庆时时彩老走势图: 一种基于大规模知识库的热点事件挖掘方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201310741535.X

    申请日:

    2013.12.27

    公开号:

    CN103699663A

    公开日:

    2014.04.02

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131227|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 中国科学院自动化研究所
    发明人: 郝红卫; 孙正雅; 王桂香; 梁倩
    地址: 100190 北京市海淀区中关村东路95号
    优先权:
    专利代理机构: 中科专利商标代理有限责任公司 11021 代理人: 宋焰琴
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310741535.X

    授权公告号:

    ||||||

    法律状态公告日:

    2017.02.08|||2014.04.30|||2014.04.02

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于大规模知识库的热点事件挖掘方法,其包括:一种基于大规模知识库的热点事件挖掘方法,其特征在于,包括以下步骤:基于互联网中获取的数据,自动构建面向文本理解的大规模知识库,并实现其自动优化和知识更新;基于大规模知识库,对待检测的短文本进行结构化信息抽取,并根据所抽取的结构化信息对所述待检测的短文本进行分类,筛选出相应事件类文本;基于大规模知识库,将所筛选的事件类文本进行聚类,进而筛选出热点事件。本发明具有以下优点:自动从互联网中抽取结构化知识表示,并为实例和概念之间的语义关系建立结构化元组表示,并且具有知识回溯模式,提高了对短文本进行结构化信息抽取的准确度。

    权利要求书

    权利要求书
    1.  一种基于大规模知识库的热点事件挖掘方法,其特征在于,包括以下步骤:
    步骤S1:基于互联网中获取的数据,自动构建面向文本理解的大规模知识库,并实现其自动优化和知识更新;
    步骤S2:基于大规模知识库,对待检测的短文本进行结构化信息抽取,并根据所抽取的结构化信息对所述待检测的短文本进行分类,筛选出相应事件类文本;
    步骤S3:基于大规模知识库,将所筛选的事件类文本进行聚类,进而筛选出热点事件。

    2.  根据权利要求1所述的方法,其特征在于,步骤S1包括:
    步骤S11:通过层次化聚类构建概念层次结构体系,进行层次化多标签概念识别以构建实例-概念映射表,在此基础上构建类别表,构成本体库;
    步骤S12:以实例-概念映射表为基础,通过概念映射产生概念n元组,并对其进行评测,选择高质量的概念n元组组成通识库;
    步骤S13:以通识库中的概念n元组为参照,对实例n元组进行概念映射和歧义消除,并通过n元组评测保留高质量的实例n元组构成事实库;
    步骤S14:通过规则路径挖掘、规则置信度评估及规则权重学习构建规则库;
    步骤S15:利用本体库、通识库及规则库对知识库自动构建过程给以指导,实现事实库的自动扩充和知识抽取过程的优化;
    其中,大规模知识库包括通用知识库和领域知识库;通用知识库用于处理一般问题,领域知识库用于解决特定问题。

    3.  根据权利要求2所述的方法,其特征在于,步骤S11中,应用基于属性和非属性多源信息的层次化多标签概念识别技术,并建立实例-概念映射表实例-概念映射表的建立具体包括以下步骤:
    步骤S1121:基于属性区分度评估和属性构造的层次化多标签分类器进行概念识别,其中所述属性构造包括以下步骤:
    步骤S11211:以2个或3个属性为一组,在特定结构下,生成所有可能的属性组合;
    步骤S11212:评估每个组合的类别区分度;
    步骤S11213:在一定阈值下,选择区分度高的属性组合作为新的复合属性;
    其中,所述特定结构包括:
    结构1:组合中的所有属性取交集,即所有属性同时出现;
    结构2:组合中的所有属性取并集,即至少一个属性出现即可;
    结构3:多个属性构成析取范式;
    结构4:多个属性构成合取范式;
    步骤S1122:基于概念相似度计算和开放分类信息的层次化多标签进行概念识别,具体包括以下步骤;
    步骤S11221:判断实例是否为有歧义词,若有歧义,进行步骤S11226,否则进行步骤S11222;
    步骤S11222:获得无歧义实例的一组开放分类;
    步骤S11223:对其中的每个概念标签,进行概念相似度计算,其中,每个概念带有属性信息,通过比较概念之间属性的相似性并加权求和,获得概念之间的相似性;
    步骤S11224:为实例标注最符合的概念,得到一组概念;
    步骤S11225:对该组概念执行第一融合规则;
    其中,所述第一融合规则为:
    -计算概念间属性的重叠率,并依据给定阈值判断概念的相似程度;
    -当概念的属性集合完全重叠时,表明两个概念相同,去除重复概念;
    -当概念的属性集合为包含关系时,表明两个概念为父子关系,取孩子概念;
    -当两个概念为相交关系时,表明两个概念有一定相似性,取两个概念的交集作为最终概念;
    -当概念的属性集合无交集时,表明两个概念互斥、实例为歧义词,概念均保留;
    步骤S11226:获取有歧义实例的多组开放分类;
    步骤S11227:对每一组开放分类的每个类别标签,执行步骤S11222~S11225;
    步骤S11228:将得到的多组概念合并后执行第一融合规则。
    步骤S1123:基于概念相似度计算和多义词信息的层次化多标签进行概念识别;
    步骤S1124:执行第二融合规则进行层次化概念融合;
    其中,所述第二融合规则包括以下内容:
    -当实例无歧义时:以基于属性的概念识别结果为准;
    -当实例有歧义时:取属性标注与开放分类标注以及多义词标注的结果的并集,并执行第一融合规则;
    -对于无法标注概念而只有同义词信息的实例,通过查询其同义词的概念来确定该实例的概念。

    4.  根据权利要求3所述的方法,其中,所述层次化多标签分类器算法包括以下算法中的一种:
    -Multi-Label C4.5:决策树中C4.5算法的一种为适应多标签分类而进行的改进;
    -Predictive Clustering Trees:基于top-down induction决策树的层次化多标签分类器;
    -Random Forest PCTs:在PCTs基础上随机构建多个子集并训练模型,以投票的方式决定最终的类别;
    -Random Forest ML C4.5:在ML C4.5基础上应用Random Forest思想。

    5.  根据权利要求2所述的方法,其特征在于,步骤S12中通识库的构建包括以下步骤:
    步骤S121:在关系库中查找所有无歧义实体n元组;
    步骤S122:判断无歧义实体n元组是否已经为概念n元组,并对每个实体n元组概念化,形成概念n元组;
    步骤S123:统计每个概念n元组出现的频次,记录该频次并去除重复,得到初始概念n元组集合;
    步骤S124:对于初始概念n元组集合中的任意谓词,对于此谓词下的所有概念n元组,对谓词从1开始标号,其目的是用来以区分相同谓词下的不同概念n元组;
    步骤S125:根据概念n元组下实例n元组的频次对每个概念n元组进行评测,选择频次高于某一阈值的概念n元组组成通识库。

    6.  根据权利要求2所述的方法,其特征在于,步骤S13中事实库的构建包括以下步骤:
    步骤S131:对于任意实例n元组,判断该实例n元组是否有歧义,若无歧义,则执行步骤S132;若有歧义,则执行步骤S136;
    步骤S132:查询实例-概念映射表,为实例n元组中的每个实例标注概念;
    步骤S133:查询通识库,在忽略谓词标号的情况下寻找匹配项,;
    步骤S134:若只有一个匹配项,执行步骤S135,否则,执行步骤S13A;
    步骤S135:则将此概念n元组的谓词及概念标号赋给待标注的实例n元组,执行步骤S13A;
    步骤S136:查询实例-概念映射表,获得其在此谓词下所有可能的概念n元组集合C1;
    步骤S137:在通识库中查找此谓词下的所有概念n元组集合C2;
    步骤S138:忽略谓词标号,将C1和C2两个集合进行匹配;
    步骤S139:若能实现单一匹配,则消岐成功,执行步骤S135,否则,执行步骤S13A;
    步骤S13A:若实例n元组遍历完毕,结束,否则,执行步骤S131;
    步骤S13B:在语料库中计算每个实例出现的频次,根据实例频次对事实库中的元组进行评测以保留高质量的实例n元组并组成事实库。

    7.  根据权利要求2所述的方法,其特征在于,步骤S14中规则库的构建包括以下步骤:
    步骤S141:基于关系寻径算法,在通识库中进行规则路径搜索;
    步骤S142:在考虑父子关系的情况下对规则实例化,并计算规则置信度;
    步骤S143:根据规则置信度进行规则筛??;
    步骤S144:基于Markov逻辑网进行规则权重的学习。

    8.  根据权利要求2所述的方法,其特征在于,步骤S15中所述知识回溯过程包括以下步骤:
    步骤S151:事实库扩展:基于规则库,利用不确定推理技术,对事实库进行扩充,其包括以下步骤:
    步骤S1511:基于不确定推理技术的规则进行推理;
    步骤S1512:在推理基础上,在事实库中挖掘新的知识,即新的实例n元组;
    步骤S1513:更新事实库;
    步骤S152:结构化元组抽取的优化:使用已有的规则库、事实库、通识库对关系库抽取过程进行优化,同时更新通识库和事实库。

    9.  根据权利要求1所述的方法,其特征在于,步骤S2包括以下步骤:
    步骤S21:利用汉语分词技术将待检测的短文本转换为有序的词语序列,并对每个词语进行相应的词性标注,再依据词性模板,对特定词语序列进行词语的合并且同时修正其词性;
    步骤S22:基于步骤S21得到的词语序列,将其实体映射至层次化概念空间,并对其中的多义词语进行粗略的语义消歧,步骤S22进一步包括以下步骤:
    步骤S221:基于大规模知识库中的本体库,将句子中具有属性信息的实体映射至其层次化概念空间;
    步骤S222:依据句子中的各实体的所属的候选概念进行语义消歧,即在句子中无歧义实体的概念约束下,对多义实体的多个候选概念进行概率计算,将概率最高的概念作为本句中该实体的第一候选概念;
    步骤S23:基于所述步骤S22得到的结果,利用汉语依存关系抽取的技术,结合汉语的基本句式将词语序列转化为具有语义信息的结构元组序列,步骤S23进一步包括以下步骤:
    步骤S231:利用汉语依存关系抽取的技术,将S22中得到的词语序列进行依存分析,得到句子中词语之间的依存关系并进行存储;
    步骤S232:基于大规模知识库中的通识库和事实库,根据S231的依存关系及其步骤S22生成的带有第一候选概念的词语序列,并参考汉语基本句式,进行基于词性模板的结构化元组抽取并生成结构化元组;
    步骤S24:根据步骤S23得到的元组序列,基于事件领域知识库,抽取文本特征向量集并根据文本特征向量集进行识别,步骤S24进一步包括以下步骤:
    步骤S241:基于步骤S23中生成的结构化元组序列,在核心元组的谓词为主观动词和核心动词时,标注文本为非事件类文本,并结束识别,否则进行步骤S242;
    步骤S242:基于领域本体库,对每个元组中的谓词,若谓词存在于领域本体库中,则进行步骤S243,否则基于谓词的同义词,将核心谓词泛化成同义谓词序列,若领域本体库均不包含该序列中的所有词语,标注该文本为非事件类文本,并结束识别,否则,进行步骤S243;
    步骤S243:若核心元组缺失主语成分,则标注该文本为非事件类文本,结束识别,否则,基于领域本体库类别表中的情感词语表,若主语存在于情感词语表中,则标注该文本为非事件类文本,结束识别,否则进行步骤S244;
    步骤S244:将核心元组根据其实例的第一候选概念映射至概念元组,基于领域通识库进行元组事件性的判定;
    步骤S245:将核心元组的每个实例进行同义词的泛化,生成每个实体泛化后的同义词序列,并与核心谓词进行组合并生成核心元组的序列,基于领域事实库进行元组事件性的判定,形成事件类文本的元组特征并进行特征识别,最终得到事件文本集。

    10.  根据权利要求9所述的方法,其特征在于,所述步骤S222进一步包括以下步骤:
    步骤S2221:将S221中得到的每个无歧义实体与多义实体进行组合,构成实体对,并根据实体对中每个实体的各个概念,将实体对映射至概念对;
    步骤S2222:基于大规模知识库中的通识库,统计步骤S2221中每个概念对的频次,以多义实体的候选概念为中心,计算概念对出现的频次的累加合并进行归一化得到概率。

    11.  根据权利要求9所述的方法,其特征在于,所述步骤S232进一步包括以下步骤:
    步骤S2321:语句核心谓词识别,依据本体库类别表中的主观动词表及依存关系序列识别核心谓词;
    步骤S2322:名词短语识别,依据依存关系序列,将具有预定依存关系的动词词性修正为名词词性;
    步骤S2323:基于词性模板的介词短语识别,介词短语识别依据词性序列的模板;
    步骤S2324:将S2323中得到的介词短语序列从原始的词语序列中分离出来,同时过滤虚词、副词、形容词等词性,得到一组精简的词性序列, 扫描该词性序列中的每个动词,基于四种基本句式的词性模板进行结构化元组抽??;
    步骤S2325:基于通识库及依存关系的元组搭配验证;
    步骤S2326:基于通识库、依存关系的结构化元组进行成分的填充。

    12.  根据权利要求1所述的方法,其特征在于,步骤S3包括以下步骤:
    步骤S31:短文本预处理和分词,依据规则库中词语间的推断关系滤除带有事件结果的短句,其中,S31进一步包括以下步骤;
    步骤S311:以逗号为分割,确定每个短句的核心词语,核心词语为事件相关的名词或动词;
    步骤S312:搜索规则库,将规则库中词语的前后推出关系与多个短句的核心词进行匹配,若规则权重大于给定阈值且匹配成功,则短句之间构成前后推出关系,并且后面的词语是前面词语的结果,后面词语所在短句将被过滤;步骤S32:使用S2中的信息抽取技术获得短文本事件的结构化表述,即实例n元组表示形式;
    步骤S33:增量式特征选择与结构化元组匹配,同时构造用于聚类的特征值向量,其中,特征的表示形式为结构化元组;
    步骤S34:基于获得的结构化特征值向量,应用聚类算法进行聚类,获得初步的事件类别簇C1;
    步骤S35:基于知识库中的本体库,抽取短文本事件中的地点并计算事件之间的地点相似度,并将地点之间的包含关系考虑在内;
    步骤S36:基于本体库的时间抽取和时间匹配,在时间抽取过程中,除了分词算法标注的时间词外,通过查询实例-概念映射表,可以获取没有被分词算法识别而应该为时间词的词语,其中,步骤S36进一步包括以下步骤:
    步骤S361:短文本事件的发表时间获??;
    步骤S362:基于本体库中的实例-概念映射表和类别表,进行时间词抽??;
    步骤S363:时间相似度计算,时间比较采用区段内包含的方式,即两个时间相差不超过一定阈值或两个时间具有交集则认为匹配成功;
    步骤S37:基于时间和地点匹配的短文本事件再聚类,短文本事件经过时间和地点匹配后,每个短文本将得到时间-地点特征值向量,使用步骤S34中所述的聚类算法对短文本事件进行聚类,获得新的事件簇C2;
    步骤S38:基于词袋模型,将结构化特征聚类获得的事件簇C1与时间-地点特征聚类获得的事件簇C2融合,得到最终的事件簇C;
    步骤S39:热点事件排序和筛选,根据每个事件簇的大小对事件进行排序,并依据给定阈值筛选出热度高的事件;
    其中,所述步骤S34中所用的聚类算法包括以下算法之一:
    -K means算法;
    -Affinity Propagation(AP)算法;
    -Stream聚类算法;
    -Clustree聚类算法。

    13.  根据权利要求12所述的方法,其特征在于,所述步骤S33包括以下步骤:
    步骤S331:获取短文本事件的结构化元组表示形式;
    步骤S332:对于每个结构化元组,将其与特征向量逐一比较,保留与其相似度最高的特征;
    步骤S333:若相似度大于特定阈值,则认为该结构化元组与某一特征匹配成功,该短文本的特征值向量在相应位置为1,否则为0;若匹配失败,则认为是新的特征,将该结构化元组加入特征向量中,该短文本的特征值向量在相应位置为1,其余位置为0;
    步骤S334:检查短文本是否都完成结构化匹配,是则退出,否则,返回步骤S331;
    其中,步骤S332中,结构化元组将被划分为5种成分:谓词,主语,宾语,主语修饰,宾语修饰,并为每一部分赋予相应的权重w1~w5。

    14.  根据权利要求13所述的方法,其特征在于,所述步骤S332进一步包括以下步骤:
    步骤S3321:匹配前,初始化待匹配元组的准相似度为0;
    步骤S3322:以特征元组为基准,待匹配元组中每匹配上特征元组中的一部分,准相似度累加相应的权重。配过过程包括3种操作,即相同性判断,同义性判断,及概念相同性判断,此三种操作按照相似程度呈递减趋势,并给予准相似度的累加过程一定的衰减;
    步骤S3323:当以上3种操作不能实现两个对应实例的匹配时,查询规则库的简单实例规则,查找是否存在这两个实例的前后推出关系并且推出权重大于给定阈值,若是,则认为两个实例在规则层面实现匹配,准相似度累加相应权重;
    步骤S3324:假设特征元组中所有成分的权重之和为N,则准相似度的值除以N即为待匹配元组与特征元组的相似度。

    15.  根据权利要求12所述的方法,其特征在于,所述步骤S35进一步包括以下步骤:
    步骤S351:基于本体库中的实例-概念映射表,抽取分词后短文本的地点词,并且,当遇到新地点词而分词算法无法识别时,通过匹配地点标志词识别地点词边界,以及匹配其前面的地点词确认所发现的新地点词的正确性;
    步骤S352:根据地点间的层级关系,对短文本中抽取的地点,进行正确的归类,同一地点放在一起,同时区分不同地点;
    步骤S353:地点相似度匹配,查询本体库中的实例-概念映射表和同义词表,确定两个地点是否相同、相似或者具有父子包含关系,或是否在结尾处添加地点标志词后具有上述关系;
    其中,所述地点标志词存放于本体库的概念层次结构中,主要标志词列举如下:
    洲,国,省/州/府,市,县,乡,村,区,岛,镇,
    上述地点标志词一般位于地点词的结尾处,且在本体库的概念层次中已经标明它们之间的层级关系。

    关 键 词:
    一种 基于 大规模 知识库 热点 事件 挖掘 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种基于大规模知识库的热点事件挖掘方法.pdf
    链接地址://www.4mum.com.cn/p-6181051.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03