• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩遗漏最历史最久: 一种从文本数据中提取中文命名实体的方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN200910227302.1

    申请日:

    2009.12.04

    公开号:

    CN101719122A

    公开日:

    2010.06.02

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/27公开日:20100602|||实质审查的生效IPC(主分类):G06F 17/27申请日:20091204|||公开
    IPC分类号: G06F17/27; G06F17/30 主分类号: G06F17/27
    申请人: 中国人民解放军信息工程大学
    发明人: 李弼程; 张先飞; 刘路; 陈刚; 郭志刚
    地址: 450002 河南省郑州市信息学院路1号
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN200910227302.1

    授权公告号:

    ||||||

    法律状态公告日:

    2011.11.30|||2010.07.21|||2010.06.02

    法律状态类型:

    发明专利申请公布后的视为撤回|||实质审查的生效|||公开

    摘要

    本发明公开了一种从文本数据中提取中文命名实体的方法,该方法包括以下步骤:中文词语切分;中文停用词去除;分析中文分词结果中命名实体错误类型及原因;针对错误类型及原因分别制定修正规则;根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集;该发明方法提高命名实体提取准确率,并且能保证提取效率;适用于网络信息处理、网络数据挖掘及信息安全等领域,可以为后期的各种处理提供良好的预处理基础。

    权利要求书

    1: 一种从文本数据中提取中文命名实体的方法,其特征在于,该方法包括以下步骤: a.中文词语切分; b.中文停用词去除; c.分析中文分词结果中命名实体错误类型及原因; d.针对错误类型及原因分别制定修正规则; e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集; f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。
    2: 根据权利要求1所述的从文本数据中提取中文命名实体的方法,其特征在于,d步骤中所述的修正规则包括合并规则、同指人名提取规则、边界修正规则和类型修正规则。
    3: 根据权利要求2所述的从文本数据中提取中文命名实体的方法,其特征在于:所述的合并规则,即将中文分词结果中本应同属一个实体而被错误切分为两个或多个词语进行合并为一个实体;所述同指人名提取规则,即找到文本中指代同一个人名的词并进行统一标记;所述边界修正规则,即修正命名实体提取时丢失了自身一部分的错误,如果是地名丢失后缀,则建立相应的地名后缀词库来提供修正信息;所述类型修正规则,即修正命名实体提取时的类型判断错误。

    说明书


    一种从文本数据中提取中文命名实体的方法

        【技术领域】

        本发明涉及网络信息抽取与信息处理领域,尤其是涉及一种从文本数据中提取中文命名实体的方法。

        背景技术

        随着网络的普及,网页文本作为一种重要的信息载体,承载了大部分的网络信息。此处所述的命名实体指的是网页文本中的人名、地名、组织机构名、时间等短语,这些短语都是文本中基本的信息元素,往往指示了文章的主要内容,是正确理解文本的基础。因此,命名实体的有效提取对于高效获取网页信息具有非常重要的意义。例如,在信息抽取中如果没有先提取实体,根本就不可能识别实体关系,也不可能抽取事件模版;在文摘生成中,很多时候是对固定模式的填充,填充内容大都是“谁”、“什么时候”、“在哪里”等等,这正是命名实体的内容,因此从文章中获取这些内容就离不开命名实体的提取。因此,命名实体的准确提取是文本理解的前提,是文本信息处理领域所有后续工作的基础。然而,命名实体提取工作的困难在于:在真实文本中文句子不是以词为单位的,而是以字为单位。为了降低中文命名实体提取的复杂度,常常把分词信息用于中文命名实体提取中,但是分词的错误在命名实体提取过程中如果无法得到纠正,会导致错误蔓延。命名实体提取的错误主要分为两类:第一类错误是命名实体边界判断错误。这种错误的一种情况是丢失了原本属于命名实体的部分,一般发生在提取长度比较长或者结构比较复杂的地名和机构名的时候。例如:把“塔那那利佛机场”提取为“塔那那利佛”,丢失了“机场”这个后缀。另一种情况就是把本不属于这个命名实体的字或词包含了进来;例如:把“万县港组织30多只船投入抢救工作”这句话中的地名“万县港”认为是机构名“万县港组织”。第二类错误是命名实体类型判断错误,例如:把地名“刘庄”误识为人名。这种错误的发生一般都是因为两种命名实体可能在特征上有相似的地方。如上例中地名“刘庄”中的也是人名的姓氏之一,所以造成了这种错误。

        【发明内容】

        有鉴于此,本发明的目的在于提供一种从文本数据中提取中文命名实体的方法,提高命名实体提取准确率,并且能保证提取效率。

        为达到上述目的,本发明采用以下技术方案:

        本发明的从文本数据中提取中文命名实体的方法包括以下步骤:

        a.中文词语切分;

        b.中文停用词去除;

        c.分析中文分词结果中命名实体错误类型及原因;

        d.针对错误类型及原因分别制定修正规则;

        e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;

        f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。

        进一步,d步骤中所述的修正规则包括合并规则、同指人名提取规则、边界修正规则和类型修正规则。

        进一步,所述的合并规则,即将中文分词结果中本应同属一个实体而被错误切分为两个或多个词语进行合并为一个实体;所述同指人名提取规则,即找到文本中指代同一个人名的词并进行统一标记;所述边界修正规则,即修正命名实体提取时丢失了自身一部分的错误,如果是地名丢失后缀,则建立相应的地名后缀词库来提供修正信息;所述类型修正规则,即修正命名实体提取时的类型判断错误。

        本发明的有益效果是:

        本发明的方法是在中文分词的基础上,针对命名实体提取时出现的错误类型和及原因,提出的一种实用化的中文命名实体提取方法;该方法根据分析中文命名实体出现的规律,提出建立若干条规则,这些规则可以有针对性的对命名实体提取中出现的错误进行有效修正;然后通过验证对各条规则进行优化筛选,形成最优规则库,对中文命名实体提取中出现的错误进行修正,最终实现中文命名实体地有效提??;本发明在命名实体提取中抛开一些繁琐的算法,在基于规则命名实体提取方法中加入对规则的分析及由此而制定的修正规则,来修正中文分词结果中的错误,同时根据标注标准实时对修正规则进行不断调整,使得修正规则达到最优,所提取的命名实体结果准确而高效;与传统命名实体提取方法相比较,本发明方法的特点是:1、在中文分词的基础上进行,保证了所分析对象是词而不是单个字,这在基本上保证了实体提取的高效性;2、对实体提取错误类型进行了详细分析,有针对性的制定修正规则来调整提取错误,这样保证了实体提取的准确性。

        本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导;本发明的目标和其他优点可以通过下面的说明书以及附图中所特别指出的方式来实现和获得。

        【附图说明】

        附图为本发明方法的操作流程图。

        【具体实施方式】

        下面结合附图和实施例对本发明作进一步描述。

        本发明的的新方法首先对命名实体构词规则进行详细分析,然后在对中文分词和停用词去除的基础上,根据实体实例组成结构和上下文环境,制定匹配规则来修正中文分词错误导致的命名实体提取错误,最后将调整结果与标注标准进行比对,对错误实体进一步调整规则来修正,这样不断对规则进行筛选和更新,最后形成最优规则库对命名实体进行提取。结合附图所示,本发明的从文本数据中提取中文命名实体的方法包括以下步骤:

        a.中文词语切分;

        b.中文停用词去除;

        c.分析中文分词结果中命名实体错误类型及原因;

        d.针对错误类型及原因分别制定四种修正规则,即合并规则、同指人名提取规则、边界修正规则和类型修正规则;所述的合并规则,即将中文分词结果中本应同属一个实体而被错误切分为两个或多个词语进行合并为一个实体;所述同指人名提取规则,即找到文本中指代同一个人名的词并进行统一标记;所述边界修正规则,即修正命名实体提取时丢失了自身一部分的错误,如果是地名丢失后缀,则建立相应的地名后缀词库来提供修正信息;所述类型修正规则,即修正命名实体提取时的类型判断错误。

        e.根据标注标准语料匹配结果,将正确的命名实体输出,对出现错误的命名实体进一步对规则修正,并将修正后的规则输入到规则集,更新规则集;

        f.根据标注标准不断进行规则修正,直到输出结果最优,并确定最优规则集。

        以下进一步详细介绍规则修正的具体内容:

        由于日期和时间的格式比较固定,可以通过建立有限自动机比较精确地提取,因此该方法建立的规则主要是用于修正中文人名、地名和机构名提取时发生的一些错误。其中用于提取命名实体的规则大致可分为四类,下面分别加以描述和说明。

        规则类别1:合并规则

        该规则致力于修正命名实体提取中的两种错误:

        第一种错误:命名实体提取过程中存在的把属于一个整体的长命名实体分为几个连续的短命名实体进行提取。例如:把“中国国际广播电台”(机构名)识别为“中国”(地名)和“国际广播电台”(机构名)两个命名实体。

        第二种错误:属于支配关系的两个连续的命名实体没有进行合并。根据国家基础资源评测中心的命名实体识别规范中的关于支配结构规则,当两个呈支配关系的命名实体如果是接续结构则标记为一个。例如:“中国台湾”应当标记为一个命名实体,而不应该标记为“中国”“台湾”两个命名实体。

        规则类别2:同指人名提取规则

        这个规则旨在找到指代同一人名的词,并统一标记。

        中文外国人名的同指判断相对比较容易。一般外国人名的全称都有“·”作为名和姓的间隔,例如:“比尔·克林顿”。所以在识别同指人名的时候,一般都是寻找人名全称的名或者姓。例如:同一段文字中的“雪莉”和“雪莉·德雷帕”、“乔丹”和“迈克尔·乔丹”都是同指一人。

        中国人名由于组成形式相对比较多样,所以规则设定也比较复杂。

        中国人名同指判断规则:(1)实体2是实体1的名字部分,例如:实体1为“刘云飞”,实体2为“云飞”;(2)实体2是实体1的姓氏部分,例如:实体1为“李荣标”,实体2为“李”;(3)实体2是实体1的姓氏部分加人名后缀,例如:实体1为“张天骄”,实体2为“张总”;(4)实体2是实体1的名字部分加人名后缀,例如:实体1为“刘德华”,实体2为“华仔”;(5)实体2是人名前缀加实体1的姓氏部分,例如:实体1为“李泽明”,实体2为“老李”;(6)实体2是人名前缀加实体1的名字部分,例如:实体1为“陈烨”,实体2为“小烨”;(7)实体2是实体1的姓氏部分加称谓,例如:实体1为“毛泽东”,实体2为“毛主席”。

        规则类别3:边界修正规则

        此规则主要用于修正命名实体提取时丢失了自身一部分的错误。此类错误发生的大部分情况都是地名丢失后缀。针对这种情况,我们可以建立了一个地名后缀词库来提供修正信息。例如:识别“温布利镇”的时候丢失了后缀“镇”,误识为“温布利”。

        规则类别4:类型修正规则

        此规则用于修正命名实体提取时的类型判断错误,例如:把地名“贝宁”识别为人名。相比较其它规则,此规则的修正效果要差一些,因为类型比较模糊的命名实体特征不是很明显,利用规则的方法不容易适用于所有的情况,往往会发生误修正。

        规则库中的每条规则组成我们借鉴SEGTAG系统的格式,具体如式错误!未找到引用源。:

        POST_LIST+CONTEXT_WORD→<TYPE>RESULTNE</TYPE>,式错误!未找到引用源。中,POST_LIST是指由词性序列、内部关键词和后缀特征词等共同构成的匹配模式,其中内部关键词和后缀特征词在一条规则中是可选的;CONTEXT_WORD指的是命名实体前后的指示词,也是个可选项;RESULTNE指的是修正后最终识别出的命名实体,TYPE指的是最终识别出的命名实体的类型。下面给出一些规则的举例:

        <1>*/nr1#/nr2→<PER>*#</PER>,举例:“刘/nr1德华/nr2”→<PER>刘德华</PER>;

        <2>*/ns#/n大学/n→<ORG>*#大学</ORG>,举例:“北京/ns邮电/n大学/n”→<ORG>北京邮电大学</ORG>;

        <3>*/ns#/ns是/v→<LOC>*#</LOC>,举例:“中国/ns香港/ns是/v一颗璀璨的东方明珠?!薄?lt;LOC>中国香港</LOC>是一颗璀璨的东方明珠?!?br>
        此外,为规则库中的每条规则都设定了优先级,在匹配的时候,若一个命名实体匹配了多条规则,则以优先级高的那条规则为准。

        根据所制定的规则构建规则库来对所提取的实体进行修正,并对修正结果与标注标准进行比对,根据修正结果对规则库进行不断优化调整,最终形成最优规则库实现对命名实体的提取。

        使用本发明的新方法来提取命名实体,可以从避开单字对实体提取带来的不利影响,大大提高实体提取的准确性和高效性,其提取结果也为后期的文本各种处理及网页文本数据的挖掘提供了有力的保证。本发明适用于网络信息处理、网络数据挖掘及信息安全等领域,可以为后期的各种处理提供良好的预处理基础。

        最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,本领域普通技术人员对本发明的技术方案所做的其他修改或者等同替换,只要不脱离本发明技术方案的精神和范围,均应涵盖在本发明的权利要求范围当中。

    关 键 词:
    一种 文本 数据 提取 中文 命名 实体 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种从文本数据中提取中文命名实体的方法.pdf
    链接地址://www.4mum.com.cn/p-5781736.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03