• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩10分钟一次: 信息抽取的方法及系统.pdf

    关 键 词:
    信息 抽取 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010127980.3

    申请日:

    2010.03.19

    公开号:

    CN102193951A

    公开日:

    2011.09.21

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20110921|||实质审查的生效IPC(主分类):G06F 17/30申请日:20100319|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 华为技术有限公司
    发明人: 周雅倩; 何一鸣; 姜孟晋; 谭卫国
    地址: 518129 广东省深圳市龙岗区坂田华为基地总部办公楼
    优先权:
    专利代理机构: 北京中博世达专利商标代理有限公司 11274 代理人: 申健
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010127980.3

    授权公告号:

    ||||||

    法律状态公告日:

    2014.05.21|||2011.11.23|||2011.09.21

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开一种信息抽取的方法及系统,涉及信息技术领域,该方法包括:从种子事件信息集合中提取事件名关键词集合;利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式;利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。本发明实施例主要用于信息抽取领域,在实现网页事件信息的抽取时,降低了人工标注训练语料的工作量。

    权利要求书

    1.一种信息抽取的方法,其特征在于,包括:从种子事件信息集合中提取事件名关键词集合;利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式;利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。2.根据权利要求1所述的信息抽取的方法,其特征在于,所述种子事件信息集合中的每个种子事件信息包括:事件名称、场所名和时间;所述事件信息包括:事件名称、场所名和时间。3.根据权利要求1所述的信息抽取的方法,其特征在于,所述利用所述初始事件名关键词集合从事件网页中抽取事件信息的方法为:基于DOM树的事件抽取方法。4.根据权利要求1所述的信息抽取的方法,其特征在于,所述学习出事件抽取模式的方法包括:基于模式的学习方法或者基于概率模型的训练方法。5.根据权利要求1所述的信息抽取的方法,其特征在于,该方法还包括:利用所述事件名关键词集合,采用基于DOM树的事件抽取方法从待抽取事件网页中的DOM树结构中抽取事件信息。6.根据权利要求1或5所述的信息抽取的方法,其特征在于,该方法还包括:利用所述事件名关键词集合和事件抽取模式从待抽取的事件网页中抽取事件信息。7.一种信息抽取系统,其特征在于,包括:提取单元,用于从种子事件信息集合中提取事件名关键词集合;第一更新单元,用于利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;学习单元,用于利用所述更新后的种子事件信息集合和事件名关键词集合从所述事件网页中学习出事件抽取模式;第二更新单元,用于利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。8.根据权利要求7所述的信息抽取系统,其特征在于,该系统还包括:第一抽取单元,用于利用所述事件名关键词集合,采用基于DOM树的事件抽取方法从待抽取网页的DOM树结构中抽取事件信息。9.根据权利要求7所述的信息抽取系统,其特征在于,该系统还包括:第二抽取单元,用于利用所述事件名关键词集合和事件抽取模式从待抽取的事件网页中抽取事件信息。

    说明书

    信息抽取的方法及系统

    技术领域

    本发明涉及信息技术领域,尤其涉及一种信息抽取的方法及系统。

    背景技术

    信息抽取可以从网页中找到所有与特定场所相关的事件信息,即把人们感兴趣的事件信息以元组的形式呈现出来,如在什么时间,什么人在什么地方做了什么事。由于现实生活中的事件以不同的格式分布在互联网上不同的网站中,通过事件抽取可以方便对特定场所的事件进行归类和分析。

    现有技术中采用自动本地事件抽取技术,使用概率抽取工具从电子文档,如网页中抽取事件信息。信息抽取的具体过程为训练阶段和抽取阶段。在训练阶段首先接收人工标注过的训练网页,采用基于概率方法训练事件抽取模型,然后输出事件抽取模型,即:词表、基于词汇的转移概率表和状态转移概率表。在事件抽取阶段,首先接收包含事件的网页,对接收的事件网页进行词汇切分得到词汇流,再根据事件抽取模型从词汇流中抽取事件元素信息,最后输出事件元素流。

    在实现上述事件抽取的过程中,发明人发现现有技术中所使用的训练网页需要耗费大量的人工来标注训练语料。

    发明内容

    本发明的实施例提供一种信息抽取的方法及系统,在实现网页事件信息的抽取时,降低了人工标注训练语料的工作量。

    为达到上述目的,本发明的实施例采用如下技术方案:

    一种信息抽取的方法,包括:

    从种子事件信息集合中提取事件名关键词集合;

    利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;

    利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式;

    利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。

    一种信息抽取系统,包括:

    提取单元,用于从种子事件信息集合中提取事件名关键词集合;

    第一更新单元,用于利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合;

    学习单元,用于利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式;

    第二更新单元,用于利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。

    由上述技术方案所描述的本发明实施例中,首先通过从种子事件信息集合中提取事件名关键词集合。然后利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。所述更新后的种子事件名关键词集合会被再次用于提取事件名关键词集合。然后,利用所述更新后的种子事件信息集合和所述事件名关键词集合从所述事件网页中学习出事件抽取模式,并利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合,该更新后的种子事件信息集合会被再次用于从所述事件网页中学习出事件抽取模式。最后得出的事件名关键词集合和事件抽取模式组成了事件抽取模型。与现有技术相比,本技术方案中只需少量的预设种子事件信息作为训练数据,从该种子事件信息集合中提取事件名关键词集合,通过将利用上述事件名关键词集合从事件网页中抽取出的事件信息来更新所述种子事件信息集合,进而获取事件抽取模式,整个过程不需要大量的人工去标注训练语料。从而解决了现有技术中需要使用大量人工标注的事件描述来训练事件抽取模型的问题。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

    图1为实施例1中的信息抽取模型学习的流程图;

    图2为实施例1中的信息抽取的系统结构图;

    图3为实施例2中的信息抽取模型学习的流程图;

    图4为实施例2中的信息抽取的系统结构图;

    图5为实施例2中的信息抽取的流程图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。

    实施例1:

    本发明实施例提供一种信息抽取的方法,如图1所示,该方法包括如下步骤:

    101、从种子事件信息集合中提取事件名关键词集合。

    该种子事件信息集合中每个种子事件信息中包含了事件名信息,从上述事件名信息中可以通过计算组成事件名的每个词的权重来提取出事件名关键词,比如:将所有计算出的权重值大于预定阈值的词作为事件名关键词,这些事件名关键词组成了事件名关键词集合。权重计算方法包含但不限于如下方法:权重=c*log((N/(gc+1))。其中,c为种子事件信息集合中包含某词的个数;gc为该词作为查询项在搜索引擎中返回网页的个数;N为搜索引擎索引页面的总数。

    102、利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。所述更新后的种子事件名关键词集合会被再次用于提取事件名关键词集合,通过不断更新种子事件信息和提取事件名关键词可以对所述事件名关键词集合进行扩充。

    103、利用所述种子事件信息集合和所述提取出的事件名关键词集合从所述事件网页中学习出事件抽取模式。该事件抽取模式的训练方法可以采用基于模式的学习方法或者基于概率模型的训练方法。

    104、利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。该更新后的种子事件信息集合会被再次用于从所述事件网页中学习出事件抽取模式,通过不断更新种子事件信息和学习事件抽取模式可以对所述事件抽取模式进行扩充。

    本发明实施例中,通过少量的种子事件信息集合作为训练数据,从该种子事件信息集合中提取事件名关键词集合,通过将利用上述事件名关键词集合从事件网页中抽取事件信息,并用上述事件信息来更新所述种子事件信息集合,可以对所述事件名关键词集合进行扩充,进而根据上述事件名关键词集合获取事件抽取模式,该事件名关键词集合和事件抽取模式组成了事件抽取模型。整个过程不需要大量的人工去标注训练语料就可以训练出事件抽取模型。从而解决了现有技术中需要使用大量人工标注的事件描述来训练事件抽取模型的问题。

    为了实现上述方法,本发明实施例还提供一种信息抽取系统,如图2所示,该系统包括:提取单元21、第一更新单元22、学习单元23和第二更新单元24。

    其中,提取单元21用于从种子事件信息集合中提取事件名关键词集合。第一更新单元22用于利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。所述更新后的种子事件信息集合会被所述提取单元21再次用于提取事件名关键词集合。

    学习单元23用于利用所述更新后的种子事件信息集合和事件名关键词集合从所述事件网页中学习出事件抽取模式。该学习单元所利用的更新后的种子事件信息集合为该第一更新单元最后一次得出的更新后的种子事件信息集合,该学习单元所利用的事件名关键词集合为该提取单元最后提取出的事件名关键词集合。

    然后,第二更新单元24用于利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。所述更新后的种子事件集合将会再次被学习单元用于学习出事件抽取模式。该学习单元最终学习得出的事件抽取模式和上述提取单元最终提取出的事件名关键词集合组成了事件抽取模型。

    该系统通过少量的种子事件信息集合作为训练数据,从该种子事件信息集合中提取事件名关键词集合,通过将利用上述事件名关键词集合从事件网页中抽取事件信息,并用上述事件信息来更新所述种子事件信息集合,可以对所述事件名关键词集合进行扩充,进而根据上述事件名关键词集合获取事件抽取模式,该事件名关键词集合和事件抽取模式组成了事件抽取模型。与现有技术相比,不需要大量的人工去标注训练语料就可以训练出事件抽取模型。

    实施例2:

    本发明实施例提供一种信息抽取的方法,如图3所示,该方法包括如下步骤:

    301、从种子事件信息集合中提取事件名关键词集合。

    该种子事件信息集合中每个种子事件信息中包括:事件名称信息、场所名信息和时间信息,从上述事件名称信息中可以通过计算组成事件名的每个词的权重来提取出事件名关键词,比如:将所有计算出的权重值大于预定阈值的词作为事件名关键词,这些事件名关键词组成了事件名关键词集合。权重计算方法包含但不限于如下方法:权重=c*log((N/(gc+1))。其中,c为种子事件信息集合中包含某词的个数;gc为该词作为查询项在搜索引擎中返回网页的个数;N为搜索引擎索引页面的总数。

    302、利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。所述事件信息包括:事件名称、场所名和时间。该事件信息也可以称之为事件三元组。

    上述抽取事件信息的方法可以采用基于DOM树的事件抽取方法。在具体实施过程中,可以采用如下描述实现:首先根据输入的事件网页,生成所述事件网页的DOM树结构。在所述事件网页的DOM树中查找包含了预定场所名的节点,并且若在一条路径上有多个这类节点,只保留离根节点最远的那个。把保留下来的处于并列位置的节点合并,得出一个或者多个事件列表块。所谓处于并列位置,指的是所有相邻的两个节点到其公共祖先的路径之和相等。由于每个网页的事件列表结构是固定的,通过分析所述列表块中的每列,就可以识别出场所列,时间列和事件列。所述场所列,时间列和事件列组成事件信息。如果无法在上述列表块中识别出上述场所列,时间列和事件列三种列中的某一个列,则舍弃整个块。

    在事件名关键词集合的提取过程中,为了提取出更多的事件名关键词,所述更新后的种子事件名关键词集合会被再次用于提取事件名关键词集合,从而可以对所述事件名关键词集合进行扩充。具体实施过程可以通过如下描述实现:利用所述事件名关键词集合从事件网页中抽取第一事件信息,并利用所述第一事件信息更新所述种子事件信息集合。从更新后的种子事件信息集合中提取第一事件名关键词集合。再次利用所述提取出的第一事件名关键词集合从事件网页中抽取第二事件信息,并利用所述第二事件信息更新所述种子事件信息集合。然后从更新后的种子事件信息集合中提取第二事件名关键词集合,如此重复执行,在满足预设终止条件后,输出最后得出的事件名关键词集合。同时输出最后得出的更新后的种子事件信息集合。上述满足预设终止条件可以为:重复执行的次数满足预定次数;或者为:所述事件网页的数量满足预定数量。

    303、利用上述最后输出的种子事件信息集合和所述提取出的事件名关键词集合从所述事件网页中学习出事件抽取模式。该事件抽取模式的训练方法可以采用基于模式的学习方法或者基于概率模型的训练方法。

    本步骤在具体实施中,采用基于模式的学习方法包含但不限于以下方法:

    事件抽取模式采用的格式可以定义为(tp,lp,ep,order,endl,m1,m2,endr,urlpattern)。该模式中的各项分别为:

    tp:时间模式。取值范围:{1,2},分别表示符合预设时间表达式,或任意。

    lp:场所名模式。取值范围:{1,2},分别表示符合预设场所名集合中的词,或任意。

    ep:事件名模式。取值范围:{1,2},分别表示包含事件名关键词集合中的某个事件名关键词中的串,或任意。

    order:事件三元素,即:时间、场所名和事件名,在文本中出现的次序。取值范围:{“tle”,“tel”,“lte”,“let”,“etl”,“elt”},分别表示6种不同的排列次序。

    endl,endr:前缀,后缀。取值范围:取特定的1,…,或k个字的前缀或后缀。

    m1,m2:中间串。取值范围:空;或者取特定的1,…,或2k个字;或者串头(串尾)取特定的1,…,或k个字,中间取任意(少于d)个字。

    urlpattern:该模式所适用的url模式。取值范围:符合某种url模式,或任意。

    首先,在事件网页中定位更新后的种子事件信息集合中的事件三元组,找到距离最近的包含了事件三个元素即:时间、场所名和事件名,并且元素间字的个数不超过2k+d的字串,其中前后各扩k个字,若前缀后缀没有足够的字,则以特殊字符填充。

    然后,在上述找出的字串中,分别抽取前后缀字串和两个中间字串,并且根据三元素出现的次序,对事件抽取元组(t,l,e,order,endl,m1,m2,endr,url)进行填充。对于所有order相同的元组,把其url,前缀,后缀和中间串进行合并,形成一个或多个类。并保证若串非空,每个串中的边界字至少有1个,每个模式对应的实例最少有2个。

    然后,分别判断t是否符合预设时间表达式,1是否符合预设场所名集合中的词,e是否包含事件名关键词集合中的事件名关键词。若符合或包含,则同时对“任意”情况进行扩充。根据上述三个因素把类扩充成一个或多个模式(一个类最多扩充成8个)。把每个模式p在所有事件网页上抽取事件三元组,正确抽取的事件三元组定义为:t符合时间表达式,1在场所名列表中或者e包含事件名关键词或在事件库中。

    最后,对模式p进行打分。分值计算方法为:S(p)=(p.正确抽取个数/p.抽取总数)*log2(p.正确抽取个数)。输出得分最高的几个模式,或者得分大于特定阈值的模式。该输出的模式即为训练出的事件抽取模式。

    根据以下表2和表3中的两个事件网页,可以学习出表4中的事件抽取模式。

    其中,表2表示的内容为:

    www.tickets365.com.cn/tk2005/usr/ticket_detail.jsp?ticketid=57933中的部分内容。表3表示的内容为:

    www.tickets365.com.cn/tk2005/usr/ticket_detail.jsp?ticketid=58786中的部分内容。

    表2

    ??您现在所在的位置:2009-孙燕姿上海演唱会
    ??2009-孙燕姿上海演唱会
    ??时间:2009年8月8日19:30
    ??地点:八万人体育场
    ??票价:1080、880、680元/内场
    ????????300、200、100元/看台……

    表3

    ??您现在所在的位置:都市电影诗话剧《午夜浓情吧》
    ??都市电影诗话剧《午夜浓情吧》
    ??时间:2009年8月7-16日19:30
    ??地点:兰心大戏院
    ??票价:380、280、180、100元
    ??订票热线:8008207910、4008207910、021-62728333……

    表4

    ??tp:2
    ??lp:2
    ??ep:2
    ??order:etl
    ??endl:“/s/n/s”
    ??endr:“/n票价”
    ??m1:“/n/n/s.*时间:”

    ??m2:“/n地点:”
    ??urlpattern:www.tickets365.com.cn/tk2005/usr/ticket-detail.jsp?ticketid=

    本步骤在具体实施中,采用基于概率模型的训练方法训练出事件抽取模式的过程如下所述:首先根据更新后的种子事件信息集合,即事件三元组集合,通过使用表格类事件网页中抽取出来的大量高质量的事件信息,在事件网页中进行自动定位来获得的训练语料,将事件名关键词集合和预定场所名集合作为词典知识,使用最大熵模型来训练事件元素识别模型。而用最大熵模型来训练一个特定的命名实体识别模型是已有技术,在此不再赘述。上述训练出的事件元素识别模型即为事件抽取模式。

    例如,根据上述表2和表3中的网页可以训练出下面表5中的事件元素识别模型。

    表5

    ??ID
    ??特征
    ??权重
    ??1
    ??C_2C_1Y_1L0E0?/n?/s?0?0?1?EI
    ??2.5
    ??2
    ??Y_1L0E0?EI?0?1?EI
    ??2.0
    ??3
    ??Y_1L0E0C1?EI?0?0?/n?0
    ??1.5
    ??4
    ??C_3C_2C_1?Y_1L0E0地点:0?1?0?LI
    ??3.0
    ??5
    ??Y_1L0E0?LI?1?0?LI
    ??2.0
    ??6
    ??Y_1L0E0C1?LI?0?0?/n?0
    ??1.5

    ??7
    ??C_3C_2C_1?Y_1L0E0时间:0?1?0?TI
    ??3.0
    ??8
    ??Y_1L0E0?TI?1?0?TI
    ??3.0
    ??9
    ??Y_1L0E0C1?TI?0?0?/n?0
    ??1.5

    其中,“L0”表示当前字所在字串是否包含预设场所名集合中的场所名(1表示包含,0表示不包含),“E0”表示当前字所在字串是否包含事件名关键词集合中的关键词(1表示包含,0表示不包含),“T0”表示当前字所在字串是否符合预设时间正则表达式(1表示符合,0表示不符合)。所谓字串指的是非空白类字符串?!癈_3C_2C_1”分别表示当前字的左边第3、2、1个字?!癥_1”表示左边第1个字的标记?!?n”表示回车符,“/s”表示空白符。例如上面第一个特征表示:左边两个字分别是“/n/s”,左边标记是“0”,当前字所在字串不包含预设场所名集合中的场所名,并且当前字所在字串包含事件名关键词集合中的关键词的时候,当前字标为EI的权重为2.5。

    304、得出事件抽取模式之后,可以利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。该更新后的种子事件信息集合会被再次用于从所述事件网页中学习出事件抽取模式,通过不断更新种子事件信息和学习事件抽取模式可以对所述事件抽取模式进行扩充。在具体实施过程中,为了获得更多的事件抽取模式,可以采取如下描述执行:

    首先,利用所述更新后的种子事件信息集合和事件名关键词集合从所述事件网页中学习出第一事件抽取模式,然后用所述第一事件抽取模式从事件网页集合中抽取第一事件信息,用所述第一事件信息更新所述种子事件信息集合。再次利用所述更新后的种子事件信息集合和上述事件名关键词集合从事件网页中学习出第二事件抽取模式,然后用所述第二事件抽取模式从所述事件网页中抽取第二事件信息,用所述第二事件信息更新所述种子事件信息集合。如此重复执行,在满足预设终止条件后,输出最后得出的事件抽取模式。上述满足预设终止条件可以为:重复执行的次数满足预定次数;或者为:所述事件网页的数量满足预定数量。

    当学习出事件关键词集合和事件抽取模式之后,就可以利用上述事件关键词集合和事件抽取模式对待抽取的事件网页进行事件信息的抽取了。利用所述事件关键词集合和事件抽取模式进行事件信息抽取的过程,如图5所示,包括如下步骤:

    501、利用所述事件名关键词集合,采用基于DOM树的事件抽取方法从待抽取网页的DOM树结构中抽取事件信息。该基于DOM树的事件抽取方法与步骤302中所描述的基于DOM树的事件抽取方法相同。本步骤中采用基于DOM树的事件抽取方法可以获得较高精度的抽取结果。

    502、如果步骤501中利用所述事件名关键词集合,采用基于DOM树的事件抽取方法从待抽取网页的DOM树结构中无法抽取出事件信息时,则利用所述事件名关键词集合和事件抽取模式从待抽取的事件网页中抽取事件信息。

    如上描述可以知道上述事件抽取模式的训练方法可以采用基于模式的学习方法或者基于概率模型的训练方法。

    当所述事件抽取模式采用基于模式的学习方法获得时,利用该事件抽取模式从待抽取的事件网页中抽取事件信息时,具体实施过程可以通过下面描述实现:首先对输入的待抽取事件网页进行网页清洗,得出文本信息。使用预设时间正则表达式、预设场所名集合和上述事件关键词集合在所述文本中定位事件的三个元素即:时间、场所名和事件关键词。使用上述事件抽取模式在文本中进行匹配抽取出事件的三个元素,根据抽取模式的次序属性确定三个元素的次序,输出事件的三个元素。该事件三个元素即为事件信息。

    当所述事件抽取模式采用基于概率模型的训练方法获得时,此时该事件抽取模式也称之为事件要素识别模型。利用该事件要素识别模型从待抽取的事件网页中抽取事件信息时,具体实施过程可以通过下面描述实现:对输入的待抽取事件网页进行网页清洗,得出文本信息。使用事件要素识别模型在文本中抽取所有的时间、场所名和事件名。使用事件要素合并算法对所述识别出来的事件要素进行合并得出事件三元组。

    上述事件要素合并算法的具体实施过程可以为:假设在网页中找到的所有事件的三个要素(即:场所名,时间或事件名)顺序表示为a[i],其中i=1..n.,首先,判断a[i],a[i+1],a[i+2]是否分别属于不同类别的要素时,并且a[i]和a[i+1]之间的相隔的字数加上a[i+1]和a[i+2]之间的相隔的字数是否小于k,其中k可取100。如果a[i],a[i+1],a[i+2]分别属于不同类别的要素时,并且a[i]和a[i+1]之间的相隔的字数加上a[i+1]和a[i+2]之间的相隔的字数小于k,其中k可取100。那么(a[i],a[i+1],a[i+2])为一个事件,合并所述a[i],a[i+1],a[i+2]所表示的三个要素,该合并后的三个要素即为抽取出的事件信息。接着执行i=i+3。否则i=i+1。接着再次执行判断a[i],a[i+1],a[i+2]是否分别属于不同类别的要素时,并且a[i]和a[i+1]之间的相隔的字数加上a[i+1]和a[i+2]之间的相隔的字数是否小于k,其中k可取100。如此重复直至判断到最后一个元素。例如,采取上述的合并算法可以将从上述表3中抽取出的事件名“都市电影诗话剧《午夜浓情吧》”,时间“2009年8月7-16日19:30”以及场所名“兰心大戏院”合并成一个事件信息。

    本发明实施例中,通过少量的预设种子事件信息集合作为训练数据,从该种子事件信息集合中提取事件名关键词集合,通过将利用上述事件名关键词集合从事件网页中抽取事件信息,并用上述事件信息来更新所述种子事件信息集合,可以对所述事件名关键词集合进行扩充,进而根据上述事件名关键词集合获取事件抽取模式,该事件名关键词集合和事件抽取模式组成了事件抽取模型。整个过程不需要大量的人工去标注训练语料就可以训练出事件抽取模型。从而解决了现有技术中需要使用大量人工标注的事件描述来训练事件抽取模型的问题。

    为了实现上述方法,本发明实施例还提供一种信息抽取系统,如图4所示,该系统包括:提取单元41、第一更新单元42、学习单元43、第二更新单元44、第一抽取单元45和第二抽取单元46。

    其中,提取单元41用于从种子事件信息集合中提取事件名关键词集合。更新单元42用于利用所述事件名关键词集合和预设场所名集合从事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。

    学习单元43用于利用所述更新后的种子事件信息集合和事件名关键词集合从所述事件网页中学习出事件抽取模式。第二更新单元44用于利用所述事件抽取模式从所述事件网页中抽取事件信息,并利用所述事件信息更新所述种子事件信息集合。

    第一抽取单元45用于利用所述事件名关键词集合,采用基于DOM树的事件抽取方法从待抽取网页的DOM树结构中抽取事件信息。所述第一抽取单元45采用基于DOM树的事件抽取方法可以获得较高精度的抽取结果。如果所述第一抽取单元44从待抽取网页的DOM树结构中无法抽取出事件信息时,第二抽取单元46用于利用所述事件名关键词集合和事件抽取模式从待抽取的事件网页中抽取事件信息。

    该系统通过少量的种子事件信息集合作为训练数据,从该种子事件信息集合中提取事件名关键词集合,通过将利用上述事件名关键词集合从事件网页中抽取事件信息,并用上述事件信息来更新所述种子事件信息集合,可以对所述事件名关键词集合进行扩充,进而根据上述事件名关键词集合获取事件抽取模式,该事件名关键词集合和事件抽取模式组成了事件抽取模型。与现有技术相比,不需要大量的人工去标注训练语料就可以训练出事件抽取模型。

    本发明实施例主要应用于信息处理领域,解决了现有技术中在进行事件抽取模型训练时需要大量人工去标注训练语料的问题。

    通过以上的实施方式的描述,所属领域的技术人员可以清楚地了解到本发明可借助软件加必需的通用硬件的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式?;谡庋睦斫?,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在可读取的存储介质中,如计算机的软盘,硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

    以上所述,仅为本发明的具体实施方式,但本发明的?;し段Р⒉痪窒抻诖?,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的?;し段е?。因此,本发明的?;し段вσ运鋈ɡ蟮谋;し段?。

    关于本文
    本文标题:信息抽取的方法及系统.pdf
    链接地址://www.4mum.com.cn/p-5866034.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 天津时时彩官方网址 快乐飞艇正规吗 云南时时彩购方式 三人麻将游戏手机版大全 河北20选5走势图带连线 浙江11选5走势图一定 2018年码报图 好赢彩票群 重庆快乐10分直播 中国福利彩票双色球玩法 天津泳坛夺金 广东南粵36选7走势图 甘肃11选5网 2014年第24期特码资料 中国澳客彩票官网 一组三中三精准资料