• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 17
    • 下载费用:20 金币  

    重庆时时彩好账号注册: 一种网页信息抽取方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210579270.3

    申请日:

    2012.12.27

    公开号:

    CN103902578A

    公开日:

    2014.07.02

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121227|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 中国移动通信集团四川有限公司
    发明人: 王全礼; 杨俊拯
    地址: 610041 四川省成都市高升桥路1号
    优先权:
    专利代理机构: 北京中誉威圣知识产权代理有限公司 11279 代理人: 郭振兴;彭晓玲
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210579270.3

    授权公告号:

    103902578B||||||

    法律状态公告日:

    2017.05.31|||2014.07.30|||2014.07.02

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种网页信息抽取方法和装置,该方法包括:1)获取预设的第一信息集合和第一正则表达式群;2)根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;3)根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群,根据所述第三正则表达式群进行网页信息抽取。本发明采取了上述方法以后,能够通过给定一个一类信息很小的值的集合,生成正则表达式群,以解决一类信息在所有网站上的数据抽取问题,其可以节省目前海量的互联网网页中信息抽取大量人工参与的工作量。

    权利要求书

    权利要求书
    1.  一种网页信息抽取方法,其特征在于,包括:
    1)获取预设的第一信息集合和第一正则表达式群;
    2)根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
    3)根据所述第二网页集合和所述第一信息集合生成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;
    4)根据所述第三正则表达式群进行网页信息抽取。

    2.  根据权利要求1所述的网页信息抽取方法,其特征在于,步骤4)中,根据所述第三正则表达式群进行网页信息抽取之前,还包括:根据所述第三正则表达式群在所述第二网页集合中提取信息;
    根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。

    3.  根据权利要求1或2所述的网页信息抽取方法,其特征在于,步骤3)中,将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群之后,还包括:
    利用所述第三正则表达式群在所述第一网页集合中检索形成第二信息集合,并比对第一信息集合和第二信息集合;
    其中,当所述第一信息集合和第二信息集合中的信息不相同时,则重复所述步骤2)和3),直至所述第一信息集合和第二信息集合中相同,并据此确定最终的第三正则表达式群。

    4.  根据权利要求1所述的网页信息抽取方法,其特征在于,步骤3)中,根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,具体包括:获取第一信息集合中的任一设定信息元素;
    找到所述第二网页集合中的网页中所述设定信息元素的位置;
    向前和向后回溯,找到所述设定信息元素的网页标签及描述信息,并预先定义正则表达式的样式生成所述第一信息集合的正则表达式群。

    5.  根据权利要求4所述的网页信息抽取方法,其特征在于,进一步包括,在步骤2)之前,还包括:
    预先定义正则表达式的样式p=prefix info suffix,prefix和suffix为正则表 达式的前缀和后缀,具体值为网页标签集合中某一个信息元素及描述信息;
    其中,其中info内容通过数字、字母、特殊符号、汉字表示,prefix和suffix通过页标签集合表示。

    6.  一种网页信息抽取装置,其特征在于,包括:
    初始化单元,用于获取预设的第一信息集合和第一正则表达式群;
    信息检索单元,用于根据所述第一信息集合和第一正则表达式群在第一网页集合中检索到包含所述第一信息集合的所有网页并形成第二网页集合;
    正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,并将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群;
    信息抽取单元,用于根据所述第三正则表达式群进行网页信息抽取。

    7.  根据权利要求1所述的网页信息抽取装置,其特征在于,还设有表达式去重单元,用于在根据所述第三正则表达式群进行网页信息抽取之前,根据所述第三正则表达式群在所述第二网页集合中提取信息;
    并进一步根据所述提取信息过滤掉错误的或者重合的正则表达式,并最终形成经过过滤后的第三正则表达式群。

    8.  根据权利要求1或2所述的网页信息抽取装置,其特征在于,所述正则表达式生成单元,用于将所述第一正则表达式群和第二正则表达式群相并生成第三正则表达式群之后,利用所述第三正则表达式群在所述第一网页集合中检索形成第二信息集合,并比对第一信息集合和第二信息集合;
    其中,当所述第一信息集合和第二信息集合中的信息不相同时,则所述信息检索单元和正则表达式生成单元重复进行表达式生成步骤,直至所述第一信息集合和第二信息集合中相同,并据此确定最终的第三正则表达式群。

    9.  根据权利要求1所述的网页信息抽取装置,其特征在于,所述正则表达式生成单元,用于根据所述第二网页集合和所述第一信息集合形成第二正则表达式群,具体包括:获取第一信息集合中的任一设定信息元素;
    找到所述第二网页集合中的网页中所述设定信息元素的位置;
    向前和向后回溯,找到所述设定信息元素的网页标签及描述信息,并预先定义正则表达式的样式生成所述第一信息集合的正则表达式群。

    10.  根据权利要求4所述的网页信息抽取装置,其特征在于,还包括:
    表达式式样存储单元,用于存储预先定义正则表达式的样式p=prefix infosuffix,prefix和suffix为正则表达式的前缀和后缀,具体值为网页标签集合中某一个信息元素及描述信息;
    其中,其中info内容通过数字、字母、特殊符号、汉字表示,prefix和suffix通过页标签集合表示。

    关 键 词:
    一种 网页 信息 抽取 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种网页信息抽取方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6120768.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03