• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩2018版: 一种针对网页结构变化的不间断爬虫系统构建方法.pdf

    关 键 词:
    一种 针对 网页 结构 变化 不间断 爬虫 系统 构建 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410190386.7

    申请日:

    2014.05.07

    公开号:

    CN103942335A

    公开日:

    2014.07.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140507|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 武汉大学
    发明人: 刘金硕; 张智; 邓娟; 邓莹莹; 陈嘉敏; 彭映月; 李亚波; 徐亚渤
    地址: 430072 湖北省武汉市武昌区珞珈山武汉大学
    优先权:
    专利代理机构: 武汉科皓知识产权代理事务所(特殊普通合伙) 42222 代理人: 张火春
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410190386.7

    授权公告号:

    ||||||

    法律状态公告日:

    2017.04.26|||2014.08.20|||2014.07.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种针对网页结构变化的不间断爬虫系统构建方法,本发明在数据抽取的过程中,并不依赖于具体的标签节点,而是通过计算的方法来寻找目标节点;利用节点剪枝和相似哈希的方法锁定标题节点;然后,迭代计算相关节点的上下文主题相关度值TTR,得到目标抽取??榈慕诘?;最后,使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取,在库匹配的过程中,使用了库动态增长的方法;同时,在目标抽取节点下的剩余节点中,过滤掉所有噪声节点,便得到网页文本的正文信息;本发明提供的技术方法主要应用于舆情监测系统中,对其他用途的网络爬虫具有一定参考价值。

    权利要求书

    权利要求书
    1.  一种针对网页结构变化的不间断爬虫系统构建方法,其特征在于,包括如下步骤:
    步骤1,爬虫根据用户自定义数据抽取的入口地址,获取对应的HTML页面,并调用HTML解析器将HTML页面解析成DOM树;
    步骤2,构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点;
    步骤3,抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈希值Ni;比对T与Ni,差值小于阈值的节点即为目标抽取文本的标题节点;
    步骤4,设定标题节点为起始节点,自底向上迭代计算各节点的上下文主题相关度值TTR,找到TTR值最大的节点,该节点即为目标抽取??榻诘?;相关度值TTR的计算公式为:
    TTR(ni)=ContentCount(ni)ContentCount(Pni)]]>
    其中,TTR(ni)表示当前节点的上下文主题相关度,ContentCount(ni)表示当前节点下的字符数,ContentCount(Pni)则表示当前节点的父节点下的字符数;
    步骤5,根据确定的目标抽取???,分别利用正则表达式和库匹配方法实现对目标节点下发布时间以及新闻来源字段的提取,库匹配流程实现信息发布源数据库的动态增长;最后,提取大块的正文文本内容。

    2.  根据权利要求1所述的一种针对网页结构变化的不间断爬虫系统构建方法,其特征于:所述的步骤2中,对于超链接节点的剪枝处理通过下述公式计算;
    E(i)=LinkContent(i)Content(i)]]>
    其中,LinkContent(i)表示当前节点下超链接文本的字符数,Content(i)则表示当前节点下所有的字符数;如果E(i)=1,则是与文本无关的纯超链接节点, 在数据抽取的时候直接过滤掉,否则不做处理。

    说明书

    说明书一种针对网页结构变化的不间断爬虫系统构建方法
    技术领域
    本发明涉及一种爬虫系统构建方法,具体的为一种针对网页结构变化的不间断爬虫系统构建方法。
    背景技术
    网络爬虫是各种搜索引擎能够实现的先驱技术,大数据时代的来临以及互联网技术的飞速发展,使得网络爬虫具有更重大的研究意义。应对网页数据量增幅大、网络文本更新周期短以及网页结构动态变化等一系列挑战,高效率且不间断工作的网络爬虫成为Web信息挖掘的研究热点。
    目前,网络爬虫基本上都是基于页面结构实现数据获取的。通过获取网页文档,将网页文档解析成DOM树的形式,根据DOM树的规则,HTML文档中的所有元素都用节点来表示。根据DOM树构建抽取规则,实现数据抽取。在数据抽取的过程中,由于网页信息源的异构性,为了不损失抽取精度,需要针对每个网站都构造相应的抽取规则。这样爬虫的覆盖率会十分低,极大地限制了网络资源获取的可能性?;贒OM树的网络页面获取技术能够提高数据获取的效率和系统资源利用率。但是,在数据抽取的时候会依赖该页面具体的标签节点,一旦对应的页面结构发生变化或者出现新的标签节点命名规则,不但使爬虫获取不到正确的数据,还会进一步导致爬虫停止数据获取的工作。
    如何在利用DOM树规则快速抽取数据的便利性、针对异构信息源构建通用的抽取规则以及保证爬虫在页面结构动态变化的时候能够不间断工作,目前在本领域尚未出现解决的方法。
    发明内容
    本发明为了解决上述的技术问题,提出了一种针对网页结构变化的不间断爬虫系统构建方法。
    本发明的技术方案是:一种针对网页结构变化的不间断爬虫系统构建方法,包括如下步骤:
    步骤1,爬虫根据用户自定义数据抽取的入口地址,获取对应的HTML页面,并调用HTML解析器将HTML页面解析成DOM树;
    步骤2,构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点;
    步骤3,抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈希值Ni;比对T与Ni,差值小于阈值的节点即为目标抽取文本的标题节点;
    步骤4,设定标题节点为起始节点,自底向上迭代计算各节点的上下文主题相关度值TTR,找到TTR值最大的节点,该节点即为目标抽取??榻诘?;相关度值TTR的计算公式为:
    TTR(ni)=ContentCount(ni)ContentCount(Pni)]]>
    其中,TTR(ni)表示当前节点的上下文主题相关度,ContentCount(ni)表示当前节点下的字符数,ContentCount(Pni)则表示当前节点的父节点下的字符数;
    步骤5,根据确定的目标抽取???,分别利用正则表达式和库匹配方法实现对目标节点下发布时间以及新闻来源字段的提取,库匹配流程实现信息发布源数据库的动态增长;最后,提取大块的正文文本内容。
    所述的步骤2中,对于超链接节点的剪枝处理通过下述公式计算:
    E(i)=LinkContent(i)Content(i)]]>
    其中,LinkContent(i)表示当前节点下超链接文本的字符数,Content(i)则表示当前节点下所有的字符数;如果E(i)=1,则是与文本无关的纯超链接节点,在数据抽取的时候直接过滤掉,否则不做处理。
    本发明的有益效果是:一种针对网页结构变化的不间断爬虫系统构建方法,在数据抽取的过程中,并不依赖于具体的标签节点,而是通过计算的方法来寻找目标节点。利用节点剪枝和相似哈希的方法锁定标题节点。然后,迭代计算相关节点的上下文主题相关度值TTR,得到目标抽取??榈慕诘?。最后,使用正则表达式以及库匹配的方法实现对时间和新闻来源的信息的获取,在库匹配的过程中,使用了库动态增长的方法。同时,在目标抽取节点下的剩余节点中,过滤掉所有噪声节点,便得到网页文本的正文信息。本发明提供的技术方法主 要应用于舆情监测系统中,对其他用途的网络爬虫具有一定参考价值。
    附图说明
    图1为本发明的系统构建方法流程图;
    图2为信息发布源的库动态增长流程图。
    具体实施方式
    下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。
    1.如图1所示,用户自定义获取数据的目标网站的入口地址文件,爬虫读取该文件。在实施例中,爬虫根据提供的入口网址,获取该入口下所有的页面;并调用HTML解析器将页面解析成DOM树的形式,包含元素节点、文本节点、属性节点和注释节点。
    2.构造一个网页节点剪枝器,对网页文档节点剪枝,过滤掉所有与正文无关的JavaScript、超链接以及CSS所在的节点;对JavaScript、CSS标签节点采取直接过滤掉的办法,这些标签全部都是文本主题无关的内容。对于超链接节点的剪枝处理通过下述公式计算:
    E(i)=LinkContent(i)Content(i)]]>
    其中,LinkContent(i)表示当前节点下超链接文本的字符数,Content(i)则表示当前节点下所有的字符数;如果E(i)=1,则是与文本无关的纯超链接节点,在数据抽取的时候直接过滤掉,否则不做处理。
    3.经过剪枝后,整个文档的节点数量下降到一定水平。接下来,基于相似哈希的方法来锁定文本标题所在的节点。具体的方法是:抽取特定节点<title|TITLE>下的内容,计算该内容所有词的特征值,并映射为16位的信息指纹,根据相似哈希的计算方法计算该内容的相似哈希值T;然后,自上至下逐个对剪枝后的其他节点进行相同处理,获取对应的相似哈希值Ni;比对T与Ni,差值小于一定阈值的节点即为目标抽取文本的标题节点。
    4.计算和分析得到标题所在的节点之后,可以知道该节点位于目标抽取??橹?,设定标题节点为起始节点,自底向上迭代计算各节点的上下文主题相关度值TTR,其计算公式为:
    TTR(ni)=ContentCount(ni)ContentCount(Pni)]]>
    其中,TTR(ni)表示当前节点的上下文主题相关度,ContentCount(ni)表示当前节点下的字符数,ContentCount(Pni)则表示当前节点的父节点下的字符数。由网页结构的特征可以得出, 当节点TTR值最大的时候,该节点即为包含正文、标题在内的目标抽取节点。
    5.以新浪、腾讯、网易等各大门户网站的新闻信息为例,目标抽取节点即按照步骤4计算出来的某一个DIV标签节点,新闻的发布时间以及信息来源位于目标抽取节点下的子节点中。由于时间有一定的格式,利用正则表达式的匹配方法能够快速锁定和抽取对应信息。如:2014年4月24日10:31,包括年月日时分,用对应的正则表达式:[0-9]{4}-[0-9]{1,2}-[0-9]{1,2}[0-9]{1,2}:[0-9]{1,2}来匹配该内容,定义覆盖所有可能时间格式的正则匹配式,应对异构网页源的所有时间数据。新闻来源信息同样位于目标抽取节点的某一个子节点中,该信息从文本角度上来说没有特别的格式或者特征,但是对应一定的信息发布源。所以建立对应的信息发布源库,人工添加一定的信息发布源;同时如图2所示,每次在新闻来源字段抽取的时候,都会与信息发布源库进行匹配,如果匹配成功,则保留对应的节点标签值,并将新闻来源字段存入到信息发布源数据库;如果在库中匹配不到新闻来源字段,则根据相同的目标抽取节点的标签值以及新闻来源节点的标签值来确定要抽取的内容,同样将对应的信息存入到信息发布源数据库,实现库的动态增长。
    在实施例中,标题节点的父节点即为目标抽取节点,标题、新闻来源以及发布时间等字段都被成功抽取之后,目标抽取节点中除正文文本之外的节点都是噪声节点,过滤掉所有的JS、CSS以及超链接节点,即得到正文的文本内容。
    本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

    关于本文
    本文标题:一种针对网页结构变化的不间断爬虫系统构建方法.pdf
    链接地址://www.4mum.com.cn/p-6143684.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 手机棋牌游戏龙虎的个人经验 时时彩二码不定位技巧 重庆吋时彩五星个位走势图 黑龙江时时20选5走势 3分pk10计划软件网页版 1 3 8 24 72倍投 江苏时时走势图 20019今晚六开彩开奖 北京pk10五码分析技巧 必赢客pk10计划网页版 北京福彩pk10单双走势图 飞艇防连挂计划 广东11选5免费计划软件下载 北京pk10骗局大揭秘 五分彩怎么玩几率录最大 云南时时开奖中心藏宝阁