• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 5
    • 下载费用:30 金币  

    重庆时时彩选2胆: 一种对互联网数据进行采集的方法.pdf

    关 键 词:
    一种 互联网 数据 进行 采集 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611044724.1

    申请日:

    2016.11.24

    公开号:

    CN106776787A

    公开日:

    2017.05.31

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161124|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 山东浪潮云服务信息科技有限公司
    发明人: 王利鑫; 王洪添
    地址: 250100 山东省济南市高新区浪潮路1036号浪潮科技园S06号楼
    优先权:
    专利代理机构: 济南信达专利事务所有限公司 37100 代理人: 孟峣
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611044724.1

    授权公告号:

    |||

    法律状态公告日:

    2017.06.23|||2017.05.31

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种对互联网数据进行采集的方法,其实现过程为:首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的网站url存入爬取url队列中;web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;web爬虫把抽取到的数据写入数据库中;设计数据处理???,通过该数据处理??槎允菘庵械氖萁写?。该对互联网数据进行采集的方法与现有技术相比,通过链接过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推广。

    权利要求书

    1.一种对互联网数据进行采集的方法,其特征在于,其实现过程为:
    首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的
    网站url存入爬取url队列中;
    web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;
    web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;
    web爬虫把抽取到的数据写入数据库中;
    设计数据处理???,通过该数据处理??槎允菘庵械氖萁写?。
    2.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,Web爬虫依
    据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网页下载规则、网页解
    析规则以及内容抽取规则。
    3.根据权利要求1所述的一种对互联网数据进行采集的方法,其特征在于,数据处理模
    块对数据进行处理的过程包括:
    链接过滤,判断当前链接是否在已经抓取过的链接集合里;
    数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重
    复项;
    数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。
    4.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,链接过滤的
    具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与一个
    bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i个hash函数
    对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全为1说明已经被抓取
    过,否则为未抓取过。
    5.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据排重通
    过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初始化一个C维向量Q为
    零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到一个C位的散列值H;
    若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重;若Q的第i个元素
    大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名的海明距离,小于3则
    可认为相似度比较高。
    6.根据权利要求3所述的一种对互联网数据进行采集的方法,其特征在于,数据整合就
    是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使用频率最高
    的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。

    说明书

    一种对互联网数据进行采集的方法

    技术领域

    本发明涉及计算机应用技术领域,具体地说是一种实用性强、对互联网数据进行
    采集的方法。

    背景技术

    大数据指通过一般的软件工具无法获取管理和分析的大批量数据。当前时代已进
    入大数据时代,与互联网的发明一样,引发了一场新的信息技术领域的浪潮。通过大数据能
    够帮助行业分析,为企业带来新的商业价值与机会,同时也为企业的IT系统提出了挑战。而
    要获取来自互联网的数据,就必须开发一种数据采集服务方法并提供相应的技术支持。

    互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特
    定的方式对互联网页面的数据进行采集、加工和存储等工作?;チ呈莶杉褪且?br />个获取互联网网页内容的过程,一般通过网络爬虫抓取,但是现有的抓取过程中经?;岢?br />现重复抓取相同URL、抓取后的数据重复、抓取数据之间匹配度不高的情况,基于此,现提供
    一种对互联网数据进行采集的方法,通过分析从网页中抽取出用户需要的数据内容,并对
    抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。

    发明内容

    本发明的技术任务是针对以上不足之处,提供一种实用性强、对互联网数据进行
    采集的方法。

    一种对互联网数据进行采集的方法,其实现过程为:

    首先爬取url队列,为web爬虫提供需要抽取数据的网站url地址,即将需要抽取数据的
    网站url存入爬取url队列中;

    web爬虫从爬取url队列中获取需要抽取数据的网站的url信息;

    web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息;

    web爬虫把抽取到的数据写入数据库中;

    设计数据处理???,通过该数据处理??槎允菘庵械氖萁写?。

    Web爬虫依据用户事前配置好的规则进行数据采集工作,该配置好的规则包括网
    页下载规则、网页解析规则以及内容抽取规则。

    数据处理??槎允萁写淼墓贪ǎ?br />

    链接过滤,判断当前链接是否在已经抓取过的链接集合里;

    数据排重,排重即排除掉重复项,网页排重通过比较两个页面之间的相似度来排除重
    复项;

    数据整合,将采集到的数据通过关键字建立对应关系,即关键字之间的匹配。

    链接过滤的具体实现过程为:对于每一个抓取过的url,通过i个hash函数计算,得
    到i个值,然后与一个bit数组的i个位置的元素相互对应,在判断某个url是否被抓取过时,
    首先用i个hash函数对该url计算得到i个值,再查询大型的bit数组内的i个位置的值,若全
    为1说明已经被抓取过,否则为未抓取过。

    数据排重通过以下算法实现:输入一个N维向量V,输出一个C位的二进制签名S;初
    始化一个C维向量Q为零,C位的二进制签名S为零;对向量V中的每一个特征用Hash算法得到
    一个C位的散列值H;若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权
    重;若Q的第i个元素大于0,则S的第i位为l否则为0;返回签名S;通过计算并判断两个签名
    的海明距离,小于3则可认为相似度比较高。

    数据整合就是将处理后的网页内容用一组关键字进行描述,这些关键字可以使用
    该网页使用频率最高的若干个词汇,经过关键字处理后进行匹配达到数据整合的目的。

    本发明的一种对互联网数据进行采集的方法,具有以下优点:

    本发明提供的一种对互联网数据进行采集的方法,在正常爬取网络数据时,通过链接
    过滤、数据排重和整合的数据处理方式,将数据进行处理,剔除重复的数据,避免重复抓取,
    数据相互之间整合匹配度高,从而更好的满足用户需求,实用性强,适用范围广泛,易于推
    广。

    具体实施方式

    下面结合具体实施例对本发明作进一步说明。

    本发明的一种对互联网数据进行采集的方法,首先依据用户事前配置好的规则进
    行数据采集工作,包括网页下载规则和网页解析规则以及内容抽取规则等。

    在本发明中,互联网网页大数据采集和处理的过程主要包括4个方面内容:

    1)web爬虫。从网络中抓取页面内容,从中抽取需要的数据内容。

    2)数据处理。对web爬虫抽取的内容进行处理。

    3)爬取url队列。为web爬虫提供需要抽取数据的网站url地址。

    4)数据。数据包含三个方面:①需要抓取的数据网站的url信息、②web从网页中抽
    取出来的数据、③经过数据处理的数据。

    整个互联网页面数据采集和处理的流程如下:

    将需要抽取数据的网站url存入爬取url队列中。

    web爬虫从爬取url队列中获取需要抽取数据的网站的url信息。

    web爬虫从对应的url页面中获取对应的页面内容并抽取出用户需要的数据信息。

    web爬虫把抽取到的数据写入数据库中。

    数据处理??槎允菘庵械氖萁星謇泶?。

    上述数据处理过程中,需要进行以下操作:

    链接过滤。实质是判断当前链接是否在已经抓取过的链接集合里。在对网页的大数据
    采集过程中,可通过布隆过滤器实现对链接的过滤操作。

    数据排重。排重即排除掉重复项的过程,网页排重可以通过比较两个页面之间的
    相似度来排除重复项。

    数据整合。就是将采集到的数据通过某组关键字建立对应关系。实质是关键字之
    间的匹配。

    更加具体的,上述三种处理操作为:

    链接过滤。其实质是判断当前链接是否在已经抓取过的链接集合里。在对网页的大数
    据采集过程中,通过过滤器实现对链接的过滤操作。

    具体方法是,对于每一个抓取过的url,通过i个hash函数计算,得到i个值,然后与
    一个大型bit数组的这i个位置的元素相互对应,在判断某个url是否被抓取过时,首先用i
    个hash函数对这个url计算得到i个值,再查询大型的bit数组内的这i个位置的值,若全为1
    说明已经被抓取过,否则为未抓取过。

    数据排重。排重是排除掉重复项的过程,网页排重通过比较两个页面之间的相似
    度来排除重复项。采用以下算法,提高排重效率,系统可以容纳更多的数据量。

    思路如下:输入为一个N维向量V,输出是一个C位的二进制签名S。初始化一个C维
    向量Q为零,C位的位二进制签名S为零。对向量V中的每一个特征用Hash算法得到一个C位的
    散列值H。若H第i位是1,则Q的第i个元素加该元素的权重,否则,减去该元素的权重。若Q的
    第i个元素大于0,则S的第i位为l否则为0。返回签名S。通过计算并判断两个签名的海明距
    离,小于3则可认为相似度比较高。

    数据整合。就是将采集到的数据通过某组关键字建立对应关系。其实质是关键字
    之间的匹配。将处理后的网页内容用一组关键字进行描述,这些关键字可以使用该网页使
    用频率最高的若干个词汇。经过关键字处理后进行匹配达到数据整合的目的。

    上述具体实施方式仅是本发明的具体个案,本发明的专利?;し段Оǖ幌抻?br />上述具体实施方式,任何符合本发明的一种对互联网数据进行采集的方法的权利要求书的
    且任何所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利
    ?;し段?。

    关于本文
    本文标题:一种对互联网数据进行采集的方法.pdf
    链接地址://www.4mum.com.cn/p-6020974.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 一分快三稳赚技巧 吉林时时和值走势图 彩世家怎么下载 世界杯网上能投注吗 扑克牌赌大小怎么玩 六码怎样倍投 福彩3d单选投注技巧 玩三分快三有导师带会赔吗 100期倍投方案 福彩3d组六6码多少钱 足球2串1稳赚技巧月入十万 北赛车pk10直播手机版 福安徽时时 pk10软件有用 金7乐彩票今日开奖结果 时时彩稳赚平刷