• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 6
    • 下载费用:30 金币  

    重庆时时彩大型总平台: 一种网络数据采集验证方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610840743.9

    申请日:

    2016.09.22

    公开号:

    CN106570053A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20160922|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 山东浪潮云服务信息科技有限公司
    发明人: 王洪添; 邢荣; 王传超; 徐宏伟
    地址: 250100 山东省济南市高新区浪潮路1036号浪潮科技园S06号楼
    优先权:
    专利代理机构: 济南信达专利事务所有限公司 37100 代理人: 孟峣
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610840743.9

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种网络数据采集验证方法,其实现过程为:首先采集网络数据,然后对采集数据中的互联网站点进行信息分类,按类别随机抽样;统计出所选类别内的网络数据量,再通过数据库操作脚本对库中存储的所采数据进行检索,统计出所选类别的采集量;将二者进行对比校验,得出所采数据的覆盖率,这里的覆盖率=所采数据量/实际数据量,以验证是否漏采。该网络数据采集验证方法与现有技术相比,结合了统计学的抽样调查理论,科学而合理的使所采集的大量数据得到了验证,同时也为后续的数据分析与挖掘工作提供了便利,实用性强,适用范围广泛,易于推广。

    权利要求书

    1.一种网络数据采集验证方法,其特征在于,其实现过程为:
    首先采集网络数据,然后对采集数据中的互联网站点进行信息分类,按类别随机抽样;
    统计出所选类别内的网络数据量,再通过数据库操作脚本对库中存储的所采数据进行
    检索,统计出所选类别的采集量;
    将二者进行对比校验,得出所采数据的覆盖率,这里的覆盖率=所采数据量/实际数据
    量,以验证是否漏采。
    2.根据权利要求1所述的一种网络数据采集验证方法,其特征在于,采集网络数据并进
    行分类的过程为:通过浏览器访问所采集的网站首页,从中找到采集信息的分类入口,然后
    选择分类链接,在分类入口处随机点选一个类别以进入该页面,查看到相应信息,即已采集
    到的数据,定位找到与数据量有关的项目。
    3.根据权利要求1所述的一种网络数据采集验证方法,其特征在于,对采集数据进行信
    息分类是所采网站既定存在的分类,通过点击站点上的分类链接按不同类别浏览网站信
    息,从而直接看到该类目下的数据总量,或者间接通过计算得出数据总量。
    4.根据权利要求3所述的一种网络数据采集验证方法,其特征在于,获取所选分类的网
    络数据量是指:当网页上明确显示出共有多少条信息则直接得到该值,否则如果只显示了
    共N页,通过观察得出每一页的数据条数,用M乘以N以得出该类别中的总数据量,这里的M、N
    均为正整数。

    说明书

    一种网络数据采集验证方法

    技术领域

    本发明涉及大数据应用分析技术领域,具体地说是一种实用性强、网络数据采集
    验证方法。

    背景技术

    随着近年来互联网和信息行业的蓬勃发展,数据这一概念已经渗透到每一个行业
    和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生
    产率增长和消费者盈余浪潮的到来。大数据的概念已经渗透到各行各业的专家学者心中,
    也引起了大众的广泛关注。而与此同时,大量分布式的公开信息充斥在网络上,政府数据的
    进一步对外开放、淘宝等电子商务平台的快速发展、线上税务办理的展开等方面都生成了
    海量的信息数据。

    现如今网页上包含的信息量日愈增大,种类繁多且结构复杂,因此当数据采集完
    成后,就需要一种科学合理的验证方法,能够就校验数据是否漏采。而信息量越大的网站,
    比如某些门户网站或者大型的电商购物平台,验证的难度就越大。采集的信息数据往往分
    布在不同的页面中,很难准确地估计出全网站的数据总量,无法直接与采集结果的数据条
    数直接比较,进行判定。

    但是考虑到用户体验等因素,大型网站并不会将其掌握的全部信息只做单一方式
    的呈现,大都会分门别类,将同类型的数据信息整合在一起。这样就产生了一种新的数据验
    证的思路,即按网站既定分类进行随机抽样统计,再与采集结果中同类别信息总量进行比
    较,即可验证采集是否有遗漏,是否达成了网站信息量全部覆盖的采集目的,基于此,现提
    供一种科学高效、网络数据采集验证方法。

    发明内容

    本发明的技术任务是针对以上不足之处,提供一种实用性强、网络数据采集验证
    方法。

    一种网络数据采集验证方法,其实现过程为:

    首先采集网络数据,然后对采集数据中的互联网站点进行信息分类,按类别随机抽样;

    统计出所选类别内的网络数据量,再通过数据库操作脚本对库中存储的所采数据进行
    检索,统计出所选类别的采集量;

    将二者进行对比校验,得出所采数据的覆盖率,这里的覆盖率=所采数据量/实际数据
    量,以验证是否漏采。

    采集网络数据并进行分类的过程为:通过浏览器访问所采集的网站首页,从中找
    到采集信息的分类入口,然后选择分类链接,在分类入口处随机点选一个类别以进入该页
    面,查看到相应信息,即已采集到的数据,定位找到与数据量有关的项目。

    对采集数据进行信息分类是所采网站既定存在的分类,通过点击站点上的分类链
    接按不同类别浏览网站信息,从而直接看到该类目下的数据总量,或者间接通过计算得出
    数据总量。

    获取所选分类的网络数据量是指:当网页上明确显示出共有多少条信息则直接得
    到该值,否则如果只显示了共N页,通过观察得出每一页的数据条数,用M乘以N以得出该类
    别中的总数据量,这里的M、N均为正整数。

    本发明的一种网络数据采集验证方法,具有以下优点:

    本发明提供的一种网络数据采集验证方法,本验证方法有效地对从互联网站点(尤其
    是大型站点)中所采集的数据进行了验证,通过合理取样及对比分析,得出了采集结果对所
    采站点数据总量的覆盖程度,以确定数据是否存在漏采,验证了数据的真实性和多样性,同
    时也为后续的数据分析与挖掘工作提供了有效的验证途径;在采集信息量较大且页面结构
    较为复杂的互联网站后,抽样选取其中的某一类信息???,按类别统计出该??榈氖葑?br />量,用以与已采到的同类数据进行对比,并通过多次重复本发明中的步骤,从而确定数据是
    否漏采,使采集结果的准确性和可信度得到了科学合理的验证,实用性强,适用范围广泛,
    易于推广。

    附图说明

    附图1为本发明的实现示意图。

    具体实施方式

    下面结合附图及具体实施例对本发明作进一步说明。

    本发明创造要解决的问题是网络数据采集技术中对于大型互联网站的高含量信
    息的验证问题,即确定采集结果的容量是否与原目标网站相符合。

    由于大型互联网站的信息分布较广,难以得出总量,无法直接验证采集结果是否
    全部覆盖了全网站信息。针对相关技术中存在的一个或多个问题,本发明通过提供一种主
    要针对大型网站采集数据的验证方法,以解决上述问题中的至少之一。如附图1所示,本发
    明的一种网络数据采集验证方法,先分析出互联网站点的信息分类方式,按类别随机抽样,
    统计出所选类别内的网络数据量,再通过数据库操作脚本对库中存储的所采数据进行检
    索,统计出所选类别的采集量。将二者进行对比校验,得出所采数据的覆盖率。

    其实现过程为:

    当数据采集完成后,先分析所采目标站点的数据分类方式,按类别随机抽样,统计出所
    选类别内的网络数据量,按再通过操作脚本对数据库中的采集结果进行检索,统计出所选
    类别的采集量。将二者进行对比校验,得出所采数据的覆盖率(所采量/实际量),以验证是
    否漏采。

    在上述步骤中,所采目标网站没有直观的在页面中显示出全站数据总量,而由于
    数据量过大,出于方便用户浏览等原因,网站对数据做了分类划分。

    数据分类方式是所采网站既定存在的分类,可以通过点击站点上的分类链接按不
    同类别浏览网站信息,从而直接看到该类目下的数据总量,或者间接通过简易计算得出数
    据总量。

    所采数据的覆盖率是随机抽取一个目标站点分类后,用所选类别的采集量/所选
    类别内的网络数据量得到的比率??悸堑酵镜母?,数据的多样性和复杂性等因素,若该
    值在90%以上则可以认定为数据采集较为全面,不存在漏采问题。

    为了更为详细的介绍本发明,现在结合附图1进行详细描述:

    步骤1、访问目标页面:通过浏览器访问所采集的网站首页,从中找到采集信息的分类
    入口,网站一般会将其置于页面的侧边栏或者顶部,以方便访客点选使用。

    步骤2、选择分类链接:在分类入口处随机点选一个类别以进入该页面,可以查看
    到相应信息(即已采集到的数据),由于目的是统计该分类下的数据总量,所以不必关注信
    息具体内容,定位找到与数据量有关的项目,例如:共多少页,共多少个商品,共多少条记录
    等。

    步骤3、获取所选分类的数据量:若网页上已明确显示出共有多少条信息则可以直
    接得到该值,否则如果只显示了共N页(N为正整数),可通过观察得出每一页的数据条数,比
    如M条(M为正整数),用M乘以N以得出该类别中的总数据量。

    步骤4、检索采集结果:通过操作脚本对数据库中的采集结果按类别进行检索,统
    计出所选类别的采集量。

    步骤5、校验数据量:用所选类别的采集量除以所选类别内的网络数据量得到一个
    比值,即数据覆盖率??悸堑酵镜母?,数据的多样性和复杂性等因素,若该值在90%以上
    则可以认定为数据采集较为全面,不存在漏采问题。

    重复进行多次步骤2至5,通过抽样调查以达成验证所采数是否能覆盖全网站的目
    的。

    本发明不仅只在大型网站默认提供显示了分类入口的情况下才适合使用。若未提
    供,可以按照所采信息的内容人为进行合理分类。比如当网站提供搜索栏以检索关键字的
    方式获取信息时,可以输入关键字并获取检索结果,然后通过操作脚本获取所采数据中包
    含该关键字的数据量,将二者进行对比校验。其主体验证思路与本方法是一致的。

    由于互联网站的信息可能会实时更新,用所选类别的采集量除以所选类别内的网
    络数据量而得到的数据覆盖率,并非一定要在90%以上才能判定数据没有漏采。具体要根据
    数据采集的执行时间与按类别统计的时间而判定,如若两个时间点相距较远,可以酌情将
    90%下调至一个合理的范围,90%只是一个参考数值。

    由于本数据验证方法类似于统计学中的分成抽样理论,即将总体分成不同的子
    群,然后对所有的子群进行抽样。虽然是随机抽样,并未选取各个类别下的数据,但依据统
    计学原理,本验证方法科学而合理。

    上述具体实施方式仅是本发明的具体个案,本发明的专利?;し段Оǖ幌抻?br />上述具体实施方式,任何符合本发明的一种网络数据采集验证方法的权利要求书的且任何
    所述技术领域的普通技术人员对其所做的适当变化或替换,皆应落入本发明的专利?;し?br />围。

    关 键 词:
    一种 网络 数据 采集 验证 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种网络数据采集验证方法.pdf
    链接地址://www.4mum.com.cn/p-6092731.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03