• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 21
    • 下载费用:30 金币  

    重庆时时彩加减算法: 一种基于大数据分析的互联网发展指数计算方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610982627.0

    申请日:

    2016.11.08

    公开号:

    CN106570168A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 著录事项变更IPC(主分类):G06F 17/30变更事项:申请人变更前:恒安嘉新(北京)科技有限公司变更后:恒安嘉新(北京)科技股份公司变更事项:地址变更前:100191 北京市海淀区北三环西路25号27号楼五层5002室变更后:100191 北京市海淀区北三环西路25号27号楼五层5002室|||实质审查的生效IPC(主分类):G06F 17/30申请日:20161108|||公开
    IPC分类号: G06F17/30; G06Q10/06(2012.01)I 主分类号: G06F17/30
    申请人: 恒安嘉新(北京)科技有限公司
    发明人: 张振涛; 蔡琳; 杨满智; 金红; 刘长永
    地址: 100191 北京市海淀区北三环西路25号27号楼五层5002室
    优先权:
    专利代理机构: 北京万慧达知识产权代理有限公司 11111 代理人: 王荣;黄玉东
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610982627.0

    授权公告号:

    ||||||

    法律状态公告日:

    2017.06.16|||2017.05.17|||2017.04.19

    法律状态类型:

    著录事项变更|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于大数据分析的互联网+发展指数计算方法,其特征在于,所述方法包括:采集各省互联网行业域名资源,获得原始要素数据,其中,所述原始要素数据包括域名数据、网站的信息内容和网站的行业分类;对所述原始要素数据进行数据清洗和数据关联,得到可用要素数据;将所述可用要素数据输入互联网+发展指数计算模型,计算得到互联网+发展指数。本发明技术方案通过采集多种互联网+数据计算各省和全国的分行业和全行业的互联网+发展指数,能够在整体上反应全国互联网+发展的总体情况、各省互联网+发展的总体情况及在全国所占比重情况、各行业和全行业在互联网+中发展的总体情况和趋势。

    权利要求书

    1.一种基于大数据分析的互联网+发展指数计算方法,其特征在于,所述方法包括:
    采集各省互联网行业域名资源,获得原始要素数据,其中,所述原始要素数据包括域名
    数据、网站的信息内容和网站的行业分类;
    对所述原始要素数据进行数据清洗和数据关联,得到可用要素数据;
    将所述可用要素数据输入互联网+发展指数计算模型,计算得到互联网+发展指数。
    2.根据权利要求1所述的方法,其特征在于,采集各省互联网行业域名资源,获得原始
    要素数据包括:
    采集所述域名数据,得到活跃域名信息和用户访问量;
    根据所述域名数据进行网页爬取,得到所述网站的信息内容;
    根据所述网站的信息内容对网站分类,得到所述网站的行业分类。
    3.根据权利要求2所述的方法,其特征在于,所述网站的信息内容包括:网站名称、网站
    URL、网站首页的文本信息、网站首页的架构布局信息和爬取时间。
    4.根据权利要求2所述的方法,其特征在于,所述网站的行业分类包括:政府部门、制造
    业、农业、能源、金融、医疗、教育、旅游、物流、电子商务、交通和房地产。
    5.根据权利要求1所述的方法,其特征在于,所述方法还包括构建互联网+发展指数计
    算模型包括:
    以基期指数为第一维度构建互联网+发展指数计算模型;
    以当期指数为第二维度构建互联网+发展指数计算模型。
    6.根据权利要求5所述的方法,其特征在于,所述以当期指数为第二维度构建互联网+
    发展指数计算模型包括:
    构建各省及全国的分行业和全行业的所述可用要素数据的当期指数计算模型;
    构建各省及全国的分行业和全行业的所述可用要素数据的综合当期指数计算模型。
    7.根据权利要求6所述的方法,其特征在于,所述以当期指数为第二维度构建互联网行
    业基础资源发展指数计算模型还包括:
    构建各省及全国的分行业和全行业的所述可用要素数据的当期指数环比增幅计算模
    型;
    构建各省及全国的分行业和全行业的所述可用要素数据的综合当期指数环比增幅计
    算模型。
    8.一种基于大数据分析的互联网+发展指数计算系统,其特征在于,所述系统包括:
    数据采集???,用于采集各省互联网行业域名资源,获得原始要素数据,其中,所述原
    始要素数据包括域名数据、网站的信息内容和网站的行业分类;
    数据分析???,用于对所述原始要素数据进行数据清洗和数据关联,得到可用要素数
    据;
    指数计算???,用于将所述可用要素数据输入互联网+发展指数计算模型,计算得到互
    联网+发展指数。
    9.根据权利要求8所述的系统,其特征在于,所述数据采集??榫咛逵糜冢?br />采集所述域名数据,得到活跃域名信息和用户访问量;
    根据所述域名数据进行网页爬取,得到所述网站的信息内容;
    根据所述网站的信息内容对网站分类,得到所述网站的行业分类。
    10.根据权利要求6所述的系统,其特征在于,所述系统还包括构建互联网+发展指数计
    算模型的模型构建???,具体用于:
    以基期指数为第一维度构建互联网+发展指数计算模型;
    以当期指数为第二维度构建互联网+发展指数计算模型,其中,当期指数包括各省及全
    国的分行业和全行业的所述可用要素数据的当期指数、综合当期指数、环比增幅当期指数
    和环比增幅综合当期指数。

    说明书

    一种基于大数据分析的互联网+发展指数计算方法

    技术领域

    本发明涉及大数据分析技术领域,特别涉及一种基于大数据分析的互联网+发展
    指数计算方法。

    背景技术

    现如今互联网迅猛发展,基于互联网的各种发展指数也不断出现,并逐渐成为定
    量化衡量互联网+行业真实发展的有效方式。

    “互联网+”发展指数在业界较为出名的是腾讯的《中国“互联网+”指数报告》,该报
    告主要基于腾讯公司的QQ、微信等即时通讯工具,针对用户的访问行为模式、支付行为等进
    行综合分析的发展指数,在很大程度上能够指导人们对“互联网+”发展情况的判断。

    但是上述统计报告中,缺少对整个互联网所有网站的行业属性分析、用户访问量
    分析,因此,相对不够全面,不能全面和准确的衡量互联网+发展状况总体态势。

    发明内容

    为了更全面和准确的衡量全国及各省互联网+发展状况,本发明提供了一种基于
    大数据分析的互联网+发展指数计算方法。

    所述技术方案如下:

    第一方面,提供了一种基于大数据分析的互联网+发展指数计算方法,其特征在
    于,所述方法包括:

    采集各省互联网行业域名资源,获得原始要素数据,其中,所述原始要素数据包括
    域名数据、网站的信息内容和网站的行业分类;

    对所述原始要素数据进行数据清洗和数据关联,得到可用要素数据;

    将所述可用要素数据输入互联网+发展指数计算模型,计算得到互联网+发展指
    数。

    结合第一方面,在第一种可能的实施方式中,采集各省互联网行业域名资源,获得
    原始要素数据包括:

    采集所述域名数据,得到活跃域名信息和用户访问量;

    根据所述域名数据进行网页爬取,得到所述网站的信息内容;

    根据所述网站的信息内容对网站分类,得到所述网站的行业分类。

    结合第一种可能的实施方式,在第二种可能的实施方式中,所述网站的信息内容
    包括:网站名称、网站URL、网站首页的文本信息、网站首页的架构布局信息和爬取时间。

    结合第一种可能的实施方式,在第三种可能的实施方式中,所述网站的行业分类
    包括:政府部门、制造业、农业、能源、金融、医疗、教育、旅游、物流、电子商务、交通和房地
    产。

    结合第一方面,在第四种可能的实施方式中,所述方法还包括构建互联网+发展指
    数计算模型包括:

    以基期指数为第一维度构建互联网+发展指数计算模型;

    以当期指数为第二维度构建互联网+发展指数计算模型。

    结合第四种可能的实施方式,在第五种可能的实施方式中,所述以当期指数为第
    二维度构建互联网+发展指数计算模型包括:

    构建各省及全国的分行业和全行业的所述可用要素数据的当期指数计算模型;

    构建各省及全国的分行业和全行业的所述可用要素数据的综合当期指数计算模
    型。

    结合第五种可能的实施方式,在第六种可能的实施方式中,所述以当期指数为第
    二维度构建互联网行业基础资源发展指数计算模型还包括:

    构建各省及全国的分行业和全行业的所述可用要素数据的当期指数环比增幅计
    算模型;

    构建各省及全国的分行业和全行业的所述可用要素数据的综合当期指数环比增
    幅计算模型。

    第二方面,提供了一种基于大数据分析的互联网+发展指数计算系统,其特征在
    于,所述系统包括:

    数据采集???,用于采集各省互联网行业域名资源,获得原始要素数据,其中,所
    述原始要素数据包括域名数据、网站的信息内容和网站的行业分类;

    数据分析???,用于对所述原始要素数据进行数据清洗和数据关联,得到可用要
    素数据;

    指数计算???,用于将所述可用要素数据输入互联网+发展指数计算模型,计算得
    到互联网+发展指数。

    结合第二方面,在第一种可能的实施方式中,所述数据采集??榫咛逵糜冢?br />

    采集所述域名数据,得到活跃域名信息和用户访问量;

    根据所述域名数据进行网页爬取,得到所述网站的信息内容;

    根据所述网站的信息内容对网站分类,得到所述网站的行业分类。

    结合第二方面,在第二种可能的实施方式中,所述系统还包括构建互联网+发展指
    数计算模型的模型构建???,具体用于:

    以基期指数为第一维度构建互联网+发展指数计算模型;

    以当期指数为第二维度构建互联网+发展指数计算模型,其中,当期指数包括各省
    及全国的分行业和全行业的所述可用要素数据的当期指数、综合当期指数、环比增幅当期
    指数和环比增幅综合当期指数。

    本发明实施例提供了一种基于大数据分析的互联网+发展指数计算方法,通过获
    取互联网行业域名资源的原始要素数据,可以从域名数据、网站信息内容和网站行业分类
    等多方面数据来更加准确和全面的衡量互联网+发展状况;通过获取全国及各省的互联网+
    数据,可以反应全国及各省的互联网+发展状况及发展趋势,更加全面的展示和估计互联网
    +的发展情况;通过在当期维度和基期维度构建互联网+发展指数计算模型,可以据此预估
    互联网+在特定时期的发展状况和趋势,更加全面和合理的评估互联网+发展情况。

    附图说明

    为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使
    用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于
    本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他
    的附图。

    图1是本发明一优选实施例提供的基于大数据分析的互联网+发展指数计算方法
    流程图;

    图2是本发明另一优选实施例提供的基于大数据分析的互联网+发展指数计算系
    统结构示意图。

    具体实施方式

    为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附
    图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本
    发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员在
    没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。

    1、定义

    1.1“互联网+”

    本方案中所指的“互联网+”是指通过互联网进行业务开展、单位宣传的“政府部
    门、制造业、农业、能源、金融、医疗、教育、旅游、物流、电子商务、交通、房地产”这12个行业。

    本方案关注的是这12个行业的互联网网站的数量、网站的活跃程度、网站的分布
    范围等。

    1.2“互联网+”发展指数

    是指以某个时间点为起点(基期),按照某种算法或模型,以互联网网站的数量、网
    站活跃程度、网站的分布范围等为输入,计算得出的能够反映以上12个行业“互联网+”发展
    情况的当期值。依据同一行业同一期的发展指数能够考察出同行业的竞争情况,依据同一
    期不同行业的发展指数能够考察出不同行业之间发展的均衡程度,依据全国、各省、各行业
    的当期值可以考察出与基期的变化趋势,同时,也可以按照环比计算出与上期的发展变化
    情况。

    2、要素分析

    2.1网站数量

    网站有主体和接入两个属性,主体所在地反映的是网站的主办者所在的省份,接
    入所在地是指网站的接入所在的省份。

    由于要针对分省和全国两个地域维度进行指数的设计和测算,从省份来说,一方
    面要考虑本省主体的网站数量,另一方面也要考虑本省接入的网站数量。主体的网站数量
    反映的是本省实体经济的“互联网+”的情况,接入的网站数量反映的是本省支撑“互联网+”
    的发展情况。

    2.2网站活跃度

    网站活跃度是指互联网用户访问网站的次数,一般来说,在特定的时间段内,访问
    次数越多,说明网站越活跃,相应的“互联网+”发展情况越好。

    类似的,网站活跃度也按照网站主体所在地和接入所在地分别进行计算,以衡量
    某省实体经济“互联网+”网站的活跃情况和支撑“互联网+”基础资源被使用的情况(活跃情
    况)。

    2.3网站覆盖范围

    网站覆盖范围是指网站接入IP地址数量,一般来说,网站接入的IP地址越多,说明
    该网站规模越大,被用户访问的可能性越大,因此相应的“互联网+”发展情况越好。

    网站覆盖范围也区分为网站主体所在地和接入所在地两种分指标进行计算。

    3、维度分析

    3.1地域维度

    要区分出全国、各省的维度的“互联网+”指数,一般来说,全国总体的“互联网+”指
    数反映的是全国的“互联网+”的总体情况或平均情况,各省“互联网+”指数反映的是相应省
    份的“互联网+”指数,“互联网+”发展情况好的省份的指数可高于全国的“互联网+”指数。

    3.2行业维度

    要区分出1.1中12个行业中每个行业的发展指数,同时这些指数要进一步细化到
    某省和全国。针对同一行业的发展指数,站在省的视角和全国视角来看,遵循3.1中的原则;
    针对不同行业之间,全国及各省能够区分出行业的差距,即设计的指数体系应能真实体现
    不同行业的“互联网+”发展差异性。

    4、基数确定及发布周期

    一般来说,发展指数总有一个相对开始的时间,这个时间为基期,这个时间对应的
    指数为基期指数(简称基数),当前时间为当期,当前时间对应的指数为当期指数。另外,除
    了当期指数的绝对数之外,有时也关注当期比上期的变化情况(环比)。

    该发展指数以月为单位发布指数和与上期相比的变化率。

    5、发展指数设计

    在本指数设计中,假定所有外在系统提供的数据都是准确的。另外,由于要考虑全
    国和各省的发展情况,因此进行指数设计时应满足:

    针对固定的一个省,针对一个特定的行业,能反映出本省本行业当期与基期的变
    化情况;

    针对固定的一个省,针对全行业,能反映出本省全行业当期与基期的变化情况;

    针对不同的省之间,相同的行业,能反应出同期不同省同行业之间相对的指数差
    异;

    针对不同的省之间,能反映出同期全行业的相对的指数差异;

    针对全国,针对一个特定的行业,同期全国总体指数应等于各省指数之和;

    针对全国,针对全行业,同期全国总体指数应等于各省指数之和。

    参见图1,在本发明一优选的实施例中提供了一种基于大数据分析的互联网+发展
    指数计算方法,本方法包括:

    S110、采集各省互联网行业域名资源,获得原始要素数据,其中,所述原始要素数
    据包括域名数据、网站的信息内容和网站的行业分类。

    具体地,采集域名数据,得到活跃域名信息和用户访问量;

    根据域名数据进行网页爬取,得到网站的信息内容;

    根据网站的信息内容对网站分类,得到网站的行业分类。

    具体地,在采集域名数据时,首先采集企业侧域名数据和访问量数据,其次采集省
    级域名数据和访问量数据,再次采集部级域名数据和访问量数据。

    其中,活跃域名信息包括:活跃域名、访问量、当前时间和所属省份等。上述网站域
    名数据包括全国及各省500多万活跃域名数据。

    网站的信息内容包括:网站名称、网站URL、网站首页的文本信息、网站首页的架构
    布局信息和爬取时间等。

    网站的行业分类包括:政府部门、制造业、农业、能源、金融、医疗、教育、旅游、物
    流、电子商务、交通和房地产12个行业。

    可选的,根据互联网行业新增分类,自动训练扩展上述网站的行业分类??梢越?br />“互联网+”的行业分类到不同的类别下,并且无法归类时自动扩展网站的行业分类,适用范
    围更广。

    通过采集互联网域名数据,获得上述三大类原始要素数据,可以准确和全面的反
    应省级和全国的互联网+发展状况,并且可以据此预估互联网+行业的发展趋势和发展模式
    等。

    S120、对原始要素数据进行数据清洗和数据关联,得到可用要素数据。

    数据清洗是对数据进行重新审核和校验。采集的大数据中不可避免的会产生残缺
    数据、错误数据或者重复数据,基于一定的过滤规则对上述原始要素数据进行数据清洗,洗
    掉“脏数据”。

    数据关联,在数据清洗完毕后,为了便于分类和入库,基于特定的数据标识对数据
    进行关联,从而得到可供计算模型使用的可用要素数据。值得注意的是,对于上述原始要素
    数据,数据标识各不相同。

    原始要素数据经过数据清洗和数据关联后,得到的可用要素数据即可分别输入计
    算模型中得到各个要素的指数。

    S130、构建互联网+发展指数计算模型。

    具体地,以基期指数为第一维度构建互联网+发展指数计算模型;

    以当期指数为第二维度构建互联网+发展指数计算模型。

    通过基期指数和当期指数构建计算模型,可以较为直观和动态的反映出互联网+
    发展状况以及未来阶段的变化情况。

    其中,以当期指数为第二维度构建互联网+发展指数计算模型包括:

    构建各省及全国的分行业和全行业的可用要素数据的当期指数计算模型;

    构建各省及全国的分行业和全行业的可用要素数据的综合当期指数计算模型。

    设当期为第i≥0(i=0为基期)期,设Ω={政府部门,制造业,农业,能源,金融,医
    疗,教育,旅游,物流,电子商务,交通和房地产},Ω1={主体网站数量,主体网站活跃度,主
    体网站覆盖范围,接入网站数量,接入网站活跃度,接入网站覆盖范围}。

    1)在构建各省可用要素数据的当期指数时,

    (1)分行业当期指数

    (l,可用要素数据)=(当期k省l类可用要素数据/基期全国网站之和)*105,k=
    1,2,……,31,l∈Ω。

    其中,网站之和包括:网站数之和、网站活跃度之和与网站接入IP地址之和。

    (2)全行业当期指数


    2)在构建全国可用要素数据的当期指数时,

    (1)分行业指数


    可选的,平均指数为:


    (2)全行业指数


    可选的,平均指数为:


    3)在构建各省可用要素数据的综合当期指数时,

    (1)分行业指数



    (2)全行业指数


    其中,在计算总体当期指数时,权重设置为:

    λ主体网站数量=12.5%,λ主体网站活跃度=25%,λ主体网站覆盖范围=12.5%,

    λ接入网站数量=12.5%,λ接入网站活跃度=25%,λ接入网站覆盖范围=12.5%

    4)在构建全国可用要素数据的综合当期指数时,

    (1)分行业指数


    可选的,平均指数为:


    (2)全行业指数


    可选的,平均指数为:


    可选的,构建环比增幅计算模型。

    具体地,构建各省及全国的分行业和全行业的当期指数环比增幅计算模型;

    构建各省及全国的分行业和全行业的综合当期指数环比增幅计算模型。

    设当期为第i期(i≥1),

    5)在构建各省当期指数环比增幅时,

    (1)分行业增幅


    (2)全行业增幅


    6)在构建全国当期指数环比增幅时,

    (1)分行业增幅


    (2)全行业增幅


    7)在构建各省综合当期指数环比增幅时,

    (1)分行业增幅


    (2)全行业增幅


    8)在构建全国综合当期指数环比增幅时,

    (1)分行业增幅

    Ri(l)=(Ii(l)/Ii-1(l)-1)*100%,l∈Ω,i≥1

    (2)全行业增幅

    Ri=(Ii/Ii-1-1)*100%,i≥1

    通过构建上述计算模型,可以将可用要素数据计算为需要的当期指数和总体当期
    指数,能够反应出本省当期和基期的变化情况及不同省份之间相对的指数差异,并且能够
    反应出单个行业和全行业的互联网+发展状况和趋势,全面和准确的量化衡量各省和全国
    互联网+发展状况和发展趋势

    S140、将可用要素数据输入互联网+发展指数计算模型,计算得到互联网+发展指
    数。

    具体地,计算各个要素数据的当期指数如下:

    1主体网站数量指数

    网站的主体在哪个省就按照是哪个省的网站来计算,而不考虑该网站的实际接入
    地的情况。

    1.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数


    (2)全行业指数


    2)全国指数:

    (1)分行业指数

    总指数:

    平均指数:

    (2)全行业

    总指数:


    平均指数:

    1.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)某一行业


    (2)全行业


    2)全国增幅

    (1)某一行业


    (2)全行业


    2主体网站活跃度指数

    主体网站活跃度定义为该主体网站在一个期间内的访问次数总和,某行业主体网
    站活跃度是指该行业所有主体网站活跃度的代数和。

    2.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数


    (2)全行业指数


    2)全国指数:

    (1)分行业指数

    总指数:

    平均指数:

    (2)全行业

    总指数:


    平均指数:

    2.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)某一行业


    (2)全行业


    2)全国增幅

    (1)某一行业


    (2)全行业


    3主体网站覆盖范围指数

    以主体网站的实际接入IP地址的多少作为该网站的覆盖范围。某行业主体网站的
    覆盖范围指数为该行业所有主体网站接入IP地址的代数和占比。

    3.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数


    (2)全行业指数


    2)全国指数:

    (1)分行业指数

    总指数:

    平均指数:

    (2)全行业

    总指数:


    平均指数:

    3.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)某一行业


    (2)全行业


    2)全国增幅

    (1)某一行业


    (2)全行业


    4接入网站数量指数

    网站的接入在哪个省就按照是哪个省的网站来计算,而不考虑该网站的主体所在
    地的情况。

    4.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数


    (2)全行业指数


    2)全国指数:

    (1)分行业指数

    总指数:

    平均指数:

    (2)全行业指数

    总指数:


    平均指数:

    4.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)某一行业


    (2)全行业


    2)全国增幅

    (1)某一行业


    (2)全行业


    5接入网站活跃度指数

    接入网站活跃度定义为该接入网站在一个期间内的访问次数总和,某行业接入网
    站活跃度是指该行业所有接入网站活跃度的代数和。

    5.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数


    (2)全行业指数


    2)全国指数:

    (1)分行业指数

    总指数:

    平均指数:

    (2)全行业

    总指数:


    平均指数:

    5.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)某一行业


    (2)全行业


    2)全国增幅

    (1)某一行业


    (2)全行业


    6接入网站覆盖范围指数

    以接入网站的实际接入IP地址的多少作为该网站的覆盖范围。某行业接入网站的
    覆盖范围指数为该行业所有接入网站接入IP地址的代数和占比。

    6.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数


    (2)全行业指数


    2)全国指数:

    (1)分行业指数

    总指数:

    平均指数:

    (2)全行业

    总指数:


    平均指数:

    6.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)某一行业


    (2)全行业


    2)全国增幅

    (1)某一行业


    全行业


    7综合发展指数

    7.1当期指数

    设当期为第i≥0期(i=0时为基期),则当期指数为:

    1)分省指数:

    (1)分行业指数:


    (2)全行业指数:


    2)全国指数:

    (1)分行业指数:

    总指数:

    平均指数:

    (2)全行业指数:

    总指数:

    平均指数:

    平均指数:

    7.2环比增幅

    设当期为第i期(i≥1),则当期指数环比增幅为:

    1)分省增幅

    (1)按行业


    (2)全行业


    2)全国增幅

    (1)按行业

    Ri(l)=(Ii(l)/Ii-1(l)-1)*100%,l∈Ω,i≥1

    (2)全行业

    Ri=(Ii/Ii-1-1)*100%,i≥1

    本发明实施例提供的一种基于大数据分析的互联网+发展指数计算方法,通过获
    取互联网行业域名资源的原始要素数据,可以从域名数据、网站信息内容和网站行业分类
    等多方面数据来更加准确和全面的衡量互联网+发展状况;通过获取全国及各省的互联网+
    数据,可以反应全国及各省的互联网+发展状况及发展趋势,更加全面的展示和估计互联网
    +的发展情况;通过在当期维度和基期维度构建互联网+发展指数计算模型,可以据此预估
    互联网+在特定时期的发展状况和趋势,更加全面和合理的评估互联网+发展情况。

    参照图2所示,在本发明的另一优选实施例中,提供了一种基于大数据分析的互联
    网+发展指数计算系统,该系统包括:

    数据采集???10,用于采集各省互联网行业域名资源,获得原始要素数据,其中,
    所述原始要素数据包括域名数据、网站的信息内容和网站的行业分类;

    数据分析???20,用于对原始要素数据进行数据清洗和数据关联,得到可用要素
    数据;

    指数计算???30,用于将可用要素数据输入互联网+发展指数计算模型,计算得
    到互联网+发展指数。

    其中,数据采集???10具体用于:

    采集域名数据,得到活跃域名信息和用户访问量;

    根据域名数据进行网页爬取,得到网站的信息内容;

    根据网站的信息内容对网站分类,得到网站的行业分类。

    该系统还包括构建互联网+发展指数计算模型的模型构建???40,具体用于:

    以基期指数为第一维度构建互联网+发展指数计算模型;

    以当期指数为第二维度构建互联网+发展指数计算模型。

    其中,模型构建???40还用于:

    构建各省及全国的分行业和全行业的可用要素数据的当期指数计算模型;

    构建各省及全国的分行业和全行业的可用要素数据的综合当期指数计算模型。

    其中,模型构建???40还用于:

    构建各省及全国的分行业和全行业的可用要素数据的当期指数环比增幅计算模
    型;

    构建各省及全国的分行业和全行业的可用要素数据的综合当期指数环比增幅计
    算模型。

    本发明实施例提供的一种基于大数据分析的互联网+发展指数计算系统,通过数
    据采集???10采集多个各省的域名数据、网站的信息内容和网站的行业分类,基于大数据
    分析后能够得出更为全面和准确的发展指数;通过数据分析???20对采集的大数据进行
    清洗和关联分析,得到可用的要素数据,可以进一步提高大数据的准确性,更加方便的输入
    计算??橹?;通过模型构建???40,构建关于可用要素数据的不同模型,可以从各个方面
    来直观的展示和衡量当期指数、基期指数、各行业和全行业、全国和各省的发展情况;通过
    指数计算???30能够得到全国和各省的各行业和全行业的当期指数,衡量各省和全国的
    互联网+发展情况。

    需要说明的是:所述实施例提供的基于大数据分析的互联网+发展指数计算方法
    时,仅以所述各功能??榈幕纸芯倮得?,实际应用中,可以根据需要而将所述功能分
    配由不同的功能??橥瓿?,即将装置的内部结构划分成不同的功能???,以完成以上描述
    的全部或者部分功能。另外,所述实施例提供的基于大数据分析的互联网+发展指数计算方
    法和系统属于同一构思,其具体实现过程详见实施例,这里不再赘述。

    本领域普通技术人员可以理解实现所述实施例的全部或部分步骤可以通过硬件
    来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读
    存储介质中,所述提到的存储介质可以是只读存储器,磁盘或光盘等。

    以上所述仅为本发明的较佳实施例,并不用以限制本发明,凡在本发明的精神和
    原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的?;し段е?。

    关 键 词:
    一种 基于 数据 分析 互联网 发展 指数 计算方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种基于大数据分析的互联网发展指数计算方法.pdf
    链接地址://www.4mum.com.cn/p-6092781.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03