• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩全能计划: 一种海量时空数据清洗方法及装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610974444.4

    申请日:

    2016.11.04

    公开号:

    CN106570160A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161104|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 北方工业大学
    发明人: 丁维龙; 赵卓峰; 曹娅琪
    地址: 100144 北京市石景山区晋元庄路5号北方工业大学云计算研究中心
    优先权:
    专利代理机构: 北京市广友专利事务所有限责任公司 11237 代理人: 张仲波
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610974444.4

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供了一种海量时空数据清洗方法与装置,该方法包括:对时空数据进行基于时间的聚类计算,获取原始数据中数据项的时间戳分布;对数据项的给定置信度的时间戳值域判定,确定原始数据中数据项时间戳的值域;基于规则进行数据过滤:根据业务领域的时空规则,进行数据项合法性判定,若判定为合法,则该数据项被抽取至结果,否则该数据项被剔除。本发明的技术方案保证了海量数据的时间一致性,并提供了简单可靠的时空属性合法性验证方法,提高了数据处理效率。

    权利要求书

    1.一种海量时空数据清洗方法,其特征在于,所述方法包括:
    步骤1、对时空数据进行基于时间的聚类计算,获取原始数据中数据项的时间戳分布;
    步骤2、对数据项的给定置信度的时间戳值域判定,确定原始数据中数据项时间戳的值
    域;
    步骤3、基于规则进行数据过滤:根据业务领域的时空规则,进行数据项合法性判定,若
    判定为合法,则该数据项被抽取至结果,否则该数据项被剔除。
    2.根据权利要求1所述的方法,其特征在于,所述步骤3还包括:
    当数据项存在多个时间属性,且该些时间属性至少一个合法时,则对其他不合法的时
    间戳属性中的日期进行修正。
    3.根据权利要求1所述的方法,其特征在于,所述步骤2还包括:
    设置置信度阈值α,对于所述步骤1中的基于时间的聚类计算结果,若置信度不低于α,
    且时间戳分布位于时间范围β内,则认为时间范围β′=minβ为真实的时间戳值域。
    4.一种海量时空数据清洗装置,其特征在于,所述装置包括:
    基于时间的聚类计算???,用于对原始数据中的数据项进行基于时间的聚类计算,获
    取数据项的时间戳分布;并用于确定原始数据中数据项时间戳的值域;
    基于规则的过滤???,用于修正时间戳和抽取合法数据项。
    5.根据权利要求4所述的装置,其特征在于,所述装置还包括:
    分布式文件系统,用于存储原始数据和结果数据;
    所述原始数据用于所述基于时间的聚类计算和所述基于规则的过滤;
    所述结果数据用于存储时间属性一致和规则判定合法的结果数据。
    6.根据权利要求4所述的装置,其特征在于,所述基于规则的过滤???,还用于定义所
    述规则,并依据所述数据项时间戳的值域,抽取合法数据项至结果数据。

    说明书

    一种海量时空数据清洗方法及装置

    技术领域

    本发明涉及数据通信技术领域,尤其涉及一种海量时空数据清洗的方法及装置。

    背景技术

    大数据、物联网技术的不断发展,诸多业务领域产生海量、实时的数据被不断累
    积。数据分析是目前诸多领域研究的热点,其中的第一个步骤就是数据预处理,数据预处理
    能有效提高数据质量,为数据挖掘内核提供更有针对性的可用数据,不仅可以节约大量的
    时间和空间,而且得到的挖掘结果能更好地起到决策和预测作用。物联网环境下来自传感
    器的数据,通常由于含有时间戳和地理位置属性,是一类典型的时空数据。同时,由于现实
    世界的数据往往是不完整的、含噪声的和不一致的,真实的数据趋势湮没于野点及噪声之
    中,若无法有效地去除噪声及野点,对后端的分析,如预测、控制、建模等都将产生重大的影
    响。所以,时空数据分析前,作为预处理的数据清洗是必要的。

    业务领域中的时空数量呈指数形态增长,使得数据清洗难度越来越大,需要耗费
    管理者大量精力维护。例如,智能交通领域内的车牌识别摄像头采集海量的车牌识别数据,
    手机或车载终端采集的GPS数据,公交车一卡通刷卡数据等,都是不同业务领域的时空数
    据。现有技术中公开了一些数据播发系统,但尚未出现支持万级并发连接、高吞吐量、支持
    异构数据快速接入的数据播发系统。如申请号为CN 201510534824.1的专利文献《一种物联
    网数据清洗方法》;申请号为CN 201510064730.2的专利文献《一种时序数据清洗方法及系
    统》;申请号为CN 201410483041.0的专利文献《一种面向大数据的数据清洗系统及方法》;
    申请号为CN201310753688.6的专利文献《公交车实时地理信息数据清洗方法及系统》;申请
    号为CN201310675935.5的专利文献《轨迹数据清洗方法及装置》;申请号为
    CN201310081635.4的专利文献《一种物联网数据清洗方法》;申请号为CN201310008621.X的
    专利文献《基于时空分析的交通流数据清洗方法》;申请号为CN201210289550.0的专利文献
    《一种海量数据清洗方法及装置》;申请号为CN201210273235.9的专利文献《一种多阈值空
    间相关的浮动车数据清洗和修复算法》等。分析其中的技术细节可知,其对海量时空数据清
    洗的方法和装置并不完善,主要体现在以下几个方面:

    第一方面:当前工作大多是集中式系统,面对物联网中大规模传感器累积的海量
    时空,缺乏技术能力方面的支持。当前工作都是在单台服务器上搭建系统,而单机能力的局
    限无法及时应对数据处理的速度,无法匹配高吞量的性能需求。

    第二方面:当前工作针对时间属性若无先验知识,难以确定正确合理的时间戳范
    围,时间一致性难以保证。时空数据的时间戳在原始数据中,由于各种原因可能缺失和出现
    错误,在无先验经验的情形下,难以确定实际的时间范围。

    第三方面:当前工作对不完整数据项的合法性的检验存在不足。在物联网环境下
    海量数据被迅速累积,合法性的定义和检验都是挑战,如何使得检验能够利用时空属性是
    值得研究的方向。

    发明内容

    本发明的目的是为了解决当前数据清洗的方法和装置无法适应海量数据的处理,
    时间属性一致性难以保证,时空属性的合法性难以检验的的问题,提供面向海量时空数据
    的数据清洗方法和装置。

    为达到上述目的,本发明具体提供了如下技术方案:

    一方面,本发明提供了一种海量时空数据清洗方法,该方法包括:

    步骤1、对时空数据进行基于时间的聚类计算,获取原始数据中数据项的时间戳分
    布;

    步骤2、对数据项的给定置信度的时间戳值域判定,确定原始数据中数据项时间戳
    的值域;

    步骤3、基于规则进行数据过滤:根据业务领域的时空规则,进行数据项合法性判
    定,若判定为合法,则该数据项被抽取至结果,否则该数据项被剔除。

    优选地,所述步骤3还包括:

    当数据项存在多个时间属性,且该些时间属性至少一个合法时,则对其他不合法
    的时间戳属性中的日期进行修正。

    优选地,所述步骤2还包括:

    设置置信度阈值α,对于所述步骤1中的基于时间的聚类计算结果,若置信度不低
    于α,且时间戳分布位于时间范围β内,则认为时间范围β′=minβ为真实的时间戳值域。

    此外,本发明还提供了一种海量时空数据清洗装置,该装置包括:

    基于时间的聚类计算???,用于对原始数据中的数据项进行基于时间的聚类计
    算,获取数据项的时间戳分布;并用于确定原始数据中数据项时间戳的值域;

    基于规则的过滤???,用于修正时间戳和抽取合法数据项。

    优选地,所述装置还包括:

    分布式文件系统,用于存储原始数据和结果数据;

    所述原始数据用于所述基于时间的聚类计算和所述基于规则的过滤;

    所述结果数据用于存储时间属性一致和规则判定合法的结果数据。

    优选地,所述基于规则的过滤???,还用于定义所述规则,并依据所述数据项时间
    戳的值域,抽取合法数据项至结果数据。

    与现有技术相比,本发明技术方案,通过分布式技术,解决清洗海量时空的性能不
    足;通过时间聚类,可在无先验知识的情形下确定真实的时间戳值域,保证数据的时间一致
    性;通过规则过滤,修正和剔除不合法数据项,保证数据的合法性。

    附图说明

    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现
    有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本
    发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以
    根据这些附图获得其它的附图。

    图1为本发明实施例的海量时空数据清洗方法流程图;

    图2为本发明实施例的海量时空数据清洗装置部署图;

    图3为本发明实施例的海量时空数据清洗方法面向海量公交车刷卡数据的基于时
    间的聚类流程图;

    图4为本发明实施例的海量时空数据清洗方法面向海量公交车刷卡数据的基于规
    则的过滤流程图。

    具体实施方式

    下面结合附图对本发明实施例进行详细描述。应当明确,所描述的实施例仅是本
    发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域普通技术人员在
    没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明?;さ姆段?。

    本领域技术人员应当知晓,下述具体实施例或具体实施方式,是本发明为进一步
    解释具体的发明内容而列举的一系列优化的设置方式,而该些设置方式之间均是可以相互
    结合或者相互关联使用的,除非在本发明明确提出了其中某些或某一具体实施例或实施方
    式无法与其他的实施例或实施方式进行关联设置或共同使用。同时,下述的具体实施例或
    实施方式仅作为最优化的设置方式,而不作为限定本发明的?;し段У睦斫?。

    实施例1:

    本发明的一种海量时空数据清洗方法,主要包括了三个步骤,结合图1详细说明。
    其中,

    基于时间的聚类计算,获取原始数据中数据项的时间戳分布,该步骤可以使用
    Hadoop MapReduce或Spark等分布式计算框架设计和实现。

    在一个具体的实施方式中,上述获取时间戳分布可以实现为一个计算作业;以北
    京市政交通一卡通的刷卡数据为例,数据项中含有上车时间戳和下车时间戳两个时间属
    性,两个时间属性可通过一个基于时间的聚类计算作业,获得各自的时间分布;该基于时间
    的聚类计算可以实现为一个Hadoop MapReduce作业,所述作业的输入是存放原始数据的文
    件,输出是时间属性的分布;所述作业的map任务,以数据项为单位扫描,抽取数据项的上车
    时间戳和下车时间戳,向reduce任务输出键值对,其中键为日期,值的形式为X-1,且上车时
    间戳X=0,下车时间戳X=1;所述作业的reduce任务,接收上述键值对数据,通过键分组,计
    数同一日期下的上车刷卡次数和下车刷卡次数;也即,通过一个作业,可以获得所有时间属
    性的时间分布;

    给定置信度的值域判定,是面向基于时间的聚类计算的结果,给定置信度α,若不
    低于α时间戳分布的位于时间范围β内,则认为时间范围β′=minβ为真实的时间戳值域;该
    步骤可以采用启发式算法,动态调整步长,快速确定β′;通常情况下,可设定α=95%,获取
    时间分布中分布最集中的时间范围β′;同样以上述的北京市政交通一卡通的刷卡数据为
    例,上车时间戳和下车时间戳两个时间属性经过基于时间的聚类计算,在获知上车时间戳
    和下车时间戳的时间分布后,设定α=95%,获得上车时间戳和下车时间戳均为β′=
    [2013.3.1,2013.3.8],意味着在原始数据中,95%数据项上车或下车时间在这八天内;

    基于规则的过滤,是根据业务领域的时空规则进行的数据项合法性判定,若判定
    为合法则该数据项被抽取至结果;否则该数据项被剔除;当存在多个时间属性且这些属性
    至少一个合法时,其中不合法的时间戳属性中的日期可被修正;该步骤可以使用Hadoop
    MapReduce或Spark等分布式计算框架设计和实现。

    在一个具体的实施方式中,日期修正可以实现为一个计算作业;以北京市政交通
    一卡通的刷卡数据为例,所述作业的输入是存放原始数据的文件,输出是存放结果数据的
    文件,作业只需要map任务;所述作业的map任务,以数据项为单位扫描,判断该条数据是否
    合法;这里使用了如下的规则:(1)上车时间戳小于下车时间戳,其下车时间戳与上车时间
    戳相差不超过4个小时;(2)上车地点和下车地点不相同。

    实施例2:

    本发明结合图2说明一种海量时空数据清洗装置,所述装置包含三个部分:基于时
    间的聚类计算???,基于规则的过滤??楹头植际轿募低?。其中,

    基于时间的聚类计算???,实现所述基于时间的聚类计算,实现所述给定置信度
    的值域判定,确定原始数据中数据项时间戳的值域;该??榭稍诖嬖贖adoop MapReduce或
    Spark分布式计算环境的服务器上搭建;在一个具体的实施方式中,以Hadoop环境集群的搭
    建步骤可通过如下方式实现:

    (1)规划机器形成集群,作为管理节点的机器有1~2台,作为计算节点机器至少3
    台;

    (2)配置网络名,对每一台机器,设置本机器网络中唯一的Host名称,且彼此可以
    ping通;可以通过修改机器的/etc/hosts文件实现;也可以通过设置局域网内的DNS映射实
    现;

    (3)配置相互无密码通信,对主控节点中的其中任何一台机器,使用命令ssh-
    keygen-t dsa,产生一对密钥文件id_dsa,id_dsa.pub和登记文件known_hosts,将id_
    dsa.pub文件拷贝至每一台计算节点;在每一台计算节点中,使用命令cat/root/.ssh/id_
    rsa.pub>>/root/.ssh/authorized_keys,将已接收的id_rsa.pub文件内容追加到登记文
    件authorized_keys中;并将登记文件authorized_keys的权限设置为600;

    (4)对每一台机器,安装Oracel JDK,并通过alternatives命令设置该JDK为系统
    中的默认JDK;修改环境变量,通过命令export HADOOP_HOME=/opt/hadoop-1.0.4和命令
    export PATH=$JAVA_HOME/bin:$JRE_HOME/bin:$PATH:$HADOOP_HOME/bin;

    (5)下载和安装Hadoop,在每一台机器上,将下载的安装包hadoop-1.0.4.tar.gz
    解压,修改解压文件夹中conf目录的hdfs-site.xml,core-site.xml,mapred-site.xml,
    hadoop-env.sh。使得其中的端口、地址、临时目录符合规划需求定义,特别是注意主控节点
    和计算节点的异同;

    (6)启动Hadoop服务,通过命令./stop-all.sh启动;

    基于规则的过滤???,定义所述规则,实现所述基于规则的过滤,根据所述数据项
    时间戳的值域,抽取合法数据项至所述结果文件;该??榭稍诖嬖贖adoop MapReduce或
    Spark分布式计算环境的服务器上搭建;Hadoop环境搭建与基于时间的聚类计算??榭刹?br />用相同的方式;

    分布式文件系统,用于存储原始数据和结果数据;其中所述原始数据用于所述基
    于时间的聚类计算和所述基于规则的过滤;其中所述结果数据用于存储时间属性一致和规
    则判定合法的结果数据;该??榭稍诖嬖贖adoop HDFS分布式文件系统的服务器上搭建;
    Hadoop环境搭建与基于时间的聚类计算??榭刹捎孟嗤姆绞?。

    实施例3:

    本发明结合图3说明一种海量时空数据清洗方法,该方法作为本发明的一个优选
    的实施方式作为举例,所述基于时间的聚类计算,在面向海量公交刷卡数据的计算步骤。其
    中,

    (1)扫描存储原始数据的文件,若文件扫描未结束,转(2),否则转(8);

    (2)扫描下一条数据项;

    (3)抽取上车时间戳中的日期;

    (4)抽取下车时间戳中的日期;

    (5)上车日期计数;

    (6)下车日期计数;

    (7)统计日期分布;

    (8)结束。

    其中,步骤(2)~(4)可以采用Hadoop MapReduce分布式计算框架,通过设计Map任
    务实现;步骤(5)~(7)可以采用Hadoop MapReduce分布式计算框架,通过设计Reduce任务
    实现。

    实施例4:

    本发明结合图4说明一种海量时空数据清洗方法,该方法作为本发明的一个优选
    的实施方式作为举例,所述基于规则的过滤,在面向海量公交刷卡数据的步骤。其中,

    (1)扫描存储原始数据的文件,若文件扫描未结束,转(2),否则转(6);

    (2)扫描下一条数据项;

    (3)根据所述时间戳值域,判定上车和下车时间戳是否全都不合法,若全都不合
    法,转(2);否则转(4);

    (4)若两个时间戳均合法,转(5);只有一个时间戳不合法,按照所述时间戳值域修
    正该时间戳;

    (5)判定该数据项是否违背时空规则,若不违背,认定该数据项合法,抽取该数据
    项至结果;否则,转(1)。

    (6)结束。

    本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以
    通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一计算机可读取存储介质
    中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,所述的存储介质可为磁
    碟、光盘、只读存储记忆体(Read-Only Memory,ROM)或随机存储记忆体(Random Access
    Memory,RAM)等。

    以上所述,仅为本发明的具体实施方式,但本发明的?;し段Р⒉痪窒抻诖?,任何
    熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,都应
    涵盖在本发明的?;し段е?。因此,本发明的?;し段вσ匀ɡ蟮谋;し段?。

    关 键 词:
    一种 海量 时空 数据 清洗 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种海量时空数据清洗方法及装置.pdf
    链接地址://www.4mum.com.cn/p-6092743.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03