• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 9
    • 下载费用:30 金币  

    重庆时时彩5星走势tu: 基于GIS的海量统计数据的空间奇异点发掘方法.pdf

    关 键 词:
    基于 GIS 海量 统计数据 空间 奇异 发掘 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410020649.X

    申请日:

    2014.01.16

    公开号:

    CN103853817A

    公开日:

    2014.06.11

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140116|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 首都师范大学
    发明人: 孙永华; 李小娟; 王彦兵; 杨灿坤; 连健
    地址: 100048 北京市海淀区西三环北路105号
    优先权:
    专利代理机构: 北京市盛峰律师事务所 11337 代理人: 赵建刚
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410020649.X

    授权公告号:

    ||||||

    法律状态公告日:

    2016.03.23|||2014.07.09|||2014.06.11

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:读取GIS数据库中已存储的空间数据集;对空间数据集中各个空间数据的分布情况进行分析,判断各个空间数据的分布情况是否符合正态分布要求,如果判断结果为是,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。

    权利要求书

    权利要求书
    1.  一种基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,包括以下步骤:
    S1,读取GIS数据库中已存储的空间数据集;
    S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
    S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4;
    S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。

    2.  根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S1之前,还包括:利用相应的GIS软件对已有的地图数据进行数字化处理,制成一幅数字化地图,然后通过读取该数字化地图,获得所述空间数据集,再将所述空间数据集存储到GIS数据库中。

    3.  根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S2中,判断所述各个空间数据的分布情况是否符合正态分布要求具体为:
    通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。

    4.  根据权利要求3所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,通过频度直方图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
    通过频度直方图描述空间数据的单变量的特征,通过分析频度直方图的形状、分布、峰度因素,验证所述各个空间数据的分布情况是否符合正态分布要求;
    通过QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
    将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。

    5.  根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S4中,对各个所述空间数据进行全局奇异点查找具体为:
    通过频度直方图、熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找。

    6.  根据权利要求1所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,S4中,对各个所述空间数据进行局部奇异点查找具体为:
    通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。

    7.  根据权利要求5所述的基于GIS的海量统计数据的空间奇异点发掘方法,其特征在于,所述变异理论分析工具为协方差点云图或半变异点云图。

    说明书

    说明书基于GIS的海量统计数据的空间奇异点发掘方法
    技术领域
    本发明属于计算机技术领域,具体涉及一种基于GIS的海量统计数据的空间奇异点发掘方法。
    背景技术
    近年来,随着计算机技术的迅速发展以及广泛应用,人们积累的数据越来越多,海量统计数据是管理层越来越多面临的问题,奇异点检测更成为一大难题。
    海量统计数据具有覆盖面广、信息量大的特点,传统上,人们处理海量统计信息数据并从中挖掘有用的知识的技术和手段相对却非常贫乏和软弱。
    奇异点是指样本中的一个或几个距离其他观测值较远的观测值,暗示这些奇异点可能来自不同的总体。奇异点不同于邻近域属性值的目标对象是由某种特有的机制产生的,因此,奇异点的识别能够导致很多有意义知识的发掘。从空间意义上来说,发现局部异常对象是极其重要的,空间奇异点就是在空间上非空间属性显著不同于空间邻近域的目标对象。有些情况下,空间奇异点在整个数据集合上并不是那么显著地,但是对于局部而言就是一个非常不稳定点,所以,及时准确的查找空间奇异点具有重要意义。
    传统的空间奇异点查找方法主要有大量观察法、统计分组法、综合分析法、统计模型法和归纳推断法等。但是,上述几类查找方法普遍具有查找效率慢的不足,难以从海量空间数据中快速准确的查找到空间奇异点数据。
    发明内容
    针对现有技术存在的缺陷,本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
    本发明采用的技术方案如下:
    本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:
    S1,读取GIS数据库中已存储的空间数据集;
    S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
    S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4;
    S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
    优选的,S1之前,还包括:利用相应的GIS软件对已有的地图数据进行数字化处理,制成一幅数字化地图,然后通过读取该数字化地图,获得所述空间数据集,再将所述空间数据集存储到GIS数据库中。
    优选的,S2中,判断所述各个空间数据的分布情况是否符合正态分布要求具体为:
    通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求。
    优选的,通过频度直方图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
    通过频度直方图描述空间数据的单变量的特征,通过分析频度直方图的形状、分布、峰度因素,验证所述各个空间数据的分布情况是否符合正态分布要求;
    通过QQPlot图验证所述各个空间数据的分布情况是否符合正态分布要求具体为:
    将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。
    优选的,S4中,对各个所述空间数据进行全局奇异点查找具体为:
    通过频度直方图、熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找。
    优选的,S4中,对各个所述空间数据进行局部奇异点查找具体为:
    通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
    优选的,所述变异理论分析工具为协方差点云图或半变异点云图。
    本发明的有益效果如下:
    本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
    附图说明
    图1为本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法的流程示意图;
    图2为频度直方图展现的整个数据集值分布状况的一个图示意图;
    图3为正态QQPlot样本数据排序后的累积分布图经过转换后,得到的正态分布值与样本数据值之间的曲线图。
    具体实施方式
    以下结合附图对本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法进行详细介绍:
    如图1所示,本发明提供一种基于GIS的海量统计数据的空间奇异点发掘方法,包括以下步骤:
    S1,读取GIS数据库中已存储的空间数据集;
    S2,对所述空间数据集中各个空间数据的分布情况进行分析,判断所述各个空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则执行S3;如果判断结果为是,则直接执行S4;
    其中,判断各个空间数据的分布情况是否符合正态分布要求具体为:通过频度直方图和/或QQPlot图验证所述各个空间数据的分布情况是否符合正态分 布要求。
    具体的,频度直方图用于展现整个空间数据集中各个空间数据的分布状况,在与GIS平台相关联后,则更能体现空间数据集的空间分布情况。频度直方图用于描述数据中的单变量的特征,可分析出特定区域的单一变量的整体分布情况,查找出空间数据集中的离散值,从而得到整个空间数据集的分布特征,也可以从中得到空间数据集的特征数值。频度直方图的频率分布可以从形状、分布、峰度等方面来考虑,呈正态分布的空间数据的均值和中值近似相等,偏度接近0,峰度接近3。
    将待分析的空间数据集中各个空间数据排序后的累积分布图经过转换后,得到QQPlot图,如果QQPlot图中各空间数据的连线趋于一条直线,则说明空间数据集中各个空间数据的分布情况符合正态分布要求。其中,QQPlot图用于直观验证一组数据是否来自某个分布,或者验证某两组数据是否来自同一(族)分布。在教学和软件中是一种常用的检验数据是否来自于正态分布。如图3所示,为正态QQPlot样本数据排序后的累积分布图经过转换后,得到的正态分布值与样本数据值之间的曲线图。
    S3,将每一个所述空间数据分别进行对数变换,得到变换后的空间数据;并进一步判断各个所述变换后的空间数据的分布情况是否符合正态分布要求,如果判断结果为否,则丢弃各个所述变换后的空间数据,结束流程;如果判断结果为是,则执行S4;
    对每一个空间数据进行对数变换,即:将每一个采集到的空间数据根据对数函数进行一一映射,用得到的结果代替原有的空间数据进行判断是否符合正态分布,理由为:因为采集到的空间数据尤其是不符合正态分布的空间数据可能会有指数的失真,对其进行对数变换能够抵消这一指数失真,再进行正态分布的分析。
    S4,对各个所述空间数据进行全局奇异点查找,直到符合查找结束条件时,结束流程;或,对各个所述空间数据进行局部奇异点查找,直到符合查找结束条件时,结束流程。
    其中,对各个所述空间数据进行全局奇异点查找具体为:通过频度直方图、 熵值方法或聚类方法生成的Voronoi图对各个所述空间数据进行全局奇异点查找。
    对各个所述空间数据进行局部奇异点查找具体为:通过变异理论分析工具和/或正态QQPlot图对各个所述空间数据进行局部奇异点查找。
    具体的,奇异点类型包括两大类:全局奇异点和局部奇异点。下面对全局奇异点和局部奇异点分别介绍:
    (一)全局奇异点
    全局奇异点是指,对于整个空间数据集而言,具有很高或很低值的观测样点。从本质上来看,全局奇异点是偏离于整个空间数据集分布的极大值或者极小值,所以需要从整个空间数据集的分布来寻找。
    全局奇异点可以通过以下方式查找:
    (1)频度直方图
    全局奇异点在频度直方图上表现为孤立存在的点或是被一群显著不同的值所包围的点。需要注意的是,在频度直方图中孤立存在或被一群显著不同的值所包围的样点不一定是全局奇异点,也可能就是真实值。
    本发明应用频度直方图查找全局奇异点,频度直方图与普通应用的直方图的区别在于:普通的直方图关注于空间数据集中的个体,而频度直方图更注重于展现整个空间数据集中各个空间数据的分布状况,如图2所示,为频度直方图展现的整个数据集值分布状况的一个图示,本发明与GIS平台相关联后,则更能体现空间数据集的空间分布情况。频度直方图用于描述空间数据的单变量的特征,可分析出特定区域的单一变量的整体分布情况,查找出空间数据集中的奇异点,同时也可以计算一些概括性的统计指标。从频度直方图可以看到整个空间数据集的分布特征,也可以得到空间数据集的奇异点。
    (2)熵值方法或聚类方法生成的Voronoi图
    熵值是量度相邻单元相异性的指标,一般来说,相互距离近的样本点比相互距离远的样本点具有更大的相似性。因此,全局奇异点可以通过高熵值的区域识别出来。同样的原理,聚类方法也可以识别出区别于周围单元的奇异点。Voronoi图,又叫泰森多边形或Dirichlet图,它是由一组由连接两邻点直线的垂直 平分线组成的连续多边形组成。Voronoi图的生成方法是每个多边形内有一个样点,多边形内任一点到该点的距离都小于其他多边形到该点的距离,生成多边形后,某个样点的相邻样点便会与该样点的多边形有相邻边。
    (二)局部奇异点
    局部奇异点是指,对于整个空间数据集而言,观测样点值属于正常,但与其相邻的样点值比较,观测样点值又偏高或偏低。
    局部奇异点可以通过以下方式查找:
    (1)变异理论分析工具
    变异理论分析工具包括协方差点云图和半变异点云图,通过这两种分析工具可以检测一定范围内的局部奇异点。对于半变异点云图,半变异函数值越小,空间相似性越大;而半变异函数值越大,空间相似性越小。ArcMap是一个可用于数据输入、编辑、查询、分析等等功能的应用程序,具有基于地图的所有功能,实现如地图制图、地图编辑、地图分析等功能。在ArcMap视图中,用x轴表示样点对间的距离,y轴表示样点对间的半变异值/协方差值,得到半变异/协方差函数云图。在半变异/协方差函数云图中,局部奇异点主要表现在函数的分布形式上,如果存在一个局部奇异点,则可以看到一组靠得很近的样本点,在x轴左端,y轴有较高值。对这些样点对,如果是一个样点与其他样点间产生,则要对这个样点的数据源仔细考虑,如果确认调查数据准确,则可以确认是真实异常,不需剔除,反之,则需要对样点对进行剔除或重新调查。此外,半变异/协方差函数云图也可以反应空间数据的空间相关程度,根据距离越近越相似的原理,x值越小,y值应该越小。
    空间协方差点云图可以用于表示区域化随机变量之间的差异。在概率论中,随机向量X与Y的协方差被定义为
    cov(x,y)=E[(x-Ex)(y-Ey)]
    Z‾(xi)=1NΣi=1NZ(xi)]]>
    Z(xi-+h)=1NΣi=1NZ(xi+h)]]>
    式中:h为两样本点空间分隔距离或距离滞后;
    Z(Xi)为Z(X)在空间位置Xi处的实测值;
    Z(Xi+h)是Z(X)在Xi处距离偏离h的实测值[i=1,2,…,],N(h)是分隔距离为h时的样本点对(pairs)总数,Z(Xi)和Z(X)分别为Z(Xi)和Z(X)的样本平均数;
    在一维条件下变异函数定义为,当空间点x在一维x轴上变化时,区域化变量Z(x)在点x和x+h处的值Z(x)与Z(x+h)差的方差的一半为区域化变量Z(x)在x轴方向上的变异函数,记为γ(h),
    γ(x,h)=12E[Z(x)-Z(x+h)]2]]>
    (2)正态QQPlot图
    正态QQPlot图是探索空间分析中常用的检测工具,用以检测一个空间数据集的分布是否服从正态分布。正态QQPlot图的x轴表示空间数据集n级分位数所对应的标准正态分布值,y轴表示空间数据集的n级分位数,图中的斜线表示正态分布线。普通QQPlot分布图将两个数据集的分布在二维图像上表示出来,用以检验两个数据集之间的相关性。如果在图中点分布曲线呈直线,说明数据集呈一种线性关系,可以用一个一元一次方程式来拟合。如果图中曲线呈抛物线,说明数据集的关系可以用一个二元多项式来拟合。
    综上所述,本发明提供的基于GIS的海量统计数据的空间奇异点发掘方法,将GIS技术与空间统计分析方法结合起来,能够从海量空间数据中快速准确的查找到空间奇异点数据。
    以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视本发明的?;し段?。

    关于本文
    本文标题:基于GIS的海量统计数据的空间奇异点发掘方法.pdf
    链接地址://www.4mum.com.cn/p-6147853.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 真人龙虎斗平台 江苏时时彩组三的几率 吉林快3开奖结果 六肖中特期期准王中王743 东北四人麻将免费下载 信誉最好最靠谱的棋牌 百家乐代理 保健品电销赚钱吗 山西快乐十分规则 上海时时乐幵奖结果走是 26选5一等奖多少钱 排列五走势图综合版 福彩之“生肖时时彩 吉林快3走势图和平 如何买新11选5 凯撒皇宫线上娱乐