• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩怎么作弊: 一种数据库对象命名规则设计方法.pdf

    关 键 词:
    一种 数据库 对象 命名 规则 设计 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610716732.X

    申请日:

    2016.08.25

    公开号:

    CN106372129A

    公开日:

    2017.02.01

    当前法律状态:

    公开

    有效性:

    审中

    法律详情: 公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 马上游科技股份有限公司
    发明人: 陈勇; 司良省; 李志魁
    地址: 212009 江苏省镇江新区丁卯经十二路468号双子楼A座05-2300室
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610716732.X

    授权公告号:

    法律状态公告日:

    2017.02.01

    法律状态类型:

    公开

    摘要

    本发明公开了一种数据库对象命名规则设计方法,利用属性维上的局部稀疏程度,重新定义了相关子空间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密度,给出了局部离群因子计算公式,有效地体现了数据对象不服从局部数据集分布特征的程度,并选取离群程度最大的N个数据对象定义为局部离群数据。本发明公开的一种基于并行计算的离群数据挖掘方法,在计算稀疏度因子和离群因子Factor时由Map来实现;在按Factor大小进行全排序时,使用一个Map对Factor进行取样,进而实现决定各个(K2,V2)分配到哪个结点的函数,从而有效地解决了数据分配不均匀问题和局部有序但全局无序问题。

    权利要求书

    1.一种数据库对象命名规则设计方法,其特征在于:包括以下步骤:
    S1、执行LSH中的MapReduce任务,生成{(obj,LDS(obj))},并行计算数据对象obj的LDS
    (obj);
    S2、以{(obj,LDS(obj))}作为输入,执行MapReduce任务,生成确定DS中每个
    数据对象obj对应的稀疏度因子;
    S3、以作为输入,执行LSH中的MapReduce任务,生成{(obj,([ZLk]kxd(o)(o
    ∈LDS(obj i))))},确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵[ZLk]
    kxd(o)(o∈LDS(obji));
    S4、以{(obj,([ZLk]kxd(o)(o∈LDS(obji))))}作为输入,执行MapReduce任务,生成
    {(obj,Factor(obj))},确定DS中每个数据对象obj对应的离群因子Factor(obj);
    S5、以{(obj,Factor(obj))}作为输入,执行MapReduce任务,对{(obj,Factor(obj))}
    按Factor大小进行全排序,确定DS中每个数据对象obj按对应的离群因子Factor(obj)的大
    小进行全排序;
    S6、在步骤5的输出中找离群程度最大的n个数据对象,选取Top(N)作为离群数据。
    2.根据权利要求1所述的一种基于并行计算的离群数据挖掘方法,其特征在于:其中,
    离群因子计算过程为:
    (1)采用分布式策略,确定各个数据对象的LDS(obji);
    (2)采用一个Map函数,计算各个数据对象对应的稀疏度因子
    (3)采用分布式策略,确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵:[ZLk]kxd
    (o)(o∈LDS(obji));
    (4)采用一个Map函数,计算各个数据对象对应的子空间定义向量vi,结合[ZLk]kxd(o)
    (o∈LDS(obji))计算对应的离群因子Factor;
    (5)采用一个Map函数和一个Reduce函数,将各个数据对象按对应的离群因子Factor进
    行全排序并输出结果。
    3.根据权利要求1所述的一种基于并行计算的离群数据挖掘方法,其特征在于:所述数
    据集DS的属性个数为d。

    说明书

    一种数据库对象命名规则设计方法

    技术领域

    本发明涉及一种数据库对象命名规则设计方法。

    背景技术

    离群数据(outlier)就是明显偏离其他数据、不满足数据的一般模式或行为、与存
    在的其他数据不一致的数据,蕴含着大量的不易被人类发现却很有价值的信息.离群挖掘
    作为数据挖掘的一个重要分支,已广泛的应用在天文光谱数据分析、信用卡诈骗、网络入侵
    挖掘、数据清洗等领域.

    在高维海量数据中,由于数据量大和维度高,严重地影响了离群数据挖掘效果和
    效率,可能无法发现隐藏在子空间中的一些离群数据.在大多数情况下,离群数据是与局部
    数据集的分布特征明显不一致的数据对象.但在有些属性维上,可以提供不一致的有价值
    信息,而在其他属性维上,无法提供有价值的信息。

    发明内容

    本发明的目的是针对高维海量数据,在MapReduce编程模型下,提出了一种基于并
    行计算的离群数据挖掘方法,该算法利用属性维上的局部稀疏程度,重新定义了相关子空
    间,从而能够有效地刻画各种局部数据集上的分布特征;其次,利用局部数据集的概率密
    度,给出了局部离群因子计算公式,有效地体现了数据对象不服从局部数据集分布特征的
    程度,并选取离群程度最大的N个数据对象定义为局部离群数据。

    本发明所采用的技术方案是:

    一种数据库对象命名规则设计方法,包括以下步骤:

    S1、执行LSH中的MapReduce任务,生成{(obj,LDS(obj))},并行计算数据对象obj
    的LDS(obj);

    S2、以{(obj,LDS(obj))}作为输入,执行MapReduce任务,生成确定DS
    中每个数据对象obj对应的稀疏度因子;

    S3、以作为输入,执行LSH中的MapReduce任务,生成{(obj,([ZLk]kxd
    (o)(o∈LDS(obj i))))},确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵
    [ZLk]kxd(o)(o∈LDS(obji));

    S4、以{(obj,([ZLk]kxd(o)(o∈LDS(obji))))}作为输入,执行MapReduce任务,生
    成{(obj,Factor(obj))},确定DS中每个数据对象obj对应的离群因子Factor(obj);

    S5、以{(obj,Factor(obj))}作为输入,执行MapReduce任务,对{(obj,Factor
    (obj))}按Factor大小进行全排序,确定DS中每个数据对象obj按对应的离群因子Factor
    (obj)的大小进行全排序;

    S6、在步骤5的输出中找离群程度最大的n个数据对象,选取Top(N)作为离群数据。

    其中,离群因子计算过程为:

    (1)采用分布式策略,确定各个数据对象的LDS(obji);

    (2)采用一个Map函数,计算各个数据对象对应的稀疏度因子

    (3)采用分布式策略,确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵:
    [ZLk]kxd(o)(o∈LDS(obji));;

    (4)采用一个Map函数,计算各个数据对象对应的子空间定义向量vi,结合[ZLk]
    kxd(o)(o∈LDS(obji))计算对应的离群因子Factor;

    (5)采用一个Map函数和一个Reduce函数,将各个数据对象按对应的离群因子
    Factor进行全排序并输出结果。

    本发明的有益效果是,

    本发明公开的一种基于并行计算的离群数据挖掘方法,在计算稀疏度因子和离群
    因子Factor时由Map来实现,在按Factor大小进行全排序时,使用一个Map对Factor进行取
    样,进而实现决定各个(K2,V2)分配到哪个结点的函数,从而有效地解决了数据分配不均匀
    问题和局部有序但全局无序问题;同时,设计一个Reduce来对分配到各个结点的(K2,V2)进
    行排序。

    下面结合附图对本发明作进一步详细描述。

    附图说明

    图1为传统算法的离群因子的计算过程示意图。

    具体实施方式

    为了加深对本发明的理解,下面结合附图和实施例对本发明作进一步详细的说
    明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保
    护范围。

    传统算法:

    设DS是任意一个d维数据集,属性集FS={A1,A2,…Ad},xij(i=1,2,…,n;j=1,
    2,…,d)表示第i个数据对象obji在第j个属性上的取值。如果第i个对象obj的子空间定义
    向量v各维值都是0,表明obj与局部分布特征一致;如果第i个对象obj存在着相关子空间,
    表明obj与局部分布特征不一致。通常我们用Factor(obj)来描述离群程度:

    <mrow> <mi>F</mi> <mi>a</mi> <mi>c</mi> <mi>t</mi> <mi>o</mi> <mi>r</mi> <mrow> <mo>(</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mi>max</mi> <mo>{</mo> <mn>0</mn> <mo>,</mo> <mi>e</mi> <mi>r</mi> <mi>f</mi> <mrow> <mo>(</mo> <mfrac> <mrow> <msub> <mi>PLOF</mi> <mrow> <mi>R</mi> <mi>S</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>)</mo> </mrow> </mrow> <mrow> <msqrt> <mn>2</mn> </msqrt> <mo>&CenterDot;</mo> <msqrt> <mrow> <msub> <mi>E</mi> <mrow> <mi>o</mi> <mo>&Element;</mo> <mi>L</mi> <mi>D</mi> <mi>S</mi> <mrow> <mo>(</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>)</mo> </mrow> <mo>&cup;</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msub> <mo>&lsqb;</mo> <msup> <mrow> <mo>(</mo> <msub> <mi>PLOF</mi> <mrow> <mi>R</mi> <mi>S</mi> </mrow> </msub> <mo>(</mo> <mi>o</mi> <mo>)</mo> <mo>)</mo> </mrow> <mn>2</mn> </msup> <mo>&rsqb;</mo> </mrow> </msqrt> </mrow> </mfrac> <mo>)</mo> </mrow> <mo>}</mo> </mrow>

    其中,LDS(obj)是obj局部数据集,PLOF是局部异常因子:

    <mrow> <msub> <mi>PLOF</mi> <mrow> <mi>R</mi> <mi>S</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>&sigma;</mi> <mrow> <mi>R</mi> <mi>S</mi> </mrow> </msub> <mrow> <mo>(</mo> <mi>o</mi> <mi>b</mi> <mi>j</mi> <mo>,</mo> <mi>L</mi> <mi>D</mi> <mi>S</mi> <mo>(</mo> <mrow> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> <mo>)</mo> <mo>)</mo> </mrow> </mrow> <mrow> <msub> <mi>E</mi> <mrow> <mi>o</mi> <mo>&Element;</mo> <mi>L</mi> <mi>D</mi> <mi>S</mi> <mi>o</mi> <mi>b</mi> <mi>j</mi> </mrow> </msub> <mrow> <mo>(</mo> <msub> <mi>&sigma;</mi> <mrow> <mi>R</mi> <mi>S</mi> </mrow> </msub> <mo>(</mo> <mi>o</mi> <mo>)</mo> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mn>1</mn> </mrow>

    由公式可知,数据集DS中的任意数据对象obji(i=1,2,…,n;n=|DS|)的离群因
    子Factor(obji)的计算步骤是:

    首先,确定obji的LDS(obji),并利用公式计算obji对应的稀疏度因子从而生
    成DS的稀疏因子矩阵[Zk]n×d;其次,根据[Zk]n×d,参照LDS(o)(LDS(obji)),生成对应的
    局部稀疏因子矩阵[ZLk]k×d(o)(o∈LDS(obji)),然后生成obji对应的子空间定义向量
    vi;最后,确定obji对应的离群因数Factor(obji)。

    因此在DS中,任意数据对象的离群因子计算过程可由图1所示。

    图1刻画和描述了离群因子的计算过程,当数据集DS较小时,表A与表B都较小,可
    以首先生成表A,并将其保存在内存中;然后由表A通过生成表B,并将其也保存在内存中。由
    于表A与表B中都在内存,可采用索引技术,从表B中的对应项对应到表A的相应项来生成表
    C。当数据集DS大到一定程度时,表A与表B都相当大。在生成表C时,需将表A中的每一个数据
    对象和对应局部数据集LDS(obji)逐项输入,以及在表B中查找LDS(obji)对应的稀疏度因
    子,因此,表B必须被保留在各计算结点上的内存中。当B表太大时,会耗尽各个计算结点的
    内存资源。

    因此,为了生成表C,不再采用索引策略对应生成,而是从表B中查找LDS(obji)对
    应的局部稀疏因子,采用类似于表A中生成LDS(obji)的操作。

    由图1可以看出:生成表A时,需要遍历DS中的全部数据对象;生成表C时,需要遍历
    表A中的全部数据对象。因此,生成表A和表C是全局相关的,其他过程都与全局无关,各数据
    对象对应操作彼此之间不存在通信。

    在MapReduce编程模型中,离群因子计算过程为:

    1.采用分布式策略,确定各个数据对象的LDS(obji);

    2.采用一个Map函数,计算各个数据对象对应的稀疏度因子

    3.采用分布式策略,确定LDS(o)(o∈LDS(obji))对应的局部稀疏因子矩阵:[ZLk]
    kxd(o)(o∈LDS(obji));

    4.采用一个Map函数,计算各个数据对象对应的子空间定义向量vi,结合[ZLk]kxd
    (o)(o∈LDS(obji))计算对应的离群因子Factor;

    5.采用一个Map函数和一个Reduce函数,将各个数据对象按对应的离群因子
    Factor进行全排序并输出结果。

    输入:数据集DS(属性个数为d)、近邻数K、稀疏度差异因子阈值;

    输出:n个离群数据。

    1、执行LSH中的MapReduce任务,生成{(obj,LDS(obj))},并行计算数据对象obj的
    LDS(obj);

    2、以{(obj,LDS(obj))}作为输入,执行MapReduce任务,生成确定DS中
    每个数据对象obj对应的稀疏度因子;

    3、以作为输入,执行LSH中的MapReduce任务,生成{(obj,([ZLk]kxd(o)
    (o∈LDS(obj i))))},确定DS中每个数据对象obj的LDS(obj)对应的局部稀疏因子矩阵
    [ZLk]kxd(o)(o∈LDS(obji));

    4、以{(obj,([ZLk]kxd(o)(o∈LDS(obji))))}作为输入,执行MapReduce任务,生
    成{(obj,Factor(obj))},确定DS中每个数据对象obj对应的离群因子Factor(obj);

    5、以{(obj,Factor(obj))}作为输入,执行MapReduce任务,对{(obj,Factor
    (obj))}按Factor大小进行全排序,确定DS中每个数据对象obj按对应的离群因子Factor
    (obj)的大小进行全排序;

    6、在步骤5的输出中找离群程度最大的n个数据对象,选取Top(N)作为离群数据。

    要说明的是,以上所述实施例是对本发明技术方案的说明而非限制,所属技术领
    域普通技术人员的等同替换或者根据现有技术而做的其他修改,只要没超出本发明技术方
    案的思路和范围,均应包含在本发明所要求的权利范围之内。

    关于本文
    本文标题:一种数据库对象命名规则设计方法.pdf
    链接地址://www.4mum.com.cn/p-6013910.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • v8彩票首页 辽宁十一选五9码复式 如何填调查问卷赚钱 黑龙江p62彩票开奖 pk10赛车冠军有规律 韩国排球比分直播 91电玩千炮捕鱼 福利彩票快3怎么玩 澳洲幸运10开奖记录查询 中彩网3d走势图 足球胜平负推荐 手机赢钱棋牌游戏 福利彩票中奖规则 足彩半全场开奖奖金查询 25选7开奖结果走势图 那个网站买彩票正规