• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩买大必输吗: 一种并行AP传播的XML大数据聚类集成方法.pdf

    关 键 词:
    一种 并行 AP 传播 XML 数据 集成 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410171627.3

    申请日:

    2014.04.25

    公开号:

    CN103942318A

    公开日:

    2014.07.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140425|||公开
    IPC分类号: G06F17/30; G06F9/44 主分类号: G06F17/30
    申请人: 湖南化工职业技术学院
    发明人: 蒋勇
    地址: 412004 湖南省株洲市石峰区清石路2号
    优先权:
    专利代理机构: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410171627.3

    授权公告号:

    103942318B||||||

    法律状态公告日:

    2017.05.17|||2014.08.27|||2014.07.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种并行AP传播的XML大数据聚类集成方法,包括,对每一个XML大数据进行清洗、划分和抽取等预处理;把抽取的子树中所有关键词看成该数据点特征描述;借鉴聚类集成的基本思想;内联相似度大矩阵分解思想;实现最终的聚类集成。本发明通过建立随机子空间分类器并并行随机抽取子树来扩大聚类成员的差异性、提高聚类的性能;引入消歧处理,消除了每个子树中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;利用系统能量理论,改进了AP算法的归属度矩阵和吸收矩阵的迭代式,实现了XML大数据的聚类集成,提高了聚类集成方法效率。

    权利要求书

    权利要求书
    1.  一种并行AP传播的XML大数据聚类集成方法,其特征在于:该并行AP传播的XML大数据聚类集成方法包括以下步骤:
    步骤一:对每一个XML大数据进行清洗、划分和抽取预处理;
    步骤二:把抽取的子树中所有关键词看成该数据点特征描述;
    步骤三:借鉴聚类集成的基本思想;
    步骤四:内联相似度大矩阵分解思想;
    步骤五:实现最终的聚类集成。

    2.  如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤一,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取预处理,即通过规模和内容的划分方法,从每个XML大数据中提取所有节点及节点的子集,计算节点在数据中的频度,根据节点的频繁频度尽可能地把属于同一主题内容的节点及子孙划分在同一子集,不同主题内容的节点划分在不同子集,并从划分的子集中按照关键词的频繁频度抽取n个子树,求出抽取的每一个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度。

    3.  如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤二,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文 档集就是n个n×n维特征空间向量。

    4.  如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤三,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建k个分类器,k个分类器并行地从n个n×n特征向量空间中随机抽取m个样本数据来进行训练以求得分类,方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类。

    5.  如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤四:从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入。

    6.  如权利要求1所述的并行AP传播的XML大数据聚类集成方法,其特征在于:在步骤五,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。

    说明书

    说明书一种并行AP传播的XML大数据聚类集成方法
    技术领域
    本发明属于大数据集成方法应用领域,尤其涉及一种并行AP传播的XML大数据聚类集成方法。
    背景技术
    目前,XML大数据也与其它类型的大数据一样,具有体积浩大、结构复杂、生成速度快、价值巨大但密度低的特点,且数据量从MB到GB、TB、PB直至ZB,此外,它的数据呈现非凸特性且分布很不均匀,数据噪声和孤立点多,而且许多数据以数据流的形式出现在Web中,因此,对这些速度变化快且具有很强的时效性的XML大数据,若采用传统的算法进行聚类集成,则这些集成方法在解决XML大数据集存在明显不足,其主要表现在:(1)占用的存储空间大,预测速度慢,预测效果差;(2)在线机器学习困难,对小规模数据有效,对大规模数据效果差;(3)动态性、实时性差,不能处理流数据;(4)算法由于缺乏先验知识,对XML数据分布的全局特点把握不准,最后导致聚类精度及聚类结果得不到满意的要求。
    因此,发明一种并行AP传播的XML大数据聚类集成方法显得非常必要。
    发明内容
    本发明的目的是基于PC机分布式环境下提供一种并行AP传播的XML大数据聚类集成方法,旨在传统的算法存在着占用的存储空间大,预测速度慢,预测效果差,在线机器学习困难,对小规模数据有效,对大规模数据效果差处理效率低,对XML数据分布的全局特点把握不准的问题。本发明是这样实现的,
    一种并行AP传播的XML大数据聚类集成方法的必要技术方案:
    本发明是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,
    步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理;
    步骤二:把抽取的子树中所有关键词看成该数据点特征描述;
    步骤三:借鉴聚类集成的基本思想;
    步骤四:内联相似度大矩阵分解思想;
    步骤五:实现最终的聚类集成。
    一种并行AP传播的XML大数据聚类集成方法的次要技术方案:
    进一步,在步骤一,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;
    进一步,在步骤二,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
    进一步,在步骤三,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器构建K个分类器,K个分类器并行地从n个n×n特征向量空间中随机抽取m样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类。
    进一步,在步骤四,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;
    进一步,在步骤五,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。
    本发明提供的并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能,选用并行随机子空间的基聚类器来进行初始训练,这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间,解决了高维、大数据集非凸的聚类问题;引入消歧处理,消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化LANCZOS双对角化策略把矩阵投影于低维空间,并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征 向量,避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度;利用系统能量理论,把待集成的基本聚类划分结果看成一个系统,系统的能量就是不同聚类结果之间的能量组合,通过设计出系统能量的AP传播算法并行实现能量的最优组合,提高了聚类集成方法的效率,弥补以往聚类集成方法的不足。
    附图说明
    图1是本发明提供的并行AP传播的XML大数据聚类集成方法方法流程图。
    具体实施方式
    一种并行AP传播的XML大数据聚类集成方法的必要技术方案:
    本发明是这样实现的,一种并行AP传播的XML大数据聚类集成方法包括,
    S101:对每一个XML大数据进行清洗、划分和抽取等预处理;
    S102:把抽取的子树中所有关键词看成该数据点特征描述;
    S103:借鉴聚类集成的基本思想;
    S104:内联相似度大矩阵的分解思想;
    S105:实现最终的聚类集成。
    一种并行AP传播的XML大数据聚类集成方法的次要技术方案:
    进一步,在S101,先对XML文档集中的每一个XML大数据进行清洗、划分和抽取等预处理,求出抽取的每个子树从根节点到叶子节点的所有路径, 并以路径作为消歧的输入源对歧义词进行消歧处理,求取每个关键词的语义相关度及上下文语义相关相似度;
    进一步,在S102,把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
    进一步,在S103,借鉴聚类集成的基本思想,用随机子空间分类器作为基聚类器并行地从其特征向量空间中随机抽取多个样本并重复多次来构建多个分类器,同时对每个子分类器中的样本数据进行训练以求得其分类,其方法是对新样本集建立一个无向图,每个样本点是图的一个顶点,图的边是顶点间的连线,它表示文档之间的相似度,其相似度采用标记语义树的方法求得,并按照它们组成的边的权重最小、一条路径的加权之和最大的原则把图划分成不同的路径,路径的划分采用K-邻近法,这样把划分的每一条路径组成一个类别,所有不同的划分路径组成K个初始分类;
    进一步,S104,从初始的簇集结果出发,按照簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵,通过设计的并行的LANCZOS—QR算法求解其特征值对应的特征向量来获得低维向量的嵌入;
    进一步,在S105,通过设计的基于系统能量的AP算法并行地实现最终的聚类集成。
    本发明的具体实施例:
    实施例1:
    步骤一:对每一个XML大数据进行清洗、划分和抽取等预处理,即对每一个XML大数据清洗后,通过规模与内容相结合的划分方法,从大数据中提 取所有节点及其节点的子集,计算节点的子集在其数据中的频度,根据节点的频繁频度尽可能地把属于同一主题内容的节点及其子孙划分在同一个子集、不同主题内容的节点划分到不同的子集中,并从划分的子集中按照关键词的频繁频度抽取n个子树,求出抽取的每个子树从根节点到叶子节点的所有路径,并以路径作为消歧的输入源对歧义词进行消歧处理,求出每个关键词的语义相关度及上下文语义相关相似度;
    其相似度求取如下:假设从XML大数据中抽取n个子树集D’=(d’1,d’2,…,d’n),为了求取d’i、d’j两个子树的相似度,首先求出每个子树中关键词的相似度(也就是每个元素的相似度),即先对文档进行预处理,求出每个文档从根节点到叶子节点所有元素的不同路径,并以路径作为消歧的输入源,对路径中的每个元素进行消歧处理,得到具体词和歧义词中与之有语义关系相联系的词语集合,确定目标词并对它们进行标记,路径中其它词语标记成它的上下文环境,即语义相关性环境,这样目标词除与其上下文语义相关之外,也与它有语义关系相联系的词语(语义关联度)有关,用语义关联度的词代替歧义词,加入到上下文相关的关系中,所以目标词的语义相似度等于与其上下文语义相关词的相似度和与之有语义关联的语义关联度之和的最大值,设有目标词语x1具有(x11,x12,...,x1n)个语义项,y2具有(y21,y22,...,y2m)个语义项,则x1和y1的语义相似度sin(x1,y2)=maxi=1,...,n,j=1,...,msim(x1i,y2j),]]>sim(x1i,y2j)是目标词第i个语义项与y2第j个语义项的语义相似度,设目标词有n-1个词与上下文相关或语义关联,其中有m个上下有关,n-m+1个语义关联,则求它与这n-1个词的语义相似度之和的最大 值argmax(Σj=1,i≠jmsim(xi,xj)+Σj=m+1n-1sim(xi,xj));]]>
    其次求取子树中的路径相似度sim(pi,t,pj,n)=simstruct(pi,t,pj,n)+pathsenserelate(pi,t)+pathsenserelate(pj,n),设文档d’i、d’j的路径分别为pi=(pi,1,pi,2,…pi,f)、pj=(pj,1,pj,2,…pj,n),则文档d’i的路径pi,j语义相关度senserelate(pi,t)=Σi=1mmax(Σj=1,i≠jmsim(xi,xj)+Σj=m+1n-1sim(xi,xj)),]]>同理文档d’j的路径pj,n的语义相关度senserelate(pj,n)=Σj=1mmax(Σj=1,i≠jmsim(xi,xj)+Σj=m+1n-1sim(xi,xj)),]]>则pi,j与pj,n两路径的相似度为:sim(pi,t,pj,n)=simstruct(pi,t,pj,n)+pathsenserelate(pi,t)+pathsenserelate(pj,n),其中simstruct(pi,t,pj,n)=(2×|pi,t∩pj,n|)/(|pi,t|+|pj,n|,|pi,t∩pj,n|为pi,与pj两条路径的子路径最长匹配段对应语义项相同的个数,|pi,t|与|pj,n|为子路径的长度,pathsenserelate(pi,t)与pathsenserelate(pj,n)为子路径语义关联相似度,其中pathsenserelate(pi,1)=senserelate(pi,1)/(|pi,t|+|pj,n|),pathsenserelate(pj,n)=senserelate(pj,n)/(|pi,t|+|pj,n|);最后求出文档d’i、d’j的相似度(d'i,d'j)=(Σt=1|di|maxsim(pathi,t,pathj,kk=1→|pj|))pi]]>(1),其中|pi|、|pj|分别表示文档d’i、d’j路径条数,且|pi|≥|pj|;
    步骤二:把消歧处理后的每一个子树中所有的关键词看成是该数据点的特征描述,这样所有的数据点组成的XML文档集就是n个n×n维特征空间向量;
    步骤三:借鉴聚类集成的基本思想,在聚类集成中,初始聚类成员的差异性是影响集成效果的重要关键因素之一,所以选用随机子空间法构造k个分类器,k个分类器并行地从n个n×n维特征空间向量中随机抽取m个样本数据进行训练以求得其每个分类器的分类,设从XML大数据集中抽取的n个子 树集D=(d1,d2,…,dn),其中di=(xi1,xi2,...,xin)为大数据抽取的第i个子树,称di为n维数据空间的第i个数据点,它有n维特征向量,xi1为它的相似度值,因此,为了获得K个基分类器的分类结果,设有K个处理机,每个处理机同时抽取m个样本集,把具有同一关键词对应的样本按照相似度大小进行重排,对重排后的结果随机地抽取k个子集构造一个新样本集这样每个处理机就得到一个新的样本集,k个处理机得到新样本集组成k个基分类器;然后并行地在每个基分类器采用K-邻近算法求得其分类结果,其算法1的具体步骤为:
    (1)XML preprocessing{W=W(1,2,...n)=(W(1),W(2),...W(n));/*XML文档集预处理,求出抽取的每个XML子树中的关键词相似度*/;
    (2)fori=1,2,…,k(for each processor in parallel)
    {initialize each random subspace base-classifier Pi,
    rearranged item-keyword similarity by ascending for W and get
    random select one sample setsand allocate to Pi};
    (3)end parallel for;
    (4)for i=1,2,…,k(for each processor in parallel)
    {
    1)for i=1to k{union(Ai,Si,1,2,…,m),union(Bi,Si,m+1,m+2,…,k);}
    /*union(Ai,Si,1,2,…,m)是集合Ai从Si中获得最大的m个相似度,union(Bi,Si,m+1,m+2,…,k)是集合Bi从Si中获得余下的k-m个相似度*/;
    2)for i=1to m
    {①select maxnum similarity distij from Ai sets between the nearnest neighbors vertices i and vertices j;
    ②the total similarity distij between vertices i and j as the maxmum among all path-based effective similarityforp’s in Pij:/*where p[l] denotes lth vertex along the path p from vertex i to vertex j and |l| denotes the number of vertices that p goes through,*/;
    ③ifdistij>dist'ijthen{distij=dist'ij};/*顶点vi经过其它顶点到达顶点vj的路径的相似度代替顶点vi到顶点vj的相似度,否则的话,该对顶点的相似度就是该条路径上连接该对顶点可达的路径相似度,*/
    if(distijPforpsinPij)thengoto]]>
    Else{Ai=Ai-{vi,vj},goto2)}
    ⑤initial-clustering{extract distij path all vertices,union(Πi,vertices),BFS();}
    /*BFS()为广度优先搜索函数,用于搜索其k个邻近点,求取满足条件的属于同一路径的顶点并把它们归于初始聚类为止,*/
    };
    3)for i=1to k-m
    {①select minnum similarity distij from Bi sets between vertices i and vertices j;
    ②isolate();}/*isolate()是孤立点判断函数,即对集合B中相似度小的顶点,若它是两类的边缘点,则比较它到两类之间的距离的远近,根据距离,把它划分到离更近的那一类中;若是孤立点,可以把它剔除掉而不影响其聚 类,或者单独看成一类,*/;
    (5)end parallel for;
    (6)output(Π),/*Π={π1,π2,...,πk}*/;
    步骤四:内联相似度大矩阵分解思想,为了求得内联相似度矩阵A,可以通过建立簇集、簇和数据点三者之间的相互关系的方法来获得,并采用并行的lanczos-QR方法来实现求解该矩阵的特征值对应的特征向量,其算法的基本实现思想是:首先Lanczos上双对角化过程,构造Bm、Pm、Qm,由于对矩阵A进行Lanczos上双对角化,相当于对ATA的对称Lanczos过程,等价于对A‾=0AAT0]]>进行Lanczos迭代,因此选取单位初始向量q1,将矩阵A进行m步上lanzcos双对角化,构造了Krylov子空间κm(ATA,q1)和κm=(AAT,Aq1)的一组标准正交基以及A关于这两个子空间的投影矩阵,其矩阵的形式是:AQm=PmBm、两组正交基为Pm=[p1,p2,...,pm]、Qm=[q1,q2,...qm],且有其中为m阶单位矩阵Im的第m列转置,上双对角矩阵Bm=α1β1α200βm-1αm,]]>同时在有限精度运算下Pm、Qm的列向量正交性很快会失去,需要进行重新正交化,因此采用半正交化对lanczos向量进行重新正交化处理,其算法2描述如下:
    1)给定单位初始化向量q1,令β0=0,p0=0;
    2)对i=1,2,…,m,执行;
    (1)ri=Aqi-βi-1pi-1,αi=||ri||,pi=ri/αi
    重新正交化:ri=ri-pi(piTrj)]]>
    (2)if i<k then
    zi=ATpi-αiqi,βi=||zi||,qi+1=zi/βi
    Else重新正交化:zi=ATpi-αiqi,βi=||zi||,qi+1=zi/βi;
    其次,约化后的矩阵的奇异值分解,即计算Bm的奇异值过程,它的特征值近似A的特征值,其左右Ritz向量近似A的Ritz向量,所以只要求取Bm中的这些值,间接得到A的特征值及特征向量,其主要过程是是:(1)是对矩阵Bm的分割,即把矩阵Bm=α1β1α200βm-1αm]]>分割为成如Bm,i这样的低阶上双对角子方阵,并把分割后的子方阵分配给不同的处理机;(2)每个处理机同时进行隐式QR迭代,即使用隐式位移及一系列的Givens矩阵与子方阵左右相乘,直接驱逐出子方阵产生新的非0元素及不满足条件的次对角线的元素;(3)完成QR迭代后,并对矩阵Bm向下、向上双向收缩多行,求出矩阵Bm中的特征值,其算法3描述如下:
    (1)initial{main_pre=1,main_rea=k,main_rea=k,b[i]=pre,b[i+1]=rea;}/*首行为main_pre=1,末行main_rea=k,其中k=min(m,n)为上双对角阵Bm的阶数,每个子方阵Bi的首行为pre,末行为rea,*/;
    (2)fori=1,2,…,k(foreachprocessorinparallel)/*子方阵的分割,分割后每一个分配给一个处理机*/;



    ③if flag=0then{pre=rea+1,goto①}
    else goto(4)
    ④allocateBm,itoPi,
    }
    (3)end parallel for
    (4)for i=1,2,…,k(for each processor in parallel)/*每个处理机并行处理一个子方阵*/
    {①perform one QR implicit shifts;


    (5)end parallel for
    (6)if main_rea>main_pre then goto(2)
    (7)ordered by ascending to k eigenvalue λ1,λ2,...,λk
    (8)compute k eigenvector x1,x2,...xkand constrcut matrix X=[x1,x2,...xk]∈Rn×k
    (9)normalizedY=Xij/(ΣjXij)1/2;]]>
    步骤五:XML聚类集成,首先按能量函数定义,构建相似度矩阵S,把相似度矩阵按照行和列平均分割成K部分,每个子方阵的大小约为m=N/K,k∈[2,N],对每个子方阵中的偏向参数pi按照偏向参数缩放因子scale1进行缩放,得到缩放后的偏向参数p'i,对分割的子方阵并行地进行改进的AP聚类直至收敛;其次对聚类代表集的处理,按照最小能量函数计算聚类代表集中每一个聚类能量值的大小,对其值小于某一阈值时,不加入到新的合并中,对大于某一阈值的所有聚类组成新的样本集D并重新计算相似度SD和pD, 使用scale2对pD进行缩放,得到p'D;然后利用SD及p'D对D进行改进的AP聚类直至最后收敛,完成聚类集成并指派到聚类中,其算法4具体步骤描述如下:
    输入:给定一个XML文档集D,学习率ρ=1,影响度μij=0.5,缩放因子scale1、scale2,分类器数目K,其中scale1每个子方阵数据子集的偏向参数缩放系数,scale2再聚类的子方阵的数据子集偏向参数缩放系数,最大迭代次数maxits=1000,阻尼因子λ=0.9,平衡迭代次数convits=100
    输出:最终聚类集成结果和聚类中心ci
    (1)XML preprocessing{W=W(1,2,...n)=(W(1),W(2),...W(n)),P=(P(1),P(2),...,P(n))}/*对XML文档集预处理,求取每个文档的路径和上下文相关的关键词语义相似度*/
    (2)run algorithm 1to gainΠ={π1,π2,...,πk};/*随机产生K个基聚类器,并行地对每个基聚类器运行kNN划分算法,得到k个基聚类结果Π={π1,π2,...,πk};*/
    (3)di→{π1(di),π2(di),...,πk(di)};/*建立所有簇集成员划分的分类结果*/
    (4)get W co-occurrence similarity matrix;/*利用簇集、簇和数据点的关系构造内联相似度矩阵W*/
    (5)run algorithm2、3
    (6)get k eigenvector x1,x2,...xk and matrix X=[x1,x2,...xk]∈Rn×k
    (7)normalizedY=Xij/(ΣjXij)1/2;]]>
    (8)mapΦ:
    (9)compute energy similarity matrixS;/*利用能量相似度的定义计算这些 点的相似度S*/
    (10)average S divided into k sub-matrix,the size of each sub-matrix is /*相似度矩阵S按照行与列平均分割成k部分,每个子方阵的大小是*/
    (11)initial sub-matrix{shrink-factor=scale1,λ=0.9,
    convits=100,maxits=1000,p=p'i;}/*对每个子方阵的偏向参数pi按照偏向参数缩放因子scale1进行缩放,得到缩放后的偏向参数p'i,用λ、convits、maxits设置聚类参数,以分割的子方阵*/
    (12)for i=1,2,…,k(for each processor in parallel)
    {input(si),run improved AP algorithm,gainD=AP(sii,p'i);}
    (13)end parallel for
    (14)applyto compute energy-valueEiinDi;
    (15)if Ei<εthen{add(D′1,si)}
    else{add(D',Di)};/*对聚类代表集合D,按照最小能量函数计算其每一个聚类能量值的大小,对其值小于某一阈值的聚类代表加入到D1'集合,对大于某一阈值的所有聚类组成新的样本集D'*/
    (16)re-compute similarity usescale2to pD shrink,gain pD';
    (17)set parameter{set λ、convits、maxits parameter}
    (18)fori=1,2,…,k(foreachprocessorinparallel)
    {input(D'),runimprovedAPalgorithm,gainE=AP(SD',pD');}
    (19)end parallel for
    (20)according E and D1'to compute
    (21)perform di document to ith clustering in V sets according Y clustering result;
    (22)output(V),output(C)。
    效果汇总:
    本发明的一种并行AP传播的XML大数据聚类集成方法为了扩大聚类成员的差异性、提高聚类的性能,选用并行随机子空间的基聚类器来进行初始训练,这样不会因XML文档数量成倍增加而影响聚类的质量和额外增加聚类的时间,解决了高维、大数据集非凸的聚类问题;引入消歧处理,消除了XML文档中因语义相关环境与内容不一致所引起的歧义难题,同时综合语义相似度与路径相似度,解决了XML文档相似度计算不准确对初始聚类结果的影响;从初始聚类成员中形成的簇集、簇和数据点三者之间的相互关系来构建内联相似度矩阵后,采用精化LANCZOS双对角化策略把矩阵投影于低维空间,并通过设计的并行LANCZOS-QR算法来求解矩阵的特征值和对应的特征向量,避免因数据规模大,数据的计算量成倍增加而增加算法的时间复杂度;(4)利用系统能量理论,把待集成的基本聚类划分结果看成一个系统,系统的能量就是不同聚类结果之间的能量组合,通过设计出系统能量的AP传播算法并行实现能量的最优组合,提高了聚类集成方法的效率,弥补以往聚类集成方法的不足。
    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的?;し段е?。

    关于本文
    本文标题:一种并行AP传播的XML大数据聚类集成方法.pdf
    链接地址://www.4mum.com.cn/p-6143295.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 11选5计划软件哪个好用吗 固定比例倍投 下载买双色球彩票 后三不定位最佳方法 北京pk赛车官网开奖 太子中心十八玛特中特 pk10单双免费计划软件 网站有秒速时时 pk10软件怎么制作 彩票精准计划app 超级大乐透中奖规则表 时时彩最稳赚钱方法 双面盘玩法 谁有极速时时网站 排列三组六玩法 pk10冠亚和值如何计算