• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩任四怎么玩: 一种基于相似度矩阵谱分解的文本聚类集成方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201310296285.3

    申请日:

    2013.07.16

    公开号:

    CN103365999A

    公开日:

    2013.10.23

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20131023|||实质审查的生效IPC(主分类):G06F 17/30申请日:20130716|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 盐城工学院
    发明人: 徐森; 李先锋; 曹瑞; 陈荣
    地址: 224051 江苏省盐城市希望大道9号
    优先权:
    专利代理机构: 南京苏高专利商标事务所(普通合伙) 32204 代理人: 李玉平
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310296285.3

    授权公告号:

    ||||||

    法律状态公告日:

    2017.06.06|||2013.11.20|||2013.10.23

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开一种基于相似度矩阵谱分解的文本聚类集成方法,包括以下步骤:将文本集合表示为词-文本共现矩阵A;构造多个基聚类器对A的列进行聚类;集成基聚类器的结果获得最终的聚类结果;结束。本发明的显著优点是实现简单,利用高效的矩阵运算降低了算法计算复杂度,获得的聚类结果稳定且精度较高。

    权利要求书

    权利要求书
    1.  一种基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,包括以下步骤:
    (1)将文本集合表示为词-文本共现矩阵A;
    (2)构造多个基聚类器对词-文本共现矩阵A的列进行聚类;
    (3)集成基聚类器的结果获得最终的聚类结果;
    (4)结束。

    2.  根据权利要求1所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,所说将文本集合表示为词-文本共现矩阵的步骤是:
    (1)步骤111对文本集合进行分词处理,得到所有词构成的集合W0;
    (2)步骤112对照停用词表,移除集合W0中的停用词,得到词集W1;
    (3)步骤113移除词集W1中的低频词,得到特征词集W;
    (4)步骤114统计特征词集W中每个特征词wi在每个文本dj中出现的次数tij;
    (5)步骤115构建词-文本共现矩阵A:Aij=tij,1≤i≤d,1≤j≤n,d为特征词个数,亦即向量空间的维数,n为文本集合的大??;
    (6)结束。

    3.  根据权利要求2所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,所说构造多个基聚类器对A的列进行聚类的步骤是:
    (1)步骤121从用户处获得要使用的基聚类器个数r和聚类个数k;其中r是一个大于1的整数,k为真实文本类别数;
    (2)步骤122将控制参数i置初值1;
    (3)步骤123判断i是否小于或等于r,是则执行步骤124,否则转到步骤128;
    (4)步骤124采用余弦相似度函数计算文本相似度;
    (5)步骤125随机生成k个d维均值向量,作为K均值算法的初始质心向量,使用K均值算法对A进行划分;
    (6)步骤126得到基聚类器的结果P(i);
    (7)步骤127将控制变量i加1,然后转到步骤123;
    (8)步骤128输出多个基聚类器的结果Π={Ρ(1),…,P(r)};
    (9)结束。

    4.  根据权利要求3所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,构造多个基聚类器对A的列进行聚类的方法,所述采用余弦相似度函数计算文本相似度的步骤是:
    (1)步骤1241计算词频tfij=tij/Σitij,tfij捕获了词wi在文本dj中的重要性;
    (2)步骤1242计算每个词wi出现在文本集合中的次数ni;
    (3)步骤1243计算逆文本频率idfi=log(n/ni),idfi捕获了词wi在整个文本集合中的重要性;
    (4)步骤1244计算归一化因子sj=(Σdi=1(tfij×idfi)2)1/2,sj的作用是得文本向量的欧几里德范数为1;
    (5)步骤1245计算经过TF-IDF加权的文本向量uj:uij=tfij×idfi×sj;
    (6)步骤1246计算任意两个文本向量di、dj的余弦相似度sim(di,dj)=cos(θ(di,dj))=ui·uj/||ui||||uj||=ui·uj=uiujT;
    (7)结束。

    5.  根据权利要求4所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,所述集成基聚类器的结果获得最终的聚类结果的步骤是:
    (1)步骤131根据多个基聚类器的结果Π={Ρ(1),…,P(r)},构建超图的邻接矩阵H=H(1…r)=(H(1)…H(r));
    (2)步骤132使用代数变换方法求解相似度矩阵S的特征值分解问题,并将S的前k个最大特征向量按列排放,构建矩阵Uk=[u1…uk];
    (3)步骤133基于最小最大原则选择k个k维向量,作为K均值算法的初始质心向量,使用K均值算法将Uk的行聚为k个簇C1,…,Ck;
    (4)结束。

    6.  根据权利要求5所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,集成基聚类器的结果获得最终的聚类结果的方法中,所述构建H(i)的步骤是:
    (1)步骤1311初始化H(i),其大小为n×k,矩阵元素为0;
    (2)步骤1312将控制参数j置初值1;
    (3)步骤1313判断j是否小于或等于k,是则执行步骤1314,否则结束构 建H(i)的步骤;
    (4)步骤1314找到P(i)中簇标签为j的元素所在位置,将H(i)的第j列相应位置的元素值置为1;
    (5)步骤1315将控制变量j加1,然后转到步骤1313;
    (6)结束。

    7.  根据权利要求5所述的基于相似度矩阵谱分解的文本聚类集成方法,其特征在于,集成基聚类器的结果获得最终的聚类结果的方法中,所述构建Uk的步骤是:
    (1)步骤1321计算矩阵B=HTH;
    (2)步骤1322求解B的前k个最大特征值λ1,…,λk及对应的特征向量v1,…,vk;
    (3)步骤1323构建矩阵Vk=[v1…vk],Λk=diag(λ1,…,λk);
    (4)步骤1324计算Uk=HVkΛk-1/2;
    (5)结束。

    说明书

    说明书一种基于相似度矩阵谱分解的文本聚类集成方法
    技术领域
    本发明涉及一种基于相似度矩阵谱分解的文本聚类集成方法,属于文本挖掘技术。
    背景技术
    随着网络信息的飞速增长和搜索引擎技术的日趋成熟,人类社会所面临的主要问题已经不再是信息匮乏,而是如何提高信息获取和信息访问的效率。通过对搜索引擎返回的结果进行聚类处理,用户可以不必依次查看所有文本,而只关注比较有可能的类别,从而迅速定位到所需要的信息。由于文本数据的高维、稀疏、海量等特性,传统的聚类算法在处理文本数据时存在聚类结果精度较低、不稳定、计算复杂度高等缺点。聚类集成技术可以有效克服传统聚类算法的缺点,提高单一聚类算法的精度和稳定性。聚类集成的基本思想是,首先用多个独立的基聚类器分别对原始数据集进行聚类,然后对基聚类器的结果进行集成,获得最终的聚类结果。现有的聚类集成方法都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。
    发明内容
    发明目的:针对现有技术存在的问题与不足,本发明提供一种可以有效提高聚类效果的基于相似度矩阵谱分解的文本聚类集成方法。
    技术方案:一种基于相似度矩阵谱分解的文本聚类集成方法,包括将文本集合进行分词、去除停用词和低频词等预处理,然后进行聚类分析,得到聚类结果;进行聚类分析,得到聚类结果包括以下步骤:1、将文本集合表示为词-文本共现矩阵A;2、构造多个基聚类器对A的列进行聚类;3、集成基聚类器的结果获得最终的聚类结果;4、结束。
    有益效果:与现有技术相比,本发明提供的基于相似度矩阵谱分解的文本聚类集成方法,实现简单,利用高效的矩阵运算降低了算法计算复杂度,获得的聚类结果稳定且精度高。
    附图说明
    图1是文本聚类的主要流程图;
    图2是本发明方法的流程图;
    图3是将文本集合表示为词-文本共现矩阵的流程图;
    图4是构造多个基聚类器对词-文本共现矩阵A的列进行聚类的流程图;
    图5是采用余弦相似度函数计算文本相似度的流程图;
    图6是集成基聚类器的结果获得最终的聚类结果的流程图;
    图7是构建H(i)的流程图;
    图8是构建矩阵Uk的流程图;
    图9是最小最大原则示意图。
    具体实施方式
    下面结合具体实施例,进一步阐明本发明,应理解这些实施例仅用于说明本发明而不用于限制本发明的范围,在阅读了本发明之后,本领域技术人员对本发明的各种等价形式的修改均落于本申请所附权利要求所限定的范围。
    如图1所示,文本集合经过预处理后,根据向量空间模型,每个文本被表示为向量空间模型中的向量,文本集合被表示为词-文本共现矩阵;然后对词-文本共现矩阵进行聚类分析,获得聚类结果。
    本发明的方法如图2所示。步骤10是开始。步骤11将文本集合表示为词-文本共现矩阵A,该步骤将在后面的部分结合图3进行具体介绍。步骤12构造多个基聚类器对A的列进行聚类,该步骤将在后面的部分结合图4进行具体介绍。步骤13集成基聚类器的结果获得最终的聚类结果,该步骤将在后面的部分结合图6进行具体介绍。步骤14是图2的结束状态。
    图3详细说明了图2中的步骤11,其作用是将文本集合表示为便于后续聚类分析的矩阵形式。步骤110是开始。步骤111对文本集合进行分词处理,得到所有词构成的集合W0。步骤112对照停用词表,移除W0中的停用词,得到词集W1。步骤113移除W1中的低频词,得到特征词集W。步骤114统计每个特征词wi在每个文本dj中出现的次数tij。步骤115构建词-文本共现矩阵A:Aij=tij,1≤i≤d,1≤j≤n,d为特征词个数,亦即向量空间的维数,n为文本集合的大小。步骤116是图3的结束状态。
    图4详细说明了图2中的步骤12,其作用是构造多个基聚类器对A的列进行聚类。步骤120开始。步骤121从用户处获得要使用的基聚类器个数r(r是 一个大于1的整数)和聚类个数k(k值的选取是一个比较困难的问题,一般将聚类个数设置为真实文本类别数)。步骤122将控制参数i置初值1。步骤123判断i是否小于或等于r,是则转到步骤124,否则转到步骤128。步骤124采用余弦相似度函数计算文本相似度,该步骤将在后面的部分结合图5进行具体介绍。步骤125随机生成k个d维均值向量,作为K均值算法的初始质心向量,使用K均值算法对A进行划分。步骤126得到基聚类器的结果P(i)。步骤127将控制变量i加1,然后转到步骤123。步骤128输出多个基聚类器的结果Π={Ρ(1),…,P(r)}。步骤129是图4的结束状态。
    图5详细说明了图4中的步骤124,其作用是采用余弦相似度函数计算文本相似度,以便于后续K均值算法聚类。步骤1240是开始。步骤1241计算词频(term frequency)tfij=tij/Σitij,tfij捕获了词wi在文本dj中的重要性。步骤1242计算每个词wi出现在文本集合中的次数ni。步骤1243计算逆文本频率(inverse document frequency)idfi=log(n/ni),idfi捕获了词wi在整个文本集合中的重要性。步骤1244计算归一化因子sj=(Σdi=1(tfij×idfi)2)1/2,sj的作用是得文本向量的欧几里德范数为1,便于后续的文本向量相似度计算。步骤1245计算经过TF-IDF(term frequency-inverse document frequency)加权的文本向量uj:uij=tfij×idfi×sj。TF-IDF加权技术的关键思想在于假设对区别文本贡献最大的特征词是那些在单个文本中出现频率高,而在整个文本集合的其他文本中出现频率低的词。引入逆文本频率IDF的概念,以TF和IDF的乘积作为特征空间坐标系的取值测度,并用它完成对权值TF的调整,以突出重要单词,抑制次要单词。步骤1246计算任意两个文本向量di、dj的余弦相似度sim(di,dj)=cos(θ(di,dj))=ui·uj/||ui||||uj||=ui·uj=uiujT,即只需计算加权文本向量之间的点积,而无需每次都计算向量的长度,这样就可以有效提高聚类算法的运行效率。步骤1247是图5的结束状态。
    图6是集成基聚类器的结果获得最终的聚类结果的流程图。步骤130是初始动作。步骤131根据多个基聚类器的结果Π={Ρ(1),…,P(r)},构建超图的邻接矩阵H=H(1…r)=(H(1)…H(r)),构建H(i)的步骤将在后面的部分结合图7进行具体介绍。步骤132使用代数变换方法求解相似度矩阵S的特征值分解问题,并将S的前k个最大特征向量按列排放,构建矩阵Uk=[u1…uk],构建Uk的步骤将在后面的部分结合图8进行具体介绍。步骤133基于最小最大原则(示意图参见图9)选择 k个k维向量,作为K均值算法的初始质心向量,使用K均值算法将Uk的行聚为k个簇C1,…,Ck。步骤134是图6的结束状态。
    图7是构建H(i)的流程图。步骤1310是开始。步骤1311初始化H(i),其大小为n×k,矩阵元素为0。步骤1312将控制参数j置初值1。步骤1313判断j是否小于或等于k,是则转到步骤1314,否则转到步骤1316。步骤1314找到P(i)中簇标签为j的元素所在位置,将H(i)的第j列相应位置的元素值置为1。步骤1315将控制变量j加1,然后转到步骤1313。步骤1316是图7的结束状态。
    图8是构建矩阵Uk的流程图。步骤1320是开始。步骤1321计算矩阵B=HTH。步骤1322求解B的前k个最大特征值λ1,…,λk及对应的特征向量v1,…,vk。步骤1323构建矩阵Vk=[v1…vk],Λk=diag(λ1,…,λk)。步骤1324计算Uk=HVkΛk-1/2。步骤1325是图8的结束状态。
    图9是最小最大原则示意图(k=3)。首先确定两个最远的点x1和x2为两个初始质心,第三个初始质心根据如下规则确定:第三个初始质心到前两个质心x1和x2的最小距离等于所有点中与x1和x2的较小距离中的最大距离。所以在确定x1和x2后,下一个选择的点是x3而不是x3'。

    关 键 词:
    一种 基于 相似 矩阵 分解 文本 集成 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种基于相似度矩阵谱分解的文本聚类集成方法.pdf
    链接地址://www.4mum.com.cn/p-5779164.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03