• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩走势图看法: 基于改进的蚁群算法实现文本聚类.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610939671.3

    申请日:

    2016.11.01

    公开号:

    CN106570112A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161101|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 四川用联信息技术有限公司
    发明人: 金平艳
    地址: 610054 四川省成都市成华区电子信息产业大厦1101室
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610939671.3

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    基于改进的蚁群算法实现文本聚类,先对文本预处理,综合考虑词汇的词性、词位分别得到一系列权重值,根据词汇在文本中的权重和在文本库中的权重,构造目标函数,最后利用改进的蚁群算法对文本聚类,本发明比传统的词频?反文档频率方法准确度更高,克服了信息增益方法只适合提取一个类别的缺点,可以精确地计算不同词汇对文本的贡献度,大大降低噪声和孤立点对簇分类的影响,易于并行实现,同时避免其早熟性收敛,运行时间复杂度低,处理速度更快,另外文本聚类结果更符合经验值。

    权利要求书

    1.基于改进的蚁群算法实现文本聚类,本发明涉及语义网络技术领域,具体涉及基于
    改进的蚁群算法实现文本聚类,其特征是,包括如下步骤:
    步骤1:初始化文本库,对文本进行预处理过程,其具体描述如下:
    步骤1.1:分词是文本预处理的第一个步骤,在英文文本中,词语间由空格隔开,因此不
    需要这一步骤,而中文文本中,词之间是没有空格的,必须进行分词处理,具体分词技术如
    下:
    步骤1.1.1:根据《分词词典》找到待分词句子中与词典中匹配的词,把待分词的汉字串
    完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典
    中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空
    步骤1.1.2:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子
    结构,把此结构每条顺序节点依次规定为,其结构图如图2所示
    步骤1.1.3:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过
    程如下:
    根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为,即
    n条路径词的个数集合为

    在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小,
    在统计语料库中,计算每个词的信息量,再求解路径相邻词的共现信息量
    ,既有下式:

    上式为文本语料库中词的信息量,为含词的文本信息量

    上式为在文本语料库中的概率,n为含词的文本语料库的个数

    上式为含词的文本数概率值,N为统计语料库中文本总数
    同理
    为在文本语料库中词的共现信息量,为相邻词
    共现的文本信息量
    同理

    上式为在文本语料库中词的共现概率,m为在文本库中词
    共现的文本数量

    为文本库中相邻词共现的文本数概率
    综上可得每条相邻路径的权值为

    步骤1.1.4:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程
    如下:
    有n条路径,每条路径长度不一样,假设路径长度集合为
    假设经过取路径中词的数量最少操作,排除了m条路径,m<n,即剩下(n-m)路径,设其路
    径长度集合为
    则每条路径权重为:

    上式分别为第1,2到 路径边的权重
    值,根据步骤1.4可以一一计算得出,为剩下(n-m)路径中第条路径的长度
    权值最大的一条路径:

    步骤1.2:去停用词为中文文本预处理第二步骤,根据停用表对文本词汇进行去停用词
    处理,其具体描述如下:
    停用词是指在文本中出现频率高,但对于文本标识却没有太大作用的单词,去停用词
    的过程就是将特征项与停用词表中的词进行比较,如果匹配就将该特
    征项删除
    综合分词和删除停用词技术,中文文本预处理过程流程图如图3
    步骤2:根据词汇在文本中的位置得到一系列词汇位置权重值,其具体描
    述如下:
    各个词在文本中的分布是不同的,而不同位置的词对于表示文本内容的能力也是不同
    的,这个可以根据统计调查得出一系列的位置权重值
    步骤3:根据词汇在文本中的词性得到一系列词汇词性权重值、、、,其具体描
    述如下:
    现代汉语语法中,一个句子主要由主语、谓语、宾语、定语和状语等成分构成,从词性的角
    度看,名词一般担当主语和宾语的角色,动词一般担当谓语的角色,形容词和副词一般担当
    定语的角色,词性的不同,造成了它们对文本或者句子的表示内容的能力的不一样,根据调
    查统计得出名词、动词、形容词、副词的权重值依次为、、和,且
    步骤4:综合上述位置与词性,根据词汇在文本中信息量,得到词汇在文本中的权重
    和词汇在文本库中的权重,归一化处理上述因子,得到提取特征词汇的目标函数,其
    具体计算过程如下:

    上式h为特征词汇i在文本中出现的段落数,为第j段的位置权重值,
    ,为词汇i的词性权重值,,为词汇i在第j
    段出现的次数,为词汇i所在文本中特征词汇集合的总个数

    为文本库中文本的数量,为词汇i在第w文本中概率,为词汇i在文本库中
    的平均概率

    词汇在文本中的权重和词汇在文本库中的权重进行归一化处理,得:

    r为文本中特征词汇的个数
    设定一个合适的目标函数阈值y,提取文本的特征词汇向量,有下式:

    满足上式,即为文本的特征词汇
    步骤5:基于改进的蚁群算法,对文本库进行聚类,如图4。
    2.根据权利要求1中所述的基于改进的蚁群算法实现文本聚类,其特征是,以上所述步
    骤5中的具体计算过程如下:
    步骤5:基于改进的蚁群算法,对文本库进行聚类,如图4,其具体子步骤如下:
    步骤5.1:设置最大的迭代次数,根据k-means中心点的聚类结果来初始化信息
    值,初始信息增量,初始分为k类;
    步骤5.2: 多维空间中的每个向量,按概率选择聚类中心j,其具体过程如下:

    上式为路径的信息量,k为聚类中心点的个数

    上式r为文本向量特征词汇的个数,在多维空间i、j点的文本特征词汇向量分别为
    、,为集合中元
    素的平均值,同理为集合中的平均值,即

    蚂蚁按概率最大选择聚类中心j
    步骤5.3:按概率计算所有文本特征词汇向量的聚类中心,并记录当前最好的解;
    步骤5.4:按更新方程更新各条路径上的每个文本特征词汇向量的信息素浓度;
    信息素更新方程为:
    上式为根据专家调查测试出的信息素每迭代一次挥发的比例因子,q为路径的
    信息量相比于初始化信息量的权重系数
    步骤5.5:对各条路径,重置信息值,且;
    步骤5.6:若,则转到步骤5.2;
    步骤5.7:输出当前最好解。

    关 键 词:
    基于 改进 算法 实现 文本
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于改进的蚁群算法实现文本聚类.pdf
    链接地址://www.4mum.com.cn/p-6092785.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03