• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 9
    • 下载费用:30 金币  

    重庆时时彩博众平台: 基于遗传算法的网络文本分割方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN200910219163.8

    申请日:

    2009.11.26

    公开号:

    CN101710333A

    公开日:

    2010.05.19

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 专利权的转移IPC(主分类):G06F 17/30变更事项:专利权人变更前权利人:西北工业大学变更后权利人:南通龙翔电器设备有限公司变更事项:地址变更前权利人:710072 陕西省西安市友谊西路127号变更后权利人:226600 江苏省南通市海安县开发区东海中路69号变更事项:专利权人变更后权利人:西北工业大学登记生效日:20140814|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20091126|||公开
    IPC分类号: G06F17/30; G06F17/27; G06N3/12 主分类号: G06F17/30
    申请人: 西北工业大学
    发明人: 蔡皖东; 赵煜
    地址: 710072 陕西省西安市友谊西路127号
    优先权:
    专利代理机构: 西北工业大学专利中心 61204 代理人: 黄毅新
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN200910219163.8

    授权公告号:

    |||101710333B||||||

    法律状态公告日:

    2014.09.03|||2012.07.04|||2010.07.07|||2010.05.19

    法律状态类型:

    专利申请权、专利权的转移|||授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于遗传算法的网络文本分割方法,用于对网络短篇幅文本的分割,所述方法利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(Latent?Dirichlet?allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,提高了网络短篇幅文本分割准确率。

    权利要求书

    1: 一种基于遗传算法的网络文本分割方法,其特征在于包括以下步骤: (a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库; (b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100; (c)对待分割文本进行分词、词性标注、命名实体识别、词义消歧的文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇所属的子主题类型,句子表示为子主题空间向量,句子Sj=s j1 s j2 ...s jj ...s jT ,s jj 表示句子j中词汇属于子主题j的频率; (d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体;根据公式 C oh = 1 - Σ n = 1 j 1 k Σ s j ∈ b n Σ l = 1 T ( s il - a nl ) 2 ]]> 计算语义段落内的凝聚性;式中, ,|b n |表示第n个语义段落中包含的句子数,a n 表示语义段落对应的平均向量,a nt 是该向量的第t个分量; 根据公式 D is = Σ n = 1 j | b n | k Σ l = 1 T ( a nl - c l ) 2 ]]> 计算语义段落间的发散性;式中, c l = 1 k Σ i = 1 k s il ; ]]> 根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数值,计算公式如下: 式中,P t 表示扩展种群,用于存储迭代中的最优解; 种群选择过程中,首先采用精英保留策略,保留种群及扩展种群中的精英个体,直接进入下一代进化;然后采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度值,选择适应度小的个体进行交叉和变异操作; 交叉过程采用单点交叉方法,为了防止近亲繁殖,当个体间汉明距离超过阈值时,才允 许在种群和扩展种群之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%;根据种群的相似度自适应调节变异算子;种群的相似度计算公式如下: 当相似度超过阈值且持续50轮,则结束迭代过程,选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。

    说明书


    基于遗传算法的网络文本分割方法

        【技术领域】

        本发明涉及一种网络文本分割方法,特别是基于遗传算法的网络文本分割方法,适用于对网络短篇幅文本的分割。

        背景技术

        网络文本分割技术是网络舆情监控、网络文本情感分析的重要技术手段,有助于发现网络文本中深层次语义信息。

        文献“基于多元判别分析的文本分割模型,软件学报,2007,18(3),P?555-564”公开了一种利用词频信息进行文本分割的方法。该方法采用多元判别分析方法,利用词频信息以向量空间模型表示文本,考虑分割单元内部距离、分割单元间距离、分割单元长度等3个因素定义了4个全局评价函数,实现对文本分割模式的全局评价。但是,针对网络文本中的短篇幅文本,由于文本中存在数据稀疏现象,无法提供足够的词频信息;同时,由于词频信息是浅层语义信息,仅依据词频计算分割单元之间的相似度,影响相似度计算的准确性,进而影响文本分割结果的准确性。

        【发明内容】

        针对现有技术方法网络短篇幅文本分割准确率较低的缺陷,本发明提出一种基于遗传算法的网络文本分割方法,利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(LatentDirichlet?allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,可以提高网络短篇幅文本分割准确率。

        本发明的技术方案是:一种基于遗传算法的网络文本分割方法,其特点是包括以下步骤:

        (a)利用网络蜘蛛在网络上收集网页,通过对收集的网页进行文本预处理,仅保留文本信息,并采用朴素贝叶斯的文本分类方法,对去除噪声后的文本信息进行分类,按类别构建扩展语料库;

        (b)采用层次聚类方法对扩展语料库进行聚类,确定的子主题的数目,采用Gibbs方法估计语料库的LDA模型,估计涉及的参数采用经验值α=0.01,β=0.01,burn-in间距是2000,thinning间距是100;

        (c)对待分割文本进行分词、词性标注、命名实体识别、词义消歧的文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇;再根据HowNet,计算文本的特征词汇与扩展语料库的特征词汇之间的相似度,选取相似度最大值对应的语料库为文本分割的外部语料库;最后采用Gibbs采样方法以及所述扩展语料库对应的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型以及词汇在分割单元中的概率;词汇所属子主题的类型用于待分割文本的表示,以句子为单位统计每个词汇所属的子主题类型,句子表示为子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sjj表示句子j中词汇属于子主题j的频率;

        (d)利用并行遗传算法进行文本分割,算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体;根据公式

        Coh=1-Σn=1j1kΣsi∈bnΣl=1T(sil-anl)2]]>

        计算语义段落内的凝聚性;式中,|bn|表示第n个语义段落中包含的句子数,an表示语义段落对应的平均向量,ant是该向量的第t个分量;

        根据公式

        Dis=Σn=1j|bn|kΣl=1T(anl-cl)2]]>

        计算语义段落间的发散性;式中,

        根据语义段落内的凝聚性和语义段落间发散性计算遗传迭代中每个个体的适应度函数值,计算公式如下:

        F(xi)=|{xj|xj∈Pt^Coh(xi)≥Coh(xj)^Dis(xi)≥Dis(xj)}||Pt|+1xi∈P‾t1+Σxj∈Pt‾^Coh(xj)≥Coh(xi)^Dis(xj)≥Dis(xi)F(xj)xi∈Pt]]>

        式中,Pt表示扩展种群,用于存储迭代中的最优解;

        种群选择过程中,首先采用精英保留策略,保留种群及扩展种群中的精英个体,直接进入下一代进化;然后采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度值,选择适应度小的个体进行交叉和变异操作;

        交叉过程采用单点交叉方法,为了防止近亲繁殖,当个体间汉明距离超过阈值时,才允许在种群和扩展种群之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%;根据种群的相似度自适应调节变异算子;种群的相似度计算公式如下:

        Sim(P)=2×Σi≠j^xi,xj∈PSim(xi,xj)|P|×(|P|-1)]]>

        当相似度超过阈值且持续50轮,则结束迭代过程,选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。

        本发明地有益效果是:由于利用Gibbs采样方法估计语料库对应的潜在狄利克雷分配(Latent?Dirichlet?allocation,LDA)模型,并利用该模型推断目标文本的潜在话题信息,利用潜在话题信息表示文本;再采用并行遗传算法,将文本分割过程转化为多目标优化过程,利用深层次语义信息计算分割单元内凝聚性、分割单元间发散性以及适应度函数,进行文本分割过程的遗传迭代,依据多次迭代结果之间的相似度或迭代次数上限决定分割过程是否结束,得到文本分割全局最优解,提高了网络短篇幅文本分割准确率。

        文本分割的准确率通常由正确率和召回率来衡量,背景技术除采用以上衡量属性,还利用Pμ值作为衡量标准,通过在上述环境中对50个待分割文本进行测试,本发明涉及方法在3个衡量属性上都优于背景技术,尤其在Pμ值方面高出15%。

        下面结合附图和实施例对本发明作详细说明。

        【附图说明】

        附图是本发明基于遗传算法的网络文本分割方法流程图。

        【具体实施方式】

        参照附图,本实施例针对主题为“北京奥运”的目标文本,语言使用规范,文本篇幅较短,文本分割的具体步骤如下:

        第一步,设置网络蜘蛛的搜索主题为与奥运相关的词汇,利用网络蜘蛛在网络上收集网页。奥运主题词汇的确定包括以下三步,1)人工确定能够代表搜索主题的文本多篇,通常为10~20篇;2)统计文中名词、动词的词频,选取词频高的词汇作为待定主题词汇集,词频阈值设置为30;3)从待定主题词汇集中,人工选取10~15个词汇作为主题词汇。

        网页都是HTML文档,需要对收集的网页进行文本预处理,提取文本信息时需要对HTML标示符进行过滤;除了标题和正文外,网页中还包含许多链接,这些链接和文本正文不相关,在提取网页内容的时候,也需要过滤这些无用的链接。

        采用朴素贝叶斯的文本二元分类方法,对去除噪声后的文本进行分类,按照分类结果去除与主题不相关的网页,构建主题语料库,特征选取可采用信息增益IG、互信息MI等的特征选取方法。主题语料库最少包含1000篇文本。

        第二步,采用Gibbs采样方法估计语料库的LDA模型。Gibbs采样迭代过程依据以下公式进行:

        P(zi=j|z-i,wi)=nwi-ij+βn*-ij+Wβ·ndi-ij+αndi-i*+αΣj=1Tnwi-ij+βn*-ij+Wβ·ndi-ij+αndi-i*+α]]>

        其中,表示wi对应词汇被分配给主题j的次数,n*-ij表示被分配给主题j的总词汇数,表示文本di中被分配给主题j的词汇数,表示文本di中的词汇总数,以上信息均都可从文本中统计获得,统计过程不考虑当前词项wi。

        Gibbs抽样的过程包括三步:

        1)迭代初始,zi被赋值为1到T任意值;

        2)根据公式,分别计算wi被分配给主题1到T的概率,取最大值更新词汇wi的主题分配状态,得到markov链的下一个状态;

        3)根据前后markov链的相似度和burn-in间距判断迭代是否结束,相似度超过阈值或达到burn-in间距时则迭代结束。

        Gibbs采样中,采用层次聚类方法确定子主题的数目,其他参数采用经验值α=0.01,β=0.01,burn-in间距以及thinning间距分别取值为2000和100,迭代过程采用GibbsLDA++工具;

        第三步,对待分割文本进行分词、词性标注、命名实体识别、词义消歧等文本预处理,统计文本中名词、动词的频率,选择高频词汇作为文本的特征词汇。根据HowNet,利用义元间上下文关系计算文本的特征词汇与各个语料库的特征词汇之间的相似度,由于待分割文本与步骤一生成的“北京奥运”扩展语料库相似度最大,因此选取该语料库为文本分割的外部语料库。

        采用Gibbs采样方法以及步骤二估计的LDA模型推断待分割文本包含的语义结构信息,推断的语义结构信息包括词汇所属子主题的类型。语言结构信息推断过程依然使用第二步中的公式,其中,di在第三步中表示句子i,即词汇统计以句子为单位。

        统计句子中每个词汇所属的子主题类型,构造子主题空间向量,句子Sj=sj1sj2...sjj...sjT,sij表示句子j中词汇属于子主题j的频率。

        第四步,利用并行遗传算法进行文本分割。算法编码方案采用二进制编码方案,种群初始化采用随机数生成方法,同时利用语义段落的最小长度和文本包含语义段落的最小数量两个指标,过滤不合格的初始个体,段落最小长度不少于3,段落数不少于5。根据公式

        Coh=1-Σn=1j1kΣsi∈bnΣl=1T(sil-anl)2]]>

        计算语义段落内的凝聚性。式中,|bn|表示第n个语义段落中包含的句子数,an表示语义段落对应的平均向量,ant是该向量的第t个分量。

        根据公式

        Dis=Σn=1j|bn|kΣl=1T(anl-cl)2]]>

        计算语义段落间的发散性。式中,

        根据语义段落内的凝聚性和语义段落间发散性计算遗传算法的适应度函数值,计算公式如下:

        F(xi)=|{xj|xj∈Pt^Coh(xi)≥Coh(xj)^Dis(xi)≥Dis(xj)}||Pt|+1xi∈P‾t1+Σxj∈Pt‾^Coh(xj)≥Coh(xi)^Dis(xj)≥Dis(xi)F(xj)xi∈Pt]]>

        种群选择过程中,首先采用精英保留策略,分别选取种群和扩展种群中自适应函数值最小的个体作为精英,精英个体直接进入下一代进化。其次,采用轮盘赌方法,分别从种群和扩展种群中选择个体,比较两个体的适应度,选择适应度小的个体进行交叉和变异操作。

        采用单点交叉完成交叉过程,为了防止近亲繁殖,参与交叉的个体必须属于不同的种群,并且只有当个体间汉明距离超过阈值时,才允许在二者之间进行交叉操作,阈值通常设置为个体间平均汉明距离的20%。

        根据种群的相似度自适应的调整变异算子,种群的相似度计算公式如下:

        Sim(P)=2×Σi≠j^xi,xj∈PSim(xi,xj)|P|×(|P|-1)]]>

        其中,xi、xj表示种群中的两个个体。种群变异考虑变异结果是否满足分割结果的要求,分割结果要求与种群初始化过滤要求相同,若不满足,则生成新的个体替换变异后个体。

        根据公式计算不同迭代轮次扩展种群中最优个体的相似度,当相似度超过阈值且持续50轮,则迭代结束。选取扩展种群中的个体作为文本分割的结果,在个体的二进制表示中,数字“1”对应的句子就是文本分割的边界。

        文本分割的准确率通常由正确率和召回率来衡量,背景技术除采用以上衡量属性,还利用Pμ值作为衡量标准,通过在上述环境中对50个待分割文本进行测试,本发明涉及方法在3个衡量属性上都优于背景技术,尤其在Pμ值方面高出15%。

    关 键 词:
    基于 遗传 算法 网络 文本 分割 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于遗传算法的网络文本分割方法.pdf
    链接地址://www.4mum.com.cn/p-5782038.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03