• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    网上重庆时时彩骗局吗: 基于词分布的词语局部权重计算方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN200910198890.0

    申请日:

    2009.11.17

    公开号:

    CN101710317A

    公开日:

    2010.05.19

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/27申请公布日:20100519|||实质审查的生效IPC(主分类):G06F 17/27申请日:20091117|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 上海第二工业大学
    发明人: 夏天
    地址: 201209 上海市浦东新区金海路2360号
    优先权:
    专利代理机构: 上海天翔知识产权代理有限公司 31224 代理人: 朱妙春
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN200910198890.0

    授权公告号:

    ||||||

    法律状态公告日:

    2012.09.12|||2010.07.07|||2010.05.19

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开了基于词分布的词语局部权重计算方法,该方法包括如下步骤:(1)计算词序列中词语的分布均匀度系数;(2)计算词序列中词语的分布广度系数;(3)计算基于词分布的词语局部权重。本发明将有效优化目前词语权重计算方法,提高其准确率,推动自然语言处理的研究和应用。

    权利要求书

    1: 基于词分布的词语局部权重计算方法,其特征在于,所述方法包括如下步骤: (1)将待分析的文档进行预处理操作,使待分析文档成为包含文档主要内容的词序列; (2)计算词序列中词语的分布均匀度系数; (3)计算词序列中词语的分布广度系数; (4)计算基于词分布的词语局部权重。

    说明书


    基于词分布的词语局部权重计算方法

        技术领域:

        本发明涉及一种自然语言的处理方法,特别涉及一种词语权重的计算方法。

        背景技术:

        90年代以来,随着网络信息的爆炸,人们需要精准地在网络上获取信息。这促使自然语言处理迅速发展,信息检索、信息过滤、文本分类、自动文摘、问答系统等自然语言处理应用技术的研究就成为近年来研究的热点。支持向量机、向量空间模型、潜在语义分析模型等新模型层出不穷。

        这些新模型都以词语权重的计算为基础,词语权重计算是否准确直接影响着自然语言处理的最终结果,如图1。文档中每一个词语所表达的文档的信息量是不同的,我们用词语权重来表示词语的重要程度,只有准确地计算出每个词语的权重,才能使文档中的语义信息表现得更加明显。

        常见的权重算法,布尔权重,特征频度,TF-IDF,熵等,都考虑了能够描述词语包含信息量的某个因素,如:词频、文档频、词的位置等。有的权重计算方法根据词语在单一文档中的规律计算出权重,称之为词语局部权重;还有的根据词语在文档集中的规律计算出权重,称之为词语全局权重。

        现有的词语权重计算方法得到的结果不够精确,这将直接影响以词语权重算法为基础的自然语言处理模型的处理结果。

        发明内容:

        本发明针对现有词语权重计算方法不够准确的问题,而提供一种基于词分布的词语局部权重计算方法,该方法能够提高计算词语权重的准确性,从而有效的提高相应自然语言处理模型的准确率。

        为了达到上述目的,本发明采用如下的技术方案:

        基于词分布的词语局部权重计算方法,该方法包括如下步骤:

        (1)计算词语局部权重前,必须将待分析的文档进行中文分词、词性标注、去停用词、信息抽取等预处理操作,从而使待分析文档成为包含文档主要内容的词序列;

        (2)计算词序列中词语的分布均匀度系数;

        (3)计算词序列中词语的分布广度系数;

        (4)计算基于词分布的词语局部权重。

        根据上述技术方案得到的本发明能有效优化目前词语权重计算方法,提高其准确率,推动自然语言处理的研究和应用。本发明能够使得以词语权重算法为基础的自然语言处理应用,如信息检索、文本分类、垃圾邮件过滤等获得更佳的处理结果。本发明在实际应用中可与其他权重算法组合,能够获得更高的准确率。

        附图说明:

        以下结合附图和具体实施方式来进一步说明本发明。

        图1为词语权重计算方法与自然语言领域各技术的关系示意图。

        图2为在文档中词语分布均匀度与词语权重的关系示意图。

        图3为在文档中词语分布均匀度与词语权重的关系示意图。

        图4为本发明的流程图。

        具体实施方式:

        为了使本发明实现的技术手段、创作特征、达成目的与功效易于明白了解,下面结合具体图示,进一步阐述本发明。

        词语局部权重根据词语在一篇文档中的统计规律进行权重计算,它考虑一篇文档中影响词语权重的一些因素,如:词频、词长、词的位置等等。在一篇文档中,大范围均匀分布的词语蕴含更多的信息量,更有可能和文档的内容相关;小范围集中分布的词语,蕴含较少信息量,更可能和文中某段的内容相关。

        本专利对文档中词语的分布进行研究,根据“K.Pearson定理”设计分布均匀度系数及其计算方法,来衡量词的分布情况。文档中不同的词对应着不同的分布均匀度系数,分布均匀度系数的值越大,词的分布越均匀,对于局部权重而言,其权重就越大。

        另一方面,该统计量仅仅描述了词语分布的均匀程度,本专利还利用词语分布广度,来适当提高相应词的权重。

        基于上述原理,本发明提供的一种基于词分布的词语局部权重算法通过如下步骤实现(参见图4):

        (1)计算词语局部权重前,必须将待分析的文档进行中文分词、词性标注、去停用词、信息抽取等预处理操作,从而使待分析文档成为包含文档主要内容的词序列(其为本领域较为成熟地技术,此处不加以赘述)。

        (2)计算词序列中词语的分布均匀度系数;

        设某一文档共有m段、Cm个字,对其执行步骤(1)后,得到了词序列。下面对词序列中的第j个词语求分布均匀度系数:

        设区间(Ci-1+1,Ci)表示该文档的第i段中第Ci-1+1个字到第Ci个字,(其中C0=0,i=1,2,...,m),文档的总字数为Cm??杉牡抵腥我淮视?,包括词序列中的第j个词语,如果它均匀分布,则其出现在第i段的概率为(i=1,2,...,m),n是这个词在这篇文档中实际出现的总次数,vi是这个词在文档的第i段中实际出现的次数,则第j个词语的分布均匀度系数为:

        X2j=f(v1,...,vm,r1,...rm,m,n,a,b)

        其中,X2j为词序列中第j个词语的分布均匀度系数,根据统计学原理,对上述变量进行数学变换得出。v1,...,vm,r1,...rm,m,n都是变量,取决于第j个词语在待分析文档中的统计情况。a,b为参数,涉及本专利的最优实施方案,需根据本专利的具体应用而定。

        本专利计算的第j个词语的在待分析文档中的分布均匀度系数X2j具有以下性质:值越大,说明第j个词语在这篇文档中出现状态就越均匀。按照前面所述,“在一篇文档中,大范围均匀分布的词语蕴含更多的信息量,更有可能和文档的内容相关;小范围集中分布的词语,蕴含较少信息量,更可能和文中某段的内容相关?!?如图2和图3所示),也就是说词语分布越均匀的词语局部权重越大??杉咀ɡ扑愕姆植季榷认凳鲜导是榭?。

        (3)计算词序列中词语的分布广度系数。

        待分析文章中,词语分布的广度和该词语出现的段落总数、出现该词语的首末段落距离、文章总段落数有关。根据统计学原理,本专利设计分布广度系数计算方法如下:

        如对于词序列中的第j个词语,其分布广度系数通过以下公式得到:

        Bj=φ(p,m;c,d,e)

        其中,p,m为变量,p为该文档中出现该词语的段落总数,m为文档段落数;c、d、e为参数,涉及本专利的最优实施方案,需根据本专利的具体应用而定。

        (4)计算基于词分布的词语局部权重。

        基于词分布的词语局部权重需将上述分布均匀度系数和分布广度系数的计算结果,根据统计学原理,设计组合计算方法。

        如根据前面得到的第j个词语的分布均匀度系数和分布广度系数,可计算得到第j个词语的局部权重:

        其中,X2j,Bj为变量,分别为分布均匀度系数和分布广度系数;f、g、h为参数,涉及本专利的最优实施方案,需根据本专利的具体应用而定。

        在对本发明具体测试时,采用在sina、sohu等中国国内知名网络媒体近1年内的超过150万篇网页文档作为语料库对本发明进行测试,具体方法如下:

        在超过150万篇网页文档中随机挑选1000篇文档,内容涉及新闻、娱乐、汽车、体育等12个大类。通过两种方式进行计算相应词语的权重,一种是人工方式:人工选择每篇文档中最重要的20个词语,并标注出权重,标注过程需保证每篇文档的词语权重由10个不同员工标注,平均值作为人工标注的最终词语权重。另一种方式是利用本发明提供的计算方法、布尔权重、特征频度,TF和熵权重算法分别计算出相应词语的词语权重,最后将得到的结果与人工标注的结果比对。测试结果显示本发明提供的基于词分布的词语局部权重算法比其他权重计算方法更接近人工标注的值。

        本专利发明的“基于词分布的词语局部权重计算方法”能够有效地分析出文章中重要词语并给予适当权重,该技术适用于涉及信息检索、语义匹配的应用系统,如:智能搜索引擎、反垃圾邮件、垃圾信息过滤、专家系统、信息安全、文本数据挖掘等。

        以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求?;さ谋痉⒚鞣段?。本发明要求?;し段в伤降娜ɡ笫榧捌涞刃锝缍?。

    关 键 词:
    基于 分布 词语 局部 权重 计算方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:基于词分布的词语局部权重计算方法.pdf
    链接地址://www.4mum.com.cn/p-5781909.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03