• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩合和走势图: 一种文本特征提取方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210419624.8

    申请日:

    2012.10.29

    公开号:

    CN103793385A

    公开日:

    2014.05.14

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20140514|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 深圳市世纪光速信息技术有限公司
    发明人: 邹维; 尹华彬; 周畅; 杨俊松; 宫建涛; 吴振宇; 宁合军
    地址: 518057 广东省深圳市南山区高新科技园科技中一路腾讯大厦16层
    优先权:
    专利代理机构: 北京德琦知识产权代理有限公司 11018 代理人: 张玉波;宋志强
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210419624.8

    授权公告号:

    |||

    法律状态公告日:

    2016.06.22|||2014.05.14

    法律状态类型:

    发明专利申请公布后的视为撤回|||公开

    摘要

    本申请公开了一种文本特征提取方法和装置。该方法包括:对于特征词库中的特征词Fi,根据样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息;对目标文档进行分词,获得所述目标文档中出现的所有特征词;基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。应用本申请能够提高提取文本特征的准确度。

    权利要求书

    权利要求书
    1.  一种文本特征提取方法,其特征在于,该方法包括:
    对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息;
    对目标文档进行分词,获得所述目标文档中出现的所有特征词;
    基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;
    根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。

    2.  根据权利要求1所述的方法,其特征在于,确定该特征词Fi与标签库中的每个标签之间的互信息包括:
    将特征词Fi与标签库中的标签Tj的互信息确定为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj)]]>
    其中,n是预先建立的样本库中出现了特征词Fi且具有标签Tj的样本个数、Num是出现了特征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。

    3.  一种文本特征提取方法,其特征在于,该方法包括:
    对目标文档进行分词,获得所述目标文档中出现的所有特征词;
    确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;
    根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征;
    其中,确定所述目标文档中的每个特征词对每个标签的权重包括:
    根据特征词Fi与标签Tj的互信息MI(Fi,Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要程度IDF(Fi)确定该特征词Fi对标签Tj的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要程度IDF(Fi)越低。

    4.  根据权利要求3所述的方法,其特征在于,根据特征词Fi与标签Tj的互信息MI(Fi,Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词Fi的重要度IDF(Fi)确定该特征词Fi对标签Tj的权重包括:
    将特征词Fi对标签Tj的权重p(Fi,Tj)确定为:
    p(Fi,Tj)=MI(Fi,Tj)×TF(Fi)×IDF(Fi);
    将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对所述标签的总权重包括:
    将目标文档中的所有特征词的集合F对标签Tj的总权重p(F,Tj)确定为:
    p(F,Tj)=Σi=0mMI(Fi,Tj)×TF(Fi)×IDF(Fi),]]>其中,m是目标文档中的所有特征词的个数。

    5.  根据权利要求4所述的方法,其特征在于,特征词Fi的重要度IDF(Fi)为:
    IDF(Fi)=log(1+NNfi)]]>
    其中,N是样本库中的样本总个数,Nfi是样本库中出现了特征词Fi的样本个数。

    6.  根据权利要求3或4或5所述的方法,其特征在于,特征词Fi与标签Tj的互信息MI(Fi,Tj)为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj);]]>
    其中,n是样本库中出现了特征词Fi且具有标签Tj的样本个数、Num是出现了特征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。

    7.  一种文本特征提取装置,其特征在于,该装置包括互信息确定??楹臀谋咎卣魈崛∧??;
    所述互信息确定???,对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息;
    所述文本特征提取???,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词,基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重,根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。

    8.  根据权利要求7所述的装置,其特征在于,
    所述互信息确定???,用于将特征词Fi与标签Tj的互信息MI(Fi,Tj)确定为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj);]]>
    其中,n是样本库中出现了特征词Fi且具有标签Tj的样本个数、Num是出现了特征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。

    9.  一种文本特征提取装置,其特征在于,该装置包括分词???、权重确定??楹?文本特征提取???;
    所述分词???,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词;
    所述权重确定???,用于确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;
    所述文本特征提取???,用于根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征;
    其中,所述权重确定???,用于根据特征词Fi与标签Tj的互信息MI(Fi,Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要度IDF(Fi)确定该特征词Fi对标签Tj的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要度IDF(Fi)越低。

    10.  根据权利要求9所述的装置,其特征在于,
    所述权重确定???,用于根据p(Fi,Tj)=MI(Fi,Tj)×TF(Fi)×IDF(Fi)确定特征词Fi对标签Tj的权重p(Fi,Tj),根据p(F,Tj)=Σi=0mMI(Fi,Tj)×TF(Fi)×IDF(Fi)]]>确定目标文档中的所有特征词的集合F对标签Tj的总权重p(F,Tj),m是目标文档中的所有特征词的个数。

    11.  根据权利要求10所述的装置,其特征在于,特征词Fi的重要度IDF(Fi)为:
    IDF(Fi)=log(1+NNfi)]]>
    其中,N是样本库中的样本总个数,Nfi是样本库中出现了特征词Fi的样本个数。

    12.  根据权利要求9或10或11所述的装置,其特征在于,
    所述权重确定???,用于将特征词Fi与标签Tj的互信息MI(Fi,Tj)为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj);]]>
    其中,n是样本库中出现了特征词Fi且具有标签Tj的样本个数、Num是出现了特 征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。

    说明书

    说明书一种文本特征提取方法和装置
    技术领域
    本申请涉及信息技术领域,尤其涉及一种文本特征提取方法和装置。
    背景技术
    在文本分类领域中,因为一篇文档里出现的特征词的个数太多,如何从一篇文档中提取到关键的特征词,即如何从一篇文档中提取文本特征,成为文本分类的重要技术问题。
    常用的基于概率模型的文本分类因为实现原理简单、准确率高的特点,成为应用最广泛的文本分类方法之一。其中,基于互信息(Mutual Information,MI)的文本特征提取就是一种典型的基于概率模型的文本分类方法。
    互信息,是指两个事件集合之间的相关性。
    具体地,两个事件X和Y的互信息定义为公式1:
    MI(X,Y)=logp(X,Y)p(X)×p(Y)]]>
    其中,p(X)和p(Y)分别表示事件X和事件Y单独发生的概率,p(X,Y)表示事件X和事件Y同时发生的概率。
    基于互信息的文本特征提取方法中,公式1演变为公式2:
    MI(t,Xi)=logp(t,Xi)p(t)×p(Xi)]]>
    其中,t表示从文档中通过分词获取到的一个关键词,Xi表示已知文本分类集合中的第i个类别,p(t)和p(Xi)分别表示从文档中通过分词获取关键词t的概率和将文档归类为Xi类的概率,p(t,Xi)表示从文档中通过分词获取关键词t、且将该文档归类为Xi类的概率,MI(t,Xi)表示从文档中通过分词获取关键词t和将该文档归类为Xi之间的互信息,其表征了关键词t对文本类别Xi的权重。
    既然互信息可以用来表征特征词对文本类别的权重,那么在对文档进行文本特征提取的时候,可以将用于表示文本特征的标签作为一个类别,则公式2可以变换为公式3:
    MI(t,Ti)=logp(t,Ti)p(t)×p(Ti)]]>
    其中,Ti表示标签库T中的第i个标签,p(t)表示从文档中通过分词获取关键词t的概率,p(Ti)将文档归类为Ti类的概率,p(t,Ti)表示从文档中通过分词获取关键词t、且将该文档归类为Ti类的概率。
    具体地,预先建立文档样本库,该文档样本库中的所有文档都已被手工等方式打好标签,p(t)是该文档样本库中具有特征词t的文档个数除以该样本库的总文档个数,p(Ti)是该文档样本库中Ti类的文档个数除以该样本库的总文档个数,p(t,Ti)是该文档样本库中具有特征词t、且属于Ti类的文档个数除以该样本库的总文档个数。
    可见,通过公式3,可以获得所有的特征词同标签库T中的各个标签的互信息。那么,当需要从一篇文档d中提取文本特征时,从文档d中提取出文本特征Ti(也可称为打上标签Ti)的权重可以通过公式4得到:
    p(d,Ti)=Σx=1NMI(tx,Ti)]]>
    其中,P(d,Ti)是文档d能够被打上标签Ti的权重,即能够从文档d中提取出文本特征Ti的权重,N是文档d中的特征词的个数,tx是文档d中的第x个特征词。
    例如,对一篇文章d进行分词,提取到的特征词及其在该文档中出现的次数包括:(android,2)、(聊天,1)、(语音对讲,2)、(二维码,1),其中,括号中出现的数字表示该括号中的特征词在该篇文章d中出现的次数。假设该篇文章d可能的标签为标签库中的“微信”,那么该篇文档d能够被打上“微信”标签的概率为:
    P(d,微信)=MI(android,微信)+MI(聊天,微信)+MI(语音对讲,微信)+MI(二维码,微信)
    其中,MI(android,微信)、MI(聊天,微信)、MI(语音对讲,微信)和MI(二维码,微信)是通过预先建立文档样本库,并根据公式3计算得到的。
    可见,由于目前根据样本库中出现了某特征词的文档个数以及该特征词与各个标签同时出现的次数,来确定该特征词与各个标签(即文本特征)的互信息(参见公式3),但是没有考虑同一个特征词与标签在一篇文档中同时出现的频率,例如上例中,特征词“android”和“语音对讲”都出现了两次,其相对于只出现1次的“二维码”等特征词,对于标签“微信”的贡献度更高,即与标签“微信”的互信息值应该更大,但是,按照目前确定互信息的方法,却无法体现出这种差别,因此,目前确定互信息的方法的准确度较低,无法准确地反映特征词与标签之间的相关性,相应地,基于目前确定互信息的方法进行文本分类的准确度也较低。
    另外,无论互信息如何确定,目前在进行文本特征提取时,也是仅考虑目标文档 中出现了哪些特征词,并不考虑某一特征词在目标文档中出现的次数,而实际上,如果某特征词在目标文档中频繁地出现,则该特征词应对该目标文档的文本特征提取具有更高的贡献值,从该角度看,目前进行文本特征提取的方法的准确度也较低。
    发明内容
    本申请提供了一种文本特征提取方法和装置,能够提高提取文本特征的准确度。
    一种文本特征提取方法,该方法包括:
    对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息;
    对目标文档进行分词,获得所述目标文档中出现的所有特征词;
    基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;
    根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
    一种文本特征提取方法,该方法包括:
    对目标文档进行分词,获得所述目标文档中出现的所有特征词;
    确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;
    根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征;
    其中,确定所述目标文档中的每个特征词对每个标签的权重包括:
    根据特征词Fi与标签Tj的互信息MI(Fi,Ti)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要度IDF(Fi)确定该特征词Fi对标签Tj的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要度IDF(Fi)越低。
    一种文本特征提取装置,该装置包括互信息确定??楹臀谋咎卣魈崛∧??;
    所述互信息确定???,对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息;
    所述文本特征提取???,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词,基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重,根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
    一种文本特征提取装置,该装置包括分词???、权重确定??楹臀谋咎卣魈崛∧??;
    所述分词???,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词;
    所述权重确定???,用于确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重;
    所述文本特征提取???,用于根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征;
    其中,所述权重确定???,用于根据特征词Fi与标签Tj的互信息MI(Fi,Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要度IDF(Fi)确定该特征词Fi对标签Tj的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要度IDF(Fi)越低。
    由上述方案可见,本发明在确定互信息时,不是仅考虑样本库中的样本是否出现了某特征词,还进一步考虑该特征词在样本库的样本中出现的次数,由于特征词在样本中出现的次数越多,则一般该特征词对该样本所具有的标签之间的相关性就越大,因此,采用本发明确定互信息的技术方案,能够较为准确地反映特征词与标签之间的 相关性,进而基于该互信息进行文本特征提取,也能够提高文本特征提取的准确性。
    另外,本发明在提取文本特征时,也可以不仅考虑目标文档中是否出现了某特征词,还进一步考虑该特征词在目标文档中出现的次数,以及预先建立的样本库中包含该特征词的样本的个数,由于特征词在目标文档中出现的次数,能够反映出与特征词相关的标签作为目标文档的文本特征的可能性,而样本库中包含该特征词的样本个数,则能够反映该特征词的重要程度,因此,采用该技术方案也能够提高提取文本特征的准确度。
    附图说明
    图1是本发明提供的互信息确定方法的流程图。
    图2是本发明提供的文本特征提取方法的流程图。
    图3是本发明提供的文本特征提取装置的第一结构图。
    图4是本发明提供的文本特征提取装置的第二结构图。
    具体实施方式
    图1是本发明提供的互信息确定方法的流程图。
    如图1所示,该流程包括:
    步骤101,对于特征词库中的某特征词Fi和标签库中的某标签Tj,根据预先建立的样本库中的样本信息,确定出现了该特征词且具有该标签的样本个数n、每个出现该特征词且具有该标签的样本中该特征词的出现次数Num、该特征词在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果p(Fi)、以及样本库中的样本个数除以样本库中的样本总个数所得的结果p(Tj)。
    步骤102,根据步骤101确定出的信息以及样本库中的样本总个数N确定所述特征词与所述标签的互信息。
    可见,图1所示方法在确定互信息时,不是仅考虑样本库中的样本是否出现了某特征词,还进一步考虑该特征词在样本库的样本中出现的次数,由于特征词在样本中出现的次数越多,则一般该特征词对该样本所具有的标签之间的相关性 就越大,因此,采用图1方法确定互信息能够较为准确地反映特征词与标签之间的相关性。进而,基于图1所述方法确定的互信息进行文本特征提取,也能够提高文本特征提取的准确性。
    具体地,本发明提出,可以将特征词Fi与标签Tj的互信息MI(Fi,Tj)确定为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj).]]>
    基于考虑特征词的出现次数这一思想,本发明还提供了一种文本特征提取方法,具体请参见图2。
    图2是本发明提供的文本特征提取方法的流程图。
    如图2所示,该流程包括:
    步骤201,对目标文档进行分词,获得所述目标文档中出现的所有特征词。
    步骤202,根据每个特征词与每个标签的互信息、每个特征词在所述目标文档中出现的次数、以及每个特征词的重要程度,确定所述目标文档中的每个特征词对每个标签的权重。
    其中,预先建立的样本库中包括某一特征词的样本个数越多,则该特征词的重要程度越低。
    步骤203,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重。
    步骤204,根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
    可见,图2所示方法提取文本特征时,不仅考虑目标文档中是否出现了某特征词,还进一步考虑了该特征词在目标文档中出现的次数,以及预先建立的样本库中包含该特征词的样本的个数,由于特征词在目标文档中出现的次数,能够反映出与特征词相关的标签作为目标文档的文本特征的可能性,而样本库中包含该特征词的样本个数,则能够反映该特征词的重要程度,因此,采用图2方法提取文本特征能够提高提取文本特征的准确度。
    具体地,本发明还提出,可以将特征词Fi对标签Tj的权重p(Fi,Tj)确定为;
    p(Fi,Tj)=MI(Fi,Tj)×IF(Fi)×IDF(Fi)。
    其中,MI(Fi,Tj)是特征词Fi与标签Tj的互信息、TF(Fi)是特征词Fi在目标文档中出现的次数、IDF(Fi)是特征词Fi的重要程度,其中,预先建立的样本库中包含该特征词Fi的样本个数越多,该特征词Fi的重要程度IDF(Fi)越低。
    进一步地,特征词Fi的重要程度IDF(Fi)可以为:
    IDF(Fi)=log(1+NNfi)]]>
    其中,N是样本库中的样本总个数,Nfi是样本库中出现了特征词Fi的样本个数。
    为了进一步提高文本特征提取的准确性,在本发明提供的文本特征提取方法中,可以进一步采用本发明提出的互信息确定方法,即本发明提供的文本特征提取方法中,特征词Fi与标签Tj的互信息MI(Fi,Tj)为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj);]]>
    其中,n是样本库中出现了特征词Fi且具有标签Tj的样本个数、Num是出现了特征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。
    根据本发明提供的上述方法,本发明还提供了两种文本特征提取装置,具体请参见图3和图4。
    图3是本发明提供的文本特征提取装置的第一结构图。
    如图3所示,该装置包括互信息确定???01和文本特征提取???02。
    互信息确定???01,对于特征词库中的特征词Fi,根据预先建立的样本库中包含所述特征词Fi的样本中该特征词Fi的出现次数以及包含该特征词Fi的样本所具有的标签,确定该特征词Fi与标签库中的每个标签之间的互信息。
    文本特征提取???02,用于对目标文档进行分词,获得所述目标文档中出现的 所有特征词,基于目标文档中的每个特征词与每个标签之间的互信息,确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重,根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
    其中,互信息确定???01,可以用于将特征词Fi与标签Tj的互信息MI(Fi,Tj)确定为:MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj).]]>
    其中,n是样本库中出现了特征词Fi且具有标签Ti的样本个数、Num是出现了特征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。
    图4是本发明提供的文本特征提取装置的第二结构图。
    如图4所示,该文本特征提取装置包括分词???01、权重确定???02和文本特征提取???03。
    分词???01,用于对目标文档进行分词,获得所述目标文档中出现的所有特征词。
    权重确定???02,用于确定所述目标文档中的每个特征词对每个标签的权重,将所述目标文档中的所有特征词对同一个标签的权重进行加权,得到所述目标文档中的所有特征词对同一个标签的总权重。
    文本特征提取???03,用于根据各个标签的所述总权重,从所述各个标签中确定出目标标签作为所述目标文档的文本特征。
    其中,权重确定???02,用于根据特征词Fi与标签Tj的互信息MI(Fi,Tj)、该特征词Fi在所述目标文档中出现的次数TF(Fi)、以及该特征词的重要度IDF(Fi)确定该特征词Fi对标签Tj的权重,其中,预先建立的样本库中包含该特征词Fi的样本个数越 多,该特征词Fi的重要度IDF(Fi)越低。
    权重确定???02,可以用于根据p(Fi,Tj)=MI(Fi,Tj)×TF(Fi)×IDF(Fi)确定特征词Fi对标签Tj的权重p(Fi,Tj),根据p(F,Tj)=Σi=0mMI(Fi,Tj)×TF(Fi)×IDF(Fi)]]>确定目标文档中的所有特征词的集合F对标签Tj的总权重p(F,Tj),m是目标文档中的所有特征词的个数。
    其中,特征词Fi的重要度IDF(Fi)可以为:
    IDF(Fi)=log(1+NNfi)]]>
    其中,N是样本库中的样本总个数,Nfi是样本库中出现了特征词Fi的样本个数。权重确定???02,可以用于将特征词Fi与标签Tj的互信息MI(Fi,Tj)为:
    MI(Fi,Tj)=logΣk=0nlog(e-1+Num)N×p(Fi)×p(Tj);]]>
    其中,n是样本库中出现了特征词Fi且具有标签Tj的样本个数、Num是出现了特征词Fi且具有标签Tj的第k个样本中特征词Fi出现的次数、p(Fi)是特征词Fi在样本库中的所有样本中出现的总次数除以样本库中的所有样本中的所有特征词出现的总次数所得的结果,p(Tj)是样本库中具有标签Tj的样本个数除以样本库中的样本总个数所得的结果。
    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明?;さ姆段е?。

    关 键 词:
    一种 文本 特征 提取 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种文本特征提取方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6156757.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03