• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩定胆购买: 文本特征提取策略制定方法及装置、文本分类方法及装置.pdf

    关 键 词:
    文本 特征 提取 策略 制定 方法 装置 分类
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201010120134.9

    申请日:

    2010.02.20

    公开号:

    CN102163190A

    公开日:

    2011.08.24

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/27申请日:20100220|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 三星电子(中国)研发中心; 三星电子株式会社
    发明人: 姜赢; 王进; 彭鸽; 刘思培; 胡晨
    地址: 210008 江苏省南京市中山路268号汇杰广场8楼
    优先权:
    专利代理机构: 北京铭硕知识产权代理有限公司 11286 代理人: 韩明星;王艳娇
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201010120134.9

    授权公告号:

    102163190B||||||

    法律状态公告日:

    2013.09.11|||2011.10.05|||2011.08.24

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种自适应文本分类方法。该方法包括步骤:将策略数据库中的文本特征提取策略之一映射到基于文本特征的文本分类器,并对于待分类语料进行文本分类;当所述策略数据库中的任意一个文本特征提取策略均不适用于所述待分类语料时,对于所述待分类语料进行全局样式分析,得到全局样式分析结果;对于经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中;将所述文本特征提取策略映射到基于文本特征的文本分类器,并进行所述待分类语料的文本分类。

    权利要求书

    1.一种用于文本分类的文本特征提取策略制定方法,包括步骤:对于待分类语料进行全局样式分析,得到全局样式分析结果;对经过全局样式分析的待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中。2.根据权利要求1所述的文本特征提取策略制定方法,其特征在于所述文本特征提取策略包括语料预处理参数、特征抽取类型、特征抽取数量参数、特征筛选算法、特征权值计算参数、以及特例文档概率中的一项或多项。3.根据权利要求2所述的文本特征提取策略制定方法,其特征在于所述全局样式分析包括步骤:调整所述待分类语料所包含的各类文档之间的文档数量平衡度;预估分类消耗时间或资源,如果预估结果大于预定值,则对于所述待分类语料进行文本摘要处理;计算特征抽取总体数量以及所述各类的特征抽取数量,作为所述全局样式分析结果。4.根据权利要求3所述的文本特征提取策略制定方法,其特征在于所述局部样式分析包括:从经过所述全局样式分析的所述待分类语料中抽样出文档集合,并从所述文档集合中抽样出句子集合;计算所述文档集合的句子平均长度及长度分布、所述句子集合的句法树平均深度及深度分布;根据所述句子平均长度及分布、句法树平均深度及分布,得到所述特征抽取类型。5.根据权利要求3所述的文本特征提取策略制定方法,其特征在于从经过所述全局样式分析的所述待分类语料中抽样出文档集合,计算所述文档集合的所述特例文档概率。6.根据权利要求1所述的文本特征提取策略制定方法,其特征在于所述策略数据库所存储的策略包括用户直接存储的策略。7.一种自适应文本分类方法,包括步骤:对于待分类语料进行全局样式分析,得到全局样式分析结果;对于经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中;将所述文本特征提取策略映射到基于文本特征的文本分类器,并进行所述待分类语料的文本分类。8.一种用于文本分类的文本特征提取策略制定装置,包括:全局样式分析单元,对于待分类语料进行全局样式分析,得到全局样式分析结果;局部样式分析单元,对于所述待分类语料进行局部样式分析,得到局部样式分析结果;控制单元,将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略;策略数据库,用于存储多个所述文本特征提取策略。9.一种自适应文本分类装置,包括:判断单元,用于判断是否重通过文本样式分析制定文本特征提取策略;策略数据库,用于存储多个文本特征提取策略;全局样式分析单元,对于待分类语料进行全局样式分析,得到全局样式分析结果;局部样式分析单元,对经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;控制单元,将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,存储到所述策略数据库;文本分类单元,使用所述文本特征提取策略对于所述待分类语料进行基于文本特征的文本分类。

    说明书

    文本特征提取策略制定方法及装置、文本分类方法及装置

    技术领域

    该发明涉及文本分类方法及装置,特别涉及基于文本内容特征提取的文本分类方法及装置,还涉及用于该文本分类方法及装置的文本特征提取策略制定方法及装置。

    背景技术

    文本分类指的是将一篇文档归入预先定义的几个类别中的一个或几个,而分类的依据主要是文本的内容特征与预先定义的类别的相似度。因此,文本内容特征的提取(以下,简称为“文本特征提取”)是文本分类的核心问题。

    文本特征提取技术主要涉及特征抽取、特征筛选、特征权值计算这三个方面的技术。特征抽取是指从各个不同的角度和方面抽取文本的各种特征。现有的技术主要有词袋(Bag?of?Words),例如单元词、多元词(二元或三元连续词)、文本模式(不连续的语义关系)等等,通过词频和词罕见度等指标进行特征抽取。这里,单元词可以理解为单词,多元词可以理解为短语,文本模式可以理解为句子主干。特征筛选是指使用某种算法将最符合某个类别的特征筛选出来,现有的算法包括方差(CHI?Square)计算和信息增益(Information?Gain)等方法。特征权值计算是指对每个抽取的特征进行权值计算和调整。

    作为文本特征提取的技术,有基于文本样式分析的,这种基于文本样式分析的文本特征提取,一般用于比较特殊的文本分类,例如文本体裁分类、作者分类、作者性别分类、作者情绪分类等。即,现有的文本样式分析技术虽然比较成熟,但是一般都用于文本样式特征的提取,而可利用该提取结果进一步进行文本分类。这对于特殊文本分类应用(如作者分类)有一定效果,而对于一般的文本内容特征的提取以及基于文本内容特征的文本分类应用则效果并不好。

    且,现有的文本特征提取技术,一般只针对某一种或者某一体裁的语料,因此即使可以做针对性很强的优化,但往往换了语料之后效果就不好了,也就是适应性不够强。

    且,现有的文本特征提取技术,其参数和算法往往需要微调。这种微调一般是手工完成的,需要多次反复试验才能得到最优值,无法自动完成。

    且,现有的文本特征提取技术,主要考虑分类效果,而对性能要求考虑并不多。这给文本分类系统的商业应用带来一定问题,特别是性能要求高的手机环境、实时信息分析等应用中问题尤其突出。

    发明内容

    鉴于上述文本特征抽取技术中存在的问题,本发明的目的在于提供一种能够对于待分类语料自动地制定文本特征提取策略的方法,该策略能够用于基于文本特征的文本分类。

    为了实现上述目的,根据本发明的一种用于文本分类的文本特征提取策略制定方法,包括步骤:对于待分类语料进行全局样式分析,得到全局样式分析结果;对经过全局样式分析的待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中。

    并且,上述的文本特征提取策略制定方法,其特征在于所述文本特征提取策略包括语料预处理参数、特征抽取类型、特征筛选算法、特征抽取数量参数、特征权值计算参数、以及特例文档概率中的一项或多项。

    并且,上述的文本特征提取策略制定方法,其特征在于所述全局样式分析包括步骤:调整所述待分类语料所包含的各类文档之间的文档数量平衡度;预估分类消耗时间或资源,如果预估结果大于预定值,则对于所述待分类语料进行文本摘要处理;计算特征抽取总体数量以及所述各类的特征抽取数量,作为所述全局样式分析结果。

    并且,上述的文本特征提取策略制定方法,其特征在于所述局部样式分析包括:从经过所述全局样式分析的所述待分类语料中抽样出文档集合,并从所述文档集合中抽样出句子集合;计算所述文档集合的句子平均长度及长度分布、所述句子集合的句法树平均深度及深度分布;根据所述句子平均长度及分布、句法树平均深度及分布,得到所述特征抽取类型。

    并且,上述的文本特征提取策略制定方法,其特征在于从经过所述全局样式分析的所述待分类语料中抽样出文档集合,计算所述文档集合的所述特例文档概率。

    并且,上述的文本特征提取策略制定方法,其特征在于所述策略数据库所存储的策略包括用户直接存储的策略。

    根据本发明的一种自适应文本分类方法,包括步骤:对于待分类语料进行全局样式分析,得到全局样式分析结果;对于经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,并存储到策略数据库中;将所述文本特征提取策略映射到基于文本特征的文本分类器,并进行所述待分类语料的文本分类。

    根据本发明的一种用于文本分类的文本特征提取策略制定装置,包括:全局样式分析单元,对于待分类语料进行全局样式分析,得到全局样式分析结果;局部样式分析单元,对于所述待分类语料进行局部样式分析,得到局部样式分析结果;控制单元,将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略;策略数据库,用于存储多个所述文本特征提取策略。

    根据本发明的一种自适应文本分类装置,包括:判断单元,用于判断是否重新通过文本样式分析制定文本特征提取策略;策略数据库,用于存储多个文本特征提取策略;全局样式分析单元,对于待分类语料进行全局样式分析,得到全局样式分析结果;局部样式分析单元,对经过所述全局样式分析的所述待分类语料进行局部样式分析,得到局部样式分析结果;控制单元,将所述全局样式分析结果及所述局部样式分析结果整合成文本特征提取策略,存储到所述策略数据库;文本分类单元,使用所述文本特征提取策略对于所述待分类语料进行基于文本特征的文本分类。

    根据本发明的文本特征提取策略制定方法及装置、自适应文本分类方法及装置,对于各种体裁的待分类语料无需手动,而是能够通过文本样式分析得到定文本特征提取策略,并将该策略映射到文本分类器而进行基于文本特征的文本分类。

    附图说明

    通过下面结合附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:

    图1是表示根据本发明的实施方式的自适应文本分类装置的方框图;

    图2是表示根据本发明的实施方式的自适应文本分类方法的流程图;

    图3是表示根据本发明的实施方式的文本特征提取策略制定方法的具体步骤的流程图。

    主要符号说明:101为判断单元;102为全局样式分析单元;103为局部样式分析单元;104为控制单元;105为策略数据库;106为文本分类单元;S1010-S1070以及S2010-S2130为步骤。

    具体实施方式

    以下,参照附图来详细说明本发明的实施方式。

    (实施方式)

    图1是表示本发明的实施方式的自适应文本分类装置的方框图。

    图1中,自适应文本分类装置100包括判断单元101、全局样式分析单元102、局部样式分析单元103、控制单元104、策略数据库105以及文本分类单元106。

    判断单元101具有与用户交互的接口,并根据用户的选择,决定直接从策略数据库105获取文本特征提取策略或通过文本样式分析制定文本特征提取策略。

    具体地说,如果用户判断策略数据库105中存在适用于待分类语料的策略,则判断单元101将用户的判断结果,即指令输出到控制单元104。如果用户判断策略数据库105中不存在适用于待分类语料的策略,则判断单元101将待分类语料输出到全局样式分析单元102。

    全局样式分析单元102对于待分类语料进行全局样式分析,并将得到的全局样式分析结果输出到局部样式分析单元103及控制单元104。而且,全局样式分析单元102将经过全局样式分析的待分类语料输出到局部样式分析单元103。关于全局样式分析将在后详细说明。

    局部样式分析单元103对于经过全局样式分析的待分类语料进行局部样式分析,并将得到的局部样式分析结果输出到控制单元104。关于局部样式分析将在后详细说明。

    控制单元104将全局样式分析结果及局部样式分析结果整合成文本特征提取策略,并将该策略存储到策略数据库105,同时利用该文本特征提取策略对文本分类单元106进行参数设置,即将该文本特征提取策略映射到文本分类单元106中?;蛘?,控制单元104根据从判断单元102输入的用户指令从策略数据库105中检索到适用于待分类语料的文本特征提取策略,将该文本特征提取策略映射到文本分类单元106。

    策略数据库105用于存储对文本分类单元106进行参数设置的多个文本特征提取策略。

    文本分类单元106通过特征抽取、特征筛选、以及特征权值计算等操作对于待分类语料进行基于文本特征的文本分类,得到分类结果。文本分类单元106采用现有的文本分类器,即当单独使用文本分类单元106时,需要用户手动设置其参数,例如单元词或多元词等特征类型的设置、以及CHI算法或IG算法等筛选方法的设置等。但在本实施方式中,文本分类单元106的参数设置是通过控制器104的控制来完成的。

    在图1的自适应文本分类装置100中,如果将判断单元101及文本分类单元106去掉则构成根据本实施方式的文本特征提取策略制定装置。即全局样式分析单元102、局部样式分析单元103、控制单元104以及策略数据库105构成根据本实施方式的文本特征提取策略制定装置,在此省略该文本特征提取策略制定装置的图示。

    图2是表示根据本实施方式的自适应文本分类方法的流程图。

    在步骤S1010,判断单元101接收用户的选择,即由用户判断是否需要通过文本样式分析制定适用于待分类语料的文本特征提取策略。

    当用户判断不需要重新制定文本特征提取策略时(步骤S1010:“是”),接着在步骤S1020,由全局样式分析单元102对于待分类语料进行全局样式分析。

    接着,在步骤S1030,由局部样式分析单元103对经过全局样式分析的待分类语料进行局部样式分析。

    接着,在步骤S1040,控制单元104将全局样式分析及局部样式分析的分析结果整合成文本特征提取策略,将该策略存储到策略数据库105中,并转到步骤S1060。

    当在上述步骤S1010中用户判断不需要通过文本样式分析制定适用于待分类语料的文本特征提取策略时(步骤S1010:“否”),则接着在步骤S1050,由控制单元104根据用户指令,直接从策略数据库105中获取适用于待分类语料的文本特征提取策略。

    接着,在步骤S1060,控制单元104将直接从策略数据库中获取的(步骤S1050)、或通过文本样式分析得到的(步骤S1040)文本特征提取策略映射到文本分类单元106。

    最后,在步骤S1070,文本分类单元106对待分类语料进行文本分类。

    在图2中去掉步骤S1010及步骤S1050-S1070,则构成根据本实施方式的文本特征提取策略制定方法。即根据本实施方式的文本特征提取策略制定方法由图2中的步骤S1020-S1040构成。

    图3是表示根据本实施方式的文本特征提取策略制定方法的具体步骤的流程图。

    图3中步骤S2010至S2080表示图2中步骤S1020的具体步骤,并由全局样式分析102来执行。图3中步骤S2090至S2120表示图2中步骤S1030的具体步骤,并由局部样式分析103来执行。图3中步骤S2130表示图2中步骤S1040的具体步骤,并由控制单元104来执行。

    首先,在步骤S2010,使用Chi?Square方差公式计算待分类语料所包含的种类文档之间的平衡度。

    在步骤S2020,判断在步骤S2010中得到的Chi?Square方差是否大于预定的阈值,即判断是否需要调整种类文档之间的平衡度。

    当判断Chi?Square方差不大于预定的阈值时(步骤S2020:“否”),即不需要调整种类文档之间的平衡度,则转到步骤S2040。

    当判断Chi?Square方差大于预定的阈值时(步骤S2020:“是”),即需要调整种类文档之间的平衡度,则接着在步骤S2030,通过调整种类文档的数量,来调整待分类语料中的种类文档之间的平衡。

    接着,在步骤S2040,统计语料文档数量以及每篇文档的大小,预估分类所消耗的时间或资源。

    接着,在步骤S2050,判断预估出的分类消耗时间或资源是否超过预定的阈值。

    当预估出的消耗时间或资源不超过预定的阈值(步骤S2050:“否”),则转到步骤S2070。

    当预估出的消耗时间或资源超过预定的阈值(步骤S2050:“是”),则接着在步骤S2060,使用文本摘要算法对于待分类语料进行处理。

    接着,在步骤S2070,统计语料的总体词频及词频分布,例如直方图(histogram)分布。

    接着,在步骤S2080,根据上述总体词频或分布,计算出特征抽取总体数量,以及每个文档类的特征抽取数量。

    接着,在步骤S2090,根据上述全局样式分析得到的Chi?Square方差、特征抽取总体数量以及每个文档类的特征抽取数量等统计值,对经过全局样式分析的待分类语料进行抽样,得到文档集合(D集合),并从被抽样的D集合中抽样出句子集合(S集合)。

    接着,在步骤S2100,计算D集合中的句子平均长度及长度分布(例如histogram分布),并对S集合进行句法分析,计算句法树的平均深度及深度分布(例如histogram分布)。

    接着,在步骤S2110,根据在步骤S2100中得到的句子平均长度及长度分布、句法树的平均深度及深度分布,确定用于文本分类的文本特征提抽取类型,例如,单元词、多元词或文本模式等。

    上述步骤S2010至S2110仅仅举例性地示出了确定文本特征抽取类型的步骤,该文本特征抽取类型为文本特征提取策略的一方面,用于映射到文本分类单元106中的特征抽取???。根据本实施方式的文本特征提取策略制定方法在步骤S2110之后或者与步骤S2010至S2110并行地还包括确定特征筛选算法以及确定权值计算参数的步骤,其中特征筛选算法用于映射到文本分类单元106中的特征筛选???,而权值计算参数用于映射到文本分类单元106中的特征权值计算???。上述确定特征筛选算法以及确定权值计算参数的步骤可以采用任何现有的技术。

    接着,在步骤S2120,计算D集合中的特例文档(bias?file)的概率,该概率的意义在于,如果该概率小于预定的阈值,则在文本分类单元106中需要执行特例文档删除处理。

    接着,在步骤S2130,将在上述步骤中得到的特征抽取类型、特征筛选算法、权值计算参数、及特例文档概率等整合成文本特征提取策略,存储到策略数据库105中。

    如上所述,根据本发明的文本特征提取策略制定方法及装置,通过对于待分类语料进行全局样式分析及局部样式分析而得到适用于待分类语料的文本特征提取策略,对于待分类语料进行基于文本特征的文本分类,而非直接将基于样式特征进行文本分类,而且因为文本特征提取策略是充分分析了文本全局样式及局部样式而制定的、更具针对性和适应性,因此能够对各种体裁内容的语料进行文本分类,包括新闻(news)、报告(report)、论坛帖子(forumpost)、个人主页(personal?homepage)等Web网页各种体裁语料的分类。

    并且,根据本发明的自适应文本分类方法及其装置,通过将各种文本特征提取策略存储到数据库中,对于数据库中存在的文本特征提取策略可以直接获取并映射到文本分类单元,而对于不适用数据库中存在的文本特征提取策略的待分类语料,则通过文本样式分析得到适用的文本特征提取策略并映射到文本分类单元,因此使得普通的文本分类器对各种语料能够适应性地调整文本特征提取策略,达到良好的分类效果。

    并且,根据本发明的自适应文本分类方法及其装置,通过将各种能够特征提取策略存储到数据库中,对于数据库存在的能够特征提取策略可以直接获取并映射到文本分类器,无需每次在文本分类时通过文本样式分析制定文本特征提取策略,也无需手动地设置文本分类器的参数。另外,文本全局样式分析过程中的文本摘要步骤,文本局部样式分析过程中的抽样步骤都能够提高文本分类的效率及性能,使其能够应用于性能要求高的环境,例如手机应用环境或实时信息分析应用环境。

    产业上的可利用性

    本发明的文本特征提取策略制定方法及装置、自适应文本分类方法及装置适用于各种体裁语料的自适应文本分类。

    关于本文
    本文标题:文本特征提取策略制定方法及装置、文本分类方法及装置.pdf
    链接地址://www.4mum.com.cn/p-5868043.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 杰克棋牌官网 先锋股票指数基金 谁有极速飞艇计划网站 陕西11选5预测一定牛 17129期双色球开奖现场 山东体彩快乐扑克3开奖结果 移动棋牌不能登录 星彩网官方网站 北京赛车技巧压法 中国福彩快乐十分投注技巧 河南泳坛夺金481 九五至尊软件官方正版 股票融资技巧_杨方配资开户 广东十一选五开奖走势 陕西快乐十分组三遗漏表 幸运赛车开奖时间