• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩五星杀: 一种基于XGBOOST分类算法的文本分类方法.pdf

    关 键 词:
    一种 基于 XGBOOST 分类 算法 文本 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201710060026.9

    申请日:

    2017.01.24

    公开号:

    CN106815369A

    公开日:

    2017.06.09

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20170124|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 中山大学
    发明人: 庞宇明; 任江涛
    地址: 510275 广东省广州市海珠区新港西路135号
    优先权:
    专利代理机构: 广州粤高专利商标代理有限公司 44102 代理人: 林丽明
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201710060026.9

    授权公告号:

    |||

    法律状态公告日:

    2017.07.04|||2017.06.09

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供的方法通过Labeled??LDA提取特征字来计算特征值,然后用Xgboost分类算法来进行文本分类。其与普通的向量空间模型来做特征空间,普通的分类算法来进行文本分类的方法相比所需耗费的内存得到了降低,这是由于中文文本中所包含的词成百上千万,维度较高,若以词为特征,耗费内存巨大,甚至无法单机处理,而常用汉字不超过一万个,经常出现的甚至只有两三千个,维度大大降低,而且Xgboost支持以字典而不是矩阵形式作为输入。同时本发明提出一种新颖的具有潜在语义的有监督特征选择算法Labeled??LDA算法,用Labeled??LDA来做特征选择既能利用LDA来挖掘大量语料的语义信息又能利用文本所包含的类别信息。而且预处理简单,不需要精心提取特征,加上强大的支持分布式的集成学习算法Xgboost,提高了分类的准确性和性能。

    权利要求书

    1.一种基于Xgboost分类算法的文本分类方法,其特征在于:包括以下步骤:
    S1.获取多个样本,所述每个样本包括文本内容和文本的标签;
    S2.将步骤S1获取的所有样本按照一定比例划分成训练样本和预测样本,其中训练样
    本组成训练集,预测样本组成预测集;
    S3.对于每个训练样本,将其文本内容中任意相邻的两个字用空格隔开,然后将该训练
    样本的标签作为Labeled-LDA的标签输入,并该训练样本的文本内容作为Labeled-LDA的文
    本输入;
    S4.设置Labeled-LDA迭代次数为K,然后对训练样本进行迭代训练;
    S5.每个训练样本经过迭代后得到两份文档,一份是关于字及其对应字编码的,一份是
    关于主题与字编码的,即每个主题下相应字编码出现的次数;整合两份文档,得到训练样本
    中每个字在每个主题下出现的次数;对于每个主题,按照对应的字的出现次数排序,选取与
    该主题最相关的m个字作为训练样本的LLDA字;
    S6.对于每个训练样本,统计其经过步骤S5得到的各个LLDA字在其文本内容中的出现
    次数,并将该次数作为该特征的值,将得到每个样本关于每个LLDA字的值,输入至Xgboost
    分类算法中,然后对Xgboost分类算法进行训练;
    S7.至此模型已经训练好,需要对预测集进行预测,即对预测集进行步骤S3~S5的步
    骤,然后利用训练好的模型对预测集中的每个预测样本进行预测分类。
    2.根据权利要求1所述的基于Xgboost分类算法的文本分类方法,其特征在于:所述步
    骤S6中,若存在LLDA字在文本中的出现次数为0,则不将该LLDA字输入至Xgboost分类算法。
    3.根据权利要求1所述的基于Xgboost分类算法的文本分类方法,其特征在于:所述K为
    1000。

    说明书

    一种基于Xgboost分类算法的文本分类方法

    技术领域

    本发明涉及文本分类领域,更具体地,涉及一种基于Xgboost分类算法的文本分类
    方法。

    背景技术

    文本分类方法已经在搜索引擎、个性化推荐系统、舆情监控等领域得到了广泛的
    应用,是实现高效管理和准确定位海量信息的重要一环。

    文本分类方法的常用框架是基于机器学习分类算法,即包含数据预处理、接着特
    征提取、特征选择、特征分类等步骤。

    特征提取即利用统一的方法和模型对文本进行标识,该方法或者模型可以表示文
    本的特征并且能够方便的转化成数学语言,进而转化成计算机能够处理的数学模型。现有
    的比较流行的文本表示方法有向量空间模型和潜在的语言分析模型。向量空间模型具有简
    单、计算方便、预处理少等优点,当然也具有忽略特征与特征之间的语义关系、表示文本的
    深度不够等缺点。

    特征选择是机器学习的关键问题之一,特征选择结果的好坏直接影响着分类器的
    分类精度和泛化性能。特征选择是从一组特征中挑选出一些最有效的特征从而降低特征空
    间的维数,并达到剔除不相关或冗余的特征、减少运行时间提高分析结果的可理解性、发现
    高维数据中隐藏的结构等效果。依据数据是否具有类别信息,特征选择可分为有监督和无
    监督两类。文本分类中常用的特征选择方法有:文档频次、互信息量、信息增益和卡方统计
    量(CHI)等方法。

    特征分类是文本分类中最后也是最重要的一环。朴素贝叶斯分类算法是一种典型
    的特征分类算法,根据贝叶斯公式,算出文本属于某特定类别的概率,其所需估计的参数很
    少,对缺失数据不太敏感,算法也比较简单,计算速度快,理论上与其他分类算法相比具有
    最小的误差率,但实际上并非总是如此,因为该方法假设属性之间相互独立,这个假设在实
    际应用中往往是不成立的。决策树算法易于理解和解释,能够同时处理数据型和常规型属
    性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果,但决策树处理缺失
    数据时比较困难,容易忽略数据集中属性之间的相关性。其余的特征分类方法还包括有LR、
    KNN和SVM等。这些都是基学习器,集成学习通过将多个学习器进行结合,??苫竦帽鹊ヒ谎?br />习器显著优越的泛化性能。根据个体学习器的生成方式,目前集成学习方法大致可分为两
    类,即个体学习器间存在强依赖关系、必须串行生成的序列化方法,以及个体学习器间不存
    在强依赖关系、可同时生成的并行化方法,前者代表是Boosting,后者代表是Bagging和“随
    机森林”。从偏差-方差分解的角度看,Boosting主要关注降低偏差,因此Boosting能基于泛
    化性能相当弱的学习器构建出很强的集成。Bagging主要关注降低方差,因此它在不剪枝决
    策树、神经网络等易受样本扰动的学习器上效用更为明显。Xgboost分类算法是基于
    Boosting的一种集成学习方法,相比传统的集成学习GBDT算法,Xgboost分类算法主要有以
    下八大优点:

    一、传统GBDT以CART作为基分类器,Xgboost分类算法还支持线性分类器。

    二、传统GBDT在优化时只用到一阶导数信息,Xgboost分类算法则对代价函数进行
    了二阶泰勒展开,同时用到了一阶和二阶导数。

    三、Xgboost分类算法在代价函数里加入了正则项,用于控制模型的复杂度。正则
    项里包含了树的叶子节点个数、每个叶子节点上输出的分数的L2模的平方和。从偏差-方差
    权衡角度来讲,正则项降低了模型的方差,使学习出来的模型更加简单,防止过拟合。

    四、缩减:相当于学习速率。Xgboost分类算法在进行完一次迭代后,会将叶子节点
    的权重乘上该系数,主要是为了削弱每棵树的影响,让后面有更大的学习空间。

    五、列抽样:Xgboost分类算法借鉴了随机森林的做法,支持列抽样,不仅能降低过
    拟合,还能减少计算。

    六、对缺失值的处理:对于特征的值有缺失的样本,Xgboost分类算法可以自动学
    习出它的分裂方向。

    七、支持并行。boosting是一种串行的结构,Xgboost分类算法的并行不是tree粒
    度的并行,Xgboost分类算法也是一次迭代完才能进行下一次迭代的(第t次迭代的代价函
    数里包含了前面t-1次迭代的预测值)。Xgboost分类算法的并行是在特征粒度上的。决策树
    的学习最耗时的一个步骤就是对特征的值进行排序(因为要确定最佳分割点),Xgboost分
    类算法在训练之前,预先对数据进行了排序,然后保存为块结构,后面的迭代中重复地使用
    这个结构,大大减小计算量。这个block结构也使得并行成为了可能,在进行节点的分裂时,
    需要计算每个特征的增益,最终选增益最大的那个特征去做分裂,那么各个特征的增益计
    算就可以开多线程进行。

    八、可并行的近似直方图算法。树节点在进行分裂时,需要计算每个特征的每个分
    割点对应的增益,即用贪心法枚举所有可能的分割点。当数据无法一次载入内存或者在分
    布式情况下,贪心算法效率就会变得很低,所以Xgboost分类算法还提出了一种可并行的近
    似直方图算法,用于高效地生成候选的分割点。

    发明内容

    本发明为解决以上现有技术提供的方法分类性能低、耗费内存大、分类准确率低
    的缺陷,提供了一种基于Xgboost分类算法的文本分类方法。

    为实现以上发明目的,采用的技术方案是:

    一种基于Xgboost分类算法的文本分类方法,包括以下步骤:

    S1.获取多个样本,所述每个样本包括文本内容和文本的标签;

    S2.将步骤S1获取的所有样本按照一定比例划分成训练样本和预测样本,其中训
    练样本组成训练集,预测样本组成预测集;

    S3.对于每个训练样本,将其文本内容中任意相邻的两个字用空格隔开,然后将该
    训练样本的标签作为Labeled-LDA的标签输入,并该训练样本的文本内容作为Labeled-LDA
    的文本输入;

    S4.设置Labeled-LDA迭代次数为K,然后对训练样本进行迭代训练;

    S5.每个训练样本经过迭代后得到两份文档,一份是关于字及其对应字编码的,一
    份是关于主题与字编码的,即每个主题下相应字编码出现的次数;整合两份文档,得到训练
    样本中每个字在每个主题下出现的次数;对于每个主题,按照对应的字的出现次数排序,选
    取与该主题最相关的m个字作为训练样本的LLDA字;

    S6.对于每个训练样本,统计其经过步骤S5得到的各个LLDA字在其文本内容中的
    出现次数,并将该次数作为该特征的值,将得到每个样本关于每个LLDA字的值,输入至
    Xgboost分类算法中,然后对Xgboost分类算法进行训练;

    S7.至此模型已经训练好,需要对预测集进行预测,即对预测集进行步骤S3~S5的
    步骤,然后利用训练好的模型对预测集中的每个预测样本进行预测分类。

    优选地,所述步骤S6中,若存在LLDA字在文本中的出现次数为0,则不将该LLDA字
    输入至Xgboost分类算法中,即普通的分类算法输入是矩阵形式,该方法输入是字典形式,
    节省内存,更方便快速合理地处理缺失值。

    优选地,所述K为1000。

    与现有技术相比,本发明的有益效果是:

    本发明提供的方法通过Labeled-LDA提取特征字来计算特征值,然后用Xgboost分
    类算法来进行文本分类。其与普通的向量空间模型来做特征空间,普通的分类算法来进行
    文本分类的方法相比所需耗费的内存得到了降低,这是由于中文文本中所包含的词成百上
    千万,维度较高,若以词为特征,耗费内存巨大,甚至无法单机处理,而常用汉字不超过一万
    个,经常出现的甚至只有两三千个,维度大大降低,而且Xgboost支持以字典而不是矩阵形
    式作为输入。同时本发明提出一种新颖的具有潜在语义的有监督特征选择算法Labeled-
    LDA算法,用Labeled-LDA来做特征选择既能利用LDA来挖掘大量语料的语义信息又能利用
    文本所包含的类别信息。而且预处理简单,不需要精心提取特征,加上强大的支持分布式的
    集成学习算法Xgboost,提高了分类的准确性和性能。

    附图说明

    图1为方法的流程图。

    具体实施方式

    附图仅用于示例性说明,不能理解为对本专利的限制;

    以下结合附图和实施例对本发明做进一步的阐述。

    实施例1

    本实施案例包括3个具体案例,分别对3个具有不同特点的文本语料库进行分类,
    即一个公开的英文语料库WebKB,剔除掉没有任何内容的样本,和两个中文语料库,其中一
    个是公开的长文本语料库:复旦大学文本分类语料库,另一个是中文短文本样本非常不平
    衡的语料库:新闻评论,分为正常和广告两种类别,正负比例达到2742/42416=0.065这样
    的级别。

    表1文本分类数据集概要情况


    如图1所示,本发明所述基于Xgboost分类算法用Labeled-LDA做特征提取的文本
    分类方法的具体实施步骤如下:

    步骤1:文本预处理

    预先准备一批已分类的文本集,如3个案例,按照8:2的比例随机划分训练集和预
    测集(新闻评论),如公开的数据集已经存在划分则直接采用(WebKB和复旦文本分类),对所
    有文本进行去燥,统一编码为UTF-8,对于中文文本,用空格区分每一个字方便后面的程序
    处理,由于本发明是基于字特征的,常用的字加上标点符号也不会超过一万个,而Labeled-
    LDA有强大的特征选择能力,故中文文本分类常用的去掉标点符号、数字、停用词等预处理
    过程都可以省略掉,从实验结果也可以看出,这样的预处理不是必须的,对于英文文本,则
    其预处理包括全部大写转为小写、标点符号用空格代替,这样更能区分单词的界限和符合
    英文的书写习惯。

    步骤2:用Labeled-LDA对训练集进行特征选择

    本发明实验使用的是斯坦福自然语言处理工具TMT。先设置Labeled-LDA的各种参
    数,包括文本分割方式和文本过滤方式、标签个数、迭代次数等,文本分割方式采用空格区
    分,标签个数看具体的语料集实际情况,迭代次数统一为1000次,训练结束后,得到两个文
    件,一个是字对编码的文件,一个是每个字编码在每个主题下出现的次数的文件,合并这两
    个文件得到每个字在每个主题下出现的次数的文件,然后在每个主题下,对每个字出现次
    数排序,取出出现次数最高的前N个,则得到的这些字就是经过Labeled-LDA特征选择后留
    下的字,这些字可能存在重复,排除冗余后计这些词为LLDA词,具有较丰富的语义信息,同
    时又是在标签这个强有力的监督信息下训练得到的结果,具有很强的特征表达能力。

    步骤3:把训练集合预测集处理成Xgboosts的输入格式

    Xgboost的输入格式非常简单方便和合理,对于训练集和预测集的每一个样本,因
    为把字看成是特征,处理到当前字,如果该字是LLDA字,则相应的LLDA字所对应的特征的特
    征值加1,对于每一个样本,没有出现过的LLDA字,则相应的LLDA字所对应的特征的特征值
    为0,这个特征不用作为Xgboost的输入;

    步骤4:Xgboost分类算法的参数设置,训练和预测

    设置Xgboost分类算法的参数,选择综合效果最优的参数,最终设置的Xgboost分
    类算法参数为:迭代次数为200,类别数目(具体而定)、分类器类型为gbtree、目标函数为
    multi:softmax、学习速率eta=0.3、树的最大深度max_depth=6等,训练得到的模型对预
    测集进行分类;

    步骤5:评估模型性能

    由于各个数据集差异较大,故针对不同的数据集采用不同的评判标准,使得评判
    标准更具合理性。对于WebKB,有4个类别,采用微平均F1值(micro-F1)和宏平均F1值
    (macro-F1)来评估;

    定义如下:







    Pi为第i个类别的准确率,Ri为第i个类别的召回率,n为类别综述。复旦文本分类用
    微平均准确率(micro-P)来评估;新闻评论由于类别特别不平衡,采用负样本的准确率P、召
    回率R以及F值来评估。

    本发明定义的模型记为LLDA-XG,实验结果如下:

    表2 WebKB语料集上的分类性能实验结果


    RCC
    Centroid
    NB
    Winnow
    SVM
    LLDA-XG
    micro_F1
    89.64
    79.95
    86.45
    81.40
    89.26
    91.40
    macro_F1
    88.02
    78.47
    86.01
    77.85
    87.66
    90.48

    表3新闻评论语料集上的分类性能实验结果


    Bayes
    SGDC
    Bagging+KNN
    SVM
    RF
    GBDT
    Adaboost
    LLDA-XG
    P
    69.55
    77.71
    97.00
    93.65
    96.4
    92.22
    95.80
    94.52
    R
    91.62
    91.98
    85.20
    86.81
    89.84
    88.77
    85.56
    92.34
    F值
    79.08
    84.24
    90.70
    90.10
    92.99
    90.46
    90.40
    93.42

    表4复旦文本分类语料集上的分类性能实验结果


    从表2、表3和表4可以看出LLDA-XG模型性能在WebKB语料集、新闻评论语料集以及
    复旦本文分类语料集上都取得很好的效果,在WebKB语料集上micro_F1和macro_F1值都超
    过了90;在新闻评论语料集上LLDA-XG模型的准确率不是最高的,但是召回率和F值都是最
    高的,说明LLDA-XG模型既能保持很高的准确率又能保持很高的召回率,更加注重性能的均
    衡。在复旦文本分类语料集上,实验结果参考的是中国科学院大学研究神经网络和词向量
    结合的来斯惟博士的毕业论文,LLDA-XG模型表现出非常出色,分类准确率比循环卷积神经
    网络还要高,而且预处理非常少,运行时间也快,单机性能普通的计算机四五分钟就能得到
    结果,而神经网络则需要大量的计算时间。

    表5 LLDA-XG在WebKB语料集上的分类时间性能实验结果

    特征数
    215
    411
    925
    7288
    micro-F1
    90.24
    90.82
    91.40
    91.61
    macro-F1
    89.19
    89.98
    90.48
    90.69
    时间(秒)
    3.740
    4.560
    5.759
    8.984

    表6 LLDA-XG在新闻评论语料集上的分类时间性能实验结果

    特征数
    154
    289
    674
    4154
    P
    94.39
    93.91
    94.53
    94.13
    R
    90.02
    90.73
    92.34
    91.44
    F
    92.15
    92.29
    93.42
    92.77
    时间(秒)
    6.739
    7.716
    8.756
    10.589

    表7 LLDA-XG在复旦文本分类语料集上的分类时间性能实验结果

    特征数
    408
    665
    1329
    6707
    准确率
    94.59
    95.20
    95.41
    95.39
    时间(秒)
    145.701
    206.362
    278.52351899874816
    342.354

    表5中,特征数从215增加到411个时,micro-F1增长了0.58,macro-F1增长了0.79;
    特征数从411增加到925时,micro-F1增长了0.58,macro-F1增长了0.5,;特征数从925增加
    到7288时,特征数增长了7倍左右,而micro-F1和macro-F1都仅增长了0.21,非常不明显,运
    行时间将近增长一倍。表6中,特征数从154增加到289时,准确率P反而下降0.48,召回率R增
    长了0.71,F值增长了0.14;特征数从289增加到674时,准确率增长了0.62,召回率增长了
    1.61,F值增长了1.13,但是特征数从674增加到4154时,准确率下降0.4,召回率下降0.9,F
    值下降0.65。在复旦文本分类任务上,特征数从408增加到665时,准确率增长了0.61,特征
    数从665增加到1329时,准确率增长了0.21,特征数从1329增加到6707时,准确率下降了
    0.02。从表5、表6和表7可以看出,LLDA-XG模型在特征数上,特征数越多消耗时间越长,但是
    分类性能增长缓慢,甚至到后期特征数越多反而分类性能下降,这可能是训练过度造成过
    拟合了。这也说明特征选择的重要性,对于分类性能影响最大的往往是少数的特征,特征中
    存在大量的冗余特征甚至是噪音特征,特征越多消耗运算时间越多,性能提升却非常有限
    甚至产生过拟合。同时也说明Labeled-LDA具有很强的特征选择能力,不管是对中文还是英
    文,不管是长文本还是短文本,从大量的特征中选出非常优质的特征,使得整体运算时间下
    降,性能稳定高效。而且本发明的特征提取是基于字的,提取非常方便,不需要人工也不需
    要专家知识去耗费大量资源去提取特征,预处理简单运算时间少,结合Xgboost分类算法的
    快速高效、可处理缺失值的强大能力,整体性能优越稳定。总之,通过实验验证,本发明所提
    出的文本分类模型LLDA-XG,能广泛应用于各自文本分类任务,其预处理简单快速,整体运
    算时间和性能都非常突出,具有很高的稳健性和实用价值。

    显然,本发明的上述实施例仅仅是为清楚地说明本发明所作的举例,而并非是对
    本发明的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可
    以做出其它不同形式的变化或变动。这里无需也无法对所有的实施方式予以穷举。凡在本
    发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明权利要求
    的?;し段е?。

    关于本文
    本文标题:一种基于XGBOOST分类算法的文本分类方法.pdf
    链接地址://www.4mum.com.cn/p-6021111.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 老时时官网 买什么彩票稳赚不赔 龙江风采22选5坐标走势图 扑克牌猜大小怎么玩 河北时时选号技巧 五分彩骗局套路 到底有没有北京时时开奖结果 六肖赔多少 幸运pk10计划破解版 江西时时追号技巧 幸运飞艇一期五码计划稳定 聚富视界最新版 幸运飞艇单双怎么玩 七星彩开奖结果视频 500元倍投方案稳赚陷阱 5分彩定位胆稳赚技巧