• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 6
    • 下载费用:30 金币  

    重庆时时彩全位胆: 一种基于混淆矩阵的随机森林模型选择方法.pdf

    关 键 词:
    一种 基于 混淆 矩阵 随机 森林 模型 选择 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201611031244.1

    申请日:

    2016.11.17

    公开号:

    CN106570537A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06K 9/62申请日:20161117|||公开
    IPC分类号: G06K9/62 主分类号: G06K9/62
    申请人: 天津大学
    发明人: 侯春萍; 张倩楠; 王宝亮; 常鹏; 张荧允
    地址: 300072 天津市南开区卫津路92号
    优先权:
    专利代理机构: 天津市北洋有限责任专利代理事务所 12201 代理人: 程毓英
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201611031244.1

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开一种基于混淆矩阵的随机森林模型选择方法,包括:a.以训练得到的决策树作为原始随机森林,各决策树在测试样本集上进行分类,得到各决策树分类结果的混淆矩阵,通过对随机森林中决策树的混淆矩阵两两作差,得到随机森林中任意两棵决策树的差值矩阵;将差值矩阵的F范数作为两棵决策树的相似性度量,建立随机森林的差异性度量矩阵;c.遍历差异性度量矩阵中不大于相似性阈值的元素;考察该元素所涉及的决策树的分类准确率大?。喝舻陀诜掷嘧既仿抒兄翟蛏境镁霾呤?,将该决策树所在的矩阵行列上的所有元素置零,否则保留该决策树;完成随机森林的模型选择。

    权利要求书

    1.一种基于混淆矩阵的随机森林模型选择方法,包括下列步骤:
    a.以训练得到的决策树作为原始随机森林,各决策树在测试样本集上进行分类,得到
    各决策树分类结果的混淆矩阵,并根据各类别的样本数目对矩阵进行归一化;
    b.通过对随机森林中决策树的混淆矩阵两两作差,得到随机森林中任意两棵决策树的
    差值矩阵。将差值矩阵的F范数作为两棵决策树的相似性度量,以此为元素建立随机森林的
    差异性度量矩阵,矩阵元素为该元素所涉及的两棵决策树的相似性度量值;
    c.按照从小到大的顺序,遍历差异性度量矩阵中不大于相似性阈值的元素;考察该元
    素所涉及的决策树的分类准确率大?。喝舻陀诜掷嘧既仿抒兄翟蛏境镁霾呤?,将该决策
    树所在的矩阵行列上的所有元素置零,否则保留该决策树;
    d.最终由差异性度量矩阵的非零元素所代表的决策树被集成进入新的随机森林,完成
    随机森林的模型选择。

    说明书

    一种基于混淆矩阵的随机森林模型选择方法

    技术领域

    本发明涉及一种组合分类器。

    背景技术

    随机森林方面

    随机森林是基于组合学习思想的分类器,它使用若干决策树分类器构建产生随机
    森林,决策树分类器之间具有独立性,在一定的投票规则下各决策树对测试样本进行投票,
    通过表决产生最终结果。随机森林分类器继承了决策树分类器原理简明、易于施行的优点,
    同时克服了决策树分类器的过拟合缺点,并通过决策树之间的相互作用而拥有了组合分类
    器的附加优势,分类性能得到了提升。

    随机森林算法被提出后,很多科研人员对随机森林进行研究和改进。对随机森林
    的改进一般可以总结为两个方面,一是将随机森林与其他算法结合进行改进,二是对随机
    森林自身的组成原理和构建过程进行研究,比如对随机森林的特征选择和模型组合方法进
    行改进等。有的研究者将随机森林的投票过程与霍夫变换相结合,产生一种称为霍夫森林
    的分类器,在目标检测、动作识别等计算机视觉领域中有很好的应用?;褂腥私媸鞯母?br />念引入随机森林中,在训练样本抽取环节选用Bootstrap方法,之后对每一个训练子集建立
    一棵生成分析树,综合每棵树的生存函数进行总体投票结果的判断,所得到的这种分类算
    法称作随机生存森林算法,在高维数据分类中具有良好的效果。

    在针对随机森林算法自身构建过程进行的优化上,也取得了一定的效果。有的研
    究在形成决策树时,综合多个节点分裂算法组成线性函数,在同一棵决策树中不只使用一
    种分裂算法,而是结合不同的分裂算法进行分裂,在某些组合系数的情况下,可以提高随机
    森林的分类性能。

    在社会生产生活中,随机森林算法被用来在能源、交通运输、计算机视觉、基因工
    程等各个领域进行分类预测和回归预测。另外,随机森林算法可以估计样本属性的重要程
    度,因此也广泛地应用在数据降维和特征选择中。同时,由于随机森林在样本抽取和决策树
    生成过程中引入了随机性,其内在的独立性特点使其可以方便地进行并行化改造,从而应
    用在大数据处理环境中。

    混淆矩阵方面

    分类器集成是指在一定的组合策略下,将各个基分类器的判别结果进行整合,得
    到整体意义上较强的集成分类性能。一般认为,分类器的独立性、差异性及互补性是集成分
    类器取得良好性能的关键。其中,差异性的度量不像分类准确率的度量那么简单,通常分为
    基于结果的度量方法和基于结构的度量方法。

    混淆矩阵是一种分类结果的呈现方法,通过对样本类别及输出类别的统计,呈现
    出分类器的分类效果。在机器学习领域,混淆矩阵(Confusion Matrix)一般被用在监督学
    习上,进行分类结果的显示?;煜卣罂梢韵约乇硎痉掷嗥鞯姆掷嘟峁?,是分类效果评价
    的一种可视化工具。通过衡量两个分类器的混淆矩阵的相似性,判断分类器的相似性,也属
    于基于结果的度量的范畴,可以用来进行分类器差异性的判断,在模型组合上具有良好的
    应用。

    发明内容

    本发明的目的是对现有的随机森林组合分类器进行改进,提供一种能够产生具有
    更好的决策树多样性的随机森林模型选择方法。技术方案如下:

    一种基于混淆矩阵的随机森林模型选择方法,包括下列步骤:

    a.以训练得到的决策树作为原始随机森林,各决策树在测试样本集上进行分类,
    得到各决策树分类结果的混淆矩阵,并根据各类别的样本数目对矩阵进行归一化;

    b.通过对随机森林中决策树的混淆矩阵两两作差,得到随机森林中任意两棵决策
    树的差值矩阵;将差值矩阵的F范数作为两棵决策树的相似性度量,以此为元素建立随机森
    林的差异性度量矩阵,矩阵元素为该元素所涉及的两棵决策树的相似性度量值;

    c.按照从小到大的顺序,遍历差异性度量矩阵中不大于相似性阈值的元素;考察
    该元素所涉及的决策树的分类准确率大?。喝舻陀诜掷嘧既仿抒兄翟蛏境镁霾呤?,将该
    决策树所在的矩阵行列上的所有元素置零,否则保留该决策树;

    d.最终由差异性度量矩阵的非零元素所代表的决策树被集成进入新的随机森林,
    完成随机森林的模型选择。

    本专利对随机森林的模型选择过程进行改进,提出了一种基于混淆矩阵的决策树
    相似性度量方法。在此基础上,结合决策树的分类性能,使用反向“删劣”的策略,完成了随
    机森林的模型选择。本专利的模型选择方法预期能够综合考虑随机森林的分类性能和内部
    相关性关系,能够有效地删除相关性强、分类效果差的决策树,提高随机森林的分类能力。

    具体实施方式

    下面对本发明进行详细说明。

    1根据决策树的分类结果创建混淆矩阵

    在混淆矩阵中,矩阵的每一行代表样本的真实类别,而每一列代表样本的预测类
    别。抽象的数学形式是:设定需要完成N分类任务,给定样本向量集X={x1,x2,...xM},类别
    向量Y={y1,y2,...yN},以矩阵CM(T,X)表示分类树T在样本集合X上的分类结果统计量,那
    么混淆矩阵CM(T,X)的维度可以确定,是N×N的方阵,如下所示:


    在混淆矩阵的基础上,我们可以得到两棵分类树的相似性度量。这里的前提是,如
    果两棵树相似,那么两棵树的分类结果应该相似,尤其是每一类别的正确分类数目、类别之
    间的误分类分布较为接近。设计相似度度量的方法是:在两棵分类树Ti,Tj已经建立的混淆
    矩阵的基础上,从混淆矩阵入手,使用矩阵之间的距离测度及向量夹角,作为两棵分类树的
    相似性度量。如果混淆矩阵之间的距离小,那么认为分类树Ti,Tj相互接近;如果混淆矩阵之
    间的距离很大,那么认为分类树Ti,Tj的相似性很弱。

    2基于混淆矩阵得到相似性度量矩阵

    这里使用F范数衡量混淆矩阵之间的距离,首先对两棵树的混合矩阵CM(i)及CM(j)
    作差,得到的矩阵称为差值矩阵DCM(i,j),也是N×N的方阵,如下所示。


    在分类任务中,不同类别的样本的数量可能具有一定差别。为了防止数量上具有
    优势的样本类别对矩阵距离的计算产生影响,导致相似性度量过分地考虑样本数量较多的
    类别,而忽略了其他类别上的差异性,我们对差值矩阵进行行归一化,所使用的归一化因子
    是每行最大的元素值,得到归一化差值矩阵DCMu(i,j)。最终,通过求取差值矩阵DCM′i,j的F范
    数,得到随机森林中分类树Ti,Tj之间的相似性。

    一个规模为T的随机森林中,决策树两两之间的距离可以在一个矩阵中表示出来,
    该矩阵称作随机森林的相似度度量矩阵MF,矩阵大小为T×T。其元素mfij通过归一化差值矩
    阵DCMu(i,j),i,j=1,...,T得到,具体关系如下所示:


    式中:Ci表示第i个聚类类别,中心为μi,xi为该类别的数据点。

    总体来说,这种基于混淆矩阵的相似性度量方法,在决策树分类正确和错误的粗
    略划分的基础上,进一步在错误分类中对类别间的混淆结果进行区分。这样一来,结构差别
    较大的两棵不相似的决策树之间,产生分类结果误相似的难度增大,从而产生更加具有区
    分性的度量标准。

    3通过“删劣”获得新的随机森林

    在为随机森林创建相似性度量矩阵之后,如果通过迭代或分类树聚类的方法选取
    效果良好的分类树,需要很大的计算成本。我们背其道而行,提出一种相反的“删劣”的模型
    选择策略,不从原有的大量的基分类器中择优集成,而是删除较差的决策树分类器,剩下的
    分类器进行集成。具体是,从原有的基分类器集合中将相关性较强、分类性能差的分类器删
    去,而剩下的分类器集成自动进入新的随机森林模型。这种方法的优点是,其不需要考虑分
    类器集合中的整体关系,而只考察在相似性度量矩阵中元素值低于相似性阈值的两个分类
    器;在这两个分类器之间,如果存在某一分类器的分类能力低于分类性能阈值,则对其进行
    删除。这种方法所处理的是一种更加简单的关系,同时综合考虑了分类器之间的相关性以
    及分类能力。

    该环节的模型选择算法步骤如下:

    1.设d为相似度阈值,α为分类能力阈值

    2.minij=MF当前最小的非零元素;

    3.如果minij小于d:

    (a)在决策树i和决策树j中,判断是否存在分类能力较小的决策树i,并且决策树i
    分类能力<α);

    (b)如果存在,将决策树i删除,也就是将MF中决策树i所在的行列元素全部置零;

    (c)使minij指向下一个矩阵的最小非零元素。

    4.当不存在小于d的元素时,递归结束。此时元素行列非0的树集成进入新的随机
    森林RF。

    作为实施例,选取UCI机器学习数据库中的数据集,将每个数据集随机抽取为训练
    样本集和测试样本集,训练样本占50%,测试样本集占50%。在训练样本集上使用bagging
    方法抽取训练样本子集,生成大量的决策树分类器,作为原始的随机森林模型。

    在此基础上,进行本专利所提出的基于混淆矩阵的随机森林模型选择的方法步
    骤,以原始随机森林作为输入,并预先设定相似度阈值和分类准确度阈值。

    在测试样本集上进行所提出的方法步骤,最终生成经过模型选择的随机森林模
    型。

    关于本文
    本文标题:一种基于混淆矩阵的随机森林模型选择方法.pdf
    链接地址://www.4mum.com.cn/p-6092837.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 中国体育彩票七星彩 排五带坐标走势图带连线 奇人透码3688 悠悠卡五星麻将必胜绝技 36棋牌游戏下载 韩国冰球打架 大圣捕鱼最新下载 北京快中彩微信群 新疆时时彩开奖接口 微信捕鱼游戏大全免费下载 辽宁快乐12分析软件 七星彩彩票论坛 广西快乐10分 北京pk10开奖走势图 投资黄金是如何赚钱的 中国福利彩票双色球开奖时间