• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 20
    • 下载费用:30 金币  

    重庆时时彩杀号专家: SVM分类器的构造方法及装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410205772.9

    申请日:

    2014.05.15

    公开号:

    CN103970878A

    公开日:

    2014.08.06

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140806|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140515|||公开
    IPC分类号: G06F17/30; G06N99/00(2010.01)I 主分类号: G06F17/30
    申请人: 中国石油大学(北京)
    发明人: 刘建伟; 崔立鹏; 罗雄麟
    地址: 102249 北京市昌平区府学路18号
    优先权:
    专利代理机构: 北京三友知识产权代理有限公司 11127 代理人: 王天尧
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410205772.9

    授权公告号:

    ||||||

    法律状态公告日:

    2018.05.04|||2014.09.03|||2014.08.06

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明提供了一种SVM分类器的构造方法及装置,其中,该方法包括:根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;根据得到的各个模型参数的取值构造SVM分类器。本发明构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,从而可以实现更为有效的特征选择和类标签分类。

    权利要求书

    权利要求书
    1.  一种支持向量机SVM分类器的构造方法,其特征在于,包括:
    根据最小化最大凹度罚MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;
    在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;
    根据得到的各个模型参数的取值构造SVM分类器。

    2.  如权利要求1所述的方法,其特征在于,构造的SVM分类器的目标函数为:

    其中β∈RP表示β是P维的模型向量,xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,P表示特征数,p∈{1,…,P}表示特征的索引,βp表示第p个特征对应的模型向量分量,f(xn)表示分类面方程,表示MCP罚函数,φ(β)表示基于相关系数的罚函数,l(yn,f(xn))表示铰链损失函数,λ1、λ2和γ表示可调参数。

    3.  如权利要求2所述的方法,其特征在于:
    MCP罚函数的表达式为:

    其中I(·)表示指示函数,当括号中的不等式成立时I(·)=1,当括号中的不等式不成立时I(·)=0;
    基于相关系数的罚函数的表达式为:
    φ(β)=Σi=1PΣj=1j-1{(βi-βj)21-ρij+(βi+βj)21+ρij}]]>
    其中βi表示第i个特征对应的模型向量分量,βj表示第j个特征对应的模型向量分量,ρij表示第i个特征和第j个特征之间的相关系数值;
    铰链损失函数的表达式为:
    l(yn,f(xn))=max(0,yn·f(xn))=[1-yn(b+βn·xn)]+
    其中xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,b表示截距,[1-yn(b+βn·xn)]+表示当1-yn(b+βn·xn)>0时[1-yn(b+βn·xn)]+=1-yn(b+βn·xn),否则[1-yn(b+βn·xn)]+=0。

    4.  如权利要求3所述的方法,其特征在于,对所述目标函数进行训练,包括:
    采用交叉验证方法对所述目标函数进行训练。

    5.  如权利要求4所述的方法,其特征在于,采用交叉验证方法对所述目标函数进行训练,包括:
    在可调参数λ1、λ2和γ的取值区间上选取网格搜索的离散值,形成可调参数λ1、λ2和γ的离散取值;
    将可调参数λ1、λ2和γ的离散取值组合成三维网格点;
    计算根据所述三维网格点中各个网格点的可调参数的离散值构造的SVM分类器的分类错误率;
    将分类错误率最小的网格点作为最佳的网格点;
    将选取的最佳的网格点对应的可调参数λ1、λ2和γ的数值作为训练得到的所述目标函数的可调参数值;
    以训练得到的可调参数λ1、λ2和γ作为已知量,在训练样本集上对SVM分类器进行训练得到模型向量β和截距b;
    将训练得到的可调参数λ1、λ2和γ、和模型向量β和截距b作为目标函数中各个模型参数的取值。

    6.  如权利要求5所述的方法,其特征在于,计算根据所述三维网格点中各个网格点的可调参数的离散值构造的SVM分类器的分类错误率,包括:
    选取一个网格点;
    将可调参数λ1、λ2和γ的数值固定为该网格点上的取值;
    将所述训练样本集分成M个大小相同的子集,M为大于等于5的正整数,重复执行以下操作直至每个子集都作为一次验证子集:选取所述M个大小相同的子集中的一个子集作为验证子集,其余M-1个子集作为训练子集,在训练子集上训练SVM分类器,得到模型向量β和截距b的值,利用得到的模型向量β和截距b的值构造SVM分类器,在验证子集上确定构造的SVM分类器的分类错误率;
    计算得到的M个分类错误率的平均值,将得到的平均值作为该网格点对应的分类错误率。

    7.  如权利要求6所述的方法,其特征在于,在训练子集上训练SVM分类器,得到模型向量β和截距的值,包括:
    利用局部二次近似方法求取所述目标函数中MCP罚函数的替代目标函数和铰链损失函数的替代目标函数;
    用MCP罚函数的替代目标函数和铰链损失函数的替代目标函数,来替代所述目标函数中的MCP罚函数和铰链损失函数,得到二次近似处理后的目标函数;
    在训练子集上,利用牛顿法求解二次近似处理后的目标函数的模型向量β和截距的值。

    8.  如权利要求1所述的方法,其特征在于,在训练样本集上,对所述目标函数进行训练之前,所述方法还包括:
    获取总样本集;
    对所述总样本集进行归一化处理;
    从归一化处理后的总样本集中选取预定比例的样本作为训练样本集。

    9.  如权利要求8所述的方法,其特征在于,所述预定比例为70%。

    10.  一种支持向量机SVM分类器的构造装置,其特征在于,包括:
    目标函数构造???,用于根据最小化最大凹度罚MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;
    训练???,用于在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;
    分类器构造???,用于根据得到的各个模型参数的取值构造SVM分类器。

    11.  如权利要求10所述的装置,其特征在于,所述目标函数构造??楣乖斓腟VM分类器的目标函数为:

    其中β∈RP表示β是P维的模型向量,xn表示,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,P表示特征数,p∈{1,…,P}表示特征的索引,βp表示第p个特征对应的模型向量分量,f(xn)表示分类面方程,表示MCP罚函数,φ(β)表示基于相关系数的罚函数,l(yn,f(xn))表示铰链损失函数,λ1、λ2和γ表示可调参数。

    12.  如权利要求11所述的装置,其特征在于:
    MCP罚函数的表达式为:

    其中I(·)表示指示函数,当括号中的不等式成立时I(·)=1,当括号中的不等式不成立时I(·)=0;
    基于相关系数的罚函数的表达式为:
    φ(β)=Σi=1PΣj=1j-1{(βi-βj)21-ρij+(βi+βj)21+ρij}]]>
    其中βi表示第i个特征对应的模型向量分量,βj表示第j个特征对应的模型向量分量,ρij表示第i个特征和第j个特征之间的相关系数值;
    铰链损失函数的表达式为:
    l(yn,f(xn))=max(0,yn·f(xn))=[1-yn(b+βn·xn)]+
    其中xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,b表示截距,[1-yn(b+βn·xn)]+表示当1-yn(b+βn·xn)>0时[1-yn(b+βn·xn)]+=1-yn(b+βn·xn),否则[1-yn(b+βn·xn)]+=0。

    13.  如权利要求12所述的装置,其特征在于,所述训练??榫咛逵糜诓捎媒徊嫜橹し椒ǘ运瞿勘旰醒盗?。

    14.  如权利要求13所述的装置,其特征在于,所述训练??榘ǎ?BR>离散值确定单元,用于在可调参数λ1、λ2和γ的取值区间上选取网格搜索的离散值,形成可调参数λ1、λ2和γ的离散取值;
    三维网格点生成单元,用于将可调参数λ1、λ2和γ的离散取值组合成三维网格点;
    错误率计算单元,用于计算根据所述三维网格点中各个网格点的可调参数的离散值构造的SVM分类器的分类错误率;
    最佳网格点确定单元,用于将分类错误率最小的网格点作为最佳的网格点;
    可调参数值确定单元,用于将选取的最佳的网格点对应的可调参数λ1、λ2和γ的数值作为训练得到的所述目标函数的可调参数值;
    模型向量和截距确定单元,用于以训练得到的可调参数λ1、λ2和γ作为已知量,在训练样本集上对SVM分类器进行训练得到模型向量β和截距b;
    模型参数确定单元,用于将训练得到的可调参数λ1、λ2和γ、和模型向量β和截距b作为目标函数中各个模型参数的取值。

    15.  如权利要求14所述的装置,其特征在于,所述错误率计算单元包括:
    选取子单元,用于选取一个网格点;
    取值固定子单元,用于将可调参数λ1、λ2和γ的数值固定为该网格点上的取值;
    分类错误率确定子单元,用于将所述训练样本集分成M个大小相同的子集,M为大于等于5的正整数,重复执行以下操作直至每个子集都作为一次验证子集:选取所述M个大小相同的子集中的一个子集作为验证子集,其余M-1个子集作为训练子集,在训练子集上训练SVM分类器,得到模型向量β和截距b的值,利用得到的模型向量β和截距b的值构造SVM分类器,在验证子集上确定构造的SVM分类器的分类错误率;
    计算子单元,用于计算得到的M个分类错误率的平均值,将得到的平均值作为该网格点对应的分类错误率。

    16.  如权利要求15所述的装置,其特征在于,所述分类错误率确定子单元,在训练子集上训练SVM分类器,得到模型参数β和截距b的值,具体包括:
    利用局部二次近似方法求取所述目标函数中MCP罚函数的替代目标函数和铰链损失函数的替代目标函数;
    用MCP罚函数的替代目标函数和铰链损失函数的替代目标函数,来替代所述目标函数中的MCP罚函数和铰链损失函数,得到二次近似处理后的目标函数;
    在训练子集上,利用牛顿法求解二次近似处理后的目标函数的模型向量β和截距的值。

    17.  如权利要求10所述的装置,其特征在于,还包括:
    获取???,用于在训练样本集上,对所述目标函数进行训练之前,获取总样本集;
    归一化???,用于对所述总样本集进行归一化处理;
    选取???,用于从归一化处理后的总样本集中选取预定比例的样本作为训练样本集。

    18.  如权利要求17所述的装置,其特征在于,所述预定比例为70%。

    说明书

    说明书SVM分类器的构造方法及装置
    技术领域
    本发明涉及机器学习和数理统计技术领域,特别涉及一种支持向量机(SupportVector Machine,SVM)分类器的构造方法及装置。
    背景技术
    传统的L2范数SVM只能实现分类的目的,在面对像高维小样本数据甚至超高维小样本数据时,这些数据中因为存在大量的冗余特征,利用传统的L2范数SVM进行分类预测准确率不高,无法在分类的同时实现特征选择。传统的L1范数SVM能够在实现分类的同时实现特征选择,但是L1范数SVM不具有特征选择的oracle性质和组效应性质,并且无法处理数据中存在高度共线性的情形,所谓oracle性质指的是特征选择效果具有特征选择一致性,即将与类标签最相关的特征选中的能力;所谓的组效应性质就是在进行特征分类的过程中,特征系数趋向于相等的数据可以被分在同一组中。
    目前,还没有一种可以在保证进行准确的组特征选择的同时,又具备oracle性质和组效应性质的SVM分类器。
    发明内容
    本发明实施例提供了一种SVM分类器的构造方法,以达到构造一种可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质的SVM分类器的目的,其中,该方法包括:
    根据最小化最大凹度罚(Minimax Concave Penalty,MCP)罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;
    在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;
    根据得到的各个模型参数的取值构造SVM分类器。
    本发明实施例还提供了一种SVM分类器的构造装置,以达到构造一种可以在保 证组特征选择准确性的同时,具备oracle性质和组效应性质的SVM分类器的目的,其中,该装置包括:
    目标函数构造???,用于根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;
    训练???,用于在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;
    分类器构造???,用于根据得到的各个模型参数的取值构造SVM分类器。
    在本发明实施例中,利用MCP罚函数和基于相关系数的罚函数来构造SVM分类器的目标函数,因为MCP罚函数具备oracle性质,基于相关系数的罚函数构造的SVM分类器可以实现组效应性质,因此,通过上述方式最终构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,可以实现更为有效的特征选择和类标签分类。
    附图说明
    此处所说明的附图用来提供对本发明的进一步理解,构成本申请的一部分,并不构成对本发明的限定。在附图中:
    图1是本发明实施例的SVM分类器的构造方法的方法流程图;
    图2是本发明实施例的十折交叉验证方法的方法流程图;
    图3是本发明实施的L1范数罚的示意图;
    图4是本发明实施例的MCP罚的示意图;
    图5是本发明实施例的L1范数罚的导函数的示意图;
    图6是本发明实施例的MCP罚的导函数示意图;
    图7是本发明实施例的SVM分类器的构造装置的结构框图。
    具体实施方式
    为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施方式和附图,对本发明做进一步详细说明。在此,本发明的示意性实施方式及其说明用于解释本发明,但并不作为对本发明的限定。
    发明人考虑到,基于L1范数罚的SVM分类器之所以不具备oracle性质,是因 为L1范数罚对于全部特征的系数都进行压缩,而MCP罚函数倾向于仅对较小的系数压缩为零,而对较大的系数进行很小的压缩甚至不压缩,因此,如何采用MCP罚函数构造SVM分类器可以具备很好的oracle性质,进一步的,所谓组效应性质指的是在面对数据中存在高度共线性的情形时,得到的模型向量中高度共线性的那些特征的系数趋向于相等,因而这些系数相等或者几乎相等的特征明显地形成了一个组,这个组的特点就是系数相等或者几乎相等,因此可以利用基于相关系数的罚函数构造SVM分类器,基于相关系数的罚函数的优点在于其根据数据中特征之间的相关系数情况自适应地改变罚的程度,对于非共线性和低度共线性的特征的系数之差的绝对值惩罚程度小,因而对于非共线性和低度共线性的特征之间的系数不具有令其相等的作用,它们不能形成一个明显的组,而对于彼此之间高度共线性,即相关系数很大的特征的系数之差的绝对值惩罚程度大,因而倾向于令高度共线性的特征之间的系数相等,它们明显形成了一个以系数相等为特点的组,即实现了组效应性质。
    基于以上分析,在本例中提出了一种SVM分类器的构造方法,如图1所示,包括以下步骤:
    步骤101:根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;
    步骤102:在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;
    步骤103:根据得到的各个模型参数的取值构造SVM分类器。
    在上述实施例中,利用MCP罚函数和基于相关系数的罚函数来构造SVM分类器的目标函数,因为MCP罚函数具备oracle性质,基于相关系数的罚函数构造的SVM分类器可以实现组效应性质,因此,通过上述方式最终构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,可以实现更为有效的特征选择和类标签分类。
    在上述步骤101中,构造的SVM分类器的目标函数可以是:

    其中β∈RP表示β是P维的模型向量,xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,P表示特征数,p∈{1,…,P}表示特征的索引, βp表示第p个特征对应的模型向量分量,f(xn)表示分类面方程,表示MCP罚函数,φ(β)表示基于相关系数的罚函数,l(yn,f(xn))表示铰链损失函数,λ1、λ2和γ表示可调参数。
    具体的,上述MCP罚函数可以用以下公式表示:

    其中I(·)表示指示函数,当括号中的不等式成立时I(·)=1,当括号中的不等式不成立时I(·)=0;
    基于相关系数的罚函数的表达式为:
    φ(β)=Σi=1PΣj=1j-1{(βi-βj)21-ρij+(βi+βj)21+ρij}]]>
    其中βi表示第i个特征对应的模型向量分量,βj表示第j个特征对应的模型向量分量,ρij表示第i个特征和第j个特征之间的相关系数值:
    铰链损失函数的表达式为:
    l(yn,f(xn))=max(0,yn·f(xn))=[1-yn(b+βn·xn)]+
    其中xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,b表示截距,[1-yn(b+βn·xn)]+表示当1-yn(b+βn·xn)>0时[1-yn(b+βn·xn)]+=1-yn(b+βn·xn),否则[1-yn(b+βn·xn)]+=0。
    在本例中,模型参数包括:可调参数λ1、λ2和γ、模型向量β和截距b,在上述步骤102中,可以采用交叉验证方法对所述目标函数进行训练,具体的,采用交叉验证方法对所述目标函数进行训练可以,包括:在可调参数λ1、λ2和γ的取值区间上选取网格搜索的离散值,形成三个可调参数的离散取值;将三个可调参数的离散取值组合成三维网格点;计算根据所述三维网格点中各个网格点的可调参数的离散值构造的 SVM分类器的分类错误率;将分类错误率最小的网格点作为最佳的网格点;将选取的最佳的网格点对应的可调参数λ1、λ2和γ的数值作为训练得到的所述目标函数的可调参数值;以训练得到的可调参数λ1、λ2和γ作为已知量,在训练样本集上对SVM分类器进行训练得到模型向量β和截距b;将训练得到的可调参数λ1、λ2和γ、和模型向量β和截距b作为目标函数中各个模型参数的取值。
    在具体实施时,计算根据所述三维网格点中各个网格点的模型参数的离散值构造的SVM分类器的分类错误率,可以包括:
    S1:选取一个网格点;
    S2:将可调参数λ1、λ2和γ的数值固定为该网格点上的取值;
    S3:将所述训练样本集分成M个大小相同的子集,M为大于等于5的正整数,重复执行以下操作直至每个子集都作为一次验证子集:选取所述M个大小相同的子集中的一个子集作为验证子集,其余M-1个子集作为训练子集,在训练子集上训练SVM分类器,得到模型向量β和截距b的值,利用得到的模型向量β和截距b的值构造SVM分类器,在验证子集上确定构造的SVM分类器的分类错误率;
    S4:计算得到的M个分类错误率的平均值,将得到的平均值作为该网格点对应的分类错误率。
    具体实施时,考虑到直接求解目标函数模型向量β和截距b的值比较困难,可以将构造的目标函数中的MCP罚函数和铰链损失函数进行变形,变为易于求解的函数,例如可以局部二次近似法、局部一次近似法等方法对目标函数进行变形,具体的,在训练子集上训练SVM分类器,得到模型向量β和截距b的值,可以包括:
    1)利用局部二次近似方法求取所述目标函数中MCP罚函数的替代目标函数和铰链损失函数的替代目标函数;
    2)用MCP罚函数的替代目标函数和铰链损失函数的替代目标函数,来替代所述目标函数中的MCP罚函数和铰链损失函数,得到二次近似处理后的目标函数;
    3)在训练子集上,利用牛顿法求解二次近似处理后的目标函数的模型参数β和b的值。
    步骤102中的训练样本集可以是按照以下方式获取的:获取总样本集,对所述总样本集进行归一化处理,从归一化处理后的总样本集中选取预定比例的样本作为训练 样本集,这个选取的比例可以是70%。即获取一个总的样本集,将其中一部分作为训练样本集,另外一部分作为验证样本集,训练样本集用于对目标函数进行训练以构造SVM分类器,验证样本集用于评价构造的SVM分类器的特征选择效果和分类效果。
    在本发明实施例中,还提供了一个具体的实施例对上述SVM分类器进行说明,然而值得注意的是,该具体实施例仅是为了说明本发明,并不构成对本发明的不当限定。
    在本例中,提供了一种同时实现特征选择和类标签分类、并且特征选择具有oracle性质和组效应性质的SVM分类器,该方法包括以下几个步骤:
    S1:构造SVM分类器的目标函数:

    其中β∈RP表示β是P维的模型向量,xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,P表示特征数,p∈{1,…,P}表示特征的索引,βp表示第p个特征对应的模型向量分量,f(xn)表示分类面方程,表示MCP罚函数,φ(β)表示基于相关系数的罚函数,l(yn,f(xn))表示铰链损失函数,λ1、λ2和γ表示可调参数。
    MCP罚函数表示为:

    其中I(·)表示指示函数,当括号中的不等式成立时I(·)=1,当括号中的不等式不成立时I(·)=0;
    φ(β)=Σi=1PΣj=1j-1{(βi-βj)21-ρij+(βi+βj)21+ρij}]]>
    其中βi表示第i个特征对应的模型向量分量,βj表示第j个特征对应的模型向量 分量,ρij表示第i个特征和第j个特征之间的相关系数值;
    铰链损失函数的表达式为:
    l(yn,f(xn))=max(0,yn·f(xn))=[1-yn(b+βn·xn)]+
    其中xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,b表示截距,[1-yn(b+βn·xn)]+表示当1-yn(b+βn·xn)>0时[1-yn(b+βn·xn)]+=1-yn(b+βn·xn),否则[1-yn(b+βn·xn)]+=0。
    S2:对样本集进行归一化处理;
    S3:将归一化后的样本集随机划分为训练样本集和测试样本集,其中,训练样本集和测试样本集可以按照7:3的比例划分;
    S4:计算出训练样本集中全部数据的相关系数ρij,其中,xi和xj为两个不同的变量。
    S5:在训练样本集上,利用十折交叉验证方法得到SVM分类器目标函数中各模型参数λ1、λ2、γ、β和b的最佳取值;
    S6:根据求解得到的模型参数λ1、λ2、γ、β和b的最佳取值构造SVM分类器;
    S7:在测试样本集上,利用求解出的模型参数值,按照SVM分类器的特征选择效果和分类效果评价该SVM。
    上述步骤S5中的十折交叉验证方法可以如图2所示,包括以下步骤:
    S201:在可调参数λ1、λ2、γ的取值区间上选取网格搜索的离散值,形成三个模型参数的离散值;
    S202:将三个模型参数的离散值组合成三维网格点;
    S203:将训练样本集分成10个大小相同的子集,其中10表示每个网格点上使用的交叉校验的倍数,在每个网格点上执行下述步骤S204和S205:
    S204:循环执行以下步骤10次(即,改变验证子集,直至所有的子集都作为验证子集被执行一次):
    S20401:利用其中任意9个子集作为训练子集,另外一个子集作为验证子集;
    S20402:在确定的训练子集上训练SVM分类器,求得模型向量β和截距b;
    S20403:利用模型向量β和截距b构造SVM分类器,在验证子集上对构造出的SVM分类器进行验证,得到分类错误率。
    S205:取10次验证所得的分类错误率的平均值作为该网格点对应的最终平均分类错误率;
    S206:选取平均分类错误率最小的网格点作为最佳的网格点,选取此最佳网格点对应的可调参数λ1、λ2和γ的取值作为十折交叉验证方法所确定的最佳可调参数值;
    S207:利用上一步中得到的可调参数λ1、λ2和γ的最佳取值作为已知量,在整个训练样本集上对SVM分类器再次进行训练从而得到模型向量β和截距b,本步骤中得到的模型向量β和截距b的值为β和b的最佳取值。
    上述在确定的训练子集上训练SVM分类器,求得模型向量β和截距b的过程中,可以利用局部二次近似方法进行近似从而得到替代目标函数,然后利用牛顿法等最优化方法求解出SVM的最优解,具体可以包括以下几个步骤:
    1)对铰链损失函数做如下变换:
    [1-ynf(xn)]+=1-yn|b+β·xn|2+|yn-(b+β·xn)|2]]>
    其中,对于第二项中的|yn-(b+β·xn)|利用如下的局部二次近似方法计算:
    |yn=-(b+β·xn)|≈12[yn-(b+β·xn)]2|yn-(b0+β0·xn)|+12yn-(b0+β0·xn)]]>
    其中,初始值b0和β0为SVM目标函数Ψ(b,β)的最优解附近的值。
    2)对MCP罚函数的近似方法为:当|βp0|非常接近于0时,令否则利用如下的局部二次近似方法:

    其中,βp0表示初始值β0的第p个分量。
    3)经过上述的局部二次近似处理后,可以利用牛顿法等最优化方法求解出SVM的最优解β和b。
    在本例中,提出了一种能够同时实现特征选择和类标签分类,并且特征选择具有oracle性质和组效应性质的SVM分类器,所谓oracle性质指的是特征选择效果具有特征选择一致性,本例中的SVM分类器具有oracle性质的原因在于其利用了MCP罚函数而不是利用L1范数罚作为罚函数,如图3所示是L1范数罚的示意图,图4 是MCP罚的示意图,图5是L1范数罚的导函数示意图,图6是MCP罚的导函数示意图,其中,图中的phi表示L1范数?;騇CP罚phi_Derivative表示L1范数?;騇CP罚的导函数,beta表示自变量。由图3至6所示可以发现MCP??朔薒1范数罚对于全部特征的系数都进行压缩的缺点,它倾向于仅对较小的系数压缩为零,而对较大的系数进行很小的压缩甚至不压缩,因而具有oracle性质。本例所提出的SVM分类器具有组效应性质的原因在于其利用了基于相关系数的罚函数,基于相关系数的罚函数的优点在于其根据数据中特征之间的相关系数情况自适应地改变罚的程度,对于非共线性和低度共线性的(即相关系数为0或相关系数很小)的特征的系数之差的绝对值惩罚程度小,因而对于非共线性和低度共线性的特征之间的系数不具有令其相等的作用,它们无法形成一个明显的组,而对于彼此之间高度共线性(即相关系数很大)的特征的系数之差的绝对值惩罚程度大,因而倾向于令高度共线性的特征之间的系数相等,它们明显形成了一个以系数相等为特点的组,即实现了组效应性质。
    基于同一发明构思,本发明实施例中还提供了一种SVM分类器的构造装置,如下面的实施例所述。由于SVM分类器的构造装置解决问题的原理与SVM分类器的构造方法相似,因此SVM分类器的构造装置的实施可以参见SVM分类器的构造方法的实施,重复之处不再赘述。以下所使用的,术语“单元”或者“??椤笨梢允迪衷ざüδ艿娜砑?或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。图7是本发明实施例的SVM分类器的构造装置的一种结构框图,如图7所示,包括:目标函数构造???01、训练???02和分类器构造???03,下面对该结构进行说明。
    目标函数构造???01,用于根据MCP罚函数和基于相关系数的罚函数,构造SVM分类器的目标函数;
    训练???02,用于在训练样本集上,对所述目标函数进行训练,得到所述目标函数中各个模型参数的取值;
    分类器构造???03,用于根据得到的各个模型参数的取值构造SVM分类器。
    在一个实施例中,目标函数构造???01构造的SVM分类器的目标函数为:

    其中β∈RP表示β是P维的模型向量,xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,P表示特征数,p∈{1,…,P}表示特征的索引,βp表示第p个特征对应的模型向量分量,f(xn)表示分类面方程,表示MCP罚函数,φ(β)表示基于相关系数的罚函数,l(yn,f(xn))表示铰链损失函数,λ1、λ2和γ表示可调参数。
    在一个实施例中:
    MCP罚函数的表达式为:

    其中I(·)表示指示函数,当括号中的不等式成立时I(·)=1,当括号中的不等式不成立时I(·)=0;
    基于相关系数的罚函数的表达式为:
    φ(β)=Σi=1PΣj=1j-1{(βi-βj)21-ρij+(βi+βj)21+ρij}]]>
    其中βi表示第i个特征对应的模型向量分量,βj表示第j个特征对应的模型向量分量,ρij表示第i个特征和第j个特征之间的相关系数值;
    铰链损失函数的表达式为:
    l(yn,f(xn))=max(0,yn·f(xn))=[1-yn(b+βn·xn)]+
    其中xn表示样例,yn表示类标签,N表示样本数,n∈{1,…,N}表示样本的索引,b表示截距,[1-yn(b+βn·xn)]+表示当1-yn(b+βn·xn)>0时[1-yn(b+βn·xn)]+=1-yn(b+βn·xn),否则[1-yn(b+βn·xn)]+=0。
    在一个实施例中,训练???02具体用于采用交叉验证方法对所述目标函数进行训练。
    在一个实施例中,训练???02包括:
    离散值确定单元,用于在可调参数λ1、λ2和γ的取值区间上选取网格搜索的离散值,形成可调参数λ1、λ2和γ的离散取值;
    三维网格点生成单元,用于将可调参数λ1、λ2和γ的离散取值组合成三维网格点;
    错误率计算单元,用于计算根据所述三维网格点中各个网格点的可调参数的离散值构造的SVM分类器的分类错误率;
    最佳网格点确定单元,用于将分类错误率最小的网格点作为最佳的网格点;
    可调参数值确定单元,用于将选取的最佳的网格点对应的可调参数λ1、λ2和γ的数值作为训练得到的所述目标函数的可调参数值;
    模型向量和截距确定单元,用于以训练得到的可调参数λ1、λ2和γ作为已知量,在训练样本集上对SVM分类器进行训练得到模型向量β和截距b;
    模型参数确定单元,用于将训练得到的可调参数λ1、λ2和γ、和模型向量β和截距b作为目标函数中各个模型参数的取值。
    在一个实施例中,错误率计算单元包括:
    选取子单元,用于选取一个网格点;
    取值固定子单元,用于将可调参数λ1、λ2和γ的数值固定为该网格点上的取值;
    分类错误率确定子单元,用于将所述训练样本集分成M个大小相同的子集,M为大于等于5的正整数,重复执行以下操作直至每个子集都作为一次验证子集:选取所述M个大小相同的子集中的一个子集作为验证子集,其余M-1个子集作为训练子集,在训练子集上训练SVM分类器,得到模型参数β和截距b的值,利用得到的β和b的值构造SVM分类器,在验证子集上确定构造的SVM分类器的分类错误率;
    计算子单元,用于计算得到的M个分类错误率的平均值,将得到的平均值作为该网格点对应的分类错误率。
    在一个实施例中,所述分类错误率确定子单元,在训练子集上训练SVM分类器,得到模型参数β和截距b的值,具体包括:
    利用局部二次近似方法求取所述目标函数中MCP罚函数的替代目标函数和铰链损失函数的替代目标函数;
    用MCP罚函数的替代目标函数和铰链损失函数的替代目标函数,来替代所述目 标函数中的MCP罚函数和铰链损失函数,得到二次近似处理后的目标函数;
    在训练子集上,利用牛顿法求解二次近似处理后的目标函数的模型参数β和截距b的值。
    在一个实施例中,上述装置还包括:获取???,用于在训练样本集上,对所述目标函数进行训练之前,获取总样本集;归一化???,用于对所述总样本集进行归一化处理;选取???,用于从归一化处理后的总样本集中选取预定比例的样本作为训练样本集。
    在一个实施例中,所述预定比例为70%。
    在另外一个实施例中,还提供了一种软件,该软件用于执行上述实施例及优选实施方式中描述的技术方案。
    在另外一个实施例中,还提供了一种存储介质,该存储介质中存储有上述软件,该存储介质包括但不限于:光盘、软盘、硬盘、可擦写存储器等。
    从以上的描述中,可以看出,本发明实施例实现了如下技术效果:利用MCP罚函数和基于相关系数的罚函数来构造SVM分类器的目标函数,因为MCP罚函数具备oracle性质,基于相关系数的罚函数构造的SVM分类器可以实现组效应性质,因此,通过上述方式最终构造的SVM分类器可以在保证组特征选择准确性的同时,具备oracle性质和组效应性质,可以实现更为有效的特征选择和类标签分类。
    显然,本领域的技术人员应该明白,上述的本发明实施例的各??榛蚋鞑街杩梢杂猛ㄓ玫募扑阕爸美词迪?,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路???,或者将它们中的多个??榛虿街柚谱鞒傻ジ黾傻缏纺?槔词迪?。这样,本发明实施例不限制于任何特定的硬件和软件结合。
    以上所述仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明实施例可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的?;し段е?。

    关 键 词:
    SVM 分类 构造 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:SVM分类器的构造方法及装置.pdf
    链接地址://www.4mum.com.cn/p-6142823.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03