• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    重庆时时彩五星缩水工具: 基于随机森林迁移学习的红外光谱模型传递方法.pdf

    关 键 词:
    基于 随机 森林 迁移 学习 红外 光谱 模型 传递 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201710037798.0

    申请日:

    2017.01.18

    公开号:

    CN106815643A

    公开日:

    2017.06.09

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06N 99/00申请日:20170118|||公开
    IPC分类号: G06N99/00(2010.01)I 主分类号: G06N99/00
    申请人: 中北大学
    发明人: 陈媛媛; 李墅娜; 张瑞; 王志斌; 景宁
    地址: 030051 山西省太原市尖草坪区学院路3号
    优先权:
    专利代理机构: 北京志霖恒远知识产权代理事务所(普通合伙) 11435 代理人: 申绍中
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201710037798.0

    授权公告号:

    |||

    法律状态公告日:

    2017.07.04|||2017.06.09

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开一种基于随机森林迁移学习的红外光谱模型传递方法,利用随机森林思想将主仪器扫描的样本数据集利用Bootstrap方法生成多个子数据集;针对每个子数据集,结合目标仪器扫描的样本数据集,利用迁移学习算法建立目标仪器上的分析模型;针对目标仪器上采集的待测样本红外光谱,根据建立的每个分析模型预测其待测组分含量;计算每个待测样本与建立的各个分析模型中样本之间的结构分布相似度,以确定与每个待测样本对应的各个目标分析模型权重因子;再利用加权平均方法对预测结果进行汇总,得到最终的待测组分含量。该方法具备鲁棒性强、自适应的优点,有效提升模型传递的准确度和稳定性,可以广泛应用于固相、液相和气相的红外光谱模型传递领域中。

    权利要求书

    1.一种基于随机森林迁移学习的红外光谱模型传递方法,其特征在于:包括以下步骤:
    S1、将主仪器扫描采集得到的样本光谱数据集Dm利用Bootstrap随机抽样方法生成K个
    子数据集:
    S2、针对每个子数据集结合目标仪器上扫描得到的数据集Ds,利用迁移
    学习算法建立目标仪器上的红外光谱与化学组分间的映射模型:同时形成新
    的数据集
    S3、针对待测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型
    从而得到每个映射模型给出的化学组分预测值:
    S4、计算待测样本xi与数据集中每个样本的相似度,并进行累加求和,记
    为:Si(1≤i≤k);
    S5、针对待测样本xi,计算各个映射模型对应的权重因子: <mrow> <msubsup> <mi>w</mi> <mi>i</mi> <mi>j</mi> </msubsup> <mo>=</mo> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>/</mo> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>j</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>k</mi> </msubsup> <msub> <mi>s</mi> <mi>j</mi> </msub> <mo>,</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>&le;</mo> <mi>j</mi> <mo>&le;</mo> <mi>k</mi> <mo>)</mo> </mrow> <mo>;</mo> </mrow>
    S6、利用加权平均方法计算待测样本的化学组分含量:
    2.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述步骤S2中的迁移学习算法包括基于实例的迁移算法和基于特征的迁移算法。
    3.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述步骤S2中映射模型包括线性模型和非线性模型。
    4.根据权利要求3所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述线性模型为多元回归和偏最小二乘;非线性模型为人工神经网络、支持向量机和极
    限学习机。
    5.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述步骤S2中映射模型的建立包括红外光谱预处理和特征选择。
    6.根据权利要求5所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述红外光谱预处理包括去噪和基线校正;特征选择包括无信息变量消除法、区间偏最
    小二乘法、遗传算法、蝙蝠算法和稀疏优化等。
    7.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述步骤S4中相似度度量方法包括欧式距离法、L范数法、相关系数法,以及将样本映射
    到其它高维或者低维空间后再计算得到的相似性度量方法。
    8.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述步骤S4中相似度度量结果包括样本间越接近,相似度越高,Si值越大。
    9.根据权利要求1所述的基于随机森林迁移学习的红外光谱模型传递方法,其特征在
    于:所述步骤S5中各个映射模型对应的权重因子满足关系:

    说明书

    基于随机森林迁移学习的红外光谱模型传递方法

    技术领域

    本发明涉及一种基于随机森林迁移学习的红外光谱模型传递方法,适用于不同厂
    家、不同型号红外光谱仪的跨平台模型通用方法。

    背景技术

    红外光谱分析是一种新兴的分析技术,由于它具有快速、无损和无污染等优点,在
    农业、化工和环境监测等领域有着广泛的应用。红外光谱分析技术要求红外光谱仪和定性/
    定量分析模型必须协调工作,否则均会对分析结果由影响。然而,在实际的应用过程中,通
    ?;岽嬖诤焱夤馄滓巧Ъ也煌?、型号不同等情况,致使所建立的分析模型无法适用于
    所有红外光谱仪,而为每台设备单独建立一个分析模型,则会花费大量的人力物力和时间。

    传统的模型传递方法包括斜率截距法、直接校正法、分段直接校正法、Shenk’s法
    等。但是上述几种方法均为有标样方法,即事先准备好多个标准样本,分别在主仪器和目标
    仪器上对这些样本进行光谱扫描,接着利用数学方法确定两者间的映射关系。对于新的待
    测样本,在目标仪器上扫描光谱后,利用映射函数对其进行转换,再使用主仪器上建立的原
    模型进行预测。但是在实际应用中,一方面,用户通常很难将标准样本长期保存,环境的变
    化往往会造成样本性质变化;另一方面,由于受物理空间影响,将标准样本进行长途运输亦
    显得不具操作性。

    中国海洋大学贺英于2012年在其博士论文中提出了一种新的模型传递方法——
    基于集成迁移学习的近红外光谱模型传递方法,通过将迁移学习、样本相似匹配和集成学
    习等方法相互结合,构建了具有一定稳健性的迁移模型。但是,该方法存在以下两点不足:
    (1)该方法中分别利用支持向量机(Support Vector Machine,SVM)、K近邻(K-Near
    Neighbor,KNN)和偏最小二乘(Partial Least Square,PLS)三种方法建立回归模型,然后
    再进行加权集成,但是三种方法所建立的模型均是在同一样本分布的前提下完成的,因此
    当待测样本的分布与建模时所用的样本分布不同时,则可能会出现“负迁移”现象;换句话
    说,当原模型的泛化性能(鲁棒性)较差时,原模型的误差也会传递到目标仪器上;(2)当目
    标仪器上的待测样本分布发生变化时,如何根据待测样本的局部结构,自适应地调整各个
    弱目标分析模型的权重。

    因此,研究跨设备的模型传递方法,使得在某台红外光谱仪上已经建立好的分析
    模型能够快速转换到新的仪器上,具有重要的研究意义和应用价值。

    发明内容

    针对背景技术中存在的问题,本发明的目的是提供一种基于随机森林迁移学习的
    红外光谱模型传递方法,可以自适应地调整随机森林中各个映射模型的权重因子,有效提
    升模型传递的准确度和稳定性。

    本发明的技术方案是这样实现的:一种基于随机森林迁移学习的红外光谱模型传
    递方法,包括以下步骤:S1、将主仪器扫描采集得到的样本光谱数据集Dm利用Bootstrap随
    机抽样方法生成K个子数据集:S2、针对每个子数据集结合
    目标仪器上扫描得到的数据集Ds,利用迁移学习算法建立目标仪器上的红外光谱与化学组
    分间的映射模型:同时形成新的数据集S3、针对待
    测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模型从而
    得到每个映射模型给出的化学组分预测值:S4、计算待测样本xi与数据集
    中每个样本的相似度,并进行累加求和,记为:Si(1≤i≤k);S5、针对待测样
    本xi,计算各个映射模型对应的权重因子:S6、利用加权平均方
    法计算待测样本的化学组分含量:

    在上述技术方案中,所述步骤S2中的迁移学习算法包括基于实例的迁移算法和基
    于特征的迁移算法。

    在上述技术方案中,所述步骤S2中映射模型包括线性模型和非线性模型。

    在上述技术方案中,所述线性模型为多元回归和偏最小二乘;非线性模型为人工
    神经网络、支持向量机和极限学习机。

    在上述技术方案中,所述步骤S2中映射模型的建立包括红外光谱预处理和特征选
    择。

    在上述技术方案中,所述红外光谱预处理包括去噪和基线校正;特征选择包括无
    信息变量消除法、区间偏最小二乘法、遗传算法、蝙蝠算法和稀疏优化等。

    在上述技术方案中,所述步骤S4中相似度度量方法包括欧式距离法、L范数法、相
    关系数法,以及将样本映射到其它高维或者低维空间后再计算得到的相似性度量方法。

    在上述技术方案中,其特征在于:所述步骤S4中相似度度量结果包括样本间越接
    近,相似度越高,Si的值越大。

    在上述技术方案中,所述步骤S5中各个映射模型对应的权重因子满足关系:

    本发明基于随机森林迁移学习的红外光谱模型传递方法,首先利用随机森林思
    想,将主仪器扫描得到的样本数据集利用Bootstrap方法生成多个分布结构不同的子数据
    集;其次,针对每个子数据集,结合目标仪器扫描得到的样本数据集,利用基于实例的迁移
    学习算法建立目标仪器上的分析模型;接着,针对目标仪器上采集的待测样本红外光谱,根
    据建立的每个分析模型预测其待测组分含量;然后,基于局部结构映射思想,计算每个待测
    样本与建立的各个分析模型中样本之间的结构分布相似度,以确定与每个待测样本对应的
    各个目标分析模型权重因子;最后,利用加权平均方法对预测结果进行汇总,以得到最终的
    待测组分含量。与现有方法相比,该方法具备鲁棒性强、自适应的优点,不仅可以有效提升
    模型传递的准确度和稳定性,还可以自适应样本分布结构发生变化的情形,因此可以广泛
    应用于固相、液相和气相的红外光谱模型传递领域中。

    附图说明

    图1为本发明基于随机森林迁移学习的红外光谱模型传递方法流程图;

    图2为同一样本在三台不同仪器下扫描的红外光谱图;

    图3为目标仪器mp5测试集预测结果对比示意图;

    图4为目标仪器mp6测试集预测结果对比示意图;

    图5为两个不同样本对应的随机森林映射模型权重因子大小情况示意图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
    整地描述,显然,所描述的实施例仅是本发明一部分实施例,而不是全部的实施例?;诒?br />发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实
    施例,都属于本发明?;さ姆段?。

    如图1所示,本发明所述的一种基于随机森林迁移学习的红外光谱模型传递方法
    流程如图1所示,不失一般性,假设各有一台主仪器和目标仪器,已知利用主仪器扫描多个
    样本的光谱及其化学组分含量的数据集Dm,记为其中,
    为包含P个波长点的样本扫描红外光谱;为各个样本的化学组分含量;N为
    样本的个数。

    已知利用目标仪器扫描多个样本的光谱及其化学组分含量数据集Ds,记为
    其中,为包含P个波长点的样本扫描红外光谱;
    为各个样本的化学组分含量;M为样本的个数。一般情况下,M<N。以及利用目标仪器扫描得
    到的待分析样本红外光谱对应的化学组分含量yi为未知量,需要我们通过计算得
    出。

    首先,将主仪器扫描采集得到的光谱样本数据集Dm利用Bootstrap随机抽样方法
    生成K个子数据集:即采用有放回抽样方式,以第i(1≤i≤k)轮为例,每次从
    Dm中抽取一个样本,共抽取N次,形成新的集合由于是有放回抽样,集合虽然同样包
    含了N个样本,但可能包含了若干重复样本,将重复样本剔除后,即形成第i(1≤i≤k)个子
    数据集根据概率论相关知识可以计算出,子数据集中包含了原数据集Dm中约62%的
    样本。尽管子数据集中样本数量有所减少,但每个子数据集中的样本分布规律均不相同,这
    是随机森林算法的本质,从而可以提升模型的鲁棒性。

    其次,针对每个子数据集结合目标仪器上扫描得到的数据集Ds,利
    用迁移学习算法建立目标仪器上的红外光谱与化学组分间的映射模型:由于
    针对每个子数据集,迁移学习过程中会将其与Ds合并,从而形成新的数据集,记为:

    需要说明的是:(1)模型建立的方法可以是线性如多元回归、偏最小二乘等,也可
    以是非线性如人工神经网络、支持向量机、极限学习机等;(2)在建模之前,若有需要的话,
    可以对红外光谱进行预处理和特征选择,而红外光谱进行预处理包括去噪、基线校正等;特
    征选择包括无信息变量消除法、区间偏最小二乘法、遗传算法、蝙蝠算法、稀疏优化等。

    接着,针对待测样本,利用目标仪器扫描其红外光谱xi,并将其送入到每个映射模
    型从而得到每个映射模型给出的化学组分预测值:

    然后,计算待测样本xi与数据集中每个样本的相似度,并进行累加
    求和,记为:Si(1≤i≤k)。需要指出的是:(1)这里关于相似度的度量,可以是欧式距离、L范
    数等,也可以是先将样本映射到其它高维或者低维空间后再计算得到的度量结果;(2)为了
    便于后面的表述,不失一般性,这里假设样本间越接近,相似度越高,即Si的值越大。在此基
    础上,根据下式计算针对待测样本xi,各个映射模型对应的权重因子:


    从上式可以看出,

    最后,利用加权平均方法计算待测样本的化学组分含量:

    结合附图2、图3和图4对本发明进行具体实施方式进行分析:本实施例中所选用的
    数据来源是80个玉米样本的近红外光谱数据集,其光谱扫描范围为1100-2498nm,扫描间隔
    为2nm,每个样本包含700个波长点。分别用3台近红外光谱仪对所有玉米样本进行扫描,为
    了表述方便,3台仪器的名称分别命名为:m5、mp5和mp6。

    在本实施例中,将仪器m5作为主仪器,mp5和mp6作为目标仪器。在80个样本中,随
    机选择50个样本构成主仪器m5下扫描得到的数据集剩下的
    30个样本中,分别随机选择5个样本构成目标仪器mp5和mp6下扫描得到的数据集
    最终剩下的20个样本分别作为目标仪器mp5和mp6的待测样本
    (各10个)xi(i=1,2,...,10)。这里,我们选择玉米的蛋白质含量作为待测组分。

    在本实施例中,映射模型的建立采用极限学习机(Extreme Learning Machine,
    ELM)算法,与传统的神经网络相比,ELM的输入层与隐含层之间的连接权值可以随机设定,
    且隐含层与输出层之间的连接权值可以直接通过线性方程组求解得到,而不需要迭代学
    习,因此建模时间可以大大减少。与支持向量机等方法相比,ELM具有可调参数少的优点,可
    以有效地保证模型的稳定性和泛化性能。迁移学习算法采用的是戴文渊等人于2008年提出
    的TrAdaBoost算法。随机森林的规模设为20,即K=20。

    为了客观地评价本发明所提出的基于随机森林迁移学习的红外光谱模型传递方
    法(以下简记为RF-TrAdaBoost)的效果,这里我们将该方法与未迁移模型法以及贺英提出
    的SM-TrBoostEns方法进行对比,其中未迁移模型指的是利用ELM算法基于主仪器m5数据集
    Dm建立的模型。目标仪器mp5和mp6测试集的预测结果分别如图3和图4所示,对应的模型泛
    化性能指标(均方根误差RMSE和决定系数R2)如下表1所列。

    表1几种模型传递方法对测试集预测结果的对比



    从中可以看出,若未对模型进行迁移,将主仪器m5建立的映射模型直接应用到目
    标仪器mp5和mp6上,效果较差,决定系数最??;使用本发明所提出的模型传递方法,效果最
    佳,要明显优于SM-TrBoostEns方法。究其原因,主要有以下两个:

    (1)尽管SM-TrBoostEns方法中也引入了集成学习的思想,但是其是在相同的样本
    分布结构下分别使用SVM、KNN和PLS方法建立映射模型。众所周知,当样本分布结构确定时,
    无论使用哪种建模方法,差别均很小,因此该方法起到了重复计算的效果。而与之相反,本
    发明所提出的随机森林集成是建立在不同的样本分布结构的基础上的,因此每个映射模型
    学习的侧重点均有所不同,因而可以使得模型的泛化性能和鲁棒性更优。

    (2)本发明所提出的方法中还引入了局部结构映射的思想,即可以根据待测样本
    的分布结构特点,自适应地调整随机森林中每个映射模型的权重因子。图5给出了两个不同
    的待测样本进行组分预测时,随机森林中每个映射模型的权重因子大小。如图5中所示,对
    于#1待测样本而言,第2个映射模型的权重因子最大;而对于#2待测样本而言,第18个映射
    模型的权重因子最大。权重因子越大,表明对应的映射模型“正迁移”效果越佳,通过加权平
    均,可以大大提升整个模型的预测精度。

    本发明基于随机森林迁移学习的红外光谱模型传递方法通过将随机森林思想和
    迁移学习方法相结合,提出了一种新型的红外光谱模型传递方法。同时,当待测样本的分布
    结构发生变化时,本发明所提出的方法能够自适应地调整随机森林中各个映射模型的权重
    因子。与现有方法相比,该方法具备鲁棒性强、自适应等优点,不仅可以有效提升模型传递
    的准确度和稳定性,还可以自适应样本分布结构发生变化的情形,因此可以广泛应用于固
    相、液相和气相的红外光谱模型传递领域中。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
    神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的?;し段е?。

    关于本文
    本文标题:基于随机森林迁移学习的红外光谱模型传递方法.pdf
    链接地址://www.4mum.com.cn/p-6021098.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 安徽时时直播开奖结果查询 11选5拖胆价格表 虎扑nba中文网 北京pk10人工在线稳赚计划 北京七星彩开奖结果 上下盘单双玩法 大乐透开奖 彩之网彩民互动首页 篮球滚球大小分技巧 腾讯分分有稳赚的挂机方案吗 棋牌作弊器通用版下载 福建时时官方 时时彩一星规律 pk10稳赚技巧方案 大亨pk10专业版计划 11选5追号40期必中