• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩和尾怎么杀: 一种基于集成学习的PM25预报方法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201410174323.2

    申请日:

    2014.04.28

    公开号:

    CN103955742A

    公开日:

    2014.07.30

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06N 3/02申请日:20140428|||公开
    IPC分类号: G06N3/02 主分类号: G06N3/02
    申请人: 淮阴工学院
    发明人: 李翔; 朱全银; 王留洋
    地址: 223003 江苏省淮安市枚乘东路1号
    优先权:
    专利代理机构: 北京科亿知识产权代理事务所(普通合伙) 11350 代理人: 汤东凤
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410174323.2

    授权公告号:

    ||||||

    法律状态公告日:

    2016.11.30|||2014.08.27|||2014.07.30

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于集成学习的PM2.5预报方法,通过选择不同类型和结构的神经网络构造多个弱学习机,然后使用集成学习AdaBoost算法将多个弱学习机组合成强学习机,完成PM2.5预报工作,有效改善了PM2.5预报精度,利用集成学习AdaBoost算法对多个不同类型和不同结构的神经网络进行加权学习,生成强学习机模型;采用本发明对PM2.5进行预报,可有效提高预报精度和泛化能力,方法简单,操作方便,较好地解决了传统神经网络弱学习机存在易陷入局部极小值、预测误差较大、泛化能力较弱不足的问题。

    权利要求书

    权利要求书
    1.  一种基于集成学习的PM2.5预报方法,其特征在于,该基于集成学习的PM2.5预报方法包括以下步骤:
    步骤一,数据采集及数据预处理,得到初始数据集;
    步骤二,将初始数据集构造成AdaBoost算法的弱学习算法人工神经网络可读的样本集;
    步骤三,选定不同类型和结构的神经网络作为集成学习中的弱学习算法;
    步骤四,利用AdaBoost算法对训练样本集进行迭代训练得到满足误差要求的弱学习机序列,再利用弱学习机序列加权求和的方法得到强学习机;
    步骤五,利用强学习机完成PM2.5值预报。

    2.  如权利要求1所述的基于集成学习的PM2.5预报方法,其特征在于,在步骤一中,对PM2.5数据进行预处理,包括:填补缺失数据,修正噪声数据,归一化处理;
    PM2.5数据通过室外的采样设备,24小时连续采集室外的环境空气,然后将数据传回自动监测分析设备,经过仪器的自动实时分析,生成数据并传输到环境监测中心;监测中心根据传回的数据进行统计和综合分析,得出空气质量状况报告,每小时通过网络向公众发布实时监测结果。

    3.  如权利要求2所述的基于集成学习的PM2.5预报方法,其特征在于,采用回归填补法实现填补缺失数据,通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk,k=1,2,…,K)的回归模型,然后利用已知变量Xk的信息和回归模型,对缺失变量Y的缺失数据进行估计的方法;即通过回归模型推出第i个 缺失数据的估计值可以表示为:
    Yi=β+Σk=1KβkXki+ϵi]]>
    其中β为回归系数,Xki表示第i个对象的第k个属性值,εi为随机误差。

    4.  如权利要求2所述的基于集成学习的PM2.5预报方法,其特征在于,采用回归填补法来修正噪声数据,基本思想是对噪声数据清除,然后采用回归填补法填补,通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk,k=1,2,…,K)的回归模型,然后利用已知变量Xk的信息和回归模型,对缺失变量Y的缺失数据进行估计的方法;即通过回归模型推出第i个缺失数据的估计值可以表示为:
    Yi=β+Σk=1KβkXki+ϵi]]>
    其中β为回归系数,Xki表示第i个对象的第k个属性值,εi为随机误差。

    5.  如权利要求2所述的基于集成学习的PM2.5预报方法,其特征在于,数据归一化的目的是将不同量纲和不同数量级大小的数据转变成相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据,归一化处理能有效地去除由于测量值大小不同所导致的数据集的方差;采用的归一化方法是平均数方差法,公式为Yi=(Yi-Ymean)/Yvar,式中,Ymean为数据序列的均值,Yvar为数据的方差。

    6.  如权利要求1所述的基于集成学习的PM2.5预报方法,其特征在于,步骤四的具体步骤为:
    第一步,初始化弱学习机类型和结构;
    第二步,选取样本子集;
    第三步,用弱学习机对样本子集进行训练;
    第四步,判断是否达到最大迭代次数,是,则执行第七步;否,则执行下一步;
    第五步,用子学习机模型对样本进行预测;
    第六步,更新样本集的概率分布,返回第二步;
    第七步,加权组合预测模型。

    7.  如权利要求1所述的基于集成学习的PM2.5预报方法,其特征在于,该基于集成学习的PM2.5预报方法包括:
    步骤一:PM2.5数据采集及数据预处理,包括:填补缺失数据,修正噪声数据,归一化处理,得到初始历史数据样本集S;
    步骤二:将初始历史数据样本集S构造成集成学习AdaBoost算法中弱学习算法可读的训练样本集Strain和测试样本集Stest;
    步骤三:选定不同类型和结构的神经网络作为集成学习中的弱学习算法,利用AdaBoost算法对训练样本集Strain进行迭代训练得到满足误差要求的弱学习机序列h,再利用弱学习机序列h加权求和的方法得到强学习机H;
    步骤四:利用强学习机H对PM2.5值进行预报。

    8.  如权利要求7所述的基于集成学习的PM2.5预报方法,其特征在于,步骤三具体包括:
    第一步:设定集成学习AdaBoost算法最大迭代次数为T,并选取不同类型和结构的神经网络作为AdaBoost算法调用的弱学习算法;
    第二步:初始化测试数据分布权值;分布权值Dt(i)的计算公式为:
    Dt(i)=1n,i=1,2,...,n]]>
    式中:
    Dt(i)为分布权值;
    n为训练样本集的数量;
    t为迭代次数,初始化时t=1;
    第三步:对弱学习机进行迭代预算,在训练第t个弱学习机ht时,建立回归模型,并计算误差率;
    回归模型为:
    gt(x)→y
    式中:
    gt(x)为回归模型函数表达式;
    y为回归模型;
    第四步:计算弱学习机ht的训练预测误差εt;预测误差εt的计算公式为:
    εt=ΣDt(i)
    式中:
    i满足|gt(xi)-yiyi|>φ;]]>
    φ(0<φ<1)为设置的神经网络阈值;
    第五步:根据训练预测误差εt更新训练样本集Strain中各样本权值;更新原始数据样本集中训练样本的权值的权值Dt+1(i)的计算公式为:

    式中:
    Dt+1(i)为调整后的权值;
    Bt为标准化因子;
    第六步:重复步第三步-步骤第五步,若达到最大训练次数T,则执行第七步;
    第七步:输出强学习机H;强学习机H的计算公式为:
    H=Σt=1T{(log1βt)·gt(x)}Σt=1T(log1βt)]]>
    式中:
    H为强学习机;
    T为最大迭代次数。

    说明书

    说明书一种基于集成学习的PM2.5预报方法
    技术领域
    本发明属于PM2.5预报技术领域,尤其涉及一种基于集成学习的PM2.5预报方法。
    背景技术
    为公众普遍关注的社会问题。PM2.5是对空气中直径小于或等于2.5的固体颗?;蛞旱蔚淖艹?,又叫细颗粒物或入肺颗粒物。这些颗粒粒径小,质量轻,悬浮于空气的时间长,传播距离远,并可携带有毒有害物质进入呼吸道和肺部,可对人体心、肺等健康构成直接威胁。因此对PM2.5空气污染物监测和预报显得很重要。
    空气污染系统是一个开放的、复杂的、非线性的大系统,同时又是一个动态的非平衡的复合系统,空气质量的变化过程受物理、化学、生物、气象以及人类活动等多种因素的影响,表现出貌似随机变化的复杂非线性特性。目前人工神经网络在环境空气质量预报领域的应用仍处于研究、探索阶段。今年有研究将BP神经网络应用到环境空气质量预测,建立起了环境空气质量预测模型,取得了较好地预测效果。但传统BP神经网络也存在一些缺陷,主要表现为容易陷入局部极小值、算法收敛速度较慢、隐藏单元的数目选择尚无一般性指导原则、新加入的学习样本对已学完样本的学习结果影响较大等问题。也有研究 使用遗传算法优化BP网络预测大气污染,使网络训练收敛到全局的最优,以解决了BP算法易陷入局部极小值的问题,但该类算法只能有限提高原有BP神经网络的预测精度,并不能把预测误差较大的BP神经网络优化为能够准确预测的BP网络,且对样本数量少、样本分布不均匀而造成预测误差大的问题,优化后的网络预测能力一般得不到明显提高。
    发明内容
    本发明实施例的目的在于提供一种基于集成学习的PM2.5预报方法,旨在解决传统神经网络弱学习机存在易陷入局部极小值、预测误差较大、泛化能力较弱不足的问题。
    本发明实施例是这样实现的,一种基于集成学习的PM2.5预报方法,该基于集成学习的PM2.5预报方法包括以下步骤:
    步骤一,数据采集及数据预处理,得到初始数据集;
    步骤二,将初始数据集构造成AdaBoost算法的弱学习算法人工神经网络可读的样本集;
    步骤三,选定不同类型和结构的神经网络作为集成学习中的弱学习算法;
    步骤四,利用AdaBoost算法对训练样本集进行迭代训练得到满足误差要求的弱学习机序列,再利用弱学习机序列加权求和的方法得到强学习机;
    步骤五,利用强学习机完成PM2.5值预报。
    进一步,在步骤一中,对PM2.5数据进行预处理,包括:填补缺失数据,修正噪声数据,归一化处理;
    PM2.5数据通过室外的采样设备,24小时连续采集室外的环境空气,然后 将数据传回自动监测分析设备,经过仪器的自动实时分析,生成数据并传输到环境监测中心;监测中心根据传回的数据进行统计和综合分析,得出空气质量状况报告,每小时通过网络向公众发布实时监测结果。
    进一步,采用回归填补法实现填补缺失数据,通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk,k=1,2,…,K)的回归模型,然后利用已知变量Xk的信息和回归模型,对缺失变量Y的缺失数据进行估计的方法;即通过回归模型推出第i个缺失数据的估计值可以表示为:
    Yi=β+Σk=1KβkXki+ϵi]]>
    其中β为回归系数,Xki表示第i个对象的第k个属性值,εi为随机误差。
    进一步,采用回归填补法来修正噪声数据,基本思想是对噪声数据清除,然后采用回归填补法填补,通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk,k=1,2,…,K)的回归模型,然后利用已知变量Xk的信息和回归模型,对缺失变量Y的缺失数据进行估计的方法;即通过回归模型推出第i个缺失数据的估计值可以表示为:
    Yi=β+Σk=1KβkXki+ϵi]]>
    其中β为回归系数,Xki表示第i个对象的第k个属性值,εi为随机误差。
    进一步,数据归一化的目的是将不同量纲和不同数量级大小的数据转变成相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据,归一化处理能有效地去除由于测量值大小不同所导致的数据集的方差;采用的归一化方法是平均数方差法,公式为Yi=(Yi-Ymean)/Yvar,式中,Ymean为数据序列的均值,Yvar为数据的方差。
    进一步,步骤四的具体步骤为:
    第一步,初始化弱学习机类型和结构;
    第二步,选取样本子集;
    第三步,用弱学习机对样本子集进行训练;
    第四步,判断是否达到最大迭代次数,是,则执行第七步;否,则执行下一步;
    第五步,用子学习机模型对样本进行预测;
    第六步,更新样本集的概率分布,返回第二步;
    第七步,加权组合预测模型。
    进一步,该基于集成学习的PM2.5预报方法包括:
    步骤一:PM2.5数据采集及数据预处理,包括:填补缺失数据,修正噪声数据,归一化处理,得到初始历史数据样本集S;
    步骤二:将初始历史数据样本集S构造成集成学习AdaBoost算法中弱学习算法可读的训练样本集Strain和测试样本集Stest;
    步骤三:选定不同类型和结构的神经网络作为集成学习中的弱学习算法,利用AdaBoost算法对训练样本集Strain进行迭代训练得到满足误差要求的弱学习机序列h,再利用弱学习机序列h加权求和的方法得到强学习机H;
    步骤四:利用强学习机H对PM2.5值进行预报。
    进一步,步骤三的具体包括:
    第一步:设定集成学习AdaBoost算法最大迭代次数为T,并选取不同类型和结构的神经网络作为AdaBoost算法调用的弱学习算法;
    第二步:初始化测试数据分布权值;分布权值Dt(i)的计算公式为:
    Dt(i)=1n,i=1,2,...,n]]>
    式中:
    Dt(i)为分布权值;
    n为训练样本集的数量;
    t为迭代次数,初始化时t=1;
    第三步:对弱学习机进行迭代预算,在训练第t个弱学习机ht时,建立回归模型,并计算误差率;
    回归模型为:
    gt(x)→y
    式中:
    gt(x)为回归模型函数表达式;
    y为回归模型;
    第四步:计算弱学习机ht的训练预测误差εt;预测误差εt的计算公式为:
    εt=ΣDt(i)
    式中:
    i满足|gt(xi)-yiyi|>φ;]]>
    φ(0<φ<1)为设置的神经网络阈值;
    第五步:根据训练预测误差εt更新训练样本集Strain中各样本权值;更新原始数据样本集中训练样本的权值的权值Dt+1(i)的计算公式为:

    式中:
    Dt+1(i)为调整后的权值;
    Bt为标准化因子;
    第六步:重复步第三步-步骤第五步,若达到最大训练次数T,则执行第七步;
    第七步:输出强学习机H;强学习机H的计算公式为:
    H=Σt=1T{(log1βt)·gt(x)}Σt=1T(log1βt)]]>
    式中:
    H为强学习机;
    T为最大迭代次数。
    本发明提供的基于集成学习的PM2.5预报方法,通过选择不同类型和结构的神经网络构造多个弱学习机,然后使用集成学习AdaBoost算法将多个弱学习机组合成强学习机,完成PM2.5预报工作,有效改善了PM2.5预报精度,利用集成学习AdaBoost算法对多个不同类型和不同结构的神经网络进行加权学习,生成强学习机模型;采用本发明对PM2.5进行预报,可有效提高预报精度和泛化能力,方法简单,操作方便,较好地解决了传统神经网络弱学习机存在易陷入局部极小值、预测误差较大、泛化能力较弱不足的问题。
    附图说明
    图1是本发明实施例提供的基于集成学习的PM2.5预报方法流程图;
    图2是本发明实施例提供的集成学习AdaBoost算法生成强学习机的原理示意图;
    图3是本发明实施例提供的集成学习算法流程图。
    具体实施方式
    为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实施例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
    下面结合附图及具体实施例对本发明的应用原理作进一步描述。
    如图1所示,本发明实施例的基于集成学习的PM2.5预报方法包括以下步骤:
    S101:数据采集及数据预处理,得到初始数据集;
    S102:将初始数据集构造成AdaBoost算法的弱学习算法(人工神经网络)可读的样本集;
    S103:选定不同类型和结构的神经网络作为集成学习中的弱学习算法;
    S104:利用AdaBoost算法对训练样本集进行迭代训练得到满足误差要求的弱学习机序列,再利用弱学习机序列加权求和的方法得到强学习机;
    S105:利用强学习机完成PM2.5值预报。
    如图3所示,本发明的步骤S104的具体步骤为:
    S301:初始化弱学习机类型和结构;
    S302:选取样本子集;
    S303:用弱学习机对样本子集进行训练;
    S304:判断是否达到最大迭代次数,是,则执行步骤S307;否,则执行下一步;
    S305:用子学习机模型对样本进行预测;
    S306:更新样本集的概率分布,返回步骤S302;
    S307:加权组合预测模型。
    图1是本方法的PM2.5预报流程图,具体包括如下步骤:
    步骤1:对PM2.5数据进行预处理,包括:填补缺失数据,修正噪声数据,归一化处理。
    (1)填补缺失数据
    由于PM2.5采集系统会受到供电、设备故障、通信中断等原因,某些时刻的PM2.5数据可能会缺失。数据缺失会影响到预测的精度,因此有必要对缺失的数据进行填补。
    实施例1:
    本发明采用回归填补法实现填补缺失数据,它是通过多元回归方法建立数据集中缺失变量(记为Y)与其它已知变量(Xk,k=1,2,…,K)的回归模型,然后利用已知变量Xk的信息和回归模型,对缺失变量Y的缺失数据进行估计的方法。即通过回归模型推出第i个缺失数据的估计值可以表示为:
    Yi=β+Σk=1KβkXki+ϵi]]>
    其中β为回归系数,Xki表示第i个对象的第k个属性值,εi为随机误差。
    仪器设备采集、传输有时也会出现噪声数据,这些值明显错误或者超出正常范围,是无意义的数据。噪声数据不一定会增加需要的存储空间容量,却有 可能影响所有数据挖掘分析的结果,因此需要修正噪声数据。本发明中同样采用回归填补法来修正噪声数据,基本思想是对噪声数据清除,然后采用回归填补法填补,详细步骤同上。
    数据归一化的目的是将不同量纲和不同数量级大小的数据转变成可以相互进行数学运算的具有相同量纲和相同数量级的具有可比性的数据,归一化处理能有效地去除由于测量值大小不同所导致的数据集的方差。本发明中采用的归一化方法是平均数方差法,其公式为Yi=(Yi-Ymean)/Yvar,式中,Ymean为数据序列的均值,Yvar为数据的方差。
    步骤1:PM2.5数据采集及数据预处理,得到初始历史数据样本集S;
    步骤2:将初始历史数据样本集S构造成集成学习AdaBoost算法中弱学习算法可读的训练样本集Strain和测试样本集Stest;
    步骤3:选定不同类型和结构的神经网络作为集成学习中的弱学习算法,利用AdaBoost算法对训练样本集Strain进行迭代训练得到满足误差要求的弱学习机序列h,再利用弱学习机序列h加权求和的方法得到强学习机H;
    步骤4:利用强学习机H对PM2.5值进行预报;
    所述步骤3包括以下步骤:
    步骤3.1:设定集成学习AdaBoost算法最大迭代次数为T,并选取不同类型和结构的神经网络作为AdaBoost算法调用的弱学习算法;
    步骤3.2:初始化测试数据分布权值;
    步骤3.3:对弱学习机进行迭代预算,在训练第t个弱学习机ht时,建立回归模型,并计算误差率;
    步骤3.4:计算弱学习机ht的训练预测误差εt;
    步骤3.5:根据训练预测误差εt更新训练样本集Strain中各样本权值;
    步骤3.6:重复步骤3.3-步骤3.5,若达到最大训练次数T,则执行步骤3.7;
    步骤3.7:输出强学习机H;
    所述分布权值Dt(i)的计算公式为:
    Dt(i)=1n,i=1,2,...,n]]>
    式中:
    Dt(i)为分布权值;
    n为训练样本集的数量;
    t为迭代次数,初始化时t=1;
    所述回归模型为:
    gt(x)→y
    式中:
    gt(x)为回归模型函数表达式;
    y为回归模型;
    所述预测误差εt的计算公式为:
    εt=ΣDt(i)
    式中:
    i满足|gt(xi)-yiyi|>φ;]]>
    φ(0<φ<1)为设置的神经网络阈值;
    所述更新原始数据样本集中训练样本的权值的权值Dt+1(i)的计算公式为:

    式中:
    Dt+1(i)为调整后的权值;
    Bt为标准化因子;
    所述强学习机H的计算公式为:
    H=Σt=1T{(log1βt)·gt(x)}Σt=1T(log1βt)]]>
    式中:
    H为强学习机;
    T为最大迭代次数。
    本发明利用集成学习AdaBoost算法对多个不同类型和不同结构的神经网络进行加权学习,生成强学习机模型,采用本发明对PM2.5进行预报,可有效提高预报精度和泛化能力。
    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的?;し段е?。

    关 键 词:
    一种 基于 集成 学习 PM25 预报 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种基于集成学习的PM25预报方法.pdf
    链接地址://www.4mum.com.cn/p-6143075.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03