• 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
    • / 13
    • 下载费用:30 金币  

    重庆时时彩历史网: 一种动态数据环境下的数据流混合分类方法.pdf

    关 键 词:
    一种 动态 数据 环境 数据流 混合 分类 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201310608553.0

    申请日:

    2013.12.26

    公开号:

    CN103678512A

    公开日:

    2014.03.26

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140326|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131226|||公开
    IPC分类号: G06F17/30; G06K9/66 主分类号: G06F17/30
    申请人: 大连民族学院
    发明人: 姚远
    地址: 116000 辽宁省大连市大连经济技术开发区辽河西路18号
    优先权:
    专利代理机构: 大连博晟专利代理事务所(特殊普通合伙) 21236 代理人: 于忠晶
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310608553.0

    授权公告号:

    ||||||

    法律状态公告日:

    2017.11.07|||2014.04.23|||2014.03.26

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明涉及智能信息处理技术领域,公开了一种动态数据环境下的数据流混合分类方法,本发明采用集成学习和混合模型框架构建数据流分类模型,可以适应数据流的海量性、实时性和动态变化性三种特点的要求,并提高数据流分类的准确率。其中,集成学习模型利用了集成学习理论相关内容,通过使用多个分类器进行分类,提高分类效果和适应数据流动态性的能力。此外,聚类方法对分类结果进行汇总,有效利用分类结果之间的内部关系,有利于提高分类准确率,减少因分类所消耗时间。

    权利要求书

    权利要求书
    1.  一种动态数据环境下的数据流混合分类方法,具体包括以下步骤:
    步骤1:动态数据流收集??椋?02)从海量实时数据流(101)中按照时间顺序收集数据;
    步骤2:数据流划分??椋?03)读取步骤1中的数据流数据,并且根据数据流数据的时间先后关系对数据流进行划分;所述数据流初始化??椋?03)划分得到的数据块中,包含3类数据分别是训练集、验证集和测试集,每个数据集中所包含的数据样本数量为N;N是固定变量,由使用者提前设定;
    步骤3:将经过数据流划分??椋?03)所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化??椋?04),对静态数据集进行归一化处理;
    步骤4:将经过数据初始化??椋?04)处理后的训练集数据输入到集成分类器??椋?05)中,所述集成分类器??椋?05)使用训练集数据进行训练,构建集成分类器模型;
    步骤5:利用参数优化??椋?06)对步骤4中集成分类器模型进行参数优化;
    步骤6:将经过数据初始化??椋?04)处理后的验证集输入到步骤5优化后的集成分类器中,得到的数据类别标签为数据集L;
    步骤7:将数据集L输入到聚类??椋?07)中,对所使用的聚类模型进行训练;
    步骤8:将数据初始化??椋?04)所得到的测试集数据输入到所构建的混合分类模型中,完成数据流分类过程。

    2.  根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤2中数据流划分??椋?03)对数据流的划分,包括以下步骤:
    步骤2.1:首先使用滑动窗口法对海量实时数据流进行静态化处理;其中,滑动窗口每次滑动的距离为N,且每个静态子集所包含的样本数量也为N个;
    步骤2.2:使用随机抽取方法对步骤2.1所得到的子集进行混合,分别得到三个数据集,即训练集、测试集和验证集,其中训练集和测试集的大小均为4N。

    3.  根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤3中数据初始化??椋?04)采用MapMinMax归一化方法对数据进行归一化处理,包括以下步骤:
    步骤3.1:首先将得到的训练集、测试集和验证集,分别对其各个属性值进行统计,找到各属性的最大和最小属性值;
    步骤3.2:对数据集的各个属性进行归一化处理,所述归一化方法公式为:
                                                                              
    其中,xi表示当前样本的第i个属性值,min(xi)和max(xi)分别表示当前第i个属性的最小和最大值,ymax和ymin分别表示归一化的上限和下限,如果想归一化到[0,1]区间时,则ymax为1,ymin为0。

    4.  根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤4中数据集成分类器??椋?05)采用支持向量机模型作为基本分类模型对数据流进行分类,并构建集成分类器,包括以下步骤:
    步骤4.1:首先使用两种支持向量机模型作为基本分类模型,即C-SVM和ν(nu)-SVM模型;
    步骤4.2:使用三种个函数对上述两种支持向量机模型进行划分,得到六个不同的支持向量机分类模型,其中,所使用核函数为线性核函数、高斯径向基核函数和Sigmoid核函数;
    步骤4.3:对得到的集成学习模型进行训练。

    5.  根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤5中参数优化??椋?06)对所构建的集成分类器进行参数优化,所使用优化方法为粒子群算法,优化过程包含以下步骤:
    步骤5.1:首先将使用C-SVM和高斯径向基核函数所构建的分类模型中的参数cg进行提??;
    步骤5.2:将数据流初始化??椋?04)归一化后的验证数据集输入到该模型中,然后使用PSO算法对参数进行优化,其中优化过程中的适应性函数使用m交叉验证的方法,其公式表示为:
                                    
    其中,参数m从验证集抽取出的样本子集的数量,li表示每个样本子集中的样本数量,liT表示子集中被分类正确的样本数量;
    步骤5.3:将优化后的参数cg加入到模型中作为模型内部参数使用。

    6.  根据权利要求1所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤7中聚类??椋?07)针对集成分类器给出的分类结果即数据集L进行聚类,得到最终的分类结果,所使用聚类方法为自组织映射,包含以下步骤:
    步骤7.1:首先对SOM模型进行训练,得到训练后的SOM模型;
    步骤7.2:将测试集输入到构建好后的集成分类模型中,得到测试集对应的类别标签数据集;
    步骤7.3:将类别标签数据集输入到训练好的SOM模型中,模型计算所输入样本与最终类别的距离,找到被激活节点,计算方法如下:
                           
    其中,x表示输入样本,wi表示SOM模型每个节点之间的权重;
    步骤7.4:重复步骤7.2至步骤7.3,直到所有数据均被分类完毕。

    7.  据权利要求2所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤2.2中所使用的测试集是验证集和训练集之外的集合,其大小等同于滑动窗口大小N,参数N必须提前人为设定。

    8.  根据权利要求4所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤4.3中所使用集成学习模型训练方法,包含以下子步骤:
    步骤4.3.1:首先将训练集划分为六个数据子集,划分方法为等分法;
    步骤4.3.2:将划分好后的分别输入到集成学习模型中的六个分类器中进行训练。

    9.  据权利要求5所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤5.2中所使用PSO优化方法,包含以下子步骤:
    步骤5.2.1:首先使用随机值对所要优化的变量进行赋值;
    步骤5.2.2:然后在优化过程中不断更新两个变量v[]和present的值,更新方法如下,
                   
    其中,v[]表示PSO算法的寻优速度,present[]表示当前最优值在解空间的位置和方向,表示一个随机函数,给出的随机值范围为(0,1),变量c1 和 c2 表示学习因子;
    步骤5.2.3:重复上述步骤,直至满足步骤5.2中的适应性函数。

    10.  根据权利要求6所述的一种动态数据环境下的数据流混合分类方法,其特征在于,所述步骤7.1中所使用SOM聚类模型的训练过程包含以下步骤:
    步骤7.1.1:首先将验证数据集输入到集成学习分类模型中,得到验证数据集所对应的类别数据集L;
    步骤7.1.2:将所得到的类别数据集对SOM模型进行训练。

    说明书

    说明书一种动态数据环境下的数据流混合分类方法
    技术领域
    本发明涉及智能信息处理技术领域,特别涉及一种动态数据环境下的数据流混合分类方法,适用于网络入侵检测,网络安全监控、传感器数据监控和电网供电等方面。 
    背景技术
    随着物联网的发展,以及“大数据”时代的到来,传统数据挖掘方法正面临着新的挑战,其中数据形式的变化是最为重要和基本的内容。传统数据形式主要以静态数据为主,其容量有限,可被存储且基本无变化。因此,对传统数据挖掘算法的设计,往往假设数据是静态,考虑更多的是算法本身而不是数据形式适应问题。 
    但近些年,随着信息化发展的深入,一种崭新的数据形式,即数据流,逐渐成为主流数据形式。与静态数据形式不同,数据流主要包含三种基本特征,即海量性、实时性和动态变化性,因此如果再继续单纯的套用传统数据挖掘方法,往往无法得到令人满意的结果,甚至是完全失效。也正因为如此,目前针对数据流挖掘的研究成为新的研究热点。 
    对数据流分类问题来说,其核心问题是设计适应数据流特点(海量性、实时性和动态变化性)的分类方法。具体来说,较传统分类方法来说,数据流的海量性特点要求数据流分类方法能够在无法存储历史数据的前提下,对数据进行训练和分类;数据流的实时性要求分类模型在分类过程中,除了要考虑分类准确率方面外,还需要对分类时间进行优化和压缩,尽可能的在新数据流产生前完成分类整体过程,对分类模型的运行效率提出了新的要求;数据流的动态变化性要求分类模型具有一定的扩充性和自我更新性,能够适应数据流的变化。因为如此,设计出完全满足数据流三种特点的分类模型,一直是学术界追求的目标,而当前所提出分类方法,大部分只能满足一种或两种数据流特点,只能在一定程度上达到分类的要求。 
    目前国际、国内尚未出现完全适应数据流特点的分类方法,亟待一种动态数据环境下的数据流混合分类方法。 
    发明内容
    本发明的目的是:为解决上述现有技术中存在的问题,提供一种动态数据环境下的数据流混合分类方法,能够满足数据流海量性、实时性和动态变化性的特点,达到分类要求。 
    为达到上述目的,本发明采用的技术方案是:一种动态数据环境下的数据流混合分类方法,具体包括以下步骤: 
    步骤1:动态数据流收集???02从海量实时数据流101中按照时间顺序收集数据。
    步骤2:数据流划分???03读取步骤1中的数据流数据,并且根据数据流数据的时间先后关系对数据流进行划分;所述数据流初始化???03划分得到的数据块中,包含3类数据分别是训练集、验证集和测试集,每个数据集中所包含的数据样本数量为N;N是固定变量,由使用者提前设定。 
    步骤3:将经过数据流划分???03所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化???04,对静态数据集进行归一化处理。 
    步骤4:将经过数据初始化???04处理后的训练集数据输入到集成分类器???05中,所述集成分类器???05对训练集数据进行分类并构建集成分类器。 
    步骤5:利用参数优化??椋?06)对步骤4中集成分类器模型进行参数优化; 
    步骤6:将经过数据初始化??椋?04)处理后的验证集输入到步骤5优化后的集成分类器中,得到的数据类别标签为数据集L;
    步骤7:将数据集L输入到聚类???07中,对所使用的聚类模型进行训练。
    步骤8:将数据初始化???04所得到的测试集数据输入到所构建的混合分类模型中,完成数据流分类过程。 
    其中,所述步骤2中数据流划分???03对数据流的划分,包括以下步骤: 
    步骤2.1:首先使用滑动窗口法对海量实时数据流进行静态化处理;其中,滑动窗口每次滑动的距离为N,且每个静态子集所包含的样本数量也为N个;
    步骤2.2:使用随机抽取方法对步骤2.1所得到的子集进行混合,分别得到三个数据集,即训练集、测试集和验证集,其中训练集和测试集的大小均为4N。
    其中,所述步骤3中数据初始化???04采用MapMinMax归一化方法对数据进行归一化处理,包括以下步骤: 
    步骤3.1:首先将得到的训练集、测试集和验证集,分别对其各个属性值进行统计,找到各属性的最大和最小属性值;
    步骤3.2:对数据集的各个属性进行归一化处理,所述归一化方法公式为:
                                
    其中,xi表示当前样本的第i个属性值,min(xi)和max(xi)分别表示当前第i个属性的最小和最大值,ymax和ymin分别表示归一化的上限和下限,如果想归一化到[0,1]区间时,则ymax为1,ymin为0。
    其中,所述步骤4中数据集成分类器???05采用支持向量机模型作为基本分类模型对数据流进行分类,并构建集成分类器,包括以下步骤: 
    步骤4.1:首先使用两种支持向量机模型作为基本分类模型,即C-SVM和ν(nu)-SVM模型;
    步骤4.2:使用三种个函数对上述两种支持向量机模型进行划分,得到六个不同的支持向量机分类模型,其中,所使用核函数为线性核函数、高斯径向基核函数和Sigmoid核函数;
    步骤4.3:对得到的集成学习模型进行训练。
    其中,所述步骤5中参数优化???06对所构建的集成分类器进行参数优化,所使用优化方法为粒子群算法,优化过程包含以下步骤: 
    步骤5.1:首先将使用C-SVM和高斯径向基核函数所构建的分类模型中的参数cg进行提??;
    步骤5.2:将数据流初始化???04归一化后的验证数据集输入到该模型中,然后使用PSO算法对参数进行优化,其中优化过程中的适应性函数使用m交叉验证的方法,其公式表示为:
                                    
    其中,参数m从验证集抽取出的样本子集的数量,li表示每个样本子集中的样本数量,liT表示子集中被分类正确的样本数量;
    步骤5.3:将优化后的参数cg加入到模型中作为模型内部参数使用。 
    其中,所述步骤7中聚类???07针对集成分类器给出的分类结果即数据集L进行聚类,得到最终的分类结果,所使用聚类方法为自组织映射,包含以下步骤: 
    步骤7.1:首先对SOM模型进行训练,得到训练后的SOM模型;
    步骤7.2:将测试集输入到构建好后的集成分类模型中,得到测试集对应的类别标签数据集;
    步骤7.3:将类别标签数据集输入到训练好的SOM模型中,模型计算所输入样本与最终类别的距离,找到被激活节点,计算方法如下:
                           
    其中,x表示输入样本,wi表示SOM模型每个节点之间的权重;
    步骤7.4:重复步骤7.2至步骤7.3,直到所有数据均被分类完毕。
    其中,所述步骤2.2中所使用的测试集是验证集和训练集之外的集合,其大小等同于滑动窗口大小N,参数N必须提前人为设定。 
    其中,所述步骤4.3中所使用集成学习模型训练方法,包含以下子步骤: 
    步骤4.3.1:首先将训练集划分为六个数据子集,划分方法为等分法;
    步骤4.3.2:将划分好后的分别输入到集成学习模型中的六个分类器中进行训练。
    其中,所述步骤5.2中所使用PSO优化方法,包含以下子步骤: 
    步骤5.2.1:首先使用随机值对所要优化的变量进行赋值;
    步骤5.2.2:然后在优化过程中不断更新两个变量v[]和present的值,更新方法如下,
                   
    其中,v[]表示PSO算法的寻优速度,present[]表示当前最优值在解空间的位置和方向, 表示一个随机函数,给出的随机值范围为(0,1),变量c1 和 c2 表示学习因子;
    步骤5.2.3:重复上述步骤,直至满足步骤5.2中的适应性函数。
    其中,所述步骤7.1中所使用SOM聚类模型的训练过程包含以下步骤: 
    步骤7.1.1:首先将验证数据集输入到集成学习分类模型中,得到验证数据集所对应的类别数据集L;
    步骤7.1.2:将所得到的类别数据集对SOM模型进行训练。
    其中,所述数据流101包括:网络入侵监测、网络安全监控、传感器数据监控及电网供电各个方面数据。
    本发明的有益效果是:本发明采用集成学习和混合模型框架构建数据流分类模型,可以适应数据流的海量性、实时性和动态变化性三种特点的要求,并提高数据流分类的准确率。其中,集成学习模型利用了集成学习理论相关内容,通过使用多个分类器进行分类,提高分类效果和适应数据流动态性的能力。此外,聚类方法对分类结果进行汇总,有效利用分类结果之间的内部关系,有利于提高分类准确率,减少因分类所消耗时间。 
    附图说明
    图1为本发明一种动态数据环境下的数据流混合分类方法的流程框图。 
    图2为本发明利用集成学习构建分类器的一种具体实施方式。 
    图3为本发明数据集转化为标签集的流程图。 
    附图标识:101-数据流,102-数据流收集???,103-数据流划分???,104-数据流初始化???,105-集成分类器???,106-参数优化???,107-聚类???。 
    具体实施方式
    下面结合附图和实施例对本发明进行详细说明。 
    参照图1,本发明一种动态数据环境下的数据流混合分类方法的框架,包括数据流101,数据流收集???02,数据流划分???03,数据流初始化???04,集成分类器???05,参数优化???06,聚类???07; 
    其中,数据流收集???02从数据流101中按照时间的先后顺序得到流式数据,所述数据流101包括对本领域普通技术人员已知的任何类型的数据流,特别包括网络入侵检测数据流,网络安全监控数据流、传感器数据监控数据流和电网供电数据流。由于数据流是实时海量产生的,因此无法通过物理存储的方式对数据进行保存,数据使用完毕后就被删除。
    数据流划分???03从数据流收集???02中获取流式数据样本,并按照人为提前设定好的滑动窗口容量,按照数据样本的时间先后关系对数据流进行划分,得到多个静态的数据子集。这些子集所包含的样本数量相同,且相互之间没有交集。数据流划分???03所指定的大小由用户提前指定,并且数据流初始化???04,集成分类器???05,参数优化???06,聚类???07所设计的原始数据集均由数据流划分???03的划分结果得到。 
    将数据流划分???03划分后得到的数据块输入到数据流初始化???04中,对其进行初始化操作,内容包括:首先使用现行归一化方法对原始数据块进行归一化处理;然后,使用随机抽取的方法,得到两个新数据集,即训练集和验证集。其中训练集用来对集成分类模型进行训练,验证集用来对聚类模型进行训练。 
    将数据流初始化???04得到的训练集,输入到集成分类器???05中,对集成分类器进行学习。集成分类器???05使用支持向量机模型作为基本分类器,并且通过使用不同支持向量机(C-SVM和nv-SVM)和核函数(线性核函数、高斯径向基核函数和Sigmoid核函数)构建6种不同的分类模型,使用训练集对其进行训练。 
    将集成分类器???05所构建的分类器使用参数优化???06进行参数优化。首先将使用C-SVM和高斯径向基核函数所构建的分类模型中的参数cg进行提取,然后将数据流初始化???04归一化够的验证数据集输入到该模型中,然后使用PSO算法,对参数进行优化,其中适应性函数为: 
                                    
    其中,参数m从验证集抽取出的样本子集的数量,li表示每个样本子集中的样本数量,liT表示子集中被分类正确的样本数量;最后将优化后的参数cg加入到模型中作为模型内部参数使用。
    将验证数据集输入优化后的集成分类模型???05,得到标签数据集,然后使用得到的标签数据集对聚类???07进行训练,完成对混合分类模型的构建。 
    将数据流101产生的新数据作为测试数据,使用数据流收集???02进行静态化处理,进而使用数据流划分???03进行划分,得到静态的数据集。最后使用数据流初始化???04对测试集进行归一化处理,将处理好的数据输入到上述步骤所构建的混合分类模型中,最终得到数据分类结果。 
    参照图2,所述利用集成学习构建分类器的一种具体实施方式。在多分类器构建中,使用了集成学习的思想,使用多个支持向量机模型进行集成分类模型构建。分别使用了两种支持向量机模型(C-SVM和nv-SVM),并结合3种核函数(线性核函数、高斯径向基核函数和Sigmoid核函数)构建出6种不同的分类模型,将它们集成起来构建集成分类模型整体。 
    参照图3,所述数据集转化为标签集的流程图。训练数据集通过构建的集成分类模型后,每个分类器会给出一个分类结果,即类别标签。本发明中,集成分类模型包含有6个分类器,因此数据输入到集成分类模型后会得到6个类别标签。这些标签和输入的数据具有对应关系,通过集成分类模型相互转化。所得到的类别标签数据集将作为聚类模型的输入数据,为后续工作提供数据支持。 
    实例1 
    一种动态数据环境下的数据流混合分类方法,具体包括以下步骤:
    步骤1:以澳大利亚个人信用数据集作为数据流,动态数据流收集??椋?02)从数据流中按照时间顺序收集数据;其包含样本数量为690,15个属性,其中前14个属性为数据属性,第15个属性为类别属性;经统计,类别标签为“1”的占整体数据样本的55.5%,类别标签为“0”的占数据整体的44.5%。
    步骤2:数据流划分??椋?03)读取澳大利亚个人信用数据流数据,并且根据数据流数据的时间先后关系对数据流进行划分; 
    所述数据流划分??椋?03)对数据流的划分,包括以下步骤:
    步骤2.1:首先对数据流进行静态化处理,使用滑动窗口方法,按照时间顺序对数据流进行划分,窗口大小设定为10,因此得到69个数据子集,将前30个数据子集取出。
    步骤2.2:使用随机抽取的方法对上述子集进行抽取,得到训练集和验证集,且每个集合的样本数量为120;其余39个数据子集作为测试集,为后续测试做准备。 
    步骤3:将经过数据流划分??椋?03)所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化??椋?04),对静态数据集进行归一化处理; 
    所述数据初始化??椋?04)采用MapMinMax归一化方法对数据进行归一化处理,包括以下步骤:
    步骤3.1:将数据属性值映射到[0,1]区间;参考MapMinMax公式,假设第1个属性的最大最小值分别为100和50,且ymax为1,ymin为0,那么属性值为66的样本;
    步骤3.2:对上述属性进行归一化处理,归一化后为:
    。
    步骤4:将经过数据初始化??椋?04)处理后的训练集数据输入到集成分类器??椋?05)中,所述集成分类器??椋?05)使用训练集数据进行训练,构建集成分类器模型。 
    步骤4.1:采用支持向量机模型(Support vector machine,SVM)为基础分类器。 
    步骤4.2:使用不同的分类器以及核函数构建6种分类模型,分别是C-SVM和线性核函数(Model1),C-SVM和高斯径向基核函数(Model2),C-SVM和Sigmoid核函数(Model3),v-SVM和线性核函数(Model4),v-SVM和高斯径向基核函数(Model5),v-SVM和Sigmoid核函数(Model6)。 
    步骤4.3:对得到的集成学习模型进行训练;所述集成学习模型训练方法,包含以下子步骤: 
    步骤4.3.1:将训练集使用随机抽取的方法,划分为6个子集(X1,X2,…,X6),且每个子集具有相同样本数量;数量可提前人为设定,例如100。
    步骤4.3.2:将得到的子集,分别输入到对应的6种分类器中进行训练,完成训练过程。 
    步骤5:利用参数优化??椋?06)对步骤4中集成分类器模型模型中的Model2进行参数优化,所使用优化方法为粒子群算法(PSO),优化过程包含以下步骤: 
    步骤5.1:首先将使用C-SVM和高斯径向基核函数所构建的分类模型中的参数cg进行提??;
    步骤5.2:将归一化后的验证集输入到集成分类模型中,使用PSO算法对参数进行优化;
    所述PSO优化方法,优化过程包含以下子步骤:
    步骤5.2.1:对参数cg使用随机值进行赋值,假设c为0.5,g为0.7,然后带入到模型中进行分类;
    步骤5.2.3:计算适应性函数值,查看是否满足要求;适应性函数计算方法为:假设被Model1分类准确的样本数量为60,Model2为80,Model3为30,Model4为50,Model5为78,Model6为88,且样本总数量为100,则:
    。
    若提前设定的适应性函数值为50%,则参数满足要求,优化过程结束。 
    若提前设定的适应性函数值为80%,则参数不满足要求,使用PSO算法对参数进行更新;假设寻优速度v[]为0.6,学习因子c1和c2分别为0.3和0.4,对于参数c来说,当前参数值present[]为0.5,随机值rand()为0.1,当前最优值pbest[]为0.5,全局最优值gbest[]为0.6,则: 
    ;
    最后通过计算得到参数c的新值为1.104,参数g的更新过程与参数c类似,此处不再赘述。
    重复上述过程,直至满足适应性函数要求,完成优化过程。 
    步骤6:将验证数据集输入到优化后的集成分类模型中,得到标签数据集L; 
    步骤7:使用标签数据集L对自组织映射(SOM)聚类模型进行训练,训练过程如下:
    步骤7.1:使用随机值初始化SOM模型;
    步骤7.2:假设类别数据集中某一向量为Li={l1,l2,…,l6}边权重为wj={w1j,w2j,…w6j};
    步骤7.3:计算激活结点;假设当前样本向量为{1,0,1,1,1,0},边权重为{0.1,0.5,0.3,0.4,0.2,0.4},则:
    ;
    将激活点与所输入的样本向量的类别想关联,完成对SOM模型的训练。
    步骤8:将数据初始化??椋?04)所得到的测试集数据输入到所构建的混合分类模型中,完成数据流分类过程。所述测试集分类过程为: 
    第一步:将测试集输入到集成分类器模型中,收集各个子分类器给出的类别标签,从而得到类别标签数据集L。
    第二步:将类别标签数据集L输入到SOM模型中,寻找激活结点。 
    第三步:将激活结点的类别作为数据类别,完成分类过程。 
    实例2 
    一种动态数据环境下的数据流混合分类方法,具体包括以下步骤:
    步骤1:以德国个人信用数据集作为数据流,动态数据流收集??椋?02)从数据流中按照时间顺序收集数据;其包含样本数量为1000,20个属性,其中前19个属性为数据属性,第20个属性为类别属性;经统计,类别标签为“1”的占整体数据样本的70%,类别标签为“0”的占数据整体的30%。
    步骤2:数据流划分??椋?03)读取德国个人信用数据流数据,并且根据数据流数据的时间先后关系对数据流进行划分; 
    所述数据流划分??椋?03)对数据流的划分,包括以下步骤:
    步骤2.1:首先对数据流进行静态化处理,使用滑动窗口方法,按照时间顺序对数据流进行划分,窗口大小设定为10,因此得到100个数据子集,将前40个数据子集取出。
    步骤2.2:使用随机抽取的方法对上述子集进行抽取,得到训练集和验证集,且每个集合的样本数量为400;其余60个数据子集作为测试集,为后续测试做准备。 
    步骤3:将经过数据流划分??椋?03)所得到的三种静态数据集即训练集、测试集和验证集输入到数据初始化??椋?04),对静态数据集进行归一化处理; 
    所述数据初始化??椋?04)采用MapMinMax归一化方法对数据进行归一化处理,包括以下步骤:
    步骤3.1:将数据属性值映射到[0,1]区间;参考MapMinMax公式,假设第1个属性的最大最小值分别为350和120,且ymax为1,ymin为0,那么属性值为136的样本;
    步骤3.2:对上述属性进行归一化处理,归一化后为:
    。
    步骤4:将经过数据初始化??椋?04)处理后的训练集数据输入到集成分类器??椋?05)中,所述集成分类器??椋?05)使用训练集数据进行训练,构建集成分类器模型。 
    步骤4.1:采用支持向量机模型(Support vector machine,SVM)为基础分类器。 
    步骤4.2:使用不同的分类器以及核函数构建6种分类模型,分别是C-SVM和线性核函数(Model1),C-SVM和高斯径向基核函数(Model2),C-SVM和Sigmoid核函数(Model3),v-SVM和线性核函数(Model4),v-SVM和高斯径向基核函数(Model5),v-SVM和Sigmoid核函数(Model6)。 
    步骤4.3:对得到的集成学习模型进行训练;所述集成学习模型训练方法,包含以下子步骤: 
    步骤4.3.1:将训练集使用随机抽取的方法,划分为6个子集(X1,X2,…,X6),且每个子集具有相同样本数量;数量可提前人为设定,例如300。
    步骤4.3.2:将得到的子集,分别输入到对应的6种分类器中进行训练,完成训练过程。 
    步骤5:利用参数优化??椋?06)对步骤4中集成分类器模型模型中的Model2进行参数优化,所使用优化方法为粒子群算法(PSO),优化过程包含以下步骤: 
    步骤5.1:首先将使用C-SVM和高斯径向基核函数所构建的分类模型中的参数cg进行提??;
    步骤5.2:将归一化后的验证集输入到集成分类模型中,使用PSO算法对参数进行优化;
    所述PSO优化方法,优化过程包含以下子步骤:
    步骤5.2.1:对参数cg使用随机值进行赋值,假设c为12,g为15,然后带入到模型中进行分类;
    步骤5.2.3:计算适应性函数值,查看是否满足要求;适应性函数计算方法为:假设被Model1分类准确的样本数量为100,Model2为200,Model3为250,Model4为247,Model5为232,Model6为189,且样本总数量为300,则:
    。
    若提前设定的适应性函数值为50%,则参数满足要求,优化过程结束。 
    若提前设定的适应性函数值为90%,则参数不满足要求,使用PSO算法对参数进行更新;假设寻优速度v[]为0.45,学习因子c1和c2分别为0.2和0.3,对于参数c来说,当前参数值present[]为12,随机值rand()为0.1,当前最优值pbest[]为12,全局最优值gbest[]为15,则: 
    ;
    最后通过计算得到参数c的新值为12.54,参数g的更新过程与参数c类似,此处不再赘述。
    重复上述过程,直至满足适应性函数要求,完成优化过程。 
    步骤6:将验证数据集输入到优化后的集成分类模型中,得到标签数据集L。 
    步骤7:使用标签数据集L对自组织映射(SOM)聚类模型进行训练,训练过程如下: 
    步骤7.1:使用随机值初始化SOM模型;
    步骤7.2:假设类别数据集中某一向量为Li={l1,l2,…,l6}边权重为wj={w1j,w2j,…w6j};
    步骤7.3:计算激活结点;假设当前样本向量为{1,1,0,0,1,0},边权重为{0.7,0.5,0.8,0.2,0.6,0.9},则:
    ;
    将激活点与所输入的样本向量的类别想关联,完成对SOM模型的训练。
    步骤8:将数据初始化??椋?04)所得到的测试集数据输入到所构建的混合分类模型中,完成数据流分类过程。所述测试集分类过程为: 
    第一步:将测试集输入到集成分类器模型中,收集各个子分类器给出的类别标签,从而得到类别标签数据集L。
    第二步:将类别标签数据集L输入到SOM模型中,寻找激活结点。 
    第三步:将激活结点的类别作为数据类别,完成分类过程。 
    以上内容是结合优选技术方案对本发明所做的进一步详细说明,不能认定发明的具体实施仅限于这些说明。对本发明所属技术领域的普通技术人员来说,在不脱离本发明的构思的前提下,还可以做出简单的推演及替换,都应当视为本发明的?;し段?。    内容来自专利网重庆时时彩单双窍门 www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种动态数据环境下的数据流混合分类方法.pdf
    链接地址://www.4mum.com.cn/p-6181303.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 双色球2017129红球推荐 浙江飞鱼 2017澳门电子游戏网站 77足球比分网 银川划水麻将 体彩排列3走势图 赢话费斗地主手机版 藏宝阁香港最准二肖中特 广西11选5走势一定牛 18156期足彩进球彩 新快3玩法技巧 东方6+1基本走势图 湖南幸运赛车直播现场 新浪体育手机新浪网一 天天捕鱼赢话费电玩版 广东26选5走势图