• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 6
    • 下载费用:30 金币  

    重庆时时彩开奖视频怎么打不开了: 一种基于低位管理的频繁项集数据挖掘方法.pdf

    关 键 词:
    一种 基于 低位 管理 频繁 集数 挖掘 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201510548391.5

    申请日:

    2015.08.31

    公开号:

    CN106484727A

    公开日:

    2017.03.08

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20150831|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 鞍钢股份有限公司
    发明人: 柴明亮; 宋宝宇; 刘宝权; 张岩; 李连成; 王靖震; 宋君; 高冰; 王奎越; 秦大伟
    地址: 114021 辽宁省鞍山市铁西区鞍钢厂区内
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510548391.5

    授权公告号:

    |||

    法律状态公告日:

    2017.04.26|||2017.03.08

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种基于低位管理的频繁项集数据挖掘方法,首先根据一项集的支持度及其平均值,得到一项集高位和低位,然后,根据一项集域值方差和域值方差平均值对一项集低位进行再处理,得到最终的频繁一项集,最后进行循环处理,第k步,根据k-1步频繁的k-1项集Lk-1按照Apriori_gen产生候选的k项集Ck集,对候选的k项集计算每项的支持度及其平均值和域值方差平均值,找出支持度大于或等于平均支持度的项,作为频繁k项集,简称k项集高位;支持度小于平均支持度的项作为不频繁k项集,简称k项集低位;计算低位k项集域值方差,小于域值方差平均值的项集则进位为高位k项集。此方法得到了有意义的频繁项集,解决了由于人为设定域值带来的频繁项集发现的问题。

    权利要求书

    1.一种基于低位管理的频繁项集数据挖掘方法,其特征在于包括以下步骤:
    ⑴频繁一项集的生成,根据数据库计算一项集的支持度及其平均值和域值
    方差平均值,支持度大于或等于平均支持度的项,作为频繁一项集,简称一项集
    高位;支持度小于平均支持度的项作为不频繁一项集,简称一项集低位;
    ⑵一项集低位处理,计算低位一项集域值方差,小于域值方差平均值的项
    集则进位为高位一项集,大于或等于域值方差平均值的项集则认为是不频繁项
    集;
    (3)循环处理,第k步,根据k-1步频繁的k-1项集Lk-1按照Apriori_gen产
    生候选的k项集Ck集,对候选的k项集计算每项的支持度及其平均值和域值方差
    平均值,找出支持度大于或等于平均支持度的项,作为频繁k项集,简称k项集
    高位;支持度小于平均支持度的项作为不频繁k项集,简称k项集低位;计算低
    位k项集域值方差,小于域值方差平均值的项集则进位为高位k项集。
    2.根据权利要求1所述的一种基于低位管理的频繁项集数据挖掘方法,其
    特征在于:所述平均支持度是指候选k项集记为Ck,支持度记为Sk,则定义k项
    集平均支持度为:其中Snk表示第n个k项集,Mnk为n个
    k项集的平均支持度,即k项集域值。
    3.根据权利要求2所述的一种基于低位管理的频繁项集数据挖掘方法,其
    特征在于:所述域值方差及其平均值是指候选k项集记为Ck,支持度记为Sk,
    则定义k项集域值方差为:σ=(S1k-Mnk)2+…+(Snk-Mnk)2,则域值方差平
    均值为: <mrow> <msub> <mi>M</mi> <mi>&sigma;</mi> </msub> <mo>=</mo> <mfrac> <mi>&sigma;</mi> <mi>n</mi> </mfrac> <mo>.</mo> </mrow>

    说明书

    一种基于低位管理的频繁项集数据挖掘方法

    技术领域

    本发明涉及一种数据挖掘方法,特别是一种基于低位管理的频繁项集数据挖掘方法。

    背景技术

    Apriori算法将发现关联规则的过程分为两个步骤,第一步是通过迭代检索出事务数据库中的所偶频繁项集,即支持度不低于用户设定的阈值的项集,第二步是利用频繁项集构造出满足用户最小置信度的规则,其中,挖掘和识别所有频繁项集是该算法的核心,占据了整个计算量的大部分。Apriori算法运用频繁项集的子集必然是频繁项集的思想,通过已知的频繁项集构造更大的项集,并将其称为候选频繁项集,以后只计算候选项集的支持度。专利(CN103678530A)提出了一种频繁项集快速检出的方法,减少了通过计算机数据处理制定关联规则的数据处理量,大大提高了计算机的处理效率。然而,此算法采用人为设定域值的方式,这样对我们的频繁项集挖掘来说就存在以下问题,如果挖掘的最小支持度定得较高,那么覆盖较少数据但却有意义的关联知识将不能被发现,如果最小支持度定得过低,那么大量的无实际意义的数据关联将充斥在挖掘过程中。人为设定域值方式很难把控精准,挖掘的结果很难令用户满意,运用计算的手法才能进行精确的把控。

    发明内容

    本发明的目的在于提供一种基于低位管理的频繁项集数据挖掘方法LM-Apriori(Low Management Apriori),此方法采用平均域值和域值方差的思想,得到了有意义的频繁项集,解决了由于人为设定域值带来的频繁项集发现的问题。

    定义1平均支持度。候选k项集记为Ck,支持度记为Sk,则定义k项集平均支持度为:其中Snk表示第n个k项集,Mnk为n个k项 集的平均支持度,即k项集域值,使用平均支持度域值进行频繁项集发现称之为平均域值方法。

    定义2域值方差及其平均值。候选k项集记为Ck,支持度记为Sk,则定义k项集域值方差为:σ=(S1k-Mnk)2+…+(Snk-Mnk)2,则域值方差平均值为: 使用域值方差进行频繁项集发现称之为域值方差方法。

    本发明由以下三步构成:

    ⑴频繁一项集的生成。根据数据库计算一项集的支持度及其平均值和域值方差平均值,支持度大于或等于平均支持度的项,作为频繁一项集,简称一项集高位。支持度小于平均支持度的项作为不频繁一项集,简称一项集低位。

    ⑵一项集低位处理。计算低位一项集域值方差,小于域值方差平均值的项集则进位为高位一项集,大于或等于域值方差平均值的项集则认为是不频繁项集。

    (3)循环处理.第k步,根据k-1步频繁的k-1项集Lk-1按照Apriori_gen产生候选的k项集Ck集,对候选的k项集计算每项的支持度及其平均值和域值方差平均值,找出支持度大于或等于平均支持度的项,作为频繁k项集,简称k项集高位。支持度小于平均支持度的项作为不频繁k项集,简称k项集低位。计算低位k项集域值方差,小于域值方差平均值的项集则进位为高位k项集。

    本发明有以下特点和有益效果:

    本发明提出了一种新的基于平均域值和域值方差的频繁项集数据挖掘算法(LM-Apriori算法),采用此算法不仅可以挖掘出高支持度的频繁项集,由于对低位项集采用了域值方差进行管理,进而避免了采用此算法易造成低位缺项的现象,实例验证证明了算法的有效性。

    附图说明

    图1LM-Apriori算法发现频繁项集过程;

    图2LM-Apriori算法流程图。

    具体实施方式

    为了说明LM-Ariori算法的有效性,本文选取了Apriori算法发现频繁项集的一个经典的例子,事务数据库如表1,数据库中有9个事务。表1中的支持度计数为支持度与总的事物数的乘积,利用LM-Apriori算法,对表1的数据进行频繁相集的发现,其流程如附图1。附图1为LM-Apriori算法发现频繁项集过程,候选一项集共有5项,平均支持数、域值方差和平均域值方差计算结果如附图1,根据LM-Apriori算法性质,I1、I2和I3支持数计数大于平均支持数,所以成为频繁一项集。I4虽然支持数计数小于平均支持数,但是I4的域值方差为1小于域值方差均值,所以I4成为频繁项集。I5支持数计数小于平均支持数,同时I5的域值方差为9大于域值方差均值,所以I5成为不频繁项集。候选二项集共有6项,平均支持数、域值方差和平均域值方差计算结果如附图1,根据LM-Apriori算法性质,(I1,I2)、(I1,I3)和(I2,I3)支持数计数大于平均支持数,所以成为频繁二项集。(I2,I4)项集域值方差0.04小于域值方差均值,所以称为频繁项集。(I1,I4)和(I3,I4)域值方差均大于域值方差均值,所以称为不频繁项集,根据Apriori算法性质,候选三项集只有(I1,I2,I3)一项,自然成为频繁项集。表2是LM-Apriori算法频繁项集数据挖掘结果。

    TID T100 T200 T300 T400 T500 T600 T700 T800 T900 项ID列表 I1,I2,I5I2,I4I2,I3,I4I1,I2,I4I1,I3,I4I2,I3I1,I3I1,I2,I3,I5I1,I2,I3

    表1所有项集

    表2 LM-Apriori算法发现的频繁项集。

    关于本文
    本文标题:一种基于低位管理的频繁项集数据挖掘方法.pdf
    链接地址://www.4mum.com.cn/p-6004905.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 棋牌游戏免封号技巧 北京pk10国家允许他的存在 澳洲幸运5官网开奖号码 排球比分 辽宁11选5任三复试 乒乓球伊藤美诚 股票融资平台ˉ杨方配资 河北十一选五走势图表 丰禾棋牌app pt电子游艺官网 什么股票配资平台安全 江苏十一选五开奖时间 英超积分榜足彩 组三分析 福彩3d跨度走势图500期 快速时时彩