• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 16
    • 下载费用:20 金币  

    重庆时时彩平台可靠: HADOOP分布式文件系统数据文件的生命周期管理方法和设备.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210406635.2

    申请日:

    2012.10.23

    公开号:

    CN103778148A

    公开日:

    2014.05.07

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121023|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 阿里巴巴集团控股有限公司
    发明人: 熊佳树
    地址: 英属开曼群岛大开曼资本大厦一座四层847号邮箱
    优先权:
    专利代理机构: 北京鑫媛睿博知识产权代理有限公司 11297 代理人: 龚家骅
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210406635.2

    授权公告号:

    ||||||

    法律状态公告日:

    2017.04.12|||2014.06.04|||2014.05.07

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本申请实施例公开了一种Hadoop分布式文件系统数据文件的生命周期管理方法和设备,在当前所存储的元数据中分离叶子目录,将相应文件大小的属性赋予叶子目录,并根据各叶子目录的业务时间进行归一化处理,得到归一化目录,然后,根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,并根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,从而将数据的业务时间的概念引入数据存储和管理过程中,解决了在现有的生命周期管理过程中需要针对不同类型和级别的数据进行大规模数据标识,所带来的巨大数据处理量,同时有效的利用了数据文件自身的时间属性提升了数据处理的效率,最终解决了分布式文件系统的数据文件属性标识以及生命周期管理问题。

    权利要求书

    权利要求书
    1.  一种Hadoop分布式文件系统数据文件的生命周期管理方法,其特征在于,包括以下步骤:
    通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
    将所述归属于叶子目录的文件的文件大小信息合并至相应的叶子目录上;
    根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
    根据各归一化目录中所包含的业务时间数据和文件大小数据,确定归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
    根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理。

    2.  如权利要求1所述的方法,其特征在于,所述通过解析当前所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件,具体包括:
    对Hadoop分布式文件系统的元数据进行解析,分拣为目录和文件;
    在分拣出的目录中,确定其中所包含的叶子目录;
    在分拣出的文件中,确定归属于各叶子目录的文件。

    3.  如权利要求1所述的方法,其特征在于,所述根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录,具体包括:
    抽取各叶子目录所包含的业务时间;
    按照预设的策略,将所抽取的各业务时间划分到一个或多个归一化业务时间区间;
    根据处于同一个归一化业务时间区间的各叶子目录,确定一个归一化目录;
    其中,各归一化目录中包含归属于相应的归一化目录的各叶子目录所对应的业务时间和文件大小信息。

    4.  如权利要求3所述的方法,其特征在于,所述根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录之后,还包括:
    将Hadoop分布式文件系统关联的Hive元数据库中的存储目录进行与各叶子目录相同的归一化处理,将表数据合并至相应的归一化目录。

    5.  如权利要求3所述的方法,其特征在于,所述根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录之后,还包括:
    将所产生的数据,由Hadoop分布式文件系统导入到关系型数据库中。

    6.  如权利要求1所述的方法,其特征在于,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的,具体包括:
    根据一个归一化目录中的各叶子目录上所包含的业务时间,确定所述归一化目录所对应的最大业务时间和最小业务时间;
    根据所述归一化目录所对应的最大业务时间和最小业务时间,确定所述归一化目录的业务时间间隔;
    根据当前系统业务时间和所述归一化目录所对应的最小业务时间,确定当前系统的系统时间间隔;
    根据所述归一化目录中的各叶子目录上所包含的文件大小信息,确定所述归一化目录在预设时间区间内的总数据量和数据增量。

    7.  如权利要求6所述的方法,其特征在于,所述根据各归一化目录中所包含的业务时间数据和文件大小数据,确定各所述归一化目录所属的类型,至少包括:
    根据一个归一化目录的业务时间间隔和所述归一化目录所对应的叶子目录总数,确定所述归一化目录在自身的业务时间间隔内,所缺失的叶子目录数量,并据此判断所述归一化目录所对应的数据是否属于连续性数据;和/或,
    根据一个归一化目录的系统时间间隔和业务时间间隔,确定所述归一化目录在当前业务时间下,所缺失的叶子目录数量,并根据所缺失业务目录数量是否达到预设的缺失阈值,判断所述归一化目录所对应的数据是否属于临时数据;和/或,
    根据一个归一化目录在预设时间区间内的总数据量和数据增量的大小,判断所述归一化目录所对应的数据是否属于需要进行压缩的数据。

    8.  如权利要求7所述的方法,其特征在于,所述根据预设的生命周期管理策略,对各类型的归一化目录进行相应的数据处理,至少包括:
    当确定所述归一化目录所对应的数据不属于连续性数据时,如果所缺失的数据需要补充,则对所述归一化目录所缺失的数据进行补数据处理;和/或,
    当确定所述归一化目录所对应的数据属于临时数据时,如果所述临时数据满足删除触发条件,对所述归一化目录所对应的数据进行删除;和/或,
    当确定所述归一化目录所对应的数据属于需要进行压缩的数据时,对所述归一化目录所对应的数据进行数据压缩。
     

    9.  一种Hadoop分布式文件系统管理设备,其特征在于,包括以下步骤:
    解析???,用于通过解析当前Hadoop分布式文件系统中所存储的元数据,确定其中所包含的叶子目录,以及归属于叶子目录的文件;
    合并???,用于将所述解析??樗范ǖ墓槭粲谝蹲幽柯嫉奈募奈募笮⌒畔⒑喜⒅料嘤Φ囊蹲幽柯忌?;
    归一化???,用于根据各叶子目录的业务时间,对各所述叶子目录进行归一化处理,得到归一化目录;
    分析???,用于根据所述归一化??樗玫降母鞴橐换柯贾兴囊滴袷奔涫莺臀募笮∈?,确定各所述归一化目录所属的类型,其中,所述业务时间数据和文件大小数据具体为根据所述归一化目录中的各叶子目录上所包含的业务时间和文件大小信息得到的;
    处理???,用于根据预设的生命周期管理策略,对所述分析??樗范ǖ母骼嘈偷墓橐换柯冀邢嘤Φ氖荽?。

    10.  如权利要求9所述的Hadoop分布式文件系统管理设备,其特征在于,所述解析???,具体用于:
    对Hadoop分布式文件系统的元数据进行解析,分拣为目录和文件;
    在分拣出的目录中,确定其中所包含的叶子目录;
    在分拣出的文件中,确定归属于各叶子目录的文件。

    关 键 词:
    HADOOP 分布式 文件系统 数据文件 生命周期 管理 方法 设备
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:HADOOP分布式文件系统数据文件的生命周期管理方法和设备.pdf
    链接地址://www.4mum.com.cn/p-6159935.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03