• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    怎样加盟重庆时时彩: 一种基于动态副本策略的文件存储系统及其存储方法.pdf

    关 键 词:
    一种 基于 动态 副本 策略 文件 存储系统 及其 存储 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410101119.8

    申请日:

    2014.03.19

    公开号:

    CN103838860A

    公开日:

    2014.06.04

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/30申请公布日:20140604|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140319|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 华存数据信息技术有限公司
    发明人: 王引娜
    地址: 200127 上海市浦东新区峨山路91弄20号陆家嘴软件园区9号南塔楼5楼西
    优先权:
    专利代理机构: 上海信好专利代理事务所(普通合伙) 31249 代理人: 张妍;张静洁
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410101119.8

    授权公告号:

    ||||||

    法律状态公告日:

    2017.12.08|||2014.07.02|||2014.06.04

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开了一种基于动态副本策略的文件存储系统,包含:文件热度计算???,用于计算周期时间内存储的各文件的热度及周期时间内所有存储文件的平均热度;多个存储???,用于存储数据及访问数据;分别与文件热度计算??榧岸喔龃娲⒛?榱拥闹骺刂颇??;所述的主控制??橛糜诟荽娲⑽募娜榷榷髡娲⑽募母北臼?;与主控制??榱拥谋嗦虢饴肽??,用于根据存储文件的副本数对符合编码条件的存储文件进行纠删码编码。本发明还公开了一种文件存储方法。本发明增加了高热度的文件的完全副本数,提高了高热度文件的访问速度和负载均衡,低热度文件减少了完全副本的个数,采用RS纠删码编码后存储提高了存储的容错能力和可靠性。

    权利要求书

    权利要求书
    1.  一种基于动态副本策略的文件存储系统,其特征在于,包含:
    文件热度计算??椋?),用于计算周期时间内存储的各文件的热度及周期时间内所有存储文件的平均热度;
    多个存储??椋?),用于存储数据及访问数据;
    分别与文件热度计算??椋?)及多个存储??椋?)连接的主控制??椋?);
    所述的主控制??椋?)用于将存储文件分块存储在多个存储??椋?),并记录存储文件的数据块分配信息及文件的完全副本数,根据存储文件的热度动态调整存储文件的副本数;
    与主控制??椋?)连接的编码解码??椋?),用于根据存储文件的副本数对符合编码条件的存储文件进行纠删码编码,形成编码文件,以及访问编码文件时,对编码文件进行解码。

    2.  一种基于动态副本策略的文件存储方法,其特征在于,包含以下步骤:
    步骤1、新存储文件上传至存储系统时,主控制??椋?)将新存储文件划分为若干个数据块,主控制??椋?)为每个数据块产生m个完全副本,并将所述的m个完全副本存储到不同的存储??椋?)上;
    步骤2、文件热度计算??椋?)周期性的计算周期时间内存储文件的热度及周期时间内所有存储文件的平均热度,并将各存储文件的热度值及平均热度值传输至主控制??椋?);
    步骤3、主控制??椋?)根据各存储文件的热度值与平均热度值的大小关系,确定存储文件的热度等级,并;
    步骤4、主控制??椋?)对不同热度等级的存储文件确定不同的副本个数,
    若存储文件的热度与平均热度相当,则存储文件的副本数为m,
    若存储文件的热度大于平均热度,则存储文件的副本数相应的增加,
    若存储文件的热度小于平均热度,则存储文件的副本数相应的减少,
    当存储文件的副本数为1,该存储文件的热度增加时,则主控制??椋?)调用编码解码??椋?)的纠删码编码方式进行存储,对于副本数不为1的存储文件采用多副本策略的方式进行存储;
    步骤5、系统每隔固定周期时间重复步骤2至步骤4。

    3.  如权利要求2所述的文件存储方法,其特征在于,所述的步骤1进一步包含主控制??椋?)记录存储文件的数据块分配信息及存储文件的副本个数。

    4.  如权利要求3所述的文件存储方法,其特征在于,进一步包含当存储文件的副本数不为1时,存储文件被访问时,主控制??椋?)根据存储文件的数据块分配信息及存储文件的副本个数,从多个不同的存储??椋?)上并行读取存储文件的数据。

    5.  如权利要求2所述的文件存储方法,其特征在于,进一步包含当存储文件的副本数为1时,存储文件被访问时,主控制??椋?)调用编码解码??椋?)对存储文件进行解码。

    6.  如权利要求2所述的文件存储方法,其特征在于,所述的步骤2中文件热度计算??椋?)根据文件的大小及周期时间内存储文件被访问的次数来计算存储文件的热度。

    7.  如权利要求2所述的文件存储方法,其特征在于,所述的步骤2中存储文件的热度计算公式为:                                                ;
    其中:为存储文件的热度;
    为文件的大??;
    m为存储的完全副本个数;
    T为周期时间;
    为第j个周期时间内文件i的访问次数。

    8.  如权利要求2所述的文件存储方法,其特征在于,所述的步骤2中周期时间为24小时。

    9.  如权利要求2所述的文件存储方法,其特征在于,所述的步骤4中纠删码编码方式为RS(7,12)方式。

    说明书

    说明书一种基于动态副本策略的文件存储系统及其存储方法
    技术领域
    本发明涉及文件存储系统技术领域,具体是说一种根据文件被访问的情况的不同来动态调整文件服务器中的文件副本的个数及对文件进行纠删码编码解码的文件存储系统及存储方法。
    背景技术
    随着大数据时代的到来,海量异构数据的存储和应用给我们带来了巨大的挑战。云存储是通过分布式文件系统、网格计算和集群管理等技术,将大量的存储设备构建成存储资源池,共同对外提供数据存储和管理服务。因为其具有很高的稳定性和高效性,云存储正在被越来越多的企业所应用。
    目前,多数文件存储系统采用的静态完全副本冗余机制来保证系统的高可靠性和高效性。然而,静态完全副本策略是将每个文件复制多份副本,分别存储在不同的数据节点上,这样就造成存储成本随着副本数目的增加而线性增加,存在存储效率低、负载均衡能力差等缺点,同时也会增加对副本的管理开销,影响系统的可扩展性。
    发明内容
    本发明的目的在于提供一种基于动态副本策略的文件存储系统及其存储方法,增加了高热度的文件的完全副本数,提高了高热度文件的访问速度和负载均衡,低热度文件减少了完全副本的个数,采用RS纠删码编码后存储提高了存储的容错能力和可靠性,有效的节省了存储空间。
    为了达到上述目的,本发明通过以下技术方案实现:一种基于动态副本策略的文件存储系统,其特点是,包含:
    文件热度计算???,用于计算周期时间内存储的各文件的热度及周期时间内所有存储文件的平均热度;
    多个存储???,用于存储数据及访问数据;
    分别与文件热度计算??榧岸喔龃娲⒛?榱拥闹骺刂颇??;
    所述的主控制??橛糜诮娲⑽募挚榇娲⒃诙喔龃娲⒛??,并记录存储文件的数据块分配信息及文件的完全副本数,根据存储文件的热度动态调整存储文件的副本数;
    与主控制??榱拥谋嗦虢饴肽??,用于根据存储文件的副本数对符合编码条件的存储文件进行纠删码编码,形成编码文件,以及访问编码文件时,对编码文件进行解码。
    一种基于动态副本策略的文件存储方法,其特点是,包含以下步骤:
    步骤1、新存储文件上传至存储系统时,主控制??榻麓娲⑽募治舾筛鍪菘?,主控制??槲扛鍪菘椴鷐个完全副本,并将所述的m个完全副本存储到不同的存储??樯?;
    步骤2、文件热度计算??橹芷谛缘募扑阒芷谑奔淠诖娲⑽募娜榷燃爸芷谑奔淠谒写娲⑽募钠骄榷?,并将各存储文件的热度值及平均热度值传输至主控制???;
    步骤3、主控制??楦莞鞔娲⑽募娜榷戎涤肫骄榷戎档拇笮」叵?,确定存储文件的热度等级,并;
    步骤4、主控制??槎圆煌榷鹊燃兜拇娲⑽募范ú煌母北靖鍪?,
    若存储文件的热度与平均热度相当,则存储文件的副本数为m,
    若存储文件的热度大于平均热度,则存储文件的副本数相应的增加,
    若存储文件的热度小于平均热度,则存储文件的副本数相应的减少,
    当存储文件的副本数为1,该存储文件的热度增加时,则主控制??榈饔帽嗦虢饴肽?榈木郎韭氡嗦敕绞浇写娲?,对于副本数不为1的存储文件采用多副本策略的方式进行存储;
    步骤5、系统每隔固定周期时间重复步骤2至步骤4。
    所述的步骤1进一步包含主控制??榧锹即娲⑽募氖菘榉峙湫畔⒓按娲⑽募母北靖鍪?。
    较佳地,进一步包含当存储文件的副本数不为1时,存储文件被访问时,主控制??楦荽娲⑽募氖菘榉峙湫畔⒓按娲⑽募母北靖鍪?,从多个不同的存储??樯喜⑿卸寥〈娲⑽募氖?。
    较佳地,进一步包含当存储文件的副本数为1时,存储文件被访问时,主控制??榈饔帽嗦虢饴肽?槎源娲⑽募薪饴?。
    所述的步骤2中文件热度计算??楦菸募拇笮〖爸芷谑奔淠诖娲⑽募环梦实拇问醇扑愦娲⑽募娜榷?。
    所述的步骤2中存储文件的热度计算公式为:                                                ;
    其中:为存储文件的热度;
    为文件的大??;
    m为存储的完全副本个数;
    T为周期时间;
    为第j个周期时间内文件i的访问次数。
    所述的步骤2中周期时间为24小时。
    较佳地,所述的步骤4中纠删码编码方式为RS(7,12)方式。
    本发明一种基于动态副本策略的文件存储系统及其存储方法与现有技术相比具有以下优点:本发明利用了多副本冗余的数据读取和存储的便利及快速性以及RS纠删码的高存储效率和高容错率的优点,不仅提高了存储数据的可靠性、负载均衡能力,而且降低了存储成本,提升系统的整体性能,有效的节省了存储空间;增加了高热度的文件的完全副本数,提高了高热度文件的访问速度和负载均衡,低热度文件减少了完全副本的个数。
    附图说明
    图1为本发明一种基于动态副本策略的文件存储系统的结构框图。
    图2 为副本调整流程图。
    具体实施方式
    以下结合附图,通过详细说明一个较佳的具体实施例,对本发明做进一步阐述。
    如图1所示,一种基于动态副本策略的文件存储系统,包含:文件热度计算???,用于计算周期时间内存储的各文件的热度及周期时间内所有存储文件的平均热度;多个存储???,用于存储数据及访问数据;分别与文件热度计算???及多个存储???连接的主控制???;所述的主控制???用于将存储文件分块存储在多个存储???,并记录存储文件的数据块分配信息及文件的完全副本数,根据存储文件的热度动态调整存储文件的副本数;与主控制???连接的编码解码???,用于根据存储文件的副本数对符合编码条件的存储文件进行纠删码编码,形成编码文件,以及访问编码文件时,对编码文件进行解码。
    一种基于动态副本策略的文件存储方法,包含以下步骤:
    步骤1、新存储文件上传至存储系统时,主控制???将新存储文件划分为若干个数据块,主控制???为每个数据块产生m个完全副本,并将所述的m个完全副本存储到不同的存储???上;
    步骤2、文件热度计算???周期性的计算周期时间内存储文件的热度及周期时间内所有存储文件的平均热度,并将各存储文件的热度值及平均热度值传输至主控制???;
    步骤3、主控制???根据各存储文件的热度值与平均热度值的大小关系,确定存储文件的热度等级,并;
    步骤4、主控制???对不同热度等级的存储文件确定不同的副本个数,
    若存储文件的热度与平均热度相当,则存储文件的副本数为m,
    若存储文件的热度大于平均热度,则存储文件的副本数相应的增加,
    若存储文件的热度小于平均热度,则存储文件的副本数相应的减少,
    当存储文件的副本数为1,该存储文件的热度增加时,则主控制??椋?)调用编码解码???的纠删码编码方式进行存储,对于副本数不为1的存储文件采用多副本策略的方式进行存储;
    步骤5、系统每隔固定周期时间重复步骤2至步骤4。
    所述的步骤1进一步包含主控制???记录存储文件的数据块分配信息及存储文件的副本个数。
    进一步,当存储文件的副本数不为1时,存储文件被访问时,主控制???根据存储文件的数据块分配信息及存储文件的副本个数,从多个不同的存储???上并行读取存储文件的数据。
    进一步,当存储文件的副本数为1时,存储文件被访问时,主控制???调用编码解码???对存储文件进行解码。
    所述的步骤2中文件热度计算???根据文件的大小及周期时间内存储文件被访问的次数来计算存储文件的热度。
    所述的步骤2中存储文件的热度计算公式为:;
    其中:为存储文件的热度;
    为文件的大??;
    m为存储的完全副本个数;
    T为周期时间;
    为第j个周期时间内文件i的访问次数。
    所述的步骤2中周期时间为24小时。
    所述的步骤4中纠删码编码方式为RS(7,12)方式。
    具体应用:搭建一个小型HDFS (Hadoop Distributed File System,Hadoop分布式文件系统)集群环境,集群由1个NameNode(控制节点)节点和12个DataNode(数据节点)节点组成,其中NameNode节点的配置为1颗CPU(Intel Core  i5-3450 4核 3.1GHz)、2G内存和500G硬盘,12个DataNode节点的配置为1颗CPU(Intel Core i3-3220  3.3GHz)、1G内存和500G硬盘,网络带宽为1000Mbps,操作系统为CentOS5.5,Hadoop 版本为 Hadoop-0.20.3,本实施例中HDFS存储的文件大小为1T,HDFS默认的存储策略为3副本,本实施例中同样限定存储文件的完全副本数m=3。
    本实施例中定义热度级别与副本个数关系,如表1所示,当某个存储文件的热度是系统中文件平均热度的两倍时,将文件的副本数增加为4,当某个文件的热度低于系统中文件平均热度的1/2时,将文件的副本数减少为2,当某个文件的热度低于系统中文件平均热度的1/8时,将文件的副本数减少为1。 
    表1 热度级别副本数

    据表1所确定的文件副本数,接下来将对文件的副本进行调整,副本调整的流程图如图2所示。
    HDFS采用本发明的方法来管理副本,对于高热度的文件,其副本数高于HDFS默认的3副本策略,而对于低热度的文件,虽然副本数低于3副本策略,但通过RS纠删码编码后,文件的可靠性得到了很大的提高。本实施例采用的RS(7,12)进行编码,任意5个节点故障都能保证数据能够被恢复,而采用3副本策略,任意3个节点故障将会导致文件无法恢复。在本实施例中,HDFS的默认的3副本策略的容错率为,即系统可以容忍任意的2个节点发生故障;而本策略的容错率为,即系统可以容忍任意3个节点发生故障。
    HDFS文件系统采用本发明的方法后,存储的可靠性得到提升,同时存储效率也得到提高。
    采用HDFS默认的存储策略,每个数据块大小为64M,副本数为3,则所需存储空间为3T。当采用本发明,运行3个周期后,我们统计出的各热度级别的文件及存储空间如表2,总存储大小为2861G。
    表2 文件分布表

    通过以上分析可得,在系统可靠性得到提升的同时,系统的存储效率也得到提升。
    本发明中热度级别高的文件被动态的增加了副本,减轻了原来仅有的3个节点所承受的副本负载。分别在HDFS使用默认策略和本发明时,逐渐的增大对HDFS的访问压力,虽然使用方法HDFS的响应时间都会随着访问压力的增大而增加,但采用默认策略时,当对某文件访问频率增大到每分钟100次时,响应时间就超过5s,而采用本发明时,对某文件访问频率增大到每分钟150次时,响应时间才超过5s。通过以上测试数据可以得出采用本测试可以显著提升HDFS的负载均衡能力。
    HDFS会自动根据系统的负载情况执行副本调整任务,因此不用担心HDFS文件系统会因为副本调整任务而影响系统主要任务的执行。
    当文件的副本数低于3时,则调用编码解码???中的纠删码编解码方式对文件进行编码,保证有一份编码文件存在,以最大限度的保证数据的可靠性。编码解码???统一负责HDFS文件系统中的文件的编解码工作。
    由于RS纠删码冗余量小,且具有超强的纠错能力,性能很接近理论值,因此本发明采用RS纠删码对文件进行编码。RS类纠删码根据其生成矩阵不同分为两类,分别是范德蒙码和柯西码。范德蒙码和柯西码的编码时间复杂度均为O(n2),但是柯西码解码不用求大矩阵的逆,而且把乘法除法运算分别转化为有限域上的加法和减法运算,可用异或实现,因此,柯西码运算复杂度低于范德蒙码。本发明的纠删码编码解码??椴捎每挛髀虢斜嘟饴?。
    RS 纠删码可以用一个四元组( m,s,k,n) 来表示,其中: m 是编码前文件块的个数,s 是每个文件块包含的比特数,k 是一个不小于 m 的数,n 是编码后的文件块个数。RS 纠删码的纠删原理如下:
    首先,用户的文件数据被分成 m 个文件块,用集合表示为,其中 Fi( 1≤i≤m)是一个包含s比特的文件块。我们假设纠删码的编码函数是E,解码函数是D。对原文件进行编码为:( 1≤i≤n) 大小仍为 s 比特。设是中任意 k( k≥m,一般 k =m) 个文件块组成的子文件,那么用解码函数解码,即在得到中任意 k 个文件块就可以由解码函数D还原为原文件。
    本发明采用异步编码模式,当文件写入时先采用多副本方式将文件写入存储系统,因为对于新写入的文件,对它进行更改的概率较高。当系统运行一段时间后,系统会通过文件热度计算???计算出文件的热度级别,对于热度低的文件,副本调整??榛岬饔帽嗦虢饴肽??中的纠删码编解码方式对文件进行编码。
    尽管本发明的内容已经通过上述优选实施例作了详细介绍,但应当认识到上述的描述不应被认为是对本发明的限制。在本领域技术人员阅读了上述内容后,对于本发明的多种修改和替代都将是显而易见的。因此,本发明的?;し段вτ伤降娜ɡ罄聪薅?。

    关于本文
    本文标题:一种基于动态副本策略的文件存储系统及其存储方法.pdf
    链接地址://www.4mum.com.cn/p-6148107.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 极速11选5直播 自己diy耳环卖赚钱吗6 黑龙江p62最新开奖结果 靠技能赚钱五行 广东快乐十分实时开奖查询 澳洲幸运5开奖现场 福建十一选五计划软件手机版式 易富彩网址 北京快3开奖结 广东26选5最后一期开奖结果 辽宁11选5投注技巧 精准一波中特 竞彩足球比分直播完正版 江苏快3大小计划网 6月9日股票推荐 云南十一选五历史开奖