• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 8
    • 下载费用:30 金币  

    重庆时时彩太阳城娱乐开户: 一种云存储环境下海量数据自适应读取优化方法及系统.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610936474.6

    申请日:

    2016.11.01

    公开号:

    CN106570108A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20161101|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 中国科学院计算机网络信息中心
    发明人: 王学志; 赵江华; 林青慧; 周园春; 黎建辉
    地址: 100190 北京市海淀区中关村南四街4号
    优先权:
    专利代理机构: 北京君尚知识产权代理事务所(普通合伙) 11200 代理人: 余长江
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610936474.6

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供一种云存储环境下海量数据自适应读取优化方法,其步骤包括:记录本地用户程序的数据访问日志信息;定期统计分析上述日志信息,得到数据对象间的关联关系;根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集合,并预读取到本地缓存;对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存在待访数据对象,则从分布式文件系统的远端存储节点读取。该方法还包括从分布式文件系统的远端存储节点预读取关联的数据对象集合到本地缓存并更新本地缓存。该方法根据统计与分析的数据对象访问日志建立数据对象的关联关系,通过将当前读取数据对象的关联数据对象预读取到本地缓存中,以提高数据读取速度。

    权利要求书

    1.一种云存储环境下海量数据自适应读取优化方法,步骤包括:
    1)记录本地用户程序的数据访问日志信息;
    2)定期统计分析上述日志信息,得到数据对象间的关联关系;
    3)根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集合,并
    预读取到本地缓存;
    4)对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存在待
    访数据对象,则从分布式文件系统的远端存储节点读取。
    2.如权利要求1所述的方法,其特征在于,还包括从分布式文件系统的远端存储节点预
    读取关联的数据对象集合到本地缓存并更新本地缓存。
    3.如权利要求1所述的方法,其特征在于,所述本地缓存封装符合POSIX的文件接口来
    实现与用户程序和分布式文件系统的数据交换。
    4.如权利要求1所述的方法,其特征在于,所述数据对象关联关系为数据对象在同一时
    间窗口Δt内同时被读取的概率。
    5.如权利要求4所述的方法,其特征在于,所述各数据对象关联关系的概率值用矩阵存
    储。
    6.如权利要求1所述的方法,其特征在于,所述关联数据对象集合为过去一段时间T中,
    在同一时间窗口Δt内频繁被同时读取的数据对象集合。
    7.一种云存储环境下海量数据自适应读取优化系统,包括用户程序、虚拟文件系统和
    分布式文件系统,其特征在于,所述虚拟文件系统包括文件访问中间件、缓存、日志数据库
    和统计分析服务四个???;
    所述文件访问中间件用于实现与用户程序和分布式文件系统的数据交换,并记录用户
    程序的数据访问日志信息;
    所述缓存用于存储从所述分布式文件系统中预读取的关联数据对象集合;
    所述日志数据库用于存储用户程序的数据访问日志信息;
    所述统计分析服务??橛糜诙允莘梦嗜罩窘型臣朴敕治?,并建立数据对象的关联
    关系。

    说明书

    一种云存储环境下海量数据自适应读取优化方法及系统

    技术领域

    本发明涉及计算机技术领域中的分布式文件系统数据读取优化方法,尤其涉及一
    种云存储环境下海量数据自适应读取优化方法及系统。

    背景技术

    随着信息化社会的到来,各种数据以爆炸式的形式快速增长。伴随着产生的海量
    数据,对数据的存储、读取、管理等各方面的要求越来越高。在现阶段,分布式数据存储已经
    成为主流。分布式文件系统通常将数据存储在多个节点上(不同的服务器),各个节点之间
    通过网络进行连接,用户通过分布式文件系统的接口就可以访问到各个节点之间的数据。
    当用户读取海量数据时,由于网络传输的延时,数据读取时间将会很长。因此,如何实现快
    速读取海量数据成为本领域技术人员迫切解决的问题。

    发明内容

    本发明的目的是提供一种云存储环境下海量数据自适应读取优化方法及系统,其
    结合海量数据读取行为和分布式文件系统的数据存储特点,采用一种数据挖掘方法,根据
    数据对象访问日志,分析预测即将被用户程序访问的数据对象集合,提前从分布式文件系
    统中将数据对象预读取到本地的方式来提高数据读取效率。

    为实现上述目的,本发明所采用的技术方案为:

    一种云存储环境下海量数据自适应读取优化方法,步骤包括:

    1)记录本地用户程序的数据访问日志信息;

    2)定期统计分析上述日志信息,得到数据对象间的关联关系;

    3)根据用户程序的数据访问请求获取与当前访问的数据对象关联的数据对象集
    合,并预读取到本地缓存;

    4)对于用户程序的数据对象访问请求,先从本地缓存中读取,如本地缓存中不存
    在待访数据对象,则从分布式文件系统的远端存储节点读取。

    进一步地,还包括从分布式文件系统的远端存储节点预读取关联的数据对象集合
    到本地缓存并更新本地缓存。

    进一步地,所述本地缓存封装符合POSIX的文件接口来实现与用户程序和分布式
    文件系统的数据交换。

    进一步地,所述数据对象关联关系为数据对象在同一时间窗口Δt内同时被读取
    的概率。

    更进一步地,所述各数据对象关联关系的概率值用矩阵存储。

    进一步地,所述关联数据对象集合为过去一段时间T中,在同一时间窗口Δt内频
    繁被同时读取的数据对象集合。

    一种云存储环境下海量数据自适应读取优化系统,包括用户程序、虚拟文件系统
    和分布式文件系统;所述虚拟文件系统包括文件访问中间件、缓存、日志数据库和统计分析
    服务四个???;

    所述文件访问中间件用于实现与用户程序和分布式文件系统的数据交换,并记录
    用户程序的数据访问日志信息;

    所述缓存用于存储从所述分布式文件系统中预读取的关联数据对象集合;

    所述日志数据库用于存储用户程序的数据访问日志信息;

    所述统计分析服务??橛糜诙允莘梦嗜罩窘型臣朴敕治?,并建立数据对象的
    关联关系。

    本发明的有益效果在于:本发明结合海量数据读取行为和分布式文件系统的数据
    存储特点,根据记录并统计分析用户程序的数据访问日志信息,建立数据对象的关联关系;
    当用户程序读取数据对象时,通过分析当前的数据对象关联关系,预测判断其关联数据对
    象集合,将其预读取到虚拟文件系统的缓存中,将数据对象从分布式文件系统的读取转化
    为直接从虚拟文件系统的读取,来提高海量数据的读取速度;通过对数据对象的预读取,有
    效地降低了读取海量数据的时间。

    附图说明

    图1为本发明一实施例的系统框架图;

    图2为本发明一实施例的数据读取流程图。

    具体实施方式

    下面通过具体实施案例,通过一种云存储环境下海量数据自适应读取系统,并配
    合附图,对本发明做进一步的说明。

    本实施例中的云存储环境下海量数据自适应读取系统包括三部分:用户程序、虚
    拟文件系统和分布式文件系统,其中虚拟文件系统由文件访问中间件、缓存、日志数据库和
    统计分析服务四个??樽槌?,如图1所示。

    文件访问中间件采用用户空间文件系统(FUSE技术)实现符合POSIX的文件接口,
    负责接收用户程序的数据对象读取指令,从分布式文件系统中读取数据对象返回给用户程
    序,以及从分布式文件系统中预读取数据对象到缓存中;日志数据库存储数据访问日志信
    息;统计分析服务??槎允莘梦嗜罩窘型臣朴敕治?,并建立数据对象的关联关系。

    用户通过虚拟文件系统读取分布式文件系统中数据对象的流程如图2所示:

    1)用户程序将读取分布式文件系统中数据对象的指令提交到虚拟文件系统;

    2)文件访问中间件实时记录用户程序进程id、数据读取行为(read,write,open,
    close等)、数据大小、偏移量、数据对象id、时间等相关日志信息并将这些日志信息保存到
    数据访问日志数据库中;

    3)统计分析服务??楦菔莘梦嗜罩?,定期统计分析在同一时间段内,同时被
    读取的数据对象,建立并更新数据对象关联关系,用矩阵存储各数据对象之间的读取关联
    值;

    4)从虚拟文件系统的缓存中查找数据对象,若存在,则跳到第5步;若不存在,则跳
    到第6步;

    5)读取虚拟文件系统缓存中的数据对象,并返回给用户程序;

    6)从分布式文件系统中读取数据对象,并返回给用户程序;

    7)从分布式文件系统中预读取相关联的数据对象到虚拟文件系统的缓存中;

    8)更新虚拟文件系统缓存。其中更新虚拟文件系统缓存,可通过先进先出等算法,
    从缓存中淘汰一批数据对象,然后从分布式文件系统中预读取新的关联数据对象来代替。

    以下用一具体实施例来解释说明本发明:

    首先记录分布式文件系统中所有(被读取过)数据对象集合为D={d1,d2,…,dm},
    并记录给定时间窗口Δt内的读取行为且记为一条读取记录r,则过去一段时间T内的读取
    记录集合R={r1,r2,…,rrn}的读取行为统计信息可用表1表示(读取记录条数由[T/Δt]
    决定):

    表1:读取行为统计表


    d1
    d2
    d3
    d4
    d5
    r1
    1
    1
    1
    0
    0
    r2
    0
    0
    1
    1
    0
    r3
    1
    0
    0
    0
    1
    r4
    1
    1
    1
    1
    0
    r5
    1
    1
    0
    0
    1
    r6
    0
    0
    1
    1
    0

    其中,1表示数据对象被读取,0表示数据对象没有被读??;T值可根据应用的需要
    选择不同模型来确定,如采用一个时间滑动窗口,窗口的大小根据应用和系统的资源限制
    决定;或者还可以对每条读取行为赋予权值,并且这个权值随时间推移减小等。

    根据统计分析的上述数据访问日志信息和当前用户程序的数据访问请求,挖掘数
    据对象读取的模式与特征,构建数据对象关联关系,如计算各个数据对象之间的关联概率
    和条件关联概率值,其关联概率和条件关联概率的计算方法分别如公式(1)和(2)所示:



    其中根据表1的读取行为统计信息,并结合公式(1)和(2),得到关联概率
    和条件关联概率值如表2所示:

    表2:关联概率和条件关联概率值


    d1
    d2
    d3
    d4
    d5
    d1
    (0,0)
    (0.5,0.75)
    (0.33,0.5)
    (0.17,0.25)
    (0.33,0.5)
    d2
    (0.5,1)
    (0,0)
    (0.33,0.67)
    (0.17,0.33)
    (0.17,0.33)
    d3
    (0.33,0.5)
    (0.33,0.5)
    (0,0)
    (0.5,0.75)
    (0,0)
    d4
    (0.17,0.33)
    (0.17,0.33)
    (0.5,1)
    (0,0)
    (0,0)
    d5
    (0.33,1)
    (0.17,0.5)
    (0,0)
    (0,0)
    (0,0)

    通过上述数据对象的关联关系,便可预测下一步要读取的数据对象集合,并将其
    关联数据对象集合预读取到虚拟文件系统的缓存中;然后根据用户程序的数据对象访问请
    求,从虚拟文件系统的缓存中直接读??;其中关联概率和条件关联概率值可根据应用类型
    和系统性能进行调整。

    以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术
    人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的精神和范围,本
    发明的?;し段вσ匀ɡ笏鑫?。

    关 键 词:
    一种 存储 环境 海量 数据 自适应 读取 优化 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种云存储环境下海量数据自适应读取优化方法及系统.pdf
    链接地址://www.4mum.com.cn/p-6092874.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03