• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:30 金币  

    重庆时时彩刷平台漏洞: 一种列存数据库的物化方法及装置.pdf

    关 键 词:
    一种 数据库 物化 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201610777661.4

    申请日:

    2016.08.31

    公开号:

    CN106354829A

    公开日:

    2017.01.25

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06F 17/30申请日:20160831|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 天津南大通用数据技术股份有限公司
    发明人: 崔维力; 武新; 谭忠涛
    地址: 300384 天津市西青区华苑产业区海泰发展六道6号海泰绿色产业基地J-518
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610777661.4

    授权公告号:

    |||

    法律状态公告日:

    2017.02.22|||2017.01.25

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供了一种列存数据库的物化方法及装置,其中,所述方法包括:按照列存数据库物化需要的行号索引进行排序,将排序后的数据进行物化;将物化的数据根据物化序号排序,按照所述行号索引对数据进行物化。通过将乱序的行号索引排序,提前将该维度数据物化,以避免频繁的重复I/O。然后通过高效的排序算法将物化的数据调整顺序,使原来的维度可以顺序物化。最后将原来的乱序行号索引换成顺序的索引,基于新的数据物化。提高了join后物化的性能,减少了大量的重复I/O。

    权利要求书

    1.一种列存数据库的物化方法,其特征在于,包括:
    按照列存数据库物化需要的行号索引进行排序,将排序后的数据进行物化;
    将物化的数据根据物化序号排序,按照所述行号索引对数据进行物化。
    2.根据权利要求1所述的方法,其特征在于:所述方法还包括:
    按照物化序号进行排序;
    将排序结果作为顺序数据源。
    3.一种列存数据库的物化装置,其特征在于,包括:
    第一排序单元,用于按照列存数据库物化需要的行号索引进行排序,将排序后的数据
    进行物化;
    第二排序单元,用于将物化的数据根据物化序号排序,按照所述行号索引对数据进行
    物化。
    4.根据权利要求3所述的装置,其特征在于:所述装置还包括:
    第三排序单元,用于按照物化序号进行排序;
    数据源生成单元,用于将排序结果作为顺序数据源。

    说明书

    一种列存数据库的物化方法及装置

    技术领域

    本发明属于列存数据库技术领域,尤其是涉及一种列存数据库的物化方法及装
    置。

    背景技术

    随着大数据分析和数据挖掘等领域的不断发展,数据库处理的数据量越来越大,
    远远超出了内存的范围,为了有效处理数据,出现了新型的列存数据库。列式数据库是以列
    相关存储架构进行数据存储的数据库,主要适合于批量数据处理和即时查询。相对应的是
    行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合于小批量的数据处理,
    常用于联机事务型数据处理。它将数据按照逻辑列的形式集中进行存储,能够获得更高的
    压缩比,减少数据访问时不必要的磁盘I/O。

    晚期物化策略,是指在数据库的操作过程中,将命中的数据位置(我们称之为行号
    索引)记录下来,而不是把最终需要的数据都提前物化到内存中。这种策略能更好地利用数
    据库的列存特性,避免无效I/O,有效利用内存,整体提高查询性能。

    但是在某些场景下,如join操作,晚期物化使用的行号索引的顺序比较杂乱无序,
    没有规律,会引起大量的重复I/O。列存储的方式通常是同一列的数据被划分为若干个数据
    块,每个数据块中的记录个数相同,这样做的好处是分散管理,节省内存。当需要的数据块
    命中时,会从磁盘该数据块到内存中,当其他数据块命中同时内存不足时,又会将该数据块
    从内存中释放。join算子使用的晚期物化策略,是将不同维度命中的数据行号索引记录下
    来,在最终物化时根据这些行号索引进行物化,从磁盘读取数据。当数据比较分散时,有的
    维度就会出现读取->释放->读取->释放......的重复I/O操作。导致性能严重下降,查询时
    开销大。

    发明内容

    本发明实施例提供了一种列存数据库的物化方法及装置,以解决现有技术中超大
    规模数据量下列存数据库运用晚期物化策略导致性能严重下降的技术问题。

    一方面。本发明实施例提供了一种列存数据库的物化方法,包括:

    按照列存数据库物化需要的行号索引进行排序,将排序后的数据进行物化;

    将物化的数据根据物化序号排序,按照所述行号索引对数据进行物化。

    进一步的,所述方法还包括:

    按照物化序号进行排序;

    将排序结果作为顺序数据源。

    另一方面,本发明实施例还提供了一种列存数据库的物化装置,包括:

    第一排序单元,用于按照列存数据库物化需要的行号索引进行排序,将排序后的
    数据进行物化;

    第二排序单元,用于将物化的数据根据物化序号排序,按照所述行号索引对数据
    进行物化。

    进一步的,所述装置还包括:

    第三排序单元,用于按照物化序号进行排序;

    数据源生成单元,用于将排序结果作为顺序数据源。

    本发明实施例提供了一种列存数据库的物化方法及装置,通过将乱序的行号索引
    排序,提前将该维度数据物化,以避免频繁的重复I/O。然后通过高效的排序算法将物化的
    数据调整顺序,使原来的维度可以顺序物化。最后将原来的乱序行号索引换成顺序的索引,
    基于新的数据物化。提高了join后物化的性能,减少了大量的重复I/O。

    附图说明

    为了更清楚地说明本发明实施例的技术方案,下面将对实施例或现有技术描述中
    所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实
    施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附
    图获得其他的附图。

    图1是本发明实施例一提供的列存数据库的物化方法的流程示意图;

    图2是本发明实施例二提供的列存数据库的物化方法装置的结构示意图。

    具体实施方式

    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完
    整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例?;诒痉?br />明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施
    例,都属于本发明?;さ姆段?。

    实施例一

    图1为本发明实施例一提供的分列存数据库的物化方法的流程图,本实施例可适
    用于数据量很大,内存仅能缓存住部分数据,同时行号索引乱序比较严重时,对列存数据库
    进行物化的情况,该方法可以由列存数据库的物化装置来执行,该装置可由软件/硬件方式
    实现,并可集成于列存数据库中。

    参见图1,所述分布式数据库系统数据的分发方法,包括:

    S110,按照列存数据库物化需要的行号索引进行排序,将排序后的数据进行物化。

    示例性的,以下述列存数据库为例,t1为数据代码行号索引,假设一个数据块中只
    包含一行数据,且内存中只能放两条数据,那么下述的I/O次数为:(t1->1)+(t2->1)+(t2->
    2)+(t1->2)+(t2->1)+(t2->2)+(t1->3)+(t2->1)+(t2->2)+(t1->4)+(t2->1)+(t2->2)+
    (t1->5)+(t2->1)+(t2->2)=15;归纳为计算公式为:t1.cnt+t1.cnt*t2.cnt=5+5*2=15;
    而t1.cnt+t1.cnt*t2.cnt≈t1.cnt*t2.cnt;(当t2.cnt比较大时),如t1的数据块为1000,
    t2的数据块为100,那么I/O次数约为100000次


    原来的索引行号是乱序的,如上述实例中的t2维度,排序后的效果如如下所示:


    此时根据t2的行号索引物化,只需(t2->1)+(t2->2)=2次读I/O,同时将物化的数
    据写入磁盘,还需要10(需要物化的行数rows)次写I/O,总结成公式为:t2.cnt次读I/O+需
    要物化的行数rows次写I/O,即t2.cnt+rows。

    S120,将物化的数据根据物化序号排序,按照所述行号索引对数据进行物化。

    根据最新的行号索引和新的数据进行最终的物化,物化的结果如下所示:


    物化需要读(t1->1)+(t1->2)+(t1->3)+(t1->4)+(t1->5)+rows=t1.cnt+rows次
    I/O,完成物化。

    通过以上步骤,完成了最终的物化,I/O次数为:步骤1中的t2.cnt+rows次+步骤2
    中的2*rows次+步骤3中的t1.cnt+rows次,计算公式为t1.cnt+t2.cnt+4*rows次;而不做优
    化前的I/O次数约为t1.cnt*t2.cnt??梢钥闯?,当t1.cnt和t2.cnt比较大时,优化前的I/O
    次数比优化后高一个数量级。

    本实施例通过将乱序的行号索引排序,提前将该维度数据物化,以避免频繁的重
    复I/O。然后通过高效的排序算法将物化的数据调整顺序,使原来的维度可以顺序物化。最
    后将原来的乱序行号索引换成顺序的索引,基于新的数据物化。提高了join后物化的性能,
    减少了大量的重复I/O。

    实施例二

    图2是本发明实施例二提供的列存数据库的物化方法装置的结构示意图,如图2所
    示,所述装置包括:

    第一排序单元210,用于按照列存数据库物化需要的行号索引进行排序,将排序后
    的数据进行物化;

    第二排序单元220,用于将物化的数据根据物化序号排序,按照所述行号索引对数
    据进行物化。

    进一步的,所述装置还包括:

    第三排序单元,用于按照物化序号进行排序;

    数据源生成单元,用于将排序结果作为顺序数据源。

    本发明实施例提供了一种列存数据库的物化方法及装置,通过将乱序的行号索引
    排序,提前将该维度数据物化,以避免频繁的重复I/O。然后通过高效的排序算法将物化的
    数据调整顺序,使原来的维度可以顺序物化。最后将原来的乱序行号索引换成顺序的索引,
    基于新的数据物化。提高了join后物化的性能,减少了大量的重复I/O。

    本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通
    过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程
    序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:ROM、RAM、磁碟或
    者光盘等各种可以存储程序代码的介质。

    最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽
    管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依
    然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分或者全部技术特征进
    行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术
    方案的范围。

    关于本文
    本文标题:一种列存数据库的物化方法及装置.pdf
    链接地址://www.4mum.com.cn/p-6027209.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 女篮世界杯2019赛程表 pk10内部走势技巧 京pk10是正规彩票吗 三分赛车计划软件免费版 pk106码倍投金额技巧表 北京pk拾输钱的原因 时时彩龙虎和有规律吗 山东时时是什么意思是什么意思 赛马会內部三码 快速时时是官方吗 pc蛋蛋计划哪个好用 北京时时人工计划 澳门骰子玩法图 北京pk10直播 判断长龙 双色球基本技巧