• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩预测网址: HADOOP同构集群下的资源参数优化方法.pdf

    关 键 词:
    HADOOP 同构 集群 资源 参数 优化 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410171929.0

    申请日:

    2014.04.25

    公开号:

    CN103942108A

    公开日:

    2014.07.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 9/50申请日:20140425|||公开
    IPC分类号: G06F9/50 主分类号: G06F9/50
    申请人: 四川大学
    发明人: 陈兴蜀; 曾婉琳; 罗永刚; 王文贤
    地址: 610065 四川省成都市武侯区一环路南一段24号
    优先权:
    专利代理机构: 成都信博专利代理有限责任公司 51200 代理人: 卓仲阳
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410171929.0

    授权公告号:

    ||||||

    法律状态公告日:

    2017.03.01|||2014.08.20|||2014.07.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    一种Hadoop同构集群下的资源参数优化方法,包括建立同构集群的作业特征库;在默认配置下,用新作业的部分数据来运行作业,获取新作业的资源占用特征Fs;计算作业特征库中每一个作业的资源占用特征F与Fs的相对距离;取作业特征库中与Fs的相对距离最小的那个作业的参数最优取值,作为新作业s的最优取值;以新作业s的参数最优取值配置集群,完整运行新作业。本发明的有益效果:提高作业运行的执行效率;提高集群的资源使用率,避免集群资源浪费或争夺;建立作业特征库,方便后期作业分析和优化。

    权利要求书

    权利要求书
    1.  一种Hadoop同构集群下的资源参数优化方法,其特征在于,包括
    步骤一:建立Hadoop同构集群的作业特征库:任选一种以上典型作业,获取典型作业的资源占用特征F、MAX_REDUCERS最优取值和MAX_MAPPERS最优取值,将其加入作业特征库;其中,
    获取典型作业的资源占用特征F的方法是:在默认配置下,运行该作业;在作业执行过程中,获取任意一个子节点的资源占用特征F0=U11U21...Uj1...Um1U12U22...Uj2...Um2..................U1kU2k...Ujk...Umk..................U1rU2r...Ujr...Umr;]]>其中,将作业执行时间划分为相等的m个时间段,为在第j个时间段内第k种资源的平均占用情况,r为资源总数;以该子节点的资源占用特征F0作为该作业的资源占用特征F;
    获取典型作业的MAX_REDUCERS最优取值和MAX_MAPPERS最优取值的方法是:
    首先获取MAX_REDUCERS最优取值:在默认配置下,运行该作业,得到作业执行时间T;
    调整配置,以步长1来增大MAX_REDUCERS的取值后再次运行该作业,获取作业执行时间;当MAX_REDUCERS的值增加到i时,如果Ti>Ti-1,则将i-1作为MAX_REDUCERS的最优取值;
    然后获取MAX_MAPPERS最优取值:在MAX_REDUCERS最优取值的配置下,运行该作业,得到作业执行时间T';调整配置,以步长1来增大MAX_MAPPERS的取值后再次运行该作业,得到作业执行时间;当MAX_MAPPERS的值增加到n时,如果Tn>Tn-1,则将n-1作为MAX_MAPPERS的最优取值;
    步骤二:在默认配置下,用新作业s的部分数据G来运行作业,按照步骤一中获取典型作业的资源占用特征F的方法来获取新作业s的资源占用特征Fs;
    步骤三:如果新作业s的资源占用特征Fs达到资源占用饱和状态,则以默认配置的MAX_MAPPERS值和MAX_REDUCE值作为新作业s的MAX_MAPPERS最优取值和MAX_REDUCE最优取值;否则,计算作业特征库中每一个作业的资源占用特征F与新 作业s的资源占用特征Fs的相对距离Distance(F,Fs)=ΣkrΣjm|F[k][j]-Fs[k][j]|m;]]>
    步骤四:如果存在一个以上Distance(F,Fs)<0.1,则取作业特征库中与Fs的相对距离最小的那个作业的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值,作为新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;否则,按照步骤一中获取典型作业的MAX_REDUCERS最优取值和MAX_MAPPERS最优取值的方法,来确定新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;
    步骤五:以新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值配置集群后,完整运行新作业。

    2.  如权利要求1所述的Hadoop同构集群下的资源参数优化方法,其特征在于,所述新作业s的部分数据G为1G字节。

    说明书

    说明书Hadoop同构集群下的资源参数优化方法
    技术领域
    本发明涉及Hadoop集群性能优化技术领域,具体是一种Hadoop同构集群下的资源参数优化方法。
    背景技术
    近年来,随着互联网的普及和Web(网络)技术的飞速发展,全球数据呈现爆炸式增长,使得大数据处理成为一个新的研究热点。Hadoop是由Apache基金会所开发的一个基于MapReduce(一种编程模型)编程模型的开源框架,在web搜索、数据挖掘以及科学计算等大规模数据处理方面得到广泛的应用。目前Facebook(一个社交网络服务网站)、Amazon(亚马逊)等著名公司都在使用Hadoop进行大规模数据处理。
    对于一个典型的MapReduce作业,一般包括3个阶段:Map(映射)、copy(复制)和Reduce(规约)。在作业提交后,默认情况下输入文件将被分成64MB(Megabyte,兆字节,简称“兆”)大小的分片进行处理。在Map阶段,主要负责对每个块进行处理,产生键值对并存放到本地文件中。在copy阶段,主要负责将Map阶段产生的键值对传递给Reduce,作为输入。在Reduce阶段,会调用自定义的函数来处理这些键值对,并产生输出结果。具体执行过程由Map任务和Reduce任务完成。
    随着Hadoop的广泛应用,针对Hadoop集群的性能优化也成为了一个研究热点。现在针对Hadoop的性能优化的主要有两个方面:一是对Hadoop作业调优,包括从应用程序角度和Hadoop参数调整角度来达到优化Hadoop的集群性能的目的;二是对Hadoop集群的资源调优,主要通过修改Hadoop作业的调度算法来达到优化Hadoop的集群性能的目的。
    如何在优化Hadoop的资源利用率的同时提高Hadoop的作业执行效率,是本发明主要解决的问题。
    发明内容
    本发明的目的是提供一种对Hadoop资源参数的调整方法,以提高资源利用率和hadoop作业的运行效率,从而提高Hadoop的集群性能。
    实现本发明目的的技术方案如下:一种Hadoop同构集群下的资源参数优化方法,包括步骤一:建立Hadoop同构集群的作业特征库:任选一种以上典型作业,获取典型作业的资源占用特征F、MAX_REDUCERS最优取值和MAX_MAPPERS最优取值,将其加入作业特征库;其中,
    获取典型作业的资源占用特征F的方法是:在默认配置下,运行该作业;在作业执行过程中, 获取任意一个子节点的资源占用特征F0=U11U21...Uj1...Um1U12U22...Uj2...Um2..................U1kU2k...Ujk...Umk..................U1rU2r...Ujr...Umr;]]>其中,将作业执行时间划分为相等的m个时间段,为在第j个时间段内第k种资源的平均占用情况,r为资源总数;以该子节点的资源占用特征F0作为该作业的资源占用特征F;
    获取典型作业的MAX_REDUCERS最优取值和MAX_MAPPERS最优取值的方法是:
    首先获取MAX_REDUCERS最优取值:在默认配置下,运行该作业,得到作业执行时间T;调整配置,以步长1来增大MAX_REDUCERS的取值后再次运行该作业,获取作业执行时间;当MAX_REDUCERS的值增加到i时,如果Ti>Ti-1,则将i-1作为MAX_REDUCERS的最优取值;然后获取MAX_MAPPERS最优取值:在MAX_REDUCERS最优取值的配置下,运行该作业,得到作业执行时间T';调整配置,以步长1来增大MAX_MAPPERS的取值后再次运行该作业,得到作业执行时间;当MAX_MAPPERS的值增加到n时,如果Tn>Tn-1,则将n-1作为MAX_MAPPER的最优取值;
    步骤二:在默认配置下,用新作业s的部分数据G来运行作业,按照步骤一中获取典型作业的资源占用特征F的方法来获取新作业s的资源占用特征Fs;
    步骤三:如果新作业s的资源占用特征Fs达到资源占用饱和状态,则以默认配置的MAX_MAPPERS值和MAX_REDUC值作为新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;否则,计算作业特征库中每一个作业的资源占用特征F与新作业s的资源占用特征Fs的相对距离Distance(F,Fs)=ΣkrΣjm|F[k][j]-Fs[k][j]|m;]]>
    步骤四:如果存在一个以上Distance(F,Fs)<0.1,则取作业特征库中与Fs的相对距离最小的那个作业的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值,作为新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;否则,按照步骤一中获取典型作业的 MAX_REDUCERS最优取值和MAX_MAPPERS最优取值的方法,来确定新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;
    步骤五:以新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值配置集群后,完整运行新作业。
    进一步地,所述新作业s的部分数据G为1G字节。
    本发明的有益效果在于:1、有效地提高了作业运行的执行效率,提高了集群性能;2、合理地提高了集群的资源使用率,避免集群资源的浪费或者争夺,提高了集群性能;3、建立hadoop作业的特征库,为作业分类,方便后期作业分析和优化。
    附图说明
    图1是本发明中优化策略流程图;
    图2是本发明中RW(生成随机数)作业与特征库中的典型作业的相对距离比较图;
    图3、图4是本发明与默认配置的作业执行时间的对比图,其中图3是输入数据为5G的情况下作业执行时间对比,图4是输入数据为10G的情况下作业执行时间对比;
    图5是TeraSort(太字节排序)作业在默认配置下的CPU利用率;
    图6是TeraSort作业在本发明下的CPU利用率;
    图7是TeraSort作业在默认配置下的I/O利用率;
    图8是TeraSort作业在本发明下的I/O利用率;
    图9是TeraSort作业在默认配置下的内存利用率;
    图10是TeraSort作业在本发明下的内存利用率。
    具体实施方式
    本发明的技术方案通过合理配置协调MapReduce的各个环节,提高Hadoop作业的运行效率,并且使得集群的各种资源得到充分的利用,提高集群的资源利用率,从而从两方面优化集群的整体性能。
    本发明中与集群资源相关的参数为mapred.tasktracker.map.tasks.maximum和mapred.tasktracker.reduce.tasks.maximum这两个参数,分别用MAX_MAPPERS、MAX_REDUCERS表示。MAX_MAPPERS是指单个节点上能并行执行的最大Map任务数,MAX_REDUCERS是指单个节点上能并行执行的最大Reduce任务数。通过设置这两个参数值,可以调整节点的资源使用情况。在每个节点上,一个Map/Reduce任务作为一个单独的线程运行,这些值如果设置过大,会导致线程之间争夺资源,从而降低作业执行效率;但是这些参数如果设置太小,又会导致资源浪费,使得作业执行效率无法达到最优。因此,需要合理地 设置这些参数来提高资源利用率,从而提高作业的执行效率。
    下面结合图1详细描述本发明的具体实施方式:
    在本发明中,假定1.作业有输入数据,其输入数据大小大于1G;2.作业没有输入数据时,其输出数据大小大于1G。
    步骤一:建立Hadoop同构集群的作业特征库:任选一种以上典型作业,获取典型作业的资源占用特征F、MAX_REDUCERS最优取值和MAX_MAPPERS最优取值,将其加入作业特征库;这里,典型作业包括Grep(打印)、Sort(排序)、RandomTextWriter(RTW,生成随机文本)等。
    其中,
    获取典型作业的资源占用特征F的方法是:在默认配置下,运行该作业;在作业执行过程中,获取任意一个子节点的资源占用特征F0=U11U21...Uj1...Um1U12U22...Uj2...Um2..................U1kU2k...Ujk...Umk..................U1rU2r...Ujr...Umr;]]>其中,将作业执行时间划分为相等的m个时间段,为在第j个时间段内第k种资源的平均占用情况,r为资源总数;以该子节点的资源占用特征F0作为该作业的资源占用特征F;获取子节点的资源占用特征采用在作业执行过程中,通过编写Python(一种脚本语言)脚本调用Psutil(一个Python库)接口来获取集群每个节点的资源(CPU、I/O、内存等)的占用情况。
    获取典型作业的MAX_REDUCERS最优取值和MAX_MAPPERS最优取值的方法是:
    首先获取MAX_REDUCERS最优取值:在默认配置下,运行该作业,得到作业执行时间T;调整配置,以步长1来增大MAX_REDUCERS的取值后再次运行该作业,获取作业执行时间;当MAX_REDUCERS的值增加到i时,如果Ti>Ti-1,则将i-1作为MAX_REDUCERS的最优取值;然后获取MAX_MAPPERS最优取值:在MAX_REDUCERS最优取值的配置下,运行该作业,得到作业执行时间T';调整配置,以步长1来增大MAX_MAPPERS的取值后再次运行该作业,得到作业执行时间;当MAX_MAPPERS的值增加到n时,如果Tn>Tn-1,则将n-1作为MAX_MAPPER的S最优取值;
    步骤二:在默认配置下,用新作业s的部分数据G来运行作业,按照步骤一中获取典型作业的资源占用特征F的方法来获取新作业s的资源占用特征Fs;其中,新作业s的部分输入数据为1G字节,如果新作业s没有输入数据,则设定输出数据大小为1G字节。
    步骤三:如果新作业s的资源占用特征Fs达到资源占用饱和状态,则以默认配置的MAX_MAPPERS值和MAX_REDUC值作为新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;对于作业的资源占用特征F,资源k的平均占用率为当存在超过的资源的平均占用率则称作业的资源占用特征F达到资源占用饱和状态。
    否则,计算作业特征库中每一个作业的资源占用特征F与新作业s的资源占用特征Fs的相对距离Distance(F,Fs)=ΣkrΣjm|F[k][j]-Fs[k][j]|m;]]>
    步骤四:如果存在一个以上Distance(F,Fs)<0.1,则取作业特征库中与Fs的相对距离最小的那个作业的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值,作为新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值;否则,按照步骤一中获取典型作业的MAX_REDUCERS最优取值和MAX_MAPPERS最优取值的方法,来确定新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值。并且将该作业的最优配置和作业的资源占用特征加入特征库。
    步骤五:以新作业s的MAX_MAPPERS最优取值和MAX_REDUCERS最优取值配置集群后,完整运行新作业。
    为了验证技术方案的有效性,进行了对比实验。先采用Hadoop集群默认配置分别运行了TeraSort(太字节排序)、WordCount(单词计数)和RandomWriter(RW,生成随机数)作业,然后再采用本发明在相同集群下运行了TeraSort、Wordcount和RW作业。
    图2是本发明中RW(生成随机数)作业与特征库中的典型作业的相对距离比较图,图3、图4是本发明与默认配置的作业执行时间的对比图,其中图3是输入数据为5G的情况下作业执行时间对比,图4是输入数据为10G的情况下作业执行时间对比;图5至图10为TeraSort 作业在本发明中的资源利用率与默认配置下的资源利用率的比较。实验平台为hadoop-0.20.1。集群拥有1个主节点,3个从节点。集群中每个节点的配置均为:一个4核CPU、4G内存、1T硬盘、CentOS操作系统。

    关于本文
    本文标题:HADOOP同构集群下的资源参数优化方法.pdf
    链接地址://www.4mum.com.cn/p-6143423.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 河内时时彩计划软件 北京时时开奖官网 规律与现象 三地五码全组最大遗漏 后二万能码48注稳赚 冠军pk10人工计划群 必赢客北京pk拾精准版 广东时时开奖20选8 彩世界北京pk手机版 大乐透基本走势图表图2 11选五任选八胆拖可以错 手机APP彩票 彩神广东11选5全能版 福彩3d组六6码多少钱 多赢软件免费 幸运飞艇8码单期在线计划