• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 16
    • 下载费用:30 金币  

    重庆时时彩直播画面: 数据采集方法、装置和系统.pdf

    关 键 词:
    数据 采集 方法 装置 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201310170699.1

    申请日:

    2013.05.10

    公开号:

    CN103902745A

    公开日:

    2014.07.02

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/40申请日:20130510|||公开
    IPC分类号: G06F17/40 主分类号: G06F17/40
    申请人: 中国电信股份有限公司
    发明人: 向勇; 黄平; 刘波; 刘春; 陈翀; 陈康; 张青; 胡军军; 乐建兵; 谢晓军; 王保中; 黄铭琪
    地址: 100033 北京市西城区金融大街31号
    优先权: 2012.12.26 CN 201210574244.1
    专利代理机构: 中国国际贸易促进委员会专利商标事务所 11038 代理人: 刘剑波
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310170699.1

    授权公告号:

    ||||||

    法律状态公告日:

    2017.02.08|||2014.07.30|||2014.07.02

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开一种数据采集方法、装置和系统。其中在数据采集方法中,当接收到数据采集请求时,进行采集请求初始化处理。在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。

    权利要求书

    权利要求书
    1.  一种数据采集方法,其特征在于,包括:
    当接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
    判断是否满足采集条件;
    当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
    根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
    根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
    启动所述L个数据采集通道进行数据采集。

    2.  根据权利要求1所述的方法,其特征在于,启动所述L个数据采集通道进行数据采集的步骤之后,还包括:
    对数据采集通道的数目进行修正处理,其中:
    检测第L个数据采集通道实际对应的数据采集量;
    判断所述数据采集量是否大于预定数据采集量;
    若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道;
    启动新增加的数据采集通道。

    3.  根据权利要求2所述的方法,其特征在于:
    对数据采集通道的数目进行修正处理的步骤之后,还包括:
    定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值;
    若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值;
    若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。

    4.  根据权利要求1-3中任一项所述的方法,其特征在于:
    根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比的步骤包括:
    数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。

    5.  根据权利要求1-3中任一项所述的方法,其特征在于:
    判断是否满足采集条件的步骤包括:
    判断当前CPU开销小于采集启动门限;
    若当前CPU开销小于采集启动门限,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。

    6.  根据权利要求5所述的方法,其特征在于:
    若当前CPU开销小于采集启动门限,还进一步判断当前时间是否处于指定的时间范围内;
    若当前时间处于指定的时间范围内,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。

    7.  根据权利要求1-3中任一项所述的方法,其特征在于:
    根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤包括:

    其中函数为向下取整函数。

    8.  根据权利要求1-3中任一项所述的方法,其特征在于:
    根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L的步骤包括:
    选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。

    9.  一种数据采集装置,其特征在于,包括:
    接收单元,用于接收数据采集请求;
    初始化处理单元,用于在接收单元接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
    第一识别单元,用于判断是否满足采集条件;
    并发通道计算单元,用于根据第一识别单元的判断结果,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
    选择单元,用于根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
    分配单元,用于根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
    启动单元,用于启动所述L个数据采集通道进行数据采集。

    10.  根据权利要求9所述的装置,其特征在于,所述装置还包括修正单元,用于在启动单元启动所述L个数据采集通道进行数据采集后,对数据采集通道的数目进行修正处理,其中,修正单元包括:
    检测???,用于检测第L个数据采集通道实际对应的数据采集量;
    判断???,用于判断所述数据采集量是否大于预定数据采集量;
    修正???,用于根据判断??榈呐卸辖峁?,若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道;
    启动???,用于启动新增加的数据采集通道。

    11.  根据权利要求10所述的装置,其特征在于,所述装置还包括:
    第二识别单元,用于在修正单元对数据采集通道的数目进行修正处理后,定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值;
    暂停单元,用于根据第二识别单元的检测结果,若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值;
    恢复单元,用于根据第二识别单元的检测结果,若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。

    12.  根据权利要求9-11中任一项所述的装置,其特征在于:
    数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。

    13.  根据权利要求9-11中任一项所述的装置,其特征在于:
    第一识别单元具体判断当前CPU开销小于采集启动门限,若当前 CPU开销小于采集启动门限,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。

    14.  根据权利要求13所述的装置,其特征在于:
    第一识别单元还用于在当前CPU开销小于采集启动门限时,还进一步判断当前时间是否处于指定的时间范围内;若当前时间处于指定的时间范围内,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。

    15.  根据权利要求9-11中任一项所述的装置,其特征在于:
    并发通道计算单元具体利用下式计算最大并发通道数;

    其中函数为向下取整函数。

    16.  根据权利要求9-11中任一项所述的装置,其特征在于:
    选择单元具体选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。

    17.  一种数据采集系统,其特征在于,包括数据采集装置,数据压缩装置和数据发送装置,其中:
    数据采集装置,为权利要求9-16中任一项涉及的数据采集装置;
    数据压缩装置,用于将所述数据采集装置采集的数据进行压缩;
    数据发送装置,用于将经过压缩的数据发送给目标服务器。

    说明书

    说明书数据采集方法、装置和系统
    技术领域
    本发明涉及通信领域,特别涉及一种数据采集方法、装置和系统。
    背景技术
    在大数据时代,数据规模爆炸式增长,数据库中的数据,动辄数百G,甚至高达几十T。在很多情况下,我们需要将这些数据按照指定条件从数据库中导出来,采集生成文本文件。在这个过程中,数据操作人员最关心的就是数据的导出性能、对数据库服务器的影响,以及导出自适应能力等。
    目前,数据库数据采集,按照采集部署模式,可以分为“远程采集”和“本地采集”两大类。前者是指在目标服务器上远程访问数据库,读取数据直接写入到目标文件中;后者是指在数据库服务器上访问数据库,采集数据生成文件后传回目标服务器。
    而这两种模式中,都存在一些问题和不足之处:
    1)对数据库服务器的负载影响不能根据用户所希望的那样自动调节控制;
    2)在“本地采集”模式中,需要占用较大的本地磁盘空间。当数据规模比较大时,数据库服务器通常不具备这样的条件;同时,这种模式下,整个流程为串行方式,需要先在数据库服务器上生成完整文件后才能将文件传回目标服务器,并行度不高,导致总体数据采集时间变长。
    3)在“远程采集”模式中,由于无法对数据进行压缩等处理,需要占用较多的网络资源,当数据规模庞大时,对网络造成较大冲击。而且传输时间较长。同时,这种模式下,不具备断点恢复能力;
    4)无论是“本地采集”还是“远程采集”,都不支持根据待采集数据规模自动调节采集并行度。
    发明内容
    本发明要解决的技术问题是提供一种数据采集方法、装置和系统。通过评估通道能力,根据系统当前状况确定数据采集通道数量,从而可在保证负载受控的情况下,提高数据采集效率和自适应性。
    根据本发明的一个方面,提供一种数据采集方法,包括:
    当接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU(Central Processing Unit,中央处理单元)开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
    判断是否满足采集条件;
    当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
    根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
    根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
    启动所述L个数据采集通道进行数据采集。
    根据本发明的另一方面,提供一种数据采集装置,包括:
    接收单元,用于接收数据采集请求;
    初始化处理单元,用于在接收单元接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比;
    第一识别单元,用于判断是否满足采集条件;
    并发通道计算单元,用于根据第一识别单元的判断结果,当满足采 集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数;
    选择单元,用于根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L;
    分配单元,用于根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道;
    启动单元,用于启动所述L个数据采集通道进行数据采集。
    根据本发明的另一方面,提供一种数据采集系统,包括数据采集装置,数据压缩装置和数据发送装置,其中:
    数据采集装置,为上述任一实施例涉及的数据采集装置;
    数据压缩装置,用于将所述数据采集装置采集的数据进行压缩;
    数据发送装置,用于将经过压缩的数据发送给目标服务器。
    本发明通过当接收到数据采集请求时,进行采集请求初始化处理。
    在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。
    附图说明
    为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
    图1为本发明数据采集方法一个实施例的示意图。
    图2为本发明修正处理一个实施例的示意图。
    图3为本发明暂停处理数据采集通道一个实施例的示意图。
    图4为本发明数据采集装置一个实施例的示意图。
    图5为本发明数据采集装置另一实施例的示意图。
    图6为本发明修正单元一个实施例的示意图。
    图7为本发明数据采集装置又一实施例的示意图。
    图8为本发明数据采集系统一个实施例的示意图。
    具体实施方式
    下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。以下对至少一个示例性实施例的描述实际上仅仅是说明性的,决不作为对本发明及其应用或使用的任何限制?;诒痉⒚髦械氖凳├?,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。
    除非另外具体说明,否则在这些实施例中阐述的部件和步骤的相对布置、数字表达式和数值不限制本发明的范围。
    同时,应当明白,为了便于描述,附图中所示出的各个部分的尺寸并不是按照实际的比例关系绘制的。
    对于相关领域普通技术人员已知的技术、方法和设备可能不作详细讨论,但在适当情况下,所述技术、方法和设备应当被视为授权说明书的一部分。
    在这里示出和讨论的所有示例中,任何具体值应被解释为仅仅是示例性的,而不是作为限制。因此,示例性实施例的其它示例可以具有不同的值。
    应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步讨论。
    图1为本发明数据采集方法一个实施例的示意图。优选的,该实施例的方法步骤由数据采集装置执行。
    步骤101,当接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比。
    步骤102,判断是否满足采集条件。
    步骤103,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数。
    步骤104,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L。
    步骤105,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道。
    步骤106,启动所述L个数据采集通道进行数据采集。
    基于本发明上述实施例涉及的数据采集方法,通过当接收到数据采集请求时,进行采集请求初始化处理。在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。
    例如,从数据库中读取一定数量(如1万条)的样本记录(记录采集开始、结束时间,以及CPU开销等),然后在内存中压缩这些记录数据(记录压缩开始、结束时间,以及CPU开销等),最后将压缩后的数据传到数据接收??椋锹即淇?、结束时间,以及CPU开销等)。这样,我们就获取到数据读取、数据压缩和数据传输这三主要个阶段的时间开销和CPU资源开销信息。然后再根据这些信息,计算各通道之间的适配比。
    优选的,上述启动所述L个数据采集通道进行数据采集的步骤之 后,还包括对数据采集通道的数目进行修正处理。
    图2为本发明修正处理一个实施例的示意图。优选的,该实施例的方法步骤可由修正单元来执行。
    步骤201,检测第L个数据采集通道实际对应的数据采集量。
    步骤202,判断所述数据采集量是否大于预定数据采集量。
    步骤203,若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道。
    步骤204,启动新增加的数据采集通道。
    例如,一张数据库表的准确记录数是1986529,通过抽样方式得到的数据量为1200000。假如经过通道匹配计算,启动第1-5个采集通道(每个通道采集的数据范围分别为[1-240000],[240001-480000],[480001-720000],[720001-960000],[960001-结尾])并行读取数据库记录,那么,第5个采集通道实际负责的数据范围为[960001-1986529],即1026529条记录,远大于其他采集通道负责的240000条记录。如果不进行修正,则第5个采集通道会明显导致整个采集任务耗时拖长。因此,就需要增加新的通道来分担第5个通道承担的采集数据范围,以避免整体时间被拖长的现象。
    图3为本发明暂停处理数据采集通道一个实施例的示意图。优选的,根据当前CPU开销的具体情况,可考虑暂?;蚧指词莶杉ǖ?。
    步骤301,在对数据采集通道的数目进行修正处理后,定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值。
    步骤302,若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值。
    步骤303,若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。
    大于第一开销阈值意味着负载超过限制,小于第二开销阈值意味着有空闲资源,由此可有效利用系统资源。
    优选的,上述根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比的步骤包括:
    数据采集通道、数据压缩通道和数据传输通道的适配比等于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。
    例如,数据采集耗时10秒,数据压缩耗时5秒,数据传输耗时2.5秒。那么,适配比可以设置为4:2:1,也就是启动4个数据采集通道,2个数据压缩通道和1个传输通道来完成该采集任务。
    优选的,上述判断是否满足采集条件的步骤包括:
    判断当前CPU开销小于采集启动门限;
    若当前CPU开销小于采集启动门限,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。
    例如,若当前CPU开销大于85%,则此时不适于进行数据采集。
    优选的,若当前CPU开销小于采集启动门限,还进一步判断当前时间是否处于指定的时间范围内;
    若当前时间处于指定的时间范围内,则执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤。
    例如,可限制每天只有0:00~8:00进行批量数据采集请求,以保证其它时段数据库业务的正常使用。
    优选的,上述根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的步骤包括:

    其中函数为向下取整函数。
    例如,当前CPU开销为20%,数据采集的CPU开销最大,为5%,则可以由此计算出当前最大的并发通道数为16个。
    优选的,上述根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L的步骤包括:
    选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。
    例如,若适配比可以设置为4:2:1,则可设置8个数据采集通道、4个数据压缩通道和2个数据传输通道,通道总数为14个,小于最大并发通道数16。
    图4为本发明数据采集装置一个实施例的示意图。如图4所示,数据采集装置包括:
    接收单元401,用于接收数据采集请求。
    初始化处理单元402,用于在接收单元接收到数据采集请求时,进行采集请求初始化处理,其中采集请求初始化处理包括评估待采集数据的数据量规模,分别记录采集样本数据阶段、对样本数据进行压缩阶段和将压缩后的样本数据发送给目标服务器阶段的时间开销和CPU开销,根据各时间开销的比值确定数据采集通道、数据压缩通道和数据传输通道的适配比。
    第一识别单元403,用于判断是否满足采集条件。
    并发通道计算单元404,用于根据第一识别单元403的判断结果,当满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数。
    选择单元405,用于根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L。
    分配单元406,用于根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通道。
    启动单元407,用于启动所述L个数据采集通道进行数据采集。
    基于本发明上述实施例涉及的数据采集装置,通过当接收到数据采集请求时,进行采集请求初始化处理。在满足采集条件时,根据所述CPU开销中最大的一个CPU开销计算最大并发通道数,根据所述适配比,在所述最大并发通道数中选择数据采集通道的数目L,根据评估的数据量规模,将需要采集的数据量按预定标准分配给L个数据采集通 道,启动所述L个数据采集通道进行数据采集。从而通过实时自动调节数据采集通道以保证数据采集对数据库的负载影响在规定范围内,由此可在确保负载受控的情况下,提高数据采集效率和自适用性。
    图5为本发明数据采集装置另一实施例的示意图。与图4所示实施例相比,在图5所示实施例中,还包括修正单元501,用于在启动单元启动所述L个数据采集通道进行数据采集后,对数据采集通道的数目进行修正处理。
    图6为本发明修正单元一个实施例的示意图。如图6所示,修正单元包括:
    检测???01,用于检测第L个数据采集通道实际对应的数据采集量。
    判断???02,用于判断所述数据采集量是否大于预定数据采集量。
    修正???03,用于根据判断???02的判断结果,若实际对应的数据采集量大于预定数据采集量,将第L个数据采集通道实际对应的数据采集量修改为预定数据采集量,将实际对应的数据采集量中除去预定数据采集量的部分按预定标准分配给新增加的数据采集通道。
    启动???04,用于启动新增加的数据采集通道。
    图7为本发明数据采集装置又一实施例的示意图。与图5所示实施例相比,在图7所示实施例中,该装置还包括:
    第二识别单元701,用于在修正单元对数据采集通道的数目进行修正处理后,定期检测当前CPU开销是否大于第一开销阈值或小于第二开销阈值。
    暂停单元702,用于根据第二识别单元701的检测结果,若当前CPU开销大于第一开销阈值,则暂停至少一个数据采集通道,使得当前CPU开销小于第一开销阈值。
    恢复单元703,用于根据第二识别单元701的检测结果,若当前CPU开销小于第二开销阈值,则在暂停的数据采集通道中启动至少一个暂停的数据采集通道,使得当前CPU开销大于第二开销阈值。
    优选的,数据采集通道、数据压缩通道和数据传输通道的适配比等 于采集样本数据阶段的时间开销、对样本数据进行压缩阶段的时间开销、和将压缩后的样本数据发送给目标服务器阶段的时间开销之间的比值。
    优选的,第一识别单元具体判断当前CPU开销小于采集启动门限,若当前CPU开销小于采集启动门限,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。
    优选的,第一识别单元还用于在当前CPU开销小于采集启动门限时,还进一步判断当前时间是否处于指定的时间范围内;若当前时间处于指定的时间范围内,则指示并发通道计算单元执行根据所述CPU开销中最大的一个CPU开销计算最大并发通道数的操作。
    优选的,并发通道计算单元具体利用下式计算最大并发通道数;

    其中函数为向下取整函数。
    优选的,选择单元具体选择数据采集通道的数目L、数据压缩通道的数目M和数据传输通道的数目N,使得L:M:N=所述适配比,同时L+M+N小于最大并发通道数。
    图8为本发明数据采集系统一个实施例的示意图。如图8所示,数据采集系统包括数据采集装置801,数据压缩装置802和数据发送装置803。其中:
    数据采集装置801,为图4-图7任一实施例涉及的数据采集装置。数据压缩装置802,用于将所述数据采集装置采集的数据进行压缩。数据发送装置803,用于将经过压缩的数据发送给目标服务器。
    优选的,数据压缩装置802在内存中进行数据压缩,这样可有效减小磁盘I/O操作,而且可有效降低传输的数据量和网络带宽占用。
    本发明通过自动调节采集并发通道以保证采集装置对数据库的负载影响在规定的范围内,通过本发明,可在保证负载受控的情况下,提高数据采集效率和自适应性。
    本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所 述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
    本发明的描述是为了示例和描述起见而给出的,而并不是无遗漏的或者将本发明限于所公开的形式。很多修改和变化对于本领域的普通技术人员而言是显然的。选择和描述实施例是为了更好说明本发明的原理和实际应用,并且使本领域的普通技术人员能够理解本发明从而设计适于特定用途的带有各种修改的各种实施例。

    关于本文
    本文标题:数据采集方法、装置和系统.pdf
    链接地址://www.4mum.com.cn/p-6134162.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 中国福利彩票七乐彩 英雄联盟之绝世无双 170彩票 今晚出的什么特马生肖 qq麻将下载安卓手机版 跑狗网单双中特 青海11选5走势图手机版下载 体育彩票的微信名 重庆时时彩官网 天津快乐10分走势基本 网上棋牌怎么才能赢 2012香港赛马会108期 两码中特真经 3d试机号开奖号走势图 江西麻将规则打烂 中国福利彩票3d