• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 15
    • 下载费用:30 金币  

    重庆时时彩5星杀码: 一种异构多源数据的动态集成方法及系统.pdf

    关 键 词:
    一种 异构多源 数据 动态 集成 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410102827.3

    申请日:

    2014.03.19

    公开号:

    CN103902671A

    公开日:

    2014.07.02

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140319|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 北京科技大学
    发明人: 谢永红; 赵利民; 张德政; 阿孜古丽·吾拉木; 栗辉; 杜宏博
    地址: 100083 北京市海淀区学院路30号
    优先权:
    专利代理机构: 北京金智普华知识产权代理有限公司 11401 代理人: 皋吉甫
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410102827.3

    授权公告号:

    ||||||

    法律状态公告日:

    2018.04.13|||2014.07.30|||2014.07.02

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了一种异构多源数据的动态集成方法及系统,包括数据采集???、动态建库???、入库加载???、数据持久层???。数据采集??橛糜诙ㄒ迨菰?、提供数据源特征、定制采集方法;动态建库??楦菔萁峁苟ㄖ圃菘夂鸵滴袷菘?;入库加载??橛糜谑萁峁乖俣ㄒ搴图釉厝肟?;数据持久层??橛糜谠菘夤芾?。本发明提供的集成系统具有灵活的可扩展性和通用性,处理用户在数据结构不明确时对复杂多源数据的集成问题,为数据决策分析提供可靠的数据集保障。

    权利要求书

    权利要求书
    1.  一种异构多源数据的动态集成系统,该系统适用于开放生产环境中多源、异构数据的集成,支持数据源动态变化和数据采集方式相对灵活多变的情况,其特征在于,所述系统包括数据采集???、动态建库???、入库加载???、数据持久层???;
    所述数据采集??槎魇菰戳可矶ㄗ霾杉椒ú⒎⑺椭潦莩志貌隳??,采集数据至系统缓存库,完成数据源的定义,提取数据源特征并发送至动态建库???;
    所述动态建库??榻邮帐莶杉?榉⑺偷氖菰刺卣?,用于为异构多源数据动态定制业务数据库和元数据库,生成元表记录并更新元数据库数据;
    所述入库加载??榻邮帐莶杉?榛捍婵獾淖缓蟮氖?,并做再定义处理,实现数据结构统一性,并引导多源数据进入相应业务数据库;
    所述数据持久层??榇娲⒁旃苟嘣匆滴袷?、异构多源元数据和数据采集??槎ㄖ频牟杉椒?,提供元数据库管理机制,并实现元数据库与业务数据的两库联动。

    2.  如权利要求1所述的异构多源数据的动态集成系统,其特征在于,所述数据采集??榘ǎ?BR>数据源定义单元,用于在数据持久层定义数据源基本信息;
    采集方法动态定制单元,用于管理多源数据相应的数据采集方法,并将采集方法发送给采集方法库;
    特征提取单元,用于提取数据源的属性、数据结构等信息,并将其发送给动态建库???。

    3.  如权利要求1所述的异构多源数据的动态集成系统,其特征在于,所述动态建库??榘ǎ?BR>元数据库动态定制单元,用于为各数据源动态定制元数据库表结构,接收数据采集??榈氖菰刺卣餍畔?,并依此作为元表记录更新元数据库;
    业务数据库动态定制单元,为各数据源动态定制业务数据库。

    4.  如权利要求1所述的异构多源数据的动态集成系统,其特征在于,所述入库加载??榘ǎ?BR>数据源再定义单元,用于接收数据采集??榛捍婵庵械氖?,通过分析元数据库属性间关系对数据结构再定义;
    入库加载单元,用于根据各数据源特征定制入库引导程序,并完成数据入库加载工作。

    5.  一种异构多源数据的动态集成方法,其特征在于,该集成方法包括以下步骤:
    步骤1、采集源数据并向系统提供数据源特征、定制采集方法;
    步骤2、动态定制元数据库和业务数据库;
    步骤3、对业务数据结构再定义,生成入库引导程序并完成业务数据入库。

    6.  如权利要求5所述的异构多源数据的动态集成方法,其特征在于,所述步骤1还包括以下具体步骤:
    步骤1.1,所述数据采集??樵谑莩志貌愣ㄒ迨菰?;
    步骤1.2,所述数据采集??槎ㄖ聘魇菰吹牟杉椒?,并发送至采集方法库;
    步骤1.3,所述数据采集??樘崛「魇菰吹奶卣餍畔⒉⒎⑺椭炼饽??。

    7.  如权利要求5所述的异构多源数据的动态集成方法,其特征在于,所述步骤2还包括以下具体步骤:
    步骤2.1,所述动态建库??槎ㄖ票碓砗褪粜栽?;
    步骤2.2,所述动态建库??槎ㄖ埔滴袷菘饨峁?。

    8.  如权利要求5所述的异构多源数据的动态集成方法发,其特征在于,步骤3包括以下具体步骤:
    步骤3.1,所述入库加载??槎ㄖ聘魇菰吹娜肟庖汲绦?;
    步骤3.2,所述入库加载??榻邮帐莶杉?榈氖?,进行数据结构再定义;
    步骤3.3,所述入库引导程序将再定义后的数据加载至业务数据库中。

    说明书

    说明书一种异构多源数据的动态集成方法及系统
    技术领域
    本发明属于数据处理领域,尤其是涉及一种异构多源数据的动态集成方法及系统,。
    背景技术
    随着当今社会数据的日益膨胀,生产、通信、医疗等行业产生了大量非结构化的实时或滞后数据,这些数据呈现出结构相异、来源渠道多样、数据冗余程度高等特点,不仅在数据采集角度的用户增加了不断重复的工作量,不同数据源的入库加载也是极其繁琐的,数据集成入库的过程中增加了失误的概率。
    目前典型的数据集成过程是抽取、转换、降维、集成,但是这四个过程却忽略了动态性,其必须要有针对性的设计一套方案进行源数据的集成工作,缺乏灵活性和通用性,传统的异构多源数据集成,不同的数据源必须有不同的数据集成方法,这有一个弊端,就是一旦某一环节出现问题(比如数据采集时出现数据结构解析错误),未来的数据集成和数据仓库的构建将毫无意义。
    比如在重钢集团热连轧工艺生产流程中,针对某一生产线产生的实时数据,当生产流程或采集点样本数据结构发生变化时,企业只能重新设计一套新方案来采集新数据源,这无疑为企业增加了繁琐的工作量,而且在采集方案的设计过程中增加了人工失误率。
    因此,异构多源数据集成工作的通用性愈发重要。
    发明内容
    针对现有技术中存在的问题,本发明的目的在于提供一种异构多源数据的动态集成方法及系统,它的特点是在数据采集过程中提供一种动态定制异构多源数据采集方法的机制,在整个系统中定义了一种多数据源的层次化管理模式,在数据入库加载??槭迪至艘恢至榛畹囊滴袷菰俣ㄒ宸椒?,另外提供了一种元数据管理机制和动态数据集成方法。
    为了实现本发明的目的,采用以下技术方案:
    一种异构多源数据的动态集成系统,该系统适用于开放生产环境中多源、异构数据的集成,支持数据源动态变化和数据采集方式相对灵活多变的情况,所述系统包括数据采集???、动态建库???、入库加载???、数据持久层???;
    所述数据采集??槎魇菰戳可矶ㄗ霾杉椒ú⒎⑺椭潦莩志貌隳??,采集数据至系统缓存库,完成数据源的定义,提取数据源特征并发送至动态建库???;
    所述动态建库??榻邮帐莶杉?榉⑺偷氖菰刺卣?,用于为异构多源数据动态定制业务数据库和元数据库,生成元表记录并更新元数据库数据;
    所述入库加载??榻邮帐莶杉?榛捍婵獾淖缓蟮氖?,并做再定义处理,实现数据结构统一性,并引导多源数据进入相应业务数据库;
    所述数据持久层??榇娲⒁旃苟嘣匆滴袷?、异构多源元数据和数据采集??槎ㄖ频牟杉椒?,提供元数据库管理机制,并实现元数据库与业务数据的两库联动。
    所述数据采集??榘ǎ?
    数据源定义单元,用于在数据持久层定义数据源基本信息;
    采集方法动态定制单元,用于管理多源数据相应的数据采集方法,并将采集方法发送给采集方法库;
    特征提取单元,用于提取数据源的属性、数据结构等信息,并将其发送给动态建库???。
    所述动态建库??榘ǎ?
    元数据库动态定制单元,用于为各数据源动态定制元数据库表结构,接收数据采集??榈氖菰刺卣餍畔?,并依此作为元表记录更新元数据库;
    业务数据库动态定制单元,为各数据源动态定制业务数据库。
    所述入库加载??榘ǎ?
    数据源再定义单元,用于接收数据采集??榛捍婵庵械氖?,通过分析元数据库属性间关系对数据结构再定义;
    入库加载单元,用于根据各数据源特征定制入库引导程序,并完成数据入库加载工作。
    本发明还提出一种异构多源数据的动态集成方法,该集成方法包括以下步骤:
    步骤1、采集源数据并向系统提供数据源特征、定制采集方法;
    步骤2、动态定制元数据库和业务数据库;
    步骤3、对业务数据结构再定义,生成入库引导程序并完成业务数据入库。
    所述步骤1还包括以下具体步骤:
    步骤1.1,所述数据采集??樵谑莩志貌愣ㄒ迨菰?;
    步骤1.2,所述数据采集??槎ㄖ聘魇菰吹牟杉椒?,并发送至采集方法库;
    步骤1.3,所述数据采集??樘崛「魇菰吹奶卣餍畔⒉⒎⑺椭炼饽??。
    所述步骤2还包括以下具体步骤:
    步骤2.1,所述动态建库??槎ㄖ票碓砗褪粜栽?;
    步骤2.2,所述动态建库??槎ㄖ埔滴袷菘饨峁?。
    步骤3包括以下具体步骤:
    步骤3.1,所述入库加载??槎ㄖ聘魇菰吹娜肟庖汲绦?;
    步骤3.2,所述入库加载??榻邮帐莶杉?榈氖?,进行数据结构再定义;
    步骤3.3,所述入库引导程序将再定义后的数据加载至业务数据库中。
    本发明的优点在于,它使用区别于传统异构多源数据集成的动态集成方法,利用源数据特征定制数据采集方法和元数据库,再通过元数据库进行业务数据库结构的定制和数据结构再定义,引导入库方法也实现了其动态定制,为异构多源数据的集成带来了机动性,其中采集方法和数据库的定制也更加通用,元数据库管理机制更提供了一种灵活的数据库管理模式。
    附图说明
    图1是本发明的系统流程图;
    图2是本发明的系统结构示意图;
    图3是本发明的异构多源数据的采集示意图;
    图4是本发明的多元化业务层次管理模型图;
    图5是本发明的多源数据的特征提取示意图;
    图6是本发明的动态数据入库加载示意图;
    图7是本发明的元数据管理机制图;
    图8是本发明的数据库系统层次图。
    具体实施方式
    为使本发明的目的、技术方案和优点更加清楚明白,以下结合附图和具体实施例,对本发明进一步详细说明。
    本发明提供一种异构多源数据的动态集成方法与系统,该系统尤其适用于开放生产环境中多源、异构数据的集成,并且支持数据源动态变化和数据采集方式相对灵活多变的情况。
    该提供了一种动态定制异构多源数据采集方法的机制,可对不同结构的数据源进行采集方法的定制和管理,并在数据接入到系统时对不同来源的数据调用相应的方法进行格式转换、整理等采集工作,最终统一在相同的数据格式下;定义了一种多数据源的层次化管理模式,将所有数据源统一在一个包括数据源层次、特征层次、业务层次三层逻辑的多层逻辑管理模式下,从而适应数据源的动态变化,实现数据特征的统一管理;提供了一种元数据管理机制,元数据库与业务数据库之间可以动态联动,是真正意义上的“库管理库”;实现了一种灵活的业务数据再定义方法,针对各异构数据源的特征,将各数据源的业务数据进行重组,形成新的再定义元表;提供了一种动态数据集成方法,通过数据源动态入库引导,实现了数据批量高效加载入库。
    系统是一个层次管理模型,如图4所示的三层结构,第一层是数据源层次,负责管理各生产工厂数据基本信息(如北海钢铁的处理钢种号、首次接入时间、数据源种类和种数等);第二层是特征层次,统一管理各工厂元数据数据,例如表元表和属性元表均由特征层次管理;业务层次便是具体业务数据表,例如北海钢铁的BH_RM_SET表保存了轧钢过程中的粗轧设定数据,又如重庆钢铁的CQ_FM_COMCON_DATA表保存了轧钢过程的公共常量。
    如图2所示,异构多源数据的动态集成系统包括数据采集???、动态建库???、入库加载???、数据持久层???,完成从数据的采集、采集方法的定制、数据源特征提取、数据结构再定义到最终完成数据加载的操作。系统通过数据采集??槎ㄖ撇杉椒ú⑻峁┦菰刺卣?;动态建库??橥瓿稍菘夂鸵滴袷菘獾亩ㄖ?;入库加载??榻菁釉氐绞菘庵?;数据持久层??橥ü菘夤芾砘剖挂滴袷菘獾墓芾砀有?。
    其中,数据采集??橛啥ㄒ迨菰?,动态定制采集方法,特征提取三部分功能构成。
    数据采集??橥ü没卸鲜菘庵惺欠裎菰匆驯赴付ㄒ迨菰?,当数据源首次接入时,用户要定义数据源。例如数据源为首次接入的某工厂生产线数据,用户要定义工厂数据的路径、工厂状态、采集方法的路径等信息;如果数据源不是首次接入,则跳过此步骤。
    在数据源定义之后可根据数据源附带的表头文件定制数据采集方法,每个数据源接入时都有数据相关头文件用于描述结构信息(多为C语言编写的头文件),数据采集??楦涸鸾庑┩肺募幢晔叮ū热鐂truct关键字)提取出数据结构,根据数据结构定制采集程序进行数据先读后写,输出文本数据到数据缓存库中。定制采集程序中,数据结构的提取过程是一个递归的过程,例如在轧钢生产流程中产生的数据多为product.dat形式,给出的头文件也是C语言编写的头文件,可以扫描所有头文件,通过关键字struct截取出数据结构体,作为业务数据基本表;通过关键字起始的分号,截取出结构体的成员(结构体和成员等信息被称为数据特征),因为不同采集方法的不同之处一般都是各数据源数据结构树和头文件中定义的宏不同,其他的文本处理过程和读写机制都是相同的,所以可将各源数据结构树融合到读写数据文件的方法中,便形成了异构多源数据采集方法的定制,如图3所示,将采集方法保存到数据库的采集方法库中以供后期调用。
    数据源的数据结构是一个树状结构,从头文件中可提取出关于结构信息的结构体,进一步提取可得到表和属性,如图5所示,通过扫描各数据源提供的头文件可根据关键字struct和C语言数据类型保留字(如int,float)提取出多个结构体和成员,进一步形成生成元表和业务数据库结构的sql创建和插入脚本(在动态建库??橹谢嶂葱薪猓?,特征提取单元将这些数据特征信息发送给动态建库???。
    动态建库??橹饕ㄔ菘獾亩ㄖ坪鸵滴袷菘獾亩ㄖ屏讲糠止δ?。
    动态建库???,通过数据的特征(结构体和成员)生成属性元表和表元表创建代码(即表创建sql语句),根据数据源特征定制数据库。根据属性(结构体)名称、类型、长度等信息生成元表插入语句,将数据特征插入上述创建的元数据库中,完成元数据库定制工作。
    依据元数据库中表元表和属性元表,定制数据库,此时业务数据库中便创建了相应源的业务表。
    入库加载??橹饕墒萁峁乖俣ㄒ搴腿肟饧釉亓讲糠止钩?。
    入库加载??橄冉惺萁峁乖俣ㄒ?,数据缓存库中的数据(此时数据已经过初步转换,可读性更高)与数据持久层中其他源的数据可能存在类似同名异义、异名同义、同名同义等现象,为实现数据库中数据组织形式的统一,通过元数据表将数据结构进行再定义,解决了这些冲突。下表1便是一种再定义形式,如果源1中表A与源2中表x为异名同义表,因此将其抽取出来再定义为表M,表示源1A或源2x。如果源1表B部分属性与源2表y部分属性同义,那么可将两表部分共同属性提取出来进行重组,表N便为重组后的表。
    表1
    数据源1源1表A源1表B源1表C源1表D数据源2源2表x源2表y源2表z再定义后的组织形式表M(A或x)表N(B+y)
    引导入库方法的定制也是一个动态过程,如图6所示,通过元数据库中的元数据为每个数据源定制一系列引导文件,如果目的数据库是Oracle,则通过列举缓存库中文件名称再结合表元表和属性元表生成对应数据源的控制文件(*.ctl文件),通过java程序定制各数据源的入库引导程序,执行入库程序便使用SQL loader工具将数据批量加载入库,完成对应数据的批量入库工作。
    数据持久层??橹饕稍菘夤芾砗褪荽娲⒘礁龉δ茏槌?。
    数据持久层根据自身特点,实现元数据库和业务数据两库联动,如图7所示,元数据库可以动态定制业务数据库,属性元表实现业务库的属性修改、增加、删除等管理,表元表对业务数据库的表进行修改、增加、删除等管理。元数据管理机制是本系统的一个重要特性,当数据加载入库之后,系统把对应数据源的记录数、最后使用时间、调用频次、表的增删情况等重要数据反馈给元数据库;同样地,当元数据库对表或属性进行更新操作时,业务数据库会响应(如在表元表中删除一个业务表,则此业务表将被销毁)。元数据库与业务数据库的联动机制真正实现了“库管理库”。
    元数据库中保存的是业务表的组织形式信息,真正的业务数据存放在了业务数据库中,数据采集??橹卸ㄖ频牟杉椒ū4嬖诹瞬杉椒庵?,用于将来相同结构数据采集时直接调用,省去了定制过程。
    附图8展示了本系统的数据库系统层次,元数据库包括表元表和属性元表,表元表中包括了业务表表名、使用频次、表中属性数量、记录数据、最后更新时间等信息,属性元表中包括了属性名称、隶属表等信息;业务数据库中包括了根据各数据源特征创建的业务表;采集方法库中则包括了数据采集??橹形魇菰炊ㄖ频牟杉椒?,包括方法参数、返回值、路径等信息。
    基于上述异构多源数据的动态集成系统,对异构多源数据进行动态采集、建库、再定义,进而达到加载入库,其中具体流程如下:
    步骤一、数据采集??橥ü旃苟嘣词萁刑卣魈崛?,将特征信息发送给动态建库??楹腿肟饧釉啬??,并定义数据源和动态定制采集方法,将定制的采集方法发送至数据持久层???。
    步骤1.1,数据采集??樵谑莩志貌愣ㄒ迨菰?;
    步骤1.2,数据采集??槎ㄖ聘魇菰吹牟杉椒?,并发送至采集方法库;
    步骤1.3,数据采集??樘崛「魇菰吹奶卣餍畔⒉⒎⑺椭炼饽??。
    步骤二、动态建库??楦萁邮盏氖菰刺卣鞫ㄖ葡嘤υ菘獾氖粜栽砗捅碓?,并参照属性元表和表元表定制相应业务数据库。
    步骤2.1,动态建库??槎ㄖ票碓砗褪粜栽?;
    步骤2.2,动态建库??槎ㄖ埔滴袷菘饨峁?。
    步骤三、入库加载??楦萁邮盏囊旃苟嘣词莸氖粜?、结构等特征定制入库引导程序,并将数据采集??榉⑺偷氖菰俣ㄒ?,加载至相应业务数据库中。
    步骤3.1,入库加载??槎ㄖ聘魇菰吹娜肟庖汲绦?;
    步骤3.2,入库加载??榻邮帐莶杉?榈氖?,进行数据结构再定义;
    步骤3.3,入库引导程序将再定义后的数据加载至业务数据库中。
    以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步的详细说明,所应理解的是,以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的?;し段е??!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:一种异构多源数据的动态集成方法及系统.pdf
    链接地址://www.4mum.com.cn/p-6134142.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 最正规的手机棋牌游戏 威尼斯人彩票网址 生肖时时彩软件 新疆时时彩开奖直播 吉林快三买号口诀 江西快三走势图表势 极速快乐十分开奖直播 保定最新中奖 贵州十一选五走势图一定牛 云南时时彩一天多少期 杭州麻将下载 正宗 多乐彩票网站是骗人的吗 三肖中特期期精准免费 98彩票游戏 快乐10分开奖公告 北京pk10骗局托