• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    合法重庆时时彩平台: 甄别与消除假阳性结果的方法和系统.pdf

    关 键 词:
    甄别 消除 阳性 结果 方法 系统
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410412507.8

    申请日:

    2014.08.20

    公开号:

    CN105354201A

    公开日:

    2016.02.24

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20140820|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 中国科学院上海生命科学研究院
    发明人: 陈恒; 赵衍; 陈成材; 张永娟
    地址: 200031上海市徐汇区岳阳路319号
    优先权:
    专利代理机构: 上海专利商标事务所有限公司31100 代理人: 施浩
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410412507.8

    授权公告号:

    ||||||

    法律状态公告日:

    2019.02.01|||2016.03.23|||2016.02.24

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明公开了甄别与消除假阳性结果的方法和系统,能高效的降低在文献数据库知识挖掘过程中出现的假阳性率。其技术方案为:对目标文献数据库和控制词表进行优化处理;对假阳性结果进行分类并制定发现模式;生成假阳性结果集;从中抽取假阳性结果和原始数据并进行分类;对各类别的假阳性结果进行分组,在每一类挖掘结果中抽取数据用算法库对其进行训练,得到合适的消除算法,并用剩余的分组数据检验,若检验通过则选取该消除算法,否则修改算法库并重新训练,直到找到合适的消除算法;基于找到的消除算法,构造假阳性排除字典和相应的假阳性排除逻辑算法库;遍历整个假阳性结果集,排除所有的假阳性结果,并把该排除假阳性信息反馈给目标文献数据库,最终更正目标文献数据库中所有假阳性挖掘结果。

    权利要求书

    1.一种在文献数据库的知识挖掘过程中甄别与消除假阳性结果的方法,其特
    征在于,包括:
    对目标文献数据库进行优化处理;
    控制词表的优化处理;
    对知识挖掘假阳性结果进行分类并制定发现模式;
    生成虚拟的假阳性结果集;
    从假阳性结果集中抽取一定数量的假阳性结果和原始数据;
    利用人工处理的方式,对挖掘出的假阳性结果进行分类;
    对分类后的各类别的假阳性结果进行分组,在每一类挖掘结果中,抽取任意
    一组数据用算法库对其进行训练,得到合适的消除算法,并用剩余的分组数据检
    验,若检验通过则选取该消除算法,否则修改算法库,并重新训练,直到找到合
    适的消除算法;
    基于找到的消除算法,构造假阳性排除字典和相应的假阳性排除逻辑算法库;
    遍历整个假阳性结果集,排除所有的假阳性结果,并把该排除假阳性信息反
    馈给目标文献数据库,最终更正目标文献数据库中所有假阳性挖掘结果。
    2.根据权利要求1所述的在文献数据库的知识挖掘过程中甄别与消除假阳性
    结果的方法,其特征在于,在更正假阳性结果的过程中随时进行人工干预。
    3.根据权利要求1所述的在文献数据库的知识挖掘过程中甄别与消除假阳性
    结果的方法,其特征在于,对目标文献数据库进行的优化处理包括冻结部分词。
    4.根据权利要求1所述的在文献数据库的知识挖掘过程中甄别与消除假阳性
    结果的方法,其特征在于,词表的优化处理包括重排序、规范化处理。
    5.一种在文献数据库的知识挖掘过程中甄别与消除假阳性结果的系统,其特
    征在于,包括:
    应用程序服务器,用于存放知识挖掘的算法、规则以及假阳性甄别与排除算
    法、规则;
    数据库服务器,用于存放基于第三范式构建的基础数据库;
    数据仓库服务器,连接应用程序服务器和数据库服务器,用于存放经过知识
    挖掘和假阳性结果排除后而形成的面向主题和应用的、集成化的数据仓库;
    Web服务器和数据仓库镜像,连接数据仓库服务器,将数据仓库镜像到Web
    服务器,通过开发Web应用提供给用户;
    用户终端,连接Web服务器和数据仓库镜像,提供检索查询和知识挖掘发现
    操作。
    6.根据权利要求5所述的在文献数据库的知识挖掘过程中甄别与消除假阳性
    结果的系统,其特征在于,基础数据库包括控制词库、冻结词典、假阳性排除字
    典、目标文献库。
    7.根据权利要求5所述的在文献数据库的知识挖掘过程中甄别与消除假阳性
    结果的系统,其特征在于,应用程序服务器调用数据库服务器中的知识挖掘文本
    工具字典和假阳性排除字典对目标文献库进行知识挖掘和假阳性排除后得到数据
    仓库服务器。

    说明书

    甄别与消除假阳性结果的方法和系统

    技术领域

    本发明涉及文献数据库的知识挖掘中的技术,尤其涉及在文献数据库的知识
    挖掘中对假阳性结果进行甄别与消除的方法和系统。

    背景技术

    文献知识挖掘是指从文献中提取、整合并发现有用信息和知识点的过程,通
    过文献知识挖掘能够快速处理大量文献并得到特定领域的知识,文献知识挖掘涉
    及到数据挖掘、文本挖掘、自然语言处理和信息整合等多个研究领域。以生命科
    学文献知识挖掘为例来说明,生命科学文献知识挖掘研究的主要内容分为信息检
    索,实体识别,信息提取,文本挖掘和信息集成与整合等五个部分。

    就目前研究现状而言,从信息检索到信息集成与整合,方法研究的成熟度依
    次递减,而知识挖掘发现的潜力却依次递增。生命科学领域的文本挖掘和信息集
    成整合则依赖于对本领域知识的理解和应用,更依赖于从科学文献中挖掘出未知
    的生命科学知识的新理论和新方法。而在数据库的知识挖掘与发现过程中,假阳
    性的知识挖掘结果难以避免,造成这一现象的原因主要来自以下三个方面:①数
    据库中原始数据的采集质量较低;②在文本挖掘工具字典的编撰过程中,专业字
    词用法的准确性、统一性不够;③信息整合与知识挖掘过程中,计算机算法与挖
    掘方式、途径的选择不合理或算法本身的系统性缺陷。

    目前,全球在数据库知识挖掘与发现方面的研究,尽管已处于较热的阶段,
    然而在数据库知识挖掘假阳性方面的研究却还处在摸索阶段,在这一研究领域申
    请的相关专利和公开发表的相关研究报道还不多。而且,至今还未发现有关文献
    知识挖掘过程中消除假阳性挖掘结果的综合方法,因此,目前亟待研发一种甄别
    与消除文献知识挖掘假阳性结果的最新的综合性方法和途径。

    发明内容

    以下给出一个或多个方面的简要概述以提供对这些方面的基本理解。此概述
    不是所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决
    定性要素亦非试图界定任何或所有方面的范围。其唯一的目的是要以简化形式给
    出一个或多个方面的一些概念以为稍后给出的更加详细的描述之序。

    本发明的目的在于解决上述问题,提供了一种甄别与消除假阳性结果的方法
    和系统,能高效的降低在文献数据库知识挖掘过程中出现的假阳性率。

    本发明的技术方案为:本发明揭示了一种在文献数据库的知识挖掘过程中甄
    别与消除假阳性结果的方法,包括:

    对目标文献数据库进行优化处理;

    控制词表的优化处理;

    对知识挖掘假阳性结果进行分类并制定发现模式;

    生成虚拟的假阳性结果集;

    从假阳性结果集中抽取一定数量的假阳性结果和原始数据;

    利用人工处理的方式,对挖掘出的假阳性结果进行分类;

    对分类后的各类别的假阳性结果进行分组,在每一类挖掘结果中,抽取任意
    一组数据用算法库对其进行训练,得到合适的消除算法,并用剩余的分组数据检
    验,若检验通过则选取该消除算法,否则修改算法库,并重新训练,直到找到合
    适的消除算法;

    基于找到的消除算法,构造假阳性排除字典和相应的假阳性排除逻辑算法库;

    遍历整个假阳性结果集,排除所有的假阳性结果,并把该排除假阳性信息反
    馈给目标文献数据库,最终更正目标文献数据库中所有假阳性挖掘结果。

    根据本发明的在文献数据库的知识挖掘过程中甄别与消除假阳性结果的方法
    的一实施例,在更正假阳性结果的过程中随时进行人工干预。

    根据本发明的在文献数据库的知识挖掘过程中甄别与消除假阳性结果的方法
    的一实施例,对目标文献数据库进行的优化处理包括冻结部分词。

    根据本发明的在文献数据库的知识挖掘过程中甄别与消除假阳性结果的方法
    的一实施例,词表的优化处理包括重排序、规范化处理。

    本发明还揭示了一种在文献数据库的知识挖掘过程中甄别与消除假阳性结果
    的系统,包括:

    应用程序服务器,用于存放知识挖掘的算法、规则以及假阳性甄别与排除算
    法、规则;

    数据库服务器,用于存放基于第三范式构建的基础数据库;

    数据仓库服务器,连接应用程序服务器和数据库服务器,用于存放经过知识
    挖掘和假阳性结果排除后而形成的面向主题和应用的、集成化的数据仓库;

    Web服务器和数据仓库镜像,连接数据仓库服务器,将数据仓库镜像到Web
    服务器,通过开发Web应用提供给用户;

    用户终端,连接Web服务器和数据仓库镜像,提供检索查询和知识挖掘发现
    操作。

    根据本发明的在文献数据库的知识挖掘过程中甄别与消除假阳性结果的系统
    的一实施例,基础数据库包括控制词库、冻结词典、假阳性排除字典、目标文献
    库。

    根据本发明的在文献数据库的知识挖掘过程中甄别与消除假阳性结果的系统
    的一实施例,应用程序服务器调用数据库服务器中的知识挖掘文本工具字典和假
    阳性排除字典对目标文献库进行知识挖掘和假阳性排除后得到数据仓库服务器。

    本发明对比现有技术有如下的有益效果:①通过本发明的运用,可最大限度
    地降低在文献数据库知识挖掘过程中的出现的假阳性率。②本发明与其它现有的
    方法相比,具有更高效的假阳性甄别率与纠错率。③本发明方法具有完整综合的
    特点,能贯穿整个文献知识挖掘过程,并通过综合性的假阳性检查与排除方法发
    挥作用。④本发明方法具有较普适的应用性,能应用在除生命科学领域以外的其
    它专业领域的文献知识挖掘过程中。

    附图说明

    图1示出了本发明的甄别与消除假阳性结果的方法的较佳实施例的流程图。

    图2示出了本发明的甄别与消除假阳性结果的方法的实现原理图。

    图3示出了本发明的甄别与消除假阳性结果的系统的较佳实施例的框图。

    具体实施方式

    在结合以下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发
    明的上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的
    相关特性或特征的组件可能具有相同或相近的附图标记。

    图1示出了本发明的甄别与消除假阳性结果的方法的较佳实施例的流程,图
    2同时示出了其实现原理。请结合图1和图2,本实施例的方法的实现步骤详述如
    下。

    步骤S1:对目标文献数据库进行优化处理。

    对目标文献数据库进行的优化处理包括冻结部分词。在图2中,基于冻结词
    典,对目标文献库进行冻结部分词的处理后,形成新目标文献库。

    步骤S2:控制词表的优化处理。

    词表的优化处理包括重排序、规范化处理等。在图2中,控制词表(文本挖
    掘字典)经过重排序、规范化处理后成为新控制词表。

    步骤S3:对知识挖掘假阳性结果进行分类并制定发现模式。

    在图2中,新目标文献库经过基于新控制词表的知识挖掘后,接收检索请求,
    基于检索及知识挖掘结果,形成对假阳性结果的分类和发现模式。

    步骤S4:生成虚拟的假阳性结果集。

    基于假阳性结果分类和发现模式,可以形成虚拟的假阳性结果集。

    步骤S5:从假阳性结果集中抽取一定数量的假阳性结果和原始数据。

    从假阳性结果集中抽取部分结果后形成训练集。

    步骤S6:利用人工处理的方式,对挖掘出的假阳性结果进行分类。

    在图2中,可将训练集归类为第1类至第N类。

    步骤S7:对分类后的各类别的假阳性结果进行分组,在每一类挖掘结果中,
    抽取任意一组数据用算法库对其进行训练,得到合适的消除算法,并用剩余的分
    组数据检验,若检验通过则选取该消除算法,否则修改算法库,并重新训练,直
    到找到合适的消除算法。

    在图2中,抽取第i类,分为Mi组(其中i=1……N)。对于第i类,分为了
    第1组至第Mi组,基于通用算法库,经过训练和验证后,判断是否存在针对该
    类假阳性结果的排除算法,若存在则将其存入假阳性结果排除逻辑算法库,否则
    将该假阳性特征存入假阳性排除字典。

    步骤S8:基于找到的消除算法,构造假阳性排除字典和相应的假阳性排除逻
    辑算法库。

    步骤S9:遍历整个假阳性结果集和目标文献数据库,更正所有假阳性结果。

    用假阳性结果排除逻辑算法库和排除字典遍历假阳性结果集,排除所有的假
    阳性结果,并把该排除结果反馈给目标文献数据库,最终更正目标文献数据库中
    所有假阳性挖掘结果。此外,在更正假阳性结果的过程中随时进行人工干预。

    图3示出了本发明的甄别与消除假阳性结果的系统的较佳实施例的框图。请
    参见图3,本实施例的系统包括应用程序服务器、数据库服务器、数据仓库服务
    器、Web服务器和数据仓库镜像、用户终端。

    应用程序服务器用于存放知识挖掘的算法、规则以及假阳性甄别与排除算法、
    规则。

    数据库服务器(DataBaseServer)用于存放基于第三范式构建的基础数据库。
    基础数据库包括控制词库、冻结词典、假阳性排除字典、目标文献库。

    应用程序服务器调用数据库服务器中的知识挖掘文本工具字典和假阳性排除
    字典对目标文献库进行知识挖掘后得到数据仓库服务器(DataWarehouseServer)。
    数据仓库服务器连接应用程序服务器和数据库服务器,用于存放经过知识挖掘和
    假阳性结果排除后而形成的面向主题和应用的、集成化的数据仓库。

    Web服务器和数据仓库镜像连接数据仓库服务器,将数据仓库镜像到Web服
    务器,通过开发Web应用提供给用户。

    用户终端连接Web服务器和数据仓库镜像,提供检索查询和知识挖掘发现操
    作。

    尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领
    会,这些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按
    不同次序发生和/或与来自本文中图示和描述或本文中未图示和描述但本领域技
    术人员可以理解的其他动作并发地发生。

    本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解
    说性逻辑板块、???、电路、和算法步骤可实现为电子硬件、计算机软件、或这
    两者的组合。为清楚地解说硬件与软件的这一可互换性,各种解说性组件、框、
    ???、电路、和步骤在上面是以其功能性的形式作一般化描述的。此类功能性是
    被实现为硬件还是软件取决于具体应用和施加于整体系统的设计约束。技术人员
    对于每种特定应用可用不同的方式来实现所描述的功能性,但这样的实现决策不
    应被解读成导致脱离了本发明的范围。

    结合本文所公开的实施例描述的各种解说性逻辑板块、???、和电路可用通
    用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列
    (FPGA)或其它可编程逻辑器件、分立的门或晶体管逻辑、分立的硬件组件、或
    其设计成执行本文所描述功能的任何组合来实现或执行。通用处理器可以是微处
    理器,但在替换方案中,该处理器可以是任何常规的处理器、控制器、微控制器、
    或状态机。处理器还可以被实现为计算设备的组合,例如DSP与微处理器的组合、
    多个微处理器、与DSP核心协作的一个或多个微处理器、或任何其他此类配置。

    结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处
    理器执行的软件??橹?、或在这两者的组合中体现。软件??榭勺ち粼赗AM存
    储器、闪存、ROM存储器、EPROM存储器、EEPROM存储器、寄存器、硬盘、
    可移动盘、CD-ROM、或本领域中所知的任何其他形式的存储介质中。示例性存
    储介质耦合到处理器以使得该处理器能从/向该存储介质读取和写入信息。在替换
    方案中,存储介质可以被整合到处理器。处理器和存储介质可驻留在ASIC中。
    ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分立组件驻
    留在用户终端中。

    在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任
    何组合中实现。如果在软件中实现为计算机程序产品,则各功能可以作为一条或
    更多条指令或代码存储在计算机可读介质上或藉其进行传送。计算机可读介质包
    括计算机存储介质和通信介质两者,其包括促成计算机程序从一地向另一地转移
    的任何介质。存储介质可以是能被计算机访问的任何可用介质。作为示例而非限
    定,这样的计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其它光
    盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令或数据结构形
    式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当地称为
    计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订
    户线(DSL)、或诸如红外、无线电、以及微波之类的无线技术从web网站、服务
    器、或其它远程源传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如
    红外、无线电、以及微波之类的无线技术就被包括在介质的定义之中。如本文中
    所使用的盘(disk)和碟(disc)包括压缩碟(CD)、激光碟、光碟、数字多用碟
    (DVD)、软盘和蓝光碟,其中盘(disk)往往以磁的方式再现数据,而碟(disc)
    用激光以光学方式再现数据。上述的组合也应被包括在计算机可读介质的范围内。

    提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本
    公开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中
    所定义的普适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,
    本公开并非旨在被限定于本文中所描述的示例和设计,而是应被授予与本文中所
    公开的原理和新颖性特征相一致的最广范围。

    关于本文
    本文标题:甄别与消除假阳性结果的方法和系统.pdf
    链接地址://www.4mum.com.cn/p-6301981.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 喜马拉雅咋赚钱 极速时时走势 pc蛋蛋有赢的吗 西洋棋棋子样式图纸 时时彩稳赚 专攻后2 怎么样用 闲来互娱 赚钱 埋怨自己老公没本事 不会赚钱 内蒙古11选5基本走势图 如何购买足彩只赚不赔 无车开滴滴赚钱吗 天津11选五 天津时时的官网开奖号码 快三500元 倍投方案 稳赚 必中人工计划软件下载 ag电子游戏武财神app版 拼多多挖矿怎么赚钱