• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 13
    • 下载费用:30 金币  

    东森游戏重庆时时彩: 来自文档概述的问题概念的本体分类.pdf

    关 键 词:
    来自 文档 概述 问题 概念 本体 分类
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201110063258.2

    申请日:

    2011.03.07

    公开号:

    CN102163215A

    公开日:

    2011.08.24

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 专利权的转移IPC(主分类):G06F 17/30变更事项:专利权人变更前权利人:微软公司变更后权利人:微软技术许可有限责任公司变更事项:地址变更前权利人:美国华盛顿州变更后权利人:美国华盛顿州登记生效日:20150506|||授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20110307|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 微软公司
    发明人: V·瓦德拉曼尼; A·斯里瓦斯塔瓦; T·纳杰姆; M·斯里坎斯; P·瓦达迪; A·C·萨瑞德兰
    地址: 美国华盛顿州
    优先权: 2010.03.08 US 12/719,600
    专利代理机构: 上海专利商标事务所有限公司 31100 代理人: 黄嵩泉
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201110063258.2

    授权公告号:

    |||102163215B||||||

    法律状态公告日:

    2015.05.20|||2013.11.06|||2011.10.05|||2011.08.24

    法律状态类型:

    专利申请权、专利权的转移|||授权|||实质审查的生效|||公开

    摘要

    本发明描述了一种来自文档概述的问题概念的本体分类。分析电子文档来标识断言,逆转这些断言来生成可由断言回答的问题??梢苑治鑫牡祷虻缱游牡涤锪峡饫幢晔段牡档奈谋灸诘母魇堤逡约案魇堤逯涞墓叵??;诟魇堤逡约案魇堤逯涞墓叵道幢晔抖涎?。每一断言表示关于实体的一个事实,并且一组断言表示文档或文档语料库的概述。逆转断言来生成可由这些断言回答的问题?;箍梢越徊椒治稣庑┪侍饫幢晔断喙馗拍詈突疤獠⑽普庑└拍詈突疤饫炊晕侍饨芯劾??;箍梢陨杀阌谠诨疤?、概念、问题、断言、文档概述和文档之间遍历的组合图。

    权利要求书

    1.一个或多个存储计算机可使用指令的计算机可读介质,所述指令在由一个或多个计算设备使用时使得所述一个或多个计算设备执行一种方法,所述方法包括:标识(202)包括一个或多个文档的文档语料库;提取(406)所述一个或多个文档的文本内的实体;基于所述一个或多个文档的文本来提取(406)实体之间的关系;基于从所述一个或多个文档的文本中提取的实体和关系来标识(410)多个断言;以及逆转(412)所述多个断言来生成多个问题。2.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括解析所述一个或多个文档来标识多个句子,并且分析所述多个句子来标识重要句子,其中所述实体和关系从所述重要句子中提取,其中所述重要句子通过从以下动作中选择的至少一个动作来标识:分析词出现在所述一个或多个文档的每一句子中的频率;以及使用重要概念和词的字典来标识含有来自所述重要概念和词的字典的重要概念和词的句子。3.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括使用从所述一个或多个文档的文本中提取的所述实体和关系来生成实体-关系图,其中所述实体-关系图中的节点表示实体,并且其中所述实体-关系图中的节点之间的边表示实体之间的关系,并且其中基于从所述一个或多个文档的文本中提取的所述实体和关系来标识所述多个断言包括通过分析所述实体-分析图来标识所述多个断言。4.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述多个断言包括所述一个或多个文档的概述。5.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括基于所述多个断言来生成断言图。6.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述实体和文档用所述断言图中的断言来标识。7.如权利要求1所述的一个或多个计算机可读介质,其特征在于,逆转所述多个断言来生成所述多个问题包括使用基于规则的变换来逆转所述多个断言来生成所述多个问题,其中所述基于规则的变换是在基于断言的实体的类型来规定问题的类型的多个规则的基础上的。8.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括从所述多个问题中生成问题图。9.如权利要求1所述的一个或多个计算机可读介质,其特征在于,所述方法还包括:标识与所述多个问题相关联的话题;围绕所述话题来对所述问题进行聚类;以及生成允许在所述话题、所述问题、所述断言以及所述一个或多个文档之间遍历的组合图。10.一种包括一个或多个处理器和一个或多个计算机存储介质的计算机系统,所述计算机系统包括:分析文档并标识所述文档的文本中的实体以及实体之间的关系的文档分析器(204),其中所述文档分析器还基于从所述文档的文本中标识的所述实体和关系来标识断言;逆转所述断言来生成可由所述断言回答的多个问题的问题生成器(206);以及标识与所述多个问题相关联的概念和/或话题并围绕所述概念和/或话题来对问题进行聚类的概念/话题引擎(208)。11.如权利要求10所述的计算机系统,其特征在于,所述文档分析器将来自所述文档的句子的子集标识为重要句子,并且从所述重要句子中标识所述实体和关系。12.如权利要求10所述的计算机系统,其特征在于,所述问题生成器通过使用基于规则的变换来逆转所述多个断言来生成所述多个问题来逆转所述断言来生成所述多个问题,其中所述基于规则的变换是在基于断言的实体的类型来规定问题的类型的多个规则的基础上的。13.如权利要求10所述的计算机系统,其特征在于,所述概念/话题引擎生成允许在所述概念和/或话题、所述问题、所述断言以及所述文档之间遍历的组合图。14.一个或多个存储计算机可使用指令的计算机可读介质,所述指令在由一个或多个计算设备使用时使得所述一个或多个计算设备执行一种方法,所述方法包括:接收(202)一个或多个文档;解析(402)所述一个或多个文档来标识句子;分析(404)所述句子来将所述句子的子集标识为指示由所述一个或多个文档讨论的事件或话题的重要句子;从所述重要句子的文本中标识(406)实体以及实体之间的关系;基于所标识的实体和关系来创建(408)实体-关系图,其中所述实体-关系图中的节点表示实体而所述实体-关系图中的节点之间的边表示实体之间的关系;通过分析所述实体-关系图来标识(410)多个断言;逆转(412)所述多个断言来生成多个问题;基于所述多个问题来生成(414)问题图;分析(416)所述问题图中的问题来标识与所述问题相关联的相关概念和/或话题并围绕所述相关概念和/或话题来对所述问题进行聚类;以及生成(418)允许在所述概念和/或话题、所述问题、所述断言以及所述一个或多个文档之间遍历的组合图。15.如权利要求14所述的一个或多个计算机可读介质,其特征在于,逆转所述多个断言来生成所述多个问题包括使用基于规则的变换来逆转所述多个断言来生成所述多个问题,其中所述基于规则的变换是在基于断言的实体的类型来规定问题的类型的多个规则的基础上的。

    说明书

    来自文档概述的问题概念的本体分类

    技术领域

    本发明涉及搜索技术,尤其涉及搜索中的分类技术。

    背景技术

    尽管计算机系统能够存储大量信息,但用户常常难以找到特定信息或有效地探索感兴趣的特定主题。关于事件或话题的信息通??缍喔龅缱游牡捣植?,这些电子文档可能被存储在不同的位置。由此,关于事件或话题的事实的断言通??缍喔鑫牡捣植?,使得要聚集和形成关于该事件或话题的连贯知识单元是困难的。此外,即使在标识了关于事件或话题的事实的情况下,它们通常不被组织成有意义的聚类以形成较高水平的理解和表示。当试图清楚表达可由电子文档语料库回答的话题和问题类别时,这提出了巨大的挑战。

    发明内容

    提供本发明内容是为了以精简的形式介绍将在以下具体实施方式中进一步描述的一些概念。本发明内容不旨在标识所要求?;さ闹魈獾墓丶卣骰虮局侍卣?,也不旨在用于帮助确定所要求?;さ闹魈獾姆段?。

    本发明的各实施例涉及标识文档中的断言并逆转这些断言以生成可由文档中的断言所回答的问题。在分析文档或文档语料库时,从文本中标识各实体以及各实体之间的关系?;谒崛〉氖堤搴凸叵道瓷晒赜诟魇堤宓氖率档亩涎?。逆转这些断言来生成可由这些断言回答的问题。在某些实施例中,围绕问题所涉及的概念和话题来对各问题进行分组?;箍梢陨杀阌谠诨疤?、概念、问题、断言、文档概述和文档之间遍历的组合图。

    附图说明

    下面参考附图详细描述本发明,附图中:

    图1是适用于实现本发明的各实施例的示例性计算环境的框图;

    图2是示出其中可以使用本发明各实施例的示例性系统的框图;

    图3是根据本发明的一实施例的示出组合图的遍历的框图;以及

    图4是根据本发明的一实施例的示出用于分析文档以标识断言和问题的总体方法的流程图。

    具体实施方式

    此处用细节来描述本发明的主题以满足法定要求。然而,该描述本身并非旨在限制本专利的范围。相反,发明人设想所要求?;さ闹魈饣箍山岷掀渌鼻盎蛭蠢醇际醢凑掌渌绞嚼淳咛寤?,以包括不同的步骤或类似于本文中所描述的步骤的步骤组合。此外,尽管术语“步骤”和/或“框”可在此处用于指示所采用的方法的不同元素,但除非而且仅当明确描述了各个步骤的顺序时,该术语不应被解释为意味着此处公开的各个步骤之中或之间的任何特定顺序。

    本发明的各实施例一般涉及从文档中提取断言并逆转断言以生成可由所提取的断言回答的相应问题。在分析文档或文档语料库时,从文档文本中提取各实体以及各实体之间的关系。另外,基于所提取的实体和关系来标识断言。每一断言表示关于实体的一个事实。有效断言的集合表示正被分析的文档或文档语料库的概述。

    逆转断言来提供可由来自文档或文档语料库的断言回答的一组问题。在某些实施例中,进一步分析这些问题来标识相关概念和话题,并且这些问题可围绕概念和话题来被聚类。生成允许从多个有利点遍历节点的组合图。例如,可以从话题到概念、到问题、到断言、到概述再到文档来遍历该图??梢源尤魏挝恢冒慈魏畏较蚶幢槔猛?。

    从本发明的各实施例所生成的信息可以在多个实际应用中使用。一般而言,各实施例提供了可以基于用户意图来遍历的信息的储存库。例如,在将问题提交给搜索引擎时,可以标识由逆转过程所生成的相应问题并且用这些相应问题来确定这些问题的回答以及从中导出这些回答的文档。作为另一示例,可以使用从本发明的各实施例所导出的信息来增强可用来向用户提供知识内容的知识库中的知识。

    因而,在一方面,本发明的一实施例涉及存储计算机可用指令的一个或多个计算机可读介质,这些指令在由一个或多个计算设备使用时,使得该一个或多个计算设备执行一种方法。该方法包括标识包括一个或多个文档的文档语料库。该方法还包括提取一个或多个文档的文本内的各实体并基于一个或多个文档的文本来提取各实体之间的关系。该方法还包括基于从一个或多个文档的文本中提取的实体和关系来标识多个断言。该方法又包括逆转该多个断言来生成多个问题。

    在另一实施例中,本发明的一方面涉及包括一个或多个处理器和一个或多个计算机存储介质的计算机系统。该计算机系统包括文档分析器、问题生成器和概念/话题引擎。文档分析器分析文档并标识文档的文本中的各实体及其之间的关系,其中文档分析器还基于从文档的文本中标识的各实体和关系来标识各断言。问题生成器逆转这些断言来生成可由这些断言回答的多个问题。概念/话题引擎标识与该多个问题相关联的概念和/或话题并围绕这些概念和/或话题来对这些问题进行聚类。

    本发明的又一实施例涉及存储计算机可用指令的一个或多个计算机可读介质,这些指令在由一个或多个计算设备使用时,使得该一个或多个计算设备执行一种方法。该方法包括接收一个或多个文档,解析该一个或多个文档来标识各句子,并且分析这些句子来将句子的子集标识为指示由一个或多个文档讨论的事件或话题的重要句子。该方法还包括从重要句子的文本中标识各实体以及各实体之间的关系,并且基于所标识的各实体及关系来创建实体-关系图,其中实体-关系图中的各节点表示各实体,并且其中实体-关系图中的各节点之间的边表示各实体之间的关系。该方法还包括通过分析实体-关系图来标识多个断言。该方法还包括逆转该多个断言来生成多个问题并且基于该多个问题来生成问题图。该方法进一步包括分析问题图中的问题来标识与这些问题相关联的相关概念和/或话题,并围绕该相关概念和/或话题来对这些问题进行聚类。该方法又包括生成允许在各概念和/或话题、问题、断言以及一个或多个文档之间遍历的组合图。

    在简要描述了本发明各实施方式的概览之后,以下描述其中可实现本发明的各实施方式的示例性操作环境,以便为本发明各方面提供通用上下文。首先具体参考图1,示出了用于实现本发明的各实施方式的示例性操作环境,并将其概括地指定为计算设备100。计算设备100只是合适的计算环境的一个示例,并且不旨在对本发明的使用范围或功能提出任何限制。也不应该将计算设备100解释为对所示出的任一组件或其组合有任何依赖性或要求。

    本发明可以在由计算机或诸如个人数据助理或其他手持式设备之类的其他机器执行的计算机代码或机器可使用指令(包括诸如程序??橹嗟募扑慊芍葱兄噶?的一般上下文中描述。一般而言,包括例程、程序、对象、组件、数据结构等的程序??橹傅氖侵葱刑囟ㄈ挝窕蚴迪痔囟ǔ橄笫堇嘈偷拇?。本发明可以在各种系统配置中实施,这些系统配置包括手持式设备、消费电子产品、通用计算机、专用计算设备等等。本发明也可以在其中任务由通过通信网络链接的远程处理设备执行的分布式计算环境中实施。

    参考图1,计算设备100包括直接或间接耦合以下设备的总线110:存储器112、一个或多个处理器114、一个或多个呈现组件116、输入/输出端口118、输入/输出组件120、和说明性电源122。总线110表示一条或多条总线(诸如地址总线、数据总线、或其组合)。虽然为了清楚起见利用线条示出了图1的各个框,但实际上,这些框表示逻辑组件而不一定是实际组件。例如,可以将诸如显示设备等的呈现组件认为是I/O组件。而且,处理器具有存储器??梢匀鲜兜?,这是本领域的特性,并且重申,图1的图示只是例示可结合本发明的一个或多个实施方式来使用的示例性计算设备。诸如“工作站”、“服务器”、“膝上型计算机”、“手持式设备”等分类之间没有区别,它们全部都被认为是在图1的范围之内的并且被称为“计算设备”。

    计算设备100通常包括各种计算机可读介质。计算机可读介质可以是可由计算机设备100访问的任何可用介质,且包括用任何方法和技术实现以存储诸如计算机可读指令、数据结构、程序??榛蚱渌莸刃畔⒌囊资院头且资越橹?、可移动和不可移动介质。计算机可读介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光存储、盒式磁带、磁带、磁盘存储或其它磁存储设备,或者可用于存储所需信息并且可由计算设备100访问的任何其它介质。上述的任意组合也应包含在计算机可读介质的范围内。

    存储器112包括易失性和/或非易失性存储器形式的计算机存储介质。存储器可以是可移动的、不可移动的、或其组合。示例性硬件设备包括固态存储器、硬盘驱动器、光盘驱动器等等。计算设备100包括从诸如存储器112或I/O组件120之类的各种实体读取数据的一个或多个处理器。呈现组件116向用户或其他设备呈现数据指示。示例性呈现组件包括显示设备、扬声器、打印组件、振动组件等等。

    I/O端口118允许计算设备100在逻辑上耦合至包括I/O组件120的其他设备,其中某些设备可以是内置的。说明性组件包括话筒、操纵杆、游戏垫、圆盘式卫星天线、扫描仪、打印机、无线设备等等。

    如先前所指示的,本发明的各实施例涉及标识文档中的断言并逆转这些断言以生成可这些断言所回答的问题。现参考图2,提供了示出在其中可以采用本发明的各实施方式的示例性系统200的框图。应当理解,此处所描述的这一和其他安排仅作为示例来阐明。除了所示的安排和元素之外,或作为其替代,可使用其他安排和元素(例如,机器、接口、功能、次序、以及功能组等),并且可完全省略某些元素。此外,此处所描述的许多元素是可以实现为分立或分布式组件或结合其他组件来实现的、以及以任何合适的组合和在任何合适的位置的功能实体。此处被描述为由一个或多个实体执行的各种功能可由硬件、固件和/或软件来执行。例如,各种功能可由执行存储在存储器中的指令的处理器来执行。

    系统200可以包括文档分析器204、问题生成器206和概念/话题引擎208,以及未示出的其他组件。图2所示的组件中的每一个都可以驻留在任何类型的计算设备上,诸如例如参考图1描述的计算设备100。各组件可以驻留在单个计算设备上或多个计算设备上,该多个计算设备可以经由分布式计算环境中的网络(未示出)来彼此通信。另外,在系统200内还可包括其他未示出的组件。

    根据本发明的各实施例,系统200用于分析文档集合202中的一个或多个文档以从各文档中提取断言并基于这些断言来生成问题。来自文档语料库202的文档最初使用文档分析器204来分析。

    如图2所示,文档分析器204包括实体提取组件212、关系提取组件214和断言标识组件214。实体提取组件210用于标识正被分析的文档的文本内的各实体,而关系提取组件212标识所提取的各实体之间的关系。

    在某些实施例中,实体提取组件210和关系提取组件212在正被分析的文档的整个文本上操作。在其他实施例中,实体提取组件210和关系提取组件212仅在正被分析的文档的一部分上操作。例如,在一个实施例中,最初处理文档中包含的句子,并且标识指示正被讨论的事件或话题的重要句子。在这些实施例中,实体提取组件210和关系提取组件212仅从重要句子中提取各实体和关系。

    在某些实施例中,可以使用来自本体存储226的一个或多个本体来便于从文档语料库202中对重要句子的选择和/或对各实体和关系的提取。每一本体可以包括定义各概念以及各概念之间的关系的词和短语的集合。本体中的概念和关系与表征对应于句子中的概念、特定类型的实体及关系的实例的出现的词汇、句法和语义模式的模型相关联??梢允褂谜庑┠P屠创泳渥又屑觳夂吞崛「拍?、实体和关系的出现。

    断言标识组件214用于基于由实体提取组件210和关系提取组件212所提取的各实体和关系来从正被分析的文档的文本中标识断言。在某些实施例中,基于所提取的实体和关系生成实体-关系图。实体-关系图中的各节点表示所提取的各实体,而各节点之间的边表示所提取的关系。断言可以通过分析各实体之间的关系来从实体-关系图中标识。每一断言表示关于实体的一个事实。断言的集合可以被认为是正被分析的文档的概述。另外,可以使用断言的集合来生成断言图216,该图还可以标识与每一断言相关联的实体和文档。

    问题生成器206进一步处理断言来从这些断言中生成问题。问题生成器206包括用于逆转断言来生成问题的断言逆转器218??梢杂帽痉⒚鞯母魇凳├姆段诘亩嘀植煌姆绞嚼茨孀涎砸孕纬晌侍?。在某些实施例中,可以使用基于规则的变换来逆转断言。规则可以基于断言的实体和/或关系的类型来指定问题的类型(例如,基于断言的实体和/或关系的类型,指定如谁、哪里、何时、什么、为什么、怎样等问题类型)。例如,当断言的实体是一个人时,逆转可以生成一个“谁”问题。作为另一示例,当断言的实体是一个位置时,逆转可以生成一个“哪里”问题。作为又一示例,当断言的实体是一个日期时,逆转可以生成一个“何时”问题。规则还可以基于断言的主语和/或谓词来确定问题的类型。在其他实施例中,可以采用诸如例如机器学习技术之类的更复杂的算法来逆转断言以生成问题。

    在各实施例中,问题生成器206提供问题图220,问题图220包括通过逆转来自断言图216的断言所生成的问题集合。问题图220随后由概念/话题引擎208来操作。概念/话题引擎208包括分析问题图220中的问题来标识与这些问题相关的概念和话题的概念/话题标识组件222。问题可以基于所标识的概念和话题来聚类。在某些实施例中,概念/话题组件222充分利用来自本体存储226的域本体来标识与问题相关的概念和话题。例如,可以按照从句子中提取概念和关系的相同的方式来检测和提取问题中的这些信息。这些概念和关系被映射到一个或多个域本体中的概念。本体中的某些概念被标识为话题概念,或者本体描述了感兴趣的特定话题中的概念。这种到域/话题概念的映射标识了给定问题中的相关概念和话题。

    基于由系统200所执行的过程,生成允许从多个有利点遍历各节点的组合图224。作为说明,图3示出根据本发明的一个实施例所生成的组合图的遍历。如图3所示,图可以从话题302、到概念304、到问题306、到断言308、到文档概述310再到文档312来遍历??梢源尤魏挝恢冒慈魏畏较蚶幢槔猛?。

    转向图4,提供了示出根据本发明的一个实施例的用于标识文档中的断言并从断言中生成问题的方法400的流程图。如框402所示,最初处理正被分析的文档,这可以包括解析文档来标识各个句子。

    分析各个句子来标识指示该文档讨论的事件或话题的重要句子,如框404所示。重要句子可以使用根据本发明的各实施例的多种不同的方法来标识。在一个实施例中,重要句子通过分析词出现在文档中的频率来标识。出现得最频繁(在过滤掉无用词之后)的词被确定为重要的词并且被用来标识重要句子。在某些实施例中,词还可以基于它们出现在文档中的位置(例如,标题中、第一段、中间段落等等)来加权。标识重要句子的另一种方法可以包括使用包含重要概念和词的词典的本体或知识库。含有来自本体或知识库的重要概念和词的句子被标识为重要的。

    可以基于诸如以上所指示的这些因素(例如,基于词的重要性、词的频率等等)来为每一句子生成分数。句子可以基于相应的分数来排序,使用这些分数来对句子排定优先级。多个句子基于分数可以被标识为重要句子并且被选择以供进一步处理。在某些实施例中,选择前N个句子以供进一步处理。在其他实施例中,选择带有满足预定阈值的分数的句子。在另一些实施例中,选择带有远高于其他句子的分数的分数的句子。任何及所有这样的组合都被构想为落在本发明的各实施例的范围内。

    进一步分析重要句子来提取实体和关系,如框406所示。在一个实施例中,可以使用一个或多个本体来从句子中提取实体和关系。本体中的概念和关系与表征对应于句子中的概念、特定类型的实体及关系的实例的出现的词汇、句法和语义模式的模型相关联??梢允褂谜庑┠P屠创泳渥又屑觳夂吞崛「拍?、实体和关系的出现。

    使用所提取的实体和关系来生成实体-关系图,如框408所示。实体-关系图中的各节点表示各实体,而各节点之间的边表示各实体之间的关系。

    使用实体-关系图来标识断言,如框410所示。一般而言,断言包括关于一个或多个实体的事实。断言可以基于实体-关系图中一个实体与另一实体的关系。文档的有效断言的集合可以被认为是文档的概述。

    逆转断言来创建问题,如框412所示??梢杂酶荼痉⒚鞯母魇凳├亩嘀植煌姆椒ɡ茨孀涎砸孕纬晌侍?。在一个实施例中,逆转断言来生成问题可能涉及实体-关系图的变换。这可以包括基于规则的变换。变换中所使用的规则可以基于断言的实体和/或关系的类型来规定问题的类型(例如,基于断言的实体和/或关系的类型,来规定谁、哪里、何时、什么、为什么、怎样等问题类型)。例如,当断言的实体是一个人时,逆转可以生成一个“谁”问题。作为另一示例,当断言的实体是一个位置时,逆转可以生成一个“哪里”问题。作为又一示例,当断言的实体是一个日期时,逆转可以生成一个“何时”问题。规则还可以基于断言的主语和/或谓词来确定问题的类型。在其他实施例中,可以采用诸如例如机器学习技术之类的更复杂的算法来逆转断言以生成问题。

    将通过逆转断言所生成的问题集合存储在问题图中,如框414所示。使用域本体来进一步分析问题以生成对问题的更好的理解,如框416所示。该过程包括标识问题所涉及的概念和话题。作为结果,问题可以围绕较高级的概念和话题来聚类。在各实施例中,问题中的概念和话题通过采用本体来标识。问题概念被映射到本体中的概念。随后用本体中的不同分层结构来组织概念,其中每一分层结构表示如“是一种(IS-A)”之类的本体关系(例如,‘轿车’是一种‘汽车’)。每一问题由本体中的概念的选择或子图来表示。问题概念到本体中较高阶的概念的投影对这些问题进行聚类。例如,带有概念‘轿车’、‘卡车’、‘货车’的问题被聚类在概念‘汽车’处??梢允褂糜胛侍飧拍詈凸叵迪喙亓娜ㄖ乩炊攘烤劾嘀谐稍钡南喙匦?。

    在框418处生成可以从话题/概念、到问题、到断言、到文档概述再到文档来遍历的组合图。

    提供以下示例来说明根据本发明的某些实施例的操作。例如,假设分析讨论了微软公司收购aQuantive公司的新闻公告。文档的分析可以从文档中标识以下句子。这些句子可以包括文档的所有句子,或者可以仅仅是来自文档的句子的子集(例如,句子被标识为来自文档的重要句子)。

    ·今天,微软公司宣布该公司正在收购aQuantive公司。

    ·aQuantive公司是在线显示广告代理和技术公司。

    ·Steve?Ballmer,微软公司的CEO宣称对于aQuantive公司6亿美元的价码将使得微软公司成为在线显示广告行业的有力竞争者。

    ·作为收购的结果,微软公司将成立管理广告业务的新部门。

    ·Brian?McAndrews,aQuantive的CEO将担任新成立的广告部门的高级广告副总裁的职位。

    分析来自该新闻公告的这些句子来标识和提取各实体以及各实体之间的关系?;谒崛〉氖堤搴凸叵?,标识多个断言。例如,以下提供了包括从在以上句子中找到的实体和关系中导出的多个断言的列表。

    ·微软公司正在用6亿美元收购aQuantive公司。

    ·Steve?Ballmer是微软公司的CEO。

    ·Brian?McAndrews是aQuantive公司的CEO。

    ·Brian?McAndrews将出任微软公司新成立的广告部门的高级副总裁。

    每一断言可以被表示为实体和关系的集合,例如如下所示:

    ·<公司:微软><关系:收购><公司:aQuantive><关系:收购价格><价格:6亿美元>

    ·<人物:Steve?Ballmer><关系:是><公司:微软><关系:的><职位:CEO>

    ·<人物:Brian?McAndrews><关系:是><公司:aQuantive><关系:的><职位:CEO>

    可以逆转断言来生成多个问题。例如,以下是可以通过逆转以上断言示例中的某些来生成的问题的示例:

    ·什么公司收购aQuantive公司?

    ·aQuantive公司的收购价是多少?

    ·谁是微软公司的CEO?

    ·谁是aQuantive公司的CEO?

    如上所讨论的,还可以进一步处理通过逆转断言所生成的问题来标识可用于对这些问题进行聚类的相关概念和话题。在以上示例中,所标识的相关概念和话题可以包括收购、技术和广告。问题可以围绕这些概念和话题来聚类。

    如先前所理解的,本发明的各实施例提供了从文档中标识断言并逆转这些断言以生成可这些断言所回答的问题。参考各具体实施例描述了本发明,各具体实施例在所有方面都旨在是说明性的而非限制性的。在不偏离本发明范围的情况下,各替换实施例对于本发明所属领域的技术人员将变得显而易见。

    从前面的描述可以看出,本发明很好地适用于实现上文所阐述的所有目的和目标,并且具有对于该系统和方法是显而易见且固有的其他优点。也可理解特定的特征和子组合是有用的,并且可以加以利用而无需参考其他特征和子组合。这由权利要求所构想的,并在权利要求的范围内。

    关于本文
    本文标题:来自文档概述的问题概念的本体分类.pdf
    链接地址://www.4mum.com.cn/p-5868144.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 浙江体彩11选5开奖 贵州11选5直三遗漏数据 盱眙养龙虾赚不赚钱 反倍投法图解赢了十几万 11选5杀2个100%技巧 山东时时是什么 365彩票官方app下载 15岁干什么最赚钱 计划软件安卓版 南通热线棋牌中心大厅 小丑秒人连招 幸运飞艇两面 福健快三开奖走势图 app下载 科技 公司最赚钱 有哪些稳赚不赔的投资