• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:30 金币  

    重庆时时彩k线图下载: 从电子文档中的表格结构提取语义关系.pdf

    关 键 词:
    电子 文档 中的 表格 结构 提取 语义 关系
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201310495714.X

    申请日:

    2013.10.21

    公开号:

    CN103793372A

    公开日:

    2014.05.14

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/27申请公布日:20140514|||实质审查的生效IPC(主分类):G06F 17/27申请日:20131021|||公开
    IPC分类号: G06F17/27; G06F17/30 主分类号: G06F17/27
    申请人: 国际商业机器公司
    发明人: S·N·格拉德; M·G·梅格里安
    地址: 美国纽约阿芒克
    优先权: 2012.10.30 US 13/664,144
    专利代理机构: 北京市金杜律师事务所 11256 代理人: 酆迅;陈颖
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310495714.X

    授权公告号:

    ||||||

    法律状态公告日:

    2018.01.12|||2014.06.11|||2014.05.14

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    提供在数据处理系统中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的机制。这些机制确定表格数据结构内的单元配置。该机制基于确定的单元配置标识表格数据结构内的一个或者多个超单元。该机制也对于一个或者多个超单元中的每个超单元将与超单元对应的表格数据转换成用于超单元的语义关系语句,其中语义关系语句标识在与超单元对应的表格数据的部分之间的一个或者多个关系?;苹褂氡砀袷萁峁构亓卮娲⒂糜诔ピ械拿扛龀ピ挠镆骞叵涤锞?。

    权利要求书

    权利要求书
    1.  一种在数据处理系统中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法,所述方法包括:
    由所述数据处理系统确定所述表格数据结构内的单元配置;
    由所述数据处理系统基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;
    对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及
    由所述数据处理系统将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。

    2.  根据权利要求1所述的方法,其中将与所述超单元对应的表格数据转换成语义关系语句包括:对于每个超单元,
    由所述数据处理系统将所述表格数据结构的、与所述超单元关联的内容映射到具有定义的格式的元组数据结构;以及
    基于用于所述超单元的所述元组数据结构来生成用于所述超单元的语义关系语句。

    3.  根据权利要求2所述的方法,其中基于用于所述超单元的所述元组数据结构来生成用于所述超单元的所述语义关系语句包括将语义关系语句模板应用于所述元组数据结构以生成用于所述超单元的语义关系语句。

    4.  根据权利要求1所述的方法,还包括:
    使用与所述表格数据结构关联的语义关系语句来执行用于分析所述电子文档的分析操作。

    5.  根据权利要求4所述的方法,其中所述分析操作包括对所述电子文档的内容执行的自然语言处理操作或者问答创建操作中的至少一个操作,其中所述电子文档的所述内容包括所述表格数据结构。

    6.  根据权利要求1所述的方法,其中所述语义关系语句包括被配置用于由自然语言处理分析引擎解析的自然语言句子结构。

    7.  根据权利要求1所述的方法,其中所述语义关系语句包括结构化查询语言(SQL)语句、资源描述框架(RDF)语义三元组或者N3语义三元组中的至少一项。

    8.  根据权利要求1所述的方法,其中确定所述表格数据结构内的单元配置包括取回与所述表格数据结构关联的元数据,所述元数据标识所述表格数据结构的各部分的大小和所述表格数据结构的各部分的配置。

    9.  根据权利要求1所述的方法,其中确定所述表格数据结构内的单元配置包括对所述表格数据结构的所述内容执行自动分析以标识所述表格数据结构的、与所述表格数据结构的头标、脚注和超单元对应的部分。

    10.  一种装置,包括:
    处理器;以及
    耦合到所述处理器的存储器,其中所述存储器包括指令,所述指令在由所述处理器执行时使所述处理器:
    确定表格数据结构内的单元配置;
    基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;
    对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及
    将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。

    11.  根据权利要求10所述的装置,其中所述指令使所述处理器至少通过以下操作将与所述超单元对应的表格数据转换成语义关系语句:对于每个超单元,
    将所述表格数据结构的、与所述超单元关联的内容映射到具有定义的格式的元组数据结构;以及
    基于用于所述超单元的所述元组数据结构来生成用于所述超单元的语义关系语句。

    12.  根据权利要求11所述的方法,其中所述指令使所述处理器至少通过以下操作来基于用于所述超单元的所述元组数据结构来生成用于所述超单元的所述语义关系语句:将语义关系语句模板应用于所述元组数据结构以生成用于所述超单元的语义关系语句。

    13.  根据权利要求10所述的装置,其中所述指令还使所述处理器:
    使用与所述表格数据结构关联的语义关系语句来执行用于分析所述电子文档的分析操作。

    14.  根据权利要求13所述的方法,其中所述分析操作包括对所述电子文档的内容执行的自然语言处理操作或者问答创建操作中的至少一个操作,其中所述电子文档的所述内容包括所述表格数据结构。

    15.  根据权利要求10所述的装置,其中所述语义关系语句包括被配置用于由自然语言处理分析引擎解析的自然语言句子结构。

    16.  根据权利要求10所述的装置,其中所述指令使所述处理器至少通过以下操作来确定所述表格数据结构内的单元配置:取回与所述表格数据结构关联的元数据,所述元数据标识所述表格数据结构的各部分的大小和所述表格数据结构的各部分的配置。

    说明书

    说明书从电子文档中的表格结构提取语义关系
    技术领域
    本申请主要地涉及一种改进的数据处理装置和方法,并且更具体地涉及用于从电子文档中的表格结构提取语义关系的机制。
    背景技术
    自然语言处理(NLP)系统、问答创建(Q&A)系统等利用电子文档的文本内容分析以执行它们的各种活动。例如可从纽约阿芒克的国际商业机器(IMB)公司获得的称为WatsonTM的Q&A系统分析电子文档的无结构文本内容,以回答问题并且从文本内容推导结论。
    尽管这些系统对文本内容行之有效,但是许多时候在电子文档中的表格结构中呈现或者捕获知识和信息。这样的NLP和Q&A系统不能充分地处理这样的表格结构以收集在这些表格结构中呈现的信息和知识。
    发明内容
    在一个说明性实施例中,提供一种在数据处理系统中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法。该方法包括确定表格数据结构内的单元配置。该方法还包括基于确定的单元配置来标识表格数据结构内的一个或者多个超单元。另外,该方法包括对于一个或者多个超单元中的每个超单元将与超单元对应的表格数据转换成用于超单元的语义关系语句,其中语义关系语句标识在与超单元对应的表格数据的部分之间的一个或者多个关系。该方法还包括与表格数据结构关联地存储用于超单元中的每个超单元的语义关系语句。
    在其它说明性实施例中,提供一种包括具有计算机可读程序的 计算机可用或者可读介质的计算机程序产品。计算机可读程序在计算设备上执行时使计算设备执行以上关于方法说明性实施例概括的操作中的各种操作和组合。
    在又一说明性实施例中,提供一种系统/装置。该系统/装置可以包括一个或者多个处理器和耦合到该一个或者多个处理器的存储器。存储器可以包括指令,这些指令在由该一个或者多个处理器执行时使该一个或者多个处理器执行以上关于方法说明性实施例概括的操作中的各种操作和组合。
    本发明的这些和其它特征及优点将在本发明的说明性实施例的以下具体描述中被描述或者将鉴于该具体描述而变得为本领域普通技术人员所清楚。
    附图说明
    将通过参照在结合附图阅读时对说明性实施例的以下具体描述来最好地理解本发明及其优选实施方式和更多目的及优点,在附图中:
    图1是其中可以实施说明性实施例的方面的分布式数据处理系统的示例图;
    图2是其中可以实施说明性实施例的方面的计算设备的示例框图;
    图3是示出根据一个说明性实施例的表格结构的示例图,该示例图示出表格结构的要素,这些要素用于确定表格结构的语义;
    图4是图示根据一个说明性实施例的元组的示例组织的示例图;
    图5A-图5D图示可以用来实施说明性实施例的其它示例表格结构;
    图6是根据一个说明性实施例的表格结构语义提取引擎的示例框图;以及
    图7是概括根据一个说明性实施例的示例操作的流程图,该示 例操作用于提取表格结构语义信息并且制定表格结构的语义表示。
    具体实施方式
    说明性实施例提供用于从在电子文档中嵌入的或者与电子文档关联的表格结构提取语义关系的机制。如以上所言,自然语言处理(NLP)、问答创建(Q&A)系统等不能恰当处理这样的表格结构,因为它们未被配置用于理解这样的表格结构的结构,或者以有含义的方式识别在这样的表格中包含的信息之间的关系。这是因为这样的NLP和Q&A系统、比如IBM公司的WatsonTM Q&A系统对在句子结构中呈现的信息进行操作,并且分析恰当形成的句子的语法以收集关于电子文档的内容的信息。
    说明性实施例提供用于将表格结构映射到代表那些表格结构中的信息的文本语句或者分析引擎可以被配置用于利用的其它形式的结构化信息的机制。说明性实施例提供一种对在电子文档中的表格结构给定时如何可以提取表格结构的含义或者语义、从而可以编程地处理这些语义的解决方案。
    也就是说,许多表格结构具有在表格结构中的单元之间的关系的丰富集合。这些关系可以包括与相同行中的头标和脚注单元的水平关系、与相同列中的头标和脚注单元的竖直关系、与表格结构的“拐角”单元和与表格结构的标题的列表/上下文关系、在邻近单元之间的邻居关系等。说明性实施例提供用于从表格结构提取这样的语义关系、并且将它们制定成分析引擎可使用的结构的机制。这一制定可以例如包括生成代表在表格结构中的信息之间的语义关系的句子结构、具有代表这些语义关系的内容的结构化查询语言(SQL)语句、语义三元组如资源描述框架(RDF)或者N3等。为了易于说明而将使用2维表格结构来描述说明性实施例,但是本领域普通技术人员将理解可以用如可以在计算机模型、数据仓库等中提供的具有多于2个维度的表格结构实施说明性实施例的机制。
    根据一个说明性实施例从表格结构提取含义(或者语义)包括 以下三个操作:结构标识、元组生成和构造语义表示。关于结构标识,确定行头标(row header)、行脚注(row footer)、列头标和列脚注的大小以及表格结构中的超单元(super cell)的大小。这提供用来解析表格结构以基于表格的结构提取表格结构的内容和关系的结构信息。
    元组生成涉及到为每个超单元构造元组。元组包含超单元的内容(邻居有关单元)以及所有超单元的水平、垂直和图形相关(tabularly-related)单元的内容。构造语义表示涉及到使用表格结构的模板以将每个元组独立转换成目标语义表示??梢越玫挠镆灞硎静迦氲降缱游牡抵械谋砀窠峁怪?,或者与该电子文档中的表格结构关联或者一般向电子文档关联。作为结果,语义表示可以由NLP、Q&A和利用语义表示的其它分析系统来处理。
    所属技术领域的技术人员知道,本发明的各个方面可以实现为系统、方法或计算机程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、驻留软件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“??椤被颉跋低场?。此外,在一些实施例中,本发明的各个方面还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式,该计算机可读介质中包含计算机可读的程序代码。
    可以采用一个或多个计算机可读介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本文件中,计算机可 读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
    计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
    计算机可读介质上包含的程序代码可以用任何适当的介质传输,包括——但不限于——无线、有线、光缆、RF等等,或者上述的任意合适的组合。
    可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的计算机程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。
    下面将参照根据本发明实施例的方法、装置(系统)和计算机程序产品的流程图和/或框图描述本发明。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机程序指令实现。这些计算机程序指令可以提供给通用计算机、专用计算机或其它可编程数据处理装置的处理器,从而生产出一种机器,使得这些计算机程序指令在通过计算机或其它可编程数据处理装置的处理器执行时,产生了实现流程图和/或框图中的一个或多个 方框中指定的功能/动作的装置。
    也可以把这些计算机程序指令存储在计算机可读介质中,这些指令使得计算机、其它可编程数据处理装置、或其他设备以特定方式工作,从而,存储在计算机可读介质中的指令就产生出包括实现流程图和/或框图中的一个或多个方框中指定的功能/动作的指令的制造品(article of manufacture)。
    也可以把计算机程序指令加载到计算机、其它可编程数据处理装置、或其它设备上,使得在计算机、其它可编程数据处理装置或其它设备上执行一系列操作步骤,以产生计算机实现的过程,从而使得在计算机或其它可编程装置上执行的指令能够提供实现流程图和/或框图中的方框中规定的功能/操作的过程。
    附图中的流程图和框图显示了根据本发明的多个实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个???、程序段或代码的一部分,所述???、程序段或代码的一部分包含一个或多个用于实现指定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行指定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
    因此,可以在许多不同类型的数据处理环境中利用说明性实施例。为了提供用于描述说明性实施例的具体单元和功能的上下文,下文提供图1和图2作为其中可以实施说明性实施例的方面的示例环境。应当理解图1和图2仅为示例而未旨在于关于其中可以实施本发明的方面或者示例的环境确立或者暗示任何限制??梢宰鞒龆运杌娴幕肪车闹疃嘈薷亩槐忱氡痉⒚鞯木窈头段?。
    图1描绘其中可以实施说明性实施例的方面的示例分布式数 据处理系统的图解表示。分布式数据处理系统100可以包括其中可以实施说明性实施例的方面的计算机网络。分布式数据处理系统100包含至少一个网络102,该至少一个网络是用来在分布式数据处理系统100内连接在一起的各种设备和计算机之间提供通信链路的介质。网络102可以包括连接、比如有线、无线通信链路或者光纤线缆。
    在描绘的示例中,服务器104和服务器106与存储单元108一起连接到网络102。此外,客户端110、112和114也连接到网络102。这些客户端110、112和114可以例如是个人计算机、网络计算机等。在描绘的示例中,服务器104向客户端110、112和114提供数据、比如引导文件、操作系统映像和应用??突Ф?10、112和114在描绘的示例中是服务器104的客户端。分布式数据处理系统100可以包括未示出的附加服务器、客户端和其它设备。
    在描绘的示例中,分布式数据处理系统100是网络因特网102,该网络因特网代表使用传输控制协议/网际协议(TCP/IP)协议套件相互通信的网络和网关的全世界汇集。在因特网的核心是在包括传送数据和消息的数以千计的商业、政府、教育和其它计算机系统的主要节点或者主机计算机之间的高速数据通信链路的中枢。当然,也可以实施分布式数据处理系统100以包括许多不同类型的网络、如例如内联网、局域网(LAN)、广域网(WAN)等。如上文所言,图1旨在于作为示例、并非作为对于本发明的不同实施例的架构限制,因此图1中所示特定单元不应视为关于其中可以实施本发明的说明性实施例的环境进行限制。
    图2是其中可以实施说明性实施例的方面的示例数据处理系统的框图。数据处理系统200是实施用于本发明的说明性实施例的过程的计算机可用代码或者指令可以位于其中的计算机的示例、比如图1中的客户端110。
    在描绘的示例中,数据处理系统200运用集线器架构,该集线器架构包括北桥和存储器控制器集线器(NB/MCH)202以及南桥和输入/输出(I/O)控制器集线器(SB/ICH)204。处理单元206、主 存储器208和图形处理器210连接到NB/MCH202。图形处理器210可以通过加速图形端口(AGP)连接到NB/MCH202。
    在描绘的示例中,局域网(LAN)适配器212连接到SB/ICH204。音频适配器216、键盘和鼠标适配器220、调制解调器222、只读存储器(ROM)224、硬盘驱动(HDD)226、CD-ROM驱动230、通用串行总线(USB)端口和其它通信端口232以及PCI/PCIe设备234通过总线238和总线240连接到SB/ICH204。PCI/PCIe设备可以例如包括以太网适配器、附加卡和用于笔记本计算机的PC卡。PCI使用卡总线控制器而PCIe未使用。ROM224可以例如是闪存基本输入/输出系统(BIOS)。
    HDD226和CD/ROM驱动230通过总线240连接到SB/ICH204。HDD226和CD-ROM驱动230可以例如使用集成驱动电子装置(IDE)或者串行高级技术附着(SATA)接口。超I/O(SIO)设备236可以连接到SB/ICH204。
    操作系统在处理单元206上运行。操作系统协调图2中的数据处理系统200内的各种部件并且提供对这些部件的控制。作为客户端,操作系统可以是商用操作系统、比如面向对象编程系统、比如JavaTM编程系统可以结合操作系统运行并且提供从在数据处理系统200上执行的JavaTM程序或者应用对操作系统的调用。
    作为服务器,数据处理系统200可以例如是运行高级交互执行程序操作系统或者操作系统的eServerTMSystem计算机系统。数据处理系统200可以是包括处理单元206中的多个处理器的对称多处理器(SMP)系统。备选地,可以运用单处理器系统。
    用于操作系统、面向对象编程系统和应用或者程序的指令位于存储设备、比如HDD226上并且可以被加载到主存储器208中用于由处理单元206执行。处理单元206可以例如使用可以位于存储器、如例如主存储器208、ROM224中或者一个或者多个外围设备226 和230中的计算机可用程序代码来执行用于本发明的说明性实施例的过程。
    总线系统、比如如图2中所示总线238或者总线240可以包括一个或者多个总线。当然,可以使用任何类型的通信结构或者架构来实施总线系统,该通信结构或者架构提供在附着到该结构或者架构的不同部件或者设备之间的数据传送。通信单元、比如图2的调制解调器222或者网络适配器212可以包括用来发送和接收数据的一个或者多个设备。存储器可以例如是主存储器208、ROM224或者比如在图2中的NB/MCH202中发现的高速缓存。
    本领域普通技术人员将理解图1和图2中的硬件可以根据实现而变化。除了图1和图2中描绘的硬件之外还可以使用或者取代该硬件使用其它内部硬件或者外围设备、比如闪存、等效非易失性存储器或者光盘驱动等。说明性实施例的过程也可以应用于除了先前提到的SMP系统之外的多处理器数据处理系统而未脱离本发明的精神实质和范围。
    另外,数据处理系统200可以采用包括客户端计算设备、服务器计算设备、写字板计算机、膝上型计算机、电话或者其它通信设备、个人数字助理(PDA)等的许多不同数据处理系统中的任何数据处理系统的形式。在一些说明性示例中,数据处理系统200可以例如是配置有闪存的便携计算设备,该闪存用于提供用于存储操作系统文件和/或用户生成的数据的非易失性存储器。实质上,数据处理系统200可以是任何已知或者以后开发的数据处理系统而无架构限制。
    再次参照图1,可以在包括服务器104、106和/或客户端110-114的图1中所示计算设备中的任何一个或者多个计算设备中实施本发明的说明性实施例。在一些说明性实施例中,结合用于分析一个或者多个存储系统/设备中存储的电子文档的分析引擎实施说明性实施例的机制。这一分析引擎可以采用包括自然语言处理(NLP)分析引擎、问答创建(Q&A)系统等的许多不同形式。说明性实施例的 机制和说明性实施例与之关联的分析引擎分析的电子文档可以存储于说明性实施例的机制和分析引擎在其上执行的计算设备本地、可以远程位于与其它计算设备关联并且经由一个或者多个网络102可访问的存储系统/设备上、可以包括本地和远程维护的电子文档并且可以分布于经由一个或者多个网络102可访问的多个计算设备和存储系统/设备内。在一个说明性实施例中,电子文档(能够具有嵌入式表格结构或者与电子文档关联的表格结构)可以是从任何客户端计算设备、服务器、网络附着存储系统等可用的任何电子文档、网页或者内容汇集。
    为了以下描述,将假设结合Q&A分析引擎实施说明性实施例的机制。Q&A分析引擎取得输入问题、分析它并且向返回指示对输入问题的最可能答案的结果。Q&A系统提供用于搜索内容源、例如电子文档的大型集合的自动化机制并且关于输入问题分析它们以确定对问题的答案和关于答案对于回答输入问题有多么准确的置信度测量。
    一个这样的Q&A系统是从纽约阿芒克的国际商业机器(IMB)公司可获得的WatsonTM系统。WatsonTM系统是高级自然语言处理(NLP)、信息取回、知识表示和推理以及机器学习技术应用于开放范畴问题回答领域。在用于假设生成、规模证据收集、分析和计分的IBM的DeepQATM技术上构建WatsonTM系统。DeepQATM取得输入问题、分析它、将问题分解成组成部分、基于分解的问题和答案源的主要搜索的结果生成一个或者多个假设、基于从证据源取回证据执行假设和证据计分、执行最终合并和排行以将对输入问题的答案与置信度测量一起输出。
    各种美国专利申请公开文献描述也可以结合说明性实施例的机制使用的各种类型的问题和答案系统。公开号为2011/0125734的美国专利申请公开一种用于基于数据全集生成问题和答案对的机制。系统始于问题集合、然后分析内容集合以提取对那些问题的答案。公开号为2011/0066587的美国专利申请公开一种用于将分析的 信息的报告转换成问题汇集并且从信息集合确定用于问题汇集的答案是否被答复或者驳倒。向更新的信息模型中并入结果数据。任何已知或者以后开发的问题和答案创建系统可以与说明性实施例的机制使用而未脱离说明性实施例的精神实质和范围。
    说明性实施例的机制可以作为在将由Q&A系统或者其它分析引擎分析的电子文档中嵌入的或者与电子文档关联的表格结构内容的预处理器操作,该表格结构内容具有能够由分析引擎处理的内容的可标识格式。在Q&A系统的情况下,可标识格式是句子结构格式。这一句子结构格式不是要求特定信息排序的严格格式而是灵活、无结构格式,因为Q&A系统可以分析具有各种格式的句子并且提取句子的语法。在其它实施例中,格式可以具有更少灵活的结果并且可以要求可标识格式具有特定信息排序。
    说明性实施例可以对与电子文档关联的表格结构内容操作以将表格结构内容转换成如下格式,分析引擎能够处理该格式以获得语法信息。说明性实施例处理表格结构内容以确定表格结构内容的结构、生成从表格结构内容提取的信息的表示、然后使用从表格结构内容提取的信息的表示以构造这一信息的语义表示,该语义表示具有能够由关联分析引擎处理的格式。
    为了更清楚地理解说明性实施例的机制执行的操作,首先重要的是理解可以在电子文档中嵌入或者另外与电子文档关联的表格结构的一般结构和内容。图3是示出根据一个说明性实施例的表格结构的示例图,该示例图示出表格结构的要素,这些要素用于确定表格结构的语义。图3中所示的图图示示例表格结构的单元结构。应当理解这仅为示例并且其它表格结构可以具有说明性实施例的机制可标识的不同结构。
    如图3中所示,表格结构300包括在图3中表示为框的多个单元。这些单元可以存储包括头标、脚注和信息内容的不同类型的信息。在图3中所示示例中,单元310-316是表格拐角单元,单元320是列头标单元,单元330是行头标单元,单元350是列脚注单元, 并且单元360是行脚注单元。表格拐角单元310-316可以包括一个或者多个列头标/脚注单元和行头标/脚注单元。在图3中所示示例中,表格拐角单元310可以视为提供关于表格本身的头标信息的表格头标。其它表格拐角单元312-316也可以存储附加表格头标/脚注信息。表格结构300还包括一个或者多个表格标题370。
    表格结构300中的每个水平行具有零个或者更多行头标单元330和零个或者更多行脚注单元360。表格结构300中的每个竖直列具有零个或者更多列头标单元320和零个或者更多列脚注单元350。表格结构300的正文(在表格头标310和表格脚注340以内)包含超单元380,这些超单元是有关单元的非重叠汇集。优选地,这些超单元380具有矩形形状,但是这不是必需的。这些超单元380可以包括表格内的一个或多个单元。类似地,表格结构300的其它部分、例如头标、脚注等可以类似地包括表格结构300的一个或者多个单元。
    行头标330、行脚注360、列头标320和列脚注350的大小定义表格结构300的拐角中的适用于整个表格结构300的单元块??裳〉囊桓龌蛘叨喔霰砀癖晏?70也适用于整个表格结构300。
    表格结构300的大小和配置可以由与表格结构300关联的元数据标识或者可以通过分析单元的布置和在单元内包含的内容来自动标识。例如在创建表格结构300时,表格结构300的创建者可以指定表格结构300的哪些单元对应于列头标、列脚注、行头标和行脚注。另外,创建者可以规定表格结构300的正文内的超单元以单元数目计的大小。备选地,可以提供指示表格结构300的类型的信息、例如行数、列数,并且可以分析内容以确定表格结构300的哪些部分对应于头标/脚注而哪些部分对应于正文内容。如果未给定或者不能从表格结构300的分析中辨认超单元大小,则可以选择默认设置。
    自动化分析可以例如涉及到寻找指示头标的文本内容、比如有别于具体词项的一般词项,例如“姓名”为一般、“史蒂夫”为“姓名”的具体实例。数字条目经常比头标/脚注更指示正文内容、因此可以 将正文内容视为自动化分析的部分。在表格结构的外边界上的单元往往是头标/脚注,这有别于作为正文内容单元的内单元。作为又一示例,词项“总计”、“小计”等可以指示用于列/行的头标/脚注。分析可以在评估表格结构300的单元的许多不同特性以确定单元是否为头标、脚注或者正文内容、例如超单元的部分时考虑这些特性??梢允褂萌魏斡糜诒晔侗砀窠峁?00的部分的任何机制和/或逻辑而未脱离说明性实施例的精神实质和范围。
    为了以下描述,将假设在与表格结构300关联的可以在创建表格结构300时或者在随后某个时点人工输入或者自动生成的元数据中指定表格结构300的结构和布置。此外,表格结构300的创建者或者对描述表格结构300的内容感兴趣的其他人可以提供模板语句,该模板语句指示可以用来代表表格结构300的内容的方式。例如在描绘的示例中,模板语句可以是类型“在年份$colhead(1,1)中的$rowhead(1,1)的成本是$cell(1,1)”,其中行头标是产品名称,列头标是年份,并且正文内容单元包括成本信息。这一模板语句可以用来在能够由关联分析引擎、例如NLP引擎、Q&A引擎等处理的格式中生成表格结构300中包含的信息的语义表示。
    了解了表格结构300内的单元结构和布置,说明性实施例的机制为表格结构300的正文中的每个超单元380生成元组(有序值集合)。元组为从表格结构300收集的信息提供标准化格式,从而这一信息可以映射到表格的如模板定义的语义表示。通过生成元组,然后可以基于用来生成表格结构300的语义表示的特定模板格式化信息以用于不同类型的分析引擎或者用于不同目的。例如第一模板可以用来生成表格结构300的自然语言句子语义表示,并且第二模板可以用来生成代表表格结构300的SQL语句。两个??榭梢允褂孟嗤橐陨捎肽0宥杂Φ挠镆灞硎?。另外,如图3中所示,超单元380、头标和脚注可以包括多个单元,并且元组根据每个超单元380组织这一信息。
    图4是图示根据一个说明性实施例的元组的示例组织的示例 图。图4中所示具体示例用于图3中的示例表格结构300,但是不应解释说明性实施例为限于对仅有图3中所示具体结构的表格结构300操作。
    如图4中所示,存在用于表格300中的每个超单元380的单独元组,存在生成的单独元组400。因此,在图4中所示元组数据结构中,有9个单独元组,一个元组用于表格结构300的正文中的9个超单元380中的每个超单元。每个元组400包括用于在9个单独元组之中公共的表格标题370的条目。每个元组400包括对应表格头标部分410(对应于表格头标310)、行头标部分420(对应于行头标330)、列头标部分430(对应于列头标320)、超单元部分440(对应于超单元380)、列脚注部分450(对应于列脚注350)、行脚注部分460(对应于行脚注360)、第二表格头标部分470(对应于表格头标340),并且模板部分460指定元组将与之使用的一个或者多个模板或者模板的标识符。也可以为表格拐角部分提供附加部分412和416。
    模板部分480为可选,并且可以在创建元组400时基于与表格关联的特定模板来填充。备选地,基于将用于对电子文档及其嵌入或者关联的表格结构300操作的分析引擎的特定模板可以动态填充模板部分480或者动态确定模板。元组400除了图4中所示信息之外还可以包含或者取代图4中所示信息的部分可以包含图4中未具体示出的其它专用信息、例如超单元行和列编号等而未脱离说明性实施例的精神实质和范围。
    说明性实施例提供用于将表格结构300中的信息映射到图4的元组数据结构的元组400的逻辑。已经经由说明性实施例的映射逻辑生成元组400,说明性实施例的机制对模板操作以生成元组400中存储的信息的语义表示。也就是说,说明性实施例将用于表格结构300的模板应用于元组以生成用于每个元组的单独语义语句。模板的这样的应用包括用来自元组的对应部分的对应信息填充模板中的变量。结果是描述表格结构300中的内容和在内容之间的关系的 语义语句集合。然后可以在表格结构300和/或表格结构300与之关联的电子文档中存储或者与表格结构300和/或表格结构300与之关联的电子文档关联存储这些语句。
    单独模板可以应用于元组400以生成不同类型的分析引擎可使用的或者可用于不同目的的单独语义语句。因此,与表格结构300关联的语义语句可以包括用于每个元组400的多个语义语句,每个模板一个语义语句。
    作为结果,在分析引擎处理具有关联表格结构300的电子文档时,分析引擎可以标识能够由分析引擎处理的与表格结构300关联的语义语句。分析引擎然后可以对这些语义语句执行它的正常分析操作、例如NLP操作、Q&A操作等以生成对应分析结果。
    因此,说明性实施例提供用于处理与电子文档关联的表格结构以便生成在表格结构300中包含的信息之间的关系的语义表示。这些语义表示能够由NLP分析引擎、Q&A分析引擎等处理。因此,说明性实施例的机制允许先前不能由这些类型的分析引擎处理的表格结构转换成能够由分析引擎处理的语义表示。
    如以上提到的那样,图3中所示表格结构300仅为能够由说明性实施例的机制处理的一个可能表格结构300的示例。说明性实施例不限于任何特定类型的表格结构300,只要能够通过分析表格结构300或者通过处理与表格结构300关联的元数据来标识表格结构300的布置和配置。
    图5A-图5D图示可以用来实施说明性实施例的其它示例表格结构。图5A图示二维表格结构。图5B图示按行一维表格结构。图5C图示按列一维表格结构。图5D图示并排表格结构。图5A-5C中的表格结构是最常见表格结构而图5D更少常见、但是在重复数目的会计和财务实例中用来批准对价。说明性实施例能够使用上文先前描述的方法和机制来标识这些各种类型的表格结构并且为这些表格结构的正文中的超单元生成元组。
    图6是根据一个说明性实施例的表格结构语法提取引擎的示 例框图??梢栽谟布?、软件或者硬件和软件的任何组合中实施图6中所示单元。在一个说明性实施例中,可以实施图6的机制为一个或者多个硬件单元执行的软件指令。例如可以实施图6的单元为向一个或者多个存储器中加载的并且由一个或者多个处理器执行的软件指令。
    如图6中所示,表格结构语法提取引擎600包括控制器610、接口620、表格结构标识引擎630、元组生成引擎640和语义表示引擎650??刂破?10控制表格结构语法提取引擎600的总体操作并且调配其它单元620-650的操作。接口620提供如下通信接口,通过该通信接口可以接收表格结构信息并且可以输出表格结构信息的语义表示。接口620提供如下通信途径,表格结构语法提取引擎600可以通过该表格结构与表格结构语法提取引擎与之工作的一个或者多个分析引擎通信。
    表格结构标识引擎630提供用于确定表格的结构的逻辑。这可以涉及到处理与表格关联的元数据,该元数据标识表格的结构或者分析表格以确定结构??梢栽谛型繁?、行脚注、列头标、列脚注、超单元等的大小方面指定结构。这一信息可以用来标识表格中的各种单元以确定哪些单元对应于表格的不同部分、例如行头标/脚注、列头标/脚注、在表格的正文中的超单元等。
    元组生成引擎640取得如表格结构标识引擎630确定的用于表格的结构信息并且使用这一结构信息以将表格的内容映射到元组,表格中的每个超单元一个元组,这些元组可以被存储用于比如如下文描述的那样由语义表示引擎650以后取回。这些元组实质上将来自表格的内容映射到可以用来生成表格的语义表示的格式,该语义表示包括用于每个超单元的单独语义语句。
    向语义表示引擎650提供元组生成引擎640生成的元组。语义表示引擎650将一个或者多个语义表示模板应用于元组生成引擎640生成的元组。如以上提到的那样,这些模板可以在生成它们时与元组关联或者可以在以后时间被动态应用。例如与向表格结构语 法提取引擎600输入的表格信息一起也可以输入模板用于由语义表示引擎650应用。语义表示引擎650生成的结果是定义在输入表格中的内容之间的关系的语义语句集合,这些语义语句被格式用于由关联分析引擎、比如NLP引擎、Q&A引擎等处理??梢源娲⒄庑┯镆逵锞渥魑氡砀窠峁构亓牡缱游牡?、表格结构的一部分或者作为链接到表格结构和/或电子文档的单独数据结构。这些语义语句的关联允许分析引擎从表格提取语义关系信息以对表格结构执行其分析操作。这些语义语句可以是自然语言句子语句、SQL语句等。
    图7是概括了根据一个说明性实施例的示例操作的流程图,该示例操作用于提取表格结构语义信息并且制定表格结构的语义表示。图7中概括的操作可以例如由图6中的表格结构语法提取引擎600实施。
    如图7中所示,操作通过接收表格结构信息中作为输入来开始(步骤710)。这可以例如响应于分析引擎在分析电子文档时遇到表格结构、作为电子文档在分析引擎执行操作之前的预处理步骤的一部分、响应于向电子文档中插入或者作为电子文档的一部分而创建表格或者许多其它可能事件中的任何其它可能事件来完成,这些其它可能事件适合于启动生成电子文档中的表格结构的语义表示。
    响应于接收表格结构信息,标识表格的结构(步骤720)。这可以例如包括确定头标、脚注、超单元等的大小。确定表格电结构可以包括分析与表格关联的并且作为表格结构的一部分而提供的元数据或者执行表格的内容的分析以标识与头标、脚注、正文单元等对应的诸部分。在确定表格的结构之后,使用映射逻辑以将表格的内容映射到用于每个超单元的元组来为表格的正文中的超单元中的每个超单元生成元组(步骤730)。然后使用模板来处理元组以生成与元组对应的语义语句,从而每个元组生成定义在与元组对应的超单元的内容之间的关系的一个或者多个语义语句(步骤740)。然后与表格结构关联地存储语义内容(步骤750)用于由分析引擎以后使用(步骤760)。操作然后终止。
    因此,如以上所言,说明性实施例提供用于将表格结构转换成能够由分析引擎、比如NLP分析引擎、Q&A分析引擎等处理的机制。转换包括确定表格的结构、生成表格中的每个超单元的元组表示并且将一个或者多个模板应用于元组以生成代表在表格中的超单元的内容之间的关系的语义语句。
    如以上所言,应当理解说明性实施例可以采用全硬件实施例、全软件实施例或者包含硬件和软件单元二者的实施例的形式。在一个说明性实施例中,在包括但不限于固件、驻留软件、伪代码等的软件或者程序代码中实施说明性实施例的机制。
    适合于存储和/或执行程序代码的数据处理系统将包括直接或者通过系统总线间接耦合到存储器单元的至少一个处理器。存储器单元可以包括在实际执行程序代码期间运用的本地存储器、体存储装置和高速缓存存储器,这些高速缓存存储器提供至少一些程序代码的暂时存储以便减少必须在执行期间从体存储装置取回代码的次数。
    输入/输出或者I/O设备(包括但不限于键盘、显示器、指示设备等)可以直接或者通过居间I/O控制器间接耦合到系统。网络适配器也可以耦合到系统以使数据处理系统能够变成通过居间专用或者公用网络耦合到其它数据处理系统或者远程打印机或者存储设备。调制器解调器、线缆调制器解调器和以太网卡仅为当前可用类型的网络适配器中的少数类型。
    已经出于示例和描述的目的而呈现本发明的描述而并非旨在于穷举或者限于公开形式的本发明。本领域普通技术人员将清楚许多修改和变化。选择和描述实施例以便最好地说明本发明的原理、实际应用并且使本领域其他普通技术人员能够对于各种实施例理解本发明,这些实施例有如适合于设想的特定用途的各种修改。

    关于本文
    本文标题:从电子文档中的表格结构提取语义关系.pdf
    链接地址://www.4mum.com.cn/p-6185544.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 恒大股票 股票融资工具 什么是股票融资余额 股票指数是什么 北京股票融资贷款 002190股票 股票涨跌幅计算公式 股票行情大盘走势图 股票指数期货是什么意思 股票分析师老师头像 中小盘股票推荐 上证指数(000001)股吧 杠杆炒股 股票行情APP 2007年股票指数 股票投资策略