• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 10
    • 下载费用:30 金币  

    360重庆时时彩历史: 输变电工程WORD文档段落内容中工程特性指标的智能提取方法.pdf

    关 键 词:
    变电 工程 WORD 文档 段落 内容 特性 指标 智能 提取 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410081102.0

    申请日:

    2014.03.06

    公开号:

    CN103927296A

    公开日:

    2014.07.16

    当前法律状态:

    驳回

    有效性:

    无权

    法律详情: 发明专利申请公布后的驳回IPC(主分类):G06F 17/27申请公布日:20140716|||实质审查的生效IPC(主分类):G06F 17/27申请日:20140306|||公开
    IPC分类号: G06F17/27 主分类号: G06F17/27
    申请人: 广东电网公司电网规划研究中心
    发明人: 吴烈鑫; 刘志明; 陈锟; 张章亮; 李国勇; 陈铭; 王彦峰; 侯凯; 陈宝珍
    地址: 510080 广东省广州市东风东路水均岗8号
    优先权:
    专利代理机构: 广州知友专利商标代理有限公司 44104 代理人: 周克佑;高文龙
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410081102.0

    授权公告号:

    ||||||

    法律状态公告日:

    2018.03.27|||2015.02.04|||2014.07.16

    法律状态类型:

    发明专利申请公布后的驳回|||实质审查的生效|||公开

    摘要

    本发明公开了输变电工程word文档段落内容中工程特性指标的智能提取方法,该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提取,提取后得到所需的输变电工程特性指标。该提取方法能够从设计文件中,自动提取所需的输变电工程特性指标信息,提高专家在设计评审中的工作效率。

    权利要求书

    权利要求书
    1.  输变电工程word文档段落内容中工程特性指标的智能提取方法,其特征在于:该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提??;
    所述的大纲级别提取依次包括如下步骤:
    (1)初始化word文档,记录每一个表格所占用的段落数量;
    (2)遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
    (3)判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤(2);若段落不在表格中,则继续下述步骤(4);
    (4)判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤(2);
    (5)判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
    a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用“.”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分;
    b.过滤掉以数字开头,并非大纲的段落;
    c.根据数字、字母使用正则表达式解析段落的大纲级别;
    所述的段落内容提取依次包括如下步骤:
    (1)通过创建的指标库获取工程特性指标所在章节标题、内容提取的关键字以及近义词、内容提取方式;
    (2)匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的段落内容;
    (3)利用关键字以及近义词、内容提取方式,对段落内容进行提取,提取后得到所需的输变电工程特性指标。

    说明书

    说明书输变电工程word文档段落内容中工程特性指标的智能提取方法
    技术领域
    本发明涉及输变电工程word文档中工程特性指标的提取方法,具体是指输变电工程word文档段落内容中工程特性指标的智能提取方法。
    背景技术
    在输变电工程评审工作中,评审专家需要反复的阅读评审报告才能从大量的文字和表格中提炼出评审指标内容,然后再综合给出评审意见。该过程中专家需要对文档内容进行反复的搜索,并记录相关指标内容,这些都需要专家手动完成,大大影响专家的工作效率和准确性。
    工程特性指标信息主要存在工程设计报告中,不同的特性指标分布在不同的章节用正段文字描述说明或者采用表格方式说明。查看工程报告、模糊查找工程特性指标信息,效率低下。
    发明内容
    本发明的目的是提供输变电工程word文档段落内容中工程特性指标的智能提取方法,该提取方法能够从设计文件中,自动提取所需的输变电工程特性指标信息,提高专家在设计评审中的工作效率。
    本发明的上述目的通过如下技术方案来实现的:
    输变电工程word文档段落内容中工程特性指标的智能提取方法,其特征在于:该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提??;
    所述的大纲级别提取依次包括如下步骤:
    (1)初始化word文档,记录每一个表格所占用的段落数量;
    (2)遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
    (3)判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的 段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤(2);若段落不在表格中,则继续下述步骤(4);
    (4)判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤(2);
    (5)判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
    a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用“.”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分;
    b.过滤掉以数字开头,并非大纲的段落;
    c.根据数字、字母使用正则表达式解析段落的大纲级别;
    所述的段落内容提取依次包括如下步骤:
    (1)通过创建的指标库获取工程特性指标所在章节标题、内容提取的关键字以及近义词、内容提取方式;
    (2)匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的段落内容;
    (3)利用关键字以及近义词、内容提取方式,对段落内容进行提取,提取后得到所需的输变电工程特性指标。
    与现有技术相比,本发明能够对输变电工程word文档段落内容中工程特性指标进行提取,提高专家在设计评审中的工作效率。
    附图说明
    下面结合附图和具体实施方式对本发明作进一步详细说明。
    图1为本发明智能提取方法的整体流程框图;
    图2为本发明智能提取方法中大纲级别提取的流程框图;
    图3为本发明智能提取方法中段落内容提取的流程框图;
    图4为本发明智能提取方法中创建的指标库的示意图;
    图5为本发明智能提取方法的提取结果示意图。
    具体实施方式
    如图1至图5所示,本发明输变电工程word文档段落内容中工程特性指标的智能提取方法,该方法依次包括创建工程特性指标的指标库、工程特性指标的大纲级别提取和工程特性指标的段落内容提取,其中,创建的指标库作为工程特性指标提取的基础数据库,在对输变电工程特性指标进行提取时,首先进行大纲级别提取,然后进行段落内容提取。
    首先对工程特性指标信息进行定义,然后把工程设计报告进行矢量化,提取报告中大纲标题,划分报告中文字描述和表格描述,采用多种方式对工程特性信息进行提取并综合展示,方便评审专家查看工程特性指标信息,提高评审专家的评审效率。智能提取的操作流程图如图1所示:
    指标库的创建
    指标库是组织和存储工程特性指标单元,工程特性指标采用树形结构方式组织和存储,每个工程指标包含基础信息和提取方法信息,一个指标可以多种提取方法。指标基础特性信息主要有:指标名称、所属专业、所属工程类型、电压等级、指标单位等信息,提取方法信息:评审阶段、章节标题、是否表格提取、行标题、列标题、表达式、关键字、提取方法等。指标库是智能提取的基础数据,评审专家可以自定义工程特性指标数据。创建的指标库如图4所示。
    文档预处理提取大纲级别
    在word中,每一个段落都有大纲级别属性:正文文本或者是具体级别,如1级、2级、3级……,在编辑一篇word文档时,人们可以使用word自带的段落标题、项目符号等统称“大纲级别”,word中自带的大纲级别时一个种树形结构的数据;同时,也可以直接编写段落编号,通过设置一些常用的数字和字母标识来区分不同的段落标题,这些标题称为“自定义大纲级别”,如“1标题1”或“a标题a”,自定义大纲级别是word文档本身不能识别的。因此,在对word文档的大纲级别进行提取时需要考虑word自身大纲级别和自定义大纲级别进行提取。
    在提取文档大纲级别时,需要同时记录大纲级别的再文档中段落号、大纲所在级别以及表格所在大纲级别。大纲级别提取流程图如图2所示:
    对word文档中大纲级别提取依次包括如下步骤:
    1.初始化word文档,记录每一个表格所占用的段落数量;
    2.遍历word文档中的每一个段落,解析段落属性信息,记录每一个段落数;
    3.判断段落属性是否在表格中,若段落在表格中,则跳过该表格所占的段落数量,同时记录该表格在文档中出现的顺序号和所在的大纲标题,返回上述步骤2若段落不在表格中,则继续下述步骤4;
    4.判断段落属性,如果段落属性值不是正文文本,直接取出段落大纲级别值并记录所在的级别;如果段落属性值是正文文本,则把大纲级别设置为正文文本,返回上述步骤2;
    5.判断大纲级别为正文文本,使用正则表达式对段落内容进行解析,解析规则如下:
    a.自定义大纲段落的特征是以数字和字母开头,大纲编号之间用“.”进行分割,并且若大纲后为数字开始内容则他们之间必定有空格进行区分,如“1110kV配电装置”;
    b.过滤掉以数字开头,并非大纲的段落,如“220千伏尾塘变电站主要供电范围为惠城区西南部地区”开始的段落,这种方式通过正则表达式过滤数字后面是“kV、mA、千伏、回”等特定字符;
    c.根据数字、字母使用正则表达式解析段落的大纲级别。
    段落内容提取
    段落内容提取流程图如图3所示,段落内容提取依次包括如下步骤:
    1.通过创建的指标库获取工程特性指标所在章节标题、内容提取的关键字以及近义词、内容提取方式;
    2.匹配大纲级别提取的结果,获取对应大纲标题以及下面子节点大纲的段落内容;
    3.利用关键字以及近义词、内容提取方式,对段落内容进行提取,提取后得到所需的输变电工程特性指标,如图5所示。
    上述步骤3中,对段落内容进行提取,可以采用如下的提取方式:
    表达式:在相关标题中提取内容,按照配置正则表达式提取指标信息;
    断句法:在相关标题中提取内容,按照配置关键字信息及其近义词,提取指 标所在的语句;
    完全匹配法:在相关标题中提取内容,按照配置关键字及其近义词,利用柔性匹配算法中的BPD算法进行快速提??;
    提取章节内容:提取出大纲标题所在章节下的段落内容。
    工程特性信息展示
    将提取出的工程对应的技术指标进行按照工程数和表格的方式展示,供专家评审查阅,同时专家可以直接对所提取的指标值进行修改、文档定位高亮显示。
    本发明的上述实施例并不是对本发明?;し段У南薅?,本发明的实施方式不限于此,凡此种种根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,对本发明上述结构做出的其它多种形式的修改、替换或变更,均应落在本发明的?;し段е??!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:输变电工程WORD文档段落内容中工程特性指标的智能提取方法.pdf
    链接地址://www.4mum.com.cn/p-6117088.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 捕鱼大师pc 新疆时时彩计划app 山西快乐10分助手 松江一道搓麻将app 江苏快三预测号码今天 新疆十一选五前二组选技巧 四川时时彩是真的吗 好友房麻将免费下载 体彩排三组三全包 中超积分榜2017 上海时时乐秘籍 新疆时时彩走势直播 广西山水麻将正版2019 澳洲幸运8走势图计划软件 六合彩108期特码图 u购彩群