• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 7
    • 下载费用:20 金币  

    重庆时时彩彩票购: 一种混合PDF图书目录自动抽取算法.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201210404052.6

    申请日:

    2012.10.23

    公开号:

    CN103778141A

    公开日:

    2014.05.07

    当前法律状态:

    撤回

    有效性:

    无权

    法律详情: 发明专利申请公布后的视为撤回IPC(主分类):G06F 17/30申请公布日:20140507|||实质审查的生效IPC(主分类):G06F 17/30申请日:20121023|||公开
    IPC分类号: G06F17/30 主分类号: G06F17/30
    申请人: 南开大学
    发明人: 刘才华; 刘杰; 黄亚楼; 陈佳俊; 张啸丰
    地址: 300071 天津市南开区卫津路94号
    优先权:
    专利代理机构: 代理人:
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201210404052.6

    授权公告号:

    ||||||

    法律状态公告日:

    2017.05.24|||2014.06.04|||2014.05.07

    法律状态类型:

    发明专利申请公布后的视为撤回|||实质审查的生效|||公开

    摘要

    本发明公开了一种混合PDF图书目录自动抽取方法,涉及信息抽取领域,XML数据的抽取分析任务,目录抽取问题。通过本发明,PDF图书目录不但被更准确的识别,而且相对目前现有的基于目录页内容分析的目录抽取方法,具有处理无目录页图书的目录的能力,而且通过获得的目录项的分析,完成了目录项的定位导航功能,并对目录项进行分级的操作,方便用户更好的理解图书的层级结构,完成了PDF图书的目录抽取建立任务,提升了用户的浏览体验。

    权利要求书

    权利要求书
    1.  一种混合PDF图书自动目录抽取方法,其包括:针对有目录页图书的基于规则的目录项抽取方法,以及针对无目录页图书借助有目录页图书的基于机器学习的目录想抽取算法,以及完成目录项抽取之后,针对目录项进行的定位目录项任务以及目录项分级整理任务。

    2.  根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特征在于,所述方法包括:针对有目录页图书的基于规则的目录项抽取方法;
    所述针对有目录页图书的基于规则的目录项抽取方法包括:定位目录页,然后根据目录页的内容采用基于规则的方式进行分析,进而获得各个目录项,所述方法在书目中的前部分采用查找包含‘Content’等与目录页相关的关键字来定位目录页;采用所述目录页中的基于规则的方式定义一个目录项的开始与结束;定义目录项的开始结束主要依赖一句是否以关键字‘Chapter’、‘Part’、‘Volume’和‘Book’以及数字罗马数字等开头。

    3.  根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特征在于,所述方法包括:针对无目录页图书的基于机器学习方法的目录项抽取方法;
    所述针对无目录页图书的基于机器学习方法的目录项抽取方法,利用支持向量机的方法,定义了八个特征:大写字母所占比例、字体大小、最左端位置、最右端位置、段与段之间距离、段所包含的行数、段中每行字数的平均值、段出现的位置纵坐标;通过采用RBM-SVM来训练,标注数据利用有目录页的图书的目录项来生成。

    4.  根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特征在于,所述方法包括:目录项的定位方法;
    所述目录项的定位方法即定位每一个目录项在文档正文中对应的位置,将获 得的逻辑页码找到对应的物理页码;获取逻辑页码采用判断出连续的若干页都是第一行或者最后一行包含数字,就可以判断出逻辑页码出现的位置,即页眉或者页脚;再进行一次逻辑页码补全操作,补全一些没有页码或者OCR错误造成页码丢失的情况;然后根据修正的逻辑页码获得OCR过程中分配给每个PDF页的物理页码,并与相应的目录项关联。

    5.  根据权利要求1所述的一种混合PDF图书自动目录抽取方法,其特点在于包括目录项的分级方法;
    所述目录项的分级方法通过对数据进行分析,定义五级分级规则:第一级:包含part、volume、book字样;第二级:包含chapter、chap字样或罗马数字;第三级:包含section、sect字样;第四级:以阿拉伯数字或字母开始;第五级:为待定级,不包含任何以上特征;该级的目录项最终属于哪一级由其上一个目录项决定;对目录项从头到尾进行扫描,按照规则对这些目录项进行分级。

    关 键 词:
    一种 混合 PDF 图书目录 自动 抽取 算法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    0条评论

    还可以输入200字符

    暂无评论,赶快抢占沙发吧。

    关于本文
    本文标题:一种混合PDF图书目录自动抽取算法.pdf
    链接地址://www.4mum.com.cn/p-6159971.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03