• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩彩历史开奖: 一种英文文本格式优化方法及装置.pdf

    关 键 词:
    一种 英文 文本 格式 优化 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201410177826.5

    申请日:

    2014.04.29

    公开号:

    CN103942182A

    公开日:

    2014.07.23

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/21申请日:20140429|||公开
    IPC分类号: G06F17/21 主分类号: G06F17/21
    申请人: 百度在线网络技术(北京)有限公司
    发明人: 王云芝; 刘水; 杨宇航
    地址: 100085 北京市海淀区上地十街10号百度大厦三层
    优先权:
    专利代理机构: 北京品源专利代理有限公司 11332 代理人: 路凯;孟金喆
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201410177826.5

    授权公告号:

    ||||||

    法律状态公告日:

    2018.04.27|||2014.08.20|||2014.07.23

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明实施例公开了一种英文文本格式优化方法及装置,该方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或,如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或,如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。本发明实施例的技术方案能提高对英文阅读资源进行格式优化的效率,能节约成本。

    权利要求书

    权利要求书
    1.  一种英文文本格式优化方法,其特征在于,包括:
    如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
    如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
    如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。

    2.  根据权利要求1所述的英文文本格式优化方法,其特征在于,如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正包括:
    如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。

    3.  根据权利要求2所述的英文文本格式优化方法,其特征在于,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。

    4.  根据权利要求1所述的英文文本格式优化方法,其特征在于,所述方法还包括:
    如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。

    5.  根据权利要求1所述的英文文本格式优化方法,其特征在于,如果所 述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行之后,还包括:
    根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级。

    6.  根据权利要求5所述的英文文本格式优化方法,其特征在于,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级之后,还包括:
    如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行;和/或
    如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。

    7.  根据权利要求1所述的英文文本格式优化方法,其特征在于,所述方法还包括:去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。

    8.  一种英文文本格式优化装置,其特征在于,包括:
    行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
    第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
    第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数 目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。

    9.  根据权利要求1所述的英文文本格式优化装置,其特征在于,所述行间修正单元具体用于:
    如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。

    10.  根据权利要求9所述的英文文本格式优化装置,其特征在于,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。

    11.  根据权利要求8所述的英文文本格式优化装置,其特征在于,所述装置还包括目录页确定单元,所述目录页确定单元用于:
    如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。

    12.  根据权利要求8所述的英文文本格式优化装置,其特征在于,所述第一标题行确定单元还包括优先级确定子单元,所述优先级确定子单元用于:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行之后,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级。

    13.  根据权利要求12所述的英文文本格式优化装置,其特征在于,所述第一标题行确定单元还包括标题行合并子单元和/或标题简介确定子单元;
    所述标题行合并子单元用于:如果相邻标题行的优先级相同,且所述相邻 标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行;
    所述标题简介确定子单元用于:如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。

    14.  根据权利要求8所述的英文文本格式优化装置,其特征在于,所述装置还包括形式统改单元,用于去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。

    说明书

    说明书一种英文文本格式优化方法及装置
    技术领域
    本发明涉及数字文档处理技术领域,尤其涉及一种英文文本格式优化方法及装置。
    背景技术
    随着信息技术的发展,很多在线阅读和电子阅读产品的使用越来越广泛,用户通过PC上的客户端或者浏览器阅读在线文本,或者通过手机、平板等终端设备随时随地地阅读书或期刊的电子文本,已经成为广泛且普遍的阅读模式。
    然而很多阅读资源原本格式不规范,特别是英文文本,经?;岢鱿侄温浠稚系拇砦?,例如上行标点未结束,下行开头单词未大写等。直接通过电子阅读产品对这些文本进行阅读时受格式影响较大,用户的阅读体验不佳。
    现有的解决该问题的方法,多为发布文本阅读资源前人工检查并调整格式。一方面,对于无标记的普通文本而言,人工处理的人力和时间耗费大,效率极低;另一方面,现有的自动格式判断和重排技术,多为针对带标记的文本如xml(Extensible Markup Language,可扩展标记语言)等,或者针对某种固定格式的模板文本,不能普遍适用于没有格式标记的普通文本,整个过程耗时耗力,效率极低。
    发明内容
    有鉴于此,本发明实施例提供一种英文文本格式优化方法及装置,能提高对英文阅读资源进行格式优化的效率,能节约成本。
    第一方面,本发明实施例提供了一种英文文本格式优化方法,包括:
    如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
    如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
    如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
    第二方面,本发明实施例还提供了一种英文文本格式优化装置,包括:
    行间修正单元,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
    第一标题行确定单元,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
    第二标题行确定单元,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
    本发明实施例提出的技术方案的有益技术效果是:
    本发明实施例的技术方案利用了英文文本的特征对行间格式进行修正和标题的确定,能提高对英文阅读资源进行格式优化的效率,能节约成本。
    附图说明
    为了更清楚地说明本发明实施例中的技术方案,下面将对本发明实施例描 述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本发明实施例的内容和这些附图获得其他的附图。
    图1是本发明实施例一所述的英文文本格式行间修正方法流程图;
    图2是本发明实施例一所述的方式二所述的确定标题行的方法流程图;
    图3是本发明实施例二所述的英文文本格式优化装置的结构框图;
    图4是本发明实施例二所述的第一标题行确定单元的结构框图。
    具体实施方式
    为使本发明解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本发明实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例?;诒痉⒚髦械氖凳├?,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明?;さ姆段?。
    下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
    实施例一
    本实施例所述的英文文本格式优化方法,可适用于使用计算机对格式不够规范的英文电子阅读资源自动进行格式优化处理的情况,该方法可以由具有程序运行功能的计算机来执行。该方法包括对英文文本进行行间修正的方法和确定标题行的方法。
    需要说明的是,上述行间修正的方法和确定标题行的方法可以单独采用,也可以结合采用,顺序不限。
    其中,对英文文本进行行间修正的方法包括:如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件, 则对所述行尾特征与所述行首特征进行修正。
    图1是本发明实施例一所述的英文文本格式行间修正方法流程图,如图1所示,本实施例所述的英文文本格式优化方法包括:
    S101、获取所述英文文本中相邻两行中前一行文本的行尾特征和后一行文本的行首特征。
    本领域的技术人员需要明确的是,本实施例中所述的英文文本主要指内容为英文文字的电子阅读资源,包括但不限于英文的电子书、杂志、文章、博客等主要以文字资源为主的阅读资源。英文文本中对内容按行进行存储,每行后以断行符为结尾。当在某终端显示该英文文本时,则根据终端显示屏幕尺寸等因素对存储行进行自动换行显示,即每个存储行可显示为包括一个或多个显示行的段落。因此,本实施例中所称的行即为英文文本的显示段落,一行对应一个段落。
    英文文本中行的行首特征,可为多种情况,例如该行行首可能是字符、标点符号或空格。如果为字符,则可以是字母或数字,若为字母,可能是大写字母或小写字母;如果是标点符号,则可以是诸如“.”、“,”、“:”或“-”等。同样,英文文本中行的行尾特征,也可为多种情况,例如,该行尾特征可包括断行符、字符、标点符号或空格,如果为字符,则是字母或数字,若为字母,可以是大写字母或小写字母;如果是标点符号,则可以是诸如“.”、“,”、“:”或“-”等。
    S102、判断所述行尾特征与所述行首特征是否满足预设行间修正条件,若是则执行S103,若否,则无需进行行间修正,可返回S101,继续获取下一个相邻行的行间特征。
    对于英文文本来说,由于英文文本本身的段落格式有其特殊性,这些特殊 格式属性可作为强特征辅助划分及整合段落,例如段首、句首单词必须大写等。对于每行英文文本,若检测到误判的模式则修正之,例如上行标点未结束,下行开头单词未大写等。通过强特征的识别和修正对英文文本进行分段校正。
    本实施例主要根据相邻两行中前一行文本的行尾特征和后一行文本的行首特征来辅助段落的修正。具体地如何进行修正,需要预先设置好行间修正条件。
    S103、对所述行尾特征与所述行首特征进行修正。
    例如,如果前一行文本的末尾字符和断行符,与下一行的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并或者适应性修正。例如,若上一行由符号“-”、“,”或者“:”结尾,下行首字母小写,则对这两行文本进行行间修正,如可将两个段落进行合并。
    又如,如果前一行文本的行尾特征是行尾为符号“.”,而后一行文本的行首特征是行首为小写字母,即行首为单词且未大写,则需要将后一行文本的行首的小写字母修正为大写字母。
    本实施例的技术方案利用了英文文本的行间特点,根据行间末尾和初始的相邻特征关系进行判断,能够自动调整行间关系,能提高对英文阅读资源进行格式优化的效率,能节约成本。
    为了确定英文文本的标题行,本实施例提出了两种确定标题行的方法,以确定英文文本中所包含的文本行是否为标题行。同样需要说明的是,本实施例所述的两种确定标题行的方法可以单独采用,也可以结合采用来确定标题行,顺序不限。
    确定的标题行可单独标记,方便阅读时索引,例如增加前后空行或行距, 使用特殊字体字号标记,或者行首使用特殊符号标记等,也可以作为更改标题行样式的依据,例如修改所有确定为标题行的段落的字体、字号、颜色等样式信息,使所述英文文本显示时更有条理。
    下面介绍本实施例所述的两种确定标题行的具体方法:
    方法一:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行。
    本方式是通过判断关键字上下文,同时利用英文文本格式特点进行判断。其中,所述标题关键字集合包括目录标识词或篇章标识词,例如“Contents”、“Book”、“Part”、“Volume”、“Chapter”、“Section”、“Act”、大写罗马数字系列等。
    例如,首先可以根据标题关键字(例如特定单词、数字或大写罗马数字)匹配判断关键上下文,获取目录信息,例如包括“Contents”、“Book”、“Part”、“Volume”、“Chapter”、“Section”、“Act”等目录标识词或篇章标识词,以及大写罗马数字系列“I”、“II”、“III”或“IV”等或数字开头等??梢越⒐丶肿值?,添加入所有可能包含的关键字列表,如果当前行出现大写的关键字,尤其是出现在行首时,作为目录章节标识的强特征来确定是否为标题行。
    方式二:如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
    鉴于英文文本的格式特点,标题行有强格式特征可供提取,例如标题行首字母大部分大写、句长较短、标题行间的单词长度差异不会过于大等,根据这 些格式特征可以识别当前行是否为标题行。例如可预先设置阈值WN0和UpperPercent0,判断是否满足如下条件来确定文本行是否为标题行:
    WordNun当前行≤WN0,且其中,WN0为预先设定的当前行最大单词数阈值;
    UpperPercent0为预先设定的单词首字母大写数占全行单词数的比例阈值;
    WordNun当前行为当前行单词总数目;
    UpperCnt为当前行首字母大写单词数。
    上述两种方式可以单独采用,也可以结合采用来确定标题行。
    图2是本实施例中方式二所述的确定标题行的方法流程图,如图2所示,本实施例中方式二所述的确定标题行的方法包括:
    S201、获取英文文本行所包含的单词总数目N1和所述文本行包含首字母为大字字母的单词的数目N2。
    S202、判断N1是否小于或等于预设的最大单词数阈值,若是则执行S204,否则执行S203。
    S203、不确定所述文本行为标题行,结束。
    S204、判断N2与N1的比值是否大于或等于预设的第一比例阈值,若是则执行S205,否则执行S203。
    S205、确定所述文本行为标题行,结束。
    有了确定标题行的基础,在确定文本行为标题行之后,本实施例进一步提供了确定英文文本的目录页的方法。
    具体包括:如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
    有了确定标题行的基础,在确定所述文本行为标题行之后,本实施例进一步提供了确定标题行的优先级的方法。具体包括:根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级。
    例如,根据检测到的标题行中的是否包含预设的关键字,若包含至少一个预指定的关键字,则继续判断各关键字的出现顺序,根据预先建立的关键字优先级表,确定各标题行的优先级。针对本文本中第一个首次出现的可判为标题行的关键字优先级为最高,第二个首次出现的关键字优先级次高,以此类推,预先将优先级次序与关键字列表建立一一对应,对全文做完处理后,可以得到整体的针对该文本的关键字优先级。在后面的关键字判断和标记中,可从该对应关系查找得到对应行的关键字的优先级顺序,标记时也可按照优先级次序将同级标题以类似标准标记,不同级别的标题以不同的标准区分标记。
    有了确定标题行的优先级的基础,在确定所述标题行和标题行的优先级之后,本实施例进一步提供了识别相邻标题行之间的正文内容是否为标题简介的方法,具体包括:
    如果相邻标题行的优先级相同,且所述相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
    英文文本通过上述标题行合并之后,更能便于读者对所述英文文本的阅读和理解。例如,对于连续两行均为标题行的情况,若前行与后行优先级相同,又如果前行含有关键字上下文(含数字、罗马数字)(即上文所说关键字列表字典),而后行为无关键字的标题行,同时行内大写比例高过某阈值,则判定后行为前行标题的具体内容,此种情况下将后行与前行合并为一行。
    如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
    具体而言,对于相邻两优先的标题行,若其间正文内容的行数较少或单词总数较少,可能为章节简介的内容而非正文。判断出后,以将该文本行标记为简介。
    进一步地,本实施例还提供了对英文文本的文本格式进行归一化处理的方法,若出现不一致格式,如单词间多个空格、全半角空格或标点混用等,判断出对应的编码后统一归一处理。方法包括:去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
    与实施例一样比,本实施例在实施例一的基础之上,进一步对英文文本的章节段落以标题行为标志进行了识别和划分,能对英文文本的格式进行进一步的优化。
    实施例二
    图3是本发明实施例二所述的英文文本格式优化装置的结构框图,如图3所示,本实施例所述的英文文本格式优化装置包括:
    行间修正单元301,用于如果所述英文文本中相邻两行中前一行文本的行尾特征与后一行文本的行首特征满足预设行间修正条件,则对所述行尾特征与所述行首特征进行修正;和/或
    第一标题行确定单元302,用于如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行;和/或
    第二标题行确定单元303,用于如果所述英文文本的文本行所包含的单词总数目小于或等于预设的最大单词数阈值,且所述文本行包含首字母为大字字 母的单词的数目与所述单词总数目的比值大于或等于预设的第一比例阈值,则确定所述文本行为标题行。
    需要说明的是,上述第一标题行确定单元302和第二标题行确定单元303可以单独采用,也可以结合采用来确定标题行,顺序不限。同时,上述两个确定标题行的单元第一标题行确定单元302和第二标题行确定单元303与上述行间修正单元301可以独立执行,也可以结合执行,顺序不限。
    进一步地,所述行间修正单元301具体用于:如果所述英文文本中相邻两行中前一行文本的末尾字符和断行符,与后一行文本的首字母大小写特征,满足预设行间修正条件,则将所述相邻两行进行合并。
    进一步地,所述预设行间修正条件包括:所述末尾字符属于预指定字符,且所述后一行的首字母为小写字母;其中,所述预指定字符包括“-”、“,”和“:”。
    进一步地,所述装置还包括目录页确定单元304,所述目录页确定单元304用于:如果所述标题行连续出现的行数大于或等于预设目录阈值,则确定连续的所述标题行属于所述英文文本的目录页。
    图4是第一标题行确定单元302的结构框图,如图4所示,本实施例所述的第一标题行确定单元302还可包括优先级确定子单元3021、标题行合并子单元3022和/或标题简介确定子单元3023。
    所述优先级确定子单元3021用于:如果所述英文文本的文本行包括预设的标题关键字集合中的标题关键字,则确定所述文本行为标题行之后,根据所述标题行所包含的标题关键字和所述标题行的出现顺序确定所述标题行的优先级。
    所述标题行合并子单元3022用于:如果相邻标题行的优先级相同,且所述 相邻标题行中前一标题行包含第一预指定字符,以及所述相邻的标题行中后一标题行不包含所述第一预指定字符且包含首字母为大写字母的单词的数目与所包含的单词总数目的比值大于或等于预设的第二比例阈值,则将所述相邻的标题行合并为一个标题行。
    英文文本通过上述标题行合并之后,更能便于读者对所述英文文本的阅读和理解。例如,对于连续两行均为标题行的情况,若前行与后行优先级相同,又如果第一行含有关键字上下文(含数字、罗马数字),即关键字列表字典,而后行为无关键字的标题行,同时行内大写比例高过某阈值,则判定后行为前行标题的具体内容,此种情况下将后行与前行合并为一行。
    所述标题简介确定子单元3023用于:如果相邻标题行的优先级级别递减,且相邻标题行之间的正文行数或单词总数小于预设简介阈值,则识别相邻标题行之间的正文内容为标题简介。
    例如,对于相邻两优先级的标题行,若其间正文内容的行数较少或单词总数较少,则可确定该标题行为章节简介的内容而非正文,若确定标题行为章节简介,则进行标记。
    进一步地,所述装置还包括形式统改单元305,用于去掉所述英文文本中单词之间多余的空格和/或将所述英文文本中所包含的非英文的空格和标点修改为英文的空格和标点。
    本实施例的技术方案利用了英文文本的特征对行间格式进行修正,对目录进行确定,能提高对英文阅读资源进行格式优化的效率,能节约成本。
    以上实施例提供的技术方案中的全部或部分内容可以通过软件编程实现,其软件程序存储在可读取的存储介质中,存储介质例如:计算机中的硬盘、光盘或软盘。
    注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里所述的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新修正和替代而不会脱离本发明的?;し段?。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。

    关于本文
    本文标题:一种英文文本格式优化方法及装置.pdf
    链接地址://www.4mum.com.cn/p-6143515.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
  • 11选五任选八胆拖可以错 大乐透顺序不对算不算 全球彩票下载 长期跟踪稳赚六肖 吉林时时骗 组选6公式 七星彩购买网站 快速时时走势图 随机大小单双玩法 3快三计划软件 pk10模式长期稳赚3码 手机pk10免费计划软件苹果 时时彩定位胆5码稳赚技巧 pk10最牛稳赚模式6码2期必中 申请彩票投注站需要什么手续办理 必赢客手机版