• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 12
    • 下载费用:30 金币  

    重庆时时彩爱趣彩平: 一种场景图像的文本检测方法和装置.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201610878795.5

    申请日:

    2016.10.08

    公开号:

    CN106570497A

    公开日:

    2017.04.19

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06K 9/20申请日:20161008|||公开
    IPC分类号: G06K9/20; G06N3/04; G06N3/08 主分类号: G06K9/20
    申请人: 中国科学院深圳先进技术研究院
    发明人: 乔宇; 黄韡林; 田值; 贺通; 贺盼
    地址: 518000 广东省深圳市南山区西丽大学城学苑大道1068号
    优先权:
    专利代理机构: 深圳中一专利商标事务所 44237 代理人: 陈宇
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201610878795.5

    授权公告号:

    |||

    法律状态公告日:

    2017.05.17|||2017.04.19

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明提供了一种场景图像的文本检测方法,所述方法包括:获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列,对所述文本候选框序列进行后处理,获取文本行区域。本方法通过递归神经网络模型对卷积特征进行训练,可以利用卷积特征的上下文本信息进行训练,有利于提高文本检测的鲁棒性,并且不局限于单一语言分类器,可以适应多语言文本的检测要求,而且无需人为设定复杂的先验条件,在不同场景下有利于提高检测的稳定性。通过利用重叠区域的计算资源,可以有效的提高计算效率,通过端到端的模型,可以简化计算处理的步骤。

    权利要求书

    1.一种场景图像的文本检测方法,其特征在于,所述方法包括:
    获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;
    将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;
    对所述文本候选框序列进行后处理,获取文本行区域。
    2.根据权利要求1所述方法,其特征在于,所述通过卷积神经网络模型提取所述场景图
    像的卷积特征步骤包括:
    通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图像的
    卷积层;
    采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。
    3.根据权利要求1所述方法,其特征在于,所述将所述场景图像的卷积特征送入递归神
    经网络模型,生成文本候选框序列步骤包括:
    将所述卷积特征按行送入递归神经网络模型,将每个卷积特征作为长短期记忆模型的
    时间帧输入进行训练,得到固定宽度的文本候选锚框;
    对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候选框
    序列。
    4.根据权利要求3所述方法,其特征在于,所述对所述固定宽度的文本候选锚框的上下
    边缘进行回归、检测和连通,生成文本候选框序列步骤包括:
    获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的评分
    值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、文本候选锚框距离自己
    最近文本行边界下端的第二偏移距离;
    根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结合所
    述第一偏移距离和第二偏移距离,生成文本候选框序列。
    5.根据权利要求1-4任一项所述方法,其特征在于,所述对所述文本候选框序列进行后
    处理,获取文本行区域步骤包括:
    根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之间的
    水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。
    6.一种场景图像的文本检测装置,其特征在于,所述装置包括:
    卷积特征获取单元,用于获取场景图像,通过卷积神经网络模型提取所述场景图像的
    卷积特征;
    文本候选框生成单元,用于将所述场景图像的卷积特征送入递归神经网络模型,生成
    文本候选框序列;
    文本行区域获取单元,用于对所述文本候选框序列进行后处理,获取文本行区域。
    7.根据权利要求6所述装置,其特征在于,所述卷积特征获取单元包括:
    卷积层获取子单元,用于通过VGG卷积神经网络对所述场景图像进行卷积神经网络运
    算,获取所述场景图像的卷积层;
    卷积特征滑取子单元,用于采用预定的滑窗获取所述场景图像特定区域的最后一个卷
    积层的卷积特征。
    8.根据权利要求6所述装置,其特征在于,所述文本候选框生成单元包括:
    文本候选锚框训练子单元,用于将所述卷积特征按行送入递归神经网络模型,将每个
    卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;
    文本候选框检测子单元,用于对所述固定宽度的文本候选锚框的上下边缘进行回归、
    检测和连通,生成文本候选框序列。
    9.根据权利要求8所述装置,其特征在于,所述文本候选框检测子单元包括:
    监督信息获取???,用于获取所述文本候选锚框的监督信息,所述监督信息包括:文本
    候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、
    文本候选锚框离自己最近文本行边界下端的第二偏移距离;
    选择比较???,用于根据所述文本候选锚框的监督信息,选择评分值大于预定值的文
    本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。
    10.根据权利要求6-9任一项所述装置,其特征在于,所述文本行区域获取单元具体用
    于:
    根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之间的
    水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。

    说明书

    一种场景图像的文本检测方法和装置

    技术领域

    本发明属于图像检测领域,尤其涉及一种场景图像的文本检测方法和装置。

    背景技术

    对场景图像中的文字进行有效的识别,可以为人们生活带来极大的便利性。比如
    可以对图像中的车牌等内容的识图,可以根据车牌号自动的查找车辆的相关信息等。而准
    确的检测和定位图像中的文本区域,是非限制自然场景中文本识别的基础和前提。

    目前对于文本检测的方法,一般包括基于连通组件的文本检测方法,以及基于滑
    动窗口的文本检测方法。

    其中,基于连通组件的文本检测方法,用一个快速的方法(比如MSER(Maximally
    Stable Extremal Regions,最大稳定极值区域),SWT(应用画笔宽度)等)去分离文本像素
    与非文本像素。然后文本像素被贪婪地使用底层特征打组为笔画或者字符候选。使用的底
    层特征一般是灰度值、颜色或者梯度等?;诹ㄗ榧奈谋炯觳夥椒?,对非连通文字(比
    如说中文)不能进行有效的检测。

    基于滑动窗口的文本检测方法,是指在图像中密集的滑动一个窗口,同时在滑窗
    的每个位置处应用检测算法(使用手动设计的底层特征或者CNN(卷积神经网络))?;诨?br />动窗口的方法虽然不存在不支持非连通文字的问题,但却需要处理多尺度问题。为了解决
    多尺度问题,一般需要用好几种尺度的滑窗分别滑过图像,这样会增加文本检测的计算量。

    由于目前的文本检测方法通常是基于单个字符的分类器,以滑动窗口作用于候选
    框,当场景复杂时,比如光照、阴影、遮挡等自然条件的影响,影响字符分类的鲁棒性,不能
    一次处理包括多种语言文本的图像,在不同场景下检测时,检测的稳定性较差。

    发明内容

    本发明的目的在于提供一种场景图像的文本检测方法,以解决现有技术的文本检
    测方法中,字符分类的鲁棒性差,不能一次处理包括多种语言文本的图像,在不同场景下检
    测的稳定性较差的问题。

    第一方面,本发明实施例提供了一种场景图像的文本检测方法,所述方法包括:

    获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积特征;

    将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列;

    对所述文本候选框序列进行后处理,获取文本行区域。

    结合第一方面,在第一方面的第一种可能实现方式中,所述通过卷积神经网络模
    型提取所述场景图像的卷积特征步骤包括:

    通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图
    像的卷积层;

    采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。

    结合第一方面的第二种可能实现方式,在第一方面的第二种可能实现方式中,所
    述将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选框序列步骤包括:

    将所述卷积特征按行送入递归神经网络模型,将每个卷积特征作为长短期记忆模
    型的时间帧输入进行训练,得到固定宽度的文本候选锚框;

    对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候
    选框序列。

    结合第一方面,在第一方面的第三种可能实现方式中,对所述固定宽度的文本候
    选锚框的上下边缘进行回归、检测和连通,生成文本候选框序列步骤包括:

    获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的
    评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距离、文本候选锚框距离
    自己最近文本行边界下端的第二偏移距离;

    根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结
    合所述第一偏移距离和第二偏移距离,生成文本候选框序列。

    结合第一方面、第一方面的第一种可能实现方式、第一方面的第二种可能实现方
    式、第一方面的第三种可能实现方式,在第一方面的第四种可能实现方式中,所述对所述文
    本候选框序列进行后处理,获取文本行区域步骤包括:

    根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之
    间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。

    第二方面,本发明实施例提供了一种场景图像的文本检测装置,所述装置包括:

    卷积特征获取单元,用于获取场景图像,通过卷积神经网络模型提取所述场景图
    像的卷积特征;

    文本候选框生成单元,用于将所述场景图像的卷积特征送入递归神经网络模型,
    生成文本候选框序列;

    文本行区域获取单元,用于对所述文本候选框序列进行后处理,获取文本行区
    域。。

    结合第二方面,在第二方面的第一种可能实现方式中,所述卷积特征获取单元包
    括:

    卷积层获取子单元,用于通过VGG卷积神经网络对所述场景图像进行卷积神经网
    络运算,获取所述场景图像的卷积层;

    卷积特征滑取子单元,用于采用预定的滑窗获取所述场景图像特定区域的最后一
    个卷积层的卷积特征。

    结合第二方面,在第二方面的第二种可能实现方式中,所述文本候选框生成单元
    包括:

    文本候选锚框训练子单元,用于将所述卷积特征送入双向长短期记忆模型,将每
    个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;

    文本候选框检测子单元,用于对所述固定宽度的文本候选锚框的上下边缘进行回
    归、检测和连通,生成文本候选框序列。

    结合第二方面的第二种可能实现方式,在第二方面的第三种可能实现方式中,所
    述文本候选框检测子单元包括:

    监督信息获取???,用于获取所述文本候选锚框的监督信息,所述监督信息包括:
    文本候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距
    离、文本候选锚框离自己最近文本行边界下端的第二偏移距离;

    选择比较???,用于根据所述文本候选锚框的监督信息,选择评分值大于预定值
    的文本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。

    结合第二方面、第二方面的第一种可能实现方式、第二方面的第二种可能实现方
    式、第二方面的第三种可能实现方式,在第二方面的第四种可能实现方式中,所述文本行区
    域获取单元具体用于:

    根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之
    间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。

    在本发明中,通过卷积神经网络提取场景图像的卷积特征,通过递归神经网络对
    所述卷积特征进行训练,得到文本候选框序列,并对所述文本候选框序列进行后处理,生成
    文本行区域。由于本方法通过递归神经网络模型对卷积特征进行训练,可以利用卷积特征
    的上下文本信息进行训练,有利于提高文本检测的鲁棒性,并且不局限于单一语言分类器,
    可以适应多语言文本的检测要求,而且无需人为设定复杂的先验条件,在不同场景下有利
    于提高检测的稳定性。

    附图说明

    图1是本发明实施例提供的场景图像的文本检测方法的实现流程图;

    图2是本发明实施例提供的场景图像的文本检测的网络结构示意图;

    图3是本发明实施例提供的检测过程示意图;

    图4是本发明实施例提供的场景图像的文本检测装置的结构示意图。

    具体实施方式

    为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
    本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并
    不用于限定本发明。

    本发明实施例的目的在于提供一种场景图像的文本检测方法和装置,以解决现有
    技术中对于场景图像的文本检测方法中,通?;诘ジ鲎址姆掷嗥?,以滑动窗口作用于
    候选框,不能够充分利用上下文与序列信息,并且当场景比较复杂时,比如光照、阴影、遮挡
    等自然条件的影响,单字符分类器不具有很好的鲁棒性,以及目前绝大多数分类器都是基
    于单一语言的分类器,不能一次检测处理多种语言的文本,以及大多数方法有很繁琐的后
    处理,有很多人为设定的先验条件,在不同的场景或者复杂的场景中,检测器不具有稳定
    性,另外,大多数的文本检测方法具有很复杂的流程以及人为参与,运行时间较长,实现价
    值有限。本发明针对上述缺陷进行改进,提出了一种端到端的、可以检测多语言文本,并且
    检测效率高的场景图像的文本检测方法,下面对本方法进行详细叙述:

    图1示出了本发明实施例提供的场景图像的文本检测方法的实现流程,详述如下:

    在步骤S101中,获取场景图像,通过卷积神经网络模型提取所述场景图像的卷积
    特征。

    具体的,本发明实施例所述场景图像,可以为动态的视频图像,也可以获取的静态
    照片。对于动态的视频图像,可以提取视频中的帧,对视频中的帧进行运算处理。

    所述卷积神经网络,用于提取密集的卷积特征。作为本发明一种优选的实施方式,
    所述卷积神经网络可以选用VGG网络架构的卷积神经网络,对卷积特征进行提取。

    一种优选的实施方式中,所述通过卷积神经网络模型提取所述场景图像的卷积特
    征步骤包括:

    通过VGG卷积神经网络对所述场景图像进行卷积神经网络运算,获取所述场景图
    像的卷积层;

    采用预定的滑窗获取所述场景图像特定区域的最后一个卷积层的卷积特征。

    所述特定区域,可以为通过VGG模型初步识别出的文字所在的图像区域。

    所述VGG卷积神经网络可以选用VGG16网络架构,所述预设滑窗可以为3*3大小的
    滑窗。如图2所示,选用VGG16[10],生成多个卷积层,并对最后一个卷积层(比如可以是
    con5)的特征图进行滑窗处理。所述滑窗可以选用3*3的滑窗,可以得到每一次滑窗操作对
    应的卷积特征。

    其中,所述VGG网络架构和google net是两类典型的图像分类模型。这两类模型结
    构有一个共同特点是深度学习。跟googlenet不同的是,VGG继承了lenet以及alexnet的一
    些框架。尤其是跟alexnet框架相似。VGG可以有5个或以上的卷积层、2层fc图像特征、一层
    fc分类特征,能够看作和alex net一样总共8个部分。依据前5个卷积层。每一个层中的不同
    配置。

    在步骤S102中,将所述场景图像的卷积特征送入递归神经网络模型,生成文本候
    选框序列。

    根据所述场景图像中的卷积特征的获取顺序,依次将所述场景图像的卷积特征送
    入递归神经网络模型中进行训练。其中,所述递归神经网络模型可以为双向长短期记忆模
    型LSTM(Long Short-Term Memory)是一种时间递归神经网络。

    具体的,所述将所述场景图像的卷积特征送入递归神经网络模型,生成文本候选
    框序列步骤可以包括:

    将所述卷积特征按行送入递归神经网络模型,所述递归神经网络模型可以为双向
    长短期记忆模型,将每个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定
    宽度的文本候选锚框;

    对所述固定宽度的文本候选锚框的上下边缘进行回归、检测和连通,生成文本候
    选框序列。

    具体的,本发明实施例中所述文本候选锚框,是指按照固定宽度框定了一定区域
    的框,但文本候选锚框中不一定就是属于文本区域。所述文本候选框序列表示经过对文本
    候选锚框检测后,筛选出符合文本要求的一个或者多个文本候选锚框所构成的区域。而在
    后续提到的文本行区域,则指由文本候选框进行后处理的精调后得到的标准文本区域。

    我们将卷积神经网络得到的最后一个卷积层进行滑窗提取卷积特征后,将卷积特
    征按行输入至递归神经网络的双向长短期记忆模型LSTM中,将按照滑窗提取的顺序,依次
    输入至双向长短期记忆模型LSTM中。这样,如图2所示,卷积神经网络的最后一个卷积层的
    特征图像上的每一行,都作为一个双向长短期记忆模型LSTM的时序序列,依次输入至双向
    长短期记忆模型LSTM中。这样,特征图像上的每一个点,就相当于双向长短期记忆模型LSTM
    中的每个时间帧。通过这样的设计,我们的网络就可以对当前帧进行判断的时候,利用上帧
    与下帧的信息,使得判断更为准确。

    如图2所示,在所述双向长短期记忆模型LSTM层有256个输出,并且可以连接到一
    个有512个输出的全连接。这个连接后面可以连接三个输出层。这三个输出层可分别预测文
    本候选锚框为带文本的文本候选锚框的可能性(可通过评分值Score来表示),竖直方向上
    的纵坐标(Vertical coordinate)与水平位置的偏移(Side-refinement),并输出的固定宽
    度的文本候选框的序列??赏ü谋竞蜓】虻难丈硎靖梦谋竞蜓】蛭谋镜目赡苄?br />(Score),在图2和图3的第二个图中只画出了分数大于某个阈值的候选框。

    具体的,本发明所述对所述固定宽度的文本候选锚框的上下边缘进行回归、检测
    和连通,生成文本候选框序列步骤可以包括:

    获取所述文本候选锚框的监督信息,所述监督信息包括:文本候选锚框为文本的
    评分值、文本候选锚距离自己最近文本行边界上端的第一偏移距离、文本候选锚框距离自
    己最近文本行边界下端的第二偏移距离;

    根据所述文本候选锚框的监督信息,选择评分值大于预定值的文本候选锚框,结
    合所述第一偏移距离和第二偏移距离,生成文本候选框序列。

    在训练过程中,我们对文本候选框添加监督信息,使得网络可以收敛到我们所希
    望的结果。监督信息可以包括:

    (1)每一个文本候选锚框是不是文本的分类监督信息。

    (2)每一个文本候选锚框相对于距离自己最近的文本行边界上端的偏移量。

    (3)每一个文本候选锚框距离自己最近文本行边界下端的第二偏移距离。

    我们可以使用Softmax函数作为我们的分类损失函数。对于回归,我们可以使用
    SmoothL1Loss[12]函数作为我们的损失函数。

    在测试过程中,我们根据上述监督信息,可以得到:

    (1)每一个文本候选锚框是文本的可能性(分数)。

    (2)每一个文本候选锚框相对于距离自己最近的文本行边界上端的偏移。

    (3)每一个文本候选锚框距离自己最近文本行边界下端的偏移。

    通过上述监督信息,我们可以选取那些分数大于预设值,比如大于0.7的文本候选
    锚框,然后加上对应的偏移就可以得到文本候选框序列。

    在步骤S103中,根据所述文本候选框序列的高度差异和水平距离,选择处于水平
    边缘的文本框之间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。

    我们可以使用一些简单的线索来构造一张可达性图。然后在这个图中通过寻找连
    通域的方式来连接这些文本候选框使得我们可以得到最终的文本行区域。这些简单的线索
    包括文本框之间的水平距离以及文本框的高度差异等。当我们连接这些文本候选框成为文
    本行区域之后,我们选取那些处于边缘的文本候选框,加上对应的偏移,从而有效的完成了
    对文本行的水平坐标的精调操作。如图3所示,输入图片后,生成文本候选框序列,再进一步
    精调得到最终检测结果,即生成文本行区域。

    本方法通过递归神经网络模型对卷积特征进行训练,可以利用卷积特征的上下文
    本信息进行训练,有利于提高文本检测的鲁棒性,并且不局限于单一语言分类器,可以适应
    多语言文本的检测要求,而且无需人为设定复杂的先验条件,在不同场景下有利于提高检
    测的稳定性。另外,本方法可以高效的利用重叠区域的计算资源,可以有效的提高计算效
    率,通过端到端的模型,可以简化计算处理的步骤。

    图4为本发明实施例提场景图像的文本检测装置的结构示意图,详述如下:

    本发明实施例所述场景图像的文本检测装置,包括:

    卷积特征获取单元401,用于获取场景图像,通过卷积神经网络模型提取所述场景
    图像的卷积特征;

    文本候选框生成单元402,用于将所述场景图像的卷积特征送入递归神经网络模
    型,生成文本候选框序列;

    文本行区域获取单元403,用于对所述文本候选框序列进行后处理,获取文本行区
    域。

    优选的,所述卷积特征获取单元包括:

    卷积层获取子单元,用于通过VGG卷积神经网络对所述场景图像进行卷积神经网
    络运算,获取所述场景图像的卷积层;

    卷积特征滑取子单元,用于采用预定的滑窗获取所述场景图像特定区域的最后一
    个卷积层的卷积特征。

    优选的,所述文本候选框生成单元包括:

    文本候选锚框训练子单元,用于将所述卷积特征送入双向长短期记忆模型,将每
    个卷积特征作为长短期记忆模型的时间帧输入进行训练,得到固定宽度的文本候选锚框;

    文本候选框检测子单元,用于对所述固定宽度的文本候选锚框的上下边缘进行回
    归、检测和连通,生成文本候选框序列。

    优选的,所述文本候选框检测子单元包括:

    监督信息获取???,用于获取所述文本候选锚框的监督信息,所述监督信息包括:
    文本候选锚框为文本的评分值、文本候选锚框距离自己最近文本行边界上端的第一偏移距
    离、文本候选锚框离自己最近文本行边界下端的第二偏移距离;

    选择比较???,用于根据所述文本候选锚框的监督信息,选择评分值大于预定值
    的文本候选锚框,结合所述第一偏移距离和第二偏移距离,生成文本候选框序列。

    优选的,所述文本行区域获取单元具体用于:

    根据所述文本候选框序列的高度差异和水平距离,选择处于水平边缘的文本框之
    间的水平距离,以及处于竖直边缘的文本候选框,生成文本行区域。

    本发明实施例所述场景图像的文本检测装置,与上述场景图像的文本检测方法对
    应,在此不作重复赘述。

    在本发明所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其
    它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅
    仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结
    合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的
    相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通
    信连接,可以是电性,机械或其它的形式。

    所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显
    示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个
    网络单元上??梢愿菔导实男枰≡衿渲械牟糠只蛘呷康ピ词迪直臼凳├桨傅哪?br />的。

    另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以
    是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单
    元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

    所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用
    时,可以存储在一个计算机可读取存储介质中?;谡庋睦斫?,本发明的技术方案本质上
    或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式
    体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机
    设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全
    部或部分。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、
    随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的
    介质。

    以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精
    神和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的?;し段е?。

    关 键 词:
    一种 场景 图像 文本 检测 方法 装置
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:一种场景图像的文本检测方法和装置.pdf
    链接地址://www.4mum.com.cn/p-6092942.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03