• 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03
    • / 19
    • 下载费用:30 金币  

    重庆时时彩下载苹果手机版式: 对文档图像进行透视校正的方法和设备.pdf

    摘要
    申请专利号:

    重庆时时彩单双窍门 www.4mum.com.cn CN201510830447.6

    申请日:

    2015.11.25

    公开号:

    CN106803269A

    公开日:

    2017.06.06

    当前法律状态:

    实审

    有效性:

    审中

    法律详情: 实质审查的生效IPC(主分类):G06T 7/60申请日:20151125|||公开
    IPC分类号: G06T7/60(2017.01)I 主分类号: G06T7/60
    申请人: 富士通株式会社
    发明人: 李鑫; 刘伟; 范伟; 孙俊
    地址: 日本神奈川县
    优先权:
    专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 康建峰;吴琼
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201510830447.6

    授权公告号:

    |||

    法律状态公告日:

    2017.06.30|||2017.06.06

    法律状态类型:

    实质审查的生效|||公开

    摘要

    本发明公开了一种对文档图像进行透视校正的方法和设备。该方法包括:确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;根据所述长阿拉伯数字串的内容,创建参考图像;根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及根据所述校正函数,对所述文档图像进行透视校正。

    权利要求书

    1.一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,包
    括:
    确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿
    拉伯数字串的内容;
    根据所述长阿拉伯数字串的内容,创建参考图像;
    根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函
    数;以及
    根据所述校正函数,对所述文档图像进行透视校正。
    2.如权利要求1所述的方法,其中,确定所述文档图像中所述长阿
    拉伯数字串所在的部分以及所述长阿拉伯数字串的内容包括:
    对所述文档图像进行二值化处理,以得到二值化图像;
    提取所述二值化图像中的所有连通域;
    利用数字OCR引擎,对所提取的连通域进行OCR识别;
    在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组
    连通域;
    将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中
    所述长阿拉伯数字串所在的部分。
    3.如权利要求2所述的方法,其中,确定所述文档图像中所述长阿
    拉伯数字串所在的部分以及所述长阿拉伯数字串的内容还包括:
    将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结
    果中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。
    4.如权利要求2所述的方法,其中,对所述文档图像进行二值化处
    理,以得到二值化图像包括:
    针对所述文档图像中的每个像素,将该像素的R、G、B中的最大值
    作为灰度图像中对应位置的像素值,以得到灰度图像;
    利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。
    5.如权利要求2所述的方法,其中,对所述文档图像进行二值化处
    理,以得到二值化图像包括:
    针对所述文档图像中的每个像素,取该像素的R、G、B中的最大值
    与大于1的预定常数之积、以及255中的较小者,作为灰度图像中对应位
    置的像素值,以得到灰度图像;
    利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。
    6.如权利要求4或5所述的方法,其中,在进行二值化之前,还对
    灰度图像中的每个灰度值pi,进行如下公式所示的黑色像素增强处理:
    <mrow> <msub> <mi>p</mi> <mi>i</mi> </msub> <mo>=</mo> <mn>255</mn> <mo>/</mo> <mrow> <mo>(</mo> <mn>1</mn> <mo>+</mo> <msup> <mrow> <mo>(</mo> <mfrac> <mi>&alpha;</mi> <msub> <mi>p</mi> <mi>i</mi> </msub> </mfrac> <mo>)</mo> </mrow> <mi>&beta;</mi> </msup> <mo>)</mo> </mrow> </mrow>
    其中,pi表示灰度值,α、β为预定正整数,α接近127.5。
    7.如权利要求1所述的方法,其中,根据所述长阿拉伯数字串所在
    的部分与所述参考图像,计算校正函数包括:
    获取所述长阿拉伯数字串所在的部分的四个特征点;
    获取所述参考图像的四个特征点;
    根据所获取的八个特征点,计算校正函数。
    8.如权利要求7所述的方法,其中,获取所述长阿拉伯数字串所在
    的部分的四个特征点包括:
    提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形
    的上边的中心点作为第一点和下边的中心点作为第二点;
    提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形
    的上边的中心点作为第三点和下边的中心点作为第四点;
    将连接所述第一点和所述第三点的第一直线整体下移若干像素后与
    所述左连通域的交点的平均像素位置确定为第一特征点;
    将连接所述第二点和所述第四点的第二直线整体上移若干像素后与
    所述左连通域的交点的平均像素位置确定为第二特征点;
    将所述第一直线整体下移若干像素后与所述右连通域的交点的平均
    像素位置确定为第三特征点;
    将所述第二直线整体上移若干像素后与所述右连通域的交点的平均
    像素位置确定为第四特征点。
    9.如权利要求7所述的方法,其中,获取所述参考图像的四个特征
    点包括:
    对所述参考图像进行二值化处理并提取连通域;
    提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为
    第五特征点和下边的中心点作为第六特征点;
    提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为
    第七特征点和下边的中心点作为第八特征点。
    10.一种对包含长阿拉伯数字串的文档图像进行透视校正的设备,包
    括:
    数字串确定装置,被配置为:确定所述文档图像中所述长阿拉伯数字
    串所在的部分以及所述长阿拉伯数字串的内容;
    参考图像创建装置,被配置为:根据所述长阿拉伯数字串的内容,创
    建参考图像;
    校正函数计算装置,被配置为:根据所述长阿拉伯数字串所在的部分
    与所述参考图像,计算校正函数;以及
    透视校正装置,被配置为:根据所述校正函数,对所述文档图像进行
    透视校正。

    说明书

    对文档图像进行透视校正的方法和设备

    技术领域

    本发明一般地涉及图像处理领域。具体而言,本发明涉及一种能够对包
    含长阿拉伯数字串的文档图像进行透视校正的方法和设备。

    背景技术

    在现代社会中,存在有各种各样的证件、卡片、文档等,例如身份证,
    名片,银行卡,户口本,驾驶证,护照、派出所的户籍管理文档等。某些单
    位或者个人需要频繁的收集或存档这些信息,需要将这些证件、卡片、文档
    等留存电子件。除了一些特殊的读取工具以外,通常的电子化方法就是拍照,
    然后存储图像或者对图像进行识别后存储所识别的信息。

    在拍照留存的过程中,往往需要解决透视变换的问题。这是因为:由于
    环境或设备的限制,对这些证件、卡片、文档等进行拍摄时,有可能不是正
    对着拍摄对象的表面拍摄,而是与拍摄对象的表面的法线方向之间存在一定
    的角度,造成拍照结果受到倾斜的影响,这种倾斜通常被称为透视变换。为
    了下一步的识别和存储,必须对图像进行透视校正,然后才能进行版面分析、
    识别等后续处理。

    传统的方法是分析拍摄的图像,找出其边缘和角点,或者直接识别图像
    的内容,根据上述信息与标准模板进行比对,根据透视变换模型建立变换公
    式,进行透视投影变换。因此,传统的方法在每次校正之前,都需要建立特
    定于证件、卡片、文档等的标准模板,根据拍摄图像和标准模板图像之间的
    匹配进行校正。建立标准模板通常是非常繁琐的事情,需要用尺子测量所有
    要用到的角点之间的相对距离。如果需要电子化的证件、卡片、文档等的种
    类比较多,或者同一种电子化对象的信息位置不固定,那么这些方法就不太
    适用。另外,如果用户手持身份证进行拍摄的话,手容易挡住身份证的四个
    角点,无法基于角点进行处理。

    也就是说,传统的进行透视校正的方法和设备严重依赖于标准模板,准
    备标准模板的工作量大,标准模板的适应性不广,灵活性低,透视校正效果
    不稳定。

    发明内容

    在下文中给出了关于本发明的简要概述,以便提供关于本发明的某些方
    面的基本理解。应当理解,这个概述并不是关于本发明的穷举性概述。它并
    不是意图确定本发明的关键或重要部分,也不是意图限定本发明的范围。其
    目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的
    前序。

    本发明的目的是提出一种不依赖于预先准备的标准模板、能够灵活地对
    包含长阿拉伯数字串的文档图像进行透视校正的方法和设备。

    为了实现上述目的,根据本发明的一个方面,提供了一种对包含长阿拉
    伯数字串的文档图像进行透视校正的方法,该方法包括:确定所述文档图像
    中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容;根据所
    述长阿拉伯数字串的内容,创建参考图像;根据所述长阿拉伯数字串所在的
    部分与所述参考图像,计算校正函数;以及根据所述校正函数,对所述文档
    图像进行透视校正。

    根据本发明的另一个方面,提供了一种对包含长阿拉伯数字串的文档图
    像进行透视校正的设备,该设备包括:数字串确定装置,被配置为:确定所
    述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的
    内容;参考图像创建装置,被配置为:根据所述长阿拉伯数字串的内容,创
    建参考图像;校正函数计算装置,被配置为:根据所述长阿拉伯数字串所在
    的部分与所述参考图像,计算校正函数;以及透视校正装置,被配置为:根
    据所述校正函数,对所述文档图像进行透视校正。

    另外,根据本发明的另一方面,还提供了一种存储介质。所述存储介质
    包括机器可读的程序代码,当在信息处理设备上执行所述程序代码时,所述
    程序代码使得所述信息处理设备执行根据本发明的上述方法。

    此外,根据本发明的再一方面,还提供了一种程序产品。所述程序产品
    包括机器可执行的指令,当在信息处理设备上执行所述指令时,所述指令使
    得所述信息处理设备执行根据本发明的上述方法。

    附图说明

    参照下面结合附图对本发明的实施例的说明,会更加容易地理解本发明
    的以上和其它目的、特点和优点。附图中的部件只是为了示出本发明的原理。
    在附图中,相同的或类似的技术特征或部件将采用相同或类似的附图标记来
    表示。附图中:

    图1示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进
    行透视校正的方法的流程图;

    图2示出了确定所述文档图像中所述长阿拉伯数字串所在的部分的流程
    图;

    图3示出了输入文档图像和经过步骤S1处理后得到的中间结果;

    图4示出了长阿拉伯数字串所在的部分的示例;

    图5示出了特征点提取的示例;

    图6(a)和图6(b)分别示出了透视校正前的输入文档图像和透视校
    正后的变换结果;

    图6(c)示出了识别结果;

    图7示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进
    行透视校正的设备的结构方框图;以及

    图8示出了可用于实施根据本发明的实施例的方法和设备的计算机的示
    意性框图。

    具体实施方式

    在下文中将结合附图对本发明的示范性实施例进行详细描述。为了清楚
    和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了
    解,在开发任何这种实际实施方式的过程中必须做出很多特定于实施方式的
    决定,以便实现开发人员的具体目标,例如,符合与系统及业务相关的那些
    限制条件,并且这些限制条件可能会随着实施方式的不同而有所改变。此外,
    还应该了解,虽然开发工作有可能是非常复杂和费时的,但对得益于本公开
    内容的本领域技术人员来说,这种开发工作仅仅是例行的任务。

    在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本发明,
    在附图中仅仅示出了与根据本发明的方案密切相关的装置结构和/或处理步
    骤,而省略了与本发明关系不大的其他细节。另外,还需要指出的是,在本
    发明的一个附图或一种实施方式中描述的元素和特征可以与一个或更多个
    其它附图或实施方式中示出的元素和特征相结合。

    下面将参照图1描述根据本发明的实施例的对包含长阿拉伯数字串的文
    档图像进行透视校正的方法的流程。

    图1示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进
    行透视校正的方法的流程图。如图1所示,根据本发明的实施例的对包含长
    阿拉伯数字串的文档图像进行透视校正的方法包括如下步骤:确定所述文档
    图像中所述长阿拉伯数字串所在的部分以及所述长阿拉伯数字串的内容(步
    骤S1);根据所述长阿拉伯数字串的内容,创建参考图像(步骤S2);根据
    所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数(步骤S3);
    以及根据所述校正函数,对所述文档图像进行透视校正(步骤S4)。

    如上所述,文档图像包括各种证件、卡片、文档等的图像,包括身份证,
    名片,银行卡,户口本,驾驶证,护照、派出所的户籍管理文档等的图像。

    这些文档图像的共同特点是包含长阿拉伯数字串,例如身份证号、卡号
    等。由于有些身份证号的尾号是X,而不是数字,所以在下文中,为了处理
    方便,只取身份证号的纯数字部分作为长阿拉伯数字串的示例。

    由于长阿拉伯数字串与文档图像的其它部分具有显著区别,所以可以相
    对容易和准确地定位和分析长阿拉伯数字串所在的部分,从而确定用于透视
    校正的校正函数。

    因此,根据本发明,首先在步骤S1中,确定所述文档图像中所述长阿
    拉伯数字串所在的部分以及所述长阿拉伯数字串的内容。

    具体地,参见图2,确定所述文档图像中所述长阿拉伯数字串所在的部
    分包括:对所述文档图像进行二值化处理,以得到二值化图像(步骤S11);
    提取所述二值化图像中的所有连通域(步骤S12);利用数字OCR引擎,对所
    提取的连通域进行OCR识别(步骤S13);在OCR结果中,搜索置信度高、彼
    此接近、形成一个最长串的一组连通域(步骤S14);将所述一组连通域的外
    接矩形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部
    分(步骤S15)。

    在步骤S11中,对所述文档图像进行二值化处理,以得到二值化图像。

    在文档图像本身为灰度图像的情况下,可以直接利用二值化阈值,对灰
    度文档图像进行二值化,以得到二值化图像。

    在文档图像本身为彩色图像的情况下,可以先将彩色文档图像转换为灰
    度图像,再利用二值化阈值,对灰度文档图像进行二值化,以得到二值化图
    像。

    关于将彩色文档图像转换为灰度图像的方法,此处给出两个优选的实施
    方式。本发明不限于此,只要能够实现彩色文档图像到灰度图像的转换即可。

    将彩色文档图像转换为灰度图像的方法的第一优选实施方式是针对所
    述文档图像中的每个像素,将该像素的R、G、B中的最大值作为灰度图像
    中对应位置的像素值,以得到灰度图像。

    将彩色文档图像转换为灰度图像的方法的第二优选实施方式是针对所
    述文档图像中的每个像素,取该像素的R、G、B中的最大值与大于1的预
    定常数之积、以及255中的较小者,作为灰度图像中对应位置的像素值,以
    得到灰度图像。

    即,如下公式。

    g=min(255,max(r,g,b)*1.25)

    其中,g为灰度值,min()表示取最小值,max表示取最大值,r、g、b
    表示像素的彩色三通道值,大于1的预定常数在上述公式中的示例是1.25,
    可以根据经验指定,不限于此。

    采用上述两种方式,尤其是第二实施方式进行灰度化,会使得非黑色的
    彩色像素点更加偏白色。以身份证为例,部分文字是彩色的,而身份证号都
    是黑色的,所以有利于初步筛选像素(去掉具有非黑色的颜色的文字部分),
    提高二值化效果。

    另外,为了进一步提高处理效果,还可以针对灰度图像,在进行二值化
    之前,进行黑色像素增强处理。

    具体地,针对灰度图像中的每个灰度值pi,利用如下公式更新灰度值。

    新灰度值

    其中,pi表示灰度值,α、β为预定正整数,α取接近127.5的值,β
    例如取5,但不限于此,主要起放大作用。

    α取值在0到255的中间位置,使得当pi远大于α时,更新后的pi更接
    近255,即白色像素更白,pi远小于α时,更新后的pi更接近0,即黑色像
    素更黑,pi与α越接近时,更新后的pi约接近127.5,更新前后变化不大。

    通过黑色像素增强处理,可以有效地增强黑色像素,减弱灰色像素。

    在步骤S12中,提取所述二值化图像中的所有连通域。

    连通域提取是本领域公知的技术,在此不再赘述。

    在步骤S13中,利用数字OCR引擎,对所提取的连通域进行OCR识
    别。OCR识别是本领域公知的技术,在此不再赘述。

    应注意的是此处采用的是数字OCR引擎。因为步骤S1的目的是定位文
    档图像中所述长阿拉伯数字串所在的部分以及识别所述长阿拉伯数字串的
    内容,所以采用数字OCR引擎可以实现。同时,二值化图像中的黑色像素
    还包括文字。文字对于数字OCR引擎来说,属于噪声,所以相应的识别置
    信度低,有利于定位长阿拉伯数字串所在的部分。

    在步骤S14中,在OCR结果中,搜索置信度高、彼此接近、形成一个
    最长串的一组连通域。

    具体地,通过置信度,去掉例如文字、噪声等对应的连通域,然后在剩
    下的连通域中计算两两连通域之间的连接关系,如果两个连通域左右相邻,
    则标记两者连接,从而获得最长的一条连通域构成的串,因为身份证号是处
    理对象中连续的数字部分中最长的。将所述OCR结果中与所述长阿拉伯数
    字串所在的部分对应的识别结果中置信度最高的一组识别结果,确定为所述
    长阿拉伯数字串的内容。标记该串的每个连通域为cc0…ccn,并获得对应的识
    别结果a0…an,其中假设该串由n个连通域构成。

    在步骤S15中,将所述一组连通域的外接矩形所包围的区域,确定为所
    述文档图像中所述长阿拉伯数字串所在的部分。

    图3示出了输入文档图像和经过步骤S1处理后得到的中间结果。其中,
    身份证上通常以彩色文字出现的姓名、性别、民族、出生、年、月、日、地
    址、公民身份证号码等字样以及方块和圆形的噪声均已去除。身份证号
    123456789987654321的位置和内容得到了确认。

    在步骤S2中,根据所述长阿拉伯数字串的内容,创建参考图像。

    由于在步骤S1中已确定长阿拉伯数字串的内容,因此可以基于内容来
    创建标准的没有透视变换问题的参考图像,作为计算校正函数的基础。

    具体地,根据所述长阿拉伯数字串的内容,利用预定字体,形成对应的
    参考图像。预定字体即为处理对象中数字部分的规定字体。相比于传统技术,
    本发明仅需要得知字体信息,而无需标准模板。

    在步骤S3中,根据所述长阿拉伯数字串所在的部分与所述参考图像,
    计算校正函数。

    校正函数例如是透视变换方程。

    透视变换方程如下所示。


    其中,a11、a12、a13、a21、a22、a23、a31、a32、a33为透视变换参数,X、
    Y分别为变换前的像素点的横坐标、纵坐标,U、V分别为变换后的像素点
    的横坐标、纵坐标。因此,只要针对将长阿拉伯数字串所在的部分的特征点
    pi(X,Y)和参考图像的特征点Pi'(U,V)代入方程,即可求解透视变换参数。a33
    在实际计算中默认取值为1。透视变换方程有2个,共具有八个未知参数,
    代入四组坐标八个值可以求解。

    步骤S3例如可通过如下步骤实现:获取所述长阿拉伯数字串所在的部
    分的四个特征点(步骤S31);获取所述参考图像的四个特征点(步骤S32);
    根据所获取的八个特征点,计算校正函数(步骤S33)。

    下面介绍特征点的选取方法。

    在步骤S31中,提取所述长阿拉伯数字串所在的部分靠左侧的左连通域
    的外接矩形的上边的中心点作为第一点和下边的中心点作为第二点;提取所
    述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形的上边的中心
    点作为第三点和下边的中心点作为第四点;将连接所述第一点和所述第三点
    的第一直线整体下移若干像素后与所述左连通域的交点的平均像素位置确
    定为第一特征点;将连接所述第二点和所述第四点的第二直线整体上移若干
    像素后与所述左连通域的交点的平均像素位置确定为第二特征点;将所述第
    一直线整体下移若干像素后与所述右连通域的交点的平均像素位置确定为
    第三特征点;将所述第二直线整体上移若干像素后与所述右连通域的交点的
    平均像素位置确定为第四特征点。

    在图4中,以靠左侧的连通域为最左侧的连通域(对应数字1),靠右侧
    的连通域是最右侧的连通域(对应数字2)为例。如图4所示,第一直线整
    体下移若干像素后和第二直线整体上移后如图4中的两条横线所示。

    提取的第一至第四特征点如图5上方所示。

    靠左侧连通域和靠右侧连通域也可以都向中间靠拢,而不是把边的连通
    域,但是靠左侧连通域和靠右侧连通域之间的间隔要相对较大。

    之所以将第一直线整体下移若干像素和将第二直线整体上移是为了去
    除最高点和最低点附近噪声的影响,防止误判。

    可以采取类似的方法提取参考图像的特征点。

    当然,由于参考图像是标准图像,没有噪声干扰,所以直接选两端的四
    个点即可。

    也即,在步骤S32中,对所述参考图像进行二值化处理并提取连通域;
    提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为第五特
    征点和下边的中心点作为第六特征点;提取所述参考图像靠右侧的连通域的
    外接矩形的上边的中心点作为第七特征点和下边的中心点作为第八特征点。

    同样,靠左侧的连通域可以是最左侧的连通域(对应数字1),靠右侧的
    连通域可以是最右侧的连通域(对应数字2),靠左侧连通域和靠右侧连通域
    也可以都向中间靠拢,而不是把边的连通域,但是靠左侧连通域和靠右侧连
    通域之间的间隔要相对较大。

    提取的第五至第八特征点如图5下方所示。

    当然,也可采用其它几何方法或者图像处理方法在数字串图像和参考图
    像上获取足够多的对应点作为特征点。

    在步骤S33中,根据所获取的八个特征点,计算校正函数。

    如上所述,计算校正函数,只需要四组特征点的坐标。

    得到了校正函数,就可以在步骤S4中,根据所述校正函数,对所述文
    档图像进行透视校正。

    具体地,利用透视变换方程将原图即输入文档图像中的每个像素点的坐
    标代入透视变换方程,求得每个像素点在透视校正后的像素位置,将该像素
    点的像素值赋予在透视校正后的像素位置。

    图6(a)和图6(b)分别示出了透视校正前的输入文档图像和透视校
    正后的变换结果。

    经过透视校正的文档图像可以进行后续处理。

    例如,可以根据所述文档图像中所述长阿拉伯数字串所在的部分的位
    置,确定所述文档图像中感兴趣内容所在的部分。这是因为文档图像中各个
    感兴趣内容的相对位置关系是固定的。然后,对所述文档图像中感兴趣内容
    所在的部分进行文本行提取和混合文本OCR识别,从而获得感兴趣内容。
    注意,由于此时进行的OCR的识别对象包括文字和数字,所以采用混合文
    本OCR引擎进行识别,而非之前使用的数字OCR引擎。图6(c)示出了
    识别结果。

    下面,将参照图7描述根据本发明的实施例的对包含长阿拉伯数字串的
    文档图像进行透视校正的设备。

    图7示出了根据本发明的实施例的对包含长阿拉伯数字串的文档图像进
    行透视校正的设备的结构方框图。如图7所示,根据本发明的对包含长阿拉
    伯数字串的文档图像进行透视校正的透视校正设备700包括:数字串确定装
    置71,被配置为:确定所述文档图像中所述长阿拉伯数字串所在的部分以及
    所述长阿拉伯数字串的内容;参考图像创建装置72,被配置为:根据所述长
    阿拉伯数字串的内容,创建参考图像;校正函数计算装置73,被配置为:根
    据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函数;以及透
    视校正装置74,被配置为:根据所述校正函数,对所述文档图像进行透视校
    正。

    在一个实施例中,数字串确定装置71包括:区域确定单元,其包括:
    二值化处理子单元,被配置为:对所述文档图像进行二值化处理,以得到二
    值化图像;连通域提取子单元,被配置为:提取所述二值化图像中的所有连
    通域;数字OCR引擎,被配置为:对所提取的连通域进行OCR识别;搜索
    子单元,被配置为:在OCR结果中,搜索置信度高、彼此接近、形成一个
    最长串的一组连通域;确定子单元,被配置为:将所述一组连通域的外接矩
    形所包围的区域,确定为所述文档图像中所述长阿拉伯数字串所在的部分。

    在一个实施例中,数字串确定装置71还包括:内容确定单元,被配置
    为:将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结果
    中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。

    在一个实施例中,二值化处理子单元被进一步配置为:针对所述文档图
    像中的每个像素,将该像素的R、G、B中的最大值作为灰度图像中对应位
    置的像素值,以得到灰度图像;利用二值化阈值,对所述灰度图像进行二值
    化,以得到二值化图像。

    在一个实施例中,二值化处理子单元被进一步配置为:针对所述文档图
    像中的每个像素,取该像素的R、G、B中的最大值与大于1的预定常数之
    积、以及255中的较小者,作为灰度图像中对应位置的像素值,以得到灰度
    图像;利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

    在一个实施例中,二值化处理子单元被进一步配置为:在进行二值化之
    前,还对灰度图像中的每个灰度值pi,进行如下公式所示的黑色像素增强处
    理:


    其中,pi表示灰度值,α、β为预定正整数,α接近127.5。

    在一个实施例中,参考图像创建装置72被进一步配置为:根据所述长
    阿拉伯数字串的内容,利用预定字体,形成对应的参考图像。

    在一个实施例中,校正函数计算装置73包括:第一特征点获取单元,
    被配置为:获取所述长阿拉伯数字串所在的部分的四个特征点;第二特征点
    获取单元,被配置为:获取所述参考图像的四个特征点;校正函数计算单元,
    被配置为:根据所获取的八个特征点,计算校正函数。

    在一个实施例中,第一特征点获取单元被进一步配置为:提取所述长阿
    拉伯数字串所在的部分靠左侧的左连通域的外接矩形的上边的中心点作为
    第一点和下边的中心点作为第二点;提取所述长阿拉伯数字串所在的部分靠
    右侧的右连通域的外接矩形的上边的中心点作为第三点和下边的中心点作
    为第四点;将连接所述第一点和所述第三点的第一直线整体下移若干像素后
    与所述左连通域的交点的平均像素位置确定为第一特征点;将连接所述第二
    点和所述第四点的第二直线整体上移若干像素后与所述左连通域的交点的
    平均像素位置确定为第二特征点;将所述第一直线整体下移若干像素后与所
    述右连通域的交点的平均像素位置确定为第三特征点;将所述第二直线整体
    上移若干像素后与所述右连通域的交点的平均像素位置确定为第四特征点。

    在一个实施例中,第二特征点获取单元被进一步配置为:对所述参考图
    像进行二值化处理并提取连通域;提取所述参考图像靠左侧的连通域的外接
    矩形的上边的中心点作为第五特征点和下边的中心点作为第六特征点;提取
    所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为第七特征点
    和下边的中心点作为第八特征点。

    在一个实施例中,所述靠左侧的连通域为最左侧的连通域,所述靠右侧
    的连通域是最右侧的连通域。

    在一个实施例中,透视校正设备700还包括:感兴趣内容获取装置,被
    配置为:根据所述文档图像中所述长阿拉伯数字串所在的部分的位置,确定
    所述文档图像中感兴趣内容所在的部分;对所述文档图像中感兴趣内容所在
    的部分进行文本行提取和混合文本OCR识别,从而获得感兴趣内容。

    在一个实施例中,所述文档图像包括:身份证、户口本的图像;所述长
    阿拉伯数字串包括身份证号。

    由于在根据本发明的透视校正设备700中所包括的各个装置和单元中的
    处理分别与上面描述的透视校正方法中所包括的各个步骤中的处理类似,因
    此为了简洁起见,在此省略这些装置和单元的详细描述。

    此外,这里尚需指出的是,上述设备中各个组成装置、单元可以通过软
    件、固件、硬件或其组合的方式进行配置。配置可使用的具体手段或方式为
    本领域技术人员所熟知,在此不再赘述。在通过软件或固件实现的情况下,
    从存储介质或网络向具有专用硬件结构的计算机(例如图8所示的通用计算
    机800)安装构成该软件的程序,该计算机在安装有各种程序时,能够执行
    各种功能等。

    图8示出了可用于实施根据本发明的实施例的方法和设备的计算机的示
    意性框图。

    在图8中,中央处理单元(CPU)801根据只读存储器(ROM)802中存储的
    程序或从存储部分808加载到随机存取存储器(RAM)803的程序执行各种处
    理。在RAM 803中,还根据需要存储当CPU 801执行各种处理等等时所需的
    数据。CPU 801、ROM 802和RAM 803经由总线804彼此连接。输入/输出接
    口805也连接到总线804。

    下述部件连接到输入/输出接口805:输入部分806(包括键盘、鼠标等
    等)、输出部分807(包括显示器,比如阴极射线管(CRT)、液晶显示器(LCD)
    等,和扬声器等)、存储部分808(包括硬盘等)、通信部分809(包括网络
    接口卡比如LAN卡、调制解调器等)。通信部分809经由网络比如因特网执
    行通信处理。根据需要,驱动器810也可连接到输入/输出接口805??刹鹦?br />介质811比如磁盘、光盘、磁光盘、半导体存储器等等可以根据需要被安装
    在驱动器810上,使得从中读出的计算机程序根据需要被安装到存储部分808
    中。

    在通过软件实现上述系列处理的情况下,从网络比如因特网或存储介质
    比如可拆卸介质811安装构成软件的程序。

    本领域的技术人员应当理解,这种存储介质不局限于图8所示的其中存
    储有程序、与设备相分离地分发以向用户提供程序的可拆卸介质811??刹?br />卸介质811的例子包含磁盘(包含软盘(注册商标))、光盘(包含光盘只读存
    储器(CD-ROM)和数字通用盘(DVD))、磁光盘(包含迷你盘(MD)(注册商标))
    和半导体存储器?;蛘?,存储介质可以是ROM 802、存储部分808中包含的
    硬盘等等,其中存有程序,并且与包含它们的设备一起被分发给用户。

    本发明还提出一种存储有机器可读取的指令代码的程序产品。所述指令
    代码由机器读取并执行时,可执行上述根据本发明的实施例的方法。

    相应地,用于承载上述存储有机器可读取的指令代码的程序产品的存储
    介质也包括在本发明的公开中。所述存储介质包括但不限于软盘、光盘、磁
    光盘、存储卡、存储棒等等。

    在上面对本发明具体实施例的描述中,针对一种实施方式描述和/或示
    出的特征可以以相同或类似的方式在一个或更多个其它实施方式中使用,与
    其它实施方式中的特征相组合,或替代其它实施方式中的特征。

    应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组
    件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或
    附加。

    此外,本发明的方法不限于按照说明书中描述的时间顺序来执行,也可
    以按照其他的时间顺序地、并行地或独立地执行。因此,本说明书中描述的
    方法的执行顺序不对本发明的技术范围构成限制。

    尽管上面已经通过对本发明的具体实施例的描述对本发明进行了披露,
    但是,应该理解,上述的所有实施例和示例均是示例性的,而非限制性的。
    本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种
    修改、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本
    发明的?;し段?。

    附记

    1.一种对包含长阿拉伯数字串的文档图像进行透视校正的方法,包
    括:

    确定所述文档图像中所述长阿拉伯数字串所在的部分以及所述长阿
    拉伯数字串的内容;

    根据所述长阿拉伯数字串的内容,创建参考图像;

    根据所述长阿拉伯数字串所在的部分与所述参考图像,计算校正函
    数;以及

    根据所述校正函数,对所述文档图像进行透视校正。

    2.如附记1所述的方法,其中,确定所述文档图像中所述长阿拉伯
    数字串所在的部分以及所述长阿拉伯数字串的内容包括:

    对所述文档图像进行二值化处理,以得到二值化图像;

    提取所述二值化图像中的所有连通域;

    利用数字OCR引擎,对所提取的连通域进行OCR识别;

    在OCR结果中,搜索置信度高、彼此接近、形成一个最长串的一组
    连通域;

    将所述一组连通域的外接矩形所包围的区域,确定为所述文档图像中
    所述长阿拉伯数字串所在的部分。

    3.如附记2所述的方法,其中,确定所述文档图像中所述长阿拉伯
    数字串所在的部分以及所述长阿拉伯数字串的内容还包括:

    将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结
    果中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。

    4.如附记2所述的方法,其中,对所述文档图像进行二值化处理,
    以得到二值化图像包括:

    针对所述文档图像中的每个像素,将该像素的R、G、B中的最大值
    作为灰度图像中对应位置的像素值,以得到灰度图像;

    利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

    5.如附记2所述的方法,其中,对所述文档图像进行二值化处理,
    以得到二值化图像包括:

    针对所述文档图像中的每个像素,取该像素的R、G、B中的最大值
    与大于1的预定常数之积、以及255中的较小者,作为灰度图像中对应位
    置的像素值,以得到灰度图像;

    利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

    6.如附记4或5所述的方法,其中,在进行二值化之前,还对灰度
    图像中的每个灰度值pi,进行如下公式所示的黑色像素增强处理:


    其中,pi表示灰度值,α、β为预定正整数,α接近127.5。

    7.如附记1所述的方法,其中,根据所述长阿拉伯数字串的内容,
    创建参考图像包括:

    根据所述长阿拉伯数字串的内容,利用预定字体,形成对应的参考图
    像。

    8.如附记1所述的方法,其中,根据所述长阿拉伯数字串所在的部
    分与所述参考图像,计算校正函数包括:

    获取所述长阿拉伯数字串所在的部分的四个特征点;

    获取所述参考图像的四个特征点;

    根据所获取的八个特征点,计算校正函数。

    9.如附记8所述的方法,其中,获取所述长阿拉伯数字串所在的部
    分的四个特征点包括:

    提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形
    的上边的中心点作为第一点和下边的中心点作为第二点;

    提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形
    的上边的中心点作为第三点和下边的中心点作为第四点;

    将连接所述第一点和所述第三点的第一直线整体下移若干像素后与
    所述左连通域的交点的平均像素位置确定为第一特征点;

    将连接所述第二点和所述第四点的第二直线整体上移若干像素后与
    所述左连通域的交点的平均像素位置确定为第二特征点;

    将所述第一直线整体下移若干像素后与所述右连通域的交点的平均
    像素位置确定为第三特征点;

    将所述第二直线整体上移若干像素后与所述右连通域的交点的平均
    像素位置确定为第四特征点。

    10.如附记8所述的方法,其中,获取所述参考图像的四个特征点包
    括:

    对所述参考图像进行二值化处理并提取连通域;

    提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为
    第五特征点和下边的中心点作为第六特征点;

    提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为
    第七特征点和下边的中心点作为第八特征点。

    11.一种对包含长阿拉伯数字串的文档图像进行透视校正的设备,包
    括:

    数字串确定装置,被配置为:确定所述文档图像中所述长阿拉伯数字
    串所在的部分以及所述长阿拉伯数字串的内容;

    参考图像创建装置,被配置为:根据所述长阿拉伯数字串的内容,创
    建参考图像;

    校正函数计算装置,被配置为:根据所述长阿拉伯数字串所在的部分
    与所述参考图像,计算校正函数;以及

    透视校正装置,被配置为:根据所述校正函数,对所述文档图像进行
    透视校正。

    12.如附记11所述的设备,其中,数字串确定装置包括:区域确定
    单元,其包括:

    二值化处理子单元,被配置为:对所述文档图像进行二值化处理,以
    得到二值化图像;

    连通域提取子单元,被配置为:提取所述二值化图像中的所有连通域;

    数字OCR引擎,被配置为:对所提取的连通域进行OCR识别;

    搜索子单元,被配置为:在OCR结果中,搜索置信度高、彼此接近、
    形成一个最长串的一组连通域;

    确定子单元,被配置为:将所述一组连通域的外接矩形所包围的区域,
    确定为所述文档图像中所述长阿拉伯数字串所在的部分。

    13.如附记12所述的设备,其中,数字串确定装置还包括:内容确
    定单元,被配置为:

    将所述OCR结果中与所述长阿拉伯数字串所在的部分对应的识别结
    果中置信度最高的一组识别结果,确定为所述长阿拉伯数字串的内容。

    14.如附记12所述的设备,其中,二值化处理子单元被进一步配置
    为:

    针对所述文档图像中的每个像素,将该像素的R、G、B中的最大值
    作为灰度图像中对应位置的像素值,以得到灰度图像;

    利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

    15.如附记12所述的设备,其中,二值化处理子单元被进一步配置
    为:

    针对所述文档图像中的每个像素,取该像素的R、G、B中的最大值
    与大于1的预定常数之积、以及255中的较小者,作为灰度图像中对应位
    置的像素值,以得到灰度图像;

    利用二值化阈值,对所述灰度图像进行二值化,以得到二值化图像。

    16.如附记14或15所述的设备,其中,二值化处理子单元被进一步
    配置为:在进行二值化之前,还对灰度图像中的每个灰度值pi,进行如下
    公式所示的黑色像素增强处理:


    其中,pi表示灰度值,α、β为预定正整数,α接近127.5。

    17.如附记11所述的设备,其中,参考图像创建装置被进一步配置
    为:

    根据所述长阿拉伯数字串的内容,利用预定字体,形成对应的参考图
    像。

    18.如附记11所述的设备,其中,校正函数计算装置包括:

    第一特征点获取单元,被配置为:获取所述长阿拉伯数字串所在的部
    分的四个特征点;

    第二特征点获取单元,被配置为:获取所述参考图像的四个特征点;

    校正函数计算单元,被配置为:根据所获取的八个特征点,计算校正
    函数。

    19.如附记18所述的设备,其中,第一特征点获取单元被进一步配
    置为:

    提取所述长阿拉伯数字串所在的部分靠左侧的左连通域的外接矩形
    的上边的中心点作为第一点和下边的中心点作为第二点;

    提取所述长阿拉伯数字串所在的部分靠右侧的右连通域的外接矩形
    的上边的中心点作为第三点和下边的中心点作为第四点;

    将连接所述第一点和所述第三点的第一直线整体下移若干像素后与
    所述左连通域的交点的平均像素位置确定为第一特征点;

    将连接所述第二点和所述第四点的第二直线整体上移若干像素后与
    所述左连通域的交点的平均像素位置确定为第二特征点;

    将所述第一直线整体下移若干像素后与所述右连通域的交点的平均
    像素位置确定为第三特征点;

    将所述第二直线整体上移若干像素后与所述右连通域的交点的平均
    像素位置确定为第四特征点。

    20.如附记18所述的设备,其中,第二特征点获取单元被进一步配
    置为:

    对所述参考图像进行二值化处理并提取连通域;

    提取所述参考图像靠左侧的连通域的外接矩形的上边的中心点作为
    第五特征点和下边的中心点作为第六特征点;

    提取所述参考图像靠右侧的连通域的外接矩形的上边的中心点作为
    第七特征点和下边的中心点作为第八特征点。

    关 键 词:
    文档 图像 进行 透视 校正 方法 设备
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:对文档图像进行透视校正的方法和设备.pdf
    链接地址://www.4mum.com.cn/p-6000621.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 【华商侃车NO.192】 亲!楼市火爆,别忘了买车位啊! 2019-05-03