• 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
    • / 14
    • 下载费用:30 金币  

    重庆时时彩90最准: 对打印文件进行认证的方法.pdf

    关 键 词:
    打印 文件 进行 认证 方法
      专利查询网所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    摘要
    申请专利号:

    CN201310741444.6

    申请日:

    2013.12.27

    公开号:

    CN103914509A

    公开日:

    2014.07.09

    当前法律状态:

    授权

    有效性:

    有权

    法律详情: 授权|||实质审查的生效IPC(主分类):G06F 17/30申请日:20131227|||公开
    IPC分类号: G06F17/30; G06K19/06 主分类号: G06F17/30
    申请人: 柯尼卡美能达美国研究所有限公司
    发明人: 田宜彬; 明伟
    地址: 美国加利福尼亚州
    优先权: 2012.12.28 US 13/730,743
    专利代理机构: 北京集佳知识产权代理有限公司 11227 代理人: 朱胜;江河清
    PDF完整版下载: PDF下载
    法律状态
    申请(专利)号:

    CN201310741444.6

    授权公告号:

    103914509B||||||

    法律状态公告日:

    2017.05.10|||2014.08.06|||2014.07.09

    法律状态类型:

    授权|||实质审查的生效|||公开

    摘要

    本发明提供了一种用于对打印文件进行认证的方法,打印文件携带有对认证数据进行编码的条形码,认证数据包括用于原始文件图像中的每个词语的词语边界框和用于重构原始图像的数据。扫描打印文件以生成目标文件图像,然后将目标文件图像分割成文本词语。使用原始文件图像和目标文件图像的词语边界框来对准目标文件图像。然后,利用原始文件图像中的每个词语与目标文件图像中的对应词语之间的词语差别图和豪斯多夫距离来对它们进行比较?;估锰卣鞅冉?、符号差别图和豪斯多夫距离比较以及点匹配来比较原始文件图像的符号与目标文件图像中的对应符号。这些各个比较结果可以识别目标文件中相对于原始文件的更改,而且更改可以被可视化。

    权利要求书

    权利要求书
    1.  一种用于对打印文件进行认证的方法,所述打印文件携带有对表示二进制原始文件图像的压缩图像数据进行编码的条形码,所述方法包括:
    (a)获得表示所述打印文件的图像;
    (b)将所述图像分离成目标文件图像和所述条形码;
    (c)解码所述条形码并且解压缩其中的压缩图像数据以获得所述原始文件图像;
    (d)对所述目标文件图像进行二值化;
    (e)将所述目标文件图像相对于所述原始文件图像对准;
    (f)将所述原始文件图像中的每个词语与所述目标文件图像中的对应词语进行比较以检测任何差别,包括:
    (f1)对于步骤(c)中获得的所述原始文件图像的每个词语,找到所述目标文件图像的所述对应词语;
    (f2)在所述原始文件图像的每个词语和所述目标文件图像的所述对应词语之间生成差别图并计算豪斯多夫距离,并且比较所述差别图和所述豪斯多夫距离以确定所述原始文件图像和所述目标文件图像的对应词语是否有差别;
    (f3)如果在步骤(f2)中未将所述原始文件图像的词语和所述目标文件图像的词语确定为有差别,则识别所述原始文件图像的词语中的一个或多个候选符号以及所述目标文件图像中的对应的候选符号;
    (f4)将步骤(f3)中识别的所述原始文件图像的每个候选符号的图像特征与所述目标文件图像的对应的候选符号的图像特征进行比较,以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别;
    (f5)如果在步骤(f4)中未将所述原始文件图像和所述目标文件图像的所述对应的符号确定为有差别,则在所述原始文件图像的每个候选符号和所述目标文件图像的所述对应的候选符号之间生成差别图并计算豪斯多夫距离,并且比较所述差别图和所述豪斯多夫距离以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别;以 及
    (f6)如果在步骤(f5)中未将所述原始文件图像和所述目标文件图像的对应的符号确定为有差别,则利用点匹配方法比较所述原始文件图像的每个候选符号和所述目标文件图像的对应的候选符号的形状,以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别;以及
    (g)可视化步骤(f)中所检测的差别。

    2.  根据权利要求1所述的方法,
    其中,所述条形码还对各自对应于所述原始文件中的词语的多个原始词语边界框进行编码,其中步骤(c)还包括从所述条形码获得所述多个原始词语边界框,以及
    其中步骤(e)包括:
    (e1)将所述目标文件图像分割为词语以获得对应于所述目标文件图像中的词语的目标词语边界框;
    (e2)将步骤(c)中获得的所述多个原始词语边界框中的至少一些与步骤(e1)中获得的所述目标词语边界框中的至少一些进行匹配以对准所述目标文件图像;
    (e3)基于步骤(e2)中所获得的对准,还利用所述目标文件图像和所述原始文件图像来对准所述目标文件图像。

    3.  根据权利要求2所述的方法,其中,所述条形码还对各自对应于所述原始文件图像中的文本行的多个原始文本行边界框进行编码,其中步骤(c)还包括从所述条形码获得所述多个原始文本行边界框,以及
    其中步骤(e1)还包括将所述目标文件图像分割为文本行以获得对应于所述目标文件图像中的文本行的目标文本行边界框,以及
    其中步骤(e2)还包括将步骤(c)中获得的所述多个原始文本行边界框中的至少一些与步骤(e1)中获得的所述目标文本行边界框中的至少一些进行匹配以对准所述目标文件图像。

    4.  根据权利要求2所述的方法,其中,所述步骤(f2)使用随机样本一致性RANSAC方法。

    5.  根据权利要求1所述的方法,其中,步骤(a)包括扫描所述打印文件以生成扫描后的图像并且对所述扫描后的图像进行预处理,所述预处理包括去噪、去倾斜和/或对透视失真的校正。

    6.  根据权利要求1所述的方法,其中在步骤(f4)中,所述图像特征包括分区轮廓、侧轮廓、拓扑统计和低阶图像矩。

    7.  根据权利要求1所述的方法,其中,步骤(g)包括显示或打印具有如下指示的所述原始文件图像或所述目标文件图像,所述指示指出在步骤(f2)中被确定为有差别的所述原始文件图像的任何词语或所述目标文件图像的对应词语以及在步骤(f4)、(f5)和(f6)中被确定为有差别的所述原始文件图像的任何候选符号或所述目标文件图像的对应候选符号。

    8.  一种用于对打印文件进行认证的装置,所述打印文件携带有对表示二进制原始文件图像的压缩图像数据进行编码的条形码,所述装置包括:
    用于获得表示所述打印文件的图像的装置;
    用于将所述图像分离成目标文件图像和所述条形码的装置;
    用于解码所述条形码并且解压缩其中的压缩图像数据以获得所述原始文件图像的装置;
    用于对所述目标文件图像进行二值化的装置;
    用于将所述目标文件图像相对于所述原始文件图像对准的装置;
    用于将所述原始文件图像中的每个词语与所述目标文件图像中的对应词语进行比较以检测任何差别的装置,包括:
    用于对于获得的所述原始文件图像的每个词语,找到所述目标文件图像的所述对应词语的装置;
    用于在所述原始文件图像的每个词语和所述目标文件图像的所 述对应词语之间生成差别图并计算豪斯多夫距离,并且比较所述差别图和所述豪斯多夫距离以确定所述原始文件图像和所述目标文件图像的对应词语是否有差别的装置;
    用于在未将所述原始文件图像的词语和所述目标文件图像的词语确定为有差别的情况下,识别所述原始文件图像的词语中的一个或多个候选符号以及所述目标文件图像中的对应的候选符号的装置;
    用于将所识别的所述原始文件图像的每个候选符号的图像特征与所述目标文件图像的对应的候选符号的图像特征进行比较,以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别的装置;
    用于在未将所述原始文件图像和所述目标文件图像的所述对应的符号确定为有差别的情况下,在所述原始文件图像的每个候选符号和所述目标文件图像的所述对应的候选符号之间生成差别图并计算豪斯多夫距离,并且比较所述差别图和所述豪斯多夫距离以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别的装置;以及
    (f6)用于在未将所述原始文件图像和所述目标文件图像的对应的符号确定为有差别的情况下,利用点匹配方法比较所述原始文件图像的每个候选符号和所述目标文件图像的对应的候选符号的形状,以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别的装置;以及
    用于可视化所检测的差别的装置。

    9.  根据权利要求8所述的装置,
    其中,所述条形码还对各自对应于所述原始文件中的词语的多个原始词语边界框进行编码,其中用于解码所述条形码并且解压缩其中的压缩图像数据以获得所述原始文件图像的装置还包括用于从所述条形码获得所述多个原始词语边界框的装置,以及
    其中用于将所述目标文件图像相对于所述原始文件图像对准的装置包括:
    用于将所述目标文件图像分割为词语以获得对应于所述目标文件图 像中的词语的目标词语边界框的装置;
    用于将所获得的所述多个原始词语边界框中的至少一些与所获得的所述目标词语边界框中的至少一些进行匹配以对准所述目标文件图像的装置;
    用于基于所获得的对准,还利用所述目标文件图像和所述原始文件图像来对准所述目标文件图像的装置。

    10.  根据权利要求9所述的装置,其中,所述条形码还对各自对应于所述原始文件图像中的文本行的多个原始文本行边界框进行编码,其中所述用于解码所述条形码并且解压缩其中的压缩图像数据以获得所述原始文件图像的装置还包括用于从所述条形码获得所述多个原始文本行边界框的装置,以及
    其中所述用于将所述目标文件图像分割为词语以获得对应于所述目标文件图像中的词语的目标词语边界框的装置还包括用于将所述目标文件图像分割为文本行以获得对应于所述目标文件图像中的文本行的目标文本行边界框的装置,以及
    其中用于将所获得的所述多个原始词语边界框中的至少一些与所获得的所述目标词语边界框中的至少一些进行匹配以对准所述目标文件图像的装置还包括用于将所获得的所述多个原始文本行边界框中的至少一些与所获得的所述目标文本行边界框中的至少一些进行匹配以对准所述目标文件图像的装置。

    11.  根据权利要求9所述的装置,其中,所述用于在所述原始文件图像的每个词语和所述目标文件图像的所述对应词语之间生成差别图并计算豪斯多夫距离,并且比较所述差别图和所述豪斯多夫距离以确定所述原始文件图像和所述目标文件图像的对应词语是否有差别的装置使用随机样本一致性RANSAC方法。

    12.  根据权利要求8所述的装置,其中,所述用于获得表示所述打印文件的图像的装置包括用于扫描所述打印文件以生成扫描后的图像并且对所述扫描后的图像进行预处理的装置,所述预处理包括去噪、去倾斜和 /或对透视失真的校正。

    13.  根据权利要求8所述的装置,其中在所述用于将所识别的所述原始文件图像的每个候选符号的图像特征与所述目标文件图像的对应的候选符号的图像特征进行比较,以确定所述原始文件图像和所述目标文件图像的对应的候选符号中的任一个是否有差别的装置中,所述图像特征包括分区轮廓、侧轮廓、拓扑统计和低阶图像矩。

    14.  根据权利要求8所述的装置,其中,所述用于可视化所检测的差别的装置包括用于显示或打印具有如下指示的所述原始文件图像或所述目标文件图像的装置,所述指示指出被确定为有差别的所述原始文件图像的任何词语或所述目标文件图像的对应词语以及被确定为有差别的所述原始文件图像的任何候选符号或所述目标文件图像的对应候选符号。

    说明书

    说明书对打印文件进行认证的方法
    技术领域
    本发明涉及一种文件认证方法,特别地,涉及一种对携带有对认证数据进行编码的条形码的自认证文件进行处理以检测文件中的更改的方法。
    背景技术
    可以包括文本、图形、图片等的原始数字文件经常被打印,并且所打印的硬副本被分发、复制等,然后经常被扫描回数字形式。对扫描后的数字文件进行认证指的是确定扫描后的文件是否为原始数字文件的真实副本,即,该文件是否在硬副本形式时已经被更改。更改可能是由于刻意或意外事件而发生的。闭环处理中的文件认证指的是,生成在文件自身上携带认证数据的打印文件,以及利用从扫描后的文件中提取的认证数据来认证扫描回来的文件。这样的打印文件被称为是自认证的,这是因为除了该打印文件上的信息之外不需要任何信息来认证其内容。
    已经提出了利用条形码(特别是二维(2d)条形码)来生成自认证文件的方法。具体地,这样的方法包括:对文件的内容(文本、图形、图片等)进行处理并将其转换成作为文件内容的表示的认证数据,以2d条形码(认证条形码)的形式来编码认证数据,并且将条形码打印在和原始文件内容相同的同一记录介质上。这就得到了自认证文件。为了认证这样的打印文件,对文件进行扫描以获得扫描后的图像。对认证条形码也进行扫描并提取其中包含的认证数据。然后处理扫描后的图像,并将其与认证数据进行比较以确定打印文件是否有任何内容被更改了,即,该文件是否为真实的(authentic)。一些认证技术能够确定改变了什么和/或改变了哪里,而一些则仅仅确定是否已发生了任何更改。
    发明内容
    本发明涉及一种通过对包含认证数据的条形码(包括所有形式的机器可读模式或表示)进行解码并且将解码的认证数据与扫描后的文件进行比 较来认证携带有条形码的文件的方法。
    本发明的目的是提供一种用于文件认证目的、尤其是当应用到包含文本的文件时来比较两个文件图像的高效方法。
    在以下说明书中将阐述本发明的附加特征和优点,其根据说明书部分将是明显的,或者可以通过实践本发明来了解。通过书面的说明书和其权利要求以及附图中特别指出的结构将实现和达到本发明的目的和其他优点。
    为了实现这些和/或其他目的,作为具体实施和广泛描述,本发明提供了一种用于对打印文件进行认证的方法,该打印文件携带有对表示二进制原始文件图像的压缩图像数据进行编码的条形码,该方法包括:(a)获得表示打印文件的图像;(b)将图像分离成目标文件图像和条形码;(c)解码条形码并且解压缩其中的压缩图像数据以获得原始文件图像;(d)对目标文件图像进行二值化;(e)将目标文件图像相对于原始文件图像对准;(f)将原始文件图像中的每个词语与目标文件图像中的对应词语进行比较以检测任何差别,包括:(f1)对于步骤(c)中获得的原始文件图像的每个词语,找到目标文件图像的对应词语;(f2)在原始文件图像的每个词语和目标文件图像的对应词语之间生成差别图并计算豪斯多夫距离,并且比较差别图和豪斯多夫距离以确定原始文件图像和目标文件图像的对应词语是否有差别;(f3)如果在步骤(f2)中未将原始文件图像的词语和目标文件图像的词语确定为有差别,则识别原始文件图像的词语中的一个或多个候选符号以及目标文件图像中的对应的候选符号;(f4)将步骤(f3)中识别的原始文件图像的每个候选符号的图像特征与目标文件图像的对应的候选符号的图像特征进行比较,以确定原始文件图像和目标文件图像的对应的候选符号中的任一个是否有差别;(f5)如果在步骤(f4)中未将原始文件图像和目标文件图像的对应的符号确定为有差别,则在原始文件图像的每个候选符号和目标文件图像的对应的候选符号之间生成差别图并计算豪斯多夫距离,并且比较差别图和豪斯多夫距离以确定原始文件图像和目标文件图像的对应的候选符号中的任一个是否有差别;以及(f6)如果在步骤(f5)中未将原始文件图像和目标文件图像的对应的符号确定为有差别,则利用点匹配方法比较原始文件图像的每个候选符号和目标文件图像的对应的候选符号的形状,以确定原始文件图像和目标文件图像的对应的候选符号中的任一个是否有差别;以及(g)可视化步骤(f)中所检测的差别。
    在另一方面,本发明提供了一种计算机程序产品,该计算机程序产品 包括计算机可用非暂态介质(例如,存储器或存储装置),计算机可用非暂态介质具有嵌入其中的、用于控制数据处理设备的计算机可读程序代码,计算机可读程序代码被配置成使数据处理设备执行以上方法。
    应当理解的是,前面的总体描述和后面的详细描述都是示例性和说明性的,并且意在提供对所要求?;さ谋痉⒚鞯慕徊浇馐?。
    附图说明
    图1A和1B示意性地示出了根据本发明的实施例的对携带有以条形码形式编码的认证信息的文件进行认证的方法。
    具体实施方式
    这里所描述的方法可以在数据处理系统中实现,该数据处理系统包括处理器、存储器和存储装置。该数据处理系统可以是连接到打印机、扫描仪、复印机和/或多功能装置的独立计算机,或者它也可以包含在打印机、扫描仪、复印机或多功能装置中。该数据处理系统通过执行存储在存储装置中的计算机程序的处理器来执行该方法。在一个方面,本发明是由数据处理系统执行的方法。在另一个方面,本发明是体现在计算机可用非暂态介质(存储装置)中的计算机程序产品,该计算机可用非暂态介质具有嵌入其中的、用于控制数据处理设备的计算机可读程序代码。在另一个方面,本发明体现在数据处理系统中。
    图1A和1B示意性地示出了对携带有包含认证数据的条形码的打印文件进行认证的处理。这里,术语“条形码”广义上指任何的机器可读打印模式或表示,包括一维或二维条形码、彩色条形码等。认证数据包括可以被解压以生成原始文件图像的压缩图像数据。将原始文件图像与通过对打印文件进行扫描而生成的目标文件图像相比较,以确定打印文件的真实性??梢岳帽热鏙PEG、JBIG2等的任意适当的图像压缩方法来生成压缩图像数据。特别地,JBIG2是用于压缩包含大量文本的文件的图像的高效方法。
    除了压缩图像数据之外,认证数据还可以包括(可选地)可用于在比较前将目标文件图像和原始文件图像进行对准的对准信息。在一个实施例中,对准信息包括用于原始文件图像中的文本行、词语和/或符号(例如,字母、数字、其他符号等)的边界框的位置和尺寸。边界框可以通过利用 适当的分割方法分割原始文件图像中的文本而生成。在一些图像压缩方法中,边界框是作为图像压缩的一部分而生成的。
    在图1A和1B所示的认证处理中,对打印文件进行扫描、拍摄或者以其他方式成像来生成电子文件图像(步骤S201)。对扫描后的图像进行预处理(步骤S202),包括去噪(即去除小的、孤立的黑点)、去倾斜和/或如果图像是通过相机生成的话对透视失真的校正。这些处理是基于以下假设而执行的:文本文件通常应当具有文本的行通常是水平的或垂直的优选取向以及从无穷远处的正视图。任何合适的技术都可以用于实现这些预处理步骤。对扫描后的图像中的条形码和文本区域进行分离(步骤S203)。由于本方法并不处理文件中的图形和图片(如果有的话),所以为了简单起见,文本区域在这里单独被称为目标文件图像。
    在必要时对条形码解码以及对数据解密以获得其中包含的认证数据(步骤S204)。如果包括文本行、词语和/或符号的边界框(位置和尺寸)的对准信息是认证数据的一部分的话,则提取它们(步骤S205)。对压缩图像数据进行解压缩以生成原始文件图像(步骤S206)。
    同时,对在步骤S203中获得的目标文件图像进行二值化(步骤S207)??梢允褂萌魏魏鲜实奈谋痉掷敕椒ê投祷椒?。将目标文件图像分割成文本行,然后分割为词语(步骤S208)。应当注意,在本公开中,术语“行”、“词语”以及“符号”指对应于行、词语或符号的图像,而不是它们的ASCII表示。行分割可以通过例如分析文本区域的图像的水平投影轮廓或连通部件、或其他合适的方法来完成。词语和符号分割可以通过例如形态学操作和连通部件分析、或者其他合适的方法来完成。分割的结果是生成了用于文本行和词语的边界框。每个边界框是由它的位置和尺寸来定义的。
    然后,利用步骤S208中生成的目标文件图像的行和词语边界框以及步骤S205中获得的原始文件图像的行和词语边界框来执行目标文件图像和原始文件图像的初步匹配(步骤S209)。在该步骤中,可以使用用于这两个文件图像的所有的边界框或边界框的选定的子集。在匹配中可以单独使用边界框位置(例如每个框的拐角),或者也可以使用边界框位置和尺寸两者。优选地利用RANSAC(随机样本一致性,Random Sample Consensus)方法来执行匹配。如果按照合适的方案所指示的原始文件和目标文件的行和词语边界框无法互相匹配,则可以认为整个目标文件已经被更改过,并停止认证处理(图1A中未示出)。否则,匹配步骤S209计 算目标文件图像和原始文件图像的初步对准,该初步对准包括对目标文件的旋转、平移和/或缩放。
    如先前所提到的,原始文件图像的行、词语和/或符号边界框可选地作为认证信息的一部分存储在条形码中,并在步骤S205中进行提取。如果这样的信息未存储在条形码中,则可以通过分割解压后的原始文件图像(即从在步骤S206中获得的原始文件图像)来生成原始文件图像的行、词语和/或符号边界框,如图1A中从框S206到框S205的虚线所示。
    然后,根据初步对准,这次利用步骤S207中所获得的整个目标图像以及步骤S206中所获得的整个原始文件图像来对准目标文件与原始文件图像(包括旋转、缩放和/或平移)(步骤S210)??梢允褂没ハ喙兀╟ross-correlation)或其他合适的方法。在图1A所示的处理流程中,匹配步骤S209是利用来自两个图像的较少信息的粗对准;而对准步骤S210则利用了两个图像的完整图像细节。作为一种替代方式,可以省略步骤S210,并可以将步骤S209的结果用作最终对准。作为另一种替代方式(不太优选的),可以省略步骤S209,并直接利用步骤S210中的互相关或其他方法来在两个图像上(原始和目标)完成图像对齐,如框206到框S210以及框S207到框S210的虚线所示。
    在步骤S211至S223中所示的处理中,对目标文件图像(在步骤S210中的调整之后)和原始文件图像进行比较以检测任何的更改。该比较利用渐进的方式,首先在词语级进行比较,然后在符号级进行比较。在以下描述的流程中,将原始文件图像的词语逐个地进行处理并与目标文件图像进行比较。替代地,该比较也可以基于目标文件,即,将目标文件图像中的词语逐个地进行处理并与原始文件图像进行比较。
    对于原始文件图像中的下一个词语(原始词语),该处理找到目标文件图像中对应的词语(目标词语)(步骤S211)。这通过局部匹配处理来完成,即,对目标文件图像的、具有与原始文件图像中的词语边界框相同的位置但最好具有比原始文件图像中的词语边界框稍微大点的尺寸的区域进行搜索以找到与原始词语图像相匹配的目标词语图像。对于原始词语和目标词语,计算差别图(difference map)和豪斯多夫距离(Hausdorff distance)(步骤S212)。在该步骤中,可选地,可以将原始词语和目标词语图像的边缘像素从差别图中移除以提高比较质量。评估差别图和豪斯多夫距离,以确定原始词语和目标词语之间是否存在显著差别(步骤S213)。例如,如果差别图中的不同像素的数量超过阈值(可以将其设为原始或目 标词语中的像素总数的百分比,例如,20%),和/或如果豪斯多夫距离超过另一个阈值(可以将其设为原始或目标词语的最大高度和宽度的平均值的百分比,例如,10%)的话,则可以将这两个词语视为具有显著差别。
    如果通过这样的评估将原始词语和目标词语视为具有显著差别(步骤S213为“是”)的话,则将目标词语标记为与原始有差别(步骤S211),并且处理继续执行原始文件中的下一个词语(步骤S223以及返回至步骤S211)。如果否(步骤S213为“否”)的话,则在词语差别图示出显著差别的位置(例如,差别比特形成足够大的连通部件的位置)处获得原始文件图像中的符号(原始符号)和目标文件中的符号(目标符号)(步骤S214)。这些符号称为候选符号。位于差别图示出基本上无差别的地方的符号在步骤S214中不被视为候选符号。
    寻找候选符号的步骤(步骤S214)可以按照如下来执行。首先,通过连通部件分析来识别差别图的所有连通部件。对于差别图中的每个连通部件,计算该连通部件与原始词语和目标词语中的每个符号之间的距离,并且分别将在原始词语和目标词语中具有到该连通部件的最短距离的符号选择为用于差别图的该连通部件的候选符号??梢越ú考腿我夥牛ㄆ湟彩橇ú考┲涞木嗬攵ㄒ逦礁龇直鸬牧ú考先我饬礁鱿袼刂淇赡艿淖疃叹嗬?,或定义为各个连通部件的质心之间的距离。对差别图的所有连通部件进行处理以找到所有的候选符号。应当注意,有时两个或更多个连通部件可以对应于同一候选符号。因此,如果词语中的所有符号已被识别为候选符号的话,则差别图中的任何剩余的连通部件将不需要进行处理。
    通过一系列步骤检查候选符号,以确定原始符号和对应的目标符号是否有差别。更具体地,对于每一对候选符号(原始符号和对应的目标符号),计算并比较符号的特征(步骤S215)。这里所使用的特征可以包括分区轮廓(zoning profiles)、侧轮廓(side profiles)、拓扑统计(topology statistics)、低阶图像矩(low-order image moments)等。
    分区轮廓是通过将符号的像素块(例如,100×100像素块)划分为多个分区而生成的,比如m×n个分区(垂直的m个分区以及水平的n个分区)。分区的平均密度形成被称作分区轮廓的m×n矩阵。
    符号的侧轮廓是从符号的边界框的一侧(比如左、右、顶和底)观看到的符号的轮廓。侧轮廓可以被归一化(例如归一化为0到1之间),以用于比较的目的;归一化是通过将原始侧轮廓除以符号的高度(针对左和 右轮廓)或除以符号的宽度(针对顶和底轮廓)而完成的。侧轮廓也可以被放入比符号的高度或宽度的像素数量更少的数量的箱(bin)中。
    符号的拓扑统计例如可以包括符号中的孔的数量、分支点的数量、端点的数量等。符号的分支点是在符号骨架上且其至少三个相邻点也在骨架上的点。符号的端点是在符号骨架上、有且仅有其一个相邻点也在骨架上的点。例如,符号“6”有一个孔、一个分支点和一个端点;而符号“a”则有一个孔、两个分支点和两个端点。
    一般的图像矩被定义为:
    M(p,q)=Σy=1HΣx=1Wf(xp,yq)I(x,y)]]>
    其中f(xp,yq)为xp和yq的函数,H和W是图像的高度和宽度,并且I(x,y)是(x,y)处的图像像素值。取决于f(xp,yq)的具体格式,在文献中描述了多个矩,比如几何矩、Zernike矩、Chebyshev矩和Krawtchouk矩等。低阶矩是其阶数(如(p+q)所表示的)较低的矩。相比于高阶矩,低阶矩对轻微的图像失真较不敏感。这些矩优选地被归一化。
    这些图像特征可以用于以多种方式来比较原始符号和目标符号。在一个示例中,如果原始符号和目标符号之间不同的图像特征的数量超过特定阈值的话,则将这两个符号视为有差别。在另一个示例中,如果原始符号和目标符号之间不同的图像特征的数量超过任意类别的轮廓(将分区轮廓、侧轮廓、拓扑统计以及低阶图像矩各自认为是一个类别)的相应阈值,则将这两个符号视为有差别??梢允褂闷渌冉献荚?。
    如果特征中的差别是显著的(步骤S216为“是”),则将目标词语标记为与原始有差别(步骤S221),并且处理继续执行原始文件中的下一个词语(步骤S223以及返回至步骤S211)。否则(步骤S216为“否”),计算这对原始符号和目标符号的差别图和豪斯多夫距离(步骤S217),并使用其来确定原始符号和目标符号之间是否存在显著差别(步骤S218)。步骤S218可以使用与步骤S213相类似的方法,但在步骤S218中所使用的阈值可以是不同的。
    如果原始符号和目标符号在该步骤中被视为具有显著差别(步骤S218为“是”),则将目标词语标记为与原始有差别(步骤S221),并且处理继续执行原始文件中的下一个词语(步骤S223以及返回至步骤S211)。否则(步骤S218为“否”),执行点匹配步骤来比较原始符号和目标符号 的形状(步骤S219)。已经描述了各种点匹配方法,比如在Belongie等人的Shape Matching and Object Recognition Using Shape Contexts,IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.24,No.24,pp.509-522,2002年4月中描述的基于形状上下文的方法、在Chui等人的A new point matching algorithm for non-rigid registration,Computer Vision and Image Understanding89(2003)114-141中描述的基于薄板样条的方法以及在Zheng等人的Robust Point Matching for Nonrigid Shapes by Preserving Local Neighborhood Structures,IEEE Transactions on Pattern Analysis and Machine Intelligence,Vol.28,No,4,pp.643-649,2006年4月中描述的基于局部结构的方法。这些或其他合适的点匹配算法中的任意一个都可以在这里使用。如果在点匹配步骤中发现原始符号和目标符号具有不同的形状(步骤S220为“是”),则将目标词语标记为与原始有差别(步骤S221),并且处理继续执行原始文件中的下一个词语(步骤S223以及返回至步骤S211)。否则(步骤S220为“否”),将目标文件中的该符号看作与原始符号相同,并且处理继续检查下一个候选符号(步骤S222以及返回至步骤S215)。如果处理了所有的候选符号并且在步骤S216、S218和S220中所有的候选符号之中没有一个被看作与对应的原始符号有差别,则将目标词语看作与原始词语相同。然后处理下一个词语(步骤S223为“否”以及返回至步骤S211)。重复包括步骤S211至S223在内的此处理直到原始文件中的所有词语都被处理。
    可以看出,处理(步骤S212至S220)对原始词语和目标词语以及原始符号和目标符号执行渐进式的一系列比较;一旦比较步骤显示出差别,就将整个词语标记为有差别。不是每个词语中的所有候选符号都是该处理中的检查者(examiner)。在替代的实施例中,如果步骤S213未使得词语被标记为有差别,则对所有的候选符号执行步骤S215至S220,标记出所有有差别的符号。
    在比较处理之后,对比较结果进行可视化(步骤S224)??墒踊梢圆扇∪我馐实钡男问?,包括在显示屏上的显示、打印的文件、存储的图像等。在可视化中通过适当的方式(比如高亮、下划线、不同颜色等)来表示被发现为有差别的词语。
    在图1A和1B所示的认证处理中,步骤S201至S210可以被看作是以准备原始文件图像和目标文件图像为目标、执行比较步骤S211至S233的筹备阶段??梢酝ü娲椒ɡ粗葱谐锉附锥蔚母髦植街?,并且本发明 并不限于筹备阶段的具体步骤。
    例如,在图1A所示的处理中,目标文件和原始文件的初步对齐涉及使用行边界框和词语边界框(步骤S205、S208和S209),但许多替代方案是可能的。在一个替代的实施例中,在认证处理中不使用文本行边界框;在初步匹配步骤S209中仅使用词语边界框。在另一个替代的实施例中,可以在选定的符号边界框上完成初步匹配。方法的选择将会影响到存储在条形码中的认证信息量。如先前所提到的,如果在比较处理中生成行、词语和符号边界框,则这样的边界框信息可以方便地包括在条形码中,并在认证期间用于图像对齐。然而,更普遍地,可以通过任意适当的方法来执行图像对齐(步骤S205、S208、S209和S210)。
    应当注意,在图中所示的处理中,执行各个步骤的顺序并不限于图中所示的顺序。除了一些步骤依赖于其他步骤的处理结果、或者特别指明以外,可以以任意顺序或者并行地执行各个步骤。例如,在图1A中,步骤S204和S205可以在步骤S207和S208之前、之后或者与其同时执行。作为另一个示例(不太优选的),可以改变图1B中的流程以使得可以在进行符号级比较之前对原始文件中的所有词语执行词语级比较步骤S212和S213;同样地,在符号级,在进行下一个比较(例如步骤S217和S218)之前可以对词语的或文件的所有候选符号执行一个比较(例如步骤S215和S216)。因此,本发明的范围并不限于附图中所示的流程。
    本公开中所描述的文件认证方法的一个优点是对于噪声和图像失真相比于一些其他方法来说更加宽容。因为目标图像由于打印、复印和/或扫描处理而容易产生各种噪声和失真,所以这样的宽容性是重要的。
    对于本领域技术人员来说,在不脱离本发明的精神或范围的情况下,显然可以在本发明的文件认证方法和设备中做出各种修改和变形。因此,本发明意在覆盖在所附权利要求和其等价方案的范围内的修改和变形?!  ∧谌堇醋宰ɡ鴚ww.www.4mum.com.cn转载请标明出处

    关于本文
    本文标题:对打印文件进行认证的方法.pdf
    链接地址://www.4mum.com.cn/p-6115517.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    [email protected] 2017-2018 www.4mum.com.cn网站版权所有
    经营许可证编号:粤ICP备17046363号-1 
     


    收起
    展开
  • 浪潮孙丕恕从信息时代到智能时代 人工智能价值将爆发式释放 2019-12-21
  • 四川郎酒股份有限公司获第十二届人民企业社会责任奖年度环保奖 2019-05-13
  • 银保监会新规剑指大企业多头融资和过度融资 2019-05-12
  • 韩国再提4国联合申办世界杯 中国网友无视:我们自己来 2019-05-11
  • 中国人为什么一定要买房? 2019-05-11
  • 十九大精神进校园:风正扬帆当有为 勇做时代弄潮儿 2019-05-10
  • 粽叶飘香幸福邻里——廊坊市举办“我们的节日·端午”主题活动 2019-05-09
  • 太原设禁鸣路段 设备在测试中 2019-05-09
  • 拜耳医药保健有限公司获第十二届人民企业社会责任奖年度企业奖 2019-05-08
  • “港独”没出路!“梁天琦们”该醒醒了 2019-05-07
  • 陈卫平:中国文化内涵包含三方面 文化复兴表现在其中 2019-05-06
  • 人民日报客户端辟谣:“合成军装照”产品请放心使用 2019-05-05
  • 【十九大·理论新视野】为什么要“建设现代化经济体系”?   2019-05-04
  • 聚焦2017年乌鲁木齐市老城区改造提升工程 2019-05-04
  • 【专家谈】上合组织——构建区域命运共同体的有力实践者 2019-05-03
  • 捷报网球比分网 意甲射手榜最新排名 福州麻将怎么玩图解 快乐12技巧前10期技巧 山西泳坛夺金奖金 即时即时赔率率 菠萝彩票苹果 双人急速赛车 腾讯分分彩官方开奖 潮州体育彩票官网 麻将外挂软件是真的吗 浙江快乐12彩开奖结果走势图 二八杠自行车模型 安徽快3遗漏 河南快3开奖结果走势 青海十一选五今日预测杀码号