专利名称:基于模板匹配的信息填涂卡识别方法
技术领域:
本发明属于信息处理技术领域,具体涉及信息填涂卡中选项填涂情 况的计算机自动识别技术。
背景技术:
目前,光学标记识别(Optical Marker Recognition, OMR)在标准化 阅巻、问巻调査、选票统计、人口普査等领域有广泛的应用。OMR技 术一般采用光电对管阅读技术,就是采用了两个光电器件,即半导体发 光管和光敏管。在识别时,由发光管发出光照射到选项涂点区域上,通 过光敏管接收来自选项涂点区域的反射光。因为选项填涂的情况直接决 定了反射光的强弱,所以根据此特性可以判定选项是否填涂。但这种方 式存在以下几个缺陷(1)对纸张有较高的要求,成本高。(2)保存与 查阅不方便。(3)需要购买专门的涂点标记识别设备,需要较大的硬件 投入。(4)速度慢,对于大批量的阅巻而言效率较低。
由于传统的OMR阅巻机存在种种弊端, 一种新的基于图像灰度分 析的涂点识别技术应运而生。基本方法就是先利用高速扫描仪将所有纸 质文档扫描为图像格式进行保存,然后利用图像识别技术对文档图像中 的选项区域进行涂点识别。这种方法的好处主要是不需要专门的光学标 记阅巻设备,填涂卡纸张也没有特殊要求,从而成本低廉,无论对大型 还是小型的阅巻应用都比较合适。另外,由于采用了图像格式来保存纸 质文档,所以文档的保存与査询非常方便。该方法涉及的几个关键技术 就是文档图像的倾斜校正、选项区域的分割与选项涂点的识别。
现有识别方法都是模拟光学标记阅读机的原理来实现的,即对于选 项填涂区域进行二值化,然后统计选项区域内点的数量,.若大于某一个 阈值即认为已填涂,否则就是未填涂。这种方式往往对填涂的要求比较 苛刻,如必须将选项区域完全涂满、且笔的颜色灰度必须足够深。这些严格的要求对于标准化考试而言可能是可行的,但对于调查问巻、选票 统计等应用领域就不是很合适。这主要是因为对于调査问巻、选票统计 等的结果与填涂人本身并没有很直接的利益关系,所以填涂时可能不会 严格遵守一些比较苛刻的要求,由于无法对填涂人的填涂方法进行很好 的控制,现有的识别方法不能适用于填涂不标准的情况。
发明内容
为解决现有技术有纹理背景干扰使识别精度低、选项涂点识别不能 适用于填涂不标准的技术问题,本发明的目的是提出了一种新的对图像 灰度、位置偏移等有较强自适应能力、识别精度高的方法,本发明的另 一目的就是针对信息填涂卡上的选项填涂区域的识别问题,提供一个基 于模板匹配的信息填涂卡识别方法。
为了实现所述目的,本发明提供基于模板匹配的信息填涂卡识别方 法的技术方案包括步骤如下
步骤l:利用空白信息卡建立模板图像信息,获得模板信息卡;
步骤2:设置模板信息卡涂点选项的有效填涂阈值;
步骤3:提取待识别模板信息卡涂点模板选项的背景模式定义,分 别调用模板选项不同的背景模式进行涂点识别;
步骤4:若识别涂点结果大于等于设定的阈值,则认为该选项被有 效填涂,否则是无效填涂。
根据本发明的实施例,所述不同背景模式识别为无纹理背景模式的 涂点识别或有纹理背景模式的涂点识别。
根据本发明的实施例,选择所述无纹理背景模式的涂点识别步骤包
括
步骤31a:对填涂卡的当前选项图像与待识别模板信息卡的模板图 像进行二值化,获得二值图像;
步骤31b:统计当前选项图像和模板图像的二值化图像中的涂点数;
步骤31C:根据二值化图像的涂点数进行比较,获得比较差异信息 给出分级的涂点识别结果。
根据本发明的实施例,选择所述有纹理背景模式涂点识别步骤包括
步骤31A:对填涂卡的当前选项图像和模板信息卡的模板图像进行 二值化,并缓存当前选项的原始灰度图像;
步骤31B:对当前选项图像和模板图像基于相似度计算进行配准,
微调当前选项图像的坐标;
步骤31C:提取当前选项图像与模板图像的差分二值图像;
步骤31D:基于该差分二值图像中涂点在原始灰度图像中的灰度强
度的统计给出分级的涂点识别结果。
根据本发明的实施例,所述模板信息包括选项坐标信息、填涂点方 式、原始图像数据。
根据本发明的实施例,所述识别涂点结果根据信度分级输出,由用 户设置该类信息卡的有效阈值,实现人机结合识别。
根据本发明的实施例,对所述信息卡的扫描时的颜色类型为二值图
像或灰度图像或彩色图像;通过对图像颜色类型的判定,调用相应的涂 点识别模式。
本发明的积极效果或优点本发明方法的一个显著特点就是对图像
的灰度类型有很好的自适应能力。纸质信息卡在扫描时可以有不同的灰 度选择模式,即二值、灰度和彩色。本发明在识别方法上应考虑这三种 不同类型的灰度模式有不同的特点,由于本发明采用识别结果分级的方 法,在具体应用中灵活性高,可以根据实际情况选择恰当的识别阈值来 判断是否填涂,进行信息卡的批量识别,从而实现了人机结合,增强系 统对各种模式的适应能力,从而提高整体识别率,更好地满足了实际应 用的需要。本发明对所有选项区域进行定义,获得准确的模板信息。利 用当前图像与模板图像之间的差异性进行识别,解决了纹理背景干扰的 问题。
图1信息填涂卡图像示例
图2是本发明信息卡涂点识别流程图 图3是本发明图像膨胀的结构元素
具体实施例方式
下面结合附图详细说明本发明技术方案中所涉及的各个细节问题。 应指出的是,所描述的实施例仅旨在便于对本发明的理解,而对其不起 任何限定作用。
为了满足各种不同情况的需要,我们将填涂区域识别的结果按可信
度进行分级,即0 — 16,共17级。其中O表示没有填涂,数字越大表示 填涂的信度就越高。由于采用了这种识别结果分级的方法,所以在具体 应用中有很高的灵活性,可以根据实际情况选择恰当的阈值来判断是否 填涂。对于标准化考试而言,我们可以选择比较高的阈值,如识别结果 大于8表示填涂,否则就是未填涂。对于调査问巻等填涂较随意的情况, 我们可以选择较小的阈值,如大于3就表示填涂,否则就是未填涂。鉴 于目前人工智能的发展水平,计算机很难对各种各样复杂情况下的识别 都有很高的精度。而对于信息填涂卡的识别而言,我们希望应该有很高 的精度,特别是对于标准化考试等应用,期望的精度应为100%,否则 难以投入实用。信息填涂卡的类型、格式等有很多,填涂方式也是各种 各样,特别是经过扫描仪扫描后生成的图像在灰度上会存在不一致的情 况。如将同一张信息卡扫描两次,这两次得到的图像的灰度可能不会完 全一致;特别是在不同时间进行扫描,可能会由于扫描仪配置参数的变 化而导致同一张信息卡的多张扫描图像的灰度出现很大的波动。正是基 于以上的一些原因,计算机给出的识别信度结果与人的感觉可能会存在 一定的偏差,但这种偏差是单向的,即对该信息卡模式,要么识别结果 都偏大,要么都偏小。这里我们将人的因素引进来,由人来决定有效的 阈值,从而实现了人机结合,更好地满足了实际应用的需要。在进行自 动识别前,我们需要选择该类信息卡填涂的有效信度阈值。在设置完这 些识别参数后,我们就可以进行信息卡的批量识别了 。
我们将模板信息卡的选项区域根据背景分为两种模式,即无纹理背 景和有纹理背景两类,如图1所示。这两种模式的识别流程如图2所示。 对于选项区域有纹理背景的情况,很容易将纹理背景当作填涂的内容。 如果仅仅基于当前图像的选项信息是无法解决该问题的。我们首先将一个没有填涂的空白信息卡定义为模板卡,对其中的所有选项区域进行手 工定义,从而得到了一个较为准确的模板信息,所述模板信息包括选项 坐标信息、填涂点方式、原始图像数据。利用当前图像与模板图像之间 的差异性来进行识别,从而解决了纹理背景干扰的问题。
下面我们将详细介绍基于模板匹配的信息卡涂点识别的方法。填涂 标准为完全涂满整个选项区域。在进行涂点识别前,我们首先需要建立 空白信息卡图像模板,然后基于当前信息卡图像的定位块或模板图像得 到当前信息卡图像上的需要进行识别的涂点选项区域。我们假定当前信 息卡的一个问题选项图像为U,而对应的模板选项图像为V。假定该问
题的备选项数目为N, U的各个备选项图像为t/p..,,^, V的备选项为
t…,^。由于当前信息卡的选项区域是计算机自动分析出来的,所以与 真实的位置可能会存在一定的微小偏差。而模板信息卡的选项区域是人 工定义的,所以可以认为其选项区域是准确的。
为了便于比较两幅图像的相似度,我们利用以下方法来进行计算。
假定两幅具有同样尺寸大小的图像分别为A和B。函数/7("表示图 像X内的黑点的数量。P为A中的任意一个象素点,Q为B中与P对应 的点。
P与Q的相似度定义为
<formula>formula see original document page 8</formula>其它 (1)
图像A到B的相似度定义为
<formula>formula see original document page 8</formula>(2)
图像B到A的相似度定义为
<formula>formula see original document page 8</formula>
(3)
图像A与B之间的相似度定义为对无纹理背景模式选项的涂点识别过程
步骤31a:对填涂卡的当前选项图像与待识别模板信息卡的模板图
像进行二值化,获得二值图像;
步骤31b:统计当前选项图像和模板图像的二值化图像中的涂点数; 步骤31c:根据二值化图像的涂点数进行比较,获得比较差异信息
给出分级的涂点识别结果。
1、 若图像为非二值的灰度或彩色图像,则对U和V分别利用大津 二值化方法对图像进行二值化,其灰度阈值分别为^和G,,分别得到图 像UB和VB。若图像本身就是二值图像,则用UB和VB分别表示U 和V。
2、 UB中的备选项分别为^,...,^/^。 VB中的备选项分别为
3、 不失一般性,我们仅考虑 ^,的识别过程,这里i=l-N。为了表 述的方便,我们用X表示t/A,用Y表示ra,。
4、 令n(x)表示二值图像x中黑点的数量,Uj的宽度和高度分别为w 和h。则选项Ui的识别结果为
,〃、"(7) ,、
若识别结果小于0,则令其为0。这样识别结果的范围为0 — 1。为 了使输出结果以整数值来进行分级,我们将该结果放大16倍,这样输 出结果为0—16。
对有纹理背景模式选项的涂点识别过程
步骤31A:对填涂卡的当前选项图像和模板信息卡的模板图像进行
二值化,并缓存当前选项的原始灰度图像;步骤31B:对当前选项图像和模板图像基于相似度计算进行配准, 微调当前选项图像的坐标;
步骤31C:提取当前选项图像与模板图像的差分二值图像;
步骤31D:基于该差分二值图像中涂点在原始灰度图像中的灰度强
度的统计给出分级的涂点识别结果。
1、 若图像为非二值的灰度或彩色图像,则对u和v分别利用大津
二值化方法对图像进行二值化,其灰度阈值分别为^和^,分别得到图
像UB和VB。若图像本身就是二值图像,则用UB和VB分别表示U 和V。UB中的备选项分别为^,..."^^8中的备选项分别为rap.,.,ra^。
2、 不失一般性,我们仅考虑L^的识别过程,这里i=l-N。为了表
述的方便,我们用x表示t^,.,用Y表示ra,。
3、 将X的区域向上下左右四个方向分别扩充5个象素点,得到新 图像X'以便进行选项区域的微调。
4、 对X'进行膨胀得到图像PX',膨胀的结构元素如图3所示。
5、 将Y的图像在PX'中进行滑动,对某一个滑动点而言,PX'中就 存在一个与Y对应的子图像,我们用Z来表示。计算各个不同滑动位置 从Y到Z的相似度,以具有最大相似度的滑动位置为匹配点。
6、 根据Z的坐标在图像X'中得到相应的图像W。对W向四个方 向各扩充1个象素点,得到新图像W'。
7、 将Y的图像在W'中滑动,利用与5类似的方法,得到一个最佳 匹配点,并从W,中提取出相应的图像,定义为R。这样我们就得到了经 过微调后的当前信息卡中问题选项的精确图像。该图像与模板进行了较 好的配准。下面将对R与Y进行比较,从而得到识别结果。
8、 将模板图像Y进行膨胀得到新图像PY,膨胀的结构元素如图3 所示。将R与PY进行差分,得到差分图像D。
9、 根据R的坐标,在原始灰度图像U中得到原始的问题选项图像RS。
10、 基于当前选项块区域图像RS和差分图像D,给出识别结果, 具体方法如下
我们定义灰度函数g(x)表示点x的灰度值,A(x)表示点x的灰度强度值,值越大表示灰度越深。如果原始图像u为非二值的灰度或
彩色图像,则
0 洲>&
(6)
洲<《
其中(^为二值化的灰度阈值,C^为能保证可靠填涂的灰度值。^在 第1步图像二值化时就己经得到了,而G^的值为定位块的平均灰度值。 定位块的定义如图l所示。如果缺乏定位块的信息,我们给定一个经验 值为50。
如果原始图像为二值图像,则
[0洲=255 [1g(x) = 0
(7)
假定x为RS中的任意一个点,而x,为D中与x对应的点。则 用/(x)表示点x的加权灰度强度值,则
/0),)"0') (8) 图像RS的灰度强度为
/, = ^/(乂,) (9)
其中n为图像RS中所有点的数: 该选项最终的识别结果为
- /卿
用最深灰度涂满时的图像灰度强度值
1=1
f/为非二值的灰度或彩色图像
f/为二值图像
(10)显然该输出结果的取值范围为0—1。为了使输出结果以整数值 来进行分级,我们将该结果放大16倍,这样输出结果为0—16。
以上所述,仅为本发明中的具体实施方式
,但本发明的保护范围并 不局限于此,任何熟悉该技术的人在本发明所揭露的技术范围内,可理 解想到的变换或替换,都应涵盖在本发明的包含范围之内,因此,本发 明的保护范围应该以权利要求书的保护范围为准。
权利要求
1、基于模板匹配的信息填涂卡识别方法,其特征在于,包括步骤如下步骤1利用空白信息卡建立模板图像信息,获得模板信息卡;步骤2设置模板信息卡涂点选项的有效填涂阈值;步骤3提取待识别模板信息卡涂点模板选项的背景模式定义,分别调用模板选项不同的背景模式进行涂点识别;步骤4若识别涂点结果大于等于设定的阈值,则认为该选项被有效填涂,否则是无效填涂。
2、 根据权利要求1所述的填涂卡识别方法,其特征在于,所述不同 背景模式识别为无纹理背景模式的涂点识别或有纹理背景模式的涂点 识别。
3、 根据权利要求2所述的填涂卡识别方法,其特征在于,选择所 述无纹理背景模式的涂点识别步骤包括步骤31a:对填涂卡的当前选项图像与待识别模板信息卡的模板图像进行二值化,获得二值图像;步骤31b:统计当前选项图像和模板图像的二值化图像中的涂点数; 步骤31C:根据二值化图像的涂点数进行比较,获得比较差异信息给出分级的涂点识别结果。
4、 根据权利要求2所述的填涂卡识别方法,其特征在于,选择所述有纹理背景模式涂点识别步骤包括步骤31A:对填涂卡的当前选项图像和模板信息卡的模板图像进行 二值化,并缓存当前选项的原始灰度图像;步骤31B:对当前选项图像和模板图像基于相似度计算进行配准, 微调当前选项图像的坐标;步骤31C:提取当前选项图像与模板图像的差分二值图像;步骤31D:基于该差分二值图像中涂点在原始灰度图像中的灰度强 度的统计给出分级的涂点识别结果。
5、 根据权利要求1所述的填涂卡识别方法,其特征在于所述模板信息包括选项坐标信息、填涂点方式、原始图像数据。
6、 根据权利要求1所述的填涂卡识别方法,其特征在于所述识别 涂点结果根据信度分级输出,由用户设置该类信息卡的有效阈值,实现 人机结合识别。
7、 根据权利要求1所述的填涂卡识别方法,其特征是对所述信 息卡扫描时的颜色类型为二值图像或灰度图像或彩色图像;通过对图像 颜色类型的判定,调用相应的涂点识别模式。
全文摘要
本发明涉及基于模板匹配的信息填涂卡识别方法,利用空白信息卡建立模板图像信息,获得模板信息卡;设置模板信息卡涂点选项的有效填涂阈值;提取待识别模板信息卡涂点模板选项的背景模式定义,分别调用模板选项不同的背景模式进行涂点识别;若识别涂点结果大于等于设定的阈值,则认为该选项被有效填涂,否则是无效填涂;本发明能适用于不同类型灰度模式的识别,识别结果分级,灵活性高,能提高整体识别率;可批量识别,实现人机结合,更好地满足了实际应用的需要。本发明对所有选项区域进行定义,获得准确的模板信息。利用当前图像与模板图像之间的差异性进行识别,解决了纹理背景干扰的问题。
文档编号G06T5/00GK101414356SQ20071017597
公开日2009年4月22日 申请日期2007年10月17日 优先权日2007年10月17日
发明者勇 夏, 戴汝为, 朱远平, 王春恒, 肖柏华 申请人:中国科学院自动化研究所