图像检测方法及装置与流程

文档序号：28159090发布日期：2021-12-24 18:12阅读：95来源：国知局

1.本发明涉及图像处理领域，更具体地说，涉及一种图像检测的方法及装置。

背景技术：

2.随着城市管理精细化程度越来越高，对道路交通数据的获取和分析量也越来越大。在电子地图制作中，对高度还原实际道路情况的要求越来越高。例如，道路有几条车道，道路的哪些位置设置有道路标志牌等信息，都是电子地图中需要加入的内容。
3.目前，道路标志牌的图像采集主要还是依赖于流动采集车的图像回传。由于采集设备、道路环境、车辆速度、天气等限制原因，回传回来的交通数据中通常包含大量的低质量模糊看不清的图片。这些模糊不清的图片对识别包括文字信息的道路标志牌并没有意义，在后期的数据分析时反而会造成大量的冗余，影响数据分析的效率。
4.标志牌图像的处理流程包括前期的自动化识别与后期的人工作业环节。模糊不清的图片在当前自动化环节中没有能力去判断，会流入到人工作业环节，大大地降低了人工作业的有效率。现有技术中存在对模糊图片进行自动识别的方式，但是识别率较低，识别准确度不高，会对后期的数据分析产生不好的影响。
5.因此，需要一种图像检测方法，通过有效的模糊检测算法，自动化的筛选出模糊不清的图片，降低人工环节无效作业的比例，提高识别的效率和准确度。

技术实现要素：

6.有鉴于此，本发明的目的在于提供一种图像检测方法及装置，用于解决需要对道路采集设备采集的模糊图片进行人工筛选剔除的问题，自动剔除模糊图片，降低人工环节无效作业的比例，提高识别的效率和准确度。
7.为了解决上述技术问题，现提出的方案如下：
8.一种图像检测方法，包括：
9.获取图像中的文字区域；
10.识别所述文字区域以获取单字和文本行序列；
11.匹配所述单字和所述文本行序列得到文字错误率；
12.将所述文字错误率与预设的阈值相比较，判断所述图像是否为模糊图像。
13.优选的，所述匹配所述单字和所述文本行序列得到文字错误率，具体包括：
14.将识别出的单字分别与所述文本行序列中对应位置的文字对比，如果不一致则匹配错误，得到匹配错误的所述单字的数量；
15.根据所述匹配错误的单字数量以及所述文本行序列的总字数，计算所述文字错误率。
16.优选的，所述单字至少包括：第一单字和第二单字，所述文本行序列至少包括：第一文本行序列和第二文本行序列，所述识别所述文字区域以获取单字和文本行序列，具体包括：
17.识别所述文字区域获取第一单字和第一文本行序列；
18.对所述文字区域进行图像增强；
19.识别所述增强后的文字区域获取第二单字和第二文本行序列。
20.优选的，所述匹配所述单字和所述文本行序列得到文字错误率，具体包括：
21.对比所述第一单字和所述第一文本行序列，得到第一错误率；
22.对比所述第一单字和所述第二文本行序列，得到第二错误率；
23.对比所述第二单字和所述第一文本行序列，得到第三错误率；
24.对比所述第二单字和所述第二文本行序列，得到第四错误率；
25.从所述第一错误率、所述第二错误率、所述第三错误率以及所述第四错误率中选择数值最低的作为所述文字错误率。
26.优选的，所述将所述文字错误率与预设的阈值相比较，判断所述图像是否为模糊图像，具体包括：
27.比较所述文字错误率与预设的阈值，若所述文字错误率超过所述阈值，则判断所述图像为模糊图像。
28.一种图像检测装置，包括：
29.图像采集单元，用于获取图像中的文字区域；
30.图像识别单元，用于识别所述文字区域以获取单字和文本行序列；
31.图像匹配单元，用于匹配所述单字和所述文本行序列得到文字错误率；
32.图像检测单元，用于将所述文字错误率与预设的阈值相比较，判断所述图像是否为模糊图像。
33.优选的，所述图像匹配单元，具体包括：
34.文字匹配模块，用于将识别出的单字分别与所述文本行序列中对应位置的文字对比，如果不一致则匹配错误，得到匹配错误的所述单字的数量；
35.错误率计算模块，用于根据所述匹配错误的单字数量以及所述文本行序列的总字数，计算所述文字错误率。
36.优选的，所述单字至少包括：第一单字和第二单字，所述文本行序列至少包括：第一文本行序列和第二文本行序列，所述图像识别模块，具体包括：
37.第一识别模块，用于识别所述文字区域获取第一单字和第一文本行序列；
38.图像增强模块，用于对所述文字区域进行图像增强；
39.第二识别模块，用于识别所述增强后的文字区域获取第二单字和第二文本行序列。
40.优选的，所述图像匹配单元，具体包括：
41.第一匹配模块，用于对比所述第一单字和所述第一文本行序列，得到第一错误率；
42.第二匹配模块，用于对比所述第一单字和所述第二文本行序列，得到第二错误率；
43.第三匹配模块，用于对比所述第二单字和所述第一文本行序列，得到第三错误率；
44.第四匹配模块，用于对比所述第二单字和所述第二文本行序列，得到第四错误率；
45.匹配选择模块，用于从所述第一错误率、所述第二错误率、所述第三错误率以及所述第四错误率中选择数值最低的作为所述文字错误率。
46.优选的，所述图像检测单元，具体包括：
47.比较所述文字错误率与预设的阈值，若所述文字错误率超过所述阈值，则判断所述图像为模糊图像。
48.一种图像检测装置，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，其中，所述处理器执行所述计算机程序时实现图像检测的方法步骤。
49.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其中，所述计算机程序被处理器执行时实现图像检测的方法步骤。
50.从上述的技术方案可以看出，本技术实施例提供的图像检测方法，通过获取图像中的文字区域，识别文字区域以获取单字和文本行序列，匹配单字和文本行序列得到文字错误率，将文字错误率与预设的阈值相比较，判断图像是否为模糊图像，解决了道路摄像装置回传图片需要人工剔除模糊图片的问题，提升了模糊图片的筛选识别率，实现了模糊图片的自动化剔除，有效的节省了人力和时间成本。
51.同时，本技术实施例提供的图像检测方法，也可以用于智慧交通场景例如智慧停车场，道路etc等场景中车牌的识别，获取摄像装置采集的多帧的车辆牌照图像后，通过上述的技术方案，自动剔除模糊图像保留清晰图像，提高车牌识别的效率和准确度。
附图说明
52.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。
53.图1是本发明的图像检测方法的流程图之一。
54.图2是本发明的图像检测方法的流程图之二。
55.图3是本发明的图像检测方法的识别文字区域获取第一单字和第一文本行序列的流程图。
56.图4是本发明的图像检测方法的匹配单字和文本行序列得到文字错误率的流程图。
57.图5是本发明的图像检测装置的结构示意图之一。
58.图6是本发明的图像检测装置的图像识别单元的结构示意图。
59.图7是本发明的图像检测装置的图像匹配单元的结构示意图之一。
60.图8是本发明的图像检测装置的图像匹配单元的结构示意图之二。
61.图9本发明的图像检测装置的结构示意图之二。
具体实施方式
62.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
63.本发明提供的图像检测的方法适用于图像检测领域，具体适用于针对道路摄像装
置获取的交通图像的识别和检测，用于获取车牌、路标等标志牌图像的具体信息。
64.电子地图(英语：electronic map)，即数字地图，是利用计算机技术，以数字方式存储和查阅的地图。电子地图储存资讯的方法，一般使用向量式图像储存，地图比例可放大、缩小或旋转而不影响显示效果。
65.ocr(optical character recognition，光学字符识别)，是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即针对印刷体字符，采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件，并通过识别软件将图像中的文字转换成文本格式，供文字处理软件进一步编辑加工的技术。如何除错或利用辅助信息提高识别正确率，是ocr最重要的课题。衡量一个ocr系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。
66.一个完整的ocr的流程，从图像输入到结果输出，须经过图像输入、图像预处理、文字特征抽取、比对识别、最后经人工校正将认错的文字更正，将结果输出。其中，图像预处理包括二值化，噪声去除，倾斜较正等。
67.图像超分技术：一种计算机视觉技术，通过算法将图像放大，还原出更多细节。图像超分(插值方法)包括最近邻算法、双线性算法，以及双三次插值算法。
68.图像增强：通过一定手段对原图像附加一些信息或变换数据，有选择地突出图像中感兴趣的特征或者抑制(掩盖)图像中某些不需要的特征，使图像与视觉响应特性相匹配。在图像增强过程中，不分析图像降质的原因，处理后的图像不一定逼近原始图像。图像增强技术根据增强处理过程所在的空间不同，可分为基于空域的算法和基于频域的算法两大类。
69.如图1和图2所示，本发明提供的一种图像检测的方法，具体包括：
70.步骤101，获取图像中的文字区域。
71.交通数据的采集来源多种多样，包括从道路摄像头、gps装置、线圈等交通传感器中采集视频监控数据、环路微波数据、道路交叉口数据、浮动车gps数据、公交流量数据、地铁流量数据等。
72.其中，视频和图像数据是交通数据最主要的形式。在从采集装置接收到具有标志牌或者车牌的图像或视频时，通常需要识别分析出图像中的标志牌或者车牌的信息(视频需要进行抽帧获取帧图像)。因此，本步骤中，图像检测装置对获取的具有标志牌或车牌的图像进行图像分割，获取图像中的文字区域图像。
73.步骤102，识别文字区域以获取单字和文本行序列。
74.第一实施例：如图3所示，步骤102包括：
75.步骤201，识别文字区域获取第一单字和第一文本行序列。
76.通过ocr检测算法，提取图像文字区域上的所有ocr识别出的内容，对上述内容进行单字与文本行序列识别，获取单字、文本行序列等第一文本信息。
77.第二实施例：执行完步骤201后，还包括：
78.步骤202，对文字区域进行图像增强；
79.步骤203，识别增强后的文字区域获取第二单字和第二文本行序列。
80.单字至少包括：第一单字和第二单字，文本行序列至少包括：第一文本行序列和第
二文本行序列。
81.当然，为了能够更加准确的识别文本信息，可以继续进行第3次以及第4次的ocr识别操作。
82.此步骤中，对文字区域图像进行图像增强，核心在于如何对低质量的图像进行超分增强。当前的常用的图像增强算法，例如直方图均衡化图像增强算法、指数图像增强算法、拉普拉斯算子图像增强算法等针对模糊图像的超分放大效果不理想，经常会导致恢复不出来更多信息，反而生成一些噪声进一步降低图像质量。本发明采用全盲去模糊神经网络算法，通过精细化的提取ocr部分，模拟真实场景的噪声以及模糊，达到生成的图像训练数据与真实世界的模糊图像一致，进而提升模型对模糊图像的超分增强能力。
83.步骤103，匹配单字和文本行序列得到文字错误率。
84.第一实施例：
85.具体来说，根据文字区域中识别出的单字和文本行序列信息，将每一个识别出的单字分别与文本行序列中对应位置的单字进行对比，如果两个字不是同一个字，则说明匹配错误，最后得到匹配错误的单字的数量。
86.根据匹配错误的单字数量以及文本行序列的总字数，计算文字错误率。
87.例如，识别的文本行序列是
″
我们的哥
″
，识别的单字是
″
我
″
、
″
门
″
、
″
的
″
、
″
歌
″
，将单字
″
我
″
与文本行序列中的
″
我
″
对比，将单字
″
门
″
和文本行序列中的
″
们
″
对比，两者不一致的就是匹配错误的，这个文本行序列中匹配错误的单字是2个，文本行序列总字数是4个，文字错误率是2/4＝50％。
88.第二实施例：
89.如图4所示，具体包括：
90.步骤301，将图像增强前的每一个第一单字和图像增强前的第一文本行序列分别进行对比，得到第一错误率。
91.步骤302，将图像增强前的每一个第一单字和图像增强后的第二文本行序列分别进行对比，得到第二错误率。
92.步骤303，将图像增强后的每一个第二单字和图像增强前的第一文本行序列分别进行对比，得到第三错误率。
93.步骤304，将图像增强后的每一个第二单字和图像增强后的第二文本行序列分别进行对比，得到第四错误率。
94.步骤305，基于上述四组交叉对比的结果，从第一错误率、第二错误率、第三错误率以及第四错误率中选择错误率最低的一组比对结果，其错误率作为最终确定的文字错误率。
95.第三实施例：
96.将图像增强前的每一个第一单字和图像增强后的每一个第二单字分别进行对比，得到单字错误率。和/或，
97.将图像增强前的第一文本行序列和图像增强后的第二文本行序列进行对比，得到文本行序列错误率。
98.将单字错误率和/或文本行序列错误率作为最终确定的文字错误率。
99.这种方式分别进行单字匹配或文本行序列匹配，也能够有效的进行图像是否模糊
的判断。
100.当然，如果继续进行第3次以及第4次的ocr识别操作之后，可以交叉识别多次图像增强前后的单字和文本行序列，获取多组匹配错误率，选择数值最低的错误率作为最终的文字错误率。
101.步骤104，将文字错误率与预设的阈值相比较，判断图像是否为模糊图像。
102.第一实施方式：
103.基于对原始文字区域识别获取的单字和文本行序列，判断文字区域是否模糊。具体来说，将文字错误率与预先设定一个错误率阈值相比较，若匹配率不高于阈值则认为文字图像清楚，如错误率高于阈值则认为文字图像模糊。也可以使用其他通用的方法来进行判断。
104.第二实施方式：
105.从多组交叉对比的结果中获取多个错误率，若任意一个错误率均不高于错误率阈值，则认为文字图像清楚。或者，从多个错误率中选择数值最低的错误率与错误率阈值相比较，若不高于错误率阈值，则认为文字图像清楚。
106.第三实施方式：
107.获取单字错误率和/或文本行序列错误率，若任意一个错误率均不高于错误率阈值，则认为文字图像清楚。或者，从单字错误率或文本行序列错误率中数值最低的错误率与错误率阈值相比较，若不高于错误率阈值，则认为文字图像清楚。
108.在不同的应用场景下，对于模糊图像的容忍度是可以是不同的，不同的容忍度是通过设置不同的预设错误率阈值来实现的。例如，在智慧停车场对车牌进行识别时，由于拍摄距离和角度都较好，同时需要准确确定车牌号码，所以对模糊图像的容忍度较低，通常设置较低的错误率阈值，比如10％的错误比例。在对道路上的标志牌进行识别时，由于拍摄距离、拍摄稳定性等条件不确定，同时，标志牌还可以通过辨识标志图案来识别，所以对模糊图像的容忍度较高，通常设置较高的错误率阈值，比如20％的错误比例。这样能够根据不同的场景，提高图像识别的准确性和效率。
109.一幅标志牌或车牌图像中可以仅包括一个文字区域图像，也可以分割为多个文字区域图像。基于对图像中的一个或者多个文字区域图像是否模糊的判断，进而判断标志牌图像是否为模糊图像。例如，如果图像中任意一个文字图像模糊，则认定整个标志牌图像模糊。或者，图像中只要存在清楚的文字图像，就认为整个图像是清楚的。
110.认定标志牌图像模糊后，将模糊判断结果传送至作业员。同时可以将该图像剔除，在后期数据分析处理时不再使用。
111.本发明的技术方案采用了facebook设计的pytorch深度学习开源框架。采取的模糊检测方案，准确率与人工判断持平，大大的减少人工无效作业的比例。
112.基于本发明前文提供的一种图像检测方法的相同构思，本发明还提供一种图像检测装置，如图5所示，该装置包括：图像采集单元100、图像识别单元200、图像匹配单元300以及图像检测单元400。
113.图像采集单元100，用于获取图像中的文字区域。
114.图像识别单元200，用于识别文字区域以获取单字和文本行序列。
115.图像匹配单元300，用于匹配单字和文本行序列得到文字错误率。
116.图像检测单元400，用于将文字错误率与预设的阈值相比较，判断图像是否为模糊图像。
117.其中，如图6所示，图像识别单元200具体包括：
118.第一识别模块2001，用于识别文字区域获取第一单字和第一文本行序列。
119.图像增强模块2002，用于对文字区域进行图像增强。
120.第二识别模块2003，用于识别增强后的文字区域获取第二单字和第二文本行序列。
121.其中，如图7所示，图像匹配单元300具体包括：
122.文字匹配模块3011，用于将识别出的单字分别与文本行序列中对应位置的文字对比，如果不一致则匹配错误，得到匹配错误的单字的数量。
123.错误率计算模块3012，用于根据匹配错误的单字数量以及文本行序列的总字数，计算文字错误率。
124.或者，如图8所示，图像匹配单元300具体包括：
125.第一匹配模块3021，用于对比第一单字和第一文本行序列，得到第一错误率。
126.第二匹配模块3022，用于对比第一单字和第二文本行序列，得到第二错误率。
127.第三匹配模块3023，用于对比第二单字和第一文本行序列，得到第三错误率。
128.第四匹配模块3024，用于对比第二单字和第二文本行序列，得到第四错误率。
129.匹配选择模块3025，用于从第一错误率、第二错误率、第三错误率以及第四错误率中选择数值最低的作为文字错误率。
130.基于本发明前文提供的一种图像检测方法的相同构思，本发明还提供一种图像检测的装置，如图9所示，该装置包括：存储器101、处理器102以及存储在所述存储器中并可在处理器102上运行的计算机程序。处理器102执行计算机程序时实现图像检测的方法步骤。
131.最后，还需要说明的是，在本文中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。术语
″
包括
″
、
″
包含
″
或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句
″
包括一个......
″
限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
132.本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于装置类实施例而言，由于其与方法实施例基本相似，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。
133.本技术是参照根据本技术实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
134.这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
135.这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
136.对所公开的实施例的上述说明，使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下，在其它实施例中实现。因此，本技术将不会被限制于本文所示的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
137.附图中的流程图和框图显示了根据本发明的多个实施例的方法、装置和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图和框图中的每个方框可以代表一个模块、程序段或代码的一部分，包含一个或多个用于实现逻辑功能的计算机可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。也要注意的是，框图和流程图中的每个方框或方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：金美光;刘昕冉;王腾辉
技术所有人：阿里巴巴集团控股有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。