图像数据检索方法及图像数据检索装置与流程

文档序号:18414409发布日期:2019-08-13 19:10阅读:154来源:国知局
图像数据检索方法及图像数据检索装置与流程

本发明是有关于一种图像数据检索方法及图像数据检索装置,且特别是有关于一种能加快图像数据识别速度的图像数据检索方法及图像数据检索装置。



背景技术:

光学字符识别(opticalcharacterrecognition,ocr)技术是在识别一个图像中的字符常用的技术。当一个图像中有很多文字数据或数字数据而这些数据又具有不同的格式(例如,字型、颜色、大小)时,要分别识别这些图像中的数据必须花费较长的处理时间。因此,如何在有限的时间及硬件资源下能提高识别速度及识别准确率,是本领域技术人员应致力的目标。



技术实现要素:

有鉴于此,本发明提供一种图像数据检索方法及图像数据检索装置,能够在有限的时间及硬件资源下能提高对一个图像进行光学字符识别的识别速度及识别准确率。

本发明提出一种图像数据检索方法,包括:自通信接口接收包含多个数据的图像;自图像中取得多个感兴趣区域,其中每个感兴趣区域为包括至少一数据的数据图像;将感兴趣区域分成多个群组,其中每个群组的感兴趣区域所包含的至少一数据具有相同的类型;将每个群组的感兴趣区域分别合并成待识别图像;以及分别对每个群组对应的待识别图像进行光学字符识别以获得对应每个群组的感兴趣区域的数据。

在本发明的一实施例中,上述图像数据检索方法更包括:根据每个群组的感兴趣区域及感兴趣区域对应的至少一数据的类型产生配置文件,并根据配置文件来识别后续接收到的另一图像。

在本发明的一实施例中,上述将每个群组的感兴趣区域合并成待识别图像的步骤包括:将每个群组的感兴趣区域垂直排列以合并成待识别图像。

在本发明的一实施例中,每个上述群组的感兴趣区域垂直排列方式为靠右对齐、置中对齐、靠左对齐之其一。

在本发明的一实施例中,上述将感兴趣区域分成群组的步骤包括:根据感兴趣区域的第一感兴趣区域建立上述群组的第一群组;根据设定值将第一感兴趣区域转换成二值化图像;判断二值化图像的清晰度是否大于等于清晰度阈值;以及若二值化图像的清晰度大于等于清晰度阈值,则对二值化图像进行光学字符识别。

在本发明的一实施例中,上述将感兴趣区域分成群组的步骤还包括:若二值化图像的清晰度小于清晰度阈值,则调整设定值并根据调整后的设定值将第一感兴趣区域转换成二值化图像,且判断二值化图像的清晰度是否大于等于清晰度阈值。

在本发明的一实施例中,上述将感兴趣区域分成群组的步骤还包括:若二值化图像的光学字符识别的识别结果不符合对应第一感兴趣区域的预设数据,则调整设定值并根据调整后的设定值将第一感兴趣区域转换成二值化图像。

在本发明的一实施例中,上述类型包括字符串、整数、浮点数、字型、颜色及字体大小的至少其中之一。

在本发明的一实施例中,上述接收图像的步骤包括:通过键盘图像鼠标(keyboardvideoandmouse,kvm)切换器从显示器接收图像。

在本发明的一实施例中,当被识别出的对应每个感兴趣区域的至少一数据符合对应每个感兴趣区域的预设数据,则根据感兴趣区域及上述群组产生配置文件(configurationfile),并根据配置文件对从显示器后续接收的另一图像进行光学字符识别。

本发明提出一种图像数据检索装置,包括处理器;通信接口,耦接到处理器;以及存储器,耦接到处理器并储存一计算机程序。其中处理器可用以执行计算机程序以执行以下步骤:自通信接口接收包含有多个数据的图像;自图像中取得多个感兴趣区域,其中每个感兴趣区域为包括至少一数据的数据图像;将感兴趣区域分成多个群组,其中每个群组的感兴趣区域所包含的至少一数据具有相同的类型;将每个群组的感兴趣区域分别合并成待识别图像;以及分别对每个群组对应的待识别图像进行光学字符识别以获得对应每个群组的感兴趣区域的数据。

在本发明的一实施例中,上述处理器根据每个群组的感兴趣区域及感兴趣区域对应的至少一数据的类型产生配置文件,并根据配置文件来识别后续接收到的另一图像。

在本发明的一实施例中,上述处理器将每个群组的感兴趣区域垂直排列以合并成待识别图像。

在本发明的一实施例中,每个上述群组的感兴趣区域垂直排列方式为靠右对齐、置中对齐、靠左对齐之其一。

在本发明的一实施例中,上述处理器根据感兴趣区域的第一感兴趣区域建立上述群组的第一群组,处理器根据设定值将第一感兴趣区域转换成二值化图像,处理器判断二值化图像的清晰度是否大于等于清晰度阈值,若二值化图像的清晰度大于等于清晰度阈值,则处理器对二值化图像进行光学字符识别。

在本发明的一实施例中,其中若二值化图像的清晰度小于清晰度阈值,则处理器调整设定值并根据调整后的设定值将第一感兴趣区域转换成二值化图像,且判断二值化图像的清晰度是否大于等于清晰度阈值。

在本发明的一实施例中,其中若二值化图像的光学字符识别的识别结果不符合对应第一感兴趣区域的预设数据,则处理器调整设定值并根据调整后的设定值将第一感兴趣区域转换成二值化图像。

在本发明的一实施例中,上述类型包括字符串、整数、浮点数、字型、颜色及字体大小的至少其中之一。

在本发明的一实施例中,上述通信接口通过键盘图像鼠标切换器从显示器接收图像,并将图像传送到处理器。

在本发明的一实施例中,其中当被识别出的对应每个感兴趣区域的数据符合对应每个感兴趣区域的预设数据,则处理器根据感兴趣区域及上述群组产生配置文件,并根据配置文件对从显示器接收的另一图像进行光学字符识别。

在本发明的一实施例中,上述通信接口从图像检索装置接收图像,并将图像传送到处理器。

基于上述,本发明的图像数据检索方法及图像数据检索装置会将一个图像中的多个感兴趣区域分成多个群组,将每个群组中的感兴趣区域垂直排列之后再对每个群组进行光学字符识别,以增加识别速度及识别准确率。当上述图像是从工厂机台的显示器接收时,则可在光学字符识别结果全部正确后储存对应感兴趣区域及上述群组的配置文件,如此在同一机台接收到后续另一图像时就能直接根据配置文件进行光学字符识别以增加识别速度。

为让本发明的上述特征和优点能更明显易懂,下文特举实施例,并配合所附图式作详细说明如下。

附图说明

图1为根据本发明一实施例的图像数据检索装置的方块图。

图2为根据本发明一实施例的图像数据检索方法的流程图。

图3a到图3d为根据本发明一实施例将roi建立群组的范例。

图4为根据本发明一实施例的图像数据检索系统的方块图。

图5为根据本发明一实施例的机台图像的示意图。

图6为根据本发明一实施例的roi群组设定的图形用户界面的示意图。

图7为根据本发明一实施例的roi实时截图的示意图。

图8为根据本发明一实施例的roi识别结果的示意图。

具体实施方式

图1为根据本发明一实施例的图像数据检索装置的方块图。

请参照图1,本发明一实施例的图像数据检索装置100包括处理器110、存储器120及通信接口130。存储器120及通信芯片130耦接到处理器110。图像数据检索装置100可为个人电脑、服务器、平板电脑、智能型手机等电子装置。图像数据检索装置100可通过通信接口130接收图像并由处理器110检索图像中多个感兴趣区域(regionofinterest,roi)的数据图像,并进一步识别出相应的数据。

在一实施例中,处理器110可以是中央处理单元(centralprocessingunit,cpu),或是其他可程序化的一般用途或特殊用途的微处理器(microprocessor)、数字信号处理器(digitalsignalprocessor,dsp)、可程序化控制器、专用集成电路(applicationspecificintegratedcircuit,asic)或其他类似组件或上述组件的组合。

在一实施例中,存储器120可以是任何型态的固定或可移动随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、闪存(flashmemory)、硬盘(harddiskdrive,hdd)、固态硬盘(solidstatedrive,ssd)或类似组件或上述组件的组合。该存储器120可用以储存本发明所提到的数据、配置文件、图像或是计算机程序以供处理器处理或执行。

在一实施例中,通信接口130可为支持全球移动通信(globalsystemformobilecommunication,gsm)、个人手持式电话系统(personalhandy-phonesystem,phs)、码分多址(codedivisionmultipleaccess,cdma)系统、宽带码分多址(widebandcodedivisionmultipleaccess,wcdma)系统、长期演进(longtermevolution,lte)系统、全球互通微波存取(worldwideinteroperabilityformicrowaveaccess,wimax)系统、无线保真(wirelessfidelity,wi-fi)系统或蓝牙等系统的信号传输的无线通信接口。在另一实施例中,通信接口130也可为任何能够提供传输或接收图像数据的有线通信接口,例如通用串行总线(universalserialbus,usb)接口或集成电路间总线(inter-integratedbus,i2cbus)等有线通信接口。本发明并不对通信接口130的种类进行限制。

图2为根据本发明一实施例的图像数据检索方法的流程图,该方法可以储存在存储器120中的计算机程序藉由处理器110执行。

在步骤s201中,处理器110从图像中获得一个roi。具体来说,处理器110会先接收一个图像并从图像中选择一个roi,并获得此roi的标识符(identification,id)、坐标、数据类型等参数。在本实施例中,每个roi都可具有不同的id。当roi是一个长方形区域时,roi的坐标可通过长方形区域的x坐标范围及y坐标范围来表示。roi的数据图像类型可包括字符串、整数、浮点数、字型、颜色及字体大小等。

在步骤s203中,处理器110判断roi是否属于已建立的群组。若roi不属于已建立的群组,在步骤s205中,处理器110建立一个新的群组并设定此新群组的ocr参数。ocr参数可包括群组id、群组语言、二值化阈值、图像缩放比率、是否为全数字以及对应特定字型的字型训练文件等等。

在步骤s207中,处理器110根据设定值将roi转换成二值化图像。具体来说,处理器110可通过灰度模式或屏蔽模式将roi转换成二值化图像。在灰度模式中,设定值可包括0到255的阈值及门坎边界,以及缩放比例(例如,1到4)等参数。而在屏蔽模式中,设定值可包括(0,0,0)到(255,255,255)的屏蔽rgb值及屏蔽rgb边界,以及缩放比例(例如,1到4)等参数。

在步骤s209中,处理器110判断二值化图像的清晰度是否大于等于清晰度阈值。若二值化图像的清晰度小于清晰度阈值,则回到步骤s207调整设定值并根据调整后的设定值将roi转换成二值化图像。若二值化图像的清晰度大于等于清晰度阈值,则在步骤s211中进行ocr操作,也就是对二值化图像进行光学字符识别,以检索二值化图像中的文字或数字。

在步骤s213中,处理器110判断ocr结果是否正确。具体来说,处理器会判断二值化图像的ocr识别结果是否符合对应选出的roi预设数据,若二值化图像的ocr识别结果符合对应选出的roi预设数据则ocr结果正确,反之则ocr结果不正确。

若ocr结果不正确,则回到步骤s207调整设定值并根据调整后的设定值将roi转换成二值化图像。

若ocr结果正确,在步骤s215中,处理器110判断图像中是否有其他roi尚未加入群组。若图像中还有其他roi尚未加入群组,则回到步骤s201从图像中获得另一个roi。

若图像中没有其他roi尚未加入群组,在步骤s217中,处理器110根据建立的群组及群组中roi的数据建立对应此图像的配置文件。

在步骤s203中,若roi属于已建立的群组,则在步骤s219中,处理器110将roi加入其中一个已建立的群组。接着在步骤s221中,处理器110判断图像中是否还有其他roi尚未加入群组。若图像中还有其他roi尚未加入群组,则回到步骤s201从图像中获得另一个roi。若图像中没有其他roi尚未加入群组,则在步骤s211中,进行ocr操作。

因此,处理器110可在图像中选择一个roi并获得roi的数据图像类型,将此roi加入已经建立好的群组或以此roi建立一个新的群组,并针对新建的群组设定图像转换设定值及ocr参数。处理器110会重复上述步骤直到图像中的所有roi都加入群组。接着处理器110会对每个群组进行ocr并调整图像转换设定值,直到每个群组中的所有roi包含的数据都能正确识别。最后处理器110根据建立的群组及群组中roi的数据建立对应此图像的配置文件。当无法藉由调整图像转换设定值而使群组中的特定roi能正确识别时,则处理器110可将此roi从群组中移除并单独建立一个新的群组。

图3a到图3d为根据本发明一实施例将roi建立群组的范例。

在图3a中,具有同一数据类型“fontsa”(指同一种a字型)的所有数字数据图像被分到同一个群组。在图3b中,具有同一数据类型“fontsb”(指同一种b字型)的所有数字数据图像被分到同一个群组。在图3c中,有关分别属于整数、浮点数及字符串数据类型的各数据图像则分别被分到“integer”、“float”、“string”等不同群组,而图3d则是显示了所有roi并未分群组的范例。值得注意的是,处理器110会将每个群组的roi进行垂直排列,并对垂直排列后的roi进行ocr,以获得更高的识别率。其中同一群组中roi的垂直排列的方式可以是靠右对齐、置中对齐、靠左对齐、等各种对齐方式,但在其它实施例中,亦可不进行以上对齐方式而仅在垂直排列方向上随机摆置。

更详细来说,在处理器110从通信接口130接收图像后,处理器110会对图像中包含数据的部分或所有感兴趣区域,根据数据的类型进行分组。包含不同数据类型的不同感兴趣区域会被分到不同群组。例如,包含不同字型的数据的不同感兴趣区域会被分到不同群组,或是包含整数、浮点数、字符串等不同数据类型的感兴趣区域会被分到不同群组。在将不同数据类型的感兴趣区域分到不同群组后,处理器110会将每个群组的所有感兴趣区域的数据图像(例如,包含所有整数数据的数据图像)合并成一个待识别图像,再对各群组的待识别图像进行光学字符识别以获得其中的所有数据。

举例来说,图3a的“fontsa”下方的待识别图像是由17个感兴趣区域的数据图像合并而成,其中每个感兴趣区域都包含了相同粗字体的数据(45、45、44、…、150)。同理而言,图3b的“fontsb”下方的待识别图像是由17个感兴趣区域的数据图像合并而成,其中每个感兴趣区域都包含了相同细字体的数据(7.0、7.0、120、…、-1.000)。图3c则是分别包含了整数、浮点数及字符串等不同数据类型的数个待识别图像。

图4为根据本发明一实施例的图像数据检索系统的方块图。

本发明一实施例的图像数据检索系统400包括机台410、键盘图像鼠标(kvm)切换器420、电子装置430及云端服务器440。电子装置430与图1实施例中的图像数据检索装置100可具有相同或类似的架构,也就是说电子装置430能藉由其通信接口从kvm切换器420接收机台410的数据图像并由其处理器对接收到的数据图像进行识别。kvm切换器420可通过有线或无线网络耦接到电子装置430。kvm切换器420可外接键盘421及鼠标422用来对机台410进行操作。虽然在本实施例中显示一个电子装置430耦接到一个kvm切换器420及一个机台410,但本发明并不以为限。在另一实施例中,一个电子装置430也可耦接到多个kvm切换器420并通过每个kvm切换器420分别耦接到一个机台410。在另一实施例中,一个kvm切换器420也通过多个端口(port)耦接到多个机台410。在另一实施例中,也可由多个电子装置430分别耦接到多个kvm切换器420及多个机台410,且多个电子装置430耦接到云端服务器440。在另一实施例中,机台410也可不通过kvm切换器420而直接通过有线或无线网络耦接到电子装置430。本发明并不限制图像数据检索系统400的详细实作方式。

在本实施例中,机台410可以指的是工厂中用于控制及/或监控生产制造或测试设备的机器,并可将生产制造或测试的相关数据显示在其显示器上,因此从机台410的显示器所输出的图像中具有多个生产或测试数据,电子装置430可通过kvm切换器420从机台410获得与其显示器的图像相同的图像,并且对图像的roi进行ocr以获得图像中的部分或所有数据,再将获得的数据传送到云端服务器440。如此一来,云端服务器440就能获得一到多个机台410的数据并对这些数据进行分析。

图5为根据本发明一实施例的机台图像的示意图。

请参照图5,在图5的图像中以斜线表示的roi的数据的字体颜色都相同,且也都属于整数。因此电子装置430会将所有以斜线表示的roi分类到同一个群组,并将每个roi设定一个id(例如,8、9、…、40、41),再将所有roi垂直排列后进行ocr,如此可增加ocr识别率及识别速度。

虽然在本实施例中说明了对接收的机台图像的roi进行分群并进行识别,但本发明并不对接收图像的来源进行限制。在另一实施例中,接收的图像也可以是任意外部摄影机或各式图像检索装置所录制的画面。

图6为根据本发明一实施例的roi群组设定的图形用户接口的示意图。图7为根据本发明一实施例的roi实时截图的示意图。图8为根据本发明一实施例的roi识别结果的示意图。

请参照图6,用户可在电子装置430上操作图形用户接口(graphicuserinterface,gui)以完成roi群组的设定。在一实施例中,当用户可通过鼠标框选一个roi时,在gui上就可显示出框选的roi的x坐标范围606及y坐标范围607,同时gui也可显示roi对应的来源图像文件名601。使用者可选择roi的群组602并输入roi的标签603及预设数据604。此外,使用者还可选择roi的类型605及缩放比例608。通过roi及群组的设定,gui还可实时呈现roi截图,如图7所示。此外,gui也可显示已储存的roi设定609。

当用户完成机台图像上的所有roi设定时,就可利用gui对机台图像进行ocr以确认ocr的识别结果是否与预设数据604相符,如图8所示。若机台图像的所有roi的ocr的识别结果都与预设数据604相符,则用户可将所有roi及群组信息储存为一个配置文件。由于一个机台410输出的图像格式相同,且图像中的数据也都会在相同的位置上显示,因此电子装置430可通过配置文件来快速检索机台410输出的图像中的所有数据。在本实施例中,在没将roi分类的情况下对机台图像进行ocr可能会耗费数十秒的时间,而通过配置文件对分类后的roi进行ocr则仅需一秒的时间,因此能实时检索机台图像数据并将检索的数据传送到云端服务器440。

综上所述,本发明的图像数据检索方法及图像数据检索装置会将一个图像中的多个感兴趣区域分成多个群组,将每个群组中的感兴趣区域垂直排列之后再对每个群组进行光学字符识别,以增加识别速度及识别准确率。当上述图像是从机台接收时,则可在光学字符识别结果全部正确后储存对应感兴趣区域及上述群组的配置文件,如此在同一机台接收到另一图像时就能直接根据配置文件进行光学字符识别以增加识别速度。

虽然本发明已以实施例揭露如上,然其并非用以限定本发明,任何所属技术领域中具有通常知识者,在不脱离本发明的精神和范围内,当可作些许的更动与润饰,故本发明的保护范围当视后附的权利要求所界定者为准。

【符号说明】

100:图像数据检索装置

110:处理器

120:存储器

130:通信接口

s201、s203、s205、s207、s209、s211、s213、s215、s217、s219、s221:图像数据检索方法的步骤

400:图像数据检索系统

410:机台

420:kvm切换器

421:键盘

422:鼠标

430:电子装置

440:云端服务器

601:来源图像文件名

602:群组

603:标签

604:预设数据

605:类型

606:x坐标范围

607:y坐标范围

608:缩放比例

609:已储存的roi设定

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1