信息处理设备、信息处理设备的控制方法和存储介质与流程

文档序号：11476063阅读：214来源：国知局

本发明涉及信息处理设备、信息处理设备的控制方法和存储介质。

背景技术：

近年来，具有照相机的移动终端已经普及。在现有技术中，用户已经使用扫描器等来对纸质文档进行电子拍摄，而如今能够通过使用移动终端的照相机等来简单地对纸质文档进行电子拍摄。日本特开2011-008802公开了用于对通过使用照相机所拍摄的图像进行ocr的技术。

技术实现要素：

为了使用ocr所识别出的文本信息，ocr精度是非常重要的。然而，存在如下可能性：与接近对象时所拍摄的商业名片或驾驶执照的ocr精度相比，诸如a4或a3等的相对大尺寸的纸质文档的ocr精度可能降低。更具体地，除了相对于对象的距离远所引起的所要识别的文本中的各单个字符的分辨率降低之外，在对图像细节进行聚焦时还可能发生模糊。因此，即使在诸如a4或a3等的相对大尺寸的纸质文档中，也必须在接近对象的文本区域时拍摄图像，以提高ocr精度。利用提高了的ocr精度，可以通过在拍摄了纸质文档的整体图像之后，在接近要使用的文本区域时拍摄图像，来获取纸质文档的整体图像和具有良好精度的文本信息。

本发明提供在接近纸质文档时拍摄图像的情况下能够快速地找到所需的文本区域的信息处理设备。

本发明的一种信息处理设备，其特征在于，包括：提取单元，用于提取整体图像的特征量和局部图像的特征量；决定单元，用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置；接收单元，用于接收对所述局部图像中所包括的对象的选择；以及转换单元，用于基于所决定的所述局部图像在所述整体图像中的位置，来将所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。

本发明的一种信息处理设备的控制方法，所述控制方法的特征在于包括以下步骤：提取步骤，用于提取整体图像的特征量和局部图像的特征量；决定步骤，用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置；接收步骤，用于接收对所述局部图像中所包括的对象的选择；以及转换步骤，用于基于所决定的所述局部图像在所述整体图像中的位置，来将所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。

本发明的一种非瞬态存储介质，其存储使计算机执行信息处理设备的控制方法的计算机程序，其特征在于，所述控制方法包括：提取步骤，用于提取整体图像的特征量和局部图像的特征量；决定步骤，用于基于所述整体图像的特征量和所述局部图像的特征量来决定所述局部图像在所述整体图像中的位置；接收步骤，用于接收对所述局部图像中所包括的对象的选择；以及转换步骤，用于基于所决定的所述局部图像在所述整体图像中的位置，来将所述局部图像中的所选择的对象的坐标转换成所述整体图像中的坐标。

根据本发明，可以提供在通过接近纸质文档来拍摄图像的情况下能够找到所需的文本区域的信息处理设备。

通过以下(参考附图)对典型实施例的说明，本发明的其它特征将变得明显。

附图说明

图1是示出移动终端的外观的示例的图。

图2是示出移动终端的硬件结构的示例的图。

图3是示出移动终端的软件结构的示例的图。

图4是示出移动应用程序的ui的示例的图。

图5是示出整体图像和局部图像的示例的图。

图6a和6b是示出图像分类处理的示例的图。

图7是示出坐标处理的示例的图。

图8是示出坐标管理表的数据结构和所保持的坐标信息的图。

图9是示出预设处理流程的图。

图10是示出基本流程的图。

图11是示出图10的步骤s1005中的处理的详情的图。

图12是示出移动应用程序的ui的示例的图。

具体实施方式

以下将参考附图等来描述用于执行本发明的最佳实施例。

外观

将描述移动终端作为根据本实施例的信息处理设备的示例。移动终端是移动便携式终端的示例，并且是使用具有无线通信功能的装置而能够在任何位置使用的终端。图1是示出移动终端的外观的示例的图。移动终端100被配置成包括各个类型的单元(移动终端正面单元101～照相机104)。移动终端100的正面侧是移动终端正面单元101。触摸面板102是诸如显示器等的显示单元的示例，并且具有输出(显示)和输入两个功能。另外，移动终端100的背面侧是移动终端背面单元103。移动终端背面单元103包括用于拍摄图像的照相机104。在本实施例中，移动终端100的用户可以在以下要描述的移动应用程序中通过拍摄被摄体105的图像来开始处理。在本实施例中，被摄体105是作为a4尺寸的纸质文档的订货单。被摄体105不仅仅局限于纸质文档，并且还可以包括例如商业名片、照片和白板等。此外，以下要描述的移动应用程序使得能够拍摄被摄体105的图像并且将该图像输出(显示)至触摸面板102。

硬件结构

图2是示出移动终端100的硬件结构的示例的图。移动终端100被配置成包括各个类型的单元(cpu201～总线207)。中央处理单元(cpu)201是用于执行各个类型的程序并且实现各种功能的单元。随机存取存储器(ram)202是用于存储各个类型的信息的单元。另外，ram202是还被用作cpu201的临时工作存储区域的单元。只读存储器(rom)203是用于存储各个类型的程序等的单元。例如，cpu201将rom203中所存储的程序加载在ram202上并且执行该程序。

另外，cpu201执行基于诸如闪速存储器、硬盘驱动器(hdd)或固态硬件(ssd)等的外部存储装置中所存储的程序的处理。因此，实现以下要描述的如图3所示的构成移动终端100的软件结构和以下要描述的序列的各步骤中的处理。还可以使用专用硬件来实现与以下要描述的序列有关的处理的全部或一部分以及移动终端100的功能。输入/输出接口204相对于触摸面板102发送或接收数据。网络接口卡(nic)205是用于将移动终端100连接至网络(未示出)的单元。照相机单元206连接至照相机104，并且拍摄移动终端100中的被摄体105的图像。上述的单元各自被配置成能够经由总线207来发送和接收数据。

软件结构(移动终端)

将描述移动终端100中的软件的结构。图3是示出移动终端100的软件结构的示例的图。用于实现图3所示的各软件(应用程序)中的功能(模块单元)的程序存储在各装置的rom203等中。移动终端100的操作系统(os)(未示出)具有数据管理单元301。数据管理单元301管理图像或应用程序数据。os提供用来使用数据管理单元301的控制用应用程序编程接口(api)。各应用程序通过使用控制用api来获取或保存数据管理单元301所管理的图像或应用程序数据。

移动应用程序302是可以通过使用移动终端100的os的安装功能(例如，applestore和googlepay等)进行下载和安装来执行的应用程序。移动应用程序302对经由照相机单元206所拍摄的被摄体105的图像进行各个类型的数据处理。

主控制单元303控制应用程序(移动应用程序)302，并且进行针对各模块单元(主控制单元303～图像特征量提取单元312)的指示和管理。信息显示单元304根据来自主控制单元303的指示，向用户提供移动应用程序302的用户界面(ui)。操作信息获取单元305获取与信息显示单元304所显示的移动应用程序302的ui的用户操作有关的信息，并且向主控制单元303通知所获取到的信息。例如，如果用户利用手来触摸以下要描述的图4所示的显示操作区域401，则操作信息获取单元305检测与在画面上的触摸位置有关的信息，并且将所检测到的与位置有关的信息发送至主控制单元303。

图像分析单元306对经由照相机单元206所获取到的照相机输入图像进行分析，并且生成布局信息。该布局信息包括从图像提取出的矩形区域和该矩形区域的类型(字符、图形、线和表等)。另外，图像分析单元306针对照相机输入图像进行纸张检测处理和失真校正处理。ocr单元307针对图像分析单元306所提取出的矩形区域进行光学字符识别(ocr)处理。图像分类单元308进行学习处理，以创建分类处理中所使用的分类器。此外，图像分类单元308使用该分类器来进行分类处理，并且对照相机输入图像进行分类。

存储单元309保存用户经由操作信息获取单元305(即，经由移动应用程序302的ui)所输入的设置值(使设置值存留)。db单元310具有数据库功能，并且管理用户所选择的矩形区域的坐标信息、图像的特征量和分类器等。另外，db单元310的数据保存在存储单元309中。坐标处理单元311进行将坐标信息登记在数据库时的坐标转换处理或者图像的位置指定处理。图像特征量提取单元312针对照相机输入图像进行用以提取图像的特征量的处理。

图4是示出用于提供移动应用程序302的ui(移动终端用的ui)的画面的示例(移动终端画面400)的图。移动终端画面400是在移动终端100的触摸面板102上所显示的ui。将经由照相机104所拍摄的图像显示在移动终端画面400上的显示操作区域401中，并且经由所显示的ui来接收针对图像等的用户的操作(用户操作)。移动应用程序302的ui的形式(位置、尺寸、范围、配置和显示内容等)不限于图4所示的本实施例，并且可以采用能够实现移动终端100的功能的结构。

整体图像和局部图像

接着，将使用图5来描述整体图像和局部图像。在本实施例中，经由照相机104来获取被摄体105的a4尺寸的整体订货单的图像。通过进行用以排除被摄体以外的区域的纸张检测处理以及用以校正失真部分的失真校正处理来使图像成形。在本实施例中，将所成形的图像设置为整体图像500，并且视为整体图像的示例。另外，将接近被摄体105时照相机104所获取到的被摄体105的部分(或者整体)的图像设置为局部图像501。在本实施例中，局部图像501是局部图像的示例。此外，位置502示出局部图像在整体图像中的区域(位置)。

图像分类处理

接着，将使用图6a和6b来描述图像分类单元308所进行的对照相机输入图像的分类。图像分类单元308包括学习处理单元601和分类处理单元602。学习处理单元601使用要分类成的各文档类型(各类型)中的图像的整体图像特征量数据608来执行以下要描述的学习处理，并且创建分类器。图像分类单元308使用所创建的分类器来进行分类处理，并且决定照相机输入图像的分类。

通常，表示图像的特征的特征量数据由多维数据来表示，并且被称为特征向量。维数表示特征的类型是哪种类型。在学习处理单元601所进行的学习处理中，图像特征量提取单元312进行对从各文档类型的多个学习图像(整体图像)的特征提取以进行分类，并且计算针对各学习图像的100维的特征向量。此外，基于同一文档的多个学习图像的特征向量，从100维的特征向量中决定分类中的具有显著特征的10维的特征向量。通过被称为过滤器的软件组件来进行该维数减少处理。在各文档中所计算出的特征向量(10维)和过滤器的组合的集合被称为分类器607，并且与针对各文档类型的整体图像特征量数据608一起由db单元310进行管理。

在分类处理单元602所进行的学习处理中，图像特征量提取单元312针对经由照相机104所获取到的局部图像进行特征提取，并且计算特征向量(100维)。接着，向所计算出的特征向量(100维)应用分类器607的各分类的过滤器(主成分分析)，由此计算出与各分类相对应的特征向量(10维)。然后，将局部图像的特征向量(10维)与分类器的各文档的特征向量(10维)相比较，并且通过相似度判断来决定分类。在相似度判断中，如果相似度没有超过阈值，则决定为分类失败。

图6a和6b的学习结果609示出通过学习处理单元601的学习处理而在db单元310中所存储的数据的示例。db单元310包括从针对各文档类型的整体图像所提取出的整体图像特征量数据608和能够分类成分类1(604)、分类2(605)和分类3(606)的分类器607。另外，分类结果610表示通过分类处理单元602的分类处理、基于分类器607和局部图像来决定分类的示例。在本实施例中，分类结果610示出输入局部图像，并且将分类结果判断为分类1(604)、分类2(605)和分类3(606)中的分类1(604)。图像分类单元308所进行的图像分类不限于本实施例，并且可以采用能够实现该功能的适当技术。

坐标处理

接着，将使用图7来描述根据本实施例的坐标系统、坐标处理单元311所进行的坐标变换处理和db单元310所管理的矩形区域坐标。首先，根据本实施例的坐标系统包括被摄体坐标701、显示器坐标702、局部图像坐标703、整体图像坐标704和db登记坐标。被摄体坐标701是表示a4订货单中的位置的坐标的集合，显示器坐标702是在显示器中的位置的坐标的集合，局部图像坐标703是局部图像中的位置的坐标的集合，并且整体图像坐标704是整体图像中的位置的坐标的集合。db登记坐标是标准化(将整体图像坐标相对于整体的比率乘以10000)后的整体图像坐标的集合。进行标准化的原因在于：即使在对原始图像的长度和宽度不存在依赖性并且具有不同的dpi的情况下(即使在附近进行摄像或者在远距离处进行摄像)，也可以存在对应关系。

这里，坐标转换处理是用以在这些坐标系统之间进行转换的处理。例如，在矩形区域坐标保存处理中(以下要描述的步骤s904)，将用户在显示器上所选择的矩形区域(显示器坐标)705转换成整体图像坐标706，并且进一步转换成db登记坐标并保存在db单元310中。db单元310所管理的矩形区域坐标具有被设置为minx的矩形区域的左上x坐标、被设置为maxx的右下x坐标、被设置为miny的左上y坐标以及被设置为maxy的右下y坐标。以整体图像500的宽度是1500px并且整体图像500的长度是2000px的情况来提供描述。如果整体图像坐标706的左上坐标707是(x,y)＝(200,700)并且右上坐标708是(400,750)，则db登记坐标是(1333,3500)，(2666,3750)。

数据结构(db)

接着，将描述db单元310的坐标管理表。图8是示出根据本实施例的坐标管理表的数据结构和所保持的坐标信息的示例的图。坐标管理表801包括id栏、分类栏、类型栏、minx栏、maxx栏、miny栏和maxy栏。id栏是每当记录添加至坐标管理表801时递增1的值并且是表的主关键字。分类栏存储分类结果(例如，图6a和6b的分类结果610)。类型栏存储用以识别数据是通过矩形区域坐标保存处理(以下要描述的步骤s904)所保存的数据还是通过用户的选择由矩形区域坐标保存处理所保存的数据的识别符。minx栏存储所选区域的左上x坐标。maxx栏存储所选区域的右下x坐标。miny栏存储所选区域的左上y坐标。maxy栏存储所选区域的右下y坐标。在附图中，与作为用户在矩形区域坐标保存处理(以下要描述的步骤s904)中所选择的区域的所选区域807、808和809相对应的坐标信息是坐标信息802、坐标信息803和坐标信息804。与作为通过用户的选择而在矩形区域坐标保存处理中所选择的区域的所选区域810和811相对应的坐标信息是坐标信息805和坐标信息806。

预设置处理流程

接着，将使用图9来描述移动终端中的预设置处理流程。该流程从用户使用移动应用程序302、经由移动终端100中的照相机104来获取被摄体105的图像的步骤作为触发而开始。针对文档类型的数量的一部分(在本实施例中，用于分类成分类1～分类3的三个文档类型的一部分)重复以下步骤s901～s904的处理。

首先，移动应用程序302的图像分析单元306对照相机输入图像执行纸张检测处理和失真校正处理，并且获取整体图像500。接着，在步骤s902中，图像特征量提取单元312从整体图像500提取整体图像特征量数据608。然后，在步骤s903中，移动应用程序302的主控制单元303将整体图像特征量数据608与文档类型相关联地保存在db单元310。然后，在步骤s904中，移动应用程序302的主控制单元303将在步骤s901中所获取到的整体图像500显示在移动终端100的显示操作区域401中，并且允许用户选择矩形区域坐标(例如，矩形区域705)。此外，主控制单元303使用坐标处理单元311进行坐标转换处理，将矩形区域坐标705转换成整体图像坐标706，并且将结果转换成db登记坐标。然后，主控制单元303将坐标信息804保存在db单元310中。坐标信息802和803也采用相同过程来保存。

在针对文档类型的数量的部分的处理的重复结束之后，在步骤s905中，图像分类单元308基于针对文档类型部分的整体图像特征量数据608来创建分类器607，并且将该分类器保存在db单元310中。根据上述处理，创建在以下要描述的处理中所要使用的针对各文档的整体图像特征量数据608、坐标信息(802、803和804)和分类器607。

基本流程

接着，将使用图10来描述移动终端100的基本处理流程。该流程从用户使用移动终端100中的移动应用程序302、使照相机104接近被摄体105来获取图像的步骤作为触发而开始。

首先，在步骤s1001中，移动应用程序302经由照相机单元206来获取局部图像501。接着，在步骤s1002中，图像特征量提取单元312从局部图像中提取局部图像特征量。然后，在步骤s1003中，图像分类单元308使用所提取出的局部图像特征量和分类器607来进行分类处理单元602中的分类处理，并且决定局部图像中的分类。然后，在步骤s1004中，移动应用程序302判断局部图像是否被分类。如果局部图像能够被分类(是)，则过程移入步骤s1005。另一方面，如果局部图像无法被分类(否)，则过程返回至步骤s1001，以再次经由照相机单元206来获取局部图像。

接着，在步骤s1005中，移动应用程序302的主控制单元403将局部图像显示在显示操作区域401中。此外，主控制单元使用坐标处理单元311来决定局部图像501在整体图像500中的位置，并且显示文本区域。以下将使用图12来详细描述步骤s1005。接着，在步骤s1006中，移动应用程序302判断是否存在用户对文本区域的选择。如果存在用户对文本区域的选择(是)，则过程移入步骤s1007。另一方面，如果不存在用户对文本区域的选择(否)，则过程返回至步骤s1005，以再次进行文本区域显示处理。

接着，在步骤s1007中，移动应用程序302获取与用户所选择的文本区域有关的文本信息。然后，根据步骤s1005中所限定的整体图像和局部图像的位置502，移动应用程序302将用户在坐标处理单元311中所选择的文本区域的矩形坐标711转换成整体图像的矩形坐标712。然后，移动应用程序302将矩形坐标712保存在db单元310的坐标管理表801中(坐标信息805和806)。

文本区域显示处理流程

图11是示出图10的流程中的步骤s1005的处理的详情的流程图。首先，在步骤s1101中，移动应用程序302经由照相机单元206来获取要处理的局部图像。接着，在步骤s1102中，图像特征量提取单元312从局部图像501中提取局部图像特征量。然后，在步骤s1103中，坐标处理单元311从db单元310获取步骤s1003中所决定的分类(分类1)的整体图像特征量数据608。然后，将整体图像特征量数据608与局部图像特征量相比较，由此指定局部图像在整体图像中的位置502。

接着，在步骤s1104中判断是否指定了位置。如果能够指定位置(是)，则过程移入步骤s1105，另一方面，如果无法指定位置(否)，则过程返回至步骤s1101。接着，在步骤s1105中，ocr单元307对局部图像501中的对象区域进行识别。接着，在步骤s1106中，ocr单元307对步骤s1105中所识别出的对象区域进行ocr处理，并且对文本信息进行识别。然后，ocr单元307将能够识别文本信息的对象区域识别为文本区域。图12的文本区域1201是所识别出的文本区域的示例。然后，在步骤s1108中，主控制单元303判断在局部图像中是否识别出文本区域。如果能够识别出文本区域(是)，则过程移入步骤s1109。另一方面，如果无法识别出文本区域(否)，则过程移入步骤s1113。

接着，在步骤s1109中，坐标处理单元311通过坐标转换处理将db单元310中所保存的坐标信息(802～806)从整体图像坐标转换成局部图像坐标，并且判断转换出的局部图像坐标是否为局域图像501中的坐标。如果坐标在局域图像501中(是)，则过程移入步骤s1111。另一方面，如果坐标不在局部图像中(否)，则过程移入步骤s1110。然后，在步骤s1110中，信息显示单元304将步骤s1107中所识别出的文本区域重叠在局部图像上，并且将该文本区域显示在显示操作区域401中，并且处理结束。

接着，在步骤s1111中，信息显示单元304将步骤s1107中所识别出的文本区域重叠在局部图像上，并会将该文本区域显示在显示操作区域401中。然后，在步骤s1112中，坐标处理单元311将转换出的局部图像坐标校正成文本区域，并且显示该文本区域。换句话说，在转换出的局部图像坐标与文本区域即使只有一点点重叠的情况下，也对转换出的局部图像坐标进行校正，并且显示文本区域。此外，如果转换出的局部图像坐标与多个文本区域重叠，则将转换出的局部图像坐标校正成存在更多重叠面积的坐标，并且显示文本区域。

这里，将参考图12来描述显示示例中的校正之后的文本区域。坐标1202是校正之前的局部图像坐标，并且显示示例1203是校正之后的显示示例。另外，显示示例1205、1203和1204与图8中的坐标信息802、803和804相对应。此外，显示示例1206和1207与图8所示的坐标信息805和806相对应。

返回参考图11，在步骤s1113中，坐标处理单元311通过进行坐标转换处理将db单元310中所保存的坐标信息(802～806)从整体图像坐标转换成局部图像坐标，并且判断转换出的局部图像坐标是否为局部图像501中的坐标。如果坐标在局部图像501中(是)，则过程移入步骤s1114。另一方面，如果坐标不在局部图像501中(否)，过程返回至步骤s1101。接着，信息显示单元304将从整体图像坐标转换成局部图像坐标的坐标显示在局部图像中。然后，处理结束。

如上所述，根据本实施例，如果通过接近纸质文档来拍摄图像，则通过显示作为用户的候选选择而预先保存的区域，能够快速地找到所需的文本区域。

其它实施例

本发明的实施例还可以通过如下的方法来实现，即，通过网络或者各种存储介质将执行上述实施例的功能的软件(程序)提供给系统或装置，该系统或装置的计算机或是中央处理单元(cpu)、微处理单元(mpu)读出并执行程序的方法。

尽管已经参考典型实施例说明了本发明，但是应该理解，本发明不限于所公开的典型实施例。所附权利要求书的范围符合最宽的解释，以包含所有这类修改、等同结构和功能。

本申请要求2015年12月28日提交的日本专利申请2015-256476的优先权，这里通过引用将其全部内容包含于此。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：七海嘉仁
技术所有人：佳能株式会社
我是此专利的发明人

上一篇：一种光伏板组件智能清扫机器人装置的制造方法
上一篇：分层水箱内胆及具有其的热水器的制造方法与工艺

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。