电子文档生成系统以及电子文档生成装置的制造方法【
技术领域:
】[0001]本发明涉及生成电子文档的电子文档生成系统以及与此相关的技术。【
背景技术:
】[0002]在MFP(多功能一体机(Mult1-Funct1nalPeripheral))等的图像形成装置中,存在扫描原稿来制作电子文档的技术。[0003]在这样的技术中,除了直接读入原稿的扫描图像来生成电子文档的技术以外,还存在生成带文本数据电子文档(下述)的技术(参照专利文献1等)。具体而言,对于原稿的扫描图像(特别是表示字符的图像)实施了光学字符识别处理(以下,也称为OCR(OpticalCharacterRecognit1n)处理),该扫描图像内的字符的文本数据被自动识另IJ,该文本数据以非显示状态重叠地嵌入该扫描图像。这样一来,例如,生成了被称为带透明文本FOF(PortableDocumentFormat:可移植文档格式)(或者可检索的FOF)等的规定形式的电子文档(带文本数据电子文档)。[0004]专利文献1:日本特开2012—73749号公报[0005]然而,存在使用云服务器来提供各种应用程序软件的服务的技术。另外,也存在提供通用OCR处理服务作为这样的云服务(应用程序服务)的技术。但是,在通用OCR处理服务中,仅提供了基本功能(OCR处理),带文本数据电子文档未被生成。因此,带文本数据电子文档的最终生成处理需要在委托源装置侧进行。[0006]在利用了通用OCR处理服务的情况下,例如,首先,从委托源装置(详细而言,在委托源装置执行中的某应用程序)向云服务器(详细而言,在云服务器执行中的其它应用程序)发送了扫描图像。然后,关于整个该扫描图像的OCR处理由云服务器执行,其处理结果从云服务器向委托源装置回信。该委托源装置将从云服务器接收到的OCR处理结果嵌入到原始的扫描图像,生成带文本数据电子文档(可检索的roF(带透明文本TOF)等)。此外,通过利用通用OCR处理服务,能够利用与OCR处理的委托源装置(例如,图像形成装置(扫描图像的生成装置))不同的装置进行OCR处理,所以能够减少该委托源装置的处理负荷。[0007]然而,在例如从委托源装置对于其它装置(云服务器)赋予关于扫描图像的OCR处理指示,使用其OCR处理结果,生成上述那样的带文本数据电子文档的情况下,可能产生扫描图像内的字符图像和文本数据偏移地配置这样的问题。例如,在OCR处理结果(文本数据)涉及的字符串和扫描图像内的字符串(作为字符图像的字符串)以其各字符的大小相互不同的状态配置于相同的页内的情况下,OCR处理结果涉及的字符串在其排列方向上配置在与作为扫描图像内的字符图像的字符串大不相同的位置。详细而言,即使两字符串的最初的位置一致,尤其在字符串的排列方向后端侧其位置偏移也变得显著。[0008]这样的问题由于仅OCR处理结果(字符串识别结果)从云服务器向委托源装置返回,识别出的字符的尺寸未被返回等而产生。尤其在云服务器侧的应用程序中的处理结果的输出形态几乎固定的情况(委托源的电子文档生成应用程序无法自由地决定该输出形态的情况等)下这样的问题可能显著地产生。【
发明内容】[0009]因此,该发明的课题在于,提供在从某装置对于其它的装置委托OCR处理,使用其处理结果生成电子文档的技术中,能够将OCR处理结果涉及的字符串配置在其排列方向上比较正确的位置的技术。[0010]为了解决上述课题,第一方面的发明是电子文档生成系统,其特征在于,具备:第一装置,其根据原稿的扫描图像生成电子文档;以及第二装置,其基于来自上述第一装置的委托执行针对上述扫描图像的光学字符识别处理,并将该光学字符识别处理的处理结果送出到上述第一装置,上述第一装置具有:提取单元,其从上述扫描图像提取包括行区域的处理对象区域,其中,上述行区域是在上述扫描图像内沿某方向排列的1行字符串的全部或者一部分的范围的区域;检测单元,其检测上述行区域的大小;决定单元,其基于上述行区域的大小决定排列方向字符尺寸,其中,上述排列方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述1行的字符串的排列方向上的字符尺寸;指示送出单元,其将应该对于上述处理对象区域进行上述光学字符识别处理的主旨的指示和上述处理对象区域的图像数据向上述第二装置送出;接受单元,其从上述第二装置接受关于上述处理对象区域的上述光学字符识别处理的处理结果;以及生成单元,其基于由上述决定单元决定的上述排列方向字符尺寸将上述处理结果的字符串配置在上述电子文档内,生成上述电子文档。[0011]第二方面的发明的特征在于,在第一方面的发明的电子文档生成系统中,上述决定单元基于上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定上述排列方向字符尺寸。[0012]第三方面的发明的特征在于,在第二方面的发明的电子文档生成系统中,上述提取单元提取包括多行的字符串的区域作为上述处理对象区域,上述决定单元基于是关于上述多行的字符串中的任意1行的字符串的区域的上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定上述排列方向字符尺寸。[0013]第四方面的发明的特征在于,在第二方面的发明的电子文档生成系统中,上述提取单元提取单一行的字符串的区域作为上述处理对象区域,上述决定单元基于是关于上述单一行的字符串的区域的上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定上述排列方向字符尺寸。[0014]第五方面的发明的特征在于,在第二方面的发明的电子文档生成系统中,上述提取单元提取上述1行的字符串的上述排列方向上的全范围中的一部分的范围的区域作为上述处理对象区域,上述决定单元基于上述一部分的范围的区域的上述排列方向上的长度除以上述一部分的范围的区域内的字符数得到的值,决定上述排列方向字符尺寸。[0015]第六方面的发明的特征在于,在第一方面的发明的电子文档生成系统中,上述决定单元基于上述行区域的正交方向上的长度决定正交方向字符尺寸,并且,基于上述正交方向字符尺寸决定上述排列方向字符尺寸,其中,上述正交方向是与上述1行的字符串的排列方向正交的方向,上述正交方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述正交方向的字符尺寸。[0016]第七方面的发明的特征在于,在第六方面的发明的电子文档生成系统中,上述提取单元提取包括多行的字符串的区域作为上述处理对象区域,上述决定单元基于上述处理对象区域的上述正交方向上的长度和上述处理对象区域所包含的字符串的行数检测上述行区域的上述正交方向上的长度,基于上述行区域的上述正交方向上的该长度决定上述正交方向字符尺寸,并且,基于该正交方向字符尺寸决定上述排列方向字符尺寸。[0017]第八方面的发明的特征在于,在第六方面的发明的电子文档生成系统中,上述提取单元提取单一行的字符串的区域作为上述处理对象区域,上述决定单元基于上述单一行的字符串的区域的上述正交方向上的长度计算上述正交方向字符尺寸,并且,基于该正交方向字符尺寸决定上述排列方向字符尺寸。[0018]第九方面的发明的特征在于,在第六方面的发明的电子文档生成系统中,上述提取单元提取上述1行的字符串的上述排列方向上的全部范围中的一部分的范围的区域作为上述处理对象区域,上述决定单元基于上述一部分的范围的区域的上述正交方向上的长度计算上述正交方向字符尺寸,并且,基于该正交方向字符尺寸决定上述排列方向字符尺寸。[0019]第十方面的发明的特征在于,在第一方面的发明的电子文档生成系统中,上述决定单元基于上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定关于上述处理对象区域的上述排列方向字符尺寸,并且,基于上述行区域的正交方向上的长度决定正交方向字符尺寸,其中,上述正交方向是与上述1行的字符串的排列方向正交的方向,上述正交方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述正交方向的字符尺寸,上述生成单元基于由上述决定单元决定的上述排列方向字符尺寸和上述正交方向字符尺寸将上述处理结果的字符串配置在上述电子文档内,来生成上述电子文档。[0020]第十一方面的发明的特征在于,在第一方面至第十方面中的任意一个发明的电子文档生成系统中,上述检测单元也检测上述扫描图像内的上述处理对象区域的位置,上述生成单元也基于上述处理对象区域的上述位置将上述处理结果的字符串配置在上述电子文档内。[0021]第十二方面的发明的特征在于,在第一方面至第十一方面中的任意一个发明的电子文档生成系统中,上述第一装置是图像形成装置,上述第二装置是云服务器。[0022]第十三方面的发明的特征在于,在第一方面至第十一方面中的任意一个发明的电子文档生成系统中,上述第一装置是图像形成装置,上述第二装置是通信终端。[0023]第十四方面的发明的特征在于,在第一方面至第十一方面中的任意一个发明的电子文档生成系统中,上述第一装置是通信终端,上述第二装置是云服务器。[0024]第十五方面的发明是根据原稿的扫描图像生成电子文档的电子文档生成装置,其特征在于,具备:提取单元,其从上述扫描图像提取包括行区域的处理对象区域,其中,上述行区域是在上述扫描图像内沿某方向排列的1行字符串的全部或者一部分的范围的区域;检测单元,其检测上述行区域的大小;决定单元,其基于上述行区域的大小决定排列方向字符尺寸,其中,上述排列方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述1行的字符串的排列方向上的字符尺寸;指示送出单元,其将应该对于上述处理对象区域进行光学字符识别处理的主旨的指示和上述处理对象区域的图像数据向外部装置送出;接受单元,其从上述外部装置接受对于上述处理对象区域由上述外部装置执行的上述光学字符识别处理的处理结果;以及生成单元,其基于由上述决定单元决定的上述排列方向字符尺寸将上述处理结果的字符串配置在上述电子文档内,生成上述电子文档。[0025]第十六方面的发明的特征在于,在第十五方面的发明的电子文档生成装置中,上述决定单元基于上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定上述排列方向字符尺寸。[0026]第十七方面的发明的特征在于,在第十六方面的发明的电子文档生成装置中,上述提取单元提取包括多行的字符串的区域作为上述处理对象区域,上述决定单元基于是关于上述多行的字符串中的任意1行的字符串的区域的上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定上述排列方向字符尺寸。[0027]第十八方面的发明的特征在于,在第十六方面的发明的电子文档生成装置中,上述提取单元提取单一行的字符串的区域作为上述处理对象区域,上述决定单元基于是关于上述单一行的字符串的区域的上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定上述排列方向字符尺寸。[0028]第十九方面的发明的特征在于,在第十六方面的发明的电子文档生成装置中,上述提取单元提取上述1行的字符串的上述排列方向上的全部范围中的一部分的范围的区域作为上述处理对象区域,上述决定单元基于上述一部分的范围的区域的上述排列方向上的长度除以上述一部分的范围的区域内的字符数得到的值,决定上述排列方向字符尺寸。[0029]第二十方面发明的特征在于,在第十五方面的发明的电子文档生成装置中,上述决定单元基于上述行区域的正交方向上的长度决定正交方向字符尺寸,并且,基于上述正交方向字符尺寸决定上述排列方向字符尺寸,其中,上述正交方向是与上述1行的字符串的排列方向正交的方向,上述正交方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述正交方向的字符尺寸。[0030]第二十一方面的发明的特征在于,在第二十方面的发明的电子文档生成装置中,上述提取单元提取包括多行的字符串的区域作为上述处理对象区域,上述决定单元基于上述处理对象区域的上述正交方向上的长度和上述处理对象区域所包含的字符串的行数计算上述行区域的上述正交方向上的长度,基于上述行区域的上述正交方向上的该长度决定上述正交方向字符尺寸,并且,基于该正交方向字符尺寸决定上述排列方向字符尺寸。[0031]第二十二方面的发明的特征在于,在第二十方面的发明的电子文档生成装置中,上述提取单元提取单一行的字符串的区域作为上述处理对象区域,上述决定单元基于上述单一行的字符串的区域的上述正交方向上的长度计算上述正交方向字符尺寸,并且,基于该正交方向字符尺寸决定上述排列方向字符尺寸。[0032]第二十三方面的发明的特征在于,在第二十方面的发明的电子文档生成装置中,上述提取单元提取上述1行的字符串的上述排列方向上的全部范围中的一部分的范围的区域作为上述处理对象区域,上述决定单元基于上述一部分的范围的区域的上述正交方向上的长度计算上述正交方向字符尺寸,并且,基于该正交方向字符尺寸决定上述排列方向字符尺寸。[0033]第二十四方面的发明的特征在于,在第十五方面的发明的电子文档生成装置中,上述决定单元基于上述行区域的上述排列方向上的长度除以上述行区域内的字符数得到的值,决定关于上述处理对象区域的上述排列方向字符尺寸,并且,基于上述行区域的正交方向上的长度决定正交方向字符尺寸,其中,上述正交方向是与上述1行的字符串的排列方向正交的方向,上述正交方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述正交方向的字符尺寸,上述生成单元基于由上述决定单元决定的上述排列方向字符尺寸和上述正交方向字符尺寸将上述处理结果的字符串配置在上述电子文档内,生成上述电子文档。[0034]第二十五方面的发明的特征在于,在第十五方面至第二十四方面中的任意一个发明的电子文档生成装置中,上述检测单元也检测在上述扫描图像内的上述处理对象区域的位置,上述生成单元也基于上述处理对象区域的上述位置将上述处理结果的字符串配置在上述电子文档内,生成上述电子文档。[0035]第二十六方面的发明的特征在于,在第十五方面至第二十五方面中的任意一个发明的电子文档生成装置中,上述电子文档生成装置是图像形成装置。[0036]第二十七方面的发明的特征在于,在第十五方面至第二十五方面中的任意一个发明的电子文档生成装置中,上述电子文档生成装置是与生成上述扫描图像的图像形成装置不同的通信装置,也是与上述外部装置不同的通信装置。[0037]第二十八方面的发明是根据原稿的扫描图像生成电子文档的电子文档生成装置,其特征在于,具备:提取单元,其从上述扫描图像提取包括多行的字符串的处理对象区域;检测单元,其检测上述处理对象区域的大小;决定单元,其基于上述处理对象区域的大小决定排列方向字符尺寸,其中,上述排列方向字符尺寸是上述处理对象区域内的字符的字符尺寸,且是上述处理对象区域内的字符串的排列方向上的字符尺寸;指示送出单元,其将应该对于上述处理对象区域进行光学字符识别处理的主旨的指示和上述处理对象区域的图像数据向外部装置送出,接受单元,其从上述外部装置接受对于上述处理对象区域由上述外部装置执行的上述光学字符识别处理的处理结果;以及生成单元,其基于由上述决定单元决定的上述排列方向字符尺寸将上述处理结果的字符串配置在上述电子文档内,生成上述电子文档,上述决定单元基于上述处理当前第1页1 2 3 4 5 6