信息处理装置以及记录介质的制作方法

文档序号:26791291发布日期:2021-09-28 23:28阅读:49来源:国知局
信息处理装置以及记录介质的制作方法

1.本发明涉及一种信息处理装置以及记录介质。


背景技术:

2.已知一种从表示文档的文档图像中提取所需的信息的技术。例如在专利文献1中记载有:对文档的字符域进行词素分析(morpheme analysis),将以词素层(morpheme level)来表述文档属性的结构的文档属性词类模式与词素分析结果进行对照,提取一致的字符域中在文档中的出现位置处于规定范围的字符域作为文档属性。
3.[现有技术文献]
[0004]
[专利文献]
[0005]
[专利文献1]日本专利特开2004-178044号公报


技术实现要素:

[0006]
[发明所要解决的问题]
[0007]
有时想要从合同等文档中提取签约人名等信息。但是,在例如在文档中除了签约人名以外还记载有公司名等名称的情况下,在对文句进行分析来判别对象信息的方法中,可能会提取签约人名以外的名称。
[0008]
本发明的目的在于,与和特定类别的印迹的位置无关地进行对于对象字符串的对象信息的提取的情况相比,高精度地提取对象信息。
[0009]
[解决问题的技术手段]
[0010]
技术方案1的发明是一种信息处理装置,其中包括处理器,所述处理器获取表示文档的文档图像,从以所述文档图像所含的特定类别的印迹的位置为基准的区域中,提取对于对象字符串的对象信息。
[0011]
技术方案2的发明根据技术方案1所记载的信息处理装置,其中,所述处理器将所述文档图像所含的多个印迹中第一类别的印迹及第二类别的印迹以外的印迹用作所述特定类别的印迹。
[0012]
技术方案3的发明根据技术方案2所记载的信息处理装置,其中,所述第一类别的印迹是在所述文档图像中空开间隔地设置于既定位置。
[0013]
技术方案4的发明根据技术方案3所记载的信息处理装置,其中,在所述文档图像表示所述文档所含的单一页面的情况下,所述既定位置为所述文档图像的端部。
[0014]
技术方案5的发明根据技术方案3所记载的信息处理装置,其中,在所述文档图像表示所述文档所含的多个页面的情况下,所述既定位置为所述文档图像中的所述多个页面的交界部。
[0015]
技术方案6的发明根据技术方案2所记载的信息处理装置,其中,所述第二类别的印迹设置于与所述文档图像所含的标注有删除线的字符对应的位置。
[0016]
技术方案7的发明根据技术方案1或2所记载的信息处理装置,其中,所述特定类别
的印迹大于所述文档图像所含的其他印迹。
[0017]
技术方案8的发明根据技术方案7所记载的信息处理装置,其中,所述特定类别的印迹与所述文档图像所含的其他印迹相比,处于周围的空白的量更多。
[0018]
技术方案9的发明根据技术方案1所记载的信息处理装置,其中,在对于所述对象字符串的多个对象信息包含于所述区域的情况下,所述处理器提取所述多个对象信息中最接近所述位置的对象信息。
[0019]
技术方案10的发明根据技术方案1所记载的信息处理装置,其中,所述处理器从所述文档图像中检测包含所述特定类别的印迹的至少一个印迹,在检测到所述至少一个印迹后,对所述文档图像实施字符识别,所述对象信息为所述字符识别的结果。
[0020]
技术方案11的发明根据技术方案10所记载的信息处理装置,其中,所述处理器从所述文档图像中去除检测到的所述特定类别的印迹,对去除了所述特定类别的印迹的所述文档图像实施所述字符识别。
[0021]
技术方案12的发明为一种记录介质,其记录有用于使计算机执行下述步骤的程序:获取表示文档的文档图像;以及从以所述文档图像所含的特定类别的印迹的位置为基准的区域中,提取对于对象字符串的对象信息。
[0022]
[发明的效果]
[0023]
根据技术方案1的发明,与和特定类别的印迹的位置无关地进行对于对象字符串的对象信息的提取的情况相比,可高精度地提取对象信息。
[0024]
根据技术方案2的发明,在文档图像中包含第一类别的印迹或第二类别的印迹的情况下,可防止下述情况,即:提取对于对象字符串的对象信息的精度降低。
[0025]
根据技术方案3的发明,与和文档图像中的印迹的位置及间隔无关地区分第一类别的印迹与特定类别的印迹的情况相比,可高精度地区分这些印迹。
[0026]
根据技术方案4的发明,在文档图像表示文档所含的单一页面的情况下,与和文档图像的端部的位置无关地区分第一类别的印迹与特定类别的印迹的情况相比,可高精度地区分这些印迹。
[0027]
根据技术方案5的发明,在文档图像表示文档所含的多个页面的情况下,与和这些页面的交界部的位置无关地区分第一类别的印迹与特定类别的印迹的情况相比,可高精度地区分这些印迹。
[0028]
根据技术方案6的发明,与和文档图像中的标注有删除线的字符的对应位置无关地区分第二类别的印迹与特定类别的印迹的情况相比,可高精度地区分这些印迹。
[0029]
根据技术方案7的发明,与和印迹的大小无关地区分特定类别的印迹与其他印迹的情况相比,可高精度地区分这些印迹。
[0030]
根据技术方案8的发明,与和处于印迹周围的空白的量无关地区分特定类别的印迹与其他印迹的情况相比,可高精度地区分这些印迹。
[0031]
根据技术方案9的发明,与和相对于特定类别的印迹的位置无关地进行对于对象字符串的对象信息的提取的情况相比,可高精度地提取对象信息。
[0032]
根据技术方案10的发明,与在检测印迹前进行字符识别的情况相比,字符识别的精度提高。
[0033]
根据技术方案11的发明,与在去除印迹前进行字符识别的情况相比,字符识别的
精度提高。
[0034]
根据技术方案12的发明,与和特定类别的印迹的位置无关地进行对于对象字符串的对象信息的提取的情况相比,可高精度地提取对象信息。
[0035]
根据技术方案13的发明,与和特定类别的印迹的位置无关地进行对于对象字符串的对象信息的提取的情况相比,可高精度地提取对象信息。
附图说明
[0036]
图1为表示实施方式的图像处理装置10的结构的一例的图。
[0037]
图2为表示文档图像20的一例的图。
[0038]
图3为表示从文档图像中提取与关键字对应的值的处理的一例的流程图。
[0039]
图4为表示公司章判定处理的一例的流程图。
[0040]
图5为表示骑缝章判定处理的一例的流程图。
[0041]
图6为表示另一个文档图像40的一例的图。
[0042]
图7为表示修订章判定处理的一例的流程图。
[0043]
[符号的说明]
[0044]
10:图像处理装置
[0045]
11:处理器
[0046]
12:存储器
[0047]
13:图像读取部
[0048]
14:存储部
[0049]
15:操作部
[0050]
16:显示部
具体实施方式
[0051]
1.结构
[0052]
图1为表示本实施方式的图像处理装置10的结构的一例的图。图像处理装置10为本发明的信息处理装置的一例。图像处理装置10发挥扫描功能,读取合同等文档而获取文档图像。而且,图像处理装置10具有字符识别功能,基于文档图像所含的关键字(key)来提取值(value)。所述关键字是成为值的标记的字符串。所述关键字中,包含字符、数字、记号及图像中的至少任一个。关键字为本发明的“对象字符串”的一例。值为用户所需要的信息。值中,包含字符、数字、记号及图像中的至少任一个。值为本发明的“对象信息”的一例。此外,此处所提及的“字符串”中,不仅包含字符,而且也可包含数字或记号。从文档图像中提取的值可用于各种处理。例如,从文档图像中提取的值可用于文档图像的文件名或文件夹名,或发送至针对值所规定的目的地。
[0053]
图像处理装置10包括处理器11、存储器12、图像读取部13、存储部14、操作部15及显示部16。这些硬件元件经由总线17而连接。处理器11通过执行程序,从而控制图像处理装置10的各部,进行从文档图像中提取与关键字对应的值的处理。关于处理器11,例如可使用中央处理器(central processing unit,cpu)。存储器12中,存储有用于使处理器11执行所述处理的程序。关于存储器12,例如可使用只读存储器(read only memory,rom)及随机存
取存储器(random access memory,ram)。图像读取部13读取文档而生成文档图像。关于图像读取部13,例如可使用图像扫描仪(image scanner)。存储部14存储由图像读取部13所生成的文档图像。关于存储部14,例如可使用硬盘驱动器或固态驱动器(solid state drive,ssd)。操作部15用于由用户对图像处理装置10进行操作。关于操作部15,例如可使用触摸屏或按键。显示部16显示在用户的操作中使用的各种画面。关于显示部16,例如可使用液晶显示器。
[0054]
图2为表示文档图像20的一例的图。此外,图2所示的x轴方向与y轴方向表示相互正交的方向。而且,-x轴方向、-y轴方向分别表示与x轴方向和y轴方向相反的方向。图2所示的文档图像20为表示合同的图像。合同中也可包含多个页面。此处,设值为表示签约人的信息。图2所示的示例中,关键字成为“公司名”,值成为签约人甲的公司名及签约人乙的公司名。
[0055]
在合同末尾的署名栏中,分别排列记载有“公司名”的字符串31及表示签约人甲的公司名的“股份有限公司a”的字符串32、和“公司名”的字符串33及表示签约人乙的公司名的“股份有限公司b”的字符串34。一般来说,在签约人为公司的情况下,在与公司名的最后的字符重叠的位置盖有公司章。所谓公司章,是指公司所用的章。一般来说,公司章呈四方形状,公司章的印迹大于其他章的印迹。而且,一般来说,盖有公司章的合同末尾的署名栏与合同的其他部分相比,空白更多。图2所示的示例中,在与“股份有限公司a”的字符串32的最后的字符重叠的位置,盖有甲的公司章。因此,在文档图像20中,在与“股份有限公司a”的字符串32的最后的字符重叠的位置,设有甲的公司章的印迹24。同样地,在与“股份有限公司b”的字符串34的最后的字符重叠的位置,盖有乙的公司章。因此,在文档图像20中,在与“股份有限公司b”的字符串34的最后的字符重叠的位置,设有乙的公司章的印迹25。印迹24及印迹25为本发明的特定类别的印迹的一例。
[0056]
而且,合同中,除了公司章以外,有时盖有骑缝章或修订章。所谓骑缝章,是指在合同有两张以上的情况下,为了表示多个书面的关联性而以跨两张书面的方式盖的章。一般来说,骑缝章是空开间隔地盖在文档的既定位置。例如在包含左右两页的双联页页面中,盖骑缝章的位置为作为左右页面的交界部的中央部。另一方面,在并非双联页页面的单一页面中,盖骑缝章的位置为页面的侧端部。此外,盖骑缝章的间隔也可为等间隔。图2所示的示例中,合同为单一页面,因而在-x轴方向的端部空开间隔地盖有两个骑缝章。因此,在文档图像20的-x轴方向的端部,空开间隔地设有两个骑缝章的印迹21及印迹22。骑缝章的印迹21及印迹22为本发明的第一类别的印迹的一例。
[0057]
所谓修订章,是指在修订文档的一部分时为了明确由何人进行了修订而盖的章。一般来说,在修订字符的错误的情况下,对修订部分标注删除线,在与修订部分对应的位置盖修订章。所述删除线可为单线也可为双线。图2所示的示例中,在文档图像20中,对合同中记载的
“あいう”
的字符标注删除线27,在所述字符的附近盖有修订章。因此,在文档图像20中,在标注有删除线27的字符的附近设有修订章的印迹23。修订章的印迹23为本发明的第二类别的印迹的一例。
[0058]
2.动作
[0059]
以下的说明中,在将处理器11记载为处理的主体的情况下,意味着通过存储于存储器12的程序、与执行所述程序的处理器11的协作,而使得处理器11进行运算或控制其他
硬件元件的动作,由此进行处理。
[0060]
图3为表示从文档图像中提取与关键字对应的值的处理的一例的流程图。例如响应下述情况而开始所述处理,即:用户将文档设置于图像处理装置10,并使用操作部15来进行指示读取开始的操作。而且,此时用户使用操作部15来进行指定成为提取对象的值的个数的操作。图2所示的示例中,签约人为两方,表示签约人的信息为甲的公司名和乙的公司名,因而成为提取对象的值的个数成为2。
[0061]
步骤s11中,处理器11响应用户的操作而使图像读取部13读取文档。由此,获取表示文档的文档图像。图2所示的示例中,读取合同,获取表示所述合同的文档图像20。
[0062]
步骤s12中,处理器11从文档图像中检测印迹。印迹的检测例如是使用已知的印迹检测技术而进行。例如,也可在文档图像中检测印迹般大小的红色部分作为印迹。图2所示的示例中,从文档图像20中检测到印迹21~印迹25和噪声图像26。噪声图像26实际上并非印迹,但由于是印迹般大小的红色部分,因而也作为印迹而被检测到。
[0063]
步骤s13中,处理器11进行公司章判定处理。如图2所示,在文档图像20中,除了公司章的印迹24及印迹25以外,也包含骑缝章的印迹21及印迹22、修订章的印迹23、噪声图像26。因此,为了从步骤s12中检测到的印迹中判定公司章的印迹24及印迹25,而进行公司章判定处理。
[0064]
图4为表示公司章判定处理的一例的流程图。步骤s21中,处理器11进行骑缝章判定处理。骑缝章判定处理是针对步骤s12中检测到的各印迹而进行。骑缝章判定处理中,将对象印迹区分为骑缝章的印迹与其他印迹。关于骑缝章的印迹,从公司章的印迹的候补中除外。
[0065]
图5为表示骑缝章判定处理的一例的流程图。步骤s31中,处理器11判定文档图像是否表示双联页页面。所述判定例如是利用原稿图像的纵横比来进行。图2所示的示例中,文档图像20的纵横比显示纵长,因而判定为文档图像不表示双联页页面(步骤s31的判定为否(no))。此时,进入步骤s32的处理。
[0066]
步骤s32中,处理器11判定在文档图像的侧端部是否空开间隔地设有印迹。图2所示的示例中,在文档图像20的-x轴方向的端部,空开间隔地设有印迹21及印迹22(步骤s32的判定为是(yes))。此时,步骤s34中,处理器11将印迹21及印迹22判定为骑缝章的印迹。另一方面,图2所示的示例中,关于文档图像20所含的印迹23~印迹25及噪声图像26,并未空开间隔地设于文档图像20的侧端部(步骤s32的判定为否)。此时,步骤s35中,处理器11将印迹23~印迹25及噪声图像26判定为并非骑缝章的印迹的其他印迹。
[0067]
图6为表示另一个文档图像40的一例的图。所述文档图像40的纵横比显示横长,因而所述步骤s31中判定为文档图像表示双联页页面(步骤s31的判定为是)。此时,进入步骤s33。
[0068]
步骤s33中,处理器11判定在文档图像的中央部是否空开间隔地设有印迹。图6所示的示例中,在文档图像40的中央部,空开间隔地设有印迹41及印迹42(步骤s33的判定为是)。此时,步骤s34中,处理器11将印迹41及印迹42判定为骑缝章的印迹。另一方面,图6所示的示例中,关于文档图像40所含的印迹24及印迹25,并未空开间隔地设于文档图像20的中央部(步骤s33的判定为否)。此时,步骤s35中,处理器11将印迹24及印迹25判定为并非骑缝章的印迹的其他印迹。
[0069]
回到图4,步骤s22中,处理器11进行修订章判定处理。修订章判定处理是针对步骤s12中检测到的印迹中的、在步骤s21中被判定为骑缝章的印迹的印迹以外的各印迹而进行。修订章判定处理中,将对象的印迹区分为修订章的印迹与其他印迹。关于修订章的印迹,从公司章的印迹的候补中除外。
[0070]
图7为表示修订章判定处理的一例的流程图。步骤s41中,处理器11判定印迹附近的字符串是否标注有删除线。所述附近例如表示以印迹的位置为中心而规定的距离以内的范围。图2所示的示例中,在印迹23的附近记载有
“あいう”
的字符,对所述字符标注有删除线27(步骤s41的判定为是)。此时,步骤s42中,处理器11将印迹23判定为修订章的印迹。另一方面,图2所示的示例中,关于文档图像20所含的印迹24及印迹25及噪声图像26,在附近并无字符串,或未对附近的字符串标注有删除线(步骤s41的判定为否)。此时,步骤s43中,处理器11将印迹24及印迹25和噪声图像26判定为并非修订章的印迹的其他印迹。其他印迹为从文档图像中检测到的印迹中的、骑缝章的印迹和修订章的印迹以外的印迹,因而成为公司章的印迹的候补。
[0071]
回到图4,步骤s23中,处理器11针对成为公司章的印迹的候补的印迹基于大小来排优先级。印迹越大,则优先级越高。在大小相同的情况下,先检测到的印迹的优先级变高。此处,设原稿图像中位于-y轴方向的印迹先被检测到。图2所示的示例中,印迹24及印迹25大于噪声图像26。因此,噪声图像26的优先级成为3。而且,印迹24及印迹25为大致相同的大小,但在文档图像20中,印迹24位于印迹25的-y轴方向。因此,印迹24的优先级成为1,印迹25的优先级成为2。
[0072]
步骤s24中,处理器11对成为公司章的印迹的候补的印迹基于布局(layout)来排优先级。首先,对处于印迹周围的空白的量进行计数。关于所述空白的量,例如可使用与背景相同颜色的像素数。所述周围例如表示以印迹为中心而规定的距离以内的范围。周围的空白的量越多,则优先级越高。在周围的空白的量相同的情况下,先检测到的印迹的优先级变高。此处,设原稿图像中位于-y轴方向的印迹先被检测到。图2所示的示例中,印迹24及印迹25设于合同末尾的署名栏。所述署名栏与合同的其他部分相比,空白更多。另一方面,噪声图像26设于合同的正文中。合同的正文的空白少。因此,印迹24及印迹25的周围的空白的量较噪声图像26的周围的空白的量更多。因此,噪声图像26的优先级成为3。而且,印迹24及印迹25的周围的空白的量大致相同,但文档图像20中印迹24位于印迹25的-y轴方向。因此,印迹24的优先级成为1,印迹25的优先级成为2。
[0073]
步骤s25中,处理器11按照优先级来判定公司章的印迹。例如,在成为提取对象的值的个数为2的情况下,将优先级高的上位两个印迹判定为公司章的印迹。图2所示的示例中,印迹24的优先级成为1,印迹25的优先级成为2,噪声图像26的优先级成为3。因此,将印迹24和印迹25判定为公司章的印迹。
[0074]
回到图3,步骤s14中,处理器11识别步骤s11中获取的文档图像所含的字符。关于所述字符识别,例如可使用光学字符识别(optical character recognition,ocr)。
[0075]
步骤s15中,处理器11从文档图像中在步骤s25中被判定为公司章的印迹的印迹的周边范围中,提取对于关键字的值。所谓周边范围,是指以印迹的位置为基准而规定的区域。图2所示的示例中,以印迹24、印迹25的位置为基准而规定周边范围28、周边范围29。所述周边范围28、周边范围29分别是例如从印迹24、印迹25的位置起,在-x方向上为第一距离
以内,且在y方向及-y方向上分别为第二距离以内的范围。此处,设预先规定“公司名”的关键字。
[0076]
此时,首先在周边范围28中检索“公司名”的关键字。此处,图2所示的示例中,周边范围28中包含“公司名”的字符串31及“公司名”的字符串33,因而检索的结果为,检测到这些字符串31及33作为关键字。此时,使用最接近印迹24的位置的字符串31,不使用字符串33。接着,从字符串31的附近范围中提取值。所谓附近范围,是指以字符串31的位置为基准而规定的区域。附近范围例如小于周边范围。此处,附近范围是从字符串31的位置起在x轴方向上为既定距离以内的范围。此外,在预先规定值的形式的情况下,提取附近范围中所含的信息中预定形式的信息作为值。图2所示的示例中,提取处于字符串31的附近范围的、“股份有限公司a”的字符串32作为对于字符串31的值。字符串31及字符串32均为字符识别的结果。此外,此处不提取处于字符串33的附近范围的、“股份有限公司b”的字符串34。即,仅提取最接近印迹24的位置的值。
[0077]
接下来,在周边范围29中检索“公司名”的关键字。图2所示的示例中,在周边范围29中仅包含“公司名”的字符串33,因而检索的结果为,检测到所述字符串33。接着,提取处于字符串33的附近范围的、“股份有限公司b”的字符串34作为对于字符串33的值。字符串33及字符串34均为字符识别的结果。
[0078]
步骤s15中提取的值例如是与对应的关键字成组地存储于存储部14。图2所示的示例中,“公司名”的字符串31与“股份有限公司a”的字符串32的组、“公司名”的字符串33与“股份有限公司b”的字符串34的组存储于存储部14。而且,这些关键字与值的组也可作为属性信息而附加于文档图像20。
[0079]
根据以上所说明的实施方式,从公司章的印迹的周边范围中提取表示签约人的信息,因而与和公司章的印迹的位置无关地进行表示签约人的信息的提取的情况相比,可高精度地提取表示签约人的信息。而且,在公司章的印迹的周边范围内进行值的提取,因而与以整个文档图像作为对象进行值的提取的情况相比,减轻提取值的处理的负荷。进而,将文档图像所含的骑缝章的印迹及修订章的印迹从公司章的印迹的候补中除外,因而在文档图像中含有骑缝章的印迹及修订章的印迹的情况下,可防止将这些印迹用作公司章的印迹而提取错误的信息作为值。即,在文档图像中含有骑缝章的印迹及修订章的印迹的情况下,可防止提取签约人的信息的精度降低。
[0080]
进而,根据文档图像中的印迹的位置及间隔来判定骑缝章的印迹,因而与和文档图像中的印迹的位置及间隔无关地区分骑缝章的印迹与其他印迹的情况相比,可高精度地区分这些印迹。进而,在文档图像表示单一页面的情况下,将设于文档图像的端部的印迹判定为骑缝章的印迹,因而此时与和文档图像的端部的位置无关地区分骑缝章的印迹与其他印迹的情况相比,可高精度地区分这些印迹。进而,在文档图像表示双联页页面的情况下,将设于这些页面的交界部的印迹判定为骑缝章的印迹,因而此时与和这些页面的交界部的位置无关地区分骑缝章的印迹与其他印迹的情况相比,可高精度地区分这些印迹。
[0081]
进而,将文档图像中位于与标注有删除线的字符对应的位置的印迹判定为修订章的印迹,因而与和文档图像中的标注有删除线的字符的对应位置无关地区分修订章的印迹与其他印迹的情况相比,可高精度地区分这些印迹。进而,按照根据印迹的大小所排的优先级来判定公司章的印迹,因而与和印迹的大小无关地区分公司章的印迹与其他印迹的情况
相比,可高精度地区分这些印迹。进而,按照根据处于印迹周围的空白的量所排的优先级来判定公司章的印迹,因而与和处于印迹周围的空白的量无关地区分公司章的印迹与其他印迹的情况相比,可高精度地区分这些印迹。进而,在公司章的印迹的周边范围中包含多个表示签约人的信息的情况下,仅提取最接近公司章的印迹的位置的、表示签约人的信息,因而与和相对于公司章的印迹的位置无关地进行表示签约人的信息的提取的情况相比,可高精度地提取表示签约人的信息。
[0082]
3.变形例
[0083]
所述实施方式为本发明的一例。本发明不限定于所述实施方式。而且,所述实施方式也可如以下的示例那样变形而实施。此时,以下的两个以上的变形例也可组合使用。
[0084]
所述实施方式中,处理器11也可在检测到印迹后,从文档图像中去除印迹,对去除了印迹的文档图像实施字符识别。所述印迹的去除也可使用已知的技术而进行。例如也可将作为印迹颜色的红色的部分从文档图像中去除。图2所示的示例中,公司章的印迹24、印迹25分别与“股份有限公司a”、“股份有限公司b”的字符串32、字符串34的最后的字符重叠。通过去除公司章的印迹24及印迹25后进行字符识别,从而可更准确地识别这些字符串32、34。根据本变形例,与在去除印迹前进行字符识别的情况相比,字符识别的精度提高。
[0085]
所述实施方式中,处理器11也可变更公司章的印迹的周边范围。例如也可根据文档的类别来变更公司章的印迹的周边范围。其原因在于,有时公司章的印迹与关键字及值的位置关系视文档的类别而不同。例如在文档的类别为第一类别的情况下,也能以周边范围成为横长的形状的方式,变更周边范围的纵向或横向的长度。另一方面,在文档的类别为第二类别的情况下,也能以周边范围成为纵长的形状的方式,变更周边范围的纵向或横向的长度。在其他示例中,也可根据值的类别来变更公司章的印迹的周边范围。其原因在于,有时公司章的印迹与关键字及值的位置关系视值的类别而不同。例如在值为公司名的情况与个人名的情况下,也可变更周边范围的大小或形状。在其他示例中,也可根据公司章的印迹的位置来变更公司章的印迹的周边范围。图2所示的示例中,例如也能以周边范围28的下端及周边范围29的上端位于公司章的印迹24与公司章的印迹25之间、例如中间的方式,来变更周边范围28及周边范围29。或者,图2所示的示例中,在甲的署名栏与乙的署名栏之间设有空白行。因此,也能以周边范围28的下端及周边范围29的上端位于所述空白行的方式,来变更周边范围28及周边范围29。由此,防止从一个周边范围29中提取多个值。
[0086]
所述实施方式中,判定文档图像是否表示双联页页面的方法不限定于使用纵横比的方法。例如在用户进行指定是否为双联页页面的操作的情况下,也可根据所述操作来判定文档图像是否表示双联页页面。在其他示例中,有时在双联页页面的中央部设有线或虚线,因而也可根据此种线的有无来判定文档图像是否表示双联页页面。在其他示例中,视文档不同,有时最初的页面及最后的页面成为封面及封底,因而为单一页面,其他页面为双联页页面,因此也可根据是否为最初的页面或最后的页面来判定文档图像是否表示双联页页面。
[0087]
所述实施方式中,也可在排优先级后,进行骑缝章判定处理及修订章判定处理。此时,对骑缝章的印迹及修订章的印迹也排优先级。而且,也可将大小未达阈值的印迹从公司章的印迹的候补中除外,针对大小为阈值以上的印迹,基于布局来排优先级。
[0088]
所述实施方式中,也可在基于大小的优先级与基于布局的优先级不同的情况下,
通过基于布局的优先级来变更基于大小的优先级。例如,在基于大小的优先级为2,但基于布局的优先级为3的情况下,也可将优先级降低至3。而且,也可根据基于大小的优先级和基于布局的优先级来算出得分,并根据得分而算出综合的优先级。例如在基于大小的优先级为1,基于布局的优先级为1的情况下,得分成为1+1=2。在基于大小的优先级为2,基于布局的优先级为2的情况下,得分成为2+2=4。在基于大小的优先级为3,基于布局的优先级为3的情况下,得分成为3+3=6。此时,综合的优先级以得分由小到大的顺序变高。
[0089]
所述实施方式中,也可未必进行优先级的赋予。例如在从文档图像中仅检测到公司章的印迹、骑缝章的印迹及修订章的印迹的情况下,也可不进行优先级的赋予。此时,从文档图像中检测到的印迹中的、骑缝章的印迹和修订章的印迹以外的印迹成为公司章的印迹。
[0090]
所述实施方式中,也可未必进行骑缝章判定处理及修订章判定处理。一般来说,公司章的印迹较骑缝章的印迹或修订章的印迹等其他印迹更大,因而公司章的印迹相较于其他印迹,基于大小的优先级更高。因此,也可根据基于大小的优先级来判定公司章的印迹。而且,一般来说,公司章的印迹与其他印迹相比,周围的空白更多,因而即便存在公司章的印迹的大小以上的其他印迹,公司章的印迹与其他印迹相比,基于布局的优先级也更高。因此,也可除了通过基于大小的优先级以外,也通过基于布局的优先级来判定公司章的印迹。
[0091]
所述实施方式中,也可将公司章的印迹用作关键字。此时,也可从关键字的附近范围中提取值。所谓附近范围,是指以公司章的印迹的位置为基准而规定的区域。图2所示的示例中,在从公司章的印迹24、印迹25的位置起在-x轴方向上为既定距离以内的范围中,记载有签约人甲的公司名、签约人乙的公司名。此时,附近范围也可是从公司章的印迹24、印迹25的位置起在-x轴方向上为既定距离以内的范围。此时,“公司名”的字符串也可不规定为关键字。即便为此种方法,也可提取值。
[0092]
所述实施方式中,字符识别也可未必对整个文档图像实施。例如也可仅对公司章的印迹的周边范围实施字符识别。
[0093]
所述实施方式中,特定类别的印迹不限定于公司章的印迹。例如在签约人为个人的情况下,有时针对签约人名盖有个人的认可章。此时,特定类别的印迹成为个人的认可章的印迹。个人的认可章的印迹的基于大小的优先级变低,但基于布局的优先级变高,因而可判定为特定类别的印迹。
[0094]
所述实施方式中,由文档图像表示的文档不限定于合同。所述文档例如若为收据、账单等在印迹附近记载有值的文档,则可为任何文档。而且,值也不限定于表示签约人的信息。例如,值若为收据或账单的发行者等记载于印迹附近的信息,则可为任何信息。
[0095]
所述实施方式中,外部装置也可具备图像处理装置10的一部分功能。例如,经由通信线路而与图像处理装置10连接的伺服装置也可从图像处理装置10获取文档图像,进行从所述文档图像中提取值的处理。本示例中,伺服装置成为本发明的信息处理装置。
[0096]
所述实施方式中,所谓处理器是指广义的处理器,包含通用的处理器(例如cpu等)或专用的处理器(例如图形处理器(graphics processing unit,gpu)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field programmable gate array,fpga)、可编程逻辑器件等)。
[0097]
另外,所述实施方式的处理器的动作也可并非仅由一个处理器达成,而是由存在
于物理上远离的位置的多个处理器协作达成。而且,处理器的各动作的顺序并非仅限定于所述各实施方式中记载的顺序,也可适当变更。
[0098]
本发明也可作为图像处理装置10中执行的程序而提供。图像处理装置10为本发明的计算机的一例。所述程序可经由国际互联网(internet)等通信线路而下载,也能以记录于磁记录介质(磁带、磁盘等)、光记录介质(光盘等)、光磁记录介质、半导体存储器等计算机可读取的记录介质的状态而提供。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1