信息处理装置和计算机可读取介质的制作方法

文档序号:26942289发布日期:2021-10-12 17:07阅读:54来源:国知局
信息处理装置和计算机可读取介质的制作方法

1.本公开涉及信息处理装置和计算机可读取介质。


背景技术:

2.在日本特开2004-171316号公报中,作为针对纸文档以及文档图像的文档检索手段,以提出应用字符识别技术来检索包含给定的关键字的文档群的方法为课题,公开了如下的系统,分离字符识别装置和检索装置,作为字符识别装置的输出形式,采用永久地保持字符行提取以及字符截取以及字符识别的多重假说的文件(字符识别装置读取假说文件),公开了通过构成以该字符识别装置读取假说文件为基础检索关键字的功能,来提供进行必要的文档检索以及文件分类。
3.在日本特开平07-160730号公报中,以即使是包含误识别的文档也能够可靠地进行检索为目的,公开了如下的全文检索装置,该装置设置有:转换候选生成单元,其在难以从以活字打印的文档的图像数据转换为文本数据时,使用标准模式等生成多个转换候选,将第1候选作为确定文档数据,将从第2候选起作为转换候选数据;文件库,其储存该生成的确定文档数据和转换候选数据;关键词转换单元,其将存储在所述文件库中的转换候选数据的字符替换为所输入的关键词的字符,生成类似关键词,生成由关键词和类似关键词构成的检索式;以及检索单元,其根据以上生成的检索式,从所述文件库中检索确定文档数据。
4.在日本特许第3689455号公报中,公开了如下的信息处理方法,在具有字符识别单元、存储单元和字符串的指定单元的信息处理装置中,从由所述字符识别单元从文档图像中识别出的文本信息中检索通过所述指定单元指定的字符串,该信息处理方法的特征在于,包括:判别工序,由所述信息处理装置具备的判别单元参照存储有特定字符的所述存储单元,判别在所述指定的字符串中是否包含有所述特定字符;生成工序,当在所述判别步骤中判别为包含所述特定字符时,所述信息处理装置具备的生成单元生成全部部分字符串,所述部分字符串是所述指定字符串中的连续的字符并且在字符串中不包含所述特定字符的部分;检测工序,所述信息处理装置具备的检测单元检测根据所述文本信息生成的与所述部分字符串相同字符数的索引中是否包含全部的所述部分字符串;判断工序,在所述检测工序中检测为包含所述部分字符串的情况下,所述信息处理装置具备的判断单元判断在所述文本信息中是否包含通过用预定数量以内的其他字符串替代所述指定字符串中的所述特定字符的字符串模式;以及显示工序,所述信息处理装置具备的显示单元将在所述判断工序中判断为包含所述字符串模式的文本信息或对应的文档图像作为检索结果显示在显示装置上。


技术实现要素:

5.在使用赋予给文档的属性信息进行检索的情况下,与无论用户是否能够赋予该属性信息,或者是否通过文档管理软件提取都一律使用属性信息进行检索。因此,会产生检索
遗漏或检索噪声。因此,本公开的目的在于提供一种信息处理装置和计算机可读取介质,在使用赋予给文档的属性信息进行检索的情况下,与无论用户是否能够赋予该属性信息,或者是否通过文档管理软件提取都一律使用属性信息进行检索的情况相比,能够抑制检索遗漏或检索噪声的产生。
6.根据本公开的第一方面,提供一种信息处理装置,其包括存储器和一个或多个处理器,所述存储器将赋予给文档的属性信息以及如下信息对应起来存储,该信息表示该属性信息是用户能够赋予的第1属性信息还是通过文档管理软件提取的第2属性信息,所述处理器使用所述第1属性信息和所述第2属性信息进行文档的检索。
7.根据本公开的第二方面,所述第2属性信息有多个种类,所述处理器使用所述第2属性信息的种类的优先顺序进行检索。
8.根据本公开的第三方面,所述文档是图像,作为所述第2属性信息,包含分析图像的结果,作为第2属性信息的所述种类,具有字符的形态、记载字符的位置、字符串的统计信息、字符串的词类、与预定的字符串处于预定的位置关系的字符串中的任意1个以上,所述处理器能够变更所述种类的优先顺序,所述处理器在检索时能够指定使用第2属性信息的上级顺序。
9.根据本公开的第四方面,所述处理器能够对于所述第1属性信息指定检索中的完全一致和部分一致中的任一个,所述处理器对所述第2属性信息进行基于部分一致的检索。
10.根据本公开的第五方面,提供一种计算机可读取介质,其存储有使包括存储器和一个或多个处理器的计算机执行处理的程序,所述存储器将赋予给文档的属性信息以及如下信息对应起来存储,该信息表示该属性信息是用户能够赋予的第1属性信息还是通过文档管理软件提取的第2属性信息,所述处理使用所述第1属性信息和所述第2属性信息进行文档的检索。
11.发明效果
12.根据上述第一方面,在使用赋予给文档的属性信息进行检索的情况下,与无论用户是否能够赋予该属性信息,或者是否通过文档管理软件提取都一律使用属性信息进行检索的情况相比,能够抑制检索遗漏或检索噪声的产生。
13.根据上述第二方面,能够使用第2属性信息的种类的优先顺序进行检索,
14.根据上述第三方面,在文档是图像的情况下,能够将分析图像的结果包含于第2属性信息内,在检索时使用第2属性信息指定上级顺序。
15.根据上述第四方面,能够对于第1属性信息指定检索中的完全一致和部分一致中的任一个,对第2属性信息进行基于部分一致的检索。
16.根据上述第五方面,在使用赋予给文档的属性信息进行检索的情况下,与无论用户是否能够赋予该属性信息,或者是否通过文档管理软件提取都一律使用属性信息进行检索的情况相比,能够抑制检索遗漏或检索噪声的产生。
附图说明
17.图1是关于本实施方式的结构例的示意模块结构图。
18.图2是示出使用本实施方式的系统结构例的说明图。
19.图3是示出本实施方式的处理例的说明图。
20.图4是示出本实施方式的具体模块结构的说明图。
21.图5是示出本实施方式的处理例的流程图。
22.图6a是示出环境设定(属性a抽出规则)画面的显示例的说明图。
23.图6b是示出环境设定(属性a抽出规则)画面的显示例的说明图。
24.图7是示出环境设定(属性b抽出规则)画面的显示例的说明图。
25.图8是示出本实施方式的处理例的流程图。
26.图9是示出本实施方式的处理例的说明图。
27.图10是示出属性b显示区域的显示例的说明图。
28.图11是示出属性检索画面的显示例的说明图。
29.图12是示出检索结果画面的显示例的说明图。
30.图13是示出键值提取表的数据结构例的说明图。
具体实施方式
31.以下,基于附图说明实现本公开的优选的一个实施方式的例子。
32.图1示出关于本实施方式的结构例的示意模块结构图。
33.另外,模块一般是指逻辑上可分离的软件(作为“软件”的解释,包括计算机程序)、硬件等部件。因此,本实施方式中的模块不仅指计算机程序中的模块,还指硬件结构中的模块。因此,本实施方式还兼作说明用于作为这些模块发挥功能的计算机程序(例如,用于使计算机执行各个步骤的程序、用于使计算机作为各单元发挥功能的程序、用于使计算机实现各功能的程序)、系统和方法。然而,为了便于说明,使用了“存储”、“进行存储”以及与它们等同的语句,这些语句在实施方式为计算机程序的情况下,是指使存储装置进行存储或进行控制以使存储装置进行存储。另外,模块可以与功能一一对应,但在安装时,可以由1个程序构成1个模块,也可以由1个程序构成多个模块,反之也可以由多个程序构成一个模块。并且,多个模块可以由一个计算机执行,一个模块也可以通过分布式或并行环境中的多个计算机执行。并且,一个模块中可以包括其他模块。另外,以下,“连接”除了用于物理连接以外,还用于逻辑连接(例如,数据的授受、指示、数据间的参照关系、登录等)的情况。“预定”是指在作为对象的处理之前确定,当然包括本实施方式的处理开始之前,还包括即使在本实施方式的处理开始之后,只要是在作为对象的处理之前,就按照此时的状况/状态或者按照此前的状况/状态进行确定。当存在多个“预定值”时,这些值可以彼此不同,或者两个以上的值(“两个以上的值”当然包括所有值)也可以相同。另外,“在是a的情况下,进行b”这样的记载表示“判断是否是a,在判断为是a的情况下,进行b”。但是,除了不需要判断是否是a的情况以外。另外,在如“a、b、c”等那样列举了事物的情况下,只要没有事先说明则是例示列举,包含仅选择其中一个的情况(例如仅a)。
34.另外,系统或装置除了通过网络(“网络”包括一对一对应的通信连接)等通信手段连接多台计算机、硬件、装置等而构成之外,还包括通过一台计算机、硬件、装置等实现的情况。“装置”和“系统”用作同义术语。当然,“系统”不包括只是人为安排的社会性“结构”(即,社会系统)。
35.另外,在各模块的每个处理或在模块内进行多个处理的情况下的该每个处理中,从存储装置读入成为对象的信息,在进行该处理后,将处理结果写入存储装置。因此,关于
处理前从存储装置的读入、处理后向存储装置的写出,有时省略说明。
36.作为本实施方式的信息处理装置100具有使用赋予给文档的属性信息的搜索功能。如图1的例子所示,信息处理装置100至少具有处理器105、存储器110,并通过连接它们以用于进行数据交换的总线198构成。此外,信息处理装置100可以包括输出装置185,受理装置190和通信装置195。并且,经由总线198,在处理器105、存储器110、输出装置185、受理装置190、通信装置195之间进行数据的交换。
37.并且,图1的例子所示的框图还示出实现本实施方式的计算机的硬件结构例。执行作为本实施方式的程序的计算机的硬件结果结构是如图1所例示的计算机,具体而言是可以成为个人计算机、服务器的计算机等。作为具体例,使用处理器105作为处理部,使用存储器110作为存储装置。
38.处理器105可以是一个,也可以是多个。作为处理器105,例如包括cpu(centralprocessing unit的简称)、微处理器等。在使用多个处理器105的情况下,可以是密结合多处理器,疏结合多处理器中的任意方式。例如,可以在一个处理器105中搭载多个处理器内核。进而,也可以构成为利用通信路径连接多个计算机,虚拟地如一台计算机那样动作的系统。作为具体例,也可以构成为作为疏结合多处理器的集群系统、计算机集群。处理器105执行程序存储器120内的程序。
39.作为存储器110,例如可以包含寄存器或高速缓冲存储器等的处理器105内部的半导体存储器,也可以是由ram(random access memory的简称)或rom(read only memory的简称)等构成的作为主存储装置的主存储器,还可以是具有作为永久性存储装置的功能的hdd(hard disk drive的简称)或ssd(solid state drive的简称)的内部存储装置、cd、dvd、blu-ray(注册商标)disc、usb存储器、存储卡等的外部存储装置或辅助存储装置,另外,也可以包括经由通信线路连接的服务器等的存储装置。
40.存储器110具有主要存储程序的程序存储器120和主要存储数据的数据存储器115。另外,在程序存储器120、数据存储器115中,除了存储有图示的模块的程序之外,还可以存储用于启动本计算机的os等程序、在模块的执行中适当变化的参数等数据。
41.输出装置185例如包括显示装置187和打印装置189。液晶显示器、有机el显示器和三维显示器等的显示装置187将处理器105的处理结果、数据存储器115内的数据等显示为文本和图像信息等。打印机、复合机等的打印装置189打印处理器105的处理结果、数据存储器115内的数据等。另外,作为输出装置185,也可以包括扬声器、使设备振动的致动器等。
42.受理装置190例如具有指示受理装置192、文件读取装置194等。键盘、鼠标、麦克风、相机(包括视线检测相机等)等的指令受理装置192受理基于用户对这些装置的操作(包括操作、语音、视线等)的数据。
43.另外,也可以如触摸屏那样具备显示装置187和指示受理装置192这两者的功能。在这种情况下,关于键盘的功能的实现,即使不存在物理键,也可以在触摸屏上用软件描绘键盘(也称为所谓的软件键盘、屏幕键盘等)来实现键盘的功能。
44.另外,作为用户接口,主要使用显示装置187、指示受理装置192。
45.扫描仪、相机等的文档读取装置194读取或拍摄文档,接受产生的图像数据。
46.通信装置195是用于经由通信线路与其他装置连接的网卡等的通信线路接口。
47.在本实施方式中,关于基于计算机程序的实施方式,使本硬件结构的程序存储器
120读入作为软件的计算机程序,软件和硬件资源协作来实现本实施方式。
48.另外,图1所示的硬件结构表示一个结构例,本实施方式不限于图1所示的结构,只要是能够执行本实施方式中说明的模块的结构即可。例如,作为处理器105,可以使用gpu(graphics processing unit的缩写,包括gpgpu(general-purpose computingon graphics processing units的缩写)),也可以由专用的硬件(例如特定用途集成电路(作为具体例,有asic(application specific integrated circuit的简称)等)或可重构的集成电路(作为具体例,有fpga(field-programmable gate array的简称)等)构成一部分模块的执行,也可以是一部分模块位于外部的系统内并通过通信线路连接的方式,还可以是图1所示的多个系统通过通信线路连接并相互协调动作。另外,特别地,除了可以组入个人计算机以外,还可以组入便携信息通信设备(包含移动电话、智能手机、移动设备、可穿戴计算机等)、信息家电、机器人、复印机、传真机、扫描仪、打印机、复合机(具备扫描仪、打印机、复印机、传真机等任意两种以上功能的图像处理装置)等。
49.处理器105经由总线198与存储器110、输出装置185、受理装置190、通信装置195连接。处理器105根据记述有作为程序存储器120内的程序的各模块的执行序列的计算机程序来执行处理。例如,以文件读取装置194读取了文档的图像,或者通过指示受理装置192受理了用户的操作为契机,执行程序存储器120内的与该契机对应的模块的处理,将该处理结果存储到数据存储器115中,或者输出到显示装置187,或者控制通信装置195发送到其他装置。
50.存储器110具有数据存储器115、程序存储器120,并且经由总线198与处理器105、输出装置185、受理装置190、通信装置195连接。
51.数据存储器115存储文档存储模块125和属性存储模块130。
52.文档存储模块125存储文档。在此,“文档(也称为文件)”是文本数据、数值数据、图形数据、图像数据、动态图像数据、声音数据等,或者它们的组合,它们成为存储、编辑和检索等的对象,能够在系统或者利用者之间作为单独的单位进行交换,并且包含与它们类似的数据。具体地,文档包括由文档管理软件(包括文档生成程序、所谓的字处理软件等)生成的文档、由图像读取装置(扫描仪等)读取的图像、网页等。
53.属性存储模块130存储赋予给文档的属性信息。该属性信息成为检索对象,用于检索文档。属性信息大致分为两种。第一种是用户可赋予的第1属性信息,第二种是通过文件管理软件提取的第2属性信息。即,属性存储模块130将赋予给文档的属性信息与表示该属性信息是第1属性信息还是第2属性信息的信息对应起来进行存储。作为“表示是第1属性信息还是第2属性信息的信息”,例如可以是表示第1属性信息的标志,也可以是表示是第2属性信息的标志,还可以以能够区分第1属性信息和第2属性信息的方式将它们分别存储在不同的表中。进而,第1属性信息也可以有多种。如后所述,例如有文档制作日期时间、文件制作者等。而且,第2属性信息可以有多种。如后所述,例如有字符的形态、记载有字符的位置等。
54.这里,“第1属性信息”是文档制作者等的用户能够赋予的属性信息。通常称为文档的属性,可由用户输入。用户的输入具备可能性即可。因此,也可以由文档管理软件输入。在由文档管理软件输入的情况下,用户也可以在属性显示画面上进行修改。即,所谓用户能够赋予,只要用户能够输入属性的值,或者用户能够修正属性的值即可。作为后者的例子,例
如相当于文件生成日期时间,文件生成者等属性。“文档生成日期时间”是由个人计算机等的用户使用的终端等根据文档存储日期时间而附加的属性信息,并且“文档生成者”是由文档管理软件附加的属性信息,并且是用户可以修改的信息。另外,用户只要是能够编辑文档的内容或属性信息的人即可,例如,除了文档生成者之外,还可以包含文档修改者、校正者、文档生成者的上司等,也可以是其中限定的人。
[0055]“第2属性信息”是根据文档的内容确定的属性信息,并且是由文档管理软件从文档中提取的属性信息。例如,在文档是图像的情况下,可以进行字符识别,将作为对文档内的字符图像进行了识别的结果的文本作为第2属性信息。此外,也可以将对文档内的字符图像进行图像分析、语言处理等的结果作为第2属性信息。具体而言,具有后述的“字符的形态”、“记载字符的位置”、“字符串的统计信息”、“字符串的词类”、“与预定的字符串处于预定的位置关系的字符串”。
[0056]
具体地,当用户给出赋予第2属性信息的指示时,该属性信息的内容可以是由文档管理软件通过提取或计算等得到的值。更具体地,如果赋予作为字符形态的一例的“字符大小”作为属性信息时,文档管理软件可以提取文档内的各字符的大小,提取大小在阈值以上的字符串,从而将文档内的“字符大小在阈值以上的字符串(具体的字符串)”自动作为“字符大小”的属性信息的内容。第2属性信息是由文档管理软件提取的属性,不会由用户从文档中提取。当然,这不会妨碍用户能够改变属性信息的内容。
[0057]
这里,“第1属性信息”是用户介入的可靠信息,而“第2属性信息”通过文档管理软件而被自动赋予,因此尤其可能根据字符识别的性能而不同,因而“第2属性信息”可以说是“不可靠的属性信息”。以下,也将“第1属性信息”称为属性a。“第2属性信息”也称为属性b。
[0058]
程序存储器120存储检索模块135、属性赋予(a)模块140、属性赋予(b)模块145。
[0059]
检索模块135使用第1属性信息和第2属性信息进行文档的检索。
[0060]
另外,检索模块135也可以使用第2属性信息的种类的优先顺序进行检索。
[0061]
而且,在文档为图像,作为第2属性信息包含分析图像的结果的情况下,作为第2属性信息的种类,可以具有字符的形态、记载字符的位置、字符串的统计信息、字符串的词类、与预定的字符串处于预定的位置关系的字符串中的任意1个以上,
[0062]
在这种情况下,检索模块135可以变更种类的优先顺序,也可以在检索时指定使用第2属性信息的上级的顺序。
[0063]
在此,作为“分析图像”,包括进行图像内的字符识别、提取字符的位置、大小、字体等。
[0064]
作为“字符的形态”,有字符的大小、字符的颜色、字符的字体(字体)、手写/印刷字符等。作为“记载字符的位置”,包括文档的页眉或页脚、右上、右下、左上、左下等。作为“字符串的统计信息”,有文件中的字符串的出现次数、tf-idf等。另外,这里的字符串也可以是进行词素分析而作为单词提取出的字符串。作为“字符串的词类”,有名词、动词、形容词、副词等。而且,也可以将名词分为人物名、地名等。作为“与预定的字符串处于预定的位置关系的字符串”,使预定的字符串与预定的位置关系对应地存储,在字符识别结果中存在预定的字符串的情况下,提取与图像内的该字符串处于预定的位置关系的字符串的字符识别结果即可。例如,作为预定的字符串有“生成者”,作为预定的位置关系是“在记载为生成者的字符串的右方记载的字符串”的情况下,在字符识别结果中有“生成者”的情况下,相当于将在
记载为该“生成者”的位置的右方记载的字符串作为生成者的姓名提取。
[0065]
另外,检索模块135能够对第1属性信息指定检索中的完全一致和部分一致中的任一方,可以对第2属性信息进行基于部分一致的检索。
[0066]
属性赋予(a)模块140向文档赋予第1属性信息。如上所述,例如,既可以由用户赋予,也可以由计算机内的文档管理软件赋予保存文档的日期时间作为第1属性信息即“文件生成日期时间”。另外,也可以将文档读取装置194读取文档的日期时间作为“文档生成日期时间”来赋予。而且,文档管理软件也可以将操作者作为“文档生成者”赋予。另外,也可以将登录到文档读取装置194的操作者作为“文档生成者”来赋予。以上举例说明了由文档管理软件自动赋予这些属性,然而如上所述,也可以由用户赋予这些属性,并且用户可以修改这些属性的值。关于用户进行修改的例子将使用图6的示例在后面叙述。
[0067]
属性赋予模块(b)145具有图像处理模块150和字符识别模块155。属性赋予(b)模块145向文档赋予第2属性信息。
[0068]
图像处理模块150分析作为文档的图像,提取“字符形态”和“记载字符的位置”,并将它们作为第2属性赋予给文档。
[0069]
字符识别模块155对作为文档的图像中的字符图像进行字符识别,并将作为字符识别结果的文本作为第2属性信息赋予给文档。此外,字符识别模块155还可以对字符识别结果进行词素分析等的语言处理。而且,提取“字符串的统计信息”、“字符串的词类”、“与预定的字符串处于预定的位置关系的字符串”,并将它们作为第2属性赋予给文档。这些属性是不由用户从文档中提取的属性。
[0070]
图2(a)示出构建为独立型系统的例子。
[0071]
信息处理装置100和图像处理装置200连接。图像处理装置200具备扫描和打印文档的功能等。例如是复合机。信息处理装置100通过使用图像处理装置200来实现打印装置189和文档读取装置194的功能。注意,可以将信息处理装置100内置在图像处理装置200内,仅通过图像处理装置200进行文档的检索。
[0072]
图2(b)示出构建为网络型系统的例子。
[0073]
信息处理装置100、图像处理装置200、用户终端210a和用户终端210b经由通信线路290彼此连接。通信线路290可以是无线、有线和它们的组合,例如可以是作为通信基础设施的因特网、内部网等。信息处理装置100的功能可以实现为云服务。
[0074]
在图2(a)和图2(b)中的任一个方式中,例如,用户使用图像处理装置200的扫描功能来读取纸质文档,并且将该文档的图像存储在信息处理装置100中。此时,对文档赋予第1属性信息、第2属性信息。然后,用户使用用户终端210检索存储在信息处理装置100中的文档。例如,使用用户终端210的浏览器来连接到信息处理装置100,通过信息处理装置100的功能来检索文档。
[0075]
图3是示出本实施方式的处理例的说明图。
[0076]
关于信息处理装置300内的模块结构,与图1的例子示出的模块结构进行比较说明。
[0077]
信息处理装置300具有属性检索工具335、文档管理软件340、文件夹325a、文件夹325b等。
[0078]
图像处理装置200与信息处理装置300的文档管理软件340连接。图像处理装置200
读取文档390,并且将文档390的图像作为文档发送到信息处理装置300。
[0079]
文档管理软件340分析文档(文档390的图像),并且根据分析结果向文档赋予属性。而且,根据该属性,将文档存储在文件夹325a、文件夹325b中的任一个或两个中。
[0080]
属性检索工具335根据用户的检索指示,使用属性作为检索关键字从文件夹325a、文件夹325b中进行文档检索。
[0081]
文件夹325相当于信息处理装置100的文档存储模块125。而且,具有作为属性存储模块130的功能。
[0082]
属性检索工具335相当于信息处理装置100的检索模块135。
[0083]
文档管理软件340相当于信息处理装置100的属性赋予(a)模块140和属性赋予(b)模块145。
[0084]
图4是示出本实施方式的具体模块结构的说明图。图4示出了图3例示的文档管理软件340、属性检索工具335的详细的模块结构例。
[0085]
文档管理软件340具有文档取得模块405、字符识别执行模块410、文档管理模块/显示模块415、输出模块420和环境设定模块425。属性检索工具335具有检索条件设定模块430、检索模块/结果显示模块435。
[0086]
图像处理装置200与文档管理软件340的文档取得模块405连接。图像处理装置200将读取的文档发送到文档取得模块405。
[0087]
文档取得模块405与图像处理装置200、字符识别执行模块410、文档管理模块/显示模块415连接。文档获取模块405从图像处理装置200取得文档,并将该文档发送到字符识别执行模块410和文档管理模块/显示模块415。
[0088]
字符识别执行模块410与文档取得模块405和文档管理模块/显示模块415连接。字符识别执行模块410对文档内的字符进行字符识别,并将作为识别结果的文本发送到文档管理模块/显示模块415。另外,在该字符识别时,分析文档,提取字符的形态、记载字符的位置等。进而,进行语言处理,提取字符串的统计信息、字符串的词类等。此外,提取与预定字符串处于预定位置关系的字符串。
[0089]
文档管理模块/显示模块415与文档取得模块405、字符识别执行模块410、输出模块420和环境设定模块425连接。文档管理模块/显示模块415将通过字符识别执行模块410提取的信息作为属性信息并与文档相关联。然后,显示文档和属性信息,使得用户可以修改第2属性信息。
[0090]
输出模块420与文档管理模块/显示模块415和存储模块490连接。输出模块420将通过文档管理模块/显示模块415赋予了属性信息的文档存储在存储模块490中。
[0091]
环境设定模块425与文档管理模块/显示模块415、属性检索工具335的检索条件设定模块430连接。环境设定模块425根据用户的指示将属性信息的取得条件设置为环境设定。关于详细情况,使用图6的例子所示的环境设定(属性a提取规则)画面600、图7的例子所示的环境设定(属性b提取规则)画面700在后面叙述。
[0092]
检索条件设定模块430与文档管理软件340的环境设定模块425和检索模块/结果显示模块435连接。检索条件设定模块430从环境设定模块425接收环境设定,并将其作为检索的条件发送到检索模块/结果显示模块435。
[0093]
检索模块/结果显示模块435与检索条件设定模块430、存储模块490连接。检索模
块/结果显示模块435根据从检索条件设定模块430接收到的环境设定和用户的检索指示,从存储模块490内检索具有与检索条件相匹配的属性信息的文档。
[0094]
存储模块490与文档管理软件340的输出模块420、属性检索工具335的检索模块/结果显示模块435连接。存储模块490存储文档和赋予给该文档的属性信息。具体而言,相当于图3的例子所示的文件夹325a、文件夹325b。
[0095]
图5是示出本实施方式的处理例的流程图。图5示出包括文档和属性信息的登记、以及文档检索的整个处理的例子。
[0096]
在步骤s502中,由信息处理装置300取得通过图像处理装置200扫描的文档。
[0097]
在步骤s504中,通过环境设定来设定属性信息和登记目的地。
[0098]
步骤s502、步骤s504的处理是事前准备。
[0099]
在步骤s506中,当选择文档时,文档管理软件340起动。
[0100]
在步骤s508中,从文档中提取属性a和属性b。关于步骤s508的具体处理将参考图8所示的流程图在后文说明。作为属性b,在文档是图像的情况下,使用字符识别的结果,在文档是文本文件(包含通过字符处理软件生成的文件)的情况下,使用该文档内的全文。
[0101]
在步骤s510中,显示属性a、属性b,接受用户的确认、修改并登记。具体而言,将文档存储在文件夹中。
[0102]
步骤s504至s510中的处理通过文档管理软件340进行。
[0103]
在步骤s512中,根据用户的操作,设定检索条件进行检索。然后,显示检索结果。
[0104]
在步骤s514中,判断检索结果中是否存在文档,在存在文档的情况下结束处理(步骤s599),除此以外的情况下返回步骤s512。
[0105]
步骤s512、步骤s514的处理通过属性检索工具335进行。
[0106]
图6b是示出环境设定(属性a抽出规则)画面600的显示例的说明图。
[0107]
环境设定(属性a提取规则)画面600为了通过环境设定模块425确定赋予属性a的规则而显示,按照用户的操作进行设定。
[0108]
如图6(a)的例子所示,在环境设定(属性a提取规则)画面600上显示文档种类一览显示区域605、属性按钮610等。
[0109]
在文档种类一览显示区域605内选择了“文档种类”的状态下,检测到用户点击了属性按钮610的情况下,显示文档种类的编辑画面。在图6(a)的例子中,在选择了文档种类一览显示区域605内的“收据”的状态下,检测到用户点击了属性按钮610,因此显示图6(b)的例子所示的收据的编辑画面650。
[0110]
在图6(b)的例子中示出的收据编辑画面650中,显示属性名栏655、种类栏660、值栏665、添加按钮670、一览显示区域675等。在一览显示区域675中,可以指定属性名、该属性的种类、值、是否为必须输入、是否为禁止编辑。例如,当在属性名栏655中输入不在一览显示区域675内的名称的属性的情况下(在图6(b)的例子中为“123”),使添加按钮670有效。当选择添加按钮670时,将属性名栏655、种类栏660和值栏665内的内容添加到一览显示区域675中。
[0111]
此外,如图6(c)的示例所示,当检测到用户在一览显示区域675中选择了属性时,使变更按钮680有效。当选择变更按钮680时,利用属性名栏655、种类栏660和值栏665内的内容来设定属性。
[0112]
图7是示出环境设定(属性b抽出规则)画面700的显示例的说明图。
[0113]
环境设定(属性b提取规则)画面700为了通过环境设定模块425确定赋予属性b的规则而显示,按照用户的操作进行设定。
[0114]
在环境设定(属性b提取规则)画面700中,显示大字符栏705、页眉区域、页脚区域的提取栏710、词语出现次数栏715、键值提取栏720、提取词类栏725、字体指定栏730、手写字符/打印字符的提取栏735。
[0115]
在大字符栏705中,确定提取大字符作为属性b的规则。例如,作为将字符作为大字符提取的对象,除了“10号以上”以外,还有“文档内的大小为前两位的字符”等。这里示出了“字符的形态”的一例。除此之外,也可以构成为能够设定字符的颜色等。
[0116]
在页眉区域和页脚区域提取栏710中,规定提取页眉或页脚作为属性b的规则。例如,除了“页眉、页脚两者”之外,还有“仅页眉”、“仅页脚”、“不需要”等。这里示出了“记载字符的位置”的一例。
[0117]
词语出现次数栏715中,作为属性b,规定了根据单词的出现次数提取单词的规则。例如,除了在文档内出现的次数最高为5的“前5”之外,还有“出现5次以上”。这里示出了“字符串的统计信息”的一例。
[0118]
在键值提取栏720中,规定了提取“与预定的字符串处于预定的位置关系的字符串”作为属性b的处理(以下,也称为键值处理)的规则。例如,有“规则1”等。图13是表示键值提取表1300的数据结构例的说明图。这里示出用于提取“预定的字符串和与该字符串处于预定的位置关系的字符串”的规则的一例。键值提取表1300具有键栏1305、值提取规则栏1310。键栏1305存储作为“预定字符串”的键。值提取规则栏1310存储值提取规则。
[0119]
例如,作为规则1,键值提取表1300的第1行表示作为键的“请求编号”的值提取规则是"将位于记载有“请求编号”的位置的右侧的英文数字的10位作为"账单编号“来提取”。图像处理装置200的可选功能或信息处理装置100根据该键值提取表1300提取属性值。具体地说,对文档内的字符图像进行字符识别,在该字符识别结果中具有键栏1305内的字符例的情况下,按照值提取规则栏1310内的规则,提取属性值。由此,能够提取预定的字符串和与该字符串处于预定的位置关系的字符串。
[0120]
在提取词类栏725中,规定了使用词类作为属性b来提取单词的规则。例如,除了“人物名(包括代词)”之外,还有“名词”、“东京都的住所”等。此时可以使用通过词素分析等确定了文档内的单词(包含字符识别结果)的词类的结果。
[0121]
在字体指定栏730中,规定了使用字体作为属性b来提取单词的规则。除了“无指定”之外,还有“明朝体”、“哥特体”、“ocr-b体”等。这里示出了“字符的形态”的一例。
[0122]
在手写字符/打印字符的提取栏735中,作为属性b,规定了根据是手写字符还是打印字符来提取单词的规则。例如,除了“手写字符”之外,还有“印刷字符”、“无指定”等。这里示出了“字符的形态”的一例。另外,在“无指定”的情况下,是手写字符和打印字符双方。
[0123]
图8是示出本实施方式的处理例的流程图。图8示出了图5的例子所示的流程图内的步骤s508的详细处理例。
[0124]
在步骤s802中,从成为目标的文档中提取属性a。这里附加有表示已赋予给文档的属性、例如表示属性a的标志。
[0125]
在步骤s804中,对该文档进行字符识别。
[0126]
在步骤s806中,分析字符的形态等。如上所述,提取字符的大小、颜色、是手写还是打印字符、记载字符的位置等。
[0127]
在步骤s808中,进行词素分析等语言处理。如上所述,提取字符串的统计信息、字符串的词类等。
[0128]
在步骤s810中,提取属性b。根据由图7的例子所示的环境设定(属性b提取规则)画面700确定的规则,提取属性b即可。此外,通过键值处理,抽出成为属性b的字符串。将表示属性b的标志添加给这些属性b,并将其赋予给成为对象的文档。
[0129]
图9是示出本实施方式的处理例的说明图。
[0130]
画面900显示文档显示区域910、文档种类显示区域915、属性a显示区域920、属性b显示区域930、登记目的地显示区域940、登记按钮950等。文档管理模块/显示模块415显示画面900。
[0131]
在文档显示区域910中显示作为对象的文档。也称为预览显示。
[0132]
在属性a显示区域920中,显示根据在环境设定(属性a抽出规则)画面600中设定的规则抽出的属性a。
[0133]
例如,在属性a显示区域920中,作为文档种类
“○○○”
,在第一行中示出属性名“文档生成日期时间”、种类“日期时间”、输入栏“2020/02/20(周四)20:20:20”,在第二行中示出属性名“文档生成者”、种类“文本”、输入栏“xyz”,在第三行中示出了属性名“数据形式”、种类“文本”、输入栏“图像”。
[0134]
在属性b显示区域930中,显示根据在环境设定(属性b抽出规则)画面700中设定的规则抽出的属性b。另外,关于属性b显示区域930的详细情况,将使用图10的例子在后面叙述。
[0135]
在登记目的地显示区域940中显示关于文档的登记目的地的信息。例如,在登记目的地显示区域940中,作为表示登记目的地的信息,示出了根目录文件夹“c¥ddddwwwww¥用户文件夹”、文件夹名“设计文件”、文件名“开发g_安装程序开发环境的研究.xdw”。
[0136]
在检测到用户点击了“登记”按钮950的情况下,将显示为
[0137]“画面900的
[0138]
·
文档种类915
[0139]
·
属性a显示区域920
[0140]
·
属性b显示区域930”[0141]
的属性作为属性赋予给文档。然后,将文档存储在登记目的地显示区域940中显示的登记目的地中。
[0142]
图10是示出属性b显示区域930的显示例的说明图。
[0143]
在属性b显示区域930中,显示属性b(大字符)栏1010、关键字栏1015、属性b(页眉区域、页脚区域的提取)栏1020、关键字栏1025、属性b(词语出现次数)栏1030、关键字栏1035、属性b(键值提取)栏1040、关键字栏1045、属性b(提取词类)栏1050、关键字栏1055、属性b(字体指定)栏1060、关键字栏1065、属性b(手写字符/打印字符的提取)栏1070、关键字栏1075、优先级变更(上)按钮1090a、优先级变更(下)按钮1090b。这些显示内容是根据在图7的例子所示的环境设定(属性b提取规则)画面700中设定的规则提取出的结果。
[0144]
在属性b(大字符)栏1010中,显示字符大小为大的单词的提取结果。具体而言,在
关键词栏1015中,作为属性b的关键词,提取以大字符记载的“安装程序开发环境”。
[0145]
在属性b(页眉区域、页脚区域的提取)栏1020中,显示记载在页眉区域和页脚区域中的单词的提取结果。具体而言,在关键字栏1025中,作为属性b的关键字提取记载在页眉区域或页脚区域中的“公开范围解决开发部......"。
[0146]
在属性b(词语出现次数)栏1030中,显示出现次数在前5位(出现次数多的在前)的单词的提取结果。具体地说,在关键词栏1035中,作为属性b的关键词,提取出现次数多的“安装程序开发环境”。
[0147]
在属性b(键值提取)栏1040中,显示基于键值提取处理的单词的提取结果。具体地说,在关键字栏1045中,作为属性b的关键词,提取作为提取结果的“5年2019年11月11日......”。
[0148]
在属性b(提取词性)栏1050中,显示作为人物名的单词的提取结果。具体而言,在关键词栏1055中,作为属性b的关键字提取作为人物名的“abcd”。
[0149]
在属性b(字体指定)栏1060中,显示所指定的字体的提取结果。具体地说,在关键词栏1065中,作为属性b的关键词提取以所指定的字体记载的“事业本部公司......”。
[0150]
在属性b(手写字符/打印字符的提取)栏1070中,显示作为所指定的手写字符(或打印字符)的单词的提取结果。具体而言,在关键词栏1075中,作为属性b的关键字,提取作为手写字符的
“あいうえ”

[0151]
另外,通过优先级变更(上)按钮1090a、优先级变更(下)按钮1090b,能够改变作为检索对象时的优先级。具体而言,在选择属性b(大字符)栏1010、属性b(页眉区域、页脚区域的提取)栏1020、属性b(词语出现次数)栏1030、属性b(键值提取)栏1040、属性b(提取词性)栏1050、属性b(字体指定)栏1060、属性b(手写字符/打印字符的提取)栏1070中的任一个,并选择优先级变更(上)按钮1090a或优先级变更(下)按钮1090b时,所选择的属性b(大字符)栏1010等上下移动。其结果是,属性b显示区域930内的位次发生变更。即,在将这些属性b作为检索对象的情况下,越是位于上侧的关键词,则作为检索对象被采用的可能性越高。由此,可以改变属性b的优先次序。
[0152]
另外,在属性b(大字符)栏1010、属性b(页眉区域、页脚区域的提取)栏1020、属性b(词语出现次数)栏1030、属性b(键值提取)栏1040、属性b(提取词性)栏1050、属性b(字体指定)栏1060、属性b(手写字符/打印字符的提取)栏1070中,也可以进行图7的例子所示的设定。例如,可以在属性b(字体指定)栏1060内设定“明朝体”、“哥特体”、“ocr-b体”等。
[0153]
此外,可以根据用户的操作来变更关键字栏1015、关键字栏1025、关键字栏1035、关键字栏1045、关键字栏1055、关键字栏1065、关键字栏1075内的关键字。这是因为,关键字栏1015等内的关键字是字符识别结果,有时会误识别。
[0154]
图11是示出属性检索画面1100的显示例的说明图。
[0155]
属性检索画面1100是通过属性检索工具335内的检索条件设定模块430显示的画面,是用于用户指示检索的画面。
[0156]
在属性检索画面1100上显示搜索位置栏1105、子文件夹的检索检查栏1110、属性a的检索条件栏1115、属性b的检索条件栏1140、检索按钮1190。
[0157]
搜索位置栏1105指定存储成为检索对象的文档的位置。具体而言,指定文件夹、url(统一资源定位符、uniform resource locator的缩写)等。对于子文件夹,通过检索检
查栏1110指定位于通过搜索位置栏1105指定的位置处的子文件夹下的文档是否也作为检索对象。
[0158]
在属性a的检索条件栏1115中,显示检索词指定栏1120、检索词指定栏1125和检索词指定栏1130。对于各个检索词,可以指定是完全一致的检索还是部分一致的检索。在检索词指定栏1120等中,输入对属性a的属性信息进行检索时的检索词。
[0159]
在属性b的检索条件栏1140中,显示属性b取入程度设定栏1145、检索词指定栏1155、检索词指定栏1160。在检索词指定栏1155等中,输入对属性b的属性信息进行检索时的检索词。
[0160]
然后,使用属性b取入程度设定栏1145内的滑动条1150,指定对哪个属性b的关键词进行检索词指定栏1155等内的检索词的检索。通过使滑动条1150左右移动,能够指定图10的例子所示的属性b显示区域930内的上级的位次。通过使滑动条1150向右侧移动,能够将到下级的位次为止的属性b的种类作为检索对象。例如,在属性b取入程度设定栏1145的最右侧端部有滑动条1150的情况下,通过属性b显示区域930指定的全部属性b(具体而言是关键字栏1015、关键字栏1025、关键字栏1035、关键字栏1045、关键字栏1055、关键字栏1065、关键字栏1075内的关键字)成为检索对象。在属性b取入程度设定栏1145的最左侧端部存在滑动条1150的情况下,通过属性b显示区域930指定的属性b的最上方的属性(具体而言是关键字栏1015内的关键字)成为检索对象。当在属性b取入程度设定栏1145的中央存在滑动条1150时,通过属性b显示区域930指定的属性b的中间次序的属性(具体是关键字栏1015、关键字栏1025、关键字栏1035和关键字栏1045内的关键字)成为检索对象。这样,用户能够在检索时指定使用属性b的上级的次序。
[0161]
另外,在该例子中,对于属性b,不进行基于完全一致的检索,而是仅进行基于部分一致的检索。如上所述,由于属性b的关键词有可能包含误识别的关键词,所以不进行基于完全一致的检索,而是进行基于部分一致的检索。
[0162]
图12是示出检索结果画面1200的显示例的说明图。
[0163]
检索结果画面1200是通过属性检索工具335内的检索模块/结果显示模块435显示的画面,表示根据图11的例子所示的属性检索画面1100的检索指示检索到的结果。
[0164]
检索结果画面1200显示检索结果表1210、属性a信息1230和属性b信息1240。
[0165]
在检索结果表1210中以列表的形式显示检索结果的文档。检索结果表1210具有文件名栏1212、尺寸栏1214、种类栏1216、最终更新日期时间栏1218、文件路径栏1220。在文件名栏1212中显示文档的文件名,在尺寸栏1214中显示该文档的尺寸,在种类栏1216中显示该文档的文件种类,在最终更新日期时间栏1218中显示该文档的最终更新日期时间,在文件路径栏1220中显示存储有该文档的存储目的地。
[0166]
在检索结果表1210中,在一行中显示一个文档。例如,在检索结果表1210的第1行中,作为检索到的第1件文档,在文件名栏1212中显示“开发分担.xdw”,在尺寸栏1214中显示“9kb”,在种类栏1216中显示“ddddwwwww文档”,在最终更新日期时间栏1218中显示“2019/12/10 14:00”,在文件路径栏1220中显示"c¥work”,在第2行中,作为检索到的第2个文档,在文件名栏1212中显示“动作列表.xdw”,在尺寸栏1214中显示“5kb”,在种类栏1216中显示“ddddwwwww文档”,在最终更新日期时间栏1218中显示“2019/12/10 9:00”,在文件路径栏1220中显示"c¥work¥ai”。
[0167]
在属性a信息1230中,显示与用户在检索结果表1210中选择的文档的属性a有关的信息。
[0168]
属性a信息1230具有属性a栏1232、值栏1234。在属性a栏1232中显示属性a,在值栏1234中显示该值。
[0169]
例如,在属性a信息1230内的第1行,在属性a栏1232中显示属性a的“有效期限”,在值栏1234中显示作为该值的“2020/12/10”,在第2行,在属性a栏1232中显示属性a的“文档生成者”,在值栏1234中显示作为该值的“佐藤”。
[0170]
在属性b信息1240中显示与用户在检索结果表1210中选择的文件的属性b有关的信息。
[0171]
属性b信息1240具有属性b的分类栏1242和关键字栏1244。在属性b的分类栏1242中显示属性b的分类(种类),在关键字栏1244中显示属于该分类的关键字。
[0172]
例如,在属性b信息1240内的第1行,在属性b的分类栏1242中显示属性b的“字符大小为大”,在关键字栏1244中显示判断为“字符大小为大”的单词即“安装程序开发环境”,在第2行,在属性b的分类栏1242中显示属性b的“页眉区域、页脚区域”,在关键字栏1244中显示在“页眉区域、页脚区域”中记载的单词即“公开范围开发部”,在第3行中,在属性b的分类栏1242中显示属性b的“文档中的词语出现次数”,在关键字栏1244中显示“文档中的词语出现次数”的前5位的单词即“安装程序开发环境”。
[0173]
并且,关于上述说明的程序,可以通过存储在记录介质中来提供,也可以通过通信单元来提供该程序。在这种情况下,例如,可以将上述说明的程序理解为“记录有程序的计算机可读取的记录介质”的公开内容。
[0174]“记录有程序的计算机可读取的记录介质”是指用于安装和执行程序、程序的流通等的记录有程序的计算机可读取的记录介质,
[0175]
另外,作为记录介质,例如包括数字多功能光盘(dvd)、作为由dvd论坛制定的规格的“dvd-r、dvd-rw、dvd-ram等”、作为由dvd+rw制定的规格的“dvd+r,dvd+rw等”、压缩光盘(cd)、只读存储器(cd-rom)、可记录cd(cd-r)、可重写cd(cd-rw)等、蓝光光盘(blu-ray(注册商标)disc)、光磁盘(mo)、软盘(fd)、磁带、硬盘、只读存储器(rom)、可电擦除和改写的只读存储器(eeprom(注册商标))、闪速存储器、随机存取存储器(ram)、sd(secure digital的简称)存储卡等。
[0176]
并且,上述程序的整体或其一部分也可以记录在上述记录介质中进行保存或流通等。另外,可以通过通信,例如使用在局域网(lan)、媒体接入网络(man)、广域网(wan)、因特网、内部网、外部网等中应用的有线网络或无线通信网络以及它们的组合等的传送介质进行传送,另外,也可以载置于载波进行传送。
[0177]
此外,上述的程序可以是另一程序的一部分或全部,或者可以与另外的程序一起记录在记录介质中。另外,也可以分割记录在多个记录介质中。另外,只要能够复原,则可通过压缩或加密等任何方式进行记录。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1