文档图像处理装置和文档图像处理方法

文档序号:6610978阅读:142来源:国知局
专利名称:文档图像处理装置和文档图像处理方法
技术领域
本发明涉及将文档作为图像来输入并存储的文档图像处理装置和文 档图像处理方法,特别是涉及具有对于所存储的文档的检索功能的文档图 像处理装置和文档图《象处理方法。
背景技术
一种利用图^43描仪等图#^^置将文档转换成图像,并以电子方
式进行存储,且在之后可以检索的文档归档装置已得到实用化。关于这样
的文档归档装置的技术已公开在中国公开专利公报CN1402854A、中国公 开专利公报CN1535430A以及中国公开专利公报CN1851713A中。
在对于作为图像数据而读取的文档图^^行检索时,需要进行对各文 档图像人工附加用于检索的索引信息的作业,因而非常消耗劳力。
另外,还提出了一种定位文档图像的文字区域(文本区域),进行 OCR (Optical Character Reader)识别,并可利用文本内容进行全文检索 的装置。作为利用了 OCR识别的以往技术,例如有日本专利特开平 7-152774号^>报所述的技术。
然而,在OCR识别中存在着需要进行大量的计算而消耗时间的问题。 并且,由于文字识别率不高,所以还存在着因误识别而检索不到的可能性, 在检索精度上存在问题。
另 一方面,在日本专利特开平10-74250号公报中,公开了 一种不使用 OCR识别,而可自动进行全文检索的技术。
上述公报的构成中,准备好将预先利用图像特征对文字进行类似的每 一个文字分类到类似文字类别中的类别字典。然后,在登记文档图4象时, 对文本区域(文字区域)的各文字不进行文字识别,而抽出图4象特征,并 根据图像特征分类到文字类别中,将对按照每一个文字识别出来的类别列 与输入图像一同储存。在进行检索时,将检索关键词的各文字转换为对应 的类别,且将在一部分中包含被转换的类别列的文档图像作为检索结果取
而且,作为基于该构成的效果,记载了可提供一种在文档登记时能够 以少的计算机能力高速地进行登记处理,并且在检索时可实现遗漏少的检 索的文档归档装置。
例如,在基于日本专利特开平10-74250号公报的技术,来制作用于进 行检索的索引信息时,对于构成标题的各文字,将图像特征近似的文字, 按照类似度的顺序,作为候补文字记载在索引信息中。
在将检索关键词与索引信息进行比较时,主要利用索引信息所具有的 类似度。
由于类似度只不过是针对各文字分别独立设定的参数,标题语的作为 惯用语的特征未反映在索引信息中,所以在检索精度上还不够充分。

发明内容
本发明的目的是,通过改进索引信息,而提供一种检索精度更高的文 档图像处理装置、文档图像处理方法。
本发明提供一种文档图像处理装置,其特征在于,具有 字形特征字典,其以单个文字为单位储存有文字图像的图像特征;
文字列抽出部,其以由两个或两个以上文字构成的文字列为单位,抽 取出所输入的文档图像中存在的文字图像;
图《象特;^出部,其将由上述文字列抽出部抽取出的文字列的文字图 像以1个文字为单位进行分割,并抽出各文字图像的图像特征;
特征匹配部,其以由上述图像特征抽出部抽出的文字图像的图像特征 为基础,从上述字形特征字典中,按照图像特征的匹配度从高到低的顺序 选择N个(N>1的整数)文字图像作为候补文字,在将上述文字列的文字 数设为M个(MH的整数)时,制作MxN维的第1索引矩阵,并且对于 由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文 字列,适用基于预定的语言模型的词汇解析,而制作出调整成有意义的文 字列的第2索引矩阵;
索引信息储存部,其将由上述特征匹配部制作的第2索引矩阵与上述 所输入的文档图傳湘对应地进行储存;
检索部,其在检索时,以所输入的检索式中的构成检索关键词的l个 检索文字为单位,检索上述索引信息储存部,而取出具有包含检索文字的 第2索引矩阵的文档图像。
根据本发明,图像特征抽出部将由文字列抽出部定位并抽取出的文档 图像中的文字列的图像以1个文字为单位进行分割,并抽出各文字图像的 图像特征。然后,特征匹配部基于该图像特征,从以单个文字为单位储存 有文字图像的图像特征的字形特征字典中,按照图像特征的匹配度从高到 低的顺序选择N个(N>1的整数)文字图像作为候补文字,并制作抽取出 的文字数为MxN维的第1索引矩阵。
并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文 字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,而制作 出将候补文字列调整成有意义的文字列的第2索引矩阵。
制作的第2索引矩阵,与所输入的文档图^f目对应地被储存在索引信 息储存部中,在检索时,该索引矩阵被用作用于检索文档图像的索引信息。
由此,无须用户的人工操作,而且也无须使用OCR识别,即可自动 地定位文档图像的文字区域中存在的文字列,利用定位的文字列的图像特 征来生成文档图4象的索引信息。
而且,由于抽出各文字图像的图像特征,并选择两个或两个以上图像 特征近似的候补文字,所以通过适当地设定选择的候补文字数量,不会像 OCR识别那样在文字识别中花费时间,可无识别遗漏地进行正确的检索。
并且,由于在检索关键词中输入有意义的文字列,所以通过使第2索 引矩阵的候补文字列成为有意义的文字列,可进一步提高检索精度。
另外,由于字形特征字典将全部单个文字的文字图像的图像特征作为 单位来制作,特征匹配部将抽取出的文字列的图像分割成单个文字的文字 图像,来进行图像特征的匹配,所以,所生成的索引矩阵的精度高。
在检索时,检索部以所输入的检索式中的构成检索关键词的l个检索 文字为单位,检索索引信息储存部,并取出具有包含检索文字的索引矩阵
的文档图像。
这样,通过以构成检索关键词的检索文字为单位分析索引矩阵,并检 索出包含检索关键词的索引矩阵,可保证基于单个文字检索的全面检索。
另外,根据本发明,上述特征匹配部,使用双字母组模型或多字母组 模型来作为语言模型。
另外,根据本发明,上述特征匹配部,基于词汇解析,将上述第l索 引矩阵的第l列的候补文字与同一行的其它候补文字进行替换,从而调整 成有意义的候补文字列。
由此,能够以与第1索引矩阵的匹配度相同的匹配度来调^^矣补文字列。
并且,本发明的文档图像处理装置的特征在于,也可以使上述文字列 抽出部抽取出上述所输入的文档图像中的标题区域。
根据上述的构成,由于上iiiL字列抽出部抽取出文档图像中的标题区 域,所以针对文档图像的标题制作索引矩阵。
从而,与以文档图像的整个文本区域为对象制作索引矩阵的情况相 比,可减少针对l个文档图像制作的索引矩阵的数量,能够以标题为对象 进行文档图像的检索,从而能够实现高效率的关键词检索。
并且,本发明的文档图像处理装置,还具有如下特征,即上述文字 列抽出部利用投影法和连通区域统计分析法来抽取出文档图像中的重要 区域。
由此,能够容易实现上述文字列抽出部对文档图像中的标题区域的抽取。
并且,本发明的文档图像处理装置,还具有如下特征,即上述图像 特征抽出部利用网格方向特征和文字图像夕卜围特征的组合,来抽出文字图 像的图像特征。
由此,.可高效率地抽出基于不同字形的图像特征。
并且,本发明的文档图像处理装置,还具有如下特征,即上述特征
匹配部将所抽出的文字图像的图像特征与在上述字形特征字典中储存的
全部文字图傳ii行匹配,并选^^候补文字。
由此,可按照最正确的顺序选#^候补文字,并制作索引矩阵。
并且,本发明的文档图像处理装置,还具有如下特征,即上述特征 匹配部选择的候补文字数N是可变更的。
通过4吏候补文字数N设为可变更的,可制作与用户的要求相应的索引 矩阵。例如,通过减少候补文字数N,使索引矩阵的维数减少,可缩短检 索时间,提高检索精度和查准率。反之,通过增加候补文字数N,使索引 矩阵的维数增大,可减少检索遗漏,提高查全率。
并且,本发明的文档图像处理装置,还具有如下特征,即上述检索 部,从具有构成检索关键词的各检索文字在索引矩阵内的匹配位置高的索 引矩阵的文档图像中,按顺序进行取出。
根据上述的专利文献2的构成,由于是将检索关键词转换成代表文字 代码列的检索,所以不能进行具体到类似文字类别中的位置的分析。因此, 属于同一类似文字类别内的各文字,无论是相似度高的文字还是低的都成 为相同的关联程度,不能从关联性高的文档图像按顺序正确地进行提示。
然而,根据上述构成,由于从具有构成检索关键词的各检索文字在索 引矩阵内的匹配位置高的索引矩阵的文档图像中,按顺序进行取出,所以 能够从关联性高的文档图像按顺序提示检索结果。
并且,本发明的文档图像处理装置,也可以具有如下特征,即对上 述索引矩阵的M素,设定有与位置相应的相关值,而且,上逸险索部具 有索引矩阵检索处理部,其以构成检索关键词的l个检索文字为单位检 索索引矩阵,而检索出包含检索文字的索引矩阵,并将该索引矩阵内的检 索文字的匹配位置的信息,与具有索引矩阵的文档图像的信息一同储存在 保存部中;相关度计算部,其根据在上述保存部中储存的匹配位置的信息, 累计各检索文字的相关值,并计算出检索关键词与索引矩阵的相关度;顺 序决定部,其基于上i^目关度计算部的计算结果,来决定文档图像的取出 顺序。
根据上述构成,对上述索引矩阵的M素,设定有与位置相应的相关
值。该相关值是检索文字与索引矩阵内的候补文字之间的相关值,其由特 征匹配部按照选择的候补文字的顺序来设定,通常是列编号越小的要素设 定为越大的值。
检索部的索引矩阵检索处理部,以构成检索关键词的1个检索文字为 单位检索索引矩阵,而检索出包^、检索文字的索引矩阵,并将该索引矩阵 内的检索文字的匹配位置的信息,与具有索引矩阵的文档图4象的信息一同 保存在保存部中。
然后,检索部的相关度计算部利用在该保存部中储存的匹配位置的信 息,累计各检索文字的相关值,并计算出检索关键词与索引矩阵之间的相 关度,顺序决定部^目关度高的文档图像按顺序取出文档图像。
由此,能够从具有构成检索关键词的各检索文字在索引矩阵内的匹配 位置高的索引矩阵的文档图像中,按顺序进行取出,从而可简单地实现从 关联性高的文档图4象按顺序提示检索结果的动作。
并且,还具有如下特征,上勤目关度计算部在由上述匹配位置的信息 而判断为与索引矩阵中的相邻的行相匹配时,对相邻的各行的相关值,在 利用相关度加权因数进行了加权的^ftfe上进行累计。
由此,上述相关度计算部在判断为与索引矩阵中的相邻的行相匹配 时,对于对应的行的相关值,利用行的相关度加权因数进行加权。即,在 以文字单位进行检索时,连续地包含有检索关键词的各检索文字的情况 下,具有该索引矩阵的文档图像的检索结果具有更高的相关度。由此可通 过简单的计算实施有效的检索。
在本发明的文档图像处理装置中,还具有如下特征,即上述索引矩 阵的M素设定的相关值是可变更的。
通过将相关值设为可变更,可实现与用户要4M目应的检索。例如,即 4吏候补文字数N相同,也可以通过使与N个候补文字的列编号相应的相关 值,以在第A个之前设定为高且之后为低的方式进行变化,使检索结果发 生变化,因此可相应于用户的要求采取灵活的对策。
在本发明的文档图像处理装置,还具有如下的特征,即上述行的相 关^a权因lbi可变更的。
通过使行的相关度加权因数设为可变更,可实现与用户的要求相应的 检索。例如,通过增大行的相关度加权因数,使对于计算出的相关度的贡
献度而言,连续匹配的2行的相关值中增大,接近以词汇作为l个单位进 行检索的结果。反之,通过减小行的相关度加权因数,使其接近以字为1 个单位进行检索的结果。由此,可采取灵活的对策,以便实现与用户的要 求相应的检索。
并且,在本发明的文档图像处理装置中,还具有如下特征,即具有 使用上述图像特征抽出部来制作上述字形特征字典的字形特征字典生成部。
由此,由于字形特征字典生成部兼用图4象特征抽出部,来制作字形特 征字典,所以用户可筒单地针对不同的字体、字号、字形,来抽出字形的 特征,并制作字形特征字典。另外,不仅针对字体等,还针对不同语种的 文字,也可以针对各字体、字号、字形来筒单地制作字形特征字典。
另外,本发明提供一种文档图像处理方法,其特征在于,具有
文字列抽出步骤,以由两个或两个以上文字构成的文字列为单位,抽 出所输入的文档图像中存在的文字图像;
图像特征抽出步骤,将在上述文字列抽出步骤中抽出的文字列的文字 图像以l个文字为单位进行分割,并抽出各文字图像的图像特征;
特征匹配步骤,以在上述图像特征抽出步骤中抽出的文字图像的图像 特征为基础,从以单个文字为单位储存有文字图像的图像特征的字形特征 字典中,按照图像特征的匹配度从高到低的顺序选择N个(]\>1的整数) 文字图像作为候补文字,并且在将上述文字列的文字数设为M个(M>1 的整数)时,制作MxN维的索引矩阵,并且对于由构成该第1索引矩阵 的第l列的两个或两个以上4矣补文字构成的候补文字列,适用基于预定的 语言模型的词汇解析,而制作出调整成有意义的文字列的第2索引矩阵;
索引信息储存步骤,将在上述特征匹配步骤中制作的第2索引矩阵, 与上述所输入的文档图像相对应地进行储存;
检索步骤,在检索时,以所输入的检索式中的构成检索关键词的l个 检索文字为单位,检索在上述索引信息储存步骤中储存的索引信息,并取 出具有包含检索文字的第2索引矩阵的文档图像。
根据本发明,在图像特征抽出步骤中,将在文字列抽出步骤中定位并 抽出的文档图像中的文字列的图像以l个文字为单位进行分割,并抽出各 文字图像的图像特征。然后,在特征匹配步骤中,基于该图像特征,从以 单个文字为单位储存有文字图像的图像特征的字形特征字典中,按照图像 特征的匹配度从高到低的顺序选择N个(N>1的整数)文字图像作为候补 文字,而制作抽取出的文字数为MxN维的第l索引矩阵。
并且,对于由构成该第1索引矩阵的第1列的两个或两个以上4矣补文 字构成的候补文字列,适用基于预定的语言模型的词汇解析,而制作出调 整成有意义的文字列的第2索引矩阵。
所制作的第2索引矩阵,在索引信息储存步骤中,与所输入的文档图 #4目对应地#:储存,在检索时,该索引矩阵用作用于检索文档图4象的索引 信息。
由此,无须用户的人工^Mt,也无须^"吏用OCR识别,即可自动地定 位文档图像的文字区域中的文字列,利用定位的文字列的图像特征来生成 文档图像的索引信息。
而且,由于抽出各文字图像的图像特征,并选择两个或两个以上图像 特征近似的候补文字,所以通过适当地设定所选择的候补文字数,不会像 OCR识别那样在文字识别时花费时间,可无识别遗漏地进行正确的检索。
并且,由于在检索关键词中输入有意义的文字列,所以通过使第2索 引矩阵的候补文字列成为有意义的文字列,可进一步提高检索精度。
另外,由于字形特征字典是以全部单个文字的文字图像的图像特征为 单位进行制作的,且在特征匹配步骤中,将抽取出的文字列的图4象分割成 单个文字的文字图4象,来进行图像特征的匹配,所以,所生成的索引矩阵 的精度高。
在检索步骤中,以所输入的检索式中的构成检索关键词的1个检索文 字为单位,检索上述索引信息储存部,并取出具有包含检索文字的索引矩 阵的文档图像。
这样,通过以构成检索关键词的检索文字为单位分析索引矩阵,并检
索出包含检索关键词的索引矩阵,可保证基于单个文字检索的全面检索。
本发明的目的、特点及优点,可通过以下的详细说明和附图而变得更 明确。


图1是筒要表示文档图像处理装置10的构成的方框图。
图2是详细表示文档图像处理装置10的构成的方框图。
图3是表示字体正规化处理部12制作字形样本DB13的处理的图。
图4是文字图像外围特征的说明图。
图5是网格方向特征的说明图。
图6是表示由文字图像特征柚出部14制作字形特征字典15的处理的图。
图7是表示对于文档图像50,将T1、 T2、 T3这3个区域作为标题区 域进行了定位的状态的图。
图8^1表示制作索引信息DB17的处理的图。
图9是_表示由特征匹配部16制作索引矩阵的处理的一例的图。
图io a示使用词汇解析法对制作的索引矩阵进g整,而使第1
列的文字列成为有意义的文字列的具体例的i兌明图。
图11是表示在双字母组模型中使用的字典数据300的构成例的图。
图12是表示使用了双字母组模型的索引矩阵的调整方法的流程图。
图13是表示检索部22的功能和检索处理的说明图。
图14是表示检索部22中的检索步骤的流程图。
图15是表示计算出检索关键词与索引矩阵的相关度的方法的说明图。
图16是使用具体例来表示检索关键词与索引矩阵的相关度的计算的
说明图。
图17是表示具备词汇解析功能的检索处理的^兌明图。 图18是表示文档图〗象管理部中的处理的说明图。 图19表示文档图像显示部53中显示的被储存在文档图像DB19中的 文档图〗象的阅览画面的一例。
图20是表示使用了多字母组模型的索引矩阵的调整方法的流程图。
具体实施例方式
下面,参照附图,对本发明的优选实施方式进行详细说明。
图1是简要表示文档图像处理装置10的构成的方框图。文档图像处理 装置10包括处理器4、和储存用于使处理器4进行实际处理的软件等的外 部存储装置5。
处理器4在实际中进行从文档图像中抽出进行检索所需要的标题区
域的文档图像特;N^出处理;生成能够进行对于文档图像的检索的索引信 息的索引信息生成处理;使用了索引信息的检索处理;使用索引信息来制 作后述的有意义的文档名,并管理文档图像的文档图像管理处理等。
处理器4中的实际的处理,根据在外部存储装置5中储存的软件来执
行。处理器4例如由通常的计算机主体等来构成。在本实施方式中,处理 器4还执行制作在索引信息生成处理中使用的后述的字形特征字典15的字 形特征字典制作处理。
外部存储装置5,例如可由能够进行高速访问的硬盘等来构成。为了 大量M文档图像,外部存储装置5也可以是使用光盘等的大容量i殳备的 构成。后述的字形特征字典15、索引信息DB(数据库)17、文档图像Dm9、 字形样本DB13等由外部存储装置5构成。
文档图像处理装置10与g 1连接,且与显示装置3连接。M 1 用于输入检索关键词。另外,键盘l还用于在阅览文档图像时输入指示。 并且,键盘1还用于进行后述的候补文字数、相关值、以及行的相关度加 权因数Q等的设定值的变更。显示装置3输出并显示文档图像等。在显示 装置3中显示的内容中还包含相关度的信息、以及图像名称等信息。
文档图像处理装置10还与图像扫描仪2或数码相机6连接。图像扫描 仪2和数码相机6用于取得文档图像。文档图像的取得不限于通过图像扫 描仪2和数码相机6,也可以通过进行利用网络等的通信来取得。另外, 也可以进行使用了图像扫描仪2或数码相机6的检索关键词的输入。
图2是详细表示文档图像处理装置10的构成的方框图。文档图4象处理 装置10包括文字数据库输入部(文字DB输入部)11、文字正规化处理 部12、字形样本DB13、文字图像特征抽出部(图像特征抽出部)14、字
形特征字典15、特征匹配部16、索引信息DB17、标题区域初始处理部18、 文档图像DB19、文档图像特征数据库(文档图像特征DB) 20、文档图像 输入部21、检索部22、词汇解析部23、关键词输入部24、检索结果显示 部25、文档名制作部51、文档图像DB管理部52、文档图像显示部53、 指示输入部54。
其中,由文字DB输入部ll、字体正规化处理部12、字形样本DB13、 文字图《象特征抽出部14、字形特征字典15构成实施上述的字形特征字典 制作处理的字形特征字典生成部30。
首先,对构成字形特征字典生成部30的文字DB输入部11、字体正 规化处理部12、字形样本DM3、文字图像特征抽出部14、字形特征字典 15进行说明。
文字DB输入部11用于输^入为制作字形特征字典15所需的成为M 的文字数据库。如果本装置是例如中文对应的装置,则输入中华人民共和 国GB2312的全部6763个文字等。另外,如果本装置是日语对应的装置, 则输入JIS第l标准的约3, 000个字种等。即,这里所说的文字中包含符 号。这样的文字DB输入部11由处理器4构成,且文字数据库由记录:^体、 或通过利用了网络的数据通信等来供给。
字体正规/化处理部12用于对由文字DB输入部11输入的文字lt据库 中所包含的4^P文字,制作不同字体和字号的文字图像。不同字体和字号 的文字图像被储存在字形样本DB13中。
图3是表示字体正规化处理部12制作字形样本DB13的处理的图。在 字体正规化处理部12中,如果本装置是中文对应的装置,则具备例如宋体、 仿宋体、黑体、楷体等字形样本12a。另外,如果本装置是日语对应的装 置,则具备明朝体、Go仇ic体…等字形样本。
字体正规化处理部12中的变形处理部12b,对文字数据库的文字进行 图傳>化,并对文字图傳进行标准化处理。然后,变形处理部12b参照字形 样本12a,对标准化处理后的文字图像实施变形处理,并进一步改变为不 同字体和大小的文字图〗象。变形处理中,包括例如^^糊化处理、扩h缩小 化处理、细^t化处理等。字体基准部12c将这样变形处理后的文字图像作 为基准文字图像储存到字形样本DB13中。
在字形样本DB13中,针对文字数据库的所有文字,即使是相同的文 字,也储存有对应每个由字体、大小决定的字形的基准文字图像。如果举 例说明,则,即使文字种类都是"中",也存在似目当于所决定的字体的数 量的不同形状的基准文字图像的"中",另外,还储存有似目当于所决定的 大小的数量的不同大小的基准文字图像的"中"。
文字图像特征抽出部14是抽出文字图像的特征(图像特征),并储存 到字形特征字典15中的部分。在本实施方式中,文字图像特征抽出部14 根据文字图像夕卜围特征与网格方向的组合,来抽出文字图像的特征,并设 为特征矢量。另外,文字图像的特征不限于这些,也可以抽出其他特征来 形成特征矢量。
这里,预先对文字图像夕卜围特征和网格方向特征进行说明。图4是文 字图像外围特征的说明图。所谓文字图像外围特征是指从文字图像的外部 观察的轮廓的特征。如图4所示,从文字图像的外接矩形的4边进行扫描, 并将从白像素变化为黑像素时的点为止的距离作为特征,取出最初变化的 位置和第二次变化的位置。
例如,在将外接矩形分割成X行Y列的场合下,以行为单位分别从左 方向和右方向扫描图^f象,以列为单位分别从上方向和下方向扫描图4象。另 外,图4是表示以行为单位从左进行扫描的图。
另外,在图4中,用实线箭头A表示最初从白像素变化为黑像素时的 点为止的扫描轨迹。虚线箭头B表示第二次从白像素变化为黑像素时的点 为止的扫描轨迹。实线箭头C表示最终也未能检测到从白像素变化为黑像 素的点的情况下的扫描轨迹,在这种没有变化点的场合下,距离值为0。
图5是网格方向特征的说明图。将文字图像分割成粗网格,对各格子 区域内的黑4象素,向预先确定的两个或两个以上方向延伸触手。然后,对 在各方向上连接的黑像素的像素数进行计数,并将表示该黑像素按各方向 成分的分布状况的方向影响度,作为识别函数采用欧几里得距离,并利用 与黑像素数之差相应的值,对距离值进行除法运算,而计算出距离值。
在图5(a)中,将文字图像分割成4x4共16个格子,且以在X轴方 向上最接近于格子交点的从黑像素变化为白像素的点为中心,向X轴方向 (0° )、 45°方向、Y轴方向(卯° )的3个方向延伸触手。
在本实施例中,将文字图像分割成8x8的4角的网格,并如图5(b) 所示,向0° 、 45° 、卯° 、 135。 、 180° 、 225° 、 270° 、 315°这8个 方向延伸触手。
另外,作为网格方向的特征的抽出方法,有设置触手的延伸方向、延 伸触手的中心点的方法等各种方法,例如记载在日本专利特开2000-181994 号公报等中。
文字图像特征抽出部14,对储存在文字形状样本DB13中的所有的基 准文字图像进行这样的文字图像的特征的抽出。然后,文字图像特征抽出 部14将储存在字形样本DB13中的基准文字图像的抽出结果储存到字形特 征字典15中,而生成字形特征字典15。
图6是表示制作基于文字图像特征抽出部14的字形特征字典15的处 理的图。文字图像特征抽出部14中的字形标准化部14a从字形样本DB13 中取出基准文字图像,文字图像特;WL出部14b从由字形标准化部14a取 出的基准文字图像中取出其特征。然后,特征分类部14c参照字形样本 DB13,对从按每个基准文字图像抽出的特征进行分类,并储存到字形特征 字典15中。
在文字图像特征取出部14b中,如上述那样,^个单个文字,求出 基于带加权的不同基准文字图像的特征的适应值,并取得基准文字图像的 标准特征。
文字图像特^出部14b通it^不同字体字号进行加权,可制作不同 的字形特征字典。通过融合多字体的图像特征,且以单个文字图像特征为 单位来制作字形特征字典,可满足多字体/字号文档图像的自动检索和管 理。
下面,说明构成实施文档图像特征抽出处理的文档图像特4i^出部31 的文档图像DB19、文档图像特征DB20、标题区域初始处理部18、文字 图像特征抽出部14。
文档图像DB19是在由文档图^%入部21输入文档图像时,对其附加 用于识别的文档ID并进行M的数据库。
标题区域初始处理部18是在文档图像DB19中絲了新的文档图像
时,根据其图像数据来定位并抽出文档图像中的标题区域,然后将文字图
像送到上述的文字图像特征抽出部14的。
图7表示对文档图像50以T1、 T2、 T3这3个区域定位为标题区域的 状态。根据该图7也可以看出,将文档图像50中的标题部分作为标题区域 T抽出。
由标题区域初始处理部18抽出并送到文字图像特征抽出部14的文字 图像,通常是包含两个或两个以上文字的文字列的图像。从而,在以下的 说明中,将由标题区域初始处理部18送来的文字图像设为文字列的图像。
在本实施方式中,标题区域初始处理部18利用投影法和连通区域统计 分析来进行标题区域T的定位和抽出。另夕卜,这样的标题区域T主要相当 于标题部分,例如可以采用在日本专利特开平9-319747号公报、日本专利 特开平8-153110等所记栽的方法等各种以往的方法。
由于不是将文档图像的全部文字区域(文本区域)作为对象,而是如 上所述仅将标题区域T定位并抽出,所以可减少成为检索对象的信息量, 并缩短检索时间。
其中,不是对4^5的文本区域进行定位而^t标题区域T进行定位的 事项,对于检索而言并不是必须的构成要素,也可以对全文的文本区域进 行定位并抽出。但是,对于后述的有意义的文档名的制作而言,M标题 区域T进行定位是必须的构成要素。
文字图像特征抽出部14,对于从标题区域初始处理部18输入的文字 列的图像,分割成单个文字的文字图像,然后与字形特征字典15的制作时 同样,抽出各文字图像的特征。然后,将抽出的特征,在文档图像特征DB20 中M个文档图^ii行储存。
在文档图像特征DB20中,由标题区域初始处理部18抽出的标题区域 T中所包含的文字列的图像的特征信息,作为构成文字列的各文字的各自 的特征(特征矢量)而被储存。
如图7所示,对于1个文档图像50,将在所抽出的全部标题区域T1、 T2、 T3…中所包含的文字列的文字图像的特征,即构成文字列的各文字的 文字图像的特征,与文档图像50的文档ID—同储存。
下面,说明构成实施索引信息制作处理的索引信息生成部32的文字图 像特征抽出部14、字形特征字典15、特征匹配部16、索引信息DB17、文 档图像特征DB20。
文字图像特征抽出部14、字形特征字典15、文档图像特征DB20的功 能,与上述的说明相同。
特征匹配部16是从文档图像特征DB20中读出在文档图像的标题区域 T中所包含的文字图像的特征,基于该读出的特征,参照字形特征字典15, 如后述那样制作索引矩阵,并生成文档图# 的索引信息的部分。
这里,对应l个文档图像生成l个索引信息,并按每个标题区域T制 作索引信息中所包含的索引矩阵。从而,在l个文档图像内存在两个或两 个以上标题区域T的场合下,在该文档图像的索引信息中包含两个或两个 以上索引矩阵。
图8表示制作索引信息DB17的处理。如上所述,当某个文档图像被 输入并被储存到文档图像DB19中时,文字图像特,出部14b抽出在各 标题区域T中所包含的文字列的文字图像的特征,并储存到文档图像特征 DB20中。
特征匹配部16从文档图像特征DB20中读出各标题区域T中所包含 的文字列的图像的特征,且按每个单个文字与字形特征字典15内的基准文 字图像进行匹配,而制作标题区域T各自的索引矩阵。
然后,特征匹配部16将该文档图像的其他信息,即文档ID和iL档图 像DB19内的该当的文档图像的保存位置的信息等包含在这些索引矩阵 中,而作为索引信息储存到索引信息DB17中。
图9表示基于特征匹配部16的制作索引矩阵的处理的一例。图9是说 明针对图7中的标题区域T3中所包含的文字列"去神仙居住的地方"这8 个文字图像,制作索引矩阵的说明图。
文字列"去神仙居住的地方"被分割成单个文字图像"去""神""仙" "居""住""的""地""方"。将这样的文字列的图像分割成单个文字的 图像的处理,可利用以往的方法。
在"去"..."方"这8个文字中,按照排列顺序附加1 8的编号,即
对"去,,附加l、对"神"附加2、…对"方"附加8。该编号相当于索引 矩阵的行编号。
对这样的所有的8个文字图像,实施如下的处理,即取出针对被储 存在图9中参照符号X所示的文档图像特征DB20中的文字图像"去"的 特征(Sl),并参照字形特征字典15,按照特;M目近(匹配度高)的顺序, 选择N个候补文字(S2)。
对按照匹配度从高到低的顺序抽出的N个候补文字,附加与抽出顺序 相应的编号,该编号相当于索引矩阵的列编号。然后,根据该列编号,来 设定表示检索关键词中所包含的各检索文字与候补文字之间的匹配度的 文字相关值(相关值)。
在图9中,由参照符号IOO所表示的表表示文字列"去神仙居住的地方" 的索引矩阵的内容。例如,对于第5个文字的"住"的文字图像,在行编 号为5的行中,从匹配度高的第l列,顺序地抽出"任"、"佳"、"住"、 、 "仁"的候补文字。在表100中,例如候补文字"去"的索引矩阵内的位 置是[l, l],候补文字"屑"的位置是[4, 2],候补文字"仁"的位置是 [5, N]。
另外,在图9的表100中,为了有助于理解,对于与文字列的各文字 对应的候补文字附加O进行表示。
对于这样的索引矩阵的行数M,根据由标题区域初始处理部18作为 标题区域T而抽出的文字列的图像的文字数来决定。另夕卜,列数N是根据 针对l个文字所选择出的候补文字数来决定。从而,根据本发明,可通过 改变索引矩阵的维数(列数),来灵活地设定索引矩阵内的要素数,即候 补文字数量。因此,在文档图像的检索中,可以进行正确且几乎无遗漏的 检索。
在索引矩阵中,可以与检索关键词的输入方法相应地适当设定所选择 的候补文字的信息赋予方式。例如,如果是由键盘l来输入检索关键词的 构成,则以文字代码等信息的形式储存候补文字,从而能够对从M输入 的检索关键词进行检索。
另外,如果是采用图像扫描仪2等以图傳教据的形式输入检索关键词 的构成,则也可以抽出检索关键词的特征(特征矢量),以特征(特征矢量)信息的形式储存候补文字,从而能够对特征矢量彼此进行比较。
返回到图7,对索引信息DB17中的索引信息的数据配置例进^fi兌明。 在存在两个或两个以上标题区域T1、 T2、 T3、…、Tn的文档图像50的 索引信息中,针对两个或两个以上标题区域T1、 T2、 T3、…、Tn制作的 索引矩阵配置成线形。在图7的例中,文档ID被配置在先头,接下来配 置两个或两个以上索引矩阵,最后配置保存位置的信息。这里,5xN表示 索引矩阵的大小,表示5行N列的情况。
通过预先将索引信息进行这样的数据配置,可以i2^地定位文档图像 DB19内的文档图像的储存位置、和文档图像中的标题区域T的位置,并 用于检索结果的显示。
另夕卜,也可以根据实际要求,在索引信息中妙文档图像的其它属性。
本发明中,进而对索引矩阵100适用使用了语言模型的词汇解析法, 而调整构成候补文字列的各候补文字,使其成为有意义的候补文字列。
更具体地讲,特征匹配部16基于所制作的索引矩阵100,制作将位于 该索引矩阵中的第1列的^ft的候补文字按顺序排列的候补文字列。然后, 对由构成该候补文字列的连续的各行的候补文字构成的单词的词义进行 解析,并调整各行的第一列的候补文字,从而使候补文字列带有意义。
图10是表示调整所制作的索引矩阵而使第一列的文字列成为具有意 义的文字列,为此采用词汇解析法来进行调整的具体例的说明图。
由图10的上部分所示的调整前的索引矩阵100制作成的4吳补文字列为 "去伸仙居任酌地方",不具有意义。
用作有意义的文档名的候补文字列中,主语、谓语、以及宾语的连接 词关系等必须在意义上正确。在此,利用词汇解析,变换成有意义的候补 文字列。具体地i兌,对于两个或两个以上M候补文字,4吏用概念词典, 分析两个或两个以上错误候补文字与候补文本的其它单词之间的意义信 息,而将候补文字列修改为有意义的文字列。
在这种词汇解析中所采用的语言模型61,只要提供由所有的汉字开始 的活字的统计数据即可。换言之,利用该语言模型61的主要概念,可以在 技术上确立自动搜索系统,能够得到与中文报纸(例如"People,s Daily (人
民日报)")的稿本有关的统计数据。
在本实施方式中,使用双字母组(Bi-gram)模型来作为语言模型。
双字母组模型是两个文字、两个音节、或者两个单词的群(group), 且作为文本的简单统计分析的基础被广泛使用。
图11是表示使用双字母组模型的字典数据300的构成例的图。
字典数据的第1列301表示两字组合的第1个文字。第2行302表示 与第1个文字共同构成了组合的文字的个数。第3行303表示与第1个文 字共同构成了组合的文字,第4行304表示构成了组合的次数。并且,第 5行305表示组合的中文的文字个数。这里,由于使用双字母组模型,所 以文字个数全是2。
在候补文字列的调整中,基于马尔可夫过程,主要使用文字的推移以 及混合的概率等单词内的上下文信息,来进行基于Viterbi算法的最优路 径检索。
使用上述那样的中文字典的帮助,自动地调整索引矩阵,而将全部的 最适合的候补调整到第1行。
基于只根据每个文字的匹配度决定的索引矩阵100,首先对第1列的 文字列进行基于使用了前后检索的双字母组模型的调整,由此可提高匹配 的候补的正确性和效率性。
并且为了提高其正确性,对文字列的一部分进行基于以单词为基础的 双字母组模型的调整。由此,虽然处理速度下降,但可获得高正确性。
以下,以索引矩阵100为例说明具体的调整方法。
使用以文字为基础的双字母组模型,首先根据第2行与第3行的关系, 将第2行的第2候补"神"与"伸"替换,作为第1候补。另外,根据第4行 与第5行的关系,将第5行的笫3候补"住"与"任"替换,作为第1候补。
并且,进行基于以单词为基础的双字母组模型的调整,根据"神仙"以 及"居住,,的单词的属性,以及它们的关联性,将第6行的第2候补"的,,与 "酌"替换,调整为第l候补。在这样地被调整的索引矩阵200的第1列中所含的候补文字列成为"去 神仙居住的地方",成为具有意义的文字列。另外,特征匹配部16,也可 以将这样的调整后的索引矩阵200储存到索引信息DB17中。
图12 A^示使用了双字母组模型的索引矩阵的调整方法的流程图。
在步骤Sl中,判断是否到达了索引矩阵的最后行。如果未到达,则 ii^步骤S2,如果已到达,则进入步骤S5。
在步骤S2中,对所关注的行,即第1次的处理的情况下,取出第1 行的笫l候补。在步骤S3中,适用双字母组模型,对于所关注的行的第1 候补和与其相邻的行的^^矣补的组合,在字典内的出现频度进行统计性计 数。
在步骤S4中,将计数值与预定的阈值进行比较,将计数值超过了阔 值的组合作为第l候补。
在步骤S5中,从最初一行分析所决定的第1候补的连接关系,并决 定单词。在步骤S6中,决定所决定的单词之间的第l候补。
在步骤S7中,判断在所关注的第1候补文字列中存在的文字集合是 否符合字典数据的词B则。如果符合,则进入步骤S8,结束处理,获得 调整后的索引矩阵。如果不符合,则l步骤S9,调整不符合的行的第l 候补,并返回到步骤S6。
下面,对实施使用了索引信息的检索处理的检索部22进行说明。图 13是表示检索部22的功能和检索处理的说明图。检索部22具有索引矩阵 检索处理部22a、文字相关值M部(M部)22b、相关度计算部22c、 显示顺序决定部(顺序决定部)22d、以及文档图,出部22e。
对于索引矩阵检索处理部22a,由关^l词输入部24输入检索关^t词。 作为关键词输入部24,相当于上述的#1或图^43描仪2等。
索引矩阵检索处理部22a是对索引信息DB17进行检索,而检索出包 含所输入的检索关键词的索引矩阵的部分。索引矩阵检索处理部22a将检 索关键词分割成单个文字,搜索包含各检索文字的索引矩阵,在包含检索 文字的场合下,取得该检索文字在索引矩阵内的匹配位置的信息。另外, 关于索引矩阵的抽出顺序例,将在下面采用图ll的流程图来进行i兌明。
文字相关值保存部22b是保存由索引矩阵检索处理部22a取得的匹配 位置的信息、和与该匹配位置的列编号相应的文字相关值的部分。
相关度计算部22c是在索引矩阵检索处理部22a中完成了对全部索引 矩阵的检索时,计算出所检索出的索引矩阵与检索关键词之间的相关度的 部分。
相关度的计算,是采用被保存在文字相关值M部22b中的匹配位置 和文字相关值的信息,并按照预先设定的相关度计算方法来进行计算的。 关于相关度的计算,将在下面采用图15、图16来进行说明。
另外,这里,构成为文字相关值保存部221)*匹配位置的信息、和 与该匹配位置的列编号相应的文字相关值,但也可以构成为文字相关值 ^MHP 22b只*匹配位置,相关度计算部22c由匹配位置的信息取得文 字相关值。
显示顺序决定部22d是基于由相关度计算部22c计算出的相关度的信 息来决定显示顺序的部分。显示顺序决定部22d按如下方式决定显示顺序, 即从包含相关度高的索引矩阵的文档图像开始,依次在检索结果显示部 25中显示文档图像的内容。
文档图像抽出部22e是,以按照由显示顺序决定部22d所决定的顺序 显示文档图像的方式,从文档图像DB19中读出文档图像的图^Jt据,并 输出到检索结果显示部25来进行显示。
检索结果显示部25按照显示顺序来显示文档图像。也可以采用缩略图 显示等的方式。作为检索结果显示部25,相当于上述的显示装置3等。
这里,说明检索顺序。图14是表示检索部22中的检索顺序的流程图。 当输入了由R个文字列构成的检索关键词,并指示进行检索时,索引矩阵 检索处理部22a首先取出检索关键词的第1个检索文字(S11 )。
然后,索引矩阵检索处理部22a对索引信息DB17内的全部索引矩阵 进行第1个检索文字的检索(S12 )。
在完成了对全部索引矩阵的检索时,判断是否检索到第1个检索文字, 在l个也没有检索到的场合下,转移到S19,在检索到的场合下^S14。
在S14中,索引矩阵检索处理部22a将包含第1个检索文字的索引矩 阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。
接着,索引矩阵检索处理部22a取出包含有第1个检索文字的4^P的 索引矩阵(S15)。然后,取出作为检索关键词的下一个文字的第2个检索 文字,并对在S15中取出的包含有第1个检索文字的索引矩阵ii行检索 (S16)。
在完成对在S15中取出的全部索引矩阵的检索时,判断是否检索到第 2个检索文字(S17)。在l个也没有检索到的场合下,与上述同样地转移 到S19,在检索到的场合下lS18。
在S18中,索引矩阵检索处理部22a将包含有第2个检索文字的索引 矩阵中的匹配位置和文字相关值保存到文字相关值保存部22b中。
接下来,索引矩阵检索处理部22a再次返回到S16,取出作为检索关 键词中的再下一个文字的第3个检索文字,并对在S15中取出的包含有第 1个检索文字的索引矩阵进行检索。
然后,在这里,也在完成检索时,索引矩阵检索处理部22a判断是否 检索到第3个检索文字(S17 ),在1个也没有检索到的场合下,转移到S19, 在检索到的场合下,再次l S18,进行关于检索关键词的再下一个检索 文字的检索。
索引矩阵检索处理部22a, 一直进行这样的S16 S18的处理,即以在 S15中抽出的包^^有第1个检索文字的索引矩阵为对象的、第2个以后的 各检索文字的收缩检索,直到在S17中判断为1个也没有检索到、或完成 了对检索关键词内的全部检索文字的检索为止,然后转移到S19。
在S19中,取出作为检索关键词中的下一个文字的第2个检索文字。 然后,判断检索文字是否都已被检索,即,是否完成了对全部的检索文字 的检索(S20),在未完成的场合下,返回到S12。
然后,与上述同样,索引矩阵检索处理部22a对索引信息DB17内的 4^P索引矩阵进行第2个检索文字的检索。在检索到的场合下,M索引 矩阵的匹配位置和文字相关值,然后tS15,对包含有第2个检索文字 的全部索引矩阵,针对检索关键词的下一个文字,即作为第2个之后的第
3个以后的各检索文字,反复进行S16 S18,从而进行收缩检索。
索引矩阵检索处理部22a,对第3个以后的各检索文字依次进行如下 处理,即在S19中进行对一个检索文字的如上述的检索,并取出包含进 行检索的检索文字的索引矩阵,且用其以后的检索文字来进行收缩检索。
然后,在由S19取出了检索关键词内的4^P检索文字,并且由S20判 断为完成了对全部检索文字的检索的场合下,进入S21。
在S21中,相关度计算部22c如后述那样根据相关度基准,来计算出 检索关键词与各索引矩阵的相关度。
然后,显示顺序决定部22d以从包含相关度高的索引矩阵的文档图像 开始进行显示的方式决定显示顺序,文档图係"抽出部22e从文档图4象DB19 中取得文档图像的图像数据,检索结果显示部25按相关度高的顺序来显示 文档图像(S22)。
接下来,采用图15、图16,对相关度计算部22c中的根据相关庋基准 来计算索引矩阵与检索关键词的相关度计算方法进^i兌明。
在图15的参照符号101的方框中,记载有检索条件。而且,在参照符 号102的方框中,记载有用于计算相关度的某个假设的检索关键词与索引 矩阵的相对关系。在方框101所示的检索M下,在检索关键词与索引矩 阵为如方框102所示的相对关系的场合下,可以通过由方框103所示的计 算式来计算出检索关^^词与索引矩阵的相关度。
首先,对方框101的检索^Ht进行说明。检索关键词的文字数为R个, 第1个检索文字为C1、第2个为C2、…、第R个为Cr。
成为检索对象的索引矩阵为MxN维矩阵。即,作为标题区域T而抽 取出的文字列图像的文字数为M个,作为文字列的各文字的M补而选择 出的候补文字数为N个。
由于作为检索文字与M补文字的相关值的文字相关值,是相应于索 引矩阵的M置来决定的,所以成为与索引矩阵相同维数的矩阵。即,文 字相关值矩阵的权重为MxN维矩阵。例如,权重[i] [j]表示位于索引矩阵 中的位置[i, j] ( = Index[i, j])上的候补文字匹配的场合下的文字相关值。 在本实施方式中,如果索引矩阵的列编号[j]相同,则与行编号[i]无关,
文字相关值相同。
行的相关度加权因数Q是在索引矩阵中相邻的2行中检索文字匹配的 场合下,对这些2行的文字相关值附加的加权。在相邻的2行中检索文字 匹配的场合下,包^^检索关键词的连续的2个文字的可能性大。
在将行的相关度加权因数Q设定得高时,对于相关度计算部22c计算 出的相关度的影响度,在连续匹配的2行的文字相关值中变大,但是在不 相邻的^ft的文字相关值中变小。即,通过将行的相关度加权因数Q设定 得高,接近以词汇为单位进行检索的结果,反之,通过将行的相关度加权 因数Q设定得小,接近以单字为单位进行检索的结果。
将检索文字Cl匹配的文字相关值表示为Wl,将检索文字C2匹配的 文字相关值表示为W2,…,将检索文字Cr匹配的文字相关值表示为Wr。
接下来,对方框图102所示的为了计算相关度而假设的检索关键词与 索引矩阵之间的相对关系进行说明。
检索关^t词与索引矩阵之间具有全部的检索文字Cl, C2,…,Cr与 索引矩阵内的任意候补文字相匹配的关系。将检索文字Cl, C2,…,Cr 匹配的^^矣补文字在索引矩阵内的位置,即匹配位置表示为[Cli, Clj]、 [C2i, C2j],…,[Cri, Crj]。
而且,作为进一步的相对关系,具有方框102所示的式(1)的关系,

<formula>formula see original document page 27</formula>
在该式中,k、 m表示构成检索关^词的各检索文字的相对位置。另 外,C (k+l) i表示与检索关键词的第k+l个检索文字匹配的候补文字的 索引矩阵内的行编号,Cki表示与检索关键词的第k个检索文字匹配的候 补文字的索引矩阵内的行编号。
从而,C (k+l) i = Cki+1表示与检索关键词的第k+l个检索文字匹 配的候补文字在索引矩阵内的行编号,和在与检索关^^词的第k个检索文 字匹配的候补文字在索引矩阵内的行编号上加1的编号相同。换言之,C (k+l) i = Cki+1表示检索关^词的第k+l个检索文字和第k个检索文字 具有分别与索引矩阵中的相邻的2行相匹配的关系。 C (m+l) i = Cmi+1也同样,表示检索关键词的第m+l个检索文字和 第m个检索文字具有分别与索引矩阵中的相邻的2行相匹配的关系。
在检索关键词与索引矩阵具有这样的相对关系的场合下,可以通过方 框103所示的式(2)来计算出检索关键词与索引矩阵的相关度。
SimDegree = Wl+W2+"' +W (k-l) + Q * (Wk+W (k+l)) +
+W (m-l) +Q * (Wm + W (m+l" +…十Wr
在该式中,Wl是第1个检索文字C1匹配的文字相关值,W2是第2 个检索文字C2匹配的文字相关值,W (k-l)是第(k-l)个检索文字C (k-l)匹配的文字相关值。同样,W (k)是第k个检索文字Ck匹配的 文字相关值,W (k+l)是第(k+l)个检索文字C (k+l)匹配的文字相 关值。另外,W (m-l)是第(m-l)个检索文字C (m-l)匹配的文字相 关值。同样,W (m)是第(m)个检索文字C (m)匹配的文字相关值, W (m+l)是第(m+l)个检索文字C (m+l)匹配的文字相关值,另夕卜, 最后的Wr是第r个的最后的检索文字Cl匹配的文字相关值。
这样,在相关度的计算中,构成检索关键词的全部检索文字的文字相 关值W被累加(累计)计算。
而且,在式(2)中的Q * (Wk+W (k+l))表示由于检索关^t词 中的第k个检索文字Ck和第(k+l)个检索文字C (k+l)分别与索引矩 阵中的相邻的2行相匹配,所以对文字相关值Wk和文字相关值W (k+l) 乘以行的相关度加权因数Q。关于Q, (Wm + W (m+l))也同样。
另外,检索关键词的第k-l个检索文字与第k个检索文字,由于不具 有与相邻的2行相匹配的关系,所以对W (k-l)和Wk双方不乘以相关 度加权因数Q。关于W (m-l)和Wm也同样。
另外,由于图15的方框102所示的检索关键词与索引矩阵的相对关系 中,具有4^P的检索文字C1、 C2、…、Cr与索引矩阵内的任意候补文字 相匹配的关系,所以在式(2)中,将Wl Wr的全部的检索文字的文字相 关值累计计算。
但是,这只是一例,例如,在虽然具有式(l)的相对关系,但险索文 字Cl和检索文字Cr不与索引矩阵内的任意候补文字相匹配的场合下,计
算相关度的计算式为如下计算式,相应于累积项的减少,当然其相关度会 降低。
SimDegree = W2+…+W (k-l) + Q* (Wk+W (k+l)) +…
+W (m-l) +Q* (Wm + W (m+l)) ++W (r-l)
另外,在具有全部检索文字C1、 C2、…、Cr与索引矩阵内的任意候 补文字相匹配的关系,并且,具有检索关键词的第k+l个检索文字和第k 个检索文字、以及第k+2个检索文字和第k+l个检索文字分别与相邻的2 行相匹配的关系的场合下,计算相关度的计算式为如下计算式。
SimDegree = Wl + W2 +…+ W (k-l)
+ Q * (Wk+W (k+l) +W (k + 2))…+WR
在该场合下,由于检索关键词的第k-l个检索文字和第k个检索文字 不具有与相邻的2行相匹配的关系,所以对W (k-l)和Wk双方不乘以 相关度加权因数Q。
下面,采用图16,对相关度计算的具体例进^i兑明。这里,求出图10 所示的文字列"去神仙居住的地方"的索引矩阵(参照表200)与检索关键 词"神仙"的相关度。
图16的方框104表示检索M。相关值矩阵Weight是MxN维,文 字相关值是AVeight[i] = [1, l-l/N, l-2/N,…,1/N] (i = 0, 1,…,M-l), 行的相关度加权因数Q。
检索关键词"神仙"分别被分割成第1个检索文字"神"和第2个检索文 字"仙",对于这两个字,分别在索引矩阵内的候补文字中进行检索。
参照图10的表200可看出,检索文字"神"与索引矩阵中的位置[i、 j] 的[2、 l]相匹配,检索文字"仙"与索引矩阵中的[3、 l]相匹配。
从而,如方框105所示,检索文字"神"的文字相关值为1,检索文字"仙" 的文字相关值为1。
而且,检索文字"神"的行编号为[2],检索文字"仙"的行编号为[3], 如图10的表200所示,这2个检索文字分别与索引矩阵中的相邻的2行相
匹配。
从而,如方框106所示那样,对检索文字"神"的文字相关值1和检索 文字"仙"的文字相关值1乘以行的相关度加权因数Q,检索关键词的"神 仙"与文字列"去神仙居住的地方"的索引矩阵之间的相关度为SimDegree =Q* (1+1) =2Q。
检索关键词与索引矩阵之间的相关度,通过按照用户的要求灵活地调 整相关值矩阵中的加权(文字相关值)和行的相关度加权因数Q等的参数, 可以获得更理想的检索结果。
用户可采用键盘l等,相应于需要而适当设定相关值矩阵中的加权(文 字相关值)和行的相关度加权因数Q等的参数。
而且,基于这样的图像特征的索引和匹配方式,可以满足多种语言的 文档图像的索引和检索。不需要进行文字识别,计算量少。本发明不限于 中文,可以应用于各种语言的文档图像。
最后,对具备词汇解析功能(语义分析功能)的检索处理进行说明。 如图13所示那样,在本实施方式的文档图像处理装置10中,在关键词输 入部24与检索部22之间,设有词汇解析部23。图17中表示具备词汇解 析功能的检索处理。
词汇解析部23由语义分析处理部23a和语义词典23b构成。语义分 析处理部23a,在从关键词输入部24输入检索关键词时,参照语义词典 23b,对检索关键词的词汇进行分析。
例如,在作为检索关键词输入"中日关系"时,语义分析处理部23a 作为与"中日关系"相关的单词,将例如"中国"、"日本"、"关系"这3 个输入到检索部22。这些"中国"、"日本"、"关系"具有或的关系,检索 式为"中国"或"日本"或"关系"。
将该检索式"中国"或"日本"或"关系"输入到检索部22,检索部 22对索引信息DB17进行检索,抽出包含"中国"的文档图像、包含"曰 本"的文档图像、和包含"关系"的文档图像。
由此,不仅能够检索出直接包含所输入的检索关键词的文档图像,而 且还能够检索出相关的文档图像。
接下来,对实施文档图像管理处理的文档图^象管理部57进行说明。文 档图像管理部57由文字图像特征抽出部14、字形特征字典15、特征匹配 部16、标题区域初始处理部18、文档图像DB19、文档图4象特征DB20、 文档名制作部51、文档图像DB管理部52、文档图像显示部53、指示输 入部54构成,下面对这些进^S兌明。
关于文字图像特征抽出部14、字形特征字典15、特征匹配部16、标 题区域初始处理部18、文档图像DB19、文档图^象特征DB20的功能已进 行了说明。在此,仅对为实施文档图像管理处理而进一步所需的功能进行 适当说明,该文档图像管理处理中制作有意义的文档名并对文档图<象特征 DB20的文档图像进行管理。
采用图18说明文档图像管理处理。从由图像扫描仪2及数字摄影装置 6构成的文档图傳瑜入部21,输入文档图4象1 N。
对于所输入的文档图像1 ~N,标题区域初始处理部18对各文档图像 的内容进行分析,并抽取出标题区域获取文字列。接着,虽然未图示,但 文字图像特征抽出部14与上述同样,将所抽取出的标题区域中包含的文字 列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征。
然后,以这样抽出的文字图像的图像特征为^Jftij,由字形特征字典15 及特征匹配部16构成的候补文字列生成部55,选择图像特征的匹配度高 的文字图像作为候补文字,并制作成与所抽取出的标题区域中包含的文字 列相应的候补文字列,而且如上述那样采用词汇解析法来调整构成该候补 文字列的M补文字,并"i殳为有意义的候补文字列。
由候补文字列生成部55这样生成的有意义的候补文字列被送到文档 名制作部51。
文档名制作部51,对所输入的文档图像,制作出包含有由候补文字列 生成部55生成的有意义的候补文字列的文档名。以下,将包含有该有意义 的候补文字列的文档名称为"有意义的文档名"。
从时间数据等发生部60向文档名制作部51,还输入表示文档图像被 输入的时间及输入路径的数据等其它数据。文档名制作部51还可以采用至 少包含从时间数据等发生部60输入的时间数据的其它数据,来生成文档 名。
例如,也可以构成为将时间数据等其它数据之中的时间数据包含在 有意义的文档名中,且将有意义的文档名由时间数据和有意义的候补文字 列来构成。
或者,也可以采用时间数据等其它数据,来对相同的文档图像制作另 外的文档名。以下,将由时间数据等其它数据等构成的文档名称为原始的 文档名。
通过这样构成,对一个文档图像,可以利用有意义的文档名、以及由 时间数据等其它数据等构成的原始的文档名来进行管理。
对于每一个文档图像生成的有意义的文档名、以及原始的文档名,被 送到文档图像DB管理部52,且在文档图像DB19中,与文档图像的图像 数据相对应地ii行储存。
文档图像DB管理部52,当用户采用由键盘l等构成的图l所示的指 示输入部54,来输入文档图像DB19中所存储的文档图像的阅览指示等时, 在由显示装置3等构成的图l的文档图4象显示部53上,显示阅览画面。
图19中表示在文档图像显示部53上显示的、文档图像DB19中所储 存的文档图^f象的阅览画面的一个例子。
图中,左侧所示画面201表示所存储的文档图<|^原始的文档名列表 表示的状态。在画面201的上面,示出了各文档图像的输入顺序。在纸面 上最靠前的带有"AR - C262M一20060803一103140"的原始的文档名的文 档图像,是在该画面中最先被输入的文档S像。"20060803"表示输入的日 期(2006年8月3日),"103140"表示时间(10点31分40秒)。
在这样的显示状态下,通iti^择画面上所显示的"有意义的文档名" 的标识符等的^Mt,阅览画面的显示在图中将转移到右侧所示的画面202。 画面202表示所存储的文档图H^有意义的文档名列4^示的状态。
该画面202与画面201对应,在此,画面201的上部所示的、纸面上 最靠前的带有"定格惠州西湖"的有意义的文档名的文档图像,是在该画 面中最先被输入的文档图像。
这样,能够按有意义的文档名来进行阅览,由此用户可容易实施所存 储的文档图像的管理及搜索。此外, 一并制作出原始的文档名,由此可同
时看到时间数据等信息与文档名。
另外,在该文档图l象处理装置中,采用制作成的索引矩阵来制作索引
信息,并用于检索处理中。因此,标题区域初始处理部18抽出文档图4象中 包含的两个或两个以上标题区域T,并制作各自的索引矩阵。然而,如果 仅仅以对文档图像制作有意义的文档名为目的的话,则没有必要抽出文档 图像中包含的两个或两个以上标题并制作各自的索引矩阵。
换言之,可以构成为对于最能表示出文档图像的标题区域中包含的 标题的文字列(文字图像列),制作出索引矩阵,并基于此,使用特征匹 配的文字列,来制作带有意义的名称。
作为最能表示出文档图像的标题区域,例如可以设为所抽出的两个或 两个以上标题区域之中、存在于文档图像的最上面一行的区域。这是因为 重要的标题很多场合下配置在文档图像的最上面 一行。
此外,也可以将标题区域中包含的文字的大小设为比某个阈值大,且 比所抽出的其它标题区域中的文字大。这是因为重要的标题很多场合下用 比其它标题大的文字大小来记载。
或者,也可以将标题区域中包含的文字的字体(字形)类型,设为与
所抽出的其它标题区域的文字不同的字体类型。这是因为重要的标J^4艮多 场合下用与其它标题不同的字体(字形)来记载。此外,也可以附加其他
基准,并且各基准可以分别采用,也可以组合来采用。
此外,如该文档图4象处理装置那样,在对于一个文档图像抽出两个或 两个以上标题区域,并制作出各自的索引矩阵的构成中,通过标题区域的 配置位置、文字大小、或字体,来特定最重要的标题区域的索引矩阵即可。 此外,如果是这种场合,则特别优选为,从所抽出的两个或两个以上标题 区域的索引矩阵中,制作出最频繁出现的单词包含在候补文字列中的索引 矩阵。
作为本发明的其它实施方式,也可以取代双字母组模型而使用多字母 组模型进行索引矩阵的调整。
由于上述的实施方式,只是在候补文字列的调整方法中使用多字母组 模型这一方面不同,其它构成相同,所以省略详细说明。
图20是表示使用了多字母组模型的索引矩阵的调整方法的流程图。
在步骤S31中,判断是否到达了索引矩阵的最后一行。如果未到达, 则进入步骤S32,如果到达,则进入步骤S40。
在步骤S32中,取出所关注的行,即在第l次的处理的情况下,取出 第l行的第l候补。在步骤S33中,适用多字母组模型,来对所关注的行 的第l候补和与其相邻的行的^^矣补的组合,在字典内的出现频度进行统 计性计数。
在步骤S34中,对计数值与预定的阈值进行比较,并判断计数值是否 超过了阈值。如果超过了阈值,则l步骤S35,如果未超过阈值,则进 入步骤S36。
在步骤S35中,决定相邻的行的第l候补,然后进入步骤S36。在步 骤S26中,再次适用多字母组模型,对所关注的行和与其连续的两个或两 个以上行的^^矣补的组合,在字典内出现的频度进行统计性计数。
在步骤S37中,对计数值与预定的阈值进行比较,判断计数值是否超 过了阈值。如果超过了阈值,则进入步骤S38,决定在所关注的行之后连 续的两个或两个以上行的第l候补。如果未超过阈值,则选择表示最大频 度的文字,暂定为第l候补。
在步骤S40中,基于所决定的词或语句之间的相关性,暂定第l候补。 在步骤S41中,判断第1候补文字列中的文字集合是否符合字典数据的词 义规则。如果符合,则i^步骤S42,结束处理,获得被调整的索引矩阵。 如果不符合,则进入步骤S43,调整不符合的行的第l候补,并结束处理。
这样,通过适用多字母组模型,相比于双字母组模型,可制作更正确 的候补文字列。
最后,文档图像处理装置的各部分,特别是字体正规化处理部12、文 字图像特征抽出部14、特征匹配部16、标题区域初始处理部18、检索步 22、词汇解析部23、文档名制作部51、以及文档图像DB管理部52等, 可以由硬件逻辑电路构成,也可以如下那样使用CPU通过软件来实现。
即,文档图像处理装置10具有执行用于实现各功能的控制程序的命令 的CPU (central processing unit)、储存有上述程序的ROM (read only
memory )、展开上述程序的RAM (random access memory )、储存上述程 序和各种数据的存储器等存储装置(记录媒体)等。而且,本发明的目的 可通过如下过程来达到,即将记录有计算机可读取的、实现上述的功能 的软件即文档图像处理装置10的控制程序的程序代码(执行形式程序、中 间代码程序、源程序)的记录媒体,提供给上述文档图像处理装置IO,且 由该计算机(或CPU、 MPU)读出记M记录^^上的程序代码并执行。
作为上述的记录媒体,例如可以采用磁带或盒式磁带等的磁带类、包 括软(注册商标)盘/硬盘等磁盘和CD-ROM/MO/MD/DVD/CD-R等光盘 的盘类、IC卡(包括存储卡)/光卡等的卡类、或掩模ROM/EPROM /EEPROM/闪存ROM等的半导体存储器类等。
另夕卜,也可以将文档图像处理装置IO构成为能够与通信网络连接,通
im信网络来供给上述程序代码。作为该通信网络,没有特别的限定,例
如可以利用互联网、内部网、外联网、LAN、 ISDN、 VAN、 CATV通信 网、虚拟专用网(virtual private network)、电话线路网、移动体通信网、 卫星通信网等。另外,作为构成通信网络的传送媒体,没有特别的限定, 例如既可以利用IEEE1394、 USB、电力线输送、有线TV线路、电话线、 ADSL线路等的有线,也可以利用IrDA、远程控制那样的红外线、Bluetooth (注册商标)、802.11无线、HDR、移动电话网、卫星线路、地面波数字 网等的无线。另外,本发明也能够以上述程序代码通过电子传送而具体化 的被叠加在载波中的计算积Jt据信号的形式来实现。
本发明在不脱离其精神或主要特征的范围内,能够以其它各种形式实 施。从而,上述的实施方式只不过;^在所有方面上的一种示例,本发明的 范围由本发明的权利要求书来表示,不受本说明书的任何限定。并且,在 权利要求书范围内的变形和变更,均属于本发明的范围内。
权利要求
1.一种文档图像处理装置,其特征在于,具有字形特征字典,其以单个文字为单位储存有文字图像的图像特征;文字列抽出部,其以由两个或两个以上文字构成的文字列为单位,抽取出所输入的文档图像中存在的文字图像;图像特征抽出部,其将由上述文字列抽出部抽取出的文字列的文字图像以1个文字为单位进行分割,并抽出各文字图像的图像特征;特征匹配部,其以由上述图像特征抽出部抽出的文字图像的图像特征为基础,从上述字形特征字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图像作为候补文字,其中N为N>1的整数,在将上述文字列的文字数设为M个时,其中M为M>1的整数,制作M×N维的第1索引矩阵,并且对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,适用基于预定的语言模型的词汇解析,而制作出调整成有意义的文字列的第2索引矩阵;索引信息储存部,其将由上述特征匹配部制作的第2索引矩阵与上述所输入的文档图像相对应地进行储存;检索部,其在检索时,以所输入的检索式中的构成检索关键词的1个检索文字为单位,检索上述索引信息储存部,而取出具有包含检索文字的第2索引矩阵的文档图像。
2. 根据权利要求l所述的文档图像处理装置,其特征在于,上述特征 匹配部,使用双字母组模型或多字母组模型作为语言模型,来进行候补文 字列的词汇解析。
3. 根据权利要求l所述的文档图像处理装置,其特征在于,上述特征 匹配部,基于词汇解析,将上述第1索引矩阵的第1列的候补文字与同一 行的其它候补文字进e^换,由此调整成有意义的候补文字列。
4. 根据权利要求l所述的文档图像处理装置,其特征在于,上述文字 列抽出部抽取出上述被输入的文档图像中的标题区域。
5. 根据权利要求l所述的文档图像处理装置,其特征在于,上述文字 列抽出部基于连通域统计分析的方法来抽取出文档图像中的重要区域。
6. 根据权利要求l所述的文档图像处理装置,其特征在于,上述图像 特征抽出部利用网格方向特征和文字图像外围特征的组合,来抽出文字图像的图像特征。
7.根据权利要求l所述的文档图像处理装置,其特征在于,上述特征全部文字图係进行匹配,并选^Ht补文字。
8. 根据权利要求l所述的文档图像处理装置,其特征在于,上述特征 匹配部选择的候补文字数N是可变更的。
9. 根据权利要求l所述的文档图像处理装置,其特征在于,上述检索 部,从具有构成检索关键词的各检索文字在索引矩阵内的匹配位置高的索 引矩阵的文档图像中,按顺序进行取出。
10. 根据权利要求l所述的文档图像处理装置,其特M于, 对上述索引矩阵的M素,设定有与位置相应的相关值, 上述检索部具有索引矩阵检索处理部,其以构成检索关键词的1个检索文字为单位检 索索引矩阵,而检索出包含检索文字的第2索引矩阵,并将该第2索引矩 阵内的检索文字的匹配位置的信息,与具有第2索引矩阵的文档图像的信 息一同储存在M部中;相关度计算部,其根据在上述保存部中储存的匹配位置的信息,累计 各检索文字的相关值,并计算出检索关键词与第2索引矩阵的相关度;顺序决定部,其基于上i^目关度计算部的计算结果,来决定文档图像 的取出顺序。
11. 根据权利要求10所述的文档图像处理装置,其特征在于,上勤目 关度计算部,在根据上述匹配位置的信息,而判断为与索引矩阵中的相邻 行相匹配时,对相邻的各行的相关值,在利用行的相关度加权因数进行了 加权的^ftfe上,进行累计。
12. 根据权利要求10所述的文档图像处理装置,其特征在于,上述第 2索引矩阵的M素设定的相关值是可变更的。
13. 根据权利要求ll所述的文档图像处理装置,其特征在于,上述行 的相关度加权因lbl可变更的。
14. 根据权利要求1所述的文档图像处理装置,其特征在于,具有使
15. —种文档图像处理方法,其特征在于,具有 文字列抽出步骤,以由两个或两个以上文字构成的文字列为单位,抽出所输入的文档图像中存在的文字图像;图像特征抽出步骤,将在上述文字列抽出步骤中抽出的文字列的文字 图像以1个文字为单位进行分割,并抽出各文字图像的图像特征;特征匹配步骤,以在上述图像特征抽出步骤中抽出的文字图像的图像 特征为基础,从以单个文字为单位储存有文字图像的图像特征的字形特征 字典中,按照图像特征的匹配度从高到低的顺序选择N个文字图l象作为候 补文字,其中N为N^的整数,并且在将上述文字列的文字数i殳为M个 时,其中M为MH的整数,制作MxN维的索引矩阵,并且对于由构成 该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列, 适用基于预定的语言模型的词汇解析,而制作出调整成有意义的文字列的 第2索引矩阵;索引信息储存步骤,将在上述特征匹配步骤中制作的第2索引矩阵, 与上述所输入的文档图^^目对应地进行储存;检索步骤,在检索时,以所输入的检索式中的构成检索关键词的l个 检索文字为单位,检索在上述索引信息储存步骤中储存的索引信息,并取 出具有第2索引矩阵的文档图像,该第2索引矩阵包含检索文字。
全文摘要
本发明提供一种文档图像处理装置及文档图像处理方法。其中,抽取出文档图像中的文字数为M的文字列的图像,将其以1个文字为单位进行分割,并抽出各文字图像的图像特征,基于该图像特征,从以单个文字为单位储存有文字图像的图像特征的字形特征字典(15)中,按照匹配度从高到低的顺序选择N(N>1的整数)个文字图像作为候补文字,而制作抽取出的文字列的文字数为M×N维的第1索引矩阵。并且,对于由构成该第1索引矩阵的第1列的两个或两个以上候补文字构成的候补文字列,通过适用基于预定的语言模型的词汇解析,来制作出调整成有意义的文字列的第2索引矩阵,并在语言模型的基础上统计后进行词汇解析。
文档编号G06K9/72GK101354703SQ20071012960
公开日2009年1月28日 申请日期2007年7月23日 优先权日2007年7月23日
发明者宁 乐, 波 吴, 吴亚栋, 窦建军, 靖 贾 申请人:夏普株式会社
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1