专利名称:字形要素判定装置及字形要素判定方法
技术领域:
本发明涉及字形要素判定装置及字形要素判定方法。
背景技术:
除了例如像JIS标准那样准备了预定字体的文字(汉字)以外,还存在例如使用 者制成点图形(或位图)而得到的文字、即所谓的稀用字。稀用字大多用于例如人名和地
-C3 寸。例如,在市镇村合并中,各市镇村大多使用不同的稀用字字体。因此,需要能够将 多个稀用字合并为1个,例如用1个常用汉字进行代替使用。因此,需要针对稀用字检索文字图形的形状类似的文字。此时,关注于稀用字的部 首、调查相同部首的文字的方法是常用方法之一。另外,关于具有手写文字识别功能的文字输入装置及方法,提出了以下的技术对 文字框和构成该文字框的预定数量的分割区域进行显示,对构成书写者在文字框内书写的 手写文字的笔划的坐标序列进行检测并输入,根据所输入的手写文字的各笔划的坐标序列 判定该笔划是否跨越文字框内的分割区域,在跨越的情况下,合并相应的分割区域,根据合 并后的分割区域,以部首为单位切分上述手写文字,针对所切分的各部首,参照部首识别字 典进行识别处理,根据部首识别处理的结果和文字构成字典进行文字构成,取得并输出手 写文字的识别结果。专利文献1 日本特开平11-184971号公报例如在针对稀用字检索文字图形的形状类似的文字时,关注于稀用字的部首,进 行基于计算机的检索。但是,使用者需要输入稀用字的部首本身,从而作业比较麻烦。另外, 例如,在市镇村合并的规模较大的情况下,有时稀用字达到几千个字。在该情况下,进行输 入所需的使用者负担非常大。并且,在通过使用铅字OCR(光学式文字读取装置)检索类似 文字的情况下,铅字OCR只是判断文字整体的形状是否类似,不能根据部首检索文字(稀用 字)。
发明内容
本发明的目的在于提供一种能够判定文字的部首及部首以外的构成部分的字形 要素判定装置。所公开的字形要素判定装置具有轮廓图形存储部、定量数据生成部、定量数据存 储部、部首配置模式分析部、转换部、部首/部分点图形存储部以及部首/部分识别部。轮 廓图形存储部对表示判定对象文字的轮廓的轮廓图形进行存储。定量数据生成部针对存储 在轮廓图形存储部中的轮廓图形,根据轮廓图形的坐标,生成定量数据,该定量数据包含包 围轮廓图形的矩形的大小和矩形的中心坐标。定量数据存储部存储针对轮廓图形生成的定 量数据。部首配置模式分析部根据存储在定量数据存储部中的定量数据,确定判定对象文 字中的部首及部首以外的构成部分的配置模式,根据配置模式,将轮廓图形分为包含作为部首的轮廓图形的第1组和包含作为部首以外的构成部分的轮廓图形的第2组。转换部将 存储在轮廓图形存储部中的第1组的轮廓图形转换为第1点图形,将存储在轮廓图形存储 部中的第2组的轮廓图形转换为第2点图形。部首/部分点图形存储部存储第1点图形和 第2点图形。部首/部分识别部根据与存储在点图形存储部中的第1点图形相关的OCR识 别判定部首,根据与存储在点图形存储部中的第2点图形相关的OCR识别判定部首以外的 构成部分。根据所公开的字形要素判定装置,能够针对判定对象文字,判定文字的字形要素, 换言之,判定部首及部首以外的构成部分。由此,即使在例如存在几千个稀用字的情况下, 也能够判定其字形要素,高效地生成字形要素的字典,能够高效地进行文字的检索、识别作 业。
图1是示出所公开的字形要素判定装置的结构的图。图2是示出点图形、轮廓图形以及定量数据的一例的图。图3是示出部首/部分点图形以及字形要素信息的一例的图。图4是示出字形要素分析的一例的图。图5是示出文字代码的一例的图。图6是示出字形要素判定的处理流程的图。图7是示出字形要素分析的处理流程的图。图8是示出字形要素分析的处理流程的图。图9是示出部首配置模式判定的处理流程的图。图10是示出部首配置模式判定的处理流程的图。图11是示出字形要素判定结果的一例的图。图12是示出字形要素判定结果的一例的图。图13是示出字形要素判定结果的一例的图。图14是示出字形要素判定结果的一例的图。标号说明1字形要素判定装置;2稀用字文件;3字形要素数据库;11点图形生成部;12点 图形存储部;13字形要素分析部;14轮廓图形存储部;15定量数据存储部;16部首分析字 典;17部首/部分点图形存储部;18部首识别字典;19部分识别字典;131轮廓提取部;132 定量数据生成部;133部首配置模式分析部;134部首/部分光栅化部;135部首/部分识别 部;136字形要素存储部。
具体实施例方式图1是示出所公开的字形要素判定装置1的结构的图。字形要素判定装置1针对所输入的文字数据,进行判定文字的字形要素的形状 (以下,称为字形要素判定)的处理,并将该判定结果作为字形要素信息,存储到字形要素 数据库3中。所输入的文字数据例如是从稀用字文件2输入的稀用字数据。文字的字形要 素是部首、和部首以外的构成部分。所谓字形,是指文字整体的形状、部首的形状、部首以外的构成部分的形状。所谓部首,是指字旁、字边、字头等。部首以外的构成部分是部首以外 的文字构成要素,是从该文字去除该文字的部首后的部分。字形要素信息是针对包含在1 个文字的文字数据中的各个字形要素,表示该字形要素的信息,如后所述,例如是包含文字 代码、配置代码等的信息。字形要素判定装置1具有稀用字文件2和字形要素数据库3。稀用字文件2存储 多个稀用字的稀用字数据。稀用字数据例如是用点图形表示该稀用字的数据。点图形是针 对文字显示区域中的每个像素赋予白(=0)或黑(=1)的值来用黑色图形表现该文字的 数据。字形要素数据库3是存储与包含在1个文字的文字数据中的各个字形要素相关的字 形要素信息的数据库。字形要素判定装置1具有点图形生成部11、点图形存储部12、字形要素分析部13、 轮廓图形存储部14、定量数据存储部15、部首分析字典16、部首/部分点图形存储部17、部 首识别字典18以及部分识别字典19。字形要素分析部13还具有轮廓提取部131、定量数 据生成部132、部首配置模式分析部133、部首/部分光栅化部134、部首/部分识别部135 以及字形要素存储部136。如图2 (A)所示,点图形生成部11从稀用字文件2读入1个文字的稀用字数据21, 并且在所读入的1个文字的稀用字数据21是点图形的情况下,将稀用字数据21作为点图 形121存储到点图形存储部12中。在所读入的1个文字的稀用字数据不是点图形的情况 下,点图形生成部11将稀用字数据21转换为点图形121而生成点图形121并存储到点图 形存储部12中。点图形存储部12是存储1个文字的稀用字的点图形121的存储器。存储在点图 形存储部12中的点图形121、换言之即由点图形生成部11读入的1个文字的稀用字数据 21是判定对象文字。轮廓提取部131从点图形存储部12读出点图形121,提取与所读出的点图形121 相关的轮廓图形。由此提取出表示判定对象文字的轮廓的轮廓图形。轮廓提取部131将所 提取的轮廓图形作为轮廓图形141存储到轮廓图形存储部14中。轮廓图形存储部14对表示判定对象文字的轮廓的轮廓图形141进行存储。图2 (B) 示出轮廓图形141的一例。如图2(B)所示,轮廓图形141是针对每1个轮廓进行提取的,针对每1个文字例 如提取多个轮廓。各个轮廓图形141包含轮廓编号、轮廓数以及多个轮廓的坐标数据。轮 廓编号是由轮廓提取部131针对每个轮廓图形141唯一地确定的识别编号。轮廓数是由轮 廓提取部131提取的轮廓的数量。轮廓的坐标数据是预定坐标内的轮廓的坐标数据。例如在点图形121中,对值即将从“1”变化到“0”之前的值“1”的像素即点(边 缘)进行检测,将该检测到的连续的点的集合设为1个轮廓,由此提取轮廓的坐标数据。换 言之,轮廓的边缘是连续的。由此,针对1个判定对象文字(稀用字)提取出2个以上的轮 廓的坐标数据。所提取的多个轮廓的坐标数据的数量为轮廓数,对所提取的多个轮廓的各 个坐标数据赋予轮廓编号。例如,在图4(A)中,文字“字”的轮廓为2个,轮廓数为“2”。另外,对2个轮廓分 别赋予轮廓编号。如图4(B)所示,例如对与矩形#1对应的轮廓(的部分)赋予轮廓 编号=1,对与矩形#2对应的轮廓(“子”的部分)赋予轮廓编号=2。并且,与矩形#1对应的轮廓(的部分)为部首,与矩形#2对应的轮廓(“子”的部分)为部首以外的构 成部分。针对轮廓编号=1的轮廓,将轮廓编号、轮廓数以及与矩形#1对应的轮廓(“ + ” 的部分)的坐标数据存储为与文字“字”相关的第1轮廓图形141。针对轮廓编号=2的轮 廓,将轮廓编号、轮廓数以及与矩形#2对应的轮廓(“子”的部分)的坐标数据存储为与文 字“字”相关的第2轮廓图形141。定量数据生成部132针对存储在轮廓图形存储部14中的轮廓图形141,根据轮廓 图形141的轮廓的坐标数据,求出包围轮廓图形141的矩形,并进一步求出矩形大小以及矩 形中心坐标。由此,定量数据生成部132生成包含矩形大小和矩形中心坐标的定量数据。定 量数据生成部132将所生成的定量数据作为定量数据151存储到定量数据存储部15中。定量数据存储部15存储针对轮廓图形141所生成的定量数据151。换言之,针对 1个轮廓图形141生成1个定量数据151。图2(C)示出定量数据151的一例。如图2(C)所示,定量数据151包含轮廓编号、包围轮廓的矩形坐标、矩形的中心坐 标、矩形的大小(面积)、部首标志以及母轮廓编号。部首标志有时包含配置代码。轮廓编 号INT是对应的矩形的轮廓图形141的轮廓编号。包围轮廓的矩形坐标RECT是矩形的对 角线上的2点的矩形坐标数据。矩形的中心坐标POINT是表示矩形中心的坐标数据。矩形 的大小(面积)INT2是根据矩形的坐标数据确定的面积。如后所述,矩形的大小被设为如 1(面积最小的值) 9(面积最大的值)那样的相对值。部首标志BOOL在对应的轮廓编号 的轮廓图形141被判定为部首的情况下设为ON(或“1”),在不是部首的情况下设为OFF(或 “0”)。配置代码是唯一地确定部首配置模式的代码,在部首标志BOOL为ON的情况下被存 储,在部首标志BOOL为OFF的情况下不存储。母轮廓编号INT3将在后文详细叙述,针对其 他包含在轮廓中的小轮廓,将包含该小轮廓的大轮廓的轮廓编号赋予为小轮廓的上位的轮 廓编号,换言之,赋予为母轮廓编号。按照下述方式求出矩形坐标RECT。如图4(B)所示,轮廓图形141的轮廓的坐标数 据是由相对于原点O的X坐标和Y坐标确定的。在该情况下,从轮廓图形141的轮廓坐标 数据中提取X坐标的最大值XI、X坐标的最小值X2、Y坐标的最大值Yl以及Y坐标的最小 值Y2。由此,求出以坐标(XI,Yl)、坐标(X1,Y2)、坐标(Χ2,Υ1)、坐标(Χ2,Υ2)为顶点的矩形。矩形的中心坐标POINT例如作为矩形的对角线的交点坐标而求出。矩形的大小是 通过使用4个顶点而求出的。部首标志B00L、配置代码以及母轮廓编号INT3由部首配置模式分析部133求出。 由此,在由定量数据生成部132存储到定量数据存储部15中时的定量数据151中,部首标 志B00L、配置代码以及母轮廓编号INT3被设为“空”。部首配置模式分析部133判定部首的配置模式,换言之,判定“字旁”、“字边”等部 首的种类。为此,部首配置模式分析部133使用存储在定量数据存储部15中的定量数据 151、和部首分析字典16。部首配置模式分析部133在判定为判定对象字形(轮廓图形141) 是部首的情况下,求出部首的配置模式,将定量数据151的部首标志设为0N。另一方面,部 首配置模式分析部133在判定为不是部首的情况下,将定量数据151的部首标志设为OFF。部首的配置模式是由唯一确定该配置模式的配置代码表示的。因此,求出配置模式就是确定配置模式的配置代码。所确定的配置代码被存储为定量数据151的配置代码。 对于被判定为不是部首的轮廓图形,不存储定量数据151的配置代码。关于配置代码,例如 将“没有部首”设为“0 ”,将“字旁”设为“ 1 ”,将“字边”设为“ 2 ”,将“字头”设为“ 3 ”,将“字 底”设为“4”,将“广字头或病字头”设为“5”,将“建之旁或走之底或走字旁”设为“6”,将 “字框”设为“7”。具体而言,部首配置模式分析部133根据存储在定量数据存储部15中的定量数据 151,确定判定对象文字中的部首及部首以外的构成部分的配置模式。然后,部首配置模式 分析部133根据所确定的配置模式,将轮廓图形141分为部首的组(第1组)和部首以外 的构成部分的组(第2组),其中,该部首的组(第1组)包含作为部首的轮廓图形141,该 部首以外的构成部分的组(第2组)包含作为部首以外的构成部分的轮廓图形141。为此,部首配置模式分析部133具有部首分析字典16。部首分析字典16存储每个 部首的定量数据151。部首配置模式分析部133根据存储在定量数据存储部15中的定量数 据151参照部首分析字典16,由此确定判定对象文字中的部首的配置模式。然后,部首配置 模式分析部133根据所确定的配置模式,确定作为判定对象文字中的部首的轮廓图形141。部首配置模式分析部133为了根据定量数据151参照部首分析字典16,使用阵列 及阵列结构体。作为阵列,使用重叠1个以上的二维阵列而得到的三维阵列,其中,该二维 阵列是如图4(B)的右侧所示在纵向和横向上将文字显示区域3等分而得到的。关于阵列 结构体,在阵列中,在与矩形的中心坐标对应的分割区域中存储该矩形的中心坐标及矩形 的大小。所谓重叠二维阵列,换言之,是指在二维阵列中允许在1个分割区域中存储多个矩 形的中心坐标及矩形的大小。针对1个文字,生成1个三维阵列结构体。三维阵列结构体是重叠1个以上的二 维阵列结构体而得到的,关于该二维阵列结构体,是在二维阵列中,在与矩形的中心坐标对 应的分割区域中存储该矩形的中心坐标及矩形的大小。并且,针对1个文字的定量数据存 储部15实际上包含1个三维阵列结构体、和针对每个轮廓生成的多个定量数据151。如图4⑶所示,阵列包含9个分割区域a i。通过将文字显示区域在纵向和横 向上3等分,能够在上段a c,中段d f,下段g i,左段a、d及g,中段b、e及h,右段 c、f及i中,确定各自的中央。由此,能够准确地确定部首的配置模式。分割区域b位于上 段中心,分割区域d位于左段中心,分割区域e位于全体即各段的中心,分割区域f位于右 段中心,分割区域h位于下段中心。部首配置模式分析部133在阵列中,将轮廓图形141的矩形的中心坐标和与该矩 形的中心坐标对应的区域对应起来,提取轮廓图形141的矩形的中心坐标的位置关系,由 此确定部首及部首以外的构成部分的配置模式。另外,部首配置模式分析部133将轮廓图 形141的矩形与将文字显示区域分割为多个分割区域而得到的阵列重叠,提取轮廓图形 141的矩形的位置及大小的关系,由此确定部首及部首以外的构成部分的配置模式。例如,如图4(B)中斜线所示,针对文字“字”,“ ”部分的轮廓图形141的矩形#1 与阵列重叠。此外,如图4(B)中粗网格所示,针对文字“字”,“子”部分的轮廓图形141的 矩形#2与阵列重叠。部分的轮廓图形141的矩形与“子”部分的轮廓图形141的矩形 相互重叠。“ ”部分的轮廓图形141的矩形#1的中心坐标#1位于与分割区域b对应的位
8置。因此,在阵列的分割区域b中存储中心坐标#1及其面积(例如“3”)。“子”部分的轮 廓图形141的矩形#2的中心坐标#2位于与分割区域e对应的位置上。由此,在阵列的分 割区域e中存储中心坐标#2及其面积(例如“6”)。例如,对使根据矩形的坐标数据求出的面积除以阵列中的1个分割区域的面积而 得到的值进行四舍五入,由此求出矩形的面积。由此,矩形的大小被设为如1(面积最小的 值) 9 (面积最大的值)那样的相对值。如上所述,在阵列上生成判定对象文字的配置模式,作为阵列结构体。部首配置模 式分析部133将判定对象文字的阵列结构体与部首分析字典16进行对照,由此针对判定对 象文字,确定“字旁”、“字边”等部首的配置模式。因此,部首分析字典16是用于针对阵列结 构体进行分析的字典,并确定该分析处理。关于部首分析字典16及配置模式的确定处理, 将参照图9 图14在后文叙述。部首/部分光栅化部134是进行轮廓的光栅化(再次的点图形化)的转换部。部 首/部分光栅化部134根据轮廓图形141和定量数据151,对部首或部首以外的构成部分进 行点图形化(光栅化),生成点图形171。例如,部首/部分光栅化部134针对存储在轮廓图形存储部14中的轮廓图形141, 参照存储在定量数据存储部15中的同一轮廓编号的定量数据151。在定量数据151中,在 部首标志BOOL为“ 1”的情况下,该轮廓图形141为部首的轮廓图形,换言之,为部首的组 的轮廓图形141。在该情况下,部首/部分光栅化部134将存储在轮廓图形存储部14中的 (部首的组的)轮廓图形141转换为第1点图形。第1点图形为部首的点图形。另一方面,在定量数据151中,在部首标志BOOL为“0”的情况下,该轮廓图形141 为部首以外的构成部分的轮廓图形,换言之,为部首以外的构成部分的组的轮廓图形141。 在该情况下,部首/部分光栅化部134将存储在轮廓图形存储部14中的(部首以外的构成 部分的组的)轮廓图形141转换为第2点图形。第2点图形为部首以外的构成部分的点图 形。第1点图形和第2点图形被存储在部首/部分点图形存储部17中。图3 (A)示出 点图形171的一例。如图3㈧所示,多个点图形171分别包含轮廓编号、部首标志、配置代码以及比特 图形。轮廓编号是轮廓图形141的轮廓编号。部首标志是由部首配置模式分析部133确定 的、定量数据151中的部首标志B00L。配置代码是由部首配置模式分析部133确定的、定量 数据151中的表示配置模式的配置代码。比特图形是由部首/部分光栅化部134进行点图 形化后的数据。部首/部分识别部135根据与存储在部首/部分点图形存储部17中的第1点图 形171相关的OCR识别,判定部首。此外,部首/部分识别部135根据与存储在部首/部分 点图形存储部17中的第2点图形171相关的OCR识别,判定部首以外的构成部分。为此,部首/部分识别部135具有部首识别字典18和部分识别字典19。部首识 别字典18存储每个部首的点图形。部分识别字典19存储每个部首以外的构成部分的点图 形。部首/部分识别部135根据与第1点图形相关的OCR识别参照部首识别字典18, 由此判定部首。例如,对与第1点图形相关的OCR识别结果、和存储在部首识别字典18中的部首的点图形进行比较,在一致率为预定值以上的情况下,判定为第1点图形是该部首。 部首/部分识别部135根据该判定结果,从部首识别字典18得到与该部首对应的部首文字 代码,存储到字形要素存储部136中。部首/部分识别部135根据与第2点图形相关的OCR识别参照部分识别字典19, 由此判定部首以外的构成部分。例如,对与第2点图形相关的OCR识别结果、和存储在部分 识别字典19中的部首以外的构成部分的点图形进行比较,在一致率为预定值以上的情况 下,判定为第2点图形是该部首以外的构成部分。部首/部分识别部135根据该判定结果, 从部分识别字典19得到与该部首以外的构成部分对应的部分文字代码,并存储到字形要 素存储部136中。例如,如图5(A)所示,在文字“字”中,在关注于部首“ ”的部分时,通过针对矩形 91 (矩形#1)进行光栅化,生成包含点图形171的矩形92,矩形91包含部首“ ”的部分的 轮廓图形141。通过针对矩形92进行OCR识别,可得到部首“ ”的部首文字代码。例如,如图5(B)所示,在文字“字”中,在关注于部首以外的部分“子”的部分时, 通过针对矩形93 (矩形#2)进行光栅化,生成包含点图形171的矩形94,矩形93包含部首 以外的部分“子”部分的轮廓图形141。通过针对矩形94进行OCR识别,可得到部首以外的 部分“子”的部分文字代码。如上所述,部首/部分识别部135将字形要素信息存储到字形要素存储部136中。 部首/部分识别部135(或字形要素分析部13)将字形要素信息输出到字形要素数据库3。 图3(B)示出字形要素信息31的一例。如图3(B)所示,字形要素信息31包含文字代码WCHAR、配置代码INT4、部首文字 代码WCHAR2以及部分文字代码WCHAR3。文字代码WCHAR是按照每个文字(稀用字)唯一 确定的识别信息。配置代码INT4是按照每个“字旁”、“字边”等部首的配置(部首的种类) 唯一确定的识别信息,是存储在点图形171中的配置代码。部首文字代码WCHAR2是按照每 个“人字旁”、“三点水”等的部首唯一确定的识别信息。部分文字代码WCHAR3是按照每个 部首以外的构成部分唯一确定的识别信息。图6是示出字形要素判定的处理流程的图。字形要素判定装置1的点图形生成部11从稀用字文件2读入1个文字的稀用字 数据(步骤Si)。点图形生成部11在所读入的1个文字的稀用字数据不是点图形121的情 况下,将所读入的1个文字的稀用字数据转换为点图形121 (步骤S》。然后,点图形生成 部11将所读入的1个文字的稀用字的点图形121或转换后的点图形121存储到点图形存 储部12中。接着,字形要素分析部13根据存储在点图形存储部12中的稀用字的点图形121, 进行字形要素分析的处理(步骤S3)。关于字形要素分析处理,将参照图7和图8在后面叙 述。在1个文字的稀用字数据的字形要素分析处理后,字形要素分析部13将该1个文 字的字形要素信息作为字形要素判定结果输出到字形要素数据库3 (步骤S4)。然后,点图形生成部11判定是否对存储在稀用字文件2中的所有稀用字数据进行 了处理,在判断为存在未处理的文字的情况下(步骤S5否),执行步骤Si。另一方面,在判 断为对从稀用字文件2输入的数据的所有文字进行了处理的情况下(步骤S5是),点图形生成部11结束处理。图7和图8是示出字形要素分析的处理流程的图。字形要素分析部13的轮廓提取部131针对存储在点图形存储部12中的稀用字的 点图形121,进行轮廓提取处理(步骤Sll)。换言之,轮廓提取部131根据所提取的轮廓生 成轮廓图形141,将所生成的轮廓图形141存储到轮廓图形存储部14中。然后,轮廓提取部131判定是否处理了存储在点图形存储部12中的稀用字的点图 形121的所有轮廓(步骤S12)。在判断为未处理所有轮廓的情况下(步骤S12否),定量数据生成部132根据存储 在轮廓图形存储部14中的轮廓图形141,求出轮廓矩形(包围矩形的轮廓)(步骤Si; )。并 且,定量数据生成部132根据所求出的轮廓矩形,求出该轮廓矩形的中心坐标(步骤S14)。 并且,定量数据生成部132还求出矩形的大小(面积),生成包含轮廓矩形的中心坐标、矩形 面积的定量数据151。然后,定量数据生成部132在以例如纵3X横3X深度为要素的三维阵列中,在存 在所求出的矩形的中心坐标的位置(的结构体)上存储该矩形的中心坐标、矩形的大小而 生成三维阵列结构体(步骤S15),然后,执行步骤S12。另一方面,在步骤S12中判断为对所有轮廓进行了处理的情况下(步骤S12是), 部首配置模式分析部133根据存储在定量数据存储部15中的定量数据151和部首分析字 典16,进行部首配置模式的判定处理(步骤S16)。然后,部首配置模式分析部133将部首 配置模式的判定处理结果存储到定量数据存储部15中。例如,部首配置模式分析部133在判定为判定对象轮廓图形141是部首的情况下, 求出配置模式的配置代码,将部首标志设为ON。另一方面,在判定为判定对象轮廓图形141 不是部首的情况下,部首配置模式分析部133将部首标志设为OFF。部首标志被设定为定量 数据存储部15的定量数据151的部首标志。所求出的配置模式的配置代码被设定为定量 数据存储部15的定量数据151的配置代码。关于部首配置模式的判定处理,将参照图9和 图10在后文叙述。然后,部首/部分光栅化部134对包含在定量数据151的部首标志为ON的轮廓图 形141中的轮廓进行光栅化(点图形化)(步骤S17),将部首的点图形171存储到部首/部 分点图形存储部17中。然后,部首/部分识别部135针对存储在部首/部分点图形存储部 17中的、部首标志为ON的点图形171,根据部首识别字典18,进行部首的识别(步骤S18)。 部首/部分识别部135将部首的识别结果存储到存储器中(步骤S19)。接着,部首/部分光栅化部134对包含在部首标志为0FF(部首以外的构成部分) 的轮廓图形141中的轮廓进行光栅化(步骤S110),将部首以外的构成部分的点图形171存 储到部首/部分点图形存储部17中。然后,部首/部分识别部135针对存储在部首/部分 点图形存储部17中的、部首标志为OFF的点图形171,根据部分识别字典19,进行部首以外 的构成部分的识别(步骤S111)。部首/部分识别部135将部首以外的构成部分的识别结 果存储到存储器中(步骤S112)。此处,在识别结果为“字旁”和“字边”的情况下,部首与部首以外的构成部分有可 能是反的。因此,部首/部分识别部135读出存储在存储器中的识别结果,在识别结果为“字 旁”和“字边”的情况下,判定部首与部首以外的构成部分是否是反的。具体而言,部首/部分识别部135将识别结果的文字代码为部首文字代码的一方设为部首,将另一方设为部首 以外的构成部分(步骤S113)。然后,部首/部分识别部135将字形要素信息31存储到字形要素存储部136中 (步骤S114),其中,字形要素信息31包含配置模式、部首及部首以外的构成部分的识别结 果。然后,字形要素分析部13将存储在字形要素存储部136中的字形要素信息31存储到 字形要素数据库3中,结束处理。图9和图10是示出部首配置模式判定的处理流程的图。如上所述,部首分析字典16是用于针对阵列结构体进行分析的字典,并确定该分 析处理。由此,以下的步骤S21 S213为部首分析的处理,可认为是部首分析字典16的内容。部首配置模式分析部133读出存储在轮廓图形存储部14中的轮廓图形141、以及 存储在定量数据存储部15中的与其对应的(同一轮廓编号的)定量数据151,并根据所读 出的轮廓图形141,判定轮廓图形141是否为1个(是否没有部首)(步骤S21)。在判定为轮廓图形141不是1个O个以上)的情况下(步骤S21否),当轮廓图 形141中存在预定面积以下的小轮廓的轮廓图形141、且存在包含该小轮廓的更大轮廓时, 部首配置模式分析部133将这些轮廓设为1个轮廓组(步骤S22)。此处,预定的面积例如被设为“1”。包含小轮廓的大轮廓的轮廓图形141的面积被 设为小轮廓的面积与大轮廓的面积的总和。包含小轮廓的大轮廓的轮廓图形141的位置被 设为该大轮廓的轮廓图形141的对应分割区域。并且,部首配置模式分析部133将大轮廓 的轮廓图形141的轮廓编号作为母轮廓编号设定在与包含在大轮廓中的小轮廓的轮廓图 形141对应的定量数据151中。接着,部首配置模式分析部133判定轮廓图形141的轮廓数是否是2个或3个以 上(步骤S23)。在轮廓数为3个以上的情况下,部首配置模式分析部133根据定量数据151的矩 形大小,判定在矩形中面积最大的矩形是否位于上下左右的某一个中心(分割区域b、d、e、 f、h)(步骤 S24)。在判定为在矩形中面积最大的矩形位于分割区域的上下左右的任意一个中心的 情况下(步骤SM是),部首配置模式分析部133判定是否面积最大的矩形位于任意一个 段的中心,例如上段中心(分割区域b)、且其他所有矩形位于面积最大的矩形的下方位置。 在面积最大的矩形位于任意一个段的中心、且其他所有矩形位于面积最大的矩形的下方位 置的情况下,部首配置模式分析部133将面积最大的矩形判定为部首“字头”(步骤S25), 执行步骤S210。在除此以外的情况下,换言之,在判定为面积最大的矩形不位于上段中心、或者其 他任意一个矩形不位于面积最大的矩形的下方位置的情况下,部首配置模式分析部133判 定是否面积最大的矩形位于任意一个段的中心,例如下段中心(分割区域h)、且其他所有 矩形位于面积最大的矩形的上方位置。在面积最大的矩形位于任意一个段的中心、且其他 所有矩形位于面积最大的矩形的上方位置的情况下,部首配置模式分析部133将面积最大 的矩形判定为部首“字底”(步骤S26),执行步骤S210。在除此以外的情况下,换言之,在判定为面积最大的矩形不位于下段中心、或者其他任意一个矩形不位于面积最大的矩形的上方位置的情况下,部首配置模式分析部133判 定是否面积最大的矩形位于任意一个段的中心,例如左段中心(分割区域d)、且其他所有 矩形位于面积最大的矩形的右方位置。在面积最大的矩形位于任意一个段的中心、且其他 所有矩形位于右方位置的情况下,部首配置模式分析部133将面积最大的矩形判定为部首 “字旁”(步骤S27),执行步骤S210。在除此以外的情况下,换言之,在判定为面积最大的矩形不位于左段中心、或者其 他任意一个矩形不位于右方位置的情况下,部首配置模式分析部133判定是否面积最大的 矩形位于任意一个段的中心,例如右段中心(分割区域f)、且其他所有矩形位于面积最大 的矩形的左方位置。在面积最大的矩形位于任意一个段的中心、且其他所有矩形处于左方 位置的情况下,部首配置模式分析部133将面积最大的矩形判定为部首“字边”(步骤S28), 执行步骤S210。在除此以外的情况下,换言之,在判定为面积最大的矩形不位于右段中心、或者其 他任意一个矩形不位于左方位置的情况下,部首配置模式分析部133判定为难以判定部首 的情况,判定为“没有部首”(步骤S29)。然后,部首配置模式分析部133在定量数据151中设定配置代码,并设定三维阵列 结构体的各轮廓数据的部首标志的ON/(或)0FF(步骤S210)。换言之,部首配置模式分析 部133生成定量数据151,存储到定量数据存储部15中,结束处理。在步骤S23中,在轮廓数为2个的情况下,部首配置模式分析部133判定2个矩形 的中心坐标的位置关系是否处于左右位置关系。在2个矩形的中心坐标的位置关系处于左 右位置关系的情况下,部首配置模式分析部133将矩形面积小的矩形判定为部首“字旁”或 “字边”(步骤S211),执行步骤S210。此时,在矩形面积小的矩形存在于左方的情况下,将 该矩形面积小的矩形设为部首“字旁”。在矩形面积小的矩形存在于右方的情况下,将该矩 形面积小的矩形设为部首“字边”。在判定为2个矩形的中心坐标的位置关系不处于左右位置关系的情况下,部首配 置模式分析部133判定2个矩形的中心坐标的位置关系是否处于上下位置关系。在2个矩 形的中心坐标的位置关系处于上下位置关系的情况下,部首配置模式分析部133将矩形面 积小的矩形判定为部首“字头”或“字底”(步骤S212),执行步骤S210。此时,在矩形面积 小的矩形存在于上方的情况下,将该矩形面积小的矩形设为部首“字头”。在矩形面积小的 矩形存在于下方的情况下,将该矩形面积小的矩形设为部首“字底”。在判定为2个矩形的中心坐标的位置关系不处于上下位置关系的情况下,部首配 置模式分析部133判定2个矩形的中心坐标的位置关系是否均位于同一中心。在2个矩形 的中心坐标的位置关系均处于同一中心的情况下,部首配置模式分析部133将矩形面积大 的矩形判定为部首“广字头或病字头”或“字框”(步骤S213),执行步骤S210。此时,部首 “广字头或病字头”和部首“字框”为同一条件,因此不能通过步骤S213进行判定。由此,判 定结果被设为部首“广字头或病字头”或部首“字框”。在判定为2个矩形的中心坐标的位置关系不是均处于同一中心的情况下,部首配 置模式分析部133执行步骤S29。图11 图14是示出使用部首分析字典16的字形要素分析的一例的图。例如,在图Il(A)中,针对文字“休”,用灰色(网格)图形表示文字“休”自身,用实线表示包围2个轮廓各自的轮廓图形的矩形,用黑色圆圈表示矩形的中心坐标。并且,与 这样将矩形和黑色圆圈与文字重叠后的图形并排地示出了针对具有两个轮廓、由“字旁”和 “字边”构成的字形要素,例如文字“休”生成的三维阵列结构体(以下称为阵列结构体)。 另外,用粗线示出的矩形表示该矩形是确定作为字形要素的“部首”的因素。另外,出现在阵列结构体中的“3”、“6”等数字表示对该分割区域分配了矩形的中 心坐标,以及具有该所分配的中心坐标的矩形的大小(面积)。例如,数字“3”表示对图 4(B)所示的分割区域d分配了大小为“3”的矩形。另外,在阵列结构体中,用网格表示的分 割区域以及该分割区域的数字表示该区域和该数字是确定作为字形要素的“部首”的因素。 例如,在图Il(A)中,表示在分割区域d中存在作为大小为“3”的“部首”的矩形。如上所述,在图Il(A)中,针对文字“休”,矩形和黑色圆圈与文字重叠后的图形是 对存储在轮廓图形存储部14中的轮廓图形141和存储在定量数据存储部15中的定量数据 151进行结合而视觉表现的图形。另外,阵列结构体是与将矩形和黑色圆圈与文字重叠后的 图形对应的、针对文字“休”的阵列结构体。以上在其他例子中也同样。关于图Il(A)所示的文字“休”,轮廓数为2个(步骤S2!3),2个轮廓处于左右位置 关系,比面积为“6”的另一个轮廓小且面积为“3”的轮廓位于左方,因此将该位于左方的轮 廓设为部首“字旁”(步骤S211)。关于图11⑶所示的文字“海”,对“? ”部分(三点水)的轮廓赋予图2(C)所示 的同一母轮廓编号INT3,由此,虽然实际为多个轮廓,但是作为面积为“5”的1个轮廓进行 处理(步骤S22),其结果是,轮廓数为3个(步骤S23),面积为“5”且最大的轮廓位于左段 中心,因此将该面积为“5”的轮廓设为部首“字旁”(步骤S27)。此外,在分割区域a中,存储了 2个数字“1”。其原因在于,如前所述,阵列结构体 是三维的,因此允许在1个分割区域中存储多个矩形的中心坐标及矩形的大小。关于图Il(C)所示的文字“歌”,对2个“可”部分的轮廓赋予图2(C)所示的同一母 轮廓编号INT3,由此,虽然实际为多个轮廓,但是作为1个轮廓进行处理(步骤S22),其结 果是,轮廓数为3个(步骤S23),将面积为“6”且最大的轮廓设为部首“字边”(步骤S28)。关于图Il(D)所示的文字“動”,轮廓数为2个(步骤S2!3),2个轮廓处于左右位 置关系,面积为“4”的较小轮廓位于右方,因此将该面积小的轮廓设为部首“字边”(步骤 S211)。关于图12(A)所示的文字“字”,轮廓数为2个(步骤S2!3),2个轮廓处于上下位置 关系,面积为“4”的较小轮廓位于上方,因此将面积小的轮廓设为部首“字头”(步骤S211)。针对图12(B)所示的文字“草”,轮廓数为2个(步骤S2!3),2个轮廓处于上下位置 关系,面积为“3”的较小轮廓位于上方,因此将面积小的轮廓设为部首“字头”(步骤S211)。针对图12(C)所示的文字“恭”,对设为部首“字底”的轮廓赋予图2(C)所示的同 一母轮廓编号INT3,由此,虽然实际为多个轮廓,但是作为1个轮廓进行处理(步骤S22), 其结果是,轮廓数为2个(步骤S23),2个轮廓位于上下位置关系,面积为“4”的较小轮廓 位于下方,因此将该积小的轮廓设为部首“字底”(步骤S212)。针对图12⑶所示的文字“点”,对设为部首“字底”的轮廓赋予图2(C)所示的同 一母轮廓编号INT3,由此,虽然实际为多个轮廓,但作为1个轮廓进行处理(步骤S22),其 结果是,轮廓数为2个(步骤S23),2个轮廓处于上下位置关系,面积为“4”的较小轮廓位于下方,因此将面积小的轮廓设为部首“字底”(步骤S212)。关于图13(A)所示的文字“疾”,轮廓数为2个(步骤S23),2个轮廓处于相同位置 关系,因此将面积大的轮廓设为部首“广字头或病字头”或“字框”(步骤S213)。另外,文字“疾”本来是需要判定为“广字头或病字头”的例子,但在该例子中,不能 区别部首“广字头或病字头”和部首“字框”。但是,这种情况已经预先知道,因此在分类为 部首“广字头或病字头”或“字框”的文字中,根据部首/部分识别部135的OCR识别处理 结果,判定是部首“广字头或病字头”还是部首“字框”即可。以上对于图13(B)也是同样。关于图13 (B)所示的文字“広”,轮廓数为2个(步骤S23),2个轮廓处于相同位置 关系,因此将面积大的轮廓设为部首“广字头或病字头”或“字框”(步骤S213)。关于图13 (C)所示的文字“道”,轮廓数为3个以上(步骤S23),面积大的轮廓位于 中心(步骤S24),其他轮廓的位置关系全部不处于右或左的位置关系(步骤S25 S28), 因此设为难以判定部首的情况,设为“没有部首”(步骤S29)。另外,文字“道”本来是需要判定为“建之旁或走之底或走字旁”的例子,但在该例 子中,设为“没有部首”。由此,除了本来的“没有部首”以外,“没有部首”有时还包括需要 判定为“建之旁或走之底或走字旁”的文字的情况。但是,这种情况已经预先知道,因此,根 据部首/部分识别部135的OCR识别处理的结果,从分类为“没有部首”的文字中去除需要 判定为“建之旁或走之底或走字旁”的文字即可。关于图13⑶所示的文字“医”,轮廓数为2个(步骤S23),2个轮廓处于相同位置 关系,因此将面积大的轮廓设为部首“广字头或病字头”或“字框”(步骤S213)。另外,文字“医”本来是需要判定为“字框”的例子,但在该例子中,不能区别部首 “广字头或病字头”和部首“字框”。但是,这种情况已经预先知道,因此在分类为部首“广字 头或病字头”或“字框”的文字中,根据部首/部分识别部135的OCR识别处理的结果,判定 是部首“字框”还是部首“广字头或病字头”即可。关于图14所示的文字“皆”,轮廓数为3个以上(步骤S23),面积大的轮廓也不 处于上下左右的任意一个中心(步骤S24),因此设为难以判定部首的情况,设为“没有部 首”(步骤S29)。并且,在图11 图14中,使用常用汉字进行了说明,但是针对稀用字也同样能够 得到字形要素信息。
权利要求
1.一种字形要素判定装置,其特征在于,该字形要素判定装置具有轮廓图形存储部,其存储轮廓图形,该轮廓图形表示判定对象文字的轮廓;定量数据生成部,其针对存储在所述轮廓图形存储部中的所述轮廓图形,根据所述轮 廓图形的坐标,生成定量数据,该定量数据包含包围所述轮廓图形的矩形的大小和所述矩 形的中心坐标;定量数据存储部,其存储针对所述轮廓图形生成的所述定量数据;部首配置模式分析部,其根据存储在所述定量数据存储部中的所述定量数据,确定所 述判定对象文字中的部首及所述部首以外的构成部分的配置模式,根据所述配置模式,将 所述轮廓图形分为包含作为所述部首的轮廓图形的第1组和包含作为所述部首以外的构 成部分的轮廓图形的第2组;转换部,其将存储在所述轮廓图形存储部中的所述第1组的轮廓图形转换为第1点图 形,将存储在所述轮廓图形存储部中的所述第2组的轮廓图形转换为第2点图形;部首/部分点图形存储部,其存储所述第1点图形和所述第2点图形;以及部首/部分识别部,其根据与存储在所述点图形存储部中的所述第1点图形相关的OCR 识别判定所述部首,根据与存储在所述点图形存储部中的所述第2点图形相关的OCR识别 判定所述部首以外的构成部分。
2.根据权利要求1所述的字形要素判定装置,其特征在于,所述字形要素判定装置还具有轮廓提取部,该轮廓提取部根据所述判定对象文字的点 图形,提取表示判定对象文字的轮廓的轮廓图形。
3.根据权利要求1所述的字形要素判定装置,其特征在于,所述部首配置模式分析部具有存储每个部首的定量数据的部首分析字典,通过根据存 储在所述定量数据存储部中的所述定量数据参照所述部首分析字典,确定所述判定对象文 字中的部首的配置模式,根据所述配置模式,确定作为所述部首的轮廓图形。
4.根据权利要求1所述的字形要素判定装置,其特征在于,所述部首配置模式分析部在将文字显示区域分割为多个分割区域而得的阵列中,将所 述轮廓图形的所述矩形的中心坐标和与该矩形的中心坐标对应的区域对应起来,提取所述 轮廓图形的所述矩形的中心坐标的位置关系,由此确定所述部首及所述部首以外的构成部 分的所述配置模式。
5.根据权利要求1所述的字形要素判定装置,其特征在于,所述部首配置模式分析部将所述轮廓图形的所述矩形与将文字显示区域分割为多个 分割区域而得的阵列重叠,提取所述轮廓图形的所述矩形的位置及大小的关系,由此确定 所述部首及所述部首以外的构成部分的所述配置模式。
6.根据权利要求4或5所述的字形要素判定装置,其特征在于,所述阵列是重叠了 1个以上的二维阵列的三维阵列,该二维阵列是在纵向和横向上将 所述文字显示区域3等分而得。
7.根据权利要求1所述的字形要素判定装置,其特征在于,所述部首/部分识别部具有存储每个部首的点图形的部首识别字典、和存储每个所述 部首以外的构成部分的点图形的部分识别字典,根据与所述第1点图形相关的OCR识别参照所述部首识别字典,由此判定所述部首,并根据与所述第2点图形相关的OCR识别参照所 述部分识别字典,由此判定所述部首以外的构成部分。
8. 一种字形要素判定方法,其特征在于,该字形要素判定方法使计算机执行以下处理针对存储在轮廓图形存储部中的表示判定对象文字的轮廓的轮廓图形,根据所述轮廓 图形的坐标,生成定量数据,存储到定量数据存储部中,该定量数据包含包围所述轮廓图形 的矩形的大小和所述矩形的中心坐标;根据存储在所述定量数据存储部中的所述定量数据,确定所述判定对象文字中的部首 及所述部首以外的构成部分的配置模式,根据所述配置模式,将所述轮廓图形分为包含作 为所述部首的轮廓图形的第1组和包含作为所述部首以外的构成部分的轮廓图形的第2 组;将存储在所述轮廓图形存储部中的所述第1组的轮廓图形转换为第1点图形,将存储 在所述轮廓图形存储部中的所述第2组的轮廓图形转换为第2点图形,存储到部首/部分 点图形存储部中;以及根据与存储在所述点图形存储部中的所述第1点图形相关的OCR识别判定所述部首, 根据与存储在所述点图形存储部中的所述第2点图形相关的OCR识别判定所述部首以外的 构成部分。
全文摘要
字形要素判定装置及字形要素判定方法。本发明的课题是提供能够判定文字的部首及部首以外的构成部分的字形要素判定装置。作为解决手段,定量数据生成部针对文字的轮廓图形,生成定量数据,该定量数据包含包围轮廓图形的矩形的大小和矩形的中心坐标。部首配置模式分析部根据定量数据,确定部首及部首以外的构成部分的配置模式,根据配置模式,将轮廓图形分为作为部首的第1组和作为部首以外的构成部分的第2组。转换部将第1组和第2组的轮廓图形转换为第1和第2点图形。部首/部分识别部根据第1点图形和第2点图形的OCR识别,分别判定部首及部首以外的构成部分。
文档编号G06K9/20GK102096814SQ20101028788
公开日2011年6月15日 申请日期2010年9月17日 优先权日2009年12月15日
发明者大石勇, 村松千织 申请人:富士通株式会社