用于识别收件人地址中的至少部分地址的装置和方法与流程

文档序号:21272856发布日期:2020-06-26 23:02阅读:307来源:国知局
用于识别收件人地址中的至少部分地址的装置和方法与流程

本公开总体上涉及图像处理领域,具体地,涉及用于识别收件人地址中的至少部分地址的装置和方法。



背景技术:

随着计算机性能的发展,ocr(opticalcharacterrecognition,光学字符识别)技术已经广泛地应用于人们日常生活的众多领域。例如,利用ocr技术识别文档图像中的文字以便于进一步进行处理。

收件人地址是常见的,如包裹、信件等邮件上的收件人地址。对于日文收件人地址,其通常被标识在3个相邻行中。处于3个相邻行的上方的行的地址分段被称为上地址。上地址包含例如省、城市、行政区的地址信息。处于3个相邻行中间的行的地址分段被称为中地址。中地址中的字符选自由字符“番”、“地”、“丁”、“目”、“号”、“-”、“0”、“1”、“2”、“3”、“4”、“5”、“6”、“7”、“8”和“9”构成的字符集合s。处于3个相邻行的下方的行的地址分段被称为下地址。下地址包含本地的具体的地址信息。

根据邮件上标识的收件人地址对邮件进行自动分类是期望的。进一步的,希望提高分类(即,识别)的效率和准确度。



技术实现要素:

在下文中将给出关于本公开内容的简要概述,以便提供关于本公开内容的某些方面的基本理解。应当理解,此概述并不是关于本公开内容的穷举性概述。它并不是意图确定本公开内容的关键或重要部分,也不是意图限定本公开内容的范围。其目的仅仅是以简化的形式给出某些概念,以此作为稍后论述的更详细描述的前序。

根据本公开内容的一个方面,提供了一种用于识别收件人地址中的至少部分地址的装置,包括:过分割单元,被配置成通过对至少部分地址的图像进行过分割得到过分割块序列;识别单元,被配置成通过对图像进行光学字符识别得到第一字符串;搜索单元,被配置成从地址数据库中搜索出与第一字符串匹配的多个候选字符串;相似度确定单元,被配置成通过执行动态时间规整确定过分割块序列与各个候选字符串的相似度;以及选择单元,被配置成根据相似度选择多个候选字符串之一作为至少部分地址的识别结果。

根据本公开内容的一个方面,提供了一种用于识别收件人地址中的至少部分地址的方法,包括:通过对至少部分地址的图像进行过分割得到过分割块序列;通过对图像进行光学字符识别得到第一字符串;从地址数据库中搜索出与第一字符串匹配的多个候选字符串;通过执行动态时间规整确定过分割块序列与各个候选字符串的相似度;以及根据相似度选择多个候选字符串之一作为至少部分地址的识别结果。

根据本公开内容的一个方面,提供了一种对具有收件人地址的邮件进行分类的方法,包括:通过执前述方法,获得的至少部分地址的识别结果;以及基于识别结果对邮件进行分类。

根据本公开内容的一个方面,提供了一种存储介质,其上存储有用于执行前述用于识别收件人地址中的至少部分地址的方法的程序。

使用该装置和方法至少能实现如下效果之一:提高识别收件人地址的识别准确程度和识别效率。

附图说明

本公开可以通过参考下文中结合附图所给出的描述而得到更好的理解,附图连同下面的详细说明一起包含在本说明书中并且形成本说明书的一部分。在附图中:

图1是根据本公开内容的一个实施方式的用于识别日文收件人地址图像中的上地址的装置的示例性框图;

图2示出了本公开内容中的示例性过分割块序列;

图3示出了示例性的多个候选字符串;

图4示出了根据本公开内容的一个实施方式的示例性距离矩阵;

图5示出了根据本公开内容的一个实施方式的示例性累积距离矩阵;

图6是根据本公开内容的一个实施方式的用于识别日文收件人地址中的至少部分地址的方法的示例性流程图;

图7是根据本公开内容的一个实施方式的对具有收件人地址的邮件进行分类的方法的示例性流程图;

图8是根据本公开内容的一个实施方式的信息处理设备的示例性框图。

具体实施方式

在下文中将结合附图对本公开内容的示例性实施方式进行描述。为了清楚和简明起见,在说明书中并未描述实际实施方式的所有特征。然而,应该了解,在开发任何这种实际实施方式的过程中可以做出很多特定于实施方式的决定,以便实现开发人员的具体目标,并且这些决定可能会随着实施方式的不同而有所改变。

在此,还需要说明的一点是,为了避免因不必要的细节而模糊了本公开,在附图中仅仅示出了与根据本公开内容的方案密切相关的装置结构,而省略了与本公开关系不大的其他细节。

应理解的是,本公开内容并不会由于如下参照附图的描述而只限于所描述的实施形式。在本文中,在可行的情况下,实施方式可以相互组合、不同实施方式之间的特征替换或借用、在一个实施方式中省略一个或多个特征。

本公开内容的一个方面涉及用于识别收件人地址中的至少部分地址的装置。收件人地址可以是日文地址、中文地址、英文地址。对于日文收件人地址,至少部分地址可以是日文收件人地址中的上地址。为了对邮件基于地址进行自动分类,通常只需要识别部分地址(例如,诸如省、市、城市等的广域地址),而不需要像街道、小区等的局部地址,这样可以提高识别速度及识别准确度。下面以至少部分地址是日文收件人地址中的上地址为例介绍本公开内容的示例性方案。

下面参考图1介绍本公开内容的一种用于识别日文收件人地址图像中的上地址的装置。

图1是根据本公开内容的一个实施方式的用于识别日文收件人地址图像中的上地址的装置10的示例性框图。

装置10包括过单元11、识别单元13、搜索单元15、相似度确定单元17和选择单元19。过分割单元11被配置成通过对上地址图像进行过分割得到过分割块序列s。需要说明的是,上地址图像可以通过各种手段确定(例如,通过图像采集直接获得上地址区域的图像,即上地址图像;需要时,可以对上地址图像进行预处理)。由于获取、预处理上地址图像不是本公开内容关注的重点,所以不再对其详述。

图2示出了本公开内容中的示例性过分割块序列s,其中,过分割块序列s包括多个分割块,各分割块的边界使用矩形框来表示。从图2可以看出,示例的上地址图像包括9个日文字符,但过分割后得到了18个分割块(即,示例性过分割块序列s包括18分割块),并且相邻分割块可能存在交叠。也就是说,过分割可能存在不恰当的分割,尤其是在上地址包括手写字符时。

在本公开内容中,邮件上标识的收件人地址可以为呈标准字体(例如,计算机使用的各种字体)格式的字符串,可以为手写形式的字符串,或者可以为混合形式,即,既包含标准字体格式的至少一个字符又包含手写形式的至少一个字符。本公开内容的技术方案尤其适于处理如下图像:地址图像中的至少部分字符为手写字符。

识别单元13被配置成通过对地址图像进行光学字符识别得到第一字符串st1。可以使用诸如卷积网络分类器、全卷积网络分类器的神经网络分类器对地址图像进行识别。在识别时若需要对图像进行分割,可以选用过分割单元11产生的过分割序列s,也可以使用另外的分割单元。光学字符识别可以产生多个候选字符串,优选其中每个字符的识别置信度都最高或较高的候选字符串。例如,可以选择各字符的识别置信度都大于预定阈值的字符串为第一字符串st1。

需要说明的是,常规的字符串识别方法通常仅利用识别单元进行识别,在多个识别的候选字符串中,选择置信度最高的候选字符串作为识别结果。如下所述,本发明内容对识别单元13的识别结果会进行进一步的处理,该处理可以看作对常规识别结果的校正,从而提高识别的准确率。

搜索单元15被配置成从上地址数据库中搜索出与第一字符串st1匹配的多个候选字符串(strk,k=1,2……)。地址数据库是地址字符串(例如,上地址字符)的集合,该地址数据库可以根据需要进行添加、修改、删除、标引等。匹配判断标准可以预先设定。匹配判断标准可以例如考虑:相对于第一字符串候选字符串中完全匹配的字符的数目的百分比,过分割可能存在错误的情况,光学字符识别可能存在错误的情况,候选字符串中的相邻字符组合与第一字符串st1中的字符匹配,候选字符串中的相邻字符组合与第一字符串st1中的相邻字符的组合匹配,候选字符串中的字符拆分与第一字符串st1中的字符匹配,候选字符串中的字符与第一字符串st1中的字符的拆分匹配。可以根据预定标准,相对于地址数据库中的地址字符串,对第一字符串st1的每个字符计算匹配度,若对第一字符串st1而言总匹配度大于预定阈值,则将上地址数据库中的该上地址字符串设定为候选字符串。可以对搜索结果按总匹配度进行降序排列,选择预定数量的前n个上地址字符串作为候选字符串。也可以不设定候选字符串的数量,只要总匹配度大于预定阈值就选择为候选字符串。

图3示出了示例性的5个候选字符串。该5个候选字符串是通过以下方式得到:对图2中的示例性上地址图像进行光学字符识别得到第一字符串st1,然后从上地址数据库中搜索出与第一字符串st1匹配的候选字符串。可以看出在字形上,各候选字符串中的字符与上地址图像中字符存在相似性。

相似度确定单元17被配置成通过执行动态时间规整(dtw)确定过分割块序列s与各个候选字符串的相似度。

执行动态时间规整包括:计算多个候选字符串中的每个的关于过分割块序列s的相应距离矩阵。图4示出了根据本公开内容的一个实施方式的示例性距离矩阵400,其中,为了清楚起见,图4中还示出了i、j,i为示例分割块序列s的各分割块的索引,在该示例中取值范围为1到18,j为候选符串str4的各字符的索引,在该示例中取值范围为1到9,从左侧起第二字符列为示例候选字符串str4的各字符,从下侧起,第二行字符为示例分割块序列s的各分割块。距离矩阵400的各矩阵元素例如按式(1)计算:

m和n为常数,例如将m和n设定为实数,进一步优选的设定为正整数,例如m=10,n=20;pij表示分割块i被识别为字符j的可能性,例如,可以使用分割块i被识别为候选字符串中的字符j的置信度作为pij。从式(1)可以看出可能性越高,则距离dij越小。在本公开内容中,在基于过分割块序列中的各分割块的被识别为多个候选字符串中的各字符的可能性计算所述相应距离矩阵时,所使用的公式不限于式(1)。在基于示例过分割块序列s中的各分割块的被识别为图3中的候选字符串中的各字符的可能性计算相应距离矩阵时,会得到5个距离矩阵,分别与图3中的5个候选字符串对应。注意,对图4中示出的各矩阵元素的具体数值仅是示例性的,图4中示出了小数点后2位(矩阵中各数值是通过对实际数值四舍五入得到),实际运算时可以用更高后更低精度的数。

执行动态时间规整包括:基于相应距离矩阵计算关于过分割块序列的相应累积距离矩阵。

得到距离矩阵后,就可以基于各距离矩阵计算关于过分割块序列的相应累积距离矩阵。例如,对图3中的候选字符串而言,由5个候选字符串得到5个相应距离矩阵,由5个相应距离矩阵会得到5个累积距离矩阵。

图5示出了根据本公开内容的一个实施方式的示例性累积距离矩阵500。注意,图5中还示出了i和j为0的情况,这是为了计算的方便。累积距离矩阵500的各矩阵元素例如按式(2)计算:

min函数表示取列表数列中的最小的数。i’为分割序列中的分割块i的合并索引,确定方式如下:在本实施例中,在计算累积距离矩阵的各矩阵元素时,还考虑了分割块序列的相邻分割块的交叠情况;如果相邻分割块的交叠面积与相邻分割块的总面积的交叠面积比大于预定交叠比阈值,则将相邻分割块的合并标志(例如fi、fi+1)设为“真”(在初始化分割块序列的各分割块的合并标志时可以都先设置为“假”),将相邻分割块的调整索引设为相邻分割块中最前方分割块的索引(例如,分割块2、3交叠面积比大于预定交叠比阈值,则将分割块2和3的调整索引都设为2;在初始化分割块i的调整索引时可以将其设置为i);在利用min函数计算sij时,若dij小于预定距离阈值,且fi=“真”,则i’等于分割块i的调整索引,否则,i’=i。在一个修改实施例中,在计算sij时,可以不考虑分割块序列的相邻分割块的交叠情况,直接将i’视为i。s00取2仅为示例,还可以取其它实数值,例如0。s0j(j=1,2,……)、si0(i=1,2,……)取999也仅为示例,其可以取相对于s00较大的数,例如为500*s00或500+s00。sij表示在累积距离矩阵中,从位置(1,1)至位置(i,j)的最短路径总距离。右上角位置(imax,jmax)处的最短路径总距离被定义为累积距离矩阵的最短路径的最小总距离dx(x表示是对应候选字符串strx的最小总距离)。在本公开内容中根据该最小总距离与相应候选字符串中的字符数目n的商来确定过分割块序列与相应候选字符串间的相似度sa。例如,对候选字符串strx而言的相似度sax可以设置为sax=1-dx/(n*dmax),dmax表示多个候选字符串对应的最小总距离中最大的一个。选择与多个候选字符串对应的多个相似度中的最大相似度所对应的候选字符串作为上地址图像的识别结果。等效的,也可以在多个候选字符串中,选择具有最小的商(即,dx/n)的候选字符串作为识别结果。

作为示例,在执行动态时间归整时,可以将过分割块序列用作测试模板序列,并且各候选字符串可以用作参考模板序列。

下面参考图6介绍根据本公开内容的一个实施方式的用于识别日文收件人地址中的至少部分地址的方法。

图6是根据本公开内容的一个实施方式的用于识别日文收件人地址中的至少部分地址的方法600的示例性流程图。

在步骤601处,执行过分割。具体而言:通过对至少部分地址的图像进行过分割得到过分割块序列。至少部分地址例如是日文收件人地址中的上地址。更具体的细节,可以参考本文对图1中的过分割单元11的介绍。

在步骤603处,执行光学字符识别。具体而言:通过对所述图像进行光学字符识别得到第一字符串。此步骤可以使用训练后神经网络分类器进行字符识别。更具体的细节,可以参考本文对图1中的识别单元13的介绍。

在步骤605处,执行搜索。具体而言:从地址数据库中搜索出与所述第一字符串匹配的多个候选字符串。更具体的细节,可以参考本文对图1中的搜索单元15的介绍。

在步骤607中,确定相似度。具体而言:通过执行动态时间规整确定过分割块序列与各个候选字符串的相似度。更具体的细节,可以参考本文对图1中的相似度确定单元17的介绍。

在步骤609中,执行选择。具体而言:根据确定的相似度选择多个候选字符串之一作为至少部分地址的识别结果。更具体的细节,可以参考本文对图1中的相似度确定单元19的介绍。

本公开内容还涉及一种对具有收件人地址的邮件进行分类的方法。

图7是根据本公开内容的一个实施方式的对具有收件人地址的邮件进行分类的方法700的示例性流程图。

在步骤701处,通过执行动态时间归整确定识别结果。具体而言,通过本公开内容的用于识别日文收件人地址中的至少部分地址的方法,获得收件人地址中的至少部分地址的图像的识别结果。具体执行细节可以参考方法600。

在步骤703处,基于所述识别结果对邮件进行分类。

在一个实施方式中,本公开内容还提供一种存储介质。存储介质上存储有用于执行用于识别日文收件人地址中的至少部分地址的方法的程序。存储介质包括但不限于软盘、光盘、磁光盘、存储卡、存储棒等。

本公开内容还涉及一种信息处理设备。

图8是根据本公开内容的一个实施方式的信息处理设备800的示例性框图。

在图8中,中央处理单元(cpu)801根据存储在只读存储器(rom)802中的程序或从存储部分808加载到随机存取存储器(ram)803的程序来进行各种处理。在ram803中,也根据需要来存储在cpu801执行各种处理时所需的数据等。

cpu801、rom802以及ram803经由总线804彼此连接。输入/输出接口805也连接至总线804。

以下部件连接至输入/输出接口805:包括软键盘等的输入部分806;包括诸如液晶显示器(lcd)等的显示器以及扬声器等的输出部分807;包括硬盘等的存储部分808;以及包括网络接口卡如lan卡、调制解调器等的通信部分809。通信部分809经由诸如英特网、局域网的网络执行通信处理。

驱动器810根据需要也连接至输入/输出接口805。可拆卸介质811如半导体存储器等根据需要安装在驱动器810上,使得从其中读取的计算机程序根据需要被安装到存储部分808。

cpu801可以运行用于实现本公开内容的方法的程序代码。

本公开内容的方法和装置至少具有以下有益效果:提高识别收件人地址的识别准确程度和识别效率。

尽管上面已经通过对本发明的具体实施方式的描述对本发明进行了披露,但是,应该理解,本领域的技术人员可在所附权利要求的精神和范围内设计对本发明的各种修改(包括在行的情况下,各实施方式之间特征的组合或替换)、改进或者等同物。这些修改、改进或者等同物也应当被认为包括在本发明的保护范围内。

应该强调,术语“包括/包含”在本文使用时指特征、要素、步骤或组件的存在,但并不排除一个或更多个其它特征、要素、步骤或组件的存在或附加。

此外,本发明的各实施方式的方法不限于按照说明书中描述的或者附图中示出的时间顺序来执行,也可以按照其他的时间顺序、并行地或独立地执行。因此,本说明书中描述的方法的执行顺序不对本发明的技术范围构成限制。

附记

1.一种用于识别收件人地址中的至少部分地址的装置,包括:

过分割单元,被配置成通过对所述至少部分地址的图像进行过分割得到过分割块序列;

识别单元,被配置成通过对所述图像进行光学字符识别得到第一字符串;

搜索单元,被配置成从地址数据库中搜索出与所述第一字符串匹配的多个候选字符串;

相似度确定单元,被配置成通过执行动态时间规整确定所述过分割块序列与各个候选字符串的相似度;以及

选择单元,被配置成根据所述相似度选择多个候选字符串之一作为所述至少部分地址的识别结果。

2.根据附记1所述的装置,其中,所述图像中的至少部分字符为手写字符。

3.根据附记1所述的装置,其中,在执行动态时间归整时,将所述过分割块序列用作测试模板序列,并且将所述多个候选字符串中的每个用作参考模板序列。

4.根据附记3所述的装置,其中,执行动态时间规整包括:计算所述多个候选字符串中的每个的关于所述过分割块序列的相应距离矩阵。

5.根据附记4所述的装置,其中,基于所述过分割块序列中的各分割块的被识别为所述多个候选字符串中的各字符的可能性计算所述相应距离矩阵。

6.根据附记5所述的装置,其中,执行动态时间规整包括:基于所述相应距离矩阵计算关于所述过分割块序列的相应累积距离矩阵。

7.根据附记6所述的装置,其中,根据相应累积距离矩阵的最短路径的最小总距离与相应候选字符串中的字符数目的商来来确定所述过分割块序列与相应候选字符串的相似度。

8.根据附记7所述的装置,其中,根据所述相似度选择多个候选字符串之一作为所述至少部分地址的识别结果包括:

选择与所述多个候选字符串对应的多个相似度中的最大相似度所对应的候选字符串作为所述至少部分地址的识别结果。

9.根据附记1所述的装置,其中,所述至少部分地址为日文收件人地址中的上地址。

10.一种用于识别日文收件人地址中的至少部分地址的方法,包括:

通过对所述至少部分地址的图像进行过分割得到过分割块序列;

通过对所述图像进行光学字符识别得到第一字符串;

从地址数据库中搜索出与所述第一字符串匹配的多个候选字符串;

通过执行动态时间规整确定所述过分割块序列与各个候选字符串的相似度;以及

根据所述相似度选择多个候选字符串之一作为所述至少部分地址的识别结果。

11.根据附记10所述的方法,其中,所述图像中的至少部分字符为手写字符。

12.根据附记10所述的方法,其中,在执行动态时间归整时,将所述过分割块序列用作测试模板序列,并且将所述多个候选字符串中的每个用作参考模板序列。

13.根据附记12所述的方法,其中,执行动态时间规整包括:计算所述多个候选字符串中的每个的关于所述过分割块序列的相应距离矩阵。

14.根据附记13所述的方法,其中,基于所述过分割块序列中的各分割块的被识别为所述多个候选字符串中的各字符的可能性计算所述相应距离矩阵。

15根据附记14所述的方法,其中,执行动态时间规整包括:基于所述相应距离矩阵计算关于所述过分割块序列的相应累积距离矩阵。

16.根据附记15所述的方法,其中,根据相应累积距离矩阵的最短路径的最小总距离与相应候选字符串中的字符数目的商来来确定所述过分割块序列与相应候选字符串的相似度。

17.根据附记16所述的方法,其中,根据所述相似度选择多个候选字符串之一作为所述至少部分地址的识别结果包括:

选择与所述多个候选字符串对应的多个相似度中的最大相似度所对应的候选字符串作为所述至少部分地址的识别结果。

18.根据附记10所述的方法,其中,所述至少部分地址为日文收件人地址中的上地址。

19.一种对具有收件人地址的邮件进行分类的方法,包括:

通过执行附记10所述的方法,获得所述收件人地址中的至少部分地址的图像的识别结果;以及

基于所述识别结果对邮件进行分类。

20.一种存储介质,其上存储有用于执行附记10所述的方法的程序。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1