动态解析表格图像特征的ocr系统及方法
技术领域
1.本发明涉及表格识别领域,尤其动态解析文本图像表格特征的ocr系统及方法。
背景技术:2.在产业数字化、金融数字化等场景,有大量重复率高的对称表格文字的扫描件货影像件,需要进行数据结构化提取。无论通过人工输入计算机电子表格的方式,还是传统基于模式匹配的光学识别字符(optical character recognition,ocr)技术自动提取,不但效率低下,准确度也不满足业务进行数字化的需求,还需要投入大量的复核确认工作。
3.随着计算机技术的发展及近几年深度神经网络等机器学习技术的发展应用,文本识别技术也发展到更多的依靠场景文字识别(scene text recognition,str)等技术,表格文字的字符识别数据结构化提取效率也大大提高。但实际产业场景,因采集手段、现场条件限制,影像件或扫描件的分辨率及清晰度有限,目前行业应用的文本识别及提取技术,大多数情况下识别率还是无法满足实际的产业数字化升级需求,经常还是需要大量的人工录入及复核确认等工作。
4.上海三稻智能科技有限公司在202011399708.0中公开了动态解析文本图像特征现象的元素自动捕获理解方法,包括:输入待处理的文件,包括图片类以及非图片类,并将非图片类转换为图片格式,与图片类文件统一存储;解析待处理文件类型及格式;修正待处理文件的图像成像问题;检测待处理文件中文本的所在位置、范围及布局;在文字检测的基础上对文本内容进行识别;从文本识别结果中抽取需要的字段和/或要素;输出最终文字识别结果或文本抽取处理结果。本技术提供的动态解析文本图像特征现象的元素自动捕获理解方法希望实现能够识别出票据的字段的功效。上述技术方案公开了修正待处理文件的图像成像问题进一步包括:通过对图像进行几何变换(包括透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正以及二值化处理,修成图像问题,便于后续文本的检测及文字的识别。在一些实施方式中,将待处理文件的图像输入预先训练的图像校正网络中进行几何变化及畸变校正包括:利用所述图像校正网络中的定位网络回归所述第一目标图像对应的空间变换的网络参数;利用所述图像校正网络中的网格生成器以及所述网络参数,计算所述校正后的第一目标图像中的像素点在所述第一目标图像中的位置;利用所述图像校正网络中的采样器以及计算出的位置,输出所述校正后的第一目标图像。在一些实施方式中,所述文字检测包括:将二值化图像输入预先训练的特征提取网络中;提取所述特征提取网络中至少两个卷积层的输出信息,并对所述输出信息进行融合;将融合后的信息输入所述特征提取网络中的全连接层,输出对应于所述二值化图像文本区域的k个anchor的2k个竖直方向坐标及坐标得分、k个边界回归结果,以实现文本定位,并得到矩形文本框。并且,在该方案中,设置基于预先设置的语义数据库生成基础语义分析引擎,所述语义数据库中包括领域基础语料库、领域词典及领域知识图谱;基于基础语义分析引擎对文本内容信息进行字段分析处理;基于抽取需求提取数据集合抽取文本内容中需要的字段和/或要素。
5.上述方案主要是针对图像特征现象的元素,即图像出来的票据或表格进行识别字
段,同样也存在识别准确性偏差时,人工需要大量复核的工作,而且开发基础语义分析引擎导致整个开发的成本非常高且开发周期长。
6.对于实现的产业场景下,现场条件非常有限,用扫描仪进行扫描或是手机等进行拍照后,直接就传给后台,后台经常还是需要大量的人工录入及复核确认等工作,导致成本高且识别程序慢。当后续要对报表等进行统计和智能分析时,人工录入及复核确认的工作造成了很大的瓶颈。
技术实现要素:7.本发明提供一种动态解析表格图像特征的ocr系统,以解决后台经常还是需要大量的人工录入及复核确认等工作,导致成本高且识别程序慢的问题。
8.一种动态解析表格图像特征的ocr系统,包括:多个智能终端和云端服务平台,所述云端服务平台进一步包括数据库和云端服务器,数据库至少包括云端算法库和语义资料库;
9.所述智能终端其至少包括图像获取部件和控制器,其中:
10.图像获取部件:用于扫描或拍照待数据提取的表格或表单,生成相应的影像件;
11.控制器,其进一步包括:
12.预处理模块:用于对影像件的图像数据进行预处理;
13.边缘端算力模块,用于执行机器学习算法,用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;按照预先从云端算法库中更新的模型从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
14.文本识别模块,用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重,提取表格文字的文本识别信息,
15.语义资料输出模块,用于提取表格文字的文本识别信息后进行结构化数据输出,通过通信模块输出至云端服务器。
16.在智能终端上安装一预先开发的一态解析表格app或小程序,所述预处理模块、边缘端算力模块、文本识别模块和语义资料输出模块通过app或小程序通过软件来实现,
17.所述边缘端算力模块通过云端算法库更新本端模型或者通过访问云端算法库来实现表格的每单元格区域;
18.所述文本识别模块通过语义资料库更新本端当前语义资料库或通过访问云端的所述语义资料库来实现语义距离的计算,以动态调整候选字符的权重并提取表格文字的文本识别信息。
19.智能终端为手机、pad或扫描仪在内的智能器件。
20.一种动态解析表格图像特征的ocr方法,用于云端通过多个智能终端完成动态解析表格图像特征ocr过程,其进一步包括:
21.预先在云端建立云端算法库和语义资料库,所述云端算法库预先保存并训练基于深度神经网络的区域识别模型,用于训练模块以识别出图像中的表格每单元格区域及行分
割线、列分割线在内的信息,所述语义资料库用于保存至少具有层次结构关系的语义词典,以依据概念之间的上下位关系或同义关系进行计算,通过计算语义结构树中两词语之间的距离来计算词语的相似度,通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度;
22.智能终端扫描或拍照待数据提取的表格或表单,生成相应的影像件;
23.智能终端对长表格图像处理成页图像帧信息,按照预先从云端算法库中更新的模型从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
24.智能终端基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重,提取表格文字的文本识别信息后保存成结构化数据后输出至云端。
25.与现有技术相比,本发明创新主要的核心之处:
26.1)本发明只需要对现有的扫描仪或智能手机进行改造,即只需要在智能终端上加装上自行开发的app或小程序,就能使得本发明的动态解析表格图像特征系统完成很好的解析功能。比如,在各个需要采集的点通过对应的智能终端将数据采集并以结构化数据的方式输出云端,云端可以直接对该些表格数据进行保存和进一步分析。另外,各种算法和数据库在云端保存后及时更新,对应的智能终端可以适应性修改更新,保证更新的便携性。
27.(2)在对产业数字化时,经常需要对大量同种类型的表格进行批量化的扫描及文本识别结构化数据提取。充分利用对称表格文字的隐含语义以及场景内常用资源库,通过技术手段自动提高文本识别的识别率。针对超长表格图片,本发明通过智能识别表格线,自动按表格线进行图片截取,并充分利用对称表格文字的隐含语义,列文字跨图片共享特征值,实现提高文本识别的识别率,这种处理不仅效率高且成本也很低,不需要建立巨大的云处理系统来处理表格结构化数据提取的问题。
附图说明
28.图1为一种动态解析表格图像特征的ocr系统的原理图。
29.图2为一种动态解析表格图像特征的ocr系统中智能设备原理图;
30.图3为动态解析表格图像特征ocr的流程原理图;
31.图4为其为表格图像去噪处理的一种处理流程图;
32.图5为二值化流程图;
33.图6为种基于语义分析的对称表格文字数据结构化提取的方法示例图;
34.图7为一种表格实例。
具体实施方式
35.以下结合附图,具体说明本发明。
36.请参阅图1,其为一种动态解析表格图像特征的ocr系统的原理图。它包括:多个智能终端2和云端服务平台1,所述云端服务平台1进一步包括数据库和云端服务器,数据库至
少包括云端算法库和语义资料库;
37.所述云端算法库预先保存并训练基于深度神经网络的区域识别模型,用于训练模块以识别出图像中的表格每单元格区域及行分割线、列分割线在内的信息,所述语义资料库用于保存至少具有层次结构关系的语义词典,以依据概念之间的上下位关系或同义关系进行计算,通过计算语义结构树中两词语之间的距离来计算词语的相似度,通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度;
38.云端服务器:用于通过通信网络与各个智能终端2连接,可以更新端算法库和语义资料库后再下发至各个智能终端更新,也可以将解析表格特征的ocr处理算法或流程就更新后,直接更新至对应的智能终端。
39.即,
40.智能终端2其至少包括图像获取部件和控制器,其中:
41.图像获取部件:用于扫描或拍照待数据提取的表格或表单,生成相应的影像件;
42.控制器,其进一步包括:
43.预处理模块:用于对影像件的图像数据进行预处理;
44.边缘端算力模块,用于执行机器学习算法,用于若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;按照预先从云端算法库中更新的模型从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
45.文本识别模块,用于基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重,提取表格文字的文本识别信息,
46.语义资料输出模块,用于提取表格文字的文本识别信息后进行结构化数据输出,通过通信模块输出至云端服务器。
47.在实现过程中,在智能终端上安装一预先开发的一态解析表格app或小程序,所述预处理模块、边缘端算力模块、文本识别模块和语义资料输出模块通过app或小程序通过软件来实现,
48.所述边缘端算力模块通过云端算法库更新本端模型或者通过访问云端算法库来实现表格的每单元格区域;
49.所述文本识别模块通过语义资料库更新本端当前语义资料库或通过访问云端的所述语义资料库来实现语义距离的计算,以动态调整候选字符的权重并提取表格文字的文本识别信息。
50.智能终端可以为手机、pad或扫描仪在内的智能器件。
51.请参阅图2,为该智能终端的一种实施例图。它主要包括:通信模块401、边缘端算力模块403、存储单元404、图像获取部件405、处理器406、接口单元407、以及电源402等部件。
52.本发明实施例中,处理器406是终端设备的控制中心,可包括一个或多个处理单元,利用各种接口和线路连接整个终端设备的各个部分,通过运行或执行存储在存储单元
404内的软件程序和/或模块,以及调用存储在存储单元404内的数据,执行图像获取、任务调度等终端设备的各种处理。
53.图像获取部件405,包括图像采集装置,用于扫描待数据提取的表格或表单,生成相应的影像件。
54.边缘端算力模块403,用于执行机器学习算法及语义分析算法。算法定期从云端算法库411获取不断更新迭代优化的算法指令。
55.接口单元407为外部装置与终端设备连接的接口。接口单元407可以用于接收来自外部装置的输入(例如,数据信息、指令输入等)并且将接收到的输入传输到终端设备内的一个或多个元件,或者可以用于在终端设备和外部装置之间直接传输同步数据。
56.存储单元404用于存储操作系统、数据、语义库及应用程序。存储单元404可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、功能所需的应用程序等;存储数据区可存储根据使用所创建的数据以及从云端语义资料库下载的本地化数据集等。另外,存储器404还可以包括高速随机存取存储器、非易失性存储器、闪存器件等。
57.电源402用于给各个部件供电,本实施例采用外接办公用交流电源。优选的,电源402可以通过电源管理系统与处理器sr10逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
58.本发明实施例还提供一种通过通信模块,直接连接已有扫描仪或高拍仪,直接采集待识别的表格图像。这种情况下,图像获取部件405可省略。在智能终端上安装一预先开发的一态解析表格app或小程序,所述预处理模块、边缘端算力模块、文本识别模块和语义资料输出模块等通过app或小程序通过软件来实现。智能终端的数据直接上传至云端完成ocr识别。
59.请参阅图3,动态解析表格图像特征的ocr方法的流程图。它包括以下步骤:
60.s110:预先在云端建立云端算法库和语义资料库,所述云端算法库预先保存并训练基于深度神经网络的区域识别模型,用于训练模块以识别出图像中的表格每单元格区域及行分割线、列分割线在内的信息,所述语义资料库用于保存至少具有层次结构关系的语义词典,以依据概念之间的上下位关系或同义关系进行计算,通过计算语义结构树中两词语之间的距离来计算词语的相似度,通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度;
61.s120:智能终端扫描或拍照待数据提取的表格或表单,生成相应的影像件;
62.s130:预处理影像件;
63.s140:当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息;
64.s150:从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域,据此将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,所述图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系;
65.s160:基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重,提取表格文字的文本识别信息后,进行结构化数据输
出。
66.本发明充分利用表格中文字的语义,进行全表格文字语义分析,针对性优化字符识别数据结构化提取准确度,无需单独训练识别模板,即可极大提高识别率。
67.具体说明本发明。
68.一、具体说明步骤s130:对待处理图像数据进行预处理。
69.首先对待字符识别数据结构化提取的表格图像(照片或扫描件等),进行预处理,包括但不限于图像去噪、二值化以及倾斜较正等处理,以降低后续字符识别数据结构化提取算法处理的算法复杂度,减少算力投入,提高表格文字的识别准确率。
70.由于表格文字图像的来源多种多样,可能采用相机拍摄、扫描仪扫描、也有可能是手机拍摄或高拍仪扫描,造成待字符识别数据结构化提取的表格图像中可能包含大量噪声信息。因而,为提高表格文字的识别正确率,在正式识别表格文字之前,需要采用去噪算法对待字符识别数据结构化提取的表格文字图像进行去噪处理。
71.请参阅图4,其为表格图像去噪处理的一种处理流程图。它包括:判断一个像素点是不是噪点,是通过对比它周围的像素点(s11),取得最大粘接连噪声点个数m(步骤s12),以这个点为中心的九宫格,即该像素点周围的8个像素点(s13),计算这8个像素点中不是背景点的个数,如果大于给定的界定值(该值因为和图片噪点数目、噪点粘连都有关系,需要根据处理结果不同场景的表格图像特征,对比找到效果好的值),则说明目标点是字符内某个像素点的几率大些,故该点不能作为噪点处理,否则作为噪点处理掉。即n>m(步骤s14),则保留像素点(s151),否则按噪点处理(s152).完成内存中解锁图片(步骤s16)。
72.若待识别表格文字图像是彩色图像,其中包含的信息量纷繁复杂,会影响后续算法的计算效率。首先确认色偏,若图像存在不同程度的色偏,将先进行图片的二值化。获阳表格图像,加载到内存,指针操作每个像素点(s21),图像二值化是将彩色图像分为前景(文字或表格线)与背景,并将前景(文字或表格线)和背景信息分别定义为黑色和白色,每个像素点进行处理(s22),如果该点的r值不是255,那么就将该点的rgb值都改成0(纯黑色)(s23),这样整个过程下来,在内存中解锁图片(s24).这正图片就变成真正意义上的黑白图片了,也就得到了待识别表格文字图像对应的二值化图像。通过图像二值化,可提高后续表格文字图像的字符识别数据结构化提取的效率。具体流程见二值化流程图(如图3所示)。(如图5所示)。
73.倾斜较正主要是对图像进行基本的裁剪,旋转。基于边界识别、表格线识别等裁剪掉表格外的部分,并进行旋转,以便表格文字图像正向,减低后续字符识别数据结构化提取时的角度矫正算法的复杂度,并提高后续算法中基于排序及位置等的算法计算效率。此处使用计算机图像处理领域的普通技术人员熟知的角度矫正算法、图像裁剪技术即可,不再赘述。
74.上述公开仅是本发明一种预处理的实例。预处理图像可以进一步包括:通过对图像进行几何变换(包括透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正以及二值化处理,修成图像问题,便于后续文本的检测及文字的识别。上海三稻智能科技有限公司在202011399708.0中公开了《动态解析文本图像特征现象的元素自动捕获理解方法》中同样公开了一种预处理图像方案,同样也适用于本发明。
75.所有的预处理图像仅有一个目的,后续有利于对其进行表格字符或字符串的识
别。
76.二、具体说明步骤s140:若当前待处理图像的长宽比超过预设值,则判定所述待处理图像为长表格图像,先进行页切割处理成页图像帧信息。
[0077]“若当前待处理图像的长宽比超过预设值”进一步包括:判断是否图像的长宽比超过4:1(仅是举例,并非限定本发明),如果超过,就按超长表格进行页切割,若是超长表格,采用基于深度神经网络的区域识别模型,识别出图像中的表格每单元格区域及行分割线、列分割线,通过列宽乘以2倍,得到页长,识别像素级别最近的一行为表头。
[0078]
待处理图像的表格的分割线、行分割线、列分割线等做标注后,大量的标注及图像数据组成数据集,输入一深度神经网络算法去训练可得深度神经网络区域识别模型,后续只输入把待处理图像输入,即可识别出图像中的表格每单元格区域及行分割线、列分割线等信息。
[0079]
本步骤只是把待处理图像的长宽比超过预设值进行分割成页图像帧信息。
[0080]
三、具体说明步骤s150
[0081]
从所述每一页图像帧或待处理图像数据中识别出表格的每单元格区域。上述步骤s120中说明从所述每一页图像帧中识别出图像中的表格每单元格区域及行分割线、列分割线等信息。同理,待处理图像数据若其长宽比没有超过预设值,则输入训练可得深度神经网络区域识别模型中,即可输出表格每单元格区域及行分割线、列分割线等信息。
[0082]
根据每单元格区域及行分割线、列分割线等信息,可以获得识别出表格的每单元格区域。
[0083]
将所述图像以所述单元格为单元裁剪出对应图像切片,并依次存储到矩阵序列中,图像切片在所述矩阵序列中的次序编号信息映射出所述表格单元格在所述页图像帧中的位置关系。
[0084]
比如,某一长表格分割成两个页图像帧[01][02],每一页图像帧都有五十个单元格,则该些单元格分别保存在矩阵序列。如编号为[01][05]
…
[01][45]
…
[02][50],[01][05]存储的图像切片表明的是第一页图像帧的第5行表单元格。
[0085]
四、具体说明s160:基于当列语义分析确定所述表格的标题行,根据全表的标表头及表格的语义距离,动态调整候选字符的权重。
[0086]“根据全表的标表头及表格的语义距离,动态调整候选字符的权重”进一步包括以下步骤:
[0087]
通过计算整列识别字符的语义距离,可判断出第一行的图像切片,若是表头,则基于其整列文字的语义距离,及该图像切片的候选字符或字符串,智能调整候选字符或字符串的匹配权重,从而确定该表头列的各图像切片的识别字符;
[0088]
表头的识别字符或字符串确定后,基于表格的对称性,可将相应列的所有单元格图像切片,关联相应的字段属性;
[0089]
基于表头图像切片识别的字符的语义、该单元格图像切片的字段属性、表格图像采集场景常用语资源库在内的信息,按语义距离重新调整该列对应图像切片的候选字符或字符串的权重,并确定权重最高者为匹配识别字符或字符串。
[0090]
语义距离计算进一步包括:
[0091]
建立一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系
进行计算;通过计算语义结构树中两词语之间的距离来计算词语的相似度;
[0092]
通过计算词语在语义结构树中由上下位关系所构成的最短路径来计算词语的相似度或通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度。
[0093]
另外,基于场景常用语资源库及互联网动态搜索结果距离在内的信息,优化当列各单元格的图像切片候选字符权重。
[0094]
将识别提取出的文本信息,通过json、xml在内的格式,进行结构化数据输出。
[0095]
一个实施例
[0096]
请参阅图6,其为一种实施例。具体包括以下步骤:
[0097]
s01:去噪、二值化、倾斜较正等待识别表格图像预处理;
[0098]
s02:判断长宽比超过4∶1?如果是,则2倍列宽为页长,切割成多页(步骤s03)后进行步骤s04;如果否,则直接进行步骤s04;
[0099]
s04:全表格识别单元格,将图像裁剪成多个图像切片;
[0100]
s05:对每个图像切片识别出该单元格的候选字符;
[0101]
s06:判断存在标题行?如果是,进行步骤s0711,如果否,进行步骤s0721;
[0102]
s0711:长表格首页时,基于当列语义确定标题行(步骤s0711),并且,全表根据标题行语义及距离,优化当列各图像切片候选字符权重(步骤s0712);
[0103]
步骤s0721:基于场景常用语资源库及互联网动态搜索结果距离等,优化当列各单元格的图像切片候选字符权重;
[0104]
s08:提取出的表格文字的文本识别信息进行结构化数据输出。
[0105]
使用行业内通用的光学字符识别(optical character recognition,ocr)及场景文字识别(scene text recognition,str)技术,检测每个图像切片的文字,按照字符或字符串进行分割,每一个字符或字符串在识别后,可能对应多个不同的候选的字符或字符串。每个候选的字符具有不同的权重,一般行业内会选择权重最高的字符作为最终识别输出的字符。
[0106]
语义距离是基于语义理解的文本相似度计算而来。基于语义理解的计算语义距离,首先需要一个具有层次结构关系的语义词典,依据概念之间的上下位关系或同义关系进行计算。通过计算语义结构树中两词语之间的距离来计算词语的相似度。wordnet、hownet、同义词词林等具有层次结构关系的语义词典都可以使用。通过计算词语在wordnet中由上下位关系所构成的最短路径来计算词语的相似度,也可以通过根据两词语在词典中的公共祖先结点所具有的最大信息量来计算词语的相关度,具体效果会据表格文字的内容,也即采集场景而有所差异。
[0107]
通过计算整列识别字符的语义距离,可判断出第一行的图像切片,是否是表头(标题行)。若是表头,则基于其整列文字的语义距离,及该图像切片的候选字符(或字符串),智能调整候选字符(或字符串)的匹配权重,从而确定该表头列的各图像切片的识别字符。表头的识别字符(或字符串)确定后,因为表格的对称性,即可将相应列的所有单元格图像切片,关联相应的字段属性。基于表头图像切片识别的字符的语义、该单元格图像切片的字段属性、表格图像采集场景常用语资源库及互联网动态搜索结果等,按语义距离重新调整该列对应图像切片的候选字符(或字符串)的权重。由此即可确定权重最高者为匹配识别字符
(或字符串)。
[0108]
如果不存在表头(标题行),则基于场景常用语资源库及互联网动态搜索结果等,依次计算每列对应的各单元格的图像切片的候选字符(或字符串)的语义距离,调整候选字符的权重,最后匹配权重最高者为识别字符(或字符串)
[0109]
请参阅图7,有下示例图的表格文字图像。采用业内现有的ocr或str技术进行字符识别数据结构化提取时,第四行的第一列,因为在预设的常用中文字库里,“部”字的权重远高于“邹”字,很有可能将该单元格的字符识别为“部城市人民医院”,而通过引入本发明的基于跨行语义分析优化算法后,将基于第一列的表格文字隐含语义,以及互联网搜索时的搜索结果距离(语义相似度),动态调高了“邹”字的权重,从而正确识别出“邹城市人民医院”。如果该表格有表头(标题行),第一列将智能按医院名称进行处理,因“部城市人民医院”的互联网搜索结果数远低于同列的其他单元格,而“邹城市人民医院”互联网搜索结果数与同列的其他单元格距离较近,自动提高“邹城市人民医院”候选字符串的权重,从而更大比例提高文本识别数据提取的正确率。
[0110]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例,凡属于本发明思路下的技术方案均属于本发明的保护范围。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理前提下的若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。
[0111]
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0112]
本发明的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本发明的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本发明的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个功能或步骤的电路。如本说明书实施例所示实施例揭示的方法可以应用于处理器中,或者由处理器实现。处理器可能是一种集成电路芯片,具有信号的处理能力。在实现过程中,上述方法的各步骤可以通过处理器中的硬件的集成逻辑电路或者软件形式的指令完成。上述的处理器可以是通用处理器,包括中央处理器(central processing unit,cpu)、网络处理器(network processor,np)等;还可以是数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific inte grated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。可以实现或者执行本说明书实施例中的公开的各方法、步骤及逻辑框图。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本说明书实施例所公开的方法的步骤可以直接体现为硬件译码处理器执行完成,或者用译码处理器中的硬件及软件模块组合执行完成。软件模块可以位于随机存储器,闪存、只读存储器,可编程只读存储器或者电可擦写可编程存储器、寄存器等本领域成熟的存储介质中。该存储介质位于存储器,处理器读取存储器中的信息,结合其硬件完成上述方法的步骤。
[0113]
实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序当被包括多个应用程序的电子系统执行时,使得所述电子系
统执行实施例一所述的方法。在此不再赘述。
[0114]
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transi tory media),如调制的数据信号和载波。
[0115]
上述实施例阐明的系统、装置、模块或单元,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。一种典型的实现设备为计算机。具体的,计算机例如可以为个人计算机、膝上型计算机、蜂窝电话、相机电话、智能电话、个人数字助理、媒体播放器、导航设备、电子邮件设备、游戏控制台、平板计算机、可穿戴设备或者这些设备中的任何设备的组合。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitory media),如调制的数据信号和载波。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
[0116]
另外,本发明的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本发明的方法和/或技术方案。而调用本发明的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的工作存储器中。在此,根据本发明的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本发明的多个实施例的方法和/或技术方案。