本发明涉及计算机处理技术领域,尤其涉及一种基于文字定位识别的表格解析方法、介质及计算机设备。
背景技术:
目前,深度学习在图片识别领域发展迅速,它已完全超越传统方法的准确率和效率,深受图片识别领域的关注。深度学习是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。然而,表格的识别是指将表格图片中的表格转换成可编辑的表格文本,该过程中需要用到文本的识别以及图像的识别。
现有的技术中,也有应用深度学习对表格图片中的表格进行解析,但是现有的技术方案中,是通过深度学习对表格图片中的表格线进行检测识别,其至少存在以下缺陷:
现有的技术方案是基于有表格线的情况进行表格解析,当没有表格线时的表格格式图片,则不能进行表格提取。
技术实现要素:
本发明提供一种基于文字定位识别的表格解析方法及相应的装置,其主要实现了利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
本发明还提供一种用于执行本发明的基于文字定位识别的表格解析方法的计算机设备及可读存储介质。
为解决上述问题,本发明采用如下各方面的技术方案:
第一方面,本发明提供一种基于文字定位识别的表格图片解析方法,所述方法包括:
输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;
依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;
依据所述位置信息,提取所述表格图片的第一表格布局;
依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
具体的,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,包括:
输入表格图片至预先训练的文字定位网络;
获取所述表格图片中连续的若干个字符串作为一个字符串组合;
获取包围所述字符串组合的最小的矩形框;
建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
具体的,还包括:
输入表格图片的样本进行深度网络的训练,训练出所述文字定位网络以及所述文字识别网络。
具体的,所述依据所述位置信息,提取所述表格图片的第一表格布局,包括:
提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;
依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;
计算总的行数以及总的列数作为所述第一表格布局。
优选的,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,包括:
依据所述第一表格布局绘制表格;
将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
具体的,所述依据所述位置信息,提取所述表格图片的第一表格布局之后,包括:
检测所述表格图片中是否包含网格线;
若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;
将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。
具体的,所述依据所述位置信息,生成所述表格图片的第一表格布局之后,包括:
计算所述第二表格布局与所述第一表格布局的比对结果,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络。
第二方面,本发明提供一种基于文字定位识别的表格图片解析装置,所述方法包括:
输入模块,用于输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;
识别模块,用于依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;
提取模块,用于依据所述位置信息,提取所述表格图片的第一表格布局;
生成模块,用于依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
第三方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该计算机程序被处理器执行时实现第一方面中任一项所述基于文字定位识别的表格图片解析方法的步骤。
第四方面,本发明提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行如第一方面中任一项权利要求所述基于文字定位识别的表格图片解析方法的步骤。
相对于现有技术,本发明的技术方案至少具备如下优点:
1、本发明提供一种基于文字定位识别的表格解析方法,通过输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
2、本发明通过输入表格图片至预先训练的文字定位网络;获取所述表格图片中连续的若干个字符串作为一个字符串组合;获取包围所述字符串组合的最小的矩形框;建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。本发明通过该机制获取所述表格图片中文字的位置信息,提高文字定位的准确性与效率。
3、本发明可以检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。本发明还可以另外检测所述表格图片是否存在表格线,在所述表格图片存在表格线的情况下,直接提取所述表格线,然后将得到的第一表格布局与提取的表格线构成的第二表格布局进行比对以校验所述第一表格布局是否有效。本发明通过文字定位网络以及文字识别网络解析表格图片,可以兼容无表格线和有表格线或表格线残缺的情况,适用范围广。
4、本发明还可以进一步计算所述第二表格布局与所述第一表格布局的比对结果,所述比对结果被表达为所述第一表格布局与所述第二表格的差异点,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络。本发明通过该机制可以灵活智能学习,智能调整预先训练好的文字定位网络,以使得表格图片的解析结果越来越精准。
附图说明
图1为一个实施例中基于文字定位识别的表格解析方法流程图;
图2为现有技术中基于场景文字检测的文字定位网络;
图3为一个实施例中为获取到所述表格图片中字符的位置信息示意图;
图4为一个实施例中基于文字定位识别的表格解析装置结构框图;
图5为一个实施例中计算机设备的内部结构框图。
本发明目的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
为了使本技术领域的人员更好地理解本发明方案,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述。
在本发明的说明书和权利要求书及上述附图中的描述的一些流程中,包含了按照特定顺序出现的多个操作,但是应该清楚了解,这些操作可以不按照其在本文中出现的顺序来执行或并行执行,操作的序号如s11、s12等,仅仅是用于区分开各个不同的操作,序号本身不代表任何的执行顺序。另外,这些流程可以包括更多或更少的操作,并且这些操作可以按顺序执行或并行执行。需要说明的是,本文中的“第一”、“第二”等描述,是用于区分不同的消息、设备、模块等,不代表先后顺序,也不限定“第一”和“第二”是不同的类型。
本领域普通技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解,当我们称元件被“连接”或“耦接”到另一元件时,它可以直接连接或耦接到其他元件,或者也可以存在中间元件。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
本领域普通技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
请参阅图1,本发明实施例提供一种基于文字定位识别的表格解析方法,如图1所示,所述方法包括以下步骤:
s11、输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息。
本发明实施例中,预先通过输入多个目标样本进行深度网络的训练,训练出能够进行表格图片的文字定位的所述文字定位网络和能够进行表格图片文字识别的文字识别网络。具体的,对所述样本图片进行特征点提取以及特征融合,最终输出所述文字定位网络和所述文字识别网络。其中,所述目标样本至少包括图片样本以及标注的有文字的矩形框坐标。
深度网络的训练是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
本发明的总体思路为基于深度网络的训练的文字检测与识别过程,具体是通过fasterrcnn(基于深度学习的目标检测技术)、ctpn(自然场景文本检测)等定位网络针对图片中的文字进行检测和定位,得到文字的位置信息,然后将该位置信息所指向的区域输入到基于rnn文字识别网络如rcnn等进行文字的识别,得到该位置信息对应的字符串。
请参考图2,图2为基于east(场景文字检测)文字定位网络。本发明所应用的文字定位网络是基于east文字定位网络改进而成。具体的,本发明所应用的文字定位网络是在图2所示的网络结构中的scoremap后接入lstm(长短期记忆网络),将scoremap提亮摸均匀,训练时使用diceloss替换focus-loss。其中,lstm是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
进一步的,本发明所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,具体包括:输入表格图片至预先训练的文字定位网络;获取所述表格图片中连续的若干个字符串作为一个字符串组合;获取包围所述字符串组合的最小的矩形框;建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
请参考图3,图3为获取到所述表格图片中字符的位置信息示意图。如图3所示,所述表格图片中包含若干个字符串组合。通过所述文字定位网络后输出包裹各个字符串组合的最小矩形框。本发明实施例中,所述表格图片中字符的位置信息被表达为包裹所述字符串组合的最小矩形框的坐标值。本发明通过所述文字定位网络可以直接得到包裹所述字符串组合的矩形框的四个顶点的坐标。具体的,所述位置信息被表达为该矩形框的左上角以及右下角的坐标值。在实际使用时,因为表格文字基本是水平的,所以取得到的quadgeometry这个函数中四个坐标的x轴最小值与最大值,y轴的最小值与最大值,组成所述矩形框的左上角与右下角的坐标,从而得到标准的矩形框。例如,通过所述文字定位网络得到包裹某个字符串组合的最小矩形框的四个顶点的坐标分别为:a(x1,y1)、a(x1,y2)、a(x2,y1)以及a(x2,y2),依据x1、x2、y1以及y2的大小值,选取该矩形的左上角以及右下角的点的坐标值。
s12、依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容。
本发明实施例中,依据所述位置信息确定一个矩形框,依据所述矩形框确定一个单元格图片。具体的,本发明依据所述矩形框对所述表格图片进行图像分割,从所述表格图片中截取出该矩形框对应的单元格图片,其中,每个单元格图片中包含一个字符串组合。
进一步的,本发明将所述单元格图片输入至所述文字识别网络,以对所述单元格图片中的字符串组合的内容进行识别得到所述单元格字符内容。本发明实施例中,所述文字识别网络是经典的文字识别crnn网络,通过该网络后得到可供编辑的所述单元格字符内容。
s13、依据所述位置信息,提取所述表格图片的第一表格布局。
本发明实施例中,所述依据所述位置信息,提取所述表格图片的第一表格布局,具体包括:提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;计算总的行数以及总的列数作为所述第一表格布局。
本发明实施例中,通过所述位置信息在水平方向上和垂直方向上的重叠比例将包裹各个字符串组合的矩形框划分到表格图片对应的行列的位置。其中,相同行中矩形框的顶点的纵坐标相同或者相近,相同列的矩形框的横坐标相同或者相近。本发明可以设定当两个点的纵坐标相同或者两个点的纵坐标的差值在预设范围内时判断该两个点位于同一行,以及设定当两个点的横坐标相同或者两个点的横坐标的差值在预设范围内时判断该两个点位于同一列。本发明依据该原理,将矩形框的顶点的纵坐标相同或相近的划分为同一行,将横坐标相同或相近的划分为同一列。
请继续参考图3,如图3所示,同一列的矩形框的顶点的横坐标存在相同或相近的,而不同列的横坐标范围没有交集。同一行的矩形框具有重合的纵坐标的交集,而不同行的纵坐标范围不存在交集。
本发明实施例中,所述第一表格布局至少包括表格的行数以及列数。对于表格的名称内容,它具有跨列的文字长度,则可以将其先去除。通过以上规则,可以提取所述表格图片的行的数量n以及列的数量m,进一步的,提取出所述表格图片的n×m布局格式。
s14、依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
本发明实施例中,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,具体包括:依据所述第一表格布局绘制表格;将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
本发明实施例中,提取所述表格图片的第一表格布局之后绘制所述表格图片对应的表格,所述表格中包含与所述字符串组合数量相同的单元格。进一步的,本发明将识别出的单元格字符内容对应填入所述表格的单元格中生成表格文件,其内容可保存为csv或者json格式可供程序进行数据分析处理,从而实现表格图片的解析。
本发明实施例中,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息之前,还包括:检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。一种可能的设计中,如果所述表格图中表格有网格线,可以通过图像学开闭运算提取出所述第二表格布局。
实际上,本发明可以通过将所述第一表格布局与所述第二表格布局进行比对同时验证所述第一表格布局与所述第二表格布局的可靠性。
优选的,本发明还可以计算所述第二表格布局与所述第一表格布局的比对结果,所述比对结果被表达为所述第一表格布局与所述第二表格的差异点,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络,以提高本方案的识别精度。
请参考图4,在另一种实施例中,本发明提供了一种基于文字定位识别的表格图片解析装置,包括:
输入模块11,用于输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息。
本发明实施例中,预先通过输入多个目标样本进行深度网络的训练,训练出能够进行表格图片的文字定位的所述文字定位网络和能够进行表格图片文字识别的文字识别网络。具体的,对所述样本图片进行特征点提取以及特征融合,最终输出所述文字定位网络和所述文字识别网络。其中,所述目标样本至少包括图片样本以及标注的有文字的矩形框坐标。
深度网络的训练是机器学习研究中的一个新的领域,其动机在于建立、模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本。
本发明的总体思路为基于深度网络的训练的文字检测与识别过程,具体是通过fasterrcnn(基于深度学习的目标检测技术)、ctpn(自然场景文本检测)等定位网络针对图片中的文字进行检测和定位,得到文字的位置信息,然后将该位置信息所指向的区域输入到基于rnn文字识别网络如rcnn等进行文字的识别,得到该位置信息对应的字符串。
请参考图2,图2为基于east(场景文字检测)文字定位网络。本发明所应用的文字定位网络是基于east文字定位网络改进而成。具体的,本发明所应用的文字定位网络是在图2所示的网络结构中的scoremap后接入lstm(长短期记忆网络),将scoremap提亮摸均匀,训练时使用diceloss替换focus-loss。其中,lstm是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。
进一步的,本发明所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息,具体包括:输入表格图片至预先训练的文字定位网络;获取所述表格图片中连续的若干个字符串作为一个字符串组合;获取包围所述字符串组合的最小的矩形框;建立直角坐标系,获取所述矩形框的各个顶点的坐标作为所述位置信息。
请继续参考图3,图3为获取到所述表格图片中字符的位置信息示意图。如图3所示,所述表格图片中包含若干个字符串组合。通过所述文字定位网络后输出包裹各个字符串组合的最小矩形框。本发明实施例中,所述表格图片中字符的位置信息被表达为包裹所述字符串组合的最小矩形框的坐标值。本发明通过所述文字定位网络可以直接得到包裹所述字符串组合的矩形框的四个顶点的坐标。具体的,所述位置信息被表达为该矩形框的左上角以及右下角的坐标值。在实际使用时,因为表格文字基本是水平的,所以取得到的quadgeometry这个函数中四个坐标的x轴最小值与最大值,y轴的最小值与最大值,组成所述矩形框的左上角与右下角的坐标,从而得到标准的矩形框。例如,通过所述文字定位网络得到包裹某个字符串组合的最小矩形框的四个顶点的坐标分别为:a(x1,y1)、a(x1,y2)、a(x2,y1)以及a(x2,y2),依据x1、x2、y1以及y2的大小值,选取该矩形的左上角以及右下角的点的坐标值。
分割模块12,用于依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容。
本发明实施例中,依据所述位置信息确定一个矩形框,依据所述矩形框确定一个单元格图片。具体的,本发明依据所述矩形框对所述表格图片进行图像分割,从所述表格图片中截取出该矩形框对应的单元格图片,其中,每个单元格图片中包含一个字符串组合。
进一步的,本发明将所述单元格图片输入至所述文字识别网络,以对所述单元格图片中的字符串组合的内容进行识别得到所述单元格字符内容。本发明实施例中,所述文字识别网络是经典的文字识别crnn网络,通过该网络后得到可供编辑的所述单元格字符内容。
提取模块13,用于依据所述位置信息,提取所述表格图片的第一表格布局。
本发明实施例中,所述依据所述位置信息,提取所述表格图片的第一表格布局,具体包括:提取所述位置信息中所述矩形框的左上角以及右下角的点的坐标值;依据所述左上角以及右下角的点的坐标值将相同横坐标的点对应的矩形框分为同一列,将相同纵坐标的点对应的矩形框分为同一行;计算总的行数以及总的列数作为所述第一表格布局。
本发明实施例中,通过所述位置信息在水平方向上和垂直方向上的重叠比例将包裹各个字符串组合的矩形框划分到表格图片对应的行列的位置。其中,相同行中矩形框的顶点的纵坐标相同或者相近,相同列的矩形框的横坐标相同或者相近。本发明可以设定当两个点的纵坐标相同或者两个点的纵坐标的差值在预设范围内时判断该两个点位于同一行,以及设定当两个点的横坐标相同或者两个点的横坐标的差值在预设范围内时判断该两个点位于同一列。本发明依据该原理,将矩形框的顶点的纵坐标相同或相近的划分为同一行,将横坐标相同或相近的划分为同一列。
请继续参考图3,如图3所示,同一列的矩形框的顶点的横坐标存在相同或相近的,而不同列的横坐标范围没有交集。同一行的矩形框具有重合的纵坐标的交集,而不同行的纵坐标范围不存在交集。
本发明实施例中,所述第一表格布局至少包括表格的行数以及列数。对于表格的名称内容,它具有跨列的文字长度,则可以将其先去除。通过以上规则,可以提取所述表格图片的行的数量n以及列的数量m,进一步的,提取出所述表格图片的n×m布局格式。
生成模块14,用于依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。
本发明实施例中,所述依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件,具体包括:依据所述第一表格布局绘制表格;将所述单元格字符对应填入绘制的表格的单元格中,生成所述表格图片的表格文件。
本发明实施例中,提取所述表格图片的第一表格布局之后绘制所述表格图片对应的表格,所述表格中包含与所述字符串组合数量相同的单元格。进一步的,本发明将识别出的单元格字符内容对应填入所述表格的单元格中生成表格文件,其内容可保存为csv或者json格式可供程序进行数据分析处理,从而实现表格图片的解析。
本发明实施例中,所述输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息之前,还包括:检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。一种可能的设计中,如果所述表格图中表格有网格线,可以通过图像学开闭运算提取出所述第二表格布局。
实际上,本发明可以通过将所述第一表格布局与所述第二表格布局进行比对同时验证所述第一表格布局与所述第二表格布局的可靠性。
优选的,本发明还可以计算所述第二表格布局与所述第一表格布局的比对结果,所述比对结果被表达为所述第一表格布局与所述第二表格的差异点,当对比结果为所述第一表格布局与所述第二表格布局的差异点的数量大于预置值时,则重新训练所述文字定位网络,以提高本方案的识别精度。
在另一种实施例中,本发明实施例提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,该程序被处理器执行时实现任一项技术方案所述的基于文字定位识别的表格解析方法。其中,所述计算机可读存储介质包括但不限于任何类型的盘(包括软盘、硬盘、光盘、cd-rom、和磁光盘)、rom(read-onlymemory,只读存储器)、ram(randomaccessmemory,随即存储器)、eprom(erasableprogrammableread-onlymemory,可擦写可编程只读存储器)、eeprom(electricallyerasableprogrammableread-onlymemory,电可擦可编程只读存储器)、闪存、磁性卡片或光线卡片。也就是,存储设备包括由设备(例如,计算机、手机)以能够读的形式存储或传输信息的任何介质,可以是只读存储器,磁盘或光盘等。
本发明实施例提供的一种计算机可读存储介质,可实现输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
此外,在又一种实施例中,本发明提供了一种计算机设备,如图5所示,所述计算机设备包括处理器303、存储器305、输入单元307以及显示单元309等器件。本领域技术人员可以理解,图5示出的结构器件并不构成对所有计算机设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件。存储器305可用于存储应用程序301以及各功能模块,处理器303运行存储在存储器305的应用程序301,从而执行设备的各种功能应用以及数据处理。存储器305可以是内存储器或外存储器,或者包括内存储器和外存储器两者。内存储器可以包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦写可编程rom(eeprom)、快闪存储器、或者随机存储器。外存储器可以包括硬盘、软盘、zip盘、u盘、磁带等。本发明所公开的存储器包括但不限于这些类型的存储器。本发明所公开的存储器305只作为例子而非作为限定。
输入单元307用于接收信号的输入,以及接收用户输入的关键字。输入单元307可包括触控面板以及其它输入设备。触控面板可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程序驱动相应的连接装置;其它输入设备可以包括但不限于物理键盘、功能键(比如播放控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。显示单元309可用于显示用户输入的信息或提供给用户的信息以及计算机设备的各种菜单。显示单元309可采用液晶显示器、有机发光二极管等形式。处理器303是计算机设备的控制中心,利用各种接口和线路连接整个电脑的各个部分,通过运行或执行存储在存储器303内的软件程序和/或模块,以及调用存储在存储器内的数据,执行各种功能和处理数据。图5中所示的一个或多个处理器303能够执行、实现图4中所示的输入模块11、识别模块12、提取模块13以及生成模块14的功能。
在一种实施方式中,所述计算机设备包括存储器305和处理器303,所述存储器305中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器303执行以上实施例所述的一种基于文字定位识别的表格解析方法的步骤。
本发明实施例提供的一种计算机设备,可实现输入表格图片至预先训练的文字定位网络,得到所述表格图片中字符的位置信息;依据所述位置信息对所述表格图片进行图形分割,分割出所述位置信息对应的单元格图片,将所述单元格图片输入预先训练的文字识别网络进行字符识别,得到单元格字符内容;依据所述位置信息,提取所述表格图片的第一表格布局;依据所述第一表格布局以及所述单元格字符内容,生成所述表格图片的表格文件。本发明可以利用建立好的深度学习模型进行表格图片中文字的定位与识别,提高了表格图片识别的效率以及准确率。
另一种实施例中,本发明还可以实现检测所述表格图片中是否包含网格线;若所述表格图片包含网格线,则提取所述表格图片的第二表格布局;将所述第二表格布局与所述第一表格布局进行比对,当比对结果为所述第一表格布局与所述第二表格布局一致时,则验证所述第一表格布局有效。本发明还可以另外检测所述表格图片是否存在表格线,在所述表格图片存在表格线的情况下,直接提取所述表格线,然后将得到的第一表格布局与提取的表格线构成的第二表格布局进行比对以校验所述第一表格布局是否有效。本发明通过文字定位网络以及文字识别网络解析表格图片,可以兼容无表格线和有表格线或表格线残缺的情况,适用范围广。
本发明实施例提供的计算机可读存储介质可以实现上述基于文字定位识别的表格解析方法的实施例,具体功能实现请参见方法实施例中的说明,在此不再赘述。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(read-onlymemory,rom)等非易失性存储介质,或随机存储记忆体(randomaccessmemory,ram)等。
以上所述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。