本公开涉及计算机,尤其涉及光学字符识别,具体涉及一种表格生成方法、装置、电子设备以及存储介质。
背景技术:
1、光学字符识别技术是指对文本资料进行扫描后对图像文件进行分析处理,获取文字及版面信息的过程。
2、随着光学字符识别技术的发展,可以利用训练好的表格结构化模型,对表格图像中的文本数据进行识别和提取。在训练表格结构化模型的过程中,需要大量的样本表格图像和样本表格图像的标注数据。
技术实现思路
1、本公开提供了一种用于表格生成方法、装置、电子设备以及存储介质。
2、根据本公开的一方面,提供了一种表格生成方法,包括:
3、获取文本内容信息和目标页面的布局信息,目标页面的布局信息包括页面参数信息、单元格布局信息和文字布局信息。根据页面参数信息、单元格布局信息和文字布局信息,得到单元格坐标信息。根据文字布局信息和单元格坐标信息,得到文字坐标信息。根据单元格坐标信息、文字坐标信息和文本内容信息,生成目标表格和与目标表格对应的标注数据。
4、根据本公开的另一方面,提供了一种表格生成装置,包括:第一获取模块、第一获得模块、第二获得模块和生成模块。其中,第一获取模块,用于获取文本内容信息和目标页面的布局信息,目标页面的布局信息包括页面参数信息、单元格布局信息和文字布局信息。第一获得模块,用于根据页面参数信息、单元格布局信息和文字布局信息,得到单元格坐标信息。第二获得模块,用于根据文字布局信息和单元格坐标信息,得到文字坐标信息。生成模块,用于根据单元格坐标信息、文字坐标信息和文本内容信息,生成目标表格和与目标表格对应的标注数据。
5、根据本公开的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。
6、根据本公开的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行如上所述的方法。
7、根据本公开的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如上所述的方法。
8、应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
1.一种表格生成方法,包括:
2.根据权利要求1所述的方法,其中,所述单元格布局信息包括单元格的尺寸比例信息和单元格之间的相对位置关系信息;所述页面参数信息和所述单元格布局信息,得到单元格坐标信息,包括:
3.根据权利要求2所述的方法,其中,所述文字布局信息包括文字在单元格内的换行标识信息,所述根据所述单元格尺寸信息、所述页面参数信息和所述文字布局信息,得到所述单元格坐标信息,包括:
4.根据权利要求3所述的方法,其中,所述根据所述排布位置信息和所述排布行数信息,得到所述单元格坐标信息,包括:
5.根据权利要求4所述的方法,其中,所述根据所述排布行数信息,得到所述多个目标单元格的高度信息,包括:
6.根据权利要求1所述的方法,其中,所述文字布局信息包括文字在单元格内的排布方式信息、文字尺寸信息和文字在单元格内的换行标识信息,所述根据所述文字布局信息和所述单元格坐标信息,得到文字坐标信息,包括:
7.根据权利要求6所述的方法,其中,所述文字尺寸信息包括文字高度信息和文字宽度信息,所述基于所述目标策略,根据所述单元格坐标信息、所述文字尺寸信息、所述排布方式信息和所述排布行数信息,得到所述文字坐标信息,包括:
8.根据权利要求7所述的方法,其中,所述根据所述单元格坐标信息、所述文字宽度信息和所述排布方式信息,得到文字横坐标信息,包括:
9.根据权利要求8所述的方法,其中,所述单元格坐标信息包括左顶点坐标信息和右顶点坐标信息,所述根据所述偏移参数信息、所述文字宽度信息和所述单元格坐标信息,得到所述文字横坐标信息,包括:
10.根据权利要求7所述的方法,其中,所述单元格坐标信息包括单元格的左上顶点坐标信息,所述基于所述目标策略,根据所述单元格坐标信息、所述文字高度信息和所述排布行数信息,得到文字纵坐标信息,包括:
11.根据权利要求10所述的方法,其中,所述排布行数信息包括文字在单元格内的排布行数信息和文字在同一行多个单元格内的最大排布行数信息;所述根据所述左上顶点坐标信息、所述最小单元格高度信息、所述文字高度信息和所述排布行数信息,得到所述文字纵坐标信息,包括:
12.根据权利要求1所述的方法,其中,所述根据所述单元格坐标信息、所述文字坐标信息和所述文本内容信息,生成目标表格和与所述目标表格对应的标注数据,包括:
13.根据权利要求1所述的方法,还包括:
14.根据权利要求13所述的方法,还包括:
15.根据权利要求14所述的方法,其中,所述对所述目标印章图像和所述第一表格图像进行处理,得到第二表格图像,包括:
16.根据权利要求15所述的方法,其中,所述对所述目标局部印章图像和所述第一表格图像进行处理,得到第二表格图像,包括:
17.一种表格生成装置,包括:
18.一种电子设备,包括:
19.一种存储有计算机指令的非瞬时计算机可读存储介质,其中,所述计算机指令用于使所述计算机执行根据权利要求1-16中任一项所述的方法。
20.一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现根据权利要求1-16中任一项所述的方法。