表格图片中信息的检索方法及电子设备、存储介质与流程

文档序号:32389473发布日期:2022-11-30 07:38阅读:42来源:国知局
表格图片中信息的检索方法及电子设备、存储介质与流程

1.本技术涉及自然语言处理技术领域,特别涉及一种表格文档图片中信息的检索方法及电子设备、计算机可读存储介质。


背景技术:

2.随着科技的不断发展,各行各业对工作效率有了更高的要求,rpa(robotic process automation,机器人流程自动化)行业迎来了快速发展。在表格条目检索领域,现有模式通常针对pdf、excel版本的表格文件进行应用,表格图片(图片格式的表格)进行条目检索的相关研究较少。
3.代表性的流程为:1、需要将表格图片进行ocr(optical character recognition,光学字符识别)结构化识别。2、根据结构化的识别结果进行关键句模糊匹配。但是进行ocr结构化识别会消耗大量的算力和时间。


技术实现要素:

4.本技术实施例提供了表格图片中信息的检索方法,用以节省算力和时间。
5.本技术实施例提供了一种表格图片中信息的检索方法,包括:
6.将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息;
7.根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串;
8.根据每个字符串对应的文本行候选框的位置信息,聚类得到每个单元格对应的文本内容;
9.根据接收到的检索语句,计算所述检索语句与每个单元格对应的文本内容之间的匹配度,并根据所述匹配度,筛选出相匹配的目标文本。
10.在一实施例中,在所述将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息之前,所述方法还包括:
11.获取表格文档原图;
12.对所述表格文档原图进行文字方向识别,并对文字方向不在标准方向的所述表格文档原图进行旋转处理,得到预处理图像;
13.从所述预处理图像中得到所述表格图片。
14.在一实施例中,所述从所述预处理图像中得到所述表格图片,包括:
15.判断所述预处理图像的长宽比是否大于第一预设值;
16.若所述长宽比大于预设值,从所述预处理图像中裁剪出长宽比小于等于第一预设值,且交叠距离在第二预设范围的多张所述表格图片。
17.在一实施例中,在所述将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息之前,所述方法还包括:
18.获取表格文档原图;
19.判断所述表格文档原图的长宽比是否大于第一预设值;
20.若所述长宽比大于预设值,从所述表格文档原图中裁剪出长宽比小于等于第一预设值,且交叠距离在第二预设范围的多张所述表格图片。
21.在一实施例中,所述根据每个字符串对应的文本行候选框的位置信息,聚类得到每个单元格对应的文本内容,包括:
22.根据每个字符串对应的文本行候选框的位置信息,通过聚类算法将所有文本行候选框划分成多个簇;
23.对同一簇内的文本行候选框内的字符串进行拼接,得到同一单元格包含的文本内容。
24.在一实施例中,所述根据接收到的检索语句,计算所述检索语句与每个单元格对应的文本内容之间的匹配度,并根据所述匹配度,筛选出相匹配的目标文本,包括:
25.针对每个文本内容,对所述检索语句和所述文本内容进行分词操作;
26.根据所述检索语句包含的词组和所述文本内容包含的词组,计算所述检索语句与所述文本内容之间的相似度;
27.筛选出所述相似度大于阈值的文本内容作为与所述检索语句相匹配的目标文本。
28.在一实施例中,所述方法还包括:
29.对所述目标文本所在的文本行候选框进行突出显示。
30.本技术实施例还提供了一种表格图片中信息的检索方法,包括:
31.将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息;
32.根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串;
33.根据接收到的检索语句,计算所述检索语句与每个文本候选框内包含的字符串的匹配度,筛选出与所述检索语句相匹配的目标字符串;
34.根据每个目标字符串对应的文本行候选框的位置信息,将所述目标字符串聚类得到与所述检索语句相匹配的文本内容。
35.另一方面,本技术实施例还提供了一种表格图片中信息的检索装置,该装置包括:
36.文字检测模块,用于将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息;
37.文字识别模块,用于根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串;
38.文字聚类模块,用于根据每个字符串对应的文本行候选框的位置信息,聚类得到每个单元格对应的文本内容;
39.语句匹配模块,用于根据接收到的检索语句,计算所述检索语句与每个单元格对应的文本内容之间的匹配度,并根据所述匹配度,筛选出相匹配的目标文本。
40.本技术实施例还提供了另一种表格图片中信息的检索装置,该装置包括:
41.文字检测模块,用于将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息;
42.文字识别模块,用于根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串;
43.文字匹配模块,用于根据接收到的检索语句,计算所述检索语句与每个文本候选框内包含的字符串的匹配度,筛选出与所述检索语句相匹配的目标字符串;
44.文字聚类模块,用于根据每个目标字符串对应的文本行候选框的位置信息,将所述目标字符串聚类得到与所述检索语句相匹配的文本内容。
45.本技术实施例还提供了一种电子设备,所述电子设备包括:
46.处理器;
47.用于存储处理器可执行指令的存储器;
48.其中,所述处理器被配置为执行上述表格图片中信息的检索方法。
49.本技术实施例还提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序可由处理器执行以完成上述表格图片中信息的检索方法。
50.本技术实施例提供的方案,通过文字检测模型和文字识别模型,输出文本行候选框包含的字符串,之后根据字符串的位置信息,聚类得到同一单元格的文本内容,通过计算检索语句和每个单元格的文本内容之间的匹配,确定相匹配的目标文本,无需对表格图片进行结构化识别,本技术实施例仅需识别出文本内容,即可完成表格图片的信息检索,节省了算力、资金和时间,也解决了现有结构化识别不准确,无法满足复杂类型的表格的识别,普适性低的问题。
附图说明
51.为了更清楚地说明本技术实施例的技术方案,下面将对本技术实施例中所需要使用的附图作简单地介绍。
52.图1为本技术一实施例提供的电子设备的结构示意图;
53.图2是本技术实施例提供的一种表格图片中信息的检索方法的流程示意图;
54.图3是文字方向为上下方向的表格图片的示意图;
55.图4是长宽比大于第一预设值的表格图片的示意图;
56.图5是图2对应实施例中步骤s240的细节流程图;
57.图6是本技术实施例提供的表格图片中信息的检索方法的整体流程示意图;
58.图7是本技术另一实施例提供的一种表格图片中信息的检索方法的流程示意图;
59.图8是一张租赁财产清单的示意图;
60.图9是一张融资业务登记表的示意图;
61.图10为本技术一实施例示出的表格图片中信息的检索装置的框图;
62.图11为本技术另一实施例示出的表格图片中信息的检索装置的框图。
具体实施方式
63.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行描述。
64.相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本技术的描述中,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
65.图1是本技术实施例提供的电子设备的结构示意图。该电子设备100可以用于执行本技术实施例提供的表格图片中信息的检索方法。如图1所示,该电子设备100包括:一个或多个处理器102、一个或多个存储处理器可执行指令的存储器104。其中,所述处理器102被配置为执行本技术下述实施例提供的表格图片中信息的检索方法。
66.所述处理器102可以是网关,也可以为智能终端,或者是包含中央处理单元(cpu)、图像处理单元(gpu)或者具有数据处理能力和/或指令执行能力的其它形式的处理单元的设备,可以对所述电子设备100中的其它组件的数据进行处理,还可以控制所述电子设备100中的其它组件以执行期望的功能。
67.所述存储器104可以包括一个或多个计算机程序产品,所述计算机程序产品可以包括各种形式的计算机可读存储介质,例如易失性存储器和/或非易失性存储器。所述易失性存储器例如可以包括随机存取存储器(ram)和/或高速缓冲存储器(cache)等。所述非易失性存储器例如可以包括只读存储器(rom)、硬盘、闪存等。在所述计算机可读存储介质上可以存储一个或多个计算机程序指令,处理器102可以运行所述程序指令,以实现下文所述的表格图片中信息的检索方法。在所述计算机可读存储介质中还可以存储各种应用程序和各种数据,例如所述应用程序使用和/或产生的各种数据等。
68.在一实施例中,图1所示的电子设备100还可以包括输入装置106、输出装置108以及数据采集装置110,这些组件通过总线系统112和/或其它形式的连接机构(未示出)互连。应当注意,图1示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,所述电子设备100也可以具有其他组件和结构。
69.所述输入装置106可以是用户用来输入指令的装置,并且可以包括键盘、鼠标、麦克风和触摸屏等中的一个或多个。所述输出装置108可以向外部(例如,用户)输出各种信息(例如,图像或声音),并且可以包括显示器、扬声器等中的一个或多个。所述数据采集装置110可以采集对象的图像,并且将所采集的图像存储在所述存储器104中以供其它组件使用。示例性地,该数据采集装置110可以为摄像头。
70.在一实施例中,用于实现本技术实施例的表格图片中信息的检索方法的示例电子设备100中的各器件可以集成设置,也可以分散设置,诸如将处理器102、存储器104、输入装置106和输出装置108集成设置于一体,而将数据采集装置110分离设置。
71.在一实施例中,用于实现本技术实施例的表格图片中信息的检索方法的示例电子设备100可以被实现为诸如智能手机、平板电脑、台式电脑、笔记本电脑、服务器、车载设备等智能终端。
72.图2是本技术实施例提供的一种表格图片中信息的检索方法的流程示意图。如图2所示,该方法包括以下步骤s210-步骤s240。
73.步骤s210:将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息。
74.表格图片是指图片格式的表格。表格图片可以存储在本地也可以从外部设备接收得到。文字检测模型可以是在步骤s210之前,事先基于pixellink,faster r-cnn等算法训练得到的模型。文本行候选框是指文本行的最小外接矩形。位置信息可以用文本行候选框的左上顶点坐标和右下顶点坐标表示。在得到表格图片后,可以将表格图片输入表格文字检测模型,获得文字检测模型输出的置信度大于阈值的文本行候选框的位置信息。
75.在一实施例中,可以对表格文档原图进行处理,得到表格图片。表格文档原图是指包含表格图片的原始图片。对表格文档原图的处理可以包括方向校正和裁剪。
76.在一实施例中,可以获取表格文档原图;对所述表格文档原图进行文字方向识别,并对文字方向不在标准方向的所述表格文档原图进行旋转处理,得到预处理图像;从所述预处理图像中得到所述表格图片。
77.在一实施例中,文字方向可能包括上下方向和左右方向两类,如图3所示的文字方向可以认为是上下方向。假设标准方向默认是左右方向,如果表格文档原图的文字方向是上下方向,则需要对表格文档原图进行旋转,使其文字方向变成左右方向。为进行区分,旋转之后的图片可以称为预处理图像。
78.文字方向的识别算法可以采用类似随机森林分类器的机器学习算法,训练样本可以是已知文字方向的表格样本图片。
79.在另一实施例中,可以基于表格文档原图的每相邻两行的相似度,将相似度达到第一预设相似度阈值的相邻两行进行合并,得到相似行表格;基于表格文档原图的每相邻两列的相似度,将相似度达到第二预设相似度阈值的相邻两列进行合并,得到相似列表格;将表格文档原图的行数和列数、相似行表格的行数以及相似列表格的列数,输入预先训练的机器学习模型,得到所述表格文档原图的文字方向。其中,相似度的计算可以将相邻两行或两列的文本内容转换成特征向量,通过计算特征向量之间的距离,得到相邻两行或两列的相似度。
80.在其他实施例中,文字方向可能有0
°
,90
°
,180
°
,270
°
四类,可以将表格文档原图输入训练好的识别模型,输出四个类别对应的概率值,分别代表表格文档原图被顺时针旋转这个角度的概率。选取最高的概率作为分类结果。假设0
°
的概率值最高,表示文字方向在标准方向,不需要旋转。假设90
°
的概率值最高,则表示文字方向不在标准方向,需要顺时针旋转90
°
,以此类推。
81.根据需要,可以直接将预处理图像作为表格图片。在其他实施例中,还可以进一步判断预处理图像的长宽比是否大于第一预设值;若长宽比大于预设值,从预处理图像中裁剪出长宽比小于等于第一预设值,且交叠距离在第二预设范围的多张所述表格图片。
82.其中,长宽比是指长度和宽度的比值。第一预设值可以是3,假设长宽比大于3,则表示预处理图像是一个长条形的图片,尺寸不太协调,故可以对预处理图像进行裁剪。如图4所示,是一张长宽比大于第一预设值的预处理图像,可以将此预处理图像裁剪成3张表格图片(见标记41、42和43)。裁剪要求是,每张表格图片的长宽比均要小于等于第一预设值,且相邻两张表格图片的交叠距离在第二预设范围。交叠距离(见标记40)是指相邻两张表格图片重叠部分的宽度。第二预设范围可以是50-60像素。
83.在其他实施例中,也可以不考虑表格文档原图的文字方向,在获取表格文档原图之后,直接判断表格文档原图的长宽比是否大于第一预设值;若所述长宽比大于预设值,从所述表格文档原图中裁剪出长宽比小于等于第一预设值,且交叠距离在第二预设范围的多张表格图片。具体裁剪方式参见上文描述,在此不再赘述。
84.步骤s220:根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串。
85.根据每个文本行候选框的位置信息,定位每个文本行候选框所在区域,通过文字
识别模型识别该区域图像包含的字符串。文字识别模型用于识别文本行候选框内包含的具体内容,可能包括汉字、字母、符号或数字。文本行候选框内包含的具体内容,可以称为字符串。文字识别模型可以是预先根据ctc(connectionist temporal classification)和注意力机制算法训练得到的模型。
86.步骤s230:根据每个字符串对应的文本行候选框的位置信息,聚类得到每个单元格对应的文本内容。
87.每个字符串对应的文本行候选框的位置信息是指字符串所在的文本行候选框的位置信息。其中,文本行候选框的位置信息由上述步骤s210确定。一个单元格内可能有一个或多个文本行候选框,也就是说,一个单元格内可能存在一行或多行字符串。文本内容是指同一个单元格内的字符串拼接构成的文本。由于同一单元格内文本行候选框之间的欧式距离相对较小,而不同单元格内文本行候选框之间的欧式距离相对较大,故可以根据文本行候选框的位置信息,将欧式距离相近的文本行候选框划分至同一个类(簇)。划分至同一个类的文本行候选框内的字符串,可以认为是同一个单元格内的文本内容。
88.在一实施例中,可以根据每个字符串对应的文本行候选框的位置信息,通过聚类算法(例如k-means,即k均值聚类算法)将所有文本行候选框划分成多个簇。对同一簇内的文本行候选框内的字符串进行拼接,得到同一单元格包含的文本内容。
89.其中,簇的个数可以根据单元格的数量确定,单元格的数量可以根据用户输入的行数和列数确定,也可以通过步骤s210的文字检测模型得到。
90.具体的,步骤1、可以将文本行候选框的中心点坐标作为样本,从所有样本中随机选择k(单元格的数量)个点作为初始质心(完全随机);步骤2、计算每个样本到各个质心的欧式距离,将样本划分到距离最近的质心所对应的簇中;步骤3、计算每个簇内所有样本的均值,并使用该均值更新簇的质心;重复步骤2与3,直到达到以下条件之一:质心的位置变化小于指定的阈值(默认为0.0001),达到最大迭代次数。
91.通过上述聚类过程,可以将所有文本行候选框划分到多个簇,同一个簇内的文本行候选框的字符串可以按照从上到下的顺序进行拼接,作为一个单元格内的文本内容。
92.步骤s240:根据接收到的检索语句,计算所述检索语句与每个单元格对应的文本内容之间的匹配度,并根据所述匹配度,筛选出相匹配的目标文本。
93.检索语句可以是用户输入的待查询的语句,也可以是外部设备发送过来的待查询的语句。其中,匹配度可以用检索语句与文本内容之间的相似度表示。相似度大于阈值的文本内容可以认为是与检索语句相匹配的目标文本内容。
94.在一实施例中,如图5所示,上述步骤s240具体包括:步骤s241-步骤s242。
95.步骤s241:针对每个文本内容,对检索语句和所述文本内容进行分词操作。
96.具体的,分词操作可以先判断检索语句中是否包含专用名词,如果包含专用名词(专用名词是某一特定实体的名称:例如某人、组织名、地点或专业名词(如医学领域的阿司匹林)),可以先将专用名词分为一个词,从检索语句中剔除,然后对剩余语句基于n-gram(n元语言模型)进行分词。n元代表一个分词中包含n个文字。举例来说,“中国农业大学”,如果设定n=2,分词候选为“中国”“国农”“农业”“业大”“大学”等。由于语言模型库(一种知识库,存储了不同词组出现的概率)中“国农”、“业大”出现的概率较低,那么按照概率,“中国农业大学”就会分为“中国”“农业”“大学”。同理,对每个文本内容进行分词操作。
97.步骤s242:根据所述检索语句包含的词组和所述文本内容包含的词组,计算所述检索语句与所述文本内容之间的相似度。
98.对检索语句进行分词操作,可以得到多个词组,对文本内容进行分词操作,也可以得到多个词组。检索语句与文本内容之间的相似度s可以采用以下公式计算得到其中,a表示检索语句中所包含的且文本内容中不存在的词组的数量;b表示文本内容中所包含的且检索语句中不存在的词组的数量;c表示两者中都包含的相同词组的数量。
99.步骤s243:筛选出所述相似度大于阈值的文本内容作为与所述检索语句相匹配的目标文本。
100.举例来说,阈值可以是0.4-0.5,相似度大于阈值的文本内容可以认为是与检索语句相匹配的目标文本。在一实施例中,可以对目标文本所在的文本行候选框进行突出显示。举例来说,可以对目标文本所在的文本行候选框进行高亮显示。
101.图6是本技术实施例提供的表格图片中信息的检索方法的整体流程示意图。如图6所示,(1)先对表格文档原图进行预处理,预处理方式可以包括方向校正和裁剪,得到表格图片;(2)通过上述步骤s210对表格图片进行文字检测,得到文本行候选框的位置信息;(3)通过上述步骤s220对文本行候选框内的字符进行文字识别,得到每个文本行候选框内包含的字符串。(4)通过上述步骤s230根据每个字符串对应的文本行候选框的位置信息,聚类得到每个单元格的文本内容。例如“56,65、78,87 2单元902”表示左上顶点坐标为(56,65),右下顶点坐标为(78,87)的单元格的文本内容为“2单元902”。(5)通过上述步骤s240对接收到的检索语句和每个单元格的文本内容进行模糊匹配。之后对相匹配的文本内容所在的文本行候选框进行高亮显示。
102.需要解释的是,假设一个单元格包含三行字符串,文字识别结果为“中国农业大”“学工学”“院203教室”。假设没有进行聚类,对三行字符串分别进行匹配,当检索语句为“山西农业大学理学院的教室”时,通过分词操作,可以拆分“山西”“农业”“大学”“理学”“学院”、“教室”,在计算检索语句与“学工学”的匹配度时,“学工学”会被拆成“工学”“学工”,所以检索语句和“学工学”两者匹配度比较低,“学工学”就被算法忽略了。而上述实施例通过聚类的方式,可以将这三个字符串“中国农业大”“学工学”“院203教室”合并为一个文本内容“中国农业大学工学院203教室”,直接对该文本内容进行分词,得到“中国”“农业”、“大学”“工学院”、“203”、“教室”,并利用公式计算该文本内容与检索语句之间的匹配度。其中,a表示检索语句中所包含的且文本内容中不存在的词组的数量;b表示文本内容中所包含的且检索语句中不存在的词组的数量;c表示两者中都包含的相同词组的数量。假设s的值大于阈值,则该文本内容整体就会被检索到,从而避免了字符串的忽略,使得表格图片的检索结果更为准确。
103.图7是本技术另一实施例提供的一种表格图片中信息的检索方法的流程示意图。与图2对应实施例的不同之处在于,图7对应实施例在完成文字检测和文字识别后,先进行了模糊匹配,再进行了聚类。具体如图7所示,包括以下步骤s710-步骤s740。
104.步骤s710:将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息。
105.步骤s720:根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本
行候选框内包含的字符串。
106.上述步骤s710和步骤s720的具体实现过程,可以参照图2对应实施例的步骤s210-步骤s220。
107.步骤s730:根据接收到的检索语句,计算所述检索语句与每个文本候选框内包含的字符串的匹配度,筛选出与所述检索语句相匹配的目标字符串。
108.匹配度可以是检索语句和字符串之间的相似度,目标字符串是指与检索语句的相似度大于阈值的字符串,为进行区分,称为目标字符串。在一实施例中,可以将检索语句和字符串分别转换为词向量,通过计算词向量之间的余弦相似度,作为检索语句语与字符串之间的匹配度。
109.在一实施例中,上述步骤s730具体可以包括:针对每个字符串,对所述检索语句和所述字符串进行分词操作;根据所述检索语句包含的词组和所述字符串包含的词组,计算所述检索语句与所述字符串之间的相似度;筛选出所述相似度大于阈值的字符串作为与所述检索语句相匹配的目标字符串。
110.分词操作的方式可以参见上文的,先将专用名词划分为一个词语,而后对剩余语句基于n-gram(n元语言模型)进行分词。参见上文,检索语句和字符串之间的相似度s可以根据计算得到。在当前实施例中,a表示检索语句中所包含的且字符串中不存在的词组的数量;b表示字符串中所包含的且检索语句中不存在的词组的数量;c表示两者中都包含的相同词组的数量。相似度的阈值可以是0.4-0.5,举例来说,阈值可以是0.45,假设一个字符串与检索语句之间的相似度大于0.45,则该字符串就是目标字符串。
111.步骤s740:根据每个目标字符串对应的文本行候选框的位置信息,将所述目标字符串聚类得到与所述检索语句相匹配的文本内容。
112.每个目标字符串对应的文本行候选框的位置信息是指目标字符串所在的文本行候选框的位置信息,文本行候选框的位置信息可以在步骤s710得到。文本行候选框的位置信息可以用文本行候选框的中心点的坐标表示。根据每个目标字符串对应的文本行候选框的位置信息,可以通过k-means等聚类算法将所有目标字符串对应的文本行候选框划分成多个簇。对同一簇内的文本行候选框内的字符串进行拼接,得到与所述检索语句相匹配的文本内容。
113.具体聚类过程参见上文描述,通过上述聚类过程,可以将所有目标字符串对应的文本行候选框划分到多个簇,同一个簇内的文本行候选框的字符串可以按照从上到下的顺序进行拼接,作为同一单元格内的文本内容,该文本内容即为与检索语句相匹配的文本内容。根据需要,可以对该文本内容进行高亮显示。
114.上述实施例通过先模糊匹配筛选出目标字符串,再进行聚类的方式,可以减少聚类时的样本数量,从而降低了计算量,缩短计算时间,提高计算效率。
115.图8是一张租赁财产清单的示意图。租赁财产清单具有包含复杂字符(包含符号,数字,文字,字母),文档信息量大的特征。无论是使用基于自然语言处理还是基于人工规则进行模板匹配的结构化识别算法(例如图学习神经网络),最终效果都不理想,并且消耗大量的算力和时间。
116.图9是一张融资业务登记表的示意图。像融资业务登记这种带有信息登记性质的
表格中,其key-value(键值对)逻辑较为复杂。结构化识别难度较大。仅仅为了信息检索而将整个表格进行结构化识别并不是性价比较高的选择。
117.对于图8和图9这样的表格图片,可以采用本技术实施例提供的方案,通过文字检测模型和文字识别模型,输出文本行候选框包含的字符串,之后根据字符串的位置信息,聚类得到同一单元格的文本内容,通过计算检索语句和每个单元格的文本内容之间的匹配读,确定相匹配的目标文本,无需对表格图片进行结构化识别(是指以表格的形式输出),本技术实施例仅需识别出文本内容,即可完成表格图片的信息检索,节省了算力、资金和时间,也解决了现有结构化识别不准确,无法满足复杂类型的表格的识别,普适性低的问题。
118.下述为本技术装置实施例,可以用于执行本技术上述表格图片中信息的检索方法实施例。对于本技术装置实施例中未披露的细节,请参照本技术表格图片中信息的检索方法实施例。
119.图10为本技术一实施例示出的表格图片中信息的检索装置的框图。如图10所示,该装置包括:
120.文字检测模块1010,用于将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息;
121.文字识别模块1020,用于根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串;
122.文字聚类模块1030,用于根据每个字符串对应的文本行候选框的位置信息,聚类得到每个单元格对应的文本内容;
123.语句匹配模块1040,用于根据接收到的检索语句,计算所述检索语句与每个单元格对应的文本内容之间的匹配度,并根据所述匹配度,筛选出相匹配的目标文本。
124.图11为本技术一实施例示出的表格图片中信息的检索装置的框图。如图11所示,该装置包括:
125.文字检测模块1110,用于将表格图片作为文字检测模型的输入,获得所述文字检测模型输出的文本行候选框的位置信息;
126.文字识别模块1120,用于根据所述文本行候选框的位置信息,通过文字识别模型识别所述文本行候选框内包含的字符串;
127.文字匹配模块1130,用于根据接收到的检索语句,计算所述检索语句与每个文本候选框内包含的字符串的匹配度,筛选出与所述检索语句相匹配的目标字符串;
128.文字聚类模块1140,用于根据每个目标字符串对应的文本行候选框的位置信息,将所述目标字符串聚类得到与所述检索语句相匹配的文本内容。
129.上述装置中各个模块的功能和作用的实现过程具体详见上述表格图片中信息的检索方法中对应步骤的实现过程,在此不再赘述。
130.在本技术所提供的几个实施例中,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本技术的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例
如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
131.另外,在本技术各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。
132.功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本技术各个实施例方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1