技术特征:
1.一种表格信息提取的方法,其特征在于,包括:确定待处理图像中的背景区域,所述背景区域为所述待处理图像中未包含文本信息的区域;根据所述背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,某一纵坐标的像素数量表示所述背景区域中像素的纵坐标为所述某一纵坐标的数量;某一横坐标的像素数量表示所述背景区域中像素的横坐标为所述某一横坐标的数量;根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标;根据所述目标表格的各个表格行坐标以及各个表格列坐标,获得所述目标表格的表格信息。2.如权利要求1所述的方法,其特征在于,所述确定待处理图像中的背景区域,包括:对所述待处理图像进行二值化处理,获得二值化图像,所述二值化图像中像素的灰度值为设定前景灰度值或设定背景灰度值;基于所述二值化图像中设定背景灰度值的像素,确定所述待处理图像中的背景区域。3.如权利要求2所述的方法,其特征在于,所述对所述待处理图像进行二值化处理,获得二值化图像,包括:从所述待处理图像中筛选出灰度值符合设定背景灰度条件的像素;将筛选出的像素的灰度值,调整为设定背景灰度值;将所述待处理图像中未被筛选出的像素的灰度值,调整为设定前景灰度值,获得二值化图像;所述设定背景灰度值大于所述设定前景灰度值。4.如权利要求3所述的方法,其特征在于,在所述从所述待处理图像中筛选出灰度值符合设定背景灰度条件的像素之前,所述方法还包括:若确定所述待处理图像中存在灰度值高于第一局部环境灰度值的文本信息,且存在灰度值低于第二局部环境灰度值的文本信息,则针对所述待处理图像中不同的局部区域设置不同的设定背景灰度条件。5.如权利要求1所述的方法,其特征在于,在所述根据所述背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量之前,所述方法还包括:对所述待处理图像进行直线检测,获得所述待处理图像中的直线;从所述待处理图像中去除检测出的直线。6.如权利要求2所述的方法,其特征在于,所述根据所述背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量,包括:采用第一直线核,对所述二值化图像进行开操作,获得第一开操作图像,以保留所述二值化图像中大于所述第一直线核的尺寸的背景区域;所述第一直线核的宽度大于高度;根据所述第一开操作图像的背景区域中各像素的纵坐标,分别统计每一纵坐标的像素数量;采用第二直线核,对所述二值化图像进行开操作,获得第二开操作图像,以保留所述二值化图像中大于所述第二直线核的尺寸的背景区域;所述第二直线核的宽度小于高度;
根据所述第二开操作图像的背景区域中各像素的横坐标,分别统计每一横坐标的像素数量。7.如权利要求1-6任一项所述的方法,其特征在于,所述根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标,包括:根据各纵坐标的像素数量,以及纵坐标总数,分别获得每一纵坐标的像素占比,所述纵坐标总数为所述待处理图像中某一纵坐标的像素的数量;基于各纵坐标的像素占比,确定各表格行坐标;根据各横坐标的像素数量,以及横坐标总数,分别获得每一横坐标的像素占比,所述横坐标总数为所述待处理图像中某一横坐标的像素的数量;基于各横坐标的像素占比,确定各表格列坐标。8.如权利要求7所述的方法,其特征在于,所述基于各纵坐标的像素占比,确定各表格行坐标,包括:从各纵坐标中,筛选出高于第一占比阈值的像素占比的纵坐标;基于不高于所述第一占比阈值的像素占比的纵坐标,对筛选出的纵坐标进行划分,获得纵坐标集合;若所述纵坐标集合中仅包含一个纵坐标,则将所述纵坐标集合中的纵坐标确定为所述表格行坐标;若所述纵坐标集合中包含多个连续的纵坐标,则将所述纵坐标集合中各纵坐标的均值,确定为所述表格行坐标。9.如权利要求7所述的方法,其特征在于,所述基于各横坐标的像素占比,确定各表格列坐标,包括:从各横坐标中,筛选出高于第二占比阈值的像素占比的横坐标;基于不高于所述第二占比阈值的像素占比的横坐标,对筛选出的横坐标进列划分,获得横坐标集合;若所述横坐标集合中仅包含一个横坐标,则将所述横坐标集合中的横坐标确定为所述表格列坐标;若所述横坐标集合中包含多个连续的横坐标,则将所述横坐标集合中各横坐标的均值,确定为所述表格列坐标。10.如权利要求1-6任一项所述的方法,其特征在于,所述根据所述目标表格的各个表格行坐标以及各个表格列坐标,获得所述目标表格的表格信息,包括:基于各个表格行坐标以及各个表格列坐标,生成所述目标表格;获取所述目标表格中各单元格的位置信息,所述表格信息包括各单元格的位置信息。11.一种电子设备,其特征在于,包括处理器以及存储器,所述存储器存储有计算机可读取指令,当所述计算机可读取指令由所述处理器执行时,运行如权利要求1-10任一所述方法。
技术总结
本申请属于图像处理技术领域,公开了一种表格信息提取的方法及电子设备,该方法包括,确定待处理图像中的背景区域,背景区域为待处理图像中未包含文本信息的区域;根据背景区域中各像素的纵坐标以及横坐标,分别获得每一纵坐标的像素数量以及每一横坐标的像素数量;根据各纵坐标的像素数量,以及各横坐标的像素数量,确定目标表格的各个表格行坐标以及各个表格列坐标;根据目标表格的各个表格行坐标以及各个表格列坐标,获得目标表格的表格信息。这样,降低了图像界面中表格信息提取时耗费的人力成本和时间成本。力成本和时间成本。力成本和时间成本。
技术研发人员:黄博 张泉 周元剑 周健
受保护的技术使用者:上海弘玑信息技术有限公司
技术研发日:2022.07.08
技术公布日:2022/10/3