技术特征:
1.一种文档图像中文字高度的分布情况估计方法,其特征在于,所述方法包括:获取第一样本训练集,所述第一样本训练集中的样本数据包括文字块图像及文字高度;基于所述第一样本训练集对初始网络模型进行训练,得到字高检测模型;将待检测文档图像缩放至不同比例并输入至所述字高检测模型,获得不同比例下的所述待检测文档图像对应的文字高度识别结果;基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图;其中,所述待分类文字高度分布图的横轴表示实际字高,纵轴表示相应字高的文字数量与总文字数量的比值;将所述待分类文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况。2.根据权利要求1所述的文档图像中文字高度的分布情况估计方法,其特征在于,获取第一样本训练集,包括:获取文档图像,将所述文档图像切割为多个文字块图像,标注各所述文字块图像的文字高度;将所述文字块图像中的在高度方向上被切割的文字进行马赛克处理。3.根据权利要求2所述的文档图像中文字高度的分布情况估计方法,其特征在于,获取第一样本训练集,还包括:随机生成文档图像,并在生成的所述文档图像的各区域添加识别干扰项,所述识别干扰项包括纯白背景、高斯噪声、晶体、椒盐噪声和真实环境信息中的至少一个;和/或对所述文字块图像进行数据增强及旋转,调整所述文字块图像的亮度、对比度、饱和度和色调。4.根据权利要求3所述的文档图像中文字高度的分布情况估计方法,其特征在于,所述方法包括:构建高度损失函数,所述高度损失函数为:其中,hloss表示高度损失,h1=min(d1,d3)+min(d2,d4),h2=d1+d2+d3+d
4-h1,d1为预测的像素点至文字块图像顶部之间的距离,d2为预测的像素点至文字块图像底部之间的距离,d3为标注的像素点至文字块图像顶部之间的距离,d4为标注的像素点至文字块图像底部之间的距离。5.根据权利要求4所述的文档图像中文字高度的分布情况估计方法,其特征在于,当获取第一样本训练集包括对所述文字块图像进行数据增强及旋转时,所述方法还包括:构建角度损失函数,所述角度损失函数为angleloss=1-cos(θ
1-θ2);其中,angleloss表示角度损失,θ1为预测的文字块图像的旋转角度值,θ2为标注的文字块图像旋转角度值。6.根据权利要求1所述的文档图像中文字高度的分布情况估计方法,其特征在于,将所述文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况,之前,还包括:获取第二样本训练集,所述第二样本训练集中的样本数据包括文字高度分布图以及对
应的最优缩放比例;基于所述第二样本训练集对初始分类器模型进行训练得到所述分类器模型。7.根据权利要求5所述的文档图像中文字高度的分布情况估计方法,其特征在于,所述方法还包括:构建文本识别损失函数,所述文本识别损失函数为其中,diceloss表示文本识别损失,x表示标注的像素点为文本的概率,y表示预测的像素点为文本的概率。8.根据权利要求1至7中任意一项所述的文档图像中文字高度的分布情况估计方法,其特征在于,所述分类器模型为svm分类器;和/或基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图,包括:统计各比例下的所述待检测文档图像对应的各字高的文字数量;计算各比例下的所述待检测文档图像对应的各字高的文字数量与总文字数量的比值;基于所述比值采用画图工具建立各比例待检测文档图像的待分类文字高度分布图。9.一种文档图像中文字高度的分布情况估计系统,该系统包括处理器和存储器,其特征在于,所述存储器中存储有计算机指令,所述处理器用于执行所述存储器中存储的计算机指令,当所述计算机指令被处理器执行时该系统实现如权利要求1至8中任意一项所述方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1至8中任意一项所述方法的步骤。
技术总结
本发明提供一种文档图像中文字高度的分布情况估计方法及装置,所述方法包括:获取第一样本训练集;基于所述第一样本训练集对初始网络模型进行训练,得到字高检测模型;将待检测文档图像缩放至不同比例并输入至所述字高检测模型,获得不同比例下的所述待检测文档图像对应的文字高度识别结果;基于获取到的不同比例下的所述待检测文档图像对应的文字高度识别结果建立各比例待检测文档图像的待分类文字高度分布图;将所述待分类文字高度分布图输入至分类器模型,获得所述待检测文档图像的最优缩放比例,并基于所述最优缩放比例对应的文字高度确定所述待检测文档图像的字高分布情况。该方法可准确的检测到文档图像上的文字高度分布情况。高度分布情况。高度分布情况。
技术研发人员:熊永平 丁运运 黄思远 伍贵宾
受保护的技术使用者:北京邮电大学
技术研发日:2022.05.11
技术公布日:2022/9/23