1.本技术涉及图像处理技术领域,特别是涉及一种文本图像朝向识别方法和文本内容识别方法、装置、设备。
背景技术:2.随着移动互联网和人工智能(artificial intelligence,ai)技术的快速发展,文档和卡证电子化采集和处理趋势日益明显,越来越多的文档(如档案材料、医疗病历等)或卡证(如身份证、银行卡等)通过智能手机app(application)拍摄采集后,送入后台进行自动化处理,例如,通过光学文字识别(optical character recognition,ocr)获得文本信息,通过自然语言处理(natural language processing,nlp)进行实体抽取或语义分析。
3.在传统方式中,智能手机app拍摄得到或用户点击上传的文本图像可能是任意朝向的,比如向左或向右旋转了90度,或者是180颠倒的文档。
4.直接对任意朝向的文本图像进行识别,识别结果并不准确,得到的识别结果的准确性较低。
技术实现要素:5.基于此,有必要针对上述技术问题,提供一种能够提升文本图像识别准确性的文本图像朝向识别方法和文本内容识别方法、装置、设备。
6.一种文本图像朝向识别方法,所述文本图像朝向识别方法包括:
7.获取待识别的初始文本图像;
8.对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向;
9.根据预估朝向,得到对应初始文本图像的各文本行图像;
10.确定各文本行图像中文本内容的文本内容朝向;
11.基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。
12.在其中一个实施例中,对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,以及确定各文本行图像中文本内容的文本内容朝向,均通过预先训练的分类模型进行的,分类模型包括第一分类模型以及第二分类模型;
13.对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,包括:
14.将初始文本图像输入预先训练的第一分类模型中,确定初始文本图像的预估朝向;
15.确定各文本行图像中文本内容的文本内容朝向,包括:
16.将各文本行图像输入预先训练的分本行分类模型中,确定各文本行图像对应文本内容的文本内容朝向。
17.在其中一个实施例中,分类模型的训练方式包括:
18.获取初始训练数据集,初始训练数据集包括第一样本数据集;
19.对第一样本数据集进行旋转处理,生成第二样本数据集;
20.对初始训练数据集进行文本内容识别处理,生成第三样本数据集;
21.对第三样本数据集进行旋转处理,得到第四样本数据集;
22.通过第一样本数据集以及第二样本数据集对第一分类模型进行训练,得到训练后的第一分类模型;
23.通过第三样本数据集以及第四样本数据集对第二分类模型进行训练,得到训练后的第二分类模型。
24.在其中一个实施例中,根据预估朝向,得到对应初始文本图像的各文本行图像,包括:
25.当预估朝向指示初始文本图像与预设的目标朝向一致时,则将初始文本图像作为目标文本图像;
26.当预估朝向指示初始文本图像与预设的目标朝向不一致时,则将初始文本图像旋转预设角度,得到对应目标朝向的目标文本图像;
27.基于目标文本图像,得到对应的各文本行图像。
28.在其中一个实施例中,基于目标文本图像,得到对应的各文本行图像,包括:
29.确定目标文本图像中各文本行的尺寸信息;
30.基于尺寸信息,从目标文本图像中提取出对应各文本行的各文本行图像。
31.在其中一个实施例中,基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向,包括:
32.基于各文本内容朝向,确定各文本内容朝向对应的文本行数量;
33.根据各文本行数量以及预估朝向,确定初始文本图像的文本图像朝向。
34.一种文本内容识别方法,所述文本内容识别方法包括:
35.通过上述任一实施例的文本图像朝向识别方法确定待识别的初始文本图像的文本图像朝向;
36.基于文本图像朝向,确定对应初始文本图像的正向图像;
37.对正向图像中的待识别文本进行文本识别,得到初始文本图像中待识别文本的识别结果。
38.一种文本图像朝向识别装置,所述文本图像朝向识别装置包括:
39.初始文本图像获取模块,用于获取待识别的初始文本图像;
40.预估模块,用于对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向;
41.文本行图像确定模块,用于根据预估朝向,得到对应初始文本图像的各目标行图像;
42.文本内容朝向确定模块,用于确定各文本行图像中文本内容的文本内容朝向;
43.文本图像朝向确定模块,用于基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。
44.一种文本内容识别装置,所述文本内容识别装置包括:
45.文本图像朝向确定模块,用于通过上述文本图像朝向识别装置确定待识别的初始文本图像的文本图像朝向;
46.正向图像确定模块,用于基于文本图像朝向,确定对应初始文本图像的正向图像;
47.识别模块,用于对正向图像中的待识别文本进行文本识别,得到初始文本图像中
待识别文本的识别结果。
48.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述任一实施例所述方法的步骤。
49.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任一实施例所述的方法的步骤
50.上述文本图像朝向识别方法和文本内容识别方法、装置、设备,通过获取待识别的初始文本图像,然后对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,并根据预估朝向,得到对应初始文本图像的各文本行图像,进一步确定各文本行图像中文本内容的文本内容朝向,并基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。从而,可以通奴工对初始文本图像的朝向进行预估,并基于预估朝向,确定对应初始文本图像的各文本行图像,然后确定各文本行图像中文本内容的朝向,以基于确定的预估朝向与文本内容的朝向确定初始文本内容的朝向,使得后续可以基于确定的初始文本的朝向,对初始文本图像进行旋转,得到正向的文本图像后再进行文本内容的识别,相比于传统方式中对任意朝向的文本图像进行识别,本技术方案可以提升后续文本内容识别的准确性。
附图说明
51.图1为一个实施例中文本图像朝向识别方法的应用场景图;
52.图2为一个实施例中文本图像朝向识别方法的流程示意图;
53.图3为一个实施例中初始文本图像的示意图;
54.图4为一个实施例中文本内容识别方法的流程示意图;
55.图5为一个实施例中文本图像朝向识别装置的结构框图;
56.图6为一个实施例中文本内容识别装置的结构框图;
57.图7为一个实施例中计算机设备的内部结构图。
具体实施方式
58.为了使本技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本技术进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本技术,并不用于限定本技术。
59.本技术提供的文本图像朝向识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。终端102接收用户指令,并发送至服务器104。服务器104基于用户指令,获取待识别的初始文本图像,并对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向。然后,服务器104可以根据预估朝向,得到对应初始文本图像的各文本行图像,并确定各文本行图像中文本内容的文本内容朝向。进一步,服务器104可以基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
60.在一个实施例中,如图2所示,提供了一种文本图像朝向识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
61.步骤s202,获取待识别的初始文本图像。
62.其中,初始文本图像服务器获取到的,对图像的朝向等未经过处理的图像数据,例如,可以是通过手机app,或者是各种扫描设备等采集到的图像。
63.在本实施例中,初始文本图像可以是包括档案资料、医疗病理、身份证、银行卡等各种不同类型的文本图像,具体可以基于实际应用场景需要,本技术对此不作限制。
64.在本实施例中,终端可以基于具体业务的需求,采集对应业务需求的初始文本图像,并发送至服务器,使得服务器进行后续的处理。例如,保险理赔业务中,需要上传档案资料片、身份证信息等数据,则终端可以基于用户的指示,采集对应的初始文本图像,并发送至服务器。
65.步骤s204,对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向。
66.具体地,服务器在获取到初始文本图像后,可以通过对初始文本图像进行预估处理,以确定初始文本图像的预估朝向,例如,预估初始文本图像中文本行是水平朝向或者是竖直朝向等。其中,水平朝向可以记为c1,竖直朝向可以记为c2。
67.在本实施例中,服务器在进行预估的可以基于多种预估方式进行预估,例如,可以是基于神经网络进行预估,或者是通过文本识别的方式,在获知各文本行和文本列之后进行判定预估等,本技术对此不作限制。
68.步骤s206,根据预估朝向,得到对应初始文本图像的各文本行图像。
69.在本实施例中,服务器在获取到初始文本图像的预估朝向之后,可以基于预估朝向,判定是否需要对初始文本图像进行预处理,例如,例如是否需要进行旋转处理,或者是其他的调整处理,如尺寸的调整等等,然后对初始文本图像中各文本行进行文本行图像的提取,得到对应初始文本图像的文本行图像。
70.在本实施例中,当服务器确定需要对初始文本图像进行预处理时,则服务器可以对初始文本图像进行预处理后,基于预处理后的初始文本图像,生成对应的文本行图像。同理,当服务器确定无需对初始文本图像进行预处理时,此时,服务器可以直接对初始文本图像进行后续的文本行提取操作,以得到文本行图像。
71.步骤s208,确定各文本行图像中文本内容的文本内容朝向。
72.在本实施例中,初始文本图像中可以包括多个文本行,例如,参考图3,对于身份证,其可以包括姓名、性别、出生、地址、公民身份号码、签发机关、有效期限等多个文本行。基于初始文本图像确定的文本行图像也可以是多个,即分别对应于姓名、性别、出生、地址、公民身份号码、签发机关、有效期限等。
73.在本实施例中,服务器可以对各文本行图像中的文本内容的文本内容朝向进行识别判定,以确定各文本行图像对应的文本内容的文本内容朝向。
74.在本实施例中,服务器可以通过基于深度学习的神经网络模型,对文本行图像的文本内容朝向进行识别判定,以确定文本内容的朝向,例如,确定是正向的(0
°
朝向),或者是反向的(180
°
朝向)。其中,正向的(0
°
朝向)可以记为d1,反向的(180
°
朝向)可以记为d2。
75.步骤s210,基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。
76.在本实施例中,服务器在得到各文本行图像中文本内容的文本内容朝向之后,可以基于获取到的文本内容朝向以及对应的初始文本图像的预估朝向,确定初始文本图像的
文本图像朝向,例如,确定初始文本图像是正向的(0
°
朝向)、反向的(180
°
朝向)、顺时针90
°
方向或者是逆时针90
°
方向等,即分别对应于图3所示中(a)、(b)、(c)、(d)。
77.具体地,服务器可以通过统计基于初始文本图像得到的文本行图像中各文本内容朝向的数量以及初始文本图像的预估朝向,确定初始文本图像的文本图像朝向,或者,服务器也可以通过建立统计分析模型进行判定,以确定初始文本图像的文本图像朝向。
78.上述文本图像朝向识别方法中,通过获取待识别的初始文本图像,然后对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,并根据预估朝向,得到对应初始文本图像的各文本行图像,进一步确定各文本行图像中文本内容的文本内容朝向,并基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。从而,可以通奴工对初始文本图像的朝向进行预估,并基于预估朝向,确定对应初始文本图像的各文本行图像,然后确定各文本行图像中文本内容的朝向,以基于确定的预估朝向与文本内容的朝向确定初始文本内容的朝向,使得后续可以基于确定的初始文本的朝向,对初始文本图像进行旋转,得到正向的文本图像后再进行文本内容的识别,相比于传统方式中对任意朝向的文本图像进行识别,本技术方案可以提升后续文本内容识别的准确性。
79.在其中一个实施例中,对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,以及确定各文本行图像中文本内容的文本内容朝向,均通过预先训练的分类模型进行的。
80.其中,分类模型可以是两分类模型,可以包括但不限于是逻辑回归(logistic regression)、k最近邻(k
‑
nearest neighbors)、决策树(decision trees)、支持向量机(support vector machine)、朴素贝叶斯(naive bayes)等。
81.在本实施例中,服务器在进行原始文本图像的朝向预估以及进行文本行图像的文本内容朝向确定的时候,均可以通过分类模型进行。
82.在本实施例中,分类模型可以包括第一分类模型以及第二分类模型。
83.在本实施例中,对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,可以包括:将初始文本图像输入预先训练的第一分类模型中,确定初始文本图像的预估朝向。
84.在本实施例中,确定各文本行图像中文本内容的文本内容朝向,可以包括:将各文本行图像输入预先训练的分本行分类模型中,确定各文本行图像对应文本内容的文本内容朝向。
85.在本实施例中,服务器可以预先进行第一分类模型以及第二分类模型的训练,以得到训练完成的第一分类模型以及第二分类模型,然后基于训练后的分类模型,分别用于进行初始文本图像的朝向预估以及用于对各文本行图像进行文本内容朝向的预估。
86.在本实施例中,服务器将初始文本图像输入第一分类模型以及将文本行图像输入第二分类模型之前,还可以对获取到的初始文本图像以及文本行图像进行预处理。具体地,预处理过程可以包括尺寸的预处理以及图像亮度、对比度等的预处理等。
87.在本实施例中,通过先对图像进行预处理,然后在输入预先训练完成的分类模型中进行分类预估,可以提升预估的准确性,进而提升后续处理的准确性。
88.在本实施例中,服务器将初始文本图像输入第一分类模型之后,第一分类模型可以对输入的初始文本图像进行特征提取以及分类处理,以得到对应输入文本图像的预估结
果,即确定输入的初始文本图像的预估朝向,即为水平朝向或者是竖直朝向。
89.同理,服务器将文本行图像输入第二分类模型之后,第一分类模型可以对输入的各文本行图像进行特征提取以及分类处理,以得到对应各文本行图像的文本内容朝向,即确定文本内容是正向的(0
°
朝向)或者是反向的(180
°
朝向)。
90.在其中一个实施例中,分类模型的训练方式可以包括:获取初始训练数据集,初始训练数据集包括第一样本数据集;对第一样本数据集进行旋转处理,生成第二样本数据集;对初始训练数据集进行文本内容识别处理,生成第三样本数据集;对第三样本数据集进行旋转处理,得到第四样本数据集;通过第一样本数据集以及第二样本数据集对第一分类模型进行训练,得到训练后的第一分类模型;通过第三样本数据集以及第四样本数据集对第二分类模型进行训练,得到训练后的第二分类模型。
91.在本实施例中,服务器可以获取到一批正常朝向的文档图像,即0度朝向的图像,以得到初始训练数据集,即得到第一样本数据集。
92.进一步,服务器可以对正常朝向的文档图像分别进行左转90、右转90度、180度旋转得到左转90图像、右转90度图像和180度图像,得到第二样本数据集。
93.在本实施例中,为了保证分类模型的训练效果,服务器获取到的正常朝向的文档图像的数量不低于10万张。
94.进一步,服务器可以将左转90度图像和右转90度图像作为竖直朝向的样本,并记为c2。同理,服务器可以将0度朝向以及180度旋转图像作为水平朝向的样本,并记为c1。以此得到用于进行第一训练模型训练的训练数据集。
95.在本实施例中,服务器可以训练数据集输入预先构建的第一初始分类模型中,进行第一初始分类模型的训练。
96.具体地,服务器可以选取一个深度卷积神经网络(如resnet、mobilenet等)或传统监督学习方法(如支持矢量机svm等)作为第一初始分类模型,利用上述得到的训练数据集进行训练,得到一个二分类模型,即得到第一分类模型。
97.在本实施例中,服务器确定的深度神经网络作为第一初始分类模型时,服务器可以基于第一初始分类模型,对输入的训练数据集先进行预处理,如训练数据集中的各训练图像缩放到统一尺寸,如高224像素*宽224像素等,然后再输入到模型中。
98.进一步,服务器基于第一初始分类模型得到对应训练数据集的卷积特征后,再结合softmax实现二分类训练。
99.在本实施例中,当选取传统监督学习方法作为第一初始分类模型时,需要先对输入的训练数据集进行特征提取,如纹理特征、主成分分析(principal component analysis,pca)特征、滤波器特征、sift特征等,再将这些特征进行组合输入第一初始分类模型进行训练。
100.在本实施例中,第一分类模型与第二分类模型的训练是两个分别独立的过程,服务器在进行第一分类模型训练的时候,可以通过并行线程进行第二分类模型的训练。
101.具体地,服务器可以根据初始训练数据集,通过对初始训练集进行文字检测或文字渲染的方式,得到一定规模的文本行切片图像,作为0度文本行训练样本,即得到生成第三样本数据集。
102.具体地,服务器可以获取数量不低于10万张的文本行切片图像,并进行模型的训
练,以提升模型的效果。
103.进一步,服务器可以对第三样本数据集进行旋转处理,得到第四样本数据集,例如,服务器可以将0度文本行训练样本进行180度旋转后,得到180度文本行训练样本。
104.在本实施例中,服务器得到0度和180度文本行训练数据集后,可选取取一个深度卷积神经网络,如resnet、mobilenet等,或传统监督学习方法,如支持矢量机(support vector machine,svm)等,利用上述得到的训练样本进行训练,得到一个二分类模型。
105.具体地,模型可以对各训练样本进行特征提取,例如,纹理特征、主成分分析(principal component analysis,pca)特征、滤波器特征、sift特征等,然后基于提取的特征进行分类训练,以得到训练后的二分类模型。
106.在本实施例中,服务器还可以将获取到的训练样本分为训练样本集以及测试样本集,通过训练样本集进行训练,并通过测试样本集进行测试,并在测试通过后完成二分类模型的训练。
107.在本实施例中,服务器在进行训练的时候,可以设置训练参数,如设置迭代次数、学习率等,基于训练参数进行模型的训练,以得到训练完成的分类模型。
108.在其中一个实施例中,根据预估朝向,得到对应初始文本图像的各文本行图像,可以包括:当预估朝向指示初始文本图像与预设的目标朝向一致时,则将初始文本图像作为目标文本图像;当预估朝向指示初始文本图像与预设的目标朝向不一致时,则将初始文本图像旋转预设角度,得到对应目标朝向的目标文本图像;基于目标文本图像,得到对应的各文本行图像。
109.在本实施例中,服务器确定初始文本图像的预估朝向为水平朝向或者是竖直朝向之后,服务器可以基于确定的预估朝向以及预先设置的目标朝向,确定对应初始文本图像的目标文本图像。
110.具体地,预设的目标朝向可以是水平朝向。服务器在确定初始文本图像的预估朝向为水平朝向时,则服务器可以不对初始文本图像进行处理,将初始文本图像作为目标文本图像。当服务器确定初始文本图像的预估朝向为竖直朝向时,则服务器可以将初始文本图像旋转预设角度,例如,向左旋转(逆时针旋转)90
°
或者向右旋转(顺时针旋转)90
°
,以得到目标文本图像。
111.进一步,服务器可以对得到的目标文本图像进行文本行的识别以及提取,以生成对应目标文本行图像中各文本行的文本行图像。
112.在其中一个实施例中,基于目标文本图像,得到对应的各文本行图像,可以包括:确定目标文本图像中各文本行的尺寸信息;基于尺寸信息,从目标文本图像中提取出对应各文本行的各文本行图像。
113.在本实施例中,服务器在获取到目标文本图像之后,可以对目标文本图像中各文本行的尺寸信息进行识别,以确定各文本行的关键点位置信息以及各文本行的宽高信息等。
114.例如,服务器可以利用文字检测方法对目标文本图像中每行文字(即各文本行)进行检测定位,从而得到目标文本图像中每行文字区域的位置和大小,具体可以包括左上角点(x,y)和宽高(w,h)。本领域技术人员可以理解的是,此处仅为举例说明,在其他实施例中,关键点也可以是指各文本行的中心点、左下角点、右上角点或者右下角点等,本技术对
此不作限制。或者服务器获取到的尺寸信息也可以是左上角点和右下角点的坐标位置,或者右上角点和左下角点的坐标位置,从而基于获取到的两个角点坐标,确定各个文本行的宽高尺寸。
115.在本实施例中,服务器在得到目标文本图像中各文本行的尺寸信息后,可以进行文本行图像的裁减处理,以得到对应的各文本行图像。
116.在其中一个实施例中,服务器在得到各目标文本图像中各文本行的尺寸信息字后,还可以基于尺寸信息,对初始文本图像的预估朝向进行进一步的判定,或者对已确定的初始文本图像的预估朝向进行验证。
117.具体地,服务器可以基于尺寸信息,确定各文本行的宽高比例;当宽高比例满足预设比例要求时,确定文本行为竖向文本行;当宽高比例不满足预设比例要求时,确定文本行为水平文本行。
118.具体地,服务器可以预设宽高比例,然后基于预设的宽高比例,对各文本行进行判定,确定各文本行的类别。
119.在其中一个实施例中,服务器可以设定宽高比例为2/3,即w/h=2/3,当服务器基于尺寸信息,确定文本行的宽高比例满足预设比例要求,即确定w/h<2/3时,此时服务器可以确定文本行为竖直文本行;当服务器基于尺寸信息,确定文本行的宽高比例不满足预设比例要求,即确定w/h≥2/3时,则服务器可以确定文本行为水平文本行。
120.在本实施例中,服务器可以基于实际应用需求以及应用场景等,确定对宽高比例进行判定的预设比例要求,例如,可以是w/h=1,或者是其他比例等,本技术对此不作限制。
121.在本实施例中,服务器遍历各文本行,确定对应各文本行的宽高比例,并确定各文本行的文本行类型,即确定各文本行为水平文本行或者是竖直文本行之后,服务器可以对初始文本图像中水平文本行的数量以及竖向文本行的数量进行统计,并基于统计结果,确定初始文本图像的预估朝向。
122.在其中一个实施例中,服务器根据初始文本图像中水平文本行的数量以及竖向文本行的数量,确定初始文本图像的预估朝向,可以包括:当水平文本行的数量大于竖向文本行的数量时,则确定初始文本图像的预估朝向为水平朝向;当水平文本行的数量小于或等于竖向文本行的数量时,则确定初始文本图像的预估朝向为竖直朝向。
123.具体地,服务器确定初始文本图像中水平文本行的数量大于竖向文本行的数量的时候,服务器可以确定初始文本图像中大部分文本行为水平文本行,则确定初始文本图像的预估朝向为水平朝向。
124.同理,当服务器确定水平文本行的数量小于或等于竖向文本行的数量时,则服务器可以确定初始文本图像中大部分文本行为竖直文本行,则服务器可以确定初始文本图像的预估朝向为竖直朝向。
125.在本实施例中,当基于模型识别到的预估朝向与尺寸信息确定的预估朝向一致时,则确定预估朝向判定准确,当确定不一致时,服务器可以再次进行朝向的判定处理。
126.在其中一个实施例中,基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向,可以包括:基于各文本内容朝向,确定各文本内容朝向对应的文本行数量;根据各文本行数量以及预估朝向,确定初始文本图像的文本图像朝向。
127.在本实施例中,服务器在得到初始文本图像的粗分类结果,即确定预估朝向(c1或
c2),以及确定其中每个文本行的文本内容朝向(d1或d2)之后,可以通过集成方式,判别整个初始文本图像的朝向。
128.具体地,服务器可以统计该初始文本图像中文本内容朝向为d1(0
°
朝向)的文本行数量,记为m1,以及统计文本内容朝向为d2(180
°
朝向)的文本行数量,记为m2。
129.进一步,当初始文本图像的预估朝向为c2,即预估朝向为竖直朝向时,若m1>m2,即正向(0
°
朝向)d1的文本行数量m1大于反向(180
°
朝向)d2的文本行数量m2,则说明初始文本图像经过旋转预设角度后,其中大部分文本行为0
°
。例如,初始文本图像经过向左旋转(逆时针旋转)90
°
后,大部分文本行为0
°
,则说明原始文本图像实际为正向右转90
°
方向,即原始文本图像的朝向为对应于图3中(c)所示方向。
130.在本实施例中,当初始文本图像的预估朝向为c2,若m1≤m2,即正向(0
°
朝向)d1的文本行数量m1小于等于反向(180
°
朝向)d2的文本行数量m2,则说明初始文本图像经过旋转预设角度后,其中大部分文本行为180
°
,还是以向左旋转(逆时针旋转)90
°
为例,则说明原始文本图像实际为正向左转90
°
方向,即原始文本图像的朝向为对应于图3中(d)所示方向。
131.同理,当初始文本图像的预估朝向为c1,即预估朝向为水平朝向时,若m1>m2,且由于水平朝向c1的初始文本图像未经过预设角度的旋转,则说明原始文本图像中大部分文本行为0
°
,即该初始文本图像实际为正向方向,对应于图3中(a)所示方向。
132.进一步,当初始文本图像的预估朝向为c1,若m1≤m2,且由于水平朝向c1的初始文本图像未经过预设角度的旋转,则说明原始文本图像中大部分文本行为180
°
,即该初始文本图像实际为反向方向,对应于图3中(b)所示方向。
133.在一个实施例中,如图4所示,提供了一种文本内容识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:
134.步骤s402,通过文本图像朝向识别方法确定待识别的初始文本图像的文本图像朝向。
135.具体地,服务器在获取到初始文本图像之后,可以通过前文所述的文本图像朝向识别方法确定初始文本图像的文本图像朝向,具体参见前文所述,此处不再赘述。
136.步骤s404,基于文本图像朝向,确定对应初始文本图像的正向图像。
137.其中,正向图像是指文本图像朝向为0
°
方向的图像,即图3中(a)所示方向。
138.在本实施例中,服务器在确定初始文本图像的文本图像朝向,可以对初始文本图像进行旋转处理,以得到对应初始文本图像的正向图像。例如,若初始文本图像为正向图像,即对应图3中(a),则服务器可以不作处理,即可得到正向图像;若初始文本图像为反向图像,即对应图3中(b),则服务器可以对初始文本图像向左或向右旋转180
°
,以得到正向图像;若初始文本图像为向右旋转(顺时针转转)90
°
的图像,即对应图3中(c),则服务器可以对初始文本图像向左旋转(逆时针旋转)90
°
或者向右旋转(顺时针旋转)270
°
,以得到正向图像;同理,若初始文本图像为向左旋转(逆时针转转)90
°
的图像,即对应图3中(d),则服务器可以对初始文本图像向右旋转(顺时针旋转)90
°
或者向左旋转(逆时针旋转)270
°
,以得到正向图像。
139.步骤s406,对正向图像中的待识别文本进行文本识别,得到初始文本图像中待识别文本的识别结果。
140.进一步,服务器可以对得到正向图像进行文本识别,例如,通过ocr识别等,以得到
初始文本图像中待识别文本的识别结果。
141.上述实施例中,通过确定初始文本图像的文本图像朝向,然后确定正向图像,并对正向图像进行文本内容的识别,相比于传统方式中进行文本内容的识别,本技术方案进行识别的图像为正向图像,可以提升识别的准确性,减小出错的概率,进而可以提升图像识别效率。
142.应该理解的是,虽然图2和图4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2和图4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
143.在一个实施例中,如图5所示,提供了一种文本图像朝向识别装置,包括:初始文本图像获取模块501、预估模块502、文本行图像确定模块503、文本内容朝向确定模块504以及文本图像朝向确定模块505,其中:
144.初始文本图像获取模块501,用于获取待识别的初始文本图像。
145.预估模块502,用于对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向。
146.文本行图像确定模块503,用于根据预估朝向,得到对应初始文本图像的各文本行图像。
147.文本内容朝向确定模块504,用于确定各文本行图像中文本内容的文本内容朝向。
148.文本图像朝向确定模块505,用于基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。
149.在其中一个实施例中,对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,以及确定各文本行图像中文本内容的文本内容朝向,均可以通过预先训练的分类模型进行的,分类模型可以包括第一分类模型以及第二分类模型。
150.在本实施例中,预估模块502用于将初始文本图像输入预先训练的第一分类模型中,确定初始文本图像的预估朝向。
151.在本实施例中,文本内容朝向确定模块504将各文本行图像输入预先训练的分本行分类模型中,确定各文本行图像对应文本内容的文本内容朝向。
152.在其中一个实施例中,上述装置还可以包括:
153.模型训练模块,用于进行分类模型的训练。
154.在本实施例中,模型训练模块可以包括:
155.获取子模块,用于获取初始训练数据集,初始训练数据集包括第一样本数据集。
156.第一旋转处理子模块,用于对第一样本数据集进行旋转处理,生成第二样本数据集。
157.识别处理子模块,用于对初始训练数据集进行文本内容识别处理,生成第三样本数据集。
158.第二旋转处理子模块,用于对第三样本数据集进行旋转处理,得到第四样本数据
集。
159.第一训练子模块,用于通过第一样本数据集以及第二样本数据集对第一分类模型进行训练,得到训练后的第一分类模型。
160.第二训练子模块,用于通过第三样本数据集以及第四样本数据集对第二分类模型进行训练,得到训练后的第二分类模型。
161.在其中一个实施例中,文本行图像确定模块503,可以包括:
162.第一目标文本图像确定子模块,用于当预估朝向指示初始文本图像与预设的目标朝向一致时,则将初始文本图像作为目标文本图像。
163.第二目标文本图像确定子模块,用于当预估朝向指示初始文本图像与预设的目标朝向不一致时,则将初始文本图像旋转预设角度,得到对应目标朝向的目标文本图像。
164.文本行图像生成子模块,用于基于目标文本图像,得到对应的各文本行图像。在其中一个实施例中,文本图像朝向确定模块505,可以包括:
165.文本行数量确定子模块,用于基于各文本内容朝向,确定各文本内容朝向对应的文本行数量。
166.文本图像朝向确定子模块,用于根据各文本行数量以及预估朝向,确定初始文本图像的文本图像朝向。
167.在一个实施例中,如图6所示,提供了一种文本内容识别装置,包括:文本图像朝向确定模块601、正向图像确定模块602以及识别模块603,其中:
168.文本图像朝向确定模块601,用于通过文本图像朝向识别装置确定待识别的初始文本图像的文本图像朝向。
169.正向图像确定模块602,用于基于文本图像朝向,确定对应初始文本图像的正向图像。
170.识别模块603,用于对正向图像中的待识别文本进行文本识别,得到初始文本图像中待识别文本的识别结果。
171.关于文本图像朝向识别装置以及文本内容识别装置的具体限定可以参见上文中对于文本图像朝向识别方法以及文本内容识别方法的限定,在此不再赘述。上述文本图像朝向识别装置以及文本内容识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
172.在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储初始文本图像、目标文本图像、文本内容朝向等数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本图像朝向识别方法和/或一种文本内容识别方法。
173.本领域技术人员可以理解,图7中示出的结构,仅仅是与本技术方案相关的部分结
构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
174.在一个实施例中,提供了一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:获取待识别的初始文本图像;对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向;根据预估朝向,确定对应初始文本图像的各文本行图像;确定各文本行图像中文本内容的文本内容朝向;基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。
175.在其中一个实施例中,处理器执行计算机程序时实现对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,以及确定各文本行图像中文本内容的文本内容朝向,均通过预先训练的分类模型进行的,分类模型包括第一分类模型以及第二分类模型。
176.在本实施例中,处理器执行计算机程序时实现对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,可以包括:将初始文本图像输入预先训练的第一分类模型中,确定初始文本图像的预估朝向。
177.在本实施例中,处理器执行计算机程序时实现确定各文本行图像中文本内容的文本内容朝向,可以包括:将各文本行图像输入预先训练的分本行分类模型中,确定各文本行图像对应文本内容的文本内容朝向。
178.在其中一个实施例中,处理器执行计算机程序时实现分类模型的训练方式可以包括:获取初始训练数据集,初始训练数据集包括第一样本数据集;对第一样本数据集进行旋转处理,生成第二样本数据集;对初始训练数据集进行文本内容识别处理,生成第三样本数据集;对第三样本数据集进行旋转处理,得到第四样本数据集;通过第一样本数据集以及第二样本数据集对第一分类模型进行训练,得到训练后的第一分类模型;通过第三样本数据集以及第四样本数据集对第二分类模型进行训练,得到训练后的第二分类模型。
179.在其中一个实施例中,处理器执行计算机程序时实现根据预估朝向,确定对应初始文本图像的各文本行图像,可以包括:当预估朝向指示初始文本图像与预设的目标朝向一致时,则将初始文本图像作为目标文本图像;当预估朝向指示初始文本图像与预设的目标朝向不一致时,则将初始文本图像旋转预设角度,得到对应目标朝向的目标文本图像;基于目标文本图像,得到对应的各文本行图像。
180.在其中一个实施例中,处理器执行计算机程序时实现基于目标文本图像,得到对应的各文本行图像,可以包括:确定目标文本图像中各文本行的尺寸信息;基于尺寸信息,从目标文本图像中提取出对应各文本行的各文本行图像。
181.在其中一个实施例中,处理器执行计算机程序时实现基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向,可以包括:基于目标文本图像中各文本内容朝向,确定各文本内容朝向对应的文本行数量;根据各文本行数量以及预估朝向,确定初始文本图像的文本图像朝向。
182.在一个实施例中,提供了另一种计算机设备,包括存储器和处理器,该存储器存储有计算机程序,该处理器执行计算机程序时实现以下步骤:通过上述任一实施例的文本图像朝向识别方法确定待识别的初始文本图像的文本图像朝向;基于文本图像朝向,确定对应初始文本图像的正向图像;对正向图像中的待识别文本进行文本识别,得到初始文本图像中待识别文本的识别结果。
183.在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:获取待识别的初始文本图像;对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向;根据预估朝向,确定对应初始文本图像的各文本行图像;确定各文本行图像中文本内容的文本内容朝向;基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向。
184.在其中一个实施例中,计算机程序被处理器执行时实现对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,以及确定各文本行图像中文本内容的文本内容朝向,均通过预先训练的分类模型进行的,分类模型包括第一分类模型以及第二分类模型。
185.在本实施例中,计算机程序被处理器执行时实现对初始文本图像的朝向进行预估,确定初始文本图像的预估朝向,可以包括:将初始文本图像输入预先训练的第一分类模型中,确定初始文本图像的预估朝向。
186.在本实施例中,计算机程序被处理器执行时实现确定各文本行图像中文本内容的文本内容朝向,可以包括:将各文本行图像输入预先训练的分本行分类模型中,确定各文本行图像对应文本内容的文本内容朝向。
187.在其中一个实施例中,计算机程序被处理器执行时实现分类模型的训练方式可以包括:获取初始训练数据集,初始训练数据集包括第一样本数据集;对第一样本数据集进行旋转处理,生成第二样本数据集;对初始训练数据集进行文本内容识别处理,生成第三样本数据集;对第三样本数据集进行旋转处理,得到第四样本数据集;通过第一样本数据集以及第二样本数据集对第一分类模型进行训练,得到训练后的第一分类模型;通过第三样本数据集以及第四样本数据集对第二分类模型进行训练,得到训练后的第二分类模型。
188.在其中一个实施例中,计算机程序被处理器执行时实现根据预估朝向,确定对应初始文本图像的各文本行图像,可以包括:当预估朝向指示初始文本图像与预设的目标朝向一致时,则将初始文本图像作为目标文本图像;当预估朝向指示初始文本图像与预设的目标朝向不一致时,则将初始文本图像旋转预设角度,得到对应目标朝向的目标文本图像;基于目标文本图像,得到对应的各文本行图像。
189.在其中一个实施例中,计算机程序被处理器执行时实现基于目标文本图像,得到对应的各文本行图像,可以包括:确定目标文本图像中各文本行的尺寸信息;基于尺寸信息,从目标文本图像中提取出对应各文本行的各文本行图像。
190.在其中一个实施例中,计算机程序被处理器执行时实现基于各文本内容朝向以及预估朝向,确定初始文本图像的文本图像朝向,可以包括:基于目标文本图像中各文本内容朝向,确定各文本内容朝向对应的文本行数量;根据各文本行数量以及预估朝向,确定初始文本图像的文本图像朝向。
191.在一个实施例中,提供了另一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:通过上述任一实施例的文本图像朝向识别方法确定待识别的初始文本图像的文本图像朝向;基于文本图像朝向,确定对应初始文本图像的正向图像;对正向图像中的待识别文本进行文本识别,得到初始文本图像中待识别文本的识别结果。
192.本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机
可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
193.以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
194.以上所述实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以做出若干变形和改进,这些都属于本技术的保护范围。因此,本技术专利的保护范围应以所附权利要求为准。