图片处理方法和装置与流程

文档序号:12468570阅读:306来源:国知局
图片处理方法和装置与流程

本发明涉及图片处理技术领域,尤其涉及一种图片处理方法和装置。



背景技术:

光学字符识别(Optical Character Recognition,OCR)是指通过图像处理和模式识别技术对光学字符进行识别,并将光学字符翻译成计算机文字的过程。通过OCR技术进行光学字符识别的图片通常被称为OCR图片。

为了能够提高OCR识别结果的准确率,在进行OCR识别之前,通常要对图片进行预处理。预处理方式的选择直接影响OCR的识别结果。在同样的识别算法下,预处理方式越合适,OCR识别结果的准确率也越高。

现有的OCR图片预处理技术,是对所有图片均采用相同的预处理方式。然而,对于不同的图片,可能一部分图片经某一预处理方式处理后,会使OCR识别结果的准确率提高;而另一部分图片经同样的预处理方式处理后,可能会使OCR识别结果的准确率降低。因此,现有的OCR图片预处理技术忽视了不同图片特征对预处理方式的适用性,难以保证OCR识别结果的准确率。



技术实现要素:

本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的第一个目的在于提出一种图片处理方法,该方法通过多个预测模型,从多个预处理方式中,选取最佳组合的预处理方式对图片进行预处理,从而提高了OCR识别结果的准确率。

本发明的第二个目的在于提出一种图片处理装置。

为了实现上述目的,本发明第一方面实施例提出了一种图片处理方法,包括:获取输入的图片;提取图片的特征;将特征依次输入至多个预测模型中,并根据预测模型判断是否采用与预测模型相对应的预处理方式;如果采用与预测模型相对应的预处理方式,则在对图片进行预处理后,对图片进行OCR识别。

本发明实施例的图片处理方法,通过将图片的特征依次输入多个预测模型中,判读是否采用与预测模型相对应的预处理方式,如果采用与预测模型相对应的预处理方式,则在对图片进行预处理后,对图片进行OCR识别。该方法通过多个预测模型,从多个预处理方式中,选取最佳组合的预处理方式对图片进行预处理,从而提高了OCR识别结果的准确率。

为达上述目的,本发明第二方面实施例提出了一种图片处理装置,包括:获取模块,用于获取输入的图片;提取模块,用于提取图片的特征;判断模块,用于将特征依次输入至多个预测模型中,并根据预测模型判断是否采用与预测模型相对应的预处理方式;处理模块,用于如果采用与预测模型相对应的预处理方式,则在对图片进行预处理后,对图片进行OCR识别。

本发明实施例的图片处理装置,通过将图片的特征依次输入多个预测模型中,判读是否采用与预测模型相对应的预处理方式,如果采用与预测模型相对应的预处理方式,则在对图片进行预处理后,对图片进行OCR识别。该装置通过多个预测模型,从多个预处理方式中,选取最佳组合的预处理方式对图片进行预处理,从而提高了OCR识别结果的准确率。

本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

图1是根据本发明一个实施例的图片处理方法的流程图;

图2是根据本发明一个实施例的训练预测模型的方法的流程图;

图3是根据本发明一个实施例的图片处理装置的结构示意图;

图4是根据本发明一个具体实施例的图片处理装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参考附图描述本发明实施例的图片处理方法和装置。

图1是根据本发明一个实施例的图片处理方法的流程图。

如图1所示,该图片处理方法包括:

S101,获取输入的图片。

具体地,获取需要进行OCR识别的图片。例如,用户在图书馆阅览书籍时,发现某页的内容自己比较喜欢,用手机拍下了该页,并想通过OCR获取图片中的文字并进行编辑。因而,用户拍下的这张照片可以作为输入的图片。

S102,提取图片的特征。

具体地,在获取输入图片后,提取图片的特征。其中,图片的特征包括形态学特征和纹理特征。

其中,形态学特征包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度中的一种或多种。纹理特征包括梯度优势、灰度分布、梯度分布、灰度平均、梯度平均、灰度均方差、梯度均方差中的一种或多种。

S103,将特征依次输入至多个预测模型中,并根据预测模型判断是否采用与预测模型相对应的预处理方式。

其中,预测模型用于判断是否采用与预测模型相对应的预处理方式。其中,预处理方式可包括方向校正、梯形校正、除模糊处理、去除白噪音、锐化、调整对比度和阴影与亮度处理等。

需要理解的是,在本发明的实施例中,预测模型与预处理方式相对应。也就是说,每个预处理方式都有一个相对应的预测模型。例如,方向校正预处理方式有一个相对应的方向校正预测模型。其中,方向校正预测模型用于判断是否对图片采用方向校正预处理,以对图片的方向进行校正。

具体地,将提取的特征依次输入至多个预测模型中,并根据预测模型判断是否采用与预测模型相对应的预处理方式。

举例而言,可将提取的图片的特征依次输入至方向校正预测模型、梯形校正预测模型、除模糊处理预测模型、去除白噪音预测模型、锐化预测模型、调整对比度预测模型和阴影与亮度处理预测模型。通过这些预测模型判断是否对图片采用,与预测模型相对应的方向校正预处理、梯形校正预处理、除模糊处理、去除白噪音预处理、锐化处理、调整对比度预处理和阴影与亮度处理。也就是说,通过预测模型判断出最佳的预处理组合方式。

需要说明的是,对于图片特征依次输入至预测模型的顺序,可根据实际需要进行设置,在此不作限定。

此外,在将图片的特征输入至预测模型中之前,可对预测模型进行训练。预测模型的训练过程,如图2所示,训练步骤如下:

S201,获取图片样本。

具体地,获取大量的、可用于OCR识别的图片样本。

S202,对图片样本采取相应的预处理方式,以获得图片样本的预处理结果。

获取图片样本后,对图片样本采取相应的预处理方式,以获得图片样本的预处理结果。其中,预处理方式可包括但不限于,方向校正、梯形校正、除模糊处理、去除白噪音、锐化、调整对比度和阴影与亮度处理等。

S203,分别对图片样本和预处理后的图片样本进行OCR分析,以获得第一结果和第二结果。

在获取图片样本的预处理结果后,分别对图片样本和相应的预处理后的图片样本进行OCR分析,以获得第一结果和第二结果。其中,第一结果是对图片样本进行OCR分析获得的结果,第二结果是对预处理后的图片样本进行OCR分析获得的结果。例如,在训练方向校正预测模型时,第一结果是对图片样本直接进行OCR分析获得的结果,第二结果是对经过方向校正预处理后的图片,进行OCR分析获得的结果。

S204,比较第一结果和第二结果,判断是否对图片样本进行标注。

具体地,比较第一结果和第二结果。当第一结果优于第二结果时,标注图片样本不采用该预处理方式。当第二结果优于第一结果时,标注图片样本采用该预处理方式。也就是说,当不采用该预处理方式的OCR分析结果优于采用该处理方式的OCR分析结果时,标注图片样本不采用该预处理方式;当采用该处理方式的OCR分析结果优于不采用该预处理方式的OCR分析结果时,标注图片样本采用该预处理方式。

S205,将标注后的图片样本输入至预测模型,以对预测模型进行训练。

将标注后的图片样本输入至,与预处理方式相对应的初始预测模型中,采用机器学习的方式,基于逻辑回归或随机森林对初始预测模型进行训练。

进一步地,为了提高预测模型判断结果的准确率,可以对训练出的预测模型进行验证优化。具体地,可将获取的图片样本分为两部分,例如按80%和20%的比例将图片样本分为两部分,80%的图片样本用于训练预测模型,20%的图片样本用于验证优化训练出的预测模型。从而,通过验证并优化预测模型,提高预测模型判断结果的准确率。

需要说明的是,用于训练预测模型的图片样本,和用于验证优化预测模型的图片样本的分配比例,可根据实际需要进行设定,在此不作限定。

S104,如果采用与预测模型相对应的预处理方式,则在对图片进行预处理后,对图片进行OCR识别。

具体地,将图片的特征依次输入至多个预测模型后,如果判断采用与预测模型相对应的预处理方式,则对图片进行相对应的预处理。进而,对预处理后的图片进行OCR识别。

作为一个示例,将提取的某张图片的特征依次输入至方向校正预测模型、梯形校正预测模型、除模糊处理预测模型、去除白噪音预测模型、锐化预测模型、调整对比度预测模型和阴影与亮度处理预测模型等七个预测模型中。假设七个预测模型的判断结果依次是,对图片采用方向校正处理、不采用梯形校正处理、采用除模糊处理、采用去除白噪音处理、不采用锐化处理、不采用调整对比度处理和采用阴影与亮度处理。也就是说,可对该图片采用方向校正处理、除模糊处理、去除白噪音处理、阴影与亮度处理四种预处理方式。因此,根据判断结果对该图片进行方向校正处理、除模糊处理、去除白噪音处理、阴影与亮度处理四种预处理方式。在对图片进行预处理后,对图片进行OCR识别。

需要说明的是,如果预测模型判断出可对图片采用多种预处理方式,则在对图片进行多种方式的预处理时,预处理的顺序可根据实际需要进行设置,在此不作限定。

因此,通过多个预测模型选出最佳的预处理组合方式后,根据选出的预处理方式对图片进行预处理。从而,提高了OCR识别结果的准确率。

综上所述,本发明实施例的图片处理方法,通过将图片的特征依次输入多个预测模型中,判读是否采用与预测模型相对应的预处理方式,如果采用与预测模型相对应的预处理方式,在对图片进行预处理后,对图片进行OCR识别。该方法通过多个预测模型,选取最佳组合的预处理方式对图片进行预处理,从而提高了OCR识别结果的准确率。

下面结合图3对本发明实施例提出的图片处理装置进行详细描述。图3是根据本发明一个实施例的图片处理装置的结构示意图。

如图3所示,该图片处理装置可包括:获取模块310、提取模块320、判断模块330、处理模块340。

获取模块310,用于获取输入的图片。

具体地,获取模块310获取需要进行OCR识别的图片。例如,用户在图书馆阅览书籍时,发现某页的内容自己比较喜欢,用手机拍下了该页,并想通过OCR获取图片中的文字并进行编辑。因而,用户拍下的这张照片可以作为输入的图片。

提取模块320,用于提取图片的特征。

具体地,在获取模块310获取输入图片后,提取模块320提取图片的特征。其中,图片的特征包括形态学特征和纹理特征。

其中,形态学特征包括纵横轴比、面税凹凸比、周长凹凸比、球状性、偏心率、图片旋转角度中的一种或多种。纹理特征包括梯度优势、灰度分布、梯度分布、灰度平均、梯度平均、灰度均方差、梯度均方差中的一种或多种。

判断模块330,用于将特征依次输入至多个预测模型中,并根据预测模型判断是否采用与预测模型相对应的预处理方式。

其中,预测模型用于判断是否采用与预测模型相对应的预处理方式。其中,预处理方式可包括方向校正、梯形校正、除模糊处理、去除白噪音、锐化、调整对比度和阴影与亮度处理等。

需要理解的是,在本发明的实施例中,预测模型与预处理方式相对应。也就是说,每个预处理方式都有一个相对应的预测模型。例如,方向校正预处理方式有一个相对应的方向校正预测模型。其中,方向校正预测模型用于判断是否对图片采用方向校正预处理,以对图片的方向进行校正。

具体地,判断模块330用于将提取的特征依次输入至多个预测模型中,并根据预测模型判断是否采用与预测模型相对应的预处理方式。

举例而言,可将提取的图片的特征依次输入至方向校正预测模型、梯形校正预测模型、除模糊处理预测模型、去除白噪音预测模型、锐化预测模型、调整对比度预测模型和阴影与亮度处理预测模型。判断模块330用于通过这些预测模型判断是否对图片采用,与预测模型相对应的方向校正预处理、梯形校正预处理、除模糊处理、去除白噪音预处理、锐化处理、调整对比度预处理和阴影与亮度处理。也就是说,通过预测模型判断出最佳的预处理组合方式。

需要说明的是,对于图片特征依次输入至预测模型的顺序,可根据实际需要进行设置,在此不作限定。

此外,如图4所示,在将图片的特征输入至预测模型中之前,可通过训练模块350对预测模型进行训练。其中,训练模块350包括:获取单元351、预处理单元352、分析单元353、标注单元354、训练单元355。

获取单元351,用于获取图片样本。

预处理单元352,用于对图片样本采取相应的预处理方式,以获得图片样本的预处理结果。

分析单元353,用于分别对图片样本和预处理结果进行OCR分析,以获得第一结果和第二结果。

标注单元354,用于当第一结果优于第二结果时,则标注图片样本不采用预处理方式,以及当第二结果优于第一结果时,则标注图片样本采用预处理方式;

训练单元355,用于将标注后的图片样本输入至预测模型,以对预测模型进行训练。

预测模型的训练过程如图2所示,步骤如下:

S201,获取图片样本。

具体地,获取单元251获取大量的、可用于OCR识别的图片样本。

S202,对图片样本采取相应的预处理方式,以获得图片样本的预处理结果。

获取图片样本后,预处理单元352对图片样本采取相应的预处理方式,以获得图片样本的预处理结果。其中,预处理方式可包括但不限于,方向校正、梯形校正、除模糊处理、去除白噪音、锐化、调整对比度和阴影与亮度处理等。

S203,分别对图片样本和预处理后的图片样本进行OCR分析,以获得第一结果和第二结果。

在获取图片样本的预处理结果后,分析单元353分别对图片样本和预处理后的图片样本进行OCR分析,以获得第一结果和第二结果。其中,第一结果是对图片样本进行OCR分析获得的结果,第二结果是对预处理后的图片样本进行OCR分析获得的结果。例如,在训练方向校正预测模型时,第一结果是对图片样本直接进行OCR分析获得的结果,第二结果是对经过方向校正预处理后的图片,进行OCR分析获得的结果。

S204,比较第一结果和第二结果,判断是否对图片样本进行标注。

具体地,比较第一结果和第二结果。当第一结果优于第二结果时,标注单元354标注图片样本不采用该预处理方式。当第二结果优于第一结果时,标注单元354标注图片样本采用该预处理方式。也就是说,当不采用该预处理方式的OCR分析结果优于采用该处理方式的OCR分析结果时,标注单元354标注图片样本不采用该预处理方式;当采用该处理方式的OCR分析结果优于不采用该预处理方式的OCR分析结果时,标注单元354标注图片样本采用该预处理方式。

S205,将标注后的图片样本输入至预测模型,以对预测模型进行训练。

将标注后的图片样本输入至,与预处理方式相对应的初始预测模型中,训练单元355可采用机器学习的方式,基于逻辑回归或随机森林对初始预测模型进行训练。

进一步地,为了提高预测模型判断结果的准确率,可以对训练出的预测模型进行验证优化。具体地,可将获取的图片样本分为两部分,例如按80%和20%的比例将图片样本分为两部分,80%的图片样本用于训练预测模型,20%的图片样本用于验证优化训练出的预测模型。从而,通过验证并优化预测模型,提高预测模型判断结果的准确率。

需要说明的是,用于训练预测模型的图片样本,和用于验证优化预测模型的图片样本的分配比例,可根据实际需要进行设定,在此不作限定。

处理模块340,用于如果采用与预测模型相对应的预处理方式,则在对图片进行预处理后,对图片进行OCR识别。

具体地,将图片的特征依次输入至多个预测模型后,处理模块340用于如果判断采用与预测模型相对应的预处理方式,则对图片进行相对应的预处理。进而,对预处理后的图片进行OCR识别。

作为一个示例,将提取的某张图片的特征依次输入至方向校正预测模型、梯形校正预测模型、除模糊处理预测模型、去除白噪音预测模型、锐化预测模型、调整对比度预测模型和阴影与亮度处理预测模型等七个预测模型中。假设七个预测模型的判断结果依次是,对图片采用方向校正处理、不采用梯形校正处理、采用除模糊处理、采用去除白噪音处理、不采用锐化处理、不采用调整对比度处理和采用阴影与亮度处理。也就是说,处理模块340可对该图片采用方向校正处理、除模糊处理、去除白噪音处理、阴影与亮度处理四种预处理方式。因此,处理模块340根据判断结果对该图片进行方向校正处理、除模糊处理、去除白噪音处理、阴影与亮度处理四种预处理方式。处理模块340在对图片进行预处理后,对图片进行OCR识别。

需要说明的是,如果预测模型判断出可对图片采用多种预处理方式,则在对图片进行多种方式的预处理时,预处理的顺序可根据实际需要进行设置,在此不作限定。

因此,通过多个预测模型选出最佳的预处理组合方式后,根据选出的预处理方式对图片进行预处理。从而,提高了OCR识别结果的准确率。

综上所述,本发明实施例的图片处理装置,通过将图片的特征依次输入多个预测模型中,判读是否采用与预测模型相对应的预处理方式,如果采用与预测模型相对应的预处理方式,在对图片进行预处理后,对图片进行OCR识别。该装置通过多个预测模型,从多个预处理方式中,选取最佳组合的预处理方式对图片进行预处理,从而提高了OCR识别结果的准确率。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。

在本说明书的描述中,参考术语:“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1