电力设备铭牌图像的文本检测方法及装置与流程

文档序号:20353007发布日期:2020-04-10 23:08阅读:289来源:国知局
电力设备铭牌图像的文本检测方法及装置与流程

本申请涉及图像识别领域,特别涉及一种电力设备铭牌图像的文本检测方法及装置。



背景技术:

电力系统设备的稳定运行关系着人民生活和生产活动,保证电力系统安全运行是行业的首要任务,对于电力设备的管理尤为重要。

随着我国电网规模日益发展,电力设备的种类与数量也越来越多;对于电力设备的管理也日趋复杂。目前对电力设备管理中,需要人工手动抄录设备铭牌信息,从而实现对电力设备信息的采集、统计,并记录在电力系统设备台账,存在效率低、准确性差、易出现信息记录不完全等问题,给电力设备的管理工作带来极大困难。实现电力设备铭牌文本的自动采集提取,对提高电力系统设备管理水平与自动化水平具有重要意义,而铭牌文本的自动精准检测,是实现铭牌文本自动采集的关键难题。



技术实现要素:

本申请实施例提供了一种电力设备铭牌图像的文本检测方及装置,以解决现有技术对电力设备信息采集提取工作中存在的易出错、效率低的问题。

第一方面,本申请实施例提供了一种电力设备铭牌图像的文本检测方法,包括:

获取输入图像;

利用深度学习算法及边缘检测算法,对所述输入图像中的铭牌进行定位提取;

通过透视变换对定位提取图像进行形变矫正,得到矫正后的铭牌图像;

利用深度学习文本检测算法,对矫正后的铭牌图像自动进行文本检测,得到铭牌文本检测结果。

第二方面,本申请实施例提供了一种电力设备铭牌图像的文本检测装置,该装置包括:

获取模块,用于获取输入图像;

定位模块,用于利用深度学习算法及边缘检测算法,对所述输入图像中的铭牌进行定位提取;

矫正模块,用于通过透视变换对定位提取图像进行形变矫正,得到矫正后的铭牌图像;

文本检测模块,用于利用深度学习文本检测算法,对矫正后的铭牌图像自动进行文本检测,得到铭牌文本检测结果。

由以上技术方案可知,本申请实施例的方案,通过深度学习算法实现对电力设备铭牌图像定位提取,并进行矫正,智能地实现了电力设备铭牌图像的有效提取,进而通过深度学习文本检测方法,对矫正后的铭牌图像自动进行文本检测,高效且精准的得到了铭牌文本检测结果,解决了电力设备信息的自动采集中的关键难题,提高了电力设备信息采集的效率及精准度。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种电力设备铭牌图像的文本检测方法流程图;

图2为本申请实施例中根据预测的文本候选框得到铭牌文本检测结果的方法流程图;

图3为本申请实施例提供一种电力设备铭牌图像的文本检测方法步骤s2的流程图;

图4为本申请实施例中实现步骤s2中铭牌图像定位的网络的结构示意图;

图5本申请实施例提供的一种电力设备铭牌图像的文本检测装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

图1为本申请实施例提供的一种电力设备铭牌图像的文本检测方法流程图。本实施例的方法可以由具备较强计算能力的设备执行,例如服务器、终端设备等,如图所示,该方法包括以下步骤:

步骤s1:获取输入图像;

设置于电力设备表面的铭牌记录了设备型号、参数、生产厂家等丰富的信息,所述输入图像为包含电力设备铭牌图像的图像,具体可以由巡检人员对电力设备拍摄所得,也可以通过监控设备远程对电力设备拍摄所得。

步骤s2:利用深度学习算法及边缘检测算法,对所述输入图像中的铭牌进行定位提取;

本实施例中,深度学习算法对应模型对大量铭牌图像学习训练,对所述输入图像中存在的铭牌进行区域定位。

步骤s3:通过透视变换对定位提取图像进行形变矫正,得到矫正后的铭牌图像;

步骤s4:利用深度学习文本检测算法,对矫正后的铭牌图像自动进行文本检测,得到铭牌文本检测结果。

这里的文本检测结果,具体可以为通过文本检测得到的铭牌中的文本区域,进一步通过文字识别来识别出文本区域内的文字,作为采集到的电力设备信息;也可以是根据检测到的文本区域提取出的文本图像,进而将提取出的文本图像作为采集到的设备信息。

本实施例提供的方法中,通过深度学习算法实现对电力设备铭牌图像定位提取,并进行矫正,智能地实现了电力设备铭牌图像的有效提取,进而通过深度学习文本检测方法,对矫正后的铭牌图像自动进行文本检测,高效且精准的得到了铭牌文本检测结果,解决了电力设备信息的自动采集中的关键难题,提高了电力设备信息采集的效率及精准度。

优选地,为提高文本检测精度及效率,在本申请实施例中,上述步骤s4中利用深度学习文本检测算法,对矫正后的铭牌图像自动进行文本检测,得到铭牌文本检测结果,具体可以包括以下步骤401~402:

步骤401:利用深度学习文本检测算法对所述铭牌图像中的文本进行初步检测,预测得到多个文本候选框;

所述深度学习文本检测算法可以为east、ctpn、yolo中的任一种。生成的每个文本候选框都包含4个坐标和一个置信度值,置信度取值区间为0~1,置信度越高,表明候选框中包含文本的概率越高。优选地,在本实施例中,利用深度学习文本检测算法east对铭牌图像中的文本进行初步检测,预测出大量文本候选框。

步骤402:根据各文本候选框对应的置信度及坐标信息,对预测得到的文本候选框进行处理得到所述铭牌文本检测结果。

进一步地,为进一步提高文本检测的精准度及鲁棒性,降低漏检率,本申请实施例中在深度学习方法的基础上,结合传统模式识别方法来检测铭牌文本,对应地,参见图2,步骤402中所述根据各文本候选框对应的置信度及坐标信息,对预测得到的文本候选框进行处理得到所述铭牌文本检测结果,具体包括以下步骤402-1~步骤402-3:

步骤402-1:筛选置信度高于预设阈值的文本候选框,对筛选出的文本候选框进行非极大抑制处理,并对同一文本行的邻近文本候选框进行合并,得到第一合并结果;

对于置信度高于阈值的文本候选框进行非极大抑制处理,去除重叠、多余的文本候选框,同时对同一文本行的邻近候选框进行合并。此处的预设阈值为根据实际文本检测效果人为设置的经验值,取值区间为0~1。本领域技术人员可以在本申请实施例公开的技术思路下,通过多次的验证对比选择出合适的预设阈值,本申请实施例中对预设阈值的取值不做具体限定。

步骤402-2:对于置信度低于所述预设阈值的文本候选框:提取文本候选框区域的笔画宽度特征,根据提取的笔画宽度特征,确认包含文字的文本侯选框;

上述步骤402-1与步骤402-2先后顺序任意,也可以同步进行。

该步骤中利用传统模式识别方法确认各文本候选框是否包含文字,确认出包含文字的文本候选框。

步骤402-3:将确认包含文字的文本侯选框与所述第一合并结果合并,得到所述铭牌文本检测结果。

此处,对检测出的具有较低置信度的文本候选框,利用手动提取特征的方法,进一步判断是否包含文本,具体的,利用笔画宽度变换算法提取出文本候选框中的文本连通域,若文本连通域占候选区面积的比例超过一定阈值且连通域高和宽占比满足一定的条件,则认为候选区中包含文本,否则判定为背景。若判断包含文本,则与合并后的高置信度文本框进行二次合并,否则丢弃,生成最终的铭牌文本检测结果。

本申请实施例中,首先利用深度学习模型检测文本,再利用手工提取特征的方法判断低置信度的文本区域,具有良好的鲁棒性,同时能提高检测准确率,降低漏检率。

为进一步提高铭牌定位提取过程的计算效率,本申请实施例中可以先利用深度学习算法实现输入图像中电力设备铭牌的粗定位,大大降低复杂背景的干扰,有效定位铭牌区域。去除复杂背景后,再利用边缘检测等手工特征提取的方法精确定位铭牌位置,实现铭牌位置的细定位,相应地,参见图3,上述步骤s2中的所述利用深度学习算法及边缘检测算法,对所述输入图像中的铭牌进行定位提取,包括以下步骤:

步骤201:利用卷积神经网络对所述输入图像处理,生成所述输入图像的特征图;

步骤202:基于所述输入图像的特征图,定位出铭牌对应的矩形边界框区域;

上述步骤201~202实现对输入图像中电力设备铭牌的粗定位。

步骤203:根据边缘检测算法,从所述铭牌对应的矩形边界框区域提取出独立的铭牌区域,得到所述定位提取图像。

具体地,该步骤中通过边缘检测算法及霍夫变换,从所述铭牌对应的矩形边界框区域内检测出铭牌的4条边界线与4个角点,剪裁提取出独立的铭牌区域,得到所述定位提取图像,进一步地除去了矩形边界框区域中铭牌的背景,实现铭牌细定位。

由于拍摄角度问题,所述输入图像中的铭牌图像较难呈现为规则的矩形,一般呈现为不规则的四边形,因此该处根据4条边界线与4个角点得到所述定位提取图像,一般存在形变,为普通四边形,为实现铭牌文本检测,需要对其进行矫正,步骤s3中的形变矫正具体为:根据文本行方向,通过透视变换对定位提取图像进行形变矫正,矫正后的铭牌图像为矩形且图像中文本行呈水平方向。

优选地,在本申请实施例中所述卷积神经网络包括5个卷积块与2个卷积层,每个卷积块包括一个卷积层及一个池化层,步骤201中利用卷积神经网络对所述输入图像处理,生成所述输入图像的特征图,具体为通过卷积神经网络5个卷积块及2个卷积层处理,得到尺度大小为输入图像尺度1/32的所述输入图像的特征图。具体地,图像首先被放缩到固定的尺寸输入卷积神经网络,每经过一个卷积块,图像对应特征图的尺度都会减少一半,因此,经过5个卷积块后,尺度为输入图像尺度的1/32。接着,再经过2个卷积层,尺寸保持不变。最终,卷积神经网络提取出铭牌图像的高级特征图即所述输入图像的特征图,尺度为输入图像的1/32。

优选地,为提高定位的精准度,下面示例性地介绍了本申请实施例步骤202的一种实施方式,包括以下步骤201-1至步骤201-3:

步骤201-1:基于所述输入图像的特征图,建立所述卷积神经网络的分类网络和回归网络,根据所述输入图像的特征图的大小尺寸,将特征图分为k×k个特征单位网格;

具体地,k×k为所述输入图像的特征图的尺寸,特征图大小为k×k,则对应可分为k×k个特征单位网格。

步骤201-2:对于每个特征单位网络,根据设定的锚框数量m,预测出m个预测矩形框,所述回归网络用于预测出各预测矩形框的坐标,所述分类网络用于预测出各预测矩形框包含铭牌的概率;

在提取出的特征图基础上分别建立分类网络和回归网络。其中,回归网络用于预测铭牌矩形包围框即预测矩形框的坐标,分类网络用于预测的矩形框包含铭牌的概率。锚框也称为先验验矩形框,设定的锚框数量m为手动设置,每个特征单位网格都预测m个以锚框为基础的预测矩形框,共预测k×k×m个框。

图4为上述步骤201~202中实现铭牌图像定位所使用的所述卷积神经网络结构示意图,参见图4,通过5个卷积块1~5及2个卷积层6~7处理,得到输入图像的特征图后,将输入图像的特征图经过卷积核为1×1的卷积层8后输入分类网络,分类网络预测k×k×m×1个值,对应表示k×k×m个框包含铭牌的概率。同时特征图经过另一个卷积核为1×1的卷积层9后输入回归网络,回归网络预测k×k×m×4个值,每个框预测4个值x、y、w、h。其中,x、y表示预测的矩形框中心点坐标相对于对应特征单位网格左上角坐标的偏移量;w、h分别表示预测的预测矩形框的框长、宽与对应锚框长、宽的比值。

在本申请实施例中,所述卷积神经网络的损失函数由分类损失和回归损失共同组成,具体为:

l=lcls+λlreg

其中,l表示总损失,lcls表示分类损失,lreg表示回归损失,λ表示损失权重;

损失函数中的分类损失lcls,具体如下:

pi表示对应预测矩形框包含铭牌的概率,为对应的标签值;

损失函数中回归损失lreg,函数如下:

xi、yi表示对应预测矩形框的中心点坐标相对于对应特征单位网格左上角坐标的偏移量;wi和hi分别表示预测矩形框长、宽与对应锚框长、宽的比值,分别为对应的标签值。其中,(2-wi×hi)为自适应长宽损失权重,当长和宽过大时,自适应权重小,当长和宽过小时,自适应权重大。

201-3:对预测出的预测矩形框进行非极大抑制操作,定位出铭牌对应的矩形边界框区域。这里通过非极大抑制操作,去除重叠、多余的预测矩形框,粗略定位出铭牌矩形区域。

本申请实施例还提供一种电力设备铭牌图像的文本检测装置,该装置可以应用于pc(个人电脑)、平板电脑、手机和服务器等具备深度学习计算能力的电子设备中,用于执行本申请实施例提供的方法,参见图5,该装置包括:

获取模块51,用于获取输入图像;

定位模块52,用于利用深度学习算法及边缘检测算法,对所述输入图像中的铭牌进行定位提取;

矫正模块53,用于通过透视变换对定位提取图像进行形变矫正,得到矫正后的铭牌图像;

文本检测模块54,用于利用深度学习文本检测算法,对矫正后的铭牌图像自动进行文本检测,得到铭牌文本检测结果。

本实施例提供的装置中,定位模块52通过深度学习算法实现对电力设备铭牌图像定位提取,并通过矫正模块53进行矫正,智能地实现了电力设备铭牌图像的有效提取,进而通过深度学习文本检测方法,对对矫正后的铭牌图像自动进行文本检测,效且精准的得到了铭牌文本检测结果,解决了电力设备信息的自动采集中的关键难题,提高了电力设备信息采集的效率及精准度。

进一步地,所述文本检测模块54具体包括:预测单元及预测框处理单元:

所述预测单元,由于利用深度学习文本检测算法对所述铭牌图像中的文本进行初步检测,预测得到多个文本候选框;

所述预测框处理单元,具体用于根据各文本候选框对应的置信度及坐标信息,对预测得到的文本候选框进行处理得到所述铭牌文本检测结果。

优先地,所述根据各文本候选框对应的置信度及坐标信息,对预测得到的文本候选框进行处理得到所述铭牌文本检测结果,包括:

筛选置信度高于预设阈值的文本候选框,对筛选出的文本候选框进行非极大抑制处理,并对同一文本行的邻近文本候选框进行合并,得到第一合并结果;

对于置信度低于所述预设阈值的文本候选框:提取文本候选框区域的笔画宽度特征,根据提取的笔画宽度特征,确认各文本候选框是否包含文字,并将确认包含文字的文本侯选框与所述第一合并结果合并,得到所述铭牌文本检测结果。

进一步地,定位模块52具体用于:

利用卷积神经网络对所述输入图像处理,生成所述输入图像的特征图;

基于所述输入图像的特征图,定位出铭牌对应的矩形边界框区域;

根据边缘检测算法,从所述铭牌对应的矩形边界框区域提取出独立的铭牌区域,得到所述定位提取图像。具体为通过边缘检测算法及霍夫变换,从所述铭牌对应的矩形边界框区域内检测出铭牌的4条边界线与4个角点,剪裁提取出独立的铭牌区域,得到所述定位提取图像。

优选地,所述卷积神经网络包括5个卷积块与2个卷积层,每个卷积块包括一个卷积层及一个池化层,所述利用卷积神经网络对所述输入图像处理,生成所述输入图像的特征图,包括:通过卷积神经网络5个卷积块及2个卷积层处理,得到尺度大小为输入图像尺度1/32的所述输入图像的特征图。

进一步地,所述基于所述输入图像的特征图,定位出铭牌对应的矩形边界框区域;包括:

基于所述输入图像的特征图,建立所述卷积神经网络的分类网络和回归网络,根据所述输入图像的特征图的大小尺寸,将特征图分为k×k个特征单位网格;

对于每个特征单位网络,根据设定的锚框数量m,预测出m个预测矩形框,具体地,利用所述回归网络预测出各预测矩形框的坐标,同时利用所述分类网络预测出各预测矩形框包含铭牌的概率;

对预测出的预测矩形框进行非极大抑制操作,定位出铭牌对应的矩形边界框区域。

优选地,所述卷积神经网络的损失函数为:l=lcls+λlreg,l表示总损失,由分类损失和回归损失共同组成,lcls表示分类损失,lreg表示回归损失,λ表示损失权重;

其中,pi表示对应预测矩形框包含铭牌的概率,为对应的标签值;

其中,xi、yi表示对应预测矩形框的中心点坐标相对于对应特征单位网格左上角坐标的偏移量;wi和hi分别表示预测矩形框长、宽与对应锚框长、宽的比值,分别为对应的标签值。

所述矫正模块53,具体用于根据文本行方向,通过透视变换对定位提取图像进行形变矫正,使得矫正后的铭牌图像为矩形且图像中文本行呈水平方向。

本申请实施例提供的装置,实现了对电力设备信息的自动采集,通过深度学习方法与传统模式识别方法来检测铭牌文本,具有鲁棒性强、检测准确率高等特点。深度学习模型使用大量数据驱动,自动学习、提取特征,具有良好的鲁棒性。利用深度学习模型对图像中的铭牌进行粗定位,能大大降低复杂背景的干扰,有效定位铭牌区域。去除复杂背景后,利用边缘检测等手工特征提取的方法能精确定位铭牌位置。同理,首先利用深度学习模型检测文本,再利用手工提取特征的方法判断低置信度的文本区域,也具有良好的鲁棒性,同时能提高检测准确率,降低漏检率。

本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1