一种图像识别方法、装置和计算机可读存储介质与流程

文档序号:17443750发布日期:2019-04-17 05:11阅读:142来源:国知局
一种图像识别方法、装置和计算机可读存储介质与流程

本发明属于图像处理领域,具体涉及一种图像识别方法、装置和计算机可读存储介质。



背景技术:

图像分割识别的神经网络的学习依赖像素级别的标注数据,现有的数据标注方式均为全图标注,即将天空、树木、牌子、灯杆以及道路和车道线等通行要素全部标注,类似于mapillary和cityscapes的标注数据集。其中cityscapes通行要素也没有细分,均标注为道路类别。

现有技术中,全图标注对于通行要素的识别来讲,上半部分的通行要素对于识别目的来说用处不大,但是上半部分由于离相机镜头远,物体较小且轮廓很模糊,造成识别的精度低、标注起来也非常耗费人力。

同时,全图标注时,基本无法细分路面要素;类别越多,神经网络学习的难度也越大;例如mapillary数据集是细分了通行要素的,但对于提取路面要素语义来说,图片中上半部分的标注结果其实是不需要的,而且学习的难度非常大。



技术实现要素:

针对上面提到的现有技术中,图像识别的过程中会存在识别效率较低的问题,本发明提出了一种图像识别方法和装置,其能利用深度学习中图像分割技术和图像识别技术,从所述原始图像的作业区域中提取待识别子图像,进而仅对待识别子图像识别即可,不仅降低了实现难度低,而且在减少工作量的同时提高了工作效率。

依据本发明的第一方面,提供了一种图像识别方法,其包括:

获取原始图像;其中,所述原始图像中至少包括作业区域,所述作业区域是原始图像的一部分;

从所述原始图像的作业区域中提取待识别子图像;

将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像;

其中,所述道路场景图像中包括至少两种语义表示,所述语义表示分别用于标识道路场景和通行要素。

在上述实施例的基础上,所述原始图像中还包括非作业区域;

对应的,所述图像识别方法还包括:

从所述原始图像的非作业区域中提取未识别子图像;

融合所述道路场景图像和未识别子图像。

在上述实施例的基础上,所述原始图像中作业区域的外部轮廓呈矩形状;

所述从所述原始图像的作业区域中提取待识别子图像,包括:

根据作业区域的长度占所述外部轮廓的长度第一预设比例值、及作业区域的宽度占所述外部轮廓的宽度的第二预设比例值,确定所述作业区域;

根据所述作业区域裁剪所述原始图像,并得到待识别子图像。

在上述实施例的基础上,图像识别方法还包括:

所述通行要素包括用于表示车道通行属性的多个子元素;

其中,所述车道通行属性包括直行、左转、右转、掉头、汇入、直行加左转、直行加右转、直行加掉头、左转加掉头、左右转弯标志、左转加右转、右转加掉头和/或直行加掉头等。

基于相同的思想,本实施例中还提供了一种图像识别装置,具体包括:

第一获取模块,用于获取原始图像;其中,所述原始图像中至少包括作业区域,所述作业区域是原始图像的一部分;

第一提取模块,用于从所述原始图像的作业区域中提取待识别子图像;

识别模块,用于将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像;

其中,所述道路场景图像中包括至少两种语义表示,所述语义表示分别用于标识道路场景和通行要素。

在上述实施例的基础上,所述原始图像中还包括非作业区域;

对应的,所述图像识别装置还包括:

第二提取模块,用于从所述原始图像的非作业区域中提取未识别子图像;

融合模块,用于融合所述道路场景图像和未识别子图像。

在上述实施例的基础上,所述原始图像中作业区域的外部轮廓呈矩形状;

第一提取模块包括:

作业区域确定单元,用于根据作业区域的长度占所述外部轮廓的长度第一预设比例值、及作业区域的宽度占所述外部轮廓的宽度的第二预设比例值,确定所述作业区域;

裁剪单元,用于根据所述作业区域裁剪所述原始图像,并得到待识别子图像。

在上述实施例的基础上,所述通行要素包括用于表示车道通行属性的多个子元素;

其中,所述车道通行属性包括直行、左转、右转、掉头、汇入、直行加左转、直行加右转、直行加掉头、左转加掉头、左右转弯标志、左转加右转、右转加掉头和/或直行加掉头等。

依据本发明的第二方面,提供了一种用于卷积神经网络的训练方法,其包括:

获取样本图像;其中,所述样本图像中至少包括标注区域;其中,所述标注区域是所述样本图像的一部分;

从所述样本图像的标注区域提取待训练图像;

基于基模型学习所述待训练图像,直至得到卷积神经网络。

根据本发明的第一方面,还提供了一种计算机可读存储介质,所述计算机指令被处理器执行时实现如上所述的图像识别方法。

根据本发明的第二方面,还提供了一种计算机可读存储介质,所述计算机指令被处理器执行时实现如上所述的用于卷积神经网络的训练方法。

利用以上方案,本发明实施例通过获取原始图像;从所述原始图像的作业区域中提取待识别子图像;将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像,进而仅对待识别子图像识别即可,不仅降低了实现难度低,提高了工作效率,同时减少了工作量。

应当理解,上述说明仅是本发明技术方案的概述,以便能够更清楚地了解本发明的技术手段,从而可依照说明书的内容予以实施。为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举说明本发明的具体实施方式。

附图说明

通过阅读下文的示例性实施例的详细描述,本领域普通技术人员将明白本文所述的有点和益处以及其他优点和益处。附图仅用于示出示例性实施例的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的标号表示相同的部件。在附图中:

图1为本发明一实施例的图像识别方法的流程示意图;

图2a为本发明一实施例的图像识别方法的中原始图像的示意图;

图2b为本发明一实施例的图像识别方法的中待识别子图像的示意图;

图2c为本发明一实施例的图像识别方法的中道路场景图像的示意图;

图3为本发明一实施例的图像识别方法的流程示意图;

图4为本发明另一实施例的用于卷积神经网络的训练方法流程示意图;

图5为本发明一实施例的图像识别装置的示意图;

图6为本发明另一实施例的用于卷积神经网络的训练装置的示意图;

图7示出了根据本发明一实施例的计算机可读存储介质的示意图。

具体实施方式

下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。

在本发明中,应理解,诸如“包括”或“具有”等术语旨在指示本说明书中所公开的特征、数字、步骤、行为、部件、部分或其组合的存在,并且不旨在排除一个或多个其他特征、数字、步骤、行为、部件、部分或其组合存在的可能性。

另外还需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本发明。

在本说明书中的一个或多个实施例中,图像识别方法可以用于无人驾驶车辆行驶过程中各车道的通行属性的识别过程。具体的,本实施例所述的高精度地图是无人驾驶领域的核心技术之一,其可为无人驾驶车辆反馈道路前方信号灯的状态、判断道路前方的道路指示线是实或虚,判断限高、是否禁行等信息,以确保无人驾驶车辆在道路上合法、安全且高效的行驶。相比服务于gps导航系统的传统地图而言,高精地图最显著的特点是其表征路面特征的精准性,以确保为无人驾驶车辆所提供信息的精准性。

本实施例中所述的方法可用于无人驾驶汽车行驶过程中。具体的,在无人驾驶汽车行驶过程中,无人驾驶汽车(系统)会通过无线传输方式将即将行驶路面的位置信息发送至服务器,服务器会将高精度地图中与该位置信息对应的车道通行属性反馈至无人驾驶汽车(系统),无人驾驶汽车(系统)根据所属车道通行属性确定行驶策略,并根据该行驶策略安全行驶。

由于无人驾驶汽车在行驶过程中,其位置信息会时刻发生改变,因此需要实时获取当时所处位置对应的车道通行属性。

结合到具体使用场景中,高精度地图会包含大量的行车辅助信息,包括路面的几何结构、标示线位置、周边道路环境的点云模型等。有了这些高精度的三维表征,无人驾驶系统就可以通过比对车载gps(globalpositioningsystem,全球定位系统)、imu(inertialmeasurementunit,惯性测量单位)、lidar(lightdetectionandranging,激光探测与测量)或摄像头的数据来精准定位自己当前的位置,并进行实时导航。

在图1中,示出了根据本发明一实施例的图像识别方法的流程示意图。该图像识别方法包括:

s110、获取原始图像。

本实施例中,所述原始图像为无人驾驶汽车视角下的路面场景图像,路面场景图像中所呈现的画面可以包括将要行驶路面的行车道边界、转弯标志和斑马线等通行要素。

示例性的,图2a为本实施例过程中的所使用到原始图像的示意图,该原始图像中包括了行车道边界、路侧信号灯、路上行人、前方汽车等元素。

其中,所述原始图像中至少包括作业区域,所述作业区域是原始图像的一部分。具体来说,所述原始图像由可以由作业区域和非作业区域两部分组成,在对原始图像识别的过程中,仅会对作业区域中的图像进行处理和识别,不会对非作业区域中的图像进行识别。

作业区域和非作业区域的区域范围由本领域技术人员预先定义,在对原始图像的识别过程中,会首先根据预存的区域范围数据确定原始图像的作业区域和非作业区域,进而对作业区域和非作业区域中的子图像进行处理和识别。

在一些实施例中,所原始图像中包括多种类型的通行要素。例如,原始图像中可以包括用于表示车道中心线、车道边界线、参考点、虚拟连接线等元素的车道要素;可以包括用于表示控制车流通行的交通信号灯等信号灯要素。

在另外一些实施例中,本领域技术人员会将原始图像中车道要素较为清晰、密集的区域定义为作业区域,以通过识别作业区域中的子图像得到更清晰、更多的通行要素,这样设置的好处在于不仅降低了图像识别过程中所消耗的计算资源,而且使得图像识别素的得到了提升。

在这里,对所述原始图像的获取方式不作具体限定,其可以是通过设置于无人驾驶汽车的图像采集设备直接采集得到,也可以是从设置于无人驾驶汽车的视频采集设备录制到的视频中获取到的。本实施例中,可以根据所述车道通行属性获取方法的具体使用场景和使用需求确定。

s120、从所述原始图像的作业区域中提取待识别子图像。

在另外一些实施例中,可以通过边缘检测算法来确定要作业区域的位置,进而根据所述位置信息提取待识别子图像;也可以根据具体的语义表示判断要提取的待识别子图像的位置,并根据所述位置信息提取待识别子图像。

可以选择的,所述原始图像中作业区域的外部轮廓呈矩形状;所述从所述原始图像的作业区域中提取待识别子图像,包括:根据作业区域的长度占所述外部轮廓的长度第一预设比例值、及作业区域的宽度占所述外部轮廓的宽度的第二预设比例值,确定所述作业区域;根据所述作业区域裁剪所述原始图像,并得到待识别子图像。图2b为本发明一实施例的图像识别方法的中待识别子图像的示意图。待识别子图像的长度可以占原始图像外部轮廓长度的50%。待识别子图像的长度可以占原始图像外部轮廓宽度的100%。

s130:将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像。

其中,所述道路场景图像中包括至少两种语义表示,所述语义表示分别用于标识道路场景和通行要素。

所述通行要素包括用于表示车道通行属性的多个子元素;

其中,所述车道通行属性包括直行、左转、右转、掉头、汇入、直行加左转、直行加右转、直行加掉头、左转加掉头、左右转弯标志、左转加右转、右转加掉头和/或直行加掉头等。

在一些实施例中,所述道路场景图像包括语义表示,所述语义表示用于标识通行要素。在一些实施例中,所述道路场景图像包括多种类型的语义表达,不同的类型的语义表达用于标识不同的通行要素;本实施例中将原始图像输入至预先完成训练的场景理解模型,是为了完成对不同通行要素的初步分类。

图2c为本发明一实施例的图像识别方法的中道路场景图像的示意图;在另外一些实施例中,如图2c所示,所述语义表达可以通过道路场景图像中不同颜色表示,例如所述车道中心线可以用白色表示,车道边界线可以用灰色表示,普通路面可以用蓝色表示。

本实施例中,所述场景理解模型将直接获取到的原始图像中的各场景要素识别出来,并用不同的语义表示进行标识。

可以选择的,所述场景理解模型的类别包括全卷积神经网络。

在一些实施例中,所述场景理解模型可以通过无监督学习的方式进行训练。具体的,训练所述场景理解模型之前,首先使用高精地图数据采集车采集海量待训练数据,然后将所述海量待训练数据进行标注,输入与场景理解模型对应的基模型,以实现对场景理解模型的预训练。

在另外一些实施例中,场景理解模型的基于全卷积神经网络训练而成,其中,image表示待训练图像,fcn表示全卷积神经网络,预测值表示全卷积神经网络输出的预测值,loss表示全卷积神经网络对应的损失函数,label表示待训练图像的标注数据。

具体的,在场景理解模型的训练过程中,fcn会对待训练图像进行特征提取、特征预测,直至运算得到一个预测值,并基于损失函数对预测值和标注数据计算损失,进而根据运算结果调整fcn的参数,直至预测值与标注数据间的差值处于某一范围。

不同于上述实施例,本实施例中可以通过外部轮廓呈矩形状的作业区域提取待识别子区域,如图3所示,图像识别方法具体包括:

s210、获取原始图像。

其中,所述原始图像中包括通行要素。

s220、根据作业区域的长度占所述外部轮廓的长度第一预设比例值、及作业区域的宽度占所述外部轮廓的宽度的第二预设比例值,确定所述作业区域。

其中,所述第一预设比例值和第二预设比例值由本领域技术根据具体使用场景设定。本实施例中,可以将原始图像外部轮廓长度的第一预设比例值(例如50%)作为作业区域的长度,将原始图像外部轮廓宽度的第二预设比例值(例如100%)作为作业区域的宽度,确定所述作业区域。

在一些实施例中,用于确定所述作业区域的数据,例如原始图像外部轮廓的长度、原始图像外部轮廓的宽度、第一预设比例值和第二预设比例值需要预先存储。

s230、根据所述作业区域裁剪所述原始图像,并得到待识别子图像。

本实施例中可以基于cohen-surtherland算法或梁友栋算法裁剪原始图像得到待识别子图像。

其中,所述待识别子图像中包括至少一个标识道路场景或至少一个通行要素;且待识别子图像中的图像清晰、完整,便于识别。

s240、从所述原始图像的非作业区域中提取未识别子图像。

本实施例中,由于图像采集过程的不完善,或者所拍摄的通行要素的残缺性,所述道路场景图像中会存在一些轮廓不完善的通行要素,这些通行要素如果处理不当,会影响到车道通行属性的最终获取结果。为了避免上述缺陷,本实施例中会将道路场景图像中会存在一些轮廓不完善的通行要素所在的区域设定为非作业区域,而且不对所述非工作区域中的图像(即未识别图像)进行识别和操作。

s250、融合所述道路场景图像和未识别子图像。

为了保证所述图像识别方法执行过程中输入信息以及输出信息的一致性,在另外的一些实施例中,会将提取得到的道路场景图像和非作业区域中未识别子图像进行融合,得到与所述原始图像的轮廓大小相同的图像作为输出。

在图4中,示出了根据本发明一实施例的用于卷积神经网络的训练方法的流程示意图。该用于卷积神经网络的训练方法包括:

s310、获取样本图像;其中,所述样本图像中至少包括标注区域;其中,所述标注区域是所述样本图像的一部分。

其中所述样本图像的结构与所述原始图像相同,也包括作业区域和非作业区域,在对所述卷积神经网络训练过程之前,本领域技术人员会预先根据具体业务规则标注作业区域中待训练图像中的通行要素,并且用不同的标注信息标注不同类别的通行要素。

s320、从所述样本图像的标注区域提取待训练图像。

本实施例中,s320从所述样本图像的标注区域提取待训练图像的操作与上述实施例中s240从所述原始图像的非作业区域中提取未识别子图像的操作完全相同,因此本实施例将不再赘述。

s330、基于基模型学习所述待训练图像,直至得到卷积神经网络。

下面结合图5描述用于实现上述图像识别方法的图像识别装置。如图5所示,示出了根据本发明又一实施例的图像识别装置500的示意图。该图像识别装置500包括:第一获取模块510、第一提取模块520和识别模块530。

其中,第一获取模块510,用于获取原始图像;其中,所述原始图像中至少包括作业区域,所述作业区域是原始图像的一部分;

第一提取模块520,用于从所述原始图像的作业区域中提取待识别子图像;

识别模块530,用于将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像;

其中,所述道路场景图像中包括至少两种语义表示,所述语义表示分别用于标识道路场景和通行要素。

利用以上方案,本发明实施例通过语义表示从道路场景图像中提取多个通行要素子图像;将通行要素子图像输入至预先完成训练的通行要素分类模型,得到通行要素细节分类结果;根据通行要素子图像在所述道路场景图像中的位置,将与通行要素子图像对应的所述通行要素细节分类结果融合道路场景图像中,进而获取到道路场景中场景要素的车道通行属性,不仅降低了实现难度低,而且在减少工作量的同时提高了工作效率。

在上述实施例的基础上,所述原始图像中还包括非作业区域;

对应的,所述图像识别装置还包括:

第二提取模块,用于从所述原始图像的非作业区域中提取未识别子图像;

融合模块,用于融合所述道路场景图像和未识别子图像。

在上述实施例的基础上,所述原始图像中作业区域的外部轮廓呈矩形状;

第一提取模块包括:

作业区域确定单元,用于根据作业区域的长度占所述外部轮廓的长度第一预设比例值、及作业区域的宽度占所述外部轮廓的宽度的第二预设比例值,确定所述作业区域;

裁剪单元,用于根据所述作业区域裁剪所述原始图像,并得到待识别子图像。

在上述实施例的基础上,所述通行要素包括用于表示车道通行属性的多个子元素;

其中,所述车道通行属性包括直行、左转、右转、掉头、汇入、直行加左转、直行加右转、直行加掉头、左转加掉头、左右转弯标志、左转加右转、右转加掉头和/或直行加掉头等。

下面结合图6描述用于实现上述用于卷积神经网络的训练方法的用于卷积神经网络的训练装置。如图6所示,示出了根据本发明又一实施例的用于卷积神经网络的训练装置600的示意图。该训练装置600包括:第二获取模块610、第三提取模块620和训练模块630。

其中,第二获取模块610,用于获取样本图像;其中,所述样本图像中至少包括标注区域;其中,所述标注区域是所述样本图像的一部分;

第三提取模块620,用于从所述样本图像的标注区域提取待训练图像;

训练模块630,用于根据所述待训练图像训练基模型,直至得到卷积神经网络。

利用以上方案,本发明实施例通过获取原始图像;从所述原始图像的作业区域中提取待识别子图像;将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像,进而仅对待识别子图像识别即可,不仅降低了实现难度低,提高了工作效率,同时减少了工作量。

如图7所示,示出了根据本发明一实施例的计算机可读存储介质700的示意图,该计算机可读存储介质上存储有计算机指令,该计算机指令被处理器执行时实现如上所述的数据压缩方法。该计算机可读存储介质700可以采用便携式紧凑盘只读存储器(cd-rom)。然而,本发明的计算机可读存储介质700不限于此,在本文件中,计算机可读存储介质可以是任何包含或存储计算机指令的有形介质。

利用以上方案,本发明实施例通过获取原始图像;从所述原始图像的作业区域中提取待识别子图像;将所述待识别子图像输入至预先完成训练的场景理解模型进行识别,得到道路场景图像,进而仅对待识别子图像识别即可,不仅降低了实现难度低,提高了工作效率,同时减少了工作量。

附图中的流程图和框图,图示了按照本公开各种实施例的方法、装置和计算机可读存储介质的可能实现的体系架构、功能和操作。应当注意,流程图中的每个方框所表示的步骤未必按照标号所示的顺序进行,有时可以基本并行地执行,有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的硬件来实现,或者可以用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的单元或模块可以通过软件的方式实现,也可以通过硬件的方式来实现。

通过以上对实施例的描述,本领域的技术人员可以清楚地了解到各实施例可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1