一种基于头部部件对齐的鸟类图像识别方法与流程

文档序号：17655210发布日期：2019-05-15 21:55阅读：213来源：国知局

本发明涉及识别技术领域，特别涉及一种基于头部部件对齐的鸟类图像识别方法。

背景技术：

目前已有一些鸟类识别的文献，但是对于鸟类图像进行识别的文献并未发现。在鸟类识别方面，如专利2009102108999提供基于声像一体化野生鸟类识别技术的远程无线监测系统，其用于远程生态监测，所述系统包括鸣声录制模块、视频录制模块、音视频数据处理模块、音视频流传输模块和音视频数字文件存储模块。专利2013105810072提供一种基于鸟鸣声的移动式鸟类识别方法。本发明通过LabVIEW软件对采集的鸟鸣声信号进行预处理，并通过LabVIEW和MATLAB软件混合编程的AOK时频分析方法处理预处理之后的鸟鸣声信号，最后通过MATLAB软件处理AOK时频谱图，实现特征值的提取。将已知鸟种的鸟的特征值经模型训练生成训练模板并进行数据存储，将待识别鸟种的鸟的特征值经模型训练生成测试模板，结合DTW算法将测试模板与训练模板进行匹配来实现鸟类的识别。在实际生活中，用户更常用手机对鸟类拍照等方式来进行记录和识别。为此急需一种基于鸟类图像的识别方法。

技术实现要素：

为了克服现有技术的上述缺点与不足，本发明的目的在于提供一种基于头部部件对齐的鸟类图像识别方法，实现精度高，难度小。

本发明的目的通过以下技术方案实现：

一种基于头部部件对齐的鸟类图像识别方法，包括以下步骤：

S1训练过程：

S1.1收集各种鸟类图像作为训练鸟类图像，组成训练数据集；

S1.2人工选定每张训练鸟类图像中鸟类的头部区域，并将每张训练鸟类图像的头部分成朝右、朝左和中间姿态；

S1.3对鸟类头部朝左或朝右的训练鸟类图像，即侧向姿态的鸟类图像，做翻转处理，使所有侧向姿态的鸟类图像中鸟类头部朝向一致；

S1.4对于训练数据集中所有侧向姿态的鸟类图像，人工标定鸟类头部的眼、冠、前额、喙四个部件的坐标其中是为第i张侧向姿态的图像的第part部件标注横坐标，为第i张侧向姿态图像的第part部件标注纵坐标；i为正整数；part表示眼、冠、前额或喙；然后对其四个部件的坐标进行归一化处理，处理过程如下：

其中分别是第i张侧向姿态鸟类图像头部区域的最左上角的横坐标与纵坐标；分别是第i张侧向姿态鸟类图像头部区域的宽度和高度；分别是第i张侧向姿态鸟类图像的第part部件归一化后的横坐标与纵坐标；

S1.5使用高斯概率密度曲线拟合各个部件的横纵分布，得到每个部件的直方图；分别对于x,y坐标，有

其中μ表示高斯模型的均值，σ表示高斯模型的标准差；均值和标准差通过训练数据集进行拟合；使用3σ原则覆盖一个部件区域；得到每个部件的区域；

S1.6对步骤S1.5获取的每个部件的区域，通过图像缩放处理统一转换为相同的大小的图像块；在每个图像块中，提取图像的Fisher特征向量；并将四个部件所对应的图像块的Fisher特征向量进行级联，获得鸟类图像的训练特征向量；

S1.7将步骤S1.6得到的鸟类图像的特征向量送入线性支持矢量机分类器进行训练，线性支持矢量机分类器经过训练后得到鸟类不同类别之间的类与类之间最大分类平面模型；

S2测试过程：

S2.1对于当前待测鸟类图像利用几何约束的深度卷积网络检测待测图像中鸟类头部区域；

S2.2在当前待测鸟类图像的鸟类头部区域上计算梯度直方图特征；然后比较当前待测鸟类图像的鸟类头部区域的梯度直方图特征和训练数据集中的训练鸟类图像的鸟类头部区域的梯度直方图特征，计算两个梯度直方图特征之间的欧式距离，在训练数据集中选取与当前待测鸟类图像欧式距离最小的n张训练图像，然后统计这n张训练图像的朝向，并且进行朝向投票，得票最多的朝向作为当前待测鸟类的朝向，即决定这张测试图像的鸟类头部是朝右、朝左还是中间姿态；n≥3；

S2.3当待测鸟类朝向与步骤S1.3处理后的侧向姿态的鸟类图像不同时，通过图像镜像旋转达成一致；然后待测鸟类图像利用S1.5步骤所拟合的高斯模型的各个部件的均值，映射到当前待测鸟类图像并获取头部的眼、冠、前额、喙四个部件的区域，并利用步骤S1.4的处理方式归一化四个部件的大小，使得头部的眼、冠、前额、喙四个部件的区域转换成同样大小的图像块；

S2.4在当前待测图像的每个图像块中，提取其的Fisher特征向量；并将四个部件所对应的图像块的Fisher特征向量进行级联，获得当前待测鸟类图像的测试特征向量；

S2.5将鸟类图像的测试特征向量送入S1.7得到的类与类之间最大分类平面模型，得到当前待测鸟类图像对应的鸟类类别输出。

步骤S2.1所述利用几何约束的深度卷积网络检测鸟类头部区域，具体为：

利用基于区域的深度神经网络分别训练学习鸟类图像整体部分、头部部分和躯干部分的分类器，然后对于所测量图像，假定候选区域后，利用所学到的整体部分、头部部分和躯干部分的分类器分别判断候选区域是否是鸟类的整体部分、头部部分和躯干部分；对于已经判断是鸟类对应的区域，根据先验信息来去除误检测区域。

步骤S1.6所述在每个图像块中，提取图像的Fisher特征向量，具体为:首先将图像块分成多个子区域，在每个子区域内，提取当前图像块的SIFT特征，然后将所有图像块的SIFT特征拟合成高斯混合模型，得到高斯混合模型后的各个中心的均值和方差，基于各个高斯模型的均值和方差，将当前子区域投影到各个高斯模型上，获取对应的高斯模型的投影权重，均值和方差，将投影权重，均值和方差进行级联得到Fisher特征向量。

本发明的原理如下：

通过仔细观察鸟类图像发现，在鸟类头部区域上的各个部件的相对位置和结构不会发生较大的改变，为此本发明考虑从统计预测部件位置，预测部件位置后，对各种朝向的鸟类图像数据进行头部位置对齐。对齐后的鸟类图像通过提取相应的图像特征并进行分类器训练学习，从而最终得到各种鸟类图像之间的最佳分类平面，为后续的鸟类观测图像提供判别依据。

与现有技术相比，本发明具有以下优点和有益效果：

本发明的基于头部部件对齐的鸟类图像识别方法，预先对图像进行头部部件的对齐，解决了鸟类图像分类中的姿态因素影响，同时本发明的方法并不需要精确定位部件位置，只需简单预测每个部件的大致出现区域，从而实现精度高，难度小。经过对齐后的图像块提取图像特征，并进行机器训练和学习，为测试鸟类图像的分类提供依据，此方法可以为广大鸟类观察者提供自动的鸟类识别指导。

附图说明

图1为本发明的实施例的一种基于头部部件对齐的鸟类图像识别方法的流程图。

具体实施方式

下面结合实施例，对本发明作进一步地详细说明，但本发明的实施方式不限于此。

如图1所示，本实施例的基于头部部件对齐的鸟类图像识别方法，包括以下步骤：

S1训练过程：

S1.1收集各种鸟类图像，组成训练数据集；本实施例选用加州理工大学200类鸟类数据集，此数据集包含200类不同鸟类的图像数据，每个类别图像数都有300以上；

S1.2人工选定训练数据集中每张鸟类的头部区域，并将训练数据集中每张鸟类图像的头部分成朝右、朝左和中间姿态；

S1.3对于训练数据集中鸟类头部朝左或朝右的鸟类图像，即侧向姿态的鸟类图像，做翻转处理，使所有侧向姿态的图像中鸟类头部朝向一致，都是朝向左；

S1.4对于训练集中的所有侧向姿态的图像，人工标定鸟类头部的眼、冠、前额、喙四个部件的坐标其中是为第i张侧向姿态的图像的第part部件标注横坐标，为第i张侧向姿态图像的第part部件标注纵坐标；i为正整数；part表示眼、冠、前额或喙；然后对其四个部件的坐标进行归一化处理，处理过程如下：

其中是第i张侧向姿态图像头部区域的最左上角的横坐标与纵坐标；是第i张侧向姿态图像头部区域的宽度和高度；是第i张侧向姿态图像的第part部件归一化后的横坐标与纵坐标。

对于中间姿态的图像，由于存在部件缺失，所以对于训练集中的鸟类头部的眼、冠、前额、喙四个部件不进行标注。

S1.5使用高斯概率密度曲线拟合各个部件的横纵分布，得到每个部件的直方图；分别对于x,y坐标，有

其中μ表示高斯模型的均值，σ表示高斯模型的标准差；均值和标准差是通过训练数据集进行拟合；使用3σ原则来覆盖一个部件区域；得到每个部件的区域；如，在本训练集中，朝右姿态的眼睛区域拟合后的横坐标和纵坐标，以及其高斯分布的均值和方差之间的关系为

x:μ±3σ＝78±44pixels

y:μ±3σ＝63±34pixels

因为不需要在输入图像中精确定位到部件中心，所以后续的特征提取过程均在提出的部件区域上完成。

S1.6对步骤S1.5获取的每个部件的区域，通过图像缩放处理统一转换为相同的大小的图像块(本实施例中，图像大小块为64*64大小)；在每个图像块中，提取图像的Fisher特征向量：所述在每个图像块中，提取图像的Fisher特征向量，具体为:首先将图像块分成8*8大小的小区域，在每个小区域内，提取当前图像块的旋转不变特征(SIFT特征)，然后将所有图像块的SIFT特征拟合成高斯混合模型，得到高斯混合模型后的各个中心的均值和方差，基于各个高斯模型的均值和方差，当前8*8大小的图像小区域投影到各个高斯模型上，获取对应的第i个高斯模型的投影权重wi，均值μi和方差δi，将这三个系数进行级联即可得Fisher特征向量(Fisher特征向量提取过程可参考Perronnin F,Dance C.Fisher kernels on visual vocabularies for image categorization[C]//Computer Vision and Pattern Recognition,2007.CVPR'07.IEEE Conference on.IEEE,2007:1-8.)；

并将四个部件所对应的图像块类的Fisher特征向量进行级联，获得鸟类图像的训练特征向量；

S1.7将步骤S1.6得到的鸟类图像的特征向量送入线性支持矢量机分类器进行训练，线性支持矢量机分类器经过训练后得到鸟类不同类别之间的类与类之间最大分类平面模型(具体实现细节可参考Chih-Chung Chang and Chih-Jen Lin,LIBSVM:a library for support vector machines,2001.Software available at http://www.csie.ntu.edu.tw/～cjlin/libsvm)；

S2测试过程：

S2.1对于当前待测鸟类图像利用几何约束的深度卷积网络检测当前图像的鸟类头部区域：利用基于区域的深度神经网络(Region-CNN)分别训练学习鸟类图像整体部分、头部部分和躯干部分的分类器，然后对于所测量图像，假定一些候选区域后，利用所学到的整体部分、头部部分和躯干部分的分类器分别判断假设候选区域是否是鸟类的整体部分、头部部分和躯干部分。对于已经判断是鸟类对应的区域，还需要根据先验信息来去除一些误检测区域。这边所提的先验信息是头部在躯干的上面，头部和躯干都在整体区域内部这两个几何约束信息。这个约束信息的使用就是通过简单比较各个区域中心点坐标之间的关系，如鸟类头部区域中心点的纵坐标要小于躯干区域中心点的纵坐标(这条是头部在躯干的上面的几何约束信息)。对于符合这两个几何约束信息的区域才是最终对应的鸟类图像的区域。(几何约束的深度卷积网络检测鸟类头部区域方法可参考文献Zhang N,Donahue J,Girshick R,et al.Part-based R-CNNs for fine-grained category detection[M]//Computer Vision–ECCV 2014.Springer International Publishing,2014:834-849.)，

S2.2在当前待测鸟类图像的鸟类头部区域上计算梯度直方图特征；然后比较当前待测鸟类图像的鸟类头部区域的梯度直方图特征和训练数据集中的训练鸟类图像的鸟类头部区域的梯度直方图特征，计算两个梯度直方图特征之间的特征欧式距离，在训练数据集中选取与当前待测鸟类图像的特征欧式距离最小的3张训练图像，然后统计这3张训练图像的朝向，并且进行朝向投票，得票最多的朝向作为当前待测鸟类头部区域，即决定这张测试图像的鸟类头部是朝右、朝左还是中间姿态；

S2.3对于朝向为右的待测鸟类图像，通过图像镜像旋转后，可变成朝向为左的待测鸟类图像。然后把所有朝向为左的待测鸟类图像利用S1.5步骤所拟合的高斯模型的各个部件的均值，映射到当前图片并获取头部的眼、冠、前额、喙四个部件的区域，并利用步骤S1.4的处理方式归一化四个部件的大小，使得头部的眼、冠、前额、喙四个部件的区域转换成同样大小的图像块。

S2.5将鸟类图像的测试特征向量送入S1.7得到的类与类之间最大分类平面模型，得到当前待测鸟类图像对应的鸟类类别输出。

上述实施例为本发明较佳的实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2 3

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭礼华;郭承刚;
技术所有人：华南理工大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。