同色系背景下目标果实识别方法及系统

文档序号:29248611发布日期:2022-03-15 23:06阅读:80来源:国知局
同色系背景下目标果实识别方法及系统

1.本发明涉及计算机视觉技术领域,具体涉及一种基于稀疏变压器模型(sparse-transformer)小目标敏感的同色系背景下目标果实识别方法及系统。


背景技术:

2.农业生产中,机器视觉已经广泛应用于果蔬产量预测、自动采摘、病虫害识别等领域,目标检测的精度和效率成为制约作业装备性能的关键。当前,对于静态目标果实、动态目标果实、遮挡或重叠目标果实的检测已取得可喜成果。
3.现有的检测模型大都是基于传统的机器学习、新兴的深度网络模型。基于机器学习的检测方法,主要依赖于目标果实特征,如颜色、形状等,与背景差别较大的目标,其检测效果越好,然而遇到绿色目标果实时,果实与背景颜色相近,检测效果相对较差。基于深度学习的检测方法,训练目标网络过度依赖样本数量,在实际果园环境中,有些果园难以获得足够量的样本,无法训练得到精准的检测模型。在复杂的果园环境下,目标果实的姿态千变万化,有些目标果实为绿色,且部分环境数据采集困难造成样本数量不足,这些因素均给目标精准检测带来巨大挑战。
4.基于机器学习的识别方法通常伴随预处理、特征选择等操作,不能实现端到端的检测流程,且识别效果容易受到自然环境下各种干扰的影响。基于深度学习的识别方法,虽然在精度上有了显著提升,且能够实现端到端的检测流程,但由于卷积等操作以及模型对锚框的依赖,导致其需要耗费大量的计算与存储资源,识别速度尚达不到实时性要求。


技术实现要素:

5.本发明的目的在于提供一种在保证精度的前提之下,利用sparse-transformer的小目标敏感以及并行计算特性,提升速度,减少训练时间,优化小目标检测精度与速度,更好的适应果实采摘机器人、产量预测等农业需求的同色系背景下目标果实识别方法及系统,以解决上述背景技术中存在的至少一项技术问题。
6.为了实现上述目的,本发明采取了如下技术方案:
7.一方面,本发明提供一种同色系背景下目标果实识别方法,包括:
8.获取待识别的果园环境图像;
9.利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
10.其中,
11.利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
12.优选的,训练识别模型包括:将训练集经过深度卷积神经网络处理,提取特征,构建稀疏变压器模型处理特征,经前馈神经网络处理,输出最终检测结果;输入测试样本,使
用评估指标评价获得的检测结果,根据评估结果调整模型的参数,重复训练改进模型,直至获得最优网络模型。
13.优选的,使用单反相机采集不同光照、不同时间段、不同角度下的绿色目标果实图像;使用小目标增强技术,将图像中小于预设像素的目标果实进行复制,以此来扩充样本,进行分类标注,构建数据集;将扩充完成的数据集分为训练集、验证集和测试集。
14.优选的,构建的稀疏变压器模型的编码器包括:使用空洞自注意力模块代替transformer机制中处理特征映射的注意力模块;将图像特征经过处理降维,加入空间位置补码,补充损失信息,输入空洞自注意机制与残差模块和正则化层,处理图像特征,再经过前馈神经网络与残差模块和正则化层输出编码器结果。
15.优选的,构建的稀疏变压器模型的解码器包括:将编码器学习到的参数输入空洞自注意机制与残差模块和正则化层,处理参数,将处理的结果输入到多头自注意机制与残差模块和正则化层,再经前馈神经网络与残差模块和正则化层处理得到检测结果。
16.优选的,所述前馈神经网络通过一个带有relu激活函数和隐藏维数的多层感知器,以及一个线性投影层来计算结果。
17.优选的,使用匈牙利损失函数以及softmax损失函数构建最终损失函数,优化网络模型,进行模型训练。
18.第二方面,本发明提供一种同色系背景下目标果实识别系统,包括:
19.获取模块,用于获取待识别的果园环境图像;
20.识别模块,用于利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
21.其中,
22.利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
23.第三方面,本发明提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的同色系背景下目标果实识别方法。
24.第四方面,本发明提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的同色系背景下目标果实识别方法的指令。
25.本发明有益效果:使用sparse-transformer编码器-解码器模型,解决果实采摘机器人的视觉系统果实检测效率较差、小目标不敏感的问题;精度高、速度快,较好的满足果实采摘机器人、产量预测等农业需求;使用小目标增强技术扩充样本空间,很好的适应小样本数据集,泛化能力强。
26.本发明附加的方面和优点将在下面的描述中部分给出,这些将从下面的描述中变得明显,或通过本发明的实践了解到。
附图说明
27.为了更清楚地说明本发明实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
28.图1为本发明实施例所述的同色系背景下目标果实识别方法中识别模型的训练流程图。
29.图2为本发明实施例所述的稀疏变压器模型sparse-transformer编码器结构图。
30.图3为本发明实施例所述的稀疏变压器模型sparse-transformer解码器结构图。
31.图4为本发明实施例所述的前馈神经网络fnn效果示意图。
具体实施方式
32.下面详细叙述本发明的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过附图描述的实施方式是示例性的,仅用于解释本发明,而不能解释为对本发明的限制。
33.本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语)具有与本发明所属领域中的普通技术人员的一般理解相同的意义。
34.还应该理解的是,诸如通用字典中定义的那些术语应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样定义,不会用理想化或过于正式的含义来解释。
35.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是,本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件和/或它们的组。
36.在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。
37.为便于理解本发明,下面结合附图以具体实施例对本发明作进一步解释说明,且具体实施例并不构成对本发明实施例的限定。
38.本领域技术人员应该理解,附图只是实施例的示意图,附图中的部件并不一定是实施本发明所必须的。
39.实施例1
40.本实施例1提供一种同色系背景下目标果实识别系统,该系统包括:
41.获取模块,用于获取待识别的果园环境图像;
42.识别模块,用于利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集
包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
43.其中,
44.利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
45.本实施例1中,利用上述的同色系背景下目标果实识别系统,实现了同色系背景下目标果实识别方法,包括:
46.使用获取模块,获取待识别的果园环境图像;如可利用佳能单反相机获取一张待识别的果园环境图像。
47.使用识别模块,利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签。其中,利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
48.本实施例1中,训练识别模型包括:将训练集经过深度卷积神经网络处理,提取特征,构建稀疏变压器模型处理特征,经前馈神经网络处理,输出最终检测结果;输入测试样本,使用评估指标评价获得的检测结果,根据评估结果调整模型的参数,重复训练改进模型,直至获得最优网络模型。
49.制作训练模型的数据集包括:使用单反相机采集不同光照、不同时间段、不同角度下的绿色目标果实图像;使用小目标增强技术,将图像中小于预设像素的目标果实进行复制,以此来扩充样本,进行分类标注,构建数据集;将扩充完成的数据集分为训练集、验证集和测试集。
50.构建的稀疏变压器模型的编码器包括:使用空洞自注意力模块代替transformer机制中处理特征映射的注意力模块;将图像特征经过处理降维,加入空间位置补码,补充损失信息,输入空洞自注意机制与残差模块和正则化层,处理图像特征,再经过前馈神经网络与残差模块和正则化层输出编码器结果。
51.构建的稀疏变压器模型的解码器包括:将编码器学习到的参数输入空洞自注意机制与残差模块和正则化层,处理参数,将处理的结果输入到多头自注意机制与残差模块和正则化层,再经前馈神经网络与残差模块和正则化层处理得到检测结果。
52.所述前馈神经网络通过一个带有relu激活函数和隐藏维数的多层感知器,以及一个线性投影层来计算结果。使用匈牙利损失函数以及softmax损失函数构建最终损失函数,优化网络模型,进行模型训练。
53.实施例2
54.本实施例1中,提供了同色系背景下目标果实识别方法,该方法包括:
55.获取待识别的果园环境图像;
56.利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签。其中,利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
57.本实施例2中,训练识别模型包括:将训练集经过深度卷积神经网络处理,提取特
征,构建稀疏变压器模型处理特征,经前馈神经网络处理,输出最终检测结果;输入测试样本,使用评估指标评价获得的检测结果,根据评估结果调整模型的参数,重复训练改进模型,直至获得最优网络模型。
58.如图1所示,具体的,首先采集绿色目标果实在绿色环境下的图像,进行预处理与目标标注,生成数据集;使用小目标增强技术,将图像中小于64
×
64像素的目标果实进行复制,预处理数据,扩充样本,提高模型精度;构建sparse-transformer编码器-解码器网络模型,并构建前馈神经网络预测最终结果;构建损失函数,优化结果,最后输入测试样本,使用评估指标评价获得的绿色目标果实检测模型的检测结果,根据评估结构调整模型的参数;最后重复训练改进模型,直至获得最优网络模型。
59.其中,制作训练模型的数据集包括:使用单反相机采集不同光照、不同时间段、不同角度下的绿色目标果实图像;使用小目标增强技术,将图像中小于预设像素的目标果实进行复制,以此来扩充样本,进行分类标注,构建数据集;将扩充完成的数据集分为训练集、验证集和测试集。具体的,图像采集与分类。在果园环境下使用佳能eos 80d单反相机采集丰富的绿色果实图像,对采集的图像进行分类,方便处理数据集。使用小目标增强技术,将图像中小于64
×
64像素的目标果实进行复制,预处理数据。使用labelme软件对图像进行标注,标注时,将每个目标果实标注为一个独立的连通域,制作成coco格式数据集。
60.构建的稀疏变压器模型的编码器包括:使用空洞自注意力模块代替transformer机制中处理特征映射的注意力模块;将图像特征经过处理降维,加入空间位置补码,补充损失信息,输入空洞自注意机制与残差模块和正则化层,处理图像特征,再经过前馈神经网络与残差模块和正则化层输出编码器结果。
61.构建的稀疏变压器模型的解码器包括:将编码器学习到的参数输入空洞自注意机制与残差模块和正则化层,处理参数,将处理的结果输入到多头自注意机制与残差模块和正则化层,再经前馈神经网络与残差模块和正则化层处理得到检测结果。
62.所述前馈神经网络通过一个带有relu激活函数和隐藏维数的多层感知器,以及一个线性投影层来计算结果。
63.具体的,本实施例2中,构建网络头部,提取特征。传统的cnn网络骨干是从初始图像(由3个颜色通道)开始,生成一个低分辨率的激活映射特征f∈rc×h×w。而本实施例2中,使用的特征值为:c=2048、实施例2中,使用的特征值为:c=2048、
64.如图2所示,构建sparse-transformer编码器包括:使用空洞注意力模块代替transformer机制中处理特征映射的注意力模块。将图像特征经过处理降维,加入空间位置补码,补充损失信息,输入空洞自注意机制与残差模块&正则化层,处理图像特征,再经过前馈神经网络与残差模块&正则化层输出编码器结果。如图4所示,经前馈神经网络fnn处理,效果更好。
65.如图3所示,构建变体sparse-transformer解码器包括:使用多种注意力机制构建sparse-transformer解码器,包括多头注意力机制,空洞自注意力机制。首先将编码器学习到的参数输入空洞自注意机制与残差模块&正则化层,处理参数,将处理的结果输入到多头自注意机制与残差模块&正则化层,再经前馈神经网络与残差模块&正则化层处理得到检测结果。
66.本实施例2中,评估模型并优化网络模型。输入测试样本,使用评估指标评价获得的绿色果实检测模型的检测结果,根据评估结果调整模型的参数,重复训练改进模型,直至获得最优网络模型。具体过程为:
67.采用召回率与精确度来对模型进行评估,为优化模型提供依据。依据召回率与精确度反复训练并模型评估模型,直到得到最优化结果。
68.本实施例2中,使用匈牙利损失函数以及softmax损失函数构建最终损失函数,优化网络模型,进行模型训练。具体如下:
69.用y来表示背景真值集,用表示预测集,使用如下公式找到这两个集合之间的二部匹配:
[0070][0071]
其中,是真值yi与预测序列σ(i)之间的二值匹配损失,表示n个元素的排列,n表示固定大小的预测集,此优化算法在以匈牙利算法基础上进行的工作。
[0072]
softmax函数是深度学习中使用非常频繁的一个函数,它可以把输入的几个数映射为0-1之间的实数,并且归一化后仍能够保证几个数的和为1。它的公式化表示为:
[0073][0074]
其中,t表示元素数量,计算该元素的指数与所有元素指数和的比值。
[0075]
即损失函数为:
[0076][0077]
步骤4.3:将l1损失函数与glou损失函数在尺度不变的基础上相结合,建立自己的边界框损失函数,将边界框损失函数定义为:
[0078][0079]
l1损失函数:基于逐像素比较差异,然后取绝对值,x(p)表示原图片像素,y(p)表示计算之后图像的像素,公式如下:
[0080][0081]
glou损失函数如下所示,用来表示,其中a和b表示生成的边界框区域:
[0082][0083]
λ
iou
∈r、是超参数,通过批处理中的对象数量进行规范化,l1表示l1损失函数。
[0084]
综上,本实施例2中,本发明使用sparse-transformer编码器-解码器模型,解决果实采摘机器人的视觉系统果实检测效率较差、小目标不敏感的问题。本方法精度高、速度快,较好的满足果实采摘机器人、产量预测等农业需求。使用小目标增强技术扩充样本空
间,很好的适应小样本数据集,泛化能力强,可以应用到各种果实采摘或预产的机器人视觉系统中。
[0085]
实施例3
[0086]
本实施例3中,提供一种果实采摘机器人,该果实采摘机器人包括同色系背景下目标果实识别系统,该系统可实现同色系背景下目标果实识别方法,包括:
[0087]
获取待识别的果园环境图像;
[0088]
利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
[0089]
其中,
[0090]
利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
[0091]
实施例4
[0092]
本发明实施例4提供一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质用于存储计算机指令,所述计算机指令被处理器执行时,实现如上所述的同色系背景下目标果实识别方法,该方法包括:
[0093]
获取待识别的果园环境图像;
[0094]
利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
[0095]
其中,
[0096]
利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
[0097]
实施例5
[0098]
本发明实施例5提供一种计算机程序(产品),包括计算机程序,所述计算机程序当在一个或多个处理器上运行时,用于实现如上所述的同色系背景下目标果实识别方法,该方法包括:
[0099]
获取待识别的果园环境图像;
[0100]
利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
[0101]
其中,
[0102]
利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
[0103]
实施例6
[0104]
本发明实施例6提供一种电子设备,包括:处理器、存储器以及计算机程序;其中,处理器与存储器连接,计算机程序被存储在存储器中,当电子设备运行时,所述处理器执行所述存储器存储的计算机程序,以使电子设备执行实现如上所述的同色系背景下目标果实识别方法的指令,该方法包括:
[0105]
获取待识别的果园环境图像;
[0106]
利用预先训练好的识别模型对待识别的果园环境图像进行处理,获得目标果实识别结果;其中,所述预先训练好的识别模型由训练集训练得到,所述训练集包括多张果园环境图像以及标注果园环境图像中目标果实的标签;
[0107]
其中,
[0108]
利用预先训练好的识别模型对待识别的果园环境图像进行处理时,对提取的图像特征加入空间位置补码,补充损失信息。
[0109]
综上所述,本发明实施例所述的同色系背景下目标果实识别方法及系统,使用sparse-transformer编码器-解码器模型,解决果实采摘机器人的视觉系统果实检测效率较差、小目标不敏感的问题。识别精度高、速度快,较好的满足果实采摘机器人、产量预测等农业需求。使用小目标增强技术扩充样本空间,很好的适应小样本数据集,泛化能力强,可以应用到各种果实采摘或预产的机器人视觉系统中。
[0110]
本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
[0111]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0112]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0113]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0114]
上述虽然结合附图对本发明的具体实施方式进行了描述,但并非对本发明保护范围的限制,所属领域技术人员应该明白,在本发明公开的技术方案的基础上,本领域技术人员在不需要付出创造性劳动即可做出的各种修改或变形,都应涵盖在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1