训练方法、目标检测方法、装置、电子设备以及存储介质与流程

文档序号：28375573发布日期：2022-01-07 21:42阅读：85来源：国知局

1.本公开涉及人工智能技术领域，尤其涉及计算机视觉和深度学习技术。具体地，涉及一种训练方法、目标检测方法、装置、电子设备以及存储介质。

背景技术：

2.目标检测是计算机视觉领域较为基础的任务，其在智能安防、智慧交通和人机交互等领域有广泛的应用。
3.目标检测可以指从图像中分离出感兴趣的对象，并确定对象的类别和位置。

技术实现要素：

4.本公开提供了一种训练方法、目标检测方法、装置、电子设备以及存储介质。
5.根据本公开的一方面，提供了一种检测模型的训练方法，包括：将第一样本图像和第二样本图像输入第一预设模型，得到与上述第一样本图像对应的第一特征图和与上述第二样本图像对应的第二特征图；将第三样本图像和第四样本图像输入第二预设模型，得到与上述第三样本图像对应的第三特征图和与上述第四样本图像对应的第四特征图，其中，上述第一样本图像和上述第三样本图像是正样本图像对，上述第二样本图像和上述第四样本图像是负样本图像对；基于第一对比损失函数，利用上述第一特征图、上述第二特征图、上述第三特征图和上述第四特征图，调整上述第一预设模型的模型参数，直至满足预设条件，其中，上述第二预设模型的模型参数的数值与上述第一预设模型的模型参数的数值相同；以及，将在满足上述预设条件的情况下得到的第一预设模型确定为上述检测模型。
6.根据本公开的另一方面，提供了一种目标检测方法，包括：将待处理图像输入检测模型，得到上述待处理图像包括的每个对象的类别和位置，其中，上述检测模型是利用根据如上所述的方法训练的。
7.根据本公开的另一方面，提供了一种检测模型的训练装置，包括：第一获得模块，用于将第一样本图像和第二样本图像输入第一预设模型，得到与上述第一样本图像对应的第一特征图和与上述第二样本图像对应的第二特征图；第二获得模块，用于将第三样本图像和第四样本图像输入第二预设模型，得到与上述第三样本图像对应的第三特征图和与上述第四样本图像对应的第四特征图，其中，上述第一样本图像和上述第三样本图像是正样本图像对，上述第二样本图像和上述第四样本图像是负样本图像对；调整模块，用于基于第一对比损失函数，利用上述第一特征图、上述第二特征图、上述第三特征图和上述第四特征图，调整上述第一预设模型的模型参数，直至满足预设条件，其中，上述第二预设模型的模型参数的数值与上述第一预设模型的模型参数的数值相同；以及，确定模块，用于将在满足上述预设条件的情况下得到的第一预设模型确定为上述检测模型。
8.根据本公开的另一方面，提供了一种目标检测装置，包括：第七获得模块，用于将待处理图像输入检测模型，得到上述待处理图像包括的每个对象的类别和位置，其中，上述检测模型是利用根据如上所述的装置训练的。
9.根据本公开的另一方面，提供了一种电子设备，包括：至少一个处理器；以及与上述至少一个处理器通信连接的存储器；其中，上述存储器存储有可被上述至少一个处理器执行的指令，上述指令被上述至少一个处理器执行，以使上述至少一个处理器能够执行如上所述的方法。
10.根据本公开的另一方面，提供了一种存储有计算机指令的非瞬时计算机可读存储介质，其中，上述计算机指令用于使上述计算机执行如上所述的方法。
11.根据本公开的另一方面，提供了一种计算机程序产品，包括计算机程序，上述计算机程序在被处理器执行时实现如上所述的方法。
12.应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
13.附图用于更好地理解本方案，不构成对本公开的限定。其中：
14.图1示意性示出了根据本公开实施例的可以应用检测模型的训练方法、目标检测方法及装置的示例性系统架构；
15.图2示意性示出了根据本公开实施例的检测模型的训练方法的流程图；
16.图3示意性示出了根据本公开实施例的检测模型的训练过程的原理示意图；
17.图4示意性示出了根据本公开实施例的检测模型的训练过程的示例示意图；
18.图5示意性示出了根据本公开实施例的目标检测方法的流程图；
19.图6示意性示出了根据本公开实施例的内容处理装置的框图；
20.图7示意性示出了根据本公开实施例的目标检测装置的框图；以及
21.图8示意性示出了根据本公开实施例的适于实现检测模型的训练方法和目标检测方法的电子设备的框图。
具体实施方式
22.以下结合附图对本公开的示范性实施例做出说明，其中包括本公开实施例的各种细节以助于理解，应当将它们认为仅仅是示范性的。因此，本领域普通技术人员应当认识到，可以对这里描述的实施例做出各种改变和修改，而不会背离本公开的范围和精神。同样，为了清楚和简明，以下的描述中省略了对公知功能和结构的描述。
23.可以利用基于样本图像集训练得到的检测模型实现目标检测。可以利用如下方式基于样本图像集训练检测模型，即，可以利用公开的样本图像集对预设模型进行预训练，得到预训练模型。再利用与场景对应的样本图像集对预训练模型进行微调，得到与场景对应的检测模型。
24.与场景对应的样本图像集可能较难以涵盖场景的所有情况，例如，环境的变化导致同一场景的样本图像的变化较大，环境的变化可以包括天气的变化和光线明暗的变化等。此外，鲁棒性较好的检测模型可以被部署在多个场景，但有些场景可能与样本图像集对应的场景有较大差别。因此，基于上述方式训练得到的检测模型可能出现各种bad case，导致检测模型需要反复训练和微调。上述方式耗时耗力，并且有可能在bad case的基础上进行微调之后，导致检测模型的性能不能满足需要。基于上述方式训练得到的检测模型的鲁
棒性较差。
25.为此，本公开实施例提供了一种提高检测模型的鲁棒性的方案，即，将第一样本图像和第二样本图像输入第一预设模型，得到与第一样本图像对应的第一特征图和与第二样本图像对应的第二特征图。将第三样本图像和第四样本图像输入第二预设模型，得到与第三样本图像对应的第三特征图和与第四样本图像对应的第四特征图。第一样本图像和第三样本图像是正样本图像对，第二样本图像和第四样本图像是负样本图像对。基于第一对比损失函数，利用第一特征图、第二特征图、第三特征图和第四特征图，调整第一预设模型的模型参数，直至满足预设条件。第二预设模型的模型参数的数值与第一预设模型的模型参数的数值相同。将在满足预设条件的情况下得到的第一预设模型确定为检测模型。
26.第一特征图和第三特征图是与正样本图像对对应的特征图，第二特征图和第四特征图是与负样本图像对对应的特征图，通过对比学习的方式，利用第一对比损失函数处理第一特征图、第二特征图、第三特征图和第四特征图，使得第一预设模型能够学习到场景不变的信息，增强第一预设模型提取特征的质量，进而使得检测模型在不同场景下可以具有较高的鲁棒性。
27.图1示意性示出了根据本公开实施例的可以应用检测模型的训练方法、目标检测方法及装置的示例性系统架构。
28.需要注意的是，图1所示仅为可以应用本公开实施例的系统架构的示例，以帮助本领域技术人员理解本公开的技术内容，但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。例如，在另一实施例中，可以应用检测模型的训练方法、目标检测方法及装置的示例性系统架构可以包括终端设备，但终端设备可以无需与服务器进行交互，即可实现本公开实施例提供的检测模型的训练方法、目标检测方法及装置。
29.如图1所示，根据该实施例的系统架构100可以包括终端设备101、102、103，网络104和服务器105。网络104用以在终端设备101、102、103和服务器105之间提供通信链路的介质。网络104可以包括各种连接类型，例如有线和/或无线通信链路等。
30.用户可以使用终端设备101、102、103通过网络104与服务器105交互，以接收或发送消息等。终端设备101、102、103上可以安装有各种通讯客户端应用，例如知识阅读类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端和/或社交平台软件等(仅为示例)。
31.终端设备101、102、103可以是具有显示屏并且支持网页浏览的各种电子设备，包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等。
32.服务器105可以是提供各种服务的各种类型的服务器，例如对用户利用终端设备101、102、103所浏览的内容提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户请求等数据进行分析等处理，并将处理结果(例如根据用户请求获取或生成的网页、信息、或数据等)反馈给终端设备。
33.需要说明的是，本公开实施例所提供的检测模型的训练方法和目标检测方法一般可以由终端设备101、102、或103执行。相应地，本公开实施例所提供的检测模型的训练装置和目标检测装置也可以设置于终端设备101、102、或103中。
34.或者，本公开实施例所提供的检测模型的训练方法和目标检测方法一般也可以由服务器105执行。相应地，本公开实施例所提供的检测模型的训练装置和目标检测装置一般
可以设置于服务器105中。本公开实施例所提供的检测模型的训练方法和目标检测方法也可以由不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群执行。相应地，本公开实施例所提供的检测模型的训练装置和目标检测装置也可以设置于不同于服务器105且能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群中。
35.例如，服务器105可以是云服务器，又称为云计算服务器或云主机，是云计算服务体系中的一项主机产品，解决了传统物理主机与vps服务(virtual private server，vps)中，存在的管理难度大，业务扩展性弱的缺陷。服务器105也可以为分布式系统的服务器，或者是结合了区块链的服务器。
36.例如，服务器105将第一样本图像和第二样本图像输入第一预设模型，得到与第一样本图像对应的第一特征图和与第二样本图像对应的第二特征图，将第三样本图像和第四样本图像输入第二预设模型，得到与第三样本图像对应的第三特征图和与第四样本图像对应的第四特征图。第一样本图像和第三样本图像是正样本图像对，第二样本图像和第四样本图像是负样本图像对。基于第一对比损失函数，利用第一特征图、第二特征图、第三特征图和第四特征图，调整第一预设模型的模型参数，直至满足预设条件。第二预设模型的模型参数的数值与第一预设模型的模型参数的数值相同。将在满足预设条件的情况下得到的第一预设模型确定为检测模型。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群基于第一对比损失函数，利用第一特征图、第二特征图、第三特征图和第四特征图，调整第一预设模型的模型参数，直至满足预设条件。
37.例如，服务器105将待处理图像输入检测模型，得到待处理图像包括的每个对象的类别和位置。或者由能够与终端设备101、102、103和/或服务器105通信的服务器或服务器集群将待处理图像输入检测模型，得到待处理图像包括的每个对象的类别和位置。
38.应该理解，图1中的终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。
39.图2示意性示出了根据本公开实施例的检测模型的训练方法的流程图。
40.如图2所示，该方法200包括操作s210～s240。
41.在操作s210，将第一样本图像和第二样本图像输入第一预设模型，得到与第一样本图像对应的第一特征图和与第二样本图像对应的第二特征图。
42.在操作s220，将第三样本图像和第四样本图像输入第二预设模型，得到与第三样本图像对应的第三特征图和与第四样本图像对应的第四特征图。第一样本图像和第三样本图像是正样本图像对，第二样本图像和第四样本图像是负样本图像对。
43.在操作s230，基于第一对比损失函数，利用第一特征图、第二特征图、第三特征图和第四特征图，调整第一预设模型的模型参数，直至满足预设条件。第二预设模型的模型参数的数值与第一预设模型的模型参数的数值相同。
44.在操作s240，将在满足预设条件的情况下得到的第一预设模型确定为检测模型。
45.根据本公开的实施例，第一预设模型和第二预设模型可以是网络结构相同的两个模型。第一预设模型和第二预设模型的模型参数的数值可以相同。第一预设模型和第二预设模型可以包括基于一阶段(即one-stage)的检测模型或基于两阶段(即two-stage)的检测模型。基于两阶段的检测模型可以包括rcnn(region convolutional neural network)、
fast rcnn、faster rcnn或mask rcnn。
46.根据本公开的实施例，正样本图像对可以指两个样本图像是相同场景下的图像。负样本图像对可以指两个样本图像是不同场景下的图像。正样本图像对和负样本图像对可以是与至少一个场景对应的样本图像对。正样本图像对的数目和负样本图像对的数目可以包括多个。第一样本图像和第三样本图像可以是正样本图像对。第二样本图像和第四样本图像可以是负样本图像对。第一样本图像和第三样本图像中的至少一项可以是采集得到的。第一样本图像和第三样本图像中的至少一项也可以是对预设图像进行处理得到的。预设图像可以包括第一样本图像、第三样本图像或其他样本图像。第一样本图像可以与第二样本图像、第三样本图像和第四样本图像可以相同或不同。第二样本图像可以与第一样本图像和第三样本图像相同或不同。第三样本图像可以与第一样本图像、第二样本图像和第四样本图像相同或不同。第四样本图像可以与第一样本图像和第三样本图像相同或不同。
47.根据本公开的实施例，第一对比函数可以用于使得第一样本图像和第三样本图像之间的相似度尽可能大，使得第二样本图像和第四样本图像之间的相似度尽可能小。相似度可以根据实际业务需求进行设定，在此不作限定。例如，相似度可以包括余弦相似度、皮尔逊相关系数、欧式距离或jaccard距离。
48.根据本公开的实施例，预设条件可以用于作为确定第一预设模型是否训练完成的条件。预设条件可以包括训练次数大于或等于次数阈值。备选的，预设条件可以包括损失函数的输出值收敛。损失函数可以包括第一对比损失函数。检测模型可以用于检测图像中对象的位置和类别。
49.根据本公开的实施例，针对正样本图像对，可以利用第一预设模型处理第一样本图像，得到与第一样本图像对应的第一特征图。利用第二预设模型处理第三样本图像，得到与第三样本图像对应的第三特征图。针对负样本图像对，可以利用第二预设模型处理第二样本图像，得到与第二样本图像对的第二特征图。利用第二预设模型处理第四样本图像，得到与第四样本图像对应的第四特征图。
50.根据本公开的实施例，在获得第一特征图、第二特征图、第三特征图和第四特征图之后，可以将第一特征图、第二特征图、第三特征图和第四特征图输入第一对比损失函数，得到输出值，再根据输出值，调整第一预设模型的模型参数，直至满足预设条件。可以利用梯度下降算法处理第一对比损失函数，得到梯度向量，根据梯度向量，调整第一预设模型的模型参数。梯度下降算法可以包括随机梯度下降算法。在根据梯度向量调整第一预设模型的模型参数的过程中，可以基于梯度向量，利用反向传播法来调整第一预设模型的模型参数。在训练过程中，第二预设模型不参与利用反向传播法来调整模型参数的过程。在确定第一预设模型的模型参数的数值之后，将第二预设模型的模型参数的数值调整至与第一预设模型的模型参数的数值一致即可。
51.根据本公开的实施例，第一特征图和第三特征图是与正样本图像对对应的特征图，第二特征图和第四特征图是与负样本图像对对应的特征图，通过对比学习的方式，利用第一对比损失函数处理第一特征图、第二特征图、第三特征图和第四特征图，使得第一预设模型能够学习到场景不变的信息，增强第一预设模型提取特征的质量，进而使得检测模型在不同场景下可以具有较高的鲁棒性。
52.根据本公开的实施例，操作s230可以包括如下操作。
53.基于第一对比损失函数，利用第一特征图和第三特征图，得到第一输出值。基于第一对比损失函数，利用第二特征图和第四特征图，得到第二输出值。根据输出值调整第一预设模型的模型参数，直至输出值输出值收敛。输出值包括第一输出值和第二输出值。将在输出值收敛情况下得到的第一预设模型确定为检测模型。
54.根据本公开的实施例，可以将第一特征图和第三特征图输出第一对比损失函数，得到第一输出值。将第二特征图和第四特征图输入第一对比损失函数，得到第二输出值。再根据第一输出值和第二输出值，得到输出值。根据输出值调整第一预设模型的模型参数。
55.根据本公开的实施例，第一对比损失函数可以根据如下公式(1)确定。
[0056][0057]
根据本公开的实施例，n表征样本图像对的数目。y表征两个样本图像是否匹配的标签。y＝0表征两个样本图像不匹配。y＝1表征两个样本图像匹配。d可以表征两个样本图像的欧式距离。margin表征预设阈值。如果两个样本图像是正样本图像对，则可以认为两个样本图像匹配。如果两个样本图像是负样本图像对，则可以认为两个样本图像不匹配。
[0058]
根据本公开的实施例，输出值还包括第三输出值和第四输出值。
[0059]
根据本公开的实施例，上述检测模型的训练方法还可以包括如下操作。
[0060]
将第一特征图和第二特征图分别输入第一预设模型，得到第一样本图像包括的每个对象的第一实例向量和第二样本图像包括的每个对象的第二实例向量。将第三特征图和第四特征图分别输入第二预设模型，得到第三样本图像包括的每个对象的第三实例向量和第四样本图像包括的每个对象的第四实例向量。基于第二对比损失函数，利用第一实例向量和第三实例向量，得到第三输出值。基于第二对比损失函数，利用第二实例向量和第四实例向量，得到第四输出值。
[0061]
根据本公开的实施例，实例(即instance)向量可以用于表征样本图像包括的对象的特征。样本图像可以包括至少一个对象。
[0062]
根据本公开的实施例，第二对比函数可以用于使得第一样本图像的对象和第三样本图像的同一对象之间的相似度尽可能大，使得第二样本图像的对象和第四样本图像的对象之间的相似度尽可能小。
[0063]
根据本公开的实施例，针对正样本图像对，可以利用第一预设模型处理第一特征图，得到第一样本图像中的每个对象的第一实例向量。利用第二预设模型处理第三样本图像，得到第三样本图像中的每个对象的第三实例向量。针对负样本图像对，可以利用第二预设模型处理第二样本图像，得到第二样本图像中的每个对象的第二实例向量。利用第四预设模型处理第四样本图像，得到第四样本图像中的每个对象的第四实例向量。
[0064]
根据本公开的实施例，在获得第一实例向量、第二实例向量、第三实例向量和第四实例向量之后，可以将第一实例向量和第三实例向量输入第二对比损失函数，得到第三输出值。将第二实例向量和第四实例向量输入第二对比损失函数，得到第四输出值。
[0065]
根据本公开的实施例，根据第一输出值、第二输出值、第三输出值和第四输出值，得到输出值。再根据输出值，调整第一预设模型的模型参数，直至满足预设条件。
[0066]
根据本公开的实施例，利用第二对比损失函数处理第一实例向量、第二实例向量、第三实例向量和第四实例向量，能够有效保证实例向量的一致性，使得第一预设模型能够
在不同场景下都可以识别已有类别的对象，降低误检现象，进而提高检测模型的鲁棒性。
[0067]
根据本公开的实施例，将第一特征图和第二特征图分别输入第一预设模型，得到第一样本图像包括的每个对象的第一实例向量和第二样本图像包括的每个对象的第二实例向量，可以包括如下操作。
[0068]
将第一特征图和第二特征图分别输入第一预设模型的检测头，得到第一样本图像包括的每个对象的第一实例向量和第二样本图像包括的每个对象的第二实例向量。
[0069]
根据本公开的实施例，将第三特征图和第四特征图分别输入第二预设模型，得到第三样本图像包括的每个对象的第三实例向量和第四样本图像包括的每个对象的第四实例向量，可以包括如下操作。
[0070]
将第三特征图和第四特征图分别输入第二预设模型的检测头，得到第三样本图像包括的每个对象的第三实例向量和第四样本图像包括的每个对象的第四实例向量。
[0071]
根据本公开的实施例，第一预设模型和第二预设模型均可以包括检测头。检测头可以用于确定对象的位置和类别。检测头可以包括候选区域网络(region proposal network，rpn)和roipool。备选地，检测头可以包括候选区域网络和roialign。roi可以指感兴趣区域，即，region of interest。
[0072]
根据本公开的实施例，操作s210可以包括如下操作。
[0073]
将第一样本图像和第二样本图像分别输入第一预设模型的骨干网络，得到与第一样本图像对应的第一特征图和与第二样本图像对应的第二特征图。
[0074]
根据本公开的实施例，操作s220可以包括如下操作。
[0075]
将第三样本图像和第四样本图像输入第二预设模型的骨干网络，得到与第三样本图像对应的第三特征图和与第四样本图像对应的第四特征图。
[0076]
根据本公开的实施例，第一预设模型和第二预设模型均可以包括骨干(即backbone)网络。骨干网络可以用于对图像进行特征提取。
[0077]
根据本公开的实施例，第二样本图像是利用数据增强方法处理第一样本图像得到的。
[0078]
根据本公开的实施例，数据增强方法可以包括几何变换方法和像素变换方法中的至少一项。几何变换方法可以包括翻转、旋转、裁剪、缩放、平移和抖动中的至少一项。像素变换方法可以包括调节清晰度、调节对比度、调节亮度和调节饱和度中的至少一项。
[0079]
根据本公开的实施例，可以利用数据增强方法处理第一样本图像，得到第二样本图像，使得第二样本图像和第一样本图像是相同场景下的图像。
[0080]
根据本公开的实施例，第一样本图像可以是利用数据增强方法处理第二样本图像得到的。
[0081]
下面参考图3～图4，结合具体实施例对本公开实施例所述的检测模型的训练方法做进一步说明。
[0082]
图3示意性示出了根据本公开实施例的检测模型的训练过程的原理示意图。
[0083]
如图3所示，第一预设模型包括骨干网络303和检测头314。第二预设模型包括骨干网络308和检测头317。
[0084]
在检测模型的训练过程300中，将第一样本图像301输入骨干网络303，得到与第一样本图像301对应的第一特征图304。将第二样本图像302输入骨干网络303，得到与第二样
本图像302对应的第二特征图305。
[0085]
将第三样本图像306输入骨干网络308，得到与第三样本图像308对应的第三特征图309。将第四样本图像307输入骨干网络308，得到与第四样本图像307对应的第四特征图310。
[0086]
将第一特征图304和第三特征图309输入第一对比损失函数311，得到第一输出值312。将第二特征图305和第四特征图310输入第一对比损失函数311，得到第二输出值313。
[0087]
将第一特征图304输入检测头314，得到第一样本图像301包括的每个对象的第一实例向量315。将第二特征图305输入检测头314，得到第二样本图像302包括的每个对象的第二实例向量316。
[0088]
将第三特征图309输入检测头317，得到第三样本图像306包括的每个对象的第三实例向量318。将第四特征图310输入检测头317，得到第四样本图像307包括的每个对象的第四实例向量319。
[0089]
将第一实例向量315和第三实例向量318输入第二对比损失函数320，得到第三输出值321。将第二实例向量316和第四实例向量319输入第二对比损失函数320，得到第四输出值322。
[0090]
根据第一输出值312、第二输出值313、第三输出值321和第四输出值322，得到输出值323。
[0091]
根据输出值323，调整第一预设模型包括的骨干网络303和检测头314的模型参数，直至满足预设条件。将在满足预设条件的情况下训练得到的第一预设模型确定为检测模型。
[0092]
下面参考图4，以检测头包括候选区域网络和roialign为例对检测模型的训练过程做进一步说明。
[0093]
图4示意性示出了根据本公开实施例的检测模型的训练过程的示例示意图。
[0094]
如图4所示，第一预设模型401包括骨干网络4010和检测头4011。检测头4011包括候选区域网络4011a和roialign4011b。第二预设模型402包括骨干网络4020和检测头4021。检测头4021包括候选区域网络4021a和roialign4021b。
[0095]
在检测模型的训练过程400中，将第一样本图像403输入骨干网络4010，得到第一特征图。对第一特征图的每个像素位置设置预设数目的初始区域(即初始roi)，再将预设数目的初始区域输入候选区域网络4011a，得到初始区域是前景或背景的分类结果和初始区域的位置。根据分类结果和位置，从预设数目的初始区域中确定至少一个候选区域。再将第一特征图和至少一个候选区域输入roialign4011b，得到候选特征图405(即proposal feature map)。再对候选特征图405进行分类操作，得到第一样本图像403包括的每个对象的第一实例向量406。将候选特征图405输入box head407，得到每个对象的位置。
[0096]
将第三样本图像404输入骨干网络4020，得到第二特征图。对第二特征图的每个像素位置设置预设数目的初始区域(即初始roi)，再将预设数目的初始区域输入候选区域网络4021a，得到初始区域是前景或背景的分类结果和初始区域的位置。根据分类结果和位置，从预设数目的初始区域中确定至少一个候选区域。再将第二特征图和至少一个候选区域输入roialign4021b，得到候选特征图408。再对候选特征图408进行分类操作，得到第三样本图像408包括的每个对象的第三实例向量409。
[0097]
在训练过程中，引入第一对比损失函数使得骨干网络能够学习到场景不变的信息。引入第二对比损失函数使得实例向量在不同场景能够保持一致性。骨干网络4010和骨干网络4020的模型参数共享。候选区域网络4011a和候选区域4021a的模型参数共享。roialign4011b和roialign4021b的模型参数共享。
[0098]
以上仅是示例性实施例，但不限于此，还可以包括本领域已知的其他检测模型的训练方法和目标检测方法，只要能够实现提高检测模型的鲁棒性即可。
[0099]
需要说明的是，本公开的技术方案中，所涉及的用户个人信息的收集、存储、使用、加工、传输、提供和公开等处理，均符合相关法律法规的规定，且不违背公序良俗。
[0100]
图5示意性示出了根据本公开实施例的目标检测方法的流程图。
[0101]
如图5所示，该方法500包括操作s510。
[0102]
在操作s510，将待处理图像输入检测模型，得到待处理图像包括的每个对象的类别和位置。
[0103]
根据本公开的实施例，检测模型是利用根据本公开实施例的检测模型的训练方法训练的。
[0104]
根据本公开的实施例，检测模型可以包括骨干网络和检测头。可以将待处理图像输入检测模型的骨干网络，得到与待处理图像对应的待处理特征图。将待处理特征图输入检测模型的检测头，得到待处理图像包括的每个对象的实例向量。对每个实例向量进行分类，得到每个对象的类别。此外，将待处理特征图输入检测模型的检测头还可以得到与每个对象对应的候选区域。对候选区域进行位置确定，得到每个对象的位置。
[0105]
图6示意性示出了根据本公开实施例的内容处理装置的框图。
[0106]
如图6所示，检测模型的训练装置600可以包括第一获得模块610、第二获得模块620、调整模块630和确定模块640。
[0107]
第一获得模块610，用于将第一样本图像和第二样本图像输入第一预设模型，得到与第一样本图像对应的第一特征图和与第二样本图像对应的第二特征图。
[0108]
第二获得模块620，用于将第三样本图像和第四样本图像输入第二预设模型，得到与第三样本图像对应的第三特征图和与第四样本图像对应的第四特征图。第一样本图像和第三样本图像是正样本图像对，第二样本图像和第四样本图像是负样本图像对。
[0109]
调整模块630，用于基于第一对比损失函数，利用第一特征图、第二特征图、第三特征图和第四特征图，调整第一预设模型的模型参数，直至满足预设条件。第二预设模型的模型参数的数值与第一预设模型的模型参数的数值相同。
[0110]
确定模块640，用于将在满足预设条件的情况下得到的第一预设模型确定为检测模型。
[0111]
根据本公开的实施例，调整模块630可以包括第一获得单元、第二获得单元、调整单元和确定单元。
[0112]
第一获得单元，用于基于第一对比损失函数，利用第一特征图和第三特征图，得到第一输出值。
[0113]
第二获得单元，用于基于第一对比损失函数，利用第二特征图和第四特征图，得到第二输出值。
[0114]
调整单元，用于根据输出值调整第一预设模型的模型参数，直至输出值输出值收
敛。输出值包括第一输出值和第二输出值。
[0115]
确定单元，用于将在输出值收敛情况下得到的第一预设模型确定为检测模型。
[0116]
根据本公开的实施例，输出值还包括第三输出值和第四输出值；
[0117]
根据本公开的实施例，上述检测模型的训练装置600还可以包括第三获得模块、第四获得模块、第五获得模块和第六获得模块。
[0118]
第三获得模块，用于将第一特征图和第二特征图分别输入第一预设模型，得到第一样本图像包括的每个对象的第一实例向量和第二样本图像包括的每个对象的第二实例向量。
[0119]
第四获得模块，用于将第三特征图和第四特征图分别输入第二预设模型，得到第三样本图像包括的每个对象的第三实例向量和第四样本图像包括的每个对象的第四实例向量。
[0120]
第五获得模块，用于基于第二对比损失函数，利用第一实例向量和第三实例向量，得到第三输出值。
[0121]
第六获得模块，用于基于第二对比损失函数，利用第二实例向量和第四实例向量，得到第四输出值。
[0122]
根据本公开的实施例，第一获得模块610可以包括第三获得单元。
[0123]
第三获得单元，用于将第一样本图像和第二样本图像分别输入第一预设模型的骨干网络，得到与第一样本图像对应的第一特征图和与第二样本图像对应的第二特征图。
[0124]
根据本公开的实施例，第二获得模块620可以包括第四获得单元。
[0125]
第四获得单元，用于将第三样本图像和第四样本图像输入第二预设模型的骨干网络，得到与第三样本图像对应的第三特征图和与第四样本图像对应的第四特征图。
[0126]
根据本公开的实施例，第三获得模块可以包括第五获得单元。
[0127]
第五获得单元，用于将第一特征图和第二特征图分别输入第一预设模型的检测头，得到第一样本图像包括的每个对象的第一实例向量和第二样本图像包括的每个对象的第二实例向量；
[0128]
根据本公开的实施例，第四获得模块可以包括第六获得单元。
[0129]
第六获得单元，用于将第三特征图和第四特征图分别输入第二预设模型的检测头，得到第三样本图像包括的每个对象的第三实例向量和第四样本图像包括的每个对象的第四实例向量。
[0130]
根据本公开的实施例，第二样本图像是利用数据增强方法处理第一样本图像得到的。
[0131]
图7示意性示出了根据本公开实施例的目标检测装置的框图。
[0132]
如图7所示，目标检测装置700可以包括第七获得模块710。
[0133]
第七获得模块710，用于将待处理图像输入检测模型，得到待处理图像包括的每个对象的类别和位置。
[0134]
根据本公开的实施例，检测模型是利用根据本公开实施例的检测模型的训练装置训练的。
[0135]
根据本公开的实施例，本公开还提供了一种电子设备、一种可读存储介质和一种计算机程序产品。
[0136]
根据本公开的实施例，一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器；其中，存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行如上所述的方法。
[0137]
根据本公开的实施例，一种存储有计算机指令的非瞬时计算机可读存储介质，其中，计算机指令用于使计算机执行如上所述的方法。
[0138]
根据本公开的实施例，一种计算机程序产品，包括计算机程序，计算机程序在被处理器执行时实现如上所述的方法。
[0139]
图8示意性示出了根据本公开实施例的适于实现检测模型的训练方法和目标检测方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。
[0140]
如图8所示，电子设备800包括计算单元801，其可以根据存储在只读存储器(rom)802中的计算机程序或者从存储单元808加载到随机访问存储器(ram)803中的计算机程序，来执行各种适当的动作和处理。在ram 803中，还可存储电子设备800操作所需的各种程序和数据。计算单元801、rom 802以及ram 803通过总线804彼此相连。输入/输出(i/o)接口805也连接至总线804。
[0141]
电子设备800中的多个部件连接至i/o接口805，包括：输入单元806，例如键盘、鼠标等；输出单元807，例如各种类型的显示器、扬声器等；存储单元808，例如磁盘、光盘等；以及通信单元809，例如网卡、调制解调器、无线通信收发机等。通信单元809允许电子设备800通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据。
[0142]
计算单元801可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元801的一些示例包括但不限于中央处理单元(cpu)、图形处理单元(gpu)、各种专用的人工智能(ai)计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器(dsp)、以及任何适当的处理器、控制器、微控制器等。计算单元801执行上文所描述的各个方法和处理，例如检测模型的训练方法或目标检测方法。例如，在一些实施例中，检测模型的训练方法或目标检测方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元808。在一些实施例中，计算机程序的部分或者全部可以经由rom 802和/或通信单元809而被载入和/或安装到设备800上。当计算机程序加载到ram 803并由计算单元801执行时，可以执行上文描述的检测模型的训练方法或目标检测方法的一个或多个步骤。备选地，在其他实施例中，计算单元801可以通过其他任何适当的方式(例如，借助于固件)而被配置为执行检测模型的训练方法或目标检测方法。
[0143]
本文中以上描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、场可编程门阵列(fpga)、专用集成电路(asic)、专用标准产品(assp)、芯片上系统的系统(soc)、负载可编程逻辑设备(cpld)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括：实施在一个或者多个计算机程序中，该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释，该可编程处理器可以是专用或者通用可编程处理器，可以从存储系统、至少一个输入装置、和至少一个输出
装置接收数据和指令，并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。
[0144]
用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。
[0145]
在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦除可编程只读存储器(eprom或快闪存储器)、光纤、便捷式紧凑盘只读存储器(cd-rom)、光学储存设备、磁储存设备、或上述内容的任何合适组合。
[0146]
为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置(例如，crt(阴极射线管)或者lcd(液晶显示器)监视器)；以及键盘和指向装置(例如，鼠标或者轨迹球)，用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈(例如，视觉反馈、听觉反馈、或者触觉反馈)；并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。
[0147]
可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如，作为数据服务器)、或者包括中间件部件的计算系统(例如，应用服务器)、或者包括前端部件的计算系统(例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如，通信网络)来将系统的部件相互连接。通信网络的示例包括：局域网(lan)、广域网(wan)和互联网。
[0148]
计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。服务器可以是云服务器，也可以是分布式系统的服务器，或者是结合了区块链的服务器。
[0149]
应该理解，可以使用上面所示的各种形式的流程，重新排序、增加或删除步骤。例如，本发公开中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行，只要能够实现本公开公开的技术方案所期望的结果，本文在此不进行限制。
[0150]
上述具体实施方式，并不构成对本公开保护范围的限制。本领域技术人员应该明白的是，根据设计要求和其他因素，可以进行各种修改、组合、子组合和替代。任何在本公开的精神和原则之内所作的修改、等同替换和改进等，均应包含在本公开保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：谌强
技术所有人：北京百度网讯科技有限公司
我是此专利的发明人

上一篇：一种有机竹笋粉的生产制备工艺的制作方法
上一篇：一种基于物联网的碳氮转化测量系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。