用于操作机器的设备和计算机实现的方法与流程

文档序号：35117917发布日期：2023-08-14 11:31阅读：26来源：国知局

本发明涉及一种用于操作机器的设备和计算机实现的方法。

背景技术：

1、视觉问题回答可以用来改进机器的操作。视觉问题回答例如在以下文献中描述：antol，s.，agrawal，a.，lu，j.，mitchell，m.，batra，d.，zitnick，c.l.，parikh，d的“vqa：visual question answering”(载于：proceedings of the ieee internationalconference on computer vision.pp.2425-2433(2015))。

技术实现思路

1、当利用计算机实现的方法和根据独立权利要求的设备操作机器时，机器的操作被进一步改进。

2、用于操作机器的计算机实现的方法包括提供数字图像，提供问题的结构化表示，利用对象检测器并且取决于数字图像的至少一部分预测数字图像的区域，其中在数字图像中描绘了对象，利用分类器并且取决于该区域内的数字图像的至少一部分，预测指示该对象属于第一类的可能性的第一评分和指示该对象属于第二类的可能性的第二评分，其中该第一评分指示比该第二评分高的可能性，提供第一类的至少一个属性值，向回答集编程程序添加包括第一类的至少一个属性值的第一规则和/或包括第一类的至少一个属性值的第一约束，其中取决于评分分布的平均值和标准偏差来确定条件，所述评分针对多个类指示其相应类的对象被对象检测器检测到的相应可能性，确定第二评分是否满足条件，如果第二评分满足条件，则提供第二类的至少一个属性值，并向回答集编程程序添加包括第二类的至少一个属性值的第二规则和/或包括第二类的至少一个属性值的第二约束，取决于问题的结构化表示向回答集编程程序添加至少一个事实，利用回答集求解器确定对回答集编程程序的回答，其中回答包括第一类的至少一个属性值和/或第二类的至少一个属性值，取决于回答操作机器。

3、优选地，机器是机器人和/或车辆，其中该方法包括利用至少一个传感器检测数字图像，至少一个传感器特别是相机、雷达传感器、lidar传感器、超声传感器、红外传感器、运动传感器。

4、该方法优选地包括提供数字图像，该数字图像包括表示标志(特别是交通标志)、表面(特别是交通表面)或用户(特别是行人或车辆)的至少一个对象，其中第一类的至少一个属性值和第二类的至少一个属性值指示其类型，以及提供问题的结构化表示，以包括第一类的至少一个属性值和第二类的至少一个属性值中的至少一个属性值。

5、该方法可以包括取决于回答包括的至少一个属性值来确定动作。

6、优选地，该方法包括在表示标志的对象的属性值指示该标志是停止标志或者表示行人的对象的属性值指示行人是儿童的情况下，确定动作以包括停止机器，特别是执行紧急停止。

7、该方法优选地包括提供包括第一类和第二类的类集，提供数字图像集，利用对象检测器针对该数字图像集中的数字图像确定其相应的区域，利用分类器针对该数字图像集中的数字图像的区域确定针对该类集中的类的相应评分，其中每个评分指示在相应区域中描绘的对象属于类之一的可能性，以及取决于分配给该区域中的类的每区域一个评分、特别是评分的最大值的总和，来确定平均值。

8、优选地，该方法包括针对每区域一个评分确定其与平均值的相应差值，以及取决于这些差值确定标准偏差。

9、优选地，该方法包括取决于特别是利用参数加权的平均值和标准偏差之间的差值来确定阈值，以及如果第二评分等于或大于阈值，则确定满足条件。

10、优选地，该方法包括如果第二评分未能满足条件并且如果第二评分在预定评分集内，则将第二规则和/或第二约束添加到回答集编程程序。

11、优选地，该方法包括确定针对多个类的多个评分，其中每个评分指示在该区域中描绘的对象属于类之一的可能性，将来自多个评分的评分的量、特别是多个评分中的最高评分的量添加到评分集。

12、优选地，该方法包括向第一约束提供用于加权第一约束的第一权重，并且取决于利用第一权重加权的第一约束来确定回答，和/或向第二约束提供用于加权第二约束的第二权重，以及取决于利用第二权重加权的第二约束来确定回答。

13、优选地，该方法包括取决于第一置信度评分确定第一权重和/或取决于第二置信度评分确定第二权重。

14、用于操作机器的设备包括用于数字图像的输入、用于检测数字图像中描绘的对象的对象检测器、用于对由对象检测器检测到的对象进行分类的分类器、用于问题的输入、用于确定对问题的回答的回答集求解器、以及用于取决于回答集求解器根据该方法确定的回答来操作机器的指令的输出。

15、设备104可以包括用于捕获数字图像的至少一个传感器118和/或用于根据指令操作机器102的至少一个致动器120。

16、根据一个示例，一种计算机程序包括指令，所述指令当由计算机执行时，使得计算机执行该方法。

技术特征：

1.一种用于操作机器的计算机实现的方法，包括提供(202)数字图像，提供(204)问题的结构化表示，利用对象检测器(108)并且取决于数字图像的至少一部分预测(206)数字图像的区域，其中在数字图像中描绘了对象，利用分类器(110)并且取决于所述区域内的数字图像的至少一部分来预测(208)指示所述对象属于第一类的可能性的第一评分和指示所述对象属于第二类的可能性的第二评分，其中第一评分指示比第二评分高的可能性，提供(200)第一类的至少一个属性值，向回答集编程程序添加(210)包括第一类的至少一个属性值的第一规则和/或包括第一类的至少一个属性值的第一约束，其中取决于评分分布的平均值和标准偏差来确定(302，...，316)条件，所述评分针对多个类指示其相应类的对象被对象检测器(108)检测到的相应可能性，确定(212)第二评分是否满足条件，如果第二评分满足条件，则提供(200)第二类的至少一个属性值，并且向回答集编程程序添加(214-1)包括第二类的至少一个属性值的第二规则和/或包括第二类的至少一个属性值的第二约束，取决于问题的结构化表示向回答集编程程序添加(216)至少一个事实，利用回答集求解器(114)确定(218)对回答集编程程序的回答，其中所述回答包括第一类的至少一个属性值和/或第二类的至少一个属性值，取决于所述回答操作(220)机器(102)。

2.根据权利要求1所述的方法，其特征在于，所述机器(102)是机器人和/或车辆，其中所述方法包括利用至少一个传感器(118)检测(202)所述数字图像，所述至少一个传感器(118)特别是相机、雷达传感器、lidar传感器、超声传感器、红外传感器、运动传感器。

3.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括提供(202)数字图像，所述数字图像包括表示标志、表面或用户的至少一个对象，所述标志特别是交通标志，所述表面特别是交通表面，所述用户特别是行人或车辆，其中第一类的至少一个属性值和第二类的至少一个属性值指示其类型，以及提供(204)问题的结构化表示，以包括第一类的至少一个属性值和第二类的至少一个属性值中的至少一个属性值。

4.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括取决于所述回答包括的至少一个属性值来确定(220)动作。

5.根据权利要求4所述的方法，其特征在于，所述方法包括在表示标志的对象的属性值指示所述标志是停止标志或者表示行人的对象的属性值指示行人是儿童的情况下，确定(220)动作以包括停止机器，特别是执行紧急停止。

6.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括提供(302)包括第一类和第二类的类集，提供(304)数字图像集，利用对象检测器针对所述数字图像集中的数字图像确定(306)其相应的区域，利用分类器针对所述数字图像集中的数字图像的区域确定(308)所述类集中的类的相应评分，其中每个评分指示在相应区域中描绘的对象属于类之一的可能性，以及取决于分配给该区域中的类的每区域一个评分、特别是评分的最大值的总和，来确定(310)平均值。

7.根据权利要求6所述的方法，其特征在于，所述方法包括针对每区域一个评分确定(312)其与平均值的相应差值，以及取决于这些差值确定(314)标准偏差。

8.根据权利要求5至7中的一项所述的方法，其特征在于，所述方法包括取决于特别是利用参数加权的平均值和标准偏差之间的差值来确定(316)阈值，以及如果第二评分等于或大于阈值，则确定(212)满足条件。

9.根据前述权利要求中的一项所述的方法，其特征在于，所述方法包括：如果第二评分未能满足所述条件，并且如果第二评分在预定评分集内，则将第二规则和/或第二约束添加(214-2)到所述回答集编程程序。

10.根据权利要求9所述的方法，其特征在于，确定(208)针对多个类的多个评分，其中每个评分指示在所述区域中描绘的对象属于类之一的可能性，将来自所述多个评分的评分的量、特别是所述多个评分中的最高评分的量添加(214-2)到评分集。

11.根据前述权利要求中的一项所述的方法，其特征在于，向第一约束提供(210)用于加权第一约束的第一权重，并且取决于利用第一权重加权的第一约束来确定回答，和/或向第二约束提供(214-1，214-2)用于加权第二约束的第二权重，以及取决于利用第二权重加权的第二约束来确定(218)回答。

12.根据权利要求11所述的方法，其特征在于取决于第一置信度评分确定(210，214，214-2)第一权重和/或取决于第二置信度评分确定第二权重。

13.一种用于操作机器(102)的设备(104)，其特征在于，所述设备(104)包括用于数字图像的输入(106)、用于检测数字图像中描绘的对象的对象检测器(108)、用于对由对象检测器(108)检测到的对象进行分类的分类器(110)、用于问题的输入(112)、用于确定对问题的回答的回答集求解器(114)、以及用于取决于由回答集求解器(114)根据权利要求1至12中的一项的方法确定的回答来操作机器(102)的指令的输出(116)。

14.根据权利要求13所述的设备(104)，其特征在于，所述设备(104)包括用于捕获数字图像的至少一个传感器(118)和/或用于根据指令操作机器(102)的至少一个致动器(120)。

15.一种计算机程序，其特征在于，所述计算机程序包括指令，所述指令当由计算机执行时，使得计算机执行根据权利要求1至12中的一项的方法。

技术总结
用于操作机器的设备和计算机实现的方法，该方法包括提供数字图像，提供问题的结构化表示，利用对象检测器并且取决于数字图像的至少一部分预测数字图像的区域，其中在数字图像中描绘了对象，利用分类器并且取决于所述区域内的数字图像的至少一部分来预测指示所述对象属于第一类的可能性的第一评分和指示所述对象属于第二类的可能性的第二评分，其中第一评分指示比第二评分高的可能性，提供第一类的至少一个属性值，向回答集编程程序添加包括第一类的至少一个属性值的第一规则和/或包括第一类的至少一个属性值的第一约束，其中取决于评分分布的平均值和标准偏差来确定条件，所述评分针对多个类指示其相应类的对象被对象检测器检测到的相应可能性。

技术研发人员：J·厄奇,M·普利茨,N·伊格拉,T·艾特尔
受保护的技术使用者：罗伯特·博世有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：J
技术所有人：罗伯特
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。