基于二分图结构进行人物交互检测的多模态特征融合方法

文档序号:34980627发布日期:2023-08-02 06:32阅读:20来源:国知局
基于二分图结构进行人物交互检测的多模态特征融合方法

本发明属于计算机视觉中的人与物体交互检测领域,具体的说是涉及一种基于二分图结构进行人与物体交互检测的多模态特征融合方法。


背景技术:

1、人物交互检测(human-object interaction,hoi)是计算机视觉研究领域中一个重要方向,为相关的高级视觉任务提供重要线索,在图像理解和机器人技术中都有广泛应用。该任务的目的是定位场景中的人和物体位置并识别他们之间的交互关系。即给定输入图像,识别出所有的“人-动词-物体”三元关系组。

2、由于其在输出表示上和目标检测本质上是相似的,hoi检测通常作为目标检测的下游任务来处理。然而hoi识别任务不同于图像识别,图像识别主要是区分场景类型以及突出的对象类型,重点在于图像的整体理解,而hoi识别任务是在更精细的水平上来识别出人和物体之间的交互,不仅仅涉及人和对象实例,还需要获取图像中人和物体实例的上下文线索,对人和物体实例以及上下文线索进行推理以此来达到人和物体之间更精确的交互关系识别。

3、不同的hoi检测方法区别主要体现在交互识别阶段对实例对象采用的策略不同,目前基于全局实例的方法有三种实现方式,分别是融合空间位置信息、融合外观信息以及融合人体姿态信息。基于空间位置信息的方法偏向于快速定位与特定动作相关联的对象;基于外观特征的方法常利用人或物体的外观为条件,缩小目标对象的搜索空间;基于人体姿态信息的方法强调靠近交互区域的人体部位在检测时不同的重要程度。

4、但是上述三种实现方式都在不同的程度上影响了最后的识别的结果,导致准确性和鲁棒性差,影响识别的准确性。


技术实现思路

1、为了解决上述技术问题,本发明提供了一种基于二分图结构进行人与物体交互检测的多模态特征融合方法,该方法从图片中提取视觉信息,空间信息以及人体姿态信息来构造相应的特征,将经过消息传递后的特征进行融合来实现最后的交互推理,提高人物交互检测的准确率和鲁棒性。

2、为了实现上述目的,本发明是通过以下技术方案实现的:

3、本发明是一种基于二分图结构进行人与物体交互检测的多模态特征融合方法,该方法包括以下步骤:

4、步骤1)输入一个批次图片;

5、步骤2)对步骤1)中的每张图片使用faster r-cnn目标检测算法检测出图片中存在的人和物体实例,生成一个初始检测集合;

6、步骤3)将步骤2)获取到的初始检测集合输入到resnet50-fpn骨干网络中来提取视觉特征和空间特征;

7、步骤4)将步骤2)获取到的人和物体实例构造成二分图中的异构节点,并一一匹配成对,构建人物对;

8、步骤5)将步骤4)得到的人物对的特征在二分图中进行消息传递以消除消极的人物对,之后进行交互推理得到分类逻辑输出class logits1;

9、步骤6)对步骤4)构建的人物对进行关键点提取,将关键点信息输入到关键点特征处理网络模块,得到人体关键点特征信息和分类逻辑输出class logits2;

10、步骤7)对步骤5)以及步骤6)分别得到的分类逻辑输出进行融合得到最后的分类结果,从而实现人与物体之间的交互关系检测。

11、本发明的进一步改进在于:步骤4)包括以下步骤:

12、步骤41)将人和物体实例对应的候选框投影到features map上生成相应的特征;

13、步骤42)将人和物体的特征在二分图中以节点的形式表示;

14、步骤43)对于生成的n个节点,将类别为人的节点置于顶部,获取前n_h个节点特征,也就是人节点的特征;

15、步骤44)剩余的n-n_h个节点就是物体节点,然后将人节点和物体节点一一匹配成对。

16、本发明的进一步改进在于:步骤5)包括以下步骤:

17、步骤51)人和物体节点之间的消息传递函数表示如下;

18、人节点的更新:

19、

20、

21、物体节点的更新:

22、

23、

24、其中ln表示的是layernorm操作,σ是relu激活函数,α表示的是邻接矩阵中节点之间的邻接权值,而是消息传递时通过对具有相同索引i的值执行softmax得到的;同样是通过对具有相同索引j的值执行softmax得到的,分别表示的是行归一化和列归一化。m是消息传递函数,对于不同的方向有不同的参数,表示的是融合物体节点以及当前迭代次数下人节点和物体节点的边缘特征后对人节点的特征进行迭代更新,类似的则是更新物体节点。eij为边缘特征,将空间特征经过mlp映射到1024维度得到;xi,yj分别表示人和物体的视觉特征,同样经过mlp处理为1024维度。

25、步骤52)将人和物体的视觉特征和空间特征进行融合后经过mlp处理得到一个分类逻辑输出class logits1。

26、本发明的进一步改进在于:步骤6)所述的人体关键点特征提取包括以下步骤:

27、步骤61)获取图片中人体的17个关键点的位置坐标(xi,yi);

28、步骤62)将第i个关键点特征用以下公式表示:

29、

30、其中w,h分别表示图片的宽度和高度;(x,y)是检测框的中心坐标。

31、步骤63)人体关键点特征处理网络模块由batch norm层、relu层、dropout层和全连接层组成。首先设置四个全连接层维数分别为128,64,256以及数据集交互类别种类数k。将(n,17,2)维的向量通过全连接层以及后接fixed layer最后得到一个(n,k)维的分类逻辑输出class logits2。其中fixed layer是由batch norm层、relu层和dropout层组合而成。

32、本发明的进一步改进在于:步骤7)所述的特征融合包括以下步骤:

33、步骤71)将步骤5和步骤6)得到的两个逻辑输出进行融合;

34、步骤72)训练过程引入焦损(focal loss)作为二元分类损失函数,降低大量消极样本在训练中所占的权重,focal loss函数的公式为:

35、

36、其中是某一动作类别的概率分数,y∈{0,1}是二元标签,β∈[0,1]以及是超参数。β用来平衡积极样本和消极样本的比例,γ用来调节简单样本权重降低的速率。

37、本发明的有益效果是:

38、本发明首先获取一批次图片,从图片中分别提取视觉信息,空间信息以及姿态信息,然后利用二分图初始化人和物体节点的特征表示,构建人物对,随后进行人和物体之间的双向消息传递来消除复杂交互中的消极的人物对,通过关键点特征处理网络模块对提取的17个关键点进行处理得到姿态特征,最后将视觉特征,空间特征以及姿态特征经过处理之后的分类结果进行融合并引入焦损来进行训练,从而实现更精确的人与物体交互关系检测。

39、具体来说:

40、(1)本发明利用二分图结构来初始化人和物体节点,得到人和物体节点的特征表示。

41、(2)本发明引入双向消息传递算法来进行人和物体节点的更新,以此来消除复杂交互中的消极人物对实例。

42、(3)本发明运用多模态特征融合方法对图片中的视觉特征,空间特征以及姿态特征进行特征融合,得到更精细的特征表示,有效提高人与物体交互关系检测的准确性和可靠性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1