本发明涉及偏好预测领域,尤其是涉及了一种基于个性化注意力网络的用户偏好预测方法。
背景技术:
注意力是一种个性化的体验,不同的人即使在面临同一场景时,注意力也可能会集中在不同的区域或目标上。正确预测每个用户的注意力对于人机交互(HCI)应用程序至关重要。随着近期深度学习的进展和计算能力的提高,对象检测和显著性预测等视觉任务实现了更高的精度和更快的实现。对用户的注意点进行准确分析,有利于商家对商品感兴趣的人群进行针对性销售,或调整更受欢迎的商品的摆放位置等,从而实时调整销售策略;而对幼儿的注意力进行分析,则可以了解他们的兴趣点所在,以便在适当时期发展其兴趣爱好。传统的预测方法计算复杂,速度较慢,准确性并不高,使得其难以投入实际应用。
本发明提出了一种基于个性化注意力网络的用户偏好预测方法,给定输入图像,个性化注意力网络(PANet)将在多个尺度上提取其深度特征,并将它们传递给两个流:显著性预测流将生成显著性图,而不受用户偏好的影响,并且偏好拟合流将利用对象检测模型体系结构来生成根据输入偏好的偏好图;结合从两个流获得的结果后,将进行后处理(包括增加一个中心先验),预测结果将作为适合该特定用户的像素级显著图给出。本发明提出的个性化注意力网络,可以适应不同的用户偏好,在预测不同用户的注意力点时更加准确快速,更有利于实际应用。
技术实现要素:
针对传统的预测方法计算复杂,速度较慢,准确性并不高等问题,本发明的目的在于提供一种基于个性化注意力网络的用户偏好预测方法,给定输入图像,个性化注意力网络(PANet)将在多个尺度上提取其深度特征,并将它们传递给两个流:显著性预测流将生成显著性图,而不受用户偏好的影响,并且偏好拟合流将利用对象检测模型体系结构来生成根据输入偏好的偏好图;结合从两个流获得的结果后,将进行后处理(包括增加一个中心先验),预测结果将作为适合该特定用户的像素级显著图给出。
为解决上述问题,本发明提供一种基于个性化注意力网络的用户偏好预测方法,其主要内容包括:
(一)显著性预测流;
(二)偏好拟合流;
(三)合并两个流。
其中,所述的个性化注意力网络(PANet),PANet由两个共享共同特征提取层的卷积神经网络(CNN)组成;该模型需要三个输入:待处理的原始图像、用户定义的详细类到超类别映射以及超类别用户偏好向量;给定输入图像,PANet将在多个尺度上提取其深度特征,并将它们传递给两个流:显著性预测流将生成显著性图,而不受用户偏好的影响,并且偏好拟合流将利用对象检测模型体系结构来生成根据输入偏好的偏好图;结合从两个流获得的结果后,将进行后处理(包括增加一个中心先验),预测结果将作为适合该特定用户的像素级显著图给出;为了训练PANet模型,进行像素级的基于真实标注的回归,这是在给定输入偏好的情况下在训练生成器中动态生成的。
其中,所述的显著性预测流,为了结合输入图像的多尺度特征进行显著性预测,模型使用提取的特征VGG-16和单次检测器(SSD)自定义图层的不同层;使用三种不同比例的特征,大小分别为38×38,19×19,10×10采样到与第一个相同的大小;将第二和第三尺度的特征相结合可显着提高显著性预测的准确性;重新缩放之后,特征图被组合为三维张量,尺寸为38×38×3,共512个通道;然后将组合张量分别通过四个三维核卷积层,分别具有64、128、4、1个特征通道;然后,网络重塑为尺寸为38×38的三通道二维张量,并将其通过更多的1×1卷积层,从中网络输出具有用于显著性检测流的单个特征通道的最终结果。
其中,所述的偏好拟合流,该流与SSD模型中的自定义层相同,包含精选的锚点生成层,并在多个尺度上生成特征图;这部分的输出是对象类别、置信度和坐标信息的串联,需要非最大抑制(NMS)和映射层中将其转换回图像张量以进一步处理。
进一步地,所述的非最大抑制,在NMS层,网络根据其置信度选择是否保持检测;置信度阈值对于不同的数据集而言是不同的;将阈值设置为0.5,这可以检测大部分小物体并具有合理的误报率;NMS层将表示这些预测信息高可信地转换成图像空间中的二维张量。
进一步地,所述的张量,为了之后与显著性预测流合并,所创建的张量用作NMS层的输出被设置为大小为38×38,其通道数N与详细分类的数量相同;每个通道代表一个特定类别的预测。
进一步地,所述的预测信息,对于输入图像,如果存在类别Cati中对象的预测,则根据预测位置和预测置信度,张量的第i个通道将具有非零像素;在每个像素(x,y)处的值是(Conf1,…,Confk),其中Conf1,…,Confk是具有包围像素(x,y)的边界框的预测的置信度。
进一步地,所述的输出,NMS层的输出通道是详细的类别,而映射层将它们组合成代表超类的通道;映射层需要两个额外的输入:用户偏好向量和超类别到类别之间的定义映射;鉴于这样的映射:
表示的张量信道将合并成一个单独的信道SCati;表示SCati的新通道的像素方向值为:
其中,所述的合并两个流,该模型通过张量级联将两个流合并在一起,并且添加具有信道号为8和1的两个1×1卷积层以获得更多的非线性;此外,由于注意力一般集中在视野的中心位置,因此在最终激活层之前在模型之前添加一个中心,通过总结数据集中的所有显著性标定真实数据SALgt,然后将其标准化为[0,1]。
进一步地,所述的显著性标定真实数据,从数据集中的显著性标签生成此先验映射:
prior=∑SALgt (2)
最后,添加一个Softmax激活层,将最终预测作为概率图输出。
附图说明
图1是本发明一种基于个性化注意力网络的用户偏好预测方法的系统流程图。
图2是本发明一种基于个性化注意力网络的用户偏好预测方法的非最大抑制层。
图3是本发明一种基于个性化注意力网络的用户偏好预测方法的映射层。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本发明作进一步详细说明。
图1是本发明一种基于个性化注意力网络的用户偏好预测方法的系统流程图。主要包括显著性预测流,偏好拟合流,合并两个流。
个性化注意力网络(PANet)由两个共享共同特征提取层的卷积神经网络(CNN)组成;该模型需要三个输入:待处理的原始图像、用户定义的详细类到超类别映射以及超类别用户偏好向量;给定输入图像,PANet将在多个尺度上提取其深度特征,并将它们传递给两个流:显著性预测流将生成显著性图,而不受用户偏好的影响,并且偏好拟合流将利用对象检测模型体系结构来生成根据输入偏好的偏好图;结合从两个流获得的结果后,将进行后处理(包括增加一个中心先验),预测结果将作为适合该特定用户的像素级显著图给出;为了训练PANet模型,进行像素级的基于真实标注的回归,这是在给定输入偏好的情况下在训练生成器中动态生成的。
显著性预测流,为了结合输入图像的多尺度特征进行显著性预测,模型使用提取的特征VGG-16和单次检测器(SSD)自定义图层的不同层;使用三种不同比例的特征,大小分别为38×38,19×19,10×10采样到与第一个相同的大小;将第二和第三尺度的特征相结合可显着提高显著性预测的准确性;重新缩放之后,特征图被组合为三维张量,尺寸为38×38×3,共512个通道;然后将组合张量分别通过四个三维核卷积层,分别具有64、128、4、1个特征通道;然后,网络重塑为尺寸为38×38的三通道二维张量,并将其通过更多的1×1卷积层,从中网络输出具有用于显著性检测流的单个特征通道的最终结果。
偏好拟合流与SSD模型中的自定义层相同,包含精选的锚点生成层,并在多个尺度上生成特征图;这部分的输出是对象类别、置信度和坐标信息的串联,需要非最大抑制(NMS)和映射层中将其转换回图像张量以进一步处理。
合并两个流,该模型通过张量级联将两个流合并在一起,并且添加具有信道号为8和1的两个1×1卷积层以获得更多的非线性;此外,由于注意力一般集中在视野的中心位置,因此在最终激活层之前在模型之前添加一个中心,通过总结数据集中的所有显著性标定真实数据SALgt,然后将其标准化为[0,1]。
从数据集中的显著性标签生成此先验映射:
prior=∑SALgt (1)
最后,添加一个Softmax激活层,将最终预测作为概率图输出。
图2是本发明一种基于个性化注意力网络的用户偏好预测方法的非最大抑制层。网络根据其置信度选择是否保持检测;置信度阈值对于不同的数据集而言是不同的;将阈值设置为0.5,这可以检测大部分小物体并具有合理的误报率;NMS层将表示这些预测信息高可信地转换成图像空间中的二维张量。
为了之后与显著性预测流合并,所创建的张量用作NMS层的输出被设置为大小为38×38,其通道数N与详细分类的数量相同;每个通道代表一个特定类别的预测。
对于输入图像,如果存在类别Cati中对象的预测,则根据预测位置和预测置信度,张量的第i个通道将具有非零像素;在每个像素(x,y)处的值是(Conf1,…,Confk),其中Conf1,…,Confk是具有包围像素(x,y)的边界框的预测的置信度。
图3是本发明一种基于个性化注意力网络的用户偏好预测方法的映射层。NMS层的输出通道是详细的类别,而映射层将它们组合成代表超类的通道;映射层需要两个额外的输入:用户偏好向量和超类别到类别之间的定义映射;鉴于这样的映射:
表示的张量信道将合并成一个单独的信道SCati;表示SCati的新通道的像素方向值为:
对于本领域技术人员,本发明不限制于上述实施例的细节,在不背离本发明的精神和范围的情况下,能够以其他具体形式实现本发明。此外,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围,这些改进和变型也应视为本发明的保护范围。因此,所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。