一种基于物联网的主题公园内ar交互方法
技术领域
1.本发明涉及数据处理领域,具体涉及一种基于物联网的主题公园内ar交互方法。
背景技术:2.对于主题公园来说,需要为用户展示较多信息,例如:动植物的信息数据、视频动画等,用户佩戴ar设备与主题公园进行交互,通过将需要展示的信息显示在ar设备中,从而使得用户获得良好的观感体验,对于ar设备而言,ar设备在工作时需要用相机获取视野中的图像数据,然后通过神经网络获取图像中交互物品的语义区域,所述交互物品,例如:动物模型、玩偶、雕塑等。
3.现有方法需要通过语义分割网络来对视野中的交互区域进行分割,而现有的语义分割神经网络的训练需要大量的标签数据,因此在进行神经网络训练之前,需要进行大量的图像数据打标签工作,而仅通过标签数据对神经网络进行训练,训练效果并不是很好,有可能导致语义区域分割不准确使得用户体验较差。
技术实现要素:4.为了解决现有技术中在进行神经网络训练之前,需要进行大量的图像标签工作,且仅通过标签图像对神经网络进行训练,训练效果并不是很好的问题,本发明提供一种基于物联网的主题公园内ar交互方法,包括采集公园场景图像并进行超像素分割,获取超像素分割图像的标签图像;构建卷积神经网络进行训练;获取不同扩张率下的特征图,计算每个扩张率下像素点的权重值;获取最大权重值对应的扩张率作为最优扩张率,获取超像素分割图像中每个像素点的最优权重值;根据最优权重值优化神经网络的损失函数,得到优化后的卷积神经网络;利用优化后的卷积神经网络获取可交互区域标记图像;通过ar设备对输出实际公园场景图像中可交互区域进行操作。
5.根据本发明提出的技术手段,通过标签数据在神经网络训练过程中的特征图,结合超像素分割获取原图像中每个像素点的权重值对神经网络进行优化,利用优化后的神经网络实现对待识别图像自动打标签的功能,免了人工打标签的大工作量,同时避免了由于人工的疲惫或失误造成标签数据中存在大量噪声标签的问题,提高了标签质量的同时,大大减少了打标签的工作量,且通过神经网络输出的标签图像能够精准获取不同的交互区域,从而更好的完成ar交互。
6.本发明采用如下技术方案,一种基于物联网的主题公园内ar交互方法,包括:采集公园场景图像并进行超像素分割,得到超像素分割图像,对超像素分割图像各个交互区域进行标记,得到超像素分割图像的标签图像。
7.构建卷积神经网络,将超像素分割图像作为卷积神经网络的输入,对应标注图像作为输出对卷积神经网络进行训练,得到训练后的卷积神经网络。
8.利用卷积神经网络获取超像素分割图像的特征图,利用不同扩张率的卷积核对特征图进行卷积,计算特征图中每个像素点在每个扩张率下的权重值。
9.获取特征图中每个像素点最大权重值对应的扩张率作为该像素点的最优扩张率,根据特征图中每个像素点最优扩张率下的最大权重值构建神经网络卷积层的损失函数,得到优化后的卷积神经网络。
10.将超像素分割图像输入优化后的卷积神经网络,输出公园场景中的可交互区域标记图像;利用ar设备对输出的实际公园场景图像中可交互区域进行操作。
11.进一步的,一种基于物联网的主题公园内ar交互方法,构建的卷积神经网络包括卷积层、池化层以及输出层;利用卷积神经网络的卷积层对超像素分割图像进行卷积操作得到特征图;选取不同扩张率的卷积核对特征图分别进行卷积操作,得到特征图中不同扩张率下的每个像素点。
12.进一步的,一种基于物联网的主题公园内ar交互方法,计算特征图中每个像素点在每个扩张率下的权重值的方法为:获取特征图中每个像素点在每个扩张率下的感受野区域,将每个像素点的感受野区域投影至超像素分割图像中,获取特征图中每个像素点在每个扩张率下的感受野区域在超像素分割图像中包含的超像素块个数;将特征图中每个像素点在每个扩张率下的感受野区域投影至超像素分割图像的标签图像,计算每个像素点在每个扩张率下的感受野区域到标签图像中各个交互区域边界线的最小距离;根据特征图中每个像素点在每个扩张率下的感受野区域在超像素分割图像中包含的超像素块个数、每个像素点在每个扩张率下的感受野区域到标签图像中各个交互区域边界线的最小距离计算特征图中每个像素点在每个扩张率下的权重值。
13.进一步的,一种基于物联网的主题公园内ar交互方法,获取特征图中每个像素点在每个扩张率下的权重值之后,还包括:将特征图中每个像素点最大权重值对应的扩张率作为该像素点的最优扩张率;将特征图中每个像素点在最优扩张率下的感受野范围投影至超像素分割图像中,得到超像素分割图像中每个像素点的最优感受野区域;将特征图中每个像素点最优扩张率对应的最大权重值分配给该像素点最优感受野区域在超像素分割图像中包含的所有像素点;将特征图中所有像素点的最大权重值进行分配,得到超像素分割图像中每个像素点的多个权重值。
14.进一步的,一种基于物联网的主题公园内ar交互方法,将特征图中所有像素点的最大权重值进行分配的方法为:将特征图中每个像素点最优扩张率对应的最大权重值平均分配给该像素点最优感受野区域在超像素分割图像中包含的所有像素点;将特征图中所有像素点的最大权重值进行分配后,得到超像素分割图像中每个像素点的多个权重值;获取超像素分割图像中每个像素点分配后的最大权重值作为该像素点的最优权重。
15.进一步的,一种基于物联网的主题公园内ar交互方法,获取超像素分割图像中每
个像素点的最优权重值之后,还包括:将超像素分割图像中属于同一超像素块的所有像素点的最优权重值的均值作为对应超像素块的最优权重;获取超像素分割图像中所有超像素块的最优权重,对超像素块的最优权重值进行阈值分割,得到分割阈值,将最优权重值小于分割阈值的超像素块进行合并。
16.进一步的,一种基于物联网的主题公园内ar交互方法,优化神经网络的损失函数的方法为:所述神经网络的损失函数包括loss1和loss2,通过训练后的神经网络输出的特征图中每个像素点的权重以及特征图中每个像素点最优扩张率下的最大权重值重新构建loss2,表达式为:其中,表示根据特征图中第j像素点的最优扩张率为i下的最大权重值,表示网络输出的特征图中第j像素点在扩张率为i下的权重。
17.本发明的有益效果是:根据本发明提出的技术手段,通过标签数据在神经网络训练过程中的特征图,结合超像素分割获取原图像中每个像素点的权重值对神经网络进行优化,利用优化后的神经网络实现对待识别图像自动打标签的功能,免了人工打标签的大工作量,同时避免了由于人工的疲惫或失误造成标签数据中存在大量噪声标签的问题,提高了标签质量的同时,大大减少了打标签的工作量,且通过神经网络输出的标签图像能够精准获取不同的交互区域,从而更好的完成ar交互。
附图说明
18.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1为本发明实施例的一种基于物联网的主题公园内ar交互方法结构示意图;图2为将每个像素点的感受野区域投影至超像素分割图像的示意图。
具体实施方式
20.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
21.如图1所示,给出了本发明实施例的一种基于物联网的主题公园内ar交互方法结构示意图,包括:101.采集公园场景图像并进行超像素分割,得到超像素分割图像,对超像素分割图像各个交互区域进行标记,得到超像素分割图像的标签图像。
22.本发明首先通过人工拍摄大量的公园内不同交互物品的图像,并对采集到的图像进行超像素分割,得到超像素分割图像,对超像素分割图像中的交互物品的像素点的标签值赋为1,图像中交互物品之外的像素点的标签值赋为0,进而得到了二值标签图像。
23.102.构建卷积神经网络,将超像素分割图像作为卷积神经网络的输入,对应标注图像作为输出对卷积神经网络进行训练,得到训练后的卷积神经网络。
24.本发明将图像输入神经网络中,该图像通过卷积层的处理获得特征图,所述的卷积层中包含卷积操作、池化操作、激活函数等,卷积层采用resnet网络结构,本发明不再对该网络进行详细叙述,本发明中以特征图大小为128
×
128
×
64为例进行叙述。
25.网络输入为:采集到的原rgb图像对应的超像素分割图像,rgb图像大小以1024*1024*3为例,通过第一层卷积得到特征图,特征图的大小为:1024*1024*64,然后特征图通过网络学习图像中每个像素点对语义分割边界线的权重值,权重值越大,网络对其的关注度越大。
26.在进行网络训练时,权重值首先通过人工计算得到,然后设计对应的网络结构使得每个扩张率对应的特征图中的像素点来学习得到每个像素点的权重值。
27.1031.利用卷积神经网络获取超像素分割图像的特征图,利用不同扩张率的卷积核对特征图进行卷积,计算特征图中每个像素点在每个扩张率下的权重值。
28.利用卷积神经网络的卷积层对超像素分割图像进行卷积操作得到特征图;选取不同扩张率的卷积核对特征图分别进行卷积操作,得到特征图中不同扩张率下的每个像素点。
29.本发明中选取不同扩张率的卷积核对特征图分别进行卷积操作的网络结构是对空洞空间卷积池化金字塔的针对性改进。
30.首先本发明中用n个不同扩张率的卷积层对特征图进行卷积操作,这n个卷积层中用到的扩张率分别为1,2,n,
……
,n,本发明中以n=3为例。
31.需要强调说明的是,所述的扩张率为1,2,
……
,n的卷积层中的卷积核参数都相同,只有扩张率不相同、扩张率依次增大;由此可以获得特征图在相同卷积核、不同扩张率下提取到的n个特征图,从而使得这n个特征图能够更好的表征n个感受野下提取到的不同特征。
32.所述对应感受野范围是指,例如:3*3的卷积核,扩张率为1时,对应的感受野范围为3*3;3*3的卷积核,扩张率为2时,对应的感受野为5*5。不同扩张率是在神经网络中存在的。
33.神经网络中的3*3的卷积核,1扩张率对应rgb图像中的3*3的窗口;神经网络中的3*3的卷积核,2扩张率对应rgb图像中的5*5的窗口
…
。
34.本发明需要分析特征图上每个像素点在不同扩张率时在原图中的对应感受野,以特征图上的第i个像素点为例进行说明:先获取第i个像素点在扩张率为n的卷积层下对应原图中的感受野区域,的获取方法为公知方法,如果感受野区域相对于语义区域的距离越远,说明输入图像在感受野区域中的纹理分布等细节信息的贡献度越小,即对语义分割区域的获得的帮助越小,反之亦然。
35.本发明在计算权重时,主要考虑到两方面因素:一是特征图上每个像素点对应原
超像素分割图的感受野范围与语义分割的边界线的距离,二是特征图上每个像素点对应原图的感受野范围内的超像素分割块的数量,两个因素都是在原图上进行计算得到的,特征图上的每个像素点对应多个感受野区域,每个感受野区域计算得到一个对应的权重值,即每个像素点对应多个权重值,例如:特征图中的像素点a(假设像素点a为特征图中的第一个像素点)对应的感受野区域分别为:、、,其中对应的权重值最大,则选择的权重值作为像素点a的权重值,同时选择的感受野对应的扩张率作为像素点a的最佳扩张率。
36.本发明中语义分割的边界线表示对超像素分割图像进行标注时,得到的各个交互区域间存在的边界线即为语义分割边界线。
37.计算特征图中每个像素点在每个扩张率下的权重值的方法为:获取特征图中每个像素点在每个扩张率下的感受野区域,将每个像素点的感受野区域投影至超像素分割图像中,获取特征图中每个像素点在每个扩张率下的感受野区域在超像素分割图像中包含的超像素块个数;将特征图中每个像素点在每个扩张率下的感受野区域投影至超像素分割图像的标签图像,计算每个像素点在每个扩张率下的感受野区域到标签图像中各个交互区域边界线的最小距离;根据特征图中每个像素点在每个扩张率下的感受野区域在超像素分割图像中包含的超像素块个数、每个像素点在每个扩张率下的感受野区域到标签图像中各个交互区域边界线的最小距离计算特征图中每个像素点在每个扩张率下的权重值。
38.计算每个像素点权重值的表达式为:其中表示第i个扩张率下对应的第j个像素点的关注度,n表示每个像素点对应的扩张率视野下的超像素块的数量,j表示像素点的标号,例如:一个1024*1024的图像的每个像素点从左上角开始标号,按照从左到右、从上到下的顺序依次为:1、2、
…
,1024*1024,表示第i个扩张率对应的第j个像素点的感受野范围在原超像素分割图像中与语义分割边界线的最小距离。
39.1032.获取特征图中每个像素点最大权重值对应的扩张率作为该像素点的最优扩张率,根据特征图中每个像素点最优扩张率下的最大权重值构建神经网络卷积层的损失函数,得到优化后的卷积神经网络。
40.通过将对应的超像素分割图像输入神经网络,得到每个像素点在不同扩张率下的权重,即每个像素点对应一个(1*n)的权重向量,选择权重向量中的最大权重作为该像素点的最佳权重,所述最佳权重是指当该像素点的感受野为最佳视野范围时,该像素点的感受野范围可以为语义分割区域的确定提供最大的帮助。
41.优化神经网络的损失函数的方法为:所述神经网络的损失函数包括loss1和loss2,通过训练后的神经网络输出的特征图中每个像素点的权重以及特征图中每个像素点最优扩张率下的最大权重值重新构建
loss2,表达式为:其中,表示根据特征图中第j像素点的最优扩张率为i下的最大权重值,表示网络输出的特征图中第j像素点在扩张率为i下的权重。
42.得到特征图上每个像素点对应的权重参数后,考虑到超像素分割是在原超像素分割图上进行的,因此需要通过计算特征图上每个像素点的最佳权重值在原超像素分割图上的对应感受野区域,然后计算特征图上每个像素点的最佳权重值和最佳视野范围在原图中的对应区域中像素点的权重。
43.所述最佳视野范围是指像素点的最大权重值在特征图上对应的扩张率视野范围在原图上的对应区域。
44.特征图上不同像素点的最佳扩张率不同,即在进行神经网络训练时,上一层的特征图经过了不同的卷积核(这里的所述不同卷积核是指扩张率不同)得到了对应扩张率的特征图,因此当两个像素点的最佳扩张率不同时,在原图上对应的感受野范围的大小不同。
45.获取特征图中每个像素点在每个扩张率下的权重值之后,还包括:将特征图中每个像素点最大权重值对应的扩张率作为该像素点的最优扩张率;如图2所示,将特征图中每个像素点在最优扩张率下的感受野范围投影至超像素分割图像中,得到超像素分割图像中每个像素点的最优感受野区域;将特征图中每个像素点最优扩张率对应的最大权重值分配给该像素点最优感受野区域在超像素分割图像中包含的所有像素点;将特征图中所有像素点的最大权重值进行分配,得到超像素分割图像中每个像素点的多个权重值。
46.至此,获得了每个像素点对应的最佳权重值和最佳扩张率对应的视野范围。
47.特征图中的每个像素点是原始rgb图像通过卷积下采样得到的,因此每个像素点在特征图尺度的最佳视野范围分别对应原图上的一个区域,由于不同像素点的最佳视野范围不同,因此对应的原图上的区域范围不同,首先分别将特征图上每个像素点的权重值平均分配给原图对应区域的每个像素点,即原图上对应区域的每个像素点都可以得到一个权重值,同一个区域的权重值相同。
48.由于相当于上采样过程,因此特征图上的相邻像素点在原图上的对应区域存在重叠区域,此时原图上的每个重叠区域的像素点存在多个权重值,选择最大权重值作为该像素点的权重值。
49.将特征图中每个像素点最优扩张率对应的最大权重值平均分配给该像素点最优感受野区域在超像素分割图像中包含的所有像素点;将特征图中所有像素点的最大权重值进行分配后,得到超像素分割图像中每个像素点的多个权重值;获取超像素分割图像中每个像素点分配后的最大权重值作为该像素点的最优权重。
50.至此,得到了原超像素分割图上的每个像素点的最优权重值,进而和超像素分割
图像相结合进而通过这些超像素块的权重信息对超像素块分配不同的标签。
51.原图上的每个超像素块内对应多个像素点,每个像素点均有一个权重值,将每个超像素块内所有像素点权重值的均值作为该像素块的权重值,权重值越小,表示该超像素块距离语义分割边界越远,越需要进行超像素块的融合。
52.获取超像素分割图像中每个像素点的最优权重值之后,还包括:将超像素分割图像中属于同一超像素块的所有像素点的最优权重值的均值作为对应超像素块的最优权重;获取超像素分割图像中所有超像素块的最优权重,对超像素块的最优权重值进行阈值分割,得到分割阈值,将最优权重值小于分割阈值的超像素块进行合并。
53.对超像素块的权重值进行otsu阈值分割得到阈值k。将权重值小于k的超像素块进行融合,对融合后的块数据(较大是指相对于超像素分割块较大)进行标签的分配。
54.104.将超像素分割图像输入优化后的卷积神经网络,输出公园场景中的可交互区域标记图像;利用ar设备对输出的实际公园场景图像中可交互区域进行操作。
55.得到语义交互区域后,会在ar设备中自动显示出相应的窗口,在这个场景下,用户佩戴ar头显,通过视线的方式将焦点移动到窗口上,激活窗口,相当于某个特定的窗口或者对象获得onfocus的状态;获得焦点的窗口上出现一个光标,这个光标主要是由用户的视线所控制,然而用户使用交互设备上的触板或者摇杆,可以在一定的范围之内移动这个光标,并且,在触板上脱离操作之后,光标自动回到用户视线中心(相当于一个自动回中的特性),也就是说,大范围的光标移动,依靠用户视线进行操作;而小范围的精细交互则交由操作设备上的触摸板/摇杆来执行。
56.在移到窗口中可以交互的对象之后,用户可以通过操作设备上的按钮点击来进行交互,并且通过按钮点击和触板触摸的配合来进行一些相对复杂的拖拽操作。比方说在窗口中拖动滑块或者任何对象,交互设备在可以进行三维姿态定位的情况下,也可以通过这种姿态定位来进行一些操作,比方说三维对象的某些姿态翻转。
57.根据本发明提出的技术手段,通过标签数据在神经网络训练过程中的特征图,结合超像素分割获取原图像中每个像素点的权重值对神经网络进行优化,利用优化后的神经网络实现对待识别图像自动打标签的功能,免了人工打标签的大工作量,同时避免了由于人工的疲惫或失误造成标签数据中存在大量噪声标签的问题,提高了标签质量的同时,大大减少了打标签的工作量,且通过神经网络输出的标签图像能够精准获取不同的交互区域,从而更好的完成ar交互。
58.以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。