1.本技术涉及人工智能技术领域,具体涉及一种行为识别方法、存储介质及电子设备。
背景技术:2.动物行为从宏观上反应了动物高级中枢神经功能、学习记忆能力、心理状态、运动协调性等信息。研究动物行为能够评估动物对于环境或者药理的适应情况,在毒理学、药理学、运动损伤及恢复等领域具有广泛应用。
3.随着人工智能技术的快速发展,基于人工智能技术的有监督学习方法能够对动物行为进行分类。但该方法仅能将动物行为划分为固定类别中的一种,对于未知类别的动物行为则难以对其进行准确分类。
技术实现要素:4.本技术实施例提供一种行为识别方法、存储介质及电子设备,能够根据提高对动物行为进行识别的准确度。
5.第一方面,本技术实施例提供一种行为识别方法,方法包括:
6.获取参考视频,参考视频包括指定的行为内容;
7.获取需要进行行为识别的待识别视频;
8.通过基于孪生神经网络的视频判别模型,获取待识别视频与参考视频的相似度;
9.根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果。
10.第二方面,本技术实施例还提供一种计算机可读存储介质,其上存储有计算机程序,当计算机程序在计算机上运行时,使得计算机执行如本技术任一实施例提供的行为识别方法。
11.第三方面,本技术实施例还提供一种电子设备,包括处理器和存储器,存储器有计算机程序,处理器通过调用计算机程序,用于执行如本技术任一实施例提供的行为识别方法。
12.本技术实施例提供的技术方案,对于包括指定的行为内容的参考视频,通过基于孪生神经网络的视频判别模型对该参考视频和待识别视频进行相似度识别,以确定该待识别视频是否包括指定的行为内容。以此,通过参考视频对待识别视频进行行为识别,一方面能够准确地对待识别视频的行为进行识别,另一方面能够快速地对待识别视频进行分类。
附图说明
13.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
14.图1为本技术实施例提供的行为识别方法的应用场景示意图。
15.图2为本技术实施例提供的行为识别方法的流程示意图。
16.图3为本技术实施例提供的行为识别方法中使用滑动窗口截取视频片段的示意图。
17.图4为本技术实施例提供的行为识别方法中视频判别模型的结构示意图。
18.图5为本技术实施例提供的视频判别方法的细节流程示意图。
19.图6为本技术实施例提供的电子设备的结构示意图。
具体实施方式
20.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有付出创造性劳动前提下所获得的所有其他实施例,都属于本技术的保护范围。
21.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
22.人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能、感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
23.人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括机器学习(machine learning,ml)技术,其中,深度学习(deep learning,dl)是机器学习中一个新的研究方向,它被引入机器学习以使其更接近于最初的目标,即人工智能。目前,深度学习主要应用在计算机视觉、自然语言处理等领域。
24.深度学习是机器学习的一种,而机器学习是实现人工智能的必经路径。深度学习的概念源于人工神经网络的研究,含多个隐藏层的多层感知器就是一种深度学习结构。深度学习通过组合低层特征形成更加抽象的高层表示属性类别或特征,以发现数据的分布式特征表示。研究深度学习的动机在于建立模拟人脑进行分析学习的神经网络,它模仿人脑的机制来解释数据,例如图像,声音和文本等。
25.动物的行为按照其不同表现可以分为觅食行为、贮食行为、攻击行为、防御行为、繁殖行为、节律行为、通讯行为等。
26.在毒理学、药理学、运动损伤及其恢复、神经科学等领域,通过评估动物行为能够为相关研究提供关键信息。随着人工智能技术的发展,相关技术中也采用了机器学习的方法对动物行为进行识别。具体地,可以通过机器学习的方法训练神经网络模型,进而通过训练好的神经网络模型对动物行为进行分类,其中,训练神经网络模型的方法包括有监督的机器学习和无监督的机器学习,有监督的机器学习通过预先标记有行为标签的样本数据对
神经网络模型进行训练,使得神经网络模型学习样本数据及其对应的行为标签之间的映射关系。无监督的机器学习通过聚类算法对同类样本数据进行聚类,从而实现对不同样本数据进行分类。
27.然而,无监督的机器学习方法难以快速从大量数据中查找到用户需要的动物行为。
28.为此,针对有监督的机器学习方法,相关技术中还包括基于关键点的动物识别方法和基于视频的分类方法。
29.其中,基于关键点的动物识别方法通过对动物身体关键点进行追踪,再根据关键点的位置信息(如肢体关节等)对动物行为进行分类。但此类方法依赖于对关键点的追踪,在关键点被遮挡或追踪丢失时则会造成对动物行为的分类结果不准确。另外,基于关键点追踪还丢失了背景信息,造成与背景信息相关的动物行为信息的遗漏,也会造成对动物行为的分类结果不够准确。
30.基于视频的分类方法虽然不需要进行关键点追踪,但需要逐帧基于视频的像素值对视频帧进行动作分类,进而根据动作分类结果识别动物行为,此种方式造成计算量大,难以快速地识别动物的行为。
31.为解决相关技术中存在的问题,本技术实施例提供了一种行为识别方法、存储介质以及电子设备,以快速且准确地对动物行为进行识别,可以理解地,本技术提供的行为识别方法可以对各种动物以及各种人群等进行行为识别。在以下实施例中则以动物行为为例对本技术实施例提供的方法作详细阐述。
32.首先,请参阅图1,图1为本技术实施例提供的行为识别方法的应用场景示意图。该行为识别方法的执行主体为电子设备,首先,用户先选择一个具有指定内容的视频作为参考视频,然后对于需要识别的待识别视频,将两者输入视频判别模型进行相似度判别,以确定待识别视频所包括的行为内容。以此,实现了快速且准确地进行行为识别。
33.具体地,请参阅图2,图2为本技术实施例提供的行为识别方法的流程示意图。本技术实施例提供的行为识别方法的具体流程可以如下:
34.101、获取参考视频,参考视频包括指定的行为内容。
35.其中,指定的行为内容包括但不限于各类动物行为或者各类人群行为。以动物为例,动物可以为猫、狗、猴子、老鼠等,动物的常见行为包括但不限于:起身、头部运动、饮水、悬挂、毛发梳理、行走、休息、进食、舔肢等。
36.示例性地,获取参考视频的方式有多种,包括但不限于:通过拍摄得到包括指定的行为内容的视频,通过视频剪辑得到包括指定的行为内容的视频等。
37.此处进行举例说明,比如,用户录制狗进食的视频,用户录制猫进行毛发梳理的视频,用户录制猴子倒挂的视频等作为参考视频。再比如,从狗进食、狗行走、狗舔肢等视频中选择狗进食作为参考视频。又比如,从狗的多组图像中筛选出与狗进食相关的图像进行合成,以得到狗进食的视频作为参考视频。又比如,从录制的长视频中截取狗进食部分的视频作为参考视频。
38.102、获取需要进行行为识别的待识别视频。
39.其中,获取待识别视频的方式可以包括:通过拍摄得到待识别视频,通过视频剪辑得到待识别视频等。且需要进行行为识别的待识别视频并未进行视频标识。
40.本实施例中,待识别视频和参考视频所属的动物或人群相同。以此,提高对待识别视频进行行为识别的准确性。
41.示例性地,在获取需要进行行为识别的待识别视频之前,还可以先对待识别视频中包含的生物进行识别,当待识别视频中包含的生物与参视频所属的生物一致时,将该待识别视频确定为需要进行行为视频的待识别视频。
42.103、通过基于孪生神经网络的视频判别模型,获取待识别视频与参考视频的相似度。
43.本实施例中,提出了基于孪生神经网络的视频判别模型,该视频判别模型包括相同参数的双分支网络架构,通过将待识别视频与参考视频分别作为具有双分子网络架构的输入,进而输出两者相似的概率值和不相似的概率值,之后通过相似或不相似的概率值评估待识别视频与参考视频的相似度。
44.比如,待识别视频与参考视频之间相似的概率值大时,说明两者的相似度较高,待识别视频与参考视频之间不相似的概率值大时,说明两者的相似度较低。
45.104、根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果。
46.其中,若待识别视频与参考视频的相似度较高,则可以确定待识别视频与参考视频属于相同或相似的视频,两者均可指示指定的行为内容。而若待识别视频与参考视频的相似度较低,则可以确定待识别视频与参考视频不属于相同或相似的视频,两者指示的行为内容不同。
47.具体实施时,本技术不受所描述的各个步骤的执行顺序的限制,在不产生冲突的情况下,某些步骤还可以采用其它顺序进行或者同时进行。
48.本技术实施例中的行为识别方法,通过先选择一个用户所需要的参考视频,该参考视频包括指定的行为内容,进而通过视频判别模型判别参考视频与需要进行行为识别的待识别视频之间的相似度,以对待识别视频进行行为识别。一方面能够灵活地对视频进行行为判别,且准确性较高,另一方面避免了对视频帧进行关键点追踪或像素值分类,减小了对视频处理的数据量,提高了对视频进行行为识别的效率。
49.在一些实施例中,获取需要进行行为识别的待识别视频,包括:
50.获取需要进行行为识别的初始视频;
51.根据参考视频的长度从初始视频中截取至少一个视频片段;
52.将截取的至少一个视频片段确定为待识别视频。
53.其中,初始视频的长度本技术中并未进行限定,可以根据实际需求选择任意长度的初始视频。初始视频所属的生物与参考视频所属的生物相同。
54.在根据参考视频的长度对初始视频截取后,得到的视频片段的长度与初始视频的长度相同。其中,参考视频和初始视频的长度可以根据播放时长或者视频帧数确定。
55.截取到的视频片段的数量可以为一个、两个或多个。具体可视初始视频的长度和截取方式确定。
56.作为一种实施方式,在初始视频的长度小于参考视频的长度时,截取的视频片段为一个,通过对初始视频进行补帧处理,以得到和参考视频的长度一致的一个视频片段作为待识别视频。
57.作为另一种实施方式,在初始视频的长度等于参考视频的长度时,可以直接将该
初始视频作为一个视频片段。
58.作为又一种实施方式,在初始视频的长度大于参考视频的长度时,可以截取到至少两个视频片段,其中,视频片段的数量根据初始视频的长度和参考视频的长度的比值确定,当该比值为大于1小于2的数值时,可以通过补帧的方式得到两个视频片段。当该比值为大于2的数值时,可以得到多个视频片段。
59.示例性地,在视频片段至少有两个时,至少两个视频片段中的相邻的视频片段可以部分重合,也可以不重合。其中,在相邻的视频片段不重合时,相邻的视频片段首尾相接。在相邻的视频片段重合时,相邻的视频片段具有重叠的视频帧,该重叠的视频帧的数量可根据实际需求确定。
60.具体地,可以使用滑动窗口截取至少两个视频片段作为待识别视频,请参阅图3,图3为本技术实施例提供的行为识别方法中使用滑动窗口截取视频片段的示意图。其中,若参考视频的帧数为10,初始视频的帧数为35帧,则将滑动窗口的长度设为10帧,每隔n帧移动滑动窗口截取视频片段,其中,如图3(a)所示,若n等于10,则截取的视频片段相互之前不重合,如图3(b)所示,若n小于10,则截取的视频片段相互之间重合。以n=1为例,本技术实施例中可以设置滑动窗口每隔一帧移动以截取视频片段,从而得到多个视频片段,其中,视频片段之间的重合度可以根据实际需求选择,此处并不进行限定。
61.在一些实施例中,若相邻的视频片段部分重合,根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果之后,还包括:
62.根据同一视频帧在不同待识别视频中的识别结果,确定初始视频中各视频帧的评分;
63.根据初始视频中各视频帧的评分,确定初始视频的总评分;
64.若总评分大于预设阈值,则确定初始视频包括指定的行为内容;
65.若总评分不大于预设阈值,则确定初始视频不包括指定的行为内容。
66.本实施例中,在根据参考视频与待识别视频的相似度确定出待识别视频的识别结果之后,还根据识别结果对待识别视频中的每一视频帧进行评分。比如,将相似度分为两种情况:参考视频与待识别视频相似,或者参考视频与待识别视频不相似。其中,在两者相似时,可以设定识别结果为1,在两者不相似时,可以设定识别结果为0。对于不同的待识别视频,其识别结果为1或0,通过将识别结果赋予其包含的每一视频帧作为评分,则每一视频帧在不同的待识别视频中均具有一个评分,该评分为0或1。在得到每一视频帧的评分之后,若存在视频帧具有多个评分,则取其评分的平均值作为最终评分。比如,第二个视频帧在第一个待识别视频中的评分为0,在第二个待识别视频中的评分为1,则将0.5作为该第二个视频帧的最终评分。
67.在确定了每一视频帧的最终评分之后,还基于初始视频中各视频帧的评分确定初始视频的总评分。具体地,可以对各视频帧的评分以求取平均值、中值、中位数等方式确定初始视频的总评分。比如,以对各视频帧的评分求取平均值为例,初始视频共10帧,第一帧至第10帧的评分分别为0、0.5、1、1、0.5、0、1、1、1、1,初始视频的总评分为0.7。
68.本实施例中还设置了预设阈值与总评分进行比较,以当总评分大于预设阈值时,确定初始视频包括指定的行为内容,即初始视频与参考视频所指示的行为相同。当总评分不大于预设阈值时,确定初始视频不包括指定的行为内容,即初始视频与参考视频所指示
的行为不相同。比如,设置预设阈值为0.5,若初始视频的总评分为0.7,则确定初始视频包括指定的行为内容。
69.本实施例通过从初始视频中滑动截取得到待识别视频,并基于视频帧在不同待识别视频中的评分以确定初始视频的总评分,并将总评分与预设阈值进行比较以评估初始视频的识别结果,能够使得初始视频的识别结果更加准确。
70.在一些实施例中,相邻的视频片段不重合,根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果之后,还包括:
71.根据各待识别视频的识别结果,确定初始视频的总评分;
72.若总评分大于预设阈值,则确定初始视频包括指定的行为内容;
73.若总评分不大于预设阈值,则确定初始视频不包括指定的行为内容。
74.其中,在相邻的视频片段不重合时,在确定待识别视频的识别结果之后,还将相似度度分为两种情况,即相似和不相似,在参考视频与待识别视频不相似时,设定待识别视频的识别结果为0,在参考视频与待识别视频相似时,设定待识别视频的视频结果为1。
75.在确定不同待识别视频的评分之后,还根据该评分确定初始视频的总评分,其中,确定总评分的方式包括但不限于:对各待识别视频求取平均值、中值、中位数等方式。比如,通过对各待识别视频的评分求取平均值得到初始视频的总评分。
76.如上,还通过设置预设阈值与总评分进行对比,以确定初始视频的识别结果。具体参照上述内容,此处不再赘述。
77.在一些实施例中,确定初始视频包括指定的行为内容之后,还包括:
78.按照指定的行为内容对初始视频进行标识。其中,在确定初始视频的识别结果之后,还对初始视频进行了标识。具体地,若初始视频包括指定的行为内容,则对初始视频赋予相应的行为标签,若初始视频不包括指定的行为内容,则不对初始视频赋予相应的行为标签。比如,参考视频包括的行为内容为进食,若初始视频包括指定的行为内容,则对初始视频赋予进食的行为标签,否则,则不对初始视频进行标识,或者标识为非进食的行为标签。
79.本实施例中通过对初始视频进行标识之后,能够便于从大量的初始视频中选择出与参考视频具有相同行为的视频,从而提高了对视频的筛选效率和查询效率。
80.在一些实施例中,视频判别模型包括第一特征提取分支、第二特征提取分支、特征融合模块以及相似度判别模块,第一特征提取分支和第二特征提取分支的结构相同,且网络参数共享,通过基于孪生神经网络的视频判别模型,获取待识别视频与参考视频的相似度,包括:
81.将参考视频输入第一特征提取分支进行特征提取,得到第一帧序列特征;
82.将待识别视频输入第二特征提取分支进行特征提取,得到第二帧序列特征;
83.将第一帧序列特征和第二帧序列特征输入特征融合模块进行特征融合处理,得到融合特征;
84.将融合特征输入相似度判别模块进行相似度判别,得到待识别视频与参考视频的相似度。
85.请参阅图4,图4为本技术实施例提供的行为识别方法中视频判别模型的结构示意图。其中,该视频判别模型包括网络参数、结构均相同的第一特征提取分支和第二特征提取
分支,第一特征提取分支和第二特征提取分支还均与特征融合模块连接,特征融合模块与相似度判别模块连接。
86.在通过基于孪生神经网络的视频判别模型获取参考视频与待识别视频的相似度时。通过将参考视频输入第一特征提取分支进行特征提取,得到第一帧序列特征,将待识别视频输入第二特征提取分支进行特征提取,得到第二帧序列特征。可以理解地,也可以将参考视频输入第二特征提取分支进行特征提取,将待识别视频输入第一特征提取分支进行特征提取,两者具体输入哪个特征提取分支此处并不进行限定。
87.示例性地,在将参考视频和待识别视频输入第一特征提取分支和第二特征提取分支之前,还将参考视频和待识别视频转换成帧序列作为输入。其中,在将第一帧序列特征和第二帧序列特征输入特征融合模型进行特征融合处理时,特征融合模型通过对第一帧序列特征和第二帧序列特征进行向量相减以得到融合特征。
88.相似度判别模块用于判别融合特征相似的概率值或者不相似的概率值。
89.本实施例通过第一特征提取分支和第二提取分支分别提取参考视频与待识别视频的整段的时序特征,进而根据时序特征进行相似度判别,考虑到了行为特征之间的时空依赖性,使得相似度判别结果更加准确。且相较于相关技术中需要逐帧对视频帧进行处理而言,本实施例提供的方法能够快速地判别待识别视频与参考视频的相似度,减小了模型的计算量,提高了模型的判别速率。
90.在一些实施例中,第一特征提取分支包括基于自注意力机制的第一特征提取层,第二特征提取分支包括基于自注意力机制的第二特征提取层。
91.具体地,通过基于自注意力机制的第一特征提取层提取参考视频的第一帧序列特征,通过基于自注意力机制的第二特征提取层提取待识别视频的第二帧序列特征。
92.通过基于自注意力机制的特征提取层捕捉视频帧之间的相关性,能够考虑到各视频帧之间的相互影响,在基于第一帧序列特征和第二帧序列特征进行相似度判别时,能够提高判别的准确度。
93.在一些实施例中,获取参考视频之前,还包括:
94.获取预训练的初始模型,初始模型根据不同行为内容的第一视频样本预训练得到;
95.获取对应指定行为内容的第二视频样本;
96.根据第二视频样本对初始模型进行参数调整,得到视频判别模型。
97.其中,第一视频样本包括但不限于:imagenet数据集(是计算机视觉研究中的大型图像识别数据库)、kinetics-700数据集(是一种人类行为数据集)等,通过第一视频样本预训练基于孪生神经网络的初始模型得到初始模型的模型参数。
98.第二视频样本包括指定行为内容的视频样本,比如,在指定行为内容为进食时,第二视频样本中可以包括狗进食的视频样本、猫进食的视频样本、鸡进食的视频样本等。当然地,第二视频样本还包括不包括指定行为内容的视频样本,比如,在指定行为内容为进食时,第二视频样本中还可以包括熊猫悬挂的视频样本、狗打滚的视频样本、猫舔肢的视频样本等。
99.在通过第二视频样本对初始模型进行参数调整时,还将第二视频样本中相同或不同的行为内容的视频样本进行两两组合,以分别输入初始模型的第一特征提取分支和第二
特征提取分支进行模型训练,直至模型拟合或者达到指定的训练次数,得到视频判别模型。
100.本实施例中,通过将第二视频样本中的两类视频样本进行两两组合,并通过基于孪生神经网络的视频判别模型进行模型训练,能够扩展训练样本的规模,实现了通过少量标记的第二视频样本对初始模型进行训练,提高了模型训练的速率。
101.在一些实施例中,根据第二视频样本对初始模型进行参数调整,得到视频判别模型,包括:
102.根据第二视频样本对特征融合模块和相似度判别模块进行参数调整,得到视频判别模型。
103.其中,在通过第二视频样本对初始模型进行模型微调时,通过对特征融合模块和相似度判别模块进行参数调整,以得到视频判别模型。
104.示例性地,可以通过冻结第一特征提取分支和第二特征提取分支的网络参数,并将第二视频样本输入初始模型进行模型训练,以在模型训练过程中对特征融合模块和相似度判别模块的网络参数进行优化,以最小化特征融合模块和相似度判别模块的损失,实现对特征融合模块和相似度判别模块的网络参数的微调。
105.本技术实施例中通过预训练和模型微调的方式实现基于少量标注的第二视频样本进行模型训练,缩减了对训练数据的规模要求,且提高了模型训练的效率。
106.在一些实施例中,指定行为包括指定动物的指定行为,获取对应指定行为内容的第二视频样本,包括:
107.获取标记为指定行为的指定动物视频样本;
108.对指定动物视频样本进行数据增广处理,得到第二视频样本。
109.其中,可以获取某一动物的指定行为的指定动物视频样本作为第二视频样本,比如,获取各种狗的各种进食视频作为第二视频样本。其中,各种狗可以根据狗的品种进行划分,而不同狗进食的动作各自存在差异,通过将这类视频制作成第二视频样本对初始模型进行参数微调,在将训练好的视频判别模型应用于狗的视频判别时,具有更高的准确度。
110.可以理解地,在确定使用的第二视频样本属于哪个动物之后,还可选择一个关于该动物行为的视频作为参考视频,以准确地判别参考视频与待识别视频之间的相似度,以当待识别视频所属的动物不为参考视频所属的动物时,可直接判定待识别视频与参考视频不相似。
111.本实施例中,还对标记有指定行为的指定动物视频样本进行了数据增广处理,以扩大样本规模,提高模型的泛化能力。其中,进行数据增广的方式包括但不限于:视频裁剪、视频抽帧、图像平移、图像旋转、图像缩放等。
112.本实施例中,通过对指定动物视频样本进行数据增广处理,以得到更大数据量的第二视频样本对初始模型进行微调,使得模型的泛化能力更好。
113.对于上述提及的内容,此处还进行详细介绍,请参阅图5,图5为本技术实施例提供的视频判别方法的细节流程示意图。该示意图所指示的内容如下:
114.第一阶段:构建基于孪生神经网络的视频判别模型;
115.该视频判别模型包括第一特征提取分支、第二特征提取分支、特征融合模块以及相似度判别模块。
116.第二阶段:训练视频判别模型;
117.201、获取预训练的初始模型。
118.202、获取对应指定行为内容的第二视频样本。
119.203、冻结第一特征提取分支和第二特征提取分支的网络参数,通过第二视频样本对初始模型进行训练,以微调特征融合模块和相似度判别模块的网络参数。
120.第三阶段:应用视频判别模型进行相似度预测;
121.204、获取参考视频,参考视频包括指定的行为内容;
122.205、获取初始视频,并按照参考视频的长度从初始视频中截取至少一个视频片段作为待识别视频;
123.206、将参考视频输入第一特征提取分支,得到第一帧序列特征;
124.207、将待识别视频输入第二特征提取分支,得到第二帧序列特征;
125.208、将第一帧序列特征和第二帧序列特征输入特征融合模块进行特征融合,得到融合特征;
126.209、将融合特征输入相似度判别模块进行相似度判别,得到参考视频与待识别视频的相似度;
127.210、根据相似度对待识别视频进行评分;
128.211、根据同一视频帧对应不同待识别视频的评分,确定初始视频中各视频帧的评分;
129.212、根据初始视频中各视频帧的评分确定初始视频的总评分;
130.213、若总评分大于预设阈值,则确定初始视频包括指定的行为内容;
131.214、对初始视频赋予指定的行为的标签。
132.本技术实施例中通过构建基于孪生神经网络的视频判别模型进行行为识别,对各种行为具有通用性,且识别准确度较高。如下表格提供了在一个动物行为数据集上进行八种行为的识别结果:
[0133][0134]
由上可知,本发明实施例提出的行为识别方法,通过构建基于孪生神经网络的视频判别模型,并通过对视频判别模型进行预训练的方式以减小训练模型所需的样本数据,且通过对样本数据进行成对组合以作为双分支网络的输入,能够极大程度地扩展样本数据的规模,以提高模型的泛化能力。且通过视频判别模型确定参考视频与待识别视频之间的相似度,以在时序维度对两者进行相似度判别,能够减小相似度判别耗用的计算量,从而快
速地得到对待识别视频的判别结果。另外,还能够实现对不定时长的初始视频进行行为识别,提高了行为识别的灵活性。
[0135]
本技术实施例还提供一种行为识别装置,该行为识别装置应用于电子设备,包括:
[0136]
第一视频获取模块,用于获取参考视频,参考视频包括指定的行为内容;
[0137]
第二视频获取模块,用于获取需要进行行为识别的待识别视频;
[0138]
相似度判别模块,用于通过基于孪生神经网络的视频判别模型,获取待识别视频与参考视频的相似度;
[0139]
行为识别模块,用于根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果。
[0140]
在一些实施例中,第二视频获取模块还用于:
[0141]
获取需要进行行为识别的初始视频;
[0142]
根据参考视频的长度从初始视频中截取至少一个视频片段;
[0143]
将截取的至少一个视频片段确定为待识别视频。
[0144]
在一些实施例中,当待识别视频包括至少两个视频片段时,至少两个视频片段中相邻的视频片段部分重合,根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果之后,行为识别模块还用于:
[0145]
根据同一视频帧在不同待识别视频中的识别结果,确定初始视频中各视频帧的评分;
[0146]
根据初始视频中各视频帧的评分,确定初始视频的总评分;
[0147]
若总评分大于预设阈值,则确定初始视频包括指定的行为内容;
[0148]
若总评分不大于预设阈值,则确定初始视频不包括指定的行为内容。
[0149]
在一些实施例中,确定初始视频包括指定的行为内容之后,行为识别模块还用于:
[0150]
按照指定的行为内容对初始视频进行标识。
[0151]
在一些实施例中,当待识别视频包括至少两个视频片段时,至少两个视频片段中相邻的视频片段不重合,根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果之后,行为识别模块还用于:
[0152]
根据各待识别视频的识别结果,确定初始视频的总评分;
[0153]
若总评分大于预设阈值,则确定初始视频包括指定的行为内容;
[0154]
若总评分不大于预设阈值,则确定初始视频不包括指定的行为内容。
[0155]
在一些实施例中,获取需要进行行为识别的初始视频之前,第二视频获取模块还用于:
[0156]
获取原始视频;
[0157]
确定原始视频所属的生物与参考视频所属的生物是否相同;
[0158]
若是,则将原始视频确定为需要进行行为识别的初始视频。
[0159]
在一些实施例中,初始视频的长度小于参考视频的长度,第二视频获取模块还用于:
[0160]
按照参考视频的长度对初始视频进行补帧处理,得到一个视频片段。
[0161]
在一些实施例中,视频判别模型包括第一特征提取分支、第二特征提取分支、特征融合模块以及相似度判别模块,第一特征提取分支和第二特征提取分支的结构相同,且网
络参数共享,相似度判别模块还用于:
[0162]
将参考视频输入第一特征提取分支进行特征提取,得到第一帧序列特征;
[0163]
将待识别视频输入第二特征提取分支进行特征提取,得到第二帧序列特征;
[0164]
将第一帧序列特征和第二帧序列特征输入特征融合模块进行特征融合处理,得到融合特征;
[0165]
将融合特征输入相似度判别模块进行相似度判别,得到待识别视频与参考视频的相似度。
[0166]
在一些实施例中,第一特征提取分支包括基于自注意力机制的第一特征提取层,第二特征提取分支包括基于自注意力机制的第二特征提取层。
[0167]
在一些实施例中,获取参考视频之前,相似度判别模块还用于:
[0168]
获取预训练的初始模型,初始模型根据不同行为内容的第一视频样本预训练得到;
[0169]
获取对应指定行为内容的第二视频样本;
[0170]
根据第二视频样本对初始模型进行参数调整,得到视频判别模型。
[0171]
在一些实施例中,相似度判别模块还用于:
[0172]
根据第二视频样本对特征融合模块和相似度判别模块进行参数调整,得到视频判别模型。
[0173]
在一些实施例中,根据第二视频样本对特征融合模块和相似度判别模块进行参数调整,得到视频判别模型之前,相似度判别模块还用于:
[0174]
冻结第一特征提取分支和第二特征提取分支的参数。
[0175]
在一些实施例中,相似度判别模块还用于:
[0176]
获取标记为指定行为的指定动物视频样本;
[0177]
对指定动物视频样本进行数据增广处理,得到第二视频样本。
[0178]
应当说明的是,本技术实施例提供的行为识别装置与上文实施例中的行为识别方法属于同一构思,通过该行为识别装置可以实现行为识别方法实施例中提供的任一方法,且能达到相同的技术效果。其具体实现过程详见行为识别方法实施例,此处不再赘述。
[0179]
本技术实施例还提供一种电子设备,该电子设备可以是智能手机、折叠屏手机、平板电脑、掌上电脑、台式电脑等设备。如图6所示,图6为本技术实施例提供的电子设备的结构示意图。该电子设备300包括有一个或者一个以上处理核心的处理器301、有一个或一个以上计算机可读存储介质的存储器302及存储在存储器302上并可在处理器上运行的计算机程序。其中,处理器301与存储器302电性连接。本领域技术人员可以理解,图中示出的电子设备结构并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0180]
处理器301是电子设备300的控制中心,利用各种接口和线路连接整个电子设备300的各个部分,通过运行或加载存储在存储器302内的软件程序和/或模块,以及调用存储在存储器302内的数据,执行电子设备300的各种功能和处理数据,从而对电子设备300进行整体监控。
[0181]
在本技术实施例中,电子设备300中的处理器301会按照如下的步骤,将一个或一个以上的应用程序的进程对应的指令加载到存储器302中,并由处理器301来运行存储在存
储器302中的应用程序,从而实现各种功能:
[0182]
获取参考视频,参考视频包括指定的行为内容;
[0183]
获取需要进行行为识别的待识别视频;
[0184]
通过基于孪生神经网络的视频判别模型,获取待识别视频与参考视频的相似度;
[0185]
根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果。
[0186]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0187]
在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0188]
由上可知,本实施例提供的电子设备,通过构建基于孪生神经网络的视频判别模型,并通过对视频判别模型进行预训练的方式以减小训练模型所需的样本数据,且通过对样本数据进行成对组合以作为双分支网络的输入,能够极大程度地扩展样本数据的规模,以提高模型的泛化能力。且通过视频判别模型确定参考视频与待识别视频之间的相似度,以在时序维度对两者进行相似度判别,能够减小相似度判别耗用的计算量,从而快速地得到对待识别视频的判别结果。另外,还能够实现对不定时长的初始视频进行行为识别,提高了行为识别的灵活性。
[0189]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0190]
为此,本技术实施例提供一种计算机可读存储介质,本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件完成,的程序可以存储于一计算机可读取存储介质中,该程序在执行时,包括如下步骤:
[0191]
获取参考视频,参考视频包括指定的行为内容;
[0192]
获取需要进行行为识别的待识别视频;
[0193]
通过基于孪生神经网络的视频判别模型,获取待识别视频与参考视频的相似度;
[0194]
根据相似度识别待识别视频是否包括指定的行为内容,得到识别结果。
[0195]
以上各个操作的具体实施可参见前面的实施例,在此不再赘述。
[0196]
上述的存储介质可以为rom/ram、磁碟、光盘等。由于该存储介质中所存储的计算机程序,可以执行本技术实施例所提供的任一种行为识别方法中的步骤,因此,可以实现本技术实施例所提供的任一种行为识别方法所能实现的有益效果,详见前面的实施例,在此不再赘述。
[0197]
以上对本技术实施例所提供的一种行为识别方法、存储介质及电子设备进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上,本说明书内容不应理解为对本技术的限制。