基于视频的谈话场景异常检测方法、终端设备及存储介质与流程

文档序号：29925263发布日期：2022-05-07 10:53阅读：77来源：国知局

1.本发明涉及谈话场景异常检测领域，尤其涉及一种基于视频的谈话场景异常检测方法、终端设备及存储介质。

背景技术：

2.在企事业内部与特殊人员谈话的过程中，需要遵循合规的流程和谈话现场规定，比如在场人数固定、人员活动范围固定等，并且谈话过程需要拍摄成视频，供内部审查员审查。
3.随着摄像头的逐步增多，对视频中关键要素分析的需求也越来越多，其中视频中人体的异常行为是一个较为关键的分析要素。针对视频中人体异常检测，公开号为cn107273866a的发明专利《一种基于监控系统的人体异常行为识别方法》中采用了传统背景建模的方式，提取人体相对区域，与标准行为数据库比对的方式来识别人体异常行为。随着深度学习的发展，基于深度卷积网络的人体行为识别方法也大量出现，传统背景建模加行为比对的方式的缺点也更明显，公开号为cn106407903a的发明专利《基于多尺度卷积神经网络的实时人体异常行为识别方法》中使用三维卷积网络提取图像多尺度特征来提取特征并进行分类；公开号为cn110633624a的发明专利《一种基于多特征融合的机器视觉人体异常行为识别方法》中先对图像进行人体关键点检测，然后根据关键点来识别人体行为是否异常。基于深度学习的监控视频人体异常检测在性能越来越高，基本能够满足现实需求。
4.虽然上面几种算法中，基于深度学习的人体异常行为检测(识别)方法克服了传统的人体行为比对的弊端，行为识别性能已经取得很好的效果，但直接运用在谈话视频中存在一些问题：1：谈话场所拍摄的视频只能拍摄到人体上半身，在提取人体关键点时人体下半身会出现较大误差，降低了模型精度。2：部分现有方法采用了三维卷积神经网络、图像金字塔方式来提取特征，这些会加大网络模型对硬件资源的占用；而部分关键点提取方法使用了普通卷积神经网络来提取特征，在图片清晰且人体在图像的占比相对较大时，性能可以满足需求，但谈话视频使用usb全景摄像头，人体较小且清晰度不是很高，普通卷积神经网络提取人体关键点漂移比较大，若要保持较好的检测性能，提取人体关键点的模型权重较大，影响模型推理性能。3：谈话人员之间的特殊性，全景画面中需要确定谈话人与被谈话人身份，现有方法中无此功能。

技术实现要素：

5.为了解决上述问题，本发明提出了一种基于视频的谈话场景异常检测方法、终端设备及存储介质。
6.具体方案如下：
7.一种基于视频的谈话场景异常检测方法，包括以下步骤：
8.s1：从谈话场景的视频的当前帧中提取谈话人画面图像、被谈话人画面图像和包含谈话人和被谈话人的全景画面图像；
9.s2：检测全景画面图像中人数，并判断其与实际谈话人人数和实际被谈话人人数的总数的大小关系，如果大于，则发送围观异常的提醒，返回s1；如果小于，则进入s3；如果等于，则进入s4；
10.s3：分别检测谈话人画面图像和被谈话人画面图像中的人数，如果谈话人画面图像中的人数小于实际谈话人人数，则发送谈话人离位的提醒，返回s1；如果被谈话人画面图像中的人数小于实际被谈话人人数，则发送被谈话人离位的提醒，返回s1；
11.s4：通过从谈话人画面图像和被谈话人画面图像中提取的人体特征对全景画面图像中的谈话人和被谈话人进行标注；
12.s5：对全景画面图像中谈话人和被谈话人的人体上半身关键点进行标注；
13.s6：将每个人标注的所有人体关键点进行连线，并判断谈话人与被谈话人对应的连线是否有交叉，如果有，则发送人员有肢体接触的提醒，返回s1；否则，直接返回s1。
14.进一步的，步骤s5中对全景画面图像中谈话人和被谈话人的人体关键点进行标注的过程包括以下步骤：
15.s51：采集具有人体全身关键点标注的图像集组成训练集；
16.s52：基于rsn网络构建人体全身关键点提取模型，通过训练集对人体全身关键点提取模型进行训练，将训练后的模型作为教师网络模型；
17.s53：构建用于人体上半身关键点提取的学生网络模型，基于知识蒸馏和教师网络模型，通过训练集对学生网络模型进行训练；
18.学生网络模型的网络结构中采用三个分支的特征金字塔模块，输入图片输入第一分支后，依次经过第一分支的6个步长为2卷积层和2个反卷积层；
19.从第一分支的第4个卷积层的输出中引出第二分支；
20.第二分支依次经过一个反卷积层和两个步长为2的卷积层后，与第一分支中第6个卷积层的输出经过反卷积层后的结果进行第一次特征融合；
21.从第二分支的第1个卷积层的输出中引出第三分支；
22.第三分支依次经过一个反卷积层和两个步长为2的卷积层后，进行第一次上采样操作，将第一次上采样操作的结果与第一次特征融合的输出经过反卷积层后的结果进行第二次特征融合；
23.将第二次特征融合的输出进行第二次上采样后，与第一分支中第2个反卷积层的输出进行第三次特征融合；
24.将三次特征融合的输出经过2个步长为1的卷积层得到输入图片对应的人体上半身关键点图谱；
25.s54：通过训练后的学生网络模型对全景画面图像中谈话人和被谈话人的人体上半身关键点进行标注。
26.进一步的，学生网络模型训练过程中的损失函数loss的计算公式为：
[0027][0028]
其中，k表示人体上半身关键点的个数，表示教师网络输出的第k个关键点对应的图谱，表示学生网络输出的第k个关键点对应的图谱。
[0029]
进一步的，图像中人数的检测方法采用人体检测算法进行。
[0030]
一种基于视频的谈话场景异常检测终端设备，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例上述的方法的步骤。
[0031]
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述的方法的步骤。
[0032]
本发明采用如上技术方案，可以对谈话视频中出现的人员离位、人员围观、人员接触等不合规行为进行检测，达到相对智能化的谈话视频违规检测的目的。
附图说明
[0033]
图1所示为本发明实施例一的流程图。
[0034]
图2所示为该实施例中知识蒸馏框过程的示意图。
[0035]
图3所示为该实施例中学生网络的结构示意图。
具体实施方式
[0036]
为进一步说明各实施例，本发明提供有附图。这些附图为本发明揭露内容的一部分，其主要用以说明实施例，并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容，本领域普通技术人员应能理解其他可能的实施方式以及本发明的优点。
[0037]
现结合附图和具体实施方式对本发明进一步说明。
[0038]
实施例一：
[0039]
本发明实施例提供了一种基于视频的谈话场景异常检测方法，如图1所示，所述方法包括以下步骤：
[0040]
s1：从谈话场景的视频的当前帧中提取谈话人画面图像、被谈话人画面图像和包含谈话人和被谈话人的全景画面图像。
[0041]
该实施例中谈话人画面图像、被谈话人画面图像和全景画面图像通过三个安装于不同位置的摄像头分别进行拍摄，而谈话场景的视频为由三个摄像头的画面按固定大小比例合成的视频，如左下角为拍摄谈话人的前景摄像头画面(2个谈话人)，右下角为拍摄被谈话人的后置摄像头画面(1个被谈话人)，中间为全景摄像头画面(3个人)。
[0042]
由于针对谈话场景视频检测的异常点主要有：谈话人离位、被谈话人离位、旁人围观、谈话人与被谈话人肢体接触四个异常点，其中，离位表示谈话人或被谈话人不出现于谈话人画面图像、被谈话人画面图像中，旁人围观表示在全景画面图像中人数超过规定的人数，肢体接触表示谈话人与被谈话人肢体有重叠，基于此，通过后续步骤对删除异常件进行检测。
[0043]
s2：检测全景画面图像中人数，并判断其与实际谈话人人数和实际被谈话人人数的总数的大小关系，如果大于，则发送围观异常的提醒，返回s1；如果小于，则进入s3；如果等于，则进入s4。
[0044]
图像中人数的检测方法通过常用人体检测算法进行，如人脸检测算法，在此不做赘述。
[0045]
s3：分别检测谈话人画面图像和被谈话人画面图像中的人数，如果谈话人画面图
像中的人数小于实际谈话人人数，则发送谈话人离位的提醒，返回s1；如果被谈话人画面图像中的人数小于实际被谈话人人数，则发送被谈话人离位的提醒，返回s1。
[0046]
s4：通过从谈话人画面图像和被谈话人画面图像中提取的人体特征对全景画面图像中的谈话人和被谈话人进行标注。
[0047]
由于在肢体接触的检测中需要判断谈话人与被谈话人是否有肢体接触，因此需要预先进行标注。
[0048]
具体标注的过程中可以从谈话人画面图像中提取谈话人的人体特征，将其与全景画面图像中提取的所有人体特征进行匹配，如果匹配合格，则标注为谈话人。被谈话人的标注方式与谈话人类似，在此不做赘述。
[0049]
s5：对全景画面图像中谈话人和被谈话人的人体上半身关键点进行标注。
[0050]
由于在谈话场景中出现的人体画面多为上半身，现有的人体关键点提取算法多为全身关键点提取，当应用于本实施例的谈话场景中准确率较低。因此，本实施例中采用知识蒸馏的方式构建用于人体上半身关键点提取的网络模型进行标注，参考图2所示，具体标注过程包括以下步骤：
[0051]
s51：采集具有人体全身关键点标注的图像集组成训练集。
[0052]
s52：基于rsn网络构建人体全身关键点(即17个关键点)提取模型，通过训练集对人体全身关键点提取模型进行训练，将训练后的模型作为教师网络模型。
[0053]
s53：构建用于人体上半身关键点(即11个关键点)提取的学生网络模型，基于知识蒸馏和教师网络模型，通过训练集对学生网络模型进行训练。
[0054]
参考图3所示，其中c表示卷积操作，dc表示反卷积操作，up表示上采样操作。学生网络模型的网络结构中采用三个分支的特征金字塔模块，输入图片输入第一分支后，依次经过第一分支的6个步长为2卷积层和2个反卷积层；从第一分支的第4个卷积层的输出中引出第二分支；第二分支依次经过一个反卷积层和两个步长为2的卷积层后，与第一分支中第6个卷积层的输出经过反卷积层后的结果进行第一次特征融合；从第二分支的第1个卷积层的输出中引出第三分支；第三分支依次经过一个反卷积层和两个步长为2的卷积层后，进行第一次上采样操作，将第一次上采样操作的结果与第一次特征融合的输出经过反卷积层后的结果进行第二次特征融合；将第二次特征融合的输出进行第二次上采样后，与第一分支中第2个反卷积层的输出进行第三次特征融合；将三次特征融合的输出经过2个步长为1的卷积层得到输入图片对应的人体上半身关键点图谱。
[0055]
学生网络模型训练过程中的损失函数loss的计算公式为：
[0056][0057]
其中，k表示人体上半身关键点的个数，该实施例中k＝11，表示教师网络输出的第k个关键点对应的图谱，表示学生网络输出的第k个关键点对应的图谱。
[0058]
s54：通过训练后的学生网络模型对全景画面图像中谈话人和被谈话人的人体上半身关键点进行标注。
[0059]
s6：将每个人标注的所有人体关键点进行连线，并判断谈话人与被谈话人对应的连线是否有交叉，如果有，则发送人员有肢体接触的提醒，返回s1；否则，直接返回s1。
[0060]
本发明实施例考虑到了谈话场景中人体遮挡的问题，使用知识蒸馏算法来训练人体关键点检测算法，提升了人体关键点检测网络的性能，加快收敛速度。在学生网络中使用了特征金字塔网络，在速度影响很小的情况下，大幅提升人体关键点检测性能。
[0061]
实施例二：
[0062]
本发明还提供一种基于视频的谈话场景异常检测终端设备，包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现本发明实施例一的上述方法实施例中的步骤。
[0063]
进一步地，作为一个可执行方案，所述基于视频的谈话场景异常检测终端设备可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述基于视频的谈话场景异常检测终端设备可包括，但不仅限于，处理器、存储器。本领域技术人员可以理解，上述基于视频的谈话场景异常检测终端设备的组成结构仅仅是基于视频的谈话场景异常检测终端设备的示例，并不构成对基于视频的谈话场景异常检测终端设备的限定，可以包括比上述更多或更少的部件，或者组合某些部件，或者不同的部件，例如所述基于视频的谈话场景异常检测终端设备还可以包括输入输出设备、网络接入设备、总线等，本发明实施例对此不做限定。
[0064]
进一步地，作为一个可执行方案，所称处理器可以是中央处理单元(central processing unit，cpu)，还可以是其他通用处理器、数字信号处理器(digital signal processor，dsp)、专用集成电路(application specific integrated circuit，asic)、现场可编程门阵列(field-programmable gate array，fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等，所述处理器是所述基于视频的谈话场景异常检测终端设备的控制中心，利用各种接口和线路连接整个基于视频的谈话场景异常检测终端设备的各个部分。
[0065]
所述存储器可用于存储所述计算机程序和/或模块，所述处理器通过运行或执行存储在所述存储器内的计算机程序和/或模块，以及调用存储在存储器内的数据，实现所述基于视频的谈话场景异常检测终端设备的各种功能。所述存储器可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序；存储数据区可存储根据手机的使用所创建的数据等。此外，存储器可以包括高速随机存取存储器，还可以包括非易失性存储器，例如硬盘、内存、插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0066]
本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时实现本发明实施例上述方法的步骤。
[0067]
所述基于视频的谈话场景异常检测终端设备集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明实现上述实施例方法中的全部或部分流程，也可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一计算机可读存储介质中，该计算机程序在被处理器执行时，可实现上述各个方法实施例的步骤。其中，所述计算机程序包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件
或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)以及软件分发介质等。
[0068]
尽管结合优选实施方案具体展示和介绍了本发明，但所属领域的技术人员应该明白，在不脱离所附权利要求书所限定的本发明的精神和范围内，在形式上和细节上可以对本发明做出各种变化，均为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄仁裕高志鹏赵建强陈岩鹏汪泰伸邱杰
技术所有人：厦门市美亚柏科信息股份有限公司
我是此专利的发明人

上一篇：一种可调节储物柜的制作方法
上一篇：一种医疗订单处理方法、对账系统及计算机可读存储介质与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。