一种基于图像的用户行为检测方法、装置和存储介质与流程

文档序号：18032006发布日期：2019-06-28 22:46阅读：171来源：国知局

本发明涉及图像检测技术领域，尤其涉及一种基于图像的用户行为检测方法、装置和存储介质。

背景技术：

驾驶员在开车过程中接打电话会导致安全隐患，随着图像处理技术、计算机视觉技术以及深度学习技术的发展，通过对驾驶员开车过程中采集的视频图像进行分析以判别驾驶员是否有开车接打电话行为已成为智能交通技术中的研究热点之一。

现有的通过视频图像分析驾驶员是否有开车接打电话行为依据不同颜色空间中，不同人种的肤色像素值分布具有不同的聚类特性，将图像由rgb颜色空间转换到ycbcr颜色空间，采用阈值分割的方式将符合肤色像素分布区域分割出来，对分割出来的每个肤色块进行分类得到手掌区域，只要检测到手掌与人脸在一定范围内则认为驾驶员有开车接打电话行为。

上述方案中，由于采用的是肤色模型，所以对摄像头应用场景要求较高，并且容易对类似肤色的物体产生错误检测，另一方面，在人脸角度偏差较大时，无法检测出人脸，而且对于利用手掌支撑脸部的动作，容易错误判别为接打电话行为，降低了驾驶员开车接打电话行为检测结果的准确性。

技术实现要素：

本发明实施例提供一种基于图像的用户行为检测方法、装置和存储介质，用以提高驾驶员开车接打电话行为检测结果的准确性。

第一方面，提供基于图像的用户行为检测方法，包括：

利用预先训练的人脸检测识别模型，识别出实时图像中的人脸图像并确定所述实时图像中人脸框和多个关键点的预测位置信息；

根据人脸框的预测位置信息确定检测区域；

识别所述检测区域内的手掌区域和唇部区域；

确定所述手掌区域中心点与各个关键点之间的最小距离；以及

统计在预设时长内唇部变化次数；

如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为。

可选地，所述人脸检测识别模型为基于包含不同人脸姿态的样本图像利用三层网络训练得到的，所述样本图像中标注有人脸框以及各关键点的实际位置信息。

可选地，所述关键点包括两个眼睛关键点；以及

在根据人脸框的预测位置信息确定检测区域之前，还包括：

根据两个眼睛关键点的位置信息，确定两眼之间的水平角度；以及

根据两眼之间的水平角度，确定所述人脸框对应的矫正图像。

可选地，根据两眼之间的水平角度，确定所述人脸框对应的矫正图像，包括：

根据所述两眼之间的水平角度，将所述实时图像旋转相应的角度得到中间图像；

根据所述实时图像和所述中间图像确定变换矩阵；

利用所述变换矩阵，确定所述人脸框对应的矫正图像。

可选地，根据所述实时图像和所述中间图像确定变换矩阵，具体包括：

从所述实时图像中选择3个关键点；

根据选择的3个关键点在所述实时图像中的第一位置信息和该3个关键点在所述中间图像中的第二位置信息，确定所述变换矩阵。

可选地，根据人脸框的预测位置信息确定检测区域，具体包括：

确定以人脸框中心点为基准点，人脸框中心点与所述人脸框之间的距离的n倍大小为尺寸，扩展所述人脸框得到所述检测区域，其中n为大于1的数值。

可选地，所述关键点包括两个唇角关键点；以及

按照以下方法识别所述检测区域内的唇部区域：

利用所述变换矩阵，将两个唇角关键点在所述实时图像中的第三位置信息转换为所述矫正图像中的第四位置信息；

根据两个唇角关键点对应的第四位置信息确定所述检测区域内的唇部区域。

可选地，统计在预设时长内唇部变化次数，具体包括：

统计在预设时长内唇部区域的直方图变化次数；

确定直方图变化次数为所述唇部变化次数。

第二方面，提供一种基于图像的用户行为检测装置，包括：

第一识别单元，用于利用预先训练的人脸检测识别模型，识别出实时图像中的人脸图像并确定所述实时图像中人脸框和多个关键点的预测位置信息；

第一确定单元，用于根据人脸框的预测位置信息确定检测区域；

第二识别单元，用于识别所述检测区域内的手掌区域和唇部区域；

第二确定单元，用于确定所述手掌区域中心点与各个关键点之间的最小距离；

统计单元，用于统计在预设时长内唇部变化次数；

第三确定单元，用于如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为。

可选地，所述关键点包括两个眼睛关键点；以及

所述装置，还包括：

第四确定单元，用于在所述第一确定单元根据人脸框的预测位置信息确定检测区域之前，根据两个眼睛关键点的位置信息，确定两眼之间的水平角度；以及根据两眼之间的水平角度，确定所述人脸框对应的矫正图像。

可选地，所述第四确定单元，具体用于根据所述两眼之间的水平角度，将所述实时图像旋转相应的角度得到中间图像；根据所述实时图像和所述中间图像确定变换矩阵；利用所述变换矩阵，确定所述人脸框对应的矫正图像。

可选地，所述第四确定单元，具体用于从所述实时图像中选择3个关键点；

根据选择的3个关键点在所述实时图像中的第一位置信息和该3个关键点在所述中间图像中的第二位置信息，确定所述变换矩阵。

可选地，所述第一确定单元，具体用于确定以人脸框中心点为基准点，人脸框中心点与所述人脸框之间的距离的n倍大小为尺寸，扩展所述人脸框得到所述检测区域，其中n为大于1的数值。

可选地，所述关键点包括两个唇角关键点；以及

所述第二识别单元，具体用于利用所述变换矩阵，将两个唇角关键点在所述实时图像中的第三位置信息转换为所述矫正图像中的第四位置信息；根据两个唇角关键点对应的第四位置信息确定所述检测区域内的唇部区域。

可选地，所述统计单元，具体用于统计在预设时长内唇部区域的直方图变化次数；确定直方图变化次数为所述唇部变化次数。

第三方面，提供一种计算装置，包括至少一个处理器、以及至少一个存储器，其中，所述存储器存储有计算机程序，当所述程序被所述处理器执行时，使得所述处理器执行上述基于图像的用户行为检测方法所述的任一步骤。

第四方面，提供一种计算机可读介质，其存储有可由计算装置执行的计算机程序，当所述程序在计算装置上运行时，使得所述计算装置执行上述基于图像的用户行为检测方法所述的任一步骤。

本发明实施例提供的基于图像的用户行为检测方法、装置和存储介质，通过预先训练的人脸检测识别模型，识别出其中的人脸图像并确定人脸框和各个关键点的预测位置信息，进一步地根据人脸框确定出检测区域，并识别出检测区域内的手掌区域和唇部区域，计算手掌区域中心点与各个关键点之间的最小距离，并统计在预设时长内唇部变化次数，如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为，上述过程中，结合手掌与关键点之间的最小距离和唇部变化次数来判断是否有开车接打电话行为，提高了检测结果的准确性。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本发明的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1a为本发明实施例中，正脸图像浅层网络的输出示意图；

图1b为本发明实施例中，正脸图像中间网络的输出示意图；

图1c为本发明实施例中，正脸图像深层网络的输出示意图；

图1d为本发明实施例中，侧脸70度下浅层网络的输出示意图；

图1e为本发明实施例中，侧脸70度下浅层网络的输出示意图；

图1f为本发明实施例中，侧脸70度下浅层网络的输出示意图；

图2为本发明实施例中，根据不同的下采样比例参数得到一组尺寸不同的图像示意图；

图3为根据本发明实施方式的基于图像的用户行为检测方法的实施流程示意图；

图4为本发明实施例中，将人脸框扩展为检测区域的示意图；

图5为本发明实施例中，从实时图像中裁剪出检测区域的示意图；

图6a为本发明实施例中，识别出的手掌区域示意图；

图6b为本发明实施例中，确定手掌区域中心点与五个关键点之间的最小距离示意图；

图7为本发明实施例中，唇部区域识别示意图；

图8a为本发明实施例中，第一种状态下的唇部区域示意图；

图8b为本发明实施例中，第二种状态下的唇部区域示意图；

图9a为本发明实施例中，第一种状态下的唇部区域直方图；

图9b为本发明实施例中，第二种状态下的唇部区域直方图；

图10为本发明实施例中，存在一定角度偏移的图像示意图；

图11为本发明实施例中，旋转后的中间图像示意图；

图12为本发明实施例中，基于图像的用户行为检测装置的结构示意图；

图13为根据本发明实施方式的计算装置的结构示意图。

具体实施方式

为了提高驾驶员开车接打电话行为的检出率和检测结果准确性，本发明实施例提供了一种基于图像的用户行为检测方法、装置和存储介质。

本发明实施例中的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。

在本文中提及的“多个或者若干个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，a和/或b，可以表示：单独存在a，同时存在a和b，单独存在b这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

以下结合说明书附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明，并且在不冲突的情况下，本发明中的实施例及实施例中的特征可以相互组合。

本发明实施例中，为了提高驾驶员开车接打电话行为的检出率，采用coarse-to-fine(由粗到精)网络设计了三层网络进行级联，利用该三层网络对包含不同人脸姿态的样本图像进行训练得到人脸检测识别模型，其中，样本图像中标注有人脸框以及各个关键点的实际位置信息。

其中，通过coarse-to-fine的模式，浅层网络采用全卷积的方式(支持任意图像尺寸的输入)，其作用主要是筛选出候选区域，如图1a所示，其为浅层网络的输出示意图，中层网络的作用为了过滤掉浅层网络的错误检测，并对初步调优检测框位置，如图1b所示，其为中层网络的输出示意图。深层网络则是将中层网络得到的人脸框以及关键点位置进行调优，如图1c所示，其为深层网络的输出示意图。具体实施时，人脸框为矩形框，其位置信息可以采用矩形框的左上角和右下角两个顶点的位置坐标标识，人脸关键点可以包括两个眼睛关键点、鼻子关键点以及两个嘴角关键点，每一关键点的位置信息可以采用各个关键点的位置坐标表示。

本发明实施例中，为了让训练网络能够对各个尺度的样本图像进行较好的检测，解决设计网络卷积核大小缺少多样性的弊端，在将图像进行前向运算之前，会依据输入图像尺寸及所需检测最小人脸的尺寸，对原图动态进行下采样比例计算操作，得到一组下采样比例参数并进行图像金字塔操作，这样，针对同一样本图像，可以根据不同的下采样比例参数得到一组尺寸不同的图像，使得训练网络能更好的适应不同的图像尺寸。如图2所示，其为根据不同的下采样比例参数得到一组尺寸不同的图像示意图。

具体实施时，对于浅层网络(判别样本图像是否包含人脸，即分类网络)的loss(损失)函数涉及如下：

li＝-yilog(pi)+(1-yi)(1-log(pi))

其中，xi为训练网络的输入，即样本图像，yi为样本图像中标注的真实标签，即人脸框的两个顶点和5个关键点的实际位置信息，每一位置信息可以采用一对横坐标和纵坐标表示，因此，yi可以表示为一个14维的特征向量(由5个关键点坐标以及人脸框的两个顶点坐标组成)。pi为训练网络的输出，即人脸框和各个关键点的预测位置信息，同样，pi可以也表示为一个14维的特征向量(由5个关键点坐标以及人脸框的两个顶点坐标组成)。

人脸框及关键点位置信息的损失函数可以采用如下公式：li＝‖yi-pi‖。

传统的检测方法采用肤色模型，对视频源要求为可见光图像视频源，而本发明实施例训练得到的人脸检测识别模型对视频源要求较低，对于红外图像、可见光图像均适用，从而提高了开车接打电话行为的检出率。而且，传统检测方法在人脸角度偏移在45度以上时，就无法检测出人脸，由于检测不到人脸，会导致无法评估手掌距离人脸关键点的位置信息，从而发生驾驶员侧脸打电话的情况下无法正常实现检出并预警，存在较大的安全风险。本发明实施例采用的算法具有鲁棒性好，在人脸角度偏移在75度以内均能实现检测。该方法能够大幅度提升侧脸打电话情况下的检出率，分别如图1d、图1e和图1f所示，其为在侧脸70度的情况下的检测结果，图1d为侧脸70度的情况下，浅层网络的输出结果，图1e为侧脸70度的情况下，中间网络的输出结果，图1f为侧脸70度的情况下，深层网络出的输出结果。

为了检测图像中的手掌区域，本发明实施例中，还提供了一种手掌检测模型训练方法。具体实施时，由于手掌区域较小且容易被脸遮挡，所以对检测网络要求较高，本专利采用基于ssd(singleshotmultiboxdetector，单路目标检测算法)的检测网络，能很好的实现手掌区域检测。ssd主要思路是均匀地在网络不同层上的不同位置、进行密集抽样，抽样时可以采用不同尺度和长宽比，然后利用cnn(卷积神经网络)提取特征后直接进行分类与回归，整个过程只需要一步，所以相对传统利用ycbcr肤色模型实现手掌检测的算法，其优势是精度更高。具体实施时中，可以利用训练好的检测网络检测图像中的手掌区域。

具体实施时，手掌检测模型的训练样本为包含有手掌的样本图像，样本图像中标注有手掌区域的位置信息。

基于训练得到的人脸检测识别模型和手掌检测模型，本发明实施例提供了一种基于图像的用户行为检测方法，如图3所示，可以包括以下步骤：

s31、利用预先训练的人脸检测识别模型，识别出实时图像中的人脸图像并确定实时图像中人脸框和多个关键点的预测位置信息。

具体实施时，人脸框为矩形框，利用预先训练的人脸检测识别模型首先识别实时图像中是否有人脸图像，如果有，则进一步确定人脸框的位置信息和人脸框中5个关键点的位置信息，其中，人脸框的位置信息可以采用矩形框的左上角和右下角的顶点坐标表示，各个关键点的位置信息可以采用关键点坐标表示，人脸检测识别模型的输出结果如图1c所示。

本发明实施例中，人脸框中包含有5个关键点，具体如下：两个眼睛关键点、一个鼻子关键点以及两个唇角关键点，具体实施时，可以按照各个关键点的纵坐标识别各个关键点，例如，以实时图像左下角顶点为原点为例，则眼睛关键点、鼻子关键点和唇角关键点的纵坐标依次减小，即识别出的5个关键点中，按照纵坐标排序，排序第一和第二的为眼睛关键点，两者的纵坐标可能相同，也可能不同，排序第三位的为鼻子关键点，排序第四位和第五位的为两个唇角关键点。

s32、根据人脸框的预测位置信息确定检测区域。

具体实施时，为了提高开车接打电话行为的检出率，可以对人脸框进行扩展将手掌检测区域由人脸框扩展到头肩区域。具体实施时，可以以人脸框的中心点为基准点，人脸框中心点与所述人脸框之间的距离的n倍大小为尺寸，扩展所述人脸框得到所述检测区域，其中n为大于1的数值。其中，n的大小可以根据实际需要进行设置，本发明实施例对此不进行限定，例如，n可以设定为1.5，也可以设定为2。以n＝2为例，如图4所示，其为将人脸框扩展为检测区域的示意图。确定出检测区域，能够过滤非关注区域的无检测，以及能够将手掌在检测模型中的感受野提升，以模型输入固定为300*300为例，假设手掌在全图比例为1/10，在检测区域内的占比比例将大于1/10，从而能够提升手掌的检出率。如图5所示，其为从实时图像中裁剪出检测区域的示意图。

s33、识别检测区域内的手掌区域和唇部区域。

具体实施时，利用预先训练的手掌检测模型检测并识别检测区域内的手掌区域。如图6a所示，其为识别出的手掌区域示意图。

对于唇部区域，本发明实施例中，可以按照以下方法识别检测区域内的唇部区域：根据两个唇角关键点对应的位置信息确定检测区域内的唇部区域。

具体地，根据两个唇角关键点的位置坐标，以两个唇角关键点的中心点作为宽，以宽的m倍作为高截取唇部区域，其中，m为大于0且小于1的数值，具体实施时，m的取值可以根据实际需要进行设置，本发明实施例中对此不进行限定，例如，可以设置为m＝1/3。如图7所示，其为唇部区域识别示意图。

s34、确定手掌区域中心点与各个关键点之间的最小距离。

具体实施时，在识别出检测区域内的手掌区域之后，可以按照以下公式确定手掌区域中心点与各个关键点之间的最小距离：

distane＝min((pcenter.x-pi.x)²+(pcenter.y-pi.y)²)

pcenter.x表示手掌区域中心点的横坐标，pcenter.y表示手掌区域中心点的纵坐标，pi.x表示关键点i的横坐标，pi.y表示关键点i的纵坐标。

具体实施时，利用上述公式分别计算手掌区域中心点到每一关键点的距离，如图6b所示，其为确定手掌区域中心点与五个关键点之间的最小距离示意图，选择其中的最小距离作为手掌区域中心点与各个关键点之间的最小距离。

s35、统计在预设时长内唇部变化次数。

具体实施时，唇部状态分析，主要方式是统计唇部在一段时间内的直方图分布，来判断该时间段内，是否发生了唇部变化。从而判断驾驶员是否在该时间段内发生过说话行为。分别如图8a和图8b所示，两种状态下的唇部状态对应的唇部区域直方图分别如图9a和图9b所示，当唇部发生说话事件时，直方图与嘴部闭合时存在较大差异。

基于此，具体实施时，步骤s35可以按照以下方法实施：统计在预设时长内唇部区域的直方图变化次数；确定直方图变化次数为所述唇部变化次数。

需要说明的是，具体实施时，步骤s34和步骤s35并无一定的先后执行顺序，步骤s35也可以先于步骤s34执行，或者，两个步骤也可以同时执行。

s36、如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为。

具体实施时，在检测到开车接打电话行为之后，可以向驾驶员进行语音提示。

具体实施时，还可能存在以下问题，采集的实时图像中人脸图像存在一定角度的偏移，如图10所示。这种情况下，为了提高检测结果的准确性，本发明实施例中，可以首先对实时图像进行矫正，已得到人脸的正向图像，即去除实时图像中的角度畸变，以实现场景角度的归一化，从而能够更精确的提取唇部区域和手掌区域。

具体实施时，可以按照以下流程得到检测区域的矫正图像：根据两个眼睛关键点的位置信息，确定两眼之间的水平角度；以及根据两眼之间的水平角度，确定所述人脸框对应的矫正图像。

具体地，根据所述两眼之间的水平角度，将所述实时图像旋转相应的角度得到中间图像，旋转后的中间图像如图11所示；根据所述实时图像和所述中间图像确定变换矩阵；利用所述变换矩阵，确定所述人脸框对应的矫正图像。将实时图像旋转相应的角度得到中间图像后，针对识别出的人脸框以及各个关键点，可以相应地确定出人脸框的顶点位置坐标以及各个关键点坐标在旋转后的中间图像中对应的位置坐标。

本发明实施例中，主要是通过三对坐标点的对应映射关系，确定变换矩阵。具体地，可以从实时图像中选择3个关键点，根据选择的3个关键点在所述实时图像中的第一位置信息和该3个关键点在所述中间图像中的第二位置信息，确定所述变换矩阵。具体实施时，可以按照以下公式确定变换矩阵：

(x'i,y'i,1)＝map_matrix.(xi,yi,1)^t

其中，xi,yi为实时图像的关键点坐标，x'i,y'i中间图像的关键点坐标。通过得到的变换矩阵，可以实现图像的矫正的目的，并且计算得到变化后关键点位置。利用转换矩阵进行矫正后得到的唇部区域基本为水平，从而可以为唇部区域提取提供统一的基准。基于此，从存在一定角度便宜的人脸框中提取唇部区域，可以按照以下流程实施：利用所述变换矩阵，将两个唇角关键点在所述实时图像中的第三位置信息转换为所述矫正图像中的第四位置信息；根据两个唇角关键点对应的第四位置信息确定所述检测区域内的唇部区域。

本发明实施例提供的基于图像的用户行为检测方法，通过预先训练的人脸检测识别模型，识别出其中的人脸图像并确定人脸框和各个关键点的预测位置信息，进一步地根据人脸框确定出检测区域，并识别出检测区域内的手掌区域和唇部区域，计算手掌区域中心点与各个关键点之间的最小距离，并统计在预设时长内唇部变化次数，如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为，上述过程中，结合手掌与关键点之间的最小距离和唇部变化次数来判断是否有开车接打电话行为，提高了检测结果的准确性。

另外，本发明实施例提供的基于图像的用户行为检测方法，在红外和可见光两种环境下均能很好地实现接打电话行为检测，且在具有很高检出率的同时，抑制掉手在头部附近但未真实打电话的情况。

基于同一发明构思，本发明实施例中还提供了一种基于图像的用户行为检测装置，由于上述装置解决问题的原理与基于图像的用户行为检测方法相似，因此上述装置的实施可以参见方法的实施，重复之处不再赘述。

如图12所示，其为本发明实施例提供的基于图像的用户行为检测装置的结构示意图，包括：

第一识别单元121，用于利用预先训练的人脸检测识别模型，识别出实时图像中的人脸图像并确定所述实时图像中人脸框和多个关键点的预测位置信息；

第一确定单元122，用于根据人脸框的预测位置信息确定检测区域；

第二识别单元123，用于识别所述检测区域内的手掌区域和唇部区域；

第二确定单元124，用于确定所述手掌区域中心点与各个关键点之间的最小距离；

统计单元125，用于统计在预设时长内唇部变化次数；

第三确定单元126，用于如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为。

可选地，所述关键点包括两个眼睛关键点；以及

所述装置，还包括：

可选地，所述第四确定单元，具体用于从所述实时图像中选择3个关键点；

根据选择的3个关键点在所述实时图像中的第一位置信息和该3个关键点在所述中间图像中的第二位置信息，确定所述变换矩阵。

可选地，所述关键点包括两个唇角关键点；以及

可选地，所述统计单元，具体用于统计在预设时长内唇部区域的直方图变化次数；确定直方图变化次数为所述唇部变化次数。

为了描述的方便，以上各部分按照功能划分为各模块(或单元)分别描述。当然，在实施本发明时可以把各模块(或单元)的功能在同一个或多个软件或硬件中实现。

在介绍了本发明示例性实施方式的基于图像的用户行为检测方法和装置之后，接下来，介绍根据本发明的另一示例性实施方式的计算装置。

所属技术领域的技术人员能够理解，本发明的各个方面可以实现为系统、方法或程序产品。因此，本发明的各个方面可以具体实现为以下形式，即：完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等)，或硬件和软件方面结合的实施方式，这里可以统称为“电路”、“模块”或“系统”。

在一些可能的实施方式中，根据本发明的计算装置可以至少包括至少一个处理器、以及至少一个存储器。其中，所述存储器存储有程序代码，当所述程序代码被所述处理器执行时，使得所述处理器执行本说明书上述描述的根据本发明各种示例性实施方式的基于图像的用户行为检测方法中的步骤。例如，所述处理器可以执行如图3中所示的步骤s31、利用预先训练的人脸检测识别模型，识别出实时图像中的人脸图像并确定实时图像中人脸框和多个关键点的预测位置信息，和步骤s32、根据人脸框的预测位置信息确定检测区域；以及步骤s33、识别检测区域内的手掌区域和唇部区域；步骤s34、确定手掌区域中心点与各个关键点之间的最小距离；s35、统计在预设时长内唇部变化次数；s36、如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为。

下面参照图13来描述根据本发明的这种实施方式的计算装置130。图13显示的计算装置130仅仅是一个示例，不应对本发明实施例的功能和使用范围带来任何限制。

如图13所示，计算装置130以通用计算设备的形式表现。计算装置130的组件可以包括但不限于：上述至少一个处理器131、上述至少一个存储器132、连接不同系统组件(包括存储器132和处理器131)的总线133。

总线133表示几类总线结构中的一种或多种，包括存储器总线或者存储器控制器、外围总线、处理器或者使用多种总线结构中的任意总线结构的局域总线。

存储器132可以包括易失性存储器形式的可读介质，例如随机存取存储器(ram)1321和/或高速缓存存储器1322，还可以进一步包括只读存储器(rom)1323。

存储器132还可以包括具有一组(至少一个)程序模块1324的程序/实用工具1325，这样的程序模块1324包括但不限于：操作系统、一个或者多个应用程序、其它程序模块以及程序数据，这些示例中的每一个或某种组合中可能包括网络环境的实现。

计算装置130也可以与一个或多个外部设备134(例如键盘、指向设备等)通信，还可与一个或者多个使得用户能与计算装置130交互的设备通信，和/或与使得该计算装置130能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(i/o)接口135进行。并且，计算装置130还可以通过网络适配器136与一个或者多个网络(例如局域网(lan)，广域网(wan)和/或公共网络，例如因特网)通信。如图所示，网络适配器136通过总线133与用于计算装置130的其它模块通信。应当理解，尽管图中未示出，可以结合计算装置130使用其它硬件和/或软件模块，包括但不限于：微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

在一些可能的实施方式中，本发明提供的基于图像的用户行为检测方法的各个方面还可以实现为一种程序产品的形式，其包括程序代码，当所述程序产品在计算机设备上运行时，所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本发明各种示例性实施方式的基于图像的用户行为检测方法中的步骤，例如，所述计算机设备可以执行如图3中所示的步骤s31、利用预先训练的人脸检测识别模型，识别出实时图像中的人脸图像并确定实时图像中人脸框和多个关键点的预测位置信息，和步骤s32、根据人脸框的预测位置信息确定检测区域；以及步骤s33、识别检测区域内的手掌区域和唇部区域；步骤s34、确定手掌区域中心点与各个关键点之间的最小距离；s35、统计在预设时长内唇部变化次数；s36、如果手掌区域中心点与各个关键点之间的最小距离小于预设距离阈值且在所述预设时长内唇部变化次数大于预设次数阈值，则确定检测到开车接打电话行为。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。

本发明的实施方式的用于基于图像的用户行为检测的程序产品可以采用便携式紧凑盘只读存储器(cd-rom)并包括程序代码，并可以在计算设备上运行。然而，本发明的程序产品不限于此，在本文件中，可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了可读程序代码。这种传播的数据信号可以采用多种形式，包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质，该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

可读介质上包含的程序代码可以用任何适当的介质传输，包括——但不限于——无线、有线、光缆、rf等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等，还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中，远程计算设备可以通过任意种类的网络——包括局域网(lan)或广域网(wan)—连接到用户计算设备，或者，可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

应当注意，尽管在上文详细描述中提及了装置的若干单元或子单元，但是这种划分仅仅是示例性的并非强制性的。实际上，根据本发明的实施方式，上文描述的两个或更多单元的特征和功能可以在一个单元中具体化。反之，上文描述的一个单元的特征和功能可以进一步划分为由多个单元来具体化。

此外，尽管在附图中以特定顺序描述了本发明方法的操作，但是，这并非要求或者暗示必须按照该特定顺序来执行这些操作，或是必须执行全部所示的操作才能实现期望的结果。附加地或备选地，可以省略某些步骤，将多个步骤合并为一个步骤执行，和/或将一个步骤分解为多个步骤执行。

本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

尽管已描述了本发明的优选实施例，但本领域内的技术人员一旦得知了基本创造性概念，则可对这些实施例做出另外的变更和修改。所以，所附权利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈海波
技术所有人：深兰科技（上海）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。