基于场景图的行为判定方法、系统、设备及存储介质

文档序号：30934067发布日期：2022-07-30 00:53阅读：74来源：国知局

1.本发明涉及行为判定技术领域，具体涉及一种基于场景图的行为判定方法、系统、设备及存储介质。

背景技术：

2.为了保障社会和谐发展，防止违规行为对社会造成危害，大家共同制定了多项规则，限制社会上不规范行为的存在与潜在危害。对于判断不规范行为的工作，目前大多都是人为进行判断，工作量大的同时，在疲劳的情况下也无法确定准确度。因此，如何通过机器实现自动推理和判断，是一个值得挖掘的点。
3.目前市场上存在的行为推断算法，仍然具有普适性差，准确率低的问题。因此，需要提供一种基于场景图的行为判定方法、系统、设备及存储介质。

技术实现要素：

4.鉴于以上现有技术的缺点，本发明的目的在于提供一种基于场景图的行为判定方法、系统、设备及存储介质，以改善现有技术中，由人工识别具体行为工作量大，成本高的问题。
5.为实现上述目的及其它相关目的，本发明提一种基于场景图的行为判定方法，包括以下过程：
6.获取待判定的场景图片序列，所述场景图片序列包括多张同一行为的场景图片；
7.提取所述场景图片序列中各场景图片的特征信息和序列信息，构建场景图；
8.提取当前场景中预设的具体规则的多个关键词，获得与关键词相匹配的多个结点；
9.提取与关键词相匹配的每个结点对应的边的信息；
10.将所述边的信息与结点结合后，计算与所述具体规则中各规则的相似度，对行为进行判定。
11.在本发明一实施例中，所述提取所述场景图片序列中各场景图片的特征信息和序列信息，构建场景图，包括以下过程：
12.使用预先训练好的卷积神经网络模型提取所述场景图片序列中各场景图片的特征信息，作为场景图的结点信息；
13.使用预先训练好的多头自注意力机制模型提取所述场景图片序列中各场景图片的序列信息，作为场景图的边信息，构建场景图。
14.在本发明一实施例中，所述使用预先训练好的多头自注意力机制提取所述场景图片序列中各场景图片的序列信息，作为场景图的边信息，包括以下过程：
15.对所述场景图片进行切分，获得多个图像块；
16.按照设定顺序提取各图像块包含的像素，并对各像素信息加入位置向量，获得一维嵌入序列；
17.将所述一维嵌入序列输入至双向长短期记忆网络，提取所述一维嵌入序列的时序特征，获得序列信息。
18.在本发明一实施例中，所述提取预设的当前场景对应具体规则的多个关键词包括以下过程：基于预设的词向量模型，将所述具体规则与预设的场景库中的各关键词进行匹配，得到所述具体规则中含有的多个关键词。
19.在本发明一实施例中，所述计算与所述具体规则中各规则的相似度，包括以下过程：
20.对所述边的信息与结点结合后的信息序列和当前规则分别分词处理，获得所述信息序列包含的词组和当前规则包含的词组；
21.分别计算所述信息序列中各词组的词频，和当前规则中各词组的词频；
22.计算并累加所述信息序列中各词组的词频和当前规则中各词组的词频的余弦相似度，获得所述信息序列与当前规则的相似度。
23.在本发明一实施例中，所述对所述信息序列和当前规则分别分词处理之前，还包括：对所述信息序列和/或所述当前规则进行数据清洗。
24.在本发明一实施例中，所述数据清洗为去除所述信息序列和/或所述当前规则中重复出现的词组。
25.在本发明一实施例中，还提供一种基于场景图的行为判定系统，所述系统包括：
26.场景图片获取模块，用于获取待判定的场景图片序列，所述场景图片序列包括多张同一行为的场景图片；
27.场景图生成模块，用于提取所述场景图片序列中各场景图片的特征信息和序列信息，构建场景图；
28.匹配模块，用于提取当前场景中预设的具体规则的多个关键词，获得与关键词相匹配的多个结点；
29.边信息提取模块，用于提取与关键词相匹配的每个结点对应的边的信息；
30.判定模块，用于将所述边的信息与结点结合后，计算与所述具体规则中各规则的相似度，对行为进行判定。
31.在本发明一实施例中，还提供一种基于场景图的行为判定设备，包括处理器，所述处理器与存储器耦合，所述存储器存储有程序指令，当所述存储器存储的程序指令被所述处理器执行时实现上述任一项所述的方法。
32.在本发明一实施例中，还提供一种计算机可读存储介质，包括程序，当所述程序在计算机上运行时，使得计算机执行上述中任一项所述的方法。
33.综上所述，本发明中，需要判定用户行为是否合规时，通过提取待判定的场景图片序列中特征信息和序列信息，使用特征信息和序列信息构建场景图，其中，场景图的结点为特征信息，场景图的边为序列信息。将场景图中各结点分别一一与当前规则的关键词相匹配，获得与当前规则匹配度最高的若干个结点。将这些结点的边的信息和结点信息结合，可组成一个语句序列。然后将该语句序列与当前规则进行匹配，将匹配的相似度与预设的阈值进行比较，判断用户行为是否合规。只需要在人为输入制定规则的情况下，可以摆脱人力进行检测，同时使用的场景图生成的算法能够非常准确的提取各元素和其中的联系，同时使用自然语言处理的相关算法对问题进行分析，最后匹配，能够准确地判断行为的违规情
况。解决了由人工识别具体行为工作量大，成本高的问题，提升了识别的准确度，具有良好的普适性，可适用于多种场景的行为合规判定。
附图说明
34.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
35.图1显示为本发明一实施例中图像特征提取的过程图；
36.图2显示为本发明一实施例中场景图关系推断的过程图；
37.图3显示为本发明一实施例中正向指数的生成图；
38.图4显示为本发明一实施例中基于场景图的行为判定方法的流程示意图；
39.图5显示为本发明一实施例中步骤s2的流程示意图；
40.图6显示为本发明一实施例中步骤s22的流程示意图；
41.图7显示为本发明一实施例中相似度获取的流程示意图；
42.图8显示为本发明一实施例中基于场景图的行为判定系统的原理结构示意图。
43.元件标号说明：
44.10、基于场景图的行为判定系统；11、场景图片获取模块；12、场景图生成模块；13、匹配模块；14、边信息提取模块；15、判定模块。
具体实施方式
45.以下通过特定的具体实例说明本发明的实施方式，本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其它优点与功效。本发明还可以通过另外不同的具体实施方式加以实施或应用，本说明书中的各项细节也可以基于不同观点与应用，在没有背离本发明的精神下进行各种修饰或改变。需说明的是，在不冲突的情况下，以下实施例及实施例中的特征可以相互组合。还应当理解，本发明实施例中使用的术语是为了描述特定的具体实施方案，而不是为了限制本发明的保护范围。下列实施例中未注明具体条件的试验方法，通常按照常规条件，或者按照各制造商所建议的条件。
46.请参阅图1至图8。须知，本说明书附图所绘示的结构、比例、大小等，均仅用以配合说明书所揭示的内容，以供熟悉此技术的人士了解与阅读，并非用以限定本发明可实施的限定条件，故不具技术上的实质意义，任何结构的修饰、比例关系的改变或大小的调整，在不影响本发明所能产生的功效及所能达成的目的下，均应仍落在本发明所揭示的技术内容所能涵盖的范围内。同时，本说明书中所引用的如“上”、“下”、“左”、“右”、“中间”及“一”等的用语，亦仅为便于叙述的明了，而非用以限定本发明可实施的范围，其相对关系的改变或调整，在无实质变更技术内容下，当亦视为本发明可实施的范畴。
47.当实施例给出数值范围时，应理解，除非本发明另有说明，每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义，本发明中使用的所有技术和科学术语与本技术领域的技术人员对现有技术的掌握及本发明的记载，还可以使用与本发明实施例中所述的方法、设备、材料相似或等同的现有技术的任何方法、设备和材料来实现
本发明。
48.请参阅图1至图3，图1显示为本发明一实施例中图像特征提取的过程图，图2显示为本发明一实施例中场景图关系推断的过程图，图3显示为本发明一实施例中正向指数的生成图。本发明提供一种基于场景图的行为判定方法。需要判定用户行为是否合规时，通过提取待判定的场景图片序列中特征信息和序列信息，使用特征信息和序列信息构建场景图，其中，场景图的结点为特征信息，场景图的边为序列信息。将场景图中各结点分别一一与当前规则的关键词相匹配，获得与当前规则匹配度最高的若干个结点。将这些结点的边的信息和结点信息结合，可组成一个语句序列。然后将该语句序列与当前规则进行匹配，将匹配的相似度与预设的阈值进行比较，判断用户行为是否合规。只需要在人为输入制定规则的情况下，可以摆脱人力进行检测，同时使用的场景图生成的算法能够非常准确的提取各元素和其中的联系，同时使用自然语言处理的相关算法对问题进行分析，最后匹配，能够准确地判断行为的违规情况。解决了由人工识别具体行为工作量大，成本高的问题，提升了识别的准确度，具有良好的普适性，可适用于多种场景的行为合规判定。
49.请参阅图1至图4，图4显示为本发明一实施例中基于场景图的行为判定方法的流程示意图。在本发明一实施例中，提供一种基于场景图的行为判定方法，包括以下过程：
50.s1、获取待判定的场景图片序列，所述场景图片序列包括多张连续时间间隔的同种行为的场景图片。
51.本实施例中，场景图片序列是由安装在终端设备上的摄像头采集获得。其中终端设备包括但不限于各种个人计算机、笔记本电脑、照相机、智能手机、平板电脑和便携式可穿戴设备等装备。由于判定行为需要对行为的各个时间点的不同动作进行综合分析，才可判断用户的行为是否合规。因此需要拍摄多个连续时间间隔的同种行为的图片，构成场景图片序列。本实施例中，场景是指人为已经制定具体规则的场景，从而便于根据具体规则，判断用户行为的合规性，常见的场景例如工业生产、司机驾驶、体育动作等。场景图片是指用户在某个场景中做出具体行为时的图片，本发明通过判断用户在场景中的行为是否符合该场景下的具体规则，判断行为的合规与否。具体规则是指该场景的社会公共制定准则或评分准则等。如工业生产中的工人操作规范，体育动作评分的各项评分指标等。
52.s2、提取所述场景图片序列中各场景图片的特征信息和序列信息，构建场景图，所述场景图包括结点和边，所述结点为特征信息，所述边为序列信息；
53.请参阅图5，图5显示为本发明一实施例中步骤s2的流程示意图。s2包括以下过程：
54.s21、使用预先训练好的卷积神经网络模型提取所述场景图片序列中各场景图片的特征信息，作为场景图的结点信息；
55.s22、使用预先训练好的自注意力机制模型提取所述场景图片序列中各场景图片的时序信息，作为场景图的边信息，构建场景图。
56.考虑到用户的行为具有连续性，而特征信息仅能示出在某一时刻用户的行为，但无法将该时刻的行为与其他时刻的行为相关联，因此，仅仅依靠图片中的特征信息并无法准确判断该行为。为了解决这一问题，本实施例中，将时序信息与特征信息相结合，共同判断用户行为的合规与否。场景图是由图数据构成，图数据是以“图”这种数据结构存储和查询数据，它的数据模型主要是以结点和边来体现。图数据通过结点和边的组合，能够快速解决复杂的关系问题。例如，对于化合物结构，结点表示化合物中的各原子，边表示连接原子
之间化学键的信息。通过将场景图片序列中各场景图片送入至预先训练好的卷积神经网络，提取各场景图片的特征信息。同时，将各场景图片送入预先训练好的自注意力机制模型，提取每个场景图片中的时序信息，并将时序信息作为边信息，将特征信息作为结点信息，构建场景图。场景图的结点为通过卷积神经网络预测的含标签的特征信息，如人物、肢体、工具、器械等，每个结点有一个标签，如识别出人的手臂，则该结点对应的标签为手臂。各边应为各结点在图中的位置关系。示例性地，对于用户踢球的这一场景，结点可为人的左脚、右脚、球、左手、右手等，边可为脚碰到球、脚距离球较远、手碰到球等相对位置关系。需要采集用户在连续多个时间间隔内，踢球产生的这一动作，从而能够观测到用户的脚、手和球的相对位置变化关系，构建场景图，进而能够判断用户是否犯规。在本发明一实施例中，卷积神经网络模型为fastrcnn(fast regions with cnn features，快速的基于区域的卷积网络方法)，多头自注意力机制模型为双向lstm(long short-term memory，长短期记忆网络)。
57.进一步地，请参阅图6，图6显示为本发明一实施例中步骤s22的流程示意图。步骤s22包括以下过程：
58.s221、对所述场景图片进行切分，获得多个图像块；
59.s222、按照设定顺序提取各图像块包含的像素，并对各像素信息加入位置向量，获得一维嵌入序列；
60.s223、将所述一维嵌入序列输入至双向长短期记忆网络，提取所述一维嵌入序列的时序特征，获得序列信息。
61.本实施例中，将场景图片序列中各场景图片进行预处理，通过将各场景图片输入至卷积神经网络，对每个场景图片进行切分，每个场景图片切分成若干个图像块。对每个图像块按照从左上到右下进行像素排列，并对各像素信息加入位置向量，获得一维嵌入序列，从而可以将各场景图片中各像素信息进行时序排列。将这种一维嵌入序列输入至训练好的双向lstm网络后，通过提取场景图片中的时序特征，可以获得各场景图片对应的序列信息，将该序列信息放入专门储存结点边上关系的边环境中，作为场景图的边信息。通过将该场景图的结点与边一起，根据前后信息的时序性进行预测，即可预测出结点之间的相互关系。作为示例，以“人踢足球”这一行为为例，由于踢球是一个连续的动作，场景图片序列可由从抬脚到球被踢飞的一系列动作构成。加入位置向量后，可以分析从抬脚到球被踢飞这一系列的动作之间的前后关联关系，从而便于分析用户踢球是否犯规等。
62.s3、提取当前场景中预设的具体规则的多个关键词，并将各关键词与场景图的每个结点进行相似度匹配，获得与关键词相匹配的多个结点。
63.提取到具体规则的多个关键词向量后，通过将各关键词与场景图中各结点进行向量内积，计算两者的相似度，向量内积越大，则两者的相似度越高。将相似度按照降序排序后，选取与每个关键词相似度最高的若干个结点，进行后续行为判定。
64.在本发明一实施例中，提取预设的当前场景对应具体规则的多个关键词包括以下过程：基于预设的词向量模型，将所述具体规则与预设的场景库中的各关键词进行匹配，得到所述具体规则中含有的多个关键词。场景库中的关键词可根据当前场景中，待判断行为所涉及到的对象和动作等进行设定，同时还需要满足场景图中存在与该词相似度较高的结点。词向量模型可以使用主流的模型，包括但不限于word2vec(word to vector，深度学习
中用来将词表征成向量的相关模型)、glove(global vectors for word representation，全局向量的词表示)、bert(bidirectional encoder representation from transformers，预训练的语言表征模型)等，在此不做限定。
65.s4、提取与关键词相匹配的结点对应的边的信息，作为结点的位置信息。
66.获得与关键词相匹配的若干个结点后，通过提取与关键词相匹配的每个结点的边信息，该边信息即为位置信息，用于表示相邻结点之间的位置关系。具体地，场景图中，结点和边的信息存储在一个列表中，通过在列表中查找结点的信息，即可获得与该结点相连的边的信息。同理，在列表中通过查找两个结点的信息，可获得两个结点共同对应的边的信息。
67.s5、将所述位置信息与结点信息对应的标签结合，形成语句序列，比较所述语句序列与所述具体规则中各规则的相似度，对行为进行判定。
68.将位置信息与结点信息一一对应，形成一个语句序列，提取匹配结点之间的位置关系，与预设具体规则中的关键词进行相似性匹配，得出行为正向指数，从而判断该人行为是否符合具体标准。在本发明一实施例中，所述信息序列为将所述位置信息与结点信息对应的标签结合，形成的语句序列。示例性地，结点信息为人的手、球，位置信息为球悬在手之上，即可得到语句序列：球在手上。从而通过分析场景图中位置关系所蕴含的信息与当前选定规则的相似程度，对行为的合规性进行判断。其中，蕴含信息指结点间位置所呈现的元素联系可能性最大的词，如分析人在椅子之上，则蕴含信息为“坐”这个词语。若相似程度高于预设阈值，就进行下一条规则的判断，直至全部规则判断完毕，输出该行为符合规范的结果。若其中出现不符合的情况，则立刻终止判断，输出该行为不符合规范的结果。正向指数，即场景图中位置关系所蕴含的信息与当前选定规则的相似程度。相似程度越低，即正向指数越小，相似程度越高，正向指数越大。其中，阈值是通过将当前规则进行滤波处理获得。
69.请参阅图7，图7显示为本发明一实施例中相似度获取的流程示意图。在本发明一实施例中，所述比较所述语句序列与所述具体规则中各规则的相似度，包括以下过程：
70.s51、对所述语句序列和当前规则分别分词处理，获得所述语句序列包含的词组和当前规则包含的词组；
71.s52、分别计算所述语句序列中各词组的词频，和当前规则中各词组的词频；
72.s53、计算并累加所述语句序列中各词组的词频和当前规则中各词组的词频的余弦相似度，获得所述语句序列与当前规则的相似度。
73.首先在具体规则中选择其中一条规则，作为当前规则。通过对语句序列进行分词，可获得该语句序列包含的所有词组，同理，对当前场景下具体规则的每条规则进行分词处理，可获得每条规则包含的所有词组。然后计算语句序列中所有词组的词频，词频表示当前词组在句子中出现的次数，通过词频计算，可了解哪些词组出现频繁，为后期行为判定奠定基础。通过构造每个词频的词频向量，并计算和累加语句序列和当前规则的词频向量的余弦相似度，即可获得两个语句的相似度。
74.考虑到识别的效率，在本发明一实施例中，对所述语句序列和当前规则分别分词处理之前，还包括：对所述语句序列和/或所述当前规则进行数据清洗。在本发明一实施例中，所述数据清洗为去除所述语句序列和/或所述当前规则中重复出现的词组。通过这种去除重复词组的数据清洗方式，可将多次重复出现的词组删除，加快了语句序列和当前规则
processing unit，简称cpu)、网络处理器(network processor，简称np)等；还可以是数字信号处理器(digital signal processing，简称dsp)、专用集成电路(application specific integrated circuit，简称asic)、现场可编程门阵列(field-programmable gate array，简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件；所述存储器可能包含随机存取存储器(random access memory，简称ram)，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。所述存储器可以为随机存取存储器(random access memory，ram)类型的内部存储器，所述处理器、存储器可以集成为一个或多个独立的电路或硬件，如：专用集成电路(application specific integrated circuit，asic)。需要说明的是，上述的存储器中的计算机程序可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，电子设备，或者网络设备等)执行本发明各个实施例方法的全部或部分步骤。
82.本实施例还提出一种计算机可读的存储介质，所述存储介质存储有计算机指令，所述计算机指令用于使计算机执行上述的任务管理方法。存储介质可以是电子介质、磁介质、光介质、电磁介质、红外介质或半导体系统或传播介质。存储介质还可以包括半导体或固态存储器、磁带、可移动计算机磁盘、随机存取存储器(ram)、只读存储器(rom)、硬磁盘和光盘。光盘可以包括光盘-只读存储器(cd-rom)、光盘-读/写(cd-rw)和dvd。
83.综上所述，需要判定用户行为是否合规时，通过提取待判定的场景图片序列中特征信息和序列信息，使用特征信息和序列信息构建场景图，其中，场景图的结点为特征信息，场景图的边为序列信息。将场景图中各结点分别一一与当前规则的关键词相匹配，获得与当前规则匹配度最高的若干个结点。将这些结点的边的信息和结点信息结合，可组成一个语句序列。然后将该语句序列与当前规则进行匹配，将匹配的相似度与预设的阈值进行比较，判断用户行为是否合规。只需要在人为输入制定规则的情况下，可以摆脱人力进行检测，同时使用的场景图生成的算法能够非常准确的提取各元素和其中的联系，同时使用自然语言处理的相关算法对问题进行分析，最后匹配，能够准确地判断行为的违规情况。解决了由人工识别具体行为工作量大，成本高的问题，提升了识别的准确度，具有良好的普适性，可适用于多种场景的行为合规判定。
84.上述实施例仅例示性说明本发明的原理及其功效，而非用于限制本发明。任何熟悉此技术的人士皆可在不违背本发明的精神及范畴下，对上述实施例进行修饰或改变。因此，举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成的一切等效修饰或改变，仍应由本发明的权利要求所涵盖。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：何煦赵冲董浩杰卫星陈逸康李宝璐陆阳
技术所有人：合肥工业大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。