一种口罩佩戴检测方法及系统与流程

文档序号：26909422发布日期：2021-10-09 14:37阅读：789来源：国知局

1.本发明涉及图像检测技术领域，更具体的说是一种口罩佩戴检测方法及系统。

背景技术：

2.新型冠状病毒对公共卫生造成了重大威胁。该可通过接触传播,发病率高,传染迅速。为有效控制疫情扩散，国家卫生健康委员会呼吁大家出行佩戴口罩，从而有效抑制病毒传播。然而在人口密集的车站、工厂、以及医院等一些特定场所需要对口罩佩戴进行实时的监控管制，这无疑是一项费时费力工作，因而将深度学习的目标检测技术应用到该方面，生成一种无需人工干预的自动识别口罩佩戴识别技术具有重大的现实意义。
3.因此，需要一种准确率高且适用场景更广的口罩佩戴检测方法。

技术实现要素：

4.本说明书实施例的一个方面提供一种口罩佩戴检测方法，包括：构建检测模型；基于训练集数据对检测模型进行训练；对训练好的检测模型进行评估；获取待检测图片并基于通过评估的检测模型对所述检测图片进行检测；输出检测结果。
5.在一些实施例中，所述检测模型包括ssd目标检测算法模型。
6.在一些实施例中，所述ssd目标检测算法模型包括特征提取网络，所述特征提取网络为resnet特征提取网络。
7.在一些实施例中，所述resnet特征提取网络由卷积块堆积而成。
8.在一些实施例中，所述ssd目标检测算法模型中包括特征融合模块，所述resnet特征提取网络的部分输出作为所述特征融合模块的输入，所述特征融合模块用于对输入的特征图进行融合并输出。
9.在一些实施例中，所述特征融合模块的处理过程包括：将收到的某部分特征图进行第一预设倍数的上采样得到预设分辨率的第一特征图；将收到的另一部分特征图进行第二预设倍数的上采样得到预设分辨率的第二特征图；将所述第一特征图、所述第二特征图与resnet特征提取网络输出的一部分特征图进行融合得到融合后的特征图。
10.在一些实施例中，还包括：在融合后的特征图的基础上经过一个通道维度上的最大池化以及一个特定卷积层得到一个空间特征的重要系数，然后将所述重要系数与融合后的特征图相乘得到最终的融合结果。
11.在一些实施例中，所述ssd目标检测算法模型包括分类模型，所述分类模型用于对所述最终的融合结果进行类别预测。
12.本说明书实施例的一个方面提供一种口罩佩戴检测系统，包括：构建模块，用于构建检测模型；训练模块，用于基于训练集数据对检测模型进行训练；评估模块，用于对训练好的检测模型进行评估；检测模块，用于获取待检测图片并基于通过评估的检测模型对所述检测图片进行检测及输出检测结果。。
13.本说明书实施例的一个方面提供一种口罩佩戴检测装置，所述装置包括至少一个
存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行所述计算机指令以实现所述口罩佩戴检测方法对应的操作。
14.本说明书实施例的一个方面提供一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，实现所述口罩佩戴检测方法。
附图说明
15.本说明书将以示例性实施例的方式进一步描述，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：
16.图1是根据本技术一些实施例所示的口罩佩戴检测设备的应用场景示意图；
17.图2是根据本技术的一些实施例所示的可以在其上实现处理引擎的示例性计算设备的示例性硬件和/或软件组件的示意图；
18.图3是根据本技术的一些实施例所示的可以在其上实现一个或以上终端的示例性移动设备的示例性硬件和/或软件组件的示意图；
19.图4是根据本技术的一些实施例所示的示例性处理引擎的示意框图；
20.图5是根据本说明书的一些实施例所示的口罩佩戴检测方法的流程图；
21.图6是根据本说明书的一些实施例所示的ssd目标检测算法模型的示意图；
22.图7是根据本说明书的一些实施例所示的ssd目标检测算法模型的基本卷积结构的示意图；
23.图8是根据本说明书的一些实施例所示的特征融合模块的示意图；
24.图9是根据本说明书的一些实施例所示的特征融合模块的处理流程图；
25.图10是根据本说明书的一些实施例所示的检测模型的训练流程示意图。
具体实施方式
26.为了更清楚地说明本说明书实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本说明书的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本说明书应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。
27.应当理解，本说明书中所使用的“系统”、“装置”、“单元”和/或“模组”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。
28.如本说明书和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。
29.本说明书中使用了流程图用来说明根据本说明书的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数
步操作。
30.本技术实施例涉及一种口罩佩戴检测系统和方法。该口罩佩戴检测系统和方法可以应用于人口密集的车站、工厂、学校以及医院等一些特定场所需要对口罩佩戴进行实时的监控管制的场景。在一些实施例中，该检测系统和方法可以应用于地铁进站的自动检测，以实现进站人员的自动监控。在一些实施例中，该检测系统和方法可以应用于商场的监控系统等；有效解决商场人员众多，难以监控实施的困难。在一些实施例中，该检测系统和方法可以应用于其他应用场景。在一些实施例中，该检测系统和方法可以应用于公交车刷卡系统，实现在乘客刷卡的同时即对其是否佩戴口罩进行检测。通过该检测系统和方法，可以实现：自动检测被检测人员是否正常佩戴口罩、对未正常佩戴口罩的人员进行提醒等一种或多种功能。该基于可穿戴设备的检测系统和方法可以实现解放检测人员、提高检测效率和准确性、保障口罩佩戴的规范性等一种或多种有益效果。
31.图1是根据本技术的一些实施例的示例性检测系统的应用场景的示意图。在一些实施例中，应用场景100可以被配置为监控特定场所处的人员。可以在学校周围、商场、公园、车站等公共场所中配置。检测系统可以检测监控范围内的人员是否有佩戴口罩，以便进行进一步的提醒等。应用场景100可以包括服务器110、网络120、用户终端130、存储设备140和拍照设备150。服务器110可以包括处理引擎112。在一些实施例中，服务器110、用户终端130、存储设备140和拍照设备150可以经由无线连接(例如，网络120)、有线连接或其组合彼此连接和/或通信。
32.计算系统110可以用于确定照片中的人像是否佩戴了口罩。在一些实施例中，可以具体用于对人员佩戴口罩的情况进行监控，并根据监控情况给出相应的提示，这一监测技术可以应用于如车站监管部门、商场的卫生防控部门等。计算系统110可以基于获取的图像数据确定口罩的佩戴情况。
33.计算系统110是指具有计算能力的系统，在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。所述服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式的系统)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以经由网络120访问存储在用户终端130和/或存储设备140中的信息和/或数据。又例如，服务器110可以直接连接到用户终端130和/或存储设备140以访问存储的信息和/或数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，服务器110可以在具有本技术中图2所示的一个或多个组件的计算设备200上实现。
34.在一些实施例中，服务器110可以包括处理引擎112。处理引擎112可以处理与交通标志周围的交通有关的信息和/或数据。例如，处理引擎112可以在由拍照设备150获取的图像数据中识别人脸，并确定该人脸是否佩戴有口罩。在一些实施例中，处理引擎112可以包括一个或以上处理引擎(例如，单核处理引擎或多核处理器)。仅作为示例，处理引擎112可以包括一个或以上硬件处理器，例如中央处理单元(cpu)、专用集成电路(asic)、专用指令集处理器(asip)、图形处理单元(gpu)、物理处理单元(ppu)、数字信号处理器(dsp)、现场可编程门阵列(fpga)、可编程逻辑设备(pld)、控制器、微控制器单元、精简指令集计算机(risc)、微处理器等或其任何组合。
35.网络120可以促进信息和/或数据的交换。在一些实施例中，应用场景100中的一个或以上组件(例如，服务器110、用户终端130、存储设备140和拍照设备150)可以将信息和/或数据通过网络120发送到应用场景100中的其他组件。例如，处理引擎112可以经由网络120向用户终端130发送识别到的未佩戴口罩的提醒等。在一些实施例中，网络120可以是有线网络或无线网络等或其任意组合。仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、电信网络、内联网、因特网、局域网(lan)、广域网(wan)、无线局域网(wlan)、城域网(man)、广域网(wan)、公共电话交换网(pstn)、bluetooth tm网络、zigbee网络、近场通信(nfc)网络或类似内容，或其任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括诸如基站和/或互联网交换点120
‑
1、120
‑
2，
…
之类的有线或无线网络接入点，应用场景100的一个或以上组件可以通过有线或无线网络接入点连接到网络120，以交换数据和/或信息。
36.在一些实施例中，用户终端130可以包括移动设备130
‑
1、平板计算机130
‑
2、膝上型计算机130
‑
3等或其任意组合。在一些实施例中，移动设备140
‑
1可以包括智能家居设备、可穿戴设备、移动设备、虚拟现实设备、增强现实设备等，或其任何组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器控制设备、智能监控设备、智能电视、智能摄像机、对讲机等，或其任意组合。在一些实施例中，可穿戴设备可以包括手环、鞋袜、眼镜、头盔、手表、衣物、背包、智能配饰等或其任意组合。在一些实施例中，移动设备可以包括移动电话、个人数字助理(pda)、游戏设备、导航设备、销售点(pos)设备、膝上型计算机、台式机等，或任何它们的组合。在一些实施例中，虚拟现实设备和/或增强型虚拟现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括googleglass
tm
、riftcon
tm
、fragments
tm
、gearvr
tm
等。在一些实施例中，为识别出的口罩对应的的司机所使用的用户终端130可以接收从处理引擎112发送的通知。在一些实施例中，监管人员(例如，地铁安检人员、商场管理人员)可以使用用户终端130来访问存储在存储设备140中的相关记录。
37.在一些实施例中，用户终端130可以是被配置为包括相机的移动终端。用户终端130可以经由用户接口向处理引擎112或安装在用户终端130中的处理器发送和/或接收与口罩识别有关的信息。例如，用户终端130可以经由用户接口将由安装在用户终端130中的相机捕获的视频数据发送到安装在用户终端120中的处理引擎112或处理器。用户界面可以是在用户终端130上实现的用于识别口罩的应用程序的形式。在用户终端130上实现的用户界面可以促进用户与处理引擎112之间的通信。例如，用户可以经由用户界面输入和/或需要识别的图片。处理引擎112可以经由用户界面接收输入的图片。又例如，用户可以经由在用户终端130上实现的用户界面输入对口罩识别的请求。在一些实施例中，响应于对口罩识别的请求，用户终端130可以基于由安装在本技术中其他地方所述的用户终端130中的相机捕获的图像数据，经由用户终端130的处理器直接确定拍照内容。在一些实施例中，响应于对口罩识别的请求，用户终端130可以将对口罩识别的请求发送到处理引擎112，用于基于由拍照设备150或安装在本技术的其他地方所述中的相机捕获的视频数据来确定拍照内容。在一些实施例中，用户界面可以促进呈现或显示从处理引擎112接收的与口罩识别有关的信息和/或数据(例如，信号)。例如，信息和/或数据可以包括指示口罩识别内容的结果，
或者指示识别到的口罩对应的信息等。在一些实施例中，信息和/或数据可以被进一步配置为使用户终端130向用户显示结果。
38.存储设备140可以存储数据和/或指令。在一些实施例中，存储设备140可以存储从拍照设备150获得的数据。存储设备140可以存储处理引擎112可以执行或用来执行本技术中描述的示例性方法的数据和/或指令。在一些实施例中，存储设备140可包括大容量存储器、可移动存储器、易失性读写内存、只读内存(rom)等或其任意组合。示例性大容量存储器可以包括磁盘、光盘、固态驱动器等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写内存可以包括随机存取内存(ram)。示例性ram可包括动态随机存取内存(dram)、双倍数据速率同步动态随机存取内存(ddrsdram)、静态随机存取内存(sram)、晶闸管随机存取内存(t
‑
ram)和零电容随机存取内存(z
‑
ram)等。示例性rom可以包括掩模型只读内存(mrom)、可编程只读内存(prom)、可擦除可编程只读内存(eprom)、电可擦除可编程只读内存(eeprom)、光盘只读内存(cd
‑
rom)和数字多功能磁盘只读内存等。在一些实施例中，所述存储设备140可在云端平台上执行。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。
39.在一些实施例中，存储设备140可以连接到网络120以与应用场景100中的一个或以上组件(例如，服务器110、用户终端130)通信。应用场景100中的一个或多个组件可以经由网络120访问存储在存储设备140中的数据或指令。在一些实施例中，存储设备140可以直接连接到应用场景100中的一个或以上组件或与之通信(例如，服务器110、用户终端130)。在一些实施例中，存储设备140可以是服务器110的一部分。
40.拍照设备150可以获取图像数据和/或视频数据。在一些实施例中，所获取的图像数据和/或视频数据可以与周围的场景相关联。仅作为示例，拍照设备150可以是摄像机、安全相机、网络相机、智能手机相机、平板相机，笔记本电脑相机等。拍照设备150可以被安装在其他物体上。在一些实施例中，拍照设备150可以由能量单元(例如，发电机，电力传输线，太阳能功率供应单元)供应能量。另外，拍照设备150可以使用电池组来扩展能量。在一些实施例中，拍照设备150可以配置有/耦合到网络模块，该网络模块使拍照设备150能够经由网络120与处理引擎112、用户终端130和/或存储设备140连接。
41.应当注意，以上描述意图是说明性的，而不是限制本技术的范围。对于本领域技术人员而言，许多替代，修改和变化将是显而易见的。本文描述的示例性实施例的特征，结构，方法和其他特性可以以各种方式组合以获得另外的和/或替代的示例性实施例。例如，拍照设备150可以配置有存储模块、处理模块、通信模块等。然而，这些变化和修改不脱离本技术的范围。
42.图2是根据本技术的一些实施例所示的可以在其上实现处理引擎的示例性计算设备的示例性硬件和/或软件组件的示意图。如图2所示，计算设备200可以包括处理器210、存储器220、输入/输出(i/o)230和通信端口240。
43.处理器210(例如，逻辑电路)可以执行计算机指令(例如，程序代码)并根据本文描述的技术执行处理引擎112的功能。在一些实施例中，处理器210可以被配置为处理与应用场景100的一个或以上组件有关的数据和/或信息。例如，处理器210可以在由拍照设备150获取的图像数据和/或视频数据中识别的口罩信息。又例如，处理器210可以基于一系列图像来确定所识别的拍照的内容。处理器210还可被配置为获取识别到的人脸对应的身份信
息。处理器210还可以将识别的口罩佩戴信息及对应的身份信息发送到服务器110。在一些实施例中，处理器210可以向相关联的用户终端130发送通知。
44.在一些实施例中，处理器210可以在其中包括接口电路210
‑
a和处理电路210
‑
b。接口电路可以被配置为从总线(图2中未示出)接收电信号，其中电信号对结构化数据和/或指令进行编码以供处理电路进行处理。处理电路可以进行逻辑计算，然后将结论、结果和/或指令编码成电信号。然后，接口电路可以经由总线从处理电路发送电信号。
45.计算机指令可以包括例如例程、程序、对象、组件、数据结构、过程、模块和功能，其执行本文描述的特定功能。例如，处理器210可以处理与从用户终端130、存储设备140和/或应用场景100的任何其他组件获得的相关的信息。在一些实施例中，处理器210可以包括一个或以上硬件处理器、诸如微控制器、微处理器、精简指令集计算机(risc)、专用集成电路(asic)、专用指令集处理器(asip)、中央处理器(cpu)、图形处理器(gpu)、物理处理器(ppu)、微控制器、数字信号处理器(dsp)、现场可编程门阵列(fpga)、高级risc机器(arm)、可编程逻辑设备(pld)，能够执行一个或以上功能的任何电路或处理器等，或其任意组合。
46.仅仅为了说明，在计算设备200中仅描述了一个处理器。然而，应注意，本技术中的计算设备200还可以包括多个处理器，因此，如本技术中所述的由一个处理器执行的操作和/或方法步骤也可以由多个处理器联合或分开地执行。例如，如果在本技术中，计算设备200的处理器同时执行步骤a和步骤b，则应当理解，步骤a和步骤b也可以由计算设备200中的两个或以上不同处理器联合或分别执行(例如，第一处理器执行步骤a，第二处理器执行步骤b，或者第一处理器和第二处理器共同执行步骤a和b)。
47.存储器220可以存储从用户终端130、存储设备140和/或应用场景100的任何其他组件获得的数据/信息。在一些实施例中，内存装置220可以包括大容量内存装置、可移动内存装置、易失性读写内存器、只读内存器(rom)等或其任何组合。例如，大容量存储器可以包括磁盘、光盘、固态驱动器等。可移动存储设备可以包括闪存内存、软盘、光盘、存储卡、zip磁盘、磁带等。易失性读写内存可以包括随机存取内存(ram)。ram可以包括动态ram(dram)、双倍速率同步动态ram(ddrsdram)、静态ram(sram)、晶闸管ram(t
‑
ram)和零电容器ram(z
‑
ram)等。rom可以包括掩模rom(mrom)、可编程rom(prom)、可擦除可编程rom(eprom)、电可擦除可编程rom(eeprom)、光盘rom(cd
‑
rom)和数字多功能盘rom等。在一些实施例中，存储器220可以存储一个或以上程序和/或指令以执行本技术中描述的示例性方法。例如，存储器220可以存储用于处理引擎112的用于确定值的程序。
48.i/o230可以输入和/或输出信号、数据、信息等。在一些实施例中，i/o230可以使用户能够与处理引擎112进行交互。在一些实施例中，i/o230可以包括输入设备和输出设备。输入设备的示例可以包括键盘、鼠标、触摸屏、麦克风等、或其组合。输出设备的示例可以包括显示设备、扬声器、打印机、投影仪等或其组合。显示设备的示例可以包括液晶显示器(lcd)、基于发光二极管(led)的显示器、平板显示器、曲面屏幕、电视设备、阴极射线管(crt)、触摸屏屏幕等，或其任意组合。
49.通信端口240可以连接到网络(例如，网络120)以促进数据通信。通信端口240可以在处理引擎112与用户终端130、拍照设备150或存储设备140之间建立连接。该连接可以是有线连接、无线连接、可以实现数据传输和/或接收的任何其他通信连接，和/或这些连接的任意组合。有线连接可以包括例如电缆、光缆、电话线等，或其任意组合。无线连接可以包括
例如bluetooth
tm
链路、wi
‑
fi
tm
链路、wimax
tm
链路、wlan链路、zigbee链路、移动网络链路(例如，3g、4g、5g)等，或其任意组合。在一些实施例中，通信端口240可以是和/或包括标准化通信端口，例如rs232、rs485等。
50.图3是根据本技术的一些实施例所示的可以在其上实现用户终端的示例性移动设备的示例性硬件和/或软件组件的示意图。在一些实施例中，图3所示的移动设备300可以由用户使用。用户可以是上述的安检人员、监控人员等。例如，安检人员可以经由移动设备300查看的进入监管场所的人的口罩佩戴情况。
51.如图3所示，移动设备300可以包括通信平台310、显示器320、图形处理单元(gpu)330、中央处理单元(cpu)340、i/o350、内存360和存储器390。在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可包括在移动设备300内。在一些实施例中，可将移动操作系统370(例如，ios
tm
、android
tm
、windowsphone
tm
)和一个或以上应用380从存储器390加载到内存360中，以便由cpu340执行。应用程序380可以包括浏览器或任何其他合适的移动应用程序，用于从处理引擎112接收和渲染与图像处理有关的信息或其他信息。可以通过i/o350实现与信息流的用户交互，并通过网络120将其提供给处理引擎112和/或应用场景100的其他组件。
52.为了实施本技术描述的各种模块、单元及其功能，计算机硬件平台可用作本文中描述的一个或以上组件的硬件平台。具有用户接口元素的计算机可用于实施个人计算机(pc)或任何其他类型的工作站或终端设备。若计算机被适当的程序化，计算机亦可用作服务器。
53.本领域普通技术人员将理解，当应用场景100的元件执行时，该元件可以通过电信号和/或电磁信号来执行。例如，当处理引擎112处理诸如做出确定或识别信息的任务时，处理引擎112可以操作其处理器中的逻辑电路来处理该任务。当处理引擎112向用户终端130发送数据(例如，目标的当前检测结果)时，处理引擎112的处理器可以生成对数据进行编码的电信号。处理引擎112的处理器然后可以将电信号发送到输出端口。如果用户终端130通过有线网络与处理引擎112通信，则输出端口可以物理地连接至电缆，该电缆可以进一步将电信号传输至服务器110的输入端口。如果用户终端130通过无线网络与处理引擎112通信，则处理引擎112的输出端口可以是一个或以上天线，其可以将电信号转换为电磁信号。在诸如用户终端130和/或服务器110之类的电子设备中，当其处理器处理指令，发出指令和/或执行动作时，该指令和/或动作是通过电信号进行的。例如，当处理器从存储介质(例如，存储设备140)检索或保存数据时，它可以向存储介质的读/写设备发送电信号，该读/写设备可以在存储介质中读取或写入结构化数据。该结构数据可以通过电子设备的总线，以电信号的形式传输至处理器。在此，电信号可以指的是电信号、一系列电信号和/或一个或以上离散的电信号。
54.图4根据本技术的一些实施例所示的示例性处理引擎的示意框图。
55.如图4所示，在一些实施例中，处理引擎112可以包括构建模块410、训练模块420、评估模块430，检测模块440。处理引擎112可以被实现在各种组件上(例如，如图2所示的计算设备200的处理器210)。例如，处理引擎112的至少一部分可以在如图2所示的计算设备或如图3所示的移动设备上实现。
56.构建模块410用于构建检测模型，在一些实施例中，构建模块410可以基于检测要
求构建对应的模型。
57.训练模块420用于基于训练集数据对检测模型进行训练，关于模型的训练内容参见图10，此处不再赘述。在一些实施例中，训练集数据可以采用现有的数据集如(香港中文大学的yang shuo等制作的人脸数据集于2016年发布的wider face数据集)。在一些实施例中，训练集数据的数量需要保证足够的量，以保证数据集来源的多样性，在一些实施例中，可通过数据增强策略对图像数据随机旋转处理，翻转处理，裁剪处理，亮度值以及对比度值处理进行标准化处理，共得到至少8751*4张图片，提高模型的鲁棒性及泛化能力。
58.评估模块430可以确定检测模型的识别准确率，评估模块430对口罩识别准确率作为评价指标，在模型通过评估后即可用于实际的监控。
59.在一些实施例中，处理引擎112可以获得检测模型。在一些实施例中，检测模型可以包括训练的机器学习模型。例如，训练后的机器学习模型可以包括you only look once(yolo)模型、增强haar模型、fasterr
‑
cnn模型、mask r
‑
cnn模型等，或其任意组合。在一些实施例中，处理引擎112可以经由网络120直接从存储设备140获得识别模型。在一些实施例中，处理引擎112可以获得机器学习模型并训练机器学习模型。例如，可以使用一组样本图像和与该组样本图像相对应的一组对象识别结果(例如，正或负标签、对象类型的标签)来训练机器学习模型。训练后的机器学习模型可以用作识别模型，用于识别一系列帧中的每个帧中的牌照。
60.在一些实施例中，检测模型还可以是其他算法模型，关于检测模型的进一步说明参见图6的相关内容，此处不再赘述。
61.处理引擎112中的模块可以经由有线连接或无线连接彼此连接或彼此通信。有线连接可以包括金属电缆、光缆、混合电缆等或其任何组合。无线连接可以包括局域网络(lan)、广域网络(wan)、蓝牙、紫蜂网络、近场通信(nfc)等或其任意组合。两个或以上模块可以合并成一个模块，以及任意一个模块可以被拆分成两个或以上单元。例如，构建模块410可以作为单个模块集成在训练模块420中，该单个模块可以识别移动终端和与该移动终端相关联的目标。
62.应当理解，图4所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、cd或dvd
‑
rom的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。
63.需要注意的是，以上对于处理引擎及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，图4训练模块、构建模块可以是一个系统中的不同模块，也可以是一个模
块实现上述的两个模块的功能。又例如，处理引擎中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。
64.图5是根据本说明书的一些实施例所示的口罩佩戴检测方法的流程图。在一些实施例中，图5所示的过程500可以在图1所示的应用场景100中实现。例如，过程500可以作为指令的形式存储在存储介质(例如，存储设备140或计算设备200的存储器220)中，并且由处理器(例如，存储设备140)、服务器110的处理引擎112，计算设备200的处理器220或图4中所示的处理引擎112中的一个或以上模块调用和/或执行。下面呈现的所示过程500的操作旨在说明。在一些实施例中，过程500可以利用一个或以上未描述的附加操作和/或没有所讨论的一个或以上操作来完成。另外，图5中示出的和下面描述的过程500的操作的顺序不旨在限制性的。
65.如图5所示，该流程500可以包括以下步骤：
66.步骤510，构建检测模型。
67.具体的，该步骤可以由构建模块执行。
68.在一些实施例中，可以通过构建检测模型实现图片的智能识别，关于检测模型的具体说明参见图6的相关说明，此处不再赘述。
69.在一些实施例中，可以采用训练机器学习模型的方式实现检测模型的构建，仅仅作为示例，将人像图片及其对应的口罩佩戴信息作为训练样本训练机器学习模型，使其具备识别不同图像中的人脸是否佩戴有口罩的能力。在一些实施例中，还可以建立映射表，记录可能出现的人脸图像与其是否佩戴口罩的对应关系。构建模块可以基于映射表将目标信息进行转换。在一些实施例中，可以在训练好的机器学习模型中输入人脸图像照片，机器学习模型可以输出对应的口罩识别结果。
70.步骤520，基于训练集数据对检测模型进行训练。
71.具体的，该步骤可以由训练模块执行。
72.关于检测模型的具体训练的说明参见图10的相关内容，此处不再赘述。
73.在一些实施例中，检测模型的训练可以由训练模块实现，训练好的检测模型才能参与后续的评估及实际的识别应用。
74.步骤530，对训练好的检测模型进行评估。
75.具体的，该步骤可以由评估模块执行。
76.在一些实施例中，所述评估模块采用以下方式对所述检测模型的识别结果进行评估：
77.在检测精度上，本实施例所用的指标是平均准确率均值(mean average precision，map)。map的计算和准确率
‑
召回率(precision
‑
recall，p
‑
r)曲线相关，p
‑
r曲线的纵坐标为准确率，横坐标为召回率。p
‑
r曲线包围的面积兼顾了准确率和召回率两方面因素，能全面评价某类检测器的精度表现。若在多类目标下，则将多个ap取平均值得到map，上述定义如式所示：
[0078][0079]
[0080][0081][0082]
其中tp是正确检测的目标数量，fp是错误检测的目标数量，fn是遗漏的目标数量，m是取样点的数量，c是待检测目标的类别数。
[0083]
仅对于通过评估的检测模型才能应用于实际中的口罩识别与检测。
[0084]
步骤540，获取待检测图片并基于通过评估的检测模型对所述检测图片进行检测。
[0085]
具体的，该步骤可以由检测模块执行。
[0086]
在一些实施例中，训练好的检测模型根据由人脸图像中的关键信息，可以判断出实际的人脸图像的口罩佩戴情况是否复核的相关规定，即确定数据监控结果。
[0087]
步骤550，输出检测结果。
[0088]
具体的，该步骤可以由检测模块执行。
[0089]
在一些实施例中，检测模块输出的检测结果即可以进行具体的应用，如安检人员可以根据检测结果，提醒相应的未佩戴口罩的人员佩戴口罩。
[0090]
应当注意的是，以上描述仅出于说明的目的而提供，并不旨在限制本技术的范围。对于本领域的普通技术人员来说，可以根据本技术的描述，做出各种各样的变化和修改。然而，这些变化和修改不脱离本技术的范围。
[0091]
图6是根据本说明书的一些实施例所示的ssd目标检测算法模型的示意图。
[0092]
在一些实施例中，检测模型包括ssd目标检测算法模型。
[0093]
ssd目标检测算法模型的基本工作原理为：在基础网络和各个尺度特征块生成不同数量和大小的锚框，通过预测锚框的类别和偏移量检测不同大小的目标。同时，ssd是一种端到端的单次检测深度神经网络，结合yolo的回归思想和faster r
‑
cnn的anchors机制,采用回归的思想可以简化神经网络的计算复杂度，提高检测的实时性；采用anchors机制可以提取并表达不同宽高比尺寸的特征，保证检测的准确性。针对输入图像，ssd会产生多个固定大小的bounding box和框中对象类别的得分，然后进行非极大值抑制(nms)操作，得到最后的预测结果。
[0094]
在一些实施例中，ssd目标检测算法模型可以采用如图6所示的结构如图6所示，ssd目标检测算法模型包括特征提取网络，所述特征提取网络为resnet特征提取网络。所述resnet特征提取网络的结构使用如图7所示的卷积块堆积而成(图7中n为通道数)，采用残差结构的网络层数增加而不会引起过拟合问题，同时在就卷积层堆积过程中采用1x1的卷积核进行降维，在使用3x3的卷积核进行特征提取，减少了网络参数数量。
[0095]
在一些实施例中，ssd目标检测算法模型中包括特征融合模块，所述resnet特征提取网络的至少部分输出作为所述特征融合模块的输入，所述特征融合模块用于对输入的特征图进行融合并输出。
[0096]
在一些实施例中，ssd目标检测算法模型在六层不同尺度的特征图上选取了一系列不同大小尺寸的候选框，以此进行多尺度预测，但这六层特征图仍不能充分的提供目标信息。由于深层特征图对应于原图的感受野大，缺少目标的细节信息，容易造成小目标物体的漏检。而浅层特征图前的卷积层较少，造成其语义信息较少、特征表达能力有限，容易造
成欠拟合。因此本实施例还对ssd目标检测算法模型增加了特征融合模块。
[0097]
在一些实施例中，特征融合模块的结构如图8所示，如图9所示为，所述特征融合模块的处理过程包括：
[0098]
步骤910，将收到的某部分特征图进行第一预设倍数的上采样得到预设分辨率的第一特征图；
[0099]
步骤920，将收到的另一部分特征图进行第二预设倍数的上采样得到预设分辨率的第二特征图；
[0100]
步骤930，将所述第一特征图、所述第二特征图与resnet特征提取网络输出的一部分特征图进行融合得到融合后的特征图；
[0101]
步骤940，在融合后的特征图的基础上经过一个通道维度上的最大池化以及一个特定卷积层得到一个空间特征的重要系数，然后将所述重要系数与融合后的特征图相乘得到最终的融合结果。
[0102]
在一些实施例中，具体是由resnet特征提取网络中第三、四、五层的输出作为特征融合模块的输入，将resnet网络中第五层输出的特征图进行4倍上采样得到分辨率为38
×
38的特征图，将resnet网络中第四层输出的特征图进行2倍上采样得到分辨率为38
×
38的特征图，然后将这两个分辨率为38
×
38的特征图与resnet第三层输出的特征图进行融合。最后在融合后的特征图的基础上经过一个通道维度上的最大池化以及一个7
×
7的卷积层得到一个空间特征的重要系数，然后将这个空间注意力系数与融合后的特征图相乘，达到突出重要特征，抑制不重要特征的目的。
[0103]
在一些实施例中，所述ssd目标检测算法模型包括检测分类模型，所述检测分类模型用于对所述最终的融合结果进行类别预测。
[0104]
如检测分类模型可以对该照片属于未佩戴口罩及佩戴口罩分别进行概率计算，并以概率较大值作为识别结果。如若分类结果为属于佩戴口罩的概率为99.99％，未佩戴口罩的概率为0.01％，则以佩戴口罩作为最终的识别结果。
[0105]
检测分类模型的训练可以由训练模块实现，仅作为示例，可以以历史基础信息作为输入，以所述历史基础信息对应的适当概率值作为正确标准(ground truth)对模型进行训练。同时可以根据模型的预测输出与正确标准之间的差异反向调整模型参数。当满足某一预设条件时，例如，训练样本数达到预定的数量，模型的预测正确率大于某一预定正确率阈值，或损失函数(loss function)的值小于某一预设值，训练过程将停止，并将训练后的模型指定为所述第一判别模型。
[0106]
如图10所示为根据本说明书的一些实施例所示的检测模型的训练流程示意图。
[0107]
在一些实施例中，可以采用数据集由香港中文大学的yang shuo等制作的人脸数据集于2016年发布的wider face数据集，保证数据集来源的多样性，通过数据增强策略对图像数据随机旋转处理，翻转处理，裁剪处理，亮度值以及对比度值处理进行标准化处理，共得到8751*4张图片，提高模型的鲁棒性及泛化能力。这些数据通过准确的标注，标注类别分为佩戴(face
‑
mask标签)与未佩戴(face标签)两种，分为训练集与测试集，其比例为4:1，所有图片均为彩色。数据增强的方法为通过对图形数据线性变换，将数据容量进一步扩大，提高网络模型训练的准确率和模型的泛化能力。
[0108]
在一些实施例中，训练方式采用随机梯度下降(stochastic gradient descent,
sgd)优化模型对网络进训练，动量为0.9，权重衰减为0.0005，批量为8
×
4。学习率从10
‑3开始，当网络更新5个轮次(epoch)后上升到10
‑2，然后在第34和46个轮次除以10，整个训练过程一共进行60个轮次结束。
[0109]
在一些实施例中，检测模型的训练过程可以包括：
[0110]
(1)获取多个样本对，每个样本对可以包括样本图像以及样本图像标签，样本图像中包括人脸图像的至少一部分，样本图像标签包括对应的人脸图像的相关信息(例如，口罩佩戴情况、年龄、性别等)。在一些实施例中，样本图像可以为过去一段时间(如一天、一周、一个月等)内拍照模块150获取到的图像。在一些实施例中，样本图像可以为针对各种人员拍摄的图像。每张样本图像对应的样本图像标签可以由人工标注或机器标注获得。在一些实施例中，监控人员可以对样本图像进行鉴别，并为每张样本图像标注对应的样本零件的相关信息(如口罩佩戴情况、年龄、性别等)。在一些实施例中，多个样本对中可以至少包括两个样本对，该两个样本对的样本图像中包括相同人脸佩戴与未佩戴口罩的照片。在一些实施例中，该两个样本对的样本图像可以分别为相同人员的正面和侧面图像。通过利用多角度拍摄相同人员的样本图像进行训练，有助于所得的图像识别模型具有更好的鲁棒性。(2)基于多个样本对，对初始图像识别模型进行训练，以获得训练完成的图像识别模型。在一些实施例中，训练的方法可以包括反向传播、梯度下降等方法。
[0111]
在一些实施例中，多个样本对中可以包括仿真样本对，仿真样本对包括仿真样本图像以及仿真样本图像标签，仿真样本图像包括仿真人脸图像的至少一部分，仿真样本图像标签包括仿真样本人脸图像的相关信息(例如口罩佩戴情况、年龄、性别等)。在一些实施例中，仿真样本人脸图像可以是由仿真软件(如三维建模软件)建模而成的虚拟仿真零件。通过在仿真软件中对仿真样本人脸图像进行不同的模拟处理，可以获得仿真样本人脸图像在不同状况下的模拟形态。在一些实施例中，通过仿真软件可以模拟仿真样本人脸图像仅遮住嘴巴的口罩佩戴图片、或仅是将口罩挂在耳朵上的口罩照片等。在一些实施例中，仿真样本人脸图像可以是根据真实人脸图像的至少部分特征(例如，眼睛)绘制出的实体仿真人脸图像。在一些实施例中，实体仿真人脸图像与真实人脸图像的五官比例等可以相同或不同。在一些实施例中，实体仿真人脸图像可以是真实人脸图像的等比例放大版或等比例缩小版。实体仿真样本人脸图像可以依照符合常规的真实人脸图像绘制，也可以依照不符合常规的真实人脸图像绘制。通过获取仿真人脸图像，可以作为训练样本的有益补充，使训练样本覆盖更多情况，能够有效节约模型训练成本、提升所得模型的识别准确性。在一些实施例中，仿真样本图像标签可以是口罩佩戴位置是否争取。在一些实施例中，仿真样本图像标签可以由人工标注或机器标注(如通过仿真软件标注)。
[0112]
应该注意的是，虽然上文分别描述了检测分类模型和检测，在一些实施例中，它们可以合并为一个模型，该模型可以根据不同的人脸图像数据综合确定的口罩佩戴结果。例如，该模型的输入为多个的人脸图像，输出为多个图像内的口罩佩戴结果。模型训练的过程与确定牌照内容及评估预测结果的过程可以分开进行。在一些实施例中，所述训练过程可以在服务器110上执行，也可以在另外的设备上执行，再将训练好的模型应用到服务器110上。在一些实施例中，也可以对根据各种不同场景下的口罩照片进行口罩内容的确定。
[0113]
本说明书的实施例的口罩识别方法具有的有益效果包括但不限于以下几点：1.实现快速准确的进行人脸口罩peid情况的识别。2.构建的模型不会出现层数过多而产生过拟
合的问题。3.模型中，加入特征融合模块，加强上下文联系信息。从而达到了更好的效果。需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。
[0114]
本说明书实施例还提供一种口罩佩戴检测设备，包括至少一个存储介质和至少一个处理器，所述至少一个存储介质用于存储计算机指令；所述至少一个处理器用于执行前述的口罩佩戴检测方法，所述方法包括：对训练好的检测模型进行评估；获取待检测图片并基于通过评估的检测模型对所述检测图片进行检测；输出检测结果。
[0115]
本说明书实施例还提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机实现前述的检测状态的方法，所述方法包括：对训练好的检测模型进行评估；获取待检测图片并基于通过评估的检测模型对所述检测图片进行检测；输出检测结果。
[0116]
上文已对基本概念做了描述，显然，对于本领域技术人员来说，上述详细披露仅仅作为示例，而并不构成对本说明书的限定。虽然此处并没有明确说明，本领域技术人员可能会对本说明书进行各种修改、改进和修正。该类修改、改进和修正在本说明书中被建议，所以该类修改、改进、修正仍属于本说明书示范实施例的精神和范围。
[0117]
同时，本说明书使用了特定词语来描述本说明书的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本说明书至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”或“一个实施例”或“一个替代性实施例”并不一定是指同一实施例。此外，本说明书的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。
[0118]
此外，本领域技术人员可以理解，本说明书的各方面可以通过若干具有可专利性的种类或情况进行说明和描述，包括任何新的和有用的工序、机器、产品或物质的组合，或对他们的任何新的和有用的改进。相应地，本说明书的各个方面可以完全由硬件执行、可以完全由软件(包括固件、常驻软件、微码等)执行、也可以由硬件和软件组合执行。以上硬件或软件均可被称为“数据块”、“模块”、“引擎”、“单元”、“组件”或“系统”。此外，本说明书的各方面可能表现为位于一个或多个计算机可读介质中的计算机产品，该产品包括计算机可读程序编码。
[0119]
计算机存储介质可能包含一个内含有计算机程序编码的传播数据信号，例如在基带上或作为载波的一部分。该传播信号可能有多种表现形式，包括电磁形式、光形式等，或合适的组合形式。计算机存储介质可以是除计算机可读存储介质之外的任何计算机可读介质，该介质可以通过连接至一个指令执行系统、装置或设备以实现通讯、传播或传输供使用的程序。位于计算机存储介质上的程序编码可以通过任何合适的介质进行传播，包括无线电、电缆、光纤电缆、rf、或类似介质，或任何上述介质的组合。
[0120]
本说明书各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如java、scala、smalltalk、eiffel、jade、emerald、c++、c#、vb.net、python等，常规程序化编程语言如c语言、visual basic、fortran2003、perl、cobol2002、php、abap，动态编程语言如python、ruby和groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或处理设备上运行。在后
种情况下，远程计算机可以通过任何网络形式与用户计算机连接，比如局域网(lan)或广域网(wan)，或连接至外部计算机(例如通过因特网)，或在云计算环境中，或作为服务使用如软件即服务(saas)。
[0121]
此外，除非权利要求中明确说明，本说明书所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本说明书流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本说明书实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的处理设备或移动设备上安装所描述的系统。
[0122]
同理，应当注意的是，为了简化本说明书披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本说明书实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本说明书对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。
[0123]
一些实施例中使用了描述成分、属性数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有
±
20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本说明书一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。
[0124]
针对本说明书引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档等，特此将其全部内容并入本说明书作为参考。与本说明书内容不一致或产生冲突的申请历史文件除外，对本说明书权利要求最广范围有限制的文件(当前或之后附加于本说明书中的)也除外。需要说明的是，如果本说明书附属材料中的描述、定义、和/或术语的使用与本说明书所述内容有不一致或冲突的地方，以本说明书的描述、定义和/或术语的使用为准。
[0125]
最后，应当理解的是，本说明书中所述实施例仅用以说明本说明书实施例的原则。其他的变形也可能属于本说明书的范围。因此，作为示例而非限制，本说明书实施例的替代配置可视为与本说明书的教导一致。相应地，本说明书的实施例不仅限于本说明书明确介绍和描述的实施例。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨帆;郭敬娜;王铭宇
技术所有人：成都恒创新星科技有限公司
我是此专利的发明人

上一篇：抽屉单元调试测试车的制作方法
上一篇：一种抗裂纹扩展的环境障碍涂层及其制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。