基于图像和语音识别的窗口服务评分方法及系统与流程

文档序号：27379907发布日期：2021-11-15 19:37阅读：182来源：国知局

1.本发明属于图像和语音识别技术领域，尤其涉及基于图像和语音识别的窗口服务评分方法及系统。

背景技术：

2.本部分的陈述仅仅是提供了与本发明相关的背景技术信息，不必然构成在先技术。
3.窗口服务工作的评价标准为用户满意度，用户满意度又被称作用户满意指数，是用户期望值与用户体验的匹配程度，即是用户通过对一种产品、业务可感知的效果与其期望值相比较后得出的指数。
4.传统意义上的窗口服务评分方式是通过电话、短信、现场按键评分等形式进行服务满意度回访，用户会因时间过长或者没有时间而造成评价反馈效果不理想，同时给用户造成了麻烦。传统意义上的服务评分方式已不满足当前高效率、快节奏的窗口办公模式，也无法准确、全面、客观的反映工作人员的业务服务水平。
5.随着智能人脸表情识别算法的成熟，大数据平台的完善和接入，电子硬件技术的不断更新升级，新型的窗口服务评分装置软件、硬件都具备了足够的条件，因此，基于图像、语音识别的窗口服务评分方法的研究迫在眉睫。但是，传统的人脸表情识别方法还存在一定缺陷，受噪声、光照等因素的影响较大，识别精度较低。

技术实现要素：

6.为了解决上述背景技术中存在的技术问题，本发明提供基于图像和语音识别的窗口服务评分方法及系统，首先通过人脸表情识别得到表情评分，然后通过将语音文本与预设数据库中的关键词进行比对得到语音评分，最后综合表情评分和语音评分得到窗口服务评分，提高了窗口服务评分准确率和可靠率，实现了对员工业务水平得到更精准、更客观的反馈。
7.为了实现上述目的，本发明采用如下技术方案：
8.本发明的第一个方面提供基于图像和语音识别的窗口服务评分方法，其包括：
9.获取窗口服务过程中用户的视频文件和音频文件；
10.将视频文件转换为多张待识别图像，并进行人脸表情识别，根据识别结果得到表情评分；
11.将音频文件转化为语音文本，将语音文本与预设数据库中的关键词进行比对，基于比对结果，得到语音评分；
12.基于表情评分和语音评分，得到窗口服务评分。
13.进一步的，所述人脸表情识别的过程为：
14.获取待识别图像，并检测得到人脸图像；
15.对人脸图像进行预处理得到人脸灰度图；
16.对人脸灰度图进行关键点定位，并以每一个关键点为中心截取预定尺寸的图像块；
17.采用基于均方差的lbp算法提取每个图像块的lbp直方图，并按预设顺序将所有图像块的lbp直方图进行连接，得到人脸灰度图的lbp纹理特征向量；
18.将lbp纹理特征向量输入分类器，得到表情识别结果。
19.进一步的，所述检测得到人脸图像具体为：通过adaboost人脸检测算法对待识别图像进行检测，得到人脸区域，并剪裁出人脸图像。
20.进一步的，所述关键点定位采用监督下降算法。
21.进一步的，所述预处理包括：
22.对人脸图像进行光照均匀判断和光照补偿，得到光照均匀的人脸图像；
23.对光照均匀的人脸图像进行灰度化处理，得到人脸灰度图。
24.进一步的，所述基于均方差的lbp算法具体为：
25.依次将图像块中的每一个像素点作为预设滑动窗口的中心像素；
26.计算滑动窗口中各个邻域像素灰度值与中心像素灰度值之差的均值的绝对值；
27.计算滑动窗口中各邻域像素灰度值的均方差；
28.基于绝对值和均方差得到lbp图像；
29.统计得到lbp图像的直方图，并对其进行归一化处理，得到lbp纹理特征向量。
30.进一步的，基于绝对值和均方差得到lbp图像的过程为：
31.当所述绝对值大于所述均方差时，选择滑动窗口中所有邻域像素灰度值的平均值作为阈值；否则，选择中心像素灰度值作为阈值；
32.基于所述阈值，计算图像块中的每一个像素点的lbp值，得到lbp图像。
33.本发明的第二个方面提供基于图像和语音识别的窗口服务评分系统，其包括：
34.数据获取模块，其被配置为：获取窗口服务过程中用户的视频文件和音频文件；
35.表情评分获取模块，其被配置为：将视频文件转换为多张待识别图像，并进行人脸表情识别，根据识别结果得到表情评分；
36.语音评分获取模块，其被配置为：将音频文件转化为语音文本，将语音文本与预设数据库中的关键词进行比对，基于比对结果，得到语音评分；
37.窗口服务评分模块，其被配置为：基于表情评分和语音评分，得到窗口服务评分。
38.本发明的第三个方面提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述所述的基于图像和语音识别的窗口服务评分方法中的步骤。
39.本发明的第四个方面提供一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述所述的基于图像和语音识别的窗口服务评分方法中的步骤。
40.与现有技术相比，本发明的有益效果是：
41.本发明提供了基于图像和语音识别的窗口服务评分方法，通过人脸表情识别得到表情评分，通过将语音文本与预设数据库中的关键词进行比对得到语音评分，最后综合表情评分和语音评分得到窗口服务评分，提高了窗口服务评分准确率和可靠率，实现了对员工业务水平得到更精准、更客观的反馈，而且无需额外开展用户回访工作，减少了员工工作
量，避免了对客户造成骚扰。
42.本发明提供了基于图像和语音识别的窗口服务评分方法，在进行人脸表情识别过程中采用了基于均方差的lbp算法进行lbp纹理特征提取，计算lbp值的方法同时考虑了中心像素值与邻域像素值的影响，能够根据领域像素特点有效去除中心像素过大或者过小时对lbp值的影响，降低了噪声点的影响，提取的lbp纹理特征更加准确。
附图说明
43.构成本发明的一部分的说明书附图用来提供对本发明的进一步理解，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。
44.图1是本发明实施例的基于图像和语音识别的窗口服务评分方法流程图。
具体实施方式
45.下面结合附图与实施例对本发明作进一步说明。
46.应该指出，以下详细说明都是例示性的，旨在对本发明提供进一步的说明。除非另有指明，本文使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同含义。
47.需要注意的是，这里所使用的术语仅是为了描述具体实施方式，而非意图限制根据本发明的示例性实施方式。如在这里所使用的，除非上下文另外明确指出，否则单数形式也意图包括复数形式，此外，还应当理解的是，当在本说明书中使用术语“包含”和/或“包括”时，其指明存在特征、步骤、操作、器件、组件和/或它们的组合。
48.实施例一
49.如图1所示，本实施例提供了基于图像和语音识别的窗口服务评分方法，其具体包括如下步骤：
50.(一)获取窗口服务过程中用户(接受服务的客户)的视频文件，即当用户接受窗口服务时，摄像装置开启，实时采集用户视频文件；对每位用户的视频进行处理，得到多张用户图像。然后将用户图像输入表情识别模型，进行人脸表情识别，根据识别结果得到表情评分，具体的，根据表情识别结果，判断该张图像中用户表情是否为开心，当识别结果为开心时，表情评分加1。现有窗口服务过程中均会对用户服务过程进行录像和录音，并不涉及侵犯用户隐私的问题。
51.表情识别模型进行人脸表情识别的过程包括：
52.步骤1：获取待识别图像(用户图像)，并检测得到人脸图像。具体的：通过adaboost人脸检测算法对待识别图像进行检测，得到人脸区域，并剪裁出人脸图像。
53.步骤2：对人脸图像进行光照均匀判断和光照补偿，得到光照均匀的人脸图像。光照均匀判断和光照补偿的具体步骤可以采用，专利201410258412.5人脸算法标砖脸部图像的提取方法，中提出的方法。
54.步骤3：对光照均匀的人脸图像进行灰度化处理，得到人脸灰度图。
55.步骤4：采用人脸关键点定位算法对人脸灰度图进行关键点定位，其中，关键点包括眉毛、眼睛、鼻子和嘴巴等脸部位置，人脸关键点定位算法采用监督下降算法(sdm，supervised descent method)。
56.步骤5：对于每一个关键点,在人脸灰度图中截取以关键点为中心的预定尺寸的图像块，预定尺寸为16像素
×
16像素。
57.步骤6：采用基于均方差的lbp算法提取每个图像块的lbp纹理特征向量。
58.传统的lbp算法直接以中心像素值作为阈值进行计算，只考虑中心像素的影响，当中心像素直过大或过小时容易湮没细节。因此,本发明提出一种基于均方差的lbp算法，具体流程如下：
59.(1)构建滑动窗口,依次将一个图像块中的每一个像素点作为预设滑动窗口的中心像素(x
c
,y
c
)，c＝1,2,
…
,n，n为图像中总的像素点个数，计算以该像素点(x
c
,y
c
)为中心像素的滑动窗口中各个邻域像素灰度值g
p
(p＝1,2，
…
，p)与中心像素灰度值g
c
之差的均值的绝对值m，表示为
[0060][0061]
作为一种实施方式，滑动窗口的大小为3像素
×
3像素，则p＝8；
[0062]
(2)计算滑动窗口中各邻域像素灰度值的均方差s，表示为
[0063][0064]
其中，g为所有邻域像素值g
p
的平均值。
[0065]
(3)判断绝对值m与均方差s的大小，若m≤s，则选择中心像素灰度值g
c
作为阈值α；否则，选择滑动窗口中所有邻域像素灰度值的平均值g作为阈值α。基于阈值α，计算每一个像素点的lbp值，得到lbp图像，具体的：
[0066][0067]
其中，(x
c
,y
c
)为中心像素的坐标位置，lbp(x
c
,y
c
)为计算得到的像素(x
c
,y
c
)的lbp值，即lbp图像中像素(x
c
,y
c
)的灰度值，g
c
为中心像素(x
c
,y
c
)的灰度值，g
p
为中心像素(x
c
,y
c
)的第p个邻域像素的灰度值，f为一个符号函数，表示为：
[0068][0069]
(4)统计得到该图像块对应的lbp图像的lbp直方图，即每个lbp值出现的频率，然后对该图像块的直方图进行归一化处理，得到该图像块的lbp纹理特征向量。
[0070]
可以看出，本发明计算lbp值的方法同时考虑了中心像素值与邻域像素值的影响，能够根据领域像素特点有效去除中心像素过大或者过小时对lbp值的影响，降低了噪声点的影响，提取的lbp纹理特征更加准确。
[0071]
步骤7：按预设顺序将得到的每个图像块的lbp直方图进行连接成为一个特征向量，也就是整幅灰度图的lbp纹理特征向量。
[0072]
进行表情识别之前,需要将每个图像块的直方图进行整合,作为一个整体输入至分类器。将各个图像块的直方图按预设顺序进行连接后作为分类器的输入。
[0073]
由于获取的关键点通常为多个,且不同的关键点对应不同的脸部位置,因此各个图像块的直方图需要按照预设顺序进拼接。以关键点包括眉毛、眼睛、鼻子、嘴巴为例，预设顺序可以依次为眉毛、眼睛、鼻子、嘴巴。
[0074]
另外，不论是在分类器的训练阶段，还是在采用分类器进行表情识别阶段,从任一张图像中提取的多个图像块的直方图均按照同一种预设顺序进行拼接,以此保证表情识别模型的输入数据的结构相统一。
[0075]
步骤8：将lbp纹理特征向量输入分类器，得到表情分类结果。
[0076]
表情识别模型的训练需要较大的表情库训练模型，目前公开的人脸表情数据库并不多，比较知名且广泛应用于人脸表情识别系统的数据集extended cohn
‑
kanada(ck+)是由p.lucy收集的。该库包含123个对象的327个标记表情，分正常、生气、蔑视、厌恶、恐惧、开心和伤心七种表情。本技术的表情识别模型采用该数据库。
[0077]
(二)获取窗口服务过程中用户音频文件，将该用户的音频文件转化为语音文本，将语音文本与预设数据库中的关键词进行比对，基于比对结果，得到语音评分。
[0078]
具体的，若语音文本出现一次预设数据库中的关键词，则语音评分加1。预设数据库中的关键词包括“谢谢”、“感谢”等致谢用语。
[0079]
(三)对同一个用户在同一次服务中的表情评分和语音评分进行加和，得到该用户在该次服务中的窗口服务评分。例如，表情评分为10，语音评分为3，则该用户在该次服务中的窗口服务评分为(10+3)。
[0080]
本发明的方法提高了窗口服务评分准确率和可靠率，对员工业务水平得到更精准、更客观的反馈，利于窗口服务的良性循环提升。而且无需额外开展用户回访工作，减少了员工工作量，避免了对客户造成骚扰。
[0081]
实施例二
[0082]
本实施例提供了基于图像和语音识别的窗口服务评分系统，其具体包括如下模块：
[0083]
数据获取模块，其被配置为：获取窗口服务过程中用户的视频文件和音频文件；
[0084]
表情评分获取模块，其被配置为：将视频文件转换为多张待识别图像，并进行人脸表情识别，根据识别结果得到表情评分；
[0085]
语音评分获取模块，其被配置为：将音频文件转化为语音文本，将语音文本与预设数据库中的关键词进行比对，基于比对结果，得到语音评分；
[0086]
窗口服务评分模块，其被配置为：基于表情评分和语音评分，得到窗口服务评分。
[0087]
此处需要说明的是，本实施例中的各个模块与实施例一中的各个步骤一一对应，其具体实施过程相同，此处不再累述。
[0088]
实施例三
[0089]
本实施例提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现如上述实施例一所述的基于图像和语音识别的窗口服务评分方法中的步
骤。
[0090]
实施例四
[0091]
本实施例提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述实施例一所述的基于图像和语音识别的窗口服务评分方法中的步骤。
[0092]
本领域内的技术人员应明白，本发明的实施例可提供为方法、系统、或计算机程序产品。因此，本发明可采用硬件实施例、软件实施例、或结合软件和硬件方面的实施例的形式。而且，本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0093]
本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器，使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0094]
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中，使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品，该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0095]
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上，使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理，从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0096]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(read
‑
only memory，rom)或随机存储记忆体(random accessmemory，ram)等。
[0097]
以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：彭文存;孙兴舜;王刚;姜领;刘丽;陈醒;刘世敏;刘青青;王帅帅;冯城金
技术所有人：国网山东省电力公司济宁供电公司国家电网有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。