一种数据处理方法和装置与流程

文档序号：30591396发布日期：2022-07-01 19:42阅读：67来源：国知局

1.本发明涉及数据处理技术领域，尤其涉及一种数据处理方法和装置。

背景技术：

2.对于直播平台来说，需要对直播平台所直播的内容进行审核，以确认直播的内容是正规合法的内容，而不能是非合规的内容。现有技术中，确认直播的内容是否正规合法，主要是依赖于审核人员，需要去定时的查看每个直播间是否存在违规的直播内容。显然，现有技术耗时耗力，且审核的效率不高。
3.因此，如何更加智能的识别直播间所直播的内容是否正规合法，即提高审核效率，是现在急需解决的问题。

技术实现要素：

4.本发明提供一种数据处理方法和装置，解决了如何更加智能的识别直播间所直播的内容是否正规合法的问题。
5.为达到上述目的，本发明采用如下技术方案：
6.第一方面，本发明的实施例提供一种数据处理方法，包括：获取直播业务视频流；提取直播业务视频流中的目标画面组、语音数据和字幕数据；根据目标画面组中包含的第一特征集合，确定画面得分；根据语音数据中包含的第二特征集合，确定语音得分；根据字幕数据中包含的第三特征集合，确定字幕得分；根据画面得分、语音得分和字幕得分，确定综合得分；确定综合得分大于或等于目标得分时，生成告警信息；其中，告警信息用于指示直播业务视频流存在异常。
7.由上述可知，本发明提供的数据处理方法，通过提取直播业务视频流中的目标画面组、语音数据和字幕数据，并对该目标画面组、语音数据和字幕数据进行分析，从而可以根据目标画面组中包含的第一特征集合，确定画面得分。然后，根据语音数据中包含的第二特征集合，确定语音得分。然后，根据字幕数据中包含的第三特征集合，确定字幕得分。进一步地，根据画面得分、语音得分和字幕得分，确定综合得分。当综合得分大于或等于目标得分时，生成告警信息，从而用户可以根据该告警信息确定该直播业务视频流存在异常，无需人工对该直播业务视频流进行审核，在提高审核效率的同时降低了人工的成本，解决了如何更加智能的识别直播间所直播的内容是否正规合法的问题。
8.第二方面，本发明提供一种数据处理装置，包括：获取单元和处理单元。
9.具体的，上述获取单元，用于获取直播业务视频流；上述处理单元，用于提取获取单元获取的直播业务视频流中的目标画面组、语音数据和字幕数据；上述处理单元，还用于根据目标画面组中包含的第一特征集合，确定画面得分；上述处理单元，还用于根据语音数据中包含的第二特征集合，确定语音得分；上述处理单元，还用于根据字幕数据中包含的第三特征集合，确定字幕得分；上述处理单元，还用于根据画面得分、语音得分和字幕得分，确定综合得分；上述处理单元，还用于确定综合得分大于或等于目标得分时，生成告警信息；
其中，告警信息用于指示直播业务视频流存在异常。
10.第三方面，本发明提供一种服务器，包括：通信接口、处理器、存储器、总线；存储器用于存储计算机执行指令，处理器与存储器通过总线连接。当服务器运行时，处理器执行存储器存储的计算机执行指令，以使服务器执行如上述第一方面提供的数据处理方法。
11.第四方面，本发明提供一种计算机可读存储介质，包括指令。当所述指令在计算机上运行时，使得计算机执行如上述第一方面提供的数据处理方法。
12.第五方面，本发明提供一种计算机程序产品，当所述计算机程序产品在计算机上运行时，使得所述计算机执行如第一方面的设计方式所述的数据处理方法。
13.需要说明的是，上述计算机指令可以全部或者部分存储在第一计算机可读存储介质上。其中，第一计算机可读存储介质可以与数据处理装置的处理器封装在一起的，也可以与数据处理装置的处理器单独封装，本发明对此不作限定。
14.本发明中第二方面、第三方面、第四方面以及第五方面的描述，可以参考第一方面的详细描述；并且，第二方面、第三方面、第四方面以及第五方面的描述的有益效果，可以参考第一方面的有益效果分析，此处不再赘述。
15.在本发明中，上述数据处理装置的名字对设备或功能模块本身不构成限定，在实际实现中，这些设备或功能模块可以以其他名称出现。只要各个设备或功能模块的功能和本发明类似，属于本发明权利要求及其等同技术的范围之内。
16.本发明的这些方面或其他方面在以下的描述中会更加简明易懂。
附图说明
17.为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
18.图1为本发明的实施例提供了一种数据处理方法应用的通信系统；
19.图2为本发明的实施例提供了一种数据处理方法的流程示意图之一；
20.图3为本发明的实施例提供了一种数据处理方法的流程示意图之二；
21.图4为本发明的实施例提供了一种服务器的结构示意图之一；
22.图5为本发明的实施例提供了一种服务器的结构示意图之二；
23.图6为本发明实施例提供的数据处理方法的计算机程序产品的结构示意图。
具体实施方式
24.下面结合附图，对本发明的实施例进行描述。
25.下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。
26.为了便于清楚描述本发明实施例的技术方案，在本发明的实施例中，采用了“第一”、“第二”等字样对功能和作用基本相同的相同项或相似项进行区分，本领域技术人员可
以理解“第一”、“第二”等字样并不对数量和执行次序进行限定。
27.图1是根据一示例性实施例示出的一种实施环境的架构图，如图1所示，下述通信方法可以应用于该实施环境中。该实施环境包括主播的用户设备01、服务器02和用户的用户设备03(包括n个用户设备(user equipment，ue)为大于或等于0的整数)。其中，用户设备01通过应用程序与服务器02建立了通信连接并开启了直播间时，用户设备03通过应用程序与服务器02建立了通信连接后可访问该直播间，进而用户设备03通过服务器02提供的长链接服务保持与用户设备01的通信连接。
28.在一种可实施的方式中，服务器02可以是一台服务器，也可以是由多台服务器组成的服务器集群，或者是一个云计算服务中心。服务器02可以包括处理器、存储器以及网络接口等。
29.在一种可实施的方式中，用户设备用于向用户提供语音和/或数据连通性服务。所述终端可以有不同的名称，例如ue、端、终端单元、终端站、移动站、移动台、远方站、远程终端、移动设备、无线通信设备、车辆用户设备、终端代理或终端装置等。可选的，所述终端可以为各种具有通信功能的手持设备、车载设备、可穿戴设备、计算机，本发明实施例对此不作任何限定。例如，手持设备可以是智能手机。车载设备可以是车载导航系统。可穿戴设备可以是智能手环。计算机可以是个人数字助理(personal digital assistant，pda)电脑、平板型电脑以及膝上型电脑(laptop computer)。
30.目前对对直播平台所直播的内容进行审核，主要是靠人工在线检测，用户事后举报等方式，审核效率较低。为此，本发明实施例提供的数据处理方法，通过提取直播业务视频流中的目标画面组、语音数据和字幕数据，并对该目标画面组、语音数据和字幕数据进行分析，从而可以根据目标画面组中包含的第一特征集合，确定画面得分。然后，根据语音数据中包含的第二特征集合，确定语音得分。然后，根据字幕数据中包含的第三特征集合，确定字幕得分。进一步地，根据画面得分、语音得分和字幕得分，确定综合得分。当综合得分大于或等于目标得分时，生成告警信息，从而用户可以根据该告警信息确定该直播业务视频流存在异常，无需人工对该直播业务视频流进行审核，在提高审核效率的同时降低了人工的成本，解决了如何更加智能的识别直播间所直播的内容是否正规合法的问题。具体的实现过程如下：
31.以下结合图1示出的通信系统，以数据处理装置为服务器02为例，对本发明实施例所提供的数据处理方法进行介绍。
32.如图2所示，数据处理方法包括以下步骤s11-s17的内容：
33.s11、服务器02获取直播业务视频流。
34.在一种可实现的方式中，可以通过在线深度报文检测(deep packet inspection，dpi)探针设备，解析并识别出实时流传输协议(real time streaming protocol，rtsp)/实时信息传输协议(real time message protocol，rtmp)直播业务视频流。
35.s12、服务器02提取直播业务视频流中的目标画面组、语音数据和字幕数据。
36.在一种可实现的方式中，需要先存储直播业务视频流，然后才能提取直播业务视频流中的目标画面组、语音数据和字幕数据。当获取的直播业务视频流较多时，导致存储获取的直播业务视频流的成本较高。为此本发明实施例提供的数据处理方法，按照n∶1的比例对直播业务视频流进行采样，从而降低存储获取的直播业务视频流的成本。
37.s13、服务器02根据目标画面组中包含的第一特征集合，确定画面得分。
38.在一种可实现的方式中，服务器02提取直播业务视频流中的目标画面组时，首先需要通过解码器对该直播业务视频流进行解码，在去除各种噪声的干扰后，确定目标画面组(如：连续关键帧i/b/p帧或画面组(group of pictures，gop))。然后，基于目标画面组确定目标画面组中包含的第一特征集合。
39.s14、服务器02根据语音数据中包含的第二特征集合，确定语音得分。
40.在一种可实现的方式中，服务器02提取直播业务视频流中的语音数据时，首先需要通过解码器对该直播业务视频流进行解码，在去除各种噪声的干扰后，在得到目标画面组的同时获取与该目标画面组同步的语音数据。然后，对该语音数据进行识别，进行特征提取，从而确定语音数据中包含的第二特征集合。
41.s15、服务器02根据字幕数据中包含的第三特征集合，确定字幕得分。
42.在一种可实现的方式中，服务器02提取直播业务视频流中的语音数据时，首先需要通过解码器对该直播业务视频流进行解码，在去除各种噪声的干扰后，在得到目标画面组的同时通过光学字符识别(optical character recognition，ocr)等识别技术获取到与该目标画面组同步的字幕数据，从而确定字幕数据中包含的第三特征集合。
43.s16、服务器02根据画面得分、语音得分和字幕得分，确定综合得分。
44.s17、服务器02确定综合得分大于或等于目标得分时，生成告警信息。其中，告警信息用于指示直播业务视频流存在异常。
45.在一种可实现的方式中，服务器02通过短信的形式将该告警信息发送至用户。或者，服务器02在生成告警信息后，显示该告警信息。
46.由上述可知，服务器02通过提取直播业务视频流中的目标画面组、语音数据和字幕数据，并对该目标画面组、语音数据和字幕数据进行分析，从而可以根据目标画面组中包含的第一特征集合，确定画面得分。然后，服务器02根据语音数据中包含的第二特征集合，确定语音得分。然后，服务器02根据字幕数据中包含的第三特征集合，确定字幕得分。进一步地，服务器02根据画面得分、语音得分和字幕得分，确定综合得分。当综合得分大于或等于目标得分时，服务器02生成告警信息，从而用户可以根据该告警信息确定该直播业务视频流存在异常，无需人工对该直播业务视频流进行审核，在提高审核效率的同时降低了人工的成本，解决了如何更加智能的识别直播间所直播的内容是否正规合法的问题。
47.在一种可实施的方式中，第一特征集合至少包括画面颜色、光线补偿值、场景信息、皮肤裸露度、人体目标部位、行为特征以及背景噪声干扰消除，在此情况下，结合图2，如图3所示，上述s13具体可通过下述s130和s131实现。
48.s130、服务器02根据预先配置的第一对应关系，确定第一特征集合中每一特征的得分。其中，第一对应关系包括第一特征集合中每一特征与得分的对应关系。
49.在一种可实现的方式中，可通过如下方式确定直播业务视频流的画面颜色。
50.具体的，画面图像对于计算机来说就是一组标准化多阶二维数组矩阵，颜色空间有rgb(red，green，blue)，his(hue，intensity，saturation)，hsv(hue，saturation，value)等颜色空间模型，通过对获取到的每一帧/关键帧画面的像素的分块、遍历，可以获取每个位置坐标处像素的rgb三个通道数值，通过和标准颜色空间数值进行比对，从而确定画面颜色。
51.具体的，画面颜色可通过直方图法，全局/局部累加直方图法，颜色参量的统计特征法，基于小波的分块图像颜色特征提取法等确定。
52.在一种可实现的方式中，可通过如下方式确定直播业务视频流的光线补偿值。
53.具体的，在关键帧i帧图像的识别过程中，由于光照环境或物体表面反光等原因造成图像整体光照不均，导致信息识别困难，通过光线补偿方法进行图像前期处理，以增强图像的对比度、清晰度，以提高后期图像识别的准确度。
54.具体的，光线补偿值可通过直方图均衡化法为代表的灰度变换法，基于照明-反射模型的同态滤波法，retinex增强方法以及梯度域增强方法等确定。
55.在一种可实现的方式中，可通过如下方式确定直播业务视频流的场景信息。
56.具体的，场景信息的识别可以采用卷积神经网络(convolutional neural networks，cnn)深度学习方法，对关键帧i帧图像中除人体以外的周围环境中特征物体的学习，特征提取及分类，训练，匹配比对提取的大量的物体特征值标准库，推断当事人所处的当前环境，如室内，室外等，并进行分类处理，以便获取更多场景方面的辅助判定信息，有助于更加准确的进行图像内容识别，判断图像的内容性质。
57.示例性的，场景信息包括室内和室外。
58.在一种可实现的方式中，可通过如下方式确定直播业务视频流的皮肤裸露度。
59.具体的，确定皮肤裸露度可以通过深度学习人像特征提取算法如fcn算法(fully convolutional networks for semantic segmentation)或基于边缘轮廓特征的贝叶斯模型等算法，抠出人体图像。然后，通过计算面部、四肢图像区域，与整个肤色区域的面积比例和具体的分布，来判断是否属于非合规内容(也称为异常内容)。
60.在一种可实现的方式中，可通过如下方式确定直播业务视频流的人体目标部位。
61.具体的，可以首先通过cnn或多层反馈循环神经网络(recurrent neural network，rnn)等人体特征提取算法识别出人体及人体目标部位，通过同人体特征数据集进行比对评判，给出非法识别结果及打分。人体特征数据集包含所有类型的人像图，有各种姿态，各种人体比例，非常多样化，可以用于更加精细和复杂的人体特征识别或抠图场景。例如helen parsing dataset是将关键点检测数据集helen dataset进行了标注后得到的人脸图像分割数据集，包含2000张训练图像和330张测试图像，并且在不断细化，新增。
62.在一种可实现的方式中，可通过如下方式确定直播业务视频流的行为特征。
63.具体的，在针对图像的行为认知研究中，卷积神经网络提取的图像特征被应用于行为分类(action classification)。在视频的行为认知问题中，卷积神经网络可以保持其二维结构并通过堆叠关键帧i帧的连续时间片段的特征进行学习、建立沿时间轴变化的2d卷积神经网络、或者逐帧提取特征并输入循环神经网络rnn，从而识别出人体目标部位的运动轨迹及行为，进而做出行为判断，以进一步确认识别结果是否准确、可靠，并给出相应的判定分值。
64.在一种可实现的方式中，可通过如下方式确定直播业务视频流的背景噪声干扰消除。
65.具体的，可通过均值滤波，方框滤波，高斯滤波，中值滤波，双边滤波等滤波算法，去除非关键特征物体的信息干扰，集中提升目标图像特征识别的效率和准确度。然后，在尽量保留图像原有信息的基础上，过滤掉图像内部的背景噪声，即对图像进行平滑处理也叫
模糊处理，然后确定噪声所在像素点的像素值为其周围临近像素点的噪声去除值。
66.在一种可实现的方式中，第一对应关系包括画面颜色与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的画面颜色对应的得分，从而确定该直播业务视频流的画面颜色对应的得分。
67.示例性的，画面颜色与得分的对应关系如表1所示。
68.表1
69.画面颜色得分清晰7-10标准4-6模糊0-3
70.在一种可实现的方式中，第一对应关系包括光线补偿值与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的光线补偿值对应的得分，从而确定该直播业务视频流的光线补偿值对应的得分。
71.示例性的，光线补偿值与得分的对应关系如表2所示。
72.表2
73.光线补偿值得分清晰7-10标准4-6弱0-3
74.在一种可实现的方式中，第一对应关系包括场景信息与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的场景信息对应的得分，从而确定该直播业务视频流的场景信息对应的得分。
75.示例性的，场景信息与得分的对应关系如表3所示。
76.表3
[0077][0078][0079]
在一种可实现的方式中，第一对应关系包括皮肤裸露度与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的皮肤裸露度对应的得分，从而确定该
直播业务视频流的皮肤裸露度对应的得分。
[0080]
示例性的，皮肤裸露度与得分的对应关系如表4所示。
[0081]
表4
[0082]
皮肤裸露度得分全裸7-10半裸4-6
[0083]
在一种可实现的方式中，第一对应关系包括人体目标部位与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的人体目标部位对应的得分，从而确定该直播业务视频流的人体目标部位对应的得分。
[0084]
具体的，在识别出直播业务视频流中的人体部位，然后确定该人体部位为人体目标部位时，给出一个得分。否则得分为0。
[0085]
在一种可实现的方式中，第一对应关系包括行为特征与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的行为特征对应的得分，从而确定该直播业务视频流的行为特征对应的得分。
[0086]
示例性的，行为特征与得分的对应关系如表5所示。
[0087]
表5
[0088]
行为特征得分非合规行为6-10正常行为0-5
[0089]
在一种可实现的方式中，第一对应关系包括背景噪声干扰消除与得分的对应关系，服务器02通过在第一对应关系中查询该直播业务视频流的背景噪声干扰消除对应的得分，从而确定该直播业务视频流的背景噪声干扰消除对应的得分。
[0090]
示例性的，背景噪声干扰消除与得分的对应关系如表6所示。
[0091]
表6
[0092]
背景噪声干扰消除得分高标准质量7-10标准质量4-6普通质量0-3
[0093]
s131、服务器02根据第一特征集合中每一特征的得分，确定画面得分。其中，画面得分满足下述公式：
[0094]kvideo
＝ω
f1
×sf1
+ω
f2
×sf2
+ω
f3
×sf3
+ω
f4
×sf4
+ω
f5
×sf5
+ω
f6
×sf6
+ω
f7
×sf7
。
[0095]
其中，k
video
表示画面得分，s
f1
表示画面颜色对应的得分，s
f2
表示光线补偿值对应的得分，s
f3
表示场景信息对应的得分，s
f4
表示皮肤裸露度对应的得分，s
f5
表示人体目标部位对应的得分，s
f6
表示行为特征对应的得分，s
f7
表示背景噪声干扰消除对应的得分，ω
f1
、ω
f2
、ω
f3
、ω
f4
、ω
f5
、ω
f6
和ω
f7
均为大于0，并且小于或等于1的常数，ω
f1
+ω
f2
+ω
f3
+ω
f4
+ω
f5
+ω
f6
+ω
f7
＝1。
[0096]
在一种可实施的方式中，第二特征集合至少包括音量值、基音频率、频域信息、语音子带能量、子带频谱质心、目标语音文字以及背景噪声干扰消除，在此情况下，结合图2，
如图3所示，上述s14具体可通过下述s140和s141实现。
[0097]
s140、服务器02根据预先配置的第二对应关系，确定第二特征集合中每一特征的得分。其中，第二对应关系包括第二特征集合中每一特征与得分的对应关系。
[0098]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的音量值。
[0099]
具体的，音量又称音强、响度，是指人耳对所听到的声音大小强弱的主观感受，其客观评价尺度是声音的振幅大小。由于人耳感知的声压动态范围太大，加之人耳对声音大小的感觉近似地与声压、声强呈对数关系，所以通常用对数值来度量声音，单位为分贝。语音编码最常用的标准是pcm编码(pulse code modelation，脉冲编码调制)，mpeg采用的高级音频编码aac(advanced audio coding)，保存记录了所有原始的音频数据，本质就是一个个的采样点，一般采用16位整数型。因此，在确定音量值时一般捕获截取一段同步gop或连续关键i帧时间段内的语音进行识别分析，从而确定音量值。
[0100]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的基音频率。
[0101]
具体的，人可以听到的声音频率范围是20hz～20khz。基音频率与个人声带的长短、薄厚、韧性、劲度和发音习惯等有关系，在很大程度上反应了个人声音的特征，可以采用时域估计法，变换法或混合法确定直播业务视频流的基音频率。
[0102]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的频域信息。
[0103]
具体的，在确定频域信息时可以采用常用的语音频域分析方法，如带通滤波器组法，fouier变换法，同态分析，线性预测法，确定语音频域。
[0104]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的语音子带能量。
[0105]
具体的，为了在噪声环境中准确的进行语音识别，可采用高斯混合模型gmm(gaussian mixture model)分类器等方法对提取的子带能量变化特征进行训练和测试。从而，将直播业务视频流输入高斯混合模型中，确定出语音子带能量。
[0106]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的子带频谱质心。
[0107]
具体的，由于各频带频谱峰值位置受背景噪声影响相对较小，具有更好的鲁棒性，而子带频谱质心(subband spectrum centroid，ssc)非常接近频谱中的峰值位置，从而可以根据峰值确定子带频谱质心。
[0108]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的目标语音文字。
[0109]
具体的，语音信号经过预处理后，逐帧提取语音特征，传统的提取特征类型方法包括梅尔频率倒谱系数(mel frequency cepstrum coefficient，mfcc)法等，在声学模型(如隐马尔科夫模型hmm，hidden markov model等)、语言模型(如n-gram、循环神经网络语言模型rnnlm(recurrent neural network language modeling)等)以及发音词典的共同指导下，找到最为匹配的词序列作为识别结果输出。
[0110]
当然，也可以采用人工智能的神经网络来确定直播业务视频流的目标语音文字。
[0111]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的背景噪声干扰消除。
[0112]
具体的，可以采用倒谱均值减法(cepstrum mean subtraction，cms)消除背景噪声。
[0113]
在一种可实现的方式中，第二对应关系包括音量值与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的音量值对应的得分，从而确定该直播业务
视频流的音量值对应的得分。
[0114]
示例性的，音量值与得分的对应关系如表7所示。
[0115]
表7
[0116]
音量值得分有声10静音0
[0117]
在一种可实现的方式中，第二对应关系包括基音频率与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的基音频率对应的得分，从而确定该直播业务视频流的基音频率对应的得分。
[0118]
示例性的，基音频率与得分的对应关系如表8所示。
[0119]
表8
[0120]
基音频率得分符合检测特征6-10不符合检测特征0-5
[0121]
在一种可实现的方式中，第二对应关系包括频域信息与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的频域信息对应的得分，从而确定该直播业务视频流的频域信息对应的得分。
[0122]
示例性的，频域信息与得分的对应关系如表9所示。
[0123]
表9
[0124]
频域信息得分失真度低7-10失真度中4-6失真度高0-3
[0125]
在一种可实现的方式中，第二对应关系包括语音子带能量与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的语音子带能量对应的得分，从而确定该直播业务视频流的语音子带能量对应的得分。
[0126]
示例性的，语音子带能量与得分的对应关系如表10所示。
[0127]
表10
[0128]
语音子带能量得分鲁棒性好7-10鲁棒性中4-6鲁棒性差0-3
[0129]
在一种可实现的方式中，第二对应关系包括子带频谱质心与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的子带频谱质心对应的得分，从而确定该直播业务视频流的子带频谱质心对应的得分。
[0130]
示例性的，子带频谱质心与得分的对应关系如表11所示。
[0131]
表11
[0132]
子带频谱质心得分
鲁棒性好7-10鲁棒性中4-6鲁棒性差0-3
[0133]
在一种可实现的方式中，第二对应关系包括子带频谱质心与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的子带频谱质心对应的得分，从而确定该直播业务视频流的子带频谱质心对应的得分。
[0134]
在一种可实现的方式中，第二对应关系包括语背景噪声干扰消除与得分的对应关系，服务器02通过在第二对应关系中查询该直播业务视频流的背景噪声干扰消除对应的得分，从而确定该直播业务视频流的背景噪声干扰消除对应的得分。
[0135]
示例性的，背景噪声干扰消除与得分的对应关系如表12所示。
[0136]
表12
[0137]
背景噪声干扰消除得分高标准质量7-10标准质量4-6普通质量0-3
[0138]
s141、服务器02根据第二特征集合中每一特征的得分，确定语音得分。其中，语音得分满足下述公式：
[0139]kvoice
＝ω
v1
×sv1
+ω
v2
×sv2
+ω
v3
×sv3
+ω
v4
×sv4
+ω
v5
×sv5
+ω
v6
×sv6
+ω
v7
×sv7
。
[0140]
其中，k
voice
表示语音得分，s
v1
表示音量值对应的得分，s
v2
表示基音频率对应的得分，s
v3
表示频域信息对应的得分，s
v4
表示语音子带能量对应的得分，s
v5
表示子带频谱质心对应的得分，s
v6
表示目标语音文字对应的得分，sv7表示背景噪声干扰消除对应的得分，ω
v1
、ω
v2
、ω
v3
、ω
v4
、ω
v5
、ω
v6
和ω
v7
均为大于0，并且小于或等于1的常数，ω
v1
+ω
v2
+ω
v3
+ω
v4
+ω
v5
+ω
v6
+ω
v7
＝1。
[0141]
在一种可实施的方式中，第三特征集合至少包括图像二值化、噪声去除值、倾斜校正值、版面分析值、目标文字以及上下文关系校验，在此情况下，结合图2，如图3所示，上述s15具体可通过下述s150和s151实现。
[0142]
s150、服务器02根据预先配置的第三对应关系，确定第三特征集合中每一特征的得分。其中，第三对应关系包括第三特征集合中每一特征与得分的对应关系。
[0143]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的图像二值化。
[0144]
具体的，图像二值化(image binarization)就是将图像上的像素点的灰度值设置为0～255，从而呈现出明显的黑白效果的过程，使图像中数据量大为减少，从而能凸显出文字目标的轮廓。示例性的，可以通过otsu最大类间方差法来确定直播业务视频流的图像二值化。
[0145]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的噪声去除值。
[0146]
具体的，可通过均值滤波，方框滤波，高斯滤波，中值滤波，双边滤波等滤波算法，去除非关键特征物体的信息干扰，集中提升目标图像特征识别的效率和准确度。然后，在尽量保留图像原有信息的基础上，过滤掉图像内部的背景噪声，即对图像进行平滑处理也叫模糊处理，然后确定噪声所在像素点的像素值为其周围临近像素点的噪声去除值。
[0147]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的倾斜校正值。
[0148]
具体的，在数字图像光学字符文本识别(optical character recognition，ocr)过程中，由于所截取图像的不可控性，总会存在一定角度的倾斜。倾斜角度要满足一定范围：(θ即倾斜角度，d为文本行距，l为文本行长)，若超出这个范围，则可能将下(上)一行的文字拼接到本行，替代原有文字，产生误断。通常来讲：θ应在2度以内。为了避免或者是纠正这种问题，就需要对图像进行预处理，进行倾斜检测。示例性的，可以根据投影法，hough变换法(1962年由paul hough提出)等确定直播业务视频流的倾斜校正值。
[0149]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的版面分析值。
[0150]
具体的，图像版面分析主要是判定像素区域是文本还是图像，分析字幕文字的排版横纵规律性，文字小、字间距等特征，传统的方法是通过轮廓投影，连通域标记，机器学习等方法。对于倾斜，模糊，扭曲等低质量的图像目前主要采用深度学习方法，如全卷积网络fcn(fullyconvolutional networks for semantic segmentation)，faster-rcnn(region-based convolutional neural networks)法等。
[0151]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的目标文字。
[0152]
具体的，关键帧图像字幕目标文字提取，在对图像进行预处理的基础上，首先进行文字检测，可使用canny算法进行边缘检测得到字符图像轮廓边缘图，接着进行图像映射校正变换warping，然后对图像中的文字进行字符切割，每行都包含一行文字，然后根据水平方向的直方图，按列分割每一行，得到被行列分割的图像，此时分割的每一个区域包含一个完整的文字串，然后对每一个区域进行扩张操作从而修复断裂字符，最后，使用连通区域标记算法从左到右分割文字字符，从而完成目标文字识别。
[0153]
在一种可实现的方式中，可通过如下方式确定直播业务视频流的上下文关系校验。
[0154]
具体的，这里同样可采用语言模型(如n-gram、循环神经网络语言模型rnnlm(recurrent neural network langvage modeling)等)以及上下文关系词典库的共同指导下，找到最为匹配的词序列作为识别结果输出。
[0155]
在一种可实现的方式中，第三对应关系包括图像二值化与得分的对应关系，服务器02通过在第三对应关系中查询该直播业务视频流的图像二值化对应的得分，从而确定该直播业务视频流的图像二值化对应的得分。
[0156]
示例性的，图像二值化与得分的对应关系如表13所示。
[0157]
表13
[0158]
图像二值化得分高标准质量7-10标准质量4-6普通质量0-3
[0159]
在一种可实现的方式中，第三对应关系包括噪声去除值与得分的对应关系，服务器02通过在第三对应关系中查询该直播业务视频流的噪声去除值对应的得分，从而确定该直播业务视频流的噪声去除值对应的得分。
[0160]
示例性的，噪声去除值与得分的对应关系如表14所示。
[0161]
表14
[0162]
背景噪声干扰消除得分高标准质量7-10标准质量4-6普通质量0-3
[0163]
在一种可实现的方式中，第三对应关系包括倾斜校正值与得分的对应关系，服务器02通过在第三对应关系中查询该直播业务视频流的倾斜校正值对应的得分，从而确定该直播业务视频流的倾斜校正值对应的得分。
[0164]
示例性的，倾斜校正值与得分的对应关系如表15所示。
[0165]
表15
[0166]
倾斜校正值得分鲁棒性好7-10鲁棒性中4-6
[0167]
在一种可实现的方式中，第三对应关系包括版面分析值与得分的对应关系，服务器02通过在第三对应关系中查询该直播业务视频流的版面分析值对应的得分，从而确定该直播业务视频流的版面分析值对应的得分。
[0168]
示例性的，版面分析值与得分的对应关系如表16所示。
[0169]
表16
[0170]
版面分析值得分鲁棒性好7-10鲁棒性中4-6
[0171]
在一种可实现的方式中，第三对应关系包括目标文字与得分的对应关系，服务器02通过在第三对应关系中查询该直播业务视频流的目标文字对应的得分，从而确定该直播业务视频流的目标文字的得分。
[0172]
在一种可实现的方式中，第三对应关系包括上下文关系校验与得分的对应关系，服务器02通过在第三对应关系中查询该直播业务视频流的上下文关系校验对应的得分，从而确定该直播业务视频流的上下文关系校验对应的得分。
[0173]
示例性的，上下文关系校验与得分的对应关系如表17所示。
[0174]
表17
[0175]
上下文关系校验得分准确率高7-10准确率中4-6准确率低0-3
[0176]
s151、服务器02根据第三特征集合中每一特征的得分，确定字幕得分。其中，字幕得分满足下述公式：
[0177]ktext
＝ω
t1
×st1
+ω
t2
×st2
+ω
t3
×st3
+ω
t4
×st4
+ω
t5
×st5
+ω
t6
×st6
。
[0178]
其中，k
text
表示字幕得分，s
t1
表示图像二值化对应的得分，s
t2
表示噪声去除值对应的得分，s
t3
表示倾斜校正值对应的得分，s
t4
表示版面分析值对应的得分，s
t5
表示目标文字对应的得分，s
t6
表示上下文关系校验对应的得分，ω
t1
、ω
t2
、ω
t3
、ω
t4
、ω
t5
和ω
t6
均为大于
0，并且小于或等于1的常数，ω
t1
+ω
t2
+ω
t3
+ω
t4
+ω
t5
+ω
t6
＝1。
[0179]
在一种可实施的方式中，如图2所示，上述s16具体可通过下述方式实现。
[0180]
服务器02根据画面得分、语音得分和字幕得分，确定综合得分。其中，综合得分满足下述公式：
[0181]ktotal
＝ω
video
×kvideo
+ω
voice
×kvoice
+ω
text
×ktext
。
[0182]
其中，k
total
表示综合得分，k
video
表示画面得分，k
voice
表示语音得分，k
text
表示字幕得分，ω
video
、ω
voice
、ω
text
均为大于0，并且小于或等于1的常数，并且ω
video
+ω
voice
+ω
text
＝1。
[0183]
上述主要从方法的角度对本发明实施例提供的方案进行了介绍。为了实现上述功能，其包含了执行各个功能相应的硬件结构和/或软件模块。本领域技术人员应该很容易意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，本发明能够以硬件或硬件和计算机软件的结合形式来实现。某个功能究竟以硬件还是计算机软件驱动硬件的方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。
[0184]
本发明实施例可以根据上述方法示例对数据处理装置进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。
[0185]
如图4所示，为本发明实施例提供的一种服务器02的结构示意图。服务器02用于获取直播业务视频流；提取直播业务视频流中的目标画面组、语音数据和字幕数据；根据目标画面组中包含的第一特征集合，确定画面得分；根据语音数据中包含的第二特征集合，确定语音得分；根据字幕数据中包含的第三特征集合，确定字幕得分；根据画面得分、语音得分和字幕得分，确定综合得分；确定综合得分大于或等于目标得分时，生成告警信息。服务器02可以包括获取单元101和处理单元102。
[0186]
获取单元101，用于获取直播业务视频流。例如，结合图2，获取单元101可以用于执行s11。
[0187]
处理单元102，用于提取直播业务视频流中的目标画面组、语音数据和字幕数据；根据目标画面组中包含的第一特征集合，确定画面得分；根据语音数据中包含的第二特征集合，确定语音得分；根据字幕数据中包含的第三特征集合，确定字幕得分；根据画面得分、语音得分和字幕得分，确定综合得分；确定综合得分大于或等于目标得分时，生成告警信息。例如，结合图2，处理单元102可以用于执行s12、s13、s14、s15、s16和s17。结合图3，处理单元102可以用于执行s130、s131、s140、s141、s150和s151。
[0188]
其中，上述方法实施例涉及的各步骤的所有相关内容均可以援引到对应功能模块的功能描述，其作用在此不再赘述。
[0189]
当然，本发明实施例提供的服务器02包括但不限于上述模块，例如服务器02还可以包括存储单元103。存储单元103可以用于存储该写服务器02的程序代码，还可以用于存储写服务器02在运行过程中生成的数据，如写请求中的数据等。
[0190]
图5为本发明实施例提供的一种服务器02的结构示意图，如图5所示，该服务器02
可以包括：至少一个处理器51、存储器52、通信接口53和通信总线54。
[0191]
下面结合图5对服务器02的各个构成部件进行具体的介绍：
[0192]
其中，处理器51是服务器02的控制中心，可以是一个处理器，也可以是多个处理元件的统称。例如，处理器51是一个中央处理器(central processing unit，cpu)，也可以是特定集成电路(application specific integrated circuit，asic)，或者是被配置成实施本发明实施例的一个或多个集成电路，例如：一个或多个dsp，或，一个或者多个现场可编程门阵列(field programmable gate array，fpga)。
[0193]
在具体的实现中，作为一种实施例，处理器51可以包括一个或多个cpu，例如图5中所示的cpu0和cpu1。且，作为一种实施例，服务器02可以包括多个处理器，例如图5中所示的处理器51和处理器55。这些处理器中的每一个可以是一个单核处理器(single-cpu)，也可以是一个多核处理器(multi-cpu)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(例如计算机程序指令)的处理核。
[0194]
存储器52可以是只读存储器(read-only memory，rom)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，ram)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，eeprom)、只读光盘(compact disc read-only memory，cd-rom)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器52可以是独立存在，通过通信总线54与处理器51相连接。存储器52也可以和处理器51集成在一起。
[0195]
在具体的实现中，存储器52，用于存储本发明中的数据和执行本发明的软件程序。处理器51可以通过运行或执行存储在存储器52内的软件程序，以及调用存储在存储器52内的数据，执行空调器的各种功能。
[0196]
通信接口53，使用任何收发器一类的装置，用于与其他设备或通信网络通信，如无线接入网(radio access network，ran)，无线局域网(wireless local area networks，wlan)、终端、云端等。通信接口53可以包括接收单元实现接收功能，以及发送单元实现发送功能。
[0197]
通信总线54，可以是工业标准体系结构(industry standard architecture，isa)总线、外部设备互连(peripheral component interconnect，pci)总线或扩展工业标准体系结构(extended industry standard architecture，eisa)总线等。该总线可以分为地址总线、数据总线、控制总线等。为便于表示，图5中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。
[0198]
作为一个示例，结合图4，服务器02中的获取单元101实现的功能与图5中的通信接口53的功能相同，处理单元102实现的功能与图5中的处理器51的功能相同，存储单元103实现的功能与图5中的存储器52的功能相同。
[0199]
本发明另一实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有指令，当指令在计算机上运行时，使得计算机执行上述方法实施例所示的方法。
[0200]
在一些实施例中，所公开的方法可以实施为以机器可读格式被编码在计算机可读
存储介质上的或者被编码在其它非瞬时性介质或者制品上的计算机程序指令。
[0201]
图6示意性地示出本发明实施例提供的计算机程序产品的概念性局部视图，所述计算机程序产品包括用于在计算设备上执行计算机进程的计算机程序。
[0202]
在一个实施例中，计算机程序产品是使用信号承载介质410来提供的。所述信号承载介质410可以包括一个或多个程序指令，其当被一个或多个处理器运行时可以提供以上针对图2描述的功能或者部分功能。因此，例如，参考图2中所示的实施例，s11-s17的一个或多个特征可以由与信号承载介质410相关联的一个或多个指令来承担。此外，图6中的程序指令也描述示例指令。
[0203]
在一些示例中，信号承载介质410可以包含计算机可读介质411，诸如但不限于，硬盘驱动器、紧密盘(cd)、数字视频光盘(dvd)、数字磁带、存储器、只读存储记忆体(read-only memory，rom)或随机存储记忆体(random access memory，ram)等等。
[0204]
在一些实施方式中，信号承载介质410可以包含计算机可记录介质412，诸如但不限于，存储器、读/写(r/w)cd、r/w dvd、等等。
[0205]
在一些实施方式中，信号承载介质410可以包含通信介质413，诸如但不限于，数字和/或模拟通信介质(例如，光纤电缆、波导、有线通信链路、无线通信链路、等等)。
[0206]
信号承载介质410可以由无线形式的通信介质413(例如，遵守ieee 802.41标准或者其它传输协议的无线通信介质)来传达。一个或多个程序指令可以是，例如，计算机可执行指令或者逻辑实施指令。
[0207]
在一些示例中，诸如针对图2描述的写数据装置可以被配置为，响应于通过计算机可读介质411、计算机可记录介质412、和/或通信介质413中的一个或多个程序指令，提供各种操作、功能、或者动作。
[0208]
通过以上的实施方式的描述，所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。
[0209]
在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个装置，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0210]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是一个物理单元或多个物理单元，即可以位于一个地方，或者也可以分布到多个不同地方。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0211]
另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0212]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用
时，可以存储在一个可读取存储介质中。基于这样的理解，本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该软件产品存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。
[0213]
以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何在本发明揭露的技术范围内的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马少武文湘江刘千仞
技术所有人：中国联合网络通信集团有限公司
我是此专利的发明人

上一篇：尘盒组件、清洁机器人及其系统的制作方法
上一篇：一种装配式隔断墙玻璃连接件的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。