数据处理方法、装置、电子设备以及计算机可读存储介质与流程

文档序号:31579053发布日期:2022-09-21 00:17阅读:60来源:国知局
数据处理方法、装置、电子设备以及计算机可读存储介质与流程

1.本技术涉及数据处理技术领域,特别涉及一种数据处理方法、装置、电子设备以及计算机可读存储介质。


背景技术:

2.越来越多数据需要在质检之后投入下一阶段的使用。因此,数据质检的准确性尤为重要。如,日常客服系统中产生大量的语音数据,对这些语音数据进行智能质检,检测出客服通话中不规范内容,就可以很好的提高客服服务的质量及用户满意度,减少人工作业,同时也可以对客服人员进行考评,完善客服人员工作考评体系。基于此,如何保证高准确率的数据质检是数据质检领域中重点研究的问题之一。


技术实现要素:

3.本技术提供了数据处理方法、装置、电子设备以及计算机可读存储介质,能够提高待质检数据预测结果的准确性。
4.一方面,本技术采用的一种数据处理方法,该方法包括:
5.获取n个待质检数据,n为正整数且大于或等于二;将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果;基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布;若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据,并对m个待质检数据的预测结果进行修正;其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。
6.一方面,本技术提供一种数据处理装置,该数据处理装置包括:
7.获取单元,用于获取n个待质检数据,n为正整数且大于或等于二;
8.预测单元,用于将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果;
9.确定单元,用于基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布;
10.确定单元,还用于若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据;修正单元,用于对m个待质检数据的预测结果进行修正;其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。
11.一方面,本技术提供一种电子设备,该电子设备包括处理器以及与处理器耦接的计算机存储介质,计算机存储介质中存储有计算机程序,处理器用于执行计算机程序以实现如上述数据处理方法。
12.一方面,本技术提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,计算机程序在被处理器执行时,实现如上述技术方案提供的数据处理方法。
13.本技术实施例的有益效果是:区别于现有技术,本技术提供的数据处理方法、装置、电子设备以及计算机可读存储介质,该方法利用基于样本数据集中各个样本数据对应的类别标签统计确定的先验类别分布作为判断依据,确定出经过质检模型进行类别预测的预测结果不满足先验类别分布的待质检数据,并对不满足先验类别分布的待质检数据的预测结果进行修正,使得修正后的待质检数据的预测结果满足先验类别分布,能够提高待质检数据预测结果的准确性。
附图说明
14.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
15.图1是本技术提供的数据处理方法一应用场景示意图;
16.图2是本技术提供的数据处理方法第一实施例的流程示意图;
17.图3是本技术提供的数据处理方法另一应用场景示意图;
18.图4是本技术提供的数据处理方法第二实施例的流程示意图;
19.图5是本技术提供的数据处理方法另一应用场景示意图;
20.图6是本技术提供的数据处理装置一实施例的结构示意图;
21.图7是本技术提供的电子设备一实施例的流程示意图。
具体实施方式
22.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。可以理解的是,此处所描述的具体实施例仅用于解释本技术,而非对本技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部结构。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
23.在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
24.随着互联网信息技术在金融领域的应用越来越深,各企业在创新力度上的不断加强,时长竞争也在变得越来越激烈,在这种激烈的时长竞争中,用户服务已经越来越成为体现竞争差异、提升公司形象、增加用户满意度的重要举措,因此对客服体系服务质量的管理和控制已经成为企业经营管理者日常的重要工作,而智能语音质检就是其中的主要组成部分。日常客服系统中产生大量的语音数据,如果能很好的利用好这些数据,依据规范要求,开展智能质检工作,检测出客服通话中不规范的点,就可以很好的提高客服服务的质量以及用户满意度,减少人工作业,同时也可以对客服人员进行考评,完善客服人员工作考评体系。
25.在一个实施例中,本技术在对待质检数据进行质检时,尤其是语音数据进行质检
时,发现目前人工智能在语音数据处理中使用比较广泛,所以本技术可以基于人工智能技术设计了一种数据处理方案,主要是通过训练质检模型,调用设计好的质检模型对待质检的数据进行质检。大致流程可以概括为如下几个阶段:线上数据拉取、数据预处理、数据标注、数据分析、模型训练、模型上线、线上badcase收集、模型迭代。可见,从模型上线到下一个模型版本迭代需要依赖线上badcase数据集手机然后重新训练模型再上线。这种数据质质检方式,虽然能够在一定程度上达到较高的质检准确性,但是耗时会较长,且依赖上线后的badcase数据收集和处理。
26.在另一个实施例中,本技术提出了另一种数据处理方案,该种数据处理方案采用一种质检模型后处理的技巧来提高质检准确性,几乎不需要额外的成本增加,即可有一定的效果提升。该数据处理方案的思想非常朴素,就是利用数据分布的先验知识来对质检模型的预测结果进行优化。假设有一个二分类问题,二个类别分别可以用1和0表示,质检模型对于输入a给出的预测结果是p(a)=[0.01,0.99],假设该预测结果对应的预测类别为1;接下来,对于输入b,质检模型给出的预测结果是p(b)=[0.5,0.5],这时候处于最不确定的状态,质检模型也不确定输出哪个类别好。但是,提前让质检模型知悉两点先验知识:1、类别必然是0或1其中之一;2、两个类别的出现概率各为0.5。在这两点先验知识之下,由于前一个输入a样本预测结果为1,那么基于朴素的均匀思想,更倾向于将后一个输入b样本的类别预测为0,以得到一个满足第二点先验的预测结果。
[0027]
进一步延伸,假设已经知道数据的类别比例(即先验知识),则质检模型在对数据进行预测得到的预测结果的类别比例也应该与先验知识的类别比例非常接近。如果相差很大的话,那可间接的说明质检模型预测的效果不好,会对一些数据的类别预测错误。则可以基于先验知识把这些预测错误的数据找出来进行修正。
[0028]
通过对本技术提出的上述两种数据处理方案对比可见,后一种数据处理方案相比于前一种数据处理方案,无需重复的进行模型迭代和模型上线,可以节省时间。因此,本技术下面的实施例中重点介绍后一种数据处理方案。
[0029]
后一种数据处理方案具体概括为:
[0030]
获取n个待质检数据,n为正整数且大于或等于二;将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果;基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布;若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据,并对m个待质检数据的预测结果进行修正;其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。
[0031]
后一种数据处理方案利用基于样本数据集中各个样本数据对应的类别标签统计确定的先验类别分布作为判断依据,确定出经过质检模型进行类别预测的预测结果不满足先验类别分布的待质检数据,并对不满足先验类别分布的待质检数据的预测结果进行修正,使得修正后的待质检数据的预测结果满足先验类别分布,能够提高待质检数据预测结果的准确性。进一步,后一种数据处理方案无需重复的进行模型迭代和模型上线,可以节省时间。
[0032]
本技术的数据处理方案可由电子设备执行,该电子设备可以是终端设备,比如智能手机、平板电脑、笔记本电脑、台式计算机、智能语音交互设备、智能家电、智能手表、车载
终端、飞行器等;或者,电子设备还可以包括服务器,比如独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云计算服务的云服务器。
[0033]
上述的数据处理方案可以主要应用对客服系统中客服与用户的对话数据进行语音质检。参见图1,为本技术实施例提供的一种应用场景图,在图1中,对话框中是客服与用户之间的对话数据。其中,对话数据可以是语音数据,也可以是文字数据。然后定期拉取对话数据;然后采用本技术的数据处理方案调用质检模型对对话数据进行质检,得到这些对话数据对应的预测质检结果;基于这些预测质检结果确定这些对话数据对应的预测类别分布;若预测类别分布不满足先验类别分布,则基于这些对话数据对应的预测质检结果,从中确定若干个对话数据,并对若干个对话数据的预测质检结果进行修正,得到最终的质检结果。然后给客服人员输出质检结果指示;如果是好的结果不用管,如果是不好的结果,客服需要调整话术。
[0034]
基于上述的数据处理方案,本技术实施例提供了一种数据处理方法,参阅图2,是本技术提供的一种数据处理方法的流程示意图。图2所述的数据处理方法可由电子设备执行,具体可由电子设备的处理器执行,图2所示的数据处理方法包括如下步骤:
[0035]
步骤21:获取n个待质检数据,n为正整数且大于或等于二。
[0036]
在一些实施例中,待质检数据可以是语音数据、图像数据、文本数据等。
[0037]
其中,待质检数据可以基于不同的场景获得。如,图像数据可以来源于监控场景中监控设备。语音数据可以来源于客服与用户的对话。文本数据可以来源与客服与用户的文字交流。
[0038]
步骤22:将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果。
[0039]
其中,质检模型可以是基于卷积神经网络、反卷积神经网络、深度卷积逆向图网络、生成式对抗网络以及循环神经网络等构成的。
[0040]
顾名思义,质检模型是对待质检数据进行质检检测的。对待质检数据进行质量检测可以是指预先为该种类型的待质检数据设置几种类别,然后调用质检模型预测待质检数据所属的类别。比如,如果待质检的数据是来自客服系统的客服与客户的对话数据,那么预先为该种类型的待质检数据设置了的类别为合格的对话数据、不合格的对话数据,或者;包括关键词的对话数据以及不包括关键词的对话数据,再或者,包括正向情况的对话数据,包括负向情绪的对话数据;再如,如果待质检的数据是图像数据,那么预先为该种类型的待质检数据设置的类别可以为:包含目标对象的图像数据、不包含目标对象的图像数据。
[0041]
可选的,如果预先为待质检数据设置了w个类别,那么通过质检模型预测到每个待质检数据的预测结果中包括了每个待质检数据属于w个类别中每个类别的概率值。举例来说,假设待质检数据为对话数据,预先设置的类别为包括正向情绪的对话数据,以及包括负向情绪的对话数据,假设包括正向情绪的对话数据这一类别采用1表示,包括负向情绪的对话数据这一类别采用0表示。将待质检数据输入至质检模型中,输出的预设结果为该待质检数据为1的概率值,以及该待质检数据为0的概率值。
[0042]
其中,质检模型是基于样本数据集中具有类别标签的各个样本数据训练得到的。如,在图像识别领域,样本数据是具有类别标签的图像数据。在语音质检领域,样本数据可以是具有类别标签的语音对话数据。在文本质检领域,样本数据可以是具有类别标签的文
本数据。
[0043]
在一些实施例中,多个待质检数据和样本数据可以是按照相同时间周期,不同时间,从同一服务器中获取的。发明人研究发现,相同时间周期内产生的数据是会遵从相应的规律的。如符合正态分布、正面数据和负面数据的比值基本相同。因此,两种数据是具备后续的可比性的。
[0044]
步骤23:基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布。
[0045]
经过步骤22的质检模型预测,得到每个待质检数据对应的预测结果,每个待质检数据的预测结果中包括了每个待质检数据属于w个类别中每个类别的概论值,基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布,首先需要基于每个待质检数据对应的预测结果确定每个待质检数据对应的预测类别。其中,w为正整数且大于或等于二
[0046]
具体实现中,基于每个待质检数据对应的预测结果确定每个待质检数据对应的预测类别,包括:将每个待质检数据对应的预测结果中概率值最大的类别确定为每个待质检数据对应的预测类别。比如,w等于2,即待质检数据对应2个类别,将这两个类别定义为第一类别和第二类别。待质检数据a对应的第一类别的概率值为90%,对应的第二类别的概率值为10%,则第一类别被确定为待质检数据a对应的预测类别。
[0047]
又比如,w等于3,即待质检数据对应3个类别,将这两个类别定义为第一类别、第二类别和第三类别。待质检数据b对应的第一类别的概率值为70%,对应的第二类别的概率值为10%,对应的第三类别的概率值为20%,则第一类别被确定为待质检数据b对应的预测类别。
[0048]
在得到每个待质检数据对应的预测类别之后,可以基于每个待质检数据对应的预测类别统计n个待质检数据服从的预测类别分布。在一些实施例中,预测类别分布可以用类别比例表示。
[0049]
具体地,统计属于w个类别中每个类别的待质检数据的数量,然后基于每个类别下待质检数据的数量统计n个待质检数据的预测类别分布。举例来说,假设w等于2,即待质检数据对应2个类别,将这两个类别定义为第一类别和第二类别。统计每一类别对应的待质检数据的数量。即第一类别对应第一数量,第二类别对应第二数量。其中,第一数量和第二数量之和等于n。由此,可以确定出每一类别的待质检数据对应的数量占比。
[0050]
在w等于3时,即待质检数据对应3个类别,将这三个类别定义为第一类别、第二类别和第三类别。假设第一类别下待质检数据的数量为第一数量,第二类别下待质检数据的数量为第二数量、第三类别下待质检数据的数量为第三数量。其中,第一数量、第二数量和第三数量之和等于n。由此,可以确定出每一类别对应的待质检数据的数量占比。
[0051]
步骤24:若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据。
[0052]
其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。可选的,可以通过对样本数据集进行t次数据采样处理,得到t个样本子集;统计每个样本子集中每个类别下样本数据的数量;基于每个样本子集中每个类别下样本数据的数量,确定每次数据采样处理对应的类别比例;根据每次数据采样数据
处理对应的类别比例,确定先验类别分布。
[0053]
可选的,每个样本子集包括训练子集和测试子集。对样本数据集进行t次数据采样处理,得到t个样本子集,包括:确定每次数据采样处理时训练子集测试子集之间样本数据的数量比例。基于数量比例,对样本数据集进行数据采样,分别得到t个训练子集和t个测试子集。通常训练子集中的样本数据的数量大于测试子集中的样本数据的数量。如,训练子集和测试子集之间样本数据的数量比例为9:1、8:1或者7:1。
[0054]
由此,按照每次确定的数量比例,对样本数据集进行数据采样,得到相应的训练子集和测试子集。在采样t次后,则会得到t个样本子集。
[0055]
进一步,可以利用训练子集中的样本数据和测试子集中的样本数据对质检模型进行训练。具体地,利用训练子集中的样本数据对质检模型进行训练,然后利用测试子集中的样本数据对质检模型进行测试,以确定质检模型的精度。
[0056]
在一些实施例中,样本数据的类别包括第一类别c1和第二类别c2。则第一类别c1的类别比例可以是c1/(c1+c2),第二类别c2的类别比例可以是c2/(c1+c2)。其中,c1表示第一类别c1的数量,c2表示第二类别c2的数量。
[0057]
在一些实施例中,样本数据的类别包括第一类别c1、第二类别c2和第三类别c3。第一类别c1的类别比例可以是c1/(c1+c2+c3),第二类别c2的类别比例可以是c2/(c1+c2+c3),第三类别c3的类别比例可以是c3/(c1+c2+c3)。其中,c3表示第三类别c3的数量。
[0058]
即每一类别对应一类别比例,这些类别比例之和为1。
[0059]
在一些实施例中,先验类别分布可以由一概率区间表示。可选的,根据每次数据采样数据处理对应的类别比例,确定先验类别分布,包括:根据每次数据采样处理对应的类别比例,统计t次数据采样处理对应的均值和方差;对均值和方差进行加权求差运算,并将加权求差后的运算结果作为概率区间的最小值,以及对均值和方差进行加权求和运算,并将加权求和后的运算结果作为概率区间的最大值。
[0060]
其中,可以采用以下公式确定出均值:
[0061][0062]
其中,可以采用以下公式确定出方差:
[0063][0064]
其中,t表示每一类别对应的类别比例的数量,xi表示第i个类别比例,μ表示均值,σ表示方差。
[0065]
在待质检数据对应有第一类别和第二类别时,则经过统计t次数据采样,会得到t个第一类别对应的类别比例和t个第二类别对应的类别比例。由此,第一类别会对应一均值和方差,第二类别也会对应一均值和方差。
[0066]
在待质检数据对应有第一类别、第二类别和第三类别时,则经过统计t次数据采样,会得到t个第一类别对应的类别比例、t个第二类别对应的类别比例以及t个第三类别对应的类别比例。由此,第一类别会对应一均值和方差,第二类别也会对应一均值和方差,第三类别也会对应一均值和方差。
[0067]
然后对均值和方差进行加权求差运算,并将加权求差后的运算结果作为概率区间的最小值,以及对均值和方差进行加权求和运算,并将加权求和后的运算结果作为概率区间的最大值。
[0068]
在一些实施例中,均值和方差的权重可以按照实际需求设置,如,均值的权重设置为1,方差的权重设置为3。对均值和方差进行加权求差运算,得到的运算结果为μ-3σ,对均值和方差进行加权求和运算,得到的运算结果为μ+3σ。即,先验类别分布可以表示为[μ-3σ,μ+3σ]。
[0069]
若预测类别分布在概率区间范围内,说明预测类别分布满足先验类别分布。
[0070]
若预测类别分布不在概率区间范围内,说明预测类别分布不满足先验类别分布。即可以确定出n个待质检数据的预测结果存在错误,则需要找出预测结果错误的待质检数据。
[0071]
在一些实施例中,可以利用预测类别分布和所述先验类别分布,确定出差异值;利用差异值和待质检数据的数量n,确定出预测结果异常的待质检数据的数量m;从n个待质检数据中确定m个待质检数据。
[0072]
步骤25:对m个待质检数据的预测结果进行修正。
[0073]
在w等于2时,即待质检数据对应2个类别,将这两个类别定义为第一类别和第二类别。如果确定出m个待质检数据中预测结果属于第一类别的待质检数据,那么对m个待质检数据的预测结果进行修改可以是将m个待质检数据中,预测结果属于第一类别的待质检数据的预测结果修改为第二类别;以及将预测结果为第二类别的质检数据,预测结果修改为第一类别。
[0074]
在w等于3时,即待质检数据对应3个类别,将这两个类别定义为第一类别、第二类别和第二类别。确定出m个待质检数据中预测结果属于第一类别的待质检数据,确定出m个待质检数据中预测结果属于第二类别的待质检数据,确定出m个待质检数据中预测结果属于第三类别的待质检数据。
[0075]
其中,在预测过程中,待质检数据对应每一类别均存在一概率值,会将最大概率值对应的类别作为预测结果。即待质检数据对应第一类别、第二类别和第二类别均存在一概率值。在确定出m个待质检数据中预测结果属于第一类别的待质检数据、属于第二类别的待质检数据、属于第三类别的待质检数据后,确定每一待质检数据对应的第二大概率值的类别。将m个待质检数据的预测结果修改为第二大概率值的类别。
[0076]
在本实施例中,利用基于样本数据集中各个样本数据对应的类别标签统计确定的先验类别分布作为判断依据,确定出经过质检模型进行类别预测的预测结果不满足先验类别分布的待质检数据,并对不满足先验类别分布的待质检数据的预测结果进行修正,一方面能够改善质检模型因训练精度问题造成的异常预测,不需要对质检模型重新进行训练,减少对质检模型的训练成本,另一方面,对不满足先验类别分布的待质检数据的预测结果进行修正,能够提高待质检数据预测结果的准确性。
[0077]
在一应用场景中,结合图3进行说明:
[0078]
步骤301:线上数据拉取。
[0079]
在步骤301中,随机从线上拉取数据,确保拉取的数据与线上真实的数据分布一致。在语音质检场景中,可以拉取客服和用户之间的语音对话数据。这里的线上指的是产生
数据的系统。如,语音数据由客服系统产生。
[0080]
步骤302:数据标注。
[0081]
可以采用人工标注的方式对拉取的数据进行标注,以确定出每一数据对应的类别。如,按照业务逻辑及设定的标注格式对线上获取的数据进行标注。
[0082]
步骤303:划分训练子集和测试子集。
[0083]
把标注好的数据,随机打乱,然后按照一定比例进行训练子集、测试子集的划分。
[0084]
步骤304:统计类别比例。
[0085]
分别统计训练子集和测试子集中每一类别的数据的数量,并计算出对应的类别比例。
[0086]
步骤305:计算每一类别对应的均值和方差。
[0087]
重复t次步骤303和步骤304,则每一类别对应t个类别比例。可以基于t个类别比例计算出每一类别对应的均值和方差。
[0088]
步骤306:质检模型训练。
[0089]
利用标注好的数据对质检模型进行迭代训练。其中,可以利用划分的训练子集和测试子集对质检模型进行迭代训练。
[0090]
步骤307:模型测试。
[0091]
利用训练好的质检模型对测试子集中的数据进行预测。
[0092]
步骤308:预测结果的类别比例计算。
[0093]
根据步骤307的预测结果确定出类别比例。
[0094]
步骤309:比对。
[0095]
在步骤305计算出每一类别对应的均值和方差后,基于均值和方差确定出每一类别的先验类别分布。
[0096]
若预测结果中的每一类别的类别比例不满足其对应的先验类别分布,则执行步骤310。若预测结果中的每一类别的类别比例满足其对应的先验类别分布,则确定预测正常。
[0097]
步骤310:确定预测结果异常的数据。
[0098]
其中,可以根据预测结果中的每一类别对应的概率值确定出数据对应的熵,根据熵确定出预测结果异常的数据。具体地可以参阅上述任一实施例,这里不做赘述。
[0099]
在一些实施例中,因是根据类别比例确定出预测结果异常的数据。若在第一类别对应的数据确定出m个预测结果异常的数据,则第二类别对应的数据中也会存在m个预测结果异常的数据。则需要从第二类别中确定出预测结果异常的数据。即,当多个类别中的一个类别中的数据的预测结果异常,则其余类别中同样会出现预测结果异常的数据。
[0100]
步骤311:修正。
[0101]
将预测结果异常的数据的预测结果进行修正。
[0102]
在一应用场景中,数据可以对应的类别为第一类别和第二类别。预测结果异常的数据对应第一类别,则将该数据的预测结果修改为第二类别。
[0103]
同理,若从第一类别中确定出预测结果异常的数据,则对应第二类别的数据中也存在预测结果异常的数据。这些数据也需要修正预测结果。
[0104]
在另一应用场景中,数据可以对应的类别为第一类别、第二类别和第三类别。预测结果异常的数据对应第一类别,则确定出该数据对应第二类别的概率值和第三类别的概率
值。确定出第二类别的概率值和第三类别的概率值之间的较大者。将预测结果异常的数据对应的第一类别修改为较大者对应的类别。如,第二类别的概率值较大,则将预测结果异常的数据的预测结果修改为第二类别。
[0105]
同理,若从第一类别中确定出预测结果异常的数据,则对应第二类别的数据以及第三类别的数据中也存在预测结果异常的数据。这些数据也需要修正预测结果。
[0106]
在其他实施例中,可以采用人工修正的方式,具体可以参阅其余任一实施例中的描述,这里不做赘述。
[0107]
参阅图4,图4是本技术提供的数据处理方法第二实施例的流程示意图。该方法包括:
[0108]
步骤41:获取n个待质检数据,n为正整数且大于等于二。
[0109]
步骤42:将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果。
[0110]
步骤41-步骤42与上述任一实施例具有相同或相似的技术方案,这里不做赘述。
[0111]
步骤43:将每个待质检数据对应的预测结果中概率值最大的类别确定为每个待质检数据对应的预测类别。
[0112]
在本实施例中,每个待质检数据对应的预测结果包括每个待质检数据属于w个类别中每个类别的概率值。
[0113]
由此,可以将每个待质检数据对应的预测结果中概率值最大的类别确定为每个待质检数据对应的预测类别。
[0114]
步骤44:根据每个待质检数据对应的预测类别,统计属于每个类别下的待质检数据的数量,得到n个待质检数据对应的预测类别分布。
[0115]
在一些实施例中,在w等于2时,即待质检数据对应2个类别,将这两个类别定义为第一类别和第二类别。
[0116]
经过步骤42-步骤43的质检模型预测以及预测类别的确定,每一待质检数据对应一个类别。由此,统计每一类别对应的待质检数据的数量。即第一类别对应第一数量,第二类别对应第二数量。其中,第一数量和第二数量之和等于n。由此,可以确定出每一类别的待质检数据对应的数量占比。
[0117]
在w等于3时,即待质检数据对应3个类别,将这两个类别定义为第一类别、第二类别和第三类别。
[0118]
经过步骤42-步骤43的质检模型预测以及预测类别的确定,每一待质检数据对应一个类别。由此,统计每一类别对应的待质检数据的数量。即第一类别对应第一数量,第二类别对应第二数量、第三类别对应第三数量。其中,第一数量、第二数量和第三数量之和等于n。由此,可以确定出每一类别对应的待质检数据的数量占比。
[0119]
步骤45:若预测类别分布不满足先验类别分布,则利用预测类别分布和先验类别分布,确定出差异值。
[0120]
其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的。
[0121]
在一些实施例中,可以利用预测类别分布可以用每一类别比例表示,先验类别分布可以用每一类别比例的概率区间表示,进而可以利用每一类别比例和每一类别比例的概
率区间确定出差异值。
[0122]
如果每一类别比例大于每一类别比例的概率区间中的最大值,则利用每一类别比例减去每一类别比例的概率区间中的最大值,得到相应的差异值。
[0123]
如果每一类别比例小于每一类别比例的概率区间中的最小值,则利用每一类别比例的概率区间中的最小值减去每一类别比例,得到相应的差异值。
[0124]
具体地,可以采用以下公式表示:
[0125][0126]
其中,δ表示差异,y表示每一类别比例,μ-3σ表示每一类别比例的概率区间中的最大值,(μ-3σ)表示每一类别比例的概率区间中的最小值。
[0127]
步骤46:利用差异值和待质检数据的数量n,确定出预测结果异常的待质检数据的数量m。
[0128]
其中,m为正整数,m小于或等于n。
[0129]
然后根据差异值确定预测结果异常的待质检数据的数量m。如,利用差异值乘以待质检数据的数量n,得到预测结果异常的待质检数据的数量m。
[0130]
可以理解,因每一类别比例和每一类别比例的概率区间中的数值均是小于1的,则差异值也为小数,则预测结果异常的待质检数据的数量m会小于待质检数据的数量n。
[0131]
步骤47:从n个待质检数据中确定m个待质检数据。
[0132]
在一些实施例中,步骤47包括:利用每个待质检数据对应的预测结果中每个类别对应的概率值,确定每个待质检数据对应的熵。根据每个待质检数据对应的熵,从n个待质检数据中确定出m个待质检数据。
[0133]
比如,在质检模型预测过程中,会预测出每一待质检数据对应的每一类别的概率值,然后根据概率值的大小,最终确定出对应的标签类别。具体地,可以采用以下公式确定每个待质检数据对应的熵:
[0134][0135]
其中,h(x)表示熵,p(xi)表示xi的概率值,这里指质检模型预测出的各个类别的概率值,m这里表示类别数,xi表示第i个待质检数据。
[0136]
在确定出n个待质检数据对应的熵后,对这些熵进行排序,如从大到小或者从小到大。
[0137]
在对这些熵按照从大到小进行排序时,则从前到后获取m个熵,进而确定出这些熵对应的待质检数据。这些待质检数据则为预测结果异常的待质检数据。
[0138]
在对这些熵按照从小到大进行排序时,则从后到前获取m个熵,进而确定出这些熵对应的待质检数据。这些待标注样本则为预测结果异常的待质检数据。
[0139]
步骤48:对m个待质检数据的预测结果进行修正。
[0140]
在一些实施例中,步骤48可以通过人工修改的方式对m个待质检数据的预测结果进行修正。如,显示修改界面,其中,修改界面显示m个待质检数据以及m个待质检数据的预测结果;接收对m个待质检数据中任意待质检数据的修正信息,利用修正信息对任意待质检数据的预测结果进行修正。
[0141]
结合图5进行说明:
[0142]
如图5所示,修改界面显示了待质检数据a、待质检数据b和待质检数据c,以及对应的预测结果。每一待质检数据对应一修改按钮。
[0143]
在选择修改按钮后,可以弹出输入栏或选择栏。若弹出输入栏,则接收用户输入的修正信息,利用修正信息对任意待质检数据的预测结果进行修正。如,将待质检数据a的第一类别修改为第二类别。
[0144]
若弹出选择栏,则可以在选择栏内显示每一可供选择的类别。接收用户选择的类别。利用被选择的类别对任意待质检数据的预测结果进行修正。如,将待质检数据b的第二类别修改为第一类别。
[0145]
在本实施例中,利用基于样本数据集中各个样本数据对应的类别标签统计确定的先验类别分布作为判断依据,确定出经过质检模型进行类别预测的预测结果不满足先验类别分布的待质检数据,并对不满足先验类别分布的待质检数据的预测结果进行修正,一方面能够改善质检模型因训练精度问题造成的异常预测,不需要对质检模型重新进行训练,减少对质检模型的训练成本,另一方面,对不满足先验类别分布的待质检数据的预测结果进行修正,能够提高待质检数据预测结果的准确性。
[0146]
进一步,通过统计属于每个类别下的待质检数据的数量,得到n个待质检数据对应的预测类别分布,能够确定出待质检数据在每一类别下的数量,进而精确的得到n个待质检数据对应的预测类别分布,便于确定出后续的预测类别分布不满足先验类别分布的待质检数据。
[0147]
另外,本技术上述任一实施例的方法不仅能够用于对数据质检,还可以用于其他领域中,比如数据标注,在数据标注领域,待质检数据即为待标注数据,在质检模型预测出的待标注数据的预测类别后,确定出预测异常的待标注数据,并对其预测结果进行修正,进而将修正后的预测类别作为待标注数据的标签。以及未修正的预测类别作为未修正的待标注数据的标签。通过这种方式,一方面,利用网络模型的预测结果作为标注的标签,能够提高标注效率,另一方面,通过对异常标注的待标注样本的标签进行修改,能够改善网络模型因训练精度问题造成的异常预测,进而提高标注的准确性。
[0148]
在一应用场景中,随机从线上获取10000条数据,进行标注,假设正负比例为3:1,如此独立重复n次,计算出每组的正负样本比例[x1,x2,

,xn],这一数据服从正态分布,然后求出均值假设为3.01,方差为0.05,则可知类别比例主要分布在[2.86,3.16]范围内,然后用训练出的模型对待标注样本进行预测,则预测结果理论上类别比例应该在[2.86,3.16]范围内,若超过这一范围,这说明模型预测存在误差,则需要修正,假设预测后的类别比例为3.2,则可知预测结果中有1000*(3.2-3.16)=40条数据存在误差,然后对根据预测结果的概率值,采用计算熵的方式,筛选出top40的数据,然后进行修正。
[0149]
参阅图6,图6是本技术提供的数据处理装置一实施例的结构示意图。该数据处理装置60包括:获取单元61、预测单元62、确定单元63和修正单元64。
[0150]
其中,获取单元61用于获取n个待质检数据,n为正整数且大于等于二。
[0151]
预测单元62用于将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果。
[0152]
确定单元63用于基于每个待质检数据对应的预测结果确定n个待质检数据对应的
预测类别分布;以及若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据。
[0153]
修正单元64用于对m个待质检数据的预测结果进行修正;其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。
[0154]
在一个实施例中,所述每个待质检数据对应的预测结果包括所述每个待质检数据属于w个类别中每个类别的概率值;所述确定单元63在基于所述每个待质检数据对应的预测结果确定所述n个待质检数据对应的预测类别分布时,执行如下步骤:
[0155]
将所述每个待质检数据对应的预测结果中概率值最大的类别确定为所述每个待质检数据对应的预测类别;
[0156]
根据所述每个待质检数据对应的预测类别,统计属于每个类别下的待质检数据的数量,得到所述n个待质检数据对应的预测类别分布。
[0157]
在一个实施例中,所述确定单元63在基于所述每个待质检数据对应的预测结果,从所述n个待质检数据中确定m个待质检数据时,执行如下步骤:
[0158]
利用所述预测类别分布和所述先验类别分布,确定出差异值;
[0159]
利用所述差异值和待质检数据的数量n,确定出预测结果异常的待质检数据的数量m;
[0160]
从所述n个待质检数据中确定m个待质检数据。
[0161]
在一个实施例中,所述确定单元63在从所述n个待质检数据中确定m个待质检数时,执行如下步骤:
[0162]
利用所述每个待质检数据对应的预测结果中每个类别对应的概率值,确定所述每个待质检数据对应的熵;
[0163]
根据所述每个待质检数据对应的熵,从所述n个待质检数据中确定出m个待质检数据。
[0164]
在一个实施例中,数据处理装置还包括处理单元65,处理单元65用于:
[0165]
对所述样本数据集进行t次数据采样处理,得到t个样本子集;
[0166]
统计每个样本子集中每个类别下样本数据的数量;
[0167]
基于每个样本子集中每个类别下样本数据的数量,确定每次数据采样处理对应的类别比例;
[0168]
根据每次数据采样数据处理对应的类别比例,确定先验类别分布。
[0169]
在一个实施例中,每个样本子集包括训练子集和测试子集,所述处理单元65在对所述样本数据集进行t次数据采样,得到t个样本子集时,执行如下步骤:
[0170]
确定每次数据采样处理时训练子集测试子集之间样本数据的数量比例;
[0171]
基于所述数量比例,对所述样本数据集进行数据采样,分别得到t个训练子集和t个测试子集。
[0172]
在一个实施例中,所述先验类别分布由概率区间表示,所述确定单元63在根据每次数据采样数据处理对应的类别比例,确定先验类别分布时,执行如下步骤:
[0173]
根据所述每次数据采样处理对应的类别比例,统计t次数据采样处理对应的均值和方差;
[0174]
对所述均值和方差进行加权求差运算,并将加权求差后的运算结果作为概率区间
的最小值,以及对所述均值和方差进行加权求和运算,并将加权求和后的运算结果作为概率区间的最大值。
[0175]
在一个实施例中,修改单元64在对所述m个待质检数据的预测结果进行修正时,执行如下步骤:
[0176]
显示修改界面,其中,所述修改界面显示所述m个待质检数据以及所述m个待质检数据的预测结果;
[0177]
接收对所述m个待质检数据中任意待质检数据的修正信息,利用所述修正信息对所述任意待质检数据的预测结果进行修正。
[0178]
本技术提供的数据处理装置基于样本数据集中各个样本数据对应的类别标签统计确定的先验类别分布作为判断依据,确定出经过质检模型进行类别预测的预测结果不满足先验类别分布的待质检数据,并对不满足先验类别分布的待质检数据的预测结果进行修正,使得修正后的待质检数据的预测结果满足先验类别分布,能够提高待质检数据预测结果的准确性。
[0179]
参阅图7,图7是本技术提供的电子设备一实施例的结构示意图。该电子设备70包括处理器71、输入接口72、输出接口73以及计算机存储介质74。其中,处理器71分别与输入接口72、输出接口73以及计算机存储介质74耦接。输入接口72可以与外部设备相连,用于接收外部设备输入的数据。输出接口73可以与外部设备相连,用于向外部设备输出数据。
[0180]
其中,计算机存储介质74中存储有计算机程序,处理器71用于执行计算机程序以实现以下方法:
[0181]
获取n个待质检数据,n为正整数且大于等于二;将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果;基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布;若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据,并对m个待质检数据的预测结果进行修正;其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。
[0182]
本技术还提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机程序,计算机程序在被处理器71执行时,实现以下方法:
[0183]
获取n个待质检数据,n为正整数且大于等于二;将n个待质检数据输入至质检模型进行类别预测,得到每个待质检数据对应的预测结果;基于每个待质检数据对应的预测结果确定n个待质检数据对应的预测类别分布;若预测类别分布不满足先验类别分布,则基于每个待质检数据对应的预测结果,从n个待质检数据中确定m个待质检数据,并对m个待质检数据的预测结果进行修正;其中,先验类别分布是基于样本数据集中各个样本数据对应的类别标签统计确定的,m为正整数,m小于或等于n。
[0184]
在一个实施例中,所述每个待质检数据对应的预测结果包括所述每个待质检数据属于w个类别中每个类别的概率值;所述处理器71在基于所述每个待质检数据对应的预测结果确定所述n个待质检数据对应的预测类别分布时,执行如下步骤:
[0185]
将所述每个待质检数据对应的预测结果中概率值最大的类别确定为所述每个待质检数据对应的预测类别;
[0186]
根据所述每个待质检数据对应的预测类别,统计属于每个类别下的待质检数据的
数量,得到所述n个待质检数据对应的预测类别分布。
[0187]
在一个实施例中,所述处理器71在基于所述每个待质检数据对应的预测结果,从所述n个待质检数据中确定m个待质检数据时,执行如下步骤:
[0188]
利用所述预测类别分布和所述先验类别分布,确定出差异值;
[0189]
利用所述差异值和待质检数据的数量n,确定出预测结果异常的待质检数据的数量m;
[0190]
从所述n个待质检数据中确定m个待质检数据。
[0191]
在一个实施例中,所述处理器71在从所述n个待质检数据中确定m个待质检数时,执行如下步骤:
[0192]
利用所述每个待质检数据对应的预测结果中每个类别对应的概率值,确定所述每个待质检数据对应的熵;
[0193]
根据所述每个待质检数据对应的熵,从所述n个待质检数据中确定出m个待质检数据。
[0194]
在一个实施例中,处理器71还用于:
[0195]
对所述样本数据集进行t次数据采样处理,得到t个样本子集;
[0196]
统计每个样本子集中每个类别下样本数据的数量;
[0197]
基于每个样本子集中每个类别下样本数据的数量,确定每次数据采样处理对应的类别比例;
[0198]
根据每次数据采样数据处理对应的类别比例,确定先验类别分布。
[0199]
在一个实施例中,每个样本子集包括训练子集和测试子集,所述处理器71在对所述样本数据集进行t次数据采样,得到t个样本子集时,执行如下步骤:
[0200]
确定每次数据采样处理时训练子集测试子集之间样本数据的数量比例;
[0201]
基于所述数量比例,对所述样本数据集进行数据采样,分别得到t个训练子集和t个测试子集。
[0202]
在一个实施例中,所述先验类别分布由概率区间表示,所述处理器71在根据每次数据采样数据处理对应的类别比例,确定先验类别分布时,执行如下步骤:
[0203]
根据所述每次数据采样处理对应的类别比例,统计t次数据采样处理对应的均值和方差;
[0204]
对所述均值和方差进行加权求差运算,并将加权求差后的运算结果作为概率区间的最小值,以及对所述均值和方差进行加权求和运算,并将加权求和后的运算结果作为概率区间的最大值。
[0205]
在一个实施例中,处理器71在对所述m个待质检数据的预测结果进行修正时,执行如下步骤:
[0206]
显示修改界面,其中,所述修改界面显示所述m个待质检数据以及所述m个待质检数据的预测结果;
[0207]
接收对所述m个待质检数据中任意待质检数据的修正信息,利用所述修正信息对所述任意待质检数据的预测结果进行修正。
[0208]
综上所述,本技术提供的数据处理方法、装置、电子设备以及计算机可读存储介质,该方法利用基于样本数据集中各个样本数据对应的类别标签统计确定的先验类别分布
作为判断依据,确定出经过质检模型进行类别预测的预测结果不满足先验类别分布的待质检数据,并对不满足先验类别分布的待质检数据的预测结果进行修正,使得修正后的待质检数据的预测结果满足先验类别分布,能够提高待质检数据预测结果的准确性。
[0209]
在本技术所提供的几个实施方式中,应该理解到,所揭露的方法以及设备,可以通过其它的方式实现。例如,以上所描述的设备实施方式仅仅是示意性的,例如,所述电路或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。
[0210]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
[0211]
另外,在本技术各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0212]
以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是根据本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1