一种标注数据的处理方法、装置和介质与流程

文档序号:24931660发布日期:2021-05-04 11:21阅读:39来源:国知局
一种标注数据的处理方法、装置和介质与流程

本申请涉及大数据领域,特别是涉及一种标注数据的处理方法、装置和介质。



背景技术:

随着通信技术的发展,人工智能等领域对标注数据的需求日益增长,无论是在图像识别领域还是文字分类领域,都对标注数据的正确率有较高的要求。

目前对于标注数据的方法是通过标注工作人员对数据进行人工标注,从一批标注数据中抽取部分标注数据进行审核检验,并计算审核检验后的标注数据的正确率,若该正确率不达标,则判断该批标注数据的正确率不合格,则需要标注人员重新对该批数据进行重标注,直到正确率合格。

以上过程存在以下问题:首先经过审核校验后的标注数据得不到进一步利用,数据的利用率较低;此外,正确率不合格的标注数据返回给标注人员后,标注人员不知道哪些标注数据是错误的,因此只能对所有数据重新进行标注,因此对标注数据进行重标注的效率比较低。

本公开的实施例提供了一种标注数据的处理方法、装置和介质,以提高审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。



技术实现要素:

本公开的实施例提供了一种标注数据的处理方法、装置和存储介质,可以提高审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

为解决上述技术问题,本发明实施例是这样实现的:

第一方面,本公开实施例提供了一种标注数据的处理方法,包括:

获取经标注人员标注的标注数据;

根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;

将所述错误标注数据发送至所述标注人员。

第二方面,本公开实施例还提供了一种存储介质,存储介质包括存储的程序,其中,在程序运行时由处理器执行如上述第一方面所述的标注数据的处理方法。

第三方面,根据本公开实施例还提供了一种标注数据的处理装置,包括:

标注数据获取模块,用于获取经标注人员标注的标注数据;

错误数据确定模块,用于根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;

标注数据发送模块,用于将所述错误标注数据发送至所述标注人员。

第四方面,本公开实施例还提供了一种标注数据的处理装置,包括:

处理器;

存储器,与所述处理器连接,用于为所述处理器提供处理以下处理步骤的指令:

获取经标注人员标注的标注数据;

根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;

将所述错误标注数据发送至所述标注人员。

本发明实施例中,获取经标注人员标注的标注数据,根据标注数据利用预先构建的标注数据审核模型(其中标注数据审核模型是利用经过审核的标注数据训练得到的),确定标注数据中的错误标注数据,并将错误标注数据发送至标注人员。从而,本实施例中通过利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,从而使得标注人员重新标注错误标注数据,从而提高了对标注数据进行重新标注的效率。此外,由于本实施例是利用审核后的标注数据训练得到标注数据审核模型,因此提高了审核后的标注数据的利用率。从而,本实施例的技术方案提高了审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

附图说明

此处所说明的附图用来提供对本公开的进一步理解,构成本申请的一部分,本公开的示意性实施例及其说明用于解释本公开,并不构成对本公开的不当限定。在附图中:

图1为本公开一实施例提供的用于实现一种标注数据的处理方法的计算设备的硬件结构框图;

图2为本公开一实施例提供的标注数据的处理方法的流程示意图;

图3为本公开一实施例提供的标注数据的处理装置示意图;

图4为本公开另一实施例提供的标注数据的处理装置的示意图。

具体实施方式

为了使本技术领域的人员更好地理解本公开的技术方案,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本公开一部分的实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本公开保护的范围。

需要说明的是,本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

实施例1

根据本实施例,还提供了一种标注数据的处理方法的实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。

本实施例所提供的方法实施例可以在移动终端、计算机终端、服务器或者类似的计算设备中执行。图1示出了一种用于实现一种标注数据的处理方法的计算设备的硬件结构框图。如图1所示,计算设备可以包括一个或多个处理器(处理器可以包括但不限于微处理器mcu或可编程逻辑器件fpga等的处理装置)、用于存储数据的存储器、以及用于通信功能的传输装置。除此以外,还可以包括:显示器、输入/输出接口(i/o接口)、通用串行总线(usb)端口(可以作为i/o接口的端口中的一个端口被包括)、网络接口、电源和/或相机。本领域普通技术人员可以理解,图1所示的结构仅为示意,其并不对上述电子装置的结构造成限定。例如,计算设备还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。

应当注意到的是上述一个或多个处理器和/或其他数据处理电路在本文中通常可以被称为“数据处理电路”。该数据处理电路可以全部或部分的体现为软件、硬件、固件或其他任意组合。此外,数据处理电路可为单个独立的处理模块,或全部或部分的结合到计算设备中的其他元件中的任意一个内。如本公开实施例中所涉及到的,该数据处理电路作为一种处理器控制(例如与接口连接的可变电阻终端路径的选择)。

存储器可用于存储应用软件的软件程序以及模块,如本公开实施例中的标注数据的处理方法对应的程序指令/数据存储装置,处理器通过运行存储在存储器内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现上述的应用程序的标注数据的处理方法。存储器可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器可进一步包括相对于处理器远程设置的存储器,这些远程存储器可以通过网络连接至计算设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

传输装置用于经由一个网络接收或者发送数据。上述的网络具体实例可包括计算设备的通信供应商提供的无线网络。在一个实例中,传输装置包括一个网络适配器(networkinterfacecontroller,nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输装置可以为射频(radiofrequency,rf)模块,其用于通过无线方式与互联网进行通讯。

显示器可以例如触摸屏式的液晶显示器(lcd),该液晶显示器可使得用户能够与计算设备的用户界面进行交互。

此处需要说明的是,在一些可选实施例中,上述图1所示的计算设备可以包括硬件元件(包括电路)、软件元件(包括存储在计算机可读介质上的计算机代码)、或硬件元件和软件元件两者的结合。应当指出的是,图1仅为特定具体实例的一个实例,并且旨在示出可存在于上述计算设备中的部件的类型。

在上述运行环境下,本实施例提供了一种标注数据的处理方法。图2为本公开一实施例提供的标注数据的处理方法的流程示意图,参考图2所示,该方法包括:

s202:获取经标注人员标注的标注数据;

s204:根据标注数据利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,其中标注数据审核模型是利用经过审核的标注数据训练得到的;

s206:将错误标注数据发送至标注人员。

本发明实施例中,获取经标注人员标注的标注数据,根据标注数据利用预先构建的标注数据审核模型(其中标注数据审核模型是利用经过审核的标注数据训练得到的),确定标注数据中的错误标注数据,并将错误标注数据发送至标注人员。从而,本实施例中通过利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,从而使得标注人员重新标注错误标注数据,从而提高了对标注数据进行重新标注的效率。此外,由于本实施例是利用审核后的标注数据训练得到标注数据审核模型,因此提高了审核后的标注数据的利用率。从而,本实施例的技术方案提高了审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

上述步骤s202中,获取经标注人员标注的标注数据,标注数据可以是对图片、文字、音频、视频或者其他数据进行标签标注,这里不做特殊限制,比如对五张照片进行标注后,结果为:第一张标注为猫,第二张标注为狗,第三张标注为兔子,第四张标注为狗,第五张标注为大熊猫。

上述步骤s204中,根据标注数据利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,其中标注数据审核模型是利用经过审核的标注数据训练得到的。

具体地,当由于一批标注数据被确认为不合格数据,需要返回给标注人员进行重新标注时,为了提高重新标注的效率,需要告知标注人员哪些标注数据是错误的。或者,在人工审核前可能还需要进行预审核,最好是能够通过机器自动实现。

为了实现该目的,本实施例将标注数据代入预先构建的标注数据审核模型中,确定在标注数据中的错误标注数据,其中标注数据审核模型是利用经过审核的标注数据训练得到。其中,经过审核的标注数据可以是预先选择的标注数据样本中的经过审核的标注数据,也可以是在上述标注数据中筛选部分标注数据进行审核后作为经过审核的标注数据,这里不做特殊限制。

上述步骤s206中,将错误标注数据发送至标注人员,使得标注人员对标注数据中的错误标注数据重新标注以提高标注数据的质量,从而提高对标注数据进行重新标注的效率。

进一步地,根据标注数据利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,包括:

(a1),将标注数据代入预先构建的标注数据审核模型中,得到标注数据的错误概率;

(a2),根据标注数据的错误概率和预设判断条件,确定标注数据中的错误标注数据。

上述动作(a1)和(a2)中,将标注数据代入预先构建的标注数据审核模型中,得到标注数据的错误概率,根据标注数据的错误概率和预设判断条件,确定标注数据中的错误标注数据,其中比例阈值可以根据标注数据的需要达到的正确率设定,也可以是设置其他数值,这里不做特殊限制。比如,将5个标注数据a、b、c、d、e代入预先构建的标注数据审核模型中,得到的标注数据的错误概率依次是0.5、0.2、0.4、0.6、0.8,比例阈值为0.1,根据该标注数据的错误概率和预设判断条件,确定标注数据中的错误标注数据。

进一步地,根据标注数据的错误概率和预设判断条件,确定标注数据中的错误标注数据,包括:

(b1),将标注数据按照错误概率从大到小的顺序排列;

(b2),根据预设比例计算标注数据中的错误标注数据的预设数量;

(b3),将排列后的标注数据中的前预设数量的标注数据确定为错误标注数据。

上述动作(b1)和(b2)中,将标注数据按照错误概率从大到小的顺序排列,根据预设比例计算标注数据中的错误标注数据的预设数量,即预设比例与标注数据的数量的乘积为标注数据中的错误标注数据的预设数量。

上述动作(b3)中,将排列后的标注数据中的前预设数量的标注数据确定为错误标注数据。比如排列后的标注数据为a、b、c、d、e,计算得出的预设数量为2,则将a和b数据确定为错误数据。

一个实施例中,将10个标注数据a、b、c、d、e、f、g、h、i、j的按照错误概率从大到小的顺序排列g、j、f、i、h、a、d、e、c、b,预设比例为0.2,计算预设数量为10*0.2=2个,则将g和j确定为错误数据。

进一步地,根据标注数据的错误概率和预设判断条件,确定标注数据中的错误标注数据,包括:

(c1),从标注数据中筛选预定数量的标注数据进行审核,得到标注数据的错误率;

(c2),根据标注数据的错误率和标注数据的预设正确率,确定标注数据达到预设正确率需要审核标注的错误标注数据的数量;

(c3),将标注数据按照错误概率从大到小的顺序排列;

(c4),对排列后的标注数据依次进行审核标注,直到确定错误标注数据的数量达到需要审核标注的错误标注数据的数量。

上述动作(c1)和(c2)中,从标注数据中筛选预定数量的标注数据进行审核,得到标注数据的错误率,根据标注数据的错误率和标注数据的预设正确率,确定标注数据达到预设正确率需要审核标注的错误标注数据的数量,这里的审核是对标注数据是否正确做出判断,可以对其中错误的标注数据进行正确标注。一个实施例中,从100个标注数据中筛选出10个预定数量的标注数据进行审核,审核结果为10个预定数量的标注数据中有两个是错误标注数据,得到标注数据的错误率为20%,在此次标注数据的质检中需要达到的预设正确率为100%,则计算出除筛选后的其他90个标注数据中错误标注数据的数量为90*20=18个。

另一个实施例中,从200个标注数据中筛选出50个预定数量的标注数据进行审核,审核结果为50个预定数量的标注数据中有10个是错误标注数据,得到标注数据的错误率为20%,在此次标注数据的质检中需要达到的预设正确率为90%,则计算出除筛选后的其他150个标注数据中错误标注数据的数量为150*20%-[150*(1-90%)]=15个。

上述动作(c3)和(c4)中,将标注数据按照错误概率从大到小的顺序排列,对排列后的标注数据依次进行审核标注,直到确定错误标注数据的数量达到需要审核标注的错误标注数据的数量。进一步地,也可以是将标注数据按照错误概率从大到小的顺序排列,将排列后的标注数据中的前错误标注数据的数量的标注数据确定为错误标注数据。比如,将10个标注数据按照错误概率从大到小的顺序排列为a、b、c、d、e、f、g、h、i、j,计算得到的错误标注数据的数量为2个,则对排列后的标注数据依次审核,直到确定错误标注数据的数量达到2个,则将该审核出的两个重新标注达到预设正确率,也可以直接将排列后的标注数据中的前2个标注数据确定为错误标注数据,即将a和b确定为错误标注数据。

进一步地,根据标注数据利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,还包括:从标注数据中筛选预定数量的标注数据进行审核,得到标注数据的错误率,根据标注数据的错误率和标注数据的预设正确率,确定标注数据达到预设正确率需要审核标注的错误标注数据的数量,将标注数据按照错误概率从大到小的顺序排列,将排列后的前错误标注数据的数量的预设倍数值数量的标注数据确定为错误标注数据。比如,将10个标注数据按照错误概率从大到小的顺序排列为a、b、c、d、e、f、g、h、i、j,计算得到的错误标注数据的数量为2个,预设倍数值为2,则将排列后的前2*2=4个的标注数据确定为错误数据,即错误数据为a、b、c、d。

进一步地,在获取经标注人员标注的标注数据之前,包括:

(d1),获取已审核标注数据,已审核标注数据包含标注信息和审核信息;

(d2),根据标注信息和审核信息,通过监督机器学习模块得到标注数据审核模型。

上述动作(d1)中,获取已审核标注数据,已审核标注数据包含标注信息和审核信息,比如,已审核标注数据为对一张已标注的图片的审核结果,其中标注数据为该图片为柳树,审核信息为图片为标注错误。

上述动作(d2)中,根据标注信息和审核信息,通过监督机器学习模块得到标注数据审核模型,将标注信息和审核信息通过代入监督机器学习模块进行数据训练得到标注数据审核模型。

进一步地,根据标注信息和审核信息,通过监督机器学习模块得到标注数据审核模型,包括:

(e1),通过已审核标注数据中的标注信息和审核信息,确定已审核标注数据的审核结果;

(e2),将标注信息、审核信息以及审核结果代入监督机器学习模块中进行训练,得到标注数据审核模型。

上述动作(e1)和(e2)中,通过已审核标注数据中的标注信息和审核信息,确定已审核标注数据的审核结果,将审核结果代入监督机器学习模块中进行训练,得到标注数据审核模型。比如,已审核标注数据为一张柿子的图片,对该图片的标注为苹果,审核信息为该图片标注错误。由此,可以将该苹果图片以及图片标注为错误的审核信息作为一个样本。或者已审核标注数据为一张苹果的图片,标注信息为苹果,审核信息为该图片标注正确。依次类推,将多个审核后的图片以及对应的审核结果作为训练样本,从而得到样本集。然后,可以将样本集数据代入监督机器学习模块中,经过多组数据进行训练得到标注数据审核模型。

进一步地,监督机器学习模块为卷积神经网络、二分类向量算法、深度神经网络、逻辑回归算法其中的一种或者多种。

具体地,例如卷积神经网络可以设置为根据输入的已经标注过的图像数据,生成一个二维向量,其中二维向量中的两个元素分别用于指示该图像标注正确或者标注错误的概率。当标注错误的概率大于预定阈值时,则可以判定该图像标注错误。

其中卷积神经网络中所包含的卷积层、池化层、全连接层以及softmax分类器可以根据实际的情况进行设置,这个并不在本实施例的重点描述范围内。只要能够实现对输入的图片进行“标注正确”或“标注错误”的分类即可。

本发明实施例中,获取经标注人员标注的标注数据,根据标注数据利用预先构建的标注数据审核模型(其中标注数据审核模型是利用经过审核的标注数据训练得到的),确定标注数据中的错误标注数据,并将错误标注数据发送至标注人员。从而,本实施例中通过利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,从而使得标注人员重新标注错误标注数据,从而提高了对标注数据进行重新标注的效率。此外,由于本实施例是利用审核后的标注数据训练得到标注数据审核模型,因此提高了审核后的标注数据的利用率。从而,本实施例的技术方案提高了审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

此外,参考图1所示,根据本实施例的第二方面,提供了一种存储介质。所述存储介质包括存储的程序,其中,在所述程序运行时由处理器执行以上任意一项所述的标注数据的处理方法。

本发明实施例中,获取经标注人员标注的标注数据,根据标注数据利用预先构建的标注数据审核模型(其中标注数据审核模型是利用经过审核的标注数据训练得到的),确定标注数据中的错误标注数据,并将错误标注数据发送至标注人员。从而,本实施例中通过利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,从而使得标注人员重新标注错误标注数据,从而提高了对标注数据进行重新标注的效率。此外,由于本实施例是利用审核后的标注数据训练得到标注数据审核模型,因此提高了审核后的标注数据的利用率。从而,本实施例的技术方案提高了审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

本申请实施例提供的一种存储介质能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定是本发明所必须的。

通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等)执行本发明各个实施例所述的方法。

实施例2

图3为本公开一实施例提供的一种标注数据的处理装置示意图,该装置300与根据实施例1的一种标注数据的处理方法相对应。参考图3所示,该装置300包括:

标注数据获取模块301,用于获取经标注人员标注的标注数据;

错误数据确定模块302,用于根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;

标注数据发送模块303,用于将所述错误标注数据发送至所述标注人员。

可选地,所述错误数据确定模块302具体用于:

将所述标注数据代入预先构建的标注数据审核模型中,得到所述标注数据的错误概率;

根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据。

可选地,所述错误数据确定模块302还具体用于:

将所述标注数据按照所述错误概率从大到小的顺序排列;

根据所述预设比例计算所述标注数据中的所述错误标注数据的预设数量;

将排列后的所述标注数据中的前所述预设数量的所述标注数据确定为所述错误标注数据。

可选地,所述错误数据确定模块302具体用于:

从所述标注数据中筛选预定数量的所述标注数据进行审核,得到所述标注数据的错误率;

根据所述标注数据的错误率和所述标注数据的预设正确率,确定所述标注数据达到所述预设正确率需要审核标注的错误标注数据的数量;

将所述标注数据按照所述错误概率从大到小的顺序排列;

对排列后的所述标注数据依次进行审核标注,直到确定所述错误标注数据的数量达到所述需要审核标注的错误标注数据的数量。

可选地,该标注数据的处理装置包括审核模型训练模块,用于在获取经标注人员标注的标注数据之前,

获取已审核标注数据,所述已审核标注数据包含标注信息和审核信息;

根据所述标注信息和所述审核信息,通过监督机器学习模块得到标注数据审核模型。

可选地,所述审核模型训练模块具体用于:

通过所述已审核标注数据中的标注信息和所述审核信息,确定所述已审核标注数据的审核结果;

将所述标注信息、所述审核信息以及所述审核结果代入监督机器学习模块中进行训练,得到标注数据审核模型。

可选地,所述监督机器学习模块为卷积神经网络、二分类向量算法、深度神经网络、逻辑回归算法其中的一种或者多种。

本发明实施例中,获取经标注人员标注的标注数据,根据标注数据利用预先构建的标注数据审核模型(其中标注数据审核模型是利用经过审核的标注数据训练得到的),确定标注数据中的错误标注数据,并将错误标注数据发送至标注人员。从而,本实施例中通过利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,从而使得标注人员重新标注错误标注数据,从而提高了对标注数据进行重新标注的效率。此外,由于本实施例是利用审核后的标注数据训练得到标注数据审核模型,因此提高了审核后的标注数据的利用率。从而,本实施例的技术方案提高了审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

本申请实施例提供的标注数据的处理方法装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

实施例3

图4为本公开另一实施例提供的标注数据的处理装置的示意图,该装置400与根据实施例1的第一个方面所述的方法相对应。参考图4所示,该装置400包括:处理器410;以及存储器420,与处理器410连接,用于为处理器410提供处理以下处理步骤的指令:获取经标注人员标注的标注数据;

根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,其中所述标注数据审核模型是利用经过审核的标注数据训练的;

将所述错误标注数据发送至所述标注人员。

根据所述标注数据利用预先构建的标注数据审核模型,确定所述标注数据中的错误标注数据,包括:

将所述标注数据代入预先构建的标注数据审核模型中,得到所述标注数据的错误概率;

根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据。

可选地,其特征在于,根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据,包括:

将所述标注数据按照所述错误概率从大到小的顺序排列;

根据所述预设比例计算所述标注数据中的所述错误标注数据的预设数量;

将排列后的所述标注数据中的前所述预设数量的所述标注数据确定为所述错误标注数据。

可选地,根据所述标注数据的错误概率和预设判断条件,确定所述标注数据中的错误标注数据,包括:

从所述标注数据中筛选预定数量的所述标注数据进行审核,得到所述标注数据的错误率;

根据所述标注数据的错误率和所述标注数据的预设正确率,确定所述标注数据达到所述预设正确率需要审核标注的错误标注数据的数量;

将所述标注数据按照所述错误概率从大到小的顺序排列;

对排列后的所述标注数据依次进行审核标注,直到确定所述错误标注数据的数量达到所述需要审核标注的错误标注数据的数量。

可选地,在获取经标注人员标注的标注数据之前,包括:

获取已审核标注数据,所述已审核标注数据包含标注信息和审核信息;

根据所述标注信息和所述审核信息,通过监督机器学习模块得到标注数据审核模型。

可选地,根据所述标注信息和所述审核信息,通过监督机器学习模块得到标注数据审核模型,包括:

通过所述已审核标注数据中的标注信息和所述审核信息,确定所述已审核标注数据的审核结果;

将所述标注信息、所述审核信息以及所述审核结果代入监督机器学习模块中进行训练,得到标注数据审核模型。

可选地,所述监督机器学习模块为卷积神经网络、二分类向量算法、深度神经网络、逻辑回归算法其中的一种或者多种。

本发明实施例中,获取经标注人员标注的标注数据,根据标注数据利用预先构建的标注数据审核模型(其中标注数据审核模型是利用经过审核的标注数据训练得到的),确定标注数据中的错误标注数据,并将错误标注数据发送至标注人员。从而,本实施例中通过利用预先构建的标注数据审核模型,确定标注数据中的错误标注数据,从而使得标注人员重新标注错误标注数据,从而提高了对标注数据进行重新标注的效率。此外,由于本实施例是利用审核后的标注数据训练得到标注数据审核模型,因此提高了审核后的标注数据的利用率。从而,本实施例的技术方案提高了审核后的标注数据的利用率以及对标注数据进行重标注的标注效率。

本申请实施例提供的标注数据的处理装置能够实现前述方法实施例中的各个过程,并达到相同的功能和效果,这里不再重复。

上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。

在本发明的上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中,应该理解到,所揭露的技术内容,可通过其它的方式实现。其中,以上所描述的装置实施例仅仅是示意性的,例如所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,单元或模块的间接耦合或通信连接,可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1