数据标注方法、装置、系统及存储介质与流程

文档序号:19351457发布日期:2019-12-06 21:26阅读:352来源:国知局
数据标注方法、装置、系统及存储介质与流程

本发明涉及数据处理技术领域,尤其涉及一种数据标注方法、装置、系统及存储介质。



背景技术:

随着计算机技术的发展,人工智能系统的数据处理能力也越来越强大。

目前,人工智能系统大多基于神经网络进行构建。大部分神经网络系统都离不开大量标注数据的使用。在这些标注数据中,很大一部分数据属于对输入进行分类的分类标注数据。因此,获取分类标注数据成为很多人工智能项目的首要工作。而分类标注数据的质量直接决定了人工智能系统的分析能力。现有技术中,对原始数据进行分类标记一般是直接让标注人员从候选类别中选出正确的标签。

但是,这种方式只能适用于候选标签个数比较少的情况,当标签个数较多时,这种方式的标注效率和标注准确度会大大降低,从而影响标注数据的质量。



技术实现要素:

本发明提供一种数据标注方法、装置、系统及存储介质,适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

第一方面,本发明实施例提供一种数据标注方法,包括:

获取待标记数据的数据特征;

将所述数据特征分发给各个分层的分类网络;

根据所述数据特征,通过所述分类网络获取不同分层的分类结果;

将分类网络的分类结果作为数据标注结果。

在一种可能的设计中,在根据所述数据特征,通过所述分类网络获取不同分层的分类结果之后,还包括:

从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;

若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。

在一种可能的设计中,所述从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果,包括:

判断当前层分类网络的分类结果是否审核通过;

若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;

若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;

若属于所述预设的候选标签集,则从所述预设的候选标签集中选择正确的分类标签作为分类结果;

若不属于所述预设的候选标签集,则确定分类结果为不属于本类别。在一种可能的设计中,还包括:

若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对所述上一层分类网络进行迭代训练,直到所述上一层分类网络输出正确的分类结果。

在一种可能的设计中,所述从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果,还包括:

获取当前层分类网络的分类结果的预估准确率得分;其中,所述预估准确率得分与分类结果正确的次数正相关;

若当前层分类网络的分类结果的预估准确率得分大于预设阈值,则直接跳过对当前层分类网络的分类结果的审核。

第二方面,本发明实施例提供一种数据标注装置,包括:

提取模块,用于获取待标记数据的数据特征;

分发模块,用于将所述数据特征分发给各个分层的分类网络;

分类模块,用于根据所述数据特征,通过所述分类网络获取不同分层的分类结果;

输出模块,用于将分类网络的分类结果作为数据标注结果。

在一种可能的设计中,还包括:审核模块,用于:

从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;

若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。

在一种可能的设计中,所述审核模块,还用于:

判断当前层分类网络的分类结果是否审核通过;

若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;

若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;

若属于所述预设的候选标签集,则从所述预设的候选标签集中选择正确的分类标签作为分类结果;

若不属于所述预设的候选标签集,则确定分类结果为不属于本类别。

在一种可能的设计中,还包括:反馈模块,用于:

若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对所述上一层分类网络进行迭代训练,直到所述上一层分类网络输出正确的分类结果。

在一种可能的设计中,所述审核模块,还用于:获取当前层分类网络的分类结果的预估准确率得分;其中,所述预估准确率得分与分类结果正确的次数正相关;

若当前层分类网络的分类结果的预估准确率得分大于预设阈值,则直接跳过对当前层分类网络的分类结果的审核。

第三方面,本发明提供一种数据标注系统,包括:处理器和存储器;存储器中存储有所述处理器的可执行指令;其中,所述处理器配置为经由执行所述可执行指令来执行如第一方面中任一项所述的数据标注方法。

第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现第一方面中任一项所述的数据标注方法。

第五方面,本发明实施例提供一种程序产品,所述程序产品包括:计算机程序,所述计算机程序存储在可读存储介质中,服务器的至少一个处理器可以从所述可读存储介质读取所述计算机程序,所述至少一个处理器执行所述计算机程序使得服务器执行第一方面中任一所述的数据标注方法。

本发明提供的一种数据标注方法、装置、系统及存储介质,通过获取待标记数据的数据特征;将所述数据特征分发给各个分层的分类网络;根据所述数据特征,通过所述分类网络获取不同分层的分类结果;将分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

附图说明

图1为本发明一应用场景的原理示意图;

图2为本发明实施例一提供的数据标注方法的流程图;

图3为本发明实施例二提供的数据标注方法的流程图;

图4为本发明实施例提供的动物场景的层次化标签网络示意图;

图5为本发明实施例提供的分类结果审核的流程示意图;

图6为本发明实施例三提供的数据标注装置的结构示意图;

图7为本发明实施例四提供的数据标注装置的结构示意图;

图8为本发明实施例五提供的数据标注系统的结构示意图。

具体实施方式

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。

随着计算机技术的发展,人工智能系统的数据处理能力也越来越强大。目前,人工智能系统大多基于神经网络进行构建。大部分神经网络系统都离不开大量标注数据的使用。在这些标注数据中,很大一部分数据属于对输入进行分类的分类标注数据,比如对图片的分类,对文本情感、语音方言等的分类。此外,很多衍生的人工智能系统也离不开前期的分类数据的使用,比如图像分割和物体检测系统虽然都不直接依赖图像分类数据集,但是其使用的神经网络预训练模型则是基于分类人物进行训练的,类似的情况在基于神经网络的人工智能系统中还有很多。因此标注分类数据成为很多人工智能项目的首要工作,并且标注的数据的质量成为决定人工智能系统的天花板。而分类标注数据的质量直接决定了人工智能系统的分析能力。目前对原始数据进行分类标记的方案是直接让标注人员从候选类别中选出正确标签。当候选标签个数比较少时(比如5个),标注人员的效率和标注质量是可以接受的,但是标签个数非常大时(比如20000类),标注人员的效率和标注质量就很难同时保证。例如,超大类别数数据的分类标注问题,如1万类商品分类标注或2万类动植物分类标注。这种方式只能适用于候选标签个数比较少的情况,当标签个数较多时,这种方式的标注效率和标注准确度会大大降低,从而影响标注数据的质量。

针对上述技术问题,本发明提供一种数据标注方法、装置、系统及存储介质,适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。图1为本发明一应用场景的原理示意图,如图1所示,和传统分类标注方案不同,传统分类标注系统通常直接给出所有候选类别或者只给出预训练的标注系统猜测的候选标签集合,没有层次关系,相对简单直白。在本技术方案中,针对超多类别的标注任务下,首先按照标注数据的特征,对类别进行层次化处理。就具体场景而言,例如2万类植物标注任务、1w类动物标注任务,以动物场景为例:先根据收集到的数据和需要标注的目标类别,请专家结合动物分类学将这些标签按照分类学、外观等因素生成标签层次网络。然后,在每一层的分类网络中,可以训练一个高精度的简单分类器。这种简单分类器的分类数较少,比如二分类、五分类、十分类,从而需要的标注数据少于直接训练一个多分类系统的标注数据。首先通过特征提取网络获取待标记数据的数据特征。然后,将数据特征分发给各个分层的分类网络。先将数据特征进入最顶层的分类子网络,分类子网络输出分类猜测结果a。根据上一层分类网络的分类结果决定启用的下一层分类网络,然后将数据特征分发给下一层的分类网络。重复上述步骤,可以将数据特征分发给各个分层的分类网络,并输出每一个层次的分类结果。最后,将最后一层分类网络的分类结果作为数据标注结果。和传统的标注系统采用多人直接标注的方案不同,本技术因为已经将标签进行了层次化处理、因此每一个层次结点处可以对分类网络输出的分类结果进行审核。通过对分类结果的审核,可以确定分类结果是否正确。若审核通过,则根据分类结果启用下一层分类网络。若审核不通过,则判断分类结果是否属于预设的候选标签集;若属于预设的候选标签集,则从预设的候选标签集中选择正确的分类标签作为分类结果;若不属于预设的候选标签集,则确定分类结果为不属于本类别。还可以将分类结果为不属于本类别的数据特征反馈给上一层分类网络,以对上一层分类网络进行迭代训练,直到上一层分类网络输出正确的分类结果。最后,将最后一层分类网络的分类结果作为数据标注结果。例如,在2万类动植物分类标注中,输入的数据特征为红源鸡的数据特征。首先,将红源鸡的数据特征输入最顶层的分类子网络,即区分动物与植物的二分类网络,得到分类结果为动物。然后,根据这一层分类网络的结果,将红源鸡的数据特征分发到下一层的分类子网络,即区分脊椎动物与无脊椎动物的二分类子网络,得到分类结果为脊椎动物。再然后,根据这一层分类网络的结果,将红源鸡的数据特征分发到下一层的分类子网络,即区分鱼类、两栖类、爬行类、鸟类、哺乳类的五分类子网络,得到分类结果为鸟类。重复上述步骤,根据上一层分类网络的分类结果决定启用的下一层分类网络,直到将将红源鸡的数据特征分发到最后一层的分类子网络,即在雉科下区分红源鸡、雉鸡、灰胸足鸡的分类子网络,得到分类结果为红源鸡。将最后一层分类网络的分类结果红源鸡作为数据标注结果。

应用上述方法可以根据标注数据特征构建数据的层次化标签网络,然后在层次化标签网络的各个分层设置分类网络,从而可以有效的降低超多分类标注任务中需要投入的人力成本,通过融合人机协同、计算机辅助、人机界面改善等多方面技术点来提高标注人员的标注效率和标注质量。本申请通过简单到复杂的分层标注方法能有效降低高成本专业人员的需求量,进而改善现有标注方法孤立依赖专业标注人员的现状。另外,本申请通过少量数据就能训练简单神经网络来做预分类的特点来改进标注过程,降低标注难度,适用于大规模标签的精准分类。

下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。

图2为本发明实施例一提供的数据标注方法的流程图,如图2所示,本实施例中的方法可以包括:

s101、获取待标记数据的数据特征。

本实施例中,本发明的核心要点是,提权数据标签之间的内在联系,充分利用了标签中蕴含的层次信息,构建层次化标签网络。然后,在每一层的分类网络中,可以训练一个高精度的简单分类器。这种简单分类器的分类数较少,比如二分类、五分类、十分类,从而需要的标注数据少于直接训练一个多分类系统的标注数据。从而通过不断迭代的训练多个神经网络来对需要标注的数据进行判断,并对标注数据进行回收和再训练,更新标注系统中的模型。大部分粗分类不需要专业人员,而细分类急需相关领域的专业人士,专业领域标注人员和非专业领域的标注人员成本差异明显,通过层次化解偶标注过程降低专业人员需求量,充分利用非专业人员。例如,分类植物中,分类乔木、灌木、多肉、花草等则基本不需要专业人员,而分类乔木中的槐树各个亚目则对专业性要求比较高。这样可以让专业标注人员判断是/否比让标注人员判断属于某一个具体类别在操作上更便捷更容易。同时,少量数据训练的神经网络系统在简单分类上能做出超过随机选择的正确率,标注人员只需判断正确或不正确,使得标注人员不需要完全直接进行标注,降低标注人员对简单数据的标注次数进而减少标注任务量,从而从分发挥神经网络在简单任务中依赖少量数据完成对大量简单标注样本对筛选,尽可能只保留复杂的样本供标注人员标注。在数据标注过程中,“分发-标注-回收-训练-分发”是发明的技术核心。因此,首先通过特征提取网络获取待标记数据的数据特征。

s102、将数据特征分发给各个分层的分类网络。

本实施例中,将数据特征进入最顶层的分类子网络,分类子网络输出分类猜测结果a。可以根据上一层分类网络的分类结果决定启用的下一层分类网络,然后将数据特征分发给下一层的分类网络。重复上述步骤,可以将数据特征分发给各个分层的分类网络,并输出每一个层次的分类结果。

s103、根据数据特征,通过分类网络获取不同分层的分类结果。

本实施例中,根据数据特征,通过每一个分类网络获取分类结果,从而获得了不同分层的分类结果。其中,上一层分类网络的分类结果决定启用的下一层分类网络。

s104、将分类网络的分类结果作为数据标注结果。

本实施例中,可以将最后一层分类网络的分类结果作为数据标注结果。也可以同时记录所有分层的分类结果作为数据标注结果。例如,在2万类动植物分类标注中,输入的数据特征为红源鸡的数据特征。首先,将红源鸡的数据特征输入最顶层的分类子网络,即区分动物与植物的二分类网络,得到分类结果为动物。然后,根据这一层分类网络的结果,将红源鸡的数据特征分发到下一层的分类子网络,即区分脊椎动物与无脊椎动物的二分类子网络,得到分类结果为脊椎动物。再然后,根据这一层分类网络的结果,将红源鸡的数据特征分发到下一层的分类子网络,即区分鱼类、两栖类、爬行类、鸟类、哺乳类的五分类子网络,得到分类结果为鸟类。重复上述步骤,根据上一层分类网络的分类结果决定启用的下一层分类网络,直到将将红源鸡的数据特征分发到最后一层的分类子网络,即在雉科下区分红源鸡、雉鸡、灰胸足鸡的分类子网络,得到分类结果为红源鸡。将最后一层分类网络的分类结果红源鸡作为数据标注结果。

进一步优化上述流程:初始时对系统中的特征网络和分类子网络采用简单的神经网络模型;随着标注数据的积累,逐步替换简单网络模型为更复杂的神经网络模型。该优化过程基于:复杂的模型取得较好的效果需要大量标注数据,在简单分类任务上,简单的模型能在数据相对较少的情况下取得不错的效果,随着数据累加,简单模型达到效果瓶颈,则更换更复杂的模型来提高预估分类标签的正确性。进一步优化上述流程:通过对分类预估的概率得分设置阈值,当得分超过阈值时自动往子类分发而不需要该子类的标注人员确认,直接进入到下一层子类系统中。

与传统标注系统不同的是,本辅助标注系统完成标注流程后会不仅得到原始数据的最终分类标签,还得到了原始数据的分层次分类标签,该层次标签作为数据副产品仍可以发挥价值。同时,通过不断升级辅助标注系统中使用的特征网络模型和子类分类模型,最终可得到一个不错的层次分类模型直接使用。

需要说明的是,本发明并不限定特征网络的具体使用和替换过程,本发明并不局限于所举例的植物分类数据标注、动物分类数据标注而是能应用于所有具有较多类别并且能够构建层次关系的情况。此外,针对标注人员实际的标注次数,如果不采用阈值优化方案,则总标注次数会稍微增加,本系统借助标注过程中已训练的分类模型的预测结果、降低单次标注的难度、改善传统标注交互界面来提高标注效率,进而实现整体上针对普通标注系统的优化。

本实施例,通过获取待标记数据的数据特征;将数据特征分发给各个分层的分类网络;根据数据特征,通过分类网络获取不同分层的分类结果;将分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

图3为本发明实施例二提供的数据标注方法的流程图,如图3所示,本实施例中的方法可以包括:

s201、根据待标记数据,构建层次化标签网络;层次化标签网络包括:特征提取网络和各个分层的分类网络。

本实施例中,和传统分类标注方案不同,传统分类标注系统通常直接给出所有候选类别或者只给出预训练的标注系统猜测的候选标签集合,没有层次关系,相对简单直白。在本技术方案中,针对超多类别的标注任务下,首先按照标注数据的特征,对类别进行层次化处理。就具体场景而言,例如2万类植物标注任务、1w类动物标注任务,以动物场景为例:先根据收集到的数据和需要标注的目标类别,请专家结合动物分类学将这些标签按照分类学、外观等因素生成标签层次网络。图4为本发明实施例提供的动物场景的层次化标签网络示意图,如图4所示,以动物分类为例,可以将动物分为脊椎动物、无脊椎动物,脊椎动物的子节点包括:鱼类、两栖类、爬行类、鸟类、哺乳类等;无脊椎动物的子节点包括:腔肠动物、软体动物、节肢动物;鸟类的子节点包括:雁形目、鸡形目、鹤形目、鸥形目;鸡形目的子节点包括:火鸡、松鸡、雉科、凤冠雉科;雉科的子节点包括:红源鸡、雉鸡、灰胸足鸡。

需要说明的是,在构建标签层次关系的过程中,标签原有的分类层次关系(比如动植物分类学)是一种构建层次关系的参考,因为基于神经网络的分类系统尤其是图像分类系统更多依赖图片本身,所以原有分类学中的依据并不能仅仅根据图像就能判断,因此分类学中的某些类别应当合理合并或者归类到其他类目以便更好的判断和分类。尽管如此,动植物分类学仍然是较好的已有的构建分类标签层次的方法。而其他场景下的大量类别集合(如10类商品)则可类似构建一个多层次的层次关系图。

需要说明的是,层次化标签网络可以采用人工方式设计,也可以是系统自动生成,例如类似数据的层次化标签网络可以是基于以往的人工设计网络自动生成。

s202、获取待标记数据的数据特征。

s203、将数据特征分发给各个分层的分类网络。

s204、根据数据特征,通过分类网络获取不同分层的分类结果。

s205、从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。

本实施例中,可以对分类网络输出的分类结果进行审核,通过对分类结果的审核,可以确定分类结果是否正确。若审核通过,则根据分类结果启用下一层分类网络。

可选地,判断当前层分类网络的分类结果是否审核通过;若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;若属于预设的候选标签集,则从预设的候选标签集中选择正确的分类标签作为分类结果;若不属于预设的候选标签集,则确定分类结果为不属于本类别。

具体地,和传统的标注系统采用多人直接标注的方案不同,本技术因为已经将标签进行了层次化处理、因此每一个层次结点处需要一名标注人力,当然也可以一名标注人员负责系统中的多个节点,比如当多个节点下的工作量比较少且该人员在相关节点领域有相应能力,则可用分配负责多个节点;也可以一个节点由多个人标注,比如某些节点的数据量大但是任务简单,诸如进行粗粒度的鱼-鸟-哺乳类判断、但是随着标注数据量的积累,这类标注任务的工作量会因为标注系统自动判断出正确的类别而难度降低,因而工作量降低,标注人员只需要留意少部分误分类情况。除了标注人力和节点的映射关系外,在人员专业程度和分工也是该系统考虑点。因为每个人员的专业程度专业领域可能有所偏差,培养或招聘在多方面具有专业深度的人员的代价显然高于只有某方面擅长的人员。因此本层次标注系统中将擅长某一方面的人员分配到某一具体节点下面,而对于错误投放到该人员擅长的类目下的图片并不要求该人员进行类别确认,只需要该人员反馈“不属于该类”即可,这一技术方案设计基于如下常见认知:1.强行让该专业人员确认专业范围外的事物会使得该样例标注难度剧增且很可能给出的结果错误降低了标注质量,2.确认该类别“不属于该类”对专业人员更容易,系统根据反馈自动投放到其他高概率的可能类目下面请专业人员确认,这一过程对程序而言几乎不耗时。此外,由于层次关系的原因,一次投入的标注人员并不需要标注完所有层次结点,对于标注人员的安排可以只需要按照层次的拓扑关系,用少量人力逐层的完成交互式标注过程即可。所以该辅助标注技术中虽然根据类别有很多节点,但是投入的人力可以比较灵活的安排和调度。

在一种可选的实施方式中,若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对上一层分类网络进行迭代训练,直到上一层分类网络输出正确的分类结果。具体地,图5为本发明实施例提供的分类结果审核的流程示意图,如图5所示,引入审核之后,整个标注流程发生细微变化。标注人员校验该分类结果,如果分类结果正确,只需快捷键enter(某一快捷键)等进行快速确认通过。如果分类结果不正确,则判断该标注数据是否在候选类别中,如果在候选类别中,则选择候选类别完成标注,如果不在候选类别中则选择“不属于该系列”类别。自动辅助标注系统收集标注人员的标注选择,将这些数据(除“不属于该系列”外)用于训练该分类子网络,以提高下次分类预估正确率。此外,该辅助系统还根据用户的标注决策,对该数据按照标注结果分发给下一层分类子网络。如果用户选择“不属于该系列”,则标注系统将数据返回给上一层分类子系统,上一层子系统对应的标注人员重新确认该数据所归属的类别或特殊处理。本发明可以降低超多分类标注任务中需要投入的人力成本,通过融合人机协同、计算机辅助、人机界面改善等多方面技术点来提高标注人员的标注效率和标注质量,通过简单到复杂的分层标注方法能有效降低高成本专业人员的需求量,进而改善现有标注方法孤立依赖专业标注人员的现状。

在另一种可选的实施方式中,可以获取当前层分类网络的分类结果的预估准确率得分;其中,预估准确率得分与分类结果正确的次数正相关;若当前层分类网络的分类结果的预估准确率得分大于预设阈值,则直接跳过对当前层分类网络的分类结果的审核。

本实施例中,分类结果正确的次数越多,则预估准确率得到越高。采用本实施例中的方式,可以加快审核进程,减少审核人员数量,提高审核效率。

s206、将分类网络的分类结果作为数据标注结果。

本实施例中,步骤s202~步骤s204、步骤s206的具体实现过程和技术原理请参见图2所示的方法中步骤s101~步骤s104中的相关描述,此处不再赘述。

本实施例,通过特征提取网络获取待标记数据的数据特征;将数据特征分发给各个分层的分类网络;根据数据特征,通过分类网络获取不同分层的分类结果;其中,上一层分类网络的分类结果决定启用的下一层分类网络;将最后一层分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

另外,本实施例还可以根据待标记数据,构建层次化标签网络;层次化标签网络包括:特征提取网络和各个分层的分类网络。本实施例还可以对分类网络输出的分类结果进行审核,并根据审核结果进行处理。从而可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

图6为本发明实施例三提供的数据标注装置的结构示意图,如图6所示,本实施例中的数据标注装置可以包括:

提取模块31,用于获取待标记数据的数据特征;

分发模块32,用于将数据特征分发给各个分层的分类网络;

分类模块33,用于根据数据特征,通过分类网络获取不同分层的分类结果;

输出模块34,用于将分类网络的分类结果作为数据标注结果。

本实施例的数据标注装置,可以执行图2所示方法中的技术方案,其具体实现过程和技术原理参见图2所示方法中的相关描述,此处不再赘述。

本实施例,通过获取待标记数据的数据特征;将数据特征分发给各个分层的分类网络;根据数据特征,通过分类网络获取不同分层的分类结果;将分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

图7为本发明实施例四提供的数据标注装置的结构示意图,如图7所示,本实施例的数据标注装置在图6所示装置的基础上,还可以包括:

构建模块35,用于根据待标记数据,构建层次化标签网络;层次化标签网络包括:特征提取网络和各个分层的分类网络。

在一种可能的设计中,还包括:审核模块36,用于:

从第一层分类网络的分类结果开始,依次审核各个分层的分类网络的分类结果;

若所有分层的分类结果均审核通过,则获取最后一层分类网络的分类结果。

在一种可能的设计中,还包括:审核模块36,还用于:

判断当前层分类网络的分类结果是否审核通过;

若当前层分类网络的分类结果审核通过,则开启对下一层分类网络的分类结果的审核;

若当前层分类网络的分类结果审核不通过,则判断当前层分类网络的分类结果是否属于预设的候选标签集;

若属于预设的候选标签集,则从预设的候选标签集中选择正确的分类标签作为分类结果;

若不属于预设的候选标签集,则确定分类结果为不属于本类别。

在一种可能的设计中,还包括:反馈模块37,用于:

若当前层分类网络的分类结果为不属于本类别,则将数据特征反馈给上一层分类网络,以对上一层分类网络进行迭代训练,直到上一层分类网络输出正确的分类结果。

在一种可能的设计中,审核模块36,还用于:

获取当前层分类网络的分类结果的预估准确率得分;其中,预估准确率得分与分类结果正确的次数正相关;

若当前层分类网络的分类结果的预估准确率得分大于预设阈值,则直接跳过对当前层分类网络的分类结果的审核。

本实施例的数据标注装置,可以执行图2、图3所示方法中的技术方案,其具体实现过程和技术原理参见图2、图3所示方法中的相关描述,此处不再赘述。

本实施例,通过特征提取网络获取待标记数据的数据特征;将数据特征分发给各个分层的分类网络;根据数据特征,通过分类网络获取不同分层的分类结果;其中,上一层分类网络的分类结果决定启用的下一层分类网络;将最后一层分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

另外,本实施例还可以根据待标记数据,构建层次化标签网络;层次化标签网络包括:特征提取网络和各个分层的分类网络。本实施例还可以对分类网络输出的分类结果进行审核,并根据审核结果进行处理。从而可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

图8为本发明实施例五提供的数据标注系统的结构示意图,如图8所示,本实施例的数据标注系统40可以包括:处理器41和存储器42。

存储器42,用于存储程序;存储器42,可以包括易失性存储器(英文:volatilememory),例如随机存取存储器(英文:random-accessmemory,缩写:ram),如静态随机存取存储器(英文:staticrandom-accessmemory,缩写:sram),双倍数据率同步动态随机存取存储器(英文:doubledataratesynchronousdynamicrandomaccessmemory,缩写:ddrsdram)等;存储器也可以包括非易失性存储器(英文:non-volatilememory),例如快闪存储器(英文:flashmemory)。存储器42用于存储计算机程序(如实现上述方法的应用程序、功能模块等)、计算机指令等,上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指令、数据等可以被处理器41调用。

上述的计算机程序、计算机指令等可以分区存储在一个或多个存储器42中。并且上述的计算机程序、计算机指据等可以被处理器41调用。

处理器41,用于执行存储器42存储的计算机程序,以实现上述实施例涉及的方法中的各个步骤。

具体可以参见前面方法实施例中的相关描述。

处理器41和存储器42可以是独立结构,也可以是集成在一起的集成结构。当处理器41和存储器42是独立结构时,存储器42、处理器41可以通过总线43耦合连接。

本实施例,通过特征提取网络获取待标记数据的数据特征;将数据特征分发给各个分层的分类网络;根据数据特征,通过分类网络获取不同分层的分类结果;其中,上一层分类网络的分类结果决定启用的下一层分类网络;将最后一层分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

本实施例的数据标注系统可以执行图2、图3所示方法中的技术方案,其具体实现过程和技术原理参见图2、图3所示方法中的相关描述,此处不再赘述。

此外,本申请实施例还提供一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当用户设备的至少一个处理器执行该计算机执行指令时,用户设备执行上述各种可能的方法。

本实施例,通过特征提取网络获取待标记数据的数据特征;将数据特征分发给各个分层的分类网络;根据数据特征,通过分类网络获取不同分层的分类结果;其中,上一层分类网络的分类结果决定启用的下一层分类网络;将最后一层分类网络的分类结果作为数据标注结果。本发明适用于多个标签的数据标注场景,可以有效减少人力成本投入,提高数据标注效率和数据标注质量。

其中,计算机可读介质包括计算机存储介质和通信介质,其中通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。存储介质可以是通用或专用计算机能够存取的任何可用介质。一种示例性的存储介质耦合至处理器,从而使处理器能够从该存储介质读取信息,且可向该存储介质写入信息。当然,存储介质也可以是处理器的组成部分。处理器和存储介质可以位于asic中。另外,该asic可以位于用户设备中。当然,处理器和存储介质也可以作为分立组件存在于通信设备中。

本领域普通技术人员可以理解:实现上述各方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成。前述的程序可以存储于一计算机可读取存储介质中。该程序在执行时,执行包括上述各方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质。

最后应说明的是:以上各实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述各实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或对其中部分或全部技术特征进行等同替换;而这些修改或替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的范围。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1