一种基于机器学习的数据标注方法和装置以及设备与流程

文档序号:21085410发布日期:2020-06-12 16:52阅读:326来源:国知局
一种基于机器学习的数据标注方法和装置以及设备与流程

本发明涉及数据标注技术领域,尤其涉及一种基于机器学习的数据标注方法和装置以及设备。



背景技术:

目前,机器学习在处理自然语言时,需要标注大量不同类别的数据。例如,机器学习在处理整形美容科室的自然语言时,需要标注的数据一般包括意图识别数据、ner(namedentityrecognition,命名实体识别)数据和项目对齐数据等;其中,该项目对齐数据在不同的美容医院对相同项目的叫法可以不同,例如微创双眼皮、小清新双眼皮和三定位双眼皮等都是表示双眼皮项目对齐数据。

另外,在机器学习中,还有一项数据叫联合学习数据,该联合学习数据意思是说多种类别数据联合起来标注,例如将意图识别数据和命名实体识别数据联合起来标注。

然而,现有的基于机器学习的数据标注方案,一般只标注所需要的相同类别的数据,例如需要意图识别数据时只标注该意图识别数据,需要命名实体识别数据时只标注该命名实体识别数据,但是这些标注的相同类别的数据在原文对话没有关联在一起,无法实现兼容多种类别的标注数据的联合学习。



技术实现要素:

有鉴于此,本发明的目的在于提出一种基于机器学习的数据标注方法和装置以及设备,能够实现兼容多种类别的标注数据的联合学习。

根据本发明的一个方面,提供一种基于机器学习的数据标注方法,包括:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;对所述分别标注的不同类别的数据进行关联;对所述经关联后的不同类别的标注数据进行联合学习。

其中,所述对所述分别标注的不同类别的数据进行关联,还包括:采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对所述分别标注的不同类别的数据进行关联。

其中,在所述对所述经关联后的不同类别的标注数据进行联合学习之后,还包括:抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。

其中,所述抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化,包括:采用将数据量按从大到小顺序的抽取方式,抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。

根据本发明的另一个方面,提供一种基于机器学习的数据标注装置,包括:标注模块、关联模块和学习模块;所述标注模块,用于通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注;所述关联模块,用于对所述分别标注的不同类别的数据进行关联;所述学习模块,用于对所述经关联后的不同类别的标注数据进行联合学习。

其中,所述关联模块,具体用于:采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对所述分别标注的不同类别的数据进行关联。

其中,所述基于机器学习的数据标注装置,还包括:优化模块;所述优化模块,用于抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。

其中,所述优化模块,具体用于:采用将数据量按从大到小顺序的抽取方式,抽取所述经联合学习后的不同类别的标注数据,根据所述抽取的标注数据,对所述标注数据进行优化。

根据本发明的又一个方面,提供一种基于机器学习的数据标注设备,包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上述任一项所述的基于机器学习的数据标注方法。

根据本发明的再一个方面,提供一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述的基于机器学习的数据标注方法。

可以发现,以上方案,可以通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注,和可以对该分别标注的不同类别的数据进行关联,以及可以对该经关联后的不同类别的标注数据进行联合学习,能够实现兼容多种类别的标注数据的联合学习。

进一步的,以上方案,可以采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联,这样的好处是能够实现将不同类别的数据进行关联,便于兼容多种类别的标注数据的联合学习。

进一步的,以上方案,可以抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现通过对标注数据进行抽取的方式,对经联合学习后的不同类别的标注数据的学习有效性进行校验,提高了该联合学习的有效性。

进一步的,以上方案,可以采用将数据量按从大到小顺序的抽取方式,抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现保证数据量小的该标注数据能够被提取到,能够提高对经联合学习后的不同类别的标注数据的学习有效性校验。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1是本发明基于机器学习的数据标注方法一实施例的流程示意图;

图2是本发明基于机器学习的数据标注方法另一实施例的流程示意图;

图3是本发明基于机器学习的数据标注装置一实施例的结构示意图;

图4是本发明基于机器学习的数据标注装置另一实施例的结构示意图;

图5是本发明基于机器学习的数据标注设备一实施例的结构示意图。

具体实施方式

下面结合附图和实施例,对本发明作进一步的详细描述。特别指出的是,以下实施例仅用于说明本发明,但不对本发明的范围进行限定。同样的,以下实施例仅为本发明的部分实施例而非全部实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明提供一种基于机器学习的数据标注方法,能够实现兼容多种类别的标注数据的联合学习。

请参见图1,图1是本发明基于机器学习的数据标注方法一实施例的流程示意图。需注意的是,若有实质上相同的结果,本发明的方法并不以图1所示的流程顺序为限。如图1所示,该方法包括如下步骤:

s101:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注。

在本实施例中,该相同的原谅对话可以是一段话,也可以是一句话,还可以是一篇文章等,本发明不加以限定。

s102:对该分别标注的不同类别的数据进行关联。

其中,该对该分别标注的不同类别的数据进行关联,还可以包括:

采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联,这样的好处是能够实现将不同类别的数据进行关联,便于兼容多种类别的标注数据的联合学习。

s103:对该经关联后的不同类别的标注数据进行联合学习。

其中,在该对该经关联后的不同类别的标注数据进行联合学习之后,还可以包括:

抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现通过对标注数据进行抽取的方式,对经联合学习后的不同类别的标注数据的学习有效性进行校验,提高了该联合学习的有效性。

可以发现,在本实施例中,可以通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注,和可以对该分别标注的不同类别的数据进行关联,以及可以对该经关联后的不同类别的标注数据进行联合学习,能够实现兼容多种类别的标注数据的联合学习。

进一步的,在本实施例中,可以采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联,这样的好处是能够实现将不同类别的数据进行关联,便于兼容多种类别的标注数据的联合学习。

请参见图2,图2是本发明基于机器学习的数据标注方法另一实施例的流程示意图。本实施例中,该方法包括以下步骤:

s201:通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注。

可如上s101所述,在此不作赘述。

s202:对该分别标注的不同类别的数据进行关联。

可如上s102所述,在此不作赘述。

s203:对该经关联后的不同类别的标注数据进行联合学习。

可如上s103所述,在此不作赘述。

s204:抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化。

其中,该抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,可以包括:

采用将数据量按从大到小顺序的抽取方式,抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现保证数据量小的该标注数据能够被提取到,能够提高对经联合学习后的不同类别的标注数据的学习有效性校验。

可以发现,在本实施例中,可以抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现通过对标注数据进行抽取的方式,对经联合学习后的不同类别的标注数据的学习有效性进行校验,提高了该联合学习的有效性。

进一步的,在本实施例中,可以采用将数据量按从大到小顺序的抽取方式,抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现保证数据量小的该标注数据能够被提取到,能够提高对经联合学习后的不同类别的标注数据的学习有效性校验。

本发明还提供一种基于机器学习的数据标注装置,能够实现兼容多种类别的标注数据的联合学习。

请参见图3,图3是本发明基于机器学习的数据标注装置一实施例的结构示意图。本实施例中,该基于机器学习的数据标注装置30包括标注模块31、关联模块32和学习模块33。

该标注模块31,用于通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注。

该关联模块32,用于对该分别标注的不同类别的数据进行关联。

该学习模块33,用于对该经关联后的不同类别的标注数据进行联合学习。

可选地,该关联模块32,可以具体用于:

采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联。

请参见图4,图4是本发明基于机器学习的数据标注装置另一实施例的结构示意图。区别于上一实施例,本实施例所述基于机器学习的数据标注装置40还包括优化模块41。

该优化模块41,用于抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化。

可选地,该优化模块41,可以具体用于:

采用将数据量按从大到小顺序的抽取方式,抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化。

该基于机器学习的数据标注装置30/40的各个单元模块可分别执行上述方法实施例中对应步骤,故在此不对各单元模块进行赘述,详细请参见以上对应步骤的说明。

本发明又提供一种基于机器学习的数据标注设备,如图5所示,包括:至少一个处理器51;以及,与至少一个处理器51通信连接的存储器52;其中,存储器52存储有可被至少一个处理器51执行的指令,指令被至少一个处理器51执行,以使至少一个处理器51能够执行上述的基于机器学习的数据标注方法。

其中,存储器52和处理器51采用总线方式连接,总线可以包括任意数量的互联的总线和桥,总线将一个或多个处理器51和存储器52的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起,这些都是本领域所公知的,因此,本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件,也可以是多个元件,比如多个接收器和发送器,提供用于在传输介质上与各种其他装置通信的单元。经处理器51处理的数据通过天线在无线介质上进行传输,进一步,天线还接收数据并将数据传送给处理器51。

处理器51负责管理总线和通常的处理,还可以提供各种功能,包括定时,外围接口,电压调节、电源管理以及其他控制功能。而存储器52可以被用于存储处理器51在执行操作时所使用的数据。

本发明再提供一种计算机可读存储介质,存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

可以发现,以上方案,可以通过机器学习方式,从相同的原文对话中,对不同类别的数据进行分别标注,和可以对该分别标注的不同类别的数据进行关联,以及可以对该经关联后的不同类别的标注数据进行联合学习,能够实现兼容多种类别的标注数据的联合学习。

进一步的,以上方案,可以采用对来源于相同出处的对话的不同类别的标注数据记录相同标记的方式,对该分别标注的不同类别的数据进行关联,这样的好处是能够实现将不同类别的数据进行关联,便于兼容多种类别的标注数据的联合学习。

进一步的,以上方案,可以抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现通过对标注数据进行抽取的方式,对经联合学习后的不同类别的标注数据的学习有效性进行校验,提高了该联合学习的有效性。

进一步的,以上方案,可以采用将数据量按从大到小顺序的抽取方式,抽取该经联合学习后的不同类别的标注数据,根据该抽取的标注数据,对该标注数据进行优化,这样的好处是能够实现保证数据量小的该标注数据能够被提取到,能够提高对经联合学习后的不同类别的标注数据的学习有效性校验。

在本发明所提供的几个实施方式中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本发明各个实施方式中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本发明各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅为本发明的部分实施例,并非因此限制本发明的保护范围,凡是利用本发明说明书及附图内容所作的等效装置或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1