本说明书涉及自然语言处理,尤其涉及一种模型训练的方法、装置、设备及存储介质。
背景技术:
1、目前,在自然语言处理技术中,通常会抽取出文本中包含的实体之间的语义关系,以用于进行机器翻译、情感分析、问答系统等任务,这里的实体之间的语义关系可以是例如:在文本“巴黎是法国的城市”中包含有“巴黎”和“法国”两个实体,并且这两个实体之间的语义关系即为包含关系。
2、现有技术中,通常会通过预测模型来预测文本中是否存在实体之间的语义关系,进而可以根据预测结果执行不同的任务,而在对预测模型进行训练时需要预先标记好大量的样本文本,以基于这些样本文本对模型进行训练。但是,标记大量的样本文本极大的增加了预测模型的训练成本。
3、因此,如何降低预测模型的训练成本则是一个亟待解决的问题。
技术实现思路
1、本说明书提供一种模型训练的方法、装置、设备及存储介质,以部分的解决现有技术存在的上述问题。
2、本说明书采用下述技术方案:
3、本说明书提供了一种模型训练的方法,所述方法包括:
4、获取各待标记样本集;
5、针对每个待标记样本集,将该待标记样本集中包含的各待标记样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对该待标记样本集的标记结果,所述标记结果用于表示该待标记样本集中是否包含有具有实体关系的样本;
6、若确定所述标记结果为指定标记结果,则将该待标记样本集中的每个待标记样本发送到标记人员所使用的设备中,并根据接收到的所述设备返回的返回结果,确定针对该待标记样本集中的每个待标记样本的实际标记结果,所述实际标记结果用于表示该待标记样本中包含的实体之间是否存在实体关系;
7、根据所述实际标记结果,对该待标记样本集进行划分,得到正样本集和负样本集,其中,所述正样本集中包含有具有实体关系的样本,所述负样本集中包含有不具有实体关系的样本;
8、将所述正样本集中包含的各样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对所述正样本集的标记结果,以及将所述负样本集中包含的各样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对所述负样本集的标记结果;
9、以最小化所述预测模型输出的针对所述正样本集的标记结果以及所述负样本集标记结果,和所述正样本集以及所述负样本集的实际标记结果之间的偏差为训练目标,对所述预测模型进行训练,所述预测模型用于对接收到的待标记文本进行标记,得到标记后文本,并将所述标记后文本发送到下游节点执行相应的任务。
10、可选地,获取各待标记样本集,具体包括:
11、获取各未标记文本;
12、根据每个未标记文本中包含的实体,将所述各未标记文本进行划分,得到各未标记文本集,并从所述各未标记文本集中筛选出至少部分未标记文本集,作为各待标记样本集。
13、可选地,从所述各未标记文本集中筛选出至少部分未标记文本集,具体包括:
14、针对每个未标记文本集,通过指定采样方法,确定该未标记文本集对应的贡献度,所述指定采样方法包括:基于费舍尔fisher信息矩阵采样方法、基于不确定性采样方法、基于多样性采样方法中的至少一种,所述贡献度用于表示将该未标记样本集进行标记后用于对所述预测模型的进行训练,对所述预测模型的性能的提升程度;
15、根据每个未标记文本集对应的贡献度,从所述各未标记文本集中筛选出至少部分未标记文本集。
16、可选地,针对每个待标记样本集,将该待标记样本集中包含的各待标记样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对该待标记样本集的标记结果之前,所述方法还包括:
17、获取已标记样本集;
18、将所述已标记样本集中的每个样本输入到预测模型中,以使所述预测模型针对所述已标记样本集中的每个样本,确定该样本中包含的实体之间是否存在实体关系的概率值,并根据确定出的该样本中包含的实体之间是否存在实体关系的概率值,确定该样本对应的不确定值以及该样本的标记结果;
19、根据所述已标记样本集中的每个样本的标记结果以及每个样本对应的不确定值,得到所述预测模型输出的针对所述已标记样本集的标记结果;
20、以最小化根据所述预测模型输出的所述已标记样本集中每个样本包含的实体之间是否存在实体关系的概率值,得到的针对所述已标记样本集的标记结果,和该已标记样本集的实际标记结果之间的偏差为训练目标,对所述预测模型进行初始训练。
21、可选地,将该待标记样本集中的每个待标记样本发送到标记人员所使用的设备中之前,所述方法还包括:
22、根据所述预测模型的输出结果,确定该待标记样本集中的每个待标记样本属于正样本的概率,并根据每个待标记样本属于正样本的概率,确定每个待标记样本对应的置信度;
23、根据所述置信度,对各待标记样本进行排序,得到排序后待标记样本集;
24、将该待标记样本集中的每个待标记样本发送到标记人员所使用的设备中,具体包括:
25、将所述排序后待标记样本集中的每个待标记样本发送到标记人员所使用的设备中。
26、可选地,根据接收到的所述设备返回的返回结果,确定针对该待标记样本集中的每个待标记样本的实际标记结果,具体包括:
27、针对所述待标记样本集中的每个待标记样本,根据接收到的所述设备返回的返回结果,确定每个标记人员针对该待标记样本的初始标记结果;
28、根据预设的每个标记人员的权重,将每个标记人员针对该待标记样本的初始标记结果融合,确定针对该待标记样本的实际标记结果。
29、本说明书提供了一种实体关系预测方法,所述方法包括:
30、获取待标记文本集;
31、将所述待标记文本集输入到预先训练的预测模型中,以使所述预测模型针对所述待标记文本集中的每个文本,确定该文本中包含的实体之间是否存在实体关系的概率值,并根据所述待标记文本集中的每个文本包含的实体之间是否存在实体关系的概率值,得到所述待标记文本集的标记结果,以及所述待标记文本集中的每个文本的标记结果,所述预测模型通过上述模型训练的方法训练得到;
32、将所述待标记文本集的标记结果,以及所述待标记文本集中的每个文本的标记结果,发送到下游节点以执行相应的任务。
33、本说明书提供了一种模型训练的装置,包括:
34、获取模块,用于获取各待标记样本集;
35、第一标记模块,用于针对每个待标记样本集,将该待标记样本集中包含的各待标记样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对该待标记样本集的标记结果,所述标记结果用于表示该待标记样本集中是否包含有具有实体关系的样本;
36、第二标记模块,用于若确定所述标记结果为指定标记结果,则将该待标记样本集中的每个待标记样本发送到标记人员所使用的设备中,并根据接收到的所述设备返回的返回结果,确定针对该待标记样本集中的每个待标记样本的实际标记结果,所述实际标记结果用于表示该待标记样本中包含的实体之间是否存在实体关系;
37、拆分模块,用于根据所述实际标记结果,对该待标记样本集进行划分,得到正样本集和负样本集,其中,所述正样本集中包含有具有实体关系的样本,所述负样本集中包含有不具有实体关系的样本;
38、预测模块,用于将所述正样本集中包含的各样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对所述正样本集的标记结果,以及将所述负样本集中包含的各样本输入到预测模型中,并根据所述预测模型的输出结果,得到针对所述负样本集的标记结果;
39、训练模块,用于以最小化所述预测模型输出的针对所述正样本集的标记结果以及所述负样本集标记结果,和所述正样本集以及所述负样本集的实际标记结果之间的偏差为训练目标,对所述预测模型进行训练,所述预测模型用于对接收到的待标记文本进行标记,得到标记后文本,并将所述标记后文本发送到下游节点执行相应的任务。
40、可选地,所述获取模块具体用于,获取各未标记文本;根据每个未标记文本中包含的实体,将所述各未标记文本进行划分,得到各未标记文本集,并从所述各未标记文本集中筛选出至少部分未标记文本集,作为各待标记样本集。
41、可选地,所述获取模块具体用于,针对每个未标记文本集,通过指定采样方法,确定该未标记文本集对应的贡献度,所述指定采样方法包括:基于费舍尔fisher信息矩阵采样方法、基于不确定性采样方法、基于多样性采样方法中的至少一种,所述贡献度用于表示将该未标记样本集进行标记后用于对所述预测模型的进行训练,对所述预测模型的性能的提升程度;根据每个未标记文本集对应的贡献度,从所述各未标记文本集中筛选出至少部分未标记文本集。
42、可选地,所述训练模块还用于,获取已标记样本集;将所述已标记样本集中的每个样本输入到预测模型中,以使所述预测模型针对所述已标记样本集中的每个样本,确定该样本中包含的实体之间是否存在实体关系的概率值,并根据确定出的该样本中包含的实体之间是否存在实体关系的概率值,确定该样本对应的不确定值以及该样本的标记结果;根据所述已标记样本集中的每个样本的标记结果以及每个样本对应的不确定值,得到所述预测模型输出的针对所述已标记样本集的标记结果;以最小化根据所述预测模型输出的所述已标记样本集中每个样本包含的实体之间是否存在实体关系的概率值,得到的针对所述已标记样本集的标记结果,和该已标记样本集的实际标记结果之间的偏差为训练目标,对所述预测模型进行初始训练。
43、可选地,所述第一标记模块还用于,根据所述预测模型的输出结果,确定该待标记样本集中的每个待标记样本属于正样本的概率,并根据每个待标记样本属于正样本的概率,确定每个待标记样本对应的置信度;根据所述置信度,对各待标记样本进行排序,得到排序后待标记样本集;
44、所述第二标记模块具体用于,将所述排序后待标记样本集中的每个待标记样本发送到标记人员所使用的设备中。
45、可选地,所述第二标记模块具体用于,针对所述待标记样本集中的每个待标记样本,根据接收到的所述设备返回的返回结果,确定每个标记人员针对该待标记样本的初始标记结果;根据预设的每个标记人员的权重,将每个标记人员针对该待标记样本的初始标记结果融合,确定针对该待标记样本的实际标记结果。
46、本说明书提供了一种实体关系预测装置,包括:
47、文本获取模块,用于获取待标记文本集;
48、文本标记模块,用于将所述待标记文本集输入到预先训练的预测模型中,以使所述预测模型针对所述待标记文本集中的每个文本,确定该文本中包含的实体之间是否存在实体关系的概率值,并根据所述待标记文本集中的每个文本包含的实体之间是否存在实体关系的概率值,得到所述待标记文本集的标记结果,以及所述待标记文本集中的每个文本的标记结果,所述预测模型通过上述模型训练的方法训练得到;
49、任务执行模块,用于将所述待标记文本集的标记结果,以及所述待标记文本集中的每个文本的标记结果,发送到下游节点以执行相应的任务。
50、本说明书提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述模型训练的方法。
51、本说明书提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述模型训练的方法。
52、本说明书采用的上述至少一个技术方案能够达到以下有益效果:
53、在本说明书提供的模型训练方法,首先获取各待标记样本集,针对每个待标记样本集,将该待标记样本集中包含的各待标记样本输入到预测模型中,并根据预测模型的输出结果,得到针对该待标记样本集的标记结果,其中,标记结果用于表示该待标记样本集中是否包含有具有实体关系的样本,若确定标记结果为指定标记结果,则将该待标记样本集中的每个待标记样本发送到标记人员所使用的设备中,并根据接收到的设备返回的返回结果,确定针对该待标记样本集中的每个待标记样本的实际标记结果,这里的实际标记结果用于表示该待标记样本中包含的实体之间是否存在实体关系,根据实际标记结果,对该待标记样本集进行划分,得到正样本集和负样本集,其中,正样本集中包含有具有实体关系的样本,负样本集中包含有不具有实体关系的样本,将正样本集中包含的各样本输入到预测模型中,并根据预测模型的输出结果,得到针对正样本集的标记结果,以及将负样本集中包含的各样本输入到预测模型中,并根据预测模型的输出结果,得到针对负样本集的标记结果,以最小化预测模型输出的针对正样本集的标记结果以及负样本集标记结果,和正样本集以及负样本集的实际标记结果之间的偏差为训练目标,对预测模型进行训练,预测模型用于对接收到的待标记文本进行标记,得到标记后文本,并将标记后文本发送到下游节点执行相应的任务。
54、从上述方法中可以看出,可以先通过预测模型对各待标记样本集进行标记,并将标记结果为指定标记结果的各待标记样本集中的各待标记样本筛选出来,交由标记人员进行人工标记,这里的指定标记结果是指预先设置的预测模型容易出现识别错误的一类样本的标记结果,从而可以根据标记人员针对预测模型容易出现识别错误的一类样本的标记结果,对用于训练预测模型的待标记样本集进行拆分、重新聚合得到新的样本集,并使用新的样本集对预测模型进行训练,进而可以在减少需要人工标记的样本的数量以降低预测模型的训练成本的同时,提升预测模型的训练效果。