1.本发明涉及计算机技术领域,特别是涉及一种摘要生成模型训练方法、摘要生成方法、装置及电子设备。
背景技术:2.自然语言处理(natural language processing,nlp)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法,主要应用于机器翻译、舆情监测、自动摘要、观点提取、文本分类、问题回答、文本语义对比、语音识别等方面。
3.在当今世界中数据爆炸增长,缺乏人力和时间来解析数据,因此自动文本摘要方法至关重要。长文本内容压缩、归纳和总结,形成具有概括含义的短文本摘要,能够帮助用户快速捕捉重要内容,节省阅读成本。目前由长文本生成短文本摘要的方式,通常是通过无监督摘要抽取,即不需要语料进行模型训练,通过设置句子之间相似度的处理规则,抽取长文本中排名高的句子组合成文本摘要。该方法通常无法识别句子深层语义,导致最终生成的摘要的可读性差。
技术实现要素:4.本发明实施例的目的在于提供一种摘要生成模型训练方法、摘要生成方法、装置及电子设备,以解决现有的摘要生成方式生成的摘要的可读性差的问题。
5.具体技术方案如下:
6.在本发明实施的第一方面,首先提供了一种摘要生成模型训练方法,包括:
7.获取待训练的第一样本数据,所述第一样本数据包括n个样本摘要句、n个标准摘要句和每一样本摘要句对应的主语标识信息,所述样本摘要句与所述标准摘要句一一对应,所述样本摘要句包括目标人名、所述目标人名对应的目标人名标记,所述目标人名标记与主语标识信息关联,所述主语标识信息用于描述所述目标人名标记对应的目标人名是否为主语;
8.将所述第一样本数据输入第一摘要生成模型,所述第一摘要生成模型包括统一预训练语言模型unilm模型和二分类模型,所述unilm模型的输出端与所述二分类模型的输入端连接;
9.建立损失函数,所述损失函数包括第一子损失函数和第二子损失函数,所述第一子损失函数基于所述n个样本摘要句和所述n个标准摘要句确定,所述第二子损失函数基于所述目标人名和所述主语标识信息确定;
10.基于所述损失函数,对所述第一摘要生成模型进行训练,得到目标摘要生成模型。
11.在本发明实施的第二方面,还提供了一种摘要生成方法,包括:
12.获取待处理的目标文本,所述目标文本包括至少一个划分句;
13.将所述目标文本作为摘要抽取模型的输入,对所述至少一个划分句进行预测,得
到摘要候选句;
14.将所述摘要候选句作为目标摘要生成模型的输入,生成目标摘要句;
15.其中,所述目标摘要生成模型基于如第一方面所述的摘要生成模型训练方法训练生成。
16.在本发明实施的第三方面,还提供了一种摘要生成模型的训练装置,包括:
17.第一获取模块,用于获取待训练的第一样本数据,所述第一样本数据包括n个样本摘要句、n个标准摘要句和每一样本摘要句对应的主语标识信息,所述样本摘要句与所述标准摘要句一一对应,所述样本摘要句包括目标人名、所述目标人名对应的目标人名标记,所述目标人名标记与主语标识信息关联,所述主语标识信息用于描述所述目标人名标记对应的目标人名是否为主语;
18.第一输入模块,用于将所述第一样本数据输入第一摘要生成模型,所述第一摘要生成模型包括统一预训练语言模型unilm模型和二分类模型,所述unilm模型的输出端与所述二分类模型的输入端连接;
19.建立模块,用于建立损失函数,所述损失函数包括第一子损失函数和第二子损失函数,所述第一子损失函数基于所述n个样本摘要句和所述n个标准摘要句确定,所述第二子损失函数基于所述目标人名和所述主语标识信息确定;
20.训练模块,用于基于所述损失函数,对所述第一摘要生成模型进行训练,得到目标摘要生成模型。
21.在本发明实施的第四方面,还提供了一种摘要生成装置,包括:
22.第二获取模块,用于获取待处理的目标文本所述目标文本包括至少一个划分句;
23.第二输入模块,用于将所述目标文本作为摘要抽取模型的输入,对所述至少一个划分句进行预测,得到摘要候选句;
24.第三输入模块,用于将所述摘要候选句作为目标摘要生成模型的输入,生成目标摘要句;
25.其中,所述目标摘要生成模型基于如第一方面所述的摘要生成模型训练方法训练生成。
26.在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
27.在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面所述的方法。
28.本发明实施例提供的摘要生成模型训练方法,通过在unilm模型的基础上,设置二分类模型,将unilm模型的输出端与二分类模型的输入端连接,组成第一摘要生成模型,并由第一样本数据对第一摘要生成模型进行训练,从而可以根据第一样本数据建立包括第一子损失函数和第二子损失函数的损失函数,基于损失函数训练得到目标摘要生成模型。由于第一子损失函数基于n个样本摘要句和所述n个标准摘要句确定,而第二子损失函数基于所述目标人名和所述主语标识信息确定,因此在通过目标摘要生成模型进行摘要生成时,可以避免出现主语漂移的现象,提升了生成的摘要的准确性和可读性。
附图说明
29.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
30.图1是本发明实施例中的摘要生成模型训练方法的流程图;
31.图2是本发明实施例中的场景示意图;
32.图3是本发明实施例中的数据摘要生成方法的流程图;
33.图4是本发明实施例中的场景架构图;
34.图5是本发明实施例中的摘要生成模型训练装置的结构示意图;
35.图6是本发明实施例中的摘要生成装置的结构示意图;
36.图7是本发明实施例中的电子设备的结构示意图。
具体实施方式
37.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
38.参见图1,图1是本发明实施例提供的一种摘要生成模型训练方法的流程图,如图1所示,包括以下步骤:
39.步骤101、获取待训练的第一样本数据,所述第一样本数据包括n个样本摘要句、n个标准摘要句和每一样本摘要句对应的主语标识信息,所述样本摘要句与所述标准摘要句一一对应,所述样本摘要句包括目标人名、所述目标人名对应的目标人名标记,所述目标人名标记与主语标识信息关联,所述主语标识信息用于描述所述目标人名标记对应的目标人名是否为主语。
40.步骤102、将所述第一样本数据输入第一摘要生成模型,所述第一摘要生成模型包括统一预训练语言模型unilm模型和二分类模型,所述unilm模型的输出端与所述二分类模型的输入端连接。
41.步骤103、建立损失函数,所述损失函数包括第一子损失函数和第二子损失函数,所述第一子损失函数基于所述n个样本摘要句和所述n个标准摘要句确定,所述第二子损失函数基于所述目标人名和所述主语标识信息确定。
42.步骤104、基于所述损失函数,对所述第一摘要生成模型进行训练,得到目标摘要生成模型。
43.通常地,为了获得段落文本中的摘要句,需要先在文本中定位出用于生成摘要句的句子文本,再进一步对句子文本进行简化处理,从而得到摘要句。也即,最终生成的摘要句一般由用于生成摘要句的句子文本中的至少部分字符组成。
44.可以理解的是,上述段落文本中,句子文本的划分,可以以文本段落内的标点符号,即句号来进行划分,两个句号之间的文本可以作为一个句子文本。
45.示例性地,在“城市清晨的空气清新。老曾提着大茶缸子,锁了院门。老王靠在车头,一手豆浆一手包子,看着前边广场上载歌载舞的老头老太太们。老倪一身花衬衫,在广场舞的队伍里游刃有余,不时跟老太太打个招呼抛个媚眼。”的段落文本中,摘要句所位于的句子文本可以为“老倪一身花衬衫,在广场舞的队伍里游刃有余,不时跟老太太打个招呼抛个媚眼”,而最终人工生成的摘要句可以为“倪抛媚眼”。
46.在上述步骤101中,上述样本摘要句,即可以为上述段落文本中,用于生成摘要句
的句子文本。而上述标准摘要句,基于样本摘要句人工简化处理生成,作为样本摘要句的基准。也即,上述样本数据中,可以包括n对句子文本,其中每对句子文本中包括一个样本摘要句和与之对应的标准摘要句。
47.可以理解的是,上述第一样本数据,为预设的待训练数据,可以预先由机器或者人工处理生成。
48.具体地,上述n个样本摘要句,可以基于摘要定位模型生成,即可以通过将预设的n个段落文本输入摘要定位模型,输出上述n个样本摘要句,上述摘要定位模型可以为基于bertsum模型训练得到,具体用于定位预设文本段落内的摘要候选句。当然,在其他可选的实施例中,上述n个样本摘要句,也可以由人工简化处理生成。而上述标准摘要句,可以由人工简化处理生成,以确保上述标准摘要句的准确性可读性。
49.进一步地,为了避免训练后的摘要生成模型出现主语漂移的现象。例如在生成摘要句的过程中,根据“老曾踢了老汪一脚,他赶紧跑,以免老汪还手”的句子文本生成了“老汪踢了老曾”的摘要句。在本发明实施例中,上述第一样本数据中,样本摘要句还可以进一步包括目标人名,以及目标人名对应的目标人名标记,目标人名标记与主语标识信息关联,主语标识信息用于描述目标人名标记对应的目标人名是否为主语。
50.具体而言,上述目标人名可以为上述样本摘要句中所出现的全部人名。上述目标人名标记,可以基于匹配消隐(matching the blanks)的数据实体标记方式生成。
51.以“老曾踢了老汪一脚,他赶紧跑,以免老汪还手”的句子文本为例,上述句子文本可以通过上述数据实体标记方式,以目标人名标记“[e0]、[e1]、[e2]”分别标记句子文本中的人名,得到“[e0]老曾[e0]踢了[e1]老汪[e1]一脚,他赶紧跑,以免[e2]老汪[e2]还手”的样本摘要句。其中,目标人名的相邻的左右两侧均可以包括对应的目标人名标记。
[0052]
上述目标人名标记,同时还与主语标识信息关联,在一可选的实施例中,上述主语标识信息可以为一个标签(label),其中标签可以以数组的形式存在,包括与上述目标人名一一对应的元素,且每一元素用于表示对应的目标人名是否为主语。具体而言,可以将目标人名中的主语对应的元素设置为1,而非主语对应的元素设置为0。则上述[e0]、[e1]和[e2]三个目标人名标记,即与(1,0,0)的一维向量关联,表示[e0]对应的老曾为主语,而[e1]和[e2]对应的老汪不为主语。
[0053]
在获取到上述待训练的第一样本数据后,在上述步骤102中,电子设备可以将上述第一样本数据作为上述第一摘要生成模型的输入。由于上述第一样本数据中,上述样本摘要句还进一步包括目标人名标识,目标人名标识与主语标识信息关联,因此,上述第一摘要生成模型可以包括unilm模型和二分类模型,且unilm模型的输出端与二分类模型的输入端连接。上述unilm模型在经过训练后,用于实现摘要句的生成,而上述二分类模型在经过训练后,则用于进行主语识别。即本发明实施例可以将样本摘要句和标准摘要句首先输入上述unilm模型,而后将unilm模型的输出作为上述二分类模型的输入,通过分别构建两个模型的损失函数,从而实现对上述第一摘要生成模型的训练。
[0054]
上述第一摘要生成模型可以基于损失函数进行训练,在上述步骤103和上述步骤104中,上述损失函数可以包括第一子损失函数和第二子损失函数,上述第一子损失函数即可以由样本摘要句和标准摘要句,基于unilm模型确定。而上述第二子损失函数,即可以由目标人名和主语标识信息,基于二分类模型确定。
[0055]
上述第一摘要生成模型,与序列到序列(sequence to sequence)模型的训练方法类似。在训练过程中,可以将上述第一样本数据,即上述n个样本摘要句和上述n个标准摘要句,作为上述第一摘要生成模型的输入,对模型进行优化训练。
[0056]
上述样本摘要句,即可以理解为原始序列(source sequence),而上述标准摘要句,可以理解为目标序列(target sequence),在训练过程中,可以一并将上述样本摘要句和标准摘要句作为第一摘要生成模型的输入,并建立样本摘要句和标准摘要句之间一一对应的关联关系。在训练过程中,在训练过程中,样本摘要句和标准摘要句中的字符会被随机替换为特殊的字符[mask],由上述第一摘要生成模型对[mask]进行预测,从而可以通过减小预测结果和原句之间的交叉熵,来优化损失函数。同时第一摘要生成模型也能够学习到样本摘要句和标准摘要句之间存在的关联关系。
[0057]
本发明实施例提供的摘要生成模型训练方法,通过在unilm模型的基础上,设置二分类模型,将unilm模型的输出端与二分类模型的输入端连接,组成第一摘要生成模型,并由第一样本数据对第一摘要生成模型进行训练,从而可以根据第一样本数据建立包括第一子损失函数和第二子损失函数的损失函数,基于损失函数训练得到目标摘要生成模型。由于第一子损失函数基于n个样本摘要句和所述n个标准摘要句确定,而第二子损失函数基于所述目标人名和所述主语标识信息确定,因此在通过目标摘要生成模型进行摘要生成时,可以避免出现主语漂移的现象,提升了生成的摘要的准确性和可读性。
[0058]
可选地,上述步骤102,具体可以包括:
[0059]
将所述n个样本摘要句以及与所述n个样本摘要句对应的n个标准摘要句输入所述unilm模型;
[0060]
所述建立损失函数,包括:
[0061]
获取所述样本摘要句和所述标准摘要句中,每一字符的语义信息,得到目标文本信息;
[0062]
对所述样本摘要句和所述标准摘要句中,第一字符集合进行掩藏处理,得到第二字符集合;所述第一字符集合包括以下至少一项:所述样本摘要句中除所述目标人名标记外的至少部分字符、所述标准摘要句的至少部分字符;
[0063]
基于所述第一摘要生成模型,根据所述第二字符集合对应的第二文本信息,对所述第一字符集合的语义信息进行预测,得到第三文本信息;
[0064]
根据所述目标文本信息中,所述第一字符集合对应的语义信息与所述第三文本信息,确定所述第一子损失函数。
[0065]
在本发明实施例中,电子设备可以先将上述n个样本摘要句以及与所述n个样本摘要句对应的n个标准摘要句输入所述unilm模型,执行摘要生成任务的训练。
[0066]
通常地,上述样本摘要句和上述标准摘要句在输入上述unilm模型后,每一字符(token)都会被表示为768维的语义向量,语义向量携带有字符的语义信息。上述目标文本信息,即可以为上述样本摘要句和上述标准摘要句中,每一字符对应的语义向量的集合。
[0067]
在此之后,上述第一摘要生成模型可以将上述样本摘要句和上述标准摘要句中的第一字符集合,进行掩藏处理,得到第二字符集合。具体地,可以采用masking的训练方式,将上述第一字符集合中的字符替换为[mask]。而上述第一字符集合可以为随机抽取的字符集合,其抽取比例可以根据实际需要进行设置,例如15%或20%等。
[0068]
举例而言,若样本摘要句为“[e0]老曾[e0]踢了[e1]老汪[e1]一脚,他赶紧跑,以免[e2]老汪[e2]还手”,其中,[e0]、[e1]、[e2]为上述目标人名标记。而标准摘要句为“老曾踢了老汪”。随机抽取第一字符集合后,得到的第二字符集合可以为[e0]老曾[e0][mask]了[e1]老汪[e1]一脚,他[mask]紧跑,[mask]免[e2][mask]汪[e2][mask]手。
[0069]
第一摘要生成模型可以将上述第二字符集合对应的第二字符信息,输入softmax分类器中,从而可以根据第二字符信息,对掩藏的第一字符集合进行预测,得到预测的第三文本信息。
[0070]
由上述内容可知,上述预测得到的第三文本信息,也为768维语义向量组成的集合,第一摘要生成模型通过对预测得到上述第三文本信息中的语义向量,与真实的目标文本信息中,第一字符集合对应的语义向量的交叉熵,计算上述第一子损失函数。
[0071]
与之类似地,上述第一摘要生成模型可以通过输入n个样本摘要句和n个标准摘要句,通过减少上述第三文本信息中的语义向量,与真实的目标文本信息中,第一字符集合对应的语义向量的交叉熵,来实现对unilm模型的不断优化。
[0072]
可选地,上述步骤102,还可以包括:
[0073]
将所述样本摘要句中目标人名标记对应的字符的语义信息输入所述二分类模型,得到所述目标人名的主语判断结果;
[0074]
所述建立损失函数,还包括:
[0075]
根据所述样本摘要句中所述目标人名的主语判断结果,与所述样本摘要句对应的主语标识信息,确定所述第二子损失函数;
[0076]
由所述第一子损失函数与所述第二子损失函数计算生成所述损失函数。
[0077]
在本发明实施例中,在上述获取样本摘要句和所述标准摘要句中,每一字符的语义信息,得到目标文本信息后,上述目标人名标记也同时被表示为了768维的语义向量,此时可以将目标人名标记对应的字符的语义信息输入二分类模型,由二分类模型执行主语判断任务。
[0078]
二分类模型可以根据上述目标人名标记,生成目标人名标记的主语判断结果。示例性地,在一可选的实施方式中,二分类模型将是主语的目标人名的判断结果设为1,而不是主语的目标人名判断结果设为0,由于样本摘要句中通常存在至少一个目标人名,因此可以针对样本摘要句的目标人名标记,生成主语判断结果,即包含1和0的一维向量。
[0079]
例如,参照图2,样本摘要句为“[e0]老曾[e0]踢了[e1]老汪[e1]一脚,他赶紧跑,以免[e2]老汪[e2]还手”,则unilm模型可以基于[e0]、[e1]、[e2],生成[e0]’、[e1]’和[e2]’的768维标记表示向量,二分类模型可以基于[e0]’、[e1]’和[e2]’生成一维向量(1,0,0)。
[0080]
而由上述内容可知,上述主语标识信息,同样为针对上述目标人名生成的一维向量,因此可以根据上述主语判断结果与上述主语标识信息的交叉熵,计算上述第二子损失函数。
[0081]
与上述步骤类似地,上述二分类模型可以输入n个样本摘要句对应的目标人名标记对应的字符的语义信息,通过减少上述主语判断结果与上述主语标识信息的交叉熵,来实现对上述来实现对二分类模型的不断优化,最终确定上述第二子损失函数,从而结合第一子损失函数和第二子损失函数,最终确定上述损失函数。
[0082]
本发明实施例中,通过增加二分类辅助任务,可以对样本摘要句中的目标人名进行主语判断,并通过将unilm模型的第一子损失函数和二分类模型的第二子损失函数结合,计算得到损失函数,基于上述损失函数,对上述第一摘要生成模型进行训练优化,最终得到目标摘要生成模型,从而可以有效避免目标摘要生成模型生成的摘要句中主语漂移的现象,提升了训练后的目标摘要生成模型生成摘要的准确性和可读性。
[0083]
进一步地,上述由所述第一子损失函数与所述第二子损失函数计算生成所述损失函数的步骤,具体可以包括:
[0084]
计算所述第一子损失函数与第一权重的乘积与所述第二子损失函数与第二权重的乘积之和,得到所述损失函数。
[0085]
在本发明实施例中,上述第一子损失函数和第二子损失函数的权重可以根据摘要效果分析进行设置。通常地,上述第二子损失函数的权重可以大于上述第一子损失函数的权重,例如将第二子损失函数的权重设置为15,第一子损失函数的权重设置为1,而通过计算第一子损失函数与第一权重的乘积与第二子损失函数与第二权重的乘积之和,得到上述损失函数,可以进一步提升训练后的目标摘要生成模型生成摘要的准确性和可读性。
[0086]
需要说明的是,本发明实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本发明实施例不作限定。
[0087]
参照图3,本发明实施例还提供了一种摘要生成方法,包括:
[0088]
步骤201、获取待处理的目标文本,所述目标文本包括至少一个划分句。
[0089]
步骤202、将所述目标文本作为摘要抽取模型的输入,对所述至少一个划分句进行预测,得到摘要候选句。
[0090]
步骤203、将所述摘要候选句作为目标摘要生成模型的输入,生成目标摘要句。
[0091]
其中,所述目标摘要生成模型基于上述任一实施例所述的摘要生成模型训练方法训练生成。
[0092]
在上述步骤201中,上述目标文本,即可以为需要生成摘要的段落文本,上述目标文本中可以包括至少一个划分句,上述划分句可以根据上述目标文本中的标点符号确定,例如,可以将两个句号之间的文本划分为一个上述划分句。
[0093]
在上述步骤202中,可以将上述目标文本作为摘要抽取模型的输入,从而摘要抽取模型可以对上述至少一个划分句进行预测,得到摘要候选句。
[0094]
在本发明实施例中,上述摘要抽取模型可以基于现有的bertsum模型,经过样本数据的训练得到。由bertsum模型的原理可知,bertsum模型可以获取到上述目标文本中,每一划分句对应的句向量,并通过预测每一句向量的重要性分数,确定用于生成摘要句的摘要候选句。
[0095]
在本发明实施例中,上述摘要抽取模型,可以基于现有的bertsum模型训练得到。可以理解的是,用于训练上述bertsum模型的第二样本数据中,可以包括m个场次的段落文本,以及每个段落文本中用于生成摘要句的句子文本。上述用于生成摘要句的句子文本,可以由人工进行定位得到。进一步地,本发明实施例中,可以通过增大第二样本数据的数据量,例如增加外部的中文新闻语料,通过迁移学习的方式,使得bertsum模型在小样本数据量训练后,能够提升定位摘要候选句的能力。
[0096]
在上述步骤203中,可以将定位得到的摘要候选句,输入上述目标摘要生成模型
中,从而可以得到上述目标摘要句。由于上述目标摘要生成模型基于上述摘要生成模型训练方法生成,因此可以避免目标摘要句出现主语漂移的现象,提升了通过目标摘要生成模型生成的目标摘要句的准确性以及可读性。
[0097]
在本发明实施例中,可以先通过上述摘要抽取模型,对目标文本进行摘要句定位,得到摘要候选句,再通过上述目标摘要生成模型,将摘要候选句经简化处理,得到目标摘要句,从而通过摘要抽取模型和目标摘要生成模型结合的方式,在提升了目标摘要句的准确性和可读性的同时,能够提升摘要生成的效率。
[0098]
可选地,上述步骤203,具体可以包括:
[0099]
获取所述摘要候选句中,每一字符对应的语义信息,得到第四文本信息;
[0100]
基于所述目标摘要生成模型的损失函数,对所述第四文本信息进行提取处理,得到第五文本信息;
[0101]
将所述第五文本信息对应的字符集合确定为所述目标摘要句。
[0102]
由上述内容可知,上述目标摘要生成模型基于样本摘要句和标准摘要句训练得到。在本发明实施例中,可以将摘要候选句看作上述原始序列(source sequence),而目标摘要句可以看作上述目标序列(target sequence)。目标摘要生成模型可以根据上述目标摘要生成模型的损失函数,对上述第四文本信息进行提取处理,生成损失(loss)较小的第五文本信息,从而得到第五文本信息对应的字符集合,并将第五文本信息对应的字符集合确定为目标摘要句。
[0103]
由于上述目标摘要生成模型基于上述摘要生成模型训练方法生成,因此可以避免目标摘要句出现主语漂移的现象,提升了通过目标摘要生成模型生成的目标摘要句的准确性以及可读性。
[0104]
可选地,上述步骤202,具体可以包括:
[0105]
将所述目标文本作为所述摘要抽取模型的输入,得到所述目标文本对应的第六文本信息,以及每一划分句对应的第七文本信息;
[0106]
根据所述第六文本信息,对所述每一划分句对应的第七文本信息进行修正,得到每一划分句对应的第八文本信息;
[0107]
利用sigmoid函数,对所述每一划分句对应的第八文本信息进行概率化处理,得到每一划分句对应的预测分数;
[0108]
将预测分数最高的划分句确定为所述摘要候选句。
[0109]
本发明实施例中,可以采用sigmoid函数对第八文本信息进行概率化处理,从而得到每个划分句的重要性得分。具体地,概率化处理之后所得到的预测分数可以是概率值,该概率值表示句子的重要性,概率值越高,表示重要性越高。sigmoid函数是机器学习中比较常用的函数,其在趋于正无穷或负无穷时,函数值趋近于平滑状态,sigmoid函数输出范围为0至1。
[0110]
具体地,上述预测分数的评估指标可以选择rouge
‑
1召回率。由于任务目标是定位摘要候选句子,召回率表示该句子出现了多少摘要候选句中的字符,并且召回率分母为标准摘要的字符串长度与候选句子无关,所以,召回率比精确率和f1值更有效,因为这两个指标都依赖候选句字符长度。
[0111]
由于评估指标为rouge
‑
1召回率,若摘要候选句数量比较多,那么召回率自然会增
高(增加标准摘要字符出现概率),所以在本发明实施例中,若选取多个摘要候选句,不能表明模型定位的准确性,相反会干扰对模型效果的判断。
[0112]
在本发明实施例中,可以将目标文本作为所述摘要抽取模型的输入,得到所述目标文本对应的段落文本信息,即第六文本信息,以及每一划分句对应的第七文本信息,即句子文本信息,利用段落文本信息对每个句子的句子文本信息进行修正得到每个句子的修正文本信息,即第八文本信息,从而分别对修正文本信息进行概率化处理得到目标文本中,每个句子的预测分数,而第八文本信息相比修正前引入了段落文本信息,能够提高摘要定位的准确性。
[0113]
参照图4,图4是本发明实施例一种可能的架构图,如架构图所示,本发明实施例通过将摘要抽取模型和目标摘要生成模型结合的方式将目标文本先通过摘要抽取模型,定位摘要候选句,再根据目标摘要生成模型,对摘要候选句进行简化处理,得到目标摘要句。
[0114]
基于上述架构,对摘要定位效果进行评估,选取200场次的目标文本作为摘要定位效果评估测试集。人工对比标准摘要和生成摘要,准确率:79%。
[0115]
基于上述架构,对摘要生成效果进行评估,选择88场次的目标文本,人工对比标准摘要和生成摘要,准确率:86.36%。由此可见,采用本发明实施例的摘要生成方法所生成的摘要的准确率较高。
[0116]
需要说明的是,本发明实施例中介绍的多种可选的实施方式,彼此可以相互结合实现,也可以单独实现,对此本发明实施例不作限定。
[0117]
参见图5,图5是本发明实施例提供的摘要生成模型训练装置500的结构图,如图5所示,上述摘要生成模型训练装置500包括:
[0118]
第一获取模块501,用于获取待训练的第一样本数据,所述第一样本数据包括n个样本摘要句、n个标准摘要句和每一样本摘要句对应的主语标识信息,所述样本摘要句与所述标准摘要句一一对应,所述样本摘要句包括目标人名、所述目标人名对应的目标人名标记,所述目标人名标记与主语标识信息关联,所述主语标识信息用于描述所述目标人名标记对应的目标人名是否为主语;
[0119]
第一输入模块502,用于将所述第一样本数据输入第一摘要生成模型,所述第一摘要生成模型包括统一预训练语言模型unilm模型和二分类模型,所述unilm模型的输出端与所述二分类模型的输入端连接;
[0120]
建立模块503,用于建立损失函数,所述损失函数包括第一子损失函数和第二子损失函数,所述第一子损失函数基于所述n个样本摘要句和所述n个标准摘要句确定,所述第二子损失函数基于所述目标人名和所述主语标识信息确定;
[0121]
训练模块504,用于基于所述损失函数,对所述第一摘要生成模型进行训练,得到目标摘要生成模型。
[0122]
可选地,所述第一输入模块502,包括:
[0123]
第一输入单元,用于将所述n个样本摘要句以及与所述n个样本摘要句对应的n个标准摘要句输入所述unilm模型;
[0124]
所述建立模块503,包括:
[0125]
第一获取单元,用于获取所述样本摘要句和所述标准摘要句中,每一字符的语义信息,得到目标文本信息;
[0126]
第一处理单元,用于对所述目标文本信息中,目标字符集合的语义信息进行掩藏处理,得到第二文本信息,所述第二文本信息包括所述样本摘要句和所述标准摘要句中,除所述目标字符集合外的字符的语义信息,所述目标字符集合包括以下至少一项:所述样本摘要句中除所述目标人名标记外的至少部分字符、所述标准摘要句的至少部分字符;
[0127]
第一预测单元,用于基于所述第一摘要生成模型,根据所述第二文本信息,对所述目标字符集合的语义信息进行预测,得到第三文本信息;
[0128]
第一确定单元,用于根据所述目标文本信息中,所述目标字符集合的语义信息与所述第三文本信息,确定所述第一子损失函数。
[0129]
可选地,所述第一输入模块502,还包括:
[0130]
第二输入单元,用于针对每一样本摘要句,将所述样本摘要句中目标人名标记对应的字符的语义信息输入所述二分类模型,得到所述目标人名的主语判断结果;
[0131]
所述建立模块503,还包括:
[0132]
第二确定单元,用于根据所述n个样本摘要句中所述目标人名的主语判断结果,与所述n个样本摘要句对应的主语标识信息,确定第二子损失函数;
[0133]
计算单元,用于由所述第一子损失函数与所述第二子损失函数计算生成所述损失函数。
[0134]
可选地,所述计算单元,具体用于:
[0135]
计算所述第一子损失函数与第一权重的乘积与所述第二子损失函数与第二权重的乘积之和,得到所述损失函数。
[0136]
本发明实施例提供的摘要生成模型训练装置500能够实现图1
‑
2的方法实施例中摘要生成模型训练方法实现的各个过程,为避免重复,这里不再赘述。
[0137]
参见图6,图6是本发明实施例提供的摘要生成装置的结构图,如图6所示,上述摘要生成装置包括:
[0138]
第二获取模块601,用于获取待处理的目标文本所述目标文本包括至少一个划分句;
[0139]
第二输入模块602,用于将所述目标文本作为摘要抽取模型的输入,对所述至少一个划分句进行预测,得到摘要候选句;
[0140]
第三输入模块603,用于将所述摘要候选句作为目标摘要生成模型的输入,生成目标摘要句;
[0141]
其中,所述目标摘要生成模型基于上述任一实施例所述的摘要生成模型训练方法训练生成。
[0142]
可选地,所述第二输入模块602,包括:
[0143]
第二获取单元,用于获取所述摘要候选句中,每一字符对应的语义信息,得到第四文本信息;
[0144]
第二处理单元,用于基于所述目标摘要生成模型的损失函数,对所述第四文本信息进行提取处理,得到第五文本信息;
[0145]
第三确定单元,用于将所述第五文本信息对应的字符集合确定为所述目标摘要句。
[0146]
可选地,所述第二输入模块602,包括:
[0147]
第三输入单元,用于将所述目标文本作为所述摘要抽取模型的输入,得到所述目标文本对应的第六文本信息,以及每一划分句对应的第七文本信息;
[0148]
修正单元,用于根据所述第六文本信息,对所述每一划分句对应的第七文本信息进行修正,得到每一划分句对应的第八文本信息;
[0149]
第三处理单元,用于利用sigmoid函数,对所述每一划分句对应的第八文本信息进行概率化处理,得到每一划分句对应的预测分数;
[0150]
第四确定单元,用于将预测分数最高的划分句确定为所述摘要候选句。
[0151]
本发明实施例提供的摘要生成装置能够实现图3的方法实施例中摘要生成方法实现的各个过程,为避免重复,这里不再赘述。
[0152]
本发明实施例还提供了一种电子设备,如图7所示,包括处理器701、通信接口702、存储器703和通信总线704,其中,处理器701,通信接口702,存储器703通过通信总线704完成相互间的通信,
[0153]
存储器703,用于存放计算机程序;
[0154]
处理器701,用于执行存储器703上所存放的程序时,实现如下步骤:
[0155]
获取待训练的第一样本数据,所述第一样本数据包括n个样本摘要句、n个标准摘要句和每一样本摘要句对应的主语标识信息,所述样本摘要句与所述标准摘要句一一对应,所述样本摘要句包括目标人名、所述目标人名对应的目标人名标记,所述目标人名标记与主语标识信息关联,所述主语标识信息用于描述所述目标人名标记对应的目标人名是否为主语;
[0156]
将所述第一样本数据输入第一摘要生成模型,所述第一摘要生成模型包括统一预训练语言模型unilm模型和二分类模型,所述unilm模型的输出端与所述二分类模型的输入端连接;
[0157]
建立损失函数,所述损失函数包括第一子损失函数和第二子损失函数,所述第一子损失函数基于所述n个样本摘要句和所述n个标准摘要句确定,所述第二子损失函数基于所述目标人名和所述主语标识信息确定;
[0158]
基于所述损失函数,对所述第一摘要生成模型进行训练,得到目标摘要生成模型。
[0159]
或者,实现如下步骤:
[0160]
获取待处理的目标文本,所述目标文本包括至少一个划分句;
[0161]
将所述目标文本作为摘要抽取模型的输入,对所述至少一个划分句进行预测,得到摘要候选句;
[0162]
将所述摘要候选句作为目标摘要生成模型的输入,生成目标摘要句;
[0163]
其中,所述摘要生成模型基于如权利要求1至3中任一项所述的摘要生成模型训练方法训练生成。
[0164]
上述终端提到的通信总线可以是外设部件互连标准(peripheral component interconnect,简称pci)总线或扩展工业标准结构(extended industry standard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0165]
通信接口用于上述终端与其他设备之间的通信。
[0166]
存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括
非易失性存储器(non
‑
volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
[0167]
上述的处理器可以是通用处理器,包括中央处理器(central processing unit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processing,简称dsp)、专用集成电路(application specific integrated circuit,简称asic)、现场可编程门阵列(field-programmable gate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
[0168]
在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据监控处理方法。
[0169]
在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的数据监控处理方法。
[0170]
在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solid state disk(ssd))等。
[0171]
需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个数据或者操作与另一个数据或操作区分开来,而不一定要求或者暗示这些数据或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0172]
本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于系统实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
[0173]
以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。