文本生成模型训练方法和系统、文本生成方法及存储介质与流程

文档序号:31409127发布日期:2022-09-03 08:18阅读:54来源:国知局
文本生成模型训练方法和系统、文本生成方法及存储介质与流程

1.本发明涉及文本生成技术领域,特别涉及一种文本生成模型训练方法、文本生成方法、文本生成模型训练系统及计算机可读存储介质。


背景技术:

2.自然语言生成(natural language generation, nlg)是自然语言处理领域的一个重要分支,它是指根据给定的输入信息生成满足特定约束条件的人类可读的自然语言文本的过程,被广泛应用于机器翻译、自动文摘、新闻写作、营销文案生成等领域。
3.现有技术中,随着大规模预训练语言模型的快速发展,gpt2、gpt3、t5、bart等预训练语言模型在文本摘要等许多自然语言生成任务上都取得了显著的进步,但对于开放式的文本生成任务,如新闻自动生成、营销文案生成、故事生成等,由于输入信息十分有限且要求输出较长文本,预训练语言模型的生成结果仍然存在文本连贯性较差的问题。


技术实现要素:

4.为解决现有文本连贯性较差的问题,本发明提供了一种文本生成模型训练方法、文本生成方法、文本生成模型训练系统及计算机可读存储介质。
5.本发明解决技术问题的方案是提供一种文本生成模型训练方法,包括以下步骤:获取源文章,基于源文章得到句子序列和话题序列;基于句子序列和话题序列分别得到对应的句子隐变量序列和话题隐变量序列;获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列拼接输入第一预设模型进行训练,得到训练好的文本生成模型。
6.优选地,获取源文章,基于源文章得到句子序列和话题序列具体包括以下步骤:通过分句工具对源文章进行分句,得到多个句子序列;将多个句子序列输入第二预设模型得到每个句子的向量表示;基于每个句子的向量表示计算源文章中所有相邻句子间的余弦相似度,并计算得到文章相邻句子间余弦相似度的平均值;将句子间的余弦相似度大于或等于文章相邻句子间余弦相似度的平均值的划分为一组,得到话题序列。
7.优选地,基于句子序列和话题序列分别得到对应的句子隐变量序列和话题隐变量序列具体包括以下步骤:分别将句子序列和话题序列输入句子编码器和话题编码器进行编码,得到其对应的句子序列表示和话题序列表示;分别对句子序列表示和话题序列表示进行量化分别得到句子序列表示的逻辑值和话题序列表示的逻辑值;将句子序列表示的逻辑值和话题序列表示的逻辑值分别输入第一预设公式分别得到对应的句子隐变量序列和话题隐变量序列。
8.优选地,所述第一预设公式为:优选地,所述第一预设公式为:其中o
s,i
为逻辑值,gk是从标准的gumbel分布中独立采集到,其中τ表示温度系数,k表示向量w中第k个元素,z
s,i
表示隐变量。
9.优选地,对所述文本生成模型进行训练的损失函数为:;;;;;;yn表示文章y中的第n个词,n表示文章y的长度,es表示句子embedding空间,es(z
s,i
) 示取出句子embedding空间中的第zi个embedding表示,es(z
t,j
)表示取出话题embedding空间中的第zj个embedding表示,mlp表示多层感知机,b
s,i
表示句子si的词袋分布,u表示字典规模的概率,b
t,j
表示话题tj的词袋分布,v表示字典;z
sentence
表示句子隐变量序列,z
topic
表示话题隐变量序列,softmax表示归一化,w表示向量。
10.优选地,所述相邻句子间的余弦相似度由如下公式计算:;其中h
s,i
表示句子si的向量表示;h
s,i+1
表示句子s
i+1
的向量表示。
11.优选地,所述第一预设模型为bart模型。
12.本发明为解决上述技术问题还提供一种文本生成方法,获取上述任意一项所述的一种文本生成模型训练方法得到的文本生成模型,并获取有标注的文本和标题,并将有标注的文本和标题输入文本生成模型生成文本。
13.本发明为解决上述技术问题还提供一种文本生成模型训练系统,包括以下模块:获取模块:用于获取源文章,基于源文章得到句子序列和话题序列,基于句子序列和话题序列得到对应的句子隐变量序列和话题隐变量序列;处理模块:获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列拼接输入第一预训练模型进行训练,得到训练好的文本生成模型。
14.本发明为解决上述技术问题还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述任意一项所述的一种文本生成模型训练方法。
15.与现有技术相比,本发明的一种文本生成模型训练方法、文本生成方法、文本生成模型训练系统及计算机可读存储介质具有以下优点:1、本发明的步骤中先是获取源文章,并基于源文章得到句子序列和话题序列;随后基于句子序列和话题序列分别得到对应的句子隐变量序列和话题隐变量序列;最后获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列进行拼接输入第一预设模型进行训练,得到训练好的文本生成模型;其中句子级别的隐变量序列可以自动学习源文章中句子间的依赖关系,而话题级别的隐变量序列可以学习源文章中话题的自然转移关系,是更加高层次的关系。通过将源文的标题和上述两个隐变量序列拼接输入到第一预设模型进行训练,最终使得得到的输出文本生成模型具备句子级和话题级的连贯性,从而改进了现有的生成文本连贯性较差的问题。
16.2、本发明的步骤中先是通过分句工具对源文章进行分句,得到多个句子序列,将多个句子序列输入第二预设模型得到每个句子的向量表示,与此同时基于每个句子的向量表示计算源文章中所有相邻句子间的余弦相似度的平均值,将句子间的余弦相似度的平均值大于或等于文章相邻句子间余弦相似度的平均值的划分为一组,就得到话题序列,可以理解地,一个句子可能与前句或后句的语义相似,通过计算所有相邻句子间的余弦相似度,并与相邻句子间余弦相似度的平均值进行比较,当相邻句子间的余弦相似度大于源文章中相邻句子间余弦相似度的平均值时,即可初步判断该句的前句和后句语义相似度较高,通过该方法可以将多个句子序列划分得到多个话题序列,其中将句子序列通过余弦相似度的方法划分得到多个话题序列为后续的计算提升了效率,具有较强的实用性。
17.3、本发明的步骤中句子编码器用于对每个句子序列进行编码,得到句子的序列表示;与此同时,根据获得的句子序列表示,话题编码器对每个话题序列进行单独编码,得到每个话题的序列表示。获得句子序列表示和话题序列表示后,采用向量量化方法分别对句子序列表示和话题序列表示进行量化得到句子序列表示的逻辑值和话题序列表示的逻辑值;最后将句子序列表示的逻辑值和话题序列表示的逻辑值分别输入第一预设公式分别得到句子隐变量序列和话题隐变量序列。上述步骤中首先通过编码器对句子或话题进行编码得到对应的序列表示,其次对话题或句子序列表示进行量化得到对应的隐变量序列,实现方法简单,具有较强便捷性。
18.4、本发明的第一预设公式可分别计算得到句子隐变量序列和话题隐变量序列,其中计算句子隐变量序列时,将句子序列表示的逻辑值输入第一预设公式可得到句子隐变量序列;同理,将话题序列表示的逻辑值输入第一预设公式中,即可得到话题隐变量序列,通过第一预设公式可计算得到分别关于句子和话题的隐变量序列,简单快捷,提升了效率,具有较强的实用性。
19.5、本发明的对文本生成模型进行训练的损失函数中,先将源文章的标题、话题隐变量序列和句子隐变量序列输入第一预设模型中进行训练,其中第一预设模型可以实现对源文章进行重构,损失函数用于训练第一预设模型,并且可以通过损失函数确保句子隐变量和话题隐变量学习到源文章内部的关键信息,最后能够生成连贯性更好的文本,具有较强的实用性。
20.6、本发明中通过余弦相似度公式可计算得到源文章中所有相邻句子间的余弦相似度从而判断相邻句子间的相似度,为后续可以将句子序列划分得到话题序列做准备,提
升效率,具有较强的实用性。
21.7、本发明步骤中是将源文章的标题、话题隐变量序列和句子隐变量序列输入bart模型中进行训练,从而实现对源文章的重构,重构过程中话题和句子隐变量能够自动学习源文章内部的关键信息,具有较强的实用性。
22.8、本发明还提供一种文本生成方法、一种文本生成模型训练系统和一种计算机可读存储介质,具有与上述一种文本生成模型训练方法相同的有益效果,在此不做赘述。
附图说明
23.为了更清楚地说明本发明实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
24.图1是本发明第一实施例提供的一种文本生成模型训练方法的步骤流程图。
25.图2是本发明第一实施例提供的一种文本生成模型训练方法之步骤s1的步骤流程图。
26.图3是本发明第一实施例提供的一种文本生成模型训练方法之步骤s2的步骤流程图。
27.图4是本发明第一实施例提供的一种文本生成模型训练方法之示例图一。
28.图5是本发明第一实施例提供的一种文本生成模型训练方法之示例图二。
29.图6是本发明第二实施例提供的一种文本生成方法之示例图一。
30.图7是本发明第二实施例提供的一种文本生成方法之示例图二。
31.图8是本发明第三实施例提供的一种文本生成模型训练系统的框图。
32.附图标识说明:1、文本生成模型训练系统;10、获取模块;20、处理模块。
具体实施方式
33.为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施实例,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
34.本文所使用的术语“垂直的”、“水平的”、“左”、“右”、“上”、“下”、“左上”、“右上”、“左下”、“右下”以及类似的表述只是为了说明的目的。
35.请参阅图1,本发明第一实施例提供一种文本生成模型训练方法,包括以下步骤:s1:获取源文章,基于源文章得到句子序列和话题序列;s2:基于句子序列和话题序列分别得到对应的句子隐变量序列和话题隐变量序列;s3:获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列拼接输入第一预设模型进行训练,得到训练好的文本生成模型;可以理解的,本发明的步骤中先是获取源文章,并基于源文章得到句子序列和话
题序列;随后基于句子序列和话题序列分别得到对应的句子隐变量序列和话题隐变量序列;最后获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列进行拼接,输入第一预设模型进行训练,得到训练好的文本生成模型;其中句子级别的隐变量序列可以学习源文章中句子间的依赖关系,而话题级别的隐变量序列可以学习源文章中话题的自然转移关系,是更加高层次的关系,通过将上述两个隐变量序列和源文章的标题输入第一预设模型进行训练,最终使得得到的文本生成模型具备句子级和话题级的连贯性,使得通过训练得到的文本生成模型生成的文本全局一致性和连贯性更强,解决了现有的文本连贯性较差的问题。
36.具体地,文本生成模型进行训练的过程中采用自监督的方式,即输入和输出相同。
37.需要说明的是,作为一种可选的实施方式,在本发明实施例中第一预设模型为bart模型。
38.可以理解地,本发明基于bart生成模型,引入话题隐变量和句子隐变量能够帮助bart生成模型生成连贯性文本,具有较强的实用性。
39.进一步地,本发明实施例还提供一种层次化vqvae模型,层次化vqvae模型是以句子隐变量序列和话题隐变量序列从而自动学习源文章内部关键信息的模型。
40.可以理解地,本发明实施例先是获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列进行拼接输入bart模型从而联合训练层次化的vqvae和bart模型。
41.请参阅图2,步骤s1具体包括以下步骤:s11:通过分句工具对源文章进行分句,得到多个句子序列;s12:将多个句子序列输入第二预设模型得到每个句子的向量表示;s13:基于每个句子的向量表示计算源文章中所有相邻句子间的余弦相似度,并计算得到文章相邻句子间余弦相似度的平均值;s14:将句子间的余弦相似度大于或等于文章相邻句子间余弦相似度的平均值的划分为一组,得到话题序列;可以理解的,本发明的步骤中先是通过分句工具对源文章进行分句,得到多个句子序列,将多个句子序列输入第二预设模型得到每个句子的向量表示,与此同时基于每个句子的向量表示计算源文章中所有相邻句子间的余弦相似度的平均值,将句子间的余弦相似度的平均值大于或等于文章相邻句子间余弦相似度的平均值的划分为一组,就得到话题序列,可以理解地,一个句子可能前句或后句的语义相似,通过计算所有相邻句子间的余弦相似度,并与相邻句子余弦相似度的平均值进行比较,当相邻句子间的余弦相似度大于源文章中相邻句子间余弦相似度的平均值时,即可初步判断该句的前句和后句语义相似度较高,通过该方法可以将多个句子序列划分得到多个话题序列,其中将句子序列通过余弦相似度的方法划分得到多个话题序列为后续的计算提升了效率,具有较强的实用性。
42.可以理解地,本发明实施例对分句工具不做具体限定,本发明实施例中分句工具为nltk分句工具。
43.需要说明的是,本发明实施例对第二预设模型不做具体的限制,优选地,本发明实施例中第二预设模型为bert模型。
44.请参阅图3,步骤s2具体包括以下步骤:
s21:分别将句子序列和话题序列输入句子编码器和话题编码器进行编码,得到其对应的句子序列表示和话题序列表示;s22:分别对句子序列表示和话题序列表示进行量化分别得到句子序列表示的逻辑值和话题序列表示的逻辑值;s23:将句子序列表示的逻辑值和话题序列表示的逻辑值分别输入第一预设公式分别得到对应的句子隐变量序列和话题隐变量序列;可以理解的,本发明的步骤中句子编码器用于对每个句子序列进行编码,得到每个句子的序列表示;与此同时,根据获得的句子序列表示,话题编码器对每个话题序列进行单独编码,得到话题的序列表示,获得句子序列表示和话题序列表示后,分别对句子序列表示和话题序列表示采用向量量化方法进行量化分别得到句子隐变量序列和话题隐变量序列。上述步骤中分别通过编码器对句子或话题进行编码得到对应的序列表示,其次对话题或句子序列表示进行量化得到对应的隐变量序列,实现方法简单,具有较强便捷性。
45.进一步地,请参阅图4,本发明的一种实施例,假设句子s1,s2,s3同属于一个话题,其中s1,s2,s3前面均拼接有[cls]特殊标签,通过在句子前添加[cls]特殊标签从而能够获得对应整个句子的表示,其中s1“夏天马上就要到了”,s2“防晒工作一定要做好”,s3“今天给大家推荐一款我最近
……”
分别输入sentence encoder话题编码器进行编码,分别得到对应的句子序列表示hs=(hs1,hs2,hs3),类似的,话题编码器根据若干个得到的句子序列表示hs,对每个话题进行编码,得到话题序列表示ht=(ht1,ht2,ht3)。
[0046]
可以理解地,句子编码器或话题编码器均采用transformer框架。
[0047]
作为一种可选的实施方式,分别通过下面公式(1)得到句子序列表示的逻辑值、公式(2)得到话题序列表示的逻辑值:;;其中o
s,i
为逻辑值,mlp表示多层感知机,h
s,i
表示句子序列表示,h
t,i
表示话题序列表示。
[0048]
作为一种可选的实施方式,第一预设公式为(3)(4)其中o
s,i
为逻辑值,gk是从标准的gumbel分布中独立采集到,其中τ表示温度系数,k表示向量w中第k个元素,z
s,i
表示隐变量;可以理解地,本发明的第一预设公式分别可计算得到句子隐变量序列和话题隐变量序列,其中计算句子隐变量序列时,先是将句子序列表示的逻辑值输入第一预设公式中的公式(3)中,可计算得到关于句子序列的,再将关于句子序列的输入第一预设公式中的公式(4),即可得到句子隐变量序列;同理,计算话题隐变量序列时,先是将话题序
列表示的逻辑值输入第一预设公式中的公式(3)中,可计算得到关于话题序列的,再将关于话题序列的输入第一预设公式中的公式(4),即可得到话题隐变量序列,通过上述公式可计算得到分别关于句子和话题的隐变量序列,简单快捷,提升了效率,具有较强的实用性。
[0049]
作为一种可选的实施方式,对文本生成模型进行训练的损失函数为:;(5);(6);(7);(8);(9);(10)yn表示文章y中的第n个词,n表示文章y的长度,es表示句子embedding空间,es(z
s,i
) 示取出句子embedding空间中的第zi个embedding表示,es(z
t,j
)表示取出话题embedding空间中的第zj个embedding表示,mlp表示多层感知机,b
s,i
表示句子si的词袋分布,u表示字典规模的概率,b
t,j
表示话题tj的词袋分布,v表示字典;z
sentence
表示句子隐变量序列,z
topic
表示话题隐变量序列,softmax表示归一化,w表示向量;可以理解地,本发明的对文本生成模型进行训练的函数中,先将源文章的标题、话题隐变量序列和句子隐变量序列输入第一预设模型中进行训练,其函数为式(5)计算得到重构损失;其次,通过式(6)可以计算得到关于句子的字典规模概率,并将关于句子的字典规模概率输入式(7)中,即可得到关于句子隐变量的词袋损失;同理,通过式(8)可以计算得到关于话题的字典规模概率,并将关于话题的字典规模概率输入式(9)中,即可得到关于话题隐变量的词袋损失,最后联合式(5)(7)(9)的函数一起来联合优化文本生成模型,其中损失函数(7)、(9)可以确保句子隐变量和话题隐变量学习到源文章内部的关键信息。通过联合多个损失函数训练得到的模型能够生成连贯性更好的文本,具有较强的实用性。
[0050]
进一步的,相邻句子间的余弦相似度由如下公式计算:;其中h
s,i
表示句子si的向量表示;h
s,i+1
表示句子s
i+1
的向量表示;可以理解地,本发明中通过余弦相似度公式可计算得到源文章中所有相邻句子间的余弦相似度从而判断相邻句子间的相似度,为后续可以将句子序列划分得到话题序列做准备,提升效率,具有较强的实用性。
[0051]
作为一种可选的实施方式,源文章句间相似度的平均值由如下公式计算:;其中,sim
s,i+1
表示相邻句子间的余弦相似度。
[0052]
本发明的一种实施例,请参阅图5,以“夏天马上就要到了,紫外线也越来越强,防晒工作一定要做好,今天给大家推荐一款我最近超级喜欢的墨镜...”为源文章进行说明,先将源文章输入sentence encoder句子编码器得到句子序列表示,再对句子序列表示输入topic encoder话题编码器得到话题序列表示,分别对句子序列表示和话题序列表示进行向量量化得到句子隐变量序列和话题隐变量序列,即zsentence=[3 9 42 60 50 45],ztopic=[7 64 2],其中对句子序列表示进行向量量化得到的zsentence=[3 9 42 60 50 45],其中每一个向量表示在sentence embedding space中的位置,同理对话题序列表示进行向量量化得到的ztopic=[7 64 2],其中每一个数值表示在topic embedding space中的位置,最后,将源文章的标题“夏天墨镜必备”[sep] [7 64 2] [sep] [3 9 42 60 50 45]输入bart编码器进行编码解码之后,即得到输出的文章,将源文章与输出文章进行比较,通过联合的损失函数训练文本生成模型。
[0053]
本发明第二实施例提供一种文本生成方法,获取本发明第一实施例提供的一种文本生成模型训练方法得到的文本生成模型,并获取有标注的文本和标题,并将有标注的文本和标题输入文本生成模型生成文本。
[0054]
需要说明的是,在文本生成阶段,本发明第二实施例中还提供一种预设的隐变量先验模型,预设的隐变量先验模型主要用来根据标题预测隐变量,即用户仅需提供一个标题,将其输入隐变量先验模型中即可得到该标题对应的句子隐变量序列和话题隐变量序列。
[0055]
本发明的一种实施例,请结合图6和图7,在文本生成阶段,提供文本的标题,其中标题用x表示,即“夏天墨镜必备”为标题x,将其输入隐变量先验模型,并通过隐变量先验模型生成话题隐变量序列,即本实施例中的ztopic=[7 64 2],和句子隐变量序列,即本实施例中的zsentence=[3 9 42 60 50 45],再将标题“夏天墨镜必备”、话题隐变量序列和句子隐变量序列拼接好并输入bart模型中,进行编码,解码之后就生成对应的文本y,即“夏天马上就要到了,紫外线也越来越强,防晒工作一定要做好,今天给大家推荐一款我最近超级喜欢的墨镜...”。
[0056]
请参阅图8,本发明第三实施例提供一种文本生成模型训练系统1,包括以下模块:获取模块10:用于获取源文章,基于源文章得到句子序列和话题序列,基于句子序列和话题序列得到对应的句子隐变量序列和话题隐变量序列;处理模块20:获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列拼接输入第一预训练模型进行训练,得到训练好的文本生成模型。
[0057]
可以理解地,该文本生成模型训练系统1的模块在运作时,需要利用到第一实施例提供的一种文本生成模型训练方法,因此无论将获取模块10、处理模块20予于整合或者配置不同的硬件产生与本发明所实现效果相似的功能,均属于本发明的保护范围内。
[0058]
本发明第四实施例提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现本发明第一实施例提供的一种文本生成模型训练方法。
[0059]
在本发明所提供的实施例中,应理解,“与a对应的b”表示b与a相关联,根据a可以确定b。但还应理解,根据a确定b并不意味着仅仅根据a确定b,还可以根据a和/或其他信息确定b。
[0060]
应理解,说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本发明的至少一个实施例中。因此,在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外,这些特定特征、结构或特性可以以任意适合的方式结合在一个或多个实施例中。本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本发明所必须的。
[0061]
在本发明的各种实施例中,应理解,上述各过程的序号的大小并不意味着执行顺序的必然先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0062]
在本发明的附图中的流程图和框图,图示了按照本技术各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方案中,方框中所标注的功能也可以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,在此基于涉及的功能而确定。需要特别注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。
[0063]
与现有技术相比,本发明的一种文本生成模型训练方法、文本生成方法、文本生成模型训练系统及计算机可读存储介质具有以下优点:1、本发明的步骤中先是获取源文章,并基于源文章得到句子序列和话题序列;随后基于句子序列和话题序列分别得到对应的句子隐变量序列和话题隐变量序列;最后获取源文章的标题,分别将源文章的标题、句子隐变量序列和话题隐变量序列进行拼接输入第一预设模型进行训练,得到训练好的文本生成模型;其中句子级别的隐变量序列可以自动学习源文章中句子间的依赖关系,而话题级别的隐变量序列可以学习源文章中话题的自然转移关系,是更加高层次的关系。通过将源文的标题和上述两个隐变量序列拼接输入到第一预设模型进行训练,最终使得得到的输出文本生成模型具备句子级和话题级的连贯性,从而改进了现有的生成文本连贯性较差的问题。
[0064]
2、本发明的步骤中先是通过分句工具对源文章进行分句,得到多个句子序列,将多个句子序列输入第二预设模型得到每个句子的向量表示,与此同时基于每个句子的向量表示计算源文章中所有相邻句子间的余弦相似度的平均值,将句子间的余弦相似度的平均值大于或等于文章相邻句子间余弦相似度的平均值的划分为一组,就得到话题序列,可以理解地,一个句子可能与前句或后句的语义相似,通过计算所有相邻句子间的余弦相似度,并与相邻句子间余弦相似度的平均值进行比较,当相邻句子间的余弦相似度大于源文章中相邻句子间余弦相似度的平均值时,即可初步判断该句的前句和后句语义相似度较高,通过该方法可以将多个句子序列划分得到多个话题序列,其中将句子序列通过余弦相似度的
方法划分得到多个话题序列为后续的计算提升了效率,具有较强的实用性。
[0065]
3、本发明的步骤中句子编码器用于对每个句子序列进行编码,得到句子的序列表示;与此同时,根据获得的句子序列表示,话题编码器对每个话题序列进行单独编码,得到每个话题的序列表示。获得句子序列表示和话题序列表示后,采用向量量化方法分别对句子序列表示和话题序列表示进行量化得到句子序列表示的逻辑值和话题序列表示的逻辑值;最后将句子序列表示的逻辑值和话题序列表示的逻辑值分别输入第一预设公式分别得到句子隐变量序列和话题隐变量序列。上述步骤中首先通过编码器对句子或话题进行编码得到对应的序列表示,其次对话题或句子序列表示进行量化得到对应的隐变量序列,实现方法简单,具有较强便捷性。
[0066]
4、本发明的第一预设公式可分别计算得到句子隐变量序列和话题隐变量序列,其中计算句子隐变量序列时,将句子序列表示的逻辑值输入第一预设公式可得到句子隐变量序列;同理,将话题序列表示的逻辑值输入第一预设公式中,即可得到话题隐变量序列,通过第一预设公式可计算得到分别关于句子和话题的隐变量序列,简单快捷,提升了效率,具有较强的实用性。
[0067]
5、本发明的对文本生成模型进行训练的损失函数中,先将源文章的标题、话题隐变量序列和句子隐变量序列输入第一预设模型中进行训练,其中第一预设模型可以实现对源文章进行重构,损失函数用于训练第一预设模型,并且可以通过损失函数确保句子隐变量和话题隐变量学习到源文章内部的关键信息,最后能够生成连贯性更好的文本,具有较强的实用性。
[0068]
6、本发明中通过余弦相似度公式可计算得到源文章中所有相邻句子间的余弦相似度从而判断相邻句子间的相似度,为后续可以将句子序列划分得到话题序列做准备,提升效率,具有较强的实用性。
[0069]
7、本发明步骤中是将源文章的标题、话题隐变量序列和句子隐变量序列输入bart模型中进行训练,从而实现对源文章的重构,重构过程中话题和句子隐变量能够自动学习源文章内部的关键信息,具有较强的实用性。
[0070]
8、本发明还提供一种文本生成方法、一种文本生成模型训练系统和一种计算机可读存储介质,具有与上述一种文本生成模型训练方法相同的有益效果,在此不做赘述。
[0071]
以上对本发明实施例公开的一种文本生成模型训练方法、一种文本生成方法、一种文本生成模型训练系统和一种计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制,凡在本发明的原则之内所作的任何修改,等同替换和改进等均应包含本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1