一种文本生成方法、文本生成装置和可读存储介质与流程

文档序号:32390440发布日期:2022-11-30 08:01阅读:33来源:国知局
一种文本生成方法、文本生成装置和可读存储介质与流程

1.本技术涉及信息处理技术领域,尤其是涉及到一种文本生成方法、文本生成装置和可读存储介质。


背景技术:

2.在互联网保险行业中,流量和内容作为两个至关重要的因素,不断推动着整个行业的发展。近年来,随着各项应用逐渐成熟,如何创造出更好的内容,用更好的话术吸引、留存进行咨询的客户显得更为关键。尤其在保险销售、变现等领域,例如,对话机器人如何使用丰富的话术与客户沟通,成为了一个新的课题。
3.相关技术中的生成方法,以生成算法作为核心,将包含关键词的句子进行预处理,数据增强后,放入生成模型生成原句对相似句,这种生成方法可以保证生成样本的多样性足够丰富、足够多元。但是,若大批量使用,容易造成文章段落间逻辑不通顺,并且对于关键词的句子的替换导致彻底改变了句子原意,使生成结果不尽如人意。


技术实现要素:

4.有鉴于此,本技术提供了一种文本生成方法、文本生成装置和可读存储介质,解决了相关技术中新文本生成效果不理想的问题。
5.第一方面,本技术实施例提供了一种文本生成方法,包括:获取待处理文本,并将待处理文本划分为多个语句,以及在多个语句中,确定不包含关键信息的目标语句,关键信息为表示待处理文本的关键语义的信息;将目标语句输入至相似文本生成模型,得到目标语句的至少一个第一相似句;基于语句相似度,在预设文本知识库中获取目标语句的至少一个第二相似句;将目标语句中的分词进行近义词替换,生成目标语句的至少一个第三相似句;在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定目标相似句,并利用目标相似句替换目标语句,生成待处理文本的目标文本。
6.根据本技术实施例的上述文本生成方法,还可以具有以下附加技术特征:
7.在上述技术方案中,可选地,将待处理文本划分为多个语句,包括:按照标点符号,对待处理文本进行划分,得到多个语句。
8.在上述任一技术方案中,可选地,将目标语句输入至相似文本生成模型,得到目标语句的至少一个第一相似句,包括:将目标语句输入至相似文本生成模型,得到多个第一候选语句;过滤掉多个第一候选语句中不符合规范的第一候选语句,以及在保留下的第一候选语句中,确定与目标语句的相似度大于或等于第一阈值的第一候选语句,并作为目标语句的第一相似句。
9.在上述任一技术方案中,可选地,在基于语句相似度,在预设文本知识库中获取目标语句的至少一个第二相似句之前,还包括:使用爬虫工具,爬取多个文本文章数据,并将多个文本文章数据按照标点符号进行划分,得到多个短句;根据关键信息,在多个短句中筛选出第二候选语句,以及将第二候选语句存储至预设文本知识库中。
10.在上述任一技术方案中,可选地,基于语句相似度,在预设文本知识库中获取目标语句的至少一个第二相似句,包括:将预设文本知识库存储的多个第二候选语句分别与目标语句进行相似度计算;将相似度大于或等于第二阈值的第二候选语句,作为目标语句的第二相似句。
11.在上述任一技术方案中,可选地,将目标语句中的分词进行近义词替换,生成目标语句的至少一个第三相似句,包括:将目标语句划分为多个分词,并获取每个分词的词向量;根据词向量,获取每个分词的近义词,并依次选取每个分词的近义词,对目标语句进行重组,生成多个第三候选语句;计算每个第三候选语句的通顺度,并将通顺度大于或等于第三阈值的第三候选语句,作为目标语句的第三相似句。
12.在上述任一技术方案中,可选地,在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定目标相似句,包括:在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中随机抽取一个相似句,作为目标相似句。
13.在上述任一技术方案中,可选地,在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定目标相似句,包括:将至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中,与目标语句的相似度最高的相似句作为目标相似句。
14.第二方面,本技术实施例提供了一种文本生成装置,包括:获取模块,用于获取待处理文本,并将待处理文本划分为多个语句,以及在多个语句中,确定不包含关键信息的目标语句,关键信息为表示待处理文本的关键语义的信息;第一处理模块,用于将目标语句输入至相似文本生成模型,得到目标语句的至少一个第一相似句;第二处理模块,用于基于语句相似度,在预设文本知识库中获取目标语句的至少一个第二相似句;第三处理模块,用于将目标语句中的分词进行近义词替换,生成目标语句的至少一个第三相似句;生成模块,用于在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定目标相似句,并利用目标相似句替换目标语句,生成待处理文本的目标文本。
15.第三方面,本技术实施例提供了一种可读存储介质,该可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
16.第四方面,本技术实施例提供了一种计算机设备,该计算机设备包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面的方法的步骤。
17.第五方面,本技术实施例提供了一种芯片,该芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面的方法。
18.第六方面,本技术实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面的方法。
19.在本技术实施例中,为了保证最后生成的目标文本的逻辑通顺、与原文本的语义前后一致,首先将获取到的待处理文本(也即原文本)进行语句划分,得到多个语句,并对多个语句进行筛选,具体地,筛选出一部分不含表示待处理文本的关键语义的关键信息(也即不可动信息)的目标语句。例如,在保险领域中,关键信息可以指平安、人寿等保险品牌。进一步地,分别对目标语句进行三种处理,从而分别得到至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句。具体地,第一种处理为使用相似文本生成模型生成目标语句的第一相似句,第二种处理为根据预设文本知识库中存储的语句得到目标语句的第二
相似句,第三种处理为根据近义词替换的方式生成目标语句的第三相似句。最后,在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定一个目标相似句,并利用该目标相似句替换目标语句,生成待处理文本的目标文本。
20.本技术实施例,使用上述三种处理对文本多样性扩充进行支撑,提高了文本表达的多元性,并且,通过划分语句及保留关键信息,又能够保证最后生成的目标文本不偏离主旨、逻辑严谨、言语通顺。
21.上述说明仅是本技术技术方案的概述,为了能够更清楚了解本技术的技术手段,而可依照说明书的内容予以实施,并且为了让本技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本技术的具体实施方式。
附图说明
22.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
23.图1示出了本技术实施例的文本生成方法的流程示意图之一;
24.图2示出了本技术实施例的文本生成方法的流程示意图之二;
25.图3示出了本技术实施例的文本生成装置的结构框图;
26.图4示出了本技术实施例的计算机设备的结构框图。
具体实施方式
27.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本技术保护的范围。
28.本技术的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
29.在生成多样化的新文本的基础上,需要保证生成的新文本逻辑通顺,前后一致,并且与原文相比,表述的含义不能有明显的偏差,也即,表示原文的关键语义的信息需要保持不变。本技术实施例,提供了一种文本生成方法,不仅能够保证新文本的多样性,而且还能够保证新文本的可靠性。
30.下面结合附图,通过具体的实施例及其应用场景对本技术实施例提供的文本生成方法、文本生成装置和可读存储介质进行详细地说明。
31.本技术实施例提供了一种文本生成方法,图1示出了本技术实施例的文本生成方法的流程示意图之一,该方法包括:
32.步骤101,获取待处理文本,并将待处理文本划分为多个语句,以及在多个语句中,确定不包含关键信息的目标语句,关键信息为表示待处理文本的关键语义的信息;
33.步骤102,将目标语句输入至相似文本生成模型,得到目标语句的至少一个第一相
似句;
34.步骤103,基于语句相似度,在预设文本知识库中获取目标语句的至少一个第二相似句;
35.步骤104,将目标语句中的分词进行近义词替换,生成目标语句的至少一个第三相似句;
36.步骤105,在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定目标相似句,并利用目标相似句替换目标语句,生成待处理文本的目标文本。
37.在该实施例中,为了保证最后生成的目标文本的逻辑通顺、与原文本的语义前后一致,首先将获取到的待处理文本(也即原文本)进行语句划分,得到多个语句,一个语句即为一个短句,并对多个语句进行筛选,具体地,筛选出一部分不含表示待处理文本的关键语义的关键信息(也即不可动信息)的目标语句。例如,在保险领域中,关键信息可以指平安、人寿等保险品牌。
38.进一步地,分别对目标语句进行三种处理,从而分别得到至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句。具体地,第一种处理为使用相似文本生成模型生成目标语句的第一相似句,第二种处理为根据预设文本知识库中存储的语句得到目标语句的第二相似句,第三种处理为根据近义词替换的方式生成目标语句的第三相似句。
39.最后,在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定一个目标相似句,并利用该目标相似句替换目标语句,生成待处理文本的目标文本(也即新文本)。
40.需要说明的是,对待处理文本确定的目标语句可以为一个或多个,在将一个或多个目标语句均进行替换后,得到待处理文本的目标文本。
41.本技术实施例,使用上述三种处理对文本多样性扩充进行支撑,提高了文本表达的多元性,并且,通过划分语句及保留关键信息,又能够保证最后生成的目标文本不偏离主旨、逻辑严谨、言语通顺。
42.本技术实施例,对一篇文章或一段文字进行大批量的扩充,可以扩充至十篇、二十篇文章以上依旧保证文章间重复度处在较低水平。
43.本技术实施例,可以用于保险领域的对话机器人话术填充项目,由本技术实施例的文本生成方法可以生成目标、含义一致但话术十分多样的机器人话术,确保机器人的回复不千篇一律,从而让客户体验更佳。
44.图2示出了本技术实施例的文本生成方法的流程示意图之二。下面结合图2,对本技术实施例的文本生成方法进行详细说明。
45.在本技术实施例中,为了保证最后生成的目标文本的逻辑通顺、与原文本的语义前后一致,首先对获取的待处理文本按照标点符号进行划分,划分获得的是最小粒度的语句,之后的操作都针对于最小粒度的语句进行。对每一个语句进行一波筛选,筛选出一部分不含关键信息、不可动信息的目标语句,并对目标语句分别进行以下三个处理步骤,以支持文本多样性扩充。三个处理步骤包括:
46.(1)使用相似文本生成模型生成目标语句的生成相似句。具体地,对目标语句进行向量化,向量化后的目标语句将被作为相似文本生成模型的输入,生成多个第一候选语句。对于生成的多个第一候选语句将经过一部分后验规则,把不符合规范的第一候选语句删
去,不符合规范的第一候选语句包括口语化的语句、不精简的语句等。在剩余的第一候选语句中,将与目标语句的相似度大于或等于第一阈值的第一候选语句作为目标语句的第一相似句,或者,将按照与目标语句的相似度排序取前k个第一候选语句作为目标语句的第一相似句,用于后续的目标文本的生成。
47.(2)根据预设文本知识库中存储的语句得到目标语句的相似句。具体地,首先使用爬虫工具,爬取相关领域的大批文本文章数据,例如文章或问答数据,在累积到一定量级后,将所有文本文章数据按照标点符号进行划分,获得多个最小粒度的短句,使用待处理文本的关键信息筛选出可以为处理待处理文本所使用的第二候选语句,作为相似句替换的预设文本知识库,该预设文本知识库中短句累计至百万条级别,以保证获取第二候选语句的准确性。随后,将目标语句与预设文本知识库中所有的第二候选语句进行相似度计算,并将相似度大于或等于第二阈值的第二候选语句作为目标语句的第二相似句,用于后续的目标文本的生成。
48.(3)根据近义词替换的方式生成目标语句的相似句。具体地,使用分词工具对目标语句进行分词划分,获得的分词基于训练好的词向量模型获得词向量,从而可以得到每一个分词的一个或多个近义词。当一目标语句中有一个或多个分词有可替换的近义词时,会依次选取近义词替换目标语句进行句子重组,生成多个第三候选语句。对多个第三候选语句使用句子通顺度算法计算通顺度,若通顺度大于或等于第三阈值,则这个第三候选语句将作为目标语句的第三相似句,用于后续的目标文本的生成。
49.通过以上三个处理步骤得到一个候选据库,对于待处理文本的每一个目标语句,可以在候选据库中获取到其目标相似句,在构建目标文本时,可以随机选取一个目标相似句替换目标语句。在对待处理文本中所有目标语句进行相似句替换后得到目标文本。
50.相似句替换的方式,可以为随机抽取一个目标相似句替换目标语句,也可以依照相似度由高到低排序选取相似度最高的目标相似句替换目标语句。
51.本技术实施例中,最后生成的目标文本与原待处理文本有不同之处,丰富了语言表达,提升了文本多样性,但没有偏离原文本的含义,保证了文本可靠性。
52.作为上述文本生成方法的具体实现,本技术实施例提供了一种文本生成装置。如图3所示,该文本生成装置300包括:获取模块301、第一处理模块302、第二处理模块303、第三处理模块304以及生成模块305。
53.其中,获取模块301,用于获取待处理文本,并将待处理文本划分为多个语句,以及在多个语句中,确定不包含关键信息的目标语句,关键信息为表示待处理文本的关键语义的信息;第一处理模块302,用于将目标语句输入至相似文本生成模型,得到目标语句的至少一个第一相似句;第二处理模块303,用于基于语句相似度,在预设文本知识库中获取目标语句的至少一个第二相似句;第三处理模块304,用于将目标语句中的分词进行近义词替换,生成目标语句的至少一个第三相似句;生成模块305,用于在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定目标相似句,并利用目标相似句替换目标语句,生成待处理文本的目标文本。
54.在该实施例中,为了保证最后生成的目标文本的逻辑通顺、与原文本的语义前后一致,首先将获取到的待处理文本(也即原文本)进行语句划分,得到多个语句,并对多个语句进行筛选,具体地,筛选出一部分不含表示待处理文本的关键语义的关键信息(也即不可
动信息)的目标语句。例如,在保险领域中,关键信息可以指平安、人寿等保险品牌。进一步地,分别对目标语句进行三种处理,从而分别得到至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句。具体地,第一种处理为使用相似文本生成模型生成目标语句的第一相似句,第二种处理为根据预设文本知识库中存储的语句得到目标语句的第二相似句,第三种处理为根据近义词替换的方式生成目标语句的第三相似句。最后,在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中确定一个目标相似句,并利用该目标相似句替换目标语句,生成待处理文本的目标文本。
55.本技术实施例,使用上述三种处理对文本多样性扩充进行支撑,提高了文本表达的多元性,并且,通过划分语句及保留关键信息,又能够保证最后生成的目标文本不偏离主旨、逻辑严谨、言语通顺。
56.进一步地,获取模块301,具体用于按照标点符号,对待处理文本进行划分,得到多个语句。
57.进一步地,第一处理模块302,具体用于:将目标语句输入至相似文本生成模型,得到多个第一候选语句;过滤掉多个第一候选语句中不符合规范的第一候选语句,以及在保留下的第一候选语句中,确定与目标语句的相似度大于或等于第一阈值的第一候选语句,并作为目标语句的第一相似句。
58.进一步地,该文本生成装置300还包括:第四处理模块,用于:使用爬虫工具,爬取多个文本文章数据,并将多个文本文章数据按照标点符号进行划分,得到多个短句;根据关键信息,在多个短句中筛选出第二候选语句,以及将第二候选语句存储至预设文本知识库中。
59.进一步地,第二处理模块303,具体用于:将预设文本知识库存储的多个第二候选语句分别与目标语句进行相似度计算;将相似度大于或等于第二阈值的第二候选语句,作为目标语句的第二相似句。
60.进一步地,第三处理模块304,具体用于:将目标语句划分为多个分词,并获取每个分词的词向量;根据词向量,获取每个分词的近义词,并依次选取每个分词的近义词,对目标语句进行重组,生成多个第三候选语句;计算每个第三候选语句的通顺度,并将通顺度大于或等于第三阈值的第三候选语句,作为目标语句的第三相似句。
61.进一步地,生成模块305,具体用于:在至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中随机抽取一个相似句,作为目标相似句。
62.进一步地,生成模块305,具体用于:将至少一个第一相似句、至少一个第二相似句以及至少一个第三相似句中,与目标语句的相似度最高的相似句作为目标相似句。
63.本技术实施例中的文本生成装置300可以是计算机设备,也可以是计算机设备中的部件,例如集成电路或芯片。该计算机设备可以是终端,也可以为除终端之外的其他设备。示例性的,计算机设备可以为手机、平板电脑、笔记本电脑、掌上电脑、车载计算机设备、移动上网装置(mobile internet device,mid)、机器人、可穿戴设备、超级移动个人计算机(ultra-mobile personal computer,umpc)、上网本或者个人数字助理(personal digital assistant,pda)等,还可以为服务器、网络附属存储器(network attached storage,nas)、个人计算机(personal computer,pc)、电视机(television,tv)、柜员机或者自助机等,本技术实施例不作具体限定。
64.本技术实施例中的文本生成装置300可以为具有操作系统的装置。该操作系统可以为安卓(android)操作系统,可以为ios操作系统,还可以为其他可能的操作系统,本技术实施例不作具体限定。
65.本技术实施例提供的文本生成装置300能够实现图1的文本生成方法实施例实现的各个过程,为避免重复,这里不再赘述。
66.本技术实施例还提供一种可读存储介质,可读存储介质上存储有程序或指令,该程序或指令被处理器执行时实现上述文本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
67.本技术实施例还提供一种计算机设备,如图4所示,该计算机设备400包括处理器401和存储器402,存储器402上存储有可在处理器401上运行的程序或指令,该程序或指令被处理器401执行时实现上述文本生成方法实施例的各个步骤,且能达到相同的技术效果,为避免重复,这里不再赘述。
68.需要说明的是,本技术实施例中的计算机设备包括上述的移动计算机设备和非移动计算机设备。
69.存储器402可用于存储软件程序以及各种数据。存储器402可主要包括存储程序或指令的第一存储区和存储数据的第二存储区,其中,第一存储区可存储操作系统、至少一个功能所需的应用程序或指令(比如声音播放功能、图像播放功能等)等。此外,存储器402可以包括易失性存储器或非易失性存储器,或者,存储器402可以包括易失性和非易失性存储器两者。其中,非易失性存储器可以是只读存储器(read-only memory,rom)、可编程只读存储器(programmable rom,prom)、可擦除可编程只读存储器(erasable prom,eprom)、电可擦除可编程只读存储器(electrically eprom,eeprom)或闪存。易失性存储器可以是随机存取存储器(random access memory,ram),静态随机存取存储器(static ram,sram)、动态随机存取存储器(dynamic ram,dram)、同步动态随机存取存储器(synchronous dram,sdram)、双倍数据速率同步动态随机存取存储器(double data rate sdram,ddrsdram)、增强型同步动态随机存取存储器(enhanced sdram,esdram)、同步连接动态随机存取存储器(synch link dram,sldram)和直接内存总线随机存取存储器(direct rambus ram,drram)。本技术实施例中的存储器402包括但不限于这些和任意其它适合类型的存储器。
70.处理器401可包括一个或多个处理单元;可选的,处理器401集成应用处理器和调制解调处理器,其中,应用处理器主要处理涉及操作系统、用户界面和应用程序等的操作,调制解调处理器主要处理无线通信信号,如基带处理器。可以理解的是,上述调制解调处理器也可以不集成到处理器401中。
71.本技术实施例还提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现上述文本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
72.应理解,本技术实施例提到的芯片还可以称为系统级芯片、系统芯片、芯片系统或片上系统芯片等。
73.本技术实施例还提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如上述文本生成方法实施例的各个过程,且能达到相同的技术效果,为避免重复,这里不再赘述。
74.需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。此外,需要指出的是,本技术实施方式中的方法和装置的范围不限按示出或讨论的顺序来执行功能,还可包括根据所涉及的功能按基本同时的方式或按相反的顺序来执行功能,例如,可以按不同于所描述的次序来执行所描述的方法,并且还可以添加、省去、或组合各种步骤。另外,参照某些示例所描述的特征可在其他示例中被组合。
75.上面结合附图对本技术的实施例进行了描述,但是本技术并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本技术的启示下,在不脱离本技术宗旨和权利要求所保护的范围情况下,还可做出很多形式,均属于本技术的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1