本发明涉及文献检索,具体涉及一种基于多任务特征协同的生成专利摘要的方法及系统。
背景技术:
1、专利深加工针对专利文献特点利用文本生成技术获取高附加值的专利改写技术,专利摘要改写属于专利深加工组成部分。随着技术发展和专利数量迅速增多,国家和企业情报分析需要深入专利文本深层,迫切需要对专利大数据进行标注,由于人工标注存在成本高、速度慢等问题,自动标注技术也越来越受业界关注。目前较常用的几种处理方法如下:
2、(一)基于词表和模板自动深加工方法(“中文专利信息资源深加工方案设计与实证研究”,《技术与应用》,2014年第07期),深入到专利内容层面细粒度标引,利用半自动化的模板构建方法抽取专利文本摘要中的指定信息,实现指定领域的专利术语识别,利用识别出的术语进行标引,模板是对句子中被抽取部分、特征词以及它们之间的次序的抽象,共设计了发明类型(是否属于产品、方法、设备、流程、工艺、材料等主题)、技术主题(专利全文描述的主要对象或主要技术)、发明改进、应用领域(用途)等四种信息的标引。
3、(二)融合原文事实的中文专利摘要生成方法(崔卓,中文专利标题及摘要生成技术研究,北京信息科技大学专业硕士学位论文,2021年4月)使用文本排序textrank算法(一种用于文本的基于图的排序算法)提取说明书中心句,提取中心句中三元组作为原文事实性描述,基于原文事实性描述进行指导利用转换器(transformer)和指针神经网络得到最后的中文专利摘要。
4、转换器(transformer)是一个利用注意力机制来提高模型训练速度的模型,是完全基于自注意力机制的一个深度学习模型,因为它适用于并行化计算,和它本身模型的复杂程度导致它在精度和性能上都要高于之前流行的rnn循环神经网络。
5、(三)一种基于规则的专利摘要自动抽取和关键词标引方法(公开号为cn101692240a的中国专利公开文本),其自动撰写摘要技术是:对于功能单一的段落,按照其前后顺序确定重要程度,越靠前越重要;对于功能复合段落,根据本段中各类标记字与非标记字的比率确定,最后挑选各种类型中权重最大的段落生成自动摘要的结果。
6、(四)中文专利摘要改写方法(公开号为cn112417853a的中国专利公开文本),通过引入专利术语词典,基于强化学习的句子抽取方法,抽取专利说明书文本的关键句,利用转换器(transformer)深度神经网络文本生成方法生成候选摘要,最终融合专利原始摘要信息,经过语义去重和排序得到改写摘要,实现了端到端的专利摘要改写。
7、其中,(一)基于词表和模板自动深加工方法,需要首先建立模板库,采用人机交互方式,构建抽取模板,完成知识抽取任务,依赖模板数量、质量和覆盖度,成本较高且还依赖词表,其四种标引信息与本发明五种标引信息也不同。(二)融合原文事实的中文专利摘要生成方法提取中心句中三元组作为原文事实性描述,但没有考虑面对不同种类文本如何得到更能表示原文事实的三元组以及如何改变三元组加入模型的方式,融合原文事实中文专利摘要生成方法没有细分核心方案、发明点、其他技术方案中的发明信息、要解决的技术问题等摘要子类目,生成的摘要语句简洁,容易受训练数据和模型影响导致生成摘要子类目构成仍存在缺失问题。(三)一种基于规则的专利摘要自动抽取和关键词标引方法,通过抽取关键的段落组成摘要,属于抽取技术路线。(四)中文专利摘要改写方法采用一个lstm(long short term memory,长短期记忆,lstm是一种特殊的循环神经网络rnn)结构去训练一个指针网络,循环地抽取基于doc2vec(文档的向量化)表示的关键句,利用生成网络将提取的文档句子改写为摘要句子,应用强化学习来训练端到端的完整模型,技术较为先进但复杂度较高,没有明确专利摘要构成子类目种类。
技术实现思路
1、针对现有技术的不足,本发明提供的一种专利摘要生成的技术方案,可自动高效地生成专利摘要。
2、为了实现上述目的,本发明提供如下技术方案:
3、本发明一方面提供了一种专利摘要生成方法,包括确定专利摘要组成任务及其数据源类目,基于各任务特征压缩文本,所述压缩包括多任务特征协同压缩,基于预训练模型微调、验证和评估得到专利摘要生成模型。
4、本发明实施例提供的一种基于多任务特征协同的生成专利摘要的方法,包括如下步骤:
5、专利摘要组成部分的生成模型训练:基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化;
6、基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型;
7、对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型;
8、将待加工的专利文本进行拆分、压缩处理,并分别导入相应的专利摘要各组成部分生成模型;
9、将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要;
10、其中,所述专利摘要组成部分包括核心方案技术特征信息、发明点技术特征信息、其他技术方案中的发明信息、用途信息、要解决的技术问题和有益效果。
11、更适宜地,基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化,包括:
12、特征获取:根据词频进行筛选得到特征,经试验依据验证集损失、压缩文本权重和测试集评估值指标综合确定预定数量的特征;和/或
13、协同:通过将所述专利摘要组成部分生成任务划分成目标任务和支持任务实现的,所述目标任务指当前选出的正在优化的某个任务,所述支持任务指被用来达成对目标任务进行优化目的而选择的其他若干任务,所述协同任务是实际进入协同压缩阶段的支持任务,根据协同任务筛选算法从支持任务中筛选得到。
14、更适宜地,该生成专利摘要的方法,还包括压缩步骤:
15、压缩过程中,任一支持任务的特征划被分成私有特征和公有特征,所述私有特征指某一支持任务存在的而其支持的当前目标任务不存在的特征,所述公有特征指某一支持任务和其支持的当前目标任务都存在的特征。
16、更适宜地,要解决的技术问题和有益效果生成任务,包括如下步骤:
17、对样本库专利文献进行文本解析,拆分为名称、摘要、权利要求和说明书、背景技术、
技术实现要素:
、有益效果;并进行清洗及预处理、压缩;
18、利用要解决的技术问题和有益效果任务的高相关文本对压缩文本进行强调;
19、在原文撰写了有益效果情况下,通过使用剩余压缩空间大小作为压缩长度阈值压缩原文撰写的有益效果,引入人类经验;
20、针对相关性低的压缩文本,实施对未使用的内容,如:权利要求和说明书,进行压缩,补充压缩文本;
21、确定支持任务,构建任务矩阵,经协同任务筛选算法得到协同任务,实施多任务协同压缩;
22、利用压缩文本和标签构建数据集,通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到要解决的技术问题和有益效果生成模型。
23、更适宜地,用途生成任务,包括如下步骤:
24、对用途生成任务的各类目数据源进行清洗及预处理;
25、对名称、摘要、技术领域、背景技术、发明内容、有益效果、正文末尾内容进行压缩;
26、对于用途生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建文本得到用途生成高相关文本,用于强调;
27、对摘要、技术领域、背景技术、发明内容、有益效果、正文末尾利用高相关文本强调;
28、对权利要求和非正文末尾未使用文本进行压缩后补充低相关文本;
29、确定支持任务,实施多任务特征协同压缩;
30、利用压缩文本和标签构建数据集,通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到用途生成模型。
31、更适宜地,核心方案生成任务,包括如下步骤:
32、对样本库专利文献进行文本解析,拆分为名称、摘要、权利要求和说明书,并进行清洗及预处理、压缩;
33、核心方案生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本,用于强调;
34、对摘要、权利要求、说明书利用高相关文本强调;
35、确定支持任务,实施多任务特征协同压缩;
36、利用压缩文本和经过元件及编号处理过的标签构建数据集,通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到核心方案生成模型。
37、具体地,发明点生成任务,包括如下步骤:
38、对样本库专利文献进行文本解析,拆分为名称、摘要、权利要求和说明书,并进行清洗及预处理、压缩;
39、发明点生成任务的高相关文本的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本,用于强调;
40、对摘要、权利要求、说明书的类目主压缩结果利用高相关文本强调;
41、确定支持任务,实施多任务特征协同压缩。
42、利用压缩文本和标签构建数据集,基于迁移学习中模型迁移和预训练方法,结合撰写发明点对改写后的核心方案技术改进进行提炼的撰写经验,改写后的核心方案作为发明点的通用特征文本,将核心方案生成模型作为发明点的底层通用特征提取模型,通过样本库发明点标签文本进一步微调模型提取对发明点生成具有强相关的特征,基于核心方案生成模型进行微调、验证和评估得到发明点生成模型。
43、更适宜地,其他技术方案中的发明信息生成任务,包括如下步骤:
44、基于最长公共子序列(lcs)和目标贡献占比计算权重,结合摘要总长度得到其他技术方案中的发明信息生成任务所需的压缩文本长度;所述压缩包括:
45、对样本库专利文献进行文本解析,拆分为名称、摘要、权利要求和说明书,并进行清洗及预处理、压缩;
46、对摘要、权利要求、说明书利用高相关文本强调;
47、确定支持任务,实施多任务协同压缩;其他技术方案中的发明信息生成任务的高相关文本指摘要、权利要求、说明书的类目数据源压缩后相关值最大的第一句文本拼接到一起构建的文本,用于强调;
48、利用压缩文本和经过元件及编号处理过的标签构建数据集,通过文本生成模型中支持输入序列长度更长的文本生成模型进行微调、验证和评估得到其他技术方案中的发明信息生成模型。
49、更适宜地,汇总得到专利摘要的过程,还包括:
50、在将所生成的专利摘要组成部分汇总之前,对所述核心方案生成任务和其他技术方案中的发明信息生成任务涉及元件及编号进行处理。
51、优选地,文本生成模型中支持输入序列长度更长的文本生成模型为t5模型。
52、另一方面,本发明还提供一种专利摘要生成系统,包括:专利长文本解析及压缩模块,专利摘要生成模型训练模块,基于训练好的多任务专利摘要生成模型汇总生成专利摘要模块。
53、本发明实施例还提供一种基于多任务特征协同生成专利摘要的系统,包括:
54、生成模型训练单元,用于基于试验得到的专利摘要组成部分生成任务之间在特征层次进行协同、优化;
55、模型迁移处理单元,基于迁移学习中在核心方案生成模型基础上进行训练评估得到发明点生成模型;
56、多任务处理单元,对专利摘要组成部分在相关生成模型基础上分别进行训练评估得到专利摘要各组成部分生成模型;
57、汇总单元,用于将待加工的专利文本进行拆分、压缩处理,并分别导入相应的专利摘要各组成部分生成模型;将所生成的要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息的文本并汇总得到专利摘要;
58、其中,所述专利摘要组成部分包括核心方案技术特征信息、发明点技术特征信息、其他技术方案中的发明信息、用途信息、要解决的技术问题和有益效果。
59、本发明实施例还提供一种电子设备,包括:
60、至少一个处理器;以及
61、与所述处理器通信连接的存储器;其中,
62、所述存储器存储有可被所述处理器执行的计算机程序,所述计算机程序被所述处理器执行,以使所述处理器能够执行前述生成专利摘要的方法。
63、本发明实施例还提供一种计算机可读存储介质,该计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现前述生成专利摘要的方法。
64、本发明具有如下优点:
65、本发明提供的技术方案基于多任务模型分别生成要解决的技术问题和有益效果、用途、核心方案、发明点、其他技术方案中的发明信息等生成文本,通过汇总生成专利摘要流程得到最终的专利摘要,实现输入原始专利文本自动撰写输出专利摘要的目的,降低了专利摘要撰写的人工成本,提升了专利摘要撰写的效率。