本发明涉及自然语言处理,尤其涉及一种文章标题结构生成方法及系统。
背景技术:
1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。
2、在现代文章处理中,自动生成文章标题结构具有重要的意义。首先,标题结构可以为文章提供清晰的框架结构,帮助读者更好地理解文章内容。其次,标题结构可以帮助搜索引擎更好地索引和分类文章,提高搜索效率。然而,现有的自动生成文章标题结构的方法存在一定的局限性,例如无法准确识别不同格式的文章,无法准确抽取标题结构信息等。
技术实现思路
1、为了解决上述背景技术中存在的技术问题,本发明提供一种文章标题结构生成方法及系统,本发明通过fine-tuning和模型微调的方式,可以进一步优化文章标题结构生成的结果,提高文章标题结构生成结果的质量和可读性。
2、为了实现上述目的,本发明采用如下技术方案:
3、本发明的第一个方面提供一种文章标题结构生成方法。
4、一种文章标题结构生成方法,包括:
5、获取文章的标题结构信息,并根据标题等级对文章标题结构进行标签化处理,得到文章不同层级的标题结构;
6、根据文章标题结构标签数据,进行标题层级树构建;对标题层级树中叶子节点进行剪枝,去除掉某个或者多个树分支的叶子节点,获得第一子标题层级树;在树分子节点满足一定范围时,根据标题层级树的中分支子树情况,抽取其根节点下的所有子树,得到第二子标题层级树;对标题层级树中子树分支进行剪枝,去除掉某个或者多个树分支,得到第三子标题层级树;基于第一子标题层级树、第二子标题层级树和第三子标题层级树,构建训练样本集;基于训练样本集训练文章结构生成大模型;
7、在训练过程中,采用prompt提示词对输出结果进行调整,以得到符合需求的文章结构生成结果和已训练的文章结构生成大模型;
8、基于输入的文章题目,采用已训练的文章结构生成大模型,输出文章结构候选结果。
9、进一步地,所述在树分子节点满足一定范围时为树分子节点大于等于5时。
10、进一步地,若基于第一子标题层级树、第二子标题层级树或第三子标题层级树的层级大于2时,对第一子标题层级树、第二子标题层级树或第三子标题层级树进行剪枝处理,否则,不做处理。
11、进一步地,若基于第一子标题层级树、第二子标题层级树或第三子标题层级树的节点数大于等于5时,对第一子标题层级树、第二子标题层级树或第三子标题层级树进行剪枝处理,否则,不做处理。
12、进一步地,所述基于训练样本集训练文章结构生成大模型包括:将最低级别的结构标签和文本内容作为训练输入数据,将高级别的结构标签和文本内容作为训练输出结果。
13、进一步地,所述采用prompt提示词的过程包括:通过对文章结构生成任务的提示词进行调研,并结合专家建议,找出符合文章结构生成prompt提示词。
14、进一步地,所述采用prompt提示词的过程还包括:通过prompt encoder技术对文章结构生成任务的提示词进行处理,找出符合对子标题的层级内容进行重新生成结构层级结果promot提示词。
15、进一步地,所述采用prompt提示词的过程还包括:通过prompt embedding技术对补充子标题的结构层级任务的提示词进行处理,并结合专家建议,找出符合对子标题的结构层级进行补充的promot提示词。
16、本发明的第二个方面提供一种文章标题结构生成系统。
17、一种文章标题结构生成系统,包括:
18、数据获取模块,其被配置为:获取文章的标题结构信息,并根据标题等级对文章标题结构进行标签化处理,得到文章不同层级的标题结构;
19、数据增强模块,其被配置为:根据文章标题结构标签数据,进行标题层级树构建;对标题层级树中叶子节点进行剪枝,去除掉某个或者多个树分支的叶子节点,获得第一子标题层级树;在树分子节点满足一定范围时,根据标题层级树的中分支子树情况,抽取其根节点下的所有子树,得到第二子标题层级树;对标题层级树中子树分支进行剪枝,去除掉某个或者多个树分支,得到第三子标题层级树;基于第一子标题层级树、第二子标题层级树和第三子标题层级树,构建训练样本集;基于训练样本集训练文章结构生成大模型;
20、模型训练模块,其被配置为:在训练过程中,采用prompt提示词对输出结果进行调整,以得到符合需求的文章结构生成结果和已训练的文章结构生成大模型;
21、标题生成模块,其被配置为:基于输入的文章题目,采用已训练的文章结构生成大模型,输出文章结构候选结果。
22、本发明的第三个方面提供一种计算机可读存储介质。
23、一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如上述第一个方面所述的文章标题结构生成方法中的步骤。
24、本发明的第四个方面提供一种计算机设备。
25、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一个方面所述的文章标题结构生成方法中的步骤。
26、与现有技术相比,本发明的有益效果是:
27、本发明结合了人工打标签和智能提取方式,以及层级结构拆解和递归等算法,用于生成文章标题的结构化标签信息。通过fine-tuning训练文章结构生成大模型,该系统可解析用户输入的文章题目,并生成文章结构候选结果。最后,通过对生成好的文章结构候选结果中的部分子标题内容进行promot提示词文章结构结果内容优化,以提高生成文章结构的准确性和质量。
28、根据本发明,用户可以根据需求输入文章名称和提示词,个性化定制文章标题结构生成结果,提高了用户体验。
29、本发明基于文章结构标签化,训练数据增强算法,大模型训练算法,结构生成展示算法和promot优化算法,实现了自动化、高效率的文章处理。与传统的手动编写标题结构相比,本发明具有更高的准确性和效率,能够大大提升文章处理的效果和工作效率。
1.一种文章标题结构生成方法,其特征在于,包括:
2.根据权利要求1所述的文章标题结构生成方法,其特征在于,所述在树分子节点满足一定范围时为树分子节点大于等于5时。
3.根据权利要求1所述的文章标题结构生成方法,其特征在于,若基于第一子标题层级树、第二子标题层级树或第三子标题层级树的层级大于2时,对第一子标题层级树、第二子标题层级树或第三子标题层级树进行剪枝处理,否则,不做处理;
4.根据权利要求1所述的文章标题结构生成方法,其特征在于,所述基于训练样本集训练文章结构生成大模型包括:将最低级别的结构标签和文本内容作为训练输入数据,将高级别的结构标签和文本内容作为训练输出结果。
5.根据权利要求1所述的文章标题结构生成方法,其特征在于,所述采用prompt提示词的过程包括:通过对文章结构生成任务的提示词进行调研,并结合专家建议,找出符合文章结构生成prompt提示词。
6.根据权利要求1所述的文章标题结构生成方法,其特征在于,所述采用prompt提示词的过程还包括:通过prompt encoder技术对文章结构生成任务的提示词进行处理,找出符合对子标题的层级内容进行重新生成结构层级结果promot提示词。
7.根据权利要求1所述的文章标题结构生成方法,其特征在于,所述采用prompt提示词的过程还包括:通过prompt embedding技术对补充子标题的结构层级任务的提示词进行处理,并结合专家建议,找出符合对子标题的结构层级进行补充的promot提示词。
8.一种文章标题结构生成系统,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如权利要求1-7中任一项所述的文章标题结构生成方法中的步骤。
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1-7中任一项所述的文章标题结构生成方法中的步骤。