融入先验知识的作文评语生成方法及装置

文档序号:34818356发布日期:2023-07-19 21:07阅读:53来源:国知局
融入先验知识的作文评语生成方法及装置

本发明公开一种融入先验知识的作文评语生成方法及装置,属于自然语言处理的。


背景技术:

1、自然语言处理领域的文本生成任务指根据具体的任务目标,将一段原始文本转换为另一段目标文本,具体实施过程为对输入的原始文本数据进行理解和分析得到原始文本的隐含语义向量,然后通过该隐含向量生成目标文本,具有广泛的应用场景,如作文评语生成、故事生成、论文摘要生成等。在自动作文评阅系统中,通过作文评语生成装置给出作文对应的评语,可增强智能作文评阅的可解释性。作文评语生成本质上是对作文文本进行语义理解和评价,由此进行语义可控的文本生成,其困难点包括长文本理解、基于标签信息的可控作文评语生成、评语知识空间的建模以及融合多种知识的评语生成,具有重要的理论价值和应用价值。

2、现有的评论生成方法大多是根据输入的文本内容,通过基于模板的相关技术,生成评论文本。

3、中国专利文献cn115309973a公开了一种基于文章内容生成评论的方法、设备及存储介质,其中他们获取等待自动填充评论的文章的目标信息,包括文章类别及文章关键字,通过目标信息在数据库中查找匹配的目标文章,对查找到的目标文章的评论进行筛选,得到目标信息对应的评论素材,最后,根据目标信息和评论素材,借助现有的自动造句工具、模板工具来生成目标评论。但是对于作文评语生成的场景来说,首先由于作文属于创造性的文本,不同作文的内容本身就具有极大的差异性,因此,无法通过检索数据库得到内容相似的作文;其次,根据模板、自动造句等方法得到的作文评语缺乏多样性。

4、考虑到以上基于模板方法的局限性,一些研究从文本本身来深度挖掘信息,提供更多信息来生成相关评论。中国专利文献cn113486649a公开了一种文本评论的生成方法以及电子设备,将待评论的文本,根据文本中每个句子的关键词,确定不同句子之间的语义关系,然后将每个句子对应的句子特征以及不同句子之间的语义关系,作为已训练的文本生成模型的输入,最后将文本生成模型输出的组合概率最高的多条词汇序列作为模型评论语句。然而,针对作文评语生成的场景来说,作文评语的语义不仅仅和作文内容相关,还包含了评论性质的文本,如果生成文本所需的信息仅仅来源于作文内容是远远不够的。因此作文评语生成任务的一个困难点在于其评语语义空间和作文语义空间之间的较大差异性。

5、综上,利用现有技术解决作文评语生成任务中遇到的技术依然存在问题:没有针对作文评语空间的建模方法,无法满足作文评语的词汇分布特征,从而导致多样性欠佳,无法使文本中蕴含多种知识以满足评语丰富的要求。没有关注到长文本理解对作文评价的阻碍问题。没有基于标签实现可控评语生成的方法,无法应对根据标签的不同生成不同的文本的需求。


技术实现思路

1、针对现有技术的不足,本发明公开一种融入先验知识的作文评语生成方法。

2、本发明还公开一种实现上述作文评语生成方法的装置。

3、本发明还提供了一种实现上述作文评语生成方法的可读存储介质。

4、本发明涉及作文评语生成任务,目标是根据作文内容和作文标签,生成涵盖作文核心内容且符合标签信息的合理评价文本,标签是指作文相关的其他信息,包括作者年级、作文类型等。

5、发明概述

6、本发明在作文评语生成过程中,融合了两种知识,来共同生成高质量的作文评语,分别是:内部知识和先验知识。所述内部知识是指通过对作文内容的理解和概括得到的作文语义知识,所述先验知识则是指学习到的与作文标签相关的常频词汇知识,例如符合标签的一些常用的作文评价词汇。

7、为解决长文本理解挑战,本发明采用无监督摘要抽取方法,抽取长文本中的核心内容构成作文摘要。在训练过程中,解码器每次生成一个字,多次迭代后生成完整的文本。解码过程中,采用注意力模块得到当前解码器状态对内部知识的注意力分布,采用互注意力模块得到当前解码状态和内部知识共同对先验知识的注意力分布,最后通过语义融合模块将内部知识和先验知识融合到解码过程中。

8、基于以上方法生成的作文评语内容不仅包含作文核心内容,还包含了对作文各个角度的评价,使得评语内容丰富且具备评价性质。在生成过程中,根据每一步得到的结果和参考评语中对应位置的字计算损失函数,以此来更新模型的参数。

9、技术术语解释

10、1、作文标签:指的是每篇作文的作者年级、作文类型等相关信息,令标签的类别数为o,真实的作文标签均包含o个种类。

11、2、先验知识:根据已有评语的词汇统计得到的上述每个标签类别对应的评语常用词汇表。

12、例如,对于6年级的记叙文,所对应的先验知识包含“描写”、“叙事”、“突出”、“表达”、“生动”、“流畅”等词汇;而对于6年级的议论文,所对应的先验知识包含“论证”、“观点”、“论述”、“议论文”、“说服力”等词汇。

13、3、先验知识库:包含所有标签对应的先验知识的总体。

14、本发明的技术方案如下:

15、一种融入先验知识的作文评语生成方法,其特征在于,包括:

16、s1:针对评语词汇的先验知识学习,根据已有的评语数据,得到不同作文标签下的评语常频词汇,以构建先验知识库;

17、s2:输入作文文本,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识;

18、s3:输入内部知识,经过编码器,得到内部知识的语义向量;将作文标签输入外部知识库,得到对应的先验知识,将先验知识中的词汇拼接起来输入所述编码器,得到先验知识的语义向量;

19、s4:解码器根据当前解码状态,通过注意力模块和互注意力模块分别得到当前解码状态对内部知识和先验知识的注意力分布,接着通过语义融合模块将内部知识和先验知识融合到解码过程中,以输出生成作文评语。

20、根据本发明优选的,所述s1中构建先验知识库的方法,包括:

21、对已有的评语数据进行常频词的统计和筛选,首先,按照作文标签,将同属于一个类别标签下的评语划分为一个集合;接着,对一个类别标签对应的评语集合中的所有评语,先进行分词操作,并去除停用词;最后,对所述集合内的所有词汇统计词频,选择前m个常频词作为所述作文标签对应的先验知识,将所有标签对应的先验知识汇总构成先验知识库。

22、根据《全国新课标高考作文评分标准》、《义务教育语文课程标准》以及各省的中考作文评分标准可以发现,针对不同年级、不同类型的作文,评价的标准是不一样的,通过评语内容可以发现,由于不同年级,不同类型的作文的评价角度和评价标准的不同,因此不同标签下的作文在评语的用词上也存在很大的差别。基于以上的结论,本发明通过已有的作文评语数据,学习不同作文标签类别下的评语常频词,作为先验知识,接着将学习到的先验知识引入评语生成过程中,帮助模型生成更好的作文评语。

23、根据本发明优选的,所述s2中,利用无监督摘要抽取方法,抽取作文摘要,作为内部知识的具体方法,包括:

24、所述无监督摘要抽取采用的是无监督算法textrank抽取作文摘要,textrank的基本思想是以句子作为顶点,边则表示两个句子对应句向量之间的相似性,将一个文本转化为一个图结构,接着通过循环迭代计算顶点的textrank值,最后选择排名高的顶点构成文本摘要,即选择句子作为抽取的基本单位,对应于textrank算法中的图的顶点,令作文为,表示作文的第个句子,则共有个顶点,顶点之间的边则表示了句子之间的内容相关性,边的数目为,所述边的权重通过由对应句向量之间的余弦相似度计算得到;

25、接着通过textrank算法得到句子的重要性分数:

26、(1);

27、在公式(1)中,表示作文的第个句子;

28、对中每个句子得到的分数进行排序,取前k个得分最高的句子字符串按照原文中出现的顺序拼接为作文摘要文本,即作文摘要文本是由k个作文原文的句子按原文中出现的顺序排列构成,用于概括了原文的核心内容。

29、根据本发明优选的,所述s3中,所述编码器均为预训练好的bert模型,英文为bidirectional encoder representations from transformers;

30、具体步骤如下:

31、s31:将作文摘要文本a输入所述编码器中,得到作文摘要文本a编码后的语义向量:

32、(2);

33、在公式(2)中,;l表示作文摘要文本中词元的数目;表示每个词向量的维度;表示编码器;

34、s32:根据作文的标签,得到该标签对应的先验知识,即评语常用的m个常频词,是常频词构成的序列,则表示第m个常频词,一般是由1到4个词元组成的,将所述m个常频词拼接起来,输入到所述编码器中,得到先验知识编码后的语义向量:

35、(3);

36、在公式(3)中,;表示常频词中词元的数量;表示每个词向量的维度。

37、根据本发明优选的,在s4中,所述解码器为基于单向lstm解码器,英文longshort-term memory;

38、具体步骤如下:

39、s41:在第个时间步,基于单向lstm解码器的输入是第时刻生成的词元,记为,将其输入词嵌入层,词嵌入层可以视为就是对词进行编码的网络,得到编码后的输入向量:

40、(4);

41、在公式(4)中,表示词嵌入层;将第步输入的词元表示向量以及上一步解码器的状态输入lstm,其中包含了基于单向lstm解码器在上一个时间步中记忆细胞存储的信息和隐藏状态,基于单向lstm解码器借助和,并结合当前的输入指的是当前第时刻的输入编码后的表示向量,得到第步的输出和第步的隐藏状态和细胞状态:

42、(5);

43、在公式(5)中,,第步的解码器状态;

44、s42:根据第步的解码器状态和编码器输出计算对中每个词元的注意力分布,其中作为注意力机制中的查询q,作为注意力机制中的键k和值v的来源;注意力分布的计算采用加性注意力的计算方式,计算第步解码器的状态和解码器的输出之间的注意力分布:

45、(6);

46、(7);

47、在公式(6)、公式(7)中,表示中第i个词元对应的注意力分数;表示对中个词元对应的注意力分数的整体表示;表示转置后的向量;表示中第i个词元的表示向量;、、和均是可训练的参数,注意力分布为在作文摘要文本词元上的一个概率分布,用于通知解码器在生成下一个词元的时候应该关注作文摘要文本中的哪些词元;

48、s43:根据注意力分布和编码器的输出计算加权和,得到作文内容的上下文向量:

49、(8);

50、在公式(8)中,表示中第i个词元在第时刻的均一化后的注意力分数;

51、s44:对于得到先验知识编码后的语义向量,分别计算上下文向量对中每个词元的注意力分布以及第步解码器的状态对中每个词元的注意力分布:

52、(9);

53、(10);

54、(11);

55、(12);

56、在公式(9)、公式(10)、公式(11)和公式(12)中,表示第步解码器的状态对中第i个词元的注意力分数;表示中个词元对应的注意力分数的整体表示;表示上下文向量对中第i个词元的注意力分数;表示对中个词元对应的注意力分数的整体表示;表示中第i个词元的表示向量;

57、、、、、、、和均是可学习的参数,是转置后的表示向量,是转置后的表示向量,表示对的注意力分布,表示对的注意力分布;在计算中,作为注意力机制中的查询(q),作为注意力机制中的键(k)和值(v)的来源;在计算中,作为注意力机制中的查询(q),作为注意力机制中的键(k)和值(v)的来源;

58、s45:采用互注意力模块对和两个注意力分布进行融合,过程如附图3所示;

59、s46:为了将内部知识和先验知识融合到评语生成过程中,在s4中还包括语义融合模块,所述语义融合模块具体步骤如下:

60、s461:根据基于单向lstm解码器最后一个单元的输出、以及作文内容的上下文向量,计算生成的字表分布:

61、(18);

62、在公式(18)中,、均是可学习的参数;

63、s462:作文评语一般包含两个部分,第一部分是对作文核心内容的概括,第二部分是对作文各个角度的评价,因此,针对这两个部分,本发明采用了复制机制,分别从内部知识和先验知识中复制相关词汇加入到生成的文本中,具体步骤如下:

64、根据作文内容的上下文向量、第步解码器的状态、先验知识的上下文向量以及第步输入的词元表示向量,计算生成的概率,这个概率决定了从字表生成字的概率:

65、(19);

66、在公式(19)中,表示sigmoid函数;、、、和均是可学习的参数;

67、然后,根据得到的作文内容上下文向量和先验知识上下文向量,计算从先验知识中复制词元的概率,这个概率是决定从先验知识中复制词元还是从作文原文中复制词元:

68、(20);

69、在公式(20)中,表示sigmoid函数;、和均是可学习的参数;

70、最终,根据生成的字表分布和对原文每个字的注意力分布以及先验知识中每个字的注意力分布加权得到生成字w的概率分布:

71、(21);

72、在公式(21)中,表示注意力分布中下标为i的字对应的均一化后的注意力分数;表示注意力分布中下标为i的字对应的均一化后的注意力分数;

73、计算解码器的损失函数,以优化模型:

74、(22);

75、在公式(22)中,表示第t步真实评语的词元;表示评语的长度;表示第步解码器最终生成该词元的概率,以得到融入先验知识的作文评语生成模型。综上通过s2—s4得到融入先验知识的作文评语生成模型,到这里为止模型的方法描述就结束了,后面的部分是模型如何训练的方法。

76、根据本发明优选的,在s46中还包括s463融入先验知识的作文评语生成模型的训练流程,具体过程如下:

77、(a)根据已有的评语数据构造先验知识库,并使用新闻文本对模型中的lstm部分进行预训练,形成训练好的lstm和预训练好的bert;选择新闻文本预训练的原因是新闻文本用词严谨,具备一定的评价性质,且长度和评语长度相似;

78、(b)根据训练数据对所述融入先验知识的作文评语生成模型进行联合训练;

79、(c)如所述融入先验知识的作文评语生成模型未完成训练,则转回步骤(b);

80、如果所述融入先验知识的作文评语生成模型完成训练,则保存融入先验知识的作文评语生成模型;

81、(d)利用保存融入先验知识的作文评语生成模型对附带标签的作文完成评语生成。

82、根据本发明优选的,所述s45中,采用互注意力模块对和两个注意力分布进行融合的具体步骤包括:

83、s451:将和在每一维上拼接得到一个注意力分布矩阵,由于和都是归一化后的结果,因此矩阵m本身就是列归一化的,每一列表示和对先验知识中每一个词元的注意力分数;

84、s452:对注意力分布矩阵m进行行归一化,表示先验知识中的第i个词元对和的注意力分数,得到先验知识对和的单向注意力矩阵:

85、(13);

86、(14);

87、s453:将单向注意力矩阵在列方向上求均值,得到先验知识对和的注意力分布和的权重系数:

88、(15);

89、在公式(15)中,;表示对应的权重;表示对应的权重;

90、s454:计算和合并后的注意力分布:

91、(16);

92、s455:计算先验知识的上下文向量表示:

93、(17);

94、在公式(17)中,表示注意力分布中第i个均一化后的注意力分数,也就是先验知识表示向量中第i个词元对应的权重。

95、一种融入先验知识的作文评语生成方法的装置,其特征在于,包括:处理器、存储装置以及存储在存储装置上并在所述处理器上执行的计算机程序;

96、所述处理器执行计算机程序时实现:

97、判断是融入先验知识的作文评语生成模型的训练阶段还是使用阶段;

98、如果是训练阶段,则获取训练数据;根据训练数据,对融入先验知识的作文评语生成模型进行训练;训练完成后,得到融入先验知识的作文评语生成模型;

99、如果是使用阶段,则得到融入先验知识的作文评语生成模型,将待处理的作文以及标签输入本装置中;作文文本经过摘要抽取模块,得到内部知识,将其输入编码器中,得到内部知识的语义编码表示;作文标签经过先验知识库,得到标签对应的先验知识,将先验知识输入编码器,得到先验知识的语义编码表示;

100、然后将内部知识的语义编码表示输入注意力模块,得到当前状态对内部知识的注意力分布;将先验知识的语义编码表示输入互注意力模块,得到当前解码状态和内部知识对先验知识的注意力分布;

101、最后,将得到的两个注意力分布通过语义融合模块融合到解码过程中,通过解码器得到输出的作文评语。

102、一种实现上述作文评语生成方法的可读存储介质,其特征在于:

103、将可执行的计算机程序存储在可读存储介质上,可执行的计算机程序被执行时能够完成上述方法所述的融入先验知识的作文评语生成模型的训练过程以及生成过程。

104、计算机设备包含可读存储介质、处理器、内存储器、输入设备和输出设备。可读存储介质中包括数据库和可执行计算机程序;数据库中存储有先验知识库、训练数据以及模型的初始化参数,如图5所示。

105、本发明的技术优势包括:

106、1.在无可用先验知识的前提下,本发明根据历史大型考试的作文评分标准发现,作文的评价角度和范围是有界的,各个评价角度的常用评价词汇也是有限的。因此,借助已有的评语数据,根据统计学原理,得到各个标签对应的评语常频词汇表,作为标签对应的先验知识。最后,将所有标签对应的先验知识的总体表示为先验知识库。

107、2.本发明解决标签信息可控的作文评语生成问题。由于缺少作文评语场景中可用的先验知识,因此根据已有各种类别的作文评语数据,学习作文标签相关的常频词汇先验知识,并将先验知识融入到生成过程中,使得生成文本既满足作文评语词汇分布特征,又富有多样性。为了解决长文本理解的挑战,采用无监督摘要抽取算法,抽取作文摘要作为内部知识,将长文本转化为精炼、简洁的短文本,便于模型对文本内容的理解和分析。在解码过程中,针对作文评语的语义空间建模问题,采用注意力模块得到当前状态对内部知识的注意力分布,采用互注意力模块得到当前解码状态和内部知识与先验知识的关联,最后通过语义融合模块,融合已有评语内容、作文标签和作文内容等信息,使得生成的作文评语内容不仅包含作文内容的概括,还包含了对作文各个角度的评价,评语内容丰富且符合正常评语要求。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1