一种基于XLNet的自动摘要方法与装置与流程

文档序号：22243478发布日期：2020-09-15 19:59阅读：来源：国知局

技术特征：

1.一种基于xlnet的自动摘要方法，其特征在于，包括如下步骤：

(1)将文本按句进行切分，将句子按词进行切分，在每个句子前增添显示的用于明确句子界限的占位符；每个单独的句子将作为模型中的最小评分单元，以及摘要的最小组成单元；

(2)构建基于xlnet模型的xlnetsum模型，包括输入层、多层transformer-xl、全局位置编码信息层和输出层；其中输入层将输入的词语序列转化为词嵌入向量与句序号；多层transformer-xl用于从输入的词嵌入向量与句序号中获取文本的语义信息，为文本中的每一个词语生成上下文相关的动态词向量；全局位置编码信息层用于利用三角函数的周期性给出位置信息，并将每个句子中用于明确句子界限的占位符对应的动态词向量和全局位置编码拼接作为句子的特征向量；输出层将句子的特征向量转化为归一化的输出，表示对应的句子属于摘要内容的概率；

(3)将经步骤(1)处理后的训练集文本输入xlnetsum模型，得到模型对文本中各个句子的评分，通过损失函数计算当前模型在训练集上的误差，并利用随机梯度下降算法进行反向传播，更新xlnetsum模型的参数；通过验证集上的损失判断模型训练是否完成，并选取验证集损失最低的模型作为输出模型；

(4)将经由步骤(1)处理后的测试集文本输入训练完成的xlnetsum模型，得到文本中句子的评分，基于评分进行后处理，选择最为重要的若干句子作为摘要。

2.根据权利要求1所述的基于xlnet的自动摘要方法，其特征在于，所述步骤(1)中将句子切分为词序列时，首先统计模型词表中的所有词语，并为其构建前缀树；将每一个句子从首个字符开始，与前缀树进行最大长度匹配，通过贪心算法将句子切分为词语序列，作为模型的输入。

3.根据权利要求1所述的基于xlnet的自动摘要方法，其特征在于，所述步骤(2)中全局位置编码信息的计算方式为：

其中pos∈[0，l)，是词语所处的位置，l是文本序列的总词语数，q是大于l的常数，m是动态词向量的维度，upos∈r^m，维度与xlnet的动态词向量输出一致，upos，r是upos向量的第r项。

4.根据权利要求1所述的基于xlnet的自动摘要方法，其特征在于，所述步骤(3)中的损失函数基于标准交叉熵设计，计算方法为：

其中n为当前样本的语句总数，labi和outi分别为第i句话的标签和预测值。

5.根据权利要求1所述的基于xlnet的自动摘要方法，其特征在于，所述步骤(4)中在进行后处理时利用3-gram排除信息冗余的句子，并为每个文本选择最多3个句子作为摘要。

6.一种基于xlnet的自动摘要装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于xlnet的自动摘要方法。

7.一种存储装置，存储有可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-5任一项所述的基于xlnet的自动摘要方法。

技术总结
本发明公开了一种基于XLNet的自动摘要方法与装置。本发明首先进行数据预处理，将文本按句切分，将句子按词进行切分，在每个句子前增添显示的用于明确句子界限的占位符。然后构建摘要模型XLNetSum，该模型在XLNet基础上增加全局位置编码，将占位符对应的动态词向量和全局位置编码作为句子特征；利用训练数据和验证数据对模型进行训练后，通过训练好的模型得到测试数据中各个句子的评分，再通过后处理步骤选取若干句子作为摘要。本发明的摘要模型利用深度神经语言模型XLNet提取文本信息，挖掘词语和上下文句法结构的语义，且可以处理长度不定的文本序列，能够灵活准确地判断文本中各个句子的重要性，进而抽取出文本的摘要语句。

技术研发人员：杨鹏;李文翰;杨浩然
受保护的技术使用者：南京优慧信安科技有限公司
技术研发日：2020.06.02
技术公布日：2020.09.15

完整全部详细技术资料下载

当前第2页1 2