文本摘要与关键词抽取方法、装置、设备及介质与流程

文档序号:27686987发布日期:2021-12-01 01:38阅读:来源:国知局

技术特征:
1.一种文本摘要与关键词抽取方法,其特征在于,所述方法包括:获取训练文本数据,所述训练文本数据包括若干文本分句;将多个所述文本分句转换为句向量,并标记多个所述句向量的关键词标签及摘要句标签;通过预设的编码模型对标记后的多个句向量进行上下文信息嵌入,得到标准向量集;利用所述标准向量集对预构建的摘要句分析模型以及关键词分析模型进行联合训练,所述联合训练通过预设的联合损失函数同时对所述摘要句分析模型和所述关键词分析模型进行参数优化,所述联合损失函数包括所述摘要句分析模型的第一损失值以及所述关键词分析模型的第二损失值;利用训练后的摘要句分析模型和关键词分析模型抽取获取到的待处理文本的文本摘要与关键词。2.根据权利要求1所述的文本摘要与关键词抽取方法,其特征在于,所述利用所述标准向量集对预先构建的摘要句分析模型以及关键词分析模型进行联合训练,所述联合训练通过预设的联合损失函数同时对所述摘要句分析模型和所述关键词分析模型进行参数优化,所述联合损失函数包括所述摘要句分析模型的第一损失值以及所述关键词分析模型的第二损失值,包括:对所述摘要句分析模型及所述关键词分析模型的参数赋初值,利用赋初值后的所述摘要句分析模型及所述关键词生成多个所述标准向量的摘要预测标签和关键词预测标签;根据所述摘要预测标签和标记的实际摘要标签计算所述第一损失值,以及根据所述关键词预测标签和标记的实际关键词标签计算所述第二损失值;根据所述第一损失值和所述第二损失值计算所述联合损失函数的联合损失值,并利用梯度下降算法根据所述联合损失值计算所述摘要句分析模型和所述关键词分析模型的更新梯度;按照所述更新梯度对所述摘要句分析模型和所述关键词分析模型的参数进行调整优化,得到训练后的摘要句分析模型和关键词分析模型。3.根据权利要求2所述的文本摘要与关键词抽取方法,其特征在于,所述联合损失函数包括:其中,为所述联合损失函数的联合损失值,为所述第一损失值,为所述第二损失值,为平衡因子。4.根据权利要求1至3中任一项所述的文本摘要与关键词抽取方法,其特征在于,所述通过预设的编码模型对标记后的多个句向量进行上下文信息嵌入,得到标准向量集,包括:利用预设的编码模型将多个所述句向量对应的文本分句在所述训练文本数据中的位置信息编码为句位置向量,将多个所述句位置向量与多个所述句向量进行组合,得到句标准向量;或者利用所述编码模型将多个所述句向量对应的文本分句中包含的多个文本分词在所述训练文本数据中的位置信息编码为词位置向量,将多个所述词位置向量嵌入多个所述文本分词的词向量进行组合,得到词标准向量;
将所述句标准向量或所述词标准向量汇集为所述标准向量集。5.根据权利要求1至3中任一项所述的文本摘要与关键词抽取方法,其特征在于,所述编码模型为bert模型,所述关键词分析模型为crf模型。6.根据权利要求4中任一项所述的文本摘要与关键词抽取方法,其特征在于,所述将多个所述文本分句转换为句向量,包括:依次从所述文本分句中选取其中一个文本分句为目标分句;将所述目标分句拆分为若干文本分词,并将每个所述文本分词编码为词向量;按照每个所述文本分词在所述目标分句中位置的先后顺序将所述词向量拼接为句向量。7.根据权利要求2所述的文本摘要与关键词抽取方法,其特征在于,所述利用赋初值后的所述摘要句分析模型及所述关键词生成多个所述标准向量的摘要预测标签和关键词预测标签,包括:利用所述摘要句分析模型对每个所述标准向量进行预设次数的卷积及池化处理,得到向量特征;根据所述向量特征计算每个所述标准向量对应的文本分句为摘要句的句概率值;利用属于摘要句的摘要预测标签对所述句概率值大于或等于预设概率阈值的文本分句进行标记;利用不属于摘要句的摘要预测标签对所述句概率值小于所述预设概率阈值的文本分句进行标记。8.一种文本摘要与关键词抽取装置,其特征在于,所述装置包括:文本分句模块,用于获取训练文本数据,所述训练文本数据包括若干文本分句;向量转换模块,用于将多个所述文本分句转换为句向量,并标记多个所述句向量的关键词标签及摘要句标签,通过预设的编码模型对标记后的多个句向量进行上下文信息嵌入,得到标准向量集;模型优化模块,用于利用所述标准向量集对预构建的摘要句分析模型以及关键词分析模型进行联合训练,所述联合训练通过预设的联合损失函数同时对所述摘要句分析模型和所述关键词分析模型进行参数优化,所述联合损失函数包括所述摘要句分析模型的第一损失值以及所述关键词分析模型的第二损失值;文本处理模块,用于利用训练后的摘要句分析模型和关键词分析模型抽取获取到的待处理文本的文本摘要与关键词。9.一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器、通信接口、存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现权利要求1

7任一项所述的文本摘要与关键词抽取方法的步骤。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1

7任一项所述的文本摘要与关键词抽取方法的步骤。

技术总结
本申请涉及一种文本摘要与关键词抽取方法,包括:获取包括若干文本分句的训练文本数据;将多个文本分句转换为句向量,并标记多个句向量的关键词标签及摘要句标签;对标记后的多个句向量进行上下文信息嵌入,得到标准向量集;利用标准向量集对预构建的摘要句分析模型以及关键词分析模型进行联合训练;利用训练后的摘要句分析模型和关键词分析模型抽取获取到的待处理文本的文本摘要与关键词。此外,本申请还涉及一种文本摘要与关键词抽取装置、设备及介质。本申请可解决利用单独训练的摘要模型和关键词抽取模型时无法同时精确地对摘要与关键词进行抽取的问题。与关键词进行抽取的问题。与关键词进行抽取的问题。


技术研发人员:张剑 程刚 刘代琴 黄仁杰
受保护的技术使用者:深圳市北科瑞讯信息技术有限公司
技术研发日:2021.11.02
技术公布日:2021/11/30
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1