引文信息实体抽取方法、装置、设备及介质与流程

文档序号：36634012发布日期：2024-01-06 23:22阅读：来源：国知局

技术特征：

1.一种引文信息实体抽取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，在采用样本数据集对预设的深度学习引文分块模型进行训练之前，所述方法还包括：

3.根据权利要求1所述的方法，其特征在于，对所述样本数据集中的各个原始引文数据进行预处理，以确定每个引文实体项在原始引文数据中的目标位置，包括：

4.根据权利要求1所述的方法，其特征在于，所述预设的深度学习引文分块模型包括依次设置的神经网络层、bi-gru层和crf层；

5.根据权利要求4所述的方法，其特征在于，预设的深度学习引文分类模型包括：目标bert模型、自注意力机制层和crf层，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，通过所述目标引文分块模型和所述目标引文分类模型进行处理，以从所述待处理的原始引文数据中抽取引文信息实体，得到目标引文实体项结果，包括：

7.根据权利要求1所述的方法，其特征在于，输出所述目标引文实体项结果，包括：

8.一种引文信息实体抽取装置，其特征在于，包括：

9.一种计算机设备，其特征在于，包括：至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；

10.一种计算机可读存储介质，其特征在于，存储有计算机可执行指令，所述计算机可执行指令用于执行如权利要求1至7中任一项所述的方法。

技术总结
本申请涉及深度学习和信息处理技术领域，提出了一种引文信息实体抽取方法、装置、设备及介质，其中，方法包括：获取引文数据的样本数据集；采用样本数据集对预设的深度学习引文分块模型进行训练，得到训练后的目标引文分块模型；利用目标引文分块模型输出的引文分块数据对预设的深度学习引文分类模型进行训练，得到训练后的目标引文分类模型；获取待处理的原始引文数据，并通过目标引文分块模型和目标引文分类模型进行处理，以从待处理的原始引文数据中抽取引文信息实体，得到目标引文实体项结果；输出目标引文实体项结果。通过该技术方案，提升引文信息实体抽取的准确度和效率。

技术研发人员：张亚标,段莫凡,李愿军,张镔,徐乾
受保护的技术使用者：同方知网数字出版技术股份有限公司
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

当前第2页1 2