一种图文关键信息提取方法、装置、设备及存储介质与流程

文档序号：35279248发布日期：2023-08-31 22:50阅读：来源：国知局

技术特征：

1.一种图文关键信息提取方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述文档进行预处理，获得由图片和词语组成的图文信息，包括：

3.根据权利要求2所述的方法，其特征在于，所述图文信息关系包括词语关系和词图关系，所述以文档中的图文信息作为节点，以图文信息关系作为边，构建图网络模型，包括：

4.根据权利要求2所述的方法，其特征在于，所述基于词语的特征向量和图片的特征向量，计算图网络模型中节点的权重分数，包括：

5.根据权利要求2所述的方法，其特征在于，所述图文关键信息包括关键图片和关键词；所述将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息，包括：

6.根据权利要求1所述的图文关键信息提取方法，其特征在于，所述词向量提取模型为elmo模型，elmo模型由双向的lstm网络结构组成。

7.根据权利要求1所述的图文关键信息提取方法，其特征在于，所述图向量提取模型为卷积神经网络模型，所述卷积神经网络模型由依次相连的卷积层、池化层和全连接层组成。

8.一种图文关键信息提取装置，其特征在于，包括：文档处理模块、特征向量提取模块、图网络模型构建模块、权重计算单元模块和图文关键信息提取模块；

9.一种图文关键信息提取设备，其特征在于，包括：处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一可执行指令，所述可执行指令在图文关键信息提取设备上运行时，使得图文关键信息提取设备执行如权利要求1-7任意一项所述的图文关键信息提取方法的操作。

技术总结
本发明提出一种图文关键信息提取方法、装置、设备及存储介质，涉及图文信息提取的技术领域，解决了当前关键信息提取方法提取关键信息的准确率低和提取关键信息不完整的问题，首先对获取的文档进行预处理，获得由图片和词语组成的图文信息，然后获取已预训练的词向量提取模型和图向量提取模型，利用词向量提取模型和图向量提取模型接收图文信息，提取词语和图片的特征向量，并以图文信息作为节点，以图文信息关系作为边，构建图网络模型，再基于词语和图片的特征向量，计算并排序节点的权重分数，将权重分数top‑n的节点对应的图文信息提取为图文关键信息，提取关键信息的准确率高，保证了提取关键信息的完整性。

技术研发人员：李准,陈子骁,庄光庭
受保护的技术使用者：阿维塔科技(重庆)有限公司
技术研发日：
技术公布日：2024/1/14

完整全部详细技术资料下载

当前第2页1 2