一种图文关键信息提取方法、装置、设备及存储介质与流程

文档序号:35279248发布日期:2023-08-31 22:50阅读:31来源:国知局
一种图文关键信息提取方法、装置、设备及存储介质与流程

本发明实施例涉及图文信息提取的,具体涉及一种图文关键信息提取方法、装置、设备及存储介质。


背景技术:

1、图文关键信息作为文章文档中具有代表性的信息,在文本的分类、关键词匹配、文档、语句相似度匹配、智能搜索、推荐、智能对话等方面有着广泛的应用。随着信息的爆炸式增长,通过图文关键信息的提取能够从海量信息中快速了解篇文档,大大提高了信息的获取速度,因此,研究图文关键信息的提取方法具有重要意义。

2、图文关键信息包括文档的关键词和关键图片,关键词是代表文档中包含信息量最多的词语,能够让人们快速了解文档的中心思想,关键图片是代表与文档关键词密切相关的图片,能够让人们快速的了解文档的基本思路。传统图文关键信息提取方法大多采用提取文档的关键词或关键图片,关键词的提取又依赖于textrank算法,textrank算法是利用反映局部词语之间关系的共现窗口,对后续关键词进行排序,直接从文档本身抽取出关键词,但textrank算法重点只关注词语之间的共现窗口,忽略了词语之间语法和语序对文本意思的影响,对语句的语义表现并不敏感,导致关键词提取准确率不高。现有专利文献公开了一种关键词提取方法,该方法先获取待处理文本,并对待处理文本进行分词,得到待处理文本对应的候选关键词,然后在词向量模型中查找候选关键词对应的词向量,词向量模型包括候选关键词的词向量,再根据词向量构建候选关键词的词相似度矩阵,最后根据候选关键词的词相似度矩阵对候选关键词进行排序,提取待处理文本的关键词,但现有的图文关键信息提取方法仅对文档的关键词或关键图片进行提取,忽略了文档中的图片和文本的关系,无法同时提取文档的关键词和关键图片,导致提取到文档的关键信息不完整。


技术实现思路

1、鉴于上述问题,本发明实施例提供了一种图文关键信息提取方法、装置、设备及存储介质,用于解决现有技术中存在的提取关键信息的准确率低和提取关键信息不完整的问题。

2、所述方法包括:根据本发明实施例的一个方面,提供了一种图文关键信息提取方法,所述方法包括:

3、获取文档,对所述文档进行预处理,获得由图片和词语组成的图文信息;

4、调用已预训练的词向量提取模型和图向量提取模型,分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量;

5、以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型;

6、基于词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数;

7、对节点的权重分数进行排序,将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息,其中n为正整数。

8、在一种可选的方式中,所述对所述文档进行预处理,获得由图片和词语组成的图文信息,包括:

9、对文档进行划分,得到文档中的原始文本和原始图片;

10、将所述原始文本按整句分割成若干个句子,对每一个句子进行分词,以及去除每一个句子的停用词,获得所述文档的所述词语;

11、将所述原始图片的尺寸调整为预设尺寸,得到所述文档的所述图片。

12、在一种可选的方式中,所述图文信息关系包括词语关系和词图关系,所述以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型,包括:

13、将词语和图片作为图网络模型的节点;

14、为具备词语关系的节点,或者具备词图关系的节点设置边,以构建图网络模型。

15、在一种可选的方式中,所述基于词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数,包括:

16、以图网络模型中节点之间的词语的特征向量内积、词语和图片的特征向量内积作为所述图网络模型的边的权重;

17、设置节点之间边的权重和节点的权重分数初始值;

18、利用节点之间边的权重和节点的权重分数初始值,迭代计算节点的权重分数;

19、判断每次迭代计算得到的权重分数是否收敛至预设阈值,若是,停止节点的权重分数的下一次迭代计算,输出最终的节点的权重分数;否则,执行节点的权重分数的下一次迭代计算,直至迭代计算得到的权重分数收敛至预设阈值。

20、在一种可选的方式中,所述图文关键信息包括关键图片和关键词;所述将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息,包括:

21、将权重分数top-n的节点对应的词语作为所述关键词,将权重分数top-n的节点对应的图片作为所述关键图。

22、在一种可选的方式中,所述词向量提取模型为elmo模型,elmo模型由双向的lstm网络结构组成。

23、在一种可选的方式中,所述图向量提取模型为卷积神经网络模型,所述卷积神经网络模型由依次相连的卷积层、池化层和全连接层组成。

24、根据本发明实施例的另一方面,提供了一种图文关键信息提取装置,包括:文档处理模块、特征向量提取模块、图网络模型构建模块、权重计算单元模块和图文关键信息提取模块;

25、所述文档处理模块用于获取文档,对所述文档进行预处理,获得由图片和词语组成的图文信息;

26、所述特征向量提取模块用于调用已预训练的词向量提取模型和图向量提取模型,分别提取图文信息中的词语的特征向量和图文信息中的图片的特征向量;

27、所述图网络模型构建模块用于以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型;

28、所述权重计算单元模块用于根据词语的特征向量和图片的特征向量,计算图网络模型中节点的权重分数;

29、所述图文关键信息提取模块用于对节点的权重分数进行排序,将权重分数top-n的节点对应的图文信息作为所述文档的图文关键信息,其中n为正整数。

30、根据本发明实施例的另一方面,提供了一种图文关键信息提取设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;

31、所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行图文关键信息提取方法的操作。

32、本发明还提出了一种计算机可读存储介质,所述存储介质中存储有至少一可执行指令,所述可执行指令在图文关键信息提取设备上运行时,使得图文关键信息提取设备执行图文关键信息提取方法的操作。

33、本发明实施例首先对文档进行预处理,获得由图片和词语组成的图文信息,达到了同时获得图片和词语的目的,避免了单一对文档的词语或图片提取导致提取到的信息缺失的弊端;然后调用已训练的词向量提取模型和图向量提取模型接收图文信息,便于提取图文信息中的词语的特征向量和图文信息中的图片的特征向量;再以文档中的图文信息作为节点,以图文信息关系作为边,构建图网络模型,使得图网络模型能够将文档中的图片和文本的词语进行了关联;进一步基于词语的特征向量和图片的特征向量,计算并排序图网络模型中节点的权重分数,将权重分数top-n的节点对应的图文信息提取为图文关键信息,使得提取到的图文关键信息能够完整的帮助读者迅速了解文档的中心思想和基本思路,能够提取图文关键信息的准确率高,保证了提取图文关键信息的完整性。

34、上述说明仅是本发明实施例技术方案的概述,为了能够更清楚了解本发明实施例的技术手段,而可依照说明书的内容予以实施,并且为了让本发明实施例的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1