可视化情报图谱检索方法、装置、电子设备及存储介质与流程

文档序号:32838525发布日期:2023-01-06 20:00阅读:28来源:国知局
可视化情报图谱检索方法、装置、电子设备及存储介质与流程

1.本发明实施例涉及知识图谱技术领域,特别涉及一种可视化情报图谱检索方法、装置、电子设备及存储介质。


背景技术:

2.随着信息技术、拓扑学、图像学等学科理论和技术的飞速发展,信息量和数据量呈指数增长。基于复杂的数据特征,知识图谱技术应运而生。知识图谱通过将各种知识元关联形成图谱,能够高效处理大量复杂的特征数据。而面对大数据量的知识图谱,如何进行数据检索成为一个关键问题。
3.现有的知识图谱系统,通常是单纯的将信息进行堆积或编排,在进行数据检索时效率较低。


技术实现要素:

4.本发明实施例提供了一种可视化情报图谱检索方法、装置、电子设备及存储介质,能够提高检索效率。
5.第一方面,本发明实施例提供了一种可视化情报图谱检索方法,包括:
6.确定待索引可视化情报图谱所包括的至少两个检索场景,对每一个检索场景的数据分别进行索引;
7.获取用户输入的检索条件,对所述检索条件进行分词处理,得到至少一个分词;
8.确定所述至少一个分词中每一个分词的类别;
9.根据每一个分词的类别确定对应所述检索条件的目标检索场景;
10.基于所述目标检索场景的索引,检索与所述检索条件相匹配的数据。
11.在一种可能的实现方式中,所述检索场景至少包括:实体检索场景和图谱检索场景;或,
12.所述检索场景至少包括:实体检索场景、图谱检索场景和知识链接文件检索场景。
13.在一种可能的实现方式中,当所述检索场景包括知识链接文件检索场景时,所述知识链接文件是采用知识链接的方式关联在所述可视化情报图谱中的,所述知识链接文件为非结构化文件。
14.在一种可能的实现方式中,对所述实体检索场景的数据进行索引,包括:采用b+树的数据结果对所述可视化情报图谱中实体的属性建立索引;和/或,
15.对所述图谱检索场景的数据进行索引,包括:基于所述可视化情报图谱中包括的对象、关系、对象的三元组数据,建立哈希表索引;和/或,
16.对所述知识链接文件检索场景的数据进行索引,包括:将所述可视化情报图谱的知识链接文件进行多模态内容理解,基于理解后的文本信息生成倒排索引。
17.在一种可能的实现方式中,所述确定所述至少一个分词中每一个分词的类别,包括:
18.基于预先对若干个类别的定义,确定每一个分词所属的类别;所述若干个类别包括:对象、关系和属性键值。
19.在一种可能的实现方式中,所述根据每一个分词的类别确定对应所述检索条件的目标检索场景,包括:
20.当所述至少一个分词的类别包括对象类别且不包括其他类别时,确定对应所述检索条件的目标检索场景为实体检索场景;
21.当所述至少一个分词的类别包括对象类别和关系类别且不包括其他类别时,确定对应所述检索条件的目标检索场景为图谱检索场景;
22.当所述至少一个分词的类别包括属性键值关系类别时,确定对应所述检索条件的目标检索场景为知识链接文件检索场景。
23.在一种可能的实现方式中,还包括:
24.若检索到与所述检索条件相匹配的数据,则将检索结果形成知识词典分类树;
25.响应于对所述知识词典分类树中目标知识项的漫游操作,定位至所述目标知识项在所述可视化情报图谱中的相应坐标位置处。
26.第二方面,本发明实施例还提供了一种可视化情报图谱检索装置,包括:
27.索引单元,用于确定待索引可视化情报图谱所包括的至少两个检索场景,对每一个检索场景的数据分别进行索引;
28.分词处理单元,用于获取用户输入的检索条件,对所述检索条件进行分词处理,得到至少一个分词;
29.类别确定单元,用于确定所述至少一个分词中每一个分词的类别;
30.场景确定单元,用于根据每一个分词的类别确定对应所述检索条件的目标检索场景;
31.检索单元,用于基于所述目标检索场景的索引,检索与所述检索条件相匹配的数据。
32.第三方面,本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本说明书任一实施例所述的方法。
33.第四方面,本发明实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序在计算机中执行时,令计算机执行本说明书任一实施例所述的方法。
34.本发明实施例提供了一种可视化情报图谱检索方法、装置、电子设备及存储介质,通过将可视化情报图谱按照检索场景进行数据划分,以将不同检索场景的数据单独进行索引,当用户输入检索条件对可视化情报图谱进行数据检索时,通过确定检索条件分词处理后得到的分词的类别,来确定用户对检索场景的诉求,从而可以从可视化情报图谱的全部数据量减少至目标检索场景的数据量,进而可以提高检索效率。
附图说明
35.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明
的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
36.图1是本发明一实施例提供的一种可视化情报图谱检索方法流程图;
37.图2是本发明一实施例提供的一种电子设备的硬件架构图;
38.图3是本发明一实施例提供的一种可视化情报图谱检索装置结构图。
具体实施方式
39.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例,基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
40.如前所述,面对大数量的知识图谱,单纯将信息进行堆积或编排,信息检索时效率较低。
41.基于上述问题,对知识图谱进行分析可知,知识图谱中包括实体、实体间的连接关系,当知识图谱中通过知识链接的方式链接有非结构化数据时形成可视化情报图谱,因此可视化情报图谱中还可以包括非结构化的知识链接文件。可见,在对可视化情报图谱进行检索时,可以针对不同检索场景的数据分别实现检索,因此,在对可视化情报图谱中这些数据进行索引时,可以基于不同检索场景的数据分别单独进行索引,并在数据检索时,基于用户输入的检索条件确定满足用户诉求的检索场景,并在对应检索场景内的数据中进行检索,而无需对其他检索场景内的数据进行检索。可见,能够通过减少检索数据量的方式来提高检索效率。
42.下面描述以上构思的具体实现方式。
43.请参考图1,本发明实施例提供了一种可视化情报图谱检索方法,该方法包括:
44.步骤100,确定待索引可视化情报图谱所包括的至少两个检索场景,对每一个检索场景的数据分别进行索引;
45.步骤102,获取用户输入的检索条件,对所述检索条件进行分词处理,得到至少一个分词;
46.步骤104,确定所述至少一个分词中每一个分词的类别;
47.步骤106,根据每一个分词的类别确定对应所述检索条件的目标检索场景;
48.步骤108,基于所述目标检索场景的索引,检索与所述检索条件相匹配的数据。
49.本发明实施例中,通过将可视化情报图谱按照检索场景进行数据划分,以将不同检索场景的数据单独进行索引,当用户输入检索条件对可视化情报图谱进行数据检索时,通过确定检索条件分词处理后得到的分词的类别,来确定用户对检索场景的诉求,从而可以从可视化情报图谱的全部数据量减少至目标检索场景的数据量,进而可以提高检索效率。
50.下面描述图1所示的各个步骤的执行方式。
51.首先,针对步骤100,确定待索引可视化情报图谱所包括的至少两个检索场景,对每一个检索场景的数据分别进行索引。
52.当获取到可视化情报图谱之后,需要对可视化情报图谱的数据进行存储。可视化
情报图谱中数据量较大时,通常可以通过检索方式来直接定位至检索目标上,为了提高检索效率,在对可视化情报图谱的数据进行存储时,可以将可视化情报图谱的数据进行索引。
53.面对大数据量的可视化情报图谱,若对可视化情报图谱的所有数据统一进行索引,在进行数据检索时,面临的检索数据量也会较大,检索效率较低。基于该问题,本发明实施例中,可以将可视化情报图谱的数据按照检索场景进行划分,通过确定可视化情报图谱所包括的检索场景,可以将每一个检索场景的数据分别单独进行索引,从而将可视化情报图谱的全部数据量分为至少两组检索数据量,每一组检索数据量均小于全部数据量,其中,至少两组检索数据量与至少两个检索场景一一对应,使得在对全部数据量的检索上转换为对其中一个检索场景数据量的检索,以提高检索效率。
54.本发明一个实施例中,由于可视化情报图谱包括实体以及实体间的关系,用户在对可视化情报图谱进行检索时,可以仅检索实体,也可以检索两个实体间关系,因此,该检索场景至少可以包括:实体检索场景和图谱检索场景。其中,实体检索场景是指检索符合检索条件的实体信息;图谱检索场景是指检索图谱中符合检索条件的实体、关系、实体的三元组数据。
55.进一步地,由于现有的可视化情报图谱包含的数据均是结构化数据,而仅仅依靠结构化数据无法将信息表达完整。在本发明一个实施例中,为了丰富可视化情报图谱的表达内容,可以采用知识链接的方式对可视化情报图谱中的实体关联知识链接文件。该知识链接文件是非结构化文件,比如文档、图片、视频、音频等。
56.当可视化情报图谱中关联有知识链接文件时,该检索场景还可以包括知识链接文件检索场景。该知识链接文件检索场景是指对可视化情报图谱中与实体关联的非结构化文件进行检索。
57.可以理解,本发明实施例中,当检索场景包括知识链接文件检索场景时,该知识链接文件是采用知识链接的方式关联在所述可视化情报图谱中的,所述知识链接文件为非结构化文件。
58.在本发明实施例中,不同检索场景的数据可以采用相同的索引方式进行索引,也可以基于不同检索场景的数据特征采用不同的索引方式进行索引。
59.下面以不同检索场景采用不同索引方式为例分别进行说明。
60.1、实体检索场景
61.在实体检索场景中,通常是将实体属性作为检索条件进行检索,而可视化情报图谱中的实体属于结构化数据,因此,本发明实施例中,在对实体检索场景的数据进行索引时,可以采用b+树的数据结果对所述可视化情报图谱中实体的属性建立索引。
62.具体地,可以确定可视化情报图谱中所包含对象以及每一个对象的多个属性,针对每一个对象的多个属性生成b+树。其中,b+树包括两种类型的结点,一种是内部结点(也就是索引结点),另一种是保存数据的叶子结点。内部结点中的key按照大小顺序进行排列,对于一个内部结点,左树中的所有key均小于该内部结点的key,右树种的所有key均大于该内部结点的key。叶子结点中的数据也是按照key的大小排列,每个叶子结点都存储有相邻叶子结点的指针,叶子结点依据关键字大小顺序链接。
63.2、图谱检索场景
64.在图谱检索场景中,用户通常是输入对象及其关系作为检索条件,以检索图谱中
符合条件的实体、关系、实体的三元组数据,因此,本发明实施例中,可以基于可视化情报图谱中包括的对象、关系、对象的三元组数据,建立哈希表索引。
65.具体地,可以指定一个对象、关系、对象的三元组数据,遍历可视化情报图谱中所有符合此三元组的实体与关系建立哈希表索引,哈希表的key为对象、关系、对象的三元组数据,哈希表的value为对应的实体与关系集合。
66.举例来说,可视化情报图谱中包括对象1、对象2和对象3,那么可以指定对象1、关系、对象2这个三元组数据,计算该三元组数据的key,并将可视化情报图谱中符合此三元组的实体与关系,计算对应的value,以形成该三元组数据的实体与关系的集合。
67.需要说明的是,对象与实体的对应关系为:对象在填充信息之后得到实体,当相同对象被填充的信息不同时,得到的实体也不同。
68.3、知识链接文件检索场景
69.在知识链接文件检索场景中,由于知识链接文件是非结构化文件,因此,在对知识链接文件检索场景的数据进行索引时,可以将可视化情报图谱的知识链接文件进行多模态内容理解,基于理解后的文本信息生成倒排索引。
70.本发明实施例中,对于文本信息的知识链接文件,可以直接利用文本信息生成倒排索引,而对于图片、音频、视频等非文本的知识链接文件,可以先进行多模态内容理解,形成对应的文本信息后再生成倒排索引。
71.具体地,再基于文本信息生成倒排索引时,可以先将本文信息切分成单词序列,将每个文本转换为由单词序列构成的数据流;然后对每个不同的单词赋予唯一单词编号(id),并记录每一个单词的文档频率、包含该单词的文档编号(docid)、该单词再各个对应文档中的词频(tf)、该单词出现再某个文档中的位置(pos);最后按照如下表1生成单词文档矩阵。
72.表1
73.单词id单词文档频率倒排列表(docid;tf;pos)
74.以上完成了每一个检索场景数据的单独索引。
75.然后,针对步骤102“获取用户输入的检索条件,对所述检索条件进行分词处理,得到至少一个分词”、步骤104“确定所述至少一个分词中每一个分词的类别”和步骤106“根据每一个分词的类别确定对应所述检索条件的目标检索场景”同时进行说明。
76.本发明实施例中,对检索条件进行分词处理的方式可以采用字符串匹配方法、基于规则的方法等。
77.在将检索条件进行分词处理后得到的各个分词都具有各自的含义,利用其含义可以对检索目的进行估计,进而确定用户所需检索的检索场景,以在对应检索场景进行检索,提高用户体验。
78.具体地,可以基于预先对若干个类别的定义,确定每一个分词所属的类别;若干个类别包括:对象、关系和属性键值。
79.对象,由实体属性封装而成。比如,对象为组织机构,其实体属性为组织机构名称、组织机构代码、组织机构领域和组织机构经营范围,当将这些实体属性填充上实际信息后,得到该组织机构的实体。当填充信息不同时,得到的实体也不同。具体地,可以将可视化情报图谱中包含的所有对象的实体属性生成实体属性集合,当确定分词所属类别是否为对象
时,可以将该分词与实体属性集合进行匹配,若实体属性集合中存在该分词,则确定该分词所属类别为对象。
80.关系,是指可视化情报图谱中相连接的两个实体之间的连接关系。比如,组织机构和人员之间的关系为雇用关系,两个组织机构之间的关系为分总公司关系等。具体地,可以将可视化情报图谱中包含的所有关系生成关系集合,当确定分词所属类别是否为关系时,可以将该分词与关系集合进行匹配,若关系集合中存在该分词,则确定该分词所属类别为关系。
81.属性键值,用于表征与实体相关联的实际配置信息和数据。比如,实体为某个人员,其属性键值可以是该人员的相关经历信息,学历信息、任职信息等。具体地,可以基于深度学习方式学习可视化情报图谱的属性键值,利用若干个可视化情报图谱中关联的知识链接文件进行特征学习,将标注有属性键值为“是”或“否”的分词输入神经网络中,以学习分词的特征对神经网络进行训练,当对检索条件分词处理后得到的分词不属于对象和关系类别时,可以将其输入至训练好的神经网络中,以利用神经网络输出该分词是否为属性键值的信息。
82.当分词不属于对象、关系和属性键值的类别时,则确定该分词无类别。
83.当利用上述定义确定分词的类别之后,可以基于确定的类别评估检索条件对应的检索场景,具体地:
84.当所述至少一个分词的类别包括对象类别且不包括其他类别时,确定对应所述检索条件的目标检索场景为实体检索场景;
85.当所述至少一个分词的类别包括对象类别和关系类别且不包括其他类别时,确定对应所述检索条件的目标检索场景为图谱检索场景;
86.当所述至少一个分词的类别包括属性键值关系类别时,确定对应所述检索条件的目标检索场景为知识链接文件检索场景。
87.通过确定检索条件对应的至少一个分词的类别,来确定其检索条件对应的目标检索场景,从而能够提高检索准确率以及提高用户体验。
88.最后,针对步骤108,基于所述目标检索场景的索引,检索与所述检索条件相匹配的数据。
89.由于可视化情报图谱的大数据量被分为若干个检索场景的小数据量,通过在小数量的检索场景中进行数据检索,可以提高检索效率。
90.进一步地,在检索与所述检索条件相匹配的数据之后,若检索到与所述检索条件相匹配的数据,则将检索结果形成知识词典分类树;响应于对所述知识词典分类树中目标知识项的漫游操作,定位至所述目标知识项在所述可视化情报图谱中的相应坐标位置处。
91.具体地,在形成知识词典分类树时,可以将检索结果按照不同特征进行分类,比如,在多个实体链接的文件中均包含与检索条件相匹配的数据,一个方式中,可以按照链接的不同实体进行分类;另一个方式中,也可以按照链接文件的类型进行分类;再一个方式中,可以按照情报领域的知识结构进行分类,比如,人员、岗位、兵种、组织、建制、装备、工程、行动、平台、流程、言论和观点等。通过将检索结果形成知识词典分类树展示给用户,可以便于用户基于分类对检索结果进行查看。另外,当用户对知识词典分类树中的目标知识项进行漫游操作时,表明用户需要查看该目标知识项,由于可视化情报图谱数据量较大,在
可视化界面中人工无法快速定位到目标知识项,通过直接定位至该目标知识项在可视化情报图谱中的相应坐标位置处,可以提升用户对知识项获取的便捷性,同时提高了用户与可视化情报图谱的可交互性。
92.如图2、图3所示,本发明实施例提供了一种可视化情报图谱检索装置。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。从硬件层面而言,如图2所示,为本发明实施例提供的一种可视化情报图谱检索装置所在电子设备的一种硬件架构图,除了图2所示的处理器、内存、网络接口、以及非易失性存储器之外,实施例中装置所在的电子设备通常还可以包括其他硬件,如负责处理报文的转发芯片等等。以软件实现为例,如图3所示,作为一个逻辑意义上的装置,是通过其所在电子设备的cpu将非易失性存储器中对应的计算机程序读取到内存中运行形成的。本实施例提供的一种可视化情报图谱检索装置,包括:
93.索引单元301,用于确定待索引可视化情报图谱所包括的至少两个检索场景,对每一个检索场景的数据分别进行索引;
94.分词处理单元302,用于获取用户输入的检索条件,对所述检索条件进行分词处理,得到至少一个分词;
95.类别确定单元303,用于确定所述至少一个分词中每一个分词的类别;
96.场景确定单元304,用于根据每一个分词的类别确定对应所述检索条件的目标检索场景;
97.检索单元305,用于基于所述目标检索场景的索引,检索与所述检索条件相匹配的数据。
98.本发明一个实施例中,所述检索场景至少包括:实体检索场景和图谱检索场景;或,
99.所述检索场景至少包括:实体检索场景、图谱检索场景和知识链接文件检索场景。
100.本发明一个实施例中,当所述检索场景包括知识链接文件检索场景时,所述知识链接文件是采用知识链接的方式关联在所述可视化情报图谱中的,所述知识链接文件为非结构化文件。
101.本发明一个实施例中,所述索引单元对所述实体检索场景的数据进行索引时,具体用于:采用b+树的数据结果对所述可视化情报图谱中实体的属性建立索引;和/或,
102.所述索引单元对所述图谱检索场景的数据进行索引时,具体用于:基于所述可视化情报图谱中包括的对象、关系、对象的三元组数据,建立哈希表索引;和/或,
103.所述索引单元对所述知识链接文件检索场景的数据进行索引时,具体用于:将所述可视化情报图谱的知识链接文件进行多模态内容理解,基于理解后的文本信息生成倒排索引。
104.本发明一个实施例中,所述类别确定单元,具体用于基于预先对若干个类别的定义,确定每一个分词所属的类别;所述若干个类别包括:对象、关系和属性键值。
105.本发明一个实施例中,所述场景确定单元,具体用于:当所述至少一个分词的类别包括对象类别且不包括其他类别时,确定对应所述检索条件的目标检索场景为实体检索场景;当所述至少一个分词的类别包括对象类别和关系类别且不包括其他类别时,确定对应所述检索条件的目标检索场景为图谱检索场景;当所述至少一个分词的类别包括属性键值
关系类别时,确定对应所述检索条件的目标检索场景为知识链接文件检索场景。
106.本发明一个实施例中,所述检索单元,还用于若检索到与所述检索条件相匹配的数据,则将检索结果形成知识词典分类树;响应于对所述知识词典分类树中目标知识项的漫游操作,定位至所述目标知识项在所述可视化情报图谱中的相应坐标位置处。
107.可以理解的是,本发明实施例示意的结构并不构成对一种可视化情报图谱检索装置的具体限定。在本发明的另一些实施例中,一种可视化情报图谱检索装置可以包括比图示更多或者更少的部件,或者组合某些部件,或者拆分某些部件,或者不同的部件布置。图示的部件可以以硬件、软件或者软件和硬件的组合来实现。
108.上述装置内的各模块之间的信息交互、执行过程等内容,由于与本发明方法实施例基于同一构思,具体内容可参见本发明方法实施例中的叙述,此处不再赘述。
109.本发明实施例还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器执行所述计算机程序时,实现本发明任一实施例中的一种可视化情报图谱检索方法。
110.本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时,使所述处理器执行本发明任一实施例中的一种可视化情报图谱检索方法。
111.具体地,可以提供配有存储介质的系统或者装置,在该存储介质上存储着实现上述实施例中任一实施例的功能的软件程序代码,且使该系统或者装置的计算机(或cpu或mpu)读出并执行存储在存储介质中的程序代码。
112.在这种情况下,从存储介质读取的程序代码本身可实现上述实施例中任何一项实施例的功能,因此程序代码和存储程序代码的存储介质构成了本发明的一部分。
113.用于提供程序代码的存储介质实施例包括软盘、硬盘、磁光盘、光盘(如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw)、磁带、非易失性存储卡和rom。可选择地,可以由通信网络从服务器计算机上下载程序代码。
114.此外,应该清楚的是,不仅可以通过执行计算机所读出的程序代码,而且可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作,从而实现上述实施例中任意一项实施例的功能。
115.此外,可以理解的是,将由存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展模块中设置的存储器中,随后基于程序代码的指令使安装在扩展板或者扩展模块上的cpu等来执行部分和全部实际操作,从而实现上述实施例中任一实施例的功能。
116.需要说明的是,在本文中,诸如第一和第二之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
…”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同因素。
117.本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过
程序指令相关的硬件来完成,前述的程序可以存储在计算机可读取的存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:rom、ram、磁碟或者光盘等各种可以存储程序代码的介质中。
118.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1