数据分析方法、电子设备和计算机可读存储介质与流程

文档序号:31078739发布日期:2022-08-09 22:04阅读:61来源:国知局
数据分析方法、电子设备和计算机可读存储介质与流程

1.本技术涉及数据处理技术领域,特别是涉及一种数据分析方法、电子设备和计算机可读存储介质。


背景技术:

2.随着大数据和人工智能的发展,知识图谱能够通过可视化的图谱形象地展示和分析数据,成为了一种新兴的数据分析手段。但是现有的基于知识图谱的数据分析方法,通常基于单一的数据源来获取实体以及实体之间的关联关系,一旦数据源发生改变则对数据进行维护的难度大大增加,且需要对原先的数据分析方法进行调整以致分析效率低下。有鉴于此,如何提高数据分析的效率并降低数据维护的难度成为亟待解决的问题。


技术实现要素:

3.本技术主要解决的技术问题是提供一种数据分析方法、电子设备和计算机可读存储介质,能够提高数据分析的效率降低数据维护的难度。
4.为解决上述技术问题,本技术第一方面提供一种数据分析方法,该方法包括:获得待处理的原始数据,基于知识图谱映射规则为所述原始数据设置标签;基于所述标签将所述原始数据归类至对应的实体表中,得到所述原始数据对应的实体,并在所述实体表中确定所述实体的标识和信息字段;其中,所述实体对应有实体类型,每个所述实体表对应一种所述实体类型;基于所述实体表中每两个所述实体的所述标识和所述信息字段,确定两个所述实体在知识图谱中的关联关系。
5.为解决上述技术问题,本技术第二方面提供一种电子设备,该电子设备包括:相互耦接的存储器和处理器,其中,所述存储器存储有程序数据,所述处理器调用所述程序数据以执行上述第一方面所述的方法。
6.为解决上述技术问题,本技术第三方面提供一种计算机存储介质,其上存储有程序数据,所述程序数据被处理器执行时实现上述第一方面所述的方法。
7.上述方案,获得待处理的原始数据后,基于知识图谱映射规则为原始数据设置标签,以使设有标签的原始数据能够被知识图谱使用,根据标签对原始数据进行归类,将原始数据归类至对应的实体表中得到原始数据对应的实体,在实体表中确定实体的标识和信息字段,基于实体表中每两个实体的标识和信息字段,确定两个实体在知识图谱中的关联关系。故此,任一数据源中获得的原始数据统一赋予标签,基于标签将原始数据先归类至与实体类型对应的实体表中得到实体,进而从实体表中提取任意两个实体,基于实体的标识和信息字段确定实体之间的关联关系,从而形成从数据源到实体再到关系的数据分析架构,以便数据源发生改变时无需调整架构以提高数据分析的效率并降低数据维护的难度。
附图说明
8.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使
用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。其中:
9.图1是本技术数据分析方法一实施方式的流程示意图;
10.图2是本技术数据分析方法一实施方式的拓扑示意图;
11.图3是本技术数据分析方法另一实施方式的流程示意图;
12.图4是本技术电子设备一实施方式的结构示意图;
13.图5是本技术计算机可读存储介质一实施方式的结构示意图。
具体实施方式
14.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
15.本文中术语“系统”和“网络”在本文中常被可互换使用。本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。
16.请参阅图1,图1是本技术数据分析方法一实施方式的流程示意图,该方法包括:
17.s101:获得待处理的原始数据,基于知识图谱映射规则为原始数据设置标签。
18.具体地,从数据源处获得待处理的原始数据,基于知识图谱映射规则对原始数据进行映射,为原始数据设置知识图谱可采用的标签。
19.在一应用方式中,数据源中的至少部分数据包括定义信息,基于定义信息为对应的原始数据设置知识图谱可用的标签,当所述原始数据未包括定义信息时,基于知识图谱映射规则挖掘原始数据的潜在信息,根据潜在信息为原始数据设置知识图谱可用的标签。
20.进一步地,数据源可包括多种数据类型,其中,数据类型包括图像、文本、视频流和数字标识。
21.s102:基于标签将原始数据归类至对应的实体表中,得到原始数据对应的实体,并在实体表中确定实体的标识和信息字段。
22.具体地,基于标签确定原始数据的实体类型,其中,每个实体类型对应至少一个标签。
23.进一步地,实体对应有实体类型,每个实体表对应一种实体类型,确定原始数据的实体类型后将原始数据归类至对应的实体表中,将设有标签的原始数据作为实体表中的实体,在实体表中为实体生成唯一的标识并基于原始数据生成实体对应的信息字段。
24.在一应用方式中,标签和实体类型经过预定义,实体类型中包括至少一个标签,每个实体表对应一种实体类型。确定原始数据的标签后,基于标签确定原始数据的实体类型,将设有标签的原始数据作为知识图谱中的实体加入到实体类型对应的实体表中,在实体表中为实体生成唯一的标识以使知识图谱中每个实体具有唯一性,并基于实体对应的原始数据确定实体对应的信息字段,其中,信息字段包括实体的属性信息和冗余信息。
25.在一应用场景中,实体类型包括人像和案件,人像对应的标签包括但不限于人脸、躯干和全身,案件对应的标签包括但不限于涉毒、涉赌、诈骗和盗窃,当原始数据为案件记录时,为原始数据设置与案件记录匹配的标签,基于标签确定原始数据的实体类型为案件,将原始数据及其标签作为实体加入到案件实体表中,为实体设置标识并基于原始数据中包含的信息提取实体的属性信息和冗余信息,其中,属性信息包括实体的属性定义,冗余信息包括实体所关联其他实体的标识以及实体对应的描述字段。可以理解的是,对于不同的实体类型可设置对应的标签,且每个实体类型对应有实体表,本技术对此不再一一列举。
26.s103:基于实体表中每两个实体的标识和信息字段,确定两个实体在知识图谱中的关联关系。
27.具体地,从一个实体表中提取两个实体或者从两个实体表中分别提取一个实体,提取两个实体的标识并基于两个实体的信息字段对实体之间的关联关系进行判断,得到两个实体在知识图谱中的关联关系。
28.在一应用方式中,关联关系预定义有多种关系类型,基于目标关联关系的关系类型从一个或两个实体表中提取两个实体的标识并基于实体的信息字段确定实体之间的关系类型,从而进一步基于关系类型从信息字段中提取与关系类型匹配的关联信息,其中,关联信息包括但不限于关联时间和关联地址,以形成实体及其标识、关系类型、关联时间、关联地址、实体及其标识共同组成的两个实体之间的关联关系。
29.在一应用场景中,请参阅图2,图2是本技术数据分析方法一实施方式的拓扑示意图,从数据源a和/或数据源b中获取至少一个原始数据,为每个原始数据设置对应的标签,将设有标签的原始数据输入实体模型中,以使实体模型基于标签将原始数据归类至实体表中并生成实体对应的标识和信息字段,当需要某种预设的关系类型作为目标关联关系时,从实体表中获取两个实体输入至关系模型中,以使关系模型基于标识和信息字段生成实体之间的关联关系。形成从数据源到实体模型再到关系模型的数据分析架构,以便数据源发生改变时无需调整架构,避免当数据源发生改变时实体模型和关系模型的代码均需要调整的情况。
30.上述方案,获得待处理的原始数据后,基于知识图谱映射规则为原始数据设置标签,以使设有标签的原始数据能够被知识图谱使用,根据标签对原始数据进行归类,将原始数据归类至对应的实体表中得到原始数据对应的实体,在实体表中确定实体的标识和信息字段,基于实体表中每两个实体的标识和信息字段,确定两个实体在知识图谱中的关联关系。故此,任一数据源中获得的原始数据统一赋予标签,基于标签将原始数据先归类至与实体类型对应的实体表中得到实体,进而从实体表中提取任意两个实体,基于实体的标识和信息字段确定实体之间的关联关系,从而形成从数据源到实体再到关系的数据分析架构,以便数据源发生改变时无需调整架构以提高数据分析的效率并降低数据维护的难度。
31.请参阅图3,图3是本技术数据分析方法另一实施方式的流程示意图,该方法包括:
32.s301:从数据源获取待处理的原始数据,将原始数据与数据源中的其他数据进行融合处理,基于融合处理结果为原始数据设置知识图谱可采用的标签。
33.具体地,从单一的数据源或者多个数据源获取待处理的至少一个原始数据,当原始数据不满足知识图谱的格式要求时,将原始数据与数据源总的其他数据进行融合处理,从而基于部分有定义信息的其他数据确定待处理的原始数据的标签,其中,标签与实体类
型相对应,每种实体类型对应有至少一个标签。
34.在一应用方式中,将原始数据与数据源中的其他数据进行融合,其中,数据源中的其他数据可以是数据源中已有确切描述的数据也可以是已经赋予过标签的数据,基于融合处理结果为原始数据设置知识图谱可采用的标签。
35.在一应用场景中,每个标签对应有定义标准,当原始数据与其他数据进行融合处理后的处理结果符合定义标准后则为原始数据设置与对应的其他数据相同的标签。其中,定义标准包括但不限于关联频次超过频次阈值、关联时间超过时间阈值以及满足预设的属性关系。通过对原始数据设置知识图谱可用的标签,以便数据源发生改变时设有标签的原始数据仍能够满足知识图谱的要求,形成知识图谱中的实体归类至实体表中。
36.在一具体应用场景中,对原始数据进行融合处理,得到原始数据满足与涉案人员联系频次大于每月6次、与该涉案人员存在亲属关系以及与涉案人员存在超过10次同行记录中的一种或几种定义标准,则为满足定义标准的原始数据设置标签为涉案,可以理解的是,对于其他标签可以设置对应的定义标准,本技术对此不再一一列举。
37.s302:基于标签确定原始数据的实体类型,将原始数据归类至与实体类型对应的实体表中,得到原始数据对应的实体。
38.具体地,每个实体类型对应有至少一个标签,基于标签确定原始数据的实体类型,将设有标签的原始数据作为实体归类至与实体类型对应的实体表中,或者对实体进行转换后将转换后的原始数据与对应的标签作为实体归类至与实体类型对应的实体表中。
39.s303:在实体表中为实体设置标识,基于原始数据生成实体对应的属性字段和冗余字段。
40.具体地,在实体表中为实体设置唯一的标识,以使实体在知识图谱中具备唯一性,基于原始数据生成实体对应的信息字段,其中,信息字段包括属性字段和冗余字段,属性字段包括用于描述实体属性信息的字段,冗余字段包括关联实体标识、关联实体的实体类型和描述字段。其中,属性字段用于表示实体的属性信息,冗余字段用于后续进行关联关系的建立。当实体类型为人时,其对应的属性信息包含但不限于身高、年龄、婚姻状态、居住地,可以理解的是,不同的实体类型对应有各自的属性信息,本技术对此不再一一列举。
41.在一应用方式中,在实体表中为实体设置标识的步骤,包括:基于信息摘要算法和实体对应的实体类型,生成实体对应的标识。
42.具体地,利用信息摘要算法(message-digest algorithm)生成实体对应的标识,且实体对应的标识与实体的实体类型相关,比如,当实体类型为人时,则实体对应的标识采用名称和身份证的形式组成,当实体类型为同行事件时,则实体对应的标识采用身份证、时间和身份证的形式组成,通过统一规定标识取值规范,便于在生成实体表以及获取实体之间的关联关系时使标识统一,从而能够直接抽取各类实体关系数据,不需要再次分析数据获取实体标识及实体间的关系。
43.进一步地,基于标签将原始数据归类至对应的实体表中,得到原始数据对应的实体,并在实体表中确定实体的标识和信息字段的步骤之后,还包括:响应于获得多个实体表,基于实体表对应的实体类型将实体表归类至对应的实体主题中;其中,每种实体主题对应有至少一个实体类型。
44.具体地,每种实体主题对应有至少一种实体类型,也就是说实体表可以按照实体
类型归类至实体主题中,当知识图谱涉及的业务实体较多时会形成多个实体表,得到多个实体表后将实体表进一步归类至对应的实体主题中以便对知识图谱中的实体表进行扩充和维护。
45.在一具体应用场景中,知识图谱中实体类型包括但不限于:人、人像、车、车像、交通违法、案件、同行事件、时空事件、航空出行记录、铁路出行记录、上网记录、住宿记录、qq号、手机号、邮箱号、微信号、时间、地址、geohash、时空块、卡口、mac、rfid。每种实体类型对应有各自的实体表。
46.进一步地,实体主题包括但不限于实物主题、案件主题、事件主题、记录主题、虚拟主题、号码主题和设备主题。其中,实物主题对应人实体表、人像实体表、车实体表、车像实体表,案件主题对应交通违法实体表、案件实体表,事件主题对应同行事件实体表、时空事件实体表,记录主题对应航空出行记录实体表、铁路出行记录实体表、上网记录实体表、住宿记录实体表,虚拟主题对应时间实体表、地址实体表、geohash实体表、时空块实体表,号码主题对应qq号实体表、手机号实体表、邮箱号实体表、微信号实体表,设备主题对应卡口实体表、mac实体表、rfid实体表。
47.s304:基于实体表中每两个实体的标识和信息字段,确定两个实体在知识图谱中的关联关系。
48.具体地,关联关系包括多种预定义的关系类型,在实体表中选择任意两个实体,从而基于实体的信息字段对实体之间的关系类型进行确认,从而得到实体之间的关联关系。
49.在一应用方式中,在实体表中基于标识选择任意两个实体,基于实体的信息字段,生成两个实体之间的关联信息并确定两个实体在知识图谱中的关联关系对应的关系类型。
50.具体地,在实际应用场景中每次获取关联关系时,通常存在目标关联关系,在实体表中基于标识选择两个与目标关联关系的关系类型相匹配的实体,根据实体的信息字段中属性字段和冗余字段生成实体之间的关联信息,确定两个实体在知识图谱中的关联关系的关系类型,并判断两个实体之间的关联关系的关系类型是否满足目标关联关系的关系类型,从而便于获取所需的关联关系。
51.在一具体应用场景中,当需要挖掘案件中潜在的关联关系时,则从案件实体表中提取至少一个实体,从而提高对涉案人员和涉案实体的挖掘精度。
52.进一步地,基于实体的信息字段,生成两个实体之间的关联信息并确定两个实体在知识图谱中的关联关系对应的关系类型的步骤,包括:基于两个实体各自对应的信息字段,遍历预定义的关系类型,确定两个实体在知识图谱中的关联关系对应的至少一个关系类型;确定每个关系类型分别对应的关联信息;其中,关联信息包括关联时间、关联地址和关联频次中的至少一种;汇总两个实体对应的关系类型和关系类型对应的关联信息,得到两个实体在知识图谱中的关系结果表。
53.具体地,基于两个实体各自对应的信息字段,对预定义的关系类型进行遍历,从而确定两个实体在知识图谱中关联关系对应的至少一个关系类型,以获得两个实体之间的所有关系类型,基于两个实体的信息字段确定两个实体对应的每个关系类型分别对应的关联信息,写入关系中间表中,汇总两个实体对应的关系类型和关系类型对应的关系中间表,从而得到实体在知识图谱中的关系结果表。
54.进一步地,当实体之间只包括一个关系类型时,则两个实体对应的关系结果表中
包括第一个关系类型、关联开始时间、关联结束时间、关联经度、关联纬度、关联频次,当实体之间包括多个关系类型时,则关系结果表中还包括第n个关系类型、关联开始时间、关联结束时间、关联经度、关联纬度、关联频次。其中,关联时间包括关联开始时间和关联结束时间,关联地址包括关联经度和关联纬度。通过对关系类型的遍历以提高确定实体之间关系类型的准确率,生成每个关系类型对应的关联信息以提高关联结果表中关系类型的完整度。
55.s305:基于当前节点和上一节点分别对应的实体表和关系结果表,生成每经过预设周期当前节点对应的实体增量表和关系增量表。
56.具体地,每经过预设周期后,将当前节点对应的实体表与预设周期之前的上一个节点分别对应的实体表和关系结果表进行对比,从而得到当前节点相较于上一节点的变化结果,从而生成当前节点实体表对应的实体增量表和关系结果表对应的关系增量表,其中,实体增量表与实体表的格式相同,关系增量表与关系结果表的格式相同,以便在每经过预设周期后确定知识图谱中实体的变化以及实体之间关联关系的变化,从而挖掘新增的关联关系以更加适用于案件办理的场景,提高办理效率。
57.在一应用场景中,预设周期为一天,将当前节点的实体表与上一节点的实体表相减后即可获得当前节点对应的实体增量表,当前节点的关系增量表除了基于当前节点的关系结果表和上一节点的关系结果表的差值获得以外,还可以基于实体增量表对实体增量表中实体之间的关联关系进行进一步挖掘,以丰富关系增量表的内容,对于案件办理的应用场景中,诸如查找新的涉案人员时,通过实体增量表和关系增量表能够有效提高查找效率。
58.在本实施例中,任一数据源中获得的原始数据统一赋予标签,基于标签将原始数据先归类至与实体类型对应的实体表中得到实体,基于信息摘要算法和实体对应的实体类型,生成实体对应的标识,以便在生成实体表以及获取实体之间的关联关系时使标识统一,从而能够直接抽取各类实体关系数据,不需要再次分析数据获取实体标识及实体间的关系,当获得多个实体表时,基于实体表的实体类型将实体表归类至对应的实体主题中,以便对知识图谱中的实体表进行扩充和维护,基于实体表中的实体获取实体之间的关联关系,从而形成从数据源到实体再到关系的数据分析架构,以便数据源发生改变时无需调整架构以提高数据分析的效率并降低数据维护的难度。
59.请参阅图4,图4是本技术电子设备一实施方式的结构示意图,该电子设备40包括相互耦接的存储器401和处理器402,其中,存储器401存储有程序数据(图未示),处理器402调用程序数据以实现上述任一实施例中的方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
60.请参阅图5,图5是本技术计算机可读存储介质一实施方式的结构示意图,该计算机可读存储介质50存储有程序数据500,该程序数据500被处理器执行时实现上述任一实施例中的方法,相关内容的说明请参见上述方法实施例的详细描述,在此不再赘叙。
61.需要说明的是,作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。
62.另外,在本技术各个实施例中的各功能单元可以集成在一个处理单元中,也可以
是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
63.集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本技术各个实施方式方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
64.以上所述仅为本技术的实施方式,并非因此限制本技术的专利范围,凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本技术的专利保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1