基于知识图谱的矛盾纠纷分析和预警方法及其应用与流程

文档序号:33325552发布日期:2023-03-03 23:00阅读:461来源:国知局
基于知识图谱的矛盾纠纷分析和预警方法及其应用与流程

1.本技术涉及知识图谱技术领域,特别是涉及基于知识图谱的矛盾纠纷分析和预警方法及其应用。


背景技术:

2.深入推进矛盾纠纷多元化解机制,是实现国家治理体系和治理能力现代化的重要内容,是促进社会公平正义、维护社会和谐稳定的必然要求。随着信息化技术的不断完善,对各类矛盾纠纷事件进行统计分析进而获取纠纷类型的分析系统应运而生。
3.然而传统的技术是通过自然语言处理将其中的人,企业用结构化数据库的形式进行治理和存储,把关系数据放在关系型数据库中,这种传统的数据存储方法无法满足多维深度层次关系的挖掘,因为传统的结构化数据库只能通过表关联的方法进行关系查询,当关系超过5个,就要关联5张表,一旦表的数据量过大,那查询效率会非常低。同时对于对企业名称,地址名称等扩展太多,无法与数据库中(企业库,地址库)中的名称完全匹配,比如萧山城投,萧山城投有限公司,萧山城投集团等,企业名称的说法太多,很难与标注企业名称的统一。
4.因此,现有的方案主要分两种:
5.1)建设企业名称映射库,通过企业名称库与标准企业名称库进行映射,如萧山城投标准名称叫萧山城投集团有限责任公司,对应的名称有:萧山城投,萧山城投有限公司,萧山城投集团。等。这种技术缺陷是,无法穷举所有的名称,而且每个企业的名称映射库也太多,人工建设成本太高。
6.2)关键词匹配的方法,通过关键词匹配的方法对甄别代表同一个企业的企业名称。这种技术的缺陷是关键词无法精准地识别所有的企业名称。如“萧山城投”关键词,无法满足萧山城市投资公司的企业名称。
7.因此,亟待一种能够通过知识图谱技术将矛盾纠纷涉及的人,地,事,企,组织等关联起来,挖掘背后的隐形问题,找到问题背后的根源的基于知识图谱的矛盾纠纷分析和预警方法及其应用。


技术实现要素:

8.本技术实施例提供了一种基于知识图谱的矛盾纠纷分析和预警方法及其应用,针对目前技术效率低下且无法满足要求的问题。
9.本发明核心技术主要是运用知识图谱技术,将人,事件,主体(企业),房屋等多个实体元素关联起来,用图数据库来存储。运用知识图谱中的实体消歧技术把企业主体这种变化多样的文本归类到一起。
10.第一方面,本技术提供了一种基于知识图谱的矛盾纠纷分析和预警方法,所述方法包括以下步骤:
11.s00、采集矛盾纠纷所需的原始数据并进行治理清洗,得到基础数据;
12.s10、对进行关系推理分析基础数据中的文本进行实体抽取,得到实体数据;
13.s20、对进行关系推理分析实体数据进行过滤预处理,以去除垃圾数据;
14.s30、对过滤预处理后地进行关系推理分析实体数据中各实体之间的关系进行标注;
15.s40、提取标注好的实体关系作为样本,进行自动抽取训练,并通过训练完毕的自动提取实体关系模型自动抽取实体关系;
16.s50、将过滤预处理后地进行关系推理分析实体数据与进行关系推理分析基础数据进行匹配,得到匹配数据;
17.s60、对进行关系推理分析基础数据中的企业名称进行实体对齐,以将多个相似的企业名称统一为一个企业名称,得到对齐后的进行关系推理分析基础数据;
18.s70、基于对齐后的进行关系推理分析基础数据、提取得到的实体关系以及进行关系推理分析匹配数据构建知识图谱网络;
19.s80、基于进行关系推理分析知识图谱网络的现有关系进行关系推理分析,以得到挖掘数据;
20.s90、通过社区发现算法对进行关系推理分析挖掘数据进行预警。
21.进一步地,s00步骤中,治理清洗通过给进行关系推理分析原始数据中的人名和企业补充基本的家庭关系、社会关系及企业关系。
22.进一步地,s10步骤中,实体抽取至少包括企业相关信息和个人相关信息,且通过正则表达式或进行实体抽取。
23.进一步地,s20步骤中,通过字符异常检测将进行关系推理分析实体数据中的垃圾数据过滤掉。
24.进一步地,s40步骤中,通过输入文本语句和实体对进行训练,输出实体对之间的关系,实现自动抽取训练。
25.进一步地,s60步骤中,通过相似度计算和有监督的学习方法结合的方法,将多个相似的企业名称统一为一个企业名称。
26.进一步地,s90步骤的具体步骤为:
27.s91、将每个顶点当作一个社区,使得社区数量和顶点数量相同;
28.s92、依次将每个顶点与相邻的顶点进行合并得到节点,计算每个节点的最大模块增益度是否大于设定值,若大于设定值则将节点放入模块增益度最大的相邻节点所对应的社区;
29.s93、迭代s92步骤,直至所有顶点所属的社区不再变化;
30.s94、将各社区所有节点压缩为一个节点,并将社区内节点的权重转化成新节点环的权重,同时将社区间权重转化为新节点边的权重;
31.s95、循环s91~s93步骤,直至社区发现算法趋于稳定。
32.第二方面,本技术提供了一种基于知识图谱的矛盾纠纷分析和预警装置,包括:
33.采集模块,用于采集矛盾纠纷所需的原始数据并进行治理清洗,得到基础数据;
34.实体抽取模块,用于对基础数据中的文本进行实体抽取,得到实体数据;
35.预处理模块,用于对实体数据进行过滤预处理,以去除垃圾数据;
36.标注模块,用于对过滤预处理后的实体数据中各实体之间的关系进行标注;
37.抽取训练模块,用于提取标注好的实体关系作为样本,进行自动抽取训练,并通过训练完毕的自动提取实体关系模型自动抽取实体关系;
38.匹配模块,用于将过滤预处理后的实体数据与基础数据进行匹配,得到匹配数据;
39.实体对齐模块,用于对基础数据中的企业名称进行实体对齐,以将多个相似的企业名称统一为一个企业名称,得到对齐后的基础数据;
40.构建模块,用于基于对齐后的基础数据、提取得到的实体关系以及匹配数据构建知识图谱网络;
41.挖掘模块,用于基于知识图谱网络的现有关系进行关系推理分析,以得到挖掘数据;
42.预警模块,用于通过社区发现算法对挖掘数据进行预警。
43.第三方面,本技术提供了一种电子装置,包括存储器和处理器,存储器中存储有计算机程序,处理器被设置为运行计算机程序以执行上述的基于知识图谱的矛盾纠纷分析和预警方法。
44.第四方面,本技术提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据上述的基于知识图谱的矛盾纠纷分析和预警方法。
45.本发明的主要贡献和创新点如下:1、与现有技术(用传统的结构化数据库,很难把海量的关系数据存储下来,更别提深度关系地挖掘了)相比,本技术能够很清晰地展示矛盾纠纷各个主体之间的关系,如张三跟李四发生邻居纠纷,李四跟王五又发生拆迁纠纷,而王五又跟xx企业发生欠薪纠纷,形成一张庞大的关系网络图,如此可在图数据库中操作,能够深度挖掘关系数据,同时运用一些图数据库算法,更好地达到隐性问题分析挖掘的目的,同时运用知识图谱中的实体消歧技术,能够比较好地把企业主体这种变化多样的文本归类到一起,不再需要人工去配置庞大的企业名称库,同时能够对实体名称做到泛化延伸;
46.2、与现有技术相比,本技术运用知识图谱技术,对关系进行挖掘和推理,如张三跟李四是父子关系,同时李四与王五是兄弟关系,那么推理而得王五和李四也是父子关系;
47.3、与现有技术相比,本技术可对矛盾纠纷隐性问题发现,通过知识图谱技术,将关系关联起来之后,能对可能发生矛盾纠纷问题进行预警,如企业a和企业b背后的实际控制人,都是同一个家族的人,当企业a发生欠薪纠纷后,企业b很有可能也会有连带问题。
48.本技术的一个或多个实施例的细节在以下附图和描述中提出,以使本技术的其他特征、目的和优点更加简明易懂。
附图说明
49.此处所说明的附图用来提供对本技术的进一步理解,构成本技术的一部分,本技术的示意性实施例及其说明用于解释本技术,并不构成对本技术的不当限定。在附图中:
50.图1是根据本技术实施例的基于知识图谱的矛盾纠纷分析和预警方法的流程图;
51.图2是根据本技术实施例的电子装置的硬件结构示意图。
具体实施方式
52.这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及
附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书一个或多个实施例相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书一个或多个实施例的一些方面相一致的装置和方法的例子。
53.需要说明的是:在其他实施例中并不一定按照本说明书示出和描述的顺序来执行相应方法的步骤。在一些其他实施例中,其方法所包括的步骤可以比本说明书所描述的更多或更少。此外,本说明书中所描述的单个步骤,在其他实施例中可能被分解为多个步骤进行描述;而本说明书中所描述的多个步骤,在其他实施例中也可能被合并为单个步骤进行描述。
54.矛盾多元化解系统承担各地民事矛盾纠纷化解的作用,针对各地的征地拆迁,安置纠纷,房地产纠纷,知识产权纠纷,校园邻里纠纷,生态环境纠纷,婚姻家庭纠纷,信访纠纷,商事纠纷,山林土地纠纷等各地纠纷事件的类型、实际情况来进行分析和多元地化解。但是现有系统存在查询效率低,建设成本高的问题。
55.基于此,本发明基于自然语言处理(nlp),知识图谱以及大数据治理技术相结合。
56.实施例一
57.具体地,本技术实施例提供了一种基于知识图谱的矛盾纠纷分析和预警方法,具体地,参考图1,所述方法包括以下步骤:
58.s00、采集矛盾纠纷所需的原始数据并进行治理清洗,得到基础数据;
59.在本实施例中,由于需要构建的是一个比较复杂的知识图谱网络,除了事件文本本身之外,还会有很多人员,企业,主体,地址等实体信息的数据作为支撑,这些数据需要在结构化数据中都清洗完毕。比如人员的家庭关系,企业股东关系等,这些能够作为后续构建知识图谱很重要的数据支撑。
60.如一般需要的人员关系有:
61.家庭关系:父子,父女,兄弟,兄妹,爷孙等。
62.社会关系:同学,租客—户主,员工—老板,同事,顾客—卖主等。
63.需要的数据表:户籍人口表,流动人口表,社保信息表,企业基础表,地址关系表等。
64.如此,基础数据作为原有矛盾纠纷数据重要的补充。在矛盾纠纷系统中,一般只有涉及纠纷本身的涉及的人或主体数据,这样很难对矛盾纠纷背后复杂的人物关系或者企业,主体单位关系进行深度的分析,因此补充基本的家庭关系数据和企业关系以及社会关系等变得非常有必要。
65.比如张三跟李四有拆迁纠纷,而矛盾纠纷系统中最多只会记录张三和李四两个人,但一般来说,拆迁这种纠纷一般都会波及两个家庭,张三和李四两个家庭中的成员大概率也会有矛盾,甚至有可能两家的矛盾根源并非张三和李四双方本人,而是他们双方的家庭成员。
66.构建矛盾纠纷知识图谱的目的,就是为了能够从大量的数据中快速挖掘深层关系,找到矛盾背后的根源,分析推理出可能存在的矛盾纠纷主体。为了能够更好地达到这个目标,补充这些基本的家庭关系,社会关系,企业关系都能够为矛盾纠纷知识图谱打好良好的数据基础。
67.s10、对进行关系推理分析基础数据中的文本进行实体抽取,得到实体数据;
68.在本实施例中,矛盾调解中有很多数据为文本信息,比如实体,关系,属性。如xx企业,xx人名,xx关系。人名,企业,关系都有很多种说法,比如a企业,在文本中的描述就会有很多种。
69.其中,实体抽取:也就是命名实体识别,包括实体的检测(find)和分类(classify)。实体抽取或者说命名实体识别(ner)在信息抽取中扮演着重要角色,主要抽取的是文本中的原子信息元素,如人名、组织/机构名、地理位置、事件/日期、字符值、金额值等。实体抽取任务有两个关键词:find&classify,找到命名实体,并进行分类。
70.而且在矛盾纠纷文本中,主要是对相关企业,组织机构,重点场所进行实体提取,依托已经标注好的词库,以及实体库,进行实体抽取。为后续知识图谱的构建打好基础。具体如下:
71.抽取人:姓名,手机号,身份证号。通过正则表达式等方式抽取信息。
72.抽取企业:抽取企业名称,统一信用编码。通过正则表达式等技术抽取信息。
73.如此,命名实体识别虽然有好几种方式,但是最常用的就是基于规则的命名实体识别和基于算法的命名实体识别。基于规则的就是用正则表达式等模板去做匹配,基于算法需要一定的样本去做训练,把实体识别转化为一种分类问题去做。
74.但是矛盾纠纷知识图谱构建中的需求主要是对人和企业的,主要实体元素是手机号,身份证号,统一信用代码,姓名等,这种场景,用规则的方式提取更合适,因为格式相对比较固定。如果用算法去做,还需要比较样本数据,去训练,提取出来的也有一定的误差。因此用规则(正则表达式)的方式又省力又有效。
75.s20、对进行关系推理分析实体数据进行过滤预处理,以去除垃圾数据;
76.在本实施例中,由于抽取出来的主体,会有部分垃圾数据,需要经过预处理之后才能做下一步工作。比如字数过长,非企业名称,非人名等。需要通过规则逻辑判断的方式来把他过滤掉。
77.因为逻辑规则提取并非万能,在实际做的过程中,原始的数据会有一些异常的数据出现,导致提取出来主体名称并非有效数据,需要过滤和筛选。
78.如:企业名称中会有一些额外的数字,异常的数据,或者字数过长之类的,虽然用正则表达式,但是还会有一些没有被规则覆盖到的异常数据,需要进行过滤处理,只留下符合条件的实体。
79.优选地,本技术的预处理的手段如下:
80.字符长度异常检测,提取出来的主体的字符长度有多少。太长或者太短地过滤掉。主体字符格式异常检测,比如人名中带有英文、数字,识别后进行过滤。其他类型的字符异常检测。
81.s30、对过滤预处理后地进行关系推理分析实体数据中各实体之间的关系进行标注;
82.在本实施例中,在不同事件文本中,有不同的关系描述,比如a购买了b的东西,那么a跟b之间的关系就是购买,但同样是购买,会有不同的说辞,购买可能会有买或购买等说法,需要很多标注的关系,这样关系才能准确的提取出来。
83.优选地,关系提取用到算法,必须标注样本。如:
84.样本的格式:主体1的名称,主体2的名称,关系的名称
85.举例:主体1:张三;主体2:李四;关系:父子。
86.s40、提取标注好的实体关系作为样本,进行自动抽取训练,并通过训练完毕的自动提取实体关系模型自动抽取实体关系;
87.在本实施例中,根据s30步骤已经标注好的关系作为样本,进行自动化抽取训练。目的在于得到一个自动提取实体关系的模型,并且在矛盾调解事件描述中大规模应用,并自动矛盾调解中的关系。为后续建大型的知识图谱网络打下基础。
88.其中,关系自动提取方法:利用深度学习方法进行关系自动抽取。关系抽取是信息抽取的重要子任务之一,其目标在于从文本中抽取出两个或多个实体之间的语义关系。根据关系事实中涉及的实体数量,又可以进一步细分为二元关系抽取和多元关系抽取。而在此场景中,一般是二元关系抽取。即一句话中,只抽取两个实体之间的关系。而算法的本质,就是把关系抽取作为多分类任务来实现。每种关系就是一个分类。
89.如儿子,女儿,父亲,同学等,这些就是关系,也是一个分类。就是作为算法模型的输出。
90.在本实施例中,具体输入输出数据:
91.输入:句子,实体对(头实体+尾实体);
92.输出:实体之间关系;
93.举例:
94.2019年,张三去世,其子张四继承张三的公司,成为公司法人;
95.头实体:张三;
96.尾实体:张四;
97.关系:其子(儿子);
98.优选地,使用深度学习lstm建模提取特征,使用bilstm作为特征提取器提取文本特征,并结合注意力机制捕捉文本中的重要特征。当对文本进行编码时,使用四个位置指示符(《e1》,《/e1》,《e2》,《/e2》)标记实体的位置。例如,在前面的举例中,输入文本就变成了“2019年,《e1》张三《/e1》去世,其子《e2》张四《/e2》继承公司,成为公司法人”,表明“张三”是头实体,“张四”是尾实体。通过位置指示符,可以使模型感知实体的位置,强化模型对于实体关系的理解。然后,使用bilstm提取深层次的文本特征。在关系抽取中,局部特征常常足以推测判断实体对的关系。
99.如此在前面的举例中,“其子”一词就是预测“张三”和“张四”之间人物关系的最重要特征。
100.句子中的每个词,转化成词向量,每个字距离两个实体的距离。比如前面的例子,张三是第一个实体,这里假设实体后面为正,汉字和标点符号都计算在内,句子开始“去世”和实体一的距离是-1,和+4,词向量即作为输入特征。
101.s50、将过滤预处理后地进行关系推理分析实体数据与进行关系推理分析基础数据进行匹配,得到匹配数据;
102.在本实施例中,通过算法实体抽取过来的数据进行匹配,包括各种类型的实体名称:人的姓名,企业的名称等。原来的实体数据库(结构化数据库),通过数据治理和清洗已经存储了户籍人口表,流动人口表,企业基本信息表等数据。
103.步骤s10的算法抽取出来的实体数据(姓名,身份证号,企业名称,统一信用代码等)经过过滤预处理后,需要与原来实体数据库(结构化数据库,也就是s00中的基础数据)中的数据进行匹配。比如事件中算法提取出来一个人,张三以及身份证号。这个张三的身份证号与人口数据中的身份证号进行匹配与关联。
104.如此,如果没有这个步骤,那两边的数据(基础数据和抽取出来的实体数据)是割裂的,很难发挥这个知识图谱的作用,矛盾纠纷的数据即使算法抽取出来了,但还是矛盾纠纷自己的,同样的道理户籍人口数据还是户籍人口的数据,两者只有关联起来才能发挥作用,如矛盾纠纷事件中抽取出来的人员只有跟补充的数据(如户籍人口)中关联起来,才能建立起比较庞大的知识图谱网络。
105.s60、对进行关系推理分析基础数据中的企业名称进行实体对齐,以将多个相似的企业名称统一为一个企业名称,得到对齐后的进行关系推理分析基础数据;
106.在本实施例中,实体对齐是指判断多个实体是不是属于一个实体,其实这种情况也比较常见,比如在填写地址的时候,有很多种写法但指的是同一个地址。所以一般是给定两个实体,字符串,来判断是否属于同一个实体,字符串。
107.在矛盾纠纷事件中,主要是针对企业名称,需要做实体对齐。大致的方法如下:
108.方法一:计算相似度
109.计算两个实体(字符串)之间的相似度,一般使用编辑距离即可,设定阈值,判断是否属于一个实体。
110.举个例子:
111.萧山城投有限公司
112.萧山城投集团有限公司
113.通过人工的设计一些库,或者说是一些词典,这些库包含相同实体的特点:
114.词典1:公司、有限公司、分公司

115.词典2:北京,天津,上海

116.词典3:科技,技术

117.如果实体中的词出现在库中将其删掉。
118.1、萧山城投有限公司——作为原型,删掉出现在词典中的词后为:萧山,城投;
119.2、萧山城投集团有限公司—删掉出现词典中的词后为:萧山城投;
120.3、判定相同实体;
121.方法二:基于有监督的学习方法
122.还是上面的例子:
123.萧山城投有限公司
124.萧山城投集团有限公司
125.可以将1和2利用特征工程将其转换为特征向量:
126.比如考虑词性,前后单词,词位置等等;然后利用余弦相似度技术计算相似程度,即通过余弦相似度计算来判断两个实体名称的相似度,余弦夹角公式如下:
127.128.其中,a和b是两个向量。每个主体名称的叫法分词之后,先根据切词后的所有词组成词袋,再根据词频得出向量,然后再根据两组向量计算两者的余弦夹角。
129.目前对于实体融合(实体对齐)原来更多做法是用关键词匹配的方式,比如城云公司,城云中国,城云集团,带着城云两个字的就作为就可以作为同一家公司。这种做法比较省力,不用计算相似度也不用做训练,但问题是很多企业名称并没有相同的关键词,比如萧山城投,有的时候简称叫萧投,这种情况下,就很难融合到一起了,另外有的时候不同的企业名称有相同的关键词,但不是同一家公司,如格律诗音箱和天格律诗餐饮集团,两家公司有只是名字上有重叠,并非同一家,所以关键词的做法有一定的局限性。
130.而用本技术以上的两种做法结合的方法,能很大程度上避免这个问题,虽然工序比较复杂。第一种做法利用规则和词库计算相似程度,第二种做法基于一些标注好的样本,将词的位置转化成序列数据,进行余弦夹角的计算,两种做法补充,能够较好地做实体对齐。
131.s70、基于对齐后的进行关系推理分析基础数据、提取得到的实体关系以及进行关系推理分析匹配数据构建知识图谱网络;
132.在本实施例中,基于已经清洗好的人口,企业,组织关系,再结合已经构建完毕的基于矛盾调解纠纷事件的知识图谱(包括已经提取完毕的实体和关系),结合成一张庞大的知识图谱网络。其中包含人,企业,房屋等3类主要的概念实体。人的关系包括家庭成员关系,如父子,父女,母女,母子,兄弟,姐妹等。还有矛盾纠纷关系,如邻里纠纷,家庭纠纷等等。人企关系,主要有法人,股东,雇佣,欠薪等关系。
133.如此,技术上主要的工作是把之前抽取出来的实体,关系,属性现在结构化数据库中维护好,然后导入图数据库,这样一个初版本的知识图谱就搭建完成了,后续需要工作都会从结构化数据库转移到图数据库中。
134.优选地,构建知识图谱的过程需要分成几个步骤:
135.首先需要建好知识图谱相关的元素,实体,关系,属性三类。实体,需要建立人的实体和企业的实体两类,类似于在关系型数据库建表的过程,表建好了,数据才能导入。关系和属性也是类似。
136.然后是将结构化数据导入图数据库:
137.1)实体的导入,每一类实体,人,企业都有一张结构化的实体表,且需要一个唯一id,比如身份证号,企业统一信用编码。导入的时候,需要确定一个实体的唯一id,作为后续关系建立的标识符,身份证号和企业统一信用编码就作为实体唯一id。
138.2)属性的导入:实体表中都有属性字段,比如年龄,籍贯,血型等。每个实体对应的属性字段导入图数据库之后,才能变成真正的知识图谱的属性。
139.3)关系的导入:实体表中的关系数据,每条关系数据必须有两个实体的唯一id,比如身份证号和统一信用编码,然后将这个结构化的关系数据,导入图数据库中。
140.如此完成知识图谱的构建,由于知识图谱构建的大致过程为常规技术手段,因此本技术不再进行赘述。
141.s80、基于进行关系推理分析知识图谱网络的现有关系进行关系推理分析,以得到挖掘数据;
142.在本实施例中,面向知识图谱的推理主要围绕关系的推理展开,即基于图谱中已
有的事实或关系推断出未知的事实或关系,一般着重考察实体、关系和图谱结构三个方面的特征信息。具体来说,知识图谱推理主要能够辅助推理出新的事实、新的关系、新的公理以及新的规则等。
143.翁婿关系推理:
144.如:已知父亲—女儿关系,以及妻子和丈夫关系后,通过知识推理自动得出岳父—女婿关系。类似的可以推理出岳母—女婿的关系。
145.还有如:已知父亲—儿子关系,以及儿子的儿子,通过知识推理自动得出祖父—孙子关系。类似的可以推外祖父—孙子,外祖母—孙子,祖父—孙女,外祖父—孙女的关系。
146.因此经过此步骤,可深度挖掘潜在关系。不管是矛盾纠纷事件数据还是补充的外部数据(户籍人口等)的关系,都是基于原始数据的关系。知识图谱建立之后,能更方便的挖掘深度潜在关系,提高更多的隐性问题发现的几率。如果没有这个前面几个步骤地打下的基础,没有用到图数据库技术,那关系推理是不可能做到的,深度关系的挖掘也是无从谈起,也就是本技术各个步骤是层层递进,联系紧密的。
147.s90、通过社区发现算法对进行关系推理分析挖掘数据进行预警。
148.在本实施例中,根据已经推理,抽取好,建好的知识图谱模型,运用社区发现算法对群体性事件,危害性较大的事件爆发进行预警。
149.社区发现算法的原理和场景:
150.社区发现主要的原理是在建完知识图谱网络的基础上,识别出哪部分网络非常密集,这部分网络相关的节点可以看做一个社区,那从业务场景上看,这部分社区里相关的节点问题可能相对较大。(此场景中,节点就是企业或人,找出关系比较紧密的社区中的人或者企业,就能更好的发现其中的问题。)
151.如何划分一个社团呢?需要有评估的方式,这就是模块度的概念。
152.模块度概念:
153.模块度q是描述社区内紧密程度的值,是评估一个社区网络划分好坏的度量方法,它的物理含义是网络中社区结构内部节点的边的数量与在同样的社团结构下随机连接两个节点的比例的期望值之差,或者是社区内节点的连边的权重之和与随机情况下的连边的权重之和的差距,它的取值范围是[-1,1],其定义如下:
[0154][0155]
a为邻接矩阵,a
ij
代表了节点i和节点j之间边的权重,网络不是带权图时,所有边的权重可以看做是1;
[0156]ki
=∑jai所有与节点i相连的边的权重之和(如果是无权图,就是度数),k j
也是同样;
[0157]
表示所有边的权重之和(边的数目),充当归一化的作用。
[0158]cj
表示节点i配到的社区,的是一个函数,判断节点i和节点j是否划分到同一个社区,若是,返回1;否则,返回0;这个函数的作用在于自动单独对每一个社区内的节点进行计算,因为当计算不同社区的节点时,这一项为0,整个式子为0,所以其实也可以单
独计算每一个社区的q值然后进行累加即可,类似于一个帮忙分段的函数;
[0159]
那么与之相对应的还有一个模块度增量指标,delta q。
[0160]
模块增益度是评价本次迭代效果好坏的数值化指标,这是一种启发式的优化过程。类似决策树中的熵增益启发式评价。模块度增益的公式:
[0161][0162]ki,in
代表由节点i入射社区c的权重之和,即社区c内节点与节点i的边权重之和,注意对k
i,in
是对应边权重加起来再乘以2,这点在实现时很容易犯错;
[0163]
σ
in
表示社区c所有节点之间的边权重和(社区内边);
[0164]
σ
tot
表示所有与社区c中节点有连接的边权重和;
[0165]ki
代表入射节点i的总权重,即节点i连接的所有边的权重和。
[0166]
m是整个网络中的边权重之和。
[0167]
在算法的first phase,判断一个节点加入到哪个社区,需要找到一个delta q最大的节点i,delta q的作用类似决策树中的信息增益评估的作用,它帮助整个模型向着modularity不断增大的方向去靠拢。
[0168]
s91、初始时将每个顶点当作一个社区,社区个数与顶点个数相同;
[0169]
s92、依次将每个顶点与之相邻顶点合并在一起,计算它们最大的模块度增益是否大于0,如果大于0,就将该节点放入模块度增量最大的相邻节点所在社区。
[0170]
s93、迭代s92步骤,直至算法稳定,即所有顶点所属社区不再变化。
[0171]
s94、将各个社区所有节点压缩成为一个节点,社区内点的权重转化为新节点环的权重,社区间边的权重转化为新节点边的权重。
[0172]
s95、重复步骤s91~s93,直至算法稳定(整个图的模块度不再发生变化)。
[0173]
其中,s93步骤和s95步骤的稳定意思是一样的,但是两个不同的过程。s93步骤的稳定指的是对一直重复第二个步骤,直到所属社区不再变化。s95步骤的稳定稳定指的是整个图的模块度不再发生变化。
[0174]
优选地,在此场景中,社区发现算法主要用于人,和企业的两类主体:
[0175]
1)对人来说,多个矛盾纠纷中涉及的人都指向同一批人,那么这个这几个人有可能是矛盾纠纷的核心共同指向点。比如,通过算法得出,多个邻里纠纷都涉及一个人,或者一户人家,那么这个人或者这户人家,可能就是有可能属于性格比较偏激或者有其他突发事件的情况。
[0176]
2)对企业来说,多个企业,多种类型可能会涉及多个矛盾纠纷事件,那么这家企业可能属于多个矛盾纠纷事件集中指向的企业,那么这家企业可能会有较大问题,及时预警。
[0177]
实施例二
[0178]
基于相同的构思,本技术还提出了一种基于知识图谱的矛盾纠纷分析和预警装置,包括:
[0179]
采集模块,用于采集矛盾纠纷所需的原始数据并进行治理清洗,得到基础数据;
[0180]
实体抽取模块,用于对基础数据中的文本进行实体抽取,得到实体数据;
[0181]
预处理模块,用于对实体数据进行过滤预处理,以去除垃圾数据;
[0182]
标注模块,用于对过滤预处理后的实体数据中各实体之间的关系进行标注;
[0183]
抽取训练模块,用于提取标注好的实体关系作为样本,进行自动抽取训练,并通过训练完毕的自动提取实体关系模型自动抽取实体关系;
[0184]
匹配模块,用于将过滤预处理后的实体数据与基础数据进行匹配,得到匹配数据;
[0185]
实体对齐模块,用于对基础数据中的企业名称进行实体对齐,以将多个相似的企业名称统一为一个企业名称,得到对齐后的基础数据;
[0186]
构建模块,用于基于对齐后的基础数据、提取得到的实体关系以及匹配数据构建知识图谱网络;
[0187]
挖掘模块,用于基于知识图谱网络的现有关系进行关系推理分析,以得到挖掘数据;
[0188]
预警模块,用于通过社区发现算法对挖掘数据进行预警。
[0189]
实施例三
[0190]
本实施例还提供了一种电子装置,参考图2,包括存储器404和处理器402,该存储器404中存储有计算机程序,该处理器402被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
[0191]
具体地,上述处理器402可以包括中央处理器(cpu),或者特定集成电路(applicationspecificintegratedcircuit,简称为asic),或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0192]
其中,存储器404可以包括用于数据或指令的大容量存储器404。举例来说而非限制,存储器404可包括硬盘驱动器(harddiskdrive,简称为hdd)、软盘驱动器、固态驱动器(solidstatedrive,简称为ssd)、闪存、光盘、磁光盘、磁带或通用串行总线(universalserialbus,简称为usb)驱动器或者两个或更多个以上这些的组合。在合适的情况下,存储器404可包括可移除或不可移除(或固定)的介质。在合适的情况下,存储器404可在数据处理装置的内部或外部。在特定实施例中,存储器404是非易失性(non-volatile)存储器。在特定实施例中,存储器404包括只读存储器(read-onlymemory,简称为rom)和随机存取存储器(randomaccessmemory,简称为ram)。在合适的情况下,该rom可以是掩模编程的rom、可编程rom(programmableread-onlymemory,简称为prom)、可擦除prom(erasableprogrammableread-onlymemory,简称为eprom)、电可擦除prom(electricallyerasableprogrammableread-onlymemory,简称为eeprom)、电可改写rom(electricallyalterableread-only memory,简称为earom)或闪存(flash)或者两个或更多个以上这些的组合。在合适的情况下,该ram可以是静态随机存取存储器(staticrandom-accessmemory,简称为sram)或动态随机存取存储器(dynamicrandomaccessmemory,简称为dram),其中,dram可以是快速页模式动态随机存取存储器404(fastpagemodedynamicrandomaccessmemory,简称为fpmdram)、扩展数据输出动态随机存取存储器(extendeddateoutdynamicrandomaccessmemory,简称为edodram)、同步动态随机存取内存(synchronousdynamicrandom-accessmemory,简称sdram)等。
[0193]
存储器404可以用来存储或者缓存需要处理和/或通信使用的各种数据文件,以及处理器402所执行的可能的计算机程序指令。
[0194]
处理器402通过读取并执行存储器404中存储的计算机程序指令,以实现上述实施
例中的任意一种基于知识图谱的矛盾纠纷分析和预警方法。
[0195]
可选地,上述电子装置还可以包括传输设备406以及输入输出设备408,其中,该传输设备406和上述处理器402连接,该输入输出设备408和上述处理器402连接。
[0196]
传输设备406可以用来经由一个网络接收或者发送数据。上述的网络具体实例可包括电子装置的通信供应商提供的有线或无线网络。在一个实例中,传输设备包括一个网络适配器(network interface controller,简称为nic),其可通过基站与其他网络设备相连从而可与互联网进行通讯。在一个实例中,传输设备406可以为射频(radio frequency,简称为rf)模块,其用于通过无线方式与互联网进行通讯。
[0197]
输入输出设备408用于输入或输出信息。在本实施例中,输入的信息可以是需要分析的原始数据等,输出的信息可以是预警信息等。
[0198]
实施例四
[0199]
本实施例还提供了一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序包括用于控制过程以执行过程的程序代码,过程包括根据实施例一的基于知识图谱的矛盾纠纷分析和预警方法。
[0200]
需要说明的是,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
[0201]
通常,各种实施例可以以硬件或专用电路、软件、逻辑或其任何组合来实现。本发明的一些方面可以以硬件来实现,而其他方面可以以可以由控制器、微处理器或其他计算设备执行的固件或软件来实现,但是本发明不限于此。尽管本发明的各个方面可以被示出和描述为框图、流程图或使用一些其他图形表示,但是应当理解,作为非限制性示例,本文中描述的这些框、装置、系统、技术或方法可以以硬件、软件、固件、专用电路或逻辑、通用硬件或控制器或其他计算设备或其某种组合来实现。
[0202]
本发明的实施例可以由计算机软件来实现,该计算机软件由移动设备的数据处理器诸如在处理器实体中可执行,或者由硬件来实现,或者由软件和硬件的组合来实现。包括软件例程、小程序和/或宏的计算机软件或程序(也称为程序产品)可以存储在任何装置可读数据存储介质中,并且它们包括用于执行特定任务的程序指令。计算机程序产品可以包括当程序运行时被配置为执行实施例的一个或多个计算机可执行组件。一个或多个计算机可执行组件可以是至少一个软件代码或其一部分。另外,在这一点上,应当注意,如图中的逻辑流程的任何框可以表示程序步骤、或者互连的逻辑电路、框和功能、或者程序步骤和逻辑电路、框和功能的组合。软件可以存储在诸如存储器芯片或在处理器内实现的存储块等物理介质、诸如硬盘或软盘等磁性介质、以及诸如例如dvd及其数据变体、cd等光学介质上。物理介质是非瞬态介质。
[0203]
本领域的技术人员应该明白,以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0204]
以上实施例仅表达了本技术的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本技术范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本技术构思的前提下,还可以作出若干变形和改进,这些都属于本技术的保护范围。因此,本技术的保护范围应以所附权利要求为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1