1.本发明是一种在大数据中发现异常并计算积分的算法,成功解决了侦查领域积分标准统一问题和积分区间控制问题,使得积分与数据异常之间具有一致性和灵敏性,积分真实地反映了数据的异常程度,属于计算机信息处理领域和大数据侦查领域,尤其适用于大数据刑事犯罪侦查领域和经济犯罪侦查领域。
背景技术:
2.随着大数据的发展,刑事侦查、经济侦查等犯罪侦查,越来越依靠大数据手段,在大数据侦查过程中,经常会用积分的方法计算数据异常程度,通过积分大小来反映数据线索的可用程度,但长期以来,所用的积分算法往往是每个积分项乘以一定权重,然后相加得出总分,这些常用的积分算法并不能完全真正反映数据真实的异常程度,一是每个积分项增幅和权重难以定义统一的标准,二是积分相加没有有效的区间,到底多少分是最高值,没有统一的标准,三是随意性比较大,每个积分项占权重多少取决于人的经验,虽然上述积分算法在大数据侦查过程中起到过很重要的作用,但上述三个问题是真实存在的,本发明有效地解决了这些问题,使得积分与数据异常之间具有一致性和灵敏性,同时积分有了标准统一的合理区间,所述“积分项”是指积分的组成部分,所述“一致性”是指积分真实反映了数据的情况,所述“灵敏性”是指数据变化会灵敏地影响积分变化。
技术实现要素:
3.按照如下【0004】至【0010】步骤把总分划分为若干个积分项并计算每个积分项的分值。
4.根据数据应用目标,划分为若干个积分项,积分项数量不限,此步骤积分项数量记录为n备用。
5.设置每个积分项的最高分,要求:每个积分项最高分值设置在10分以内,超过10分取值为10分。
6.为每个积分项设置条件,也就是每个积分项包括哪些条件,每满足一个条件,分值如何变化。
7.为每个积分项的每个条件设置增幅分值或固定分值,本发明所述“增幅分值”是指每满足一次条件所增加的分值,下同;本发明所述“固定分值”是指无论满足一次还是多次该条件,该积分项都设置为固定的某分值,下同。
8.输入数据并判断是否符合每个积分项的条件,每符合一次【0006】的条件,累加【0007】设置的增幅分值或将该积分项设置为【0007】所规定的固定分值,要求:每个积分项最终结果不能超过10分,超过10分取值为10,此步骤每个积分项总分记录为x1、x2…
x
n
备用,统称为x。
9.以【0008】的x1、x2…
x
n
为指数,计算以自然数e常数为底数的指数值,其结果记录为ex1、ex2…
ex
n
备用,统称为ex,所述“自然数e常数”是指数学领域的自然数常数,其值约为
2.718281828,下同。
10.以【0009】的ex1、ex2…
ex
n
为参数,代入到如下公式中的ex项中,v=1/(1+1/ex),得出每个积分项结果值,记录为v1、v2…
v
n
备用。
11.按照如下【0012】至【0018】的步骤计算各积分项权重及积分的总分。
12.输入【0010】的v1、v2…
v
n
,以v1、v2…
v
n
为指数,计算以自然数e常数为底数的指数值,其结果记录为ev1、ev2…
ev
n
备用,统称为ev。
13.计算【0012】的ev1、ev2…
ev
n
的总和,记录为s
ev
备用。
14.分别输入【0012】的ev1、ev2…
ev
n
,除以【0013】的s
ev
,即计算ev/s
ev
,分别记录为w1、w2…
w
n
备用,含义是各积分项在总积分中所占权重。
15.输入【0010】的v1、v2…
v
n
,分别乘以【0014】w1、w2…
w
n
,即计算v
1* w1、v
2* w2…
v
n* w
n
,分别记录为m1、m2…
m
n
备用。
16.计算m1+m2+
…
+m
n
,即计算m1、m2…
m
n
的总和作为积分总分,记录为t备用,此步骤t最高分为1分,为了便于理解,可以将t乘以100,这样积分的最高总分为100分,符合人们日常理解的习惯。
17.将总分t与【0008】输入的数据相关联存入数据库,这样积分就与数据做了关联,查询时就可以用积分来排序。
18.作为变通,【0014】的w1、w2…
w
n
的值可以人工调整,但无论怎么调整,w1+w2+
…
+w
n
的和不允许超过1。
19.参照【0003】至【0018】的方法,建立经济侦查积分模型,步骤如下【0020】至【0035】。
20.设置经济侦查目标,并准备与侦查目标相关的数据。
21.设置人员身份特征积分项、时间特征积分项、空间特征积分项、经济行为积分项、资金流向特征积分项、物品特征积分项、差异积分项、冲突积分项,本发明所述“差异积分项”是指具有唯一性的同一事物在各数据库之间数据不一致,为此“不一致”设置的积分项,下同;本发明所述“冲突积分项”是指本应唯一性的属性却有两种或两种以上不同的记录,为此“冲突”设置的积分项,例如时空冲突积分项,下同。
22.设置每一个积分项的最高分,要求每一个积分项最高分不超过10分,超过10分的以10分计算。
23.定义人员身份特征积分项条件,主要包括:职务特征、职业特征、履历特征、家庭背景。
24.定义时间特征积分项条件,主要包括:发生次数阈值、时长阈值、间隔阈值、特定时间段条件、时间规律条件,所述“发生次数阈值”是指输入的数据时间特征满足条件超过一定数值时则表示满足条件,下同;所述“时长阈值”是指输入的数据所记录内容的开始时间与结束时间的差额,超过或低于或等于一定数值时则表示满足条件,究竟设置为高于一定数额满足条件还是低于一定数额满足条件还是等于一定数额满足条件,根据实际情况灵活设定,下同;所述“间隔阈值”是指两次发生类似事件的时间间隔低于或高于或等于一定数额时,则表示满足条件,究竟设置为高于一定数额满足条件还是低于一定数额满足条件还是等于一定数额满足条件,根据实际情况灵活设定,下同;所述“特定时间段条件”是指输入数据所记载的内容的发生时间在特定时段内,则表示满足时间,下同;所述“时间规律条件”是指输入数据所记载内容的发生时间满足特定的规律,则表示满足条件,下同。
25.定义空间特征积分项条件,主要包括:周边距离范围内阈值、多次同一地点阈值、地点变化规律,所述“周边距离范围内阈值”是指事件发生在特定地理坐标周围一定距离内则表示满足条件,下同;所述“多次同一地点阈值”是指在同一地点发生类似事件次数超过一定次数则满足条件,下同;所述“地点变化规律”是指经常发生在几个地点且地点变化具有规律性,满足这个规律则符合条件,下同。
26.定义差异积分项条件,主要包括:具有唯一性同一事物在不同数据库之间存在时间、空间、数额、主管人、经手人、参与人不同的记录,例如a数据库记录的是某人在某日某时某分某秒在某超市购物100元,b库针对该事件却记录的金额为200元。
27.定义冲突积分项条件,主要包括时空冲突。
28.定义经济行为积分项条件,主要包括:主管人、经手人、参与人、经济行为类型、经济行为性质、数额条件、内容条件、手法条件,所述“数额条件”是指经济行为中发生的数额需满足特定的区间条件,下同;所述“内容条件”是指经济行为中包括的组成部分,下同;所述“手法条件”是指经济行为的操作特征,包括多少个人协作完成、完成该行为的步骤,下同。
29.定义资金流向特征积分项条件,主要包括:流向政府单位、事业单位、国有企业、民营企业、个体户、个人、流入流出数额、流入流出次数。
30.定义物品特征积分项条件,主要包括:转让、赠与、增值、减值、损害、灭失。
31.设置每一个积分项每一个条件的分值,同一个积分项内满足不同条件可以有不同的分值,设置的分值可以是累加模式或固定模式,所述“累加模式”是指每满足一次加一定分值,下同;所述“固定模式”是指无论满足多少次该条件,该分值是固定的,下同。
32.输入数据并判断是否符合每个积分项设置的条件,符合某个条件的,按照【0031】设置分值规则,累加增幅分值或设置为固定分值,要求:每个积分项最高不得超过10分,超过10分的以10分计算。
33.按照【0009】规则计算每个积分项的指数值。
34.按照【0010】的规则计算每个积分项的值。
35.按照【0012】至【0018】各步骤计算各积分项权重和积分总分,并将总分与输入的数据相关联存入数据库,特别说明:【0023】至【0030】各步骤无严格顺序。
36.参照【0003】至【0018】的方法,建立刑事侦查积分模型,步骤如下【0037】至【0052】。
37.设置刑事侦查目标,准备与案件相关的数据。
38.设置人员生物特征积分项、人员身份特征积分项、时间特征积分项、空间特征积分项、痕迹特征积分项、物品特征积分项、差异积分项、冲突积分项。
39.设置每一个积分项最高分,要求每个积分项最高分不超过10分,超过10分的以10分计算。
40.定义人员生物特征积分项条件主要包括:dna特征、性别特征、年龄特征、身高特征、胖瘦特征、肤色特征、脸型特征、残疾特征、标记性特征,所述“标记性特征”是指与其他人明显区别的特征,例如特殊嘴型、特殊眼型、特殊位置的痣。
41.定义人员身份特征积分项,主要包括职务特征、职业特征、履历特征、家庭背景。
42.定义时间特征积分项条件主要包括:发生次数阈值、时长阈值、间隔阈值、特定时间段条件、时间规律条件。
43.定义空间特征积分项条件主要包括:周边距离范围内阈值、多次同一地点阈值、地点变化规律。
44.定义痕迹特征积分项条件,主要包括:指纹、掌纹、脚纹、脚印、血液、环境痕迹。
45.设置物品特征积分项条件,主要包括:物品的名称、类型、形状、尺寸、颜色、重量、体积、用途。
46.定义差异积分项条件,主要包括:生物特征、身份特征、时间特征、空间特征、痕迹特征、物品特征相关数据在不同数据库之间记录的差异。
47.定义冲突积分项,主要包括:时空冲突。
48.设置每一个积分项每一个条件的分值,同一个积分项内满足不同条件可以有不同的分值,设置的分值可以是累加模式或者固定模式。
49.输入数据并判断是否符合每个积分项设置的条件,符合某个条件的,按照【0048】设置分值规则,累加增幅分值或设置为固定分值,要求:每个积分项最高不得超过10分,超过10分的以10分计算。
50.按照【0009】的规则计算每个积分项的指数值。
51.按照【0010】的规则计算每个积分项的值。
52.按照【0012】至【0018】各步骤计算各积分项权重和积分总分,并将总分与输入的数据相关联存入数据库,特别说明:【0040】至【0047】各步骤无严格顺序。
具体实施方式
53.以病人住院医保基金诈骗大数据侦查为例,描述如何实施本发明。
54.本发明所述大数据,分布式存储用mongodb,分布式检索用apache solr,分布式计算用apache spark,应用程序协调服务用apache zookeeper。
55.设置侦查目标是从大数据中发现涉嫌诈骗医保基金的线索,采集医院病人住院数据、医保基金报销数据,如果有条件,还可采集病人的参保数据、病人身份背景数据、医院背景数据、交通卡口过车数据、旅馆住宿数据、网吧上网数据、公安机关拥有的其他场所数据和电子围栏数据。
56.设置积分项包括身份特征积分项、时间特征积分项、空间特征积分项、住院行为积分项、报销行为特征项、差异积分项、冲突积分项。
57.设置每一个积分项的最高分为10分。
58.定义病人身份特征积分项条件,包括是否为医院工作人员或亲属、是否为医保基金主管单位人员或其亲属、是否为医院主管单位的人员或其亲属、是否有过医院从业经历、是否有过医院主管单位从业经历、是否有过医保基金主管单位从业经历、是否为五保户、是否为最低生活保障人员,本实施例中每满足一个条件,病人身份特征积分项累加0.1分,如果为五保户或者低保人员,额外增加0.2分。
59.定义时间特征积分项条件:特定周期内住院次数阈值、特定周期内同一病种住院次数阈值、住院时长阈值、两次住院间隔阈值、是否在案件高发时段、是否存在时长规律、是否存在间隔规律,本实施例中每满足一个条件,时间特征积分项累加0.1分,其中每满足一次时长规律或者间隔规律的,额外再增加0.1分。
60.定义空间特征积分项条件:病人是否有外地就医经历、病人特定周期内外地就医
次数阈值、住院医院是否是案件高发医院、前后两家医院距离阈值、同一病人多个就医医院是否存在轮换规律,本实施例中每满足一个条件,空间特征积分项累加0.1分,其中每满足一次轮换规律的,额外再增加0.1分。
61.定义行为积分项条件:报销额度、报销比例、报销次数、所治疗病种、住院治疗病种与医院能力是否不相符,每满足一个条件,行为积分项累加0.1分。
62.定义差异积分项条件:医保报销数据与医院数据的差异、公安场所数据与住院记录的差异、身份背景与报销比例的差异,每满足一个条件,差异积分项累加0.3分。
63.定义冲突积分项条件,每满足时空冲突一次,积分累加0.3分。
64.输入数据,计算每一个积分项每一个条件的分值,每个积分项最高分不得超过10分,超过10分的,以10分计算。
65.按照【0009】的规则计算每个积分项的指数值。
66.按照【0010】的规则计算每个积分项的值。
67.按照【0012】至【0018】各步骤计算各积分项权重和整个积分的总分,并将积分总分与输入的数据相关联存入数据,特别说明:【0058】至【0063】各步骤无严格顺序。