本发明涉及计算机科学技术领域,具体涉及一种基于模糊熵均值阴影集的招投标犯罪对象推荐方法及装置。
背景技术:
在社会各行各业公开招标时,存在大公司为了中标而和其它小公司提前串通好来提升中标概率的现象,即在招投标过程存在陪标、串标的违法犯罪行为,但由于数据的不完善以及调查的敏感性,调查人员常常无法有效的、准确的找到疑似参与投标串标的公司。面对这一问题,如何通过有用的技术手段来帮助调查人员寻找出在招投标过程中可能进行陪标、串标的公司就成了一个具有价值的问题。现有招投标案件中对职务犯罪行为的对象推荐方法多通过人为判断推荐,具有很强的主观性和不确定性,存在着推荐不精准的缺陷。
技术实现要素:
为了解决上述问题,本发明提供一种基于模糊熵均值阴影集的招投标犯罪对象推荐方法及装置。
一种基于模糊熵均值阴影集的招投标犯罪对象推荐方法,包括以下步骤:
s1、选定调查的招投标对象,采集与招投标调查对象相关的招投标数据;
s2、数据预处理,根据招投标数据整理投标情况表、中标情况表,投标金额表;
s3、提取招投标对象的相关属性指标,包括从投标情况表、中标情况表和投标金额表中提取出与“串标、陪标”呈正相关性的属性指标以及呈负相关性的属性指标,并分别计算出不同属性指标下招投标对象的的特征值;
s4、将不同属性指标下招投标对象的的特征值进行归一化处理,从而得到不同属性指标下招投标对象的隶属度值μ(x),(0≤μ(x)≤1);
s5、构建模糊熵均值阴影集模型,并采用决策划分方法减小模糊熵均值阴影集与模糊集a之间的不确定性差异,根据每一个招投标对象所采取的决策划分动作计算每一个招投标对象的模糊熵损失函数,通过最小化总的模糊熵损失函数,从而计算出不同属性指标下的决策划分阈值对(α,β);
s6、基于模糊熵均值阴影集模型、不同属性指标下招投标对象的隶属度值μ(x)以及不同属性指标下的决策划分阈值对(α,β),对不同属性指标下的招投标对象进行三支近似划分,将不同属性指标下的招投标对象分别划分到pos域、bnd域和neg域,得到不同属性指标下招投标对象的三支近似划分结果;
s7、对不同属性指标下招投标对象的三支近似划分结果进行融合,得到融合后的划分结果;
s8、根据融合后的划分结果输出推荐的可能存在招投标犯罪行为的招投标对象,推荐方式包括:对于与“串标、陪标”呈正相关性的属性指标下的招投标对象,优先推荐划分到pos域的招投标对象;对于与“串标、陪标”呈负相关性的属性指标下的招投标对象,优先推荐划分到neg域的招投标对象。
一种基于模糊熵均值阴影集的招投标犯罪对象处理装置,包括相互连接的处理器、存储器和输出端口,其特征在于:所述存储器用于获取的招投标数据,存储处理器处理过程中的数据,所述输出端口用于向终端设置输出推荐的调查对象;所述处理器采用上述基于模糊熵均值阴影集的招投标犯罪对象推荐方法计算出推荐的调查对象,发送给输出端口。
本发明的有益效果:
1.本发明所采取的模糊熵均值阴影集模型不依赖任何人为给定参数,完全从招投标对象在划分过程中不确定性损失的角度出发依据招投标数据本身来构建求取用于三支近似划分的决策划分阈值对(α,β),避免了由于专家经验所造成的主观性误差和不合理性,使得所求取的模型能够更有效的去近似划分具有不确定性的招投标对象。
2.本发明使用根据模糊熵均值阴影集模型对待调查的招投标公司集合的三支划分结果直接给出需要优先调查的招投标公司(正域中的对象)、无需调查的招投标公司(负域中的对象),以及需要进一步信息采集来进行决策划分的招投标公司(阴影区域中的对象),而无需对所有被调查的招投标公司进行逐一分析,极大的提高了工作效率。
附图说明
下面结合附图和具体实施方式对本发明做进一步详细的说明。
图1为本发明实施例的一种基于模糊熵均值阴影集的招投标犯罪对象推荐方法流程图;
图2为本发明实施例的公司c1所对应的特征值的归一化处理结果;
图3为本发明实施例的模糊熵均值阴影集模型。
具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图1为本发明实施例的一种基于模糊熵均值阴影集的招投标犯罪对象推荐方法流程图,该方法可直接应用于职务犯罪的调查与预防监测,该方法包括但不限于如下步骤:
s1、选定调查的招投标对象,采集与招投标调查对象相关的招投标数据,整理出可能存在陪标、串标行为的待调查公司对象集合;
s2、数据预处理,根据招投标数据分别整理出投标情况表、中标情况表,投标金额表;
s3、提取相关属性指标,包括从投标情况表、中标情况表和投标金额表中提取出与“串标、陪标”呈正相关性的属性指标以及呈负相关性的属性指标,并分别计算出不同属性指标下招投标对象的特征值,其中,“呈正相关性”指属性指标的值越大,则陪标、串标的可能性越大,“呈负相关性”指属性指标的值越小,则陪标、串标的可能性越大;
s4、将不同属性指标下招投标对象的特征值进行归一化处理,从而得到不同属性指标下招投标对象的隶属度值μ(x),(0≤μ(x)≤1),招投标对象的隶属度值则代表该对象属于或不属于陪标、串标公司的程度,在具有正相关性的属性指标下,隶属度值越大则代表着该招投标对象属于陪标、串标公司的可能性越高,在具有负相关性的属性指标下则相反;
s5、构建模糊熵均值阴影集模型,并采用决策划分方法减小模糊熵均值阴影集与模糊集a之间的不确定性差异,根据每一个招投标对象所采取的决策划分动作计算每一个招投标对象的模糊熵损失函数,通过最小化总的模糊熵损失函数,从而求取不同属性指标下的决策划分阈值对(α,β),其中“模糊熵均值阴影集模型”是指针对待调查公司对象集合的决策划分模型;“模糊集a”是指待调查公司对象集合;
s6、基于模糊熵均值阴影集模型、不同属性指标下招投标对象的隶属度值μ(x)以及不同属性指标下的决策划分阈值对(α,β),对不同属性指标下的招投标对象进行三支近似划分,将不同属性指标下的招投标对象分别划分到pos域、bnd域和neg域,得到不同属性指标下招投标对象的三支近似划分结果;
s7、对不同属性指标下招投标对象的三支近似划分结果进行融合,得到融合后的划分结果;
s8、根据融合后的划分结果输出推荐的可能存在招投标犯罪行为的招投标对象,推荐方式包括:对于与“串标、陪标”呈正相关性的属性指标下的招投标对象,优先推荐划分到pos域的招投标对象;对于与“串标、陪标”呈负相关性的属性指标下的招投标对象,优先推荐划分到neg域的招投标对象。
为了使本发明的实施例更加清楚、完整,接下来将对本发明的各个步骤进行详细描述。
由于在职务犯罪调查过程中招投标数据所具有的特殊性和保密性,以及为了避免相关保密性信息的泄露而造成的法律法规问题。在详细展示本发明实例各个步骤的过程中,所用的数据将经过去密处理,不涉及具体的相关信息,这些招投标数据是由专家基于真实案件中所提取的,经过去密处理的数据信息不影响展示本发明实例的各个步骤,且不影响本发明创造的方法在实际调查案件中的效果。
步骤1:假设公司a为选定调查的招投标对象,在指定被调查时间段内,其所参与过的招投标项目集合为p={p1,p2,......pi},(i∈n+),其中pi表示第i招投标项目;与公司a一起参与招投标的公司集合为c={c1,c2,......ci},(i∈n+),其中ci表示与公司a一起参与过招投标的第i个公司。
为了清楚的解释本发明在不同步骤中的具体过程,现给出进过去密处理后的招投标项目集合p={p1,p2,p3,p4,p5,p6,p7}和参与投标的公司集合c={c1,c2,c3,}c,并在步骤2中给出具体的数据信息。
步骤2:根据招投标数据整理投标情况表、中标情况表,投标金额表。
表1.参与投标情况表
表1中,“集合p”代表在预调查时间段内选定调查的招投标对象a所参与的所有招投标项目,其中pi(1≤i≤7)表示第i个招投标项目;“集合c”代表与选定调查的招投标对象a共同参与招投标的所有公司集合,其中ci(1≤i≤4)表示与公司a一起参与过招投标的第i个公司;“0”代表集合c中对象参与了此次招投标,反之“1”代表集合c中对象未参与此次招投标项目。
由表1可知选定调查的招投标对象a在预调查时间段内参与了7个招投标项目,且在这7个项目中,有4家公司也参与了部分招投标项目,如,公司c1与公司a一起参与了项目p2,p3,p5,p6和p7。
表2.中标情况表
表2中,“集合p”代表在预调查时间段内选定调查的招投标对象a所参与的所有招投标项目,其中pi(1≤i≤7)表示第i个招投标项目;“集合c”代表与选定调查的招投标对象a共同参与招投标的所有公司集合,其中ci(1≤i≤4)表示与公司a一起参与过招投标的第i个公司;表格中“0”代表该公司中标次项目,“1”代表该公司未中标此项目;表格中“-”表示没有参与此次投标,反之表示该公司参与了此次投标。
由表2可知选定调查的招投标对象a在预调查时间段内参与了7个招投标项目,且在这7个项目中,中标了项目p4、p5和p7。除此之外,有4家公司也参与了部分招投标项目,如,公司c3与公司a一起参与了项目p1,p2和p3,且公司c3均中标这3个招投标项目。
表3.投标金额表(单位:万元)
“集合p”代表在预调查时间段内选定调查的招投标对象a所参与的所有招投标项目,其中pi(1≤i≤7)表示第i个招投标项目;“集合c”代表与选定调查的招投标对象a共同参与招投标的所有公司集合,其中ci(1≤i≤4)表示与公司a一起参与过招投标的第i个公司;表格中非零数值代表该公司参与该项目所给出的投标金额,反之数值为0表示该公司未参与此项目的投标;表格中加粗的非零数值表示该公司在此投标金额下中标了此次投标项目,反之未加粗的非零数值表示该公司在此投标金额下未中标此次投标。
由表3可知选定调查的招投标对象a在预调查时间段内参与了7个招投标项目,且在这7个项目中,中标了项目p4、p5和p7,中标金额分别为780万、880万和580万。除此之外,有4家公司也参与了部分招投标项目,如,公司c3与公司a一起参与了项目p1,p2和p3,且公司c3均中标者这3个招投标项目,中标金额分别为500万、690万和25万。
步骤3:提取相关属性指标:从投标情况表、中标情况表和投标金额表中提取出与“串标、陪标”呈正相关性的属性指标以及呈负相关性的属性指标,并分别计算出不同属性指标下招投标对象的特征值,其中“呈正相关性”指属性指标的值越大,则陪标、串标的可能性越大,“呈负相关性”指属性指标的值越小,则陪标、串标的可能性越大。
进一步的,提取的属性指标包括:属性指标m、属性指标n、属性指标p、属性指标q和属性指标z,其中属性指标m、n和p与“陪标、串标”呈正相关性,属性指标q和z与“陪标、串标”呈负相关性。
其中,属性指标m基于“投标情况表”,假设集合c={c1,c2,c3,c4}中每个公司ci参与的投标项目总数为m(1≤m≤5),且m值越大,则该公司ci陪标、串标可能性越大,即指标m与“陪标、串标”呈正相关性。
其中,属性指标n基于“投标情况表”,假设集合c={c1,c2,c3,c4}中每个公司ci连续参与项目的最高次数为n(1≤n≤5),且n值越大,则该公司ci陪标、串标可能性越大,即指标n与“陪标、串标”呈正相关性。
其中,属性指标p基于“中标情况表”,假设在选定调查的招投标对象a中标的前提下,集合c={c1,c2,c3,c4}中每个公司ci参与的项目总数为p(1≤p≤k),其中k表示选定调查的招投标对象a的中标个数,且p值越大,则该公司ci陪标、串标可能性越大,即指标p与“陪标、串标”呈正相关性。
其中,属性指标q基于“中标情况表”,假设集合c={c1,c2,c3,c4}中每个公司ci连续中标项目的最高次数为q(1≤p≤5),且q值越大,则该公司ci陪标、串标可能性越小,即指标q与“陪标、串标”呈负相关性。
其中,属性指标z基于“投标金额表”,假设集合c={c1,c2,c3,c4}中每个公司ci的投标金额与公司a的投标金额之间的差异率为z(0≤z≤1),且z值越大,该公司ci陪标、串标可能性越小,反之,z值越小则陪标、串标可能性越大,即指标z与“陪标、串标”呈负相关性。
更进一步的,属性指标z(0≤z≤1)的计算公式如下所示:
其中,zi表示第i个公司与待调查公司a之间的差异率,proi表示第i个公司与待调查公司a共同投标的项目集合,aj表示待调查公司a在第j个项目的投标金额,comij表示集合c中的第i个公司在第j个项目中的投标金额,xj表示第j个项目的投标金额的量级。
上述五种属性指标m、n、p、q和z,其中m、n和p与“陪标、串标”的可能性呈正相关性,即当其值越大时,“陪标、串标”的可能性越大;q和z与“陪标、串标”的可能性呈负相关性,即当其值越大时,“陪标、串标”的可能性越小。
为了更加清楚、完整地描述本技术方案的各个步骤,将举例给出上述五种属性指标的计算过程,如下所示:
基于属性指标m的定义,可直接由“表1.参与投标情况表”得出属性指标m下招投标对象的特征值:c1=6,c2=c3=c4=3;基于属性指标n的定义,可直接由“表1.参与投标情况表”得出属性指标n下招投标对象的特征值:c1=6,c2=1,c3=3,c4=2;基于属性指标p的定义,可直接由“表2.中标情况表”的得出属性指标p下招投标对象的特征值:c1=3,c2=2,c3=0,c4=1;基于属性指标q的定义,可直接由“表2.中标情况表”得出属性指标q下招投标对象的特征值:c1=0,c2=0,c3=3,c4=1;基于属性指标z的定义,给出属性指标z下招投标对象c1特征值的计算过程,如下所示:
表4.公司a与招投标对象c1的投标金额(单位:万元)
则根据表4可知,xj={100,10,100,100,100}(1≤j≤7),aj={580,680,22,780,880,900,580}(1≤j≤7),pro1={p2,p3,p4,p5,p6,p7},com1j={0,670,22,740,900,970,590}(1≤j≤7),因此,公司a与招投标对象c1之间投标金额的差异率z1为:
因此,公司a与招投标对象c1之间投标金额的差异率z1=0.25,基于相同的处理方法可得到z2=0.37,z3=0.40,z3=0.70。
基于上述分析,可得到在不同属性指标下招投标对象ci各自所对应的特征值,如表5所示。
表5.不同属性指标下招投标对象ci所对应的特征值
步骤4:将不同属性指标下所得到的特征值进行归一化处理,得到归一化后的特征值,即不同属性指标下招投标对象的隶属度值μ(x)。由于在通过模糊熵均值阴影集进行三支近似划分的过程中,招投标对象集合中的招投标对象的隶属度μa(x)需满足0≤μa(x)≤1,因此对于表5中不同属性指标下招投标对象ci所对应的特征值,需要进行特征值的归一化处理,从而使得不同属性指标下的特征值量纲相同,进而便于步骤6中进行三支近似的划分,如图2所示为不同属性指标下招投标对象c1所对应的特征值的归一化处理结果。
进一步的,对于不同属性指标下招投标对象的特征值,本发明采用离差标准化归一法对特征值进行归一化处理,即,通过线性变换将某一属性指标下的所有招投标对象的特征值转换至单位大小,经过处理后的数据将归一化到区间[0,1]之间,转换函数如下:
其中,μ(x)代表不同属性指标下招投标对象的隶属度值,μ(x)∈[0,1],xi代表招投标对象集合中第i个特征值,
基于上述计算方法以及表5中的数据可得出c1在属性指标m下归一化后的特征值
表6.不同属性指标下招投标对象的隶属度值
步骤5构建模糊熵均值阴影集模型。
如图3所示为本发明实施例的模糊熵均值阴影集模型,构建模糊熵均值阴影集模型的规则包括:当招投标对象的隶属度μa(x)大于或等于阈值α,将这些招投标对象的隶属度提升为1,变化区域被定义为elevatedarea;当招投标对象的隶属度μa(x)小于或等于阈值β,将这些招投标对象的隶属度降低为0,变化区域被定义为reducedarea;当招投标对象的隶属度μa(x)大于β且小于α,将这些招投标对象的隶属度转化为δ*,变化区域被定义为shadowedarea。
进一步的,模糊熵均值阴影集模型的计算方式包括:
其中,
为了减小模糊熵均值阴影集模型与招投标对象集合a之间的不确定性差异,本发明基于模糊熵的角度针对招投标对象集合a中的招投标对象给出如下决策划分方法:
1.若待调查集合a中的某一招投标对象x满足μa(x)≥δ*,则该招投标对象x具有(e1),(r1)和(s1)三个决策,划分方法如下所示:
(e1):若el(ae|x)≤el(ar|x)∧el(ae|x)≤el(as↓|x),则该对象采取操作ae,即
(r1):若el(ar|x)≤el(ae|x)∧el(ar|x)≤el(as↓|x),则该对象采取操作ar,即
(s1):若el(as↓|x)≤el(ae|x)∧el(as↓|x)≤el(ar|x),则该对象采取操作as↓,即
2.若招投标对象集合a中的某一招投标对象x满足μa(x)≤δ*,则该招投标对象x具有(e2),(r2)和(s2)三个决策,划分方法如下所示:
(e2):若el(ae|x)≤el(ar|x)∧el(ae|x)≤el(as↓|x),则该对象采取操作ae,即
(r2):若el(ar|x)≤el(ae|x)∧el(ar|x)≤el(as↓|x),则该对象采取操作ar,即
(s2):若el(as↑|x)≤el(ae|x)∧el(as↑|x)≤el(ar|x),则该对象采取操作as↓,即
其中,ae,ar,as↑,as↓分别代表模糊熵均值阴影集中针对招投标对象的四种划分操作,ele、elr、els↑、els↓则分别代表不同决策划分动作所带来的模糊熵损失,即不确定性损失。根据每一个招投标对象x∈u所采取的决策划分动作,可得其模糊熵损失函数如下:
el(a|x)=|ee-eb|
其中,el(a|x)表示一个招投标对象的模糊熵损失函数,eb表示招投标对象x初始时的模糊熵,ee表示招投标对象x进行ae决策划分后的模糊熵,a={ae,ar,as↑,as↓}表示决策划分动作。
进一步可得论域u中所有招投标对象总的模糊熵损失,如下所示:
其中,el(α,β)表示总的招投标对象的模糊熵损失函数,通过最小化总的模糊熵损失函数,即
其中,δ*表示不同属性指标下被划分到阴影区域的招投标对象的隶属度常数值,δ*具有两个值即
进一步的,本发明通过招投标对象集合的模糊熵均值,即不确定性均值来求取δ*,求取δ*的具体步骤包括:
i.求出招投标对象集合a中所有招投标对象的平均模糊熵
对于连续型论域u,
对于离散型论域u,
其中,
ii.基于liang所提出的模糊熵求取公式,在平均模糊熵
其中,针对连续型论域u和离散型论域u,模糊熵求取公式如下所示:
对于离散型论域u,
对于连续型论域u,
其中,e(a)表示招投标对象集合a的模糊熵,i表示该集合中第i个招投标对象,n表示该集合中总的招投标对象个数,x表示该集合中一个招投标对象,μa(x)表示该集合中的招投标对象的隶属度值。
综上所述,可求取到用于构建模糊熵均值阴影集模型的δ*和决策划分阈值对(α,β)。
步骤6:基于模糊熵均值阴影集模型以及不同属性指标下招投标对象的隶属度值,可分别求出模糊熵均值阴影集在属性指标m、n、p、q和z下的δ*以及决策划分阈值对(α,β),如下所示:
属性指标m下的隶属度值只有0和1,因此无需求取决策划分阈值对,可直接进行三支划分,将隶属度值为1和0的招投标对象分别划分到pos域和neg域。
属性指标n下,δ*取0.7236或0.2764,决策划分阈值对(α,β)=(0.8873,0.1127);
属性指标p下,δ*取0.67或0.33,决策划分阈值对(α,β)=(0.8734,0.1266);
属性指标q下,δ*取0.67或0.33,决策划分阈值对(α,β)=(0.8734,0.1266);
属性指标z下,δ*取0.7015或0.2985,决策划分阈值对(α,β)=(0.8812,0.1188)。
综上所述,可依据不同属性指标下的决策划分阈值对以及招投标对象的隶属度值从而对该指标下所有招投标对象进行三支近似划分,得到如下表7的三支近似划分结果。
表7.不同属性指标下的招投标对象基于模糊熵均值阴影集的三支划分结果
模糊熵均值阴影集模型所划分的模糊集合实质上就是可能存在陪标、串标行为的公司集合,而基于决策划分阈值对所形成的正域、负域和阴影区域则分别代表着属于职务犯罪公司的高可能性区域、低可能性区域和依据当前信息无法做出判定的区域。
步骤7:对三支近似划分结果进行融合,得到融合后的划分结果。
在本发明中,由于m、n、p与“串标、陪标”呈正相关性,而q和z与“串标、陪标”呈负相关性,因此在m、n、p属性指标中,处于pos域的招投标对象具有较大的“串标、陪标”可能性,而在q和z属性指标中,则是处于neg域的招投标对象具有较大的“串标、陪标”可能性。
综上所述,可知在m、n、p属性指标中,处于pos域的招投标对象集合为u1,则u1={c1};在q和z属性指标中,处于neg域的招投标对象集合为u2,则u2={c1,c2}。进一步的,通过最简单的结果融合方法,即求取集合u1和集合u2的交集u*,即u*={c1},其中集合u*中的招投标对象代表无论在m、n、p属性指标下还是在q和z属性下都具有较大“陪标、串标”的可能性;因此,集合u*中的招投标对象即为与选定调查的招投标对象a存在“串标、陪标”可能性最大的公司,即c1与公司a之间存在较大的“陪标、串标”可能性,值得调查人员对其进行进一步的调查,进行优先推荐。
给出推荐建议:由于在招投标犯罪职务研究中,调查人员会根据已有信息来推动当前的调查进展,在本发明方法中,也可以根据单一属性指标来给出调查人员推荐建议,如下所示:
针对属性指标m、n和p,对于划分到pos域的招投标对象ci,优先推荐,从而获取更多的属性为进一步进行决策推荐提供数据,针对属性指标q和z则相反;
对于划分到bnd域的招投标对象ci,建议暂缓调查,如果时间等成本充足时,考虑调查获取更多的属性进行进一步决策推荐;
针对属性指标m、n和p,对于划分到neg域的招投标对象ci,基本排除嫌疑,建议不进行调查,针对属性指标q和z则相反。
一种基于模糊熵均值阴影集的招投标犯罪对象处理装置,包括相互连接的处理器、存储器和输出端口,其特征在于:所述存储器用于获取的招投标数据,存储处理器处理过程中的数据,所述输出端口用于向终端设置输出推荐的调查对象;所述处理器采用上述基于模糊熵均值阴影集的招投标犯罪对象推荐方法计算出推荐的调查对象,发送给输出端口。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。