一种刑事案件的串并案智能分析方法

文档序号:6573002阅读:739来源:国知局

专利名称::一种刑事案件的串并案智能分析方法
技术领域
:本发明涉及一种刑事案件的串并案智能分析方法。
背景技术
:刑事案件侦破人员会从案件现场采集大量的信息并将这些信息存储在计算机系统中,如足迹照片,现场照片,现场物体的特征描述,案发地点描述等等信息。这些信息格式多样,有离散的数字和符号,有文本信息,图像信息。针对当前异地作案,流串作案,连续作案的特点,刑事案件情报分析人员根据当前案件特征,需要对计算机系统中已经发生的案件进行复杂的检索和比对,以发现哪些案件可能是由同一人或团伙所为,从而为案件侦破工作提供大量的证据和线索。目前刑事案件中的串并案的处理方法主要是通过简单检索和人工比对来进行串并案的分析和处理。采用这种方法其效率极其低下,随着分析人员的工作量加大及疲劳程度增加,其人工分析的准确性也大大降低,进而影响了破案的速度和效率。虽然目前分别对图像进行特征采集和文本进行分类的方法屡见不鲜,但由于案件现场采集的数据特征多样,既包含文本数据,又包含图像数据,既有离散数据,又包含连续数据,此外,串并案分析人员的方式复杂多样,需要一种能够对信息进行多种组合形式来完成串并案分析,使用当前已知的图像检索技术或文本检索技术难以应用在刑事案件的计算机串并案辅助分析系统,不能满足串并案分析的效率和准确性的要求。
发明内容本发明的目的是提供一种既能对文本又能对图像进行准确、高效检索的刑事案件的串并案智能分析方法。本发明的发明目的是通过实施下述技术方案來实现的一种刑事案件的串并案智能分析方法,其特征在于,包括如下步骤步骤1、分别对数据库中每一个案件的图像数据和文本数据进行特征提取;步骤2、将提取的数据库中每个案件的图像和文本特征表示为案件的一个向量,从每个案件中所提取的特征组成每个案件的多维向量;步骤3、对案件的每一维向量赋予权值;计算数据库案件之间的相似度,得到相似度矩阵;指定阈值,计算每个案件的领域,得到数据库的领域粗糙集系统l;步骤4、对每个案件的多维向量进行维度约简;去掉案件多维向量中其中一个分量;重复上述步骤3,计算数据库中案件之间的相似度,得到数据库的领域粗糙集系统2;比较步骤3获得的数据库的领域粗糙集系统1与约简后去掉任意一个分量得到数据库的领域粗糙集系统2,如果二者差异显著,不能去掉该分量,否则去掉该分量;重复本步骤的以上内容,直到不能再去掉分量为止;步骤5、计算待分析的案件与向量约简后的数据库每个案件的相似度,找出数据库中和其有关联的串并案件,如果对结果不满意,则重新调整步骤3对每一维向量赋予的权值和阈值,重复步骤3至步骤5,获得新的串并案件结果。其中所述步骤2将提取的数据库中每个案件的每个特征被表示为如下表的属性一属性值对形式,每一个案件的每一个属性对应的属性值即为其的一维向量,所有的属性即组成了每一个案件的多维向量<table>tableseeoriginaldocumentpage7</column></row><table>用于特定描述的文本可以包括作案工具,其属性值可以包括刀、枪;可以为作案人数,其属性值为离散数据;可以为现场足迹的长度,其属性值为连续数据。每个案件Q都被表示为一个n维向量(Vil,vi2,...,vin),向量中既包含连续数字数据,也包含离散符号数据,设v,s是来自同一属性的属性值,定义如下运算vs如果v,s是数字v"='l如果v,s是符号,且v二s0如果v,s是符号,且v^s其中所述步骤1采用如下步骤提取特征步骤ll、计算图像中每个象素的平均梯度平方矩阵:(豈)2豈豈!且(其中I(x,y)为图像中位置(x,y)处的灰度值,当该点对应的平均梯度平方矩阵的两个特征值较大,该点为一个特征点,特征点响应函数为i=det(AO-冲證(A0)2,其中det(N)为矩阵的行列式值,trace(N)为矩阵N的迹,k为0.04,按R值对图像中的象素点进行降序排序,构成一个数列,确定一个所需特征点个数F,然后取数列中前F个象素点为特征点,特征点的位置信息组成特征点的一个向量。步骤12、对数据库中的文本数据进行特征提取;对文本进行分词和词性标注,去掉其中的虚词,剩余的词记为w"w"…'W";计算每个词l在文本中词频,记为Pi,以词为维度,得到一个向量(A,A,,P")。其中所述步骤3所述的权值向量表明对数据的重视程度,权值向量W计算如下p2p"-)-(W,w2,...,w)S2,Z"Z只£a步骤3的相似度的计算步骤如下步骤31、设d和C2是两个案件,其对应的向量为(Vl,v2,...,vn)和(Sl,...,Sn),则d和C2之间的相似度按照如下公式计算w,o,.v)v,Vv,L/t步骤32、计算数据库中所有案件之间的相似度,得到相似度矩阵设数据库中有Q,C2,…,Cm个案件,经过步骤3,每个案件被表示为一个n维向量。因此,由步骤31,计算任意两个案件的相似度,得到相似度矩阵如下<formula>formulaseeoriginaldocumentpage9</formula>步骤33、指定阈值K,根据K和相似度矩阵,对任意案件Ci,按照如下公式计算案件Ci的领域N(Ci),<formula>formulaseeoriginaldocumentpage9</formula>步骤34、对数据库中的每个案件,计算其领域,得到领域粗糙集系统l如下<formula>formulaseeoriginaldocumentpage9</formula>其中所述步骤4所述的对多维向量进行维度约简的步骤如下步骤41:设数据库中的案件有n个分量,让F二U,2,…,n},设d和C2是两个案件,其对应的向量为(Vl,v2,...,vn)和(Sl,s2,...,sn),从F中去掉任意一个分量i,让F二F—Uh去掉后再计算两个案件的相似性,其公式如下<formula>formulaseeoriginaldocumentpage9</formula>步骤42:根据步骤41计算的相似性,采用步骤33、34获得一领域粗糙集系统2如下<formula>formulaseeoriginaldocumentpage9</formula>对领域粗糙集系统NS和A^,定义<formula>formulaseeoriginaldocumentpage9</formula>L描述了领域粗糙集系统NS和A^'之间的差异程度,其值越大,差异越小,如果L小于某指定的阈值,让F二FuUh即不能去掉分量i,否则去掉分量i;步骤43:重复步骤41和步骤42,直到F中不能再去掉分量为止,得到约简后的多维向量F。其中所述步骤5所述的待分析案件与数据库的数据相似度分析步骤如下步骤51、对指定的案件Cp,在约简后的向量F上,计算Cp与数据库中每个案件的相似度,得到相似度向量如下(S(Cp,Q,S(Cp,C2),,..,S(Cp,CJ),步骤52、计算Cp的领域如下jv(c》=(。is(Cp,c》sosu,2,…,附n,其中领域W^)中的案件为与案件Cp串并案件。在所述步骤ll之前,采用以下步骤对图像进行预处理步骤IO、对图像中的特定区域如足迹进行数据采集;歩骤IOI、确定照片中足迹区域,包括足迹的前沿点和后跟点;步骤102、将足迹前沿点与后跟点连接为一条线段,取该线段的中点为原点,该线段设为y轴,其垂直的直线为X轴,建立区域坐标系,并计算区域中每个象素点在此坐标系中的位置。本发明通过从数据库中的图像和文本中提取有用特征向量,并将用户的知识映射为一种权值向量,结合该权值向量,使用粗糙集理论,对向量的各分量进行动态约简和选择,然后在约简后的向量上面进行相似度计算来实现案件的串并案分析。本发明对连续数据和离散符号数据进行统一处理和计算,定义一种运算公式,避免多维向量中包含连续数据,约简时无法计算正区域,或需要将连续数据离散化后再计算正区域,造成大量有用信息丢失的弊端;采用本发明能结合分析人员的经验和知识交互式地进行灵活、柔性的检索和比对,为破案人员提供了更准确的串并案的信息,提高了破案效率。图l是本发明的流程图。具体实施例方式下面结合附图对本发明作进一步详细的描述进行分析和检索的数据库中包含每个刑事案件的数据信息,该信息包括也包含对已有案件进行串并案分析结果,对并案在一起的案件进行标识。步骤1:采用如下步骤分别对数据库中每一个案件的图像数据和文本数据进行特征提取;步骤10:图像中有足迹照片需要在提取特征前进行预处理;步骤101:确定照片中足迹区域以及足迹的前沿点和后跟点;步骤102:将足迹前沿点与后跟点连接为一条线段,取该线段的中点为原点,该线段设为y轴,其垂直的直线为X轴,建立区域坐标系,并计算区域中每个象素点在此坐标系中的位置。步骤ll:对图像区域按以下步骤进行特征点提取,其提取方法如下计算图像中每个象素的平均梯度平方矩阵如下<formula>formulaseeoriginaldocumentpage11</formula>其中IU,y)为图像中位置(x,y)处的灰度值。如果某点对应的平均梯度平方矩阵的两个特征值较大,那么该点附近的有较大的灰度级变化,这就说明该点是一个特征点,特征点响应函数为<formula>formulaseeoriginaldocumentpage11</formula>det(N)为矩阵的行列式值,trace(N)为矩阵N的迹,k一般为0.04。按R值对图像中的象素点进行降序排序,构成一个数列,确定一个所需特征点个数F,然后取数列中前F个象素点为特征点,特征点的位置信息组成特征点的一个向量。步骤12:对数据库中的文本数据如作案方式、作案工具、作案人数、作案人员形貌特征、现场遗留的痕迹、足迹长短等描述信息的数据进行特征提取;对文本进行分词和词性标注,去掉其中的虚词,剩余的词记为W^,…,w;计算每个词Wi在文本中词频,记p"以词为维度,得到一个向量(A'A'…'P")。步骤2:将提取的数据库中每个案件的图像和文本特征表示为属性一属性值对形式,如图像中的特征点位置被看作是属性,而特征点的象素值被看作是该属性上的值,文本数据中词被看作是属性,而该词在文本中的频率被看作是该属性上的值,案件中已有的离散数据和连续数据也可以被组织为属性一属性值的形式,如用于特定描述的文本可以包括作案工具,其属性值可以包括刀、枪;可以为作案人数,其属性值为离散数据;可以为现场足迹的长度,其属性值为连续数据。设数据库中有m个案件,则数据库中的案件被组织成为如下形式的信息表:<table>tableseeoriginaldocumentpage12</column></row><table>其中,d,C2,,Cm表示案件,APA2,...,An表示n个属性,vu,vi2,...,Vin表示案件Q在分别在属性A,,A2,...入上的值,这样,表中的每行就是一个案件的数据向量。每个案件Ci都被表示为一个n维向量(v,vi2,...,vin),向量中既包含连续数字数据,也包含离散符号数据,设v,s是来自同一属性的属性值,定义如下运算「ra如果v,s是数字1如果v,s是符号,且v-s0如果v,s是符号,且v^s如一个足迹长度的属性值v为19.85cm,一个足迹长度的属性值s为19.80cm,均为连续数据,将这两个属性值定义为^=19.80*19.85;如一个作案工具的属性值v是刀,一个作案工具的属性值s是枪,v#s,如作案人员的属性值v的人数为3个,作案人员的属性值s的人数为3个,v=s,贝""=1步骤3:对案件的每一维向量赋予权值;计算数据库案件之间的相似度,得到相似度矩阵;指定阈值,计算每个案件的领域,得到数据库的领域粗糙集系统l;步骤31:分析人员结合经验知识和分析方式对案件的每一维向量如足迹照片,作案方式赋予权值,由于每个案件的n维向量都来自足迹照片、作案方式等数据。使用该权值可以给n维向量的每个分量赋予权值,n维向量每个分量的权值和向量的权值相同。其方法是如果n维向量中某些分量都来自同一数据,如都来自足迹照片,则这些分量都被赋予足迹照片的权值。这样,n维向量中的每个分量都具有一个权值,记此权值向量为步骤32:权值向量表明对数据的重视程度,分析人员通过调节权值向量来得到分析侧重点。例如,如果仅使用足迹照片进行串并案分析,则可以将足迹照片的权值设置l,而其他数据的权值设置为0。将权值向量P规范化,得到规范化的权值向量W如下<formula>formulaseeoriginaldocumentpage13</formula>步骤33:设d和C2是两个案件,其对应的向量为(Vl,V2,...,Vn)和(Sl,S2,...,Sn),则C1和C2之间的相似度按照如下公式计算<formula>formulaseeoriginaldocumentpage13</formula>步骤34、计算数据库中所有案件之间的相似度,得到相似度矩阵设数据库中有C,,C2,…,Cm个案件,经过步骤2,每个案件被表示为一个n维向量。因此,由步骤33,计算任意两个案件的相似度,得到相似度矩阵如下-<formula>formulaseeoriginaldocumentpage13</formula>步骤35:指定阈值K,根据K和相似度矩阵,对任意案件Q,按照如下公式计算案件Ci的领域N(Ci),<formula>formulaseeoriginaldocumentpage13</formula>步骤36:对数据库中的每个案件,计算其领域,这样就得到领域粗糙集系统1如下<formula>formulaseeoriginaldocumentpage13</formula>.步骤4:对每个案件的多维向量采用自上而下的约简方法,进行维度约简;具体步骤如下步骤41:设数据库中的案件有n个分量,让F-U,2,…,n},设d和C2是两个案件,其对应的向量为(Vl,V2,...,Vn)和(Sl,S2,...,Sn),从F中让F二F—U),去掉后再计算两个案件的相似性,其公式SM''(V'"')V''eFV^e/7,按步骤41中的相似性,根据步骤35、36再次获得一领域粗糙集jv*(c2),...,at'(c附》。对领域粗糙集系统NS和aw'比较其差异,定义—2"击l,lliV'(C,)l,L描述了领域粗糙集系统NS和aw'之间的差异程度,其值越大,差异越小。当L小于某指定的阈值,让F-RjUI,即不能去掉分量i,否则去掉分量i。步骤44:重复步骤41-43,直到F中不能再去掉分量为止。得到约简后的多维向量F。步骤5:计算待分析的案件与向量约简后的数据库每个案件的相似度,找出数据库中和其有关联的串并案件。步骤51:对指定的案件Cp,在约简后的向量F上,计算Cp与数据库中每个案件的相似度,得到相似度向量如下(S(Cp,C,),S(Cp,C2),...,S(Cp,C附)),步骤52:计算CP的领域如下7v(C》={C,IS(Cp,《,/e{1,2,...,附}},其中领域w(q)中的案件为与案件Cp串并案件。步骤6:如果分析人员对步骤5中的结果不满意,则重新输入权值向量和阈值K,重复步骤3至步骤5,又得到新的串并案件结果,直到分析人员满意为止。本发明通过从数据库中的图像和文本中提取有用特征向量,并将用户的知识映射为一种权值向量,结合该权值向量,使用粗糙集理论,对向量的各分量进行动态约简和选择,然后在约简后的向量上面进行相似度计算来实现案件的串并案分析。本发明对连续数据和离散符号数据进行统一处理和计算,定义一种运算公式,避免多维向量中包含连续数据,约简时无法计算正区域,或需要去掉任意一个分量i,如下步骤42:系统2如下步骤43:将连续数据离散化后再计算正区域,造成大量有用信息丢失的弊端;采用本发明能结合分析人员的经验和知识交互式地进行灵活、柔性的检索和比对,为破案人员提供了更准确的串并案的信息,提高了破案效率。权利要求1、一种刑事案件的串并案智能分析方法,其特征在于,包括如下步骤步骤1、分别对数据库中每一个案件的图像数据和文本数据进行特征提取;步骤2、将提取的数据库中每个案件的图像和文本特征表示为案件的一个向量,从每个案件中所提取的特征组成每个案件的多维向量;步骤3、对案件的每一维向量赋予权值;计算数据库案件之间的相似度,得到相似度矩阵;指定阈值,计算每个案件的领域,得到数据库的领域粗糙集系统1;步骤4、对每个案件的多维向量进行维度约简;去掉案件多维向量中其中一个分量;重复上述步骤3,计算数据库中案件之间的相似度,得到数据库的领域粗糙集系统2;比较步骤3获得的数据库的领域粗糙集系统1与约简后去掉任意一个分量得到数据库的领域粗糙集系统2,如果二者差异显著,不能去掉该分量,否则去掉该分量;重复本步骤的以上内容,直到不能再去掉分量为止;步骤5、计算待分析的案件与向量约简后的数据库每个案件的相似度,找出数据库中和其有关联的串并案件;步骤6、如果对步骤5的分析结果不满意,则重新调整步骤3对每一维向量赋予的权值和阈值,重复步骤3至步骤5,获得新的串并案件结果。2、根据权利要求1所述的刑事案件的串并案智能分析方法,其特征在于,其中所述步骤2将提取的数据库中每个案件的每个特征被表示为如下表的属性—属性值对形式,每一个案件的每一个属性对应的属性值即为其的一维向量,所有的属性即组成了每一个案件的多维向量属性属性值图像中的特征点位置特征点的象素值文本数据中的词词在文本中的频率用于特定描述的文本离散数据用于特定描述的数字连续数据3、根据权利要求2所述的刑事案件的串并案智能分析方法,其特征在于,每个案件Ci都被表示为一个n维向量(Vil,vi2,...,vin),向量中既包含连续数字数据,也包含离散符号数据,设v,s是来自同一属性的属性值,定义如下vs如果v,s是数字v"='l如果v,S是符号,且v-s0如果v,s是符号,且v^s4、根据权利要求1、2或3所述的刑事案件的串并案智能分析方法,其特征在于,其中所述步骤l采用如下步骤提取特征-步骤ll、计算图像中每个象素的平均梯度平方矩阵雖力=<formula>formulaseeoriginaldocumentpage3</formula>豈里其中I(x,y)为图像中位置(x,y)处的灰度值,当该点对应的平均梯度平方矩阵的两个特征值较大,该点为一个特征点,特征点响应函数为<formula>formulaseeoriginaldocumentpage3</formula>,其中det(N)为矩阵的行列式值,trace(N)为矩阵N的迹,k为0.04,按R值对图像中的象素点进行降序排序,构成一个数列,确定一个所需特征点个数F,然后取数列中前F个象素点为特征点,特征点的位置信息组成特征点的一个向量。步骤12、对数据库中的文本数据进行特征提取;对文本进行分词和词性标注,去掉其中的虚词,剩余的词记为^,vv..,w;计算每个词Wi在文本中词频,记为Pi,以词为维度,得到一个向量(a,;v...,a)。5、根据权利要求4所述的刑事案件的串并案智能分析方法,其特征在于,其中所述步骤3采用如下步骤计算权值步骤31、多维向量的每个分量的权值和向量的权值相同,权值向量记为<formula>formulaseeoriginaldocumentpage3</formula>步骤32、权值向量W计算公式如下<formula>formulaseeoriginaldocumentpage3</formula>6、根据权利要求5所述的刑事案件的串并案智能分析方法,其特征在于,步骤3的相似度的计算步骤如下步骤33、设Q和C2是两个案件,其对应的向量为(Vl,v2,...,vn)和(Sl,S2,...,Sn),则d和C2之间的相似度按照如下公式计算<formula>formulaseeoriginaldocumentpage4</formula>步骤34、计算数据库中所有案件之间的相似度,得到相似度矩阵设数据库中有Q,C2,…,Cm个案件,经过步骤2,每个案件被表示为一个n维向量。由步骤33,计算任意两个案件的相似度,得到相似度矩阵如下<formula>formulaseeoriginaldocumentpage4</formula>步骤35、指定阈值K,根据K和相似度矩阵,对任意案件Ci,按照如下公式计算案件Ci的领域N(Ci),<formula>formulaseeoriginaldocumentpage4</formula>步骤36、对数据库中的每个案件,计算其领域,得到领域粗糙集系统l如下<formula>formulaseeoriginaldocumentpage4</formula>7、根据权利要求1所述的刑事案件的串并案智能分析方法,其特征在于,其中所述步骤4所述的对多维向量进行维度约简的步骤如下步骤41:设数据库中的案件有n个分量,让F二U,2,…,n},设d和C2是两个案件,其对应的向量为(Vpv2,...,vn)和(Sl,s2,...,sn),从F中去掉任意一个分量i,让F^F—Uh去掉后再计算两个案件的相似性,其公式如下<formula>formulaseeoriginaldocumentpage4</formula>步骤42:根据步骤41计算的相似性,采用步骤35、36获得一领域粗糙集系统2如下<formula>formulaseeoriginaldocumentpage4</formula><formula>formulaseeoriginaldocumentpage5</formula>步骤43、对领域粗糙集系统NS和AW'比较其差异,定义<formula>formulaseeoriginaldocumentpage5</formula>L描述了领域粗糙集系统NS和AW'之间的差异程度,其值越大,差异越小,当L小于指定的阈值,让F二FuUh即不能去掉分量i,否则去掉分量i;步骤44:重复步骤41-43,直到F中不能再去掉分量为止,得到约简后的多维向量F。8、根据权利要求1所述的刑事案件的串并案智能分析方法,其特征在于,其中所述步骤5所述的待分析案件与数据库的数据相似度分析步骤如下步骤51、对指定的案件Cp,在约简后的向量F上,计算Cp与数据库中每个案件的相似度,得到相似度向量如下<formula>formulaseeoriginaldocumentpage5</formula>步骤52、计算Cp的领域如下<formula>formulaseeoriginaldocumentpage5</formula>其中领域^(^)中的案件为与案件Cp串并案件。9、根据权利要求4所述的刑事案件的串并案智能分析方法,其特征在于,在所述步骤ll之前,采用以下步骤对图像进行预处理步骤IO、对图像中的特定区域进行数据采集。10、根据权利要求9所述的刑事案件的串并案智能分析方法,其特征在于,所述图像为足迹,其预处理步骤如下步骤IOI、确定照片中足迹区域,包括足迹的前沿点和后跟点;步骤102、将足迹前沿点与后跟点连接为一条线段,取该线段的中点为原点,该线段设为y轴,其垂直的直线为x轴,建立区域坐标系,并计算区域中每个象素点在此坐标系中的位置。全文摘要本发明提供了一种对刑事案件串并案的文本和图像进行准确、高效检索的智能分析方法,它包括提取数据库的图像和文本的数据信息,形成每个案件的多维向量特征;对连续数据和离散符号数据定义一种运算公式进行统一处理和计算;对多维向量赋予不同的权值;采用粗糙集约简技术,再对每个案件的多维向量特征进行维度约简;计算待分析的案件与向量约简后的数据库每个案件的相似度,找出数据库中和待分析案件有关联的串并案件;采用本发明能结合分析人员的经验和知识交互式地进行灵活、柔性的检索和比对,为破案人员提供了更准确的串并案的信息,提高了破案效率。文档编号G06F17/30GK101187927SQ20071005085公开日2008年5月28日申请日期2007年12月17日优先权日2007年12月17日发明者何明耘,刘启和,张建中,帆闵,陈雷霆申请人:电子科技大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1