本发明属于机器学习领域,尤其涉及一种基于决策树的司法案件判决结果预测方法。
背景技术:
1、随着法制体系的完善,人们法律意识的逐日提高,对司法的需求也日益增长,使得法院立案案件数量呈倍数逐年增长,但由于从事法官工作对专业素养的要求极高,法官人才的培养速度远远跟不上案件处理的实际需求,因此法院常常面临着现有的法官所需处理的工作量负荷过大的情况,这使得法官在单个实际案子中可投入的时间和精力大大减小,但实际在进行判案时法官又需要参考大量的相关资料进行比对度量,在时间精力极其有限的情况下,可能导致法官判案的出错率上升。另外,现有基于决策树的司法案件判决结果预测方法不能准确判断案件类型;导致案件在前期立案采取强制措施时,经常会出现定性不准,法律适用错误等问题。因此,需要一种可以帮助法官进行减轻工作负荷,降低判案出错率的方法。
2、通过上述分析,现有技术存在的问题及缺陷为:
3、(1)现有的法官所需处理的工作量负荷过大的情况,这使得法官在单个实际案子中可投入的时间和精力大大减小,但实际在进行判案时法官又需要参考大量的相关资料进行比对度量,在时间精力极其有限的情况下,可能导致法官判案的出错率上升。
4、(2)现有基于决策树的司法案件判决结果预测方法不能准确判断案件类型;导致案件在前期立案采取强制措施时,经常会出现定性不准,法律适用错误等问题。
技术实现思路
1、针对现有技术存在的问题,本发明提供了一种基于决策树的司法案件判决结果预测方法。
2、本发明是这样实现的,一种基于决策树的司法案件判决结果预测方法,其特征在于,该方法具体包括:
3、s1:利用数据采集模块对案件事实描述文本信息进行采集,并进行错别字检查、语法核对、词语相关性分析,得到每一份案件事实对应的词语列表;并对案件类型进行识别;
4、s2:利用特征确定模块,从所述数据采集模块采集到的词语列表,经过百分之三十的词语抽取,随机组合后确定具有深层语义表示的原始特征,并通过kpca主成分分析法对词语列表的多维特征进行降维,得到具有深层语义表示的的主成分特征;
5、s3:利用特征调整模块对所述原始特征利用梯度提升决策树算法进行训练得到对应的组合特征或者重构新特征,且与提取的主成分特征进行对比,若两种特征呈现高度相关,则可将重构特征或组合特征输入模型训练模块,否则不断调整组合特征或重构特征的排列组合方式,直至与主成分特征呈现高度相关性;
6、s4:利用模型训练模块对原始特征向量、组合特征或者重构新特征和每一份案件事实对应的判决结果对模型进行训练,得到相关判决结果预测模型,并利用非训练数据对相关判决结果预测模型进行测试,测试结果正确后才可以使用模型,否则调整模型训练参数继续训练;
7、s5:利用结果预测模块,对一份任意给出的案件事实描述文本经过抽取,确定具有深层语义表示的原始特征,利用特征调整模块对所述原始特征利用梯度提升决策树算法进行训练得到对应的组合特征或者重构新特征,将该原始特征向量、组合特征或者重构新特征分别输入到判决结果预测模型,就能预测该案件事实描述文本对应的判决结果;
8、所述对案件类型进行识别方法:
9、构建司法案件数据库,获取司法案件的相关多媒体数据;将获取的相关多媒体数据存入司法案件数据库中;
10、将所述司法案件的相关多媒体数据输入神经网络模型组,以得到对所述司法案件的类型的定性分析结果,所述神经网络模型组包括现场情况检测模型和案件性质识别模型;
11、所述司法案件的类型的定性分析结果包括:多个罪名类型和多个概率值,其中,每个罪名类型对应一个概率值,所述多个罪名类型包括第一罪名类型,所述第一罪名类型对应第一概率值,所述第一概率值用于指示将所述司法案件定性为所述第一罪名类型的概率;
12、将所述司法案件的相关多媒体数据输入神经网络模型组,以得到对所述司法案件的类型的定性分析结果,包括:
13、利用所述现场情况检测模型对所述司法案件的相关多媒体数据进行检测,以得到检测结果,所述检测结果包括以下至少一项:人物检测结果、行为检测结果、场景检测结果或事件检测结果;
14、将所述司法案件的相关多媒体数据输入神经网络模型组,以得到对所述司法案件的类型的定性分析结果,还包括:
15、利用所述案件性质识别模型对所述司法案件的相关多媒体数据和所述检测结果进行识别,以得到识别结果,所述识别结果包括以下至少一项:人物信息识别结果、人物关系识别结果、伤害程度识别结果或造成影响识别结果;
16、所述神经网络模型组还包括案件定性模型,
17、将所述司法案件的相关多媒体数据输入神经网络模型组,以得到对所述司法案件的类型的定性分析结果,包括:
18、利用所述案件定性模型,根据所述识别结果对司法案件进行分类,以得到对所述司法案件的类型的定性分析结果;
19、所述识别结果包括所述造成影响识别结果,所述案件定性模型包括案件起因定性模型和案件性质定性模型,
20、利用所述案件定性模型,根据所述识别结果对司法案件进行分类,以得到对所述司法案件的定性分析结果,包括:
21、利用所述案件起因定性模型,根据所述识别结果对所述司法案件的起因进行定性,以得到司法案件的起因数据;
22、利用所述案件性质定性模型,根据所述造成影响识别结果和所述司法案件的起因数据对司法案件进行分类,以得到对所述司法案件的定性分析结果。
23、进一步,所述初始数据包括案件事实描述文本信息,该文本信息对应的的判决结果。
24、进一步,所述数据预处理模块中的预处理具体包括如下内容:
25、(1)将案情事实描述文本信息通过现有的分词工具拆分成词语列表;
26、
27、其中,texti是第i份案件事实描述文本,wij是第i案件事实描述文本分词得到的第j个词,mi是第i案件事实描述文本分词得到的得到的词语总数;
28、(2)将文本中与语义无关的词语从词语列表中删除,得到新的词语列表;
29、(3)使用条件随机场和长短期记忆网络进行命名实体识别,得到文本中的时间、组织、人名,并分别用time、org、person替换。
30、进一步,所述s3具体包括包括:
31、(1)对所述原始特征采用分类回归树算法,生成原始决策树;
32、(2)将所述原始决策树放入决策树模型中,并将所述原始决策树作为当前决策树;
33、(3)基于所述数字化样本集,计算所述当前决策树的残差向量;
34、(4)依据所述残差向量拟合新的决策树,并将该新的决策树放入所述决策树模型中;
35、(5)若所述决策树模型中决策树的总数低于预设阈值,则将所述新的决策树作为所述当前决策树,返回所述基于所述原始特征,计算所述当前决策树的残差向量的步骤继续执行;若所述决策树模型中决策树的总数达到预设阈值,则停止拟合新的决策树;
36、(6)将所述决策树模型中每棵决策树的路径包含的特征作为组合特征或者重构新特征。
37、进一步,所述s4具体包括:根据特征的分布特性、相关特性以及重要性从多个特征中提取适合表征单具有深层语义表示的特征参数集来训练案件判决预测模型。
38、进一步,所述s2中通过kpca主成分分析法对案件数据集的多维特征进行降维具体如下:
39、(1)对案件数据集的数据进行标准化处理:
40、
41、其中,即样本均值;
42、(2)计算信道矩阵的协方差矩阵c:
43、
44、(3)奇异值分解方法求协方差矩阵c的特征值和特征向量:c=uσvt;u为aat的单位化的特征向量,σ为aat或ata的特征值的平方根,除对角线外,其他元素都是0,对角线上的元素称为奇异值,vt:v的转置矩阵,v为ata的单位化的特征向量;
45、(4)对σ确定的特征值进行排序,确定最大的k个特征值在矩阵中的位置,在u中找到对应位置的特征向量,将特征向量组成一组新的向量基。
46、进一步,所述该案件事实描述文本对应的判决结果具体罪名为罚金。
47、本发明另一目的在于提供一种应用所述的基于决策树的司法案件判决结果预测方法的基于决策树的司法案件判决结果预测系统,该系统具体包括:
48、数据采集模块,与特征确定模块连接,用于对案件事实描述文本信息进行采集,并进行错别字检查、语法核对、词语相关性分析,得到每一份案件事实对应的词语列表;并对案件类型进行识别;
49、特征确定模块,与数据采集模块连接,用于从所述数据采集模块采集到的词语列表,经过百分之三十的词语抽取,随机组合后确定具有深层语义表示的原始特征,并通过kpca主成分分析法对词语列表的多维特征进行降维,得到具有深层语义表示的主成分特征;
50、特征调整模块,与特征确定模块连接,对所述原始特征利用梯度提升决策树算法进行训练得到对应的组合特征或者重构新特征,且与提取的主成分特征进行对比,若两种特征呈现高度相关,则可将重构特征或组合特征输入模型训练模块,否则不断调整组合特征或重构特征的排列组合方式,直至与主成分特征呈现高度相关性;
51、模型训练模块,与特征调整模块连接,对使用原始特征向量、组合特征或者重构新特征和每一份案件事实对应的判决结果对模型进行训练,得到相关判决结果预测模型,并利用非训练数据对相关判决结果预测模型进行测试,测试结果正确后才可以使用模型,否则调整模型训练参数继续训练;
52、结果预测模块,与模型训练模块连接,对一份任意给出的案件事实描述文本经过抽取,确定具有深层语义表示的原始特征,利用特征调整模块对所述原始特征利用梯度提升决策树算法进行训练得到对应的组合特征或者重构新特征,将该原始特征向量、组合特征或者重构新特征分别输入到判决结果预测模型,就能预测该案件事实描述文本对应的判决结果。
53、本发明另一目的在于提供一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现所述的基于决策树的司法案件判决结果预测方法的步骤。
54、本发明另一目的在于提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现所述的基于决策树的司法案件判决结果预测方法的步骤。
55、结合上述的技术方案和解决的技术问题,请从以下几方面分析本发明所要保护的技术方案所具备的优点及积极效果为:
56、第一、针对上述现有技术存在的技术问题以及解决该问题的难度,紧密结合本发明的所要保护的技术方案以及研发过程中结果和数据等,详细、深刻地分析本发明技术方案如何解决的技术问题,解决问题之后带来的一些具备创造性的技术效果。具体描述如下:
57、本发明通过数据采集模块对案件事实描述文本信息进行采集,保证案件事实中的关键信息不被遗漏,通过错别字检查、语法核对、词语相关性分析可以保证采集的信息准确无误,精炼准确;本发明通过特征确定模块获取深层语义表示的主成分特征,保证提取到案件最关键的信息,从而快速对案件进行关键信息的了解,提高判决效率与准确率;通过特征调整模块保证所组合或者重构的特征与主成分特征保持高度相关,使得在训练判决结果预测模型时模型结果朝着正确的方向进展;通过训练判决结果预测模型学习发现案件事实描述与判决结果的关联,实现对任意给定案件事实描述文本的判决结果进行预测。
58、本发明通过对案件类型进行识别方法根据案件的相关多媒体数据和神经网络模型组的智能分析,输出案件的定性分析结果,为执法人员提供案件定性的指导意见,可以解决执法人员因法律知识和办案经验不足造成的定罪不当等问题。通过神经网络模型组的智能分析,可以提升案件定性的准确性,解决法制专家苦于频繁纠错的现状以及可能由于人为干预而造成的执法不公的现状。
59、第二,把技术方案看做一个整体或者从产品的角度,本发明所要保护的技术方案具备的技术效果和优点,具体描述如下:
60、本发明通过一种基于决策树的司法案件判决结果预测方法,可以有效帮助法官进行减轻工作负荷,降低判案出错率。