本发明涉及数据处理领域,特别是一种司法文件自动化处理系统。
背景技术:
1、在司法领域,大量的法律文件如判决书、裁定书、起诉书等需要被处理,这些文件往往具有高度的专业性和复杂性,且处理过程耗时耗力。传统的司法文件处理方式主要依赖于人工操作,这不仅需要耗费大量的人力资源,而且容易受到人为因素的影响,导致处理效率低下、错误率高。同时,随着法律案件数量的不断增加,传统的处理方式已经难以满足现代司法工作的需求。因此如何针对司法文件进行智能自动化处理成为法律行业亟待解决的问题。
技术实现思路
1、本发明的目的是为了解决上述问题,设计了一种司法文件自动化处理系统。
2、实现上述目的本发明的技术方案为,进一步,在上述一种司法文件自动化处理系统中,所述司法文件自动化处理系统包括以下模块:
3、司法数据处理模块,用于获取系统中的待处理司法文件,提取所述待处理司法文件中的文字信息后进行噪处理,得到初始司法文件数据;
4、司法数据分类模块,用于利用预训练的分类模型将所述初始司法文件数据进行分类,得到分类司法文件数据;
5、识别模型建立模块,用于基于rnn递归神经网络建立rnn司法文件识别模型,在所述rnn司法文件识别模型中添加稀疏自注意力机制,得到目标rnn司法文件识别模型;
6、司法文件识别模块,用于将所述分类司法文件数据输入至所述目标rnn司法文件识别模型中进行训练,得到司法文件分类结果;
7、文件判断存储模块,用于根据所述司法文件分类结果和法律条款进行匹配,得到法律匹配结果,并将所述法律匹配结果和所述待处理司法文件输入至对应的数据库中进行存储。
8、进一步,在上述司法文件自动化处理系统中,所述司法数据处理模块包括以下子模块:
9、获取子模块,用于基于司法系统数据库和文件服务器自动抓取新上传和标记为待处理状态的司法文件,得到司法文件数据;
10、识别子模块,用于对所述初始司法文件数据进行格式识别,若识别为文本格式数据,则对所述司法文件数据依次进行去除特殊符号、空白字符、标准化大小写、分词处理,得到第一司法文件数据;
11、处理子模块,用于若识别为非文本格式数据,则利用ocr光学字符识别技术将所述非文本格式数据转换为文本信息,并依次进行标准化大小写、分词处理,得到第二司法文件数据;
12、归一化子模块,用于对所述第一司法文件数据和所述第二司法文件数据进行归一化处理,得到初始司法文件数据。
13、进一步,在上述司法文件自动化处理系统中,其特征在于,所述司法数据分类模块包括以下子模块:
14、获取子模块,用于获取司法系统数据库中的历史司法文件数据,对历史司法文件数据进行数据预处理;
15、训练子模块,用于通过bert字词识别模型建立分类模型,将预处理后的历史司法文件数据对分类模型进行预训练;
16、分类子模块,用于利用预训练的分类模型将所述初始司法文件数据进行分类,得到分类司法文件数据;
17、类型子模块,用于确定所述分类司法文件数据至少包括起诉书、判决书、案件类型和争议焦点。
18、进一步,在上述司法文件自动化处理系统中,所述识别模型建立模块包括以下子模块:
19、建立子模块,用于基于rnn递归神经网络建立rnn司法文件识别模型,所述rnn司法文件识别模型包括词嵌入、1层编码器、1层解码器以及l i near&softmax层;
20、编码器子模块,用于所述编码器保留了标准transformer编码器的前馈网络模块,将多头自注意力更改为多头稀疏自注意力,并添加窗口rnn模块和缓存模块;
21、解码器子模块,用于解码器保留了标准transformer解码器的多头交叉注意力模块和前反馈模块,将多头自注意力更改为多头稀疏自注意力,并添加窗口rnn模块和缓存模块,得到目标rnn司法文件识别模型。
22、进一步,在上述司法文件自动化处理系统中,所述司法文件识别模块包括以下单元:
23、输入单元,用于将所述分类司法文件数据按固定长度分段并输入到编解码器,输出得到隐藏状态表示;
24、滑动单元,用于对文本的顺序信息进行压缩并作为窗口级的表示,随窗口的滑动,整合窗口级的表示转化为输入文本的全局表示;
25、矩阵单元,用于建立一个二进制的稀疏块矩阵,通过过滤出与稀疏块矩阵中值为1的位置对应的分数,忽略与稀疏块矩阵中值为0的位置对应的分数;
26、筛选单元,用于筛选得到对输出影响较大的令牌,最后使用归一化后的注意力分数来对输入文本中的令牌进行加权组合,得到司法文件分类结果。
27、进一步,在上述司法文件自动化处理系统中,所述文件判断存储模块包括以下单元:
28、匹配单元,用于根据司法文件分类结果,从法律数据库中筛选出相关的法律条款和判例,利用bm25等算法进行匹配。
29、整合单元,用于将匹配结果、原始司法文件的元数据、分类标签及处理日志进行整合,得到法律匹配结果。
30、存储单元,用于将所述法律匹配结果和所述待处理司法文件存储至数据库中,并提供ap i接口对数据库进行查询和存储。
31、进一步,在上述司法文件自动化处理系统中,实现所述一种司法文件自动化处理系统的方法,所述方法包括以下步骤:
32、获取系统中的待处理司法文件,提取所述待处理司法文件中的文字信息后进行噪处理,得到初始司法文件数据;
33、利用预训练的分类模型将所述初始司法文件数据进行分类,得到分类司法文件数据;
34、基于rnn递归神经网络建立rnn司法文件识别模型,在所述rnn司法文件识别模型中添加稀疏自注意力机制,得到目标rnn司法文件识别模型;
35、将所述分类司法文件数据输入至所述目标rnn司法文件识别模型中进行训练,得到司法文件分类结果;
36、根据所述司法文件分类结果和法律条款进行匹配,得到法律匹配结果,并将所述法律匹配结果和所述待处理司法文件输入至对应的数据库中进行存储。
37、进一步,在上述司法文件自动化处理系统中,实现所述一种司法文件自动化处理系统的方法,所述方法包括以下步骤:
38、基于司法系统数据库和文件服务器自动抓取新上传和标记为待处理状态的司法文件,得到司法文件数据;
39、对所述初始司法文件数据进行格式识别,若识别为文本格式数据,则对所述司法文件数据依次进行去除特殊符号、空白字符、标准化大小写、分词处理,得到第一司法文件数据;
40、若识别为非文本格式数据,则利用ocr光学字符识别技术将所述非文本格式数据转换为文本信息,并依次进行标准化大小写、分词处理,得到第二司法文件数据
41、对所述第一司法文件数据和所述第二司法文件数据进行归一化处理,得到初始司法文件数据。
42、进一步,在上述司法文件自动化处理系统中,实现所述一种司法文件自动化处理系统的方法,所述方法包括以下步骤:
43、获取司法系统数据库中的历史司法文件数据,对历史司法文件数据进行数据预处理;
44、通过bert字词识别模型建立分类模型,将预处理后的历史司法文件数据对分类模型进行预训练;
45、利用预训练的分类模型将所述初始司法文件数据进行分类,得到分类司法文件数据;
46、确定所述分类司法文件数据至少包括起诉书、判决书、案件类型和争议焦点。
47、其有益效果在于,通过获取系统中的待处理司法文件,提取所述待处理司法文件中的文字信息后进行噪处理,得到初始司法文件数据;利用预训练的分类模型将所述初始司法文件数据进行分类,得到分类司法文件数据;基于rnn递归神经网络建立rnn司法文件识别模型,在所述rnn司法文件识别模型中添加稀疏自注意力机制,得到目标rnn司法文件识别模型;将所述分类司法文件数据输入至所述目标rnn司法文件识别模型中进行训练,得到司法文件分类结果;根据所述司法文件分类结果和法律条款进行匹配,得到法律匹配结果,并将所述法律匹配结果和所述待处理司法文件输入至对应的数据库中进行存储。可以自动化处理可以大大减少人工操作的时间和成本,提高司法工作的效率。降低错误率:人工智能自动化处理可以减少人为因素的影响,降低错误率,提高处理结果的准确性。标准化和规范化:自动化处理可以根据预设的规则和标准进行操作,实现司法文件的标准化和规范化处理。可追溯性和可审计性:人工智能自动化处理可以记录处理过程中的每一步操作和结果,实现处理过程的可追溯性和可审计性。