一种基于改进卷积神经网络的裁判文书行业分类方法与流程

文档序号:19830605发布日期:2020-02-04 12:23阅读:来源:国知局

技术特征:

1.一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于包含以下步骤:

步骤(1)从法院文书数据库中获取裁判文书8413篇;

步骤(2)定义原始文书涉及行业;

步骤(3)人工标注原始文书涉及行业并筛除无效数据;

步骤(4)文书数据预处理;

步骤(5)分层抽样划分训练集、验证集与测试集;

步骤(6)创建字符与词语字典;

步骤(7)构建与训练改进卷积神经网络分类器;

步骤(8)输入相关裁判文书,预测文书涉及行业。

2.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(1)中从法院文书数据库中获取裁判文书8413篇,这些文书属于产品质量公开民事文书。

3.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(2)中定义原始产品质量民事文书涉及行业,包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业,共13个类别。

4.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(3)中人工标注原始文书涉及行业并筛除无效数据,标注工作由多人共同进行,采用投票法确定类别。对于文书重复的无效数据,剔除处理。

5.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(4)中文书数据预处理。具体子步骤包括:

步骤(4.1)结构化文书数据,将文书全文转化为xml形式;

步骤(4.2)根据正则表达式提取原告诉称段文本;

步骤(4.3)数据清理,去除原告诉称内容中法律、时间相关文本以及车牌、特殊字符等无效信息;

步骤(4.4)计算数据长度分布,确定文本序列长度上下限;

步骤(4.5)限制并统一文本长度,将用户需求文本长度限制在50-1500个字符以内,字符超过1500时简单截断文本,字符不到1500时添加填充字符,字符少于50时剔除数据。

6.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(5)中分层抽样划分训练集、验证集与测试集,数据随机打乱后根据分层采样思想并按照14∶3∶3的比例提取训练集、验证集用于模型训练,测试集用于测试模型性能,测试集全程不参与训练。

7.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(6)中创建字符与词语字典。具体子步骤包括:

步骤(6.1)创建字符字典,筛除数字、字母以及特殊字符,按照在数据集中出现的频率从高到低(“<pad>与<unk>”字符除外)进行排序,建立字符在字典中的索引;

步骤(6.2)创建词语字典,筛除特殊字符,按照在数据集中出现的频率从高到低(“<pad>与<unk>”除外)进行排序,建立词语在字典中的索引;

步骤(6.3)加入填充标识<pad>与未登录标识<unk>,若一个字/词不属于其他任何字典中的标识,则将其转化为“<unk>”字符,对于长度不满1500个字符/800个词的文书原告诉称文本,利用填充标识“<pad>”进行填充。

8.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(7)中构建与训练改进卷积神经网络分类器。具体子步骤包括:

步骤(7.1)基于字符与词语的思想表示裁判文书文本,设定嵌入维度均为100维,词嵌入不采用与训练的词向量,而是采用一个全连接网络训练随机初始化词向量,权重与偏置由神经网络本身进行学习,作为词嵌入操作;

步骤(7.2)构建基于字符与词语的双通道组合卷积,需要定义双输入和单输出,输入分别是根据字符序列化的文本和根据词语序列化的文本;

步骤(7.3)针对双输入文本,分别进行卷积,卷积核采用从3-7的多类型卷积核;

步骤(7.4)采用k-max-mean池化方法,最大限度保留对分类最有利的特征,后将双输入文本分别提取出的特征进行拼接;

步骤(7.5)网络采用全relu激活,除了池化层之外的所有网络层均经过relu激活,卷积拼接后的特征接mlp,softmax进行分类预测。

9.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法,其特征在于步骤(8)输入相关裁判文书,预测文书涉及行业。预测的效果采用总体准确度、精确率、召回率、f1分数四个指标进行评估。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1