一种基于改进卷积神经网络的裁判文书行业分类方法与流程

文档序号：19830605发布日期：2020-02-04 12:23阅读：来源：国知局

技术特征：

1.一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于包含以下步骤：

步骤(1)从法院文书数据库中获取裁判文书8413篇；

步骤(2)定义原始文书涉及行业；

步骤(3)人工标注原始文书涉及行业并筛除无效数据；

步骤(4)文书数据预处理；

步骤(5)分层抽样划分训练集、验证集与测试集；

步骤(6)创建字符与词语字典；

步骤(7)构建与训练改进卷积神经网络分类器；

步骤(8)输入相关裁判文书，预测文书涉及行业。

2.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(1)中从法院文书数据库中获取裁判文书8413篇，这些文书属于产品质量公开民事文书。

3.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(2)中定义原始产品质量民事文书涉及行业，包括机械制造行业、五金建材行业、农林牧渔行业、化工行业、电子通讯行业、文体生活用品行业、农副食品行业、纺织服饰行业、家电行业、食品药品行业、交通运输行业、酒水饮料茶奶行业、其他行业，共13个类别。

4.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(3)中人工标注原始文书涉及行业并筛除无效数据，标注工作由多人共同进行，采用投票法确定类别。对于文书重复的无效数据，剔除处理。

5.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(4)中文书数据预处理。具体子步骤包括：

步骤(4.1)结构化文书数据，将文书全文转化为xml形式；

步骤(4.2)根据正则表达式提取原告诉称段文本；

步骤(4.3)数据清理，去除原告诉称内容中法律、时间相关文本以及车牌、特殊字符等无效信息；

步骤(4.4)计算数据长度分布，确定文本序列长度上下限；

步骤(4.5)限制并统一文本长度，将用户需求文本长度限制在50-1500个字符以内，字符超过1500时简单截断文本，字符不到1500时添加填充字符，字符少于50时剔除数据。

6.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(5)中分层抽样划分训练集、验证集与测试集，数据随机打乱后根据分层采样思想并按照14∶3∶3的比例提取训练集、验证集用于模型训练，测试集用于测试模型性能，测试集全程不参与训练。

7.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(6)中创建字符与词语字典。具体子步骤包括：

步骤(6.1)创建字符字典，筛除数字、字母以及特殊字符，按照在数据集中出现的频率从高到低(“<pad>与<unk>”字符除外)进行排序，建立字符在字典中的索引；

步骤(6.2)创建词语字典，筛除特殊字符，按照在数据集中出现的频率从高到低(“<pad>与<unk>”除外)进行排序，建立词语在字典中的索引；

步骤(6.3)加入填充标识<pad>与未登录标识<unk>，若一个字/词不属于其他任何字典中的标识，则将其转化为“<unk>”字符，对于长度不满1500个字符/800个词的文书原告诉称文本，利用填充标识“<pad>”进行填充。

8.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(7)中构建与训练改进卷积神经网络分类器。具体子步骤包括：

步骤(7.1)基于字符与词语的思想表示裁判文书文本，设定嵌入维度均为100维，词嵌入不采用与训练的词向量，而是采用一个全连接网络训练随机初始化词向量，权重与偏置由神经网络本身进行学习，作为词嵌入操作；

步骤(7.2)构建基于字符与词语的双通道组合卷积，需要定义双输入和单输出，输入分别是根据字符序列化的文本和根据词语序列化的文本；

步骤(7.3)针对双输入文本，分别进行卷积，卷积核采用从3-7的多类型卷积核；

步骤(7.4)采用k-max-mean池化方法，最大限度保留对分类最有利的特征，后将双输入文本分别提取出的特征进行拼接；

步骤(7.5)网络采用全relu激活，除了池化层之外的所有网络层均经过relu激活，卷积拼接后的特征接mlp，softmax进行分类预测。

9.根据权利要求1所述的一种基于改进卷积神经网络的裁判文书行业分类方法，其特征在于步骤(8)输入相关裁判文书，预测文书涉及行业。预测的效果采用总体准确度、精确率、召回率、f1分数四个指标进行评估。

完整全部详细技术资料下载

当前第2页1 2 3