一种基于图卷积神经网络的行政处罚文书的类案推荐方法

文档序号:28921865发布日期:2022-02-16 13:26阅读:211来源:国知局
一种基于图卷积神经网络的行政处罚文书的类案推荐方法

1.本发明涉及一种基于图卷积神经网络的行政处罚文书的类案推荐方法,属于深度学习和司法技术领域。


背景技术:

2.目前国内在行政执法领域存在案多人少、基层执法人员工作压力大、监督不到位的问题。人工智能技术与司法领域的深度融合,使司法智能化得到了不断的发展。司法智能化是提升执法监督效能、提升决策效率的重要手段。司法智能化是指在司法领域运用人工智能技术对案件内容、法律规则、判处结果等信息进行深层次学习,从而模拟和辅助司法从业人员进行判断并作出决策的过程,而类似案件推荐是司法智能化的主要研究内容之一。在司法领域,行政处罚文书作为行政执法行为的重要载体,一种合理且高效的行政处罚文书的类似案件推荐方法,就成了辅助司法从业人员在行政处罚文书辅助决策任务场景中进行决策的重要的技术手段。身处于大数据时代,行政处罚文书也越来越公开化、透明化,提出一种行政处罚文书的类案推荐的方法,能够减轻执法人员工作压力的同时,也可以进一步推进司法智能化和便民化。
3.近年来,在司法领域对于类案推荐方面取得了一些成果。2012年,关于甄别与判断类似案件的标准与方法,王利明等人提出了基本事实相似、法律关系相似、争议点相似、争议的法律问题相似4种判断要素。之后,张志铭等人提出基于案件事实的法律性质相似的判断要素,即案件的事实是否涉及相同的法律问题,是否属于同样法律性质的案件。通过设置规则性的判断标准来进行类案检索推荐,是目前国内常见的一种技术手段。此外,基于文本语义相似度与知识图谱的类案推荐也逐渐成为了研究热点。文本语义相似度计算进行类案推荐,一般通过对用户输入的文书内容进行要素抽取,根据案由缩小匹配范围,然后利用神经网络对文本进行矢量化计算,与案例库中的案例进行语义相似度计算并排序得到精准化的类案。2019年,华中科技大学王君泽等人对案情内容中不同词性类别的词项设置权重,对未登录词进行识别,对案情内容的数量表述相似度进行计算,减少了噪声信息,提高了匹配准确性。国内也有研究者通过知识图谱进行类案推荐,利用知识图谱构建与挖掘技术来实现对象级信息抽取,通过构建中文的知识图谱并依据法律领域知识库来构造法律对象的本体库,作为进一步的检索推荐的基础。
4.在相似行政处罚文书的推荐过程中,行政处罚文书的匹配是最为关键的一步。采用传统的文本匹配方法,首先要将中文文本向量化表示,之后再进行相似度的计算。近年来,随着深度学习在自然语言处理等领域的飞速发展,出现了越来越多基于深度学习的文本相似匹配方法,同样也带给行政处罚文书的类案推荐带来了新的机遇。2018年,王海亮在基于文本挖掘的法律咨询系统的文书推荐模块中,采用了word2vec的方法,在得到词的向量化表示的基础上,对文本使用两种基于 word2vec文档向量化方法进行表示,并将两个不同方法得到的文档表示串联作为最终的文档表达,从而完成法律文书的匹配与推荐。同年,徐浩广采用文书关键词抽取算法和中文文本相似度计算算法,来给执法人员推荐具有相似
案情的法律文书。2020年,程豪提出基于孪生bert的相似案例匹配模型,该模型主体框架采用孪生结构,以bert为文书编码网络,通过余弦相似度公式计算文书相似值,从而实现相似案例的匹配。但这些方法都存在一些缺点:第一,对于传统的文本匹配方法,如tf-idf、lda等来进行行政处罚文书的相似匹配,是仅仅考虑了词级别的相似度,而忽略了行政处罚文书自带的语义信息和结构信息。第二,采用word2vec方法进行行政处罚文书的相似度匹配,本质上是一个词聚类的方法,是词的静态的表征,同样没有将行政处罚文书的间隔较长的上下文信息进行有效的利用,即没有考虑全局信息。也就是说word2vec技术应用在行政处罚文书的匹配上是忽略了其中的结构和全局信息。第三,对于孪生bert的相似案例匹配,首先单个行政处罚文书的平均长度远远超过了普通的bert模型的最大训练文本长度(512),其次,由于行政处罚文书都具有半结构化的特点,而bert模型没有更好的充分利用行政处罚文书相对较为结构化的特点。
5.因此,如何能够在利用好行政处罚文书的半结构化的特点的同时,对单个长度超过512的行政处罚文书进行文本相似度匹配进而给执法人员推荐具有相似案情的推荐成了一大难题。


技术实现要素:

6.针对现有技术的不足,本发明提供一种基于图卷积神经网络的行政处罚文书的类案推荐方法。
7.发明概述:
8.本发明的目的是解决现有司法领域存在的行政处罚文书类案推荐效率低且准确率不高的问题,提供了一种基于图卷积的行政处罚文书的类案推荐方法,包括:数据集的爬取、整合和预处理、文书子图构建、字词的联合特征匹配向量提取、基于孪生bert的节点特征向量提取、基于图卷积 (gcn)的特征向量的聚合、分类获取最终的匹配结果、行政处罚文书的推荐。
9.通过爬取的方式获取并构建原始行政处罚文书数据集,之后为了避免标点符号和空格等无关因素的影响,使用简单的正则表达式和jieba分词对数据进行预处理来构建文书数据集。为了充分提取行政处罚文书中的语义和结构信息,对行政处罚文书进行子图构建,从而能够更好地利用行政处罚文书数据比较结构化的特点。为了充分挖掘文书中词与词之间的相似匹配向量,设计字词的联合特征匹配向量提取模块来获取更具鲁棒性的词向量的相似特征表示。同时,为了能够更好利用文书中的上下文关系和全局信息,采用孪生的bert模块来对全局信息进行提取。为了将匹配向量聚合为一对行政处罚文书的最终匹配向量采用基于图卷积(gcn)的聚合模块设计,来捕获多层次的特征信息。为了得到最终的相似度结果,将聚合后的特征向量通过一个分类器来计算两篇行政执法文书的匹配相似度。为了实现行政处罚文书的类案推荐,从相似库中找寻匹配分数靠前的行政处罚文书进行推荐。
10.术语解释:
11.1、jieba:jieba库是一款优秀的python第三方中文分词库,jieba支持三种分词模式:精确模式、全模式和搜索引擎模式。
12.2、类案推荐:在司法领域,对于一篇新的法律案例,与案例语料库中每个案例的相
似度进行对比计算得到最终相似度,根据最终相似度进行排序,得到案由、违法事实和处罚较为相似的案例语料库中的案件。
13.3、行政处罚文书:行政处罚决定书是行政管理机关针对当事人的违法行为,在经过调查取证掌握违法证据的基础上,制作的记载当事人违法事实、处罚理由、依据和决定等事项的具有法律强制力的书面法律文书。
14.4、图卷积(gcn):图卷积实际上跟cnn的作用一样,就是一个特征提取器,只不过它的对象是图数据,是利用其他结点的信息来推导该结点的信息。在半监督学习中,图卷积本质不是传播标签,而是在传播特征,图卷积将不知道标签的特征,传染到已知标签的特征节点上,利用已知标签节点的分类器推测其属性。
15.5、textrank,基于pagerank,用于为文本生成关键字和摘要。
16.本发明的技术方案如下:
17.一种基于图卷积神经网络的行政处罚文书的类案推荐方法,包括步骤如下:
18.a、数据集的爬取、整合和预处理
19.首先,爬取行政处罚决定书,提取其中的文本内容,构建行政处罚文书原始数据集;然后,从政处罚文书原始数据集中自然语言中剔除掉无关因素,最后,按照行政处罚文书的半结构化的形式进行重构,并生成新的行政处罚文书数据集;
20.b、文书子图构建
21.首先,进行初步的关键字子图构建,将提取的每个关键词当作一个节点,如果两个关键词在文本的同一个句子中出现过,就用边将这两个节点相连;再通过关键词检测与合并来减少关键字子图中节点的个数,并将其重构成新的子图;
22.然后,利用节点与行政处罚文书中每句话的tf-idf余弦相似值,将每个句子附加到与其相似度最大的节点上;
23.最后,利用每个节点上的附加的句子集的tf-idf相似度来更新两两节点之间边的权重,从而完成子图的构建;
24.c、字词的联合特征匹配向量提取
25.对步骤b获取的任意两个子图进行句子集合并,即:分别计算两个句子集之间基于字词的相似度,包括tf-idf余弦相似度、bm25余弦相似度、simhash相似度、jaccard相似度,串联得到基于字词的联合特征匹配向量;
26.d、基于孪生bert的节点特征向量提取
27.基于孪生bert的特征向量的提取模块包括结构完全相同且参数共享的两个bert模型;步骤 a获取的任意两篇行政处罚文书分别输入两个bert模型,得到编码向量表示,连接两个编码向量,得到基于孪生bert的节点特征向量;
28.e、基于图卷积(gcn)的特征向量的聚合
29.将构建的子图和子图中每个节点上连接的匹配向量,输入到多层gcn神经网络来捕获多层次的特征信息;
30.f、分类获取最终的匹配结果
31.取gcn的最后一层所有节点的隐藏向量的平均值,将最终gcn层中的隐藏表示合并为一个固定尺寸的图匹配向量,之后将得到的最终匹配向量,通过一个分类网络(如线性层+softmax)进行分类来获取最终的匹配相似度;
32.g、行政处罚文书的推荐
33.基于行政处罚文书中的处罚所依据的法条构建相似库,将输入的行政处罚文书与相似库中行政处罚文书进行如上类案匹配,最终选取分数靠前的行政处罚文书进行推荐给执法人员。
34.根据本发明优选的,步骤a中,数据集的爬取、整合和预处理,包括步骤如下:
35.a、从行政处罚文书网爬取获取各省的行政处罚决定书,并提取标签为html的文本内容,构建行政处罚文书原始数据集并保存为.csv文件;
36.b、首先,使用jieba分词工具来从自然语言中剔除掉无关因素;然后,选取大量文书共同拥有的特征字段若干个,通过基于规则的方法抽取这些特征字段;
37.最后,根据行政处罚文书的规范形式重构生成新的行政处罚文书数据集。
38.根据本发明优选的,步骤b中,文书子图构建,包括步骤如下:
39.c、关键词子图的构建:通过textrank算法提取出一个行政处罚文书的关键词,每个关键词当作一个节点,如果两个关键词在文本的同一个句子中出现过,就用边将这两个节点相连;
40.textrank算法的核心公式如公式(1)所示:
[0041][0042]
式(1)中,w
ji
表示两个节点之间的边连接具有不同的重要程度,d表示阻尼系数, i、j、k分别代表文本中句子i、句子j、句子k,vi为利用textrank算法构建的词图g

(v,e)的节点集合v的句子i对应的节点,in(vi)、out(vj)分别为节点vi的入度和vj的出度;ws(vi)和ws(vj)分别为节点vi和vj的rank值,即排序值;
[0043]
d、关键词检测与合并,重构关键字子图:将相近的关键词和同义词进行替换和合并;
[0044]
e、节点匹配句与边的更新,即:将一篇行政执法文书中的每个句子分配并附加到对应的节点上;首先,计算每个句子与每一个节点vi的tf-idf余弦相似值;
[0045]
然后,将每个句子附加到与其tf-idf余弦相似值最大的节点上;
[0046]
通过以上步骤,在重构的关键字子图上,每个节点上附带有一个或多个句子,关键字子图中两两节点之间的边权更新为附加在这两个节点上句子集之间的tf-idf余弦相似值,从而完成每篇行政执法文书的文书子图g(v,e)的构建,v表示文书子图的节点vi,e表示具有权重w
ij
的边 e
ij
=(vi,vj)的集合。
[0047]
进一步优选的,计算每个句子与每一个节点vi的tf-idf余弦相似值,计算方法如下:
[0048]
tf表示词频,就是某个单词在文档d中出现的频率,如式(2)所示;idf为逆文档频率,用来反应词的普遍程度,计算如式(3)所示:
[0049][0050][0051]
式(2)中,ct(w)为关键词wk在文档d中出现的次数,|d|为文档d中所有词的总数,
tf
wk,d
即为词wk在文档d中出现频率;
[0052]
式(3)中,nt为所有文档总数,i(wk,d)表示文档d是否包含关键词wk,若包含则其值赋为1,反之为0;
[0053]
关键词wk在文档d的tf-idf值tf-idf
wk,d
,计算如式(4)所示:
[0054]
tf-idf
wk,d
=tf
wk,d
*idf
wk (4)
[0055]
将生成两个句子使用tf-idf算法,找出关键词并生成各自的词频向量,再进行两个向量的余弦相似度,进而得到tf-idf余弦相似值,余弦向量计算方法如式(5)所示:
[0056][0057]
根据本发明优选的,所述步骤c,字词的联合特征匹配向量提取,包括步骤如下:
[0058]
对于文书子图g(v,e)中的节点vi,计算其上附加的分别来自文书a和文书b的句子集as(vi)和 bs(vi)的基于字面的联合相似度,包括tf-idf余弦相似度、bm25余弦相似度、simhash相似度、 jaccard相似度,串联得到基于字面的联合特征匹配向量stm。
[0059]
根据本发明优选的,bm25余弦相似度的计算公式如式(6)所示:
[0060][0061]
式(6)中,q表示query,在这里表示一个句子,qi表示根据q分词获得的词语,d∈文档, score(q,d)就是每个词语qi和d之间的相关性的加权和,wi为qi的权重,r(qi,d)表示qi和d的相关性得分,其计算公式如式(7)、式(8)所示:
[0062][0063][0064]
式(7)、式(8)中,fi是qi在d中出现的概率,k1,k2,b是根据经验设置的调节因子,k1∈[1.2,2],b =0.75,qfi为qi在q中出现的频率,dl为d的长度,avgdl为文本中所有d的平均长度。
[0065]
jaccard相似度是通过计算a、b两句话分别构成的字符集sena和senb的交集元素个数在sena 和senb的并集中所占的比例,即两句话相同字符个数与两句话中独有字符个数的比值,如式(9) 所示:
[0066][0067]
根据本发明优选的,所述步骤d,基于孪生bert的节点特征向量提取,
[0068]
是指:通过基于孪生bert的特征向量的提取模块提取节点特征向量;
[0069]
bert模型包括输入层、编码层、输出层,编码层包括12个transforemer模块,共计768个隐藏层,来对行政处罚文书进行编码表示,步骤a获取的任意两篇行政处罚文书分别输入两个bert 模型,得到编码向量表示,拼接这两个编码向量,得到基于孪生bert的节点特征向量sbm。
[0070]
根据本发明优选的,所述步骤e,基于图卷积神经网络的特征向量的聚合,包括:
[0071]
f、两匹配子图合并:在进行行政处罚文书的相似匹配时,行政处罚文书a和行政处
罚文书b 分别通过上述步骤a~e处理,其中,行政处罚文书a和行政处罚文书b构成一个行政处罚文书对,处理后得到两个构建的文书子图,对于这两个文书子图中的公共的节点,进行节点句子集的合并;并将合并后的子图依次进行步骤c、步骤d的处理,在合并后的子图中的每个节点vi上得到不同尺度的联合特征匹配向量stm(vi)和基于孪生bert的节点特征向量sbm(vi);
[0072]
g、图卷积的特征向量的聚合:
[0073]
将联合特征匹配向量stm(vi)和基于孪生bert的节点特征向量sbm(vi)进行连接操作,从而得到中每个节点的总特征向量xmi,如式(10)所示:
[0074]
xmi=(stm(vi),sbm(vi))(10)
[0075]
之后将子图g(v,e)和每个节点vi上附加的匹配向量xmi输入到多层gcn神经网络中,捕获多层次的特征信息;
[0076]
根据本发明优选的,gcn神经网络包括输入层、隐藏层;
[0077]
对于gcn神经网络,定义图的加权邻接矩阵为a∈rn×n,n为子图g(v,e)的节点个数;
[0078]aij
=w
ij
(11)
[0079]
式(11)中,w
ij
为vi与vj的权重系数,即两个节点上句子集之间的tf-idf相似度;a
ij
为邻接矩阵a的第i行,第j列的值;
[0080]
gcn神经网络的输入层如式(12)所示:
[0081]h(0)
=xm(12)
[0082]
式(12)中,xm={xm0,xm1,...,xm
i-2
,xm
i-1
,xmi},h
(l)
∈rn×m表示为第l隐藏层的输出向量;
[0083]
gcn神经网络第l隐藏层的输出向量表示如式(13)所示:
[0084][0085]
式(13)中,i为单位矩阵,w
(l)
是可训练的权重矩阵,δ为relu激活函数,为图g(v,e)的度矩阵,如下式(14)所示:
[0086][0087]
根据本发明优选的,所述步骤f,分类获取最终的匹配结果,包括:
[0088]
h、取多层gcn网络最后一层所有节点的隐藏向量即输出的节点上的向量的平均值,将最终多层gcn神经网络中节点的向量聚合拼接操作,使其变为一个固定长度的匹配向量,即为最终的匹配向量,包括经过多层gcn神经网络后输出的字词的联合特征匹配向量stm

和孪生bert的特征向量sbm


[0089]
i、将得到的最终匹配向量,通过一个分类网络进行分类来获取最终的匹配结果,分类网络包括线性层和softmax层;
[0090]
线性层的计算过程如式(15)所示:
[0091]
yj=wj·
x+bj(15)
[0092]
式(15)中,yj为线性层的输出特征矩阵,bj为偏置向量,x={x1,x2,...,x
j-1
,xj},wj代表的是权重矩阵,j当做x的列向量维度;
[0093]
对于softmax层,多用于标签的预测,即分类的任务,计算公式如式(16)所示:
[0094][0095]
式(16)中,k为类别数,xi和xj分别为输出的第i个和第j个向量,最终得到的softmax为出现某种类别的概率表示,这个结果属于不同类别的可能性大小。
[0096]
根据本发明优选的,所述步骤g,行政处罚文书推荐,包括:
[0097]
j、步骤b中,使用正则表达式,使用正则表达式对输入的行政处罚文书cf的某一特征字段进行基于规则的抽取,得到字段cf;
[0098]
k、在步骤b中构建的行政处罚数据集中的找寻该特征字段与步骤j得到的字段cf相同的若干条行政处罚文书数据,并保存为.csv格式,构成一个基于该输入行政处罚文书的相似库;
[0099]
l、将输入的行政处罚文书cf与步骤k得到的相似库中的所有行政处罚文书逐个按照步骤b-f 依次进行处理,进行匹配,选取分数靠前的行政处罚文书进行推荐给执法人员,即完成对行政处罚文书的推荐。
[0100]
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现基于图卷积的行政处罚文书的类案推荐方法的步骤。
[0101]
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现基于图卷积的行政处罚文书的类案推荐方法的步骤。
[0102]
本发明的有益效果为:
[0103]
1、本发明通过爬取的方式获得行政处罚文书数据,并利用简单的正则表达式和jieba工具来构建行政处罚文书数据集,再将长文本的文书转换成图的形式,提供了一种长文本的相似匹配方法。
[0104]
2、本发明提出的基于字词的联合特征匹配向量提取和基于孪生bert的特征向量提取,对行政处罚文书的局部匹配向量进行了提取,并将其对应附加在图节点上,充分利用了行政处罚文书半结构化的特点。
[0105]
3、本发明提出了基于图卷积的行政处罚文书的匹配方法,通过之前将行政处罚文书先进行分解成子图结构,后进行信息聚合的方法充分利用了多层次的文本信息,对提高行政执法文书的匹配以及推荐的准确率有至关重要的作用。
附图说明
[0106]
图1为本发明子图构建的过程示意图;
[0107]
图2为本发明中字词的联合特征匹配向量提取过程示意图;
[0108]
图3为本发明中基于孪生bert的节点特征向量提取过程示意图;
[0109]
图4为本发明gcn神经网络的结构示意图;
[0110]
图5为本发明gcn神经网络的卷积过程示意图;
[0111]
图6为本发明将最终多层gcn神经网络中节点的向量进行聚合拼接操作的过程示意图;
[0112]
图7为本发明通过分类网络进行分类来获取最终的匹配结果的过程示意图。
具体实施方式
[0113]
为了便于理解本发明,下面通过实施例并结合附图对本发明做进一步说明,但不限于此,并不用于限定本发明。
[0114]
实施例1
[0115]
一种基于图卷积神经网络的行政处罚文书的类案推荐方法,包括步骤如下:
[0116]
a、数据集的爬取、整合和预处理
[0117]
首先,爬取行政处罚决定书,提取其中的文本内容,构建行政处罚文书原始数据集;然后,使用基于规则的方法(如正则表达式)和jieba分词工具从政处罚文书原始数据集中自然语言中剔除掉标点符号和空格等无关因素,最后,按照行政处罚文书的半结构化的形式进行重构,并生成新的行政处罚文书数据集;
[0118]
b、文书子图构建
[0119]
经过对处理过后的行政处罚文书数据集的统计,得出行政处罚文书的平均长度超过1000,所以,首先,通过textrank的方法进行初步的关键字子图构建,将提取的每个关键词当作一个节点,如果两个关键词在文本的同一个句子中出现过,就用边将这两个节点相连;再通过关键词检测与合并来减少关键字子图中节点的个数,并将其重构成新的子图;
[0120]
然后,利用节点与行政处罚文书中每句话的tf-idf余弦相似值,将每个句子附加到与其相似度最大的节点上;
[0121]
最后,利用每个节点上的附加的句子集的tf-idf相似度来更新两两节点之间边的权重,从而完成子图的构建;
[0122]
c、字词的联合特征匹配向量提取
[0123]
从数据集中随机选取两条行政处罚文书数据,经过步骤a和b,对步骤b获取的任意两个子图进行句子集合并,即:分别计算两个句子集之间基于字词的相似度,包括tf-idf余弦相似度、 bm25余弦相似度、simhash相似度、jaccard相似度,串联得到基于字词的联合特征匹配向量;
[0124]
d、基于孪生bert的节点特征向量提取
[0125]
基于孪生bert的特征向量的提取模块包括结构完全相同且参数共享的两个bert模型;步骤 a获取的任意两篇行政处罚文书分别输入两个bert模型,得到编码向量表示,连接两个编码向量,得到基于孪生bert的节点特征向量;
[0126]
e、基于图卷积(gcn)的特征向量的聚合
[0127]
为了能够将基于字词的联合特征匹配向量和基于孪生bert的节点特征向量聚合为最终的匹配向量,将构建的子图和子图中每个节点上连接的匹配向量,输入到多层gcn神经网络来捕获多层次的特征信息;
[0128]
f、分类获取最终的匹配结果
[0129]
取gcn的最后一层所有节点的隐藏向量的平均值,将最终gcn层中的隐藏表示合并为一个固定尺寸的图匹配向量,之后将得到的最终匹配向量,通过一个分类网络(如线性层+softmax)进行分类来获取最终的匹配相似度;
[0130]
g、行政处罚文书的推荐
[0131]
基于行政处罚文书中的处罚所依据的法条构建相似库,将输入的行政处罚文书与相似库中行政处罚文书进行如上类案匹配,最终选取分数靠前的行政处罚文书进行推荐给
执法人员。
[0132]
本发明提供了一种基于图卷积的行政处罚文书的类案推荐方法。通过对爬取且预处理过后的数据集进行文书子图的构建,再通过字词的联合特征匹配向量提取模块和孪生bert的特征向量的提取模块相结合,提取子图中每个节点上的匹配句向量,即获取局部的匹配向量,将其输入到多层 gcn中聚合特征信息,并产生有用的特征表示。最后取gcn的最后一层所有节点的隐藏向量的平均值,将最终gcn层中的隐藏表示合并为一个固定尺寸的图匹配向量。之后将得到的图匹配向量,通过一个分类网络(如线性层+softmax)进行分类来获取最终的匹配相似度。
[0133]
实施例2
[0134]
根据实施例1所述的一种基于图卷积神经网络的行政处罚文书的类案推荐方法,其区别在于:
[0135]
步骤a中,数据集的爬取、整合和预处理,包括步骤如下:
[0136]
a、从行政处罚文书网爬取获取各省的行政处罚决定书,并提取标签为html的文本内容,构建行政处罚文书原始数据集并保存为.csv文件;
[0137]
b、在大量阅读行政处罚文书之后,发现其具有许多鲜明的共同特点。首先,使用jieba分词工具来从自然语言中剔除掉标点符号和空格等无关因素;然后,选取大量文书共同拥有的特征字段若干个,例如15个,包括:行政相对人名称、行政处罚决定书文号、违法行为类型、违法事实、处罚依据、处罚类别、处罚内容、罚款金额、处罚机关、处罚机关统一社会信用代码、数据来源单位等处罚信息。通过基于规则的方法抽取这些特征字段;例如,采用正则抽取的方式,如使用python 中re函数,利用以下匹配规则:
[0138]
经(|查)(|查明)\w*(|\s)(|.)(|\s\w*\s)\s*\w\s+.(|\s\w*\s)\s*\w\s+
[0139]
来抽取行政处罚文书中内表述为“经查”或“经查明”的违法事实,之后,对行政相对人名称、行政处罚决定书文号、违法行为类型、违法事实、处罚依据、处罚类别、处罚内容、罚款金额、处罚机关、处罚机关统一社会信用代码、数据来源单位等处罚信息进行同样的抽取方式,最终得到结果。
[0140]
最后,根据行政处罚文书的规范形式重构生成新的行政处罚文书数据集。通过这种方式去掉了文书中的多余的无用信息同时减少了文本的长度,减少了之后模型的训练时间。
[0141]
步骤b中,文书子图构建,包括步骤如下:
[0142]
c、关键词子图的构建:通过构建关键词子图,将一篇行政处罚文书由一个长文本的形式分解成关键词子图的形式。通过textrank算法提取出一个行政处罚文书的关键词,每个关键词当作一个节点,如果两个关键词在文本的同一个句子中出现过,就用边将这两个节点相连;如图1中(a) 所示。
[0143]
对于textrank的方法,是一种文本排序算法,由谷歌的网页重要性排序算法pagerank算法改进而来,它能够从一个给定的文本中提取出该文本的关键词、关键词组,并使用抽取式的自动文摘方法提取出该文本的关键句。二者的思想有相同之处,区别在于:pagerank算法根据网页之间的链接关系构造网络,而textrank算法根据词之间的共现关系构造网络;pagerank算法构造的网络中的边是有向无权边,而textrank算法构造的网络中的边是无向有权边。textrank算法的核心公式如公式(1)所示:
[0144][0145]
式(1)中,w
ji
表示两个节点之间的边连接具有不同的重要程度,d表示阻尼系数,一般取经验值为0.85;i、j、k分别代表文本中句子i、句子j、句子k,vi为利用textrank算法构建的词图 g

(v,e)的节点集合v的句子i对应的节点,in(vi)、out(vj)分别为节点vi的入度和vj的出度;ws(vi) 和ws(vj)分别为节点vi和vj的rank值,即排序值;
[0146]
d、关键词检测与合并,重构关键字子图:将相近的关键词和同义词进行替换和合并;从而减少了子图中的顶点的数量,减少了匹配时间,如图1中(b)所示。
[0147]
e、节点匹配句与边的更新,即:将一篇行政执法文书中的每个句子分配并附加到对应的节点上;如图1中(c)所示,首先,计算每个句子与每一个节点vi的tf-idf余弦相似值;
[0148]
然后,将每个句子附加到与其tf-idf余弦相似值最大的节点上;
[0149]
通过以上步骤,在重构的关键字子图上,每个节点上附带有一个或多个句子,关键字子图中两两节点之间的边权更新为附加在这两个节点上句子集之间的tf-idf余弦相似值,从而完成每篇行政执法文书的文书子图g(v,e)的构建,如图1中(d)所示,v表示文书子图的节点vi,e表示具有权重w
ij
的边e
ij
=(vi,vj)的集合。
[0150]
计算每个句子与每一个节点vi的tf-idf余弦相似值,计算方法如下:
[0151]
其中,tf-idf是信息检索领域非常重要的搜索词重要性度量,用以衡量一个关键词wk对于查询文档d所能提供的信息。
[0152]
tf表示词频,就是某个单词在文档d中出现的频率,如式(2)所示;idf为逆文档频率,用来反应词的普遍程度,计算如式(3)所示:
[0153][0154][0155]
式(2)中,ct(w)为关键词wk在文档d中出现的次数,|d|为文档d中所有词的总数,tf
wk,d
即为词wk在文档d中出现频率;
[0156]
式(3)中,nt为所有文档总数,i(wk,d)表示文档d是否包含关键词wk,若包含则其值赋为1,反之为0;
[0157]
关键词wk在文档d的tf-idf值tf-idf
wk,d
,计算如式(4)所示:
[0158]
tf-idf
wk,d
=tf
wk,d
*idf
wk (4)
[0159]
将生成两个句子使用tf-idf算法,找出关键词并生成各自的词频向量,再进行两个向量的余弦相似度,进而得到tf-idf余弦相似值,余弦向量计算方法如式(5)所示:
[0160][0161]
步骤c,字词的联合特征匹配向量提取,包括步骤如下:
[0162]
每篇行政处罚文书可以看成由字符构成,要获取两篇行政执法文书的字词相似度只要比较两个相对文书的中每一个字符是否相等便知道两个字符串是否相等。对于文书子图g(v,e)中的节点vi,计算其上附加的分别来自文书a和文书b的句子集as(vi)和bs(vi)的
基于字面的联合相似度,包括 tf-idf余弦相似度、bm25余弦相似度、simhash相似度、jaccard相似度,串联得到基于字面的联合特征匹配向量stm。
[0163]
bm25是一种用来评价搜索词和文档之间相关性的算法,它是一种基于概率检索模型提出的算法,bm25余弦相似度的计算公式如式(6)所示:
[0164][0165]
式(6)中,q表示query,在这里表示一个句子,qi表示根据q分词获得的词语,d∈文档, score(q,d)就是每个词语qi和d之间的相关性的加权和,wi为qi的权重,r(qi,d)表示qi和d的相关性得分,其计算公式如式(7)、式(8)所示:
[0166][0167][0168]
式(7)、式(8)中,fi是qi在d中出现的概率,k1,k2,b是根据经验设置的调节因子,k1∈[1.2,2],b =0.75,qfi为qi在q中出现的频率,dl为d的长度,avgdl为文本中所有d的平均长度。
[0169]
simhash算法的主要思想是将高维的特征向量映射成低维的特征向量,通过行政处罚文书中相对应的两句话的词向量的汉明距离来确定文章是否重复或者高度近似。汉明距离是通过计算两个字符串对应位置的不同字符的个数得到的。这样通过比较文档之间simhash值的汉明距离,可以获取它们相似度。
[0170]
jaccard相似度是通过计算a、b两句话分别构成的字符集sena和senb的交集元素个数在sena 和senb的并集中所占的比例,即两句话相同字符个数与两句话中独有字符个数的比值,如式(9) 所示:
[0171][0172]
连接方式如图2所示。
[0173]
步骤d,基于孪生bert的节点特征向量提取,是指:通过基于孪生bert的特征向量的提取模块提取节点特征向量;
[0174]
bert模型是由谷歌ai团队提出的预训练表征模型,bert模型的训练包含预训练和微调两个过程,在预训练的阶段,bert模型是采用了大规模的无监督数据来进行bert模型的训练,从而得到一个基本的语义信息的嵌入,而在微调阶段,是根据特定的任务来对bert模型的参数进行微调,而bert模型也被当作一个能够提取文本中的较为深层的语义信息。
[0175]
在相似行政处罚文书的匹配的任务中,由于经过步骤a处理的文书仍然属于较长文本,所以基于孪生的bert来对两篇需要匹配的行政处罚文书进行编码的表示。基于孪生的bert模型由两个完全相同且参数共享的bert模型构成。
[0176]
bert模型包括输入层、编码层、输出层,编码层包括12个transforemer模块,共计768个隐藏层,来对行政处罚文书进行编码表示,步骤a获取的任意两篇行政处罚文书分别输入两个bert 模型,得到编码向量表示,拼接这两个编码向量,得到基于孪生bert的节点特征向量sbm。基于孪生bert的特征向量的提取模块结构如图3所示。
[0177]
其中,因为bert的输入文本限制长度为512(一般用来训练的样本长度都小于等于
512),从步骤b中得到的新数据集任取两篇行政处罚文书作为输入,对于所取出长度仍然超出512的文书采取从中后截断的方式(大量有用的信息分布在中后部分)。
[0178]
步骤e,基于图卷积(gcn)神经网络的特征向量的聚合,包括:
[0179]
f、两匹配子图合并:在进行行政处罚文书的相似匹配时,行政处罚文书a和行政处罚文书b 分别通过上述步骤a~e处理,其中,行政处罚文书a和行政处罚文书b构成一个行政处罚文书对,处理后得到两个构建的文书子图,对于这两个文书子图中的公共的节点,进行节点句子集的合并;并将合并后的子图依次进行步骤c、步骤d的处理,在合并后的子图中的每个节点vi上得到不同尺度的联合特征匹配向量stm(vi)和基于孪生bert的节点特征向量sbm(vi);
[0180]
g、图卷积(gcn)的特征向量的聚合:
[0181]
将联合特征匹配向量stm(vi)和基于孪生bert的节点特征向量sbm(vi)进行连接操作,从而得到中每个节点的总特征向量xmi,如式(10)所示:
[0182]
xmi=(stm(vi),sbm(vi))(10)
[0183]
之后将子图g(v,e)和每个节点vi上附加的匹配向量xmi输入到多层gcn神经网络中,捕获多层次的特征信息;
[0184]
gcn神经网络包括输入层、隐藏层;
[0185]
假设,一个图结构中包含四个节点,每个节点对应的特征向量为x1、x2、x3、x4,每通过一层隐藏层每个节点就可以得到更新后的特征向量z1、z2、z3、z4,最后得到特征向量y1、y2、y3、 y4,具体结构如图4所示,gcn神经网络的卷积过程介绍如下:
[0186]
对于gcn神经网络,定义图的加权邻接矩阵为a∈rn×n,n为子图g(v,e)的节点个数;
[0187]aij
=w
ij
(11)
[0188]
式(11)中,w
ij
为vi与vj的权重系数,即两个节点上句子集之间的tf-idf相似度;a
ij
为邻接矩阵a的第i行,第j列的值;
[0189]
gcn神经网络的输入层如式(12)所示:
[0190]h(0)
=xm(12)
[0191]
式(12)中,xm={xm0,xm1,...,xm
i-2
,xm
i-1
,xmi},h
(l)
∈rn×m表示为第l隐藏层的输出向量;
[0192]
gcn神经网络第l隐藏层的输出向量表示如式(13)所示:
[0193][0194]
式(13)中,i为单位矩阵,w
(l)
是可训练的权重矩阵,δ为relu激活函数,为图g(v,e)的度矩阵,如下式(14)所示:
[0195][0196]
gcn神经网络的卷积过程如图5所示。
[0197]
步骤f,分类获取最终的匹配结果,包括:
[0198]
h、取多层gcn网络最后一层所有节点的隐藏向量即输出的节点上的向量的平均值,将最终多层gcn神经网络中节点的向量聚合拼接操作,使其变为一个固定长度的匹配向量,即为最终的匹配向量,包括经过多层gcn神经网络后输出的字词的联合特征匹配向量stm

和孪生bert的特征向量sbm

;如图6所示。
[0199]
i、将得到的最终匹配向量,通过一个分类网络(线性层+softmax)进行分类来获取最终的匹配结果,分类网络包括线性层和softmax层,如图7所示。
[0200]
线性层的计算过程如式(15)所示:
[0201]
yj=wj·
x+bj(15)
[0202]
式(15)中,yj为线性层的输出特征矩阵,bj为偏置向量,x={x1,x2,...,x
j-1
,xj},wj代表的是权重矩阵,j当做x的列向量维度;
[0203]
对于softmax层,多用于标签的预测,即分类的任务,计算公式如式(16)所示:
[0204][0205]
式(16)中,k为类别数,xi和xj分别为输出的第i个和第j个向量,最终得到的softmax为出现某种类别的概率表示,这个结果属于不同类别的可能性大小。
[0206]
步骤g,行政处罚文书推荐,包括:
[0207]
j、步骤b中,使用正则表达式,使用正则表达式对输入的行政处罚文书cf的某一特征字段例如“处罚依据”字段进行基于规则的抽取,得到字段cf;
[0208]
k、在步骤b中构建的行政处罚数据集中的找寻该特征字段与步骤j得到的字段cf相同的若干条行政处罚文书数据,并保存为.csv格式,构成一个基于该输入行政处罚文书的相似库;
[0209]
l、将输入的行政处罚文书cf与步骤k得到的相似库中的所有行政处罚文书逐个按照步骤b-f 依次进行处理,进行匹配,选取分数靠前的行政处罚文书进行推荐给执法人员,即完成对行政处罚文书的推荐。
[0210]
实施例3
[0211]
一种计算机设备,包括存储器和处理器,存储器存储有计算机程序,处理器执行计算机程序时实现实施例1或2所述的基于图卷积的行政处罚文书的类案推荐方法的步骤。
[0212]
实施例4
[0213]
一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现实施例1 或2所述的基于图卷积的行政处罚文书的类案推荐方法的步骤。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1