本说明书实施例涉及人工智能,尤其是一种法律文书案由生成方法、装置、设备及存储介质。
背景技术:
1、随着科技的发展,各司法领域也在进行智能化转型。作为司法行政的关键环节,行政执法在立案、调查取证、处罚决定以及执行等环节皆可运用智能化辅助技术以提高行政执法人员的执法效率、简化执法流程。
2、对于法律文书的案由生成任务,现有自动化实现方法主要基于关键字提取实现,具体的,包括:首先对文本中的关键单元进行抽取,其中关键单元可以是词、短语、句子等,然后将抽取出的关键单元进行组合,得到法律文书的案由;最后由人工对法律文书案由进行审核。该方法较为简单,缺少灵活性,没有考虑语句的衔接性,存在因冗余信息量高而导致案由生成质量差的问题,还存在耗费人力,案由生成效率较低的问题。因此如何实现高质量的案由生成,提高案由生成效率是目前亟待解决的问题。
技术实现思路
1、针对现有技术的上述问题,本说明书实施例的目的在于,提供一种法律文书案由生成方法、装置、设备及存储介质,以解决现有技术中案由生成质量低和效率低的问题。
2、为了解决上述技术问题,本说明书实施例的具体技术方案如下:
3、一方面,本说明书实施例提供一种法律文书案由生成方法,所述方法包括:
4、接收法律文书并获取所述法律文书的文本内容;
5、确定所述文本内容的文本向量,将所述文本内容的文本向量输入至预训练的抽取案由模型,生成初始案由文本;其中所述抽取案由模型用于提取文本向量汇总的语义特征及上下文特征;
6、将所述初始案由文本输入至预训练的生成案由模型,生成最终案由文本;其中所述生成案由模型包括生成模块和对比打分模块,所述生成模块用于根据所述初始案由文本生成若干案由文本,所述对比打分模块用于对所述若干案由文本进行分数估计,根据若干案由文本分数确定最终案由文本。
7、进一步的,所述确定所述文本内容的文本向量包括:
8、对所述文本内容进行过滤、纠错以及去重处理,得到处理文本;
9、对所述处理文本进行分句处理,得到子句序列;
10、对所述子句序列进行编码,得到文本向量。
11、进一步的,所述抽取案由模型包括:语义向量提取层、上下文信息提取层、全连接层和拼接层;
12、所述将所述文本内容的文本向量输入至预训练的抽取案由模型,生成初始案由文本,包括:
13、将所述文本内容的文本向量输入至所述语义向量提取层,得到所述文本内容中每分句的语义表示向量;
14、将所述文本内容中每分句的语义表示向量输入至所述上下文信息提取层,得到所述文本内容的上下文特征;
15、将所述文本内容的上下文特征输入至全连接层,得到所述文本内容中每分句的分类结果;
16、将所述文本内容中每分句的分类结果输入所述拼接层,得到初始案由文本。
17、进一步的,所述将所述文本内容中每分句的分类结果输入所述拼接层,得到初始案由文本,包括:
18、从所述文本内容中每分句的分类结果中获取每个分句向量的类别标签;
19、将所述类别标签满足预设类别标签的分句向量抽取出来,按照预设分句排列顺序进行拼接,得到初始分句向量集合;
20、对所述初始分句向量集合进行解码,得到初始案由文本。
21、进一步的,所述生成案由模型的训练过程包括:
22、将所述初始案由文本输入至所述生成模块,通过集束搜索算法生成一个伪最优案由和若干候选案由;
23、将所述伪最优案由和若干候选案由输入所述对比打分模块进行分数估计,得到伪最优案由和若干候选案由的得分;
24、当所述伪最优案由的得分小于所述若干候选案由的得分时,根据所述得分计算生成模块和对比打分模块的损失函数;
25、根据所述生成模块和对比打分模块的损失函数通过反向传播算法更新所述生成模块和对比打分模块的权重参数;
26、重复上述过程,直至满足预设训练次数。
27、进一步的,利用以下公式计算生成模块和对比打分模块的损失函数:
28、;
29、;
30、其中,为生成模块的损失函数, gl是伪最优案由包含标记的个数, s r表示第 r个标记,表示伪最优案由序列中第 r个标记预测的对数似然,表示伪最优案由中在第 r个标记之前生成的标记, z表示输入文本; l contrast为对比打分模块的损失函数, k代表候选案由个数,表示第 i个候选案由, s pos表示伪最优案由, β gi表示与 s pos之间的间隔裕度,第 i个候选案由的得分,表示伪最优案由的得分,表示第 j个候选案由, β ij表示第 j个和第 i个候选案由的间隔裕度。
31、进一步的,所述将所述初始案由文本输入至预训练的生成案由模型之前,还包括:
32、将所述初始案由文本输入分词器进行分词,得到所述初始案由文本词量;
33、判断所述初始案由文本词量是否超过预设序列长度,若是,则截断超出的部分,若否,则使用特殊标记来补全缺失部分,得到输入文本序列。
34、另一方面,本说明书实施例提供了一种法律文书案由生成装置,所述装置包括:
35、接收模块,用于接收法律文书并获取所述法律文书的文本内容;
36、第一生成模块,用于确定所述文本内容的文本向量,将所述文本内容的文本向量输入至预训练的抽取案由模型,生成初始案由文本;其中所述抽取案由模型用于提取文本向量汇总的语义特征及上下文特征;
37、第二生成模块,用于将所述初始案由文本输入至预训练的生成案由模型,生成最终案由文本;其中所述生成案由模型包括生成模块和对比打分模块,所述生成模块用于根据所述初始案由文本生成若干案由文本,所述对比打分模块用于对所述若干案由文本进行分数估计,根据若干案由文本分数确定最终案由文本。
38、又一方面,本说明书实施例还提供了一种计算机设备,包括存储器、处理器、以及存储在所述存储器上的计算机程序,所述计算机程序被所述处理器运行时,执行上述任意一项所述方法的指令。
39、又一方面,本说明书实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被计算机设备的处理器运行时,执行上述任意一项所述方法的指令。
40、本说明书的一些实施例提供的一个或者多个技术方案,至少具有如下的技术效果:
41、本说明书通过抽取案由模型中的语义向量提取层对法律文书文本内容中每个句子内每个词间语义关系进行学习,从而提取文本内容中每句话的语义表示向量,并输入上下文信息提取层,学习不同句向量间的语义关系,以提取整篇文档的上下文信息,然后基于上下文信息能够从整篇文档中抽取具有关键信息的句子,将其拼接为初步案由,由此,可过滤整篇文档中一些冗余信息。为了提高生成案由的质量和效率,将初步案由输入预训练的生成案由模型进行最终案由文本生成,其中在生成案由模型中引入对比打分模块,该模块借鉴对比学习思想,通过对比伪最优案由与候选案由、候选案由与候选案由之间的长度归一化估计对数概率来构建对比损失函数,从而提高生成案由模型的生成能力。
42、上述说明仅是本说明书的一些实施例技术方案的概述,为了能够更清楚了解本说明书的一些实施例的技术手段,而可依照说明书的内容予以实施,并且为让本说明书实施例的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。