法律信息提取方法、装置、电子设备及存储介质与流程

文档序号:32518049发布日期:2022-12-13 17:24阅读:52来源:国知局
法律信息提取方法、装置、电子设备及存储介质与流程

1.本技术涉及自然语言处理技术领域,具体涉及一种法律信息提取方法、装置、电子设备及计算机可读存储介质。


背景技术:

2.随着信息化水平的不断提高,各类司法文书做为案件的输出结果,各司法机构每天都会输出大量的司法文书。其中,法律文书如在法院裁判文书中,包含了大量的案件案情信息、案件审理信息以及法院判决信息等重要的关键信息。法律文书的信息提取对各类业务场景,如统计某个对象的违法违纪情况具有非常重要的意义。
3.传统的信息提取工作都是根据手动录入或者人工总结的抽取规则进行信息提取,不仅需要耗费大量人力物力,且准确率不高,同时具有较高的维护成本,抽取规则很难进行复用。
4.现有技术中通过神经网络模型对法律文书进行信息提取,但是,本技术的发明人在实际应用过程中发现,法律文书的种类繁多、复杂多变,现有的神经网络提取模型难以同时精准地提取各种类别的法律文书的关键信息。


技术实现要素:

5.本技术提供一种法律信息提取方法、装置、电子设备及计算机可读存储介质,旨在解决由于法律文书种类繁多、复杂多变,现有技术难以同时精准地提取各类别法律文书的关键信息问题。
6.第一方面,本技术提供一种法律信息提取方法,所述方法包括:
7.获取待提取法律文书的目标文书向量;
8.基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别;
9.获取与所述目标类别对应的目标提取参数;
10.基于所述目标提取参数和所述目标文书向量,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。
11.第二方面,本技术提供一种法律信息提取装置,所述法律信息提取装置包括:
12.第一获取单元,用于获取待提取法律文书的目标文书向量;
13.分类单元,用于基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别;
14.第二获取单元,用于获取与所述目标类别对应的目标提取参数;
15.提取单元,用于基于所述目标提取参数和所述目标文书向量,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。
16.第三方面,本技术还提供一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时执行本技术提
供的任一种法律信息提取方法中的步骤。
17.第四方面,本技术还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行所述的法律信息提取方法中的步骤。
18.由于法律文书对应的诉讼类型、法律文书类型和法律程序有多种,而不同的诉讼类型、法律文书类型和法律程序,对于关键信息比如原告和被告的称呼方式不同,若采用相同提取参数进行关键信息提取,则信息提取的准确率较低。本技术实施例中,每种类别的法律文书对应设置一种提取参数,通过先对待提取法律文书进行分类。再获取与待提取法律文书的目标类别对应设置的目标提取参数,基于目标提取参数对待提取法律文书进行关键信息提取,在一定程度上提高了待提取法律文书的关键信息的提取准确度。避免了由于法律文书种类繁多、复杂多变,现有技术难以同时精准地提取各类别法律文书的关键信息的问题。
附图说明
19.为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
20.图1是本技术实施例所提供的法律信息提取检测系统的场景示意图;
21.图2是本技术实施例提供的法律信息提取方法的一种流程示意图;
22.图3是本技术实施例中提供的步骤203的一个实施例流程示意图;
23.图4是本技术实施例中提供的信息提取模型的一种网络结构示意图;
24.图5是本技术实施例中提供的信息提取模型的另一种网络结构示意图;
25.图6是本技术实施例提供的法律文书信息提取过程的一种说明示意图;
26.图7是本技术实施例中提供的法律信息提取装置的一个实施例结构示意图;
27.图8是本技术实施例中提供的电子设备的一个实施例结构示意图。
具体实施方式
28.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
29.在本技术实施例的描述中,需要理解的是,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个所述特征。在本技术实施例的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
30.为了使本领域任何技术人员能够实现和使用本技术,给出了以下描述。在以下描述中,为了解释的目的而列出了细节。应当明白的是,本领域普通技术人员可以认识到,在不使用这些特定细节的情况下也可以实现本技术。在其它实例中,不会对公知的过程进行详细阐述,以避免不必要的细节使本技术实施例的描述变得晦涩。因此,本技术并非旨在限
于所示的实施例,而是与符合本技术实施例所公开的原理和特征的最广范围相一致。
31.本技术实施例法律信息提取方法的执行主体可以为本技术实施例提供的法律信息提取装置,或者集成了该法律信息提取装置的服务器设备、物理主机或者用户设备(user equipment,ue)等不同类型的电子设备,其中,法律信息提取装置可以采用硬件或者软件的方式实现,ue具体可以为智能手机、平板电脑、笔记本电脑、掌上电脑、台式电脑或者个人数字助理(personal digital assistant,pda)等终端设备。
32.该电子设备可以采用单独运行的工作方式,或者也可以采用设备集群的工作方式,通过应用本技术实施例提供的法律信息提取方法,避免了由于法律文书种类繁多、复杂多变,现有技术难以同时精准地提取各类别法律文书的关键信息的问题;在一定程度上提高了待提取法律文书的关键信息的提取准确度。参见图1,图1是本技术实施例所提供的法律信息提取系统的场景示意图。其中,该法律信息提取系统可以包括电子设备100,电子设备100中集成有法律信息提取装置。例如,该电子设备可以获取待提取法律文书的目标文书向量;基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别;获取与所述目标类别对应的目标提取参数;基于所述目标提取参数和所述目标文书向量,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。
33.另外,如图1所示,该法律信息提取系统还可以包括存储器200,用于存储数据,如存储法律文书的文本数据。
34.需要说明的是,图1所示的法律信息提取系统的场景示意图仅仅是一个示例,本技术实施例描述的法律信息提取系统以及场景是为了更加清楚的说明本技术实施例的技术方案,并不构成对于本技术实施例提供的技术方案的限定,本领域普通技术人员可知,随着法律信息提取系统的演变和新业务场景的出现,本发明实施例提供的技术方案对于类似的技术问题,同样适用。
35.下面,开始介绍本技术实施例提供的法律信息提取方法,本技术实施例中以电子设备作为执行主体,为了简化与便于描述,后续方法实施例中将省略该执行主体。
36.参照图2,图2是本技术实施例提供的法律信息提取方法的一种流程示意图。需要说明的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。该法律信息提取方法包括步骤201~204,其中:
37.201、获取待提取法律文书的目标文书向量。
38.待提取法律文书是指待进行关键信息提取的法律文件,如行政判决书、行政裁定书、行政调解书,民事制裁决定书、支付令,刑事附带民事判决书、刑事附带民事裁定书、刑事附带民事调解书等等。
39.此处,待提取法律文书仅为举例,实际上待提取法律文书可以是上述举例的法律文件中的任意一种,也可以是其他类型的法律文件,此处对待提取法律文书的具体文书类型不作限制。
40.目标文书向量为待提取法律文书向量化后的表示。目标文书向量可以是one-hot形式的向量。
41.一般来说,法律文书中会包括多个语句,为了便于自然语言处理,会预先将法律文书中各语句进行分词,再进行向量化表示。
42.步骤201中,获取目标文书向量的方式有多种,示例性地,包括:
43.(1)直接将待提取法律文书中各语句进行分词,再对每个分词进行向量化,得到目标文书向量。
44.(2)先从待提取法律文书中筛选出重要的关键句,比如包含原被告信息、涉案时间和涉案金额的句子;再对筛选出的关键句进行分词,并对每个分词进行向量化表示,得到目标文书向量。由于待提取法律文书包括多个语句,通过先筛选出重要的关键句,再进行分词、向量化,可以大大地减少分词的数据处理量。
45.其中,可以利用开源的jieba分词模型或lac(lexical analysis of chinese)分词模型对重要句子进行分词。
46.jieba分词模型可以对中文文本进行分词、词性标注、关键词抽取等功能,并且支持自定义词典。
47.lac分词模型是一个联合的词法分析模型,整体性地完成中文分词、词性标注、专名识别任务。
48.202、基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别。
49.属性信息为待提取法律文书的诉讼类型、法律文书类型和法律程序等信息。
50.诉讼类型,比如刑事诉讼、民事诉讼、行政诉讼、刑事附带民事。
51.法律文书类型,比如判决书、裁定书、调解书、支付令。
52.法律程序,比如一审程序、再审程序、其他程序。
53.目标类别为依据预设的类别划分策略,所确定的待提取法律文书的类别。例如,预设的类别划分策略如下表1所示,表1中每一行代表法律文书的一种类别。若待提取法律文书为民事诉讼一审程序的判决书,则可以确定待提取法律文书的目标类别为类别3。
54.表1
55.56.表1中示出的仅为预设的类别划分策略的一种实现,事实上可以根据业务场景中所涉及的诉讼类型、法律文书类型和法律程序等属性信息,设定类别划分策略,此处并未穷举所有情况。
57.步骤202中,获取待提取法律文书的目标类别的方式有多种,示例性地,包括:
58.(1)电子设备接收人工输入待提取法律文书的目标类别。具体地,电子设备设置有用户交互接口,用户可以按照类别划分策略,根据待提取法律文书的诉讼类型、法律文书类型和法律程序等属性信息,对待提取法律文书进行分类得到待提取法律文书的目标类别;并通过电子设备的用户交互接口将待提取法律文书的目标类别输入电子设备。
59.(2)电子设备按预设的类别划分策略,根据待提取法律文书的属性信息,对待提取法律文书进行分类,得到待提取法律文书的目标类别。具体地,在一些实施方式,电子设备可以接收到用户输入的待提取法律文书的诉讼类型、法律文书类型和法律程序等属性信息。在一些实施例中,电子设备可以将待提取法律文书划分为开庭公告和正文两部分,并基于开庭公告部分的文字内容识别出待提取法律文书的诉讼类型、法律文书类型和法律程序等属性信息;由于开庭公告的文字内容相对较少,因此可以快速地识别出待提取法律文书的诉讼类型、法律文书类型和法律程序等属性信息。
60.203、获取与所述目标类别对应的目标提取参数。
61.其中,目标提取参数是信息提取模型基于目标类别的样本法律文书的样本文书向量,以样本实际关键信息为监督约束进行学习得到。
62.本技术实施例中,针对每种类别的法律文书对应设置了一种提取参数。每一种提取参数基于对应类别的法律文书样本进行学习得到。后文中,将详细介绍如何学习得到提取参数,为简化表述,此处不再赘述。
63.步骤201中,获取目标提取参数的方式有多种,示例性地,包括:
64.(1)从预先学习得到的多种类别提取参数中,直接获取与目标类别对应设置的目标提取参数。
65.(2)基于信息提取模型实时学习获取目标提取参数。具体地,基于目标类别的样本法律文书,通过信息提取模型在线学习目标类别对应的目标提取参数。实时学习获取的方式,可以参照后文的说明,为简化表述,此处不再赘述。
66.204、基于所述目标提取参数和所述目标文书向量,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。
67.其中,目标关键信息为待提取法律文书的主体(如原告、被告)的诉讼关键信息。如原被告信息、涉案时间和涉案金额。
68.目标关键信息具体可以根据实际业务场景而定,此处对目标关键信息的具体信息类型不做限制。例如,在某双方合作中,为了识别合作方的违约风险,可以获取合作方涉诉案件的法律文书作为待提取法律文书,识别出合作方在所涉诉案件中是被告还是原告、涉案时间、涉案金额等信息,则目标关键信息可设置为用于识别合作方违约风险的涉案时间、涉案金额。
69.由于法律文书对应的诉讼类型、法律文书类型和法律程序有多种,而不同的诉讼类型、法律文书类型和法律程序,对于关键信息比如原告和被告的称呼方式不同,若采用相同提取参数进行关键信息提取,则信息提取的准确率较低。本技术实施例中,每种类别的法
律文书对应设置一种提取参数,通过先对待提取法律文书进行分类。再获取与待提取法律文书的目标类别对应设置的目标提取参数,基于目标提取参数对待提取法律文书进行关键信息提取,在一定程度上提高了待提取法律文书的关键信息的提取准确度。避免了由于法律文书种类繁多、复杂多变,现有技术难以同时精准地提取各类别法律文书的关键信息的问题。
70.示例性地,上述步骤202的方式(2)中,“电子设备按预设的类别划分策略,根据待提取法律文书的属性信息,对待提取法律文书进行分类,得到待提取法律文书的目标类别”具体可以通过如下步骤a1~a3实现:
71.a1、基于预设的关键词集,获取所述待提取法律文书的目标关键句。
72.其中,目标关键句为包含待提取法律文书的诉讼关键信息的语句,具体为包含目标关键词的语句。例如,包含原被告信息、涉案时间和涉案金额的重要句子。目标关键词为预设的关键词集中关键词,预设的关键词通过预先收集构建得到。
73.与目标关键信息对应,目标关键句具体可以根据实际业务场景而定,此处对目标关键句的具体语句类型不做限制。
74.在步骤a1之前还包括:构建预设的关键词集。具体地,可以通过人工收集整理形成关键词集。关键词集主要包括诉讼类型关键词、文书类型关键词、当事人关键词、非当事人关键词等。
75.诉讼类型关键词,例如“刑事诉讼”、“民事诉讼”、“行政诉讼”等。
76.文书类型关键词,例如“人民法院民事判决”、“行政判决”、“行政裁定”、“民事判决”、“民事裁定”、“民事调解书”、“民事制裁决定”、“支付令”等。
77.当事人关键词,例如一审程序中的“原告”、“被告”、“第三人”,再审程序中的“上诉人”、“被上诉人”,其他程序中的“申请人”、“被申请人”等。
78.非当事人关键词,例如“证人”、“鉴定人”和“诉讼代理人”等。
79.步骤a1中,通过关键词模糊匹配的方式,基于关键词集对待提取法律文书进行匹配,以获取待提取法律文书中包含关键词集中的关键词的关键句子,作为待提取法律文书的目标关键句。
80.a2、对所述目标关键句进行分词,得到所述待提取法律文书的分词集。
81.此处,待提取法律文书的分词集是指目标关键句进行分词后得到的多个分词的集合。
82.具体地,可以利用开源的jieba分词模型或lac(lexical analysis of chinese)分词模型目标关键句进行分词,目标关键句进行分词后将得到包含多个分词的切分后语句;将切分后语句所包含的多个分词作为待提取法律文书的分词集。
83.例如,目标关键句为“原告xx设备有限公司与被告xx燃气有限公司买卖合同纠纷一案”,利用jieba分词模型对目标关键句进行分词后,可以得到切分后语句

[['原告','xx设备有限公司','与','被告','xx燃气有限公司','买卖合同','纠纷','一案'],['n','org','c','n','org','n','n','n']]’。切分后语句所包含的多个分词

[['原告','xx设备有限公司','与','被告','xx燃气有限公司','买卖合同','纠纷','一案'],['n','org','c','n','org','n','n','n']]’可以作为待提取法律文书的分词集。其中,n、org和c为语句切分后的词性。
[0084]
进一步地,为了提高分词的准确率,还可以基于分词模型进行分词后所输出的切分后语句中的词性,结合法律文书语句的预设词性规则,判断分词是否有误。若分词有误时,则对切分后语句的分词进行修改,例如,通过人工修改。若分词无误则进入步骤a3的继续处理。进一步地,当分词有误时,还可以进一步地调整分词模型,以提高对目标关键句进行分词的准确度,进而提高后续对待提取法律文书的关键信息的提取准确率。
[0085]
a3、将所述分词集中各分词进行向量化为定长向量,得到所述待提取法律文书的目标文书向量。
[0086]
在一些实施例中,可以采用word2vec模型对待提取法律文书的分词集进行向量化,将待提取法律文书的分词集中各分词进行向量化为定长向量,得到待提取法律文书的目标文书向量。
[0087]
其中,word2vec模型通过训练得到,在word2vec模型训练过程中,为了降低计算的时间复杂度,主要选择层序softmax方法进行训练。
[0088]
层序softmax使用二叉树的数据结果,每个叶结点代表词典ν中的每个词,假设l(w)为从二叉树的根结点到词w的叶节点路径上的结点数,n(w,j)为该路径上第j个结点,若该结点的背景词向量为un(w,j),则层序softmax将word2vec模型的条件概率近似表示为:
[0089][0090]
其中,p(wo|wc)为word2vec模型的条件概率,wo为生成词,wc为给定词,l(w0)为从二叉树的根结点到词wo的叶节点路径上的结点数,σ为sigmoid激活函数,leftchild(n)为结点n的左子结点。
[0091]
具体地,采用法律文书分词后得到的关键词集为样本输入word2vec模型,word2vec模型对输入的关键词集计算不同词之间条件概率,直至损失函数-logp(wo|wc)最小时,得到训练好的word2vec模型。此时,可以应用训练好的word2vec模型对待提取法律文书分词集中各分词进行向量化为定长向量,得到所述待提取法律文书的目标文书向量。其中,由于本技术实施例中word2vec模型的训练方式与现有的训练方式类似,不同的是本技术实施例中是针对法律文书分词后得到的关键词集对word2vec模型进行训练,以使得训练好的word2vec模型可以更好地学习法律文书的向量表示。对于没有详细介绍的训练过程,可以参照现有word2vec模型的训练方式,此处不再赘述。
[0092]
采用word2vec模型对待提取法律文书的分词集进行向量化,word2vec模型将每个词表示成一个定长向量,可以使得这些向量能较好地表达不同词之间的相似和类比关系,从而可以在一定程度上提高待提取法律文书的信息提取准确度。
[0093]
下面介绍如何训练信息提取模型,以学习到目标提取参数。如图3所示,目标提取参数的学习过程包括如下步骤301~步骤305。
[0094]
为了方便理解,先介绍本技术实施例中的信息提取模型的网络结构。如图4所示,图4是本技术实施例中提供的信息提取模型的一种网络结构示意图,信息提取模型包括向量表征层和信息提取层。
[0095]
(一)向量表征层,用于对法律文书表征为向量。
[0096]
在一些实施例中,向量表征层由向量表征模型构成,向量表征层的输入则为分词后的法律文书的文本数据、输出为法律文书的向量。向量表征层具体用于对分词后的法律
文书进行向量化,得到法律文书的向量。示例性地,向量表征模型为word2vec模型,向量表征模型用于对分词后的法律文书进行向量化,得到法律文书的向量。
[0097]
在一些实施例中,向量表征层由分词模型和向量表征模型构成,向量表征层的输入则为法律文书的文本数据,输出为法律文书的向量。向量表征层具体用于对法律文书中各语句进行分词,得到法律文书的分词集;对分词后的法律文书进行向量化,得到法律文书的向量。示例性地,分词模型为开源的jieba分词模型或lac分词模型、向量表征模型为word2vec模型。分词模型用于对法律文书中各语句进行分词,得到法律文书的分词集,向量表征模型用于对分词后的法律文书进行向量化,得到法律文书的向量。
[0098]
进一步地,向量表征层包括分词模型和向量表征模型,向量表征层还可以用于基于预设的关键词集,获取待提取法律文书的目标关键句。此时,向量表征层的输入可以为法律文书的文本数据,“获取待提取法律文书的目标文书向量”具体可以包括:通过向量表征层还可以用于基于预设的关键词集,获取待提取法律文书的目标关键句;通过分词模型对所述目标关键句进行分词,得到所述待提取法律文书的分词集;通过向量表征模型将所述分词集中各分词进行向量化为定长向量,得到所述待提取法律文书的目标文书向量。
[0099]
(二)信息提取层,用于基于向量化后的法律文书提取法律文书的关键信息。
[0100]
在一些实施例中,信息提取层可以为卷积神经网络(convolutional neural network,cnn)和全连接层,其中,在cnn的输出部分连接全连接层进行输出。
[0101]
在一些实施例中,信息提取层为门控循环神经网络(gated recurrent neural network,gru)和全连接层,其中,在gru的输出部分连接全连接层进行输出。
[0102]
gru有两个有两个门,即一个重置门(reset gate)和一个更新门(update gate)。从直观上来说,重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。由于在一些法律文书中可能存在较多的当事人,当事人相关的信息会发生多次变化。而gru有两个有两个门,即一个重置门(reset gate)和一个更新门(update gate)。从直观上来说,重置门决定了如何将新的输入信息与前面的记忆相结合,更新门定义了前面记忆保存到当前时间步的量。因此,gru网络相对于传统神经网络能够更好地捕捉时间序列中时间步距离较大的依赖关系,通过采用gru网络作为信息提取层,有利于在当事人信息较多的情况下进行准确判断,一定程度上提高了待提取法律文书的关键信息的提取精度。
[0103]
进一步地,如图5所示,图5是本技术实施例中提供的信息提取模型的另一种网络结构示意图。其中,信息提取模型还可以进一步包括分类层;信息提取层可以包括多个子信息提取层,每个子信息提取层针对一种类别的法律文书而设置。
[0104]
如图5所示,分类层用于对法律文书进行分类,得到法律文书的类别。在确定法律文书的类别之后,将法律文书输入至与法律文书的类别对应设置的字信息提取层。
[0105]
在一些实施例中,分类层可以分类模型结构,并以预设的分类模型基于样本法律文书单独进行训练得到。示例性地,可以采用可用于分类任务的网络,如开源的efficientnet模型、yolov3网络、mobilenet网络等,作为待训练的分类网络。并采用预先采集的样本法律文书的属性信息作为样本法律文书、标注好样本法律文书的属性信息的类别标签后,对待训练的分类网络进行训练,得到训练后的分类网络。
[0106]
分类网络的训练过程与现有的分类网络的训练过程类似,都是基于预先采集样本
法律文书的属性信息作为样本和对样本的标注数据进行有监督的学习,对于具体的训练过程可以参照现有的分类网络的训练过程,在此不做详细介绍。
[0107]
301、获取所述目标类别的样本法律文书。
[0108]
其中,样本法律文书标签包括样本实际关键信息。
[0109]
样本法律文书用于训练信息提取模型的法律文件,如行政判决书、行政裁定书、行政调解书,民事制裁决定书、支付令,刑事附带民事判决书、刑事附带民事裁定书、刑事附带民事调解书等等。
[0110]
样本实际关键信息为样本法律文书实际的主体(如原告、被告)的诉讼关键信息。如原被告信息、涉案时间和涉案金额。
[0111]
302、通过信息提取模型中的向量表征层,获取所述样本法律文书的样本文书向量。
[0112]
在一些实施例中,向量表征层由向量表征模型构成,向量表征层具体用于对分词后的法律文书进行向量化,得到法律文书的向量。此时,步骤302具体地可以包括:首先,对样本法律文书中各语句进行分词,得到样本法律文书的分词集;然后,将样本法律文书的分词集输入信息提取模型中的向量表征层,通过向量表征模型将样本法律文书的分词集中各分词进行向量化为定长向量,得到样本法律文书的样本文书向量。
[0113]
在一些实施例中,向量表征层包括分词模型和向量表征模型,向量表征层具体用于对法律文书中各语句进行分词,得到法律文书的分词集;并对分词后的法律文书进行向量化,得到法律文书的向量。此时,步骤302具体地可以包括:首先,将样本法律文书的文本数据输入信息提取模型中的向量表征层,通过分词模型对样本法律文书中各语句进行分词,得到样本法律文书的分词集;最后,通过向量表征模型将样本法律文书的分词集中各分词进行向量化为定长向量,得到样本法律文书的样本文书向量。
[0114]
进一步地,还可以先对基于预设的关键词集,获取样本法律文书的关键句;然后,再将样本法律文书的关键句输入信息提取模型中的向量表征层,通过分词模型对样本法律文书的关键句进行分词,得到样本法律文书的分词集;最后,通过向量表征模型将样本法律文书的分词集中各分词进行向量化为定长向量,得到样本法律文书的样本文书向量。
[0115]
在一些实施例中,向量表征层包括分词模型和向量表征模型,向量表征层具体用于基于预设的关键词集,获取法律文书的关键句;对法律文书的关键句进行分词,得到法律文书的分词集;并对分词后的法律文书进行向量化,得到法律文书的向量。此时,步骤302具体地可以包括:将样本法律文书的文本数据输入信息提取模型中的向量表征层。通过向量表征层,首先,对基于预设的关键词集,获取样本法律文书的关键句;然后,通过分词模型对样本法律文书的关键句进行分词,得到样本法律文书的分词集;最后,通过向量表征模型将样本法律文书的分词集中各分词进行向量化为定长向量,得到样本法律文书的样本文书向量。
[0116]
例如,向量表征层包括jieba分词模型和word2vec模型,将样本法律文书的文本数据输入信息提取模型中的向量表征层。通过向量表征层,首先,对基于预设的关键词集,获取样本法律文书的关键句;然后,通过jieba分词模型对样本法律文书的关键句进行分词,得到样本法律文书的分词集;最后,通过word2vec模型将样本法律文书的分词集中各分词进行向量化为定长向量,得到样本法律文书的样本文书向量。
[0117]
303、通过信息提取模型中与所述目标类别对应设置的信息提取层,基于所述样本文书向量,提取所述样本法律文书的样本预测关键信息。
[0118]
下面以信息提取层为gru网络和全连接层为例进行说明。
[0119]
在训练过程中,首先,将样本文书向量x
t
作为gru重置门和更新门的输入,重置门r
t
、更新门z
t
的计算公式分别如下公式(2)和公式(3)所示:
[0120]rt
=σ(x
twxr
+h
t-1whr
+br)
ꢀꢀꢀꢀ
公式(2)
[0121]zt
=σ(x
twxz
+h
t-1whz
+bz)
ꢀꢀꢀꢀ
公式(3)
[0122]
其中,w
xr
、w
xz
、w
hr
和w
hz
是权重参数,σ为sigmoid激活函数,br和bz为偏置参数,r
t
、z
t
分别为重置门、更新门的输出,h
t-1
为上一时间步隐藏状态。
[0123]
并将当前时间步重置门的输出与上一时间步隐藏状态做按元素乘法。如果重置门中元素值接近0,那么意味着重置对应隐藏状态元素为0,即丢弃上一时间步的隐藏状态。如果元素值接近1,那么表示保留上一时间步的隐藏状态。
[0124]
然后,将按元素乘法的结果与当前时间步的输入连结,再通过含激活函数tanh的全连接层计算出候选隐藏状态,其所有元素的值域为[-1,1]。候选隐藏状态和隐藏状态h
t
公式如下公式(4)和公式(5)所示:
[0125][0126][0127]
其中,w
xh
、w
hh
为权重参数。
[0128]
接着可以得到gru网络的输出为o,如下公式(6)所示:
[0129]
o=h
·whq
+b
hq
ꢀꢀꢀ
公式(6)
[0130]
其中,w
hq
为输出公式的权重,b
hq
为偏置参数。
[0131]
最后,在gru的输出部分连接全连接层进行输出,全连接层输出为y,如下公式(7)所示:y=sigmoid(o
·
wo+bo)
[0132]
其中,y表示样本法律文书的样本预测关键信息,激活函数为sigmoid,wo为输出公式的权重,bo为偏置参数。
[0133]
304、基于所述样本实际关键信息和所述样本预测关键信息,对所述信息提取模型中的参数进行调整,以得到训练完成的信息提取模型。
[0134]
具体地,根据样本实际关键信息和样本预测关键信息,确定信息提取模型的训练损失;并根据信息提取模型的训练损失,对信息提取模型中的参数进行调整,直至符合预设的停止训练条件时,得到训练完成的信息提取模型。
[0135]
在一些实施例中,可以将样本实际关键信息和样本预测关键信息,确定信息提取层的提取损失;将提取损失作为信息提取模型的训练损失,基于提取损失进行反向传播调整信息提取层的模型参数。
[0136]
在一些实施例中,还可以进一步结合信息提取层的提取损失和向量表征层的表征损失,进行反向传播调整信息提取模型中的参数,例如,基于信息提取层的提取损失进行反向传播调整信息提取层的模型参数,基于表征损失进行反向传播调整向量表征层的模型参数。
[0137]
其中,预设的停止训练条件可以根据实际需求而设置。例如,可以是当信息提取模型的训练损失小于预设值时,或者是信息提取模型的训练损失基本不再变化时,即相邻多次训练对应的训练损失的差值小于预设值;或者是模型训练的迭代次数达到最大迭代次数时。
[0138]
此时,可以将训练好的信息提取模型应用到实际法律文书的关键信息提取中。例如,可以将待提取法律文书的文本数据输入至信息提取模型,通过信息提取模型中的分类层,基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别;通过信息提取模型中的向量表征层,获取待提取法律文书的目标文书向量;通过信息提取模型中与目标类别对应的子信息提取层,基于所述目标文书向量,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。
[0139]
305、基于所述训练完成的信息提取模型中与所述目标类别对应设置的信息提取层,获取所述目标提取参数。
[0140]
具体地,从所述训练完成的信息提取模型中,获取与所述目标类别对应设置的信息提取层的权重参数;将所述权重参数作为所述目标提取参数。
[0141]
例如,在一些实施例中,信息提取层为由gru网络和全连接层组成,此时,可以直接将获取整个信息提取层(包括gru网络和全连接层)的权重参数,作为与目标类别对应的目标提取参数。
[0142]
又如,在一些实施例中,信息提取层包括多个子信息提取层,每个子信息提取层由gru网络和全连接层组成,每个子信息提取层对应一种类别的法律文书而设置,并通过如上步骤301~步骤304设置得到。则可以获取与目标类别对应设置的子信息提取层(包括gru网络和全连接层)的权重参数,作为与目标类别对应的目标提取参数。
[0143]
步骤301~步骤305中,目标类别对应的目标提取参数为例,说明了如何学习得到提取参数。本技术实施例中,针对每种类别的法律文书将对应学习一种提取参数,以使得在实际对待提取法律文书进行信息提取时,可以获取与待提取法律文书的目标类别对应的目标提取参数,对待提取法律文书进行提取得到目标关键信息。每种类别的法律文书对应的提取参数可以参照上述步骤301~步骤305,为简化表述,此处不再赘述。
[0144]
在信息提取模型训练完成后,步骤201中可以采用训练完成后的信息提取模型中的向量表征层获取待提取法律文书的目标文书向量。示例性地,此时,步骤201具体可以包括:将待提取法律文书的文本数据输入信息提取模型中的向量表征层。通过向量表征层,首先,对基于预设的关键词集,获取待提取法律文书的目标关键句;然后,通过分词模型对待提取法律文书的目标关键句进行分词,得到待提取法律文书的分词集;最后,通过向量表征模型将待提取法律文书的分词集中各分词进行向量化为定长向量,得到待提取法律文书的目标文书向量。
[0145]
例如,向量表征层包括jieba分词模型和word2vec模型,将待提取法律文书的文本数据输入信息提取模型中的向量表征层。通过向量表征层,首先,对基于预设的关键词集,获取待提取法律文书的目标关键句;然后,通过jieba分词模型对待提取法律文书的目标关键句进行分词,得到待提取法律文书的分词集;最后,通过word2vec模型将待提取法律文书的分词集中各分词进行向量化为定长向量,得到待提取法律文书的目标文书向量。
[0146]
由于实际业务场景会不断变化,因此信息提取模型提取的信息会存在需要进行更
新的情况,因此需要对信息提取模型的信息提取精度进行自动监控,并在信息提取模型的信息提取精度下降时,自动对信息提取模型进行更新。为了提高信息提取模型的场景适应能力,以提高提取准确度,该法律信息提取方法还可以进一步包括如下步骤b1~步骤b3:
[0147]
b1、获取所述目标关键信息对应的实际关键信息。
[0148]
其中,实际关键信息为场景变化后待提取法律文书待提取的正确关键信息。实际关键信息可以根据人工进行确定并输入。
[0149]
b2、根据所述目标关键信息和所述实际关键信息,确定所述信息提取模型的提取精度值。
[0150]
b3、当所述提取精度值小于预设精度阈值时,根据所述实际关键信息更新所述信息提取模型的参数。
[0151]
在一些实施例中,可以检测目标关键信息和实际关键信息是否一致,以确定信息提取模型是否误判。并统计信息提取模型的误判次数、正确判别次数、以及总判别次数。并计算正确判别次数与总判别次数,作为信息提取模型的提取精度值。当提取精度值大于或等于预设精度阈值时,不作进一步处理。当提取精度值小于预设精度阈值时,采用实际关键信息作为信息提取模型的标签,以使得信息提取模型以实际关键信息监督信息,对信息提取模型进行再次训练,从而更新信息提取模型的参数,进而保证信息提取层的提取参数得以更新,进而保证法律文书的信息提取准确度。
[0152]
在一些实施例中,可以基于auc(area under curve)来确定信息提取模型的提取精度值。具体可以检测目标关键信息和实际关键信息是否一致,以确定信息提取模型是否误判。并统计并基于信息提取模型的误判次数、正确判别次数、以及总判别次数,确定模型对正样本的预测值高于负样本预测值的概率多少,从而得到auc值,以作为信息提取模型的提取精度值。当auc值较低时,信息提取模型会利用现有的数据库(包括实际关键信息、以及目标文书向量)对模型进行自适应训练,从而提升模型提取关键信息的能力,能够较好保证模型应用的可靠性。
[0153]
auc被定义为roc曲线下的面积,用于衡量分类器效果。通过计算随机抽取一个正样本和负样本,模型对正样本的预测值高于负样本预测值的概率多少即可以得到这个指标。auc的取值范围在[0,1]之间,数值越高,说明模型提取法律文书的效果越好。
[0154]
其中,在信息提取模型的信息提取精度下降时,对信息提取模型进行再次训练的方式与上述步骤301~步骤305的方式类似,此处不再赘述。
[0155]
为了更好地理解本技术实施例,下面以一具体例子说明法律文书信息提取过程。请参照图6,图6是本技术实施例提供的法律文书信息提取过程的一种说明示意图,在本举例中,将以法律信息的提取通过如图5所示训练完成的信息提取模型实现为例。
[0156]
601、获取每个类别的样本法律文书,对预设的信息提取模型进行训练,得到训练完成的信息提取模型。
[0157]
图5中训练完成的信息提取模型中信息提取层的每个子信息提取层,对应一种提取参数;每个子信息提取层的提取参数用于提取一种类别的法律文书的关键信息。其中,信息提取模型的训练过程可以参照上述步骤301~步骤305中的介绍,为简化表述,此处不再赘述。
[0158]
602、可以将待提取法律文书的文本数据输入至如图5所示训练完成的信息提取模
型中。
[0159]
603、通过信息提取模型中的分类层,基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别。分类方式可以参照上述步骤202中、及“分类层”的相关介绍,为简化表述,此处不再赘述。
[0160]
604、通过信息提取模型中的向量表征层,获取待提取法律文书的目标文书向量。具体可以参照上述“向量表征层”的相关介绍,为简化表述,此处不再赘述。
[0161]
605、从信息提取模型中信息提取层的各子信息提取层中,确定与目标类别对应的子信息提取层。
[0162]
606、通过信息提取模型中与目标类别对应的子信息提取层,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。具体可以参照上述“信息提取层”的相关介绍,为简化表述,此处不再赘述。
[0163]
为了更好实施本技术实施例中法律信息提取方法,在法律信息提取方法基础之上,本技术实施例中还提供一种法律信息提取装置,如图7所示,为本技术实施例中法律信息提取装置的一个实施例结构示意图,该法律信息提取装置700包括:
[0164]
第一获取单元701,用于获取待提取法律文书的目标文书向量;
[0165]
分类单元702,用于基于所述待提取法律文书的属性信息,对所述待提取法律文书进行分类,得到所述待提取法律文书的目标类别;
[0166]
第二获取单元703,用于获取与所述目标类别对应的目标提取参数;
[0167]
提取单元704,用于基于所述目标提取参数和所述目标文书向量,对所述待提取法律文书进行信息提取,得到所述待提取法律文书的目标关键信息。
[0168]
在本技术的一些实施例中,所述第一获取单元701具体用于:
[0169]
基于预设的关键词集,获取所述待提取法律文书的目标关键句;
[0170]
对所述目标关键句进行分词,得到所述待提取法律文书的分词集;
[0171]
将所述分词集中各分词进行向量化为定长向量,得到所述待提取法律文书的目标文书向量。
[0172]
在本技术的一些实施例中,所述第二获取单元703具体用于:
[0173]
获取所述目标类别的样本法律文书,其中,所述样本法律文书标签包括样本实际关键信息;
[0174]
通过信息提取模型中的向量表征层,获取所述样本法律文书的样本文书向量;
[0175]
通过信息提取模型中与所述目标类别对应设置的信息提取层,基于所述样本文书向量,提取所述样本法律文书的样本预测关键信息;
[0176]
基于所述样本实际关键信息和所述样本预测关键信息,对所述信息提取模型中的参数进行调整,以得到训练完成的信息提取模型;
[0177]
基于所述训练完成的信息提取模型中与所述目标类别对应设置的信息提取层,获取所述目标提取参数。
[0178]
在本技术的一些实施例中,所述第二获取单元703具体用于:
[0179]
从所述训练完成的信息提取模型中,获取与所述目标类别对应设置的信息提取层的权重参数;
[0180]
将所述权重参数作为所述目标提取参数。
[0181]
在本技术的一些实施例中,所述训练完成的信息提取模型中与所述目标类别对应设置的信息提取层为循环神经网络结构。
[0182]
在本技术的一些实施例中,所述第一获取单元701具体用于:
[0183]
通过所述训练完成的信息提取模型中的向量表征层,获取所述待提取法律文书的目标文书向量。
[0184]
在本技术的一些实施例中,所述法律信息提取装置还包括更新单元(图中未示出),所述更新单元具体用于:
[0185]
获取所述目标关键信息对应的实际关键信息;
[0186]
根据所述目标关键信息和实际关键信息,确定所述信息提取模型的提取精度值;
[0187]
当所述提取精度值小于预设精度阈值时,根据所述实际关键信息更新所述信息提取模型的参数。
[0188]
具体实施时,以上各个单元可以作为独立的实体来实现,也可以进行任意组合,作为同一或若干个实体来实现,以上各个单元的具体实施可参见前面的方法实施例,在此不再赘述。
[0189]
由于该法律信息提取装置可以执行本技术如图1至图6对应任意实施例中法律信息提取方法中的步骤,因此,可以实现本技术如图1至图6对应任意实施例中法律信息提取方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0190]
此外,为了更好实施本技术实施例中法律信息提取方法,在法律信息提取方法基础之上,本技术实施例还提供一种电子设备,参阅图8,图8示出了本技术实施例电子设备的一种结构示意图,具体的,本技术实施例提供的电子设备包括处理器801,处理器801用于执行存储器802中存储的计算机程序时实现如图1至图6对应任意实施例中法律信息提取方法的各步骤;或者,处理器801用于执行存储器802中存储的计算机程序时实现如图7对应实施例中各单元的功能。
[0191]
示例性的,计算机程序可以被分割成一个或多个模块/单元,一个或者多个模块/单元被存储在存储器802中,并由处理器801执行,以完成本技术实施例。一个或多个模块/单元可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述计算机程序在计算机装置中的执行过程。
[0192]
电子设备可包括,但不仅限于处理器801、存储器802。本领域技术人员可以理解,示意仅仅是电子设备的示例,并不构成对电子设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如电子备还可以包括输入输出设备、网络接入设备、总线等,处理器801、存储器802、输入输出设备以及网络接入设备等通过总线相连。
[0193]
处理器801可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现成可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,处理器是电子设备的控制中心,利用各种接口和线路连接整个电子设备的各个部分。
[0194]
存储器802可用于存储计算机程序和/或模块,处理器801通过运行或执行存储在存储器802内的计算机程序和/或模块,以及调用存储在存储器802内的数据,实现计算机装
置的各种功能。存储器802可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据电子设备的使用所创建的数据(比如音频数据、视频数据等)等。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0195]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的法律信息提取装置、电子设备及其相应单元的具体工作过程,可以参考如图1至图6对应任意实施例中法律信息提取方法的说明,具体在此不再赘述。
[0196]
本领域普通技术人员可以理解,上述实施例的各种方法中的全部或部分步骤可以通过指令来完成,或通过指令控制相关的硬件来完成,该指令可以存储于一计算机可读存储介质中,并由处理器进行加载和执行。
[0197]
为此,本技术实施例提供一种计算机可读存储介质,其中存储有多条指令,该指令能够被处理器进行加载,以执行本技术如图1至图6对应任意实施例中法律信息提取方法中的步骤,具体操作可参考如图1至图6对应任意实施例中法律信息提取方法的说明,在此不再赘述。
[0198]
其中,该计算机可读存储介质可以包括:只读存储器(rom,read only memory)、随机存取存储器(ram,random access memory)、磁盘或光盘等。
[0199]
由于该计算机可读存储介质中所存储的指令,可以执行本技术如图1至图6对应任意实施例中法律信息提取方法中的步骤,因此,可以实现本技术如图1至图6对应任意实施例中法律信息提取方法所能实现的有益效果,详见前面的说明,在此不再赘述。
[0200]
以上对本技术实施例所提供的一种法律信息提取方法、装置、电子设备及计算机可读存储介质进行了详细介绍,本文中应用了具体个例对本技术的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本技术的方法及其核心思想;同时,对于本领域的技术人员,依据本技术的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本技术的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1