一种利用预测模型分析法律文书要素的处理方法和装置与流程

文档序号:38494204发布日期:2024-06-27 11:51阅读:31来源:国知局
一种利用预测模型分析法律文书要素的处理方法和装置与流程

本发明涉及数据处理,特别涉及一种利用预测模型分析法律文书要素的处理方法和装置。


背景技术:

1、法律文书是一种格式化文档,不同类型的法律文书都有一定的要素规范。民事起诉状为法律文书中的一种,该类法律文书通常具备以下要素:标题、原告和/或原告代理机构/人、被告和/或被告代理机构/人、诉讼请求、案由、事实与理由、证据与证据来源、法院机构、起诉人签章、起诉时间、附件目录;其中,关键要素包括案由要素、证据要素等,且证据要素由多个与案由相关的事实证据项组成,证据项又可进一步的拆分为证据项名称和证据项内容。在撰写民事起诉状时一方面需要注意证据项与案由的关联关系,另一方面也需要尽可能多地进行证据项收集来提高胜诉概率。目前在民事起诉状的撰写环节大多依靠从业人员的人工行业经验来判定证据项的采集范围,资深律师和实习律师在证据项范围的选定方面还存在较大差异,这种差异会对案件的最终判决结果(胜诉/败诉)造成影响。


技术实现思路

1、本发明的目的,就是针对现有技术的缺陷,提供一种利用预测模型分析法律文书要素的处理方法、装置、电子设备及计算机可读存储介质。本发明先通过采集民事起诉状原文和对应的判决结果构建正、负样本集,并根据正样本集进行正样本案由与证据关联性分析得到对应的关联性列表,并根据正、负样本集进行案由种类总数和证据种类总数统计得到对应的案由、证据种类总数;继而参考案由种类总数和证据种类总数设计一个二分类预测模型即判决预测模型,并基于正、负样本集对该判决预测模型进行模型训练和评估;并在模型评估通过后,使用该判决预测模型根据用户输入的民事起诉状原文的案由与证据项名称集合进行判决结果预测、并在预测结果为败诉时基于关联性列表进行证据项补充分析并将分析结果向用户反馈。由此可见,本发明可以通过判决预测模型对案由、证据和胜/败诉的关联特性进行持续学习,并可使用判决预测模型对用户撰写的民事起诉状的胜/败诉可能性进行预测分析,并能在得到败诉预测结果时进一步使用一个由大量正样本案例分析获得的、能反映案由与证据关联性的关联性列表为用户进行进一步的证据项补充分析。通过本发明可以为经验不足的实习律师提供一种对民事起诉状的缺失证据项进行分析建议的辅助学习工具、可以帮助实习律师提高证据项范围的判定能力、减小实习律师与资深律师之间关于证据项范围判定方面的能力差异。

2、为实现上述目的,本发明实施例第一方面提供了一种利用预测模型分析法律文书要素的处理方法,所述方法包括:

3、通过采集民事起诉状原文和对应的判决结果构建正样本集和负样本集;并根据所述正样本集进行正样本案由与证据关联性分析得到对应的所述关联性列表;并根据所述正、负样本集进行案由种类总数和证据种类总数统计得到对应的所述案由种类总数和所述证据种类总数;

4、参考所述案由种类总数和所述证据种类总数构建判决预测模型;并基于所述正、负样本集对所述判决预测模型进行模型训练和评估;

5、模型评估通过后,接收任意用户输入的当前民事起诉状原文;并对所述当前民事起诉状原文进行案由与证据项名称集合提取处理得到对应的当前案由和当前证据项名称集合组成对应的当前模型输入数据;并由所述判决预测模型根据所述当前模型输入数据进行判决结果预测得到对应的当前预测结果向当前用户反馈;并在所述当前预测结果为败诉时,根据所述当前模型输入数据和所述关联性列表进行证据项补充分析得到对应的当前补充建议向当前用户反馈;所述当前预测结果包括胜诉和败诉。

6、优选的,所述民事起诉状原文的法律文书要素中包括案由要素和证据要素;所述证据要素包括多个证据项;所述证据项包括证据项名称和证据项原文;所述民事起诉状原文对应的所述判决结果包括败诉和胜诉;

7、所述正样本集包括多个第一正样本记录;所述第一正样本记录包括第一起诉状原文字段、第一案由字段和第一证据字段;所述正样本集中的所有所述第一正样本记录对应的所述判决结果都为胜诉;所述第一证据字段包括多个第一证据项名称;所述第一正样本记录与一个所述判决结果为胜诉的所述民事起诉状原文对应;所述第一正样本记录中,所述第一起诉状原文字段用于保存对应的所述民事起诉状原文,所述第一案由字段用于保存对应的所述民事起诉状原文的所述案由要素的要素文本,所述第一证据字段用于保存对应的所述民事起诉状原文的所有所述证据项名称的名称文本;

8、所述负样本集包括多个第一负样本记录;所述第一负样本记录包括第二起诉状原文字段、第二案由字段和第二证据字段;所述负样本集中的所有所述第一负样本记录对应的所述判决结果都为败诉;所述第二证据字段包括多个第二证据项名称;所述第一负样本记录与一个所述判决结果为败诉的所述民事起诉状原文对应;所述第一负样本记录中,所述第二起诉状原文字段用于保存对应的所述民事起诉状原文,所述第二案由字段用于保存对应的所述民事起诉状原文的所述案由要素的要素文本,所述第二证据字段用于保存对应的所述民事起诉状原文的所有所述证据项名称的名称文本;

9、所述关联性列表包括多个第一关联记录;所述第一关联记录包括第三案由字段、第一基础证据关联字段和第一最大证据关联字段;所述第一基础证据关联字段和所述第一最大证据关联字段都由多个所述第一证据项名称组成,但所述第一基础证据关联字段的所述第一证据项名称的总数小于或等于所述第一最大证据关联字段的所述第一证据项名称的总数。

10、优选的,所述根据所述正样本集进行正样本案由与证据关联性分析得到对应的所述关联性列表,具体包括:

11、将所述正样本集中各个所述第一正样本记录的所述第一案由字段和所述第一证据字段提取出来作为对应的第一案由和第一证据项名称集合;并由各个所述第一正样本记录对应的所述第一案由和所述第一证据项名称集合组成一个对应的第一对应关系;所述第一证据项名称集合包括多个所述第一证据项名称;

12、在得到的所有所述第一对应关系中,将所述第一案由相同的一个或多个所述第一对应关系聚为一类组成一个对应的第一类对应关系集合;并对各个所述第一类对应关系集合中的所述第一对应关系的总数进行统计得到对应的第一总数;

13、并对各个所述第一类对应关系集合进行遍历;并在遍历时,将当前遍历的所述第一类对应关系集合作为对应的当前对应关系集合;并由所述当前对应关系集合中的所有所述第一证据项名称集合组成对应的第一集合;并对所述第一集合中的所述第一证据项名称进行去重处理得到对应的第二集合;并对所述第二集合中的各个所述第一证据项名称在所述第一集合中的重复次数进行统计得到对应的第一名称重复次数;并将所述第二集合中,各个所述第一名称重复次数与所述第一总数相等的所述第一证据项名称记为对应的第一基础证据项名称;并由得到的所有所述第一基础证据项名称组成对应的第三集合;并将所述当前对应关系集合对应的所述第一案由、所述第三集合和所述第二集合分别作为对应的所述第三案由字段、所述第一基础证据关联字段和所述第一最大证据关联字段组成一个对应的所述第一关联记录;并在遍历结束时,由得到的所有所述第一关联记录组成对应的所述关联性列表;其中,所述第二集合包括多个不重复的所述第一证据项名称;所述第一集合中,若某个所述第一证据项名称仅在包含在当前集合中的一个所述第一证据项名称集合之内则对应的所述第一名称重复次数为1,若某个所述第一证据项名称分别包含在当前集合中的两个所述第一证据项名称集合之内则对应的所述第一名称重复次数为2,以此类推,若某个所述第一证据项名称包含在当前集合中的所有所述第一证据项名称集合之内则对应的所述第一名称重复次数与所述第一总数相等。

14、优选的,所述根据所述正、负样本集进行案由种类总数和证据种类总数统计得到对应的所述案由种类总数和所述证据种类总数,具体包括:

15、将所述正样本集中各个所述第一正样本记录的所述第一案由字段提取出来作为一个对应的第一样本案由;并将所述负样本集中各个所述第一负样本记录的所述第二案由字段提取出来作为一个对应的所述第一样本案由;并由得到的所有所述第一样本案由组成对应的第一样本案由集合;并对所述第一样本案由集合的所述第一样本案由进行去重处理得到对应的第二样本案由集合;并对所述第二样本案由集合中不重复的所述第一样本案由的总数进行统计并将统计结果作为对应的所述案由种类总数;所述第二样本案由集合包括多个不重复的所述第一样本案由;

16、将所述正样本集中各个所述第一正样本记录的所述第一证据字段的所有所述第一证据项名称提取出来组成一个对应的第一样本证据项名称集合;并将所述负样本集中各个所述第一负样本记录的所述第二证据字段的所有所述第二证据项名称提取出来组成一个对应的所述第一样本证据项名称集合;并由得到的所有所述第一样本证据项名称集合组成对应的第一证据项名称全集;并对所述第一证据项名称全集的所述第二证据项名称进行去重处理得到对应的第二证据项名称全集;并对所述第二证据项名称全集中不重复的所述第二证据项名称的总数进行统计并将统计结果作为对应的所述证据种类总数;所述第二证据项名称全集包括多个不重复的所述第二证据项名称。

17、优选的,所述判决预测模型的模型输入为一个由案由和证据项名称集合组成的模型输入数据,模型输出为一个具体为胜诉或败诉的预测结果;

18、所述判决预测模型包括要素编码模块、二分类预测模块和预测结果输出模块;所述要素编码模块与所述二分类预测模块连接,所述二分类预测模块与所述预测结果输出模块连接;

19、所述要素编码模块用于根据模型输入数据进行特征编码得到对应的输入特征张量向所述二分类预测模块发送,具体为:根据模型输入数据中的案由进行独热向量编码生成对应的案由特征向量,并根据模型输入数据中的证据项名称集合进行独热向量编码生成对应的证据特征向量,并由得到的所述案由特征向量和所述证据特征向量组成对应的所述输入特征张量向所述二分类预测模块发送;所述案由特征向量的向量长度与所述案由种类总数匹配;所述案由特征向量由所述案由种类总数的案由特征编码组成,每个所述案由特征编码与一类案由对应;所述案由特征向量中与当次输入案由对应的所述案由特征编码被设为1,其余的所有所述案由特征编码则被设为0;所述证据特征向量的向量长度与所述证据种类总数匹配;所述证据特征向量由所述证据种类总数的证据特征编码组成,每个所述证据特征编码与一类证据项名称对应;所述证据特征向量中与当次输入的证据项名称集合中的各个证据项名称对应的所述证据特征编码被设为1,其余的所有所述证据特征编码则被设为0;

20、所述二分类预测模块用于根据所述输入特征张量进行二分类预测生成对应的二分类预测向量;并将所述二分类预测向量向所述预测结果输出模块发送;所述二分类预测向量由两类预测概率组成,分别为胜诉预测概率和败诉预测概率;所述二分类预测模块的具体实现方式至少包括基于多层感知神经网络实现的二分类预测模型、基于支持向量机模型结构实现的二分类预测模型、基于随机数森林模型结构实现的二分类预测模型、基于决策树模型结构实现的二分类预测模型、基于线性回归模型结构实现的二分类预测模型;

21、所述预测结果输出模块用于根据所述二分类预测向量的所述胜诉预测概率和所述败诉预测概率进行预测结果输出,具体为:若所述胜诉预测概率大于所述败诉预测概率则将输出的预测结果设为胜诉;若所述胜诉预测概率小于或等于所述败诉预测概率则将输出的预测结果设为败诉。

22、优选的,所述基于所述正、负样本集对所述判决预测模型进行模型训练和评估,具体包括:

23、步骤61,将所述正样本集的各个所述第一正样本记录的所述第一案由字段和所述第一证据字段提取出来作为对应的第一训练案由和第一训练证据项名称集合;并由各个所述第一正样本记录对应的所述第一训练案由和所述第一训练证据项名称集合组成一个对应的第一训练模型输入数据;并为各个所述第一正样本记录设置一个对应的第一标签二分类预测向量;并将各个所述第一正样本记录对应的所述第一标签二分类预测向量的第一胜诉预测概率设为1、第一败诉预测概率设为0;并由各个所述第一正样本记录对应的所述第一训练模型输入数据和所述第一标签二分类预测向量组成一个对应的第一训练数据记录;所述第一标签二分类预测向量包括所述第一胜诉预测概率和所述第一败诉预测概率;

24、步骤62,将所述负样本集的各个所述第一负样本记录的所述第二案由字段和所述第二证据字段提取出来作为对应的所述第一训练案由和所述第一训练证据项名称集合;并由各个所述第一负样本记录对应的所述第一训练案由和所述第一训练证据项名称集合组成一个对应的所述第一训练模型输入数据;并为各个所述第一负样本记录设置一个对应的所述第一标签二分类预测向量;并将各个所述第一负样本记录对应的所述第一标签二分类预测向量的所述第一胜诉预测概率设为0、所述第一败诉预测概率设为1;并由各个所述第一负样本记录对应的所述第一训练模型输入数据和所述第一标签二分类预测向量组成一个对应的所述第一训练数据记录;

25、步骤63,由得到的所有所述第一训练数据记录组成对应的第一数据集;并基于预设的训练集与评估集的数据分割比例将所述第一数据集随机分割成两个数据子集,记为对应的第一训练集和第一评估集;所述第一训练集和所述第一评估集都由多个所述第一训练数据记录组成;所述第一训练集的记录总数与所述第一评估集的记录总数的比值满足所述训练集与评估集的数据分割比例;

26、步骤64,将所述第一训练集的第一个所述第一训练数据记录提取出来作为对应的当前训练记录;

27、步骤65,将所述当前训练记录的所述第一训练模型输入数据和所述第一标签二分类预测向量提取出来作为对应的当前训练模型输入数据和当前标签二分类预测向量;

28、步骤66,由所述判决预测模型的所述要素编码模块根据所述当前训练模型输入数据进行特征编码得到对应的所述输入特征张量向所述二分类预测模块发送;并由所述二分类预测模块根据所述输入特征张量进行二分类预测生成对应的所述二分类预测向量;

29、步骤67,使用预设的第一损失函数根据所述二分类预测向量与所述当前标签二分类预测向量进行损失函数计算得到对应的第一损失值;所述第一损失函数包括l1、l2损失函数;

30、步骤68,对所述第一损失值是否满足预设的第一损失值范围进行识别;若所述第一损失值满足所述第一损失值范围,则对所述当前训练记录是否为所述第一训练集的最后一个所述第一训练数据记录进行识别,若是则转至步骤69,若否则将所述第一训练集中的下一个所述第一训练数据记录提取出来作为新的所述当前训练记录并返回步骤65;若所述第一损失值不满足所述第一损失值范围,则基于预设的模型参数优化器朝着使所述第一损失函数的函数值达到最小值的方向对所述判决预测模型的所述要素编码模块和所述二分类预测模块的模型参数进行优化调制,并在调制后返回步骤66;所述模型参数优化器包括sdg优化器和adam优化器;

31、步骤69,设置四个初始化为0的计数器,分别为tp计数器、fp计数器、fn计数器和tn计数器;

32、步骤70,将所述第一评估集的第一个所述第一训练数据记录提取出来作为对应的当前评估记录;

33、步骤71,将所述当前评估记录的所述第一训练模型输入数据提取出来作为对应的所述当前训练模型输入数据;并对所述当前评估记录的所述第一标签二分类预测向量的所述第一胜诉预测概率是否为1进行识别,若是则设置对应的第一标签预测结果为胜诉,若否则设置对应的第一标签预测结果为败诉;

34、步骤72,由所述判决预测模型的所述要素编码模块根据所述当前训练模型输入数据进行特征编码得到对应的所述输入特征张量向所述二分类预测模块发送;并由所述二分类预测模块根据所述输入特征张量进行二分类预测生成对应的所述二分类预测向量,并将所述二分类预测向量向所述预测结果输出模块发送;并由所述预测结果输出模块根据所述二分类预测向量的所述胜诉预测概率和所述败诉预测概率进行预测结果输出得到对应的第一模型预测结果;所述第一模型预测结果包括胜诉和败诉;

35、步骤73,对所述第一标签预测结果和所述第一模型预测结果进行比对;若所述第一标签预测结果与所述第一模型预测结果都为胜诉,则对所述tp计数器的计数值加1;若所述第一标签预测结果为胜诉但所述第一模型预测结果为败诉,则对所述fn计数器的计数值加1;若所述第一标签预测结果为败诉但所述第一模型预测结果为胜诉,则对所述fp计数器的计数值加1;若所述第一标签预测结果与所述第一模型预测结果都为败诉,则对所述tn计数器的计数值加1;

36、步骤74,对所述当前评估记录是否为所述第一评估集的最后一个所述第一训练数据记录进行识别,若是则转至步骤75,若否则将所述第一评估集中的下一个所述第一训练数据记录提取出来作为新的所述当前评估记录并返回步骤71;

37、步骤75,根据所述tp计数器、所述fp计数器、所述fn计数器和所述tn计数器进行准确率、查准率、查全率和f值估算得到对应的第一准确率、第一查准率、第一查全率和第一f值;

38、步骤76,对所述第一准确率、所述第一查准率、所述第一查全率和所述第一f值是否各自满足预设的准确率合格范围、查准率合格范围、查全率合格范围和f值合格范围进行识别;若所述第一准确率、所述第一查准率、所述第一查全率和所述第一f值全都满足各自对应的所述准确率合格范围、所述查准率合格范围、所述查全率合格范围和所述f值合格范围,则设置对应的第一评估结果为评估通过;若所述第一准确率、所述第一查准率、所述第一查全率和所述第一f值并非全都满足各自对应的所述准确率合格范围、所述查准率合格范围、所述查全率合格范围和所述f值合格范围,则设置对应的第一评估结果为评估不通过;所述第一评估结果包括评估通过和评估不通过;

39、步骤77,对所述第一评估结果进行识别;若所述第一评估结果为评估不通过,则基于所述训练集与评估集的数据分割比例将所述第一数据集随机分割成两个新的数据子集、记为新的所述第一训练集和新的所述第一评估集,并返回步骤64重新训练;若所述第一评估结果为评估通过,则停止对所述判决预测模型的模型训练并确认模型评估通过。

40、优选的,所述根据所述当前模型输入数据和所述关联性列表进行证据项补充分析得到对应的当前补充建议向当前用户反馈,具体包括:

41、从所述当前模型输入数据中提取出对应的所述当前案由和所述当前证据项名称集合;并将所述关联性列表中所述第三案由字段与所述当前案由匹配的所述第一关联记录作为对应的当前匹配记录;并将所述当前匹配记录的所述第一基础证据关联字段和所述第一最大证据关联字段提取出来作为对应的当前案由基础证据项名称集合和当前案由最大证据项名称集合;

42、并对所述当前案由最大证据项名称集合的各个所述第一证据项名称进行遍历;并在遍历时,将当前遍历的所述第一证据项名称作为对应的当前证据项名称;并对所述当前证据项名称是否包含在所述当前证据项名称集合中进行确认;若所述当前证据项名称不包含在所述当前证据项名称集合中,则将所述当前证据项名称记为对应的缺失证据项名称,并进一步在确认当次标记的所述缺失证据项名称还包含在所述当前案由基础证据项名称集合中时将其改记为对应的基础缺失证据项名称;

43、并在遍历结束后,由得到的所有所述基础缺失证据项名称和所述缺失证据项名称组成对应的所述当前补充建议向当前用户反馈。

44、本发明实施例第二方面提供了一种用于实现上述第一方面所述的利用预测模型分析法律文书要素的处理方法的装置,所述装置包括:数据准备模块、预测模型构建与训练评估模块和模型预测与证据项补充分析处理模块;

45、所述数据准备模块用于通过采集民事起诉状原文和对应的判决结果构建正样本集和负样本集;并根据所述正样本集进行正样本案由与证据关联性分析得到对应的所述关联性列表;并根据所述正、负样本集进行案由种类总数和证据种类总数统计得到对应的所述案由种类总数和所述证据种类总数;

46、所述预测模型构建与训练评估模块用于参考所述案由种类总数和所述证据种类总数构建判决预测模型;并基于所述正、负样本集对所述判决预测模型进行模型训练和评估;

47、所述模型预测与证据项补充分析处理模块用于在模型评估通过后,接收任意用户输入的当前民事起诉状原文;并对所述当前民事起诉状原文进行案由与证据项名称集合提取处理得到对应的当前案由和当前证据项名称集合组成对应的当前模型输入数据;并由所述判决预测模型根据所述当前模型输入数据进行判决结果预测得到对应的当前预测结果向当前用户反馈;并在所述当前预测结果为败诉时,根据所述当前模型输入数据和所述关联性列表进行证据项补充分析得到对应的当前补充建议向当前用户反馈;所述当前预测结果包括胜诉和败诉。

48、本发明实施例第三方面提供了一种电子设备,包括:存储器、处理器和收发器;

49、所述处理器用于与所述存储器耦合,读取并执行所述存储器中的指令,以实现上述第一方面所述的方法步骤;

50、所述收发器与所述处理器耦合,由所述处理器控制所述收发器进行消息收发。

51、本发明实施例第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,当所述计算机指令被计算机执行时,使得所述计算机执行上述第一方面所述的方法的指令。

52、本发明实施例提供了一种利用预测模型分析法律文书要素的处理方法、装置、电子设备及计算机可读存储介质。由上述内容可知,本发明实施例先通过采集民事起诉状原文和对应的判决结果构建正、负样本集,并根据正样本集进行正样本案由与证据关联性分析得到对应的关联性列表,并根据正、负样本集进行案由种类总数和证据种类总数统计得到对应的案由、证据种类总数;继而参考案由种类总数和证据种类总数设计一个二分类预测模型即判决预测模型,并基于正、负样本集对该判决预测模型进行模型训练和评估;并在模型评估通过后,使用该判决预测模型根据用户输入的民事起诉状原文的案由与证据项名称集合进行判决结果预测、并在预测结果为败诉时基于关联性列表进行证据项补充分析并将分析结果向用户反馈。由此可见,本发明实施例可以通过判决预测模型对案由、证据和胜/败诉的关联特性进行持续学习,并可使用判决预测模型对用户撰写的民事起诉状的胜/败诉可能性进行预测分析,并能在得到败诉预测结果时进一步使用一个由大量正样本案例分析获得的、能反映案由与证据关联性的关联性列表为用户进行进一步的证据项补充分析。通过本发明实施例可以为经验不足的实习律师提供一种对民事起诉状的缺失证据项进行分析建议的辅助学习工具、可以帮助实习律师提高证据项范围的判定能力、减小实习律师与资深律师之间关于证据项范围判定方面的能力差异。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1