本申请涉及计算机领域,尤其涉及一种基于大数据挖掘相似裁判文书的技术。
背景技术:
随着互联网技术的迅速发展,网络上的文本数据信息呈现爆炸式增长,然而,在这些海量的文本数据信息中查找出少量的有效的文本数据信息就变得越来越困难。例如,在海量的自动问答系统、智能检索系统、邮件筛选系统等存在大量文本数据信息的系统中查找出有效的文本数据信息越来越困难且耗时耗力。
现有技术中,在法院业务场景里,法官对在审案件做出事实认定和判决结果之前,需要事先或者实时挖掘有效的相似的裁判文书。例如,人民法院通过比较多个法官在审判案情相似,当事人诉求相近的不同案件时的判决结果,以审计法官的判决结果是否合理;同时,法官在实际审判案件过程中,也会参考案情相似的已有案例的裁判文书,形成最终的事实认定和裁判文书的判决结果。由于人民法院在搜索有效的相似的裁判文书的实际操作中依赖于大量的人力标注和搜索,耗时又耗力,况且人力搜索出的相似裁判文书的质量完全依赖于个人经验,不能更好的满足法院业务需求,导致工作效率低;又由于各级法院记录裁判文书的风格各异,关键案情和当事人关键诉求通常通过搜索模板或者传统的自然语言处理方法挖掘,容易挖掘出错误的案情和当事人诉求,尤其挖掘不出当事人争议点,造成挖掘出的有效的相似的裁判文书的精确度低;又由于出于对在审输入案例的保密性,不能实时输入在审案例文本查询相似的裁判文书,造成查询相似的裁判文书的实时性差,同时在查询到相似的裁判文书时,由于相似的裁判文书的文字多、内容复杂及裁判文书的判决结果需要人工提取,导致查询到的相似的裁判文书的判决结果的可视化程度低,造成法院处理在审案例文本的业务时的工作效率低。
因此,现有技术中,由于在海量的文本数据中查找某一输入案例文本的相似的裁判文书耗时耗力、实时性差及精确度低,造成正常处理查找业务的工作效率低。
技术实现要素:
本申请的目的是提供一种基于大数据挖掘相似裁判文书的方法与设备,以解决现有技术中在海量的已公开的裁判文书中查找某一输入案例文本的相似的裁判文书耗时耗力、实时性差及精确度低,造成正常处理查找业务的工作效率低的问题。
根据本申请的一个方面,提供了一种用于第一设备端基于大数据挖掘相似裁判文书的方法,包括:
获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;
基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;
基于若干所述关键词相关信息更新关于关键词的特征词库。
根据本申请的另一个方面,提供了一种用于第二设备端基于大数据挖掘相似裁判文书的方法,包括:
获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词;
基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量;
从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;
计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
根据本申请的另一个方面,提供了一种用于基于大数据挖掘相似裁判文书的第一设备,包括:
裁判文书获取装置,用于获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;
文本特征挖掘装置,用于基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;
特征词库建立装置,用于基于若干所述关键词相关信息更新关于关键词的特征词库。
根据本申请的另一个方面,提供了一种用于基于大数据挖掘相似裁判文书的第二设备,包括:
输入装置,用于获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词;
输入案例文本特征挖掘装置,用于基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量;
候选裁判文书获取装置,用于从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;
相似裁判文书获取装置,用于计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
根据本申请的另一个方面,提供了一种用于基于大数据挖掘相似裁判文书的系统,该系统包括第一设备和第二设备,其中,
所述第一设备包括:裁判文书获取装置,用于获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;文本特征挖掘装置,用于基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关 键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;特征词库建立装置,用于基于若干所述关键词相关信息更新关于关键词的特征词库;文本结构化装置,用于将所述裁判文书进行结构化处理,得到结构化后的文本结构化信息;文本结构化信息获取装置,用于基于所述文本结构化信息获取所述裁判文书的裁判相关信息,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果;发送装置,用于将所有所述裁判文书的文本特征向量、所述特征词库及所述裁判相关信息发送至第二设备的检索数据库中;
所述第二设备包括:接收装置,用于从第一设备接收所述第一设备所获取的所述公开裁判文书的文本特征向量、所述特征词库及所述裁判相关信息,并保存至所述检索数据库中,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果;文本结构化信息接收装置,用于接收所述第一设备所发送的将所述裁判文书进行结构化处理所得到结构化后的文本结构化信息;文本结构化信息获取装置,用于获取所述相似的裁判文书的文本结构化信息;输入装置,用于获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词;输入案例文本特征挖掘装置,用于基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量;候选裁判文书获取装置,用于从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;相似裁判文书获取装置,用于计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
与现有技术相比,根据本申请的实施例所述的一种用于第一设备端基于大数据挖掘相似裁判文书的方法与设备,通过获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文 本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;有效地将海量已公开的的每一裁判文书通过以裁判文书的裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息这三个要素来挖掘裁判文书的文本特征向量,并以文本特征向量的形式精确地显示出来,避免了人为耗时耗力地去分析文字多、内容复杂以及风格各异的海量裁判文书,从而有效地提高了挖掘相似的裁判文书的工作效率;并基于若干所述关键词相关信息更新关于关键词的特征词库,有效地将裁判文书的文本内容以所有所述关键词及其词语主题特征和扩展词建立的特征词库的形式进行高度辨识,使得能够快速获取相似的裁判文书及其对应的文本特征向量,达到了提高挖掘相似的裁判文书的工作效率的效果。
进一步地,根据本申请的实施例所述的一种用于第二设备端基于大数据挖掘相似裁判文书的方法与设备,通过首先获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词,使得输入案例文本获得关键词都能在检索数据库中找到,从而有效地提高通过关键词对输入案例文本进行相似的裁判文书的查找;然后基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量,能够有效地将输入案例文本的相关信息通过文本特征向量的形式表达出来;最后从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书,有效地将来自第一设备发送的候选的裁判文书的文本特征向量与实时挖掘出的输入案例文本的文本特征向量进行相似度计算,得到相似的裁判文书,使得能够快速地从海量已公开的裁判文书中精确地筛选出与输入案例文本相似的裁判文书,避免了人为耗时耗力地去分析文字多、内容复杂以及风格各异的海量的裁判文书,从而有效地提高了挖掘相似文本的工作效率。
附图说明
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:
图1示出根据本申请一个方面的一种用于第一设备端基于大数据挖掘相似裁判文书的方法流程示意图;
图2示出根据本申请一个方面的一个优选实施例用于第一设备端基于大数据挖掘裁判文书的文本特征向量的方法流程示意图;
图3示出根据本申请一个方面的一种用于第二设备端基于大数据挖掘相似裁判文书的方法流程示意图;
图4示出根据本申请一个方面的一个优选实施例用于第二设备端基于大数据挖掘裁判文书的文本特征向量的方法流程示意图;
图5示出根据本申请一个方面的一种基于大数据挖掘相似裁判文书的整体方法流程示意图;
图6示出根据本申请一个方面的一种用于基于大数据挖掘相似裁判文书的第一设备的结构示意图;
图7示出根据本申请一个方面的一种用于第一设备基于大数据的挖掘相似裁判文书的法院审各判阶段的流程示意图;
图8示出根据本申请一个方面的一个优选实施例用于云计算服务器挖掘裁判文书的文本特征向量的文本特征挖掘装置12的结构示意图;
图9示出根据本申请一个方面的一种用于基于大数据挖掘相似裁判文书的第二设备的结构示意图;
图10示出根据本申请一个方面的一个优选实施例用于基于大数据挖掘相似裁判文书的法院内网服务器中的输入案例文本特征挖掘装置22的结构示意图;
图11示出根据本申请一个方面的一种基于大数据挖掘相似裁判文书的系统示意图。
附图中相同或相似的附图标记代表相同或相似的部件。
具体实施方式
下面结合附图对本申请作进一步详细描述。
图1示出根据本申请一个方面的一种用于第一设备端基于大数据挖掘相似裁判文书的方法流程示意图。该方法包括步骤s11、步骤s12和步骤s13。
其中,所述步骤s11:获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;所述步骤s12:基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;所述步骤s13:基于若干所述关键词相关信息更新关于关键词的特征词库。
在步骤s11中,其中所述裁判文书的案由包括但不限于合同纠纷案由、婚姻家庭纠纷案由、权属侵权及无因管理纠纷案由及适用特别程序案件案由等。当然,现有及今后可能出现的所有法院业务场景中的裁判文书的案由如能适用本申请,均可以引用的方式包含于本申请。
在步骤s13中,其中所述关于关键词的特征词库包括海量已公开的裁判文书的所有的关键词相关信息和关键词对应的扩展词相关信息。
在此,所述裁判文书包括但不限于法院业务场景中的裁判文书等,包括一审法院认定事实文书、二审法院认定事实文书、再审法院认定事实文书、起诉状、答辩状、质询记录及证人证言等。
下面以法院业务场景中的裁判文书为例对本申请进行具体实施例的详细解释。当然,此处采用法院业务场景中的裁判文书为例对本申请进行具体实施例的详细解释,仅仅出于示例的目的,本申请的实施例不限于此,在其它的软件程序中同样可以实现下述实施例。
由于,在人民法院业务场景中的裁判文书不仅文字多且内容复杂,而且由于地域的不同,使得裁判文书的记录风格各异,因此需对海量已公开的裁判文书进行文本特征化处理,以使法院工作人员能够尽快的从海量已公开的裁判文书中找出需求的相似的裁判文书,其中应从以下三个方面来搜索需求的裁判文书,所述三个方面分别为裁判文书案情、当事人争议内 容和当事人诉求内容。
需要说明的是,所述文本主题特征信息包括但不限于法院业务场景中的裁判文书中关于裁判文书案情,所述关键词包括但不限于法院业务场景中的裁判文书中的当事人争议内容和当事人诉求内容等,下面以裁判文书中的当事人争议内容和当事人诉求内容为裁判文书的关键词以及关于裁判文书案情为文本主题特征信息为本申请一个方面的一个优选实施例对所述裁判文书进行文本特征向量的挖掘。
本申请一个方面的一个优选实施例通过获取海量已公开的裁判文书并获取每一所述裁判文书的案由;基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量,由于通过提取裁判文书中的与当事人争议内容和当事人诉求内容作为关键词,并提取与当事人争议内容和当事人诉求内容有关的词语作为关键词的扩展词将法院业务场景中的裁判文书以文本特征向量的形式表现出来,并挖掘出关于裁判文书案情的内容作为文本主题特信息,使得高效准确的将文字多且内容复杂的裁判文书的文本内容精确地表达出来,从而使法院工作人员能快速地通过裁判文书案情、当事人争议内容及当事人诉求内容查找到所需的相似的裁判文书,进一步地,基于若干所述关键词相关信息更新关于关键词的特征词库,使得法院工作人员能在输入关键词及其扩展词的同时,从特征词库中尽快的找到与输入的关键词及其扩展词有关的裁判文书,有效地提高了法院业务场景中的工作效率。
具体地,在所述步骤s11中,获取海量已公开的裁判文书。例如,在法院业务场景中抓取海量已公开的裁判文书,因为按照最高人民法院的规定,几乎所有的裁判文书都需要对外公开,因此在经过最高人民法院授权后,可以抓取已公开的所有裁判文书;且所述获取海量已公开的裁判文书可通过一个普通的网页抓取器抓取法院业务场景中所有的裁判文书所对应的标题,内容,判决编号,判决法院,审判员,判决时间等信息。
进一步地,在所述步骤s11之后且在所述步骤s12之前还包括步骤 s14(未示出)和步骤s15(未示出),所述步骤s14(未示出)将所述裁判文书进行结构化处理,得到结构化后的文本结构化信息;所述步骤s15(未示出)基于所述文本结构化信息获取所述裁判文书的裁判相关信息,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果。
在本申请的实施例中,所述步骤s14(未示出)主要对在所述步骤s11中获取的海量已公开的裁判文书进行文本预处理和结构化处理。例如,将在步骤s11中从法院业务场景中通过网页抓取到的海量已公开的裁判文书后,需要提取所抓取的裁判文书的文本内容,做好对裁判文书的文字处理和结构化处理。在所述步骤s14(未示出)中,首先通过网页分段方法(pageparse)提取裁判文书中文本内容,在所述网页分段方法(pageparse)中主要通过配置网页模板来提取裁判文书中不同部分的内容;接着通过将裁判文书中的中文空格等字符替换成英文,数值归一化成阿拉伯数字,去除文书内容中换行符,归一化文书编号及审判法院名称等对裁判文书进行文本预处理;然后对所述经过文本预处理的裁判文书进行结构化处理,其中,所述结构化处理包括以下四个方面:(一)、提取裁判文书中的原告、被告姓名,归一化表达标题和内容中的原告和被告,(二)、提取裁判文书中的案件类型,其中所述案件类型主要分为刑事诉讼,民事诉请,行政诉讼,知识产权纠纷,裁定书,赔偿案件,执行案件等7大裁判文书类型,(三)、结构化提取裁判文书中的案件案由,并归一化到人民法院审判的标准案由库中的案由上,(四)、结构化提取裁判文书的判决结果,即主要提取判决结果对象,主刑,附加刑,赔偿金额及当事人输赢等。
进一步地,所述步骤s12基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量,具体地,所述步骤s12具体的执行过程如图2所示,其中,图2示出根据本申请一个方面的一个优选实施例用于第一设备端基于大数据挖掘裁判文书的文本特征向量的方法流程示意图。所述步骤s12具体包括步骤s121、步骤s122、步骤s123和步骤s124。
其中,所述步骤s121包括:提取所述裁判文书的文本主题特征信息和所述裁判文书中各个词语的词语主题特征;所述步骤s122包括:获取各个所述词语间的上下文关系,基于所述上下文关系修正各个词语的词语主题特征,并基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词相关信息,其中,所述关键词相关信息包括关键词、关键词重要度信息及关键词对应的词语主题特征;所述步骤s123包括:基于所述关键词相关信息,更新所述裁判文书的文本主题特征信息;所述步骤s124包括:基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度,并基于所述关键词相关信息和所述扩展词相关信息建立词袋特征信息,并基于所更新的文本主题特征信息和所述词袋特征信息,确定所述裁判文书的文本特征向量。
具体地,在所述步骤s121中,所述裁判文书的文本主题特征信息具体用于指示所述裁判文书的案情,在本申请实施例中优选地采用主题模型方法来提取获取的裁判文书的文本主题特征信息和各个词语的词语主题特征,其中所述主题模型方法与现有技术中的主体模型方法一致。当然,其他现有的或今后可能出现的提取裁判文书中的文本主题特征信息和各个词语的词语主题特征的方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述步骤s122包括获取各个所述词语间的上下文词语共现关系;获取任意两个所述词语间的上下文转移概率;基于所述上下文词语共现关系和所述上下文转移概率,修正各个词语的词语主题特征;基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词相关信息,其中,所述关键词相关信息包括关键词、关键词重要度信息及关键词对应的词语主题特征。
在本申请的实施例中,所述步骤s122依赖于在步骤s121中提取的裁判文书的文本主题特征信息及各个词语的词语主题特征,根据获取各个所述词语间的上下文词语共现关系;获取任意两个所述词语间的上下文转移概率;基于所述上下文词语共现关系和所述上下文转移概率,修正各个词 语的词语主题特征;基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词及其对应的词语主题特征,并获取所述关键词的重要度信息。例如,针对一个裁判文书ds中的第i个单词wi,如果令该单词对应的主题topic为tj,则根据主题模型方法可知单词wi在裁判文书ds中出现的转移概率为:pj(wi|ds)=p(wi|tj)×p(tj|ds);其中,p(wi|tj)为在一主题tj下单词wi的转移概率,p(tj|ds)为在一裁判文书ds中主题tj的转移概率,接着一一枚举单词的主题topic,得到所有的所述转移概率pj(wi|ds),其中j取值为1至k的自然正整数,根据所得的所有所述转移概率为裁判文书ds中的第i个单词wi选择一个主题topic,其中,最简单常用的方法便是取令pj(wi|ds)值最大的主题tj,即max[j]pj(wi|ds);然后如果裁判文书ds中的第i个单词wi在此时选择了一个与在步骤s121中获得的词语主题特征不同的主题topic,便会对在给定的主题下的词语的转移概率和裁判文书中的每个主题的转移概率相应的造成影响,由于所述在给定的主题下的词语的转移概率和裁判文书中的每个主题的转移概率又会反过来的影响单词wi在裁判文书ds中出现的转移概率的计算,故对所有的裁判文书进行一次所述转移概率pj(wi|ds)的计算,并重新选择词语的词语主题topic看作是一次迭代。这样依照上述方法进行n次循环迭代之后,得到裁判文书收敛后的词语主题特征对应的词语为裁判文书的关键词,所述关键词对应的词语主题特征即为经过迭代后确定的,通过上述实施例中的方法确定的关键词更能够有效准确地表达所述裁判文书的关键词及其关键词的词语特征。
在本申请的实施例中,所述步骤s123中,基于在所述步骤s122中确定的关键词相关信息,更新所述裁判文书的文本主题特征信息。例如,通过以下公式来更新裁判文书的文本主题特征信息:
其中d表示更新后的文本主题特征信息,且裁判文书包含有n个关键词,wi是第i个关键词在裁判文书中的重要度信息,ii是关键词wi的词语主题特征,通过对以上裁判文书中的关键词的词语主题特征加权和,得到 裁判文书的文本主题特征信息,可以有效地去除裁判文书中不重要的词语和对构建文本主题特征信息的影响。
进一步地,在所述步骤s124中基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度。其中所述扩展词包括所述关键词的同义词及所述关键词在所述裁判文书中高度相关的词语。在本申请的实施例中,通过计算任意两个词语的主题特征相似度,来挖掘同义词。例如,对于关键词a,取相似度最高的若干个词语,作为关键词a的同义词。其中,通过挖掘高度相关的词语算法(word2vector)来计算关键词的高度相关的词语,所述算法对每个词语计算词向量,然后计算任意两个词语的词向量相似度,来挖掘高度相关的词语。例如,对于关键词a,取词向量相似度最高的若干个词语,作为关键词a的高度相关的词语。
进一步地,在步骤s124中基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度,并基于所述关键词相关信息和所述扩展词相关信息建立词袋特征信息,具体地,所述步骤s124包括基于所述关键词及其对应的词语主题特征,确定所述关键词的扩展词和扩展词相关度,其中,所述扩展词包括所述关键词的同义词和在所述裁判文书中高度相关的相关词语;基于所述关键词及其对应的词语主题特征和所述扩展词及扩展词相关度,利用词袋模型,建立词袋特征信息。
在本申请实施例中,所述词袋特征信息用于指示裁判文书中的关键词及其扩展词对应的词语特征。在词袋特征信息中,关键词特征的特征值是关键词在裁判文书中的重要度信息,同义词特征的特征值是关键词重要度信息与同义程度的乘积,相关词语特征的特征值是关键词重要度信息与相关程度的乘积。例如,假设所有裁判文书中一共有10万不同的词语,那么每个裁判文书的词袋特征信息都是10万维的向量,每维向量标记该位置的词语是否在裁判文书中出现。例如,假设词语word1是词袋特征信息中的第1维,词语word2是词袋特征信息中的第2维,词语word3是词袋特征信息中的第10维,词语word4是词袋特征信息中的第30维,word3 和word1互为相似词语,相似度为weight13,word4和word2互为相似词语,相似度为weight24;其中裁判文书a包含词语word1,word3以及weight4,并且它们在a中重要度信息分别为weight1,weight3,weight4,那么裁判文书a的词袋特征信息的第1维的特征值为weight1+weight13*weight3,第2维的特征值为weight24*weight4,第10维的特征值为weight3+weight1*weight13,第30维的特征值为weight4。其中,通过以上计算方法亦可以得到关键词的高度相关的词语的词语特征的特征值,故所得的词袋特征信息中的特征值包括关键词的词语主题特征对应的特征值以及扩展词的词语主题特征对应的特征值。
进一步地,所述步骤s124基于所更新的文本主题特征信息和所述词袋特征信息,确定所述裁判文书的文本特征向量,具体地,所述步骤s124包括将所述所更新的文本主题特征信息和所述词袋特征信息进行合并,确定所述裁判文书的原始文本特征;通过对所述裁判文书的原始文本特征进行特征归一,确定所述裁判文书的文本特征向量。
例如,将在所述步骤s123中得到的裁判文书的文本主题特征信息和词袋特征信息拼接成一个特征向量,生成裁判文书的原始文本特征。例如,裁判文书的文本主题特征信息是一个10维的特征向量,词袋特征信息是一个100维的特征向量,则有裁判文书的原始文本特征为一个110维的特征向量。再利用机器学习领域常用的特征归一化方法,对原始文本特征进行特征归一,生成裁判文书的文本特征向量。例如,假设所有裁判文书的同一特征均符合正态分布,因此可以将每维特征归一成标准的正态分布。
进一步地,所述步骤s13基于若干所述关键词相关信息更新关于关键词的特征词库,具体地,所述步骤s13包括以所述关键词为索引,对每一所述关键词的词语主题特征和扩展词建立所述关于关键词的特征词库。例如,在法院业务场景中,将裁判文书中的当事人诉求内容的词语以及当事人争议内容的词语作为提取裁判文书的关键词,并基于关键词查找与当事人诉求内容相关的词语以及当事人争议内容相关的词语作为关键词的扩展词对裁判文书进行特征提取,得到裁判文书的关键词和扩展词组成的特征词库。
进一步地,所述本申请的一个方面的一种用于第一设备端挖掘相似文本的方法还包括步骤s16(未示出)将所有所述裁判文书的文本特征向量、所述特征词库及所述裁判相关信息发送至第二设备的检索数据库中。例如,在法院业务场景中,将在所述步骤s12中获得的裁判文书的文本特征向量,在所述步骤s13中获得的裁判文书的特征词库以及在所述步骤s14(未示出)中获得的裁判文书的文本结构化信息发送至第二设备,以使第二设备在依赖第一设备计算出的特征词库和简化的计算逻辑,确保第一设备和第二设备针对同一份裁判文书能够输出相同的文本特征向量及特征词库。
图3示出根据本申请一个方面的一种用于第二设备端基于大数据挖掘相似裁判文书的方法流程示意图。该法该包括步骤s21、步骤s22、步骤s23和步骤s24。
其中,所述步骤s21:获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词;所述步骤s22:基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量;所述步骤s23:从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;所述步骤s24:计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
需要说明的是,所述输入案例文本包括但不限于已有的裁判文书和在审案例文书。当然,其他现有的或今后可能出现的输入案例文本如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的实施例中,在所述步骤s21之前还包括步骤s25(未示出),所述步骤s25(未示出)包括从第一设备接收所述第一设备所获取的所述公开裁判文书的文本特征向量、所述特征词库及所述裁判相关信息,并保存至所述检索数据库中,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果。例如,在法院业务场景内网中的检索数据库在线存储了裁判文书的文本特征向量、所述特征词库及所属裁判相关信息。具体存储 的裁判文书相关的信息包括以下八个方面:(一)、每种裁判文书中的案例类型和案由对应的裁判文书。其中,key是案例类型和案由,value是裁判文书在系统内部的编号。(二)、已有裁判文书的结构化信息。其中,key是裁判文书在系统内部的编号,value是由结构化提取模块生成的文本结构化信息。(三)、已有裁判文书的文本特征向量。其中,key是裁判文书在系统内部的编号,value是文本特征模块生成的文本特征向量。(四)、已有裁判文书的全部关键词。其中,key是一个常量,value是关键词主题模块生成的全部关键词。(五)、每个关键词的词语主题特征。其中,key是关键词,value是关键词主题模块生成的关键词词语主题特征。(六)、每个关键词的同义词。其中,key是关键词,value是关键词的同义词及其同义程度。(七)、每个关键词的相关词。key是关键词,value是关键词的相关词及其相关程度。(八)、裁判文书每维特征的特征值均值方差。key是特征编号,value是特征值的均值和方差。
需要说明的是,所述文本类型包括但不限于法院业务场景中的输入案例文本的案件类型,其中所述案件类型包括刑事诉讼,民事诉请,行政诉讼,知识产权纠纷,裁定书,赔偿案件,执行案件以及在审案例的在审阶段。当然,其他现有的或今后可能出现的文本类型如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述步骤s21获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词,具体地,所述步骤s21包括获取输入案例文本,基于所述输入案例文本的案由,从检索数据库中关于关键词的特征词库提取所述输入案例文本的若干候选关键词。例如,在法院业务场景中的海量已公开的裁判文书中查找与所述输入案例文本相似的裁判文书,由于法院业务场景中的裁判文书案情案由类型不同,故为了便于快速地查找到与输入案例文本相似的裁判文书,则基于输入案例文本的案由,从检索数据库中关于关键词的特征词库中提取与输入案例文本的词语相交集的词语,作为输入案例文本的若干候选关键词,能够确保输入案例文本挖掘出来的关键词存在于检索数据库中。
进一步地,所述步骤s22包括基于所述输入案例文本的文本内容及若 干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量,具体地,所述步骤s22具体的执行过程如图4所示,其中,图4示出根据本申请一个方面的一个优选实施例用于第二设备端基于大数据挖掘裁判文书的文本特征向量的方法流程示意图。所述步骤s22具体包括步骤s221、步骤s222和步骤s223。
其中,所述步骤s221包括:基于所述输入案例文本的各个词语和所有所述裁判文书的全部关键词进行比对,以从所述输入案例文本中提取候选关键词及其词语主题特征,并基于所述词语主题特征获取所述输入案例文本的文本主题特征信息;所述步骤s222包括:获取各个所述候选关键词间的上下文关系,基于所述上下文关系修正各个候选关键词的词语主题特征,并基于所修正后的各个所述候选关键词的词语主题特征和所述文本主题特征信息的匹配程度,确定所述输入案例文本的关键词相关信息;所述步骤s223包括:基于所述关键词相关信息,更新所述输入案例文本的文本主题特征信息及获取扩展词相关信息,并基于所述关键词相关信息和所述扩展词相关信息建立所述输入案例文本的词袋特征信息,并基于所更新的文本主题特征信息和所述词袋特征信息,确定所述输入案例文本的文本特征向量。
本申请实施例中,在法院业务场景中的法院内网主要完成用户实时输入案例文本的文本特征向量。在所述步骤s221中基于所述输入案例文本的各个词语和所有所述裁判文书的全部关键词进行比对,以从所述输入案例文本中提取候选关键词及其词语主题特征。例如,法院业务场景中的法院内网挖掘在线输入的所述输入案例文本关键词设有一个假设:在线输入的所述输入案例文本的关键词,必须也是已有的裁判文书的关键词。因此,该模块在海量已公开的裁判文书中查询与输入案例文本具有相同案由的裁判文书的全部与当事人诉求内容和当事人争议内容相同的关键词,并和输入案例文本词语取交集,作为在线输入的输入案例文本的候选关键词,有效地保证了输入案例文本选择出的关键词都是已公开的裁判文书中的关键词,从而能在已有的裁判文书中挖掘出与输入案例文本相似的裁判文 书及其对应的文本特征向量和特征,从已公开的裁判文书中的所有关键词中确定输入案例文本的候选关键词使得在处理海量的裁判文书的基础上简化输入案例文本的计算逻辑。
具体地,在所述步骤s221中基于所述词语主题特征获取所述输入案例文本的文本主题特征,所述裁判文书的文本主题特征为所述裁判文书的案件类型,在本申请实施例中优选地采用主题模型方法来提取输入案例文本的文本主题特征和各个词语的词语主题特征,其中所述主题模型方法与现有技术中的主体模型方法一致。当然,其他现有的或今后可能出现的提取裁判文书中的文本主题特征和各个词语的词语主题特征的方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
具体地,在所述步骤s222中,首先获取任意两个所述候选关键词间的上下文转移概率;基于所述上下文词语共现关系和所述上下文转移概率,修正各个词语的词语主题特征;基于所修正后的各个所述词语的词语主题特征和在所述步骤s221中采用主题模型获得所述文本主题特信息的匹配程度,确定所述裁判文书的关键词及其对应的词语主题特征,并获取所述关键词的重要度信息。例如,针对输入案例文本ds中的第i个候选关键词wi,如果令该候选关键词对应的主题topic为tj,则根据主题模型方法可知候选关键词wi在输入案例文本ds中出现的转移概率为:pj(wi|ds)=p(wi|tj)×p(tj|ds);其中,p(wi|tj)为在一主题tj下单词wi的转移概率,p(tj|ds)为在一裁判文书ds中主题tj的转移概率,接着一一枚举候选关键词的主题topic,得到所有的所述转移概率pj(wi|ds),其中j取值为1至k的自然正整数,根据所得的所有所述转移概率为输入案例文本ds中的第i个候选关键词wi选择一个主题topic,其中,最简单常用的方法便是取令pj(wi|ds)值最大的主题tj,即max[j]pj(wi|ds);然后如果输入案例文本ds中的第i个候选关键词wi在此时选择了一个与在步骤s221中获得的词语主题特征不同的主题topic,便会对在给定的主题下的词语的转移概率和输入案例文本中的每个主题的转移概率相应的造成影响,由于所述在给定的主题下的词语的转移概率和输入案例文本中的每个主题的转移概率又会反过来的影响候选关键词wi在输入案例文本ds中出现的转移 概率的计算,故对输入案例文本进行一次所述转移概率pj(wi|ds)的计算,并重新选择词语的词语主题topic看作是一次迭代。这样依照上述方法进行n次循环迭代之后,得到输入案例文本收敛后的词语主题特征对应的候选关键词为输入案例文本的关键词,所述关键词对应的词语主题特征即为经过迭代后确定的,通过上述实施例中的方法确定的关键词更能够有效准确地表达所述输入案例文本的关键词及其关键词的词语特征,使得基于关键词得到的文本主题特征信息更能够与输入案例文本的案件类型相近,更能准确度的表达输入案例文本的具体内容,从而使得通过输入案例文本的文本主题特征信息查找到的相似的裁判文书的相似度更高,提高查找相似的裁判文书的精确度。
在本申请的实施例中,所述步骤s223中基于所述关键词及其对应所述词语主题特征,更新所述输入案例文本的文本主题特征信息。例如,通过以下公式来更新输入案例文本的文本主题特征信息:
其中d表示更新后的文本主题特征信息,且文本包含有n个关键词,wi是第i个关键词在输入案例文本中的重要度信息,ii是关键词wi的词语主题特征,通过对以上输入案例文本中的关键词的词语主题特征加权和,得到输入案例文本的文本主题特征信息,可以有效地去除输入案例文本中不重要的关键词和对构建文本主题特征信息的影响。
具体地,所述步骤s223基于所述关键词相关信息和所述扩展词相关信息建立所述输入本文的词袋特征信息中,其中,所述关键词的扩展词包括关键词的同义词及在所述输入案例文本中的高度相关的词语。在所述步骤s223中首先通过计算任意两个关键词的主题特征相似度,来挖掘同义词。例如,对于关键词a,取相似度最高的若干个词语,作为关键词a的同义词。其中,通过挖掘高度相关的词语算法(word2vector)来计算关键词的高度相关的词语,所述算法对每个词语计算词向量,然后计算任意两个词语的词向量相似度,来挖掘高度相关的词语。例如,对于关键词a,取词向量相似度最高的若干个词语,作为关键词a的高度相关的词语。接 着基于所述关键词的同义词及其同义词特征及在所述输入案例文本中的高度相关的词语及其相关词特征,获取所述输入案例文本的扩展词相关信息,基于所述关键词相关信息和所述扩展词相关信息,利用词袋模型,建立所述输入案例文本的词袋特征信息。
在本申请实施例中,所述词袋特征信息用于指示输入案例文本中的关键词及其扩展词对应的词语特征。在词袋特征信息中,关键词特征的特征值是关键词在输入案例文本中的重要度信息,同义词特征的特征值是关键词重要度信息与同义程度的乘积,相关词语特征的特征值是关键词重要度信息与相关程度的乘积。例如,假设所述输入案例文本中一共有10万不同的词语,那么输入案例文本的词袋特征信息都是10万维的向量,每维向量标记该位置的词语是否在输入案例文本中出现。例如,假设词语word1是词袋特征信息中的第1维,词语word2是词袋特征信息中的第2维,词语word3是词袋特征信息中的第10维,词语word4是词袋特征信息中的第30维,word3和word1互为相似词语,相似度为weight13,word4和word2互为相似词语,相似度为weight24;其中裁判文书a包含词语word1,word3以及weight4,并且它们在a中重要度分别为weight1,weight3,weight4,那么裁判文书a的词袋特征信息的第1维的特征值为weight1+weight13*weight3,第2维的特征值为weight24*weight4,第10维的特征值为weight3+weight1*weight13,第30维的特征值为weight4。其中,通过以上计算方法亦可以得到关键词的高度相关的词语的词语特征的特征值,故所得的词袋特征中信息的特征值包括关键词的词语主题特征对应的特征值以及同义词和高度相关的词语的词语主题特征对应的特征值。
本申请的实施例中,所述步骤s223基于所更新的文本主题特征信息和所述词袋特征信息,确定所述输入案例文本的文本特征向量中,具体地,将所述所更新的文本主题特征信息和所述词袋特征信息进行合并,确定所述输入案例文本的原始文本特征;通过对所述输入案例文本的原始文本特征进行特征归一,确定所述输入案例文本的文本特征向量。
例如,将在所述步骤s223中得到的输入案例文本的文本主题特征信 息和词袋特征信息拼接成一个特征向量,生成输入案例文本的原始文本特征。例如,输入案例文本的文本主题特征信息是一个10维的特征向量,词袋特征信息是一个100维的特征向量,则有输入案例文本的原始文本特征为一个110维的特征向量。再利用机器学习领域常用的特征归一化方法,对原始文本特征进行特征归一,生成输入案例文本的文本特征向量。例如,假设输入案例文本的同一特征均符合正态分布,因此可以将每维特征归一成标准的正态分布。
本申请的实施例中,所述步骤s24基于在所述步骤s23中从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书,计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
需要说明的是,在所述步骤s24中计算文本特征向量的相似度的算法包括但不限于欧式距离算法和余弦相似度算法等。当然,其他现有的或今后可能出现的计算文本特征向量的相似度的算法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
例如,首先根据用户输入的输入案例文本的案件类型和案件案由,查询同一案件类型和案件案由的全部已有的裁判文书作为候选相似裁判文书,然后检索候选相似裁判文书的文本特征向量。接着采用上述计算文本特征向量相似度的算法(欧式距离算法或余弦相似度算法),计算输入的所述输入案例文本和每个候选相似裁判文书的相似度。接着,根据用户输入的需求的相似的裁判文书的个数n,取相似度最高的n个裁判文书作为最终的所需的相似的裁判文书。然后查询相似的裁判文书的文本结构化信息和裁判相关信息,并反馈给需求获取相似的裁判文书的用户。最后统计相似的裁判文书的判决结果,按主刑,附加刑,赔偿金额,当事人输赢等文本特征的维度,以可视化的形式,展示给需求获取相似的裁判文书的用户。具体地,例如,根据用户输入的输入案例文本的案件类型和案件案由,查询同一案件类型和案件案由的全部已有的裁判文书作为候选的裁判文书有100个,用户需求返回的与输入案例文本相似的候选的裁判文书的个数为10个,则通过上述相似度算法对输入案例文本的文本特征向量分别 与100个候选的裁判文书的文本特征向量进行相似度计算,并将计算得到的相似度按从低到高的顺序排列,取相似度最高的10个候选的裁判文书作为相似的裁判文书,并将所述10个相似的裁判文书的文本结构化信息和裁判相关信息反馈给需要获取相似的裁判文书的用户。
进一步地,所述本申请的一个方面的一种用于第二设备端挖掘相似文本的方法还包括接收所述第一设备所发送的将所述裁判文书进行结构化处理所得到结构化后的文本结构化信息;获取所述相似的裁判文书的文本结构化信息。例如,通过对候选的裁判文书的相似度计算之后,将获取所有的符合需求数量的相似的裁判文书的文本结构化信息。
图5示出根据本申请一个方面的一种基于大数据挖掘相似裁判文书的整体方法流程示意图。所述方法包括步骤s501、步骤s502、步骤s503、步骤s504、步骤s505、步骤s506、步骤s507、步骤s508、步骤s509、步骤s510和步骤s511。
其中,所述步骤s501包括:获取海量裁判文书;所述步骤s502包括:对所述海量裁判文书进行文本预处理和结构化处理;所述步骤s503包括:挖掘裁判文书的文本主题特征信息;所述步骤s504:挖掘海量裁判文书的关键词相关信息和建立关于关键词的特征词库;所述步骤s505包括:生成裁判文书的文本特征向量;所述步骤s506包括:在线存储所述裁判文书的文本特征向量及特征词库;所述步骤s507包括:获取输入案例文本;所述步骤s508包括:在线挖掘输入案例文本的文本主题特征信息和关键词相关信息;所述步骤s509包括:在线挖掘输入案例文本的文本特征向量;所述步骤s510包括:在线检索与输入案例文本的具有相同案由的若干候选的裁判文书,并计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度;所述步骤s511包括:获取相似的裁判文书。
本申请的实施例中,法院业务场景中基于海量已公开的裁判文书挖掘相似的裁判文书的需求,首先所述步骤s501中通过经过法院授权后获取海量已公开的裁判文书,并在所述步骤s502中对所述的裁判文书进行文本预处理使得裁判文书转换成可以进行文本挖掘的形式,同时对文本预处理后的裁判文 书进行结构化处理得到文本结构化信息,接着在所述步骤s503中通过现有技术中的主题模型方法挖掘裁判文书的文本主题特征信息使得表达出裁判文书的具体裁判文书案情。由于法院业务中裁判文书数量的不断增多以及时间的法院业务场景中业务的繁忙,使得采用传统的人为或者自然语言处理来挖掘相似的裁判文书耗时耗力,且海量已公开的裁判文书中的文字多且内容复杂,决定相似的裁判文书的要素都隐藏在大段的文字内,故本申请在所述步骤s504中选择将基于与输入案例文本具有相同案由的若干候选的裁判文书进行当事人诉求内容和当事人争议内容相同的词语进行挖掘,得到候选的裁判文书的关键词相关信息,并将所述关键词相关信息表达成文本特征向量的形式更方面快捷地计算裁判文书是否与输入案例文本相似,同时将与裁判文书的当事人诉求内容和当事人争议内容相同的词语相关的词语作为候选的裁判文书的扩展词,并基于裁判文书的所有关键词相关信息和扩展词相关信息建立特征词库;接着在所述步骤s505中,基于候选的裁判文书的关键词相关信息所更新的文本主题特征信息和词袋特征信息得到裁判文书的文本特征向量,其中所述文本特征向量中的特征值由关键词所对应的词语主题特征的特征值组成,每维特征向量表示裁判文书的同一特征表示的向量;紧接着在所述步骤s506中,将所有的裁判文书的文本特征向量和特征词库都发送至第二设备端的检索数据库中进行在线存储,以备快速地查找输入的输入案例文本的相似的裁判文书;然后再所述步骤s507中获取需要查找相似的裁判文书的输入案例文本;接着在所述步骤s508中借助于在第一设备端发送过来的所有裁判文书的关键词相关信息来挖掘输入案例文本的文本主题特征信息和关键词相关信息;并在所述步骤s509中基于获取的输入案例文本的文本主题特征信息和关键词相关信息得到输入案例文本的更新后的文本主题特征信息和词袋特征信息,并将所述输入案例文本的文本主题特征信息和词袋特征信息进行合并得到输入案例文本的文本特征向量;接着在所述步骤s510中在第二设备端在线检索与输入案例文本具有相同案由的若干候选的裁判文书,例如将案件案由和案件类型一样的全部已有的裁判文书查找出来,并分别计算这些候选的裁判文书的文本特征向量与输入案例文本的文本特征向量 的相似度,并将相似度的大小按照从高到低排序;最后在所述步骤s511中根据输入的需要相似的裁判文书的数量,将在所述步骤s510中的相似度排序最高的相同数量的相应候选的裁判文书作为需要获取的相似的裁判文书。
在法院业务场景中,需要通过比较多个法官在审判案情相似,当事人诉求内容相近的不同案例时的判决结果,以审计法官的判决结果是否合理;同时,法官在实际审判案例过程中,也会参考案情相似的已有案例的判决结果,形成最终的事实认定和判决结果,因此在这些繁杂的法院业务场景里,都需要事先或者实时挖掘与输入案例文本相似的裁判文书。但由于每个案例的内容千差万别,且法院业务场景下审理的案例数量又快速增长,因此通过传统的人工整理手段已难以满足法院业务场景中的需求,故在本申请的实施例中通过采用如图5所示的设备来处理法院业务场景中的海量已公开的裁判文书,并挖掘出裁判文书的文本特征向量,以使能够快速地查找出输入案例文本的相似的裁判文书。
图6示出根据本申请一个方面的一种用于基于大数据挖掘相似裁判文书的第一设备的结构示意图。该设备1包括裁判文书获取装置11、文本特征挖掘装置12和特征建立装置13。
其中,所述裁判文书获取装置11用于获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;所述文本特征挖掘装置12用于基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;所述特征词库建立装置13用于基于若干所述关键词相关信息更新关于关键词的特征词库。
在此,所述设备1包括但不限于用户设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、pda等,所述移动电子产品可以采用任意操作系统,如android操作系统、ios操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数 值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(asic)、可编程门阵列(fpga)、数字处理器(dsp)、嵌入式设备等。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(adhoc网络)等。优选地,所述设备1还可以是能够使用云计算手段处理大数据计算的云计算服务器,下面以云计算服务器作为第一设备为本申请的一个方面的优选实施例对基于大数据的挖掘相似裁判文书进行详细解释。当然,本领域技术人员应能理解上述设备1仅为举例,其他现有的或今后可能出现的设备1如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求。
在此,所述裁判文书包括但不限于法院业务场景中的裁判文书等,包括一审法院认定事实文书、二审法院认定事实文书、再审法院认定事实文书、起诉状、答辩状、质询记录及证人证言等。
下面以法院业务场景中能够使用云计算手段处理大数据计算的云计算服务器对裁判文书进行挖掘的第一设备为本申请的一个方面的优选实施例对本申请进行具体实施例的详细解释。当然,此处采用法院业务场景中的挖掘海量已公开的裁判文书的云计算服务器作为第一设备对本申请进行具体实施例的详细解释,仅仅出于示例的目的,本申请的实施例不限于此,在其它的软件程序中同样可以实现下述实施例。
需要说明的是,所述文本主题特征信息包括但不限于法院业务场景中的裁判文书中关于裁判文书案情,所述关键词包括但不限于法院业务场景中的裁判文书中的当事人争议内容和当事人诉求内容等,下面以裁判文书中的当事人争议内容和当事人诉求内容为裁判文书的关键词以及关于裁判文书案情为文本主题特征信息为本申请一个方面的一个优选实施例对所述裁判文书进行文本特征向量的挖掘。
本申请的实施例中,所述裁判文书获取装置11用于获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;由于在法院业务场景中的审判业务是分阶段进行的,输入案例文本会随着审判过程的深入,其内容很可 能会发生很大的变化。因此需要因地制宜的在审判流程每个阶段,对挖掘系统输入合适的数据,能使每个阶段挖掘出的相似案例满足实际业务需要。所以在所述文本特征挖掘装置12中需要持续分阶段的对海量已公开的裁判文书进行基于大数据的相似的裁判文书的挖掘,并从中提取出关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量。例如,在云计算服务器使用物联网网络将法院业务场景中已公开的全部的裁判文书存储起来,以备云计算服务器在所述文本特征挖掘装置12中通过离线特征化工充分运用云计算的强大计算能力已公开的裁判文书进行文本特征化,并从中挖掘出裁判文书的文本特征向量和在所述特征词库建立装置13中挖掘所有裁判文书的特征词库,并在通过法院业务场景中的网络专线,一次性传输到法院内网中的在线存储器中。
进一步地,所述本申请的一个方面的一种用于基于大数据挖掘相似裁判文书的第一设备还包括:文本结构化装置14(未示出),用于将所述裁判文书进行结构化处理,得到结构化后的文本结构化信息;在所述裁判文书获取装置11之后且在所述文本特征挖掘装置12之前,所述文本结构化装置将获取的法院业务场景中的审判业务中的各个阶段的裁判文书进行结构化处理,并通过文本结构化信息获取装置15(未示出),用于基于所述文本结构化信息获取所述裁判文书的裁判相关信息,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果。
需要说明的是,所述文本结构化信息获取装置15(未示出)中获取出的裁判文书的裁判相关信息中的案件类型包括但不限于刑事诉讼,民事诉请,行政诉讼,知识产权纠纷,裁定书,赔偿案件,执行案件等7大裁判文书类型以及法院审判的各个阶段。其中所述法院审判的各个阶段如图7所示。当然,其他现有的或今后可能出现的裁判文书的文本主题特征如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
图7示出根据本申请一个方面的一种用于第一设备基于大数据的挖掘相似裁判文书的法院审各判阶段的流程示意图。其中,云计算服务器基于 云计算的挖掘相似的裁判文书的设备,根据人民法院审判流程,分阶段设计每个阶段的需要挖掘的相应的裁判文书的文本内容;同时考虑人民法院系统的网络特点和保密要求,采用在云计算服务器中对法院业务场景中的审判业务中分阶段对裁判文书进行挖掘以满足法院业务场景中的业务需求。
在此,如图7所示本申请的云计算服务器需要处理的法院业务场景中的审判流程包括:立案阶段s71、开庭审理阶段s72、初审判决阶段s73、二审判决阶段s74、再判决阶段s75和判决结果执行阶段s76。其中,在所述立案阶段s71为人民法院接收到起诉人的诉状和被告的答辩状后,并决定立案后的立案阶段;所述开庭审理阶段s72为人民法院开庭审理阶段;所述初审判决阶段s73为人民法院初审判决阶段;所述二审判决阶段s74为人民法院二审结案阶段;所述再判决阶段s75为人民法院再审结案阶段;所述判决结果执行阶段s76为人民法院就此审理案例做出的最后的判决结果执行阶段。所述前五个阶段中,法院工作人员均有挖掘相似的裁判文书的需求。
其中,在图7中的各个审判阶段中需要挖掘相似的裁判文书相应的数据分别如下。在所述立案阶段s71中对应的与裁判文书相关的有起诉状和答辩状;在所述开庭审理阶段s72中对应的与裁判文书相关的有起诉状、答辩状、质询记录和证人证言;在所述初审判决阶段s73中对应的与裁判文书相关的有一审法院认定事实;在所述二审判决阶段s74中对应的与裁判文书相关的有上述状和二审法院认定事实;在所述再判决阶段s75中对应的与裁判文书相关的有再审法院认定事实。其中,所述起诉状用于指示原告呈交给一审法院的起诉文书;所述答辩状用于指示一审法院接收到起诉状后,要求被告提供的答辩内容;所述质询记录用于指示人民法院开庭审理时,原告代理人对被告的质询内容及被告答辩内容,被告代理人对原告的质询内容及原告的答辩内容;所述证人证言用于指示人民法院审理阶段,当事人的证人证言,以及原被告代理人对对方证人的质询记录;所述一审法院认定事实用于指示一审法院经调查和审理后,认定的事实内容;所述上诉状用于指示一审判决后,不服判决的一方当事人的二审起诉状; 所述二审/再审法院认定事实用于指示二审或再审法院认定的事实。
在确定了在法院业务场景中的云计算服务器挖掘相似的裁判文书的各个阶段的数据文本之后,需对裁判文书获取装置11中获取若干裁判文书在所述文本特征挖掘装置12中进行相关的文本特征向量的提取,具体地,所述文本特征挖掘装置12包括的所有装置如图8所示。
其中,图8示出根据本申请一个方面的一个优选实施例用于云计算服务器挖掘裁判文书的文本特征向量的文本特征挖掘装置12的结构示意图。所述文本特征挖掘装置12包括第一挖掘单元121、第二挖掘单元122、第三挖掘单元123和生成单元124。其中所述第一挖掘单元121用于提取所述裁判文书的文本主题特征信息和所述裁判文书中各个词语的词语主题特征;所述第二挖掘单元122用于获取各个所述词语间的上下文关系,基于所述上下文关系修正各个词语的词语主题特征,并基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词相关信息,其中,所述关键词相关信息包括关键词、关键词重要度信息及关键词对应的词语主题特征;所述第三挖掘单元123用于基于所述关键词相关信息,更新所述裁判文书的文本主题特征信息;所述生成单元124用于基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度,并基于所述关键词相关信息和所述扩展词相关信息建立词袋特征信息,并基于所更新的文本主题特征信息和所述词袋特征信息,确定所述裁判文书的文本特征向量。
具体地,所述第一挖掘单元121中的裁判文书的文本主题特征信息具体用于指示所述裁判文书中的案情,在本申请实施例中优选地采用主题模型方法来提取获取的裁判文书的文本主题特征信息和各个词语的词语主题特征,其中所述主题模型方法与现有技术中的主体模型方法一致。当然,其他现有的或今后可能出现的提取裁判文书中的文本主题特征信息和各个词语的词语主题特征的方法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述第二挖掘单元122用于获取各个所述词语间的上下文 词语共现关系;获取任意两个所述词语间的上下文转移概率;基于所述上下文词语共现关系和所述上下文转移概率,修正各个词语的词语主题特征;基于所修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,确定若干所述裁判文书的关键词及其对应的词语主题特征,并获取所述关键词的重要度信息。
在本申请实施例中,所述第二挖掘单元122基于在所述第一挖掘单元121中提取的裁判文书的文本主题特征信息及各个词语的词语主题特征,根据各个所述词语间的上下文关系修正各个词语的词语主题特征,并基于修正后的各个所述词语的词语主题特征和所述文本主题特征信息的匹配程度,从而确定若干所述裁判文书的关键词及其对应的词语主题特征,并获取所述关键词的重要度信息。此处具体地确定裁判文书的关键词及其对应的词语主题特征,并获取所述关键词的重要度信息的详细实施例与上述的所述步骤122中具体的实施例相对应,此处不再赘述。
在本申请的实施例中,所述第三挖掘单元123在基于第二挖掘单元122中确定的关键词相关信息,更新所述裁判文书的文本主题特征信息。例如,通过以下公式来更新裁判文书的文本主题特征信息:
其中d表示更新后的文本主题特征信息,且文本包含有n个关键词,wi是第i个关键词在裁判文书中的重要度,ii是关键词wi的词语主题特征,通过对以上裁判文书中的关键词的词语主题特征加权和,得到裁判文书的文本主题特征信息,可以有效地去除裁判文书中不重要的词语和对构建文本主题特征信息的影响。
进一步地,所述第三挖掘单元124基于所述关键词相关信息获取扩展词相关信息,所述扩展词相关信息包括所述关键词的扩展词和扩展词相关度。其中所述关键词包括所述关键词的同义词及所述关键词在所述裁判文书中高度相关的词语。在本申请的实施例中,通过计算任意两个词语的主题特征相似度,来挖掘同义词。例如,对于关键词a,取相似度最高的若干个词语,作为关键词a的同义词。其中,通过挖掘高度相关的词语算法 (word2vector)来计算关键词的高度相关的词语,所述算法对每个词语计算词向量,然后计算任意两个词语的词向量相似度,来挖掘高度相关的词语。例如,对于关键词a,取词向量相似度最高的若干个词语,作为关键词a的高度相关的词语。
进一步地,所述生成单元124基于所述关键词及其对应的词语主题特征,确定所述关键词的扩展词和扩展词相关度,其中,所述扩展词包括所述关键词的同义词和在所述裁判文书中高度相关的相关词语;基于所述关键词及其对应的词语主题特征和所述扩展词及扩展词相关度,利用词袋模型,建立词袋特征信息。
在本申请实施例中,所述词袋特征信息用于指示裁判文书中的关键词及其扩展词对应的词语特征。在词袋特征信息中,关键词特征的特征值是关键词在裁判文书中的重要度信息,同义词特征的特征值是关键词重要度信息与同义程度的乘积,相关词语特征的特征值是关键词重要度信息与相关程度的乘积。例如,假设所有裁判文书中一共有10万不同的词语,那么每个裁判文书的词袋特征都是10万维的向量,每维向量标记该位置的词语是否在裁判文书中出现。例如,假设词语word1是词袋特征信息中的第1维,词语word2是词袋特征信息中的第2维,词语word3是词袋特征信息中的第10维,词语word4是词袋特征信息中的第30维,word3和word1互为相似词语,相似度为weight13,word4和word2互为相似词语,相似度为weight24;其中裁判文书a包含词语word1,word3以及weight4,并且它们在a中重要度信息分别为weight1,weight3,weight4,那么裁判文书a的词袋特征第1维的特征值为weight1+weight13*weight3,第2维的特征值为weight24*weight4,第10维的特征值为weight3+weight1*weight13,第30维的特征值为weight4。其中,通过以上计算方法亦可以得到关键词的高度相关的词语的词语特征的特征值,故所得的词袋特征信息中的特征值包括关键词的词语主题特征对应的特征值以及扩展词的词语主题特征对应的特征值。
进一步地,所述生成单元124将所述所更新的文本主题特征信息和所述词袋特征信息进行合并,确定所述裁判文书的原始文本特征;通过对所 述裁判文书的原始文本特征进行特征归一,确定所述裁判文书的文本特征向量。具体地,所述生成单元124将在所述第三挖掘单元123中得到的裁判文书的文本主题特征信息和词袋特征信息拼接成一个特征向量,生成裁判文书的原始文本特征,其中,具体地生成裁判文书的原始文本的具体实施例与上述所述步骤s124中的实施例相对应,此处不再赘述。
进一步地,所述特征词库建立装置13以所述关键词为索引,对每一所述关键词的词语主题特征和扩展词建立所述关于关键词的特征词库。例如,在法院业务场景中,将裁判文书中的当事人诉求内容和当事人争议内容相同的词语作为提取裁判文书的关键词,并基于关键词查找与当事人诉求词语以及当事人争议点词语相关的所有词语作为关键词的扩展词对裁判文书进行特征提取,得到裁判文书的关键词相关信息和扩展词相关信息建立的特征词库。
进一步地,所述本申请的一个方面的一种用于基于大数据挖掘相似裁判文书的第一设备还包括发送装置16(未示出),用于将所有所述裁判文书的文本特征向量、所述特征词库及所述裁判相关信息发送至第二设备的检索数据库中。例如,在法院业务场景中,将在所述文本特征挖掘装置12中获得的裁判文书的文本特征向量,在所述特征词库建立装置13中获得的裁判文书的特征词库以及在所述发送装置14(未示出)中获得的裁判文书的文本结构化信息和文本类型发送至第二设备,以使第二设备在依赖第一设备计算出的特征词库和简化的计算逻辑,确保第一设备和第二设备针对同一份裁判文书能够输出相同的文本特征向量及特征词库;同时考虑人民法院系统的网络特点和保密要求,采用在云计算服务器中对法院业务场景中的审判业务中分阶段对裁判文书进行挖掘以满足法院业务场景中的业务需求。
由于在法院业务场景中,在审的输入案例文本的文本特征向量都存储于法院内网服务器中,除已公开后的裁判文书外,其他的法院业务系统中的在审的输入案例文本均不能流出法院内网服务器,为了满足法院业务场景中的对输入案例文本的相关信息的保密性要求,本申请提出了如图9所示的设备,以满足对法院业务场景中的输入案例文本的保密性的要求,从 而提高了处理输入案例文本的实时性。
图9示出根据本申请一个方面的一种用于基于大数据挖掘相似裁判文书的第二设备的结构示意图。该设备2包括输入装置21、输入案例文本特征挖掘装置22、候选裁判文书获取装置23和相似裁判文书获取装置24。
其中,所述输入装置21用于获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词;所述输入案例文本特征挖掘装置22用于基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量;所述候选裁判文书获取装置23用于从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;所述相似裁判文书获取装置24用于计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
在此,所述设备2包括但不限于用户设备、或用户设备与网络设备通过网络相集成所构成的设备。所述用户设备其包括但不限于任何一种可与用户通过触摸板进行人机交互的移动电子产品,例如智能手机、pda等,所述移动电子产品可以采用任意操作系统,如android操作系统、ios操作系统等。其中,所述网络设备包括一种能够按照事先设定或存储的指令,自动进行数值计算和信息处理的电子设备,其硬件包括但不限于微处理器、专用集成电路(asic)、可编程门阵列(fpga)、数字处理器(dsp)、嵌入式设备等。所述网络包括但不限于互联网、广域网、城域网、局域网、vpn网络、无线自组织网络(adhoc网络)等。优选地,所述设备2还可以是能够使用云计算服务器中的离线特征化工具的在线化的简单的计算逻辑的法院内网服务器作为本申请一个方面的第二设备,下面以法院内网服务器作为第二设备为本申请的一个方面的优选实施例对基于大数据的挖掘相似裁判文书进行详细解释。当然,本领域技术人员应能理解上述设备2仅为举例,其他现有的或今后可能出现的设备2如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
上述各装置之间是持续不断工作的,在此,本领域技术人员应理解“持续”是指上述各装置分别实时地或者按照设定的或实时调整的工作模式要求。
需要说明的是,在本申请的优选实施例中,所述设备1云计算服务端处理的是在法院业务场景中的海量已公开的裁判文书中挖掘出与所述设备2中输入的输入案例文本对应的相似的裁判文书,即在云计算服务器中进行的是对海量已公开的裁判文书进行的挖掘,而所述设备2法院内网服务器是通过在线特征化工具只需将输入的一个输入案例文本进行简单的计算,将云计算服务器中离线特征化工具输出的特征词库作为法院内网服务器中在线特征化工具的输入,从而简化了法院内网服务器中的在线计算逻辑,以确保同一份裁判文书输入到两个工具之后输出完全相同的文本特征向量、特征词库以及结构化信息。当然,所述云计算服务器将通过离线特征化工具输出的裁判文书的相关特征通过网络专线一次性传输到法院内网服务器中的在线存储器中,从而不仅满足了对海量的已公开的相似的裁判文书的挖掘,又确保了法院内网服务器中的不对外公开的输入案例文本的保密性,并将输入案例文本的相似的裁判文书的挖掘出来,并获取相似的裁判文书,从而有效地提高了法院业务场景中的挖掘相似裁判文书的工作效率。
需要说明的是,所述输入案例文本包括但不限于已有的裁判文书和在审案例文本等。当然,其他现有的或今后可能出现的输入案例文本如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
在本申请的实施例中,所述第二设备还包括接收装置25(未示出),所述接收装置25(未示出)从第一设备接收所述第一设备所获取的所述公开裁判文书的文本特征向量、所述特征词库及所述裁判相关信息,并保存至所述检索数据库中,所述裁判相关信息包括当事人信息、案件类型、案由和判决结果。例如,在法院业务场景内网中的检索数据库在线存储了裁判文书的文本特征向量、所述特征词库及所属裁判相关信息。具体存储在接收装置25中的裁判文书的信息包括以下八个方面:(一)、每种裁判文书中的案例类型和案由对应的裁判文书。其中,key是案例类型和案由,value是裁判文书在系统内部的编号。(二)、已有裁判文书的结构化信息。其中,key是裁判文书在系统内部的编号,value是由结构化提取模块生成 的文本结构化信息。(三)、已有裁判文书的文本特征向量。其中,key是裁判文书在系统内部的编号,value是文本特征模块生成的文本特征向量。(四)、已有裁判文书的全部关键词。其中,key是一个常量,value是关键词主题模块生成的全部关键词。(五)、每个关键词的词语主题特征。其中,key是关键词,value是关键词主题模块生成的关键词词语主题特征。(六)、每个关键词的同义词。其中,key是关键词,value是关键词的同义词及其同义程度。(七)、每个关键词的相关词。key是关键词,value是关键词的相关词及其相关程度。(八)、裁判文书每维特征的特征值均值方差。key是特征编号,value是特征值的均值和方差。
需要说明的是,所述文本类型包括但不限于法院业务场景中的输入案例文本的案件类型,其中所述案件类型包括刑事诉讼,民事诉请,行政诉讼,知识产权纠纷,裁定书,赔偿案件,执行案件以及在审案例的在审阶段。当然,其他现有的或今后可能出现的文本类型如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
进一步地,所述输入装置21获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词,具体地,所述输入装置21包括获取输入案例文本,基于所述输入案例文本的案由,从检索数据库中关于关键词的特征词库提取所述输入案例文本的若干候选关键词。例如,在法院业务场景中的海量已公开的裁判文书中查找与所述输入案例文本相似的裁判文书,由于法院业务场景中的裁判文书案情案由类型不同,故为了便于快速地查找到与输入案例文本相似的裁判文书,则基于输入案例文本的案由,从检索数据库中关于关键词的特征词库中提取与输入案例文本的词语相交集的词语,作为输入案例文本的若干候选关键词,能够确保输入案例文本挖掘出来的关键词存在于检索数据库中。
进一步地,所述输入案例文本特征挖掘装置22查询法院内网服务器中的接收装置25(未示出)接收的相关特征词库,对输入案例文本进行在线特征化计算得到输入案例文本的文本特征向量,具体如图10所示。图10示出根据本申请一个方面的一个优选实施例用于基于大数据挖掘相似裁判文书的法院内网服务器中的输入案例文本特征挖掘装置22的结构流 程图。所述输入案例文本特征挖掘装置22包括第四挖掘单元221、第五挖掘单元222和第六挖掘单元223。
其中,所述第四挖掘单元221用于基于所述输入案例文本的各个词语和所有所述裁判文书的全部关键词进行比对,以从所述输入案例文本中提取候选关键词及其词语主题特征,并基于所述词语主题特征获取所述输入案例文本的文本主题特征信息;所述第五挖掘单元222用于获取各个所述候选关键词间的上下文关系,基于所述上下文关系修正各个候选关键词的词语主题特征,并基于所修正后的各个所述候选关键词的词语主题特征和所述文本主题特征信息的匹配程度,确定所述输入案例文本的关键词相关信息;所述第六挖掘单元223用于基于所述关键词相关信息,更新所述输入案例文本的文本主题特征信息及获取扩展词相关信息,并基于所述关键词相关信息和所述扩展词相关信息建立所述输入本文的词袋特征信息,并基于所更新的文本主题特征信息和所述词袋特征信息,确定所述输入案例文本的文本特征向量。
本申请实施例中,在法院业务场景中的法院内网主要完成用户实时输入案例文本的文本特征向量。在法院内网服务器的第四挖掘单元221中挖掘在线输入的所述输入案例文本关键词设有一个假设:在线输入的所述输入案例文本的关键词,必须也是已有的裁判文书的关键词。因此,该模块在海量已公开的裁判文书中查询与输入案例文本具有相同案由的裁判文书的全部与当事人诉求内容和当事人争议内容相同的关键词,并和输入案例文本词语取交集,作为在线输入的输入案例文本的候选关键词,有效地保证了输入案例文本选择出的关键词都是已有的裁判文书中的关键词,从而能在已有的裁判文书中挖掘出与输入案例文本相似的裁判文书及其对应的文本特征向量和特征词库,从已公开的裁判文书中的所有关键词中确定输入案例文本的候选关键词使得在处理海量已公开的裁判文书的基础上简化输入案例文本的计算逻辑。具体地,所述第四挖掘装置221挖掘输入案例文本的文本主题特征的方法与上述实施例中的所述步骤s221中挖掘文本主题特征的方法想对应,此处不再赘述。
具体地,在法院内网服务器中的所述第五挖掘单元222确定所述输入 案例文本的关键词的具体方法与本申请上述实施例中的所述步骤s222中描述的方法相对应,通过与上述实施例中的所述步骤s222中相对应的方法确定的关键词更能够有效准确地表达所述输入案例文本的关键词及其关键词的词语特征,使得基于关键词得到的文本主题特征信息更能够与输入案例文本的案件类型相近,更能准确度的表达输入案例文本的文本内容,从而使得通过输入案例文本的文本主题特征信息查找到的相似的裁判文书的相似度更高,提高查找相似的裁判文书的精确度。
在本申请的实施例中,所述第六挖掘装置223中基于所述关键词相关信息,更新所述输入案例文本的文本主题特征信息及获取扩展词相关信息。此处具体地更新输入案例文本的文本主题特征信息与本申请上述所述步骤s223的实施例中的更新输入案例文本的文本主题特征信息的方法一致,此处不再赘述。当然,此处获取输入案例文本的关键词的同义词及在输入案例文本中的高度相关的词语以及词袋特征的具体方法与上述所述步骤s223中获取关键词的同义词和高度相关的词语以及词袋特征的方法一致,此处亦不再赘述。
本申请的实施例中,所述第六挖掘装置223将所述所更新的文本主题特征信息和所述词袋特征信息进行合并,确定所述输入案例文本的原始文本特征;通过对所述输入案例文本的原始文本特征进行特征归一,确定所述输入案例文本的文本特征向量。例如,将在所述步骤s123中得到的输入案例文本的文本主题特征信息和词袋特征信息拼接成一个特征向量,生成输入案例文本的原始文本特征。例如,输入案例文本的文本主题特征信息是一个10维的特征向量,词袋特征信息是一个100维的特征向量,则有输入案例文本的原始文本特征为一个110维的特征向量。再利用机器学习领域常用的特征归一化方法,对原始文本特征进行特征归一,生成输入案例文本的文本特征向量。例如,假设输入案例文本的同一特征均符合正态分布,因此可以将每维特征归一成标准的正态分布。
本申请的实施例中,所述相似裁判文书获取装置24基于在所述候选裁判文书获取装置23中从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书,计算所述候选的裁判文书的文本特征 向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书。
需要说明的是,所述相似裁判文书获取装置24中计算文本特征向量的相似度的算法包括但不限于欧式距离算法和余弦相似度算法等。当然,其他现有的或今后可能出现的计算文本特征向量的相似度的算法如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用方式包含于此。
例如,首先根据用户输入的输入案例文本的案件类型和案件案由,查询同一案件类型和案件案由的全部已有的裁判文书作为候选相似裁判文书,然后检索候选相似裁判文书的文本特征向量。接着采用上述计算文本特征向量相似度的算法(欧式距离算法或余弦相似度算法),计算输入的所述输入案例文本和每个候选相似裁判文书的相似度。接着,根据用户输入的需求的相似的裁判文书的个数n,取相似度最高的n个裁判文书作为最终的所需的相似的裁判文书。然后查询相似的裁判文书的文本结构化信息和裁判相关信息,并反馈给需求获取相似的裁判文书的用户。最后统计相似的裁判文书的判决结果,按主刑,附加刑,赔偿金额,当事人输赢等文本特征的维度,以可视化的形式,展示给需求获取相似的裁判文书的用户。具体地,例如,根据用户输入的输入案例文本的案件类型和案件案由,查询同一案件类型和案件案由的全部已有的裁判文书作为候选的裁判文书有100个,用户需求返回的与输入案例文本相似的候选的裁判文书的个数为10个,则通过上述相似度算法对输入案例文本的文本特征向量分别与100个候选的裁判文书的文本特征向量进行相似度计算,并将计算得到的相似度按从低到高的顺序排列,取相似度最高的10个候选的裁判文书作为相似的裁判文书,并将所述10个相似的裁判文书的文本结构化信息和裁判相关信息反馈给需要获取相似的裁判文书的用户。
进一步地,所述本申请的一个方面的一种用于基于大数据挖掘相似裁判文书的第二设备还包括:文本结构化信息接收装置,用于接收所述第一设备所发送的将所述裁判文书进行结构化处理所得到结构化后的文本结构化信息;文本结构化信息获取装置,用于获取所述相似的裁判文书的文本结构化信息。例如,通过对候选的裁判文书的相似度计算之后,将获取 所有的符合需求数量的相似的裁判文书的文本结构化信息。
图11示出根据本申请一个方面的一种基于大数据挖掘相似裁判文书的系统示意图。该设备包括云计算服务器31和法院内网服务器32。其中,所述云计算服务器31包括已公开的裁判文书获取装置311、离线特征化工具装置312和已公开的裁判文书的文本特征向量生成装置313,所述法院内网服务器32包括在线存储器321、在线输入的输入案例文本获取装置322、在线特征化工具装置323、输入案例文本的文本特征向量生成装置324、在线相似的裁判文书计算工具装置325和输入案例文本的相似的裁判文书326。
其中,所述云计算服务器31与图6所示的申请一个方面的一种用于基于大数据挖掘相似裁判文书的第一设备的功能一致,所述法院内网服务器32与图9所示的本申请一个方面的一种用于基于大数据挖掘相似裁判文书的第二设备的功能一致。以下为描述简洁,所述云计算服务器31中的已公开的裁判文书获取装置311与图6中的裁判文书获取装置11互换使用,所述离线特征化工具装置312和所述已公开的裁判文书的文本特征向量生成装置313与图6中的所述文本特征挖掘装置12互换使用,所述法院内网服务器32中的所述在线存储器321与图9中的候选裁判文书获取装置23互换使用,在线输入的输入案例文本获取装置322与图9中的所述输入装置21互换使用,所述在线特征化工具装置323和所述输入案例文本的文本特征向量生成装置324与图9中的输入案例文本特征挖掘装置22互换使用,所述在线相似的裁判文书计算工具装置325和输入案例文本的相似的裁判文书326与图9中的相似裁判文书获取装置24互换使用,其实质内容相同。
本申请的实施例中,在法院业务场景的审判业务中,所述云计算服务器31中的已公开的裁判文书获取装置311使用互联网网络存储全部的已公开的裁判文书;所述离线特征化工具装置312充分运用云计算的强大计算能力,对已公开的院裁判文本进行特征化,并挖掘关于关键词的特征词库;所述已公开的裁判文书的文本特征向量生成装置313挖掘已公开的裁判文书的文本特征向量以及关于关键词的特征词库,并通过网络专线,一 次性传输到法院内网服务器31中的在线存储器321。所述法院内网服务器32中的在线存储器321存储已公开的裁判文书的文本特征向量以及关于关键词的特征词库;所述在线输入的输入案例文本获取装置322获取输入案例文本的相关文本内容;所述在线特征化工具装置323查询在线存储器中的已公开的裁判文书的关于关键词的特征词库以获得相关的特征词库,并对输入案例文本进行特征化计算,以使在所述输入案例文本的文本特征向量生成装置324中形成输入案例文本的文本特征向量;所述在线相似的裁判文书计算工具装置325在线输入所述输入案例文本及其对应的文本特征向量,查询在线存储器,在线检索与输入案例文本的具有相同案由已公开的若干候选的裁判文书的文本特征向量,计算已公开的所述候选的裁判文书的文本特征向量和所述输入案例文本的的文本特征向量的相似度,排序后获得与所述输入案例文本最相似的裁判文书。
在此,上述离线特征化工具装置312和在线特征化工具装置323之间的计算逻辑相同,二者的区别是在线特征化工具装置312中只需要经过简单的计算,就能实现与离线特征化工具装置323相同的计算逻辑。离线特征化工具装置312输出的关于关键词的特征词库,作为在线特征化工具装置323的输入,且在线特征化工具装置323依赖离线计算的关于关键词的特征词库和简化的在线计算逻辑,以确保同一份数据输入到两个工具装置之后,输出结果完全相同。即同一裁判文书分别经过离线特征化工具装置312和在线特征化工具装置323之后,分别得到一样的文本特征向量和关于关键词的特征词库,使得更有效地进行输入案例文本与裁判文书之间的文本特征向量的相似度计算,有效地提高了法院业务场景中的挖掘相似的裁判文书的工作效率和精确度;经过所述在线特征化工具装置323的计算之后,在输入案例文本的文本特征向量生成装置324中生成输入案例文本的文本特征向量以备在在线相似的裁判文书计算工具装置325中,分别计算具有相同的文本类型的若干候选的裁判文书的文本特征向量与输入案例文本的文本特征向量之间的相似度,并在输入案例文本的相似的裁判文书326中,基于法院业务场景中需要的相似的裁判文书的数量,将相似度最高的相应数量的候选的裁判文书作为相似的裁判文书。
本申请的上述实施例中,通过本申请基于大数据挖掘相似裁判文书的设备中可以看出,本申请的上述实施例中,借助大数据文本分析技术,能够有效的挖掘相似的裁判文书的裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息三个要素,并完成要素内容两两比较,以实现挖掘相似裁判文书。本申请实施例通过首先对全国所有的裁判文书建立文本特征向量,包括文本主题特征信息,文本关键词特征,扩展关键词特征。然后利用机器学习实时计算方法,对实时输入的输入案例文本(或者是只有案情和当事人诉求的起诉状)计算文本特征向量,再利用机器学习模型,计算出与实时输入的输入案例文本最相似的已有判决结果的裁判文书。在上述过程中,法院工作人员可以根据实际情况输入需要寻找相似的裁判文书,本申请装置不限制输入案例文本的结构,完全满足法院业务的应用场景。
与现有技术相比,根据本申请的实施例所述的一种用于第一设备端基于大数据挖掘相似裁判文书的方法与设备,通过获取海量已公开的裁判文书,并获取每一所述裁判文书的案由;基于每一所述裁判文书的文本内容获取关于所述裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述裁判文书的文本特征向量;有效地将海量已公开的的每一裁判文书通过以裁判文书的裁判文书案情的文本主题特征信息和关于所述裁判文书中当事人争议内容和当事人诉求内容的若干关键词相关信息这三个要素来挖掘裁判文书的文本特征向量,并以文本特征向量的形式精确地显示出来,避免了人为耗时耗力地去分析文字多、内容复杂以及风格各异的海量裁判文书,从而有效地提高了挖掘相似的裁判文书的工作效率;并基于若干所述关键词相关信息更新关于关键词的特征词库,有效地将裁判文书的文本内容以所有所述关键词及其词语主题特征和扩展词建立的特征词库的形式进行高度辨识,使得能够快速获取相似的裁判文书及其对应的文本特征向量,达到了提高挖掘相似的裁判文书的工作效率的效果。
进一步地,根据本申请的实施例所述的一种用于第二设备端基于大数 据挖掘相似裁判文书的方法与设备,通过首先获取输入案例文本,基于检索数据库中关于关键词的特征词库,提取所述输入案例文本的若干候选关键词,使得输入案例文本获得关键词都能在检索数据库中找到,从而有效地提高通过关键词对输入案例文本进行相似的裁判文书的查找;然后基于所述输入案例文本的文本内容及若干所述候选关键词获取所述输入案例文本的文本主题特征信息和若干关键词相关信息,并基于所述文本主题特征信息和若干所述关键词相关信息建立所述输入案例文本的文本特征向量,能够有效地将输入案例文本的相关信息通过文本特征向量的形式表达出来;最后从所述检索数据库中获取与所述输入案例文本具有相同案由的若干候选的裁判文书;计算所述候选的裁判文书的文本特征向量和所述输入案例文本的文本特征向量的相似度,基于所述相似度选取相似的裁判文书,有效地将来自第一设备发送的候选的裁判文书的文本特征向量与实时挖掘出的输入案例文本的文本特征向量进行相似度计算,得到相似的裁判文书,使得能够快速地从海量已公开的裁判文书中精确地筛选出与输入案例文本相似的裁判文书,避免了人为耗时耗力地去分析文字多、内容复杂以及风格各异的海量的裁判文书,从而有效地提高了挖掘相似文本的工作效率。
需要注意的是,本申请可在软件和/或软件与硬件的组合体中被实施,例如,可采用专用集成电路(asic)、通用目的计算机或任何其他类似硬件设备来实现。在一个实施例中,本申请的软件程序可以通过处理器执行以实现上文所述步骤或功能。同样地,本申请的软件程序(包括相关的数据结构)可以被存储到计算机可读记录介质中,例如,ram存储器,磁或光驱动器或软磁盘及类似设备。另外,本申请的一些步骤或功能可采用硬件来实现,例如,作为与处理器配合从而执行各个步骤或功能的电路。
另外,本申请的一部分可被应用为计算机程序产品,例如计算机程序指令,当其被计算机执行时,通过该计算机的操作,可以调用或提供根据本申请的方法和/或技术方案。而调用本申请的方法的程序指令,可能被存储在固定的或可移动的记录介质中,和/或通过广播或其他信号承载媒体中的数据流而被传输,和/或被存储在根据所述程序指令运行的计算机设备的 工作存储器中。在此,根据本申请的一个实施例包括一个装置,该装置包括用于存储计算机程序指令的存储器和用于执行程序指令的处理器,其中,当该计算机程序指令被该处理器执行时,触发该装置运行基于前述根据本申请的多个实施例的方法和/或技术方案。
对于本领域技术人员而言,显然本申请不限于上述示范性实施例的细节,而且在不背离本申请的精神或基本特征的情况下,能够以其他的具体形式实现本申请。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本申请的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化涵括在本申请内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此外,显然“包括”一词不排除其他单元或步骤,单数不排除复数。装置权利要求中陈述的多个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。