文书相似度的处理方法和装置与流程

文档序号：16328637发布日期：2018-12-19 06:04阅读：229来源：国知局

本发明涉及数据处理领域，具体而言，涉及一种文书相似度的处理方法和装置。

背景技术

目前对相似文书的判断主要有两种实现。方法一：人工对文书进行阅读标注，通过查询文书库找出含有相似标签的文书；方法二：将文书向量化(基于词频)后计算文书向量间的距离来实现。

但方法一：依赖纯人力解决，不仅工作量大耗时多，而且对业务人员要求较高，因为限于专业知识经验的差异，同样的文书不同人标注出来标签可能差别较大。而事先制定好一批标签供业务人员选择，不仅增加了工作成本，也无法完全解决经验差异性问题。方法二通过文书向量化来识别相似文书，但基于词频的方法很大程度上无法真正找出文书的重点，所以准确率不高。

针对现有技术中人为的查找与目标文书相似的文书导致准确率低的问题，目前尚未提出有效的解决方案。

技术实现要素：

本发明实施例提供了一种文书相似度的处理方法和装置，以至少解决现有技术中人为的查找与目标文书相似的文书导致准确率的技术问题。

根据本发明实施例的一个方面，提供了一种文书相似度的处理方法，包括：获取焦点化文书库和目标文书，其中，所述焦点化文书库包括文书库中文书对应的焦点序列，所述焦点序列包括用于表征所对应的文书中焦点的标识；获取所述目标文书的焦点序列；根据所述目标文书的焦点序列和所述焦点化文书库中的每个焦点序列，确定所述文书库中的每个文书与所述目标文书的相似度排序。

根据本发明实施例的另一方面，还提供了一种文书相似度的处理装置，包括：第一获取模块，用于获取焦点化文书库和目标文书，其中，所述焦点化文书库包括文书库中文书对应的焦点序列，所述焦点序列包括用于表征所对应的文书中焦点的标识；第二获取模块，用于获取所述目标文书的焦点序列；第一确定模块，用于根据所述目标文书的焦点序列和所述焦点化文书库中的每个焦点序列，确定所述文书库中的每个文书与所述目标文书的相似度排序。

在本发明实施例中，获取焦点化文书库和目标文书，获取目标文书的焦点序列，根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序。上述方案通过分别获取目标文书的焦点序列以及文书库中所有文书的焦点序列，从而得到文书库中文书与目标文书的相似度排序，进而得到了文书库中与目标文书相似度最高的文书，从而解决了现有技术中人为的查找与目标文书相似的文书导致准确率低的问题。

附图说明

此处所说明的附图用来提供对本发明的进一步理解，构成本申请的一部分，本发明的示意性实施例及其说明用于解释本发明，并不构成对本发明的不当限定。在附图中：

图1是根据本发明实施例的文书相似度的处理方法的流程图；以及

图2是根据本发明实施例的文书相似度的处理方法的流程图。

具体实施方式

为了使本技术领域的人员更好地理解本发明方案，下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分的实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都应当属于本发明保护的范围。

需要说明的是，本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

下面，对实施例中出现的词汇进行解释，以便对实施例的理解。

裁判文书：用于记载法院审理案件的过程和结果，是诉讼活动结果的载体，也是人民法院确定和分配当事人义务权利的唯一凭证。

焦点：即争议焦点，简单地说就是纠纷的核心，矛盾的交锋点，案件双方当事人争执的问题所在，在形式上是由法官归纳、并经当事人确认的争点，是引领案件审理、纠纷解决的主线和枢纽，也是体现法官熟悉案情的程度，把握法律与案件联系的能力的一个突出标志。

实施例1

根据本发明实施例，提供了一种文书相似度的处理方法的实施例，需要说明的是，在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行，并且，虽然在流程图中示出了逻辑顺序，但是在某些情况下，可以以不同于此处的顺序执行所示出或描述的步骤。

图1是根据本发明实施例的文书相似度的处理方法的流程图，如图1所示，该方法包括如下步骤：

步骤s102，获取焦点化文书库和目标文书，其中，焦点化文书库包括文书库中文书对应的焦点序列，焦点序列包括用于表征所对应的文书中焦点的标识。

具体的，上述文书可以为裁判文书，焦点对应的标识可以按照焦点所属的类别和特征为焦点匹配得到，而焦点序列对于一个文书，包括了所有焦点的标识构成的集合则成为该文书对应的焦点序列，也就是说，在获取到一个文书的焦点序列后，就能够得到该文书的焦点。

步骤s104，获取目标文书的焦点序列。

在上述步骤中，可以将目标文书输入至预设的焦点规则引擎，焦点规则引起则能够输出文书的焦点序列。在一种可选的实施例中，焦点规则引擎可以通过对已确定焦点的文书进行学习，得到焦点的属性信息和焦点出现在文书中的位置信息，从而能够根据学习经验来查找到新的文书中的焦点。

步骤s106，根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序。

由上可知，本申请上述实施例获取焦点化文书库和目标文书，获取目标文书的焦点序列，根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序。上述方案通过分别获取目标文书的焦点序列以及文书库中所有文书的焦点序列，从而得到文书库中文书与目标文书的相似度排序，进而得到了文书库中与目标文书相似度最高的文书，从而解决了现有技术中人为的查找与目标文书相似的文书导致准确率低的问题。

可选的，根据本申请上述实施例，获取焦点化文书库，包括：

步骤s1021，提取文书库中每个文书的焦点，得到每个文书对应的焦点序列。

在一种可选的实施例中，以商标侵权领域为例，分为五大焦点类：a：商标类型；b：行为模式；c：抗辩理由；d：侵权责任；e：其他焦点。

其中，焦点类a可以按照特征继续进行划分，得到如下几个子类：a1驰名商标、a2商品商标、a3服务商标、a4证明商标、a4集体商标、a5立体商标、a6声音商标、a7三维标志商标和a8地理标志；

焦点类b可以按照特征继续进行划分，得到如下几个子类：b1商标假冒/仿冒行为、b2销售侵犯注册商标专用权的商品、b3商标辅助侵权行为、b4企业字号侵害他人注册商标的行为、b5域名侵害他人注册商标的行为、b6侵犯驰名商标的行为和b7其他侵权行为；

焦点类c可以按照特征继续进行划分，得到如下几个子类：c1在先权利及合理使用、c2是否具有合法来源/合法渠道、c3注册商标是否未实际使用和c4商标共有权人/共有商标；

焦点类d可以按照特征继续进行划分，得到如下几个子类：d1停止侵权/停止销售/销毁、d2赔偿损失和d3消除影响；

焦点类e可以按照特征继续进行划分，得到如下几个子类：e1主体是否适格、e2是否超过诉讼时效、e3是否构成商标性使用、e4经行政处罚/经刑事判决、和e5是否构成不正当竞争。

那么，在这一实施例中，可以通过对焦点进行归类，焦点所属的类别对应的标识即为焦点的标识。

步骤s1023，根据每个文书的焦点序列构成焦点化文书库。

具体的，焦点化文书库不仅可以保存焦点序列，还可以保存焦点序列与文书的对应关系，以便能够根据焦点序列查找到对应的文书。

由上可知，本申请上述方案提取文书库中每个文书的焦点，得到每个文书对应的焦点序列，根据每个文书的焦点序列构成焦点化文书库。上述方案通过获取文书库中每个文书的焦点来确定焦点化文书库，使得在比对的过程中无需对文书全篇进行比对，减少比对所使用的时间，提高文书比对的效率。

可选的，根据本申请上述实施例，根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序，包括：

步骤s1061，如果焦点化文书库中的第一焦点序列与目标文书的焦点序列相同，则确定第一焦点序列对应的文书与目标文书相似度最高。

在一种可选的实施例中，以目标文书的焦点序列为a1+b1+b2+c3+d2为例，如果某一文书的焦点序列也为a1+b1+b2+c3+d2，则确定该文书与目标文书的相似度最高。

此处需要说明是，在根据文书的焦点构成焦点序列的过程中，通常根据预设的焦点类的优先级来排列，例如，在a1+b1+b2+c3+d2中，优先级分别为a>b>c>d，且b1>b2>b3，在这种情况下，在比较焦点序列的过程中依次比较即可，但是焦点序列还可以具有焦点的其他排列方式，例如，采用焦点在文书中出现的顺序，如果采用这种方式，上述文书中的焦点序列可能不为a1+b1+b2+c3+d2，在这种情况下，只要存在文书包括a1、b1、b2、c3和d2且仅包括a1、b1、b2、c3和d2，则确定该文书与目标文书相同。

步骤s1063，如果焦点化文书库中的第二焦点序列与目标文书的焦点序列不相同，则通过比较每个第二焦点序列中的焦点与目标文书中的焦点，确定第二焦点序列对应的文书与目标文书的相似度排序。

可选的，根据本申请上述实施例，焦点包括焦点类和焦点特征，焦点类对应预设的优先级，通过比较每个第二焦点序列中的焦点与目标文书中的焦点，确定第二焦点序列对应的文书与目标文书的相似度排序，包括：

步骤s1065，按照焦点类的优先级依次比对第二焦点序列中的焦点类对应的焦点特征与目标文书中焦点类对应的焦点特征，得到每个焦点类对应的比对结果。

在一种可选的实施例中，以目标文书的焦点序列为a1+b1+b2+c3，焦点类的优先级为b>a>d>c为例，文书x的焦点序列为a1+b1+b2+d3，文书y焦点序列为b1+b2+b4+c3，文书z的焦点序列为a1+b1+b2+b4+c3。经比较可知，文书x、y、z与目标文书的第一焦点类的比对结果分别为相同、不同和不同；第二焦点类的对比结果为相同、不同和相同；第三焦点类的比对结果分别为不同、相同和相同，第四焦点类的比对结果为不同、相同和相同。

步骤s1067，对于第一焦点类的比对结果不同的第二焦点序列，确定第一焦点类的比对结果为相同的第二焦点序列对应的文书的相似度高于第一焦点类的比对结果为不同的第二焦点序列对应的文书的相似度，其中，第一焦点类对应的优先级高于第二焦点类对应的优先级。

在一种可选的实施例中，仍以目标文书的焦点序列为a1+b1+b2+c3，焦点类的优先级为b>a>d>c为例，文书x的焦点序列为a1+b1+b2+d3，文书y焦点序列为b1+b2+b4+c3，文书z的焦点序列为a1+b1+b2+b4+c3，根据上述实施例中的比较结果可知，文书x与文书y的第一焦点类的比对结果不同，文书x与文书z的第一焦点类的比对结果也不同，而文书x的第一焦点类的比较结果为相同，文书x和文书y的第一焦点类的比较结果都为不同，所以文书x的相似度高于文书y和文书z。

步骤s1069，对于第一焦点类的比对结果相同的第二焦点序列，根据第二焦点类的比对结果确定第二焦点序列对应的文书的相似度排序。

在一种可选的实施例中，仍以目标文书的焦点序列为a1+b1+b2+c3，焦点类的优先级为b>a>d>c为例，文书x的焦点序列为a1+b1+b2+d3，文书y焦点序列为b1+b2+b4+c3，文书z的焦点序列为a1+b1+b2+b4+c3，根据上述实施例中的比较结果可知，文书y与文书z的第一焦点类的比对结果相同，而文书y的第二焦点类的比较结果为不同，文书z的第二焦点类的比较结果为相同，因此文书z的相似度高于文书y的相似度。

可选的，根据本申请上述实施例，在获取焦点文书库之前，该方法还包括：确定返回文书的数量；在根据目标文书的焦点序列和焦点化文书库中的每个焦点序列确定文书库中的每个文书与目标文书的相似度排序之后，方法还包括：按照文书库中每个文书的相似度排序由高到低筛选出与返回文书的数量对应的文书。

在一种可选的实施例中，以该次任务的目标是在文书库中查找与目标文书相似的5份文书为例，则在进行相似度排序之前确定返回文书的数量为5，则在得到焦点化文书库中与目标文书的焦点的相似度排序之后，由高到低获取前5个焦点序列，并返回前5个焦点序列对用的文书。

由上可知，可以通过上述方案根据需求设置返回的焦点文书数量，从而得到与需求相符的文书数量，无需返回全部文书的排序结果后人为的进行筛选。

实施例2

根据本发明实施例，提供了一种文书相似度的处理装置的实施例，图2是根据本发明实施例的文书相似度的处理方法的流程图，如图2所示，该装置包括：

第一获取模块20，用于获取焦点化文书库和目标文书，其中，焦点化文书库包括文书库中文书对应的焦点序列，焦点序列包括用于表征所对应的文书中焦点的标识。

第一获取模块22，用于获取目标文书的焦点序列。

在上述装置中，可以将目标文书输入至预设的焦点规则引擎，焦点规则引起则能够输出文书的焦点序列。在一种可选的实施例中，焦点规则引擎可以通过对已确定焦点的文书进行学习，得到焦点的属性信息和焦点出现在文书中的位置信息，从而能够根据学习经验来查找到新的文书中的焦点。

第一确定模块24，用于根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序。

由上可知，本申请上述实施例通过第一获取模块获取焦点化文书库和目标文书，通过第二获取模块获取目标文书的焦点序列，通过第一确定模块根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序。上述方案通过分别获取目标文书的焦点序列以及文书库中所有文书的焦点序列，从而得到文书库中文书与目标文书的相似度排序，进而得到了文书库中与目标文书相似度最高的文书，从而解决了现有技术中人为的查找与目标文书相似的文书导致准确率低的问题。

可选的，根据本申请上述实施例，第一获取模块包括：

提取子模块，用于提取文书库中每个文书的焦点，得到每个文书对应的焦点序列。

构建子模块，用于根据每个文书的焦点序列构成焦点化文书库。

可选的，根据本申请上述实施例，第一确定模块包括：

第一确定子模块，用于如果焦点化文书库中的第一焦点序列与目标文书的焦点序列相同，则确定第一焦点序列对应的文书与目标文书相似度最高。

第二确定子模块，用于如果焦点化文书库中的第二焦点序列与目标文书的焦点序列不相同，则通过比较每个第二焦点序列中的焦点与目标文书中的焦点，确定第二焦点序列对应的文书与目标文书的相似度排序。

可选的，根据本申请上述实施例，焦点包括焦点类和焦点类对应的焦点特征，焦点类还对应于预设的优先级，第二确定子模块包括：

比对单元，用于按照焦点类的优先级依次比对第二焦点序列中的焦点类对应的焦点特征与目标文书中焦点类对应的焦点特征，得到每个焦点类对应的比对结果。

第一确定单元，用于对于第一焦点类的比对结果不同的第二焦点序列，确定第一焦点类的比对结果为相同的第二焦点序列对应的文书的相似度高于第一焦点类的比对结果为不同的第二焦点序列对应的文书的相似度。

第二确定单元，用于对于第一焦点类的比对结果相同的第二焦点序列，根据第二焦点类的比对结果确定第二焦点序列对应的文书的相似度排序，其中，第一焦点类对应的优先级高于第二焦点类对应的优先级。

可选的，根据本申请上述实施例，装置还包括：

第二确定模块，用于在获取焦点文书库之前，确定返回文书的数量。

筛选模块，用于在根据目标文书的焦点序列和焦点化文书库中的每个焦点序列确定文书库中的每个文书与目标文书的相似度排序之后，按照文书库中每个文书的相似度排序由高到低筛选出与返回文书的数量对应的文书。

所述文书相似度的处理装置包括处理器和存储器，上述第一获取模块、第一获取模块和第一确定模块等均作为程序单元存储在存储器中，由处理器执行存储在存储器中的上述程序单元来实现相应的功能。

处理器中包含内核，由内核去存储器中调取相应的程序单元。内核可以设置一个或以上，通过调整内核参数来解决现有技术中人为的查找与目标文书相似的文书导致准确率低的技术问题。

存储器可能包括计算机可读介质中的非永久性存储器，随机存取存储器(ram)和/或非易失性内存等形式，如只读存储器(rom)或闪存(flashram)，存储器包括至少一个存储芯片。

本发明实施例提供了一种存储介质，其上存储有程序，该程序被处理器执行时实现所述文书相似度的处理方法。

本发明实施例提供了一种处理器，所述处理器用于运行程序，其中，所述程序运行时执行所述文书相似度的处理方法。

本发明实施例提供了一种设备，设备包括处理器、存储器及存储在存储器上并可在处理器上运行的程序，处理器执行程序时实现以下步骤：(方法权项步骤，独权+从权)。本文中的设备可以是服务器、pc、pad、手机等。

本申请还提供了一种计算机程序产品，当在数据处理设备上执行时，适于执行初始化有如下方法步骤的程序：获取焦点化文书库和目标文书，其中，焦点化文书库包括文书库中文书对应的焦点序列，焦点序列包括用于表征所对应的文书中焦点的标识；获取目标文书的焦点序列；根据目标文书的焦点序列和焦点化文书库中的每个焦点序列，确定文书库中的每个文书与目标文书的相似度排序。

当在数据处理设备上执行时，上述计算机程序还适于执行初始化有如下方法步骤的程序：提取文书库中每个文书的焦点，得到每个文书对应的焦点序列；根据每个文书的焦点序列构成焦点化文书库。

当在数据处理设备上执行时，上述计算机程序还适于执行初始化有如下方法步骤的程序：如果焦点化文书库中的第一焦点序列与目标文书的焦点序列相同，则确定第一焦点序列对应的文书与目标文书相似度最高；如果焦点化文书库中的第二焦点序列与目标文书的焦点序列不相同，则通过比较每个第二焦点序列中的焦点与目标文书中的焦点，确定第二焦点序列对应的文书与目标文书的相似度排序。

当在数据处理设备上执行时，上述计算机程序还适于执行初始化有如下方法步骤的程序：按照焦点类的优先级依次比对第二焦点序列中的焦点类对应的焦点特征与目标文书中焦点类对应的焦点特征，得到每个焦点类对应的比对结果；对于第一焦点类的比对结果不同的第二焦点序列，确定第一焦点类的比对结果为相同的第二焦点序列对应的文书的相似度高于第一焦点类的比对结果为不同的第二焦点序列对应的文书的相似度；对于第一焦点类的比对结果相同的第二焦点序列，根据第二焦点类的比对结果确定第二焦点序列对应的文书的相似度排序，其中，第一焦点类对应的优先级高于第二焦点类对应的优先级。

当在数据处理设备上执行时，上述计算机程序还适于执行初始化有如下方法步骤的程序：在获取焦点文书库之前，方法还包括：确定返回文书的数量；在根据目标文书的焦点序列和焦点化文书库中的每个焦点序列确定文书库中的每个文书与目标文书的相似度排序之后，方法还包括：按照文书库中每个文书的相似度排序由高到低筛选出与返回文书的数量对应的文书。

上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。

在本发明的上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

在本申请所提供的几个实施例中，应该理解到，所揭露的技术内容，可通过其它的方式实现。其中，以上所描述的装置实施例仅仅是示意性的，例如所述单元的划分，可以为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，单元或模块的间接耦合或通信连接，可以是电性或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可为个人计算机、服务器或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、只读存储器(rom，read-onlymemory)、随机存取存储器(ram，randomaccessmemory)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述仅是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也应视为本发明的保护范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈飞
技术所有人：北京国双科技有限公司
我是此专利的发明人

上一篇：一种物理力学演示装置的制作方法
上一篇：一种基于等离子旋转电极制备铜合金粉末的方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。