一种通用的条款与文档匹配方法与流程

文档序号:20918232发布日期:2020-05-29 13:48阅读:437来源:国知局
一种通用的条款与文档匹配方法与流程

本发明涉及一种通用的条款与文档匹配方法,适用于行政法规、司法解释、保密条款等多个应用领域的数据匹配处理,用以解决简明扼要的法律法规条款与复杂冗长的材料文档之间难以匹配的问题。



背景技术:

随着办公电子化的发展,诸如司法领域的裁判文书等文档呈现出数量巨大、文件冗长、描述形式多样化等特征,如何依据法律法规对文档中描述的核心点进行自动识别甚至是标注,对于提高法律法规鉴定的效率具有重要意义。

现阶段工作方式通常采用人工检查标注,工作繁琐且易产生疏漏。对文本文档进行自动鉴定在技术上等价于进行文档与条款的自动匹配,即通过对文档主题内容进行分析,寻找和内容最相关的法律法规条款。业务人员依据这些条款可轻松高效的做出结论判定。

在技术上实现文档与条款的自动匹配存在三大挑战:一是法律法规条款定义宏观,尤其是条款用词与文档材料用词显著不同;二是缺乏大量条款相关标注数据,直接应用基于统计的机器学习算法难以达到理想效果;三是条款领域非常多,目标希望能找到一种通用的处理手段进行条款建模及匹配。



技术实现要素:

针对现有技术中存在的技术问题,本发明的目的在于提供一种通用的条款与文档匹配方法,主要思想通过结合人工参与的半自动化数据收集工具以及自动化的条款计算模型,分析微观的文档材料内容,将材料与法律法规的宏观条款进行自动匹配,返回与文档材料最相关的条款,基于相关条款进行初步判定。

本发明的技术方案为:

一种通用的条款与文档匹配方法,其步骤包括:

1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一所选条款的多个查询语句;

2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;

3)对于每一条款i,根据条款i的标注数据集i,通过查询词扩展技术确定条款i中每个条款词w对应的文档词,作为条款词w的扩展词;计算每个扩展词的分布概率作为扩展词的权重,根据权重对扩展词排序获得前n个扩展词及其对应的权重,

作为该条款i的条款主题模型;根据步骤1)处理得到的条款i的词块类型对标注数据集i中的每一文档标注其对应的文档类型,每一类型对应一标注数据子集,利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型;

4)对于一待匹配条款的文档材料a,计算该文档材料a的词项分布与每一条款的条款主题模型相似度,返回相似度大于设定阈值的条款;利用各条款的条款分类模型对该文档材料进行类别分类;

5)根据返回的类别对返回的条款进行筛选;然后根据返回类别m的概率值和相似度s计算条款j的匹配概率值,返回匹配概率最高的条款;其中,相似度s为根据返回类别m筛选出的条款j与文档材料a的相似度。

进一步的,步骤1)中,根据条款切割体系将条款分成三种词块:实体对象块、主题内容块和类型块;其中,实体对象块是条款中出现的实体对象词,主题内容块是指条款中出现的主题内容词,类型块是指条款的材料类型限定词。

进一步的,根据条款i的每一所述查询语句从业务数据库、开源知识库和互联网上查询收集该条款i的相关文档数据。

进一步的,使用kl距离算法计算文档材料a的词项分布与每一条款的条款主题模型相似度。

进一步的,所述扩展词的权重为扩展词在tf-idf值。

进一步的,所述条款为法律条款、行政法规或保密条款。

一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述任一所述方法中各步骤的指令。

一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行上述任一所述方法中各步骤的指令。

本发明将材料文档与法律法规条款的自动匹配任务简称为“文档-条款”匹配任务。该任务利用计算机对文档(即特定领域材料)内容进行分析,判断其是否与该领域法律法规中的条款有关,并给出命中的相关条款。本文提出一种通用的法律法规条款建模框架及材料-条款匹配策略,该方法的输入为文本文档,输出为检测出的命中条款。整个方法的示意图如图1所示。

具体步骤包括:

(1)条款预处理。条款预处理步骤是根据条款切割体系对条款句子进行分词块操作,并对相应词块添加解释词和扩展词以便于组成针对该条款的多个查询语句,为后续面向不同词块进行数据收集以及条款建模做准备。

(2)数据集构建。数据集构建步骤是根据查询词条实现条款相关文档数据的收集。由于目前标注数据少,系统设计的一个重要目标是能基于多个搜索引擎的元搜索生成可视为标注数据的训练语料的获取,考虑到直接人工获取数据耗时耗力,为此本发明提供了一套通过人工来配置扩展解释词的半自动化标注工具来简化标记流程、最小化数据标记量,减少人工工作量,达到对数据的快速定向获取。标注内容实质上,只需头尾两项内容,即给定文档对应的条款是什么,从而获得每一条款对应的标注数据集。

(3)模型构建。模型构建步骤是基于步骤(1)处理得到的不同词块对步骤(2)返回的相关文档集进行计算,形成条款模型,主要有两个子模型构成:条款主题模型和条款类别模型。条款主题模型本质上对原始条款词进行扩充,对条款i对应的标注数据集合出现的所有词,使用信息检索中tf-idf计算得到每个词的权重,并排序获得topn个词;这样,每个条款都会得到一个topn的词和它对应的权重,形成了面向微观材料的更丰富的相关词表示,相关词同时包括词的权重,来反映与条款的相关概率;条款类别模型本质上是针对文本的材料类型从分类角度来处理文档-条款匹配问题。最终的条款模型是由条款主题模型和材料类别模型通过加权组合而成。

(4)在线匹配。在线匹配服务是基于条款模型计算条款与鉴定材料的匹配程度,返回匹配度较高的条款。搭建在线匹配服务,将待鉴定文档输入步骤(3)构建的两个条款子模型进行条款匹配度计算,综合两个子模型返回的结果得到最终命中的条款。

与现有技术相比,本发明的积极效果为:

1)本发明针对某一条法律条款,基于其切割词块进行查询词扩展以及相关语料集的自动构建,尤其适用于没有训练数据的条款;

2)本发明提出一种基于条款模型的材料和条款间的匹配方法,尤其适用于缺少特定领域训练语料,用以解决简明扼要的法律法规条款与复杂冗长的材料文档之间难以匹配的问题。

附图说明

图1为条款的匹配方法流程图;

图2为条款预处理流程图;

图3为数据收集方法流程图;

图4为两个条款子模型生成方法图;

图5为在线匹配方法流程图。

具体实施方式

具体系统框架构建流程是通过设计统一的条款切割框架,对不同的条款词块针对性收集数据并进行建模;对于文档材料分别由两个子模型计算匹配得分,综合给出最匹配的条款。具体流程如下:

一、条款预处理

条款作为整体直接匹配存在问题,条款预处理步骤主要是对条款进行统一规范化处理,并生成条款对应的查询词条用于数据收集模块检索相关数据。如图2所示,具体包括两个子模块:条款切割模块和查询词生成模块。

1.条款切割模块。该模块是通过对条款进行分析,定义一种统一的条款表示方法,能够将人工语句转换为计算机的格式化字段便于进行统一处理。本发明设计了一套结合了人工标注的条款切分体系,形成了统一的切词规范,后续便于对切分后的关键词进行分块建模;此外,标注系统引入对条款词的人为解释扩展健全了条款表示。

条款切割体系将每个条款分成三大块:实体对象块、主题内容块、类型块。实体对象块是条款中出现的实体对象词;主题内容块是指条款中出现的主题内容词;类型块是指条款的材料类型限定词。条款的定义用词宏观且简练,与实际文档材料的微观用词有很大出入。面对条款与材料词项失配的这一挑战,仅仅根据原条款的切割词来收集语料,完全无法满足数据收集的需求量。因此需要人工标注工作来对条款词进行解释扩展,如业务人员可结合经验设置一些微观词进行简单的扩充,以提高相关语料的收集数量和质量。

2.查询词生成模块。该模块对条款切分词块进行组合,生成查询词条用于相关数据的检索。具体的组合规则可以通过自定义各个切分词块之间的关系实现,也可将组合好的词条经过人工筛选得到最终高质量的查询词条。

二、数据集构建

数据集构建步骤实现基于步骤一生成的查询词条检索相关文档集。主要包括检索模块。

1.检索模块。检索模块的任务是将条款查询词条到已有的文档库中检索相关文档,返回的文档与条款的相关性越大,那么后续基于文档训练得到的条款模型的准确性也就越高。数据收集方法如图3所示,检索模块的数据来源可以分为两大类自建数据和互联网数据,根据质量高低有以下3种:

1)业务数据库。前期我们搭建了面向特定概念的业务收集系统,在该系统中业务人员对特定概念进行了细化和实例化标注。基于实例化的概念收集得到的相关文档一旦和条款词匹配上,其文档-条款的相关性也会更高。

2)开源知识库。比如维基百科、百度百科。这些命中文档往往包含条款词的高质量描述和解释,实际用词也比较宏观,但是对相关文档进行分析可以提供一些条款相关扩展词。

3)搜索引擎。搜索引擎的检索范围覆盖互联网上所有文档,即使一些生僻的用词也可以找到相关文档,但由于搜索引擎的排序会考虑多种因素,会导致返回的文档与条款的相关性有限,总体质量要差一些。

三、模型构建

条款模型是由两个子模型组成:条款主题模型和条款类别模型,模型构建如图4所示。

1.条款主题模型。条款匹配的主要工作就是将微观的描述解释匹配到相应的宏观法规条款上,为此需要构建主题匹配模型来实现宏观和微观的对接。基于条款主题通过查询词扩展技术解决文档词与条款词的“词项失配”问题,在每个条款的相关文档集上计算扩展词项的分布概率,作为条款主题模型。可以使用信息检索的伪相关反馈模型来计算词权重,依照权重对扩展词进行排序,所得条款主题模型包含的相关词要远远多于原始条款中的词,相当于对条款宏观词的微观解释扩展。具体地,可以根据相关反馈模型(lavrenko,victor,croft,etal.relevancebasedlanguagemodels[c]//internationalacmsigirconferenceonresearchanddevelopmentininformationretrieval.acm,2001:120-127.)计算公式得到文档集上的词项分布概率,扩展词权重由算法计算得到,若想提高效果可再次进行人工校验,来筛选出最相关的词。用文档集的词项分布模型来表示条款模型,这样相当于对原始简短精炼的条款做了扩充,从而完成了宏观条款和微观词项之间的转换和对接。

2.条款类别模型。条款切割体系设计的另一个目标是基于条款的材料类型,比如“间谍行为”、“重大规划”、“敏感数据”等。从分类角度来处理文档-条款匹配问题。针对文本型的材料,由于相同主题的材料类型多样,仅仅匹配条款主题模型会出现文档类型误配的情况,此时就会出现误配情况。条款类别模型就是在收集相关类别文档数据集的基础上,相当于对每种类型的文档提取共性,训练出各类型分类模型。即对于一条款i的标注数据集i,根据条款i的词块类型对集合i中的每一文档进行标注其对应的文档类型,从而将集合i分为多个子集,每一子集视同为分类器的一训练语料,利用每一子集训练得到一个条款分类模型,以后输入一个文档经过分类器后就能输出该文档对应的类别。

四、在线匹配

如图5所示,在线匹配分三步走:主题匹配、类别分类、综合匹配,是将文档材料分别与条款的两个子模型进行匹配,最后再将两者的匹配情况进行综合返回最匹配的条款,以便后续根据这些条款做出初步判定。

主题匹配通过对比文档材料的词项分布情况与条款主题模型的相似度(即将文档材料的各分词构成一分布向量,然后与每一条款的相关词构成的分布向量,即条款主题模型,进行相似度计算),如使用kl距离计算该相似度,通过设置阈值参数,返回相似度超过该阈值的条款及其概率。类别分类是用训练好的分类模型对鉴定材料进行分类,设置阈值并取概率超过该阈值的类别。综合匹配根据类别分类返回的类别对主题模型匹配上的条款进行筛选(每一条款上标注有对应的类别信息),设置主题模型和类别模型权重,计算条款匹配概率值,返回概率最高的条款。本发明首先使用主题模型计算待鉴定文档和各条款j的相似度,取前n个最大值;再使用类别模型对刚刚匹配上的n个条款进行进一步的类别筛选;比如条款3和条款7的主题内容都是关于对外经济的,条款3的类别是“数据”,条款7的类别是“规划”;然后将条款3对应的返回结果(主题内容相似度值与数据类别概率值)进行加权求和得到条款3的匹配概率值。

尽管为说明目的公开了本发明的具体内容、实施算法以及附图,其目的在于帮助理解本发明的内容并据以实施,但是本领域的技术人员可以理解:在不脱离本发明及所附的权利要求的精神和范围内,各种替换、变化和修改都是可能的。本发明不应局限于本说明书最佳实施例和附图所公开的内容,本发明要求保护的范围以权利要求书界定的范围为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1