一种通用的条款与文档匹配方法与流程

文档序号：20918232发布日期：2020-05-29 13:48阅读：来源：国知局

技术特征：

1.一种通用的条款与文档匹配方法，其步骤包括：

1)根据条款切割体系对所选每一条款句子进行分词块操作，并对相应词块添加解释词和扩展词，生成针对每一所选条款的多个查询语句；

2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款，获得每一条款i对应的标注数据集；

3)对于每一条款i，根据条款i的标注数据集i，通过查询词扩展技术确定条款i中每个条款词w对应的文档词，作为条款词w的扩展词；计算每个扩展词的分布概率作为扩展词的权重，根据权重对扩展词排序获得前n个扩展词及其对应的权重，作为该条款i的条款主题模型；根据步骤1)处理得到的条款i的词块类型对标注数据集i中的每一文档标注其对应的文档类型，每一类型对应一标注数据子集，利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型；

4)对于一待匹配条款的文档材料a，计算该文档材料a的词项分布与每一条款的条款主题模型相似度，返回相似度大于设定阈值的条款；利用各条款的条款分类模型对该文档材料进行类别分类；

5)根据返回的类别对返回的条款进行筛选；然后根据返回类别m的概率值和相似度s计算条款j的匹配概率值，返回匹配概率最高的条款；其中，相似度s为根据返回类别m筛选出的条款j与文档材料a的相似度。

2.如权利要求1所述的方法，其特征在于，步骤1)中，根据条款切割体系将条款分成三种词块：实体对象块、主题内容块和类型块；其中，实体对象块是条款中出现的实体对象词，主题内容块是指条款中出现的主题内容词，类型块是指条款的材料类型限定词。

3.如权利要求1所述的方法，其特征在于，根据条款i的每一所述查询语句从业务数据库、开源知识库和互联网上查询收集该条款i的相关文档数据。

4.如权利要求1所述的方法，其特征在于，使用kl距离算法计算文档材料a的词项分布与每一条款的条款主题模型相似度。

5.如权利要求1所述的方法，其特征在于，所述扩展词的权重为扩展词在tf-idf值。

6.如权利要求1所述的方法，其特征在于，所述条款为法律条款、行政法规或保密条款。

7.一种服务器，其特征在于，包括存储器和处理器，所述存储器存储计算机程序，所述计算机程序被配置为由所述处理器执行，所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

8.一种计算机可读存储介质，其特征在于，存储一计算机程序，所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

技术总结
本发明公开了一种通用的条款与文档匹配方法，其步骤包括：1)根据条款切割体系对所选每一条款句子进行分词块操作，并对相应词块添加解释词和扩展词，生成针对每一条款的多个查询语句；2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款，获得每一条款i对应的标注数据集；3)对于每一条款i，根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型；4)对于一待匹配条款的文档材料a，计算该文档材料a与每一条款的条款主题模型相似度和类别分类；5)根据返回的类别概率值和相似度计算各条款的匹配概率值，返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。

技术研发人员：张鹏;周美林;骆丹;马路;许洪波;刘萍
受保护的技术使用者：中国科学院信息工程研究所
技术研发日：2020.01.13
技术公布日：2020.05.29

完整全部详细技术资料下载

当前第2页1 2