一种通用的条款与文档匹配方法与流程

文档序号:20918232发布日期:2020-05-29 13:48阅读:来源:国知局

技术特征:

1.一种通用的条款与文档匹配方法,其步骤包括:

1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一所选条款的多个查询语句;

2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;

3)对于每一条款i,根据条款i的标注数据集i,通过查询词扩展技术确定条款i中每个条款词w对应的文档词,作为条款词w的扩展词;计算每个扩展词的分布概率作为扩展词的权重,根据权重对扩展词排序获得前n个扩展词及其对应的权重,作为该条款i的条款主题模型;根据步骤1)处理得到的条款i的词块类型对标注数据集i中的每一文档标注其对应的文档类型,每一类型对应一标注数据子集,利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型;

4)对于一待匹配条款的文档材料a,计算该文档材料a的词项分布与每一条款的条款主题模型相似度,返回相似度大于设定阈值的条款;利用各条款的条款分类模型对该文档材料进行类别分类;

5)根据返回的类别对返回的条款进行筛选;然后根据返回类别m的概率值和相似度s计算条款j的匹配概率值,返回匹配概率最高的条款;其中,相似度s为根据返回类别m筛选出的条款j与文档材料a的相似度。

2.如权利要求1所述的方法,其特征在于,步骤1)中,根据条款切割体系将条款分成三种词块:实体对象块、主题内容块和类型块;其中,实体对象块是条款中出现的实体对象词,主题内容块是指条款中出现的主题内容词,类型块是指条款的材料类型限定词。

3.如权利要求1所述的方法,其特征在于,根据条款i的每一所述查询语句从业务数据库、开源知识库和互联网上查询收集该条款i的相关文档数据。

4.如权利要求1所述的方法,其特征在于,使用kl距离算法计算文档材料a的词项分布与每一条款的条款主题模型相似度。

5.如权利要求1所述的方法,其特征在于,所述扩展词的权重为扩展词在tf-idf值。

6.如权利要求1所述的方法,其特征在于,所述条款为法律条款、行政法规或保密条款。

7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。

8.一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。


技术总结
本发明公开了一种通用的条款与文档匹配方法,其步骤包括:1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一条款的多个查询语句;2)根据条款i的每一查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;3)对于每一条款i,根据条款i的标注数据集I训练得到该条款i的条款主题模型和条款分类模型;4)对于一待匹配条款的文档材料a,计算该文档材料a与每一条款的条款主题模型相似度和类别分类;5)根据返回的类别概率值和相似度计算各条款的匹配概率值,返回匹配概率最高的条款。本发明解决了条款与文档难以匹配的问题。

技术研发人员:张鹏;周美林;骆丹;马路;许洪波;刘萍
受保护的技术使用者:中国科学院信息工程研究所
技术研发日:2020.01.13
技术公布日:2020.05.29
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1