1.一种通用的条款与文档匹配方法,其步骤包括:
1)根据条款切割体系对所选每一条款句子进行分词块操作,并对相应词块添加解释词和扩展词,生成针对每一所选条款的多个查询语句;
2)根据条款i的每一所述查询语句查询收集该条款i的相关文档数据并标注所收集每一文档所对应的条款,获得每一条款i对应的标注数据集;
3)对于每一条款i,根据条款i的标注数据集i,通过查询词扩展技术确定条款i中每个条款词w对应的文档词,作为条款词w的扩展词;计算每个扩展词的分布概率作为扩展词的权重,根据权重对扩展词排序获得前n个扩展词及其对应的权重,作为该条款i的条款主题模型;根据步骤1)处理得到的条款i的词块类型对标注数据集i中的每一文档标注其对应的文档类型,每一类型对应一标注数据子集,利用每一标注数据子集训练得到该条款i的一对应类型的条款分类模型;
4)对于一待匹配条款的文档材料a,计算该文档材料a的词项分布与每一条款的条款主题模型相似度,返回相似度大于设定阈值的条款;利用各条款的条款分类模型对该文档材料进行类别分类;
5)根据返回的类别对返回的条款进行筛选;然后根据返回类别m的概率值和相似度s计算条款j的匹配概率值,返回匹配概率最高的条款;其中,相似度s为根据返回类别m筛选出的条款j与文档材料a的相似度。
2.如权利要求1所述的方法,其特征在于,步骤1)中,根据条款切割体系将条款分成三种词块:实体对象块、主题内容块和类型块;其中,实体对象块是条款中出现的实体对象词,主题内容块是指条款中出现的主题内容词,类型块是指条款的材料类型限定词。
3.如权利要求1所述的方法,其特征在于,根据条款i的每一所述查询语句从业务数据库、开源知识库和互联网上查询收集该条款i的相关文档数据。
4.如权利要求1所述的方法,其特征在于,使用kl距离算法计算文档材料a的词项分布与每一条款的条款主题模型相似度。
5.如权利要求1所述的方法,其特征在于,所述扩展词的权重为扩展词在tf-idf值。
6.如权利要求1所述的方法,其特征在于,所述条款为法律条款、行政法规或保密条款。
7.一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。
8.一种计算机可读存储介质,其特征在于,存储一计算机程序,所述计算机程序包括用于执行权利要求1至6任一所述方法中各步骤的指令。