基于迭代的同义词挖掘方法及装置与流程

文档序号:11950215阅读:来源:国知局

技术特征:

1.一种基于迭代的同义词挖掘方法,其特征在于,包括:

根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;

根据所述同义语对中词语的一一对应关系获取第一候选同义词组;

根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;

根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。

2.根据权利要求1所述的方法,其特征在于,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:

将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案。

3.根据权利要求2所述的方法,其特征在于,所述将所述问题语料扩展成向量,包括:

根据单词-向量word2vec处理技术或hownet词汇知识库将所述问题语料扩展成向量。

4.根据权利要求1所述的方法,其特征在于,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:

根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对。

5.根据权利要求4所述的方法,其特征在于,所述根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对,包括:

根据所述不同问题语料的重叠字词所占比例、语法结构相似度和/或问题目标分类结果从所述不同问题语料中获取同义语对。

6.根据权利要求1所述的方法,其特征在于,所述根据用户输入的用于获取答案的问题语料获取同义语对,包括:

对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。

7.根据权利要求6所述的方法,其特征在于,所述对所述用户输入的用于获取答案的问题语料进行模式识别,还包括:

判断所述问题语料是否汇总于一个封闭集合。

8.根据权利要求1-7中任一项所述的方法,其特征在于,所述根据所述第一候选同义词组和所述第二候选同义词组更新词典中同义词的对齐结果,包括:

将新产生的同义词对加入所述词典,并为所述同义句对中未对齐的词语构建对齐关系。

9.一种基于迭代的同义词挖掘装置,其特征在于,包括:

同义语对获取单元,用于根据用户输入的用于获取答案的问题语料获取同义语对;其中,所述同义语对为具有相同语义的语句所构成的语句组合;

第一词组获取单元,用于根据所述同义语对中词语的一一对应关系获取第一候选同义词组;

第二词组获取单元,用于根据所述第一候选同义词组从更多所述同义语对中迭代抽取第二候选同义词组;

对齐结果更新单元,用于根据所述第一候选同义词组和所述第二候选同义词组更新同义词词典中的对齐结果。

10.根据权利要求9所述的装置,其特征在于,所述同义语对获取单元进一步用于:

将所述问题语料扩展成向量,并将具有相同维度的所述向量对应的问题语料确定为同义语对;其中,所述向量的维度为所述问题语料的答案;或,

根据用户为获取更感兴趣的答案而连续输入的不同问题语料获取同义语对;或,

对所述用户输入的用于获取答案的问题语料进行模式识别,以根据模式识别的结果将具有逻辑性的不同所述问题语料确定为同义语对。

当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1