结合词性的英语近形词干扰项生成方法
【专利摘要】本发明涉及一种结合词性的英语近形词干扰项生成方法,包括以下步骤:从词库中选取源单词作为源单词字符串,其他单词作为目标单词字符串,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串和目标字符串的相似度;把相似度阈值控制在0.6~1.0之间,满足上述阈值范围的单词为候选词;对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即得到源单词的干扰项;结束一次处理过程。本发明引入了LCS算法进行归一化融合,改变了单纯依赖一种相似度算法计算英语单词相似度的盲目性,提高了生成英语近形词干扰项的可靠性和准确性,解决了相同词义但是不同词性重复出现的问题。
【专利说明】结合词性的英语近形词干扰项生成方法
【技术领域】
[0001]本发明涉及一种自然语言的处理方法,具体的说是一种结合词性的英语近形词干扰项生成方法。
【背景技术】
[0002]英语学习的过程中,经常会遇到一些易混淆的单词。易混词主要包括近义词和近形词等,其中近形词就是具有相似词形的词。例如:形容词sensitive的意思是“敏感的”,而形容词sensible的意思却是“理智的”。尽管sensitive和sensible有共同的词根,词性也相同,但这两个词却不是近义词,而是近形词。在英语测试题或其他英语学习资源的设计中,近形词经常会作为正确词选项的干扰项出现,以此增加选择的难度并且提高学习者对单词的掌握程度。
[0003]传统的近形词干扰项生成算法主要采用编辑距离算法计算单词相似度,而编辑距离算法本身存在一些缺陷,导致生成近形词的准确性和合理性上存在不足,干扰项相似度低,设计不合理的问题。
【发明内容】
[0004]针对现有技术中英语单词学习中出现的干扰项相似度低,设计不合理等不足,本发明要解决的技术问题是提供一种能够提高英语单词相似度计算的准确性的结合词性的英语近形词干扰项生成方法。
[0005]为解决上述技术问题,本发明采用的技术方案是:
[0006]本发明结合词性的英语近形词干扰项生成方法包括以下步骤:
[0007]从词库中选取源单词作为源单词字符串strl,其他单词作为目标单词字符串str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串strl和目标字符串str2的相似度a (strl, str2);
[0008]把相似度阈值控制在0.6~1.0之间,即相似度0.6≤a (strl, str2)<l.0,满足上述阈值范围的单词输出,作为候选词;
[0009]对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即相似度0.6 ( a〈l.0,输出单词,即得到源单词的干扰项;
[0010]结束一次处理过程。
[0011]所述归一化融合相似度算法包括以下步骤:
[0012]通过计算从源单词字符串strl转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度;
[0013]通过LCS算法得到源字符串strl和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度;
[0014]通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串strl和目标单词字符串str2的相似度a (strl, str2)。[0015]通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串strl和目标单词字符串str2的相似度a (strl, str2)公式如下:
【权利要求】
1.一种结合词性的英语近形词干扰项生成方法,其特征在于包括以下步骤: 从词库中选取源单词作为源单词字符串Strl,其他单词作为目标单词字符串Str2,遍历单词库中的所有单词,根据归一化融合相似度算法求出源单词字符串strl和目标字符串 str2 的相似度 a (strl, str2); 把相似度阈值控制在0.6~1.0之间,即相似度0.6 ≤a (strl,str2)〈1.0,满足上述阈值范围的单词输出,作为候选词; 对上步中输出的候选词和源单词进行结合词性的相似度计算,把相似度a阈值控制在0.6~1.0之间,即相似度0.6 ≤ a〈l.0,输出单词,即得到源单词的干扰项; 结束一次处理过程。
2.按权利要求1所述的合词性的英语近形词干扰项生成方法,其特征在于所述归一化融合相似度算法包括以下步骤: 通过计算从源单词字符串strl转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离,依此求出编辑距离相似度; 通过LCS算法得到源字符串strl和目标单词字符串str2中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度; 通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串strl和目标单词字符串str2的相似度a (strl, str2)。
3.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于: 通过对编辑距离相似度和LCS相似度进行归一化融合得到源单词字符串strl和目标单词字符串str2的相似度a (strl, str2)公式如下:
4.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于:通过计算从源单词字符串strl转换到目标单词字符串str2所需要的最少的插入、删除和替换的次数得到编辑距离步骤为: 如果字符串strl或str2的长度为0,则返回另一个字符串的长度; 构造并初始化一个(m+1) X (n+1)的矩阵Du,使第一行和第一列的值从O开始增长;扫描两字符串,用cost记录结果,若strl [i]=str2[j]则cost=0,否则cost=l ;在矩阵 D[i] [j]处赋值 D[1-1] [j]+l、D[i] [j-l]+l 和 D[1-1] [j-l]+cost 三个中的最小值; 扫描完后,返回矩阵的最后一个值即D[m] [η]即编辑距离D(strl,str2)。 编辑距离算法相似度计算公式:编辑:距尚相慨度
5.按权利要求2所述的结合词性的英语近形词干扰项生成方法,其特征在于: 通过LCS算法求源单词字符串strl和目标字符串T (str2)中最长公共子序列,并根据得到的最长公共子序列的长度求出LCS相似度步骤为; 如果字符串strl或str2的长度为O,则返回O ; 构造并初始化一个(m+1) X (n+1)的矩阵L,使第一行和第一列的值都为O,即L0j=Litl=O,若 strl [i]=str2[j]则 L[i] [j]=l,否则 L[i] [j]=0 ; 按公式(3)刷新矩阵L,最后得到矩阵L中的最大值即最长公共子序列长度LCS (strl, str2):
6.按权利要求1所述的结合词性的英语近形词干扰项生成方法,其特征在于: 结合词性的相似度计算公式为:
【文档编号】G06F17/27GK103902527SQ201410126836
【公开日】2014年7月2日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】盖荣丽, 汪祖民, 孙晓辉 申请人:大连大学