1.一种基于短语结构树的相似题目识别方法,其特征在于,包括以下步骤:
s1.针对输入题目进行文本预处理;
s2.针对题目信息构建短语结构树;
s3.对短语结构树做剪枝操作,遍历短语结构树,根据短语结构树的树结构及叶子节点内容,判定题目的相似性。
2.根据权利要求1所述的方法,其特征在于,在所述步骤s1中,对输入题目进行文本预处理,包括:
s11.统一编码处理、分词、去除停用词、去除无用及非法字符,从而获得词序列;
s12.根据题目中的关键字解析识别题目涉及的知识点信息;
s13.根据正则表达式解析题目中的公式表达式信息。
3.根据权利要求2所述的方法,其特征在于,所述步骤s2中,针对题目信息构建短语结构树的步骤包括:
s21.对词序列进行词法分析;
s22.对词序列进行语法分析;
s23.根据词法分析和语法分析的结果构建短语结构树。
4.根据权利要求1所述的方法,其特征在于,所述步骤s3中,剪枝的步骤包括:
s31.对插入语进行剪枝处理;
s32.对无实际意义的词进行剪枝处理。
5.根据权利要求4所述的方法,其特征在于,所述步骤s3中,判定题目的相似性的步骤包括:
s33.比较题目短语结构树的结构,若短语结构树的树结构信息不相同,则判定题目不相同,否则进入步骤s34;
s34.比较短语结构树的内容信息是否相同,若不相同则判定题目不相同,否则判定题目相同。
6.根据权利要求5所述的方法,其特征在于,所述步骤s34中,比较短语结构树的内容信息的步骤包括:
比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;
比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;
为词性类别设置不同的权重值,计算两个短语的相似度,如果相似度大于设定的阈值,则判定题目相同,否则判定题目不相同。
7.根据权利要求6所述的方法,其特征在于,所述相似度的计算公式为:
其中wi为短语结构树叶子节点中第i个分词对应词性的权重,ci为两个短语结构树第i个分词的比较结果,若第i个分词相同ci=1,否则ci=0。
8.一种基于短语结构树的相似题目识别系统,其特征在于,所述系统包括题目文本预处理模块、构建短语结构树模块及题目判定模块,其中:
题目文本预处理模块,用于读取待比较题目信息及题库题目信息,对题目文本进行相应的文本预处理,解析题目中的知识点信息及公式表达式信息,最后将题目信息传送给构建短语结构树模块;
构建短语结构树模块,根据题目文本预处理模块获取的题目信息,对题目进行词法分析及语法分析,结合题目中的知识点信息与公式表达式信息构建短语结构树,将其传送给题目判定模块;
题目判定模块,根据待比较题目的短语结构树信息,对短语结构树做剪枝操作,然后层次遍历短语结构树,根据短语结构树的树结构信息及题目内容信息判定题目的相似性并对题目进行相应的处理。
9.根据权利要求8所述的系统,其特征在于,在所述题目文本预处理模块中,对题目文本进行预处理的方法包括;
统一编码处理、分词、去除停用词、去除无用及非法字符,获得词序列;
根据题目中的关键字解析识别题目中涉及的知识点信息;
根据正则表达式解析题目中的公式表达式信息。
10.根据权利要求8所述的系统,其特征在于,所述题目判定模块中,根据短语结构树的树结构信息及题目内容信息判定题目的相似性的方法包括:
比较题目涉及的知识点信息是否相同,若不相同则判定题目不相同;
比较短语结构树包含的公式表达式是否相同,若不相同则判定题目不相同;
为词性设置不同的权重值,计算短语间的相似度,如果相似度大于设定的阈值,则判定题目相同,否则判定题目不相同。