一种筛查题库中重复试题的方法及装置的制造方法
【技术领域】
[0001] 本发明涉及筛查题库中重复试题的技术领域,尤其涉及一种筛查题库中重复试题 的方法及装置。
【背景技术】
[0002] 随着互联网时代浪潮到来,传统教育行业慢慢被颠覆,在线教育产品随着这个趋 势井喷式的爆发出来,在这些产品之中最为突出的产品类型当属题库类和拍照答疑类,为 了解决现在学生作业多,作业中遇到难题无法及时寻求帮助等的问题,题库类和拍照答疑 类产品必须保证后台题库量大,尽量使得学生能够从题库中搜索他们想要的题目和答案解 析,然而,题库的质量对学生能否快速搜索到他们想要的答案解析和用户体验有着重要影 响,甚至决定了该产品是否能够成功。
[0003] 此类产品中,由于数学题目中含有较多的图形、公式、字母符号,受目前图像识别 技术的限制等原因,导致题库中数学题目有大量的重复试题,造成了以下三种情况:
[0004] 1、服务器压力大,题库维护成本高;
[0005] 2、搜索耗时增加,用户体验差;
[0006] 3、推送给学生用户的内容有太多重复内容,用户体验差;
[0007] 4、题库解析是人工解答,答题成本增加。
【发明内容】
[0008] 本发明提供一种筛查题库中重复试题的方法及装置,解决了现有筛查题库中重复 试题的方法优化效果差,准确度不高的技术问题,保证题库的质量,降低题库维护成本,大 大提高了产品的用户体验。
[0009] 本发明采用以下技术方案:
[0010] 第一方面,本发明提供一种筛查题库中重复试题的方法,包括:
[0011] 按照预设规则从题库中提取试题得到待查重试题;
[0012] 针对所述待查重试题从所述题库中筛选出与所述待查重试题相似度较高的试题 集合,得到相似试题集合;
[0013] 分别提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征,按 顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的数据特征输入预设 决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试题重复的试题。
[0014] 进一步地,所述方法还包括:
[0015] 从所述题库中删除所述与待查重试题重复的试题。
[0016] 进一步地,所述针对所述待查重试题从所述题库中筛选出与所述待查重试题相似 度较高的试题集合,得到相似试题集合,具体为:
[0017] 采用布尔模型和余弦定理分别计算出所述题库中其他试题与所述待查重试题的 第一相似度值,如果所述第一相似度值大于预设第一相似度值,则该试题与所述待查重试 题相似度较高,得到相似试题集合。
[0018] 进一步地,所述题库为数学题库;所述数据特征包括数字、字母、汉字和汉字的长 度。
[0019] 进一步地,所述分别提取所述待查重试题的数据特征和所述相似试题集合中每个 试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试题的 数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查重试 题重复的试题,包括:
[0020] 如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含 数字和字母,使用JaroDistance算法判断所述相似试题集合中试题是否与所述待查重试 题重复,得到与所述待查重试题重复的试题;
[0021] 如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含 数字,包含字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重 复,得到与所述待查重试题重复的试题;
[0022] 如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数 字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征和所述相似试题 集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相似度值,并且采 用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值和所述第三相似 度值,得到与所述待查重试题重复的试题;
[0023] 如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数 字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母小于预设个 数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数字,使 用最大公共子序列计算二者的第四相似度值,并且采用Dice系数计算第五相似度值,根据 所述第四相似度值和所述第五相似度值,得到与所述待查重试题重复的试题;
[0024] 如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征包含数 字、汉字和大写字母,同时汉字的长度大于或等于所述预设长度,且大写字母大于或等于 预设个数,提取所述待查重试题的数据特征和所述相似试题集合中试题的数据特征中的数 字,使用最大公共子序列计算二者的第六相似度值,根据所述第六相似度值,得到与所述待 查重试题重复的试题。
[0025] 进一步地,所述第一预设相似度值等于0. 7 ;所述第二预设相似度值、第三预设相 似度值、第四预设相似度值和第六预设相似度值均等于〇. 9 ;所述第五预设相似度值等于 1〇
[0026] 第二方面,本发明提供一种筛查题库中重复试题的装置,包括:
[0027] 待查重试题提取单元,用于按照预设规则从题库中提取试题得到待查重试题;
[0028] 相似试题集合获取单元,用于针对所述待查重试题从所述题库中筛选出与所述待 查重试题相似度较高的试题集合,得到相似试题集合;
[0029] 重复试题获得单元,用于分别提取所述待查重试题的数据特征和所述相似试题集 合中试题的数据特征,按顺序将所述相似试题集合中试题的数据特征分别与所述待查重试 题的数据特征输入预设决策树模型中使用对应的相似度算法计算相似度,得到与所述待查 重试题重复的试题。
[0030] 进一步地,还包括:重复试题删除单元,用于从所述题库中删除所述与待查重试题 重复的试题。
[0031] 进一步地,所述相似试题集合获取单元,具体用于采用布尔模型和余弦定理分别 计算出所述题库中其他试题与所述待查重试题的第一相似度值,如果所述第一相似度值大 于预设第一相似度值,则该试题与所述待查重试题相似度较高,得到相似试题集合。
[0032] 进一步地,所述数据特征包括数字、字母、汉字和汉字的长度。
[0033] 进一步地,所述重复试题获得单元,具体用于如果所述待查重试题的数据特征和 所述相似试题集合中试题的数据特征不包含数字和字母,使用JaroDistance算法判断所 述相似试题集合中试题是否与所述待查重试题重复,得到与所述待查重试题重复的试题; 如果所述待查重试题的数据特征和所述相似试题集合中试题的数据特征不包含数字,包含 字母,使用Dice系数判断所述相似试题集合中试题是否与所述待查重试题重复,得到与所 述待查重试题重复的试题;如果所述待查重试题的数据特征和所述相似试题集合中试题的 数据特征包含数字和汉字,且汉字的长度小于预设长度,提取所述待查重试题的数据特征 和所述相似试题集合中试题的数据特征中的数字,使用最大公共子序列计算二者的第二相 似度值,并且采用布尔模型和余弦定理计算二者的第三相似度值,根据所述第二相似度值 和所述第三相似度值,得到与所述待查重试题重复的试题;如果所述待查重试题的数据特 征和所述相似试题集合中试题的数据特征包含数字、汉字和大写字母,同时汉字的长度大 于或等于所述预设长度,且大写字母小于预设个数,提取所述