基于社会科学类教材的试卷生成方法和装置与流程

文档序号:27139866发布日期:2021-10-30 00:22阅读:152来源:国知局
基于社会科学类教材的试卷生成方法和装置与流程

1.本发明涉及计算机辅助教学领域,特别涉及一种基于社会科学类教材的试卷生成方法和装置。


背景技术:

2.随着计算机技术的发展,利用各类计算机设备开展的计算机辅助教学已经在社会上广泛应用。其中,计算机辅助的自动出卷又是计算机辅助教学的一个重要应用。现有的自动出卷技术一般是,预先收集大量人工编写的题目(包含题干和答案)到题目库中,当有出卷需求的时候,从题目库读取出一定量的题目,将这些题目提供给教职人员,以供教职人员用这些题目组成试卷。
3.可以看出,现有的自动出卷技术只能利用预先编写的题目进行组卷,题库中的大量题目仍需要相关人员手动编辑,因而构建题库的耗时较长,效率较低。


技术实现要素:

4.针对上述现有技术存在的问题,本技术提供一种基于社会科学类教材的试卷生成方法和装置,以提供一种利用社会科学领域教材自动生成题目并完成组卷的方案。
5.本技术提供一种基于社会科学类教材的试卷生成方法,包括:
6.根据光学字符识别技术识别纸质的社会科学类教材,得到所述社会科学类教材对应的电子文档;
7.利用预先构建的正则表达式在所述电子文档中查找出符合第一文本特征、第二文本特征和第三文本特征中任意一项文本特征的多个文本段,利用预先训练的语义识别模型识别出多个所述文本段中,包含专业术语的文本段,并记录各个所述文本段在所述电子文档中的位置信息;其中,文本段由所述电子文档中的一个或连续的多个语句构成;
8.针对每一个包含专业术语的文本段,根据所述文本段生成至少一个题目;其中,题目的题目类型包括填空题和选择题;
9.分别从所述电子文档的目录和各个所述题目中抽取出多个知识点;其中,知识点指代所述目录或所述题目包含的实体、关系和属性;
10.结合所述知识点,以及用于生成所述题目的文本段的位置信息,通过知识融合构建知识图谱;其中,所述知识图谱包括节点和连接节点的边;所述节点表征知识点、题目或所述目录的子标题;
11.根据指定的试卷生成参数,在所述知识图谱搜索得到符合所述试卷生成参数的组卷题目集,并将所述组卷题目集包含的多个题目组合为试卷;其中,所述试卷生成参数包括知识点参数,题目类型参数,难易度参数和知识关联性参数;
12.其中,所述第一文本特征为,文本段的字体为预设的目标字体,且文本段包含指定的第一特征词;
13.所述第二文本特征为,文本段为单个语句并位于所述电子文档的任一自然段的开
头或结尾,该语句的结尾符号为句号,该语句包含指定的第二特征词且不包含指定的第三特征词;
14.所述第三文本特征为,文本段包括多个语句,其中首个语句包含指定的第四特征词,除首个语句以外的其他语句均带有位于语句开头的序号;
15.其中,所述根据所述文本段生成至少一个题目,包括:
16.针对符合所述第一文本特征或所述第二文本特征的文本段,利用自然语言处理技术从所述文本段中抽出至少一个关键词,得到一个填空题;其中,抽出关键词后的所述文本段作为填空题的题干,抽出的关键词作为填空题的答案;
17.针对符合所述第三文本特征的文本段,在所述文本段的多个带序号的语句中选择至少一个语句作为选择题的正确答案,将除所述正确答案以外其他带序号的语句的关键词替换为相似词,得到选择题的错误答案,并将所述文本段的首个语句确定为选择题的题干,从而得到一个选择题。
18.可选的,所述将除所述正确答案以外其他带序号的语句的关键词替换为相似词,包括:
19.获得预设的目标难易度,并确定所述目标难易度对应的相似度阈值;其中,相似度阈值的大小与所述目标难易度的高低正相关;
20.针对除所述正确答案以外其他带序号的语句的关键词,查找与所述关键词的相似度不大于所述目标难易度对应的相似度阈值的词汇,作为相似词;
21.将除所述正确答案以外其他带序号的语句的关键词替换为所述相似词。
22.可选的,所述根据指定的试卷生成参数,在所述知识图谱搜索得到符合所述试卷生成参数的组卷题目集,包括:
23.在所述知识图谱中查找得到所述知识点参数所包含的每一个知识点,将查找得到的知识点作为第一知识点;
24.根据所述知识关联性参数在所述知识图谱中查找得到与所述第一知识点连接的第二知识点;
25.提取出包含所述第一知识点和/或所述第二知识点的题目,得到题目集;
26.根据所述难易度参数调整所述题目集中不同难易度的题目的比例,以及根据所述题目类型参数调整所述题目集中不同题目类型的题目的比例,得到组卷题目集。
27.可选的,所述记录各个所述文本段在所述电子文档中的位置信息,包括;
28.记录各个所述文本段在所述电子文档中的逻辑位置和结构位置。
29.可选的,所述结合所述知识点,以及用于生成所述题目的文本段的位置信息,通过知识融合构建知识图谱之后,还包括:
30.统计所述知识图谱中记录的题目的题目覆盖量和题目难易度分布。
31.本技术还提供一种基于社会科学类教材的试卷生成装置,包括:
32.识别单元,用于根据光学字符识别技术识别纸质的社会科学类教材,得到所述社会科学类教材对应的电子文档;
33.查找单元,用于利用预先构建的正则表达式在所述电子文档中查找出符合第一文本特征、第二文本特征和第三文本特征中任意一项文本特征的多个文本段,利用预先训练的语义识别模型识别出多个所述文本段中,包含专业术语的文本段,并记录各个所述文本
段在所述电子文档中的位置信息;其中,文本段由所述电子文档中的一个或连续的多个语句构成;
34.生成单元,用于针对每一个包含专业术语的文本段,根据所述文本段生成至少一个题目;其中,题目的题目类型包括填空题和选择题;
35.抽取单元,用于分别从所述电子文档的目录和各个所述题目中抽取出多个知识点;其中,知识点指代所述目录或所述题目包含的实体、关系和属性;
36.构建单元,用于结合所述知识点,以及用于生成所述题目的文本段的位置信息,通过知识融合构建知识图谱;其中,所述知识图谱包括节点和连接节点的边;所述节点表征知识点、题目或所述目录的子标题;
37.搜索单元,用于根据指定的试卷生成参数,在所述知识图谱搜索得到符合所述试卷生成参数的多个题目,并将搜索得到的多个题目组合为试卷;其中,所述试卷生成参数包括知识点参数,题目类型参数,难易度参数和知识关联性参数;
38.其中,所述第一文本特征为,文本段的字体为预设的目标字体,且文本段包含指定的第一特征词;
39.所述第二文本特征为,文本段为单个语句并位于所述电子文档的任一自然段的开头或结尾,该语句的结尾符号为句号,该语句包含指定的第二特征词且不包含指定的第三特征词;
40.所述第三文本特征为,文本段包括多个语句,其中首个语句包含指定的第四特征词,除首个语句以外的其他语句均带有位于语句开头的序号;
41.其中,所述生成单元根据所述文本段生成至少一个题目时,具体用于:
42.针对符合所述第一文本特征或所述第二文本特征的文本段,利用自然语言处理技术从所述文本段中抽出至少一个关键词,得到一个填空题;其中,抽出关键词后的所述文本段作为填空题的题干,抽出的关键词作为填空题的答案;
43.针对符合所述第三文本特征的文本段,在所述文本段的多个带序号的语句中选择至少一个语句作为选择题的正确答案,将除所述正确答案以外其他带序号的语句的关键词替换为相似词,得到选择题的错误答案,并将所述文本段的首个语句确定为选择题的题干,从而得到一个选择题。
44.可选的,所述生成单元将除所述正确答案以外其他带序号的语句的关键词替换为相似词时,具体用于:
45.获得预设的目标难易度,并确定所述目标难易度对应的相似度阈值;其中,相似度阈值的大小与所述目标难易度的高低正相关;
46.针对除所述正确答案以外其他带序号的语句的关键词,查找与所述关键词的相似度不大于所述目标难易度对应的相似度阈值的词汇,作为相似词;
47.将除所述正确答案以外其他带序号的语句的关键词替换为所述相似词。
48.可选的,所述搜索单元根据指定的试卷生成参数,在所述知识图谱搜索得到符合所述试卷生成参数的组卷题目集时,具体用于:
49.在所述知识图谱中查找得到所述知识点参数所包含的每一个知识点,将查找得到的知识点作为第一知识点;
50.根据所述知识关联性参数在所述知识图谱中查找得到与所述第一知识点连接的
第二知识点;
51.提取出包含所述第一知识点和/或所述第二知识点的题目,得到题目集;
52.根据所述难易度参数调整所述题目集中不同难易度的题目的比例,以及根据所述题目类型参数调整所述题目集中不同题目类型的题目的比例,得到组卷题目集。
53.可选的,所述查找单元记录各个所述文本段在所述电子文档中的位置信息时,具体用于:
54.记录各个所述文本段在所述电子文档中的逻辑位置和结构位置。
55.可选的,所述装置还包括:
56.统计单元,用于统计所述知识图谱中记录的题目的题目覆盖量和题目难易度分布。
57.本技术提供一种基于社会科学类教材的试卷生成方法和装置,方法包括,识别纸质的社会科学类教材,得到教材对应的电子文档;在电子文档中查找出符合文本特征的多个文本段(由电子文档中的一个或连续的多个语句构成),用语义识别模型识别出多个文本段中包含专业术语的文本段;根据每一个包含专业术语的文本段,生成至少一个题目;分别从电子文档的目录和各个题目中抽取出多个知识点;结合知识点,以及用于生成题目的文本段的位置信息,通过知识融合构建知识图谱;根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的组卷题目集,并将组卷题目集包含的多个题目组合为试卷。本方案利用教材自动生成题目,有效提高了自动出卷的效率。
附图说明
58.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
59.图1为本技术实施例提供的一种基于社会科学类教材的试卷生成方法;
60.图2为本技术实施例提供的一种知识图谱的示意图;
61.图3为本技术实施例提供的一种基于社会科学类教材的试卷生成装置的结构示意图;
62.图4为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
63.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
64.请参考图1,本技术提供一种基于社会科学类教材的试卷生成方法,该方法可以包括如下步骤:
65.s101、根据光学字符识别技术识别纸质的社会科学类教材,得到社会科学类教材对应的电子文档。
66.光学字符识别(optical character recognition,ocr)技术,是一种现有的字符识别技术,该技术可以通过采集纸质教材的光学信息,识别出纸质教材上的字符,从而将纸质教材转换为电子文档。
67.一般的,转换得到的电子文档可以是html格式或者是pdf格式。该电子文档将作为本技术提供的试卷生成方法的基础数据。
68.s102、识别出电子文档中包含专业术语的文本段,并记录各文本段的位置信息。
69.其中,文本段由电子文档中的一个或连续的多个语句构成。
70.利用预先构建的正则表达式在电子文档中查找出符合第一文本特征、第二文本特征和第三文本特征中任意一项文本特征的多个文本段,利用预先训练的语义识别模型识别出多个文本段中,包含专业术语的文本段,并记录各个文本段在电子文档中的位置信息。
71.正则表达式(又称规则表达式,regular expression,简写为re),是计算机科学中常用的一种技术手段。正则表达式通常被用来从电子文档中检索、替换那些符合特定的特征的文本。
72.因此,在本发明中,可以根据下面所列举的几种具体的文本特征,设计对应的正则表达式,然后利用这些正则表达式从步骤s101获得的电子文档中识别出符合其中任意一项文本特征的文本段。
73.第一文本特征为,文本段的字体为预设的目标字体,且文本段包含指定的第一特征词。
74.一般的,符合第一文本特征的文本段属于名词解释类文本段,主要用于解释教材中出现的某一概念。具体来说,上述目标字体可以是加粗字体,第一特征词可以根据经验设定,例如可以包括“是”,“概念是”、“含义是”、“内涵是”等词组。换言之,第一文本特征,可以是文本段的字体加粗,且文本段中存在“是”,“概念是”、“含义是”、“内涵是”等词组。
75.第二文本特征为,文本段为单个语句并位于电子文档的任一自然段的开头或结尾,该语句的结尾符号为句号,该语句包含指定的第二特征词且不包含指定的第三特征词。
76.同理,第二特征词和第三特征词均可以根据经验设定,比如说,第二特征词可以包括“是”、“即”、“分为”等词组,第三特征词可以包括“但是”,“即使”等词汇。
77.换言之,第二文本特征可以是,以句号为结尾并且属于任一自然段的开头句或结尾句,句子中含有“是”、“即”、“分为”等词汇,不含有“但是”,“即使”等词汇。
78.第三文本特征为,文本段包括多个语句,其中首个语句包含指定的第四特征词,除首个语句以外的其他语句均带有位于语句开头的序号。
79.第四特征词可以包括“的意义”、“社会影响”、“的作用”、“历史意义”、“特色:”、“作用:”等词组,第三文本特征中的序号可以具有不同的表现形式,例如序号可以是“1.2.3.4
……”
,也可以是“(1)(2)(3)
……”

80.具体来说,若某一个以句号为结尾的句子(或者某一个自然段)全部为加粗字体,且该句子(该自然段)包含第一特征词,则可以将该句子(该自然段)识别为符合第一文本特征的文本段。
81.若某一个以句号为结尾、且属于某自然段首句或尾句的句子,其中包含第二特征词且不包含第三特征词,可以将该句子识别为符合第二文本特征的文本段。
82.若存在连续的多个句子,句首带有形如“1.2.3.4
……”
或“(1)(2)(3)
……”
的序
号,且其中序号为1的句子的前一个句子中,含有第四特征词,那么可以将序号为1的句子的前一个句子和这一组带有序号的句子构成的文本段,识别为符合第三文本特征的文本段。
83.可选的,记录各个文本段在电子文档中的位置信息,包括;
84.记录各个文本段在电子文档中的逻辑位置和结构位置。
85.逻辑位置是指某文本段所处该教材逻辑内容章、节、目、段落的位置。例如,位于“第一章概述中,第一节里发展概况的

一、近代重大事件’中”。逻辑位置一般可以采用图谱中点与边的关系记录,需要时可以按图谱中的路径查找。
86.结构位置,可以是用xpath(xml path language,一种计算机语言)所标注的位置信息,例如“xml.selectnodes("/book/chapter[1]/title");”则表示第一个chapter节点的title。
[0087]
步骤s102中所用的语义识别模型,可以是一个利用含有大量预标注的文本训练得到的神经网络模型。
[0088]
具体来说,从另一本教材中提取文本,然后人工标注出这些文本中哪些词汇属于专业术语,然后利用标注后的文本训练一个预构建的神经网络模型,直至该神经网络模型收敛,此时就得到步骤s102所用的语义识别模型。利用该语义识别模型,可以识别出每一个文本段是否包含专业术语,若某一文本段符合前述任一文本特征,且其中包含专业术语,则该文本段可以用于生成一个或多个题目。
[0089]
s103、针对每一个包含专业术语的文本段,根据文本段生成至少一个题目。
[0090]
其中,题目的题目类型包括填空题和选择题。
[0091]
其中,步骤s103,即根据文本段生成至少一个题目,具体可以包括根据文本段生成填空题,以及根据文本段生成选择题。
[0092]
根据文本段生成填空题的方法如下:
[0093]
针对符合第一文本特征或第二文本特征的文本段,利用自然语言处理技术从文本段中抽出至少一个关键词,得到一个填空题;其中,抽出关键词后的文本段作为填空题的题干,抽出的关键词作为填空题的答案。
[0094]
其中,文本段中的关键词可以采用任意一种现有的自然语言处理技术(natural language processing,nlp)识别得到。
[0095]
举例来说,假设一个用于生成题目的句子为:
[0096]“a的内涵是b,c,d,e”。
[0097]
其中a为步骤s102中识别出的专业术语,b,c,d和e为关键词,那么在步骤s103中,可以抽取b,c,d和e中的任意一个或多个,比如,可以抽取b和d,得到如下的填空题题干:
[0098]“a的内涵是(),c,(),e”。
[0099]
其中括号表示需要填的空,相应的,该填空题的答案就是b和d。
[0100]
进一步的,如果一个文本段中有多个可以抽取的关键词,那么可以根据设定的难易度分别抽取不同数量的关键词,从而获得不同难易度的多个填空题。
[0101]
难易度可以划分为容易,中等,困难三个等级,仍然以前述句子为例,可以从“a的内涵是b,c,d,e”中抽取一个关键词,得到难易度为容易的一个填空题:
[0102]
题干为“a的内涵是(),c,d,e”,答案为b。
[0103]
从该句子中抽取两个关键词,可以得到如前文所述的一个填空题,该填空题难易
度为中等。
[0104]
进一步的,可以从该句子抽取除专业术语以外的每一个关键词,得到一个难易度为困难的填空题:
[0105]
题干为“a的内涵是(),(),()和()”,答案为b,c,d和e。
[0106]
根据文本段生成选择题的方法如下:
[0107]
一般的,需要用符合前述第三文本特征且包含专业术语的文本段来生成选择题。
[0108]
针对符合第三文本特征的文本段,在文本段的多个带序号的语句中选择至少一个语句作为选择题的正确答案,将除正确答案以外其他带序号的语句的关键词替换为相似词,得到选择题的错误答案,并将文本段的首个语句确定为选择题的题干,从而得到一个选择题。
[0109]
举例来说,假设一个符合第三文本特征且包含专业术语的文本段为:
[0110]“某运动的社会影响在于:
[0111]
(1)
……

[0112]
(2)
……

[0113]
(3)
……

[0114]
(4)
……
。”[0115]
其中“某运动”为前述步骤识别出的专业术语,省略号表示教材中具体的文本内容。
[0116]
针对上述文本段,首先可以指定一个或多个序号对应的语句为正确答案,如指定一个则生成的选择题为单选题,如指定多个则生成的选择题为不定项选择题。
[0117]
例如,可以指定上述(4)语句为正确答案。
[0118]
此后,可以对序号为(1)至(3)的语句进行混淆,以得到错误选项。
[0119]
以序号(1)为例,对序号(1)的语句进行混淆,包括:
[0120]
识别序号(1)对应语句中一个或多个关键词作为待替换关键词,利用自然语言处理技术生成待替换关键词对应的词向量(记为待替换词向量),然后,针对每一个待替换关键词,在词汇库中找到对应的替换词,用替换词替换掉序号(1)的语句中对应的关键词,完成替换后,序号(1)对应的语句就构成了该选择题中的一个错误选项。
[0121]
替换词,是指,对应的词向量和待替换词向量的相似度(具体的,该相似度可以是余弦相似度,具体计算方法参考现有技术)不大于设定的相似度阈值的词汇。如待替换关键词x,若词汇y的词向量和待替换关键词x的词向量之间的相似度不大于相似度阈值,则词汇y可以作为待替换关键词x对应的替换词。
[0122]
可选的,将除正确答案以外其他带序号的语句的关键词替换为相似词,包括:
[0123]
获得预设的目标难易度,并根据目标难易度确定对应的目标相似度区间;其中,目标相似度区间的下限,与目标难易度的高低正相关;
[0124]
针对除正确答案以外其他带序号的语句的关键词,查找与关键词的相似度位于目标相似度区间的词汇,作为相似词(即前述替换词);
[0125]
将除正确答案以外其他带序号的语句的关键词(即前述待替换关键词)替换为相似词。
[0126]
也就是说,上述相似度阈值的高低可以根据难易度进行调整,如前文所述,难易度
由高到低可以划分为困难,中等和容易,难易度越高,则对应的相似度阈值越高,换言之,用于替换的替换词和对应的待替换关键词之间就越相似。
[0127]
当替换词和对应的待替换关键词相似度过高时,替换后的语句可能仍然是正确选项。为避免这一问题,当生成难易度为困难的选择题时,可以人工对该选择题进行复核。
[0128]
以前述文本段为例,根据该文本段生成的选择题可以是:
[0129]“(单选题)某运动的社会影响包括():
[0130]
(1)
……

[0131]
(2)
……

[0132]
(3)
……

[0133]
(4)
……
。”[0134]
其中空的括号用于填入(1)至(4)中任意一项,其中(1)至(3)的选项为前述经过混淆的语句,(4)选项则是前述文本段中语句(4)的原文。
[0135]
一般的,在步骤s103中,每生成一个题目,可以标记该题目的难易度,如标记一个选择题难易度为中等,标记一个填空题难易度为困难。
[0136]
s104、分别从电子文档的目录和各个题目中抽取出多个知识点。
[0137]
其中,知识点指代目录(又称提纲)或题目包含的实体、关系和属性。
[0138]
实体,关系和属性的具体定义和相应的识别、抽取方法,可以参考现有的知识图谱技术,此处不再赘述。
[0139]
步骤s104主要是利用知识图谱形成对各个知识点和题目的串接。
[0140]
具体的,在步骤s104中,首先可以从前述电子文档中抽取整本教材的目录,在抽取目录时一般需要细化到三级目录,即抽取的内容包括目录中的一级标题,二级标题和三级标题(记为子标题),并用知识图谱技术抽取出每一子标题的实体、关系和属性,即步骤s104所述的从目录中抽取知识点。
[0141]
同时,利用知识图谱技术抽取填空题和选择题中的实体、关系和属性,即步骤s104所述的抽取题目中的知识点。其中,对于选择题,可以分别从选择题的题干和正确选项中抽取知识点。
[0142]
s105、结合知识点,以及用于生成题目的文本段的位置信息,通过知识融合构建知识图谱。
[0143]
其中,知识图谱包括节点和连接节点的边;节点表征知识点、题目或目录的子标题。
[0144]
步骤s105,相当于结合目录与填空题和选择题题干出处位置(即文本段的位置信息),进行提纲与题目的知识点对齐与融合,从而构建图数据库(即知识图谱),形成结构知识的题目存储。
[0145]
以图2为例,假设题目1至题目3中抽取出了知识点1,子标题1中也抽取出了知识点1,那么通过知识融合,可以在知识图谱中分别生成表示知识点1的节点,表示题目1至题目3的节点,以及表示子标题1的节点,然后将上述节点按图2所示的方式连接,以说明题目1至题目3包含知识点1,且子标题1包含知识点1。
[0146]
进一步的,可以通过前述电子文档分析知识图谱中出现的多个知识点之间的关系,比如,假设图2中的知识点1和知识点2出现在电子文档的同一个语句中,例如“知识点1
包括知识点2”,又或者,知识点1同时出现在子标题1和子标题1的上级标题中,同时该上级标题也包括子标题2(子标题2又包括知识点2),那么可以按图2所示的方式将表示知识点1和知识点2的节点连接起来,以表示这两个知识点之间具有关联关系。
[0147]
更进一步的,当题目中包含多个知识点时,可以根据用于生成该题目的文本段的位置信息将该题目融合在知识图谱中。具体的,假设题目1包含知识点1和知识点2,但是生成题目1的文本段隶属于子标题1的章节,于是,在步骤s105中,可以将题目1与子标题1所包含的知识点1相连接,而不是与知识点2相连接。
[0148]
可选的,结合知识点,以及用于生成题目的文本段的位置信息,通过知识融合构建知识图谱之后,还包括:
[0149]
统计知识图谱中记录的题目的题目覆盖量和题目难易度分布。
[0150]
也就是说,在步骤s105中,可以同步统计题目覆盖量和题目难易度分布。
[0151]
其中,题目覆盖量是指,目录中每一章节生成的题目的数量。例如对于章节1,利用章节1的文本生成了50个题目,则章节1的题目覆盖量为50。统计题目覆盖量的作用在于,分析教材的各个章节中是否有生成的题目过少的章节,若有这类章节,则需要对这部分章节进行人工出题,以确保每一个章节均有足够数量的题目产生。
[0152]
难易度分布,即是目前利用该教材已生成的所有题目中,每一种难易度的题目所占的比例,一般的,生成的题目中中等难易度的题目应该占最大的比例,容易和困难的题目则比例较小,若统计出的难易度分布不符合该条件,就需要对已生成的部分题目进行修改,以调整难易度。
[0153]
s106、根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的组卷题目集,并将组卷题目集包含的多个题目组合为试卷。
[0154]
其中,试卷生成参数包括知识点参数,题目类型参数,难易度参数和知识关联性参数。
[0155]
试卷生成参数可以由教职人员通过前端的查询功能录入。
[0156]
步骤s106相当于,利用知识图谱和预先构建的前端查询功能,依据知识点、题目类型和难易度,知识关联性开展自动出题工作。
[0157]
可选的,根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的组卷题目集,包括:
[0158]
在知识图谱中查找得到知识点参数所包含的每一个知识点,将查找得到的知识点作为第一知识点。
[0159]
根据知识关联性参数在知识图谱中查找得到与第一知识点连接的第二知识点。
[0160]
具体来说,知识点参数可以包括一个或多个知识点,以图2为例,知识点参数可以包括知识点1,那么在执行步骤s106时,可以查找到知识点1作为前述第一知识点。
[0161]
知识点关联性参数可以是一个整数,用于表征查找第二知识点时的距离。以图2为例,若知识点关联性参数为1,则从知识点1开始查找,只能找到距离为1的知识点2作为第二知识点,若知识点关联性参数为2,则从知识点1开始查找,可以找到距离小于或等于2的知识点2和知识点3作为第二知识点。
[0162]
提取出包含第一知识点和/或第二知识点的题目,得到题目集。
[0163]
如前文所述,在构建好的知识图谱中,若够题目包含某知识点,则表征该题目的节
点会与表征对应知识点的节点连接,因此,上述步骤相当于从知识图谱中读出与第一知识点和/或第二知识点对应节点连接的题目,得到题目集,以图2为例,假设知识点1为第一知识点,知识点2和知识点3为第二知识点,则从图2的知识图谱可以获得的题目集包括题目1至题目7。
[0164]
根据难易度参数调整题目集中不同难易度的题目的比例,以及根据题目类型参数调整题目集中不同题目类型的题目的比例,得到组卷题目集。
[0165]
具体的,题目类型参数可以指定组卷题目集中,也就是最后生成的试卷中,不同类型题目的占比,如指定生成的试卷中40%为填空题,60%为选择题。类似的,难易度参数可以指定组卷题目集中不同难易度的题目的占比,如指定容易的题目占30%,困难的题目占20%,中等的题目占50%。
[0166]
由此,获得上述题目集后,可以判断该题目集是否符合题目类型参数和难易度参数中指定的占比,如符合,直接将该题目集确定为组卷题目集,无需调整,如不符合,则需要调整不同类型题目的占比,或者调整不同难易度题目的占比,从而获得符合题目类型参数和难易度参数的组卷题目集。
[0167]
获得组卷题目集后,将这些题目的题干按既定的试卷模板进行排版,就可以得到一份电子试卷,将电子试卷打印就可以得到若干份纸质试卷。
[0168]
同时,考试完成后还可以利用题目的答案进行自动化阅卷,也就是将考生所写答案和前面出题时确定的答案比对,以确定考生作答是否正确,具体过程不再赘述。
[0169]
本技术提供一种基于社会科学类教材的试卷生成方法,方法包括,识别纸质的社会科学类教材,得到教材对应的电子文档;在电子文档中查找出符合文本特征的多个文本段(由电子文档中的一个或连续的多个语句构成),用语义识别模型识别出多个文本段中包含专业术语的文本段;根据每一个包含专业术语的文本段,生成至少一个题目;分别从电子文档的目录和各个题目中抽取出多个知识点;结合知识点,以及用于生成题目的文本段的位置信息,通过知识融合构建知识图谱;根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的组卷题目集,并将组卷题目集包含的多个题目组合为试卷。本方案利用教材自动生成题目,有效提高了自动出卷的效率。
[0170]
结合本技术实施例提供的基于社会科学类教材的试卷生成方法,本技术实施例还提供一种基于社会科学类教材的试卷生成装置,请参考图3,该装置可以包括如下单元:
[0171]
识别单元301,用于根据光学字符识别技术识别纸质的社会科学类教材,得到社会科学类教材对应的电子文档。
[0172]
查找单元302,用于利用预先构建的正则表达式在电子文档中查找出符合第一文本特征、第二文本特征和第三文本特征中任意一项文本特征的多个文本段,利用预先训练的语义识别模型识别出多个文本段中,包含专业术语的文本段,并记录各个文本段在电子文档中的位置信息。
[0173]
其中,文本段由电子文档中的一个或连续的多个语句构成。
[0174]
生成单元303,用于针对每一个包含专业术语的文本段,根据文本段生成至少一个题目。
[0175]
其中,题目的题目类型包括填空题和选择题。
[0176]
抽取单元304,用于分别从电子文档的目录和各个题目中抽取出多个知识点。
[0177]
其中,知识点指代目录或题目包含的实体、关系和属性。
[0178]
构建单元305,用于结合知识点,以及用于生成题目的文本段的位置信息,通过知识融合构建知识图谱。
[0179]
其中,知识图谱包括节点和连接节点的边;节点表征知识点、题目或目录的子标题。
[0180]
搜索单元306,用于根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的多个题目,并将搜索得到的多个题目组合为试卷。
[0181]
其中,试卷生成参数包括知识点参数,题目类型参数,难易度参数和知识关联性参数。
[0182]
其中,第一文本特征为,文本段的字体为预设的目标字体,且文本段包含指定的第一特征词;
[0183]
第二文本特征为,文本段为单个语句并位于电子文档的任一自然段的开头或结尾,该语句的结尾符号为句号,该语句包含指定的第二特征词且不包含指定的第三特征词;
[0184]
第三文本特征为,文本段包括多个语句,其中首个语句包含指定的第四特征词,除首个语句以外的其他语句均带有位于语句开头的序号;
[0185]
其中,生成单元303根据文本段生成至少一个题目时,具体用于:
[0186]
针对符合第一文本特征或第二文本特征的文本段,利用自然语言处理技术从文本段中抽出至少一个关键词,得到一个填空题;其中,抽出关键词后的文本段作为填空题的题干,抽出的关键词作为填空题的答案;
[0187]
针对符合第三文本特征的文本段,在文本段的多个带序号的语句中选择至少一个语句作为选择题的正确答案,将除正确答案以外其他带序号的语句的关键词替换为相似词,得到选择题的错误答案,并将文本段的首个语句确定为选择题的题干,从而得到一个选择题。
[0188]
可选的,生成单元将除正确答案以外其他带序号的语句的关键词替换为相似词时,具体用于:
[0189]
获得预设的目标难易度,并确定目标难易度对应的相似度阈值;其中,相似度阈值的大小与目标难易度的高低正相关;
[0190]
针对除正确答案以外其他带序号的语句的关键词,查找与关键词的相似度不大于目标难易度对应的相似度阈值的词汇,作为相似词;
[0191]
将除正确答案以外其他带序号的语句的关键词替换为相似词。
[0192]
可选的,搜索单元根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的组卷题目集时,具体用于:
[0193]
在知识图谱中查找得到知识点参数所包含的每一个知识点,将查找得到的知识点作为第一知识点;
[0194]
根据知识关联性参数在知识图谱中查找得到与第一知识点连接的第二知识点;
[0195]
提取出包含第一知识点和/或第二知识点的题目,得到题目集;
[0196]
根据难易度参数调整题目集中不同难易度的题目的比例,以及根据题目类型参数调整题目集中不同题目类型的题目的比例,得到组卷题目集。
[0197]
可选的,查找单元记录各个文本段在电子文档中的位置信息时,具体用于:
[0198]
记录各个文本段在电子文档中的逻辑位置和结构位置。
[0199]
可选的,装置还包括:
[0200]
统计单元,用于统计知识图谱中记录的题目的题目覆盖量和题目难易度分布。
[0201]
本实施例提供的基于社会科学类教材的试卷生成装置,其具体工作原理可以参考本技术实施例提供的基于社会科学类教材的试卷生成方法中的相关步骤,此处不再赘述。
[0202]
本技术提供一种基于社会科学类教材的试卷生成装置,其中,识别单元301,用于根据光学字符识别技术识别纸质的社会科学类教材,得到社会科学类教材对应的电子文档;查找单元302,用于利用预先构建的正则表达式在电子文档中查找出符合第一文本特征、第二文本特征和第三文本特征中任意一项文本特征的多个文本段,利用预先训练的语义识别模型识别出多个文本段中,包含专业术语的文本段,并记录各个文本段在电子文档中的位置信息;其中,文本段由电子文档中的一个或连续的多个语句构成;生成单元303,用于针对每一个包含专业术语的文本段,根据文本段生成至少一个题目;其中,题目的题目类型包括填空题和选择题;抽取单元304,用于分别从电子文档的目录和各个题目中抽取出多个知识点;其中,知识点指代目录或题目包含的实体、关系和属性;构建单元305,用于结合知识点,以及用于生成题目的文本段的位置信息,通过知识融合构建知识图谱;其中,知识图谱包括节点和连接节点的边;节点表征知识点、题目或目录的子标题;搜索单元306,用于根据指定的试卷生成参数,在知识图谱搜索得到符合试卷生成参数的多个题目,并将搜索得到的多个题目组合为试卷;其中,试卷生成参数包括知识点参数,题目类型参数,难易度参数和知识关联性参数。本方案利用教材自动生成题目,有效提高了自动出卷的效率。
[0203]
本技术实施例还提供一种计算机存储介质,用于存储计算机程序,该计算机程序被执行时,具体用于实现本技术任一实施例所提供的基于社会科学类教材的试卷生成方法。
[0204]
本技术实施例还提供一种电子设备,请参考图4,该电子设备包括存储器401和处理器402,其中,存储器401用于存储计算机程序,处理器402用于执行该计算机程序,具体用于实现本技术任一实施例所提供的基于社会科学类教材的试卷生成方法。
[0205]
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
[0206]
需要注意,本发明中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分,并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。
[0207]
专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1