一种基于目标检测的框题识别方法、存储介质及设备与流程

文档序号:32750887发布日期:2022-12-31 00:42阅读:26来源:国知局

1.本发明涉及智能教育技术领域,具体涉及一种基于目标检测的框题识别方法、存储介质及设备。


背景技术:

2.目前的教辅或试卷的题目识别一般都是提前在智慧系统中录入支持的每一种教辅或试卷资源的模板题目坐标,后续根据坐标在采集的教辅或试卷的目标图像中将题目分割出来进行识别,这种方案虽然确实可行,但是录制试卷及教辅的模板却十分繁琐,不仅需要标记每一页教辅的坐标,还需要对每一页的框出的题目及坐标进行关联,而这部分工作大多都是由人工完成,容易出现坐标标记错误或人工关联错误。导致一方面人工成本很高,另一方面,出错概率可能也相对较高。


技术实现要素:

3.针对现有技术的不足,本发明旨在提供一种基于目标检测的框题识别方法、存储介质及设备。
4.为了实现上述目的,本发明采用如下技术方案:
5.一种基于目标检测的框题识别方法,具体过程为:
6.s1、获取目标资源的题目层级结构,获取目标资源的样本并进行标注,利用标注后的样本训练得到目标资源的识别模型:
7.s1.1、确定目标资源的题目层级结构,题目层级结构是指题目包含的层级;
8.s1.2、对支持识别的资源进行分类;
9.s1.3、对于每一类型的资源,分别从中选取设定数量的资源,采集所选取的资源的每一页的页面图像作为样本,各种题目层级结构都需要有对应的样本;
10.s1.4、对每一类型资源的每个样本进行标注,按照步骤s1.1中确定的题目层级结构,用矩形框出样本中每道题目的每一层级对应的序号以及序号后的标点符号,并标注其所属的层级;
11.s1.5、对于每一类型资源,用对应样本的进行神经网络学习训练,训练得到每个类型的资源对应的识别模型,并将每个识别模型与支持的资源的信息进行关联;所述资源的信息包括资源id、资源名称、资源编号、资源出版社、资源主编、资源适用年级、适用科目;
12.s2、进行框题识别前,先获取待识别的资源id;然后根据获取的资源id匹配对应的识别模型;
13.s3、采集待识别的目标图像,对所述目标图像进行预处理;
14.s4、利用步骤s2匹配到的识别模型,对待识别的目标图像进行识别,识别出其中每道题目中各层级的序号,然后获取识别得到的各层级的序号的坐标数据;
15.s5、将每个层级的题目框选出来;每道题目对应的矩形框的高度由该题目的序号的左上角纵坐标到下一道同层级的题目的序号的左上角纵坐标之间的高度确定,矩形框的
宽度由目标图像的长度确定。
16.进一步地,步骤s3中,所述预处理包括矩形矫正和曲面矫正。
17.进一步地,步骤s5中,当某道题目往下没有其他题目时,其对应的矩形框的高度为该题目的序号的左上角纵坐标及目标图像的左下角纵坐标的高度。
18.本发明还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述方法。
19.本发明还提供一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现上述方法。
20.本发明的有益效果在于:本发明通过对支持的资源进行分类,并且对每种类型资源其中的一部分进行取样,训练得到对应的识别模型,后续进行框题时可以自动化实现,不但大大减少了前期模板录入的工作量,还可以减少后续框题的工作量,提高智能批改的自动化程度。
具体实施方式
21.以下将对本发明作进一步的描述,需要说明的是,本实施例以本技术方案为前提,给出了详细的实施方式和具体的操作过程,但本发明的保护范围并不限于本实施例。
22.本实施例提供一种基于目标检测的框题识别方法,具体过程为:
23.s1、获取目标资源的题目层级结构,获取目标资源的样本并进行标注,利用标注后的样本训练得到目标资源的识别模型。具体过程为:
24.s1.1、确定目标资源的题目层级结构,题目层级结构是指题目包含的层级(如有些题目仅含一级大题,有些题目含有一级大题-二级小题,有些题目含有一级大题-二级小题-三级小题等);
25.s1.2、对支持识别的资源进行分类。例如,相同出版社出版的系列教辅材料采用的编辑排布方式类似,因此可以按照出版社进行分类,或者可以更细分至按同一出版社的同一科目的同一系列的资源进行分类(如对于某一出版社针对语文这个科目出版的名为“xxx”的练习册,将适用于各年级的练习册纳入为同一类型)。
26.s1.3、对于每一类型的资源,分别从中选取设定数量的资源,采集所选取的资源的每一页的页面图像作为样本,各种题目层级结构都需要有对应的样本;
27.s1.4、对每一类型资源的每个样本进行标注,按照步骤s1.1中确定的题目层级结构,用矩形框出样本中每道题目的每一层级对应的序号以及序号后的标点符号,并标注其所属的层级。
28.s1.5、对于每一类型资源,用对应样本的进行神经网络学习训练,训练得到每个类型的资源对应的识别模型,并将每个识别模型与支持的资源的信息进行关联;所述资源的信息包括资源id、资源名称、资源编号、资源出版社、资源主编、资源适用年级、适用科目等。
29.s2、进行框题识别前,先获取待识别的资源id(可以采用人工输入、扫描输入、图像识别输入等方式输入);然后根据获取的资源id匹配对应的识别模型;
30.s3、采集待识别的目标图像,对所述目标图像进行预处理。所述预处理包括矩形矫正、曲面矫正等。
31.s4、利用步骤s2匹配到的识别模型,对待识别的目标图像进行识别,识别出其中每
道题目中各层级的序号,然后获取识别得到的各层级的序号的坐标数据;
32.s5、将每个层级的题目框选出来;每道题目对应的矩形框的高度由该题目的序号的左上角纵坐标到下一道同层级的题目的序号的左上角纵坐标之间的高度确定,矩形框的宽度由目标图像的长度确定。
33.当某道题目往下没有其他题目时,其对应的矩形框的高度为该题目的序号的左上角纵坐标及目标图像左下角纵坐标的高度。
34.通过上述方法完成框题之后,可进一步进行智能批改。
35.对于本领域的技术人员来说,可以根据以上的技术方案和构思,给出各种相应的改变和变形,而所有的这些改变和变形,都应该包括在本发明权利要求的保护范围之内。


技术特征:
1.一种基于目标检测的框题识别方法,其特征在于,具体过程为:s1、获取目标资源的题目层级结构,获取目标资源的样本并进行标注,利用标注后的样本训练得到目标资源的识别模型:s1.1、确定目标资源的题目层级结构,题目层级结构是指题目包含的层级;s1.2、对支持识别的资源进行分类;s1.3、对于每一类型的资源,分别从中选取设定数量的资源,采集所选取的资源的每一页的页面图像作为样本,各种题目层级结构都需要有对应的样本;s1.4、对每一类型资源的每个样本进行标注,按照步骤s1.1中确定的题目层级结构,用矩形框出样本中每道题目的每一层级对应的序号以及序号后的标点符号,并标注其所属的层级;s1.5、对于每一类型资源,用对应样本的进行神经网络学习训练,训练得到每个类型的资源对应的识别模型,并将每个识别模型与支持的资源的信息进行关联;所述资源的信息包括资源id、资源名称、资源编号、资源出版社、资源主编、资源适用年级、适用科目;s2、进行框题识别前,先获取待识别的资源id;然后根据获取的资源id匹配对应的识别模型;s3、采集待识别的目标图像,对所述目标图像进行预处理;s4、利用步骤s2匹配到的识别模型,对待识别的目标图像进行识别,识别出其中每道题目中各层级的序号,然后获取识别得到的各层级的序号的坐标数据;s5、将每个层级的题目框选出来;每道题目对应的矩形框的高度由该题目的序号的左上角纵坐标到下一道同层级的题目的序号的左上角纵坐标之间的高度确定,矩形框的宽度由目标图像的长度确定。2.根据权利要求1所述的方法,其特征在于,步骤s3中,所述预处理包括矩形矫正和曲面矫正。3.根据权利要求1所述的方法,其特征在于,步骤s5中,当某道题目往下没有其他题目时,其对应的矩形框的高度为该题目的序号的左上角纵坐标及目标图像的左下角纵坐标的高度。4.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现权利要求1-3任一所述的方法。5.一种计算机设备,其特征在于,包括处理器和存储器,所述存储器用于存储计算机程序;所述处理器用于执行所述计算机程序时,实现权利要求1-3任一所述的方法。

技术总结
本发明公开了一种基于目标检测的框题识别方法、存储介质及设备,通过对支持的资源进行分类,并且对每种类型资源其中的一部分进行取样,训练得到对应的识别模型,后续进行框题时可以自动化实现,不但大大减少了前期模板录入的工作量,还可以减少后续框题的工作量,提高智能批改的自动化程度。高智能批改的自动化程度。


技术研发人员:陈家峰 季英会
受保护的技术使用者:读书郎教育科技有限公司
技术研发日:2022.10.18
技术公布日:2022/12/30
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1