试题文本匹配方法、装置、电子设备和存储介质与流程

文档序号:33384193发布日期:2023-03-08 07:22阅读:34来源:国知局
试题文本匹配方法、装置、电子设备和存储介质与流程

1.本发明涉及自然语言处理技术领域,尤其涉及一种试题文本匹配方法、装置、电子设备和存储介质。


背景技术:

2.文本分类技术的飞速发展,使得自动化试题批改成为可能。基于文本分类技术,可以判断学生作答文本与标准答案文本之间的匹配程度,由此得到学生作答的批改得分。
3.然而,目前的自动化试题批改方案,在涵盖了大量数学公式的计算题文本匹配上,效果并不理想。虽然存在将文本中的数学公式单独抽取出来进行编码的方式,但是在文本中存在多个公式的情况下,上述方式无法获取公式之间的关联,只有在学生作答所应用公式的顺序与标准答案中应用公式的顺序一致时方能匹配成功,拉低了试题批改的准确性和可靠性。


技术实现要素:

4.本发明提供一种试题文本匹配方法、装置、电子设备和存储介质,用以解决现有技术中试题文本中存在多个公式的情况下的文本匹配可靠性差的缺陷。
5.本发明提供一种试题文本匹配方法,包括:
6.获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树;
7.对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树;
8.对所述全局操作树进行图编码,得到所述试题文本的全局公式特征;
9.基于所述全局公式特征,对所述试题文本进行文本匹配。
10.根据本发明提供的一种试题文本匹配方法,所述对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树,包括:
11.基于各公式操作树之间共有的变量节点,对所述各公式操作树进行合并,得到初始操作树;
12.将所述初始操作树中的各公式操作树的根节点在所述试题文本中的解答结果加入所述初始操作树,得到所述全局操作树。
13.根据本发明提供的一种试题文本匹配方法,所述基于所述全局公式特征,对所述试题文本进行文本匹配,包括:
14.基于所述各公式分别对应的公式操作树的操作树特征,对所述试题文本进行序列编码,得到所述试题文本的序列特征;
15.基于所述序列特征和所述全局公式特征,对所述试题文本进行文本匹配。
16.根据本发明提供的一种试题文本匹配方法,所述基于所述各公式分别对应的公式操作树的操作树特征,对所述试题文本进行序列编码,得到所述试题文本的序列特征,包
括:
17.获取所述试题文本的分词序列;
18.基于所述各公式分别对应的公式操作树的操作树特征,替换所述分词序列中所述各公式的编码特征,得到替换后的分词序列;
19.对所述替换后的分词序列进行序列编码,得到所述试题文本的序列特征。
20.根据本发明提供的一种试题文本匹配方法,所述基于所述序列特征和所述全局公式特征,对所述试题文本进行文本匹配,包括:
21.基于两个所述试题文本的序列特征之间的相关性,对所述两个试题文本的序列特征进行信息交互,得到交互序列特征;
22.基于所述两个试题文本的全局公式特征之间的相关性,对所述两个试题文本的全局公式特征进行信息交互,得到交互全局特征;
23.基于所述交互序列特征和所述交互全局特征,对所述两个试题文本进行文本匹配。
24.根据本发明提供的一种试题文本匹配方法,所述对所述全局操作树进行图编码,得到所述试题文本的全局公式特征,包括:
25.基于所述全局操作树中各节点的文本特征,以及所述各节点的节点类型特征,确定所述各节点的初始特征,所述节点类型特征用于指示所述节点属于操作符节点、变量节点以及数值节点中的任意一种;
26.基于所述各节点的初始特征,对所述全局操作树进行图编码,得到所述试题文本的全局公式特征。
27.根据本发明提供的一种试题文本匹配方法,所述获取待匹配的试题文本,包括:
28.获取标准答案文本和学生作答文本分别作为试题文本;
29.所述对试题文本进行文本匹配,之后还包括:
30.基于所述文本匹配结果,确定所述学生作答文本对应的得分。
31.本发明还提供一种试题文本匹配装置,包括:
32.公式解析单元,用于获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树;
33.合并单元,用于对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树;
34.图编码单元,用于对所述全局操作树进行图编码,得到所述试题文本的全局公式特征;
35.匹配单元,用于基于所述全局公式特征,对所述试题文本进行文本匹配。
36.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述试题文本匹配方法。
37.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述试题文本匹配方法。
38.本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述试题文本匹配方法。
39.本发明提供的试题文本匹配方法、装置、电子设备和存储介质,通过对试题文本中各公式的公式操作树进行合并和图编码,得到能够表征试题文本所包含的所有公式自身的信息以及公式之间关联的全局公式特征,据此进行文本匹配,能够避免由于公式顺序不一致导致匹配失败的问题,提高文本匹配的可靠性和合理性。
附图说明
40.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1是本发明提供的公式操作树示意图之一;
42.图2是本发明提供的公式操作树示意图之二;
43.图3是本发明提供的试题文本匹配方法的流程示意图;
44.图4是本发明提供的公式操作树的合并流程示意图之一;
45.图5是本发明提供的公式操作树的合并流程示意图之二;
46.图6是本发明提供的试题文本匹配方法中步骤340的流程示意图;
47.图7是本发明提供的试题批改方法的流程示意图;
48.图8是本发明提供的试题文本匹配装置的结构示意图;
49.图9是本发明提供的电子设备的结构示意图。
具体实施方式
50.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
51.目前的自动化试题批改方案,在涵盖了大量数学公式的计算题文本匹配上,效果并不理想。相关技术中,针对于纯文本的分类方式,会将公式直接作为序列文本中的一部分进行编码,丢失了公式的结构信息,导致无法很好地理解文本语义。
52.相关技术中,针对于文本中存在公式的情况,选择将文本中的数学公式单独抽取出来进行编码,并用特殊符号替换文本中的公式以实现文本编码,例如,原始文本为:
53.在第2s末小球下落的高度:h=\\frac{1}{2}g{t}^{2}=\\frac{1}{2}\\times 10\\times{2}^{2}m=20m,
54.重力势能:{e}_{p}=-mgh=-0.2\\times 10\\times 20j=-40j。
55.应用特殊符号【math】替换公式所得的转化文本为:
56.在第2s末小球下落的高度:h=【math_1】=\\frac{1}{2}\\times10\\times{2}^{2}m=20m,
57.重力势能:{e}_{p}=【math_2】=-0.2\\times 10\\times 20j=-40j。
58.针对公式【math_1】和【math_2】可以进行公式解析,并且构建公式对应的公式操作树如图1和2所示。例如,公式【math_1】中的frac{1}{2}对应图1中的数值节点“1/2”,{t}^
{2}对应图1中的数值节点“2”、变量节点“t”和符号节点“^”,且数值节点“2”、变量节点“t”分别与符号节点“^”连接。
59.在此基础上,可以对公式操作树进行编码,并由此替换转化文本中的特殊符号以进行文本序列编码。
60.然而,在文本中存在多个公式的情况下,上述方式无法获取公式之间的关联,只有在学生作答所应用公式的顺序与标准答案中应用公式的顺序一致时方能匹配成功,拉低了试题批改的准确性和可靠性。
61.针对上述问题,本发明实施例提供了一种试题文本匹配方法,用于针对带有公式的试题文本进行文本匹配,以实现例如相似题目推荐、自动化批改打分等智能教学应用。
62.图3是本发明提供的试题文本匹配方法的流程示意图,如图3所示,该方法包括:
63.步骤310,获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树。
64.此处,待匹配的试题文本可以是试题的题目文本,也可以是试题的答案文本或者解析文本,本发明实施例对此不作具体限定。
65.可以理解的是,为了实现试题文本匹配,此处获取到的待匹配的试题文本的数量至少为2,即,存在两个或者两个以上的试题文本,且用于匹配的各个试题文本均为同一类型的试题文本,例如在自动化试题批改场景下,可以存在一个标准答案文本,和一个或者多个学生作答文本作为试题文本,通过将标准答案文本与每个学生作答文本进行文本匹配,即可得到每个学生作答文本的得分;又例如,在相似试题推荐场景下,可以选择基准试题的解析文本,以及一个或者多个可能用于试题推荐的候选试题的解析文本作为试题文本,将基准试题的解析文本分别与每个候选试题的解析文本进行文本匹配,即可得到与基准试题相似的待推荐试题。
66.针对于多个待匹配的试题文本,可以分别获取每个试题文本下的各公式的公式操作树。需要说明的是,此处针对试题文本的公式解析和公式操作树构建,均是针对单个试题文本独立执行的,各个试题文本之间互不关联。
67.针对任一试题文本,可以抽取该试题文本中包含的所有公式,并且,针对其中的每一个公式,分别进行公式解析,以确定公式中的数值、变量和符号,以及公式中的数值、变量和符号之间的关系,由此构建该公式对应的公式操作树(operator trees,opt)。参见图1、图2,公式操作树包括数值节点、变量节点和符号节点三类节点,且数据节点和变量节点均与符号节点边连接,以实现基于符号的运算操作。
68.步骤320,对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树。
69.考虑到一个试题文本中的各个公式之间可能存在逻辑上的关联,例如公式一求得的数值,可以代入公式二的变量,由此针对任一试题文本,可以将该试题文本下所有公式分别对应的公式操作树进行合并,从而得到能够反映出该试题文本下所有公式的结构信息,以及所有公式之间关联的全局操作树。
70.此处,针对公式操作树的合并,可以以各公式操作树之间是否存在共有的变量节点为依据执行,例如图4是本发明提供的公式操作树的合并流程示意图之一,如图4所示,在任一试题文本中包括两个公式,两个公式的公式操作图分别对应图1和图2,可以理解的是,
图1示出的公式操作图目的在于求解得到高度h,而图2示出的公式操作图中,h即求解重力势能e所需的变量,由此,可以对图1和图2示出的公式操作树进行合并,应用图1示出的公式操作树替换图2中的变量节点“h”,由此得到全局操作树。
71.步骤330,对所述全局操作树进行图编码,得到所述试题文本的全局公式特征。
72.具体地,针对任一试题文本而言,该试题文本所对应的全局操作树,不仅涵盖了该试题文本中所有公式在公式结构和公式内容上的信息,还涵盖了该试题文本中各公式之间的关联,即全局操作树可以反映该试题文本中所包含的公式的全局信息。
73.在得到全局操作树之后,可以将全局操作树视为图结构,对全局操作树进行图编码,从而实现基于全局操作树的特征提取,并将全局操作树的特征作为试题文本的全局公式特征,此处,全局公式特征用于表征试题文本所包含所有公式的全局特征。
74.步骤340,基于所述全局公式特征,对所述试题文本进行文本匹配。
75.具体地,全局公式特征可以反映试题文本所包含所有公式的全局特征,据此,可以针对不同试题文本进行文本匹配。在此过程中,针对于不同试题文本进行文本匹配,可以通过对不同试题文本各自的全局公式特征进行特征匹配实现,也可以通过对不同试题文本各自的全局公式特征和不同试题文本各自的文本特征进行特征匹配实现,本发明实施例对此不作具体限定。
76.此外,针对文本匹配所得的匹配结果,可用于实现自动化批改、相似试题推荐等功能。例如,在自动化试题批改场景下,可以基于标准答案文本的全局公式特征和每个学生作答文本的全局公式特征,对标准答案文本的与每个学生作答文本进行文本匹配,即可基于每个学生作答文本分别对应标准答案文本的匹配度,确定每个学生作答文本的得分;又例如,在相似试题推荐场景下,可以基于基准试题的解析文本的全局公式特征,以及候选试题的解析文本的全局公式特征,对基准试题的解析文本分别与每个候选试题的解析文本进行文本匹配,即可基于每个候选试题相对于基准试题的匹配度,从候选试题中筛选得到与基准试题相似的待推荐试题。
77.本发明实施例提供的方法,通过对试题文本中各公式的公式操作树进行合并和图编码,得到能够表征试题文本所包含的所有公式自身的信息以及公式之间关联的全局公式特征,据此进行文本匹配,能够避免由于公式顺序不一致导致匹配失败的问题,提高文本匹配的可靠性和合理性。
78.在实际匹配场景下,尤其是自动化试题批改场景下,即便作答思路与标准答案一致,学生作答文本中的公式也不一定能够与标准答案文本中的公式完全相同,例如在上述公式【math_1】和【math_2】中国,如果学生在求解重力势能e时,直接代入高度h的计算公式或者h的计算值,则得到的公式与标准答案文本中公式【math_2】所指的
“‑
mgh”也不一致,由此可能导致误判。
79.针对这一问题,基于上述实施例,步骤320包括:
80.基于各公式操作树之间共有的变量节点,对所述各公式操作树进行合并,得到初始操作树;
81.将所述初始操作树中的各公式操作树的根节点在所述试题文本中的解答结果加入所述初始操作树,得到所述全局操作树。
82.具体地,在针对于各公式的公式操作树进行合并的过程中,不仅需要执行具体的
合并操作,还需要在合并完成之后,引入各变量节点在试题文本中的解答结果作为补充,从而避免由于公式书写方式不一致导致匹配失败的问题。
83.此处,针对于各公式的公式操作树的合并,可以遍历试题文本中的每一个公式及其公式操作树,检测当前公式中是否存在之前的公式所求的变量,即当前公式与之前的公式之间是否存在共有的变量节点,若存在,则将之前的公式对应的公式操作树,合并到当前公式对应的公式操作树中,再对当前公式对应的公式操作树进行存储,直到遍历所有公式的公式操作树,将合并完成的公式操作树作为初始操作树。
84.并且,在合并公式操作树的过程中,可以记录下每一个公式操作树的根节点,可以理解的是,此处的根节点对应该公式操作树对应公式的求解变量。由此,针对合并所得的初始操作树,基于合并过程中记录的根节点,即可确定其中哪些节点对应在试题文本中存在解答结果。
85.针对初始操作树中各公式操作数的根节点,可以在试题文本中对应查找各根节点对应的解答结果,并将解答结果作为节点加入到初始操作树中,由此得到全局操作树。此处的解答结果,可以包括公式所求的变量,还可以包括公式所求变量的具体取值。将解答结果加入全局操作树,使得全局操作树中针对变量的表示方式更加多样,公式之间的关联逻辑更加清晰,基于补入了解答结果的全局操作树提取全局公式特征,并基于此进行文本匹配,能够兼容相同解答思路下不同公式表达方式的文本匹配,从而更好地保证文本匹配的可靠性和准确性。
86.此外,针对于全局操作树,还可以对全局操作树中相同的叶子节点,例如相同的数值节点,或者相同的变量节点,进行节点合并,由此进一步提高全局操作树对于试题文本中各公式之间关联的表达能力。
87.例如,图5是本发明提供的公式操作树的合并流程示意图之二,如图5所示,试题文本包括两个公式,公式【math_1】对应公式操作树511,公式【math_2】对应公式操作树512,对公式操作树511和512进行合并,即可得到初始操作树520。初始操作树520中加粗的节点,即公式操作树511和512的根节点,其中,公式操作树511对应公式【math_1】的解答结果为h=20m,其中h是变量,20m为变量的具体取值;公式操作树512对应公式【math_2】的解答结果是e=-40j,其中e是变量,-40j是变量的具体取值。
88.随后,即可将解答结果补入初始操作树520,由此得到全局操作树530。相较于初始操作树520,全局操作树530中在两个公式的根节点处,增加了解答结果,具体包括符号节点“=”,以及变量节点和数值节点。此外,相较于初始操作树530,全局操作树530还对相同的叶子节点“g”进行了合并。
89.本发明实施例提供的方法,将试题文本中的解答结果也加入全局操作树,使得全局操作树能够构建起试题文本中所有变量之间的关系,并且将所有变量的最终结果也包含在内,由此使得在文本匹配时,不同试题文本的公式之间能够进行更细粒度的交互,从而缓解由于解答思路、顺序不一致导致文本层面难以对齐的问题,从而更好地保证文本匹配的可靠性和准确性。
90.基于上述任一实施例,图6是本发明提供的试题文本匹配方法中步骤340的流程示意图,如图6所示,步骤340包括:
91.步骤341,基于所述各公式分别对应的公式操作树的操作树特征,对所述试题文本
进行序列编码,得到所述试题文本的序列特征;
92.步骤342,基于所述序列特征和所述全局公式特征,对所述试题文本进行文本匹配。
93.具体地,在针对试题文本进行文本匹配时,可以不仅参考试题文本的全局公式特征,还参考试题文本的序列特征。此处,试题文本的序列特征可以理解为对试题文本对应的分词序列进行编码得到的特征,序列特征可以反映试题文本的语义。
94.考虑到公式属于试题文本中的一部分,为了能够使得表征试题文本语义的序列特征中携带公式本身的语义和结构信息,可以在得到试题文本中各公式的公式操作树之后,对各公式的公式操作树分别就进行特征编码,从而得到各公式的公式操作树的操作树特征,随后将试题文本中各公式的操作树特征应用到针对试题文本的序列编码之中,由此确保得到的序列特征能够携带公式本身的语义。
95.基于上述任一实施例,步骤341包括:
96.获取所述试题文本的分词序列;
97.基于所述各公式分别对应的公式操作树的操作树特征,替换所述分词序列中所述各公式的编码特征,得到替换后的分词序列;
98.对所述替换后的分词序列进行序列编码,得到所述试题文本的序列特征。
99.具体地,试题文本的分词序列可以通过对试题文本进行分词得到,并且,在分词过程中,可以将一个公式视为一个分词进行划分,此处,为了分词序列表达的便利性,可以将作为分词的公式以特殊符号例如【math】替换。
100.针对于试题文本中各公式对应的公式操作树,可以应用例如tangentcft之类的工具实现操作树编码,具体可以使用深度优先搜索方法对公式操作树进行遍历,从而将公式操作树转化为一个序列文本,然后基于n-gram的方式对序列文本进行特征编码,最后把n-gram编码所得的各词的特征向量进行平均池化操作,得到整个公式操作树的特征表示,即操作树特征。
101.在得到各公式的操作树特征之后,即可应用各公式的操作树特征替换分词序列中以特殊符号【math】表示的公式,从而得到替换之后的分词序列。
102.针对完成特征替换之后的分词序列,可以对该序列进行序列编码,由此得到试题文本的序列特征。此处的序列编码可以应用预先训练的语言模型的编码器实现,例如可以应用transformer-encoder基于自注意力机制进行编码。
103.基于上述任一实施例,步骤342包括:
104.基于两个所述试题文本的序列特征之间的相关性,对所述两个试题文本的序列特征进行信息交互,得到交互序列特征;
105.基于所述两个试题文本的全局公式特征之间的相关性,对所述两个试题文本的全局公式特征进行信息交互,得到交互全局特征;
106.基于所述交互序列特征和所述交互全局特征,对所述两个试题文本进行文本匹配。
107.具体地,在结合试题文本的序列特征和全局公式特征进行文本匹配的过程中,可以分别从文本层面上和全局公式层面上分析不同试题文本之间的区别,从而实现试题文本匹配。
108.进一步地,针对于两个试题文本,可以基于两个试题文本各自的序列特征之间的相关性,对两个试题文本的序列特征进行信息交互,由此得到能够反映两个试题文本在文本层面上的异同的交互序列特征。此处,两个试题文本各自的序列特征之间的相关性,可以通过注意力机制实现,基于此执行的信息交互,可以得到凸显两个试题文本在文本层面上的差异的特征。
109.同理,针对于两个试题文本,可以基于两个试题文本各自的全局公式特征之间的相关性,对两个试题文本的全局公式特征进行信息交互,由此得到能够反映两个试题文本在全局公式层面上的异同的交互全局特征。此处,两个试题文本各自的全局公式特征之间的相关性,可以通过注意力机制实现,基于此执行的信息交互,可以得到凸显两个试题文本在全局公式层面上的差异的特征。
110.在得到交互序列特征和交互全局特征,即可基于此确定两个试题文本是否匹配,或者确定两个试题文本之间的匹配度。例如可以将交互序列特征和交互全局特征拼接后输入到全连接层中,以获取匹配度。
111.本发明实施例提供的方法,应用序列特征之间的相关性和全局公式特征之间的相关性,对于试题文本进行文本层面和全局公式层面上的信息交互,由此捕捉试题文本在文本层面和全局公式层面上的异同,从而提高文本匹配的可靠性。
112.基于上述任一实施例,步骤342中,基于两个所述试题文本的序列特征之间的相关性,对所述两个试题文本的序列特征进行信息交互,可以通过自注意力机制实现,具体公式如下:
[0113][0114]
式中,s表示交互序列特征,ss和su分别为两个试题文本的序列特征,wq、wk和wv为可学习的注意力机制参数,d为注意力机制参数的向量长度。
[0115]
基于上述任一实施例,步骤342中,基于两个试题文本的全局公式特征之间的相关性,对所述两个试题文本的全局公式特征进行信息交互,可以通过自注意力机制实现,具体公式如下:
[0116][0117]
式中,t表示交互全局特征,ts和tu分别为两个试题文本的全局公式特征,wq、wk和wv为可学习的注意力机制参数,d为注意力机制参数的向量长度。
[0118]
基于上述任一实施例,步骤330包括:
[0119]
基于所述全局操作树中各节点的文本特征,以及所述各节点的节点类型特征,确定所述各节点的初始特征,所述节点类型特征用于指示所述节点属于操作符节点、变量节点以及数值节点中的任意一种;
[0120]
基于所述各节点的初始特征,对所述全局操作树进行图编码,得到所述试题文本的全局公式特征。
[0121]
具体地,在针对全局操作树进行图编码之前,需要明确全局操作树中各节点的初始特征。相较于传统的图节点的特征初始化方式,本发明实施例中的全局操作树中各节点
的初始特征,不仅要考察各节点对应文本的文本特征,还需要参考表征各节点在全局操作树中所属的节点类型的节点类型特征。与公式操作树中一致,全局操作树中的节点也可以划分为三种类型,即操作符节点、变量节点以及数值节点,节点类型所对应的节点类型特征,可以是随机初始化的,也可以是预先编码得到的,本发明实施例对此不作具体限定。
[0122]
针对于任一节点而言,可以将该节点的文本特征和节点类型特征累加,或者拼接,或者通过其他方式融合,以作为该节点的初始特征。例如,任一节点的初始特征ni=ei+ti,其中ei和ti分别为该节点的文本特征和节点类型特征。
[0123]
在得到全局操作树中各节点的初始特征之后,即可基于各节点的初始特征,对全局操作树进行图编码。此处,针对全局操作树的图像编码,可以通过各种图编码方式实现,例如可以通过gat(graph attention networks)图注意力网络实现。
[0124]
本发明实施例提供的方法,结合文本特征和节点类型特征构建各节点的初始特征,由此保证全局公式特征提取的可靠性。
[0125]
基于上述任一实施例,步骤330中,基于各节点的初始特征,对全局操作树进行图编码可以通过如下公式实现:
[0126][0127]
式中,ni和nj分别表示全局操作树中的第i个节点和第j个节点的节点特征,k为多头自注意力机制中的头数,表示将k个头中经过注意力得到的特征向量进行拼接整合操作;wk表示第k个头中需要学习的权重矩阵;ni表示第i个节点在全局操作树中的所有相邻节点集合。
[0128]
其中,为第k个头中第i个节点和第j个节点之间的注意力权重值,可以基于如下公式确定:
[0129][0130]eij
=fnn([ni;nj]),j∈ni[0131]
式中,fnn为前馈神经网络,σ表示激活函数。
[0132]
基于上述任一实施例,步骤310中,所述获取待匹配的试题文本,包括:
[0133]
获取标准答案文本和学生作答文本分别作为试题文本;
[0134]
步骤340中,所述对试题文本进行文本匹配,之后还包括:
[0135]
基于所述文本匹配结果,确定所述学生作答文本对应的得分。
[0136]
具体地,在自动化试题批改场景下,可以将标准答案文本,以及一个或者多个学生作答文本分别作为试题文本,然后分别获取标准答案文本以及各个学生作答文本的全局公式特征。随后,可以基于标准答案文本的全局公式特征与任一学生作答文本的全局公式特征,对标准答案文本和该学生作答文本进行文本匹配,或者基于标准答案文本的全局公式特征和序列特征与任一学生作答文本的全局公式特征和序列特征,对标准答案文本和该学
生作答文本进行文本匹配,由此得到该学生作答文本相对于标准答案文本的匹配度作为文本匹配结果,从而基于匹配度确定该学生作答文本对应的得分。
[0137]
基于上述任一实施例,图7是本发明提供的试题批改方法的流程示意图,如图7所示,该方法包括:
[0138]
首先,分别获取标准答案文本,以及一个或者多个学生作答文本,作为试题文本。此处的学生作答文本,可以学生直接录入的文本,也可以是针对学生考试试卷、作业等扫描或者拍照图像进行ocr识别得到的。
[0139]
随后,针对于每个试题文本,对试题文本进行公式抽取,并基于抽取得到的每个公式分别构建公式操作树。
[0140]
接着,可以基于试题文本中每个公式对应的公式操作树的操作树特征,对试题文本进行序列编码,从而得到试题文本的序列特征。在此基础上,可以将标准答案文本的序列特征与学生作答文本的序列特征进行序列信息交互,由此得到交互序列特征。
[0141]
同时,可以合并试题文本中每个公式对应的公式操作树以构建试题文本的全局操作树,随后对全局操作树进行图编码,以获取试题文本的全局公式特征。在此基础上,可以将标准答案文本的全局公式特征与学生作答文本的全局公式特征进行结构信息交互,由此得到交互全局特征。
[0142]
最后,基于交互序列特征和交互全局特征进行得分回归,从而得到学生作答文本的得分。此处,得分回归具体可以是将交互序列特征和交互全局特征进行融合并输入到线性层中实现。
[0143]
进一步地,假设交互序列特征为s,交互全局特征为t,可以将s中[cls]位置的特征s
cls
与t经过平均池化(mean-pooling)得到的特征进行拼接,并输入到一个全连接网络后,经过sigmoid得到模型预测的分数值,具体公式为:
[0144][0145]
可以理解的是,以上公式抽取、公式操作树构建、文本序列编码、序列信息交互、全局操作树构建和图编码、结构信息交互和得分回归,均可以通过一个模型实现,此处的模型可以是以样本标准文本和样本学生作答文本为样本、以样本学生作答文本的分数为标签,均方误差损失函数进行训练得到的。
[0146]
本发明实施例提供的试题批改方法,能够全面提取标准答案文本和学生作答文本中的公式结构信息,由此保证自动化试题批改的准确性和可靠性,从而达到帮助老师减负的效果。此外,还可以在获取到学生作答文本得分的情况下,结合其他技术收集学生错题以进行题目推荐或相关知识点强化训练等功能。
[0147]
基于上述任一实施例,图8是本发明提供的试题文本匹配装置的结构示意图,如图8所示,该装置包括:
[0148]
公式解析单元810,用于获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树;
[0149]
合并单元820,用于对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树;
[0150]
图编码单元830,用于对所述全局操作树进行图编码,得到所述试题文本的全局公
式特征;
[0151]
匹配单元840,用于基于所述全局公式特征,对所述试题文本进行文本匹配。
[0152]
本发明实施例提供的装置,通过对试题文本中各公式的公式操作树进行合并和图编码,得到能够表征试题文本所包含的所有公式自身的信息以及公式之间关联的全局公式特征,据此进行文本匹配,能够避免由于公式顺序不一致导致匹配失败的问题,提高文本匹配的可靠性和合理性。
[0153]
基于上述任一实施例,合并单元820用于:
[0154]
基于各公式操作树之间共有的变量节点,对所述各公式操作树进行合并,得到初始操作树;
[0155]
将所述初始操作树中的各公式操作树的根节点在所述试题文本中的解答结果加入所述初始操作树,得到所述全局操作树。
[0156]
基于上述任一实施例,匹配单元840用于:
[0157]
基于所述各公式分别对应的公式操作树的操作树特征,对所述试题文本进行序列编码,得到所述试题文本的序列特征;
[0158]
基于所述序列特征和所述全局公式特征,对所述试题文本进行文本匹配。
[0159]
基于上述任一实施例,匹配单元840具体用于:
[0160]
获取所述试题文本的分词序列;
[0161]
基于所述各公式分别对应的公式操作树的操作树特征,替换所述分词序列中所述各公式的编码特征,得到替换后的分词序列;
[0162]
对所述替换后的分词序列进行序列编码,得到所述试题文本的序列特征。
[0163]
基于上述任一实施例,匹配单元840具体用于:
[0164]
基于两个所述试题文本的序列特征之间的相关性,对所述两个试题文本的序列特征进行信息交互,得到交互序列特征;
[0165]
基于所述两个试题文本的全局公式特征之间的相关性,对所述两个试题文本的全局公式特征进行信息交互,得到交互全局特征;
[0166]
基于所述交互序列特征和所述交互全局特征,对所述两个试题文本进行文本匹配。
[0167]
基于上述任一实施例,图编码单元用于:
[0168]
基于所述全局操作树中各节点的文本特征,以及所述各节点的节点类型特征,确定所述各节点的初始特征,所述节点类型特征用于指示所述节点属于操作符节点、变量节点以及数值节点中的任意一种;
[0169]
基于所述各节点的初始特征,对所述全局操作树进行图编码,得到所述试题文本的全局公式特征。
[0170]
基于上述任一实施例,公式解析单元810用于:
[0171]
获取标准答案文本和学生作答文本分别作为试题文本;
[0172]
匹配单元840还用于:
[0173]
基于所述文本匹配结果,确定所述学生作答文本对应的得分。
[0174]
图9示例了一种电子设备的实体结构示意图,如图9所示,该电子设备可以包括:处理器(processor)910、通信接口(communications interface)920、存储器(memory)930和
通信总线940,其中,处理器910,通信接口920,存储器930通过通信总线940完成相互间的通信。处理器910可以调用存储器930中的逻辑指令,以执行试题文本匹配方法,该方法包括:获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树;对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树;对所述全局操作树进行图编码,得到所述试题文本的全局公式特征;基于所述全局公式特征,对所述试题文本进行文本匹配。
[0175]
此外,上述的存储器930中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0176]
另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括计算机程序,计算机程序可存储在非暂态计算机可读存储介质上,所述计算机程序被处理器执行时,计算机能够执行上述各方法所提供的试题文本匹配方法,该方法包括:获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树;对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树;对所述全局操作树进行图编码,得到所述试题文本的全局公式特征;基于所述全局公式特征,对所述试题文本进行文本匹配。
[0177]
又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各方法提供的试题文本匹配方法,该方法包括:获取待匹配的试题文本,对所述试题文本中的各公式进行解析,得到所述各公式分别对应的公式操作树;对所述各公式分别对应的公式操作树进行合并,得到所述试题文本的全局操作树;对所述全局操作树进行图编码,得到所述试题文本的全局公式特征;基于所述全局公式特征,对所述试题文本进行文本匹配。
[0178]
以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
[0179]
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
[0180]
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管
参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1