文档处理方法、装置、电子设备及计算机可读存储介质与流程

文档序号：26264434发布日期：2021-08-13 19:16阅读：87来源：国知局

本发明涉及计算机技术领域，尤其涉及一种文档处理方法、装置、电子设备及计算机可读存储介质。

背景技术：

拍照判题是人工智能技术在教育领域的一项重要应用，其拍照判断流程是：用户用手机或平板电脑等终端设备进行拍照，然后将拍摄的图像上传至拍照判题程序，接着拍照判题程序将图像送入题型判断模型，题型判断模型检测预先指定的题型的文本区域，并框选该文本区域。与此同时，应用程序将图像送入文本行检测模型，文本行检测模型检测文本行区域，并框选该文本行区域；然后利用版面分析模型根据文本行检测模型的检测结果进行版面分析，对框进行合并，同时根据每种题型的特点，分析得到每个题是由哪些框组成，然后根据框的坐标在原图上进行裁剪，将裁剪得到的图像送入识别模型，得到每个题目的内容，然后根据题目内容判断试题判题结果，并将试题判题结果进行输出。

技术实现要素：

根据本公开的第一方面，提供了一种文档处理方法，包括：

提取待判页含有的第一试题片段，所述第一试题片段与所述待判页含有的相应第一作答区域位置关联；

提取与所述待判页匹配的答案页含有的第二试题片段，所述第二试题片段与所述答案页含有的相应第二作答区域位置关联；

在所述第一试题片段与所述第二试题片段的文本匹配时，根据与所述第一试题片段位置关联的所述第一作答区域内的文本和与相应所述第二试题片段位置关联的所述第二作答区域内的文本输出判题结果。

根据本公开的第二方面，提供了一种文档处理装置，包括：

第一提取模块，用于提取待判页含有的第一试题片段，所述第一试题片与所述待判页含有的第一作答区域关联；

第二提取模块，用于提取与所述待判页匹配的答案页含有的第二试题片段，所述第二试题片段与所述答案页含有的相应第二作答区域关联；

输出模块，用于在所述第一试题片段与所述第二试题片段的文本匹配时，根据与所述第一试题片段位置关联的所述第一作答区域内的文本和与相应所述第二试题片段位置关联的所述第二作答区域内的文本输出判题结果；

根据本公开的第三方面，提供了电子设备，包括：

处理器；以及，

存储程序的存储器，

其中，所述程序包括指令，所述指令在由所述处理器执行时使所述处理器执行根据本公开的第一方面中任一项所述的方法。

根据本公开的第三方面，一种存储有计算机指令的非瞬时计算机可读存储介质，所述计算机指令用于使所述计算机执行根据本公开的第一方面中任一项所述的方法。

本公开实施例中提供的一个或多个技术方案，利用第一试题片段与第二试题片段的文本匹配表征与第一试题片段位置关联的第一作答区域和相应第二试题片段置关联的第二作答区域匹配，根据匹配的第一作答区域的文本和第二作答区域的文本得到相应的判题结果，相对于直接根据第一作答区域和第二作答区域的坐标确定匹配的第一作答区域的文本和第二作答区域，本公开的方法在待判页在拍照上传时存在角度误差等情况时，因为第一试题片段和第二试题片段依旧与相应的第一作答区域和第二作答区域位置关联，故依旧可以根据第一试题片段和第二试题片段确定匹配的第一作答区域和第二作答区域，进而使得本公开的文档处理方法可以提高试题批改的准确率。

附图说明

附图示出了本公开的示例性实施方式，并与其说明一起用于解释本公开的原理，其中包括了这些附图以提供对本公开的进一步理解，并且附图包括在本说明书中并构成本说明书的一部分。

图1示出了根据本公开示例性实施例的实施本文描述的各种方法的一种应用场景示意图；

图2示出了根据本公开示例性实施例的实施本文描述的各种方法的一种应用场景下的手机界面显示图；

图3示出了根据本公开示例性实施例的文档处理方法的一种流程图；

图4示出了根据本公开示例性实施例的文档处理方法的一种待判页与档案页的示意图；

图5示出了根据本公开示例性实施例的文档处理方法的一种子流程图；

图6示出了根据本公开示例性实施例的文档处理方法的另一种子流程图；

图7示出了根据本公开示例性实施例的文档处理方法的再一种子流程图；

图8示出了根据本公开示例性实施例的文档处理方法的再一种子流程图；

图9示出了根据本公开示例性实施例的文档处理方法的再一种子流程图；

图10示出了根据本公开示例性实施例的文档处理装置的示意性框图；

图11示出了能够用于实现本公开的实施例的示例性电子设备的结构框图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。需要注意，本公开中提及的“第一”、“第二”等概念仅用于对不同的装置、模块或单元进行区分，并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

下面对本公开的实施方式中的术语做说明：

试题文本：试卷、考卷、作业等页面中的试题的文本。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，除“大地”、“评价”是作答文本外，其他均为试题文本。

试题片段：试题文本中的片段，可以是试题文本中的一个字符、两个字符或多个字符。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中“银装素裹的”、“别有深意”等试题文本中的片段为试题片段。

作答文本：试卷、作业等页面中的答案的文本。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，“大地”、“评价”为作答文本。

作答区域：试卷、作业等页面中的用于填写答案的区域。例如：“2.在括号中填恰当的词语：银装素裹的大地别有深意的评价”中，“大地”、“评价”所在的区域是作答区域。

图1是本公开示例性实施例提供的文档处理方法的一种应用场景的示意图，应当知道的，该应用场景不构成对本申请应用场景的限制，本公开示例性实施例提供的文档处理方法也可在其他应用场景中使用。

以文档处理方法的一个具体应用场景为例，参见图1，该应用场景100包括拍摄设备101、显示终端102和服务器104。拍摄设备101、显示终端102等均可以通过网络103与服务器104通信。拍摄设备101可以为摄像机、相机、光电传感器等具有图像采集功能的设备。显示终端102可以为手机、笔记本电脑、台式电脑、手持终端等具有显示功能的终端。此处拍摄设备101的功能可以集成在显示终端102中，也可以独立于显示终端102，可以根据实际需要进行设计。

如图1所示，上述拍摄设备101可以直接拍摄待判页文档，获得具有相应图像格式的待判页，该图像格式可以为jpeg（jointphotographicexpertsgroup，缩写为jpeg）、tiff（tagimagefileformat）、raw（rawimageformat）等格式。待判页的图像可以为动态图像或静态图像。

如图1所示，如果上述拍摄设备101可以实现联网功能，该拍摄设备101可以通过网络103直接将待判页图像通过网络103上传至服务器104并进行文档处理，也可以将待判页图像通过拍摄设备101传输至显示终端102，显示终端102通过网络103上传至服务器104并进行文档处理。用户可以从显示终端102通过网络103访问服务器104，获取到处理结果甚至处理过程，并进行显示。同时，如果拍摄设备101还具有图像显示功能，服务器104也可以通过网络103将处理结果甚至处理过程反馈（可以是自动反馈也可以响应于用于针对拍摄设备的操作）至拍摄设备101进行显示。

如图1所示，如果上述拍摄设备101无法实现联网功能，该拍摄设备101拍摄待判页文档后，可以将所获得的待判页图像通过移动硬件、u盘、光盘等存储介质进行保存，显示终端102读取存储介质所存储的待判页图像，将其通过网络103上传至服务器104并进行文档处理，用户可以从显示终端102通过网络103访问服务器104获取到处理结果甚至处理过程。另外，服务器104也可以通过网络103自动将处理结果甚至处理过程反馈至显示终端102进行显示。

本公开示例性实施例提供的一种文档处理方法，其中的文档可以为图2示例出的手机显示界面所显示的内容。如图2所示，手机200的显示界面201内显示有待判页202。待判页202可以为静态图片，也可以是动态图像。当待判页202为动态图像，服务器可以提前从动态的待判页图像中选择的一帧图片。该图片可以是清晰度、拍摄角度最佳的一帧图片，也可以是随机选择的一帧图片。下面以服务器为执行主体，结合附图对本公开示例性的实施例提供的文档处理方法进行描述。

参见图3，本公开示例性实施例提供的一种文档处理方法，包括：

s301，提取待判页含有的第一试题片段，第一试题片段与待判页含有的第一作答区域位置关联。

上述待判页包含试题文本和作答文本，待判页中的作答文本是待判答案文本，为了方便描述，将待判页的试题文本定义为第一试题文本，待判页的作答文本定义为第一作答文本。

s302，提取与待判页匹配的答案页含有的第二试题片段，第二试题片段与答案页含有的相应第二作答区域位置关联。

上述答案页包含试题文本和作答文本，答案页中的作答文本是参考答案文本，为了方便描述，将答案页的试题文本定义为第二试题文本，答案页的作答文本定义为第二作答文本。

与待判页匹配的答案页表示该答案页是与待判页匹配的答案页，其包含了与第一试题文本对应的第二试题文本以及与第一作答区域对应的第二作答区域，第二作答区域内具有作为参考答案的第二作答文本。此处，与第一试题文本对应的第二试题文本指的该第二试题文本与对应第一试题文本是相同题目的试题文本。与第一作答区域对应的第二作答区域指的该第二作答区域是与对应第一作答区域是相同题目的作答区域。待判页和与待判页匹配的答案页的主要区别在于：待判页的作答文本是待判答案文本，答案页的作答文本是参考答案文本。

其中，与待判页匹配的答案页可以从预设设置的题库中获取，具体的，可以根据待判页的整页特征与题库中的答案页的整体特征的相似度，得到与待判页匹配的答案页，也可以根据待判页的标识从题库中的答案页查找得到与该标识匹配的答案页。可以知道的，此处仅仅是获取与待判页匹配的答案页的可实施方法，不应理解为对本公开的技术方案的限定。

其中，与待判页匹配的答案页也可以是已存储在本地的相应答案页。

可以知道的，第二试题片段与答案页含有的相应第二作答区域位置关联，以及，第一试题片段与待判页含有的相应第一作答区域位置关联，可以使第一试题片段与第二试题片段的是否匹配与相应的第一作答区域和第二作答区域是否匹配存在一定的一致性，使得第一试题片段与第二试题片段的文本匹配时，可以认为相应的第一作答区域和第二作答区域匹配。由于第一作答区域和第二作答区域内的文本是不一定一致的，所以难以根据第一作答区域和第二作答区域的文本来确定第一作答区域和第二作答区域是否匹配，而本公开的上述步骤可以克服该问题。

s303，在第一试题片段与第二试题片段的文本匹配时，根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本输出判题结果。

其中，此处的相应第二试题片段是指与第一试题片段文本匹配的第二试题片段。

在根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本输出判题结果时，可以根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本是否相同，输出判题结果。

本公开示例性实施例提供的文档处理方法中，因为第一试题片段与待判页含有的相应第一作答区域位置关联，第二试题片段与答案页含有的相应第二作答区域位置关联，在所述第一试题片段与所述第二试题片段的文本匹配时，也基本代表了与第一试题片段位置关联的第一作答区域和与相应第二试题片段位置关联的第二作答区域相互匹配。此时，可根据述第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的所述第二作答区域内的文本确定判题结果。

本公开示例性实施例提供的文档处理方法，是基于待判页的第一作答区域的文本和作答区域的第二作答区域的文本输出判题结果，因此无需理解题目的题意亦可判断试题判题结果，其可适用于填空题、选择题、判断题等不同的题型，具有题型适用范围广的有益效果。同时，本公开的文档处理方法是利用第一试题片段与第二试题片段的文本匹配表征与第一试题片段位置关联的第一作答区域和相应第二试题片段置关联的第二作答区域匹配，根据匹配的第一作答区域的文本和第二作答区域的文本得到相应的判题结果，相对于直接根据第一作答区域和第二作答区域的坐标确定匹配的第一作答区域的文本和第二作答区域，本公开的方法在待判页在拍照上传时存在角度误差等情况时，因为第一试题片段和第二试题片段依旧与相应的第一作答区域和第二作答区域位置关联，故依旧可以根据第一试题片段和第二试题片段确定匹配的第一作答区域和第二作答区域，进而使得本公开的文档处理方法可以提高试题批改的准确率。

待判页和答案页可以是页-行的两级结构，每一页包含多个文本行，该待判页匹配的答案页可以从题库中获取，题库可以基于空白未作答的页事先建立，可以由人工根据参考答案进行手写体的标注。

在执行本公开的文档处理方法之前，预先处理得到待判页的页-行两级结构以及答案页的页-行两级结构。

本公开实施例的文档处理方法可以采用已有的区域检测模块检测第一作答区域和第二作答区域，例如，利用能检测作答区域的神经网络模型识别得到第一作答区域和第二作答区域，其中，该神经网络模型可以是目标检测网络模型centernet。目标检测网络模型主要包括提取图片特征的残差网络，对特征图进行上采样的反卷积模块，以及预测目标的宽高和目标的中心点坐标的分支卷积网络，其中，可以知道的该神经网络模型是根据本公开的具体应用场合对应的训练样本训练的，其不同在于，训练样本的标签是用于确定作答区域的标签，例如作答区域的中心点坐标和作答区域的宽高，而样本输入是相应需要检测区域的图像，此处不再说明。可以知道的，神经网络模型也可以是其他可实现作答区域检测的网络模型。

本公开实施例的文档处理方法可以采用已有的文本识别模型识别第一作答区域的文本和第二作答区域的文本。例如，利用能识别文本的神经网络模型得到第一作答区域的文本和第二作答区域的文本，其中，该神经网络模型可以是crnn（convolutionalrecurrentneuralnetwork，图文识别）模型，该crnn模型可识别较长的文本序列，它包含cnn（convolutionalneuralnetworks，卷积神经网络）特征提取层和bilstm（bi-directionallongshort-termmemory，双向长短期记忆）序列特征提取层，能够进行端到端的联合训练。可以知道的，此处的神经网络模型也可以是其他可实现文本检测的网络模型。同理，本公开实施例的文档处理方法可以采用已有的文本识别模型识别第一试题片段和第二试题片段。

在一个实施方式中，第一试题片段与相应第一作答区域的位置关联包括第一试题片段与相应第一作答区域的位置相邻，第二试题片段与相应第二作答区域的位置关联包括第二试题片段与相应第二作答区域的位置相邻。

本实施方式中，采用“位置相邻”作为一种位置关联，可以使第一试题片段是与第一作答区域具有更强的位置关联性的试题片段，使第二试题片段是与第二作答区域具有更强的位置关联性的试题片段，使得所述第一试题片段与所述第二试题片段的文本匹配时，与所述第一试题片段位置关联的所述第一作答区域内的文本和与相应所述第二试题片段位置关联的所述第二作答区域匹配的可能性更高，使得相应判题结果的准确率更高。

示例性的，在提取第一试题片段和第二试题片段时，可以获取相应第一作答区域的相邻区域，提取第一作答区域的相邻区域的文本得到第一试题片段，可以获取相应第二作答区域的相邻区域，提取相应第二作答区域的相邻区域的文本得到第二试题片段。相邻区域即相邻的区域。例如，参见图4，在待判页400a中，区域402a是第一作答区域401a的相邻区域，待判页400a的区域403a是第一作答区域401a的相邻区域。在答案页400b中，区域402b是第二作答区域401b的相邻区域，区域403b是第二作答区域401b的相邻区域。

示例性的，在提取第一试题片段和第二试题片段时，可以获取相应第一作答区域的相邻区域，提取第一作答区域的相邻区域的打印体文本得到第一试题片段，可以获取相应第二作答区域的相邻区域，提取相应第第二作答区域的相邻区域的打印体文本得到第二试题片段。本示例中，待判页的试题文本是打印体文本，待判页的答题文本是手写体文本，如此，可以在提取第一作答区域的第一试题片段时，可以提取第一作答区域的相邻区域的打印体文本以得到第一试题片段。

在一个实施方式中，第一试题片段与相应第一作答区域的位置关联包括第一试题片段与相应第一作答区域之间间隔预设数量的字符，第二试题片段与相应第二作答区域的位置关联包括第二试题片段与相应第二作答区域之间间隔预设数量的字符。

本实施方式中，采用“间隔预设数量的字符”作为一种“位置关联”，可以使第一试题片段与第一作答区域之间关联的灵活性更强，使第二试题片段与第二作答区域关联的灵活性更强。

示例性的，在提取第一试题片段和第二试题片段时，可以获取相应第一作答区域的相邻区域，提取第一作答区域的相邻区域中预设相对位置的文本得到第一试题片段，以及，可以获取相应第二作答区域的相邻区域，提取相应第二作答区域的相邻区域中的预设相对位置的文本得到第二试题片段。其中，预设相对位置可以是相邻区域中的与相应的第一作答区域或第二作答区域间隔预设数量的字符（具体，也可以间隔设定距离来表达间隔的间隔预设数量的字符），其中，预设数量和设定距离可以根据具体需要设定，例如，预设数量可以是1~n之间的整数；n一般不超过整行的1/2字符数，n可以是3、5、10、15等，设定距离可以是1~n的字符对应的距离。

示例性的，在提取第一试题片段和第二试题片段时，可以获取相应第一作答区域的扩展区域，提取第一作答区域的扩展区域中预设相对位置的文本得到第一试题片段，可以获取相应第二作答区域的扩展区域，提取相应第二作答区域的扩展区域中的预设相对位置的文本得到第二试题片段。预设相对位置的文字可以是相邻区域中的与相应的第一作答区域或第二作答区域间隔预设数量的字符（具体，可以间隔设定距离来表达间隔的间隔预设数量的字符），其中，预设数量和设定距离可以根据需要设定，预设数量可以是1~n之间的整数；n一般不超过整行的1/2字符数，n可以是3、5、10、15等。

示例性的，第一作答区域的扩展区域中预设相对位置的文本可以是第一作答区域的扩展区域中的最后m个字符；第二作答区域的扩展区域中预设相对位置的文本可以是第二答区域的扩展区域中的最后m个字符，m可以是1，2，…，10等的正整数，具体的，m可以选择1或2。

例如，参见图4，在待判页400a中，区域402a是第一作答区域401a的相邻区域，待判页400a的区域403a是第一作答区域401a的相邻区域，区域402a和/或区域403a与第一作答区域401a结合所得到的区域是第一作答区域401a的扩展区域。在答案页400b中，区域402b是第二作答区域401b的相邻区域，区域403b是第二作答区域401b的相邻区域，区域402b和/或区域403b与第二作答区域401b结合所得到的区域是第二作答区域401b的扩展区域。

作为一种上述两种实施方式的一种结合，可以利用上述一种“位置关联”提取第一试题片段和第二试题片段，判断第一试题片段与相应第二试题片段是否文本匹配，当不匹配时，采用上述另一种“位置关联”的第一试题片段和第二试题片段，判断第一试题片段与相应第二试题片段是否文本匹配。需要说明的是，上述两种实施方式也可以采用其他方式结合，在此不做限定。

在一个实施方式中，第一试题片段包括两个第一子片段，第二试题片段包括两个第二子片段，其中，第一作答区域位于两个第一子片段之间，第二作答区域位于两个第二子片段之间。

本实施方式中，第一作答区域位于两个第一子片段之间，第二作答区域位于两个第二子片段之间，使得第一试题片段与第二试题片段相同时，与第一试题片段关联的第一作答区域和与该第二试题片段关联的第二作答区域是匹配的可能性更大，进而使得根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本输出判题结果时，输出的判题结果的准确率更高。

示例性的，在提取第一试题片段和第二试题片段时，可以获取相应第一作答区域的向前的扩展区域和向后的扩展区域，根据向前的扩展区域内的文本得到第一试题片段的一个第一子片段，根据向后的扩展区域内的文本得到第一试题片段的另一个第一子片段。可以获取相应第二作答区域的向前的扩展区域和向后的扩展区域，根据向前的扩展区域内的文本得到第二试题片段的一个第二子片段，根据向后的扩展区域内的文本得到第二试题片段的另一个第二子片段。此处的向前的扩展区域或向前的扩展区域是相对于文本行方向来说，例如，参见图4，在待判页400a中，区域402a是第一作答区域401a的相邻区域，待判页400a的区域403a是第一作答区域401a的相邻区域，区域402a与第一作答区域401a结合所得到的区域是第一作答区域401a的向前的扩展区域。在答案页400b中，区域402b是第二作答区域401b的相邻区域，区域403b是第二作答区域401b的相邻区域，区域402b与第二作答区域401b结合所得到的区域是第二作答区域401b的向前的扩展区域。

在一个实施方式中，第一试题片段可包括一个第一子片段，第二试题片段可包括一个第二子片段。

在一个实施方式中，参见图5，步骤s301，包括：

s501，基于待判页含有的第一作答区域，获取含有第一作答区域和第一试题片段的第一扩展区域；

示例性的，可以将第一作答区域向前扩展得到第一扩展区域，或，将第一作答区域向后扩展得到第一扩展区域，或，将第一作答区域向前向后扩展得到第一扩展区域，在扩展时，按第一作答区域的长度扩展，比如向前扩展与第一作答区域相同大小的区域，比如向后扩展与第一作答区域相同大小的区域。

举例来说，参见图4，在待判页400a中，区域402a是第一作答区域401a的相邻区域，待判页400a的区域403a是第一作答区域401a的相邻区域，区域402a与第一作答区域401a结合所得到的区域是第一作答区域401a的向前的扩展区域，区域403a与第一作答区域401a结合所得到的区域是第一作答区域401a的向后的扩展区域，区域402a、区域403a与第一作答区域401a结合所得到的区域是第一作答区域401a的向前向后扩展得到的第一扩展区域。同样的，在答案页400b中，区域402b是第二作答区域401b的相邻区域，区域403b是第二作答区域401b的相邻区域，区域402b与第二作答区域401b结合所得到的区域是第二作答区域401b的向前的扩展区域，区域403b与第二作答区域401b结合所得到的区域是第二作答区域401b的向前的扩展区域，区域402b、区域403b与第二作答区域401b结合所得到的区域是第二作答区域401b的向前向后的第二扩展区域。

s502，提取第一扩展区域含有的第一试题片段；

示例性的，提取第一扩展区域含有的第一试题片段时，可以采用文本识别模型提取第一扩展区域含有的第一试题片段。文本识别模型可以事先经过训练，为了防止文本识别模型识别到手写体的非试题文本，文本识别模型可以识别打印体文本的识别模型。

因此，作为一种可选实施方式，提取第一扩展区域含有的第一试题片段可包括：提取第一扩展区域内的打印体文本，得到第一试题片段。可以知道的，采用该方式得到第一试题片段时，相应的待判页的作答文本为手写体文本，相应的待判页的试题文本为打印体文本。

当然，在一种特殊的应用场合中，例如在计算机上的考试，当试卷的题目被设置成手写体文本时，若考生计算机输入的是打印体的答案时。那么，待判页的作答文本为手写体文本，相应的待判页的试题文本为打印体文本，此时可以提取第一扩展区域内的手写体文本，得到第一试题片段。

参见图6，提取与待判页匹配的答案页含有的第二试题片段，包括：

s601，基于答案页含有的第二作答区域，获取含有第二作答区域和第二试题片段的第二扩展区域；

s602，提取第二扩展区域含有的第二试题片段。

示例性的，提取第二扩展区域含有的第二试题片段时，可以采用文本识别模型提取第二扩展区域含有的第二试题片段。文本识别模型可以事先经过训练，为了防止文本识别模型识别到手写体的非试题文本，文本识别模型可以识别打印体文本的识别模型。

因此，作为一种可选实施方式，提取第二扩展区域含有的第二试题片段可包括：提取第二扩展区域内的打印体文本，得到第二试题片段。可以知道的，采用该方式得到第二试题片段时，相应的待判页的作答文本为手写体文本，相应的待判页的试题文本为打印体文本。

当然，在一种特殊的应用场合中，例如在计算机上的考试，当试卷的题目被设置成手写体文本时，若考生计算机输入的是打印体的答案时。那么，待判页的作答文本为手写体文本，相应的待判页的试题文本为打印体文本，此时可以提取第二扩展区域内的手写体文本，得到第二试题片段。

参见图7，作为判断第一作答区域关联的第一试题片段与各个第二作答区域关联的第二试题片段是否文本匹配的一种实施方式，在第一试题片段与第二试题片段的文本匹配时，根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本输出判题结果之前，包括如下步骤：

s701，确定第一作答区域和各个第二作答区域之间的位置偏差；

s702，按位置偏差的由小到大的顺序，确定各个第二作答区域的优先级；

s703，按照各个第二作答区域的优先级的先后顺序，判断第一作答区域关联的第一试题片段与各个第二作答区域关联的第二试题片段是否文本匹配；

其中，若第一作答区域关联的第一试题片段与第i优先级第二作答区域关联的第二试题片段的文本匹配，执行根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本输出判题结果；否则，判断第i+1优先级的第一作答区域关联的第一试题片段与相应第二作答区域关联的第二试题片段是否文本匹配；其中，i为大于或等于1的整数，且小于或等于n，n为大于或等于1的整数，n小于答案页的第二作答区域的总数。

本实施方式中，利用第一作答区域和各个第二作答区域之间的位置偏差，确定各个第二作答区域的优先级，再按照各个第二作答区域的优先级的先后顺序，判断第一作答区域关联的第一试题片段与各个第二作答区域关联的第二试题片段是否文本匹配。如此，可以将最可能的匹配的第一作答区域和第二作答区域对应的第一试题片段和第二试题片段进行是否文本匹配的判断，因此，可以提高判断效率，同时，由于第一作答区域和第二作答区域不匹配时，依旧存在极少的可能，即该第一作答区域对应的第一试题片段与该第二作答区域的第二试题片段相同，出现该情况的原因是不同试题片段存在着相同的试题片段导致的，而实施例中利用基于位置偏差确定的第二作答区域的优先级的先后顺序来判断第一作答区域关联的第一试题片段与各个第二作答区域关联的第二试题片段是否文本匹配，可以减少误判的概率。

相应的，可以在判断第一优先级和第二优先级的第二作答区域与相应第一作答区域均不匹配时，由于余下优先级的第二作答区域与相应第一作答区域的匹配的概率极低，而因为存在上述误判的情况，因此，此时可以停止余下优先级的第二作答区域与相应第一作答区域的匹配判断，以减少不必要的无用判断，也减少误判的概率。停止判断后，可以采用人工等当时对停止判断的题目进行人工判断。

步骤s701中，第一作答区域和第二作答区域的位置偏差用于表明该第一作答区域与该第二作答区域之间的位置关系，以使位置偏差越小，相应的第一作答区域与第二作答区域匹配的可能性越大。例如，一个第一作答区域位于待判页中心坐标附近，一个第二作答区位于待判页中心坐标附近，则该第一作答区域与该第二作答区域的位置偏差小，相应的，也表示该第一作答区域与该第二作答区域的匹配的可能性较大。

参见图8，步骤s701的具体步骤可包括：

s801，确定第一作答区域的位置量化参数和每个第二作答区域的位置量化参数；

s802，根据第一作答区域的位置量化参数与相应第二作答区域的位置量化参数，获得第一作答区域与相应第二作答区域的位置偏差。

步骤s801中的第一作答区域的位置量化参数是能用于表明第一作答区域位置的量化参数，例如，第一作答区域的量化参数可以是第一多维向量，第一多维向量为第一作答区域的中心点与待判页的参考位置的距离矩阵；第二作答区域的位置量化参数是能用于表明第二作答区域位置的量化参数；例如，第二作答区域的量化参数为第二多维向量，第二多维向量为第二作答区域的中心点与待判页的参考位置的距离矩阵。

在第一作答区域的量化参数可以是第一多维向量，第二作答区域的位置量化参数是第二多维向量时，第一多维向量和第二多维向量的同一位置元素属性相同。例如第一多维向量是左上角顶点与第一作答区域的中心距离时，第二多维向量是左上角顶点与第二作答区域的中心距离。

本公开举例了第一作答区域的位置量化参数和第二作答区域的位置量化参数的一种形式，但并不限定第一作答区域的位置量化参数和第二作答区域的位置量化参数仅可以该一种形式，第一作答区域的位置量化参数和第二作答区域的位置量化参数可以是其他形式的能确定第一作答区域与第二作答区域位置偏差的参数，例如，第一作答区域的量化参数可以是第一作答区域在待判页中的相对坐标参数，第二作答区域的量化参数可以是第二作答区域在答案页页中的相对坐标参数。

参见图9，该步骤s801可包括：

s901,利用待判页的参考位置对第一作答区域的位置信息进行量化，获得第一作答区域的量化参数；

s902,利用答案页的参考位置对第二作答区域的位置信息进行量化，获得第二作答区域的量化参数。

在步骤s901中，待判页的参考位置可包括待判页的至少一个顶点位置和/或至少一条边上的点位置，答案页的参考位置包括答案页的至少一个顶点位置和/或至少一条边上的点位置。

例如，待判页的参考位置为一个左上角顶点位置和一个一条上边的中点位置，答案页的参考位置为一个左上角顶点位置和一个一条上边的中点位置；

由于对于待判页来说，它可能有背景，待判页的4个顶点并不能直观得到，因此，顶点位置可以采用各种检测模型识别，例如采用目标检测网络模型centernet。目标检测网络模型主要包括提取图片特征的残差网络，对特征图进行上采样的反卷积模块，以及预测目标的宽高和目标的中心点坐标的分支卷积网络，其中，可以知道的该神经网络模型是根据本公开的具体应用场合对应的训练样本训练的，其不同在于，训练样本的标签是用于顶点位置的标签，而样本输入是相应需要检测顶点的图像，此处不再说明。可以知道的，神经网络模型也可以是其他可实现作答区域检测的网络模型。

在待判页的参考位置包括待判页的至少一个顶点位置时，待判页的至少一个顶点位置至少包括待判页的两个互为对角的顶点位置；当答案页的参考位置包括答案页的至少一个顶点位置时，答案页的至少一个顶点位置至少包括答案页的两个互为对角的顶点位置。待判页的两个互为对角的顶点位置更好地表明相应待判页为整体位置信息，答案页的两个互为对角的顶点位置更好地表明相应答案页的整体位置信息，可以使得利用包含两个互为对角的顶点位置的参考位置量化可以第一作答区域和第二作答区域的位置信息时，所得到的量化参数能更好表达第一作答区域的位置信息或第二作答区域的位置信息。

当待判页的参考位置包括至少一条边上的点位置时，至少一条边上的点位置为待判页的相应条边的中点位置。当答案页的参考位置包括至少一条边上的点位置时，至少一条边上的点位置为答案页的相应条边的中点位置；

待判页的参考位置可包括待判页的相邻顶点位置的二分之一位置点，答案页的参考位置包括待判页的相邻顶点位置的二分之一位置点。

本公开实施例的文档处理方法可以采用已有的检测模块检测顶点位置，例如，利用能检测顶点的神经网络模型识别得到待判页或答案页的顶点，其中，该神经网络模型可以是目标检测网络模型。目标检测网络模型主要包括提取图片特征的残差网络，对特征图进行上采样的反卷积模块，以及预测目标的宽高和目标的中心点坐标的分支卷积网络，其中，可以知道的该神经网络模型是根据本公开的具体应用场合对应的训练样本训练的，其不同在于，训练样本的标签是用于顶点位置，而样本输入是相应需要检测区域的图像，此处不再说明。可以知道的，该神经网络模型也可以是其他可实现顶点位置检测的网络模型。

在一个实施方式中，待判页的参考位置包括待判页的四个顶点和四个二分之分位点，该四个二分之分位点分别是四个顶点中每相邻两个顶点组成的边的二分之一位置点；计算每个第一作答区域中心点坐标到待判页的四个顶点和四个二分之分位点的第一距离，根据第一距离得到第一作答区域的量化参数，具体的，通过将第一距离按待判页的四个顶点的坐标大小进行归一化并按照顺时针顺序排列成一个8维向量，即可得到第一作答区域的量化参数。

同样的，答案页的参考位置包括答案页的四个顶点和四个二分之分位点，该四个二分之分位点分别是答案页的四个顶点中每相邻两个顶点组成的边的二分之一位置点；计算每个第二作答区域中心点坐标到答案页的四个顶点和四个二分之分位点的第二距离，根据第二距离得到第一作答区域的量化参数，具体的，通过将第二距离按待判页的四个顶点的坐标大小进行归一化并按照顺时针顺序排列成一个8维向量，即可得到第二作答区域的量化参数。

参见图10，图10公开了一种文档处理装置，包括：

第一提取模块1001，用于提取待判页含有的第一试题片段，第一试题片与待判页含有的第一作答区域关联；

第二提取模块1002，用于提取与待判页匹配的答案页含有的第二试题片段，第二试题片段与答案页含有的相应第二作答区域关联；

输出模块1003，用于在第一试题片段与第二试题片段的文本匹配时，根据与第一试题片段位置关联的第一作答区域内的文本和与相应第二试题片段位置关联的第二作答区域内的文本输出判题结果。

在一个可选实施方式中，第一试题片段与相应第一作答区域的位置关联包括第一试题片段与相应第一作答区域的位置相邻，第二试题片段与相应第二作答区域的位置关联包括第二试题片段与相应第二作答区域的位置相邻。

在一个可选实施方式中，第一试题片段与相应第一作答区域的位置关联包括第一试题片段与相应第一作答区域之间间隔预设数量的字符，第二试题片段与相应第二作答区域的位置关联包括第二试题片段与相应第二作答区域之间间隔预设数量的字符。

在一个可选实施方式中，第一试题片段包括一个第一子片段，第二试题片段包括一个第二子片段；

在一个可选实施方式中，第一试题片段包括两个第一子片段，第二试题片段包括两个第二子片段，其中，第一作答区域位于两个第一子片段之间，第二作答区域位于两个第二子片段之间。

在一个可选实施方式中，第一提取模块1001，用于提取待判页含有的第一试题片段时，具体用于：

基于待判页含有的第一作答区域，获取含有第一作答区域和第一试题片段的第一扩展区域；

提取第一扩展区域含有的第一试题片段；

提取与待判页匹配的答案页含有的第二试题片段，包括：

基于答案页含有的第二作答区域，获取含有第二作答区域和第二试题片段的第二扩展区域；

提取第二扩展区域含有的第二试题片段。

在一个可选实施方式中，待判页的作答文本为手写体文本，待判页的试题文本为打印体文本；

在一个可选实施方式中，第一提取模块1001，用于提取第一扩展区域含有的第一试题片段时，具体用于：提取第一扩展区域内的打印体文本，得到第一试题片段；

相应的，答案页的作答文本为手写体文本，答案页的试题文本为打印体文本。

第二提取模块1002，用于提取与待判页匹配的答案页含有的第二试题片段时，具体用于：提取第二扩展区域内的打印体文本，得到第二试题片段。

在一个可选实施方式中，待判页的作答文本为打印体文本，待判页的试题文本均为手写体文本；

第一提取模块，用于提取第一扩展区域含有的第一试题片段时，具体用于：提取第一扩展区域内的手写体文本，得到第一试题片段。

答案页的作答文本为打印体文本，答案页页的试题文本均为手写体文本；

第二提取模块，用于提取第二扩展区域含有的第二试题片段时，具体用于：提取第二扩展区域内的手写体文本，得到第二试题片段。

在一个可选实施方式中，装置还包括文本匹配判断模块，用于：

确定第一作答区域和各个第二作答区域之间的位置偏差；

按位置偏差的由小到大的顺序，确定各个第二作答区域的优先级；

按照各个第二作答区域的优先级的先后顺序，判断第一作答区域关联的第一试题片段与各个第二作答区域关联的第二试题片段是否文本匹配；

具体的，文本匹配判断模块，用于确定第一作答区域各个第二作答区域之间的位置偏差时，具体用于：

确定第一作答区域的位置量化参数和每个第二作答区域的位置量化参数；

根据第一作答区域的位置量化参数与相应第二作答区域的位置量化参数，获得第一作答区域与相应第二作答区域的位置偏差。

在一个可选实施方式中，文本匹配判断模块，用于确定第一作答区域的位置量化参数和每个第二作答区域的位置量化参数时，具体包括：

利用待判页的参考位置对第一作答区域的位置信息进行量化，获得第一作答区域的量化参数；

利用答案页的参考位置对第二作答区域的位置信息进行量化，获得第二作答区域的量化参数。

在一个可选实施方式中，第一作答区域的量化参数可为第一多维向量，第一多维向量可为第一作答区域的中心点与待判页的参考位置的距离矩阵；

第二作答区域的量化参数可为第二多维向量，第二多维向量可为第二作答区域的中心点与待判页的参考位置的距离矩阵。

在一个可选实施方式中，第一多维向量和第二多维向量的同一位置元素属性相同。

在一个可选实施方式中，待判页的参考位置可包括待判页的至少一个顶点位置和/或至少一条边上的点位置，答案页的参考位置包括答案页的至少一个顶点位置和/或至少一条边上的点位置。

在一个可选实施方式中，当待判页的参考位置包括待判页的至少一个顶点位置时，待判页的至少一个顶点位置至少包括待判页的两个互为对角的顶点位置；

当答案页的参考位置包括答案页的至少一个顶点位置时，答案页的至少一个顶点位置至少包括答案页的两个互为对角的顶点位置。

在一个可选实施方式中，当待判页的参考位置包括至少一条边上的点位置时，至少一条边上的点位置为待判页的相应条边的中点位置，待判页的参考位置包括待判页的相邻顶点位置的二分之一位置点。

本公开示例性实施例还提供一种电子设备，包括：至少一个处理器；以及与至少一个处理器通信连接的存储器。存储器存储有能够被至少一个处理器执行的计算机程序，计算机程序在被至少一个处理器执行时用于使电子设备执行根据本公开实施例的方法。

本公开示例性实施例还提供一种存储有计算机指令的非瞬时计算机可读存储介质，计算机指令用于使计算机执行本公开实施例的方法。

本公开示例性实施例还提供一种计算机程序产品，包括计算机程序，其中，计算机程序在被计算机的处理器执行时用于使计算机执行根据本公开实施例的方法。

参考图11，现将描述可以作为本公开的服务器或客户端的电子设备1100的结构框图，其是可以应用于本公开的各方面的硬件设备的示例。电子设备旨在表示各种形式的数字电子的计算机设备，诸如，膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置，诸如，个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例，并且不意在限制本文中描述的和/或者要求的本公开的实现。

如图11所示，电子设备1100包括计算单元1101，其可以根据存储在只读存储器（rom）1102中的计算机程序或者从存储单元1108加载到随机访问存储器（ram）1103中的计算机程序，来执行各种适当的动作和处理。在ram1103中，还可存储设备1100操作所需的各种程序和数据。计算单元1101、rom1102以及ram1103通过总线1104彼此相连。输入/输出（i/o）接口1105也连接至总线1104。

电子设备1100中的多个部件连接至i/o接口1105，包括：输入单元1106、输出单元1107、存储单元1108以及通信单元1109。输入单元1106可以是能向电子设备1100输入信息的任何类型的设备，输入单元1106可以接收输入的数字或字符信息，以及产生与电子设备的用户设置和/或功能控制有关的键信号输入。输出单元1107可以是能呈现信息的任何类型的设备，并且可以包括但不限于显示器、扬声器、视频/音频输出终端、振动器和/或打印机。存储单元1104可以包括但不限于磁盘、光盘。通信单元1109允许电子设备1100通过诸如因特网的计算机网络和/或各种电信网络与其他设备交换信息/数据，并且可以包括但不限于调制解调器、网卡、红外通信设备、无线通信收发机和/或芯片组，例如蓝牙tm设备、wifi设备、wimax设备、蜂窝通信设备和/或类似物。

计算单元1101可以是各种具有处理和计算能力的通用和/或专用处理组件。计算单元1101的一些示例包括但不限于中央处理单元（cpu）、图形处理单元（gpu）、各种专用的人工智能（ai）计算芯片、各种运行机器学习模型算法的计算单元、数字信号处理器（dsp）、以及任何适当的处理器、控制器、微控制器等。计算单元1101执行上文所描述的各个方法和处理。例如，在一些实施例中，前述的文档处理方法可被实现为计算机软件程序，其被有形地包含于机器可读介质，例如存储单元1108。在一些实施例中，计算机程序的部分或者全部可以经由rom1102和/或通信单元1109而被载入和/或安装到电子设备1100上。在一些实施例中，计算单元1101可以通过其他任何适当的方式（例如，借助于固件）而被配置为执行文档处理方法。

用于实施本公开的方法的程序代码可以采用一个或多个编程语言的任何组合来编写。这些程序代码可以提供给通用计算机、专用计算机或其他可编程数据处理装置的处理器或控制器，使得程序代码当由处理器或控制器执行时使流程图和/或框图中所规定的功能/操作被实施。程序代码可以完全在机器上执行、部分地在机器上执行，作为独立软件包部分地在机器上执行且部分地在远程机器上执行或完全在远程机器或服务器上执行。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器（ram）、只读存储器（rom）、可擦除可编程只读存储器（eprom或快闪存储器）、光纤、便捷式紧凑盘只读存储器（cd-rom）、光学储存设备、磁储存设备、或上述内容的任何合适组合。

如本公开使用的，术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如，磁盘、光盘、存储器、可编程逻辑装置(pld))，包括，接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互，可以在计算机上实施此处描述的系统和技术，该计算机具有：用于向用户显示信息的显示装置（例如，crt（阴极射线管）或者lcd（液晶显示器）监视器）；以及键盘和指向装置（例如，鼠标或者轨迹球），用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互；例如，提供给用户的反馈可以是任何形式的传感反馈（例如，视觉反馈、听觉反馈、或者触觉反馈）；并且可以用任何形式（包括声输入、语音输入或者、触觉输入）来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统（例如，作为数据服务器）、或者包括中间件部件的计算系统（例如，应用服务器）、或者包括前端部件的计算系统（例如，具有图形用户界面或者网络浏览器的用户计算机，用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互）、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信（例如，通信网络）来将系统的部件相互连接。通信网络的示例包括：局域网（lan）、广域网（wan）和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：周宏浩;秦勇
技术所有人：北京世纪好未来教育科技有限公司
我是此专利的发明人

上一篇：一种不含蔗糖的冻干银耳羹及其制备方法与流程
上一篇：一种铝钙质多功能渣洗料制备方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。