题目识别方法、装置、设备及介质与流程

文档序号:26141298发布日期:2021-08-03 14:25阅读:176来源:国知局
题目识别方法、装置、设备及介质与流程

本发明属于图像处理技术领域,特别适用于图像信息识别,更具体的是涉及题目识别方法、装置、设备及介质。

本发明中所称的题目是指包括但不限于练习册、答题卡、答题卷、作业本、习题链接页面下等各种具有多项或单项的题目。



背景技术:

现有技术中,已知的通过线上或线下进行非人工实现的题目识别技术,往往需要图像识别和处理技术的支持,一种方式例如:采集试卷的图像后,系统自动定位、识别、统分和记录,从而有效提高统分的准确性并降低人力工作量;又例如:通过手持拍照设备根据拍照指令按照拍照焦距执行拍照操作得到题目图片,由此能够通过手持拍照设备同时拍取多道题目并上传搜索,操作便捷,搜题效率高。但已有的识别方式,需要采集图像的特殊定位要求,各种设置、拍摄要求和算法进行配合,新的题目格式出现又需要新的设置调整;或者需要按照拍摄时的各种范围规范长时间尝试拍摄符合要求的影像/图片/图像,操作繁琐不便尤其不方便用户。

因此,本申请提出一种解决方案,至少解决上述问题、实现多种拍搜模式,提供便于用户的功能,提高搜题效率和使用便利性,用户的体验,降低计算和网络资源的负担



技术实现要素:

(一)要解决的技术问题

本发明旨在至少解决如何对任意的题目影像进行快速简易的单项/单个题目或多项/多个题目实现识别处理的技术问题;进一步,解决了无需用户自身预判搜索题目功能而自动完成判断以提升题目识别的效率和使用的便捷性,从而能适应更广泛年龄的用户即无需拍摄对用户年龄和操作能力形成限制,提升用户的体验的问题。

(二)技术方案

为解决上述技术问题,本发明的第一方面提出一种题目识别方法,包括:对获取到的题目图像进行识别,判断所述图像是否为包含多题目的多题图像;如果是,则提示用户进入多题搜索模式,以对所述多题图像进行识别;输出相应题目的处理结果。

根据本发明的一种实施方式,判断所述图像是否为包含多题目的多题图像,包括以下至少一种识别处理方式:基于规则识别所述图像是否为多题图像;基于文本分类模型识别所述图像是否为多题图像;基于句子相似度模型识别所述图像是否为多题图像。

根据本发明的一种实施方式,所述基于规则识别,包括基于预先设定的题号规则进行识别;所述基于文本分类模型识别,包括基于经训练后的预测模型预测所述图像的所述文本信息为多个题目的概率进行识别;所述基于句子相似度模型识别,包括基于对文本信息中的长文本进行预定句子划分后预测各个句子之间的相似度以确定句子之间是否属于同一道题目进行识别。

根据本发明的一种实施方式,判断所述图像是否为包含多题目的多题图像,还包括:融合所述基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为多题图像。

根据本发明的一种实施方式,所述融合所述基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为多题图像,具体包括:当任意一种识别处理中判断的结果为多题图像时,确定所述图像为多题图像;或者,当任意两种预设的识别处理中判断的结果为多题图像时,确定所述图像为多题图像;或者,当三种识别处理中判断的结果均为多题图像时,则确定所述图像为多题图像;或者,按照条件依次执行三种识别处理,当任一种识别处理能够执行并有判断的结果为多题图像时,确定所述图像为多题图像。

根据本发明的一种实施方式,按照条件依次执行三种识别处理,具体包括:当采用基于规则识别时,提取所述图像的题号信息以确定所述图像是否包括多个题目;当提取的题号信息不置信时,采用基于文本分类模型识别,其中,所述经训练后的预测模型为textcnn模型;当提取的题号信息不置信并且所述文本信息的文本长度超过预先设定的长度阈值时,采用基于句子相似度模型识别,其中,预定句子划分时根据句子的标点进行划分。

根据本发明的一种实施方式,如果判断为多题图像,则提示用户进入多题搜索模式对所述多题图像进行识别,具体包括:提示用户表明本次输入的待识别的题目的图像为多个题目,需要切换为多题搜索模式,用户确定后切换到多题搜索模式后,对多题图像进行识别并输出相应题目的处理结果;或者,直接跳转到多题搜索模式,对多提图像进行识别并输出相应题目的处理结果。

根据本发明的一种实施方式,还包括:如果判断为不是多题图像,则进行单题搜索模式,并输出相应题目的处理结果。

为解决上述技术问题,本发明第二方面提出一种电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如第一方面所述的题目识别方法。

为解决上述技术问题,本发明第三方面提出一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如第一方面所述的题目识别方法。

为解决上述技术问题,本发明的第四方面提出一种题目识别装置,包括:判断模块,用于对获取到的题目图像进行识别,判断所述图像是否为包含多题目的多题图像;提示模块,用于如果是,则提示用户进入多题搜索模式以对所述多题图像进行识别并输出相应题目的处理结果。

(三)有益效果

本发明通过根据用户任意输入的待识别的题目的图像对其预先进行适配搜题功能(或者说“模式”)的分析,自动确定其要识别的是单个/单项题目还是多个/多项题目(整页题目)等,对实际需要进行多题搜索的图像自动或按提示转到相应的搜题功能完成题目识别的方案,为用户提供了搜单题(搜索单个/单项题目)的功能下无需用户预先确定要用的功能而直接由图像进行自动判断的处理,简化的操作,减少了用户工作量和人工频繁切换动作,提升了识别题目的便捷性以及识别的效率,由此降低了应用该技术的产品的使用复杂度,能适应不同年龄范围的用户,而无需限制用户使用年龄,提升了用户的使用体验。

进一步,自动识别出搜单题功能下实际要进行题目识别的是搜多题(搜索多个/多项题目)的功能,并直接自动跳转到搜多题功能下的处理,执行多题识别和识别并输出结果,能更进一步提升操作的便捷性和识别的效率。

进一步,在自动识别实际应当匹配的搜题功能时所采用的预设的识别处理进而确定是否为多题的判断方式,都有自身的特点,三种方式的融合或者说有效的组织配合使用能更准确地确定图像中是否是对多题进行搜索,进一步提升了识别评估为多题的效率和准确度,并且,实际使用在“搜单题”的场景下,能达到或超过人工评估识别为多题的query的准确率为90%以及召回率为32%的情形。

附图说明

图1是根据本发明的题目识别方法的一个实施例的主要流程图;

图2是根据本发明的题目识别方法的一个实施例中涉及是否多题判断的主要流程示意图;

图3是根据本发明的题目识别系统的一个实施例的主要结构框图;

图4是根据本发明的电子设备的一个实施例的主要结构框图;

图5是根据本发明的更具体的一个电子设备的一个实施例的主要结构示意图;

图6是根据本发明的计算机可读介质的一个实施例的主要结构示意图;

图7是现有技术单题搜索模式下输入多题图像的识别效果;

图8是根据本发明的技术方案的单题搜索模式下对输入待识别的题目的图像引导多题搜索模式的一个例子的示意图。

具体实施方式

在对于具体实施例的介绍过程中,对结构、性能、效果或者其他特征的细节描述是为了使本领域的技术人员对实施例能够充分理解。但是,并不排除本领域技术人员可以在特定情况下,以不含有上述结构、性能、效果或者其他特征的技术方案来实施本发明。

附图中的流程图仅是一种示例性的流程演示,不代表本发明的方案中必须包括流程图中的所有的内容、操作和步骤,也不代表必须按照图中所显示的的顺序执行。例如,流程图中有的操作/步骤可以分解,有的操作/步骤可以合并或部分合并,等等,在不脱离本发明的发明主旨的情况下,流程图中显示的执行顺序可以根据实际情况改变。

附图中的框图一般表示的是功能实体,并不一定必然与物理上独立的实体相对应。即,可以采用软件形式来实现这些功能实体,或在一个或多个硬件模块或集成电路中实现这些功能实体,或在不同网络和/或处理单元装置和/或微控制器装置中实现这些功能实体。

各附图中相同的附图标记表示相同或类似的元件、组件或部分,因而下文中可能省略了对相同或类似的元件、组件或部分的重复描述。还应理解,虽然本文中可能使用第一、第二、第三等表示编号的定语来描述各种器件、元件、组件或部分,但是这些器件、元件、组件或部分不应受这些定语的限制。也就是说,这些定语仅是用来将一者与另一者区分。例如,第一器件亦可称为第二器件,但不偏离本发明实质的技术方案。此外,术语“和/或”、“及/或”是指包括所列出项目中的任一个或多个的所有组合。

在现有的“搜单题”的场景下,如果出现多题query,无论用户拍多少题,引擎侧只会返回一道题,对于用户需求,我们只能满足1/用户拍的题目数,比如图7所示的情形:拍摄的图像是多题“单项选择”有1、2、3、4个题目,而给出的题目识别和解答始终是第2题的,无视了1、3、4。

本发明通过图像及自然语言处理技术中的文本分类分支,提供了预先对图像识别多题的方式,目的是识别图像(输入的图片等)上涉及的文本部分是否包含了多道题目,如果图像上确定是多题就可以直接给用户提供多道题目(也称为多题、多个/多项题目)的解答,即自动或提示用户确认后跳转到多题处理,检测/识别多题内容提供相应多题解答等。这样,相对于传统的拍照搜题来说,帮助用户更快更便捷更高效率地获取多题的解答,无需自行判断选择做繁琐的操作。

本发明的一个实施例,如图1所示,步骤s1对获取到的题目图像进行识别,判断所述图像是否为包含多题目的多题图像;s2如果是,则提示用户进入多题搜索模式,以对所述多题图像进行识别;s3输出相应题目的处理结果。本实施例能在识别题目(提供题目答案)之前先判断其是否为多题,帮助用户提前判断适合使用哪种功能,进而直接对应适合的功能进行识别并获得识别结果(比如题目内容及其解答等)。这样,降低产品的使用复杂度,提高用户的使用体验。

【实施例1】

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明的方法实现作进一步的详细说明。

这里将结合图2所示本发明的方法的一个实施例的主要步骤流程图进行说明。

在步骤s110,对待题目的图像进行预设的识别处理,以判断所述图像是否为需要识别多个题目的图像。

在一个实施方式中,需要获得要识别的题目影像,比如,用户提供的/输入的待识别包含题目的影像。具体地,该影像获取的方式和来源,包括但不限于已知的各种服务器或终端获得的方式和来源,也不限于已知的各种远程网络和/或本地的方式和来源,都可以作为用户输入图像的来源。例如:实时拍摄(包括拍照、录像)的、已经拍摄存储的(比如图库中提取的)、可以是远程内容服务器经线上传送(例如下载)的、也可以是线下本地或远程上传来的,或者进入某一链接的页面各种终端(手机、移动电脑、台式电脑、pad等等)截屏获得的。用户通过这些终端上安装的客户端应用程序app、访问的网站页面等,输入其需要获得题目策略的题目影像。例如在app开启时请求辅导,按app的指示或引导对纸件题目拍照、网页题目截图等。

在一个实施方式中,对于用户输入或提供的各种待识别的题目的图像,进行识别处理,以便判断该图像是否为多个/多项题目(简称多题),进而确定该图像是否适应或匹配当前的单个/单项题目(简称单题)的搜索模式。

在一个实施方式中,预先设定(简称预设)一个或多个对图像的识别处理方式,这些方式包括但不限于下列任一种:基于规则识别所述图像是否为需要识别多个题目的图像、基于文本分类模型识别所述图像是否为需要识别多个题目的图像、基于句子相似度模型识别所述图像是否为需要识别多个题目的图像,等等。

进一步,根据这些预设的识别方式本身的不同特点或者适应于不同题目的图像的特点,可以融合这些方式,例如:融合所述基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为需要识别多个题目的图像。进一步,融合这些方式而做出最终判断具体可以是:当任意一个预设的识别处理中判断的结果为多个题目时,确定所述图像为需要识别多个题目的图像;或者,当任意两个预设的识别处理中判断的结果为多个题目时,确定所述图像为需要识别多个题目的图像;或者,当三个预设的识别处理中判断的结果均为多个题目时,则确定所述图像为需要识别多个题目的图像;或者,按照条件依次执行三个预设的识别处理,当任一个预设的识别处理能够执行并有判断的结果为多个题目时,确定所述图像为需要识别多个题目的图像。

进一步,各个识别处理具体为:基于规则识别,可以包括基于预先设定的题号规则而进行识别;所述基于文本分类模型识别,包括基于经训练后的预测模型预测所述图像的所述文本信息为多个题目的概率而进行识别;所述基于句子相似度模型识别,包括基于对文本信息中的长文本进行预定句子划分后预测各个句子之间的相似度以确定句子之间是否属于同一道题目而进行识别。

进一步结合融合三种识别处理方式的特点和题目图像的特点,按照条件:如置信度评估情况、文本长短情况等,可以按一定的条件顺序来依次执行识别处理。

比如:当采用基于规则识别时,提取所述图像的题号信息,根据所述题号信息置信度评估以确定所述图像是否包括多个题目。其中,基于规则识别时进行所述图像的题号信息提取以及置信度评估,包括但不限于决策树模型和置信度评估,光学字符识别ocr方式和置信度评估(例:基于cnn的定位识别),各种预设的模式识别分类器提取特征向量和置信度评估(例:基于距离的模式识别分类器、多层前向神经网络分类器等)。但是有可能基于规则识别时,识别的字符始终不能确定其在置信范围内,即都不能确定是否有题号、是否有一个题号或者多个题号等无法断定是否多题的情况,即题号信息不置信(包括没有题号信息的情形),那么可以选择下一个识别处理方式。

比如:当提取的题号信息不置信时,基于文本分类模型识别。对所述图像通过文本分类模型识别,优选地,可以采用经训练后的textcnn模型进行预测,主要预测所述图像中提取的文本(特征)为多题的概率。采用textcnn模型对文本信息进行预测,也就是利用卷积神经网络cnn在文本分类中,利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。但是有可能所述图像的文本特别长,依靠文本分类方式并不能有效地很好地捕捉到多题特征(多题信息),可以采用相似度识别方式即再下一个识别处理方式。

比如:当提取的题号信息不置信并且所述文本信息的文本长度超过预先设定的长度阈值时,采用基于句子相似度模型识别,其中,预定句子划分时根据句子的标点进行划分。比如通过句号将该图像中提取的长文本断成多个句子部分,再按照相似度模型的完成相似度计算,确定哪些句子是同一道题,从而判断出存在多少道题,即是否有多题。基于句子相似度模型识别包括基于cnn的句子相似度计算模型、基于lstm的句子相似度计算模型,等等。

一个应用场景例如:从用户通过终端(例如手机上安装的客户端软件/app或链接或网页等),输入要识别的题目的图像。默认题目识别的模式为单题搜索功能,又称单题模式、单题搜索模式。对所述图像进行预设的识别处理,先识别其为多题还是单题,自动完成判断多题或单题的操作而简化用户操作,覆盖更多年龄层次的用户。进行的预设的识别处理综合从规则角度、概率角度、复杂长文本角度,判断该图像是否为多题情况。

也就是说,本发明的并不需要限定用户采集影像的方式即单题或多题和用户特定选择搜题功能是单题或多题搜索,在默认为单题搜索模式下也能够自动分析处理判断该图像要识别的题目是多题还是单题,经此判断后,能为后续跳转或提示执行适应或适配搜索模式,有效避免了用户在不清楚无法理解的情况下选择困难、限制用户使用的年龄范围以及操作过于繁琐的情况,这样,无需限制用户能力和年龄,无需用户频繁选功能切换功能而简化操作提升处理效率,提高用户的使用体验。

在步骤s120,如果判断为需要识别多个题目的图像,则提示用户进入多题搜索模式进行所述图像中的多个题目的识别。

一个实施方式中,提示用户表明本次输入的待识别的题目的图像为多个题目,需要转入多题搜索模式以等待用户确定后转入到多题搜索模式后进行识别并输出识别出的多个题目;或者,直接对待识别的题目的所述图像跳转到多题搜索模式下进行识别并输出识别出的多个题目。

一个实施方式中,在多题搜索模式下识别后,输出相应题目的处理结果,具体包括但不限于执行题目内容的识别、进而还可以提供解答,比如识别了题目内容后给出题目解答、辅导策略等。

一个应用场景例如图8所示:用户输入的待识别的题目的图像,单题搜索模式下(单题拍里面)拍摄的多题(搜索/查询)query,单题拍里进行裁剪提取,在预设的识别处理发现是多题情况,对话框给出提示:“是否要使用拍摄整页‘识别存在多道题目,拍整页可一次搜索多道题目’”,用户可以按照提示选择取消或拍整页/拍多页,选择了拍整页就跳转到拍整页扫描页(多题搜索模式下),并展示整页拍摄结果,进而继续后续正常的题目内容的识别,比如给出多个题目的内容及解答信息等。

进一步,如果是提示方式,用户误选择取消,仍然可以继续进行单题搜索模式,甚至可以提示用户进一步对图片裁剪为单题(进而再判断确定为单题后进入单题处理如步骤s130)。

由此,能够提供用户选择后跳转或直接跳转到多题/整页的题目识别和识别处理,为用户提供相应的题目内容,甚至题目的解答,无需用户做复杂的操作和切换,识别效率更高、更准确,更符合实际用户需求,提升了用户的使用体验。

在步骤s130,如果判断为不需要识别多个题目的图像,则进行单题搜索模式并输出识别出的单个题目。

一个实施方式中,如果判断不需要识别多个题目的图像,即为单题,匹配当前默认单题搜索模式,则不跳转,直接输出相应题目的处理结果,具体包括但不限于执行题目内容的识别、进而还可以提供解答,比如识别了题目内容后给出题目解答、辅导策略等。

可见,本发明通过融合策略,将基于规则识别多题(基本思路是提取题号信息,根据题号信息判断是否为多题)、基于文本分类模型识别多题(在题号的信息不置信或者没有题题号信息时,使用训练好的textcnn模型,预测文本为多题的概率)、基于句子相似度模型识别多题(当文本特别长时,文本分类并不能很好的捕捉多题信息,可以将长文本按照标点等信息划分为句子,判断句子之间是否属于同一道题,来判断是否为多题)三种各有优势和不足的方式组织结合起来对三者的结果进行综合判断(即融合),进而确定输入的图像是否为多题情况。在实际“搜单题”的场景下应用,通过人工评估分析,识别为多题的query,准确率为90%,召回率为32%。由此,有效简化操作,提升效率,达到较高的准确率,提高用户体验。

【实施例2】

为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明的系统实现作进一步的详细说明。

本发明的一个实施例中,多题识别系统主要包括判断模块,用于对获取到的题目图像进行识别,判断所述图像是否为包含多题目的多题图像;提示模块,用于如果是,则提示用户进入多题搜索模式以对所述多题图像进行识别并输出相应题目的处理结果。本实施例能在识别题目(提供题目答案)之前先判断其是否为多题,帮助用户提前判断适合使用哪种功能,进而直接对应适合的功能进行识别并获得识别结果(比如题目内容及其解答等)。这样,降低产品的使用复杂度,提高用户的使用体验。

这里将结合图3所示本发明的系统的一个实施例的主要结构框图进行说明。在本实施例中,该系统至少包括判断模块110,提示模块120,单题输出模块130。

判断模块110,用于对待识别的题目的图像进行预设的识别处理,以判断所述图像是否为需要识别多个题目的图像。

在一个实施方式中,需要获得要识别的题目的影像,比如,用户提供的/输入的待识别的题册的影像。具体地,该影像获取的方式和来源,包括但不限于已知的各种服务器或终端获得的方式和来源,也不限于已知的各种远程网络和/或本地的方式和来源,都可以作为用户输入图像的来源。例如:实时拍摄(包括拍照、录像)的、已经拍摄存储的(比如图库中提取的)、可以是远程内容服务器经线上传送(例如下载)的、也可以是线下本地或远程上传来的,或者进入某一链接的页面各种终端(手机、移动电脑、台式电脑、pad等等)截屏获得的。

在一个实施方式中,对于用户输入或提供的各种待识别的题目的图像,进行识别处理,以便判断该图像是否为多个/多项题目(简称多题),进而确定该图像是否适应或匹配当前的单个/单项题目(简称单题)的搜索模式。

在一个实施方式中,预先设定(简称预设)一个或多个对图像的识别处理方式,这些方式包括但不限于下列任一种:基于规则识别所述图像是否为需要识别多个题目的图像、基于文本分类模型识别所述图像是否为需要识别多个题目的图像、基于句子相似度模型识别所述图像是否为需要识别多个题目的图像,等等。

进一步,根据这些预设的识别方式本身的不同特点或者适应于不同题目的图像的特点,可以融合这些方式,例如:融合所述基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为需要识别多个题目的图像。进一步,融合这些方式而做出最终判断具体可以是:当任意一个预设的识别处理中判断的结果为多个题目时,确定所述图像为需要识别多个题目的图像;或者,当任意两个预设的识别处理中判断的结果为多个题目时,确定所述图像为需要识别多个题目的图像;或者,当三个预设的识别处理中判断的结果均为多个题目时,则确定所述图像为需要识别多个题目的图像;或者,按照条件依次执行三个预设的识别处理,当任一个预设的识别处理能够执行并有判断的结果为多个题目时,确定所述图像为需要识别多个题目的图像。

进一步,各个识别处理具体为:基于规则识别,可以包括基于预先设定的题号规则而进行识别;所述基于文本分类模型识别,包括基于经训练后的预测模型预测所述图像的所述文本信息为多个题目的概率而进行识别;所述基于句子相似度模型识别,包括基于对文本信息中的长文本进行预定句子划分后预测各个句子之间的相似度以确定句子之间是否属于同一道题目而进行识别。

进一步结合融合三种识别处理方式的特点和题目图像的特点,按照条件:如置信度评估情况、文本长短情况等,可以按一定的条件顺序来依次执行识别处理。

比如:当采用基于规则识别时,提取所述图像的题号信息,根据所述题号信息置信度评估以确定所述图像是否包括多个题目。其中,基于规则识别时进行所述图像的题号信息提取以及置信度评估,包括但不限于决策树模型和置信度评估,光学字符识别ocr方式和置信度评估(例:基于cnn的定位识别),各种预设的模式识别分类器提取特征向量和置信度评估(例:基于距离的模式识别分类器、多层前向神经网络分类器等)。但是有可能基于规则识别时,识别的字符始终不能确定其在置信范围内,即都不能确定是否有题号、是否有一个题号或者多个题号等无法断定是否多题的情况,即题号信息不置信(包括没有题号信息的情形),那么可以选择下一个识别处理方式。

比如:当提取的题号信息不置信时,基于文本分类模型识别。对所述图像通过文本分类模型识别,优选地,可以采用经训练后的textcnn模型进行预测,主要预测所述图像中提取的文本(特征)为多题的概率。采用textcnn模型对文本信息进行预测,也就是利用卷积神经网络cnn在文本分类中,利用多个不同size的kernel来提取句子中的关键信息,从而能够更好地捕捉局部相关性。但是有可能所述图像的文本特别长,依靠文本分类方式并不能有效地很好地捕捉到多题特征(多题信息),可以采用相似度识别方式即再下一个识别处理方式。

比如:当提取的题号信息不置信并且所述文本信息的文本长度超过预先设定的长度阈值时,采用基于句子相似度模型识别,其中,预定句子划分时根据句子的标点进行划分。比如通过句号将该图像中提取的长文本断成多个句子部分,再按照相似度模型的完成相似度计算,确定哪些句子是同一道题,从而判断出存在多少道题,即是否有多题。基于句子相似度模型识别包括基于cnn的句子相似度计算模型、基于lstm的句子相似度计算模型,等等。

一个应用场景例如:从用户通过终端(例如手机上安装的客户端软件/app或链接或网页等),输入要识别的题目的图像。默认题目识别的模式为单题搜索模式。对所述图像进行预设的识别处理,先识别其为多题还是单题,自动完成判断多题或单题的操作而简化用户操作,覆盖更多年龄层次的用户。进行的预设的识别处理综合从规则角度、概率角度、复杂长文本角度,判断该图像是否为多题情况。

也就是说,本发明的并不需要限定用户采集影像的方式即单题或多题和用户特定选择搜题功能是单题或多题搜索,在默认为单题搜索模式下也能够自动分析处理判断该图像要识别的题目是多题还是单题,经此判断后,能为后续跳转或提示执行适应或适配搜索模式,有效避免了用户在不清楚无法理解的情况下选择困难、限制用户使用的年龄范围以及操作过于繁琐的情况,这样,无需限制用户能力和年龄,无需用户频繁选功能切换功能而简化操作提升处理效率,提高用户的使用体验。

检索确定模块120,用于如果判断为需要识别多个题目的图像,则提示用户进入多题搜索模式进行所述图像中的多个题目的识别。

一个实施方式中,提示用户表明本次输入的待识别的题目的图像为多个题目,需要转入多题搜索模式以等待用户确定后转入到多题搜索模式后进行识别并输出识别出的多个题目;或者,直接对待识别的题目的所述图像跳转到多题搜索模式下进行识别并输出识别出的多个题目。

一个实施方式中,在多题搜索模式下识别后,输出相应题目的处理结果,具体包括但不限于执行题目内容的识别、进而还可以提供解答,比如识别了题目内容后给出题目解答、辅导策略等。

一个应用场景例如图8所示:用户输入的待识别的题目的图像,单题搜索模式下(单题拍里面)拍摄的多题(搜索/查询)query,单题拍里进行裁剪提取,在预设的识别处理发现是多题情况,对话框给出提示:“是否要使用拍摄整页‘识别存在多道题目,拍整页可一次搜索多道题目’”,用户可以按照提示选择取消或拍整页/拍多页,选择了拍整页就跳转到拍整页扫描页(多题搜索模式下),并展示整页拍摄结果,进而继续后续正常的题目内容的识别,比如给出多个题目的内容及解答信息等。

进一步,如果是提示方式,用户误选择取消,仍然可以继续进行单题搜索模式,甚至可以提示用户进一步对图片裁剪为单题(进而再判断确定为单题后进入单题处理如模块130)。

由此,能够提供用户选择后跳转或直接跳转到多题/整页的题目识别和识别处理,为用户提供相应的题目内容,甚至题目的解答,无需用户做复杂的操作和切换,识别效率更高、更准确,更符合实际用户需求,提升了用户的使用体验。

输出处理模块130,用于如果判断为不需要识别多个题目的图像,则进行单题搜索模式并输出识别出的单个题目。

一个实施方式中,如果判断不需要识别多个题目的图像,即为单题,匹配当前默认单题搜索模式,则不跳转,直接输出相应题目的处理结果,具体包括但不限于执行题目内容的识别、进而还可以提供解答比如识别了题目内容后给出题目解答、辅导策略等。

可见,本发明通过融合策略,将基于规则识别多题(基本思路是提取题号信息,根据题号信息判断是否为多题)、基于文本分类模型识别多题(在题号的信息不置信或者没有题题号信息时,使用训练好的textcnn模型,预测文本为多题的概率)、基于句子相似度模型识别多题(当文本特别长时,文本分类并不能很好的捕捉多题信息,可以将长文本按照标点等信息划分为句子,判断句子之间是否属于同一道题,来判断是否为多题)三种各有优势和不足的方式组织结合起来对三者的结果进行综合判断(即融合),进而确定输入的图像是否为多题情况。在实际“搜单题”的场景下应用,通过人工评估分析,识别为多题的query,准确率为90%,召回率为32%。由此,有效简化操作,提升效率,达到较高的准确率,提高用户体验。

【实施例3】

下面描述一个整体的应用场景结合实施例1和2进一步说明本发明的实现过程:

用户通过诸如手机等终端设备上的应用程序app或者说客户端软件或者网页/网站,拍题搜索,例如习题的页面截图或上传相机库存题目图片等,请求搜索题目和相应的解答等。以app为例,进入操作页面上传习题图像希望能够识别题目并提供题目识别的内容和题目解答等。由于该用户是小孩子可能一下子操作不当拍的是习题页面的很多个题目。对上传的图像进行分析处理,识别出该图像上的是多题还是单题。如图8所示,单题搜索的拍摄或上传图片为拍摄或上传的多题query情况,在单题搜索的拍摄或上传图片的剪切/裁剪后,进行三种预设的识别处理,并根据融合策略确定最终该图片是否为多题;如果是多题则会提供单题搜索中该单题拍摄或上传处理的展示(例如识别的单题)并给出对话框提示用户是否使用拍整页的多题搜索模式,如对话框上“取消”、“拍整页”的按钮(以及为什没给出提示的理由,比如:发现图像是多题,拍整页可以一次搜索多题),即可以扩展搜索单题功能,进行功能性引导扩展到拍多题,另外也可以引导进一步裁剪成单题(选择“取消”的情况,最后进行单题识别输出题目内容甚至解答)等;用户选择了拍整页的按钮即进入多题搜索模式,输出展示的就是整页拍的结果页,图像以及对应识别的题目的内容甚至题目解答等,结束后还可以人工或定时返回到拍整页的拍摄页面等。

【实施例4】

图4是根据本发明的一个实施例的电子设备的结构示意框图,该电子设备包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如前述实施例1中的题目识别方法。

如图4所示,电子设备以通用计算设备的形式表现。其中处理器可以是一个,也可以是多个并且协同工作。本发明也不排除进行分布式处理,即处理器可以分散在不同的实体设备中。本发明的电子设备并不限于单一实体,也可以是多个实体设备的总和。

所述存储器存储有计算机可执行程序,通常是机器可读的代码。所述计算机可读程序可以被所述处理器执行,以使得电子设备能够执行本发明的方法,或者方法中的至少部分步骤。

所述存储器包括易失性存储器,例如随机存取存储单元(ram)和/或高速缓存存储单元,还可以是非易失性存储器,如只读存储单元(rom)。

可选的,该实施例中,电子设备还包括有i/o接口,其用于电子设备与外部的设备进行数据交换。i/o接口可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

更具体地,参见图5所示的该实施例所述的电子设备的更具体的一个例子的结构框图。该示例性实施例的电子设备200以通用数据处理设备的形式表现。电子设备200的组件可以包括但不限于:至少一个处理单元210、至少一个存储单元220、连接不同系统组件(包括存储单元220和处理单元210)的总线230、显示单元240等。

其中,所述存储单元220存储有计算机可读程序,其可以是源程序或都只读程序的代码。所述程序可以被处理单元210执行,使得所述处理单元210执行本发明各种实施方式的步骤。例如,所述处理单元210可以执行前述实施例2至5的方法的各个步骤。

所述存储单元220可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(ram)2201和/或高速缓存存储单元2202,还可以进一步包括只读存储单元(rom)2203。所述存储单元220还可以包括具有一组(至少一个)程序模块2205的程序/实用工具2204,这样的程序模块2205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。

总线230可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。

电子设备200也可以与一个或多个外部设备300(例如键盘、显示器、网络设备、蓝牙设备等)通信,使得用户能经由这些外部设备300与该电子设备200交互,和/或使得该电子设备200能与一个或多个其它数据处理设备(例如路由器、调制解调器等等)进行通信。这种通信可以通过输入/输出(i/o)接口250进行,还可以通过网络适配器260与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)进行。网络适配器260可以通过总线230与电子设备200的其它模块通信。应当明白,尽管图中未示出,电子设备200中可使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、raid系统、磁带驱动器以及数据备份存储系统等。

应当理解,图4、5显示的电子设备仅仅是本发明的一个示例,本发明的电子设备中还可以包括上述示例中未示出的元件或组件。例如,有些电子设备中还包括有显示屏等显示单元,有些电子设备还包括人机交互元件,例如按扭、键盘等。只要该电子设备能够执行存储器中的计算机可读程序以实现本发明方法或方法的至少部分步骤,均可认为是本发明所涵盖的电子设备。

【实施例5】

图6是本发明的一个实施例的计算机可读记录介质的示意图。如图8所示,计算机可读记录介质中存储有计算机可执行程序,所述计算机可执行程序被执行时,实现本发明上述的题目识别方法。所述计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、rf等等,或者上述的任意合适的组合。

可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,所述程序设计语言包括面向对象的程序设计语言—诸如java、c++等,还包括常规的过程式程序设计语言—诸如“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

通过以上对实施方式的描述,本领域的技术人员易于理解,本发明可以由能够执行特定计算机程序的硬件来实现,例如本发明的系统,以及系统中包含的电子处理单元、服务器、客户端、手机、控制单元、处理器等,本发明也可以由包含上述系统或部件的至少一部分的车辆来实现。本发明也可以由执行本发明的方法的计算机软件来实现,例如由机车端的微处理器、电子控制单元,客户端、服务器端等执行的控制软件来实现。但需要说明的是,执行本发明的方法的计算机软件并不限于由一个或特定个的硬件实体中执行,其也可以是由不特定具体硬件的以分布式的方式来实现,例如计算机程序执行的某些方法步骤可以在机车端执行,另一部分可以在移动终端或智能头盔等中执行。对于计算机软件,软件产品可以存储在一个计算机可读的存储介质(可以是cd-rom,u盘,移动硬盘等)中,也可以分布式存储于网络上,只要其能使得电子设备执行根据本发明的方法。

通过以上对实施方式的描述,本领域的技术人员易于理解,本发明本发明描述的示例性实施例可以通过软件实现,也可以通过软件结合必要的硬件的方式来实现。

以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,应理解的是,本发明不与任何特定计算机、虚拟装置或者电子设备固有相关,各种通用装置也可以实现本发明。以上所述仅为本发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

下面总结本发明涉及的主要技术方案:

方案1、一种题目识别方法,包括:对获取到的题目图像进行识别,判断所述图像是否为包含多题目的多题图像;如果是,则提示用户进入多题搜索模式,以对所述多题图像进行识别;输出相应题目的处理结果。

方案2、根据方案1所述的题目识别方法,

判断所述图像是否为包含多题目的多题图像,包括以下至少一种识别处理方式:基于规则识别所述图像是否为多题图像;基于文本分类模型识别所述图像是否为多题图像;基于句子相似度模型识别所述图像是否为多题图像;

和/或,

判断所述图像是否为包含多个题目的多题图像,还包括:融合基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为多题图像。

方案3、根据方案1或2所述的题目识别方法,所述基于规则识别,包括基于预先设定的题号规则进行识别;可选地,所述基于文本分类模型识别,包括基于经训练后的预测模型预测所述图像的所述文本信息为多个题目的概率进行识别;可选地,所述基于句子相似度模型识别,包括基于对文本信息中的长文本进行预定句子划分后预测各个句子之间的相似度以确定句子之间是否属于同一道题目进行识别。

方案4、根据方案3所述的题目识别方法,所述融合基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为多题图像,具体包括:当任意一种识别处理中判断的结果为多题图像时,确定所述图像为多题图像;或者,当任意两种预设的识别处理中判断的结果为多题图像时,确定所述图像为多题图像;或者,当三种识别处理中判断的结果均为多题图像时,则确定所述图像为多题图像;或者,按照条件依次执行三种识别处理,当任一种识别处理能够执行并有判断的结果为多题图像时,确定所述图像为多题图像。

方案5、根据方案1至4任一所述的题目识别方法,按照条件执行三种识别处理,具体包括:当采用基于规则识别时,提取所述图像的题号信息以确定所述图像是否包括多个题目;当提取的题号信息不置信时,采用基于文本分类模型识别,其中,所述经训练后的预测模型为textcnn模型;当提取的题号信息不置信并且所述文本信息的文本长度超过预先设定的长度阈值时,采用基于句子相似度模型识别,其中,预定句子划分时根据句子的标点进行划分。

方案6、根据方案1至5任一项所述的题目识别方法,如果判断为多题图像,则提示用户进入多题搜索模式对所述多题图像进行识别,具体包括:提示用户表明本次输入的待识别的题目的图像为多个题目,需要切换为多题搜索模式,用户确定后切换到多题搜索模式后,对多题图像进行识别并输出相应题目的处理结果;或者,直接跳转到多题搜索模式,对多提图像进行识别并输出相应题目的处理结果。

方案7、根据方案1至6任一项所述的题目识别方法,还包括:如果判断为不是多题图像,则进行单题搜索模式,并输出相应题目的处理结果。

方案8、一种题目识别电子设备,包括处理器和存储器,所述存储器用于存储计算机可执行程序,当所述计算机程序被所述处理器执行时,所述处理器执行如方案1至7中任一项所述的题目识别方法。

方案9、一种计算机可读介质,存储有计算机可执行程序,所述计算机可执行程序被执行时,实现如方案1至7中任一项所述的题目识别方法。

方案10、一种题目识别装置,包括:判断模块,对获取到的题目图像进行识别,判断所述图像是否为包含多题目的多题图像;提示模块,当判断模块的判断结果为是,则提示用户进入多题搜索模式以对所述多题图像进行识别并输出相应题目的处理结果。

方案11、根据方案10所述的题目识别装置,

判断模块中,判断所述图像是否为包含多题目的多题图像,具体包括以下至少一种识别处理方式:基于规则识别所述图像是否为多题图像;基于文本分类模型识别所述图像是否为多题图像;基于句子相似度模型识别所述图像是否为多题图像;

和/或,

判断模块中,判断所述图像是否为包含多题的多题图像,还包括:融合所述基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为多题图像。

方案12、根据方案10或11所述的题目识别装置,三种所述识别处理方式分别包括:所述基于规则识别,包括基于预先设定的题号规则进行识别;可选地,所述基于文本分类模型识别,包括基于经训练后的预测模型预测所述图像的所述文本信息为多个题目的概率进行识别;可选地,所述基于句子相似度模型识别,包括基于对文本信息中的长文本进行预定句子划分后预测各个句子之间的相似度以确定句子之间是否属于同一道题目进行识别。

方案13、根据方案12所述的题目识别装置,判断模块中,融合基于规则识别、基于文本分类模型识别以及基于句子相似度模型识别的判断结果,最终确定所述图像是否为需要识别多个题目的图像,具体包括:当任意一种识别处理中判断的结果为多题图像时,确定所述图像为多题图像;或者,当任意两种识别处理中判断的结果为多题图像时,确定所述图像为多图像;或者,当三种识别处理中判断的结果均为多题图像时,则确定所述图像为多题图像;或者,按照条件依次执行三种识别处理,当任一种预设的识别处理能够执行并有判断的结果为多题图像时,确定所述图像为多题图像。

方案14、根据方案10至13中任一项所述的题目识别装置,判断模块中,按照条件执行三种识别处理包括:当采用基于规则识别时,提取所述图像的题号信息以确定所述图像是否包括多个题目;当提取的题号信息不置信时,采用基于文本分类模型识别,其中,所述经训练后的预测模型为textcnn模型;当提取的题号信息不置信并且所述文本信息的文本长度超过预先设定的长度阈值时,采用基于句子相似度模型识别,其中,预定句子划分时根据句子的标点进行划分。

方案15、根据方案10至14中任一项所述的题目识别装置,提示模块,具体包括:用于提示用户表明本次输入的题目图像为多个题目,需要切换为多题搜索模式以等待用户确定后转入到多题搜索模式后对多题图像进行识别、并输出相应题目的处理结果;或者,用于跳转到多题搜索模式下对所述多题图像进行识别、并输出相应题目的处理结果。

方案16、根据方案10至15中任一项所述的题目识别装置,还包括:单题搜索模块,如果判断为不是多题图像,则进行单题搜索并输出相应题目的处理结果。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1