文本识别方法、装置及设备与流程

文档序号:22314876发布日期:2020-09-23 01:38阅读:74来源:国知局
文本识别方法、装置及设备与流程

本说明书涉及文本识别技术领域,尤其涉及文本识别方法、装置及设备。



背景技术:

现有的文本识别方案大多数是单字符识别方案或短文本识别方案。其中,单字符识别方案通常是先获取单个字符,然后对单个字符进行分类,进而得到识别结果,该类方案具有成本高昂等缺陷。短文本识别方案对于较短文本的识别具有优势,但如果面临几十个字符以上的长度的长文本识别,则准确率大幅下降。



技术实现要素:

为克服相关技术中存在的问题,本说明书提供了文本识别方法、装置及设备。

根据本说明书实施例的第一方面,提供一种文本识别方法,所述方法包括:

利用已训练的切割模型确定待识别文本图像的一个或多个切割位置;

根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像;

将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息;

根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。

可选的,所述文本识别模型中包括:双向长短时记忆网络blstm;

所述blstm在当前子图像为输入的首个子图像时,结合下一子图像的初始隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像为输入的最后一个子图像时,结合上一子图像的最终隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像不为输入的首个子图像、最后一个子图像时,结合上一子图像的最终隐状态和/或下一子图像的初始隐状态分别携带的语义特征信息识别出当前子图像对应的文本信息。

可选的,所述根据所述文本识别模型识别出的各子图像对应的文本信息,识别所述待识别文本图像,包括:

按照所述各子图像在所述待识别文本图像中的排列顺序,将各子图像对应的文本信息进行拼接,根据拼接结果确定所述待识别文本图像对应的文本。

可选的,所述切割模型通过如下方式训练得到:

配置增强学习算法的如下输入参数:环境、动作空间、状态空间和奖励,利用配置好参数的增强学习算法训练得到所述切割模型;其中,

所述环境包括:样本单行文本图像,所述样本单行文本图像标注有对应文本;

所述动作空间包括:对所述样本单行文本图像中设定大小窗口内的切割动作;

所述状态空间包括:所述样本单行文本图像被切割之后得到的两个样本子图像;

所述奖励基于拼接结果是否匹配所述样本单行文本图像的标注文本而确定;所述拼接结果利用文本识别模型分别对两个所述样本子图像的识别结果拼接得到。

可选的,所述利用已训练的切割模型确定待识别文本图像的一个或多个切割位置,包括:

从所述待识别文本图像中获取待评估窗口图像,将所述待评估窗口图像输入至所述切割模型中,由所述切割模型在所述待评估窗口图像中获取切割位置;其中,所述待评估窗口图像的大小与所述设定大小窗口的大小相匹配。

可选的,利用预先切割的多个样本切割图像训练文本识别模型,直至文本识别模型的识别能力满足设定要求后,切割模型的训练过程和文本识别模型的训练过程交替进行;其中,文本识别模型在切割模型的训练过程中提供识别结果,切割模型在文本识别模型的训练过程中提供样本切割图像。

根据本说明书实施例的第二方面,提供一种文本识别装置,包括:

位置确定模块,用于:利用已训练的切割模型确定待识别文本图像的一个或多个切割位置;

切割模块,用于:根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像;

输入模块,用于:将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息;

识别模块,用于:根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。

可选的,所述文本识别模型中包括:双向长短时记忆网络blstm;

所述blstm在当前子图像为输入的首个子图像时,结合下一子图像的初始隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像为输入的最后一个子图像时,结合上一子图像的最终隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像不为输入的首个子图像、最后一个子图像时,结合上一子图像的最终隐状态和/或下一子图像的初始隐状态分别携带的语义特征信息识别出当前子图像对应的文本信息。

可选的,所述识别模块,还用于:

按照所述各子图像在所述待识别文本图像中的排列顺序,将各子图像对应的文本信息进行拼接,根据拼接结果确定所述待识别文本图像对应的文本。

可选的,所述切割模型通过如下方式训练得到:

配置增强学习算法的如下输入参数:环境、动作空间、状态空间和奖励,利用配置好参数的增强学习算法训练得到所述切割模型;其中,

所述环境包括:样本单行文本图像,所述样本单行文本图像标注有对应文本;

所述动作空间包括:对所述样本单行文本图像中设定大小窗口内的切割动作;

所述状态空间包括:所述样本单行文本图像被切割之后得到的两个样本子图像;

所述奖励基于拼接结果是否匹配所述样本单行文本图像的标注文本而确定;所述拼接结果利用文本识别模型分别对两个所述样本子图像的识别结果拼接得到。

所述利用已训练的切割模型确定待识别文本图像的一个或多个切割位置,包括:

从所述待识别文本图像中获取待评估窗口图像,将所述待评估窗口图像输入至所述切割模型中,由所述切割模型在所述待评估窗口图像中获取切割位置;其中,所述待评估窗口图像的大小与所述设定大小窗口的大小相匹配。

可选的,利用预先切割的多个样本切割图像训练文本识别模型,直至文本识别模型的识别能力满足设定要求后,切割模型的训练过程和文本识别模型的训练过程交替进行;

其中,文本识别模型在切割模型的训练过程中提供识别结果,切割模型在文本识别模型的训练过程中提供样本切割图像。

根据本说明书实施例的第三方面,提供一种文本识别设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:

利用已训练的切割模型确定待识别文本图像的一个或多个切割位置;

根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像;

将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息;

根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。

本说明书的实施例提供的技术方案可以包括以下有益效果:

本说明书实施例中,预先训练有切割模型,由切割模型获得待识别文本图像的切割位置,从而可以将待识别文本图像切割出大小合适的子图像,防止图像中的文本被不完整切割;由于将图像切割了多个子图像,为了防止上下文信息丢失,已训练的文本识别模型可以识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出各子图像对应的文本信息,进而可识别所述待识别文本图像。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本说明书。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本说明书的实施例,并与说明书一起用于解释本说明书的原理。

图1a是本说明书根据一示例性实施例示出的一种blstm训练示意图。

图1b是本说明书根据一示例性实施例示出的一种增强学习任务示意图。

图2a是本说明书根据一示例性实施例示出的一种文本识别方法的流程图。

图2b是本说明书根据一示例性实施例示出的一种切割示意图。

图3是本说明书根据一示例性实施例示出的一种文本识别装置所在计算机设备的硬件结构图。

图4是本说明书根据一示例性实施例示出的一种文本识别装置的框图。

具体实施方式

这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本说明书相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本说明书的一些方面相一致的装置和方法的例子。

在本说明书使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本说明书。在本说明书和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解,尽管在本说明书可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本说明书范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

现有的文本识别方案大多数是单字符识别方案或短文本识别方案。其中,单字符识别方案通常是先获取单个字符,然后对单个字符进行分类后获取识别结果。该类方法存在的问题有:获取单个字符时的精度不能保证,可能存在误差放大的问题;另外,由于字符之间存在语义关系,通过切割字符的方式进行识别,会不可避免地丢失上下文语义信息;还有,由于需要获取单个字符,识别过程效率较低,成本高昂。

随着文字识别技术的快速发展,针对短文本图像(短文本通常指25个字符以下)的识别技术得到了跨越式的进步,例如基于ctc(connectionisttemporalclassification)、attention等技术的文本识别方法等。在短文本识别方案中,通常是利用循环神经网络如lstm(longshorttemporalmemory)技术或gru(gaterecurrentunit)等技术对字符串规模的图像进行特征提取,然后借助ctc或attention技术进行解码,从而获得对应的字符串文本。

然而,单纯的短文本识别技术越来越难以满足实际的文本识别需求。目前,长文本识别的需求越来越大,长文本一般具有几十个字符以上的长度,如果采用短文本识别方案对长文本图像进行识别,存在的问题有:长文本中过久远的语义会对当前的识别文字造成干扰;过长的文本压缩至固定长度的特征序列,会造成文字特征之间的干扰而影响识别精度;解码器(ctc/attention)在面对长文本识别时,易造成增字/漏字。

基于此,本说明书实施例提供了一种文本识别方法,该方法预先训练有切割模型,由切割模型获得待识别文本图像的切割位置,从而可以将待识别文本图像切割出大小合适的子图像,防止图像中的文本被不完整切割;由于将图像切割了多个子图像,为了防止上下文信息丢失,已训练的文本识别模型可以识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出各子图像对应的文本信息,进而可识别所述待识别文本图像。

由上述描述可知,本实施例的文本识别方案涉及两个处理过程:训练过程(包括训练切割模型和训练文本识别模型),以及利用上述训练好的切割模型和文本识别模型进行文本识别的过程。首先对训练过程进行说明。

一、文本识别模型的训练

本实施例的文本识别模型最终是用于对长文本图像切割之后的短文本图像进行识别,并且文本识别模型需要具备能够获取到语义特征信息上下文、能结合语义特征信息上下文识别出子图像对应的文本信息的能力。可选的,可以采用已有的针对短文本的文本识别模型作为初始模型来进行训练,作为例子,该文本识别模型可以采用现有的ctc或attention框架等,实际应用中可以根据需要灵活配置,本实施例对此不作限定。

其中,由于文本识别模型最终是用于对长文本图像切割之后的短文本图像进行识别,而对图像的切割操作会造成潜在的上下文语义丢失风险,为了保证最终的识别准确度,本实施例中需要保持上下文语义信息。因此,本实施例中提供了一种保留短文本图像之间的上下文关联的解决方案。可选的,可以采用lstm实现这种上下文关联关系的记录与识别,本实施例的文本识别模型可以包括:双向长短时记忆网络blstm;为了使文本识别模型能够关注到短文本图像之间的上下文关联,文本识别模型可利用具有上下文关联的样本图像进行训练,例如,可以预先准备长文本样本图像,将长文本样本图像切割成多个具有上下文关联的样本图像。

本实施例中,lstm是一种特殊的rnn类型,可以学习长期依赖信息,单向lstm只能访问之前记忆的信息,往往忽略了未来的上下文信息,而很多序列标注任务没有未来的上下文信息。基于此,本实施例提供了一种解决方案:在将当前子图像输入至模型中进行训练时,配置blstm的初始隐状态接收该当前子图像的上一子图像的最终隐状态,配置blstm的最终隐状态接收该当前子图像的下一子图像的初始隐状态。由于隐状态携带有语义特征信息,通过上述配置,使得blstm具备记录语义特征信息上下文的能力,blstm可以结合前后子图像的语义特征信息进行文本识别。

作为例子,如图1a所示,是本实施例采用的双向长短时记忆网络blstm的示意图,在对识别模型进行训练时,文本识别模型会将上一样本图像切割图像l(如lexiconsize)和下一样本图像r(如measurethe)进行关联。

其中,输入l对模型训练时,模型中blstm最后时刻隐状态(也即是最终隐状态)会接收到:r所在模型中blstm第一时刻隐状态(也即是初始隐状态)。

与之对应的,输入r对模型训练时,模型中blstm的第一时刻隐状态会接收到:l所在模型中blstm最后时刻隐状态。

从另一个角度理解,以样本图像切割图像l(如lexiconsize)为例,模型在利用l训练时,l所在模型的blstm第一时刻隐状态会接收到:在l之前的上一子图像所在模型中blstm的最后时刻隐状态,最后时刻隐状态会接收r所在模型中blstm的第一时刻隐状态。可以理解,若l是首个子图像,则未有上一子图像的隐状态输入,若r是最终子图像,则未有下一子图像的隐状态输入。

其中,本实施例中blstm的隐状态携带有语义特征信息,由于模型中blstm中各时刻隐状态记录有识别子图像获得的语义特征信息,同时第一时刻隐状态携带有之前的子图像的语义特征信息,最后时刻隐状态携带有之后的子图像的语义特征信息。通过上述方式,可以提供给输出层输入序列中每一个点的完整的过去和未来的上下文信息,使得模型可以结合上下文信息更为准确地识别出图像对应的文本信息。

二、切割模型的训练

为了减少成本并提高效率,本实施例的训练目标是期望训练样本在没有切割点标定的情况下,模型能够自动评估合适的切割位置,例如单词结束位置、标点符号结束处或者最大空白间隔等位置,此类切割位置不会触及图像中的文本,能够保证切割后的图像包含完整的文本信息,不会影响到后续的文本识别准确率。例如,如果将图像中的某个字符切割为两部分,则文本识别模型在面对不完整的字符时可能会识别错误,从而会影响到文本识别的准确率。基于此,强监督(依赖切割点标注)的方法不可行,基于无监督(比如通过传统方法评估切分点)的往往适应性差,难以应付复杂变化的背景。本实施例采用增强学习方法来训练切割模型。其中,用于训练的样本可以包括部分复杂样本,例如具有背景干扰、遮挡或不完整文本等图像,以提高模型在训练过程中的学习能力,使其具备处理复杂图像的能力。

增强学习的原理是将情况映射为行为,学习者并不是被告知哪种行为将要执行,而是通过尝试学习到最大增益的行为并付诸行动。也就是说增强学习关注的是机器如何在环境中采取一系列行为,从而获得最大的累积回报。通过增强学习,一个机器能够知道在什么状态下应该采取什么行为。增强学习是从环境状态到动作的映射的学习,这个映射称为策略。

如图1b所示,是本说明书根据一示例性实施例示出的马尔科夫决策过程的示意图,增强学习任务通常采用马尔科夫决策过程(markovdecisionprocess,简称mdp)来描述:机器(agent)处于环境e中,状态空间为x,其中每个状态x∈x是机器感知到的环境的描述;机器能采取的动作构成了动作空间a,若某个动作a∈a作用在当前状态x上,则潜在的转移函数p将使得环境从当前状态按某种概率转移到另一个状态;在转移到另一个状态的同时,环境会根据潜在的奖赏(reward)函数r反馈给机器一个奖赏。

综合起来,强化学习任务对应了一个四元组e=<x,a,p,r>,其中p:x*a*x->r指定了状态转移概率;r:x*a*x->r指定了奖赏;在一些应用中,奖赏函数可能仅与状态转移有关,即r:x*x->r。

机器要做的是通过在环境中不断地尝试而学得一个“策略”(policy)π,根据这个策略,在状态x下就能得知要执行的动作a=π(x)。

策略的优劣取决于长期执行这一策略后得到的累计奖赏,增强学习任务中,学习的目的就是要找到能使长期累计奖赏最大化的策略。

针对本实施例的文本识别场景,可以将增强学习任务的问题定义为:

输入:长串文本行图像;

输出:合适的切割位置(如单词结束,标点符号结束处,或者最大空白间隔等);

约束:在没有标定切割位置的情况下,期望能够使模型自动评估合适的切割位置。

在本实施例中,增强学习算法的参数定义如下:

环境environment:样本文本图像,所述样本文本图像标注有对应文本。可选的,样本文本图像可以包含一行或多行文本,基于准确度的考虑,可以采用单行文本图像。其中,样本文本图像可以根据实际业务需求限定大小,例如限定所有样本文本图像都采用基本相同的高度,或者限定所有样本文本图像的宽度处于设定宽度范围等。

动作空间action:在所述样本文本图像中设定大小窗口w内的切割动作。即在窗口w内的n种切割可能(可选的,n可以均匀分布在w内),记为a={a1,a2,…,an};其中,该设定大小窗口是指从样本文本图像中、具有设定大小的图像,该设定大小窗口可以理解为样本文本图像的一部分,即样本文本图像的子图像。本实施例中,切割动作限制在设定大小窗口内,一方面是后续涉及文本识别模型对切割出的图像进行识别,而文本识别模型对于较长的图像无法保证识别精度和准确率;另一方面是由于样本文本图像可能较长,限制模型在较短的窗口w内寻找的切割位置可以保证识别精度和准确率。其中,该设定大小通常根据实际业务需求而设定,作为例子,窗口的大小可以指宽256个像素。

状态空间state:切割后的两个样本子图像,即动作发生后的状态s={s1,s2,…,},每次状态表示一次动作行为发生后的结果。

奖励reward:基于拼接结果是否匹配所述样本文本图像的标注文本而确定;所述拼接结果利用已训练的文本识别模型分别对两个所述样本子图像的识别结果拼接得到。例如,根据行为状态,基于已训练的文本识别器对两段文字进行识别后拼接,如果拼接结果正确,那么给予奖励+1,否则奖励为-1;记作r。

结束:对样本文本图像的切割达到行尾则结束,完成一次测验。

在本实施例中,由于环境的转移概率是未知的,因此增强学习算法可以不依赖于环境建模,可采用免模型学习(model-freelearning)算法作为解决方案,可选的,可以采用q-learning算法。

由上述实施例可见,切割模型基于增强学习方法训练得到,可以从复杂(背景干扰、遮挡、不完整等)的文本环境中进行采样,使模型自动感知合理的切割位置,并且可以是非线性切割;由于本实施例方案不提供切割点标定,训练过程中的惩罚与奖励机制可由预训练好的短文本识别模型弱监督地提供。

由前述实施例的描述中可知,文本识别模型的训练过程中需要利用切割好的短文本图像对模型进行训练,而在切割模型的训练过程中,需要利用文本识别模型对切割出的图像进行文本识别。基于此,本实施例还提供了效率更好、效果更优的解决方案,在训练初始阶段,可以利用预先切割的多个样本切割图像训练文本识别模型,直至文本识别模型的识别能力满足设定要求后,切割模型的训练过程和文本识别模型的训练过程可以交替进行,文本识别模型在切割模型的训练过程中提供识别结果,切割模型在文本识别模型的训练过程中提供样本切割图像。在本实施例中,切割模型的训练与文本识别模型的训练交替进行,两者交替参与对方的训练过程,从而使得切割模型与文本识别模型相互提高准确度。

通过上述方式预先训练出了切割模型和文本识别模型后,即可利用这两个模型进行文本识别。如图2a所示,是本说明书实施例根据一示例性实施例示出的一种文本识别方法,包括:

在步骤202中,利用已训练的切割模型确定待识别文本图像的一个或多个切割位置。

在步骤204中,根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像。

在步骤206中,将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息。

在步骤208中,根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。

本实施例中的待识别文本图像可以是经过预处理后的图像,例如将待识别原始图像缩放为固定尺寸的图像,例如缩放为与训练阶段所采用的样本文本图像的尺寸基本相同(可以是宽度相同),或者是将占用空间较大的原始图像压缩后处理为占用空间较小的图像,或者是将图像转换为设定格式的图像,或者是将图像切割掉部分无用内容等等处理。

其中,由于待识别图像可能较长,待识别图像可以分割出多个待评估窗口,以提供给切割模型寻找多个切割位置。可选的,可以在待识别图像中按从左到右的顺序分割出多个待评估窗口,也可以按从右到左的顺序分割,还可以是从待识别图像的中间往两侧分割出待评估窗口。其中,本实施例对待识别图像分割出的多个待评估窗口的大小是否一致并不限定,各待评估窗口的大小可以相同,也可以不同。确定出的待评估窗口可以理解为待识别图像的子图像,该确定出的待评估窗口图像可以输入至切割模型,由切割模型在该待评估窗口图像中确定切割位置。根据确定的一个或多个切割位置,可将所述待识别文本图像切割为至少两个子图像。

如图2b所示,是本说明书根据一示例性实施例示出的切割示意图,切割过程示例如下:

step1:获取待识别的原始图像。可选的,对待识别的原始图像进行预处理后获得待识别文本图像。其中,预处理可以是:将图像高度调整为32像素,宽度同比放缩。其中,调整为32像素是为了与训练阶段的样本图像的高度保持一致,从而获得最优的识别效果。

step2:初始化切割位置为图像宽的256像素处,暂定为初始分割位置;如果达到图像尾部,跳至step6。可选的,实际应用中该初始切割位置可以根据需要灵活配置。

step3:以初始分割位置为中心左右扩充128像素,得到一个待评估窗口图像w。可选的,本实施例的待评估窗口的大小是256像素,与训练阶段的设定大小窗口保持一致。

step4:使用预训练好的文本切割模型,针对初始分割点调整为合适的切割位置。

step5:利用切割位置裁剪出子图像。

step6:重复step2-step5直至结束,结束条件可以是到达待识别文本图像的末尾处。

通过上述方式,待识别文本图像被切割为至少两个子图像。

接下来利用文本识别模型识别每个所述子图像对应的文本;具体的,可以是将各个子图像输入至已训练的文本识别模型,各个子图像可以按照在待识别文本图像中的顺序依次输入至已训练的文本识别模型。根据前述文本识别模型的训练过程的描述可知,所述文本识别模型可以识别出输入的子图像的语义特征信息,并结合语义特征信息上下文识别出各子图像对应的文本信息。可选的:

所述blstm在当前子图像为输入的首个子图像时,结合下一子图像的初始隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像为输入的最后一个子图像时,结合上一子图像的最终隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像不为输入的首个子图像、最后一个子图像时,结合上一子图像的最终隐状态和/或下一子图像的初始隐状态分别携带的语义特征信息识别出当前子图像对应的文本信息。

作为例子,假设待识别文本图像切割出3个子图像(顺序依次是:子图像k1、k2和k3),识别过程包括:

将子图像k1、k2和k3按照顺序输入至文本识别模型;

(1)针对子图像k1,文本识别模型识别出子图像k1的语义特征信息,由于子图像k1在待识别文本图像中是首个子图像,可选的,子图像k1所在文本识别模型可以直接识别子图像k1的语义特征信息并进一步识别其对应的文本信息。可选的,子图像k1所在文本识别模型还可以结合子图像k2的语义特征信息识别文本信息,具体的,子图像k1所在文本识别模型中blstm最后一时刻隐状态可以接收子图像k2所在识别模型的第一时刻隐状态,以将子图像k2的语义特征信息传递给子图像k1所在文本识别模型。

其中,在子图像k1所在文本识别模型中blstm最后一时刻隐状态可以传递给子图像k2所在文本识别模型中blstm第一时刻隐状态。

(2)针对子图像k2,子图像k2所在文本识别模型中blstm第一时刻隐状态可以接收到子图像k1所在文本识别模型中blstm最后时刻隐状态,从而可以获取到子图像k1的语义特征信息;可选的,子图像k2所在文本识别模型中blstm最后时刻隐状态还可以接收到子图像k3所在文本识别模型中blstm第一时刻隐状态,从而可以获取到子图像k3的语义特征信息.

基于此,子图像k2所在文本识别模型可以识别子图像k2的语义特征信息,并结合子图像k1和/或子图像k3的语义特征信息上下文,最终识别出子图像k2的文本信息。

(3)针对子图像k3,该图像处于最后位置,可选的,子图像k3所在文本识别模型可以直接识别子图像k3的语义特征信息并进一步识别其对应的文本信息;可选的,子图像k3所在文本识别模型还可以结合子图像k2的语义特征信息识别文本信息,具体的,子图像k3所在文本识别模型中blstm第一时刻隐状态可以接收子图像k2所在识别模型的最后时刻隐状态,以将子图像k2的语义特征信息传递给子图像k1所在文本识别模型。

基于此,子图像k3所在文本识别模型可以识别子图像k3的语义特征信息,并结合子图像k3的语义特征信息上下文,最终识别出子图像k3的文本信息。

实际应用中,还可以根据需要灵活配置模型中blstm接收前后子图像的语义特征信息的方式,例如,可以配置模型中blstm既接收之前子图像的语义特征信息,也接收之后子图像的语义特征信息;也可配置模型中blstm只接收之前子图像的语义特征信息,或者是配置模型中blstm只接收之后子图像的语义特征信息。

利用上述实施例,文本识别模型会分别输出子图像k1的文本信息、子图像k2的文本信息和子图像k3的文本信息;根据子图像之间的顺序,将各个文本信息进行拼接,获得待识别文本图像的识别结果。

由上述实施例可见,本实施例方法预先训练有切割模型,由切割模型获得待识别文本图像的切割位置,从而可以对待识别文本图像切割得到大小合适的子图像,并可防止图像中的文本被不完整切割;由于将图像切割了多个子图像,为了防止上下文信息丢失,已训练的文本识别模型可以识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出各子图像对应的文本信息,进而可识别所述待识别文本图像。

与前述文本识别方法的实施例相对应,本说明书还提供了文本识别装置及其所应用的设备的实施例。

本说明书文本识别装置的实施例可以应用在计算机设备上,例如服务器或终端设备。装置实施例可以通过软件实现,也可以通过硬件或者软硬件结合的方式实现。以软件实现为例,作为一个逻辑意义上的装置,是通过其所在文件处理的处理器将非易失性存储器中对应的计算机程序指令读取到内存中运行形成的。从硬件层面而言,如图3所示,为本说明书文本识别装置所在计算机设备的一种硬件结构图,除了图3所示的处理器310、内存330、网络接口320、以及非易失性存储器340之外,实施例中装置331所在的服务器或电子设备,通常根据该计算机设备的实际功能,还可以包括其他硬件,对此不再赘述。

如图4所示,图4是本说明书根据一示例性实施例示出的一种文本识别装置的框图,所述装置包括:

位置确定模块41,用于:利用已训练的切割模型确定待识别文本图像的一个或多个切割位置;

切割模块42,用于:根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像;

输入模块43,用于:将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息;

识别模块44,用于:根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。

可选的,所述文本识别模型中包括:双向长短时记忆网络blstm;

所述blstm在当前子图像为输入的首个子图像时,结合下一子图像的初始隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像为输入的最后一个子图像时,结合上一子图像的最终隐状态携带的语义特征信息识别出当前子图像对应的文本信息;

所述blstm在当前子图像不为输入的首个子图像、最后一个子图像时,结合上一子图像的最终隐状态和/或下一子图像的初始隐状态分别携带的语义特征信息识别出当前子图像对应的文本信息。

可选的,所述识别模块,还用于:

按照所述各子图像在所述待识别文本图像中的排列顺序,将各子图像对应的文本信息进行拼接,根据拼接结果确定所述待识别文本图像对应的文本。

可选的,所述切割模型通过如下方式训练得到:

配置增强学习算法的如下输入参数:环境、动作空间、状态空间和奖励,利用配置好参数的增强学习算法训练得到所述切割模型;其中,

所述环境包括:样本单行文本图像,所述样本单行文本图像标注有对应文本;

所述动作空间包括:对所述样本单行文本图像中设定大小窗口内的切割动作;

所述状态空间包括:所述样本单行文本图像被切割之后得到的两个样本子图像;

所述奖励基于拼接结果是否匹配所述样本单行文本图像的标注文本而确定;所述拼接结果利用文本识别模型分别对两个所述样本子图像的识别结果拼接得到。

所述利用已训练的切割模型确定待识别文本图像的一个或多个切割位置,包括:

从所述待识别文本图像中获取待评估窗口图像,将所述待评估窗口图像输入至所述切割模型中,由所述切割模型在所述待评估窗口图像中获取切割位置;其中,所述待评估窗口图像的大小与所述设定大小窗口的大小相匹配。

可选的,利用预先切割的多个样本切割图像训练文本识别模型,直至文本识别模型的识别能力满足设定要求后,切割模型的训练过程和文本识别模型的训练过程交替进行;

其中,文本识别模型在切割模型的训练过程中提供识别结果,切割模型在文本识别模型的训练过程中提供样本切割图像。

相应地,本实施例还提供一种文本识别设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:

利用已训练的切割模型确定待识别文本图像的一个或多个切割位置;

根据所述一个或多个切割位置,将所述待识别文本图像切割为至少两个子图像;

将各个子图像输入至已训练的文本识别模型,由所述文本识别模型识别输入的子图像的语义特征信息,并结合语义特征信息上下文识别出子图像对应的文本信息;

根据识别出的各子图像对应的文本信息,识别所述待识别文本图像。

上述文本识别装置中各个模块的功能和作用的实现过程具体详见上述文本识别方法中对应步骤的实现过程,在此不再赘述。

对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的模块可以是或者也可以不是物理上分开的,作为模块显示的部件可以是或者也可以不是物理模块,即可以位于一个地方,或者也可以分布到多个网络模块上。可以根据实际的需要选择其中的部分或者全部模块来实现本说明书方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。

本领域技术人员在考虑说明书及实践这里申请的发明后,将容易想到本说明书的其它实施方案。本说明书旨在涵盖本说明书的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本说明书的一般性原理并包括本说明书未申请的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本说明书的真正范围和精神由下面的权利要求指出。

应当理解的是,本说明书并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本说明书的范围仅由所附的权利要求来限制。

以上所述仅为本说明书的较佳实施例而已,并不用以限制本说明书,凡在本说明书的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本说明书保护的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1