本说明书属于互联网技术领域,尤其涉及目标语言的文本数据的识别方法、装置和服务器。
背景技术:
在国际化的数据交互中,有时需要对包含有例如泰语、越南语等小语种语言的文本数据的图片进行识别,以提取出图片中相应语言的文本数据进行后续的数据处理。
目前,亟需一种能够准确地识别并提取出图片中所包含的例如泰语、越南语等小语种语言的文本数据的方法。
技术实现要素:
本说明书提供了一种目标语言的文本数据的识别方法、装置和服务器,以能够从目标场景下的目标图片中准确地识别并提取出所包含的目标语言的文本数据。
本说明书提供的一种目标语言的文本数据的识别方法、装置和服务器是这样实现的:
一种目标语言的文本数据的识别方法,包括:获取目标场景中包含有目标语言的文本数据的目标图片;调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
一种目标语言处理模型的训练方法,包括:生成目标语言语句;根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据;预设的目标语言处理模型。
一种图片训练数据的生成方法,包括:生成目标语言语句;根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。
一种目标语言的文本数据的识别装置,包括:获取模块,用于获取目标场景中包含有目标语言的文本数据的目标图片;处理模块,用于调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器执行所述指令时实现获取目标场景中包含有目标语言的文本数据的目标图片;调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
本说明书提供的一种目标语言的文本数据的识别方法、装置和服务器,具体实施前,可以预先利用包含有与目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到学习了与目标场景、目标语言相关的干扰特点,准确度较高的预设的目标语言处理模型;具体实施时,可以通过调用上述预设的目标语言处理模型处理所获取的目标场景中包含有目标语言的文本数据的目标图片,以准确、高效地从该目标图片中识别并提取出所需要的目标语言的文本数据。从而提高了目标语言的文本数据的识别提取精度,能够从目标场景下的目标图片中准确地识别并提取出所包含的诸如泰语、越南语等小语种语言的文本数据。
附图说明
为了更清楚地说明本说明书实施例,下面将对实施例中所需要使用的附图作简单地介绍,下面描述中的附图仅仅是本说明书中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是应用本说明书实施例提供的目标语言的文本数据的识别方法的系统结构组成的一个实施例的示意图;
图2是本说明书的一个实施例提供的目标语言的文本数据的识别方法的流程示意图;
图3是在一个场景示例中,应用本说明书实施例提供的目标语言的文本数据的识别方法的一种实施例的示意图;
图4是在一个场景示例中,应用本说明书实施例提供的目标语言的文本数据的识别方法的一种实施例的示意图;
图5是在一个场景示例中,应用本说明书实施例提供的目标语言的文本数据的识别方法的一种实施例的示意图;
图6是本说明书的一个实施例提供的目标语言处理模型的训练方法的流程示意图;
图7是本说明书的一个实施例提供的服务器的结构组成示意图;
图8是本说明书的一个实施例提供的目标语言的文本数据的识别装置的结构组成示意图。
具体实施方式
为了使本技术领域的人员更好地理解本说明书中的技术方案,下面将结合本说明书实施例中的附图,对本说明书实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本说明书一部分实施例,而不是全部的实施例。基于本说明书中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都应当属于本说明书保护的范围。
本说明书实施例提供一种目标语言的文本数据的识别方法,所述目标语言的文本数据的识别方法具体可以应用于包含有服务器和终端的系统架构中。可以参阅图1所示。终端和服务器可以通过有线或无线的方式相连,以进行具体的数据交互。
具体的,终端可以接收用户输入的目标场景中的包含有目标语言的文本数据的目标图片。终端将所述目标图片生成目标图片的数据处理请求,并将携带有目标图片的数据处理请求发送至服务器。
服务器接收并响应该数据处理请求,调用预设的目标语言处理模型处理该目标图片,以通过对目标图片的识别提取,获取目标图片中的目标语言的文本数据。其中,所述预设的目标语言处理模型包括预先利用包含有目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
在本实施例中,所述服务器具体可以包括一种应用于数据处理平台一侧,能够实现数据传输、数据处理等功能的后台服务器。具体的,所述服务器例如可以为一个具有数据运算、存储功能以及网络交互功能的电子设备。或者,所述服务器也可以为运行于该电子设备中,为数据处理、存储和网络交互提供支持的软件程序。在本实施例中,并不具体限定所述服务器所包含的服务器的数量。所述服务器具体可以为一个服务器,也可以为几个服务器,或者,由若干服务器形成的服务器集群。
在本实施例中,所述终端具体可以包括一种应用于用户一侧,能够实现数据采集、数据传输等功能的前端电子设备。具体的,所述终端例如可以为台式电脑、平板电脑、笔记本电脑、智能手机等。或者,所述终端也可以为能够运行于上述电子设备中的软件应用。例如,可以是在智能手机上运行的某app等。
例如,在线上身份验证场景中。用户可以使用手机作为终端,根据手机所展示的身份验证界面中的提示信息,拍摄使用目标语言的目标证件(例如,身份证、护照等)的证件照片,并将该证件照片作为目标图片发送至负责线上身份验证的服务器。
相应的,服务器可以接收用户通过手机发送的证件照片。并调用预设的目标语言处理模型对该证件照片进行ocr处理,以从证件照片中识别并提取出使用目标语言描述的诸如该用户的证件号、姓名、国籍等身份信息的文本数据。
进一步,服务器可以查询线上的用户数据库,获取该用户之前注册时所输入并保存在用户数据库中的用户数据,并利用上述用户数据和所识别提取出的文本数据进行数据比对,得到对应的比对结果。
服务器根据比对结果,如果确定两种数据的差异值小于或等于预设的差异阈值,则可以确定该用户身份验证通过,并向用户所使用过的手机反馈身份验证通过的提示信息。
相对的,根据比对结果,如果确定两种数据的差异值大于预设的差异阈值,则可以确定该用户身份验证未通过,并向用户所使用的手机反馈身份验证未通过的提示信息。
参阅图2所示,本说明书实施例提供了一种目标语言的文本数据的识别方法,其中,该方法具体应用于服务器一侧。具体实施时,该方法可以包括以下内容。
s201:获取目标场景中包含有目标语言的文本数据的目标图片。
在一些实施例中,上述目标语言具体可以理解为一种区别于使用较为普遍的语言(例如,英语、汉语等),是一种使用人数相对较少、使用区域相对较有限的小语种语言。
具体的,上述目标语言可以是泰语,也可以是越南语,还可以是缅甸语等。
在一些实施例中,所述目标图片具体可以理解为一种与目标场景相关的,包含有待识别提取的目标语言的文本数据的图片数据。
在一些实施例中,所述目标场景具体可以包括:线上身份信息验证场景、购物网站商品详情页面的内容翻译场景、照片中的文本数据提取场景等等。
具体的,以线上身份验证场景为例。用户可以根据指示,通过终端拍摄使用目标语言的身份证(或者其他可以指示用户的身份的证件)的照片,并向服务器发送上述身份证照片。
相应的,服务器可以接收用户通过终端发送的身份证照片作为目标图片。后续,服务器可以通过对该目标图片进行相应处理,识别并提取出该图片中使用目标语言描述的用户的身份信息数据(例如,用户的身份证号、用户的姓名等)的文本数据;再利用上述文本数据,与用户数据库中所保存的对应该用户的用户数据进行比对,实现对该用户的线上身份验证。
以购物网站商品详情页面的内容翻译场景为例。通常在使用目标语言的目标区域中,购物网站的商品详情页面大多是使用当地普遍使用的目标语言来描述该页面所展示商品的内容详情的。不懂目标语言的用户(例如,来自使用其他语言的其他区域,在目标区域旅行的游客等)在使用终端浏览目标区域的购物网站时,无法理解购物网站的上述页面所描述的内容详情。这时,用户所使用的终端可以响应用户的指示,通过截屏获取当前页面的页面截图,并将该页面截图发送给服务器。
相应的,服务器可以接收用户通过终端发送的页面截图作为目标图片。后续,服务器可以通过对该目标截图进行相应处理,识别提取出该图片中使用目标语言描述的商品的内容详情的文本数据;再利翻译模型对上述文本数据进行翻译,得到翻译后的文本数据;进而服务可以将翻译后的文本数据反馈给终端设备。
这样终端设备可以在该页面上展示出翻译后的文本数据,以便用户可以理解为页面所描述的商品的内容详情。
当然,需要说明的是,上述所列举的应用场景只是一种示意性说明。具体实施时,根据具体情况和处理需求,上述目标场景还可以包括其他类型的应用场景。对此,本说明书不作限定。
s202:调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
在一些实施例中,上述预设的目标语言处理模型具体可以理解为一种预先利用包含有与目标场景和/或目标语言相关的干扰因素的图片训练数据训练好的ocr(opticalcharacterrecognition,光学字符识别)模型。基于该模型,可以从目标图片中识别并提取出目标场景中使用目标语言描述的那部分文本数据。
在一些实施例中,对应不同的目标场景,上述与目标场景相关的干扰因素可以包括不同类型的干扰因素。
具体的,例如,在目标场景为线上身份信息验证场景的情况下,参阅图3所示,上述与目标场景相关的干扰因素可以包括:身份证外套设的覆膜(例如塑料外套)所形成的印记(例如,覆膜本身的纹路、覆膜反射所形成的光点图案等)、身份证上的背景图案等等。此外,与上述目标场景相关的干扰因素进一步还可以包括身份证上的水印信息、身份证上的照片图案等其他会对文本数据的识别提取产生干扰和影响的数据。
又例如,在目标场景为购物网站商品详情页面的内容翻译场景的情况下,上述与目标场景相关的干扰因素可以包括:页面的背景底色、页面的背景图案、悬浮于页面的图标等等。
通常当模型对包含有上述与目标场景相关的干扰因素的目标图片进行识别处理时,很容易将目标图片中的上述干扰因素错误地识别成目标语言字符,导致所识别提取出的目标文本数据存在误差。
在一些实施例中,对应不同的目标语言,上述与目标语言相关的干扰因素也可以包括不同类型的干扰因素。
具体的,以目标语言为泰语为例。可以参阅图4所示。泰语的文字字符的结构往往比较复杂。例如,对于一个泰语的文字字符,可能会在字符的上方设置有字符标记(例如,声调标记),也可能会在字符下方设置有字符标记(例如,元音字符自带的字符标记)等。并且,不同的字符标记往往又会对泰语的语义理解形成较大的影响。
通常当模型对包含有沿竖直方向排列的多行泰语语句的目标图片中某一行(记为当前行)泰语语句进行识别处理时,可以参阅图4所示,很容易会将位于与当前行相邻的上一行的泰语语句中字符的下方位置的字符标记,和/或,位于与当前行相邻的下一行的泰语语句中的字符上方位置的字符标记,错误地识别为当前行的泰语语句的字符标记,导致识别提取出的泰语的文本数据存在误差。
在本实施例中,由于所使用的预设的目标语言处理模型是利用包含有与目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。因此,基于该模型在处理目标场景中的目标图片时,能够有效地减少基于目标场景的干扰因素,和/或,基于目标语言的干扰因素所导致的误差,从而能够更加准确地从目标图片中识别并提取出目标语言的文本数据。
在一些实施例中,具体实施时,服务器在接收到上述目标图片后,可以触发调用预设的目标语言处理模型来处理所述目标图片。具体的,服务器可以将目标图片作为一种模型输入,输入至预设的目标语言处理模型中,并运行该预设的目标语言处理模型,得到对应的模型输出。再根据模型输出,获取从目标图片中识别并提取出目标语言的文本数据。
进一步,服务器可以利用上述目标语言的文本数据进行相关的数据处理。
具体的,例如,在线上身份信息验证场景中,服务器可以通过利用从身份证照片中获取的目标语言的文本数据,和用户数据库中所保存的用户数据进行比对,来对用户进行身份验证。
又例如,在购物网站商品详情页面的内容翻译场景中,服务器可以通过对从页面截图中获取的目标语言的文本数据进行翻译处理,得到翻译后的文本数据;并将翻译后的文本数据反馈给用户,以便用户可以理解当前页面所展示的商品内容详情等。
由上可见,本说明书实施例提供的目标语言的文本数据的识别方法,通过调用预先利用包含有与目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的预设的目标语言处理模型来处理所获取的目标场景中包含有目标语言的文本数据的目标图片,从而可以准确地从目标图片中识别提取出目标语言的文本数据,减少了处理误差,提高了目标语言的文本数据的识别精度。
在一些实施例中,由于目标语言大多属于小语种语言,使用的人数相对较少、使用的范围相对有限,导致所能搜集到的用于训练预设的目标语言处理模型的语料数据(或者称训练数据)相对较少,进而影响训练得到的预设的目标语言处理模型的模型精度。
在本实施例中,可以通过服务器先生成文本数据形式的目标语言语句,再基于该目标语言语句合成构建出包含有与所述目标场景和/或目标语言相关的干扰因素的图片,作为用于模型训练的图片训练数据,从而可以有效地扩充用于训练预设的目标语言处理模型的图片训练数据,进而可以利用上述更加丰富的图片训练数据训练得到模型精度相对较高的预设的目标语言处理模型。
在一些实施例中,所述预设的目标语言处理模型具体可以按照以下方式训练得到:生成目标语言语句;根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据;利用所述图片训练数据训练初始模型,得到所述预设的目标语言处理模型。
通过上述实施例,可以先自动生成文本数据形式的目标语言语句,再基于上述目标语言语句构建得到图片形式的图片训练数据,从而可以有效地扩充用于模型训练的图片训练数据;进而可以利用上述丰富的图片训练数据训练得到效果相对更好、准确度相对更高的预设的目标语言处理模型。
在一些实施例中,所述生成目标语言语句,具体实施时,可以包括以下内容:确定起始的目标语言字符;调用预设的目标语言语句生成模型根据所述起始的目标语言字符,预测出衔接的目标语言字符、结束的目标语言字符;其中,所述预设的目标语言语句生成模型用于预测语句中与所输入的目标语言字符相连接的下一个目标语言字符;拼接所述起始的目标语言字符、所述衔接的目标语言字符、所述结束的目标语言字符,得到所述目标语言语句。
在一些实施例中,上述目标语言语句具体可以理解为一种使用目标语言的文本形式的句子或短语。
具体的,上述目标语言语句可以包括句法结构完整的句子。上述目标语言语句也可以包括口语上允许存在部分结构省略,但不影响整体语义的句法结构不完整的句子或短语。
在一些实施例中,上述起始的目标语言字符具体可以理解为目标语言语句中的第一个目标语言字符。上述结束的目标语言字符具体可以理解为目标语言语句中的最后一个目标语言字符。上述衔接的目标语言字符具体可以理解为目标语言语句中的连接于上一个字符的目标语言字符。
在一些实施例中,上述确定起始的目标语言字符,具体实施时,可以包括以下内容:获取与目标场景相关的历史文本数据;其中,所述历史文本数据包括多个历史目标语言语句;对所述历史文本数据中的历史目标语言语句的首字符进行统计,得到首字符的出现频率;根据所述首字符的出现频率,确定出起始的目标语言字符。
在本实施例中,通过上述方式可以根据首字符的出现频率,更偏向于选中并使用目标场景中出现频率较高的首字符作为目标语言语句的起始的目标语言字符。基于上述起始的目标语言字符,后续可以生成能够更好地匹配模拟的目标场景、目标场景中使用较为频繁的语句的作为目标语言语句。
在一些实施例中,在具体根据起始的目标语言字符生成目标语言语句时,可以利用预先训练好的目标语言语句生模型,根据该起始的目标语言字符,预测出与该起始的目标语言字符相连接的下一个目标语言字符(即,目标语言字符的衔接字符,记为第二字符)。再利用该目标语言语句生成模型,根据第二字符,预测出与该第二字符相连接的下一个目标语言字符(即,第二字符的衔接字符,记为第三字符)。按照上述方式,以此类推。在利用该目标语言语句生成模型,根据第n个字符,预测与该第n个字符相连接的下一个目标语言字符时,没有找到合适的衔接字符时,可以将上述第n个字符确定为解释的目标语言字符。
其中,上述预设的目标语言语句生成模型具体可以理解为一种预先利用大量与目标场景相关的且使用目标语言的历史文本数据进行训练学习后得到的,能够预测语句中不同目标语言字符之间的衔接概率的模型。
在一些实施例中,上述预设的目标语言语句生成模型具体可以按照以下方式训练得到的:获取与目标场景相关的历史文本数据;从所述历史文本数据中拆分出多个历史目标语言语句和历史目标语言词语;利用所述多个历史目标语言语句和历史目标语言词语进行模型训练,以得到预设的目标语言语句生成模型。
通过上述方式进行模型训练,可以使得模型学会在目标场景下所使用的目标语言语句中目标语言字符的组合使用规则。进而后续具体运行该模型时,可以根据上述组合使用规则,预测出各个目标语言字符与当前输入该模型的目标语言字符的衔接概率;再筛选出衔接概率大于预设的概率阈值的目标语言字符作为针对当前输入该模型的目标语言字符的衔接的目标语言字符,进行输出。
在一些实施例中,可以根据起始的目标语言字符、衔接的目标语言字符、结束的目标语言字符的标识信息按照顺序进行排列和拼接处理,从而可以得到目标语言语句。
通过上述实施例,可以不需要依赖目标语言的文本数据的语料,重新生成大量与目标场景相匹配的目标语言语句。
在一些实施例中,具体实施时,还可以获取目标语言的文本数据的语料库;再从所述目标语言的文本数据的语料库中检索出与目标场景相关的文本形式的句子或短语,作为上述目标语言语句。从而可以相对较快速地得到所需要的目标语言语句。
在一些实施例中,与所述目标语言相关的干扰因素具体可以包括:位于相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于相邻的下一行的目标语言语句中目标语言字符上方的字符标记。
具体的,以泰语为例,泰语的文字字符的结构往往比较复杂。例如,对于一个泰语的文字字符,可能会在字符的上方设置有字符标记,也可能会在字符下方设置有字符标记等。具体的,上述字符标记可以包括:声调标记、元音自带的字符标记、辅音自带的字符标记等不同类型不同含义的标记。并且,不同的字符标记往往又会对泰语的语义理解形成较大的影响。
通常当模型对包含有沿竖直方向排列的多行泰语语句的目标图片中某一行(记为当前行)泰语语句进行识别处理时,很容易会将位于与当前行相邻的上一行的泰语语句中字符的下方位置的字符标记,和/或,位于与当前行相邻的下一行的泰语语句中的字符上方位置的字符标记,错误地识别为当前行的泰语语句的字符标记,导致识别提取出的泰语的文本数据存在误差。
为了能够有效地避免上述误差,在本实施例中,可以构建并利用包含有与所述目标语言相关的干扰因素的图片作为图片训练数据,来训练模型。这样训练得到的模型在识别提取目标图片中文本数据的过程中,能够有效剔除例如位于相邻的上一行的目标语言语句中目标语言字符下方的字符标记,或,位于相邻的下一行的目标语言语句中目标语言字符上方的字符标记等与目标语言相关的干扰因素对当前真正要识别提取的当前行的目标语言语句的干扰和影响,从而可以较为精准地识别提取出相应的目标语言语句。
在一些实施例中,上述根据所述目标语言语句,构建包含有与所述目标语言相关的干扰因素的图片训练数据,具体实施时,可以包括以下内容:根据预设的处理规则,将多个目标语言语句按照竖直方向排列;调用预设的渲染工具,生成包含有按照竖直方向排列的多行目标语言语句的第一图片;根据预设的截取规则,从所述第一图片中截取出分别包含有所述按照竖直方向排列的多行目标语言语句中的各行目标语言语句的截图,作为包含有与所述目标语言相关的干扰因素的图片训练数据;其中,所述截图包含有位于与所述截图所对应的当前行的目标语言语句相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于与所述截图所对应的当前行的目标语言语句相邻的下一行的目标语言语句中目标语言字符上方的字符标记。
具体的,参阅图5所示,以截取包含有第一图片中当前行的目标语言语句的截图(简记为当前行的截图)为例。根据预设的截取规则,可以从第一图片中截取包含有完整的当前行的目标语言语句,以及与当前行相邻的上一行语句中的位于字符下方的部分或全部字符标记,和/或,与当前行相邻的下一行语句中的位于字符上方的部分或全部字符标记的截图,作为当前行的截图。并将上述当前行的截图确定为一个包含有当前行的目标语言语句的图片训练数据。
在本实施例中,上述预设的渲染工具具体可以理解为一种用于将文本形式的文本数据渲染生成对应的图片形式的图片数据的应用程序。
在一些实施例中,与所述目标场景相关的干扰因素具体可以包括以下至少之一:水印信息、覆膜印记、背景图案等。当然,需要说明的是,上述所列举的与目标场景相关的干扰因素只是一种示意性说明。具体实施时,根据具体的应用场景和处理需求,上述与目标场景相关的干扰因素还可以包括其他类型的干扰因素。对此,本说明书不作限定。
通常当模型对包含有上述与目标场景相关的干扰因素的目标图片进行识别处理时,很容易将目标图片中的上述干扰因素错误地识别成目标语言字符,导致所识别提取出的目标文本数据存在误差。
为了能够有效地避免上述误差,在本实施例中,可以构建并利用包含有与所述目标场景相关的干扰因素的图片作为图片训练数据,来训练模型。这样训练得到的模型在识别提取目标图片中文本数据的过程中,能够有效剔除目标图片中所夹杂的例如水印信息、覆膜印记等等与目标场景相关的干扰因素对识别提取目标语言语句的干扰和影响,从而可以更为精准地识别提取出相应的目标语言语句。
在一些实施例中,上述根据所述目标语言语句,构建包含有与所述目标场景相关的干扰因素的图片训练数据,具体实施时,可以包括以下内容:根据目标场景,确定出与所述目标场景相关的干扰因素;根据与所述目标场景相关的干扰因素,生成与目标场景匹配的前景图和/或背景图;利用所述前景图和/或背景图,与图片训练数据进行组合,得到包含有与所述目标场景相关的干扰因素的图片训练数据。
在一些实施例中,考虑到在一些目标场景中还会出现手写体的目标语言的文本数据。例如,在线下的零售店铺中,商家可能会使用手写体的招牌或广告。进一步,又考虑到对于诸如泰语、越南语等目标语言,字符结构本身就比较复杂,而手写体的相对会更加复杂。为了能够训练得到可以更加精准地识别提取出目标图片中的目标文本数据的模型,在模型训练时,还可以引入并使用包含有手写体的目标语言语句的图片作为一种图片训练数据来参与模型的训练。
在一些实施例中,在根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据之后,所述方法具体实施时,还可以包括:根据图片训练数据中的目标语言语句,生成手写体的目标语言语句;根据所述手写体的目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。
在本实施例中,具体实施前,可以先获取大量目标场景中的手写体的文本数据,并根据上述手写体的文本数据,确定出对应各个目标语言字符的手写体版本。具体实施时,可以根据图片训练数据中的目标语言语句所包含的各个目标语言字符,找出对应的手写体版本的字符进行相应替换,从而可以得到手写体的目标语言语句。
进一步,可以根据上述手写体的目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。再将上述包含有手写体的目标语言语句的图片训练数据,与包含有非手写体的目标语言语句的图片训练混合在一起,并利用上述混合在一起的图片训练数据进行模型训练,从而可以训练得到能够较为精确地从目标图片中识别提取出手写体的目标语言的文本数据,以及非手写体的目标语言的文本数据的目标语言处理模型。
在一些实施例中,在按照上述方式构建得到较为丰富的图片训练数据之后,可以利用上述图片训练数据通过训练初始模型,来得到预设的目标语言处理模型。
在一些实施例中,上述初始模型具体可以包括基于crnn框架的神经网络模型。其中,上述crnn具体可以理解为一种同时综合了cnn(convolutionalneuralnetworks,卷积神经网络)的网络结构、rnn(recurrentneuralnetworks,循环神经网络)的网络结构,以及ctc(connectionisttemporalclassification,基于神经网络的时序类分类器)的网络结构的神经网络结构。
具体的,所使用的上述基于crnn框架的初始模型可以包括3个网络层,分别为第一网络层、第二网络层和第三网络层。其中,第一网络层(例如,convolutionallayers)用于从输入模型的图片中提取出各个字符的图像特征。第二网络层(例如,recurrentlayers)用于根据输入的各个字符的图像特征,通过分析相邻的两个字符之间的时序关系,确定出相应的时序序列特征。第三网络层(例如,transcriptionlayer)用于根据输入的时序序列特征,通过映射的方式,翻译出所对应的文本数据。
在本实施例中,可以使用上述基于crnn框架的初始模型,基于深度学习的方式学习包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据,以训练得到预设的目标语言处理模型。这样训练得到的预设的目标语言处理模型在ocr识别上具有更好的鲁棒性,模型精度相对更高。
在一些实施例中,所述目标场景具体可以包括以下至少之一:线上身份信息验证场景、购物网站商品详情页面的内容翻译场景、照片中的文本数据提取场景等。
在一些实施例中,在所述目标场景包括线上身份信息验证场景的情况下,所述目标图片具体可以包括用户的身份证照片,所获取的文本数据包括用户身份信息数据。其中,上述身份证具体可以是使用目标语言的身份证。上述用户身份信息数据具体可以包括从所述用户的身份证照片中识别提取出使用目标语言描述的用户的姓名、身份证号等信息。
在一些实施例中,在获取所述目标图片中的目标语言的文本数据之后,所述方法具体实施时,还可以包括以下内容:通过比较所述文本数据、和相应的用户数据库中所保存用户数据,对用户进行身份验证。
由上可见,本说明书实施例提供的目标语言的文本数据的识别方法,基于该方法,具体实施前,可以预先利用包含有与目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到学习了与目标场景、目标语言相关的干扰特点,且准确度较高的预设的目标语言处理模型;具体实施时,可以通过调用上述预设的目标语言处理模型处理所获取的目标场景中包含有目标语言的文本数据的目标图片,以从该目标图片中识别提取出目标语言的文本数据。从而提高了目标语言的文本数据的识别精度,能够从目标场景下的目标图片中准确地识别并提取出所包含的诸如泰语、越南语等小语种语言的文本数据。
参阅图6所示,本说明书实施例还提供了目标语言处理模型的训练方法。其中,该方法具体实施时,可以包括以下内容。
s601:生成目标语言语句。
s602:根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。
s603:利用所述图片训练数据训练初始模型,得到预设的目标语言处理模型。
在本实施例中,上述目标语言具体可以是泰语、越南语、缅甸语等小语种语言。
通过上述实施例可以先自行生成考虑了目标场景、目标语言的干扰因素的图片训练数据,进而可以利用上述图片训练数据训练得到效果较好、精度较高的适用于目标场景中的图片的目标语言文本数据识别提取的预设的目标语言处理模型。
在一些实施例中,所述生成目标语言语句,具体实施时,可以包括以下内容:确定起始的目标语言字符;调用预设的目标语言语句生成模型根据所述起始的目标语言字符,预测出衔接的目标语言字符、结束的目标语言字符;其中,所述预设的目标语言语句生成模型用于预测语句中与所输入的目标语言字符相连接的下一个目标语言字符;拼接所述起始的目标语言字符、所述衔接的目标语言字符、所述结束的目标语言字符,得到所述目标语言语句。
在一些实施例中,上述与所述目标语言相关的干扰因素具体可以包括:位于相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于相邻的下一行的目标语言语句中目标语言字符上方的字符标记等。
在一些实施例中,上述根据所述目标语言语句,构建包含有与所述目标语言相关的干扰因素的图片训练数据,具体实施时,可以包括以下内容:将多个目标语言语句按照竖直方向排列;调用预设的渲染工具,生成包含有按照竖直方向排列的多行目标语言语句的第一图片;根据预设的截取规则,从所述第一图片中截取出分别包含有所述按照竖直方向排列的多行目标语言语句中的各行目标语言语句的截图,作为包含有与所述目标语言相关的干扰因素的图片训练数据;其中,所述截图包含有位于与所述截图所对应的当前行的目标语言语句相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于与所述截图所对应的当前行的目标语言语句相邻的下一行的目标语言语句中目标语言字符上方的字符标记。
本说明书实施例还提供了一种图片训练数据的生成方法,以扩充用于模型训练的图片训练数据。该方法具体实施时,可以包括以下内容。
s1:生成目标语言语句。
s2:根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。
通过上述实施例,在进行与例如泰语、越南语等小语种语言相关的数据建模时,可以自行生成获得大量丰富,且贴合具体的目标场景,训练效果较好的图片训练数据,从而可以有效地解决小语种语言受限于使用人数、使用范围,导致所能搜集的训练数据有线,影响数据建模的问题。
在一些实施例中,所述生成目标语言语句,具体实施时,可以包括:确定起始的目标语言字符;调用预设的目标语言语句生成模型根据所述起始的目标语言字符,预测出衔接的目标语言字符、结束的目标语言字符;其中,所述预设的目标语言语句生成模型用于预测语句中与所输入的目标语言字符相连接的下一个目标语言字符;拼接所述起始的目标语言字符、所述衔接的目标语言字符、所述结束的目标语言字符,得到所述目标语言语句。
在一些实施例中,与所述目标语言相关的干扰因素具体可以包括:位于相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于相邻的下一行的目标语言语句中目标语言字符上方的字符标记等。
在一些实施例中,上述根据所述目标语言语句,构建包含有与所述目标语言相关的干扰因素的图片训练数据,具体实施时,可以包括:将多个目标语言语句按照竖直方向排列;调用预设的渲染工具,生成包含有按照竖直方向排列的多行目标语言语句的第一图片;根据预设的截取规则,从所述第一图片中截取出分别包含有所述按照竖直方向排列的多行目标语言语句中的各行目标语言语句的截图,作为包含有与所述目标语言相关的干扰因素的图片训练数据;其中,所述截图包含有位于与所述截图所对应的当前行的目标语言语句相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于与所述截图所对应的当前行的目标语言语句相邻的下一行的目标语言语句中目标语言字符上方的字符标记。
本说明书实施例还提供一种服务器,包括处理器以及用于存储处理器可执行指令的存储器,所述处理器具体实施时可以根据指令执行以下步骤:获取目标场景中包含有目标语言的文本数据的目标图片;调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
为了能够更加准确地完成上述指令,参阅图7所示,本说明书实施例还提供了另一种具体的服务器,其中,所述服务器包括网络通信端口701、处理器702以及存储器703,上述结构通过内部线缆相连,以便各个结构可以进行具体的数据交互。
其中,所述网络通信端口701,具体可以用于获取目标场景中包含有目标语言的文本数据的目标图片。
所述处理器702,具体可以用于调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
所述存储器703,具体可以用于存储相应的指令程序。
在本实施例中,所述网络通信端口701可以是与不同的通信协议进行绑定,从而可以发送或接收不同数据的虚拟端口。例如,所述网络通信端口可以是负责进行web数据通信的端口,也可以是负责进行ftp数据通信的端口,还可以是负责进行邮件数据通信的端口。此外,所述网络通信端口还可以是实体的通信接口或者通信芯片。例如,其可以为无线移动网络通信芯片,如gsm、cdma等;其还可以为wifi芯片;其还可以为蓝牙芯片。
在本实施例中,所述处理器702可以按任何适当的方式实现。例如,处理器可以采取例如微处理器或处理器以及存储可由该(微)处理器执行的计算机可读程序代码(例如软件或固件)的计算机可读介质、逻辑门、开关、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程逻辑控制器和嵌入微控制器的形式等等。本说明书并不作限定。
在本实施例中,所述存储器703可以包括多个层次,在数字系统中,只要能保存二进制数据的都可以是存储器;在集成电路中,一个没有实物形式的具有存储功能的电路也叫存储器,如ram、fifo等;在系统中,具有实物形式的存储设备也叫存储器,如内存条、tf卡等。
本说明书实施例还提供了一种基于上述目标语言的文本数据的识别方法的计算机存储介质,所述计算机存储介质存储有计算机程序指令,在所述计算机程序指令被执行时实现:获取目标场景中包含有目标语言的文本数据的目标图片;调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
在本实施例中,上述存储介质包括但不限于随机存取存储器(randomaccessmemory,ram)、只读存储器(read-onlymemory,rom)、缓存(cache)、硬盘(harddiskdrive,hdd)或者存储卡(memorycard)。所述存储器可以用于存储计算机程序指令。网络通信单元可以是依照通信协议规定的标准设置的,用于进行网络连接通信的接口。
在本实施例中,该计算机存储介质存储的程序指令具体实现的功能和效果,可以与其它实施方式对照解释,在此不再赘述。
参阅图8所示,在软件层面上,本说明书实施例还提供了一种目标语言的文本数据的识别装置,该装置具体可以包括以下的结构模块。
获取模块801,具体可以用于获取目标场景中包含有目标语言的文本数据的目标图片。
处理模块802,具体可以用于调用预设的目标语言处理模型处理所述目标图片,以获取所述目标图片中的目标语言的文本数据;其中,所述预设的目标语言处理模型包括预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的模型。
在一些实施例中,所述目标语言具体可以包括以下至少之一:泰语、越南语、缅甸语等。
在一些实施例中,所述装置具体还可以包括训练模块,用于按照以下方式训练得到预设的目标语言处理模型:生成目标语言语句;根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据;利用所述图片训练数据训练初始模型,得到所述预设的目标语言处理模型。
在一些实施例中,所述训练模块具体可以按照以下方式生成目标语言语句:确定起始的目标语言字符;调用预设的目标语言语句生成模型根据所述起始的目标语言字符,预测出衔接的目标语言字符、结束的目标语言字符;其中,所述预设的目标语言语句生成模型用于预测语句中与所输入的目标语言字符相连接的下一个目标语言字符;拼接所述起始的目标语言字符、所述衔接的目标语言字符、所述结束的目标语言字符,得到所述目标语言语句。
在一些实施例中,所述训练模块具体可以按照以下方式确定起始的目标语言字符:获取与目标场景相关的历史文本数据;其中,所述历史文本数据包括多个历史目标语言语句;对所述历史文本数据中的历史目标语言语句的首字符进行统计,得到首字符的出现频率;根据所述首字符的出现频率,确定出起始的目标语言字符。
在一些实施例中,与所述目标语言相关的干扰因素具体可以包括:位于相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于相邻的下一行的目标语言语句中目标语言字符上方的字符标记等。
在一些实施例中,所述训练模块具体可以实施时,可以按照以下方式构建得到包含有与所述目标语言相关的干扰因素的图片训练数据:根据预设的处理规则,将多个目标语言语句按照竖直方向排列;调用预设的渲染工具,生成包含有按照竖直方向排列的多行目标语言语句的第一图片;根据预设的截取规则,从所述第一图片中截取出分别包含有所述按照竖直方向排列的多行目标语言语句中的各行目标语言语句的截图,作为包含有与所述目标语言相关的干扰因素的图片训练数据;其中,所述截图包含有位于与所述截图所对应的当前行的目标语言语句相邻的上一行的目标语言语句中目标语言字符下方的字符标记,和/或,位于与所述截图所对应的当前行的目标语言语句相邻的下一行的目标语言语句中目标语言字符上方的字符标记。
在一些实施例中,所述与所述目标场景相关的干扰因素具体可以包括以下至少之一:水印信息、覆膜印记、背景图案等。
在一些实施例中,所述训练模块具体可以实施时,可以按照以下方式构建得到包含有与所述目标场景相关的干扰因素的图片训练数据:根据目标场景,确定出与所述目标场景相关的干扰因素;根据与所述目标场景相关的干扰因素,生成与目标场景匹配的前景图和/或背景图;利用所述前景图和/或背景图,与图片训练数据进行组合,得到包含有与所述目标场景相关的干扰因素的图片训练数据。
在一些实施例中,所述训练模块具体可以实施时,在根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据之后,还可以用于按照以下方式构建得到包含有手写体目标语言语句的图片训练数据:根据图片训练数据中的目标语言语句,生成手写体的目标语言语句;根据所述手写体的目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。
在一些实施例中,所述训练模块训练预设的目标语言处理模型时所使用的初始模型具体可以包括基于crnn框架的神经网络模型。
在一些实施例中,所述目标场景具体可以包括以下至少之一:线上身份信息验证场景、购物网站商品详情页面的内容翻译场景、照片中的文本数据提取场景等。
在一些实施例中,在所述目标场景包括线上身份信息验证场景的情况下,所述目标图片具体可以包括用户的身份证照片,所获取的文本数据具体可以包括用户身份信息数据。
在一些实施例中,在获取所述目标图片中的目标语言的文本数据之后,所述装置还可以用于通过比较所述文本数据、和相应的用户数据库中所保存用户数据,对用户进行身份验证。
需要说明的是,上述实施例阐明的单元、装置或模块等,具体可以由计算机芯片或实体实现,或者由具有某种功能的产品来实现。为了描述的方便,描述以上装置时以功能分为各种模块分别描述。当然,在实施本说明书时可以把各模块的功能在同一个或多个软件和/或硬件中实现,也可以将实现同一功能的模块由多个子模块或子单元的组合实现等。以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
本说明书实施例还提供了一种目标语言处理模型的训练装置,包括:生成模块,具体可以用于生成目标语言语句;构建模块,具体可以用于根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据;训练模块,具体可以用于利用所述图片训练数据训练初始模型,得到预设的目标语言处理模型。
本说明书实施例还提供了一种图片训练数据的生成装置,包括:生成模块,具体可以用于生成目标语言语句;构建模块,具体可以用于根据所述目标语言语句,构建包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据。
由上可见,本说明书实施例提供的目标语言的文本数据的识别装置,可以通过调用预先利用包含有与所述目标场景和/或目标语言相关的干扰因素的图片训练数据训练得到的预设的目标语言处理模型处理所获取的目标场景中包含有目标语言的文本数据的目标图片,以从该目标图片中识别提取出目标语言的文本数据。从而提高了目标语言的文本数据的识别精度,能够从目标场景下的目标图片中准确地识别并提取出所包含的诸如泰语、越南语等小语种语言的文本数据。
虽然本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的手段可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的装置或客户端产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行(例如并行处理器或者多线程处理的环境,甚至为分布式数据处理环境)。术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、产品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、产品或者设备所固有的要素。在没有更多限制的情况下,并不排除在包括所述要素的过程、方法、产品或者设备中还存在另外的相同或等同要素。第一,第二等词语用来表示名称,而并不表示任何特定的顺序。
本领域技术人员也知道,除了以纯计算机可读程序代码方式实现控制器以外,完全可以通过将方法步骤进行逻辑编程来使得控制器以逻辑门、开关、专用集成电路、可编程逻辑控制器和嵌入微控制器等的形式来实现相同功能。因此这种控制器可以被认为是一种硬件部件,而对其内部包括的用于实现各种功能的装置也可以视为硬件部件内的结构。或者甚至,可以将用于实现各种功能的装置视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
本说明书可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构、类等等。也可以在分布式计算环境中实践本说明书,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
通过以上的实施例的描述可知,本领域的技术人员可以清楚地了解到本说明书可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本说明书的技术方案本质上可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,移动终端,服务器,或者网络设备等)执行本说明书各个实施例或者实施例的某些部分所述的方法。
本说明书中的各个实施例采用递进的方式描述,各个实施例之间相同或相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。本说明书可用于众多通用或专用的计算机系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的电子设备、网络pc、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。
虽然通过实施例描绘了本说明书,本领域普通技术人员知道,本说明书有许多变形和变化而不脱离本说明书的精神,希望所附的权利要求包括这些变形和变化而不脱离本说明书的精神。