书写文字识别方法、装置、终端设备和存储介质与流程

文档序号:27448870发布日期:2021-11-18 00:31阅读:116来源:国知局
书写文字识别方法、装置、终端设备和存储介质与流程

1.本技术涉及图像识别技术,特别涉及一种书写文字识别方法、书写文字识别装置、终端设备和存储介质。


背景技术:

2.用户在使用会议一体机时,可以在其对应的应用程序中通过手写的方式记录会议内容、纪要或培训等内容,这些书写内容可以以文件的形式被保存在本地的存储器上,从而便于用户后续查阅。当文件过多时,用户难以找到想要的文件,相关技术中,可通过书写文字识别技术实现快速定位到想要的文件。然而,目前的书写文字识别技术只能对单个字或单行内容进行识别,识别效果有限。


技术实现要素:

3.本技术提供了一种书写文字识别方法,用于书写文字识别装置,所述书写文字识别方法包括:
4.获取书写轨迹数据,所述书写轨迹数据包括轨迹点坐标和对应的书写时间信息;
5.在所述书写轨迹数据不属于新文件的情况下,根据所述轨迹点坐标和所述书写时间信息进行文本行分割得到文本行;
6.根据所述轨迹点坐标将所述文本行的所述书写轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据;
7.保存分行后的所述合并轨迹数据;和
8.利用文本识别模型对分别对每行所述合并轨迹数据进行识别得到识别结果。
9.在某些实施方式中,所述书写文字识别方法还包括:
10.在所述书写轨迹数据属于新文件的情况下,根据所述轨迹点坐标和所述书写时间信息进行文本行分割得到新文本行;
11.保存分行后所述文本行的所述书写轨迹数据;
12.利用所述文本识别模型对分别对每行所述书写轨迹数据进行识别得到识别结果。
13.在某些实施方式中,所述根据所述轨迹点坐标和所述书写时间信息进行文本行分割得到文本行,包括:
14.根据所述书写轨迹数据的落笔状态和抬笔状态划分书写笔划;
15.根据所述书写时间信息确定各个所述书写笔划之间的书写间隔时间;
16.根据所述书写间隔时间对所述书写笔划进行分块得到第一文本块;
17.根据第一距离阈值对所述第一文本块进行分块得到第二文本块,所述第一距离阈值根据所述第一文本块确定;
18.根据第二距离阈值对所述第二文本块进行分块得到第三文本块,所述第二距离阈值根据所述第二文本块确定;
19.根据所述轨迹点坐标在字体高度方向上的重叠率合并所述第三文本块得到所述
文本行。
20.在某些实施方式中,所述根据所述轨迹点坐标将所述文本行的所述书写轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据,包括:
21.根据橡皮轨迹删除对应的历史书写轨迹数据后进行文本行分块得到历史书写文本块;
22.根据每行的中心点坐标和文本块顺序合并所述历史文本块和所述文本行得到所述合并轨迹数据。
23.在某些实施方式中,所述获取书写轨迹数据包括:
24.接收用户在终端调用手写识别服务上传的手写文件以获取所述书写轨迹数据。
25.在某些实施方式中,所述书写文字识别方法包括:
26.将所述识别结果返回至所述终端。
27.在某些实施方式中,所述书写文字识别方法还包括:
28.建立深度学习模型;
29.获取训练轨迹数据,所述训练轨迹数据为用户输入每行文本对应的所述书写轨迹数据;
30.利用所述训练轨迹数据对所述深度学习模型进行训练,得到所述文本识别模型。
31.在某些实施方式中,所述建立深度学习模型包括:
32.基于时间递归神经网络建立所述深度学习模型,所述深度学习模型包括多层长短期记忆神经网络。
33.本技术还提供了一种书写文字识别装置,包括:
34.获取模块,用于获取书写轨迹数据,所述书写轨迹数据包括轨迹点坐标和对应的书写时间信息;
35.分割模块,用于在所述书写轨迹数据不属于新文件的情况下,根据所述轨迹点坐标和所述书写时间信息进行文本行分割得到文本行;
36.合并模块,用于根据所述轨迹点坐标将所述文本行的所述书写轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据;
37.保存模块,用于保存分行后的所述合并轨迹数据;和
38.识别模块,用于利用文本识别模型对分别对每行所述合并轨迹数据进行识别得到识别结果。
39.本技术还提供了一种终端设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述计算机程序被所述处理器执行时,实现上述任意一项所述的书写文字识别方法。
40.本技术还提供了一种包含计算机程序非易失性计算机可读存储介质,当所述计算机程序被处理器执行时,使得所述处理器执行上述任意一项所述书写文字识别方法。
41.本技术实施方式的书写文字识别方法、书写文字识别装置、终端设备和计算机可读存储介质中,通过对上传的书写轨迹数据的书写时间信息进行判断,识别出书写轨迹数据是否为新文件,并在书写轨迹数据不属于新文件的情况下,根据书写轨迹数据中的轨迹点坐标和书写时间信息对书写轨迹数据进行行分割,分割成多行文本行,进而对每行文本行进行识别,如此,可以完成对整篇书写轨迹数据的识别,提升了用户体验。
附图说明
42.本技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:
43.图1是本技术某些实施方式的书写文字识别方法的流程示意图。
44.图2是本技术某些实施方式的书写文字识别装置的模块示意图。
45.图3

4是本技术某些实施方式的书写文字识别方法的流程示意图。
46.图5是本技术某些实施方式的书写文字识别方法的分行处理场景示意图。
47.图6本技术某些实施方式书写文字识别方法的流程示意图。
48.图7是相关技术中根据合并轨迹数据进行识别处理的场景示意图。
49.图8是本技术某些实施方式中根据合并轨迹数据进行识别的场景示意图。
50.图9本技术某些实施方式书写文字识别方法的流程示意图。
51.图10是本技术某些实施方式中lsmt的总体框架示意图。
52.图11是本技术某些实施方式的深度学习模型的模块示意图。
具体实施方式
53.下面详细描述本技术的实施方式,所述实施方式的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施方式是示例性的,仅用于解释本技术,而不能理解为对本技术的限制。
54.用户在使用会议一体机时,会在其app中书写会议内容、纪要或培训板书等等,这些内容会以文件的形式被保存在本地的存储器上,便于用户后续查阅这些内容。但是当文件过多时,如何快速找到用户想要的内容就成为亟待解决的问题。
55.相关技术中,可采用手写识别功能来实现快速找到用户想要的内容。当用户书写内容后,点击手写识别,就可以将识别的内容作为会议文件的标签一同保存在本地,用户可以回忆当时的会议内容通过关键词快速方便地检索到想要查阅的文件。
56.手写文字识别技术是指将在触屏手写设备上书写文字时产生的有序轨迹信息(包括两维坐标,也可能包含一维书写时间信息)转化为文字的过程。手写文字识别是人机交互最自然、最方便的手段之一,可用于办公自动化、机器翻译、电子商务等应用领域。目前,手写识别技术主要用在输入法的单字识别或单行识别中,针对整篇文本轨迹点的识别应用相对较少,使得首写识别技术的应用范围有限。
57.有鉴于此,请参阅图1,本技术实施方式提供一种书写文字识别方法,用于书写文字识别装置,书写文字识别方法包括步骤:
58.01,获取书写轨迹数据,书写轨迹数据包括轨迹点坐标和对应的书写时间信息;
59.02,在书写轨迹数据不属于新文件的情况下,根据轨迹点坐标和书写时间信息进行文本行分割得到文本行;
60.03,根据轨迹点坐标将文本行的书写轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据;
61.04,保存分行后的合并轨迹数据;和
62.05,利用文本识别模型对分别对每行合并轨迹数据进行识别得到识别结果。
63.请进一步参阅图2,本技术实施方式提供了一种书写文字识别装置10。书写文字识
别装置10包括获取模块110、分割模块120、合并模块130、保存模块140和识别模块150。
64.步骤01可以由获取模块110实现,步骤02可以由分割模块120实现,步骤03可以由合并模块130实现,步骤04可以由保存模块140实现,步骤05可以由识别模块150实现。或者说,获取模块110可以用于获取书写轨迹数据,书写轨迹数据包括轨迹点坐标和对应的书写时间信息。分割模块120可以用于在轨迹数据不属于新文件的情况下,根据轨迹点坐标和书写时间信息进行文本行分割得到文本行。合并模块130可以用于根据轨迹点坐标将文本行的轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据。保存模块140可以用于保存分行后的合并轨迹数据,识别模块150可以用于利用文本识别模型对分别对每行合并轨迹数据进行识别得到识别结果。
65.本技术还提供了一种终端设备,包括处理器,处理器可以用于获取书写轨迹数据,书写轨迹数据包括轨迹点坐标和对应的书写时间信息,并在轨迹数据不属于新文件的情况下,根据轨迹点坐标和书写时间信息进行文本行分割得到文本行。处理器还可以用于根据轨迹点坐标将文本行的轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据,并保存分行后的合并轨迹数据,以及利用文本识别模型对分别对每行合并轨迹数据进行识别得到识别结果。
66.这些实施方式的书写文字识别方法、书写文字识别装置10和终端设备中,通过对上传的书写轨迹数据的书写时间信息进行判断,识别出书写轨迹数据是否为新文件,并在书写轨迹数据不属于新文件的情况下,根据书写轨迹数据中的轨迹点坐标和书写时间信息对书写轨迹数据进行行分割,分割成多行文本行,进而对每行文本行进行识别,如此,可以完成对整篇书写轨迹数据的识别,提升了用户体验。
67.在一些实施方式中,终端设备可以为手机、平板以及会议一体机等可通过手写的输入文本等电子设备。本实施方式以终端设备是会议一体机为例进行说明,也即是说,书写文字识别方法和书写文字识别装置100应用于但不限于会议一体机。书写文字识别装置100可以是预安装于会议一体机的硬件或软件,并在会议一体机上启动运行时可以执行该书写文字识别方法。例如,书写文字识别装置100可以是会议一体机的底层软件代码段或者说是操作系统的一部分。
68.需要说明的是,会议一体机是针对大中型创新及高科技企业会议办公、培训及远程会议等场景使用的智能交互触摸一体机,它集电脑、投影仪、电视、电子白板、广告机、音响等多功能为一体,可满足多种用途的综合一体机。
69.在一些实施方式中,书写文字识别装置100可以是一定方式组装以具有前述功能的分立元件、或者是以集成电路形式存在具有前述功能的芯片、又或者是在计算机上运行时使得计算机具有前述功能的计算机软件代码段。
70.在一些实施方式中,作为硬件,书写文字识别装置100可以是独立或者作为额外增加的外围元件加装到计算机或者计算机系统。书写文字识别装置100也可以集成到计算机或者计算机系统,例如,书写文字识别装置100是终端设备的一部分时,书写文字识别装置100可以集成到处理器上。
71.在本实施方式的终端设备中,包括触摸设备,用户可通过触摸设备输入手写的轨迹点,触摸设备接收到用户输入的轨迹点后,可保存每个轨迹点的x,y坐标值,每个轨迹点的时间戳,每个轨迹点的状态(落笔或抬笔),从而得到书写轨迹数据。
72.处理器可以为云端服务器,并与触摸设备网络连接,从而向触摸设备获取到书写轨迹数据。也即是,本技术的书写文字识别方法可以由云端服务器实现,可以理解地,云端服务器是基于大规模分布式计算系统,能够海量且快速的处理数据,如此,可以方便快捷地实现书写文字识别方法。
73.云端服务器可包括有数据库,数据库可存储有历史书写轨迹数据。历史书写轨迹以文本页的形式保存。新文件是指书写轨迹数据中不存在数据库中历史书写轨迹数据的内容,非新文件是指书写轨迹数据中至少存在部分内容与数据库中历史书写轨迹数据的内容相同。例如,当前书写轨迹数据为用户对历史书写轨迹数据进行部分修改(删去或增加了部分内容),生成的书写轨迹数据,则说明,当前书写轨迹数据为非新文件。
74.书写轨迹数据可以包括书写轨迹和橡皮轨迹,其中,书写轨迹用于生成书写内容,橡皮轨迹用于去除书写内容,并且,书写轨迹数据都是按照时间顺序保存。
75.书写轨迹数据可以是用户在终端(触摸设备)调用手写识别服务上传的手写文件。也即是,处理器可以从终端获取到用户在终端调用手写识别服务上传的书写轨迹数据
76.文本识别模型是一种神经网络模型(neural networks,nn),是由大量的、大量的、简单的处理单元(称为神经元)广泛地互相连接而形成的复杂网络系统,它反映了人脑功能的许多基本特征,是一个高度复杂的非线性动力学习系统。神经网络具有大规模并行、分布式存储和处理、自组织、自适应和自学能力,特别适合处理需要同时考虑许多因素和条件的、不精确和模糊的信息处理问题。
77.具体地,在处理器获取到在书写轨迹数据时,遍历根据数据库中保存的历史书写轨迹数据,从而对获取的书写轨迹数据进行判断,确定书写轨迹数据是否属于新文件,并书写轨迹数据中存在数据库中历史书写轨迹数据相同的内容时,确定书写轨迹数据不属于新文件,根据轨迹点坐标和书写时间信息对书写轨迹数据进行分割,得到多行文本行的书写轨迹数据。进而根据书写轨迹数据的轨迹点坐标将文本行的书写轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据,并将合并轨迹数据保存至原有的历史书写轨迹对应的位置中。
78.进一步地,处理器可以只获取书写轨迹数据中与历史书写轨迹数据不相同的内容(即修改的内容部分),从而减少书写轨迹数据的网络传输时间,提高效率,并在根据书写轨迹数据的轨迹点坐标将文本行的书写轨迹数据和对应的历史书写轨迹数据合并得到合并轨迹数据时,可以只将书写轨迹数据中与历史书写轨迹数据不相同的内容(即修改的内容部分)与历史书写轨迹数据合并,从而减少数据处理量。
79.更进一步地,在得到合并轨迹数据后,处理器可将每行合并轨迹数据输入至文本识别模型,使得文本识别模型分别对合并轨迹数据进行识别,输出识别结果,并将识别结果返回至终端进行显示,从而用户可以得到识别结果。
80.此外,在触摸设备接收到用户输入的书写轨迹数据时,可对每个书写轨迹数据有独立编号,并且每次可对当前书写轨迹数据做一次记录点,如此,下次识别时可以只上传上次记录点之后新加的书写轨迹数据。处理器在获取到书写轨迹数据时,可以首先对轨迹点进行处理,其次根据书写轨迹数据的编号将结果和数据库中的历史记录合并保存,最后再通过文本识别模型进行识别并返回结果。
81.如此,可以完成对整篇书写轨迹数据的识别,提升了用户体验,并且,通过在书写
轨迹数据不属于新文件时,与历史书写轨迹数据合并,可以有效地减少数据存储量。
82.请参阅图3,在某些实施方式中,在步骤01后,书写文字识别方法还包括:
83.06,在书写轨迹数据属于新文件的情况下,根据轨迹点坐标和书写时间信息进行文本行分割得到新文本行;
84.07,保存分行后文本行的书写轨迹数据;
85.08,利用文本识别模型对分别对每行书写轨迹数据进行识别得到识别结果。
86.请进一步参阅图2,在某些实施方式中,步骤06可以由分割模块120实现,步骤07可以由保存模块140实现,步骤08可以由识别模块150实现。或者说,分割模块120可以用于在轨迹数据属于新文件的情况下,根据轨迹点坐标和书写时间信息进行文本行分割得到新文本行,保存模块140可以用于保存分行后文本行的轨迹数据,识别模块150可以用于利用文本识别模型对分别对每行轨迹数据进行识别得到识别结果。
87.在某些实施方式中,处理器可以用于在轨迹数据属于新文件的情况下,根据轨迹点坐标和书写时间信息进行文本行分割得到新文本行,并保存分行后文本行的轨迹数据,以及利用文本识别模型对分别对每行轨迹数据进行识别得到识别结果。
88.可以理解地,书写轨迹数据属于新文件的情况下,说明书写轨迹数据中不存在与数据库中历史书写轨迹数据相同的内容,则书写轨迹数据可以在数据库中开辟一块空间保存书写轨迹数据的内容。
89.具体地,遍历根据数据库中保存的历史书写轨迹数据,从而对获取的书写轨迹数据进行判断,并确认书写轨迹数据中不存在数据库中历史书写轨迹数据相同的内容时,直接根据轨迹点坐标和书写时间信息对书写轨迹数据进行文本行分割,得到分行后文本行的书写轨迹数据,再将文本行的书写轨迹数据保存在数据库中,并利用文本识别模型对分别对每行书写轨迹数据进行识别得到识别结果,再将识别结果返回至终端设备进行显示,使得用户能够方便地获取到识别结果。
90.请结合图4,在某些实施方式中,步骤02包括子步骤:
91.021,根据书写轨迹数据的落笔状态和抬笔状态划分书写笔划;
92.022,根据书写时间信息确定各个书写笔划之间的书写间隔时间;
93.023,根据书写间隔时间对书写笔划进行分块得到第一文本块;
94.024,根据第一距离阈值对第一文本块进行分块得到第二文本块,第一距离阈值根据第一文本块确定;
95.025,根据第二距离阈值对第二文本块进行分块得到第三文本块,第二距离阈值根据第二文本块确定;
96.026,根据轨迹点坐标在字体高度方向上的重叠率合并第三文本块得到文本行。
97.请进一步参阅图2,在某些实施方式中,子步骤021

026可以由分割模块120实现。或者说,分割模块120可以用于根据书写轨迹数据的落笔状态和抬笔状态划分书写笔划,并根据书写时间信息确定各个书写笔划之间的书写间隔时间,以及根据书写间隔时间对书写笔划进行分块得到第一文本块,分割模块120还可以用于根据第一距离阈值对第一文本块进行分块得到第二文本块,第一距离阈值根据第一文本块确定,以及根据第二距离阈值对第二文本块进行分块得到第三文本块,第二距离阈值根据第二文本块确定,再根据轨迹点坐标在字体高度方向上的重叠率合并第三文本块得到文本行。
98.在某些实施方式中,处理器用于根据书写轨迹数据的落笔状态和抬笔状态划分书写笔划,并根据书写时间信息确定各个书写笔划之间的书写间隔时间,以及根据书写间隔时间对书写笔划进行分块得到第一文本块,处理器还可以用于根据第一距离阈值对第一文本块进行分块得到第二文本块,第一距离阈值根据第一文本块确定,以及根据第二距离阈值对第二文本块进行分块得到第三文本块,第二距离阈值根据第二文本块确定,再根据轨迹点坐标在字体高度方向上的重叠率合并第三文本块得到文本行。
99.请结合图5,具体地,根据每个提笔点的落笔和抬笔状态将轨迹点划分为笔划(stroke),统计所有笔划之间的时间差,并根据使用场景不同,依据经验预先设置一个较长时间的书写间隔时间thr1(例如10秒),进而根据书写间隔时间thr1将所有笔划进行分块处理,从而得到第一文本块stroke_block1。也即是,当两个字之间的时间间隔超过10秒,即认为不同的文本行,从而进行分块处理得到第一文本块stroke_block1。
100.进一步地,每个笔划取三个点(起点,中点,终点),计算距离三个点之间的距离并相加,作为每个笔划的估计长度,再统计出所有笔划的平均长度,将平均长度的2.5倍作为第一距离阈值thr2。对第一文本块stroke_block1中的每块stroke_block1_i算其中后一笔的起点和前一笔终点的距离dis 1,当距离dis 1大于第一距离阈值thr2时,则分块处理,最终得到第二文本块stroke_block2。
101.更进一步地,考虑到大字和小字笔划长度的不同,因此分别计算每个第二文本块stroke_block2中笔划的平均长度,将平均长度的1.5倍作为第二距离阈值thr3。对第二文本块stroke_block2中的每块第二文本块stroke_block2_i算其中后一笔的起点和前一笔终点笔划的x轴距离dis_2,当距离dis_2大于第二距离阈值thr3时,则分块处理,最终得到第三文本块stroke_block3。
102.由于第三文本块stroke_block3中有概率将本是同一行的文本分开(如第三文本块stroke_block3中的第二行),因此最后需要再对第三文本块stroke_block3进行合并。具体地,计算当前第三文本块stroke_block3_i+1和上一第三文本块stroke_block3_i的y坐标的重叠率,当其重叠率大于0.5时,则将两部分合并,以此类推。最终得到文本行。
103.请结合图6,在某些实施方式中,步骤03包括:
104.031,根据橡皮轨迹删除对应的历史书写轨迹数据后进行文本行分块得到历史书写文本块;
105.032,根据每行的中心点坐标和文本块顺序合并历史文本块和文本行得到合并轨迹数据。
106.在某些实施方式中,子步骤031和子步骤032可以由合并模块130实现,或者说,合并模块130可以用于根据橡皮轨迹删除对应的历史书写轨迹数据后进行文本行分块得到历史书写文本块,并根据每行的中心点坐标和文本块顺序合并历史文本块和文本行得到合并轨迹数据。
107.在某些实施方式中,处理器可用于根据橡皮轨迹删除对应的历史书写轨迹数据后进行文本行分块得到历史书写文本块,并根据每行的中心点坐标和文本块顺序合并历史文本块和文本行得到合并轨迹数据。
108.请结合图7,可以理解地,当用户获取到历史书写轨迹数据后,进行修改,擦除前几行中的文本并补充手写文字后,由于手写轨迹是按照时间顺序记录的,因此,通常,调用手
写识别算法得到的结果中,补充手写文字的识别结果会出现在整个文档的最后。
109.请结合图8,因此,本技术通过对橡皮轨迹删除对应的历史书写轨迹后进行文本行分块,得到历史书写文本块,再根据每一行的中心点纵坐标判断历史书写文本块与文本行是否在同一行,以及根据中心点横坐标判断同一行文本块的先后顺序,将文本行和历史文本块合并得到合并轨迹数据。如此,后续通过文本识别模型对可以得到准确的识别结果。
110.请结合图9,在某些实施方式中,在步骤01前,书写文字识别方法还包括步骤:
111.001,建立深度学习模型;
112.002,获取训练轨迹数据,训练轨迹数据为用户输入每行文本对应的书写轨迹数据;
113.003,利用训练轨迹数据对深度学习模型进行训练,得到文本识别模型。
114.请进一步地结合图2,在某些实施方式中,书写文字识别装置10还包括构建模块160和训练模块170。
115.步骤001可以由构建模块160实现,步骤002可以由获取模块110实现,步骤003可以由训练模块170实现。或者说,构建模块160可以用于建立深度学习模型;获取模块110还可以用于获取训练轨迹数据,训练轨迹数据为用户输入每行文本对应的书写轨迹数据,训练模块170可以用于利用训练轨迹数据对深度学习模型进行训练,得到文本识别模型。
116.在某些实施方式中,处理器还用于建立深度学习模型,并获取训练轨迹数据,训练轨迹数据为用户输入每行文本对应的书写轨迹数据,以及利用训练轨迹数据对深度学习模型进行训练,得到文本识别模型。
117.在本实施方式中,可基于时间递归神经网络(recursive neural network,rnn)建立所述深度学习模型,深度学习模型包括多层长短期记忆神经网络(long short

term memory,lstm)。
118.本领域技术人员可以理解地,时间递归神经网络是一种时间循环神经网络,是具有树状阶层结构且网络节点按其连接顺序对输入信息进行递归的人工神经网络(artificial neural network,ann),是深度学习(deep learning)算法之一。
119.长短期记忆神经网络是一种时间循环神经网络,是为了解决一般的rnn(循环神经网络)存在的长期依赖问题而专门设计出来的,所有的rnn都具有一种重复神经网络模块的链式形式。lstm由于其设计的特点,非常适合用于对时序数据的建模,如文本数据。
120.请结合图10,lstm是由t时刻的输入词x
t
,细胞状态c
t
,临时细胞状态隐层状态h
t
,遗忘门f
t
,记忆门i
t
,输出门o
t
组成,lstm的计算过程可以概括为,通过对细胞状态中信息遗忘和记忆新的信息使得对后续时刻计算有用的信息得以传递,而无用的信息被丢弃,并在每个时间步都会输出隐层状态h
t
,其中遗忘、记忆与输出由通过上个时刻的隐层状态h
t
‑1和当前输入x
t
计算出来的遗忘门f
t
,记忆门i
t
,输出门o
t
来控制。
121.lstm可以是双向长短期记忆神经网络(bi

directional long short

term memory,bilstm),bilstm是由前向lstm与后向lstm组合而成。
122.请参阅图11,在本实施方式中,深度学习模型由三个连续的bilstm和两个全连接层组合而成。其中,两个全连接层位于bilstm之后,全连接层用于对bi

lstm处理后的数据进行分类。三个bilstm分别包含256、256和512个计算单元,两个全连接层分别包含512和3816个神经元(计算节点),其中,3816是最终的分类类别,包含汉字一级字库3755、英文字
母26、阿拉伯数字10和常用标点符号25。并且,在每个lstm后,还使用了概率为0.5的dropout层,即随机删除部分连接,从而减少模型过拟合,加速模型收敛。
123.当获取到用户输入每行文本对应的书写轨迹数据时,可将书写轨迹数据输入至深度学习模型中,对深度学习模型进行不断训练,从而得到文本识别模型。
124.本技术实施方式的终端设备,还包括有存储器,存储器存储有计算机程序,当计算机程序被处理器处理时,实现如上述任意一实施方式所述的书写文字识别方法。
125.本技术提供了一种包含计算机程序的非易失性计算机可读存储介质计算机程序被处理器执行时,使得处理器执行上述书写文字识别方法。
126.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其他任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本技术实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(digital subscriber line,dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质(例如,软盘、硬盘、磁带)、光介质(例如数字视频光盘(digital video disc,dvd))、或者半导体介质(例如固态硬盘(solid state disk,ssd))等。
127.本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本技术的范围。
128.在本技术所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
129.另外,在本技术各个实施例中的各功能模块可以集成在一个合并模块中,也可以是各个模块单独物理存在,也可以两个或两个以上模块集成在一个模块中。
130.以上所述,仅为本技术的具体实施方式,但本技术的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本技术揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本技术的保护范围之内。因此,本技术的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1