文本的提取方法和装置、存储介质及电子装置与流程

文档序号:31628138发布日期:2022-09-24 01:11阅读:48来源:国知局
文本的提取方法和装置、存储介质及电子装置与流程

1.本发明涉及通信领域,具体而言,涉及一种文本的提取方法和装置、存储介质及电子装置。


背景技术:

2.如今人工智能、大数据等技术的不断发展,人类社会对服务自动化、智能化的需求越来越高,知识图谱成为技术方案中必要的一环。对于家电来说,说明书是一个重要的知识来源。但是说明书的格式往往是数字图书格式pdf文件,很难直接使用人工智能技术提取。pdf文件提取的难点就在于,pdf文件不同于word或者其他文本格式,基本属于图像。现有技术中,会针对不同类型的pdf 文件,类如合同、发票、年报等,利用光学字符识别ocr技术将pdf文件转为文本,再定向获取文本知识。或者是先利用ocr技术,将pdf文件转为html 格式的文件,然后再用自然语言处理技术提取。
3.但是在利用光学字符识别ocr技术将pdf文件转为文本之后,失去了文本的格式信息,比如文本的字体、大小、颜色、缩进等,后续只能通过文本的语义信息理解对目标文本进行提取。
4.针对相关技术中,只能通过文本的语义信息理解对pdf文件中的目标文本进行提取等问题,尚未提出有效的解决方案。


技术实现要素:

5.本发明实施例提供了一种文本的提取方法和装置、存储介质及电子装置,以至少解决相关技术中,只能通过文本的语义信息理解对pdf文件中的目标文本进行提取等问题。
6.根据本发明实施例的一个实施例,提供了一种文本的提取方法,包括:在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
7.在一个示例性实施例中,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。
8.在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,所述方法还包括:确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第
二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。
9.在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。
10.在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,所述方法还包括:提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
11.在一个示例性实施例中,根据所述第三对应关系对所述数字图书格式文本进行分割,包括:确定标题文本的第二标题类型,并通过标题类型与字号的第二对应关系确定所述标题文本对应的第三字号,其中,所述标题文本的文本内容与所述目录文本的第一文本内容相同;根据所述第一字号和所述标题文本对应的第三字号在所述第一文本中确定所述标题文本;根据所述第三对应关系确定所述标题文本对应的页面的第二页码,并根据所述第二页码对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
12.在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本,包括:确定所述目标文本对应的目标标题文本,以及确定所述目标标题文本对应的目标子数字图书格式文本,其中,所述标题文本至少包括:目标标题文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的第二文本、所述第二文本分别对应的第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定所述第二文本框中文本的第二字号;根据所述第二字号在所述第二文本中提取目标文本。
13.根据本发明实施例的另一个实施例,还提供了一种文本的提取装置,包括:获取模块,用于在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;第一确定模块,用于根据所述第一文本框面积确定所述第一文本框中文本的第一字号;第二确定模块,用于根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;提取模块,用于根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
14.根据本发明实施例的又一方面,还提供了一种计算机可读的存储介质,该计算机可读的存储介质中存储有计算机程序,其中,该计算机程序被设置为运行时执行上述文本的提取方法。
15.根据本发明实施例的又一方面,还提供了一种电子装置,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,上述处理器通过计算机程序执行上述的文本的提取方法。
16.在本发明实施例中,在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第
一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本;本发明实施例,基于ocr技术获取所有文本的文本框的位置信息,从而分析得出各文本的字体大小,分析得出数字图书格式文件的各级标题,进而对目标文本进行提取,采用上述技术方案,解决了只能通过文本的语义信息理解对pdf文件中的目标文本进行提取等问题,由于根据各级标题分割了说明书语义,缩小了提取的范围,降低了处理难度,提高了提取效率。
附图说明
17.此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本技术的实施例,并与说明书一起用于解释本技术的原理。
18.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
19.图1是根据本技术实施例的一种文本的提取方法的硬件环境示意图;
20.图2是根据本发明实施例的文本的提取方法的流程图;
21.图3是根据本发明可选实施例的文本的提取方法的流程图;
22.图4是根据本发明可选实施例的文本的提取方法的示意图;
23.图5是根据本发明实施例的一种文本的提取装置的结构框图。
具体实施方式
24.为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分的实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本技术保护的范围。
25.需要说明的是,本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
26.根据本技术实施例的一个方面,提供了一种文本的提取方法。该文本的提取法广泛应用于智慧家庭(smart home)、智能家居、智能家用设备生态、智慧住宅(intelligencehouse)生态等全屋智能数字化控制应用场景。可选地,在本实施例中,上述文本的提取方法可以应用于如图1所示的由终端设备102和服务器104 所构成的硬件环境中。如图1所示,服务器104通过网络与终端设备102进行连接,可用于为终端或终端上安装的客户端提供服务(如应用服务等),可在服务器上或独立于服务器设置数据库,用于为服
务器104提供数据存储服务,可在服务器上或独立于服务器配置云计算和/或边缘计算服务,用于为服务器104提供数据运算服务。
27.上述网络可以包括但不限于以下至少之一:有线网络,无线网络。上述有线网络可以包括但不限于以下至少之一:广域网,城域网,局域网,上述无线网络可以包括但不限于以下至少之一:wifi(wireless fidelity,无线保真),蓝牙。终端设备102可以并不限定于为pc、手机、平板电脑、智能空调、智能烟机、智能冰箱、智能烤箱、智能炉灶、智能洗衣机、智能热水器、智能洗涤设备、智能洗碗机、智能投影设备、智能电视、智能晾衣架、智能窗帘、智能影音、智能插座、智能音响、智能音箱、智能新风设备、智能厨卫设备、智能卫浴设备、智能扫地机器人、智能擦窗机器人、智能拖地机器人、智能空气净化设备、智能蒸箱、智能微波炉、智能厨宝、智能净化器、智能饮水机、智能门锁等。
28.在本实施例中提供了一种文本的提取方法,图2是根据本发明实施例的文本的提取方法的流程图,该流程包括如下步骤:
29.步骤s202,在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;
30.步骤s204,根据所述第一文本框面积确定所述第一文本框中文本的第一字号;
31.步骤s206,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;
32.需要说明的是,“目标标识”可以理解为“目录”两个字。
33.步骤s208,根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
34.通过上述步骤,接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;根据所述第一文本框面积确定所述第一文本框中文本的第一字号;根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;根据所述目录文本在所述数字图书格式文件中提取所述目标文本;本发明实施例,基于ocr技术获取所有文本的文本框的位置信息,从而分析得出各文本的字体大小,分析得出数字图书格式文件的各级标题,进而对目标文本进行提取,采用上述技术方案,解决了只能通过文本的语义信息理解对pdf文件中的目标文本进行提取等问题,由于根据各级标题分割了说明书语义,缩小了提取的范围,降低了处理难度,提高了提取效率。
35.在一个示例性实施例中,根据所述第一文本框面积确定所述第一文本框中文本的第一字号,包括:确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。
36.也就是说,确定文本框的面积和文本框中的文字字数的商值,将所述商值作为所述任一文字的文字面积,并根据文字面积和字号的对应关系,确定任一文字的字号。
37.在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本之前,确定所述目录标识的第一标题类型,并通
过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。
38.换言之,通过以下方式在所述第二文本中确定所述目录标识,包括:根据第一文本框中文本的第一字号,对所有文本进行分类,其中,同一类别的文本的字号相同,确定目标标识对应的第二字号,根据第二字号确定与第二字号同一字号的分类,并在与第二字号同一字号的分类的第二文本中,确定文本内容为“目录”的文字。
39.在一个示例性实施例中,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所对应的目录文本,包括:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。
40.也就是说,确定目标标识在所述数字图书格式文件中对应的页面,并将所述页面中除所述目标标识之外的文本作为目录文本。
41.需要说明的是,在所述目标文本为多页的情况下,通过以下方式确定所述目录标识所对应的目录文本:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定与所述目标标识的文字内容一致的第三文本,以及所述第三文本位于同一行的第四文本,其中,所述第三文本用于指示目录,第四文本用于指示目标对应的页码;根据所述第四页码确定所述目录标识所对应的目录文本。
42.在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本之前,提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
43.如附图4所示,确定所述数字图书格式文本的标题和所述数字图书格式文本的标题对应的第一页码,以及建立所述数字图书格式文本的标题和所述第二文字内容对应的第一页码的第三对应关系;根据所述第三对应关系,在数字图书格式文本确定所述数字图书格式文本的标题对应的页面,再在所述页面中对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
44.在一个示例性实施例中,根据所述第三对应关系对所述数字图书格式文本进行分割,包括:确定标题文本的第二标题类型,并通过标题类型与字号的第二对应关系确定所述标题文本对应的第三字号,其中,所述标题文本的文本内容与所述目录文本的第一文本内容相同;根据所述第一字号和所述标题文本对应的第三字号在所述第一文本中确定所述标题文本;根据所述第三对应关系确定所述标题文本对应的页面的第二页码,并根据所述第二页码对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
45.也就是说,根据标题文本对应的第三字号在第一文本中确定标题文本,并根据所述第三对应关系确定所述标题文本对应的页面的第二页码,在确定标题文本和标题文本对应的页面的第二页码的情况下,对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
46.在一个示例性实施例中,根据所述目录文本在所述数字图书格式文件中提取所述目标文本,包括:确定所述目标文本对应的目标标题文本,以及确定所述目标标题文本对应的目标子数字图书格式文本,其中,所述标题文本至少包括:目标标题文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的第二文本、所述第二文本分别对应的第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定所述第二文本框中文本的第二字号;根据所述第二字号在所述第二文本中提取目标文本。
47.举例来讲,在目标文本为“安全注意事项”对应的文本的情况下,首先确定目标文本对应的目标标题文本为:“安全注意事项”;以及确定“安全注意事项”对应的目标子数字图书格式文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的目标标题文本:“安全注意事项”、“安全注意事项”对应的正文文本、以及第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定“目标标题文本”和正文文本的第二字号,根据所述第二字号在所述第二文本中提取正文文本,正文文本即为目标文本。
48.为了更好的理解上述文本的提取方法的过程,以下再结合可选实施例对上述文本的提取的实现方法流程进行说明,但不用于限定本发明实施例的技术方案。
49.在本实施例中提供了一种文本的提取方法,以说明书文件为例,其中,说明书文件为pdf格式的文件如图3所示,图3是根据本发明可选实施例的文本的提取方法的流程图,具体如下步骤:
50.步骤s301:通过ocr技术获取说明书文件的所有文本(相当于上述实施例中的第一文本)和所有文本对应的框体(相当于上述实施例中的第一文本框)的坐标;
51.步骤s302:基于所有文本所在的框体的大小和框体内文字数量,评估所有文本的字体大小;
52.步骤s303:基于文本的字体大小,对所有文本进行分类;
53.步骤s304:在字体最大的文本中,确定文本内容为“目录”的文本;
54.步骤s305:根据“目录”的文本对应的目录段落中的文字内容,如图4左边所示,确认各级标题中的内容;
55.步骤s306:在字体最大的文本中,结合目录段落中的文本内容,确认各个章节的位置,对说明书整体切分,得到子说明书;
56.步骤s307:再次基于字体大小对子说明书的文本进行分类,从而确定子说明书对应的二级标题;
57.步骤s308:基于二级标题,再次对子说明书进行分割,从而子说明书分别对应的文本内容。
58.本发明实施例,先通过ocr技术获取pdf文件中所有文本的内容和位置框体的坐标;基于所有文本所在框体的大小,评估所有文本的字体大小;基于文本字体大小,和文本内容,识别出各级标题,进而对说明书分段;针对分段内容,基于自然语言处理技术,提取目标文本;一方面,利用了ocr的字体大小信息,效果成熟稳定。另一方面,确定了各级标题后,分割了说明书语义,缩小了抽取的范围,降低了处理难度。
59.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到根据上述实施例的方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有
技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,或者网络设备等) 执行本发明各个实施例的方法。
60.在本实施例中还提供了文本的提取装置,该文本的提取装置用于实现上述实施例及优选实施方式,已经进行过说明的不再赘述。如以下所使用的,术语“模块”可以实现预定功能的软件和/或硬件的组合。尽管以下实施例所描述的装置较佳地以软件来实现,但是硬件,或者软件和硬件的组合的实现也是可能并被构想的。
61.图5是根据本发明实施例的一种文本的提取装置的结构框图;如图5所示,包括:
62.获取模块52,用于在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;
63.第一确定模块54,用于根据所述第一文本框面积确定所述第一文本框中文本的第一字号;
64.第二确定模块56,用于根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;
65.提取模块58,用于根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
66.通过上述装置,获取模块,在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;第一确定模块,根据所述第一文本框面积确定所述第一文本框中文本的第一字号;第二确定模块,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;提取模块,根据所述目录文本在所述数字图书格式文件中提取所述目标文本;本发明实施例,基于ocr技术获取所有文本的文本框的位置信息,从而分析得出各文本的字体大小,分析得出数字图书格式文件的各级标题,进而对目标文本进行提取,采用上述技术方案,解决了只能通过文本的语义信息理解对pdf文件中的目标文本进行提取等问题,由于根据各级标题分割了说明书语义,缩小了提取的范围,降低了处理难度,提高了提取效率。
67.在一个示例性实施例中,第一确定模块,用于确定所述第一文本框中的文本字数;根据所述第一文本框面积和所述文本字数确定任一文字的文字面积;通过文字面积和字号的第一对应关系确定所述任一文字的文字面积对应的字号,并将所述任一文字对应的字号作为所述第一文本框中文本的第一字号。
68.也就是说,确定文本框的面积和文本框中的文字字数的商值,将所述商值作为所述任一文字的文字面积,并根据文字面积和字号的对应关系,确定任一文字的字号。
69.在一个示例性实施例中,第二确定模块,用于确定所述目录标识的第一标题类型,并通过标题类型与字号的第二对应关系确定所述目录标识对应的第二字号;在所述第一字号中确定与所述第二字号一致的字号,以及在所述第一文本中确定与所述第二字号一致的字号对应的第二文本;在所述第二文本中确定所述目录标识。
70.换言之,通过以下方式在所述第二文本中确定所述目录标识,包括:根据第一文本框中文本的第一字号,对所有文本进行分类,其中,同一类别的文本的字号相同,确定目标
标识对应的第二字号,根据第二字号确定与第二字号同一字号的分类,并在与第二字号同一字号的分类的第二文本中,确定文本内容为“目录”的文字。
71.在一个示例性实施例中,第二确定模块,用于在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定所述目录标识所对应的目录文本。
72.也就是说,确定目标标识在所述数字图书格式文件中对应的页面,并将所述页面中除所述目标标识之外的文本作为目录文本。
73.需要说明的是,在所述目标文本为多页的情况下,通过以下方式确定所述目录标识所对应的目录文本:在所述数字图书格式文件中确定所述目录标识所在的页面;在所述页面中确定与所述目标标识的文字内容一致的第三文本,以及所述第三文本位于同一行的第四文本,其中,所述第三文本用于指示目录,第四文本用于指示目标对应的页码;根据所述第四页码确定所述目录标识所对应的目录文本。
74.在一个示例性实施例中,提取模块,用于提取所述目录文本的第一文字内容和第二文字内容,其中,所述第一文字内容用于指示所述数字图书格式文本的标题,所述第二文字内容用于指示所述第二文字内容对应的第一页码;建立所述第一文字内容和所述第二文字内容的第三对应关系;根据所述第三对应关系对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
75.如附图4所示,确定所述数字图书格式文本的标题和所述数字图书格式文本的标题对应的第一页码,以及建立所述数字图书格式文本的标题和所述第二文字内容对应的第一页码的第三对应关系;根据所述第三对应关系,在数字图书格式文本确定所述数字图书格式文本的标题对应的页面,再在所述页面中对所述数字图书格式文本进行分割,以得到每个第二文字内容对应的子数字图书格式文本。
76.在一个示例性实施例中,提取模块,用于确定标题文本的第二标题类型,并通过标题类型与字号的第二对应关系确定所述标题文本对应的第三字号,其中,所述标题文本的文本内容与所述目录文本的第一文本内容相同;根据所述第一字号和所述标题文本对应的第三字号在所述第一文本中确定所述标题文本;根据所述第三对应关系确定所述标题文本对应的页面的第二页码,并根据所述第二页码对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
77.也就是说,根据标题文本对应的第三字号在第一文本中确定标题文本,并根据所述第三对应关系确定所述标题文本对应的页面的第二页码,在确定标题文本和标题文本对应的页面的第二页码的情况下,对所述数字图书格式文本进行分割,以得到每个标题文本对应的子数字图书格式文本。
78.在一个示例性实施例中,提取模块,用于确定所述目标文本对应的目标标题文本,以及确定所述目标标题文本对应的目标子数字图书格式文本,其中,所述标题文本至少包括:目标标题文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的第二文本、所述第二文本分别对应的第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定所述第二文本框中文本的第二字号;根据所述第二字号在所述第二文本中提取目标文本。
79.举例来讲,在目标文本为“安全注意事项”对应的文本的情况下,首先确定目标文本对应的目标标题文本为:“安全注意事项”;以及确定“安全注意事项”对应的目标子数字
图书格式文本;通过光学字符识别技术获取所述目标子数字图书格式文件中的目标标题文本:“安全注意事项”、“安全注意事项”对应的正文文本、以及第二文本框以及所述第二文本框对应的第二面积;根据所述第二面积确定“目标标题文本”和正文文本的第二字号,根据所述第二字号在所述第二文本中提取正文文本,正文文本即为目标文本。
80.本发明的实施例还提供了一种存储介质,该存储介质包括存储的程序,其中,上述程序运行时执行上述任一项的方法。
81.可选地,在本实施例中,上述存储介质可以被设置为存储用于执行以下步骤的程序代码:
82.s1,在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;
83.s2,根据所述第一文本框面积确定所述第一文本框中文本的第一字号;
84.s3,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;
85.s4,根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
86.本发明的实施例还提供了一种电子装置,包括存储器和处理器,该存储器中存储有计算机程序,该处理器被设置为运行计算机程序以执行上述任一项方法实施例中的步骤。
87.可选地,上述电子装置还可以包括传输设备以及输入输出设备,其中,该传输设备和上述处理器连接,该输入输出设备和上述处理器连接。
88.可选地,在本实施例中,上述处理器可以被设置为通过计算机程序执行以下步骤:
89.s1,在接收到用于请求在数字图书格式文件中提取目标文本的请求指令的情况下,通过光学字符识别技术获取所述数字图书格式文件中的第一文本、所述第一文本分别对应的第一文本框以及所述第一文本框对应的第一文本框面积;
90.s2,根据所述第一文本框面积确定所述第一文本框中文本的第一字号;
91.s3,根据所述第一字号和目录标识的第二字号在所述第一文本中确定所述目录标识所在的目录文本;
92.s4,根据所述目录文本在所述数字图书格式文件中提取所述目标文本。
93.可选地,在本实施例中,上述存储介质可以包括但不限于:u盘、只读存储器(read-only memory,简称为rom)、随机存取存储器(random access memory,简称为ram)、移动硬盘、磁碟或者光盘等各种可以存储程序代码的介质。
94.可选地,本实施例中的具体示例可以参考上述实施例及可选实施方式中所描述的示例,本实施例在此不再赘述。
95.显然,本领域的技术人员应该明白,上述的本发明的各模块或各步骤可以用通用的计算装置来实现,它们可以集中在单个的计算装置上,或者分布在多个计算装置所组成的网络上,可选地,它们可以用计算装置可执行的程序代码来实现,从而,可以将它们存储在存储装置中由计算装置来执行,并且在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤,或者将它们分别制作成各个集成电路模块,或者将它们中的多个模块或步骤制作成单个集成电路模块来实现。这样,本发明不限制于任何特定的硬件和软件结合。
96.以上所述仅是本技术的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本技术的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1