一种标题段落检测方法及装置与流程

文档序号:18232596发布日期:2019-07-24 08:25阅读:246来源:国知局
一种标题段落检测方法及装置与流程

本申请涉及计算机技术领域,尤其涉及一种标题段落检测方法及装置。



背景技术:

在司法领域的公检法各办案流程中,均流转着大量的以纸质文书呈现的证据材料,如何对此类证据材料进行有效地电子化呈现、并能够智能的提取其中的结构化信息,用以进行快速检索、分类归档是当前司法领域对证据材料电子化的刚需之一。

然而,现有方法在生成文书的结构化信息时,需要依赖预先构建的标题库,即,使用标题库中的已知标题对文书文字进行匹配,从而给出文书标题。具体地,首先使用opencv等方式读入图片形式的文书,再使用ocr将文书图片中的文字进行提取,得到ocr文本,最后,采用规则计算的形式计算标题库中的已知标题与ocr文本的相似度得分,相似度得分最高的标题即为输出的结构化信息。

可见,现有技术依赖于标题库中的已知标题,但当文书标题不在标题库中,或ocr检出结果较差时,其给出的标题将与真实的标题相距甚远,甚至有乱码的情况出现,即,提供的标题信息不够准确。



技术实现要素:

本申请实施例的主要目的在于提供一种标题段落检测方法及装置,能够给出更准确的标题信息。

本申请实施例提供了一种标题段落检测方法,包括:

获取待检测的目标文本;

将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;

根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。

可选的,所述将所述目标文本划分为各个文本段落,包括:

识别所述目标文本中的全部或部分文本行,作为各个文本行;

生成各个文本行的行特征,所述行特征包括文本特征和/或像素特征,所述文本特征携带了对应文本行的文本信息,所述像素特征携带了对应文本行所在文本区域的像素信息;

根据各个文本行的行特征,将所述目标文本划分为各个文本段落。

可选的,所述根据各个文本行的行特征,将所述目标文本划分为各个文本段落,包括:

根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征,所述行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在所述目标文本中的位置信息;

根据各个文本行中每相邻两个文本行的行间特征,将所述目标文本划分为各个文本段落。

可选的,所述各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;

所述第一类型的文本段落包括一个文本行,且满足第一条件;

所述第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;

所述第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;

其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。

可选的,所述根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,包括:

将各个文本段落或各个文本段落中的前N个段落,作为各个待检测段落;

生成各个待检测段落的初始段落特征,所述初始段落特征携带了对应待检测段落的语义信息、以及对应待检测段落在所述目标文本中的位置信息;

根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征,所述目标段落特征携带了对应待检测段落与对应待检测段落的相邻段落的语义信息、以及对应待检测段落与所述相邻段落在所述目标文本中的位置信息;

根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。

可选的,所述根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测,包括:

按照各个待检测段落在所述目标文本中的段落顺序,依次将每一待检测段落作为当前段落;

根据所述当前段落的目标段落特征以及所述当前段落之前的各个待检测段落的目标段落特征,判断所述当前段落是否为标题所在段落。

可选的,所述根据所述当前段落的目标段落特征以及所述当前段落之前的各个待检测段落的目标段落特征,判断所述当前段落是否为标题所在段落,包括:

生成所述当前段落对应的辅助特征,所述辅助特征包括辅助段落的目标段落特征,所述辅助段落为所述当前段落之前的各个待检测段落中的一个段落且该段落属于标题段落的概率最大;

根据所述当前段落的目标段落特征以及辅助特征,判断所述当前段落是否为标题所在段落。

本申请还提供了一种标题段落检测装置,包括:

目标文本获取单元,用于获取待检测的目标文本;

文本段落划分单元,用于将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;

标题段落检测单元,用于根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。

可选的,所述文本段落划分单元,包括:

文本行识别子单元,用于识别所述目标文本中的全部或部分文本行,作为各个文本行;

行特征生成子单元,用于生成各个文本行的行特征,所述行特征包括文本特征和/或像素特征,所述文本特征携带了对应文本行的文本信息,所述像素特征携带了对应文本行所在文本区域的像素信息;

文本段落划分子单元,用于根据各个文本行的行特征,将所述目标文本划分为各个文本段落。

可选的,所述文本段落划分子单元,包括:

行间特征生成模块,用于根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征,所述行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在所述目标文本中的位置信息;

文本段落划分模块,用于根据各个文本行中每相邻两个文本行的行间特征,将所述目标文本划分为各个文本段落。

可选的,所述各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;

所述第一类型的文本段落包括一个文本行,且满足第一条件;

所述第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;

所述第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;

其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。

可选的,所述标题段落检测单元,包括:

待检测段落获取子单元,用于将各个文本段落或各个文本段落中的前N个段落,作为各个待检测段落;

初始段落特征生成子单元,用于生成各个待检测段落的初始段落特征,所述初始段落特征携带了对应待检测段落的语义信息、以及对应待检测段落在所述目标文本中的位置信息;

目标段落特征生成子单元,用于根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征,所述目标段落特征携带了对应待检测段落与对应待检测段落的相邻段落的语义信息、以及对应待检测段落与所述相邻段落在所述目标文本中的位置信息;

标题段落检测子单元,根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。

可选的,所述标题段落检测子单元,包括:

当前段落确定模块,用于按照各个待检测段落在所述目标文本中的段落顺序,依次将每一待检测段落作为当前段落;

标题段落检测模块,根据所述当前段落的目标段落特征以及所述当前段落之前的各个待检测段落的目标段落特征,判断所述当前段落是否为标题所在段落。

可选的,所述标题段落检测模块,包括:

辅助特征生成子模块,用于生成所述当前段落对应的辅助特征,所述辅助特征包括辅助段落的目标段落特征,所述辅助段落为所述当前段落之前的各个待检测段落中的一个段落且该段落属于标题段落的概率最大;

标题段落检测子模块,根据所述当前段落的目标段落特征以及辅助特征,判断所述当前段落是否为标题所在段落。

本申请还提供了一种标题段落检测设备,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述标题段落检测方法的任一实施方式。

本申请还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述标题段落检测方法的任一实施方式。

本申请还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述标题段落检测方法的任一实施方式。

基于上述技术方案,本申请具有以下有益效果:

本申请提供的标题段落检测方法及装置,可以先将目标文本中语义相关度高和/或区域位置近的文本内容划分到同一个文本段落中,再根据各个文本段落之间的语义相关性以及各个文本段落在目标文本中的位置信息进行标题检测,得到该目标文本中的各个标题所在的文本段落。由于标题所在的文本段落中不仅包括了标题,还包括了与标题语义相关度较高的其他文本内容,而且标题还与除标题所在段落以外的其它文本段落的内容相关,此外,标题通常位于目标文本的靠前位置,因而,在标题所在段落的检测过程中,可以依赖文本段落之间所具有的语义相关性以及各个文本段落在目标文本中的位置信息,进而可以在标题所在段落中找到标题信息,相比于现有技术,本申请无需依赖标题库,避免了因目标文本的标题不在标题库而导致确定的标题不准确的问题,从而提高了标题提取结果的准确性。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的标题段落检测方法的流程图;

图2为本申请实施例提供的像素特征提取方法的流程图;

图3为本申请实施例提供的S122的第二种实施方式的流程图;

图4为本申请实施例提供的S1222的具体实施方式的流程图;

图5为本申请实施例提供的S12322的实施方式的示意图;

图6为本申请实施例提供的S134的具体实施方式的过程示意图;

图7为本申请实施例提供的S134的具体实施方式的流程图;

图8为本申请实施例提供的标题段落检测装置的结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

方法实施例

参见图1,该图为本申请实施例提供的标题段落检测方法的流程图。

本申请实施例提供的标题段落检测方法,包括:

S11:获取待检测的目标文本。

S12:将目标文本划分为各个文本段落,该文本段落包括语义相关度高和/或区域位置近的文本内容。

S13:根据各个文本段落之间的语义相关性以及各个文本段落在目标文本中的位置信息,对各个文本段落进行标题检测,得到目标文本中的各个标题所在的文本段落。

以上为本申请方法实施例一提供的标题段落检测方法的具体执行步骤,为了便于理解和解释本申请方法实施例一提供的标题段落检测方法,下面将依次介绍S11至S13的具体实施方式。

首先介绍S11的具体实施方式。

在S11中,目标文本可以是任一领域内的文件材料。作为示例,目标文本可以是司法领域的文件材料,该文件材料可以是在司法领域的公检法各办案流程中所涉及的证据材料。

另外,目标文本可以采用不同的数据格式进行表示,例如,目标文本可以采用图片格式进行表示,也可以采用数组格式进行表示,也可以采用文本格式进行表示,还可以采用其他数据格式进行表示。

由于数组格式能够在在计算机内部进行快速地流转,因而,为了提高目标文本在计算机内部的流转速度,本申请实施例提供了S11的一种实施方式,在该实施方式中,S11具体可以包括S111-S112:

S111:根据纸质文件,采用预设图片生成方法,生成图片文件。

其中,预设图片生成方法可以是任一种能够根据纸质文件生成图片文件的方法,比如扫描或拍照等,而且,每个图片文件可以包括一页纸质文件的文本内容。

S112:以图片文件为信息读取对象,将读取到的文本内容转换为数组格式,并将该数组格式的文本内容作为待检测的目标文本。

其中,数组格式可以是任一种能够在计算机内部流转的数组格式,比如,该数组格式可以是二维数组。另外,在对图片文件进行信息读取时,可以采用开源计算机视觉库(Open Source Computer Vision Library,OpenCV)的方法进行读取。

以上为S11的具体实施方式,在该实施方式中,可以将纸质文件转换为具有数组格式的目标文本,使得目标文本的文本内容能够快速地在计算机内部进行后续处理。

下面介绍S12的具体实施方式。

在S12中,为了能够将目标文本划分为各个文本段落,可以对目标文本进行语义理解,以将语义相关度高的文本内容划分到相同的文本段落中,并将语义相关度低的文本内容划分到不同的文本段落中,以便使得各个文本段落均包括语义相关度高的文本内容。

另外,为了能够将目标文本划分为各个文本段落,也可以根据目标文本所包括的文本内容所在的区域位置进行划分,以便将距离较近的文本内容划分到相同的文本段落中,并将距离较远的文本内容划分到不同的文本段落中,以便使得各个文本段落均包括距离较近的文本内容。

此外,在本申请中,还可以同时根据语义相关度以及区域位置进行文本段落的划分,如此使得划分出的每一个文本段落包括语义相关度高和区域位置近的文本内容。

需要说明的是,对于划分出的每一文本段落,其可以包括目标文本中的一个或多个实际段落内容,该实际段落内容可以是其所属实际段落的全部或部分内容,但是,在划分出的同一文本段落中,该文本段落中的文本区域是连续的,即,该文本段落中的各个文本行是连续的。

另外,由于每个文本段落可以包括至少一个文本行(需要说明的是,这些文本行可以以“行”的形式呈现、或者以“列”的形式呈现),因而,可以根据目标文本中的文本行之间的语义相关度和/或区域位置进行文本段落的划分。

作为一种实施方式,S12具体可以包括S121-S123:

S121:识别目标文本中的全部或部分文本行,作为各个文本行。

文本行可以是目标文本中的自然行,也可以是非自然行,本申请对此不做具体限定。

作为第一种实施方式,S121具体可以为:利用预设识别方法,识别目标文本中的各个文本行。

其中,预设识别方法可以是任一种能够识别目标文本中的文本行的方法,而且,预设识别方法可以是预先设定的方法,例如,预设识别方法可以是光学字符识别方法(Optical Character Recognition,OCR)。

OCR能够从目标文本对应的图片文本中提取出每个文本行的文本信息以及该文本行在目标文本中所处的区域信息;其中,文本信息是指每个文本行所包括的文本内容;区域信息是指每个文本行在目标文本所处的区域位置信息。

以上为S121的第一种实施方式。

另外,在本申请中不仅可以识别目标文本中的所有文本行,还可以仅识别目标文本中的部分文本行,因而,本申请还提供了S121的第二种实施方式和第三种实施方式,下面将依次该两种实施方式。

作为第二种实施方式,S121具体可以为:识别目标文本中的所有文本行。如此保证了目标文本中的所有文本内容均能够被用于进行标题段落的检测,提高了标题段落检测的准确性。

另外,由于在实际应用中标题信息通常存在于目标文本中靠前的文本行中,因而,为了提高标题段落的获取效率,可以仅识别目标文本中的靠前部分的文本行。因此,本申请还提供了S121的第三种实施方式,在该实施方式中,S121具体可以为:识别目标文本中靠前的预设数目的文本行。

其中,预设数目可以预先设定,例如,预设数目可以预先设定为40。

需要说明的是,如果目标文本中所包括的文本行总数目小于预设数目,则可以利用预设填充符号进行填充,使得识别出的文本行能够达到预设数目,如此能够保证识别出的文本行总数目始终保持相同的大小。

以上为S121的第三种实施方式,在该实施方式中,可以仅识别目标文本中靠前的预设数目的文本行,如此能够减少后续进行标题检测的数据量,有利于加快后续的标题检测过程,从而提高了标题段落的检测效率。

以上为S121的三种实施方式,在这些实施方式中,可以利用OCR识别出目标文本中的所有文本行,还可以识别出目标文本中的部分文本行,这里,将全部文本行或部分文本行定义为各个文本行。

S122:生成各个文本行的行特征。

行特征可以用于记录文本行的相关信息,而且,行特征与文本行一一对应,使得行特征能够唯一确定文本行。

另外,行特征可以包括至少一种特征信息,这些特征信息能够反映文本行的不同特征。作为示例,行特征可以包括文本特征和像素特征中的至少一个。

下面将依次介绍文本特征和像素特征的相关内容。

首先介绍文本特征的相关内容。

文本特征携带了对应文本行的文本信息;而且,文本特征可以采用多种表示方式,例如,文本特征可以采用汉字、字母、符号和数字中的至少一个进行表示,文本特征还可以采用数字索引序列进行表示,文本特征还可以采用词向量序列进行表示,等等。

为了便于解释和理解文本特征,下面将以三个示例为例进行解释和说明。

作为一示例,当文本特征采用汉字、字母、符号和数字的组合进行表示时,则文本特征可以包括在文本行中所存在的汉字、字母、符号和数字。

作为另一示例,当文本特征采用数字索引序列进行表示时,则文本特征可以包括对应文本行的各个字的数字索引。其中,数字索引是根据目标字典确定的,而且该目标字典用于记录汉字、字母、符号和数字等文本信息与数字索引之间的映射关系。

作为又一示例,当文本特征采用词向量序列进行表示时,则文本特征可以包括对应文本行的各个词的词向量,这些词向量可以采用现有的词向量生成方法来生成。

此外,为了统一各个文本特征的长度,可以将文本特征的长度设定为预设长度,如果文本行的文本特征低于预设长度,则可以利用预设符号将该文本特征补充至预设长度;如果文本行的文本特征高于预设长度,则可以从该文本特征中截取预设长度的文本信息。

其中,预设长度可以预先设定,例如,预设长度可以预先设定为40字。预设符号可以采用任一种符号,作为示例,当文本特征包括对应文本行的各个字的数字索引时,则预设符号可以是0。

以上为文本特征的相关内容。

下面介绍像素特征的相关内容。

像素特征用于表示文本行在目标文本中所具有的像素信息,因而像素特征携带了对应文本行所在文本区域的像素信息,其中,文本行所在文本区域是指文本行在目标文本中所处的区域,需要说明的是,可以利用文本行的像素特征来表示该文本行在目标文本中的位置信息。

另外,像素特征可以采用多种方法进行提取,具体可以基于目标文本的图片文件进行提取。

下面将以图2所示的像素特征提取方法为例进行说明,其中,图2为本申请实施例提供的像素特征提取方法的流程图。

作为一种实施方式,如图2所示,像素特征提取方法具体可以包括S21-S22:

S21:确定各个文本行对应的目标区域,其中,该目标区域是对应文本行在目标文本中所处的区域。

作为一种实施方式,可以基于目标文本的图片文件,确定每一文本行对应的目标区域。

S22:对于每一目标区域,将目标文本中除了该目标区域以外的其他像素位置的数据设定为预设数据值,作为文本行对应的像素特征。

预设数据值可以是任一种符号或任一种数字,而且预设数据值可以预先设定,作为示例,该预设数据值为0。

作为第一种实施方式,当目标文本用二维数组进行表示,而且预设数据值为0时,则S22具体可以为:在目标文本的二维数组中,将除了目标区域以外的其他像素位置的置零,并将置零后的二维数组作为文本行对应的像素特征。

另外,由于目标文本的图像分辨率较高,但是各个文本行的像素特征不需要较高的图像分辨率,因而,为了提高像素特征的传输速度,可以降低像素特征的分辨率,以便减少像素特征的数据量。因此,本申请还提供了S22的第二种实施方式,在该实施方式中,S22具体可以包括S221-S222:

S221:将目标文本中除了目标区域以外的其他像素位置的数据设定为预设数据值,得到文本行对应的初始像素特征。

S222:采用分辨率降低算法,将初始像素特征的分辨率降低至预设分辨率值,作为文本行对应的像素特征。

分辨率降低算法可以是任一种能够降低图像分辨率的算法,而且,分辨率降低算法可以预先设定,例如,分辨率降低算法可以是基于区域均值的下采样方法。

预设分辨率值可以预先设定,例如,预设分辨率值可以预先设定为300×300。

作为示例,当初始像素特征用二维数组进行表示,分辨率降低算法为基于区域均值的下采样方法,且预设分辨率值为300×300时,则S222具体可以为:采用基于区域均值的下采样方法,将初始像素特征的分辨率降低至300×300的二维数组,作为文本行对应的像素特征。

进一步地,上述像素特征可以是像素灰度信息。

以上为S22的第二种实施方式,在该实施方式中,可以降低各个文本行的像素特征的分辨率,以便降低各个文本行的像素特征的数据量,从而降低了包括像素特征的初始行特征的数据量,从而减少了后续需进行标题检测的数据量,有利于提高标题段落的检测效率。

以上为S22的两种实施方式,在该实施方式中,可以将目标文本中除了目标区域以外的其他像素位置的数据设定为预设数据值,作为文本行对应的像素特征。

以上为像素特征的相关内容。

基于上述提供的文本特征和像素特征的相关内容,本申请提供了S122的第一种实施方式,在该实施方式中,S122具体可以为:根据从目标文本中获取的各个文本行的文本特征和像素特征中的至少一个信息,生成各个文本行的行特征。

另外,为了进一步提高行特征的准确性,可以将文本特征和像素特征进行融合,因而,本申请还提供了S122的第二种实施方式,在该实施方式中,如图3所示,S122具体可以包括S1221-S1223:

S1221:对各个文本行的文本特征进行处理,得到各个文本行的目标文本特征。

作为一种实施方式,当文本特征包括对应文本行的各个字的数字索引时,则S1221具体可以包括S1221a-S1221b:

S1221a:利用词嵌入方法(word embedding),将各个文本行的文本特征进行处理,得到各个文本行对应的初步处理后的文本特征。

在本申请中,文本特征可以包括对应文本行的各个字的数字索引,也可以包括对应文本行的各个词的词向量,等等。下面将以文本特征包括对应文本行的各个字的数字索引为例进行说明。

word embedding可以将每个数字索引转换为128维的字向量;而且,word embedding可以是任一种词嵌入方法。另外,为了进一步提高目标文本特征的准确性和全面性,本申请还提供了一种优化的word embedding,在该优化的word embedding中,进行训练前先使用大批量样本训练获得word embedding中的权重信息,并在训练过程给予该权重进行定制化优化,以提升embedding效果。

作为示例,当在步骤S121中识别出了40行文本行,而且,各个文本行的文本特征包括40个数字索引时,则S1221a具体可以为:利用公式(1),将各个文本行的文本特征所包括的各个数字索引转换为字向量,得到各个文本行对应的初步处理后的文本特征。

w_em=word_embedding(word_input) (1)

式中,word_input表示由40个文本行的文本特征构成的40×40维的数字索引矩阵,且各个文本特征包括40个数字索引;word_embedding(·)表示词嵌入方法;w_em表示由40个文本行对应的初步处理后的文本特征构成的40×40×128维的字向量索引矩阵,而且w_em矩阵中各个元素分别表示各个文本行对应的初步处理后的文本特征,且每一文本行对应的初步处理后的文本特征均是40×128维。

S1221b:根据各个文本行对应的初步处理后的文本特征,利用长短期记忆网络(Long Short-Term Memory,LSTM)进行语义提取,得到各个文本行的目标文本特征。

LSTM能够从文本行的初步处理后的文本特征中提取出该文本行的语义特征。另外,每个文本行对应的初步处理后的文本特征均需要独立地利用LSTM进行语义提取。

作为示例,当步骤S1221a得到了由40个文本行对应的初步处理后的文本特征构成的40×40×128维的字向量索引矩阵时,则S1221b具体可以为:根据各个文本行对应的初步处理后的文本特征,利用公式(2)进行语义提取,得到各个文本行的目标文本特征。

w_lstmi=LSTM(w_emi) (2)

式中,w_lstmi表示第i个文本行的128维的目标文本特征,且w_lstmi是w_lstm矩阵中第i个元素,w_lstm表示由40个文本行的目标文本特征构成的40×128维的语义矩阵;LSTM(·)表示长短期记忆网络;w_emi表示第i个文本行对应的初步处理后的文本特征,且w_emi是矩阵w_em中的第i个元素;i为正整数,且1≤i≤40。

在上述示例中,当对每个文本行对应的初步处理后的文本特征分别利用LSTM进行语义提取时,能够将各个文本行的40×128维的初步处理后的文本特征降维至128维的目标文本特征,以便使得128维的目标文本特征能够包含对应文本行的整行文本语义信息,如此,可以使得由40个文本行对应的初步处理后的文本特征构成的40×40×128维的字向量索引矩阵能够降维至由40个文本行的目标文本特征构成的40×128维的语义矩阵。

需要说明的是,上述提供的S1221的实施方式中是以文本特征包括对应文本行的各个字的数字索引为例进行说明的,然而,上述S1221的具体实施方式不仅适用于包括数字索引的文本特征,还适用于包括其他文本信息的文本特征。为了简要起见,在此不再赘述。

以上为S1221的具体实施方式,在该实施方式中,可以将各个文本行的文本特征依次利用word embedding和LSTM进行处理,得到各个文本行的目标文本特征。

S1222:对各个文本行的像素特征进行处理,得到各个文本行的目标像素特征。

在本申请中,各个文本行的像素特征均可以采用相同的处理方法,为了便于解释和理解,下面将以一个文本行的像素特征的处理过程为例进行说明。

作为一种实施方式,如图4所示,S1222具体可以包括S1222a-S1222e:

S1222a:将目标文本行的像素特征作为待处理像素特征。

目标文本行可以是目标文本中的任一文本行,例如,当文本行的总数目为40时,则目标文本行可以是第i个文本行,i是正整数且1≤i≤40。

S1222b:根据待处理像素特征,使用卷积算法和池化算法进行特征提取及降维,得到处理后的像素特征。

卷积算法可以是任一种卷积算法。作为示例,卷积算法可以是二维卷积算法,且其卷积核为7×7维的矩阵。

池化算法可以是任一种池化算法。作为示例,池化算法可以是2×2维的最大池化(简称,max池化)。

S1222c:判断目标文本行的像素特征所经历的卷积和池化的次数是否达到预设次数,若是,则执行S1222e;若否,则执行S1222d。

预设次数可以预先设定,例如,预设次数可以根据具体应用场景确定。作为具体示例,预设次数可以预先设定为24。

S1222d:将处理后的像素特征作为待处理像素特征,返回执行S1222b步骤。

S1222e:根据处理后的像素特征,利用铺平算法进行矩阵铺平并利用全连接算法进行全连接,得到目标文本行的目标像素特征。

铺平算法用于将多维矩阵铺平为一维矩阵。例如,铺平算法可以使用reshape函数实现。

作为示例,如果利用铺平算法对12×12的矩阵进行铺平,则可以得到1×144(或者,144×1)的一维矩阵。

全连接算法用于对矩阵进行降维。作为示例,如果利用全连接算法对1×144(或者,144×1)的一维矩阵进行降维,可以得到1×128(或者,128×1)的矩阵。

以上为S1222的实施方式的具体步骤,为了便于解释和理解上述S1222的实施方式,下面结合示例进行说明。

假设文本行的总数目为40;每一文本行的像素特征为300×300维的矩阵;卷积算法是二维卷积算法,且其卷积核为7×7维的矩阵;池化算法是2×2维的max池化;预设次数为24。

作为示例,基于上述假设,S1222具体可以为:根据目标文本行的像素特征,使用公式(3)-(6)进行特征提取及降维并利用公式(7)进行全连接,得到目标文本行的目标像素特征。

p_cnni1=CNN(pici) (3)

p_pooli1=MaxPool(p_cnni1) (4)

……

p_cnnij=CNN(p_poolij) (5)

p_poolij=MaxPool(p_cnnij) (6)

……

p_cnni=mul(p_poolie,W)+b (7)

式中,pici表示第i个文本行(也就是目标文本行)的像素特征;i为正整数,且1≤i≤40;CNN(·)表示二维卷积算法;p_cnni1表示对第i个文本行的像素特征进行第一次卷积后的结果;MaxPool(·)表示2×2的max池化;p_pooli1表示对第i个文本行的像素特征进行第一次卷积和第一次池化后的结果;p_cnnij表示对第i个文本行的像素特征进行第j次卷积后的结果;p_poolij表示对第i个文本行的像素特征进行第j次卷积和第j次池化后的结果;j表示进行卷积和进行池化的次数,j为正整数,且1≤j≤24;p_poolie表示对第i个文本行的像素特征进行最后一次卷积和最后一次池化后的结果(例如,当预设次数为24时,则p_poolie表示对第i个文本行的像素特征进行第24次卷积和第24次池化后的结果);mul(·,W)+b表示全连接算法;W为144×128维的权值矩阵;b为1×128维的偏置矩阵;p_cnni为第i个文本行的目标像素特征,且该目标像素特征为1×128维。

在上述示例中,先将目标文本行(也就是,第i个文本行)的300×300像素特征,利用公式(3)-(6)进行24次卷积和池化,得到处理后的像素特征,且该处理后的像素特征为12×12维的矩阵;再将12×12维的处理后的像素特征,利用公式(7)进行全连接,得到目标文本行的目标像素特征,且该目标像素特征为1×128维的矩阵。

需要说明的是,上述S1222的实施方式是以获取目标文本的目标像素特征为例进行说明的,然而,在本申请中可以采用上述实施方式来获取任一个文本行的目标像素特征。

基于上述的示例可知,对于由40个文本行的像素特征构成的40×300×300维的像素矩阵来说,经过上述示例所示的卷积、池化和全连接过程后,将得到40×128维的目标像素矩阵。

以上为S1222的具体实施方式,在该实施方式中,可以将各个文本行的像素特征,利用卷积算法、池化算法和全连接算法,得到各个文本行的目标像素特征。

S1223:将各个文本行的目标文本特征和目标像素特征进行融合,得到各个文本行的行特征。

在本申请中,可以采用多种算法将同一文本行的目标文本特征和目标像素特征进行融合,例如,在本申请中,可以采用拼接算法将目标文本特征和目标像素特征进行融合。

作为一种实施方式,当文本行的总数目为40,每一文本行的目标文本特征为128维、目标像素特征为128维时,则S1223具体可以为:利用公式(8),将各个文本行的目标文本特征和目标像素特征进行融合,得到各个文本行的行特征。

rowi=Concat(w_lstmi,p_cnni) (8)

式中,w_lstmi表示第i个文本行的目标文本特征;i为正整数,且1≤i≤40;p_cnni为第i个文本行的目标像素特征;Concat(·)表示拼接算法;rowi表示第i个文本行的行特征,该行特征为256维,且rowi是矩阵row中的第i个元素;row表示由40个文本行的行特征构成40×256维的行特征矩阵。

以上为S1223的实施方式,在该实施方式中,可以利用拼接算法将各个文本行的目标文本特征和目标像素特征进行融合,得到各个文本行的行特征。

需要说明的是,S1221和S1222之间没有固定的执行顺序,可以依次执行S1221和S1222,也可以依次执行S1222和S1221,还可以同时执行S1221和S1222。

以上为S122的第二种实施方式,在该实施方式中,可以将每一文本行的文本特征和像素特征进行融合,得到该文本行的行特征,如此能够保证行特征的准确性以及全面性。

S123:根据各个文本行的行特征,将目标文本划分为各个文本段落。

可以根据各个文本行的行特征所包括的文本特征,将目标文本中语义相关度较高的文本行划分到相同文本段落中,得到各个文本段落,这些文本段落中的每一文本段落包括的是语义相关度高的文本内容。

或者,可以根据各个文本行的行特征所包括的像素特征,将目标文本中区域位置较近的文本行划分到相同文本段落中,得到各个文本段落,这些文本段落的每一文本段落包括的是区域位置近的文本内容,可以理解的是,通常情况下,区域位置近的文本内容的语义相关度也较高。

或者,可以根据各个文本行的行特征所包括的文本特征和像素特征,将同时满足语义相关度高且区域位置近的一些文本行划分到同一文本段落,得到各个文本段落。

接下来,本申请提供了S123的一种实施方式,在该实施方式中,S123具体可以包括S1231-S1232:

S1231:根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征。

行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在目标文本中的位置信息;进一步地,行间特征还携带了对应的相邻两个文本行之间的语义相似度信息和/或对应的相邻两个文本行之间的位置邻近信息。

作为一种实施方式,S1231具体可以为:根据各个文本行的行特征,采用卷积算法,生成各个文本行中每相邻两个文本行的行间特征。

卷积算法可以是任一种卷积算法,例如,卷积算法可以是一维卷积算法,且卷积核为2维矩阵。

为了便于解释和理解S1231,下面将结合示例进行说明。

作为示例,当文本行的总数目为40,且row表示由40个文本行的行特征构成40×256维的行特征矩阵时,则S1231具体可以为:根据各个文本行的行特征,利用公式(9),生成各个文本行中每相邻两个文本行的行间特征。

d_row=CNN(row) (9)

式中,row表示由40个文本行的行特征构成40×256维的行特征矩阵;CNN(·)表示一维卷积算法,且其卷积核为2维矩阵;d_row表示由39个行间特征构成的39×256维矩阵。

需要说明的是,在本申请中行间特征仅用于表示相邻两个文本行之间的语义相似度信息,因而对于40个文本行来说,根据该40个文本行可以找到39对相邻文本行,如此便可以确定39个行间特征。

以上为S1231的具体实施方式,在该实施方式中,可以根据各个文本行的行特征,利用卷积核为2维矩阵的一维卷积算法,生成各个文本行中每相邻两个文本行的行间特征。

S1232:根据各个文本行中每相邻两个文本行的行间特征,将目标文本划分为各个文本段落。

由于在实际应用的文本段落中,相邻两个文本行之间是相互关联的,因而,可以通过判断相邻两个文本之间是否具有相互关联来确定该相邻两个文本行是否属于同一文本段落。因而,本申请提供了S1232的一种实施方式,在该实施方式中,S1232具体可以包括S12321-S12322:

S12321:根据各个文本行中每相邻两个文本行的行间特征,预测每相邻两个文本行之间的关联概率。

关联概率反映了对应的相邻两个文本行之间的语义关联程度;而且,关联概率可以采用多种表示方式。

作为示例,关联概率可以使用一个参数进行表示,例如,当相邻两个文本行之间的关联概率为0.7时,则表示该相邻两个文本行之间语义关联程度达到0.7。另外,关联概率也可以使用加和为1的一对参数进行表示,例如,当相邻两个文本行之间的关联概率为(0.3,0.7)时,则表示该相邻两个文本行之间语义不关联程度达到0.3,且语义关联程度达到0.7。

另外,由于每个行间特征可能与除了该行间特征以外的其他行间特征之间会相互影响,因而,可以利用除了该行间特征以外的其他行间特征对各个行间特征进行语义扩充,以便得到各个扩充后的行间特征,使得该扩充后的行间特征能够更准确而全面的描述相邻文本行之间的语义相似度。

基于上述内容,本申请提供了S12321的一种实施方式,在该实施方式中,S12321具体可以包括S12321a-S12321c:

S12321a:根据各个文本行中每相邻两个文本行的行间特征,利用预设扩充算法进行语义扩充,得到各个文本行中每相邻两个文本行的行间扩充特征。

行间扩充特征是指对行间特征进行语义扩充后得到的特征。

预设扩充算法可以是任一种能够将行间特征进行语义扩充的算法,而且,预设扩充算法可以预先设定。

作为示例,预设扩充算法可以使用双向长短期记忆网络(Bi-directional Long Short-Term Memory,Bi-LSTM)实现。其中,Bi-LSTM可以对行间特征的感受野进行扩充,而且,在该语义扩充过程中,可以将其正向LSTM特征与负向LSTM特征进行拼接得到行间扩充特征。例如,当利用Bi-LSTM对256维行间特征进行语义扩充时,可以得到512维行间扩充特征,此时该512维行间扩充特征是由256维正向LSTM特征和256维负向LSTM特征进行拼接得到的。

基于上述内容,作为一种实施方式,当预设扩充算法使用Bi-LSTM实现,且d_row表示由39个行间特征构成的39×256维矩阵时,则S12321a具体可以为:根据各个文本行中每相邻两个文本行的行间特征,利用公式(10)进行语义扩充,得到行间扩充特征。

d_row_lstm=Bi-LSTM(d_row) (10)

式中,d_row表示由39个行间特征构成的39×256维矩阵;Bi-LSTM(·)表示双向长短期记忆网络;d_row_lstm表示由39个行间扩充特征构成的39×512维矩阵。

以上为S1232a的具体实施方式,在该实施方式中,可以根据各个文本行中每相邻两个文本行的行间特征,利用预设扩充算法进行语义扩充,得到各个文本行中每相邻两个文本行的行间扩充特征。

S12321b:根据各个文本行中每相邻两个文本行的行间扩充特征,使用全连接算法进行降维,得到各个文本行中每相邻两个文本行的行间降维特征。

作为一种实施方式,当d_row_lstm表示由39个行间扩充特征构成的39×512维矩阵时,则S12321b具体可以为:根据各个文本行中每相邻两个文本行的行间扩充特征,使用公式(11),得到各个文本行中每相邻两个文本行的行间降维特征。

d_row_muli=mul(d_row_lstmi,W)+b (11)

式中,d_row_lstmi表示第i对相邻文本行的512维行间扩充特征,且d_row_lstmi是矩阵d_row_lstm中的第i个元素;i为正整数,且1≤i≤39;d_row_lstm表示由39个行间扩充特征构成的39×512维矩阵;mul(·,W)+b表示全连接算法;W为512×2维的权值矩阵;b为2维的偏置矩阵;d_row_muli表示第i对相邻文本行的2维行间降维特征,且d_row_muli是矩阵d_row_mul的第i个元素;d_row_mul表示由39个行间降维特征构成的39×2维矩阵。

S12321c:根据各个文本行中每相邻两个文本行的行间降维特征,利用softmax函数,预测各个文本行中每相邻两个文本行之间的关联概率。

作为一种实施方式,当d_row_mul表示由39个行间降维特征构成的39×2维矩阵时,则S12321c具体可以为:根据各个文本行中每相邻两个文本行的行间降维特征,利用公式(12),预测各个文本行中每相邻两个文本行之间的关联概率。

d_row_resulti=Softmax(d_row_muli) (12)

式中,d_row_muli表示第i对相邻文本行的2维行间降维特征;Softmax(·)表示softmax函数;d_row_resulti表示第i对相邻文本行的2维关联概率,且d_row_resulti是矩阵d_row_result的第i个元素;d_row_result表示由39个关联概率构成39×2维矩阵。

需要说明的是,在上述示例中,每对相邻文本行的关联概率包括2维概率,其中,第1维概率用于表示相邻两个文本行之间语义不关联程度;第2维概率用于表示相邻两个文本行之间语义关联程度。

以上为S12321的具体实施方式,在该实施方式中,可以根据各个文本行中每相邻两个文本行的行间特征,依次利用Bi-LSTM、全连接算法和softmax函数,预测每相邻两个文本行之间的关联概率。

S12322:根据每相邻两个文本行之间的关联概率,将所述目标文本划分为各个文本段落。

文本段落中所包括的文本行的数目不固定,例如,文本段落可以包括一个文本行,也可以包括至少两个连续文本行。其中,连续文本行是指位置相邻的文本行。例如,三个连续文本行是指第一个文本行与第二个文本行相邻,且第二个文本行和第三个文本行相邻。

另外,为了提高文本段落的划分准确度,可以使得划分所得的文本段落具有如下的特点:各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;

第一类型的文本段落包括一个文本行,且满足第一条件;

第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;

第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;

其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。

需要说明的是,第一阈值和第二阈值均可以预先设定,例如,第一阈值和第二阈值均可以预先根据应用场景设定。

另外,在本申请中可以按照文本行在目标文本中的行顺序进行文本段落的划分,以便依次得到第一文本段落、第二文本段落……;而且,由于每个文本段落的生成过程是相同的,因而为了便于解释和理解文本段落的划分过程,下面将结合图5以对4个文本行进行目标文本段落的划分过程为例进行说明。

需要说明的是,在图5所示示例中,4个文本行用于表示目标文本中还未划分至任一文本段落中的文本行。目标文本段落用于表示需要根据该4个文本行进行划分得到的文本段落,而且,目标文本段落可以是第一文本段落、第二文本段落……

作为示例,S12322具体可以包括S12322a-S12322l:

S12322a:将第一个文本行划分到目标文本段落中。

S12322b:判断第一个文本行和第二个文本行之间的关联概率是否大于第一阈值,若是,则执行步骤S12322c;若否,则执行步骤S12322l。

S12322c:将第二个文本行划分到目标文本段落中。

S12322d:判断第二个文本行和第三个文本行之间的关联概率是否大于第一阈值,若是,则执行步骤S12322e;若否,则执行步骤S12322l。

S12322e:将第三个文本行划分到目标文本段落中。

S12322f:判断目标文本段落的段内文本行的关联概率的平均值是否大于第二阈值,若是,则执行步骤S12322h;若否,则执行步骤S12322g。

S12322g:将第三个文本行从目标文本段落中剔除,并继续执行步骤S12322l。

S12322h:判断第三个文本行和第四个文本行之间的关联概率是否大于第一阈值,若是,则执行步骤S12322i;若否,则执行步骤S12322l。

S12322i:将第四个文本行划分到目标文本段落中。

S12322j:判断目标文本段落的段内文本行的关联概率的平均值是否大于第二阈值,若是,则执行步骤S12322l;若否,则执行步骤S12322k。

S12322k:将第四个文本行从目标文本段落中剔除,并继续执行步骤S12322l。

S12322l:结束目标文本段落的划分过程,并确定当前的目标文本段落为最终的目标文本段落。

基于上述示例可知,上述示例介绍了根据4个文本行进行目标文本段落划分的过程。然而,由于在本申请中可以将任一数目的文本行划分成任一数目的文本段落,而且每个文本段落的划分过程均可以按照上述示例提供的目标文本段落的划分过程进行,因而,为了简要起见,下面将结合上述示例对每个文本段落的划分过程进行具体介绍。

当目标文本中存在至少一个文本行还未划分至任一文本段落内时,则文本段落的划分过程具体可以按照以下四种划分情况进行划分:

第一种划分情况是在目标文本中行顺序第一靠前的文本行可以按照上述示例中的第一个文本行所涉及的划分步骤进行划分;

第二种划分情况是在目标文本中行顺序第二靠前的文本行可以按照上述示例中的第二个文本行所涉及的划分步骤进行划分;

第三种划分情况是在目标文本中行顺序第三靠前的文本行以及其后的文本行均可以按照上述示例中的第三个文本行所涉及的划分步骤进行划分;

第四种划分情况是在目标文本中行顺序最靠后的一个文本行可以按照上述示例中的第四个文本行所涉及的划分步骤进行划分。

需要说明的是,第一种划分情况所适用的场景是目标文本中存在至少一个文本行还未划分至任一文本段落内;第二种划分情况所适用的场景是目标文本中存在至少两个文本行还未划分至任一文本段落内;第三种划分情况所适用的场景是目标文本中存在至少四个文本行还未划分至任一文本段落内;第四种划分情况所适用的场景是目标文本中存在至少三个文本行还未划分至任一文本段落内。

以上为S12322的具体实施方式,在该实施方式中,可以根据每相邻两个文本行之间的关联概率,将目标文本划分为各个文本段落。

以上为S1232的具体实施方式,在该实施方式中,可以根据各个文本行中每相邻两个文本行的行间特征,将目标文本划分为各个文本段落。

以上为S123的两种具体实施方式,在该实施方式中,可以根据各个文本行的行特征,将目标文本划分为各个文本段落。

以上为S12的具体实施方式,在该实施方式中,可以识别目标文本中的各个文本行,并生成各个文本行的行特征,以便根据各个文本行的行特征,将目标文本划分为各个文本段落。

下面介绍S13的具体实施方式。

在S13中,标题检测的目的是从至少一个文本段落中找出对目标文本具有代表性的文本段落,以使找出的文本段落能够提供准确地标题信息。

作为一种实施方式,S13具体可以为:

S131:将各个文本段落或各个文本段落中的前N个段落,作为各个待检测段落。

其中,N为预先设定的值,而且N可以根据应用场景设定。例如,N可以预先设定为10。

在S131中可以将步骤S12获得的各个文本段落分别作为各个待检测段落,以便保证标题检测过程的完整性和全面性。

另外,由于在实际应用中能够提供标题信息的文本段落通常位于目标文档中靠前的位置,因而,为了提高标题段落的检测效率,在S131中还可以先从步骤S12获得的各个文本段落中选取前N个段落,再将该前N个段落作为各个待检测段落。

以上为S131的具体实施方式。

S132:生成各个待检测段落的初始段落特征。

初始段落特征携带了对应待检测段落的语义信息、以及对应待检测段落在目标文本中的位置信息;而且,初始段落特征可以从待检测段落所包括的文本内容以及像素特征中提取。

由于在实际应用中标题信息通常位于每个待检测段落中靠前的位置,因而,为了减少后续标题检测过程的数据量,以便提高标题段落的检测效率,可以根据每个待检测段落中靠前的文本行进行语义信息的提取。如此,本申请提供了S132的一种实施方式,在该实施方式中,S132具体可以为:根据各个待检测段落中前M个文本行,生成各个待检测段落的初始段落特征。

其中,M可以预先设定,例如,M可以预先设定为10。

另外,由于LSTM能够对待检测段落进行语义提取,因而,作为一种实施方式,S132具体可以为:根据各个待检测段落或各个待检测段落中前M个文本行,利用LSTM算法进行语义提取,得到各个待检测段落的初始段落特征。

在该实施方式中,由于利用LSTM算法对待检测段落进行语义加工之后获得的最后一个节点的信息能够准确地描述待检测段落的语义信息,因而,在该实施方式中,可以将该最后一个节点的信息作为该待检测段落的初始段落特征。

为了便于解释和理解上述实施方式,下面将结合示例进行说明。

作为示例,当待检测段落的总数目为10个,每个段落包括10个文本行,且每个文本行为256维时,则S132具体可以为:根据各个待检测段落,利用公式(13)进行语义加工,得到各个待检测段落的初始段落特征。

para_infori=LSTM(para_rowi) (13)

式中,para_rowi表示第i个待检测段落的10×256维矩阵;i为正整数,且1≤i≤10;LSTM(·)表示LSTM算法;para_infori表示第i个待检测段落的初始段落特征,且para_infori是矩阵para_infor的第i个元素;para_infor表示由10个待检测段落的初始段落特征构成的10×10×256的初始段落矩阵。

以上为S132的具体实施方式,在该实施方式中,可以生成各个待检测段落的初始段落特征。

S133:根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征。

目标段落特征携带了对应待检测段落的语义信息、与对应待检测段落的相邻段落的语义信息、以及对应待检测段落与相邻段落在目标文本中的位置信息。

由于各个待检测段落之间是具有语义相关性的,尤其待检测段落与其相邻段落之间的语义相关性更高,因而,可以根据待检测段落以及该待检测段落的相邻段落的语义信息得到该待检测段落的目标段落特征。因此,本申请提供了S133的一种实施方式,在该实施方式中,S133具体可以包括S1331-S1332:

S1331:根据各个待检测段落的初始段落特征,利用卷积算法进行语义扩充,得到各个待检测段落的段落扩充特征。

其中,卷积算法可以是任一种能够将待检测段落和其相邻段落进行特征融合的方法,以便提高该待检测段落的感受野;而且卷积算法可以预先设定,例如,当卷积算法预先设定为一维卷积算法,且卷积核为3维时,该卷积算法能够将待检测段落的感受野拓展至前一个相邻段落以及后一个相邻段落。

作为示例,当卷积算法为卷积核为3维的一维卷积算法,且para_infor表示由10个待检测段落的初始段落特征构成的10×10×256的初始段落矩阵时,则S1331具体可以为:根据各个待检测段落的初始段落特征,利用公式(14)进行语义扩充,得到各个待检测段落的段落扩充特征。

para_cnn=CNN(para_infor) (14)

式中,para_infor表示由10个待检测段落的初始段落特征构成的10×10×256的初始段落矩阵;CNN(·)表示卷积核为3维的一维卷积算法;para_cnn表示由10个待检测段落的段落扩充特征构成的10×10×256的段落扩充矩阵。

S1332:根据各个待检测段落的段落扩充特征,利用Bi-LSTM算法进行语义加工,得到各个待检测段落的目标段落特征。

其中,Bi-LSTM算法能够基于时序对待检测段落间进行语义加工(如图6中61所示),以便将正向LSTM结果和反向LSTM结果进行拼接得到该待检测段落的目标段落特征。

作为示例,当para_cnn表示由10个待检测段落的段落扩充特征构成的10×10×256的段落扩充矩阵时,S1332具体可以为:根据各个待检测段落的段落扩充特征,利用公式(15)进行语义加工,得到各个待检测段落的目标段落特征。

para_lstm=Bi-LSTM(para_cnn) (15)

式中,para_cnn表示由10个待检测段落的段落扩充特征构成的10×10×256维的段落扩充矩阵;Bi-LSTM(·)表示Bi-LSTM算法;para_lstm表示由10个待检测段落的目标段落特征构成的10×512维的目标段落特征矩阵。

需要说明的是,当利用Bi-LSTM算法对10×256维段落扩充特征进行语义加工之后,能够得到512维的目标段落特征。

以上为S133的具体实施方式,在该实施方式中,可以根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征。

S134:根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。

由于每个段落中是否包括标题的确定过程与已被检测出的包括标题的文本段落具有很高的关联度,因而,在待检测段落的标题检测过程中,应该考虑已经被检出的包括标题的文本段落的语义信息。如此,本申请还提供了S134的一种具体实施方式,在该实施方式中,S134具体可以包括S134a-S134b:

S134a:按照各个待检测段落在所述目标文本中的段落顺序,依次将每一待检测段落作为当前段落。

S134b:根据当前段落的目标段落特征以及当前段落之前的各个待检测段落的目标段落特征,判断当前段落是否为标题所在段落。

在该实现方式中,可以基于当前段落及其之前段落的目标段落特征,分析当前段落与其之前段落之间的语义相关性以及这些段落在目标文本中的位置信息,从而判断当前段落是否为标题段落。可以理解的是,如果当前段落之前已经存在标题段落,那么当前段落与其之前的标题段落越相关、则当前段落越可能是标题段落,而且,如果当前段落越是在目标文本的靠前位置、则当前段落越可能是标题段落,因而,基于对当前段落与其之前段落的语义分析和段落位置分析,可以准确的判断出当前段落是否为标题段落。

因此,作为一种实施方式,S134b具体可以为:生成当前段落对应的辅助特征,该辅助特征包括辅助段落的目标段落特征,该辅助段落为当前段落之前的各个待检测段落中的一个段落且该段落属于标题段落的概率最大;根据当前段落的目标段落特征以及辅助特征,判断当前段落是否为标题所在段落。

为了提高标题段落的检测结果的准确性,可以使用双向最大递归概率网络(Bi direction Max-prob recurrent network)算法对当前段落的目标段落特征进行处理,并基于处理结果,得到当前段落属于标题段落的目标概率,以便根据该目标概率确定当前段落是否属于标题段落。

为了便于解释和理解上述S134的实施方式S134a-S134b,下面将结合图6和图7进行说明。

作为示例,假设10个待检测段落在所述目标文本中的段落顺序为第1个待检测段落至第10个待检测段落,则S134a-S134b具体可以包括S1341-S1348:

S1341:将第1个待检测段落作为当前段落,并初始化辅助特征。

辅助特征的初始化过程具体是指:将辅助段落的目标段落特征置零,并将辅助段落属于标题段落的概率置零。

S1342:根据当前段落的目标段落特征以及辅助特征,得到当前段落属于标题段落的概率。

当前段落属于标题段落的概率用于反映当前段落属于标题段落的可能性大小;而且,当前段落属于标题段落的概率可以采用多种表示方式。

作为示例,当前段落属于标题段落的概率可以使用一个参数进行表示,例如,如果当前段落属于标题段落的概率为0.8,则表示当前段落属于标题段落的概率达到0.8。另外,当前段落属于标题段落的概率也可以使用加和为1的一对参数进行表示,例如,如果当前段落属于标题段落的概率为(0.2,0.8)时,则表示当前段落不属于标题段落的概率达到0.2,且当前段落属于标题段落的概率达到0.8。

作为一种实施方式,S1342具体可以包括S1342a-S1342b:

S1342a:根据当前段落的目标段落特征以及辅助特征,利用Bi-MRN算法进行特征拼接,得到当前段落的段落拼接特征。

如图6所示,在Bi-MRN算法中可以将当前段落的目标段落特征以及辅助特征进行拼接。需要说明的是,在图6的62中所示虚线箭头仅代表流程走向。

作为示例,假设当前段落的目标段落特征为512维时,则S1342a具体可以为:根据当前段落的目标段落特征以及辅助特征,利用公式(16)进行特征拼接,得到当前段落的段落拼接特征。

para_mrni=Concat(para_lstmi,MaxProb) (16)

式中,para_lstmi表示第i个待检测段落(也就是当前段落)的目标段落特征,且para_lstmi是para_lstm矩阵的第i个元素;i为正整数,且1≤i≤10;para_lstm表示由10个待检测段落的目标段落特征构成的10×512的目标段落特征矩阵;MaxProb表示辅助段落的目标段落特征;Concat(·)表示Bi-MRN算法所使用的计算公式,用于将第i个待检测段落(也就是当前段落)512维目标段落特征和辅助段落的512维目标段落特征进行拼接;para_mrni表示第i个待检测段落(也就是当前段落)的段落拼接特征,且para_mrni是1024维。

S1342b:根据当前段落的段落拼接特征,依次利用全连接算法进行全连接和Softmax算法,得到当前段落属于标题段落的概率。

作为示例,假设当前段落的段落拼接特征为1024维时,则S1342a具体可以为:根据当前段落的段落拼接特征,依次利用公式(17)进行全连接和公式(18),得到当前段落属于标题段落的概率。

para_muli=mul(para_mrni,W)+b (17)

para_resuliti=Softmax(para_muli) (18)

式中,para_mrni表示第i个待检测段落(也就是当前段落)的段落拼接特征;mul(·,W)+b表示全连接算法;W为1024×2维的权值矩阵;b为2维的偏置矩阵;para_muli表示第i个待检测段落(也就是当前段落)的全连接结果;Softmax(·)表示softmax函数;para_resuliti表示第i个待检测段落(也就是当前段落)属于标题段落的概率,且该概率为2维。

需要说明的是,在上述示例中,第i个待检测段落(也就是当前段落)属于标题段落的概率包括2维概率,其中,第1维概率用于表示第i个待检测段落(也就是当前段落)不属于标题段落的概率值;第2维概率用于表示第i个待检测段落(也就是当前段落)属于标题段落的概率值。

以上为S1342的具体实施方式,在该实施方式中,可以根据当前段落的目标段落特征以及辅助特征,得到当前段落属于标题段落的概率。

S1343:根据当前段落属于标题段落的概率,判断当前段落是否为标题所在段落。

由于当前段落属于标题段落的概率可以采用不同的表示方式,因而相应地S1343也将采用不同的实施方式,下面将以两个实施方式为例进行说明。

作为一种实施方式,假设当前段落属于标题段落的概率使用一个参数进行表示时,则S1343具体可以为:判断当前段落属于标题段落的概率是否达到预设概率值,如果是,则确定当前段落为标题所在段落;如果否,则确定当前段落不是标题所在段落。

其中,预设概率值可以预先设定,例如,预设概率值可以预先设定为0.5。

作为另一种实施方式,假设当前段落属于标题段落的概率为2维概率(也就是,当前段落属于标题段落的概率使用加和为1的一对参数进行表示)时,则S1343具体可以为:判断当前段落属于标题段落的概率中第2维概率值是否大于第1维概率值,如果是,则确定当前段落为标题所在段落;如果否,则确定当前段落不是标题所在段落。

需要说明的是,在本申请中可以检测出至少一个标题段落。

以上为S1343的具体实施方式,在该实施方式中,可以根据当前段落属于标题段落的概率,判断当前段落是否为标题所在段落。

S1344:判断当前段落属于标题段落的概率是否超过了辅助段落属于标题段落的概率,若是,则执行步骤S1345;若否,则执行步骤S1346。

S1345:根据当前段落的目标段落特征和当前段落属于标题段落的概率,更新辅助特征,并继续执行S1346。

在S1345中,可以利用当前段落的目标段落特征更新辅助特征所包括的辅助段落的目标段落特征,并利用当前段落属于标题段落的概率更新辅助特征所包括的辅助段落属于标题段落的概率。

S1346:判断当前段落是否是第10个待检测段落,若是,则执行S13418;若否,则执行S1347。

S1347:利用当前段落的下一个待检测段落更新当前段落,并继续执行步骤S1342。

作为示例,假设当前段落为第3个待检测段落时,则S1347具体可以为:将第4个待检测段落作为当前段落,并继续执行步骤S1342。

S1348:结束对目标文本的标题检测过程。

需要说明的是,上述实施方式是以根据10个待检测段落进行标题检测的过程为例进行介绍的。由于在本申请中不限定待检测段落的总数目,因而,在本申请中可以对任一数目的待检测段落进行标题检测,而且该检测过程与上述实施例提供的检测过程相同,为了简要起见,在此不再赘述。

需要说明的是,在本申请中S1343的执行顺序不固定,而且S 1343只需要在步骤S1343之后执行即可。

以上为S134的具体实施方式,在该实施方式中,可以根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。

以上为S13的具体实施方式,在该实施方式中,可以根据各个文本段落之间的语义相关性以及各个文本段落在目标文本中的位置信息,对各个文本段落进行标题检测,得到目标文本中的各个标题所在的文本段落。

以上为本申请方法实施例提供的标题段落检测方法的具体实施方式,可以先将目标文本中语义相关度高和/或区域位置近的文本内容划分到同一个文本段落中,再根据各个文本段落之间的语义相关性以及各个文本段落在目标文本中的位置信息进行标题检测,得到该目标文本中的各个标题所在的文本段落。由于标题所在的文本段落中不仅包括了标题,还包括了与标题语义相关度较高的其他文本内容,而且标题还与除标题所在段落以外的其它文本段落的内容相关,此外,标题通常位于目标文本的靠前位置,因而,在标题所在段落的检测过程中,可以依赖文本段落之间所具有的语义相关性以及各个文本段落在目标文本中的位置信息,进而可以在标题所在段落中找到标题信息,相比于现有技术,本申请无需依赖标题库,避免了因目标文本的标题不在标题库而导致确定的标题不准确的问题,从而提高了标题提取结果的准确性。

基于上述方法实施例提供的标题段落检测方法的任一实施方式,本申请还提供了一种标题段落检测装置,下面将结合附图进行解释和说明。

装置实施例

参见图8,该图为本申请实施例提供的标题段落检测装置的结构示意图。

本申请实施例提供的标题段落检测装置800,包括:

目标文本获取单元801,用于获取待检测的目标文本;

文本段落划分单元802,用于将所述目标文本划分为各个文本段落,所述文本段落包括语义相关度高和/或区域位置近的文本内容;

标题段落检测单元803,用于根据各个文本段落之间的语义相关性以及各个文本段落在所述目标文本中的位置信息,对各个文本段落进行标题检测,得到所述目标文本中的各个标题所在的文本段落。

作为一种实施方式,为了提高标题提取结果的准确性,所述文本段落划分单元802,包括:

文本行识别子单元,用于识别所述目标文本中的全部或部分文本行,作为各个文本行;

行特征生成子单元,用于生成各个文本行的行特征,所述行特征包括文本特征和/或像素特征,所述文本特征携带了对应文本行的文本信息,所述像素特征携带了对应文本行所在文本区域的像素信息;

文本段落划分子单元,用于根据各个文本行的行特征,将所述目标文本划分为各个文本段落。

作为一种实施方式,为了提高标题提取结果的准确性,所述文本段落划分子单元,包括:

行间特征生成模块,用于根据各个文本行的行特征,生成各个文本行中每相邻两个文本行的行间特征,所述行间特征携带了对应的相邻两个文本行的语义信息和/或对应的相邻两个文本行在所述目标文本中的位置信息;

文本段落划分模块,用于根据各个文本行中每相邻两个文本行的行间特征,将所述目标文本划分为各个文本段落。

作为一种实施方式,为了提高标题提取结果的准确性,所述各个文本段落包括第一类型的文本段落、第二类型的文本段落、第三类型的文本段落中的至少一种;

所述第一类型的文本段落包括一个文本行,且满足第一条件;

所述第二类型的文本段落包括两个连续文本行,且满足第二条件和第一条件、或者满足第二条件和第三条件;

所述第三类型的文本段落包括三个或三个以上的连续文本行,且满足第二条件和第四条件、以及满足第一条件或第三条件;

其中,所述第一条件为段间文本行的关联概率小于或等于第一阈值,所述段间文本行为所述文本段落中的最后一个文本行与所述最后一个文本行的下一文本行;所述第二条件为所述文本段落中每相邻两个文本行的关联概率大于第一阈值;所述第三条件为所述段间文本行的关联概率大于第一阈值、所述段间文本行的关联概率与各个段内文本行的关联概率的平均值小于或等于第二阈值,所述各个段内文本行为所述文本段落中的每相邻两个文本行;所述第四条件为所述各个段内文本行的关联概率的平均值大于第二阈值;所述第二阈值大于所述第一阈值。

作为一种实施方式,为了提高标题提取结果的准确性,所述标题段落检测单元803,包括:

待检测段落获取子单元,用于将各个文本段落或各个文本段落中的前N个段落,作为各个待检测段落;

初始段落特征生成子单元,用于生成各个待检测段落的初始段落特征,所述初始段落特征携带了对应待检测段落的语义信息、以及对应待检测段落在所述目标文本中的位置信息;

目标段落特征生成子单元,用于根据各个待检测段落的初始段落特征,生成各个待检测段落的目标段落特征,所述目标段落特征携带了对应待检测段落与对应待检测段落的相邻段落的语义信息、以及对应待检测段落与所述相邻段落在所述目标文本中的位置信息;

标题段落检测子单元,根据各个待检测段落的目标段落特征,对各个待检测段落进行标题检测。

作为一种实施方式,为了提高标题提取结果的准确性,所述标题段落检测子单元,包括:

当前段落确定模块,用于按照各个待检测段落在所述目标文本中的段落顺序,依次将每一待检测段落作为当前段落;

标题段落检测模块,根据所述当前段落的目标段落特征以及所述当前段落之前的各个待检测段落的目标段落特征,判断所述当前段落是否为标题所在段落。

作为一种实施方式,为了提高标题提取结果的准确性,所述标题段落检测模块,包括:

辅助特征生成子模块,用于生成所述当前段落对应的辅助特征,所述辅助特征包括辅助段落的目标段落特征,所述辅助段落为所述当前段落之前的各个待检测段落中的一个段落且该段落属于标题段落的概率最大;

标题段落检测子模块,根据所述当前段落的目标段落特征以及辅助特征,判断所述当前段落是否为标题所在段落。

进一步地,本申请实施例还提供了一种标题段落检测设备,包括:处理器、存储器、系统总线;

所述处理器以及所述存储器通过所述系统总线相连;

所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述方法实施例提供的标题段落检测方法的任一实施方式。

进一步地,本申请实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述方法实施例提供的标题段落检测方法的任一实施方式。

进一步地,本申请实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述方法实施例提供的标题段落检测方法的任一实施方式。

通过以上的实施方式的描述可知,本领域的技术人员可以清楚地了解到上述实施例方法中的全部或部分步骤可借助软件加必需的通用硬件平台的方式来实现。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在存储介质中,如ROM/RAM、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者诸如媒体网关等网络通信设备,等等)执行本申请各个实施例或者实施例的某些部分所述的方法。

需要说明的是,本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1