一种文本摘要抽取方法、装置及存储设备与流程

文档序号:19674473发布日期:2020-01-10 23:06阅读:150来源:国知局
一种文本摘要抽取方法、装置及存储设备与流程

本发明涉及文本处理技术领域,尤其涉及一种文本摘要抽取方法、装置及计算机存储设备。



背景技术:

获取文本摘要属于一种应用广泛的文本技术。在实际应用中,获取文本摘要的技术方案大体可以分为抽取式方法和生成式方法两种。目前,抽取式方法应用较为广泛,而生成式方法由于不成熟故应用较少。即使是应用较为广泛的抽取式方法,目前也会受到应用文本类型的限制,并没有一套相对通用的策略。



技术实现要素:

本发明实施例为了有效克服现有获取文本摘要的技术方案中所存在的上述缺陷,创造性地提供一种文本摘要抽取方法、装置及计算机存储设备。

根据本发明实施例第一方面,提供一种文本摘要抽取方法,该方法包括:获取待抽取文本;对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定所述若干个短句中每一个短句对应的多维短句特征;利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

根据本发明一实施方式,对所述待抽取文本进行预处理,包括:根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。

根据本发明一实施方式,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。

根据本发明一实施方式,所述在根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理。

根据本发明一实施方式,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。

根据本发明一实施方式,所述确定所述若干个短句中每一个短句对应的多维短句特征包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。

根据本发明一实施方式,确定所述若干个短句中每一个短句对应的文本排序特征,包括:将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用文本排序textrank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。

根据本发明一实施方式,确定所述若干个短句中每一个短句对应的位置特征,包括:确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。

根据本发明一实施方式,确定所述若干个短句中每一个短句对应的与首句的相似度特征,包括:将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。

根据本发明一实施方式,所述利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句,包括:计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。

根据本发明第二方面,还提供一种文本摘要抽取装置,所述装置包括:获取模块,用于获取待抽取文本;预处理模块,用于对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定模块,用于确定所述若干个短句中每一个短句对应的多维短句特征;筛选模块,用于利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;拼接处理模块,用于根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

根据本发明一实施方式,所述预处理模块包括:短句切割单元,用于根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;短句预处理单元,用于对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。

根据本发明一实施方式,所述短句预处理单元对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。

根据本发明一实施方式,所述预处理模块还包括文本预处理单元,用于在所述短句切割单元根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,对所述待抽取文本进行文本预处理。

根据本发明一实施方式,所述文本预处理单元对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。

根据本发明一实施方式,所述确定模块具体用于,确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。

根据本发明一实施方式,所述确定模块具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用textrank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。

根据本发明一实施方式,所述确定模块具体用于,确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。

根据本发明一实施方式,所述确定模块具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。

根据本发明一实施方式,所述筛选模块具体用于,计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。

根据本发明第三方面,又提供一种计算机可读存储介质,所述存储介质包括一组计算机可执行指令,当所述指令被执行时用于执行上述任一项所述文本摘要抽取方法。

本发明实施例所公开的文本摘要抽取方法、装置及计算机存储设备,首先获取待抽取文本;接着对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;之后确定所述若干个短句中每一个短句对应的多维短句特征;进一步地,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。如此,本发明通过将多维短句特征进行了有效的融合,设计了一种快速有效的抽取式文本摘要方法。

附图说明

通过参考附图阅读下文的详细描述,本发明示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本发明的若干实施方式,其中:

在附图中,相同或对应的标号表示相同或对应的部分。

图1示出了本发明实施例文本摘要抽取方法的实现流程示意图;

图2示出了本发明一应用示例文本摘要抽取方法的实现流程示意图;

图3示出了本发明实施例文本摘要抽取装置的组成结构示意图。

具体实施方式

为使本发明的目的、特征、优点能够更加的明显和易懂,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而非全部实施例。基于本发明中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。

图1示出了本发明实施例文本摘要抽取方法的实现流程示意图。参考图1,本发明实施例提供一种文本摘要抽取方法,该方法包括:操作101,获取待抽取文本;操作102,对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;操作103,确定所述若干个短句中每一个短句对应的多维短句特征;操作104,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;操作105,根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

在操作102,对所述待抽取文本进行预处理,包括:根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。

其中,所述对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。

参考图2,在操作102根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,所述方法还包括:对所述待抽取文本进行文本预处理。

其中,所述对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。

在操作103,参考图2,确定所述若干个短句中每一个短句对应的多维短句特征具体包括:确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。

其中,确定所述若干个短句中每一个短句对应的文本排序特征,包括:将所述若干个短句中每一个短句表示为对应的频率逆文档频率tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用文本排序textrank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。

这里,确定所述若干个短句中每一个短句对应的位置特征,包括:确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。

举例来说,将首句对应分数的分子确定为2,其他句子对应的分数的分子确定为1,然后计算出分母n=2+1*(n-1),n是若干个短句的数量,这样首句的分数为2/n,其他句子的分数均为1/n。

这里,确定所述若干个短句中每一个短句对应的与首句的相似度特征,包括:将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。

在操作104,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句具体为:计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。其中,特定数量记为m,其取值可以根据文本摘要的长度自行设置。

本发明实施例所公开的文本摘要抽取方法,首先获取待抽取文本;接着对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;之后确定所述若干个短句中每一个短句对应的多维短句特征;进一步地,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;最后根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。如此,本发明通过将多维短句特征进行了有效的融合,设计了一种快速有效的抽取式文本摘要方法。

同样,基于如上文所述文本摘要抽取方法,本发明实施例又提供一种计算机可读存储介质,所述计算机可读存储介质存储有程序,当所述程序被处理器执行时,使得所述处理器至少执行如下所述的操作步骤:操作101,获取待抽取文本;操作102,对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;操作103,确定所述若干个短句中每一个短句对应的多维短句特征;操作104,利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;操作105,根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

进一步地,基于上文所述文本摘要抽取方法,本发明实施例还提供一种文本摘要抽取装置30,所述装置30包括:获取模块301,用于获取待抽取文本;预处理模块302,用于对所述待抽取文本进行预处理,得到用于表征所述待抽取文本的文本信息的若干个短句;确定模块303,用于确定所述若干个短句中每一个短句对应的多维短句特征;筛选模块304,用于利用每一个短句所对应的多维短句特征来从所述若干个短句中筛选特定数量的目标短句;拼接处理模块305,用于根据所筛选出的特定数据的目标短句在所述待抽取文本中的排序对所述特定数量的目标短句进行拼接处理,得到所述待抽取文本对应的文本摘要。

根据本发明一实施方式,预处理模块302包括:短句切割单元,用于根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割,得到多个短句;短句预处理单元,用于对所得到的多个短句进行短句预处理,得到用于表征所述待抽取文本的文本信息的若干个短句。

根据本发明一实施方式,短句预处理单元对所得到的多个短句进行短句预处理包括如下处理操作至少之一:将所述待抽取文本中表示日期的文本内容设位特殊标志位;将所述待抽取文本中的数字设为特殊标志位;将所述待抽取文本中括号内的文本设为特殊标志位;去除所述待抽取文本中的停用词。

根据本发明一实施方式,预处理模块302还包括文本预处理单元,用于在所述短句切割单元根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割之前,对所述待抽取文本进行文本预处理。

根据本发明一实施方式,文本预处理单元对所述待抽取文本进行文本预处理包括如下处理操作至少之一:将所述待抽取文本中的繁体中文转换为简体中文;将所述待抽取文本中的全角字符转换为半角字符;将所述待抽取文本中的断句符设为特殊标志位;相应的,根据所述待抽取文本中的断句符对所述待抽取文本进行短句切割包括:根据所述待抽取文本中的特殊标志位对文本预处理后的待抽取文本进行短句切割。

根据本发明一实施方式,确定模块303具体用于,确定所述若干个短句中每一个短句对应的文本排序特征、位置特征及与首句的相似度特征。

根据本发明一实施方式,确定模块303具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中各个短句之间的相似度;将所计算得到的所述若干个短句中各个短句之间的相似度合并表示成一个相似度矩阵;利用textrank算法来根据所表示成的相似度向量计算得到每一个短句对应的文本排序特征。

根据本发明一实施方式,确定模块303具体用于,确定所述若干个短句中每一个句子对应的分数;将所述每一个句子对应的分数作为对应的位置特征;其中,所述确定所述若干个短句中每一个句子对应的分数,包括:将所述若干个短句中的首句对应分数的分子确定为第一数值;将所述若干个短句中除首句外的其他句子对应分数的分子确定为第二数值,所述第二数值小于第一数值;将所述第一数值与n-1个第一数值的和作为所述若干个短句中每一个短句对应分数的分母,所述n的取值为所述若干个短句的数量。

根据本发明一实施方式,确定模块303具体用于,将所述若干个短句中每一个短句表示为对应的tfidf向量;利用余弦相似度算法来根据每一个短句对应的tfidf向量来计算所述若干个短句中除首句外的其他短句与首句之间的相似度,并将所确定的相似度作为与首句的相似度特征。

根据本发明一实施方式,筛选模块304具体用于,计算每一个短句所对应的多维短句特征的加权和;利用所计算的加权和对应分数由高到低的方式从所述若干个短句中筛选出特定数量的目标短句。

这里需要指出的是:以上对文本摘要抽取装置实施例的描述,与前述图1和2所示的方法实施例的描述是类似的,具有同前述图1和2所示的方法实施例相似的有益效果,因此不做赘述。对于本发明对文本摘要抽取装置实施例中未披露的技术细节,请参照本发明前述图1和2所示的方法实施例的描述而理解,为节约篇幅,因此不再赘述。

需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者装置不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者装置所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者装置中还存在另外的相同要素。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元;既可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本发明各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以利用硬件的形式实现,也可以利用硬件加软件功能单元的形式实现。

本领域普通技术人员可以理解:实现上述方法实施例的全部或部分步骤可以通过程序指令相关的硬件来完成,前述的程序可以存储于计算机可读取存储介质中,该程序在执行时,执行包括上述方法实施例的步骤;而前述的存储介质包括:移动存储设备、只读存储器(readonlymemory,rom)、磁碟或者光盘等各种可以存储程序代码的介质。

或者,本发明上述集成的单元如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实施例的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分。而前述的存储介质包括:移动存储设备、rom、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1