一种自动文本摘要生成方法、系统、计算机设备和存储介质与流程

文档序号:27309665发布日期:2021-11-09 21:52阅读:304来源:国知局
一种自动文本摘要生成方法、系统、计算机设备和存储介质与流程

1.本发明涉及自然语言处理领域和信息学技术、深度学习技术领域,特别是涉及一种基于语言特征和结合注意力机制的编码

解码模型的自动文本摘要生成方法、系统、计算机设备和存储介质。


背景技术:

2.随着人工智能技术和互联网的飞速发展,近年来网络中的文本信息呈爆发式增长,人们每天都能接收到海量的文本信息,如新闻、博客、聊天、报告、微博、论文等。信息的过载问题导致人们寻找信息时需要花费大量时间对信息进行筛选,效率低下。自动文本摘要是利用计算机按照某类应用自动地将文本或文本集合转换成简短摘要的一种信息压缩技术。利用文本摘要技术从大数据中压缩提炼出精炼简洁,容易阅读的文档摘要信息,可以加快人们获取信息的过程,有效解决信息过载的问题。目前,文本摘要技术被广泛应用于新闻摘要、检索系统中等应用场景。
3.如何从冗余、非结构化的长文本中提炼出关键信息,构成精简通顺的摘要,是文本摘要的核心问题。抽取式摘要技术则是自动文本摘要技术中效果稳定,在语法、句法上错误率低的一类方法。现有的抽取式自动文本摘要生成方法有基于传统机器学习算法的textrank、lead

3和聚类等方法,也有基于深度神经网络的seq2seq2序列标注、rnn句子重要度打分等方法。虽然由上述现有抽取式自动文本摘要生成方法生成的文本摘要在一定程度上满足了应用的需求,但抽取式摘要技术生成的自动文摘存在语义连贯性差、语句冗余等问题。目前,理解式自动文本摘要技术旨在通过神经网络模型创造性地生成文本摘要,尽可能拟合人类生成摘要的过程,尽管这一类方法在英文中得到比较好的应用,但由于中文语言本身地特殊性和复杂性,生成效果并不好。
4.因此,亟需提供一种在保证生成效果稳定、无语法错误的前提下,能够充分考虑到语句连贯性、语句信息量的自动文本摘要生成方法。


技术实现要素:

5.本发明的目的是提供一种自动文本摘要生成方法,利用中文文本的语言特征,构建句子特征向量抽取算法,形成文本特征向量矩阵,接着将文本特征向量矩阵输入到本发明提出的结合注意力机制的编码

解码模型中,双向循环长短记忆神经网络编码出中间语义向量,最后通过结合注意力机制与单向长短记忆神经网络解码中间语义向量,实现文本摘要的自动抽取。
6.为了实现上述目的,有必要针对上述技术问题,提供了一种自动文本摘要生成方法、系统、计算机设备及存储介质。
7.第一方面,本发明实施例提供了一种自动文本摘要生成方法,所述方法包括以下步骤:
8.获取原始文本和神经网络模型;
9.将原始文本进行切分和压缩,得到新的文本表示;
10.将新的文本经过句子特征向量抽取,得到文本向量矩阵;
11.将文本矩阵输入至双向长短记忆神经网络模型中,将文本矩阵编码成文本语义矩阵;
12.将文本语义矩阵输入至注意力模型和长短记忆神经网络模型中,将文本语义矩阵解码成文本向量矩阵,文本向量反映射得到文本摘要。
13.进一步地,所述的文本切分和压缩的步骤包括:
14.将文本以句子为单位进行切分,生成句子集合;
15.统计句子长度,并计算句子平均长度;
16.对于长度大于句子平均长度两倍的句子进行再切分;
17.更新句子集合,并将句子集合中文本长度小于3的句子去掉。
18.进一步地,所述句子特征向量抽取的步骤包括:
19.通过中文语言特征,构建7个句子特征;
20.计算每个句子的7个特征得分,组成一维向量表示每一个句子;
21.句子的向量组合成二维向量得到句子的向量矩阵表示。
22.进一步地,所述的将文本矩阵编码成文本语义矩阵的步骤包括:
23.编码器依次接收每个句子;
24.编码器输出语义向量v。
25.进一步地,所述将将文本语义矩阵解码成文本向量矩阵并得到文本摘要的步骤包括:
26.解码器输入bos,即句子的开始,根据bos和语义向量v预测下一轮使用每个句子的概率,挑选概率最大的句子;
27.将概率最大的句子和语义向量v输入到解码器,得到下一轮的概率最大的句子,如此循环,直到得到eos,即句子的结尾,文本摘要生成结束。
28.进一步地,所述通过中文语言特征,构建7个句子特征并得到句子特征向量的步骤包括:
29.对文本进行一些必要的预处理,首先将句子按照单词为单位分词,接着去除无用的功能词,然后重新合并单词组成新的句子;
30.综合文本句子摘要抽取的多种影响因素,选取影响效果最好的7种特征,7个特征分别是:句子相关度、句子与中心句的相似度、句子中包含关键词个数、句子中包含领域实体名词个数、句子信息度、句子长度、句子位置特征向量。对这些特征进行数学化转化,构建合理的公式,接着对每一个句子计算特征得分,每个句子得到7个特征得分构成句子特征向量。
31.进一步地,选取语言特征作为句子向量特征,构建特征计算公式的步骤包括:
32.①
句子相关度
33.句子相关度是摘要生成基本要求,本发明通过交叉熵进行建模,降低摘要对原文本的不确定性,摘要文本以最小的信息损失来推断原文本。同时利用信息论中的熵度量摘要的信息量,对冗余度建模,熵越大,文本的不确定性越高,信息量也越大,那么其冗余度也越小。综合相关度和冗余度建模公式为:
34.score1(s)=rel(s,d)

red(s)
[0035][0036][0037]
式中,rea(s,d)表示相关度,red(s)表示句子的冗余度。
[0038]

句子与中心句的相似度
[0039]
中心句子是包含文本信息最丰富的句子。在本发明中,选择包含最多特征词的句子为中心句子。若文本中除中心句之外,一个句子与中心句的相似度越高则其包含文本信息也会更丰富,该句子被选取为摘要句的概率越大,建模公式表示为:
[0040][0041]
其中sim(s,s
cen
)指的两个句子之间相似度;d指句子中第i个词的数量, f(w
ij
)指共生词的词频;k和b是调节因子;idf(wij)指的是共生词与文本之间的相关程度,公式为:
[0042][0043]

句子中包含关键词个数
[0044]
包含特征词个数对摘要抽取的影响大,对于不含特征词的句子,权重权重为1,含有特征词的句子,特征权重增加,建模公式为:
[0045]
score3(s)=1+α1·
nf
[0046]
其中α1是超参数,取值为0.5,nf是特征词个数。
[0047]

句子中包含领域实体名词个数
[0048]
在实际的运用中,不同领域的文本信息生成格子独特的格式和领域名词,在抽取是考虑领域名词有助于提升摘要抽取质量。统计相关领域名词,对包含这些领域名词的句子加大摘要抽取权重,建模公式为:
[0049]
score4(s)=1+α2·
ne
[0050]
其中α2是超参数,取值为0.3,ne是句中包含实体名词的个数。
[0051]

句子信息度
[0052]
在实际的运用中,不同领域的文本信息生成格子独特的格式和领域名词,在抽取是考虑领域名词有助于提升摘要抽取质量。统计先骨干领域名词,对包含这些领域名词的句子加大摘要抽取权重,建模公式为:
[0053]
score5(s)=1+α3·
ne
[0054]
其中α3是超参数,取值为0.3,ne是句中包含实体名词的个数。
[0055]

句子长度
[0056]
文本摘要长度是摘要生成任务中需要考虑的维度,摘要长度过长,则失去摘要凝练信息的价值,摘要过短,则表达信息不足。所以在生成阶段,将句子长度纳入考虑范围,对于单个句子而言,我们将平均句子长度作为最佳句子长度,建模公式为:
[0057][0058]
其中是平均句子长度,x是句子s长度。
[0059]

句子位置
[0060]
研究表明,人工摘要中选取文章段落首句作为摘要的概率为85%,选短尾作为文章摘要的比例为7%,基于此结论,对首段、尾段和其余段落句首给予权重提升,建模公式为:
[0061][0062]
其中f
s
是首段句子总数,e
s
是尾段句子总数,n
s
是文本中包含句子总数, m是当前句子的序号,ε0,ε1,ε2是超参数。
[0063]
第二方面,本发明实施例提供了一种自动文本摘要生成系统,所述系统包括:
[0064]
样本获取模块,用于获取原始的中文长文本和神经网络模型;
[0065]
文本预处理模块,用于将原始文本进行初步压缩处理,将无用的句子去掉,并通过句子再切分工作,将原始文本表示成句子集合;
[0066]
文本特征表示模块,用于将句子集合中每一个句子用一维向量表示,生成文本的二维特征向量矩阵;
[0067]
语义向量生成模块,用于通过神经网络模型构建文本中句子语义联系,生成文本的语义向量;
[0068]
自动文本摘要生成模块,用于通过神经网络模型将语义向量和输入向量预测下一个输入向量,迭代生成输出句子特征向量,直到生成文本结束符号,最后将生成的所有句子特征向量转换成文字符号,即得到生成的文本摘要。
[0069]
第三方面,本发明实施例还提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0070]
第四方面,本发明实施例还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0071]
上述本技术提供了一种自动文本摘要生成方法、系统、计算机设备及存储介质,通过所述方法,实现了基于句子向量表示,结合注意力机制的编码
‑ꢀ
解码神经网络模型的自动文本摘要生成方法。通过句子向量构建算法,选取了7种对摘要抽取质量影响最大的语言特征,通过建模每一种语言特征计算公式,进而计算出每一个语句的特征向量表示,得到文本向量矩阵表示,将文本向量矩阵输入到通过结合注意力机制的编码

解码神经网络模型种,经过编码层编码得到语义向量,接着将语义向量和原始文本向量输入到结合注意力的解码层,得到新的文本向量组成,文本向量反映射得到一段文本,该文本即为生成的文本摘要。
[0072]
与现有技术相比,句子特征选择充分考虑了语言特征信息,保证特征值与相关度、信息量呈正相关,与冗余度呈负相关,提出7种语言特征,对比常见的抽取式算法只利用相
似度、关键词等部分信息的方式,大大增加了句子丰富度,更好地用向量表达了句子之间的异同。创新地提出使用句子作为基本输入单元通过神经网络模型得到前后语句连贯的文本摘要,有效避免了基于单词输入的神经网络模型得到语法、句法错误语句的缺陷。本发明中以句子为神经网络的输入单位,利用生成式的神经网络生成的文本摘要,本质上依旧是抽取了文章中的重要句子,但充分考虑了句子之间的语义信息,使得抽取得到的句子前后连贯,生成高质量的文本摘要。
附图说明
[0073]
图1是本发明实施自动文本摘要生成方法的流程示意图;
[0074]
图2是图2中步骤s12对原始文本进行切分和压缩的流程示意图;
[0075]
图3是图2中步骤s13获取句子特征向量的流程示意图;
[0076][0077]
图4是图2中步骤s14和s15是将文本向量矩阵经过语义编码和注意力机制解码得到新的文本向量矩阵并反映射得到文本摘要的流程示意图;
[0078]
图5是本发明实施例中自动文本摘要生成系统的结构示意图;
[0079]
图6是本发明实施例中计算机设备的内部结构图。
具体实施方式
[0080]
为了使本技术的目的、技术方案和有益效果更加清楚明白,下面结合附图及实施例,对本发明作进一步详细说明,显然,以下所描述的实施例是本发明实施例的一部分,仅用于说明本发明,但不用来限制本发明的范围。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0081]
本发明提供的基于语言特征构建文本向量和结合注意力机制的编码

解码模型生成文本摘要方法,将中文语言特征进行选取、建模,得到句子的向量表示,进而以句子为单位构建文本的矩阵向量。结合注意力机制的编码

解码模型有效学习句子之间的语义联系,输入原始矩阵向量到模型中,模型输出新的矩阵向量(其中输入向量和输出向量大小不等),输出的矩阵向量反映射得到文本摘要。
[0082]
在一个实施例中,如图1所示,提供了一种自动文本摘要生成方法,包括以下步骤:
[0083]
s11、获取原始文本和网络模型;
[0084]
其中,神经网络模型为已经训练稳定的模型,原始输入文本和神经网络模型之间只需存在着一定的对应关系即可,比如本发明提出一种适合该任务的结合注意力机制的lstm模型。此处对原始输入文本和神经网络模型的类型都不作限制,可以根据实际使用需求确定。
[0085]
s12、将原始文本进行切分和压缩,得到新的文本表示;
[0086]
其中,通过切分和压缩后得到句子集合,如图2所示,所述步骤s12包括:
[0087]
s121、文本切分得到句子集合;例如对于原始文本text,以句子为单位切分后得到集合t=(s1,s2,s3,...,s
n
),n表示句子个数。
[0088]
s122、统计句子长度,并计算句子平均长度;例如对于上一步骤的集合t, len(s
i
)
表示每一个句子长度,计算n个句子的平均长度
[0089]
s123、对于长度大于句子平均长度两倍的句子进行再切分;例如对于上一步骤len(s
i
),若则对s
i
进行再切分,假设再切分后得到n+c1个句子。
[0090]
s124、将句子集合中文本长度小于3的句子去掉,更新句子集合。假设有 c2个长度小于3的句子,则更新后的集合t=(s1,s2,s3,...,s
m
)。其中m=n+ c1‑
c2,需要说明的是,此处文本句子个数可根据实际应用需求或实验情况进行调整,上述分类仅为一个示例行说明,并不作具体限制。
[0091]
s13、将新的文本经过句子特征向量抽取,得到文本向量矩阵;
[0092]
其中,通过句子特征算法计算句子特征得分并构成向量表示,进而得到文本的向量矩阵,如图3所示,所述步骤s13包括:
[0093]
s131、将句子按照单词为单位分词,接着去除无用的功能词,然后重新合并单词组成新的句子;例如对于上一步骤的集合t=(s1,s2,s3,...,s
m
),假设s1=“重要的人呐”,对句子切词得到s1=“重要|的|人”去除无用的功能词“的”和“呐”,并将词重组得到新的s1=“重要人”。表1
[0094]
s132、根据句子特征向量抽取算法,计算每一个句子的特征得分;如表1所示,给出了计算句子特征的公式,例如对上一步骤s1=“重要人”,假设再七个特征中得分分为1.23,0.96,1.13,1.56,0.99,0.78,1.16。
[0095]
s133、特征得分构建句子的向量表示;例如对于上一步骤得到的特征得分,那么s1的向量表示为[1.23,0.96,1.13,1.56,0.99,0.78,1.16],同理得到其他句子的向量表示。需要说明的是,特征选择个数、种类、公式均不影响本发明的有效性。
[0096]
s134、句子的向量组合成二维向量得到文本的向量矩阵表示;例如对于 t=(s1,s2,s3,...,s
m
),最后得到t的矩阵表示为t=[7,m]。
[0097]
s14、s15、将文本矩阵输入至神经网络模型中,经过编码

解码操作得到新的文本向量矩阵,文本向量反映射得到文本摘要。如图4所示,所述步骤 s14和s15包括:
[0098]
s1451、文本向量矩阵输入到编码器模型编码器输出语义向量;例如对于上一步骤的集合t=(s1,s2,s3,...,s
m
),得到中间语义向量c=(c1,c2,c3,...,c
m
)。
[0099]
s1452、s1453、s1454、句子开始标识符输入到解码器模型中,根据文本开始标识符和语义向量v预测下一个句子,选取概率最大的作为新句子,迭代进行上一步骤,直到生成文本结束符,生成任务终止,得到一个新的文本向量矩阵,将向量矩阵反映射得到文本摘要;例如通过公式y
i
= g(c1,y2,...,y
i
‑1)得到新句子y
i
,迭代生成y
i+1
,y
i+2
,......,直到生成文本结束符号,得到输出表示y=(y1,y2,...,y
t
),其中t是生成摘要的句子个数,可以在神经网络模型设计阶段进行设置,其取值不影响本发明的有效性。
[0100]
需要说明的是,虽然上述流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。
[0101]
在一个实施例中,如图5所示,提供了一种自动文本摘要生成系统,所述系统在前
文已进行解释,不再赘述。
[0102]
关于一种自动文本摘要生成系统的具体限定可以参见上文中对于生成方法的限定,在此不再赘述。
[0103]
图6给出一个实施例中计算机设备的内部结构图,该计算机设备具体可以是终端或服务器。如图6所示,该计算机设备包括通过系统总线连接的处理器、存储器、输入和输出设备。
[0104]
本领域普通技术人员可以理解,图6中示出的结构,仅仅是与本技术方案相关的部分结构的框图,并不构成对本技术方案所应用于其上的计算机设备的限定,具体的计算设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有同的部件布置。
[0105]
本说明书中的各个实施例均采用递进的方式描述,上述实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0106]
以上所述实施例仅表达了本技术的几种优选实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本技术领域的普通技术人员来说,在不脱离本发明技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本技术的保护范围。因此,本技术专利的保护范围应以所述权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1