一种融合TFIDF和LDA实现抽取式文本摘要方法

文档序号:28716644发布日期:2022-01-29 14:39阅读:1050来源:国知局
一种融合TFIDF和LDA实现抽取式文本摘要方法
一种融合tfidf和lda实现抽取式文本摘要方法
技术领域
1.本发明属于自然语言处理领域,尤其涉及一种融合tfidf和lda实现抽取式文本摘要方法。


背景技术:

2.感知器等信息采集技术的兴起,使得各种信息呈指数级增长。其中,直观表现在文本在篇幅和数量的显著增长,这对信息的利用带来了巨大的挑战。为了应对这一挑战,各种信息抽取技术应运而生。常见的信息抽取技术包括实体识别、事件抽取、文本摘要等。文本摘要作为一种有效的信息抽取技术,在信息爆炸的今天,其重要性不言而喻。
3.目前,文本摘要技术成功应用的场景包括:新闻标题生成、自动报告生成等。此外,该技术也为一些下游任务(如信息检索或文本分类)提供技术支撑。通过文本摘要技术,可以极大地降低人工摘要的成本,提高人们对信息的利用率。然而,其发展速度却相对较慢。文本摘要技术需要机器阅读并理解整篇文章,然后根据重要性对其中的内容进行取舍,最后得到简短、流畅且涵盖了原文重要信息的摘要。其中有两个较为核心的问题:一是文章的自然语言理解,机器对文章有效进行表示;二是如何获取摘要,即摘要的选择策略。
4.20世纪90年代末,larry page和sergey brin创建了评价网页重要性的方法pagerank,随后mihalcea r和tarau p在pagerank的基础上,改进出了用来计算文本语句重要性的方法textrank,textrank中输入数据是文本中的句子而不是网页,句子的相似度计算方式与算法pagerank中网页的转换概率相同,相似度得分通过矩阵展示和计算,类似于pagerank的矩阵m。textrank对文本摘要以及其他自然语言处理领域都产生了很大影响。2013年,曾哲军提出了lexrank图集,lexrank是用特定的向量来表示的。然后用lexrank图集来表征文本内容,来自动生成文本摘要。在lexrank图集中通过计算余弦相似度得到语句的邻接矩阵表示,通过生成的邻接矩阵,对文本摘要的质量有了进一步的提升。
5.以上的方法多数是基于词频统计或是基于一些规则来对文本的权重进行计算,对于文本的语义没有过多的涉及。本文方法对上述方法的模式进行改进,基于tfidf和一些规则来对文本的权重进行计算,使用lda来弥补语义的不足,从而实现抽取式文本摘要。
6.抽取式文本摘要可以拆解为两个独立任务:一是每个句子的表示、二是摘要句子的选择策略。其中每个句子的表示任务尤为重要。
7.句子表示方式主要有词频表示和空间向量模型表示,其中后者占据统治地位,本文选用便是空间向量模型表示文本。空间向量模型表示文本一般步骤为:分词、特征选择、权重计算、形成n维空间向量。基于tfidf进行权重计算,对于分词后大于200词的文本,tfidf的效果较好,但对于简短的文本,采用传统的tfidf效果较差。其原因,一是tfidf存在数据集偏斜的问题、二是简短文本中各词素的词频出现频率较平均、三是容易忽略了重要的低频词语和文档内部主题的语义关系。lda模型为tfidf所存在的问题提供了很好的解决方案。由于词素的权重取值对最终的句子选择策略至关重要。故本发明基于融合tfidf与lda计算词素的权重取值。此外,为保证特征的全面性,增加词位置、词性、词长、词跨度等特
征调整词素的权重取值。
8.通过上述论断,词素的权重计算包括,融合tfidf和lda的权重、词位置的权重、词性的权重、词长的权重、词跨度的权重,分别记作:w_tfidf-lda(i)、w_dest(i)、w_attr(i)、w_len(i)、w_span(i),其中i表示词素。词素i的空间向量模型表示为:。
9.摘要句子的选择策略是基于空间向量模型表示的。对句子s分词,可以被表示为,则句子s的空间向量模型表示为。首先对d(s)内的每一项做归一化处理,然后对d(s)做归一化处理,所得结果记作:s_all。故整篇文本可以表示为,将t中的权重作为最大边缘相关性算法的输入,计算相似度,去除冗余句子,确定最终摘要。


技术实现要素:

10.本发明提供了一种融合tfidf和lda实现抽取式文本摘要方法,预先设定影响因素以及对文章进行分词,接着计算词素的权值来确定句子整体的权值,然后处理句子的相似度、选出最终top-n个句子作为摘要。本模型可以提取出总结原文与主旨相关的句子,形成一个简明的句子摘要来把握文章主旨,具体步骤如下所示。
11.步骤1:对输入数据进行数据清洗,然后将文档拆分成句子集合。数据清洗是将输入数据的噪声数据清除,比如文本中的异常字符、冗余字符,句子是本发明抽取的基本单位,并且词素权重的调整涉及词位置,故对文本做分句操作,并标记句子所处段落。
12.步骤2:对每个句子分词,然后过滤停用词、特定词性的词和指定长度的词。本发明研究句子的方法是将其拆分成一个一个更小的颗粒。一个句子中所包含的重要颗粒越多,相应的该句子在整篇文章中的重要性也就也大。使用“pkuseg”分词器对每一个句子进行分词并作词性标注,分词后,根据停用词表过滤停用词,根据词性标注过滤介词、连词、语气词、助词、拟声词,根据词长过滤长度小于2大于6的词(长度大于2的词所携带的信息更有意义且完整,词长越长,包含的信息也越大,但一般不超过6字)。
13.步骤3:采用融合tfidf和lda计算每个词素的权重。
14.在tfidf模型中,一个词在特定的文档中出现的频率越高, 说明它在区分该文档内容属性方面的能力越强;一个词在文档中出现的范围越广, 说明它区分文档内容的属性越低。为了减少不同类别词频差异的影响,对tfidf进行归一化处理。计算公式为: 其中,指特征项在文档中出现的次数、指出现特征项的文档的倒数、n表示总文档数、指出现特征项的文档数。
15.在lda模型中,一个文本是由若干个主题以不同的概率生成的,每个主题又是由若
干个词以不同的概率生成的,其中文档-主题分布,主题-词分布都符合狄利克雷多项式分布。
16.模型具体定义如下:文档集中,代表文档集的文档数目,单一文档为,代表特征词个数,则文档中的第个特征词为,潜在主题集合,则lda模型生成文档时首先计算主题中的特征词分布概率向量和主题分布概率向量,接着求解每个特征词,特征词生成的概率公式为: 其中,。
17.基于上述论断,确定融合tfidf和lda的计算公式为: 。
18.步骤4:计算词位置的权重w_dest(i),位置权重设置表如表1所示:表1 位置权重设置表。
19.步骤5:计算词性的权重w_attr(i),词性权重设置表如表2所示:表2 词性权重设置表。
20.步骤6:计算词长的权重w_len(i),计算方法为:w_len(i) = len_i / (len_i + 4) 其中,i表示词素,len_i表示词长。
21.步骤7:计算词跨度的权重w_span(i),计算方法为:w_span(i) = num_i / total_num 其中,i表示词素,num_i表示i出现的段落数,
total_num表示文章总段落数。
22.步骤8:利用每个句子进行归一化的结果表示文本t。具体的模型表述:一个句子由m个词素组成,一个文本由n个句子组成,即、。其中表示公式为: 其中,为各种不同权重的加权系数,本发明取为1.5,为 1.1,为0.8。
23.利用上述公式计算出每一个句子的权值,从而表示出t。
24.步骤9:基于mmr算法综合相关性和多样性计算每个句子最终的权值。对mmr原始公式做出简化,将其应用于文本摘要中,公式如下:其中,weight(i)表示文章第i句的权重,即表示当前句子i与已经成为候选摘要的句子j的余弦相似度;为需要调节的参数,用来控制文章摘要的多样性。
25.步骤10:权值降序排列每个句子,抽取排名靠前的若干句作为最终结果。
附图说明
26.图1为本发明流程图。
具体实施方式
27.以下实施例用于说明本发明,但不用来限制本发明的范围。现通过附图和实施例对本发明作进一步的详细描述。
28.为了衡量本发明的优劣,采用3个指标作为衡量的标准,分别是准确率、召回率和 f1 值 。
29.数据集为人民网自2021年1至8月的5000篇新闻数据,该数据按照话题划分,并且专家标注了摘要的句子。准确率、召回率和f1值的计算公式如下:准确率、召回率和f1值的计算公式如下:准确率、召回率和f1值的计算公式如下:其中,tp为正确摘要句子的个数,nt为新闻总句数,fp为误分类到该类的样本总数,ts为标记的摘要句子总数。
30.表3为本发明算法与tfidf、lda和textrank实现文本摘要的对比:表3 对比算法
从表中可知,融合tfidf和lda实现抽取式文本摘要方法(命名为rtl)的三个指标均明显优于经典的 tfidf、lda和textrank。rtl准确率、召回率、f1值分别为80.3%、72.4%、76.2%。其中,对比算法之间准确率的极差在60%左右,召回率和f1值的极差在50%左右。从数据看,rtl值得推广应用。但是该方法也有局限的地方:一是仅在具有鲜明主题的文档上的应用效果较好、二是摘要的句子逻辑分散。综上所述,本文方法比较全面地考虑了影响摘要句子提取的各种因素,具有一定的通用性和推广性。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1