一种基于短语主题建模的多文档自动摘要生成方法

文档序号:10512162阅读:190来源:国知局
一种基于短语主题建模的多文档自动摘要生成方法
【专利摘要】本发明公开了一种基于短语主题建模的多文档自动摘要生成方法。将样本多文档进行分词处理,得到短语及其出现频率,文档被表示为短语袋的形式;以LDA主题模型为基础计算文档的联合概率分布,转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,最后得到主题在单词上的概率分布;对被测文档进行分词处理,计算获得句子的主题权重和词频权重,加权计算得到句子的最终权重,根据最终权重生成摘要内容。本发明方法更加规范和精确,考虑了不同单词之间关系,引进句子的主题权重,生成结果更符合人们实际的撰写短文摘要的情况,在引进句子的主题权重后。
【专利说明】
一种基于短语主题建模的多文档自动摘要生成方法
技术领域
[0001] 本发明涉及了一种多文档自动摘要算法,尤其涉及了一种基于短语主题建模的多 文档自动摘要生成方法。
【背景技术】
[0002] 随着互联网的快速普及,人们获取信息和知识越来越方便,同时由于网络信息的 爆炸性增长,导致人们处理大量的文本信息时需要花费大量的精力。那么如何解决人们处 理大量的文本信息自然成了当前研究的热点。
[0003] 多文档自动摘要技术正是为了解决该问题而提出的。目前在新闻文章的自动短文 应用较为成熟,新闻文章的特点是来源于不同媒体的新闻文章以同一事件为中心,使用尽 可能相同的单词来描述该事件。通过对不同媒体的新闻文章提取相同部分作为主要内容, 提取不同部分作为可能的补充内容,来完成应用于新闻文章的多文档自动摘要技术,大部 分技术是利用文本聚类的方法实现的。
[0004] 而我们的目标是研究为文献综述服务的多文档自动摘要技术。相比较新闻文章的 以同一事件为中心而言,文献文本并不以同一对象为中心,而是以同一主题为中心。相同单 词的频率也不如新闻文章那样高,使用文本聚类的方法无法准确为文献生成短文文摘。我 们提出利用主题模型来挖掘出不同单词的主题,通过比较不同单词的主题来实现多文档自 动摘要技术。同样,相同的高频单词对自动文摘的影响无法忽视。最终,我们决定利用主题 建模计算句子的主题权重作为对以词频为特征的SumBasic自动摘要算法的补充,实现应用 于文献综述的多文档自动摘要算法。

【发明内容】

[0005] 本发明是为了实现对文献综述的多文档自动摘要生成,考虑到了不同单词属于同 一主题的情况,提出了一种基于短语主题建模的多文档自动摘要生成方法,利用短语主题 模型挖掘出隐藏在单词下的主题,对多文档自动摘要生成有重要的意义。
[0006] 如图1所示,本发明解决其技术问题,首先是通过短语主题建模对文本进行主题挖 掘处理,在该过程中,文本被分割成满足一定频率的短语,组成短语袋;在此短语袋的基础 上利用短语主题模型进行建模,在参数估计过程中得到主题在单词上的概率分布;在 SumBasic自动文摘方法的基础上,分别计算句子的词频权重和主题权重,两种权重最后通 过加权求和得到句子的最终权重,选择权重最大的句子作为自动文摘的生成内容。
[0007] 采用的具体技术方案如下:
[0008] 1)预处理样本多文档:利用Mai let自然语言处理工具将样本多文档进行分词处 理,得到短语及其出现频率,文档被表示为短语袋的形式;
[0009] 所述步骤1)分词处理后的短语长度被限制为不超过3。
[0010] 2)对样本多文档进行短语主题建模:
[0011] 以LDA主题模型为基础,用短语代替单词作为计算的对象,计算文档的联合概率分 布,转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的 隐参数进行参数估计,最后得到主题在单词上的概率分布;
[0012] 3)多文档处理生成摘要:
[0013] 对被测文档进行分词处理,计算获得句子的主题权重和词频权重,加权计算得到 句子的最终权重,根据最终权重生成摘要内容。
[0014] 所述的步骤2)具体是:
[0015] 2.1)根据步骤1)中的分词处理后,文档以短语袋的形式,在词空间上用向量表示 文档,采用以下公式计算获得文档在LDA主题模型下的联合概率分布:
[0017] 其中,?_表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的 主题分布向量Θ下的联合概率分布,i表示文档集的第i个文档,j表示文档的第j个单词,k 表示第k个主题,0,表示文档i的主题分布,Zl>j表示文档i第j个单词的主题,Wl>j表示文档i 第j个单词,炉ft表示主题k的单词分布;
[0018] 2.2)短语主题模型在LDA主题模型的基础上,考虑了多次出现的连续单词比单个 单词的意义更大,通过引进一个函数f作为连续单词(短语)的概率因子。采用以下公式进行 转换为文档在短语主题模型下的联合概率分布:
[0020]其中,C表示归一值,C是一个常量使得左边为合理的概率分布,Plda是2.1中的LDA 主题模型计算的文档概率分布,C1>g表示第i个文档的第g个短语,与下文Wl, g的区别在于C1>g 还包括了短语中各个单词的主题变量,f(C1>g)表示C1>g的概率因子;
[0021 ] 2.3)使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,隐参数为文 档在主题上的概率分布α和主题在单词上的概率分布β,短语C1>g取主题k的概率p(C1>g = k W,Z\Ci,g)为:
[0023]其中,W为单词向量,Z为主题向量,Z\Ci,g表示去除主题Ci,g的主题向量,Wi, g表示第i 个文档的第g个短语,〇k表示文档选择主题为k的概率,N1>k表示第i个文档中为主题k的单词 的个数,表示主题选择单词Wi,g,j的概率,Nwi,g,j,k表示主题k中单词Wi,g,j的个数,Nk表 示主题k的总单词个数,V表示主题的单词向量,X表示主题的单词向量V的序数,j表示短语 Wi,g中单词的序数;
[0024] Gibbs采样算法进行迭代计算使得隐参数收敛,迭代次数通常不少于500次,迭代 计算后获得主题在单词上的概率分布β,从而得到单词在主题的概率分布。
[0025] 所述的单词Wi,j、单词分布识fc、主题Zi,j、主题多项式分布01通过以下LDA主题模型 进行生成,LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用 两个狄利克雷分布参数α与β,α和β分别表示文档在主题上的概率分布和主题在单词上的概 率分布:
[0026] 从狄利克雷分布α中取样生成文档i的主题多项式分布Θ,,从主题多项式分布0,中 取样生成文档i第j个词的主题ZU;从狄利克雷分布β中取样生成主题ZU的单词多项式分 布供却,_从单词多项式分布中取样生成单词W i, j ;各个主题Z i, j的单词多项式分布臀2i'J'合 并形成主题k的单词分布识fc。
[0027]所述步骤2.2)中短语(:1,8的概率因子汽(:1, 8)采用以下公式计算处理,以减少第1个 文档的第g个短语C1>g的可能状态的数量:
[0029] 其中,Zl,g,s表示第i个文档的第g个短语中的第s个单词的主题,s表示C 1>g中包含单 词的数量。
[0030] 短语C1>g有Γ个可能的状态,K表示主题的个数,经概率因子f(C1>g)处理后C 1>g的可 能状态从Γ减少为K个。
[0031 ]在考虑到短语中的单词概率差异过大可能造成计算不准确,所述步骤2.3)中的公 式采用以下公式计算,引进标准差来减少可能的影响;
[0033]其中,p(Wl,g^k)在参数估计中单词Wl,g,j在主题k下的贝叶斯概率,即表示公式中 的连乘项,VarianceSqrt是对短语中的单词Wi,g,j的贝叶斯概率p(wi,g,j |k)的标准差计算。 [0034]所述步骤3)具体是:
[0035] 3.1)利用步骤1)的结果对被测文档进行分词处理,得到短语或单词,
[0036] 3.2)根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的 概率,根据句子和单词的关系计算得出句子属于该主题的概率,作为该主题下句子的主题 权重;
[0037 ] 3.3)采用S u mB a s i c自动文摘算法以单词出现的频率作为依据计算获得句子的词 频权重;
[0038] 3.4)对主题权重和词频权重进行加权计算得到句子的最终权重,依次选择最终权 重最大的句子作为自动文摘的生成内容,直至短文文摘长度达到要求。
[0039] 所述的句子的主题权重具体是在经过分词处理后,利用步骤2)得到的单词在主题 的概率分布采用以下公式计算:
[0041 ]其中,G为句子sentence的短语个数,L(gi)为gi的大小,p(gi,j)为短语gi的第j个单 词在主题k下的概率,TopicWeight(sentence | k)表示主题k的主题权重,sentence | k表示主 题k下的句子;
[0042] 所述的词频权重具体采用以下方式计算:
[0043] 统计被测文档获得被测文档中每个单词的频率,利用每个单词的频率使用以下公 式计算获得句子的词频权重:
[0044] Frequencyffeight(sentence)=Max{p(wi)}
[0045] 其中,Max{p(wi)}表示取句子中单词频率最大的作为句子的词频权重,p(wi)表示 句子中单词出现的频率。
[0046] 所述句子的最终权重具体使用以下公式计算:
[0047] Weight(sentence|k)=ATopicWeight(sentence|k) + ( l-AFrequencyWeight (sentence)
[0048] 其中,λ是用来控制主题权重和词频权重的影响因子,一般设置为0.5。
[0049] 本发明将句子的主题权重计算引入到多文档自动摘要计算中,利用挖掘出句子的 主题信息,在句子的权重计算时除了考虑词频之外还考虑句子与主题的关系,得到了适用 于文献的多文档自动摘要。
[0050] 本发明方法与现有技术相比具有的有益效果:
[0051] 1、该方法针对文献文本通常是以实际主题为中心,相比较新闻文章用词更加规范 和精确,利用短语主题建模挖掘出隐藏在单词下的主题,然后利用单词在主题的概率分布 来计算句子的主题权重。
[0052] 2、现有技术通常考虑相同的单词对多文档自动摘要算法的影响,忽略了不同单词 之间关系,这并不符合人们实际的撰写短文摘要的情况,在引进句子的主题权重后,使得多 文档自动摘要算法更加合理。
【附图说明】
[0053]图1是本发明的总体流程图;
[0054]图2是步骤2)的短语主题示意图。
[0055]表1是实施例结果短语主题结果;
[0056]表2是实施例结果自动文摘内容示。
【具体实施方式】
[0057]为了更好地理解本发明的技术方案,以下结合附图1对本发明作进一步的描述。 [0058]本实例实施例子的具体步骤,如下:
[0059] 1)预处理样本多文档:利用Mai let自然语言处理工具将文档分词处理,得到短语 及其出现频率(短语长度被限制为不超过3),在该过程中需要去除停词(如the、this)、无效 词(如wepurpose),然后构建词向量空间。
[0060] 2)短语主题建模:以LDA主题模型为基础,用短语代替单词作为计算的对象,计算 文档的联合概率分布,转化到短语主题模型中,短语主题模型的示意图如图2所示,然后根 据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计,在经过500次 数迭代后,得到主题在单词上的概率分布,转化得到单词在主题下的概率分布。根据贝叶斯 概率模型,单词w在主题k下的
,在实际的应用中,对测试文档的 自动摘要生成所根据的主题是固定的,即P(k)是个常量值,所以可通过记录单词w属于主题 k的个数与单词w的总数的比例作为其概率。
[0061] 3)被测多文档自动摘要:对被测文档进行分词处理,计算获得句子的主题权重和 词频权重,如图1所示,句子的主题权重利用步骤2)中短语主题建模训练得到的单词在主题 的概率分布,而句子的词频权重通过计算单词的频率得到。再加权计算得到句子的最终权 重,λ取0.5,通过对句子的权重排序每次抽取权重最大的句子直到生成的短文长度达到要 求。在实际的应用中,被测文档集与训练文档集不相同,且数量级差距很大,导致主题权重 计算与词频权重计算不在同一层面上,需要分别对主题权重和词频权重进行归一化处理。 [0062] (1)实例采用的数据集均来自DBLP的数据挖掘、信息检索、图象识别、机器学习等 领域的论文摘要,数量在8万篇左右,经过步骤1)的预处理得到词表大小为26034的词空间 (去除停词、无效词后)。
[0063] (2)根据(1)中信息,利用短语主题建模挖掘出的五个主题结果如表1所示,从中可 以看出每个主题中的短语虽然不相同,但是都是属于同一主题,例如"Database Systems" 与"Concurrency Control",虽然单词各不相同,但是隐藏在单词下的主题却是一致的。
[0064] 表 1
[0065]
[0066] (3)利用(2)中挖掘出的单词在主题上的概率分布,计算句子的主题权重,并将其 与句子的词频权重进行加权求和,得到句子的最终权重,在实际应用中我们选择抽取4-5个 权重最大的句子。在本实例中对"database system"这一主题进行自动文摘生成得到的结 果如表2。表中不仅包含被选择的句子,还显示了句子在原文中的上下文从结果。可以看出 句子虽然很少包括"database system"关键词,却是与"database system"主题密切相关的 句子。
[0067] 表 2
[0068]
[0069]
[0070] 本实例的运行结果通过人工对自动生成的短文摘要进行评测,通过计算句子的接 受率作为标准,将结果与SumBasic多文档自动摘要算法进行对,结果如下表3所示:
[0071] 表3
[0073]有实施例结果的对比可看出,本发明方法在文献上的自动文摘生成的内容相比较 SumBasic更容易接受,符合撰写短文摘要的情况,合理有效,具有其突出显著的效果和良好 的使用价值和应用前景。
【主权项】
1. 一种基于短语主题建模的多文档自动摘要生成方法,其特征在于包括以下步骤: 1) 预处理样本多文档:利用Mallet自然语言处理工具将样本多文档进行分词处理,得 到短语及其出现频率,文档被表示为短语袋的形式; 2) 对样本多文档进行短语主题建模: 以LDA主题模型为基础,用短语代替单词作为计算的对象,计算文档的联合概率分布, 转化到短语主题模型中,然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐 参数进行参数估计,最后得到主题在单词上的概率分布; 3) 多文档处理生成摘要:对被测文档进行分词处理,计算获得句子的主题权重和词频 权重,加权计算得到句子的最终权重,根据最终权重生成摘要内容。2. 根据权利要求1中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特 征在于:所述的步骤2)具体是: 2.1) 根据步骤1)中的分词处理后,在词空间上用向量表示文档,采用以下公式计算获 得文档在LDA主题模型下的联合概率分布:其中,Plda表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的主题 分布向量Θ下的联合概率分布,i表示文档集的第i个文档,j表示文档的第j个单词,k表示 第k个主题,0,表示文档i的主题分布,zu表示文档i第j个单词的主题, Wl>j表示文档i的第j 个单词,物表示主题k的单词分布,(pUuK))表示主题条件下的后验概率,p(Wl>J I Zi, j,Φ )表示单词wi,j在zi,j和Φ条件下的后验概率,ρ(θ?)和炉fe〕分别表示文档i的主 题分布为Θ i的概率和主题k的单词分布为f fc的概率。 2.2) 采用以下公式进行转换为文档在短语主题模型下的联合概率分布:其中,C表示归一值,PLDA是2.1中的LDA主题模型计算的文档概率分布,Ci,g表示第i个文 档的第g个短语,f(C1>g)表示C1>g的概率因子;2.3)使用Gibbs采样算法对短语主题模型中的 隐参数进行参数估计,隐参数为文档在主题上的概率分布α和主题在单词上的概率分布β, 短语Ci, g取主题k的概率p (Ci, g = k | W,Z\Ci, g)为:其中,W为单词向量,Z为主题向量,Z\Ci,g表示去除主题Ci,g的主题向量,Wi,g表示第i个 文档的第g个短语,〇k表示文档选择主题为k的概率,N1>k表示第i个文档中为主题k的单词的 个数,表示主题选择单词的概率,j表示文档i的第j个单词,N wl,^k表示主题k中 单词w1>gd的个数,Nk表示主题k的总单词个数,V表示主题的单词向量,X表示主题的单词向 量V的序数,j表示短语Wi,g中单词的序数; Gibbs采样算法进行迭代计算使得隐参数收敛,迭代计算后获得主题在单词上的概率 分布β,从而得到单词在主题的概率分布。3. 根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特 征在于:所述的单词w^、单词分布炉fc、主题 Zl,>主题多项式分布01通过以下LDA主题模型进 行生成,LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两 个狄利克雷分布参数α与β,α和β分别表示文档在主题上的概率分布和主题在单词上的概率 分布: 从狄利克雷分布α中取样生成文档i的主题多项式分布Θ,,从主题多项式分布Θ,中取样 生成文档i第j个词的主题从狄利克雷分布β中取样生成主题的单词多项式分布 从单词多项式分布内y中取样生成单词各个主题ZU的单词多项式分布?合并 形成主题k的单词分布炉fc。4. 根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特 征在于:所述步骤2.2)中短语C1>g的概率因子f(C 1>g)采用以下公式计算处理,以减少第i个 文档的第g个短语& "的可能状杰的教量,其中,z1>g,s表示第i个文档的第g个短语中的第s个单词的主题,s表示C1>g中包含单词的 数量。5. 根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法,其特 征在于:所述步骤2.3)中的公式采用以下公式计算:其中,P(w1>gd|k)在参数估计中单词Wl,g,j在主题k下的贝叶斯概率,即表示公式中的连 乘项,VarianceSqrt是对短语中的单词Wi,g,j的贝叶斯概率p(wi,g,j |k)的标准差计算。6. 根据权利要求1所述的一种基于短语主题建模的多文档自动摘要生成方法,其特征 在于:所述步骤3)具体是: 3.1) 利用步骤1)的结果对被测文档进行分词处理,得到短语或单词, 3.2) 根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的概率, 根据句子和单词的关系计算得出句子属于该主题的概率,作为该主题下句子的主题权重; 3.3) 采用SumBasic自动文摘算法以单词出现的频率作为依据计算获得句子的词频权 重; 3.4) 对主题权重和词频权重进行加权计算得到句子的最终权重,依次选择最终权重最 大的句子作为自动文摘的生成内容,直至短文文摘长度达到要求。7. 根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法,其特征 在于:所述的句子的主题权重具体是在经过分词处理后,利用步骤2)得到的单词在主题的 概率分布采用以下公式计算:其中,G为句子sentence的短语个数,L(gi)为gi的大小,p(gi,j)为短语gi的第j个单词在 主题k下的概率,TopicWeight( sentence | k)表示主题k的主题权重,sentence | k表示主题k 下的句子。8. 根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法,其特征 在于:所述的词频权重具体采用以下方式计算: 统计被测文档获得被测文档中每个单词的频率,利用每个单词的频率使用以下公式计 算获得句子的词频权重: Frequencyffeight(sentence) =Max{p(wi)} 其中,Max {p(wi)}表示取句子中单词频率最大的作为句子的词频权重,p(wi)表示句子 中单词出现的频率,sentence表示被测文档中的句子。9. 根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法,其特征 在于:所述句子的最终权重具体使用以下公式计算: Weight(sentence|k)=ATopicWeight(sentence|k)+(l_AFrequencyWeight (sentence) 其中,λ是控制主题权重和词频权重的影响因子。
【文档编号】G06F17/27GK105868178SQ201610183423
【公开日】2016年8月17日
【申请日】2016年3月28日
【发明人】鲁伟明, 庄越挺, 张占江
【申请人】浙江大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1