一种基于短语主题建模的多文档自动摘要生成方法

文档序号：10512162阅读：214来源：国知局

一种基于短语主题建模的多文档自动摘要生成方法
【专利摘要】本发明公开了一种基于短语主题建模的多文档自动摘要生成方法。将样本多文档进行分词处理，得到短语及其出现频率，文档被表示为短语袋的形式；以LDA主题模型为基础计算文档的联合概率分布，转化到短语主题模型中，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，最后得到主题在单词上的概率分布；对被测文档进行分词处理，计算获得句子的主题权重和词频权重，加权计算得到句子的最终权重，根据最终权重生成摘要内容。本发明方法更加规范和精确，考虑了不同单词之间关系，引进句子的主题权重，生成结果更符合人们实际的撰写短文摘要的情况，在引进句子的主题权重后。
【专利说明】
一种基于短语主题建模的多文档自动摘要生成方法
技术领域
[0001] 本发明涉及了一种多文档自动摘要算法，尤其涉及了一种基于短语主题建模的多文档自动摘要生成方法。
【背景技术】
[0002] 随着互联网的快速普及，人们获取信息和知识越来越方便，同时由于网络信息的爆炸性增长，导致人们处理大量的文本信息时需要花费大量的精力。那么如何解决人们处理大量的文本信息自然成了当前研究的热点。
[0003] 多文档自动摘要技术正是为了解决该问题而提出的。目前在新闻文章的自动短文应用较为成熟，新闻文章的特点是来源于不同媒体的新闻文章以同一事件为中心，使用尽可能相同的单词来描述该事件。通过对不同媒体的新闻文章提取相同部分作为主要内容，提取不同部分作为可能的补充内容，来完成应用于新闻文章的多文档自动摘要技术，大部分技术是利用文本聚类的方法实现的。
[0004] 而我们的目标是研究为文献综述服务的多文档自动摘要技术。相比较新闻文章的以同一事件为中心而言，文献文本并不以同一对象为中心，而是以同一主题为中心。相同单词的频率也不如新闻文章那样高，使用文本聚类的方法无法准确为文献生成短文文摘。我们提出利用主题模型来挖掘出不同单词的主题，通过比较不同单词的主题来实现多文档自动摘要技术。同样，相同的高频单词对自动文摘的影响无法忽视。最终，我们决定利用主题建模计算句子的主题权重作为对以词频为特征的SumBasic自动摘要算法的补充，实现应用于文献综述的多文档自动摘要算法。

【发明内容】

[0005] 本发明是为了实现对文献综述的多文档自动摘要生成，考虑到了不同单词属于同一主题的情况，提出了一种基于短语主题建模的多文档自动摘要生成方法，利用短语主题模型挖掘出隐藏在单词下的主题，对多文档自动摘要生成有重要的意义。
[0006] 如图1所示，本发明解决其技术问题，首先是通过短语主题建模对文本进行主题挖掘处理，在该过程中，文本被分割成满足一定频率的短语，组成短语袋;在此短语袋的基础上利用短语主题模型进行建模，在参数估计过程中得到主题在单词上的概率分布；在 SumBasic自动文摘方法的基础上，分别计算句子的词频权重和主题权重，两种权重最后通过加权求和得到句子的最终权重，选择权重最大的句子作为自动文摘的生成内容。
[0007] 采用的具体技术方案如下：
[0008] 1)预处理样本多文档：利用Mai let自然语言处理工具将样本多文档进行分词处理，得到短语及其出现频率，文档被表示为短语袋的形式；
[0009] 所述步骤1)分词处理后的短语长度被限制为不超过3。
[0010] 2)对样本多文档进行短语主题建模：
[0011] 以LDA主题模型为基础，用短语代替单词作为计算的对象，计算文档的联合概率分布，转化到短语主题模型中，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，最后得到主题在单词上的概率分布；
[0012] 3)多文档处理生成摘要：
[0013] 对被测文档进行分词处理，计算获得句子的主题权重和词频权重，加权计算得到句子的最终权重，根据最终权重生成摘要内容。
[0014] 所述的步骤2)具体是：
[0015] 2.1)根据步骤1)中的分词处理后，文档以短语袋的形式，在词空间上用向量表示文档，采用以下公式计算获得文档在LDA主题模型下的联合概率分布：
[0017] 其中，？_表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的主题分布向量Θ下的联合概率分布，i表示文档集的第i个文档，j表示文档的第j个单词，k 表示第k个主题，0,表示文档i的主题分布，Zl>j表示文档i第j个单词的主题，Wl>j表示文档i 第j个单词，炉ft表示主题k的单词分布；
[0018] 2.2)短语主题模型在LDA主题模型的基础上，考虑了多次出现的连续单词比单个单词的意义更大，通过引进一个函数f作为连续单词(短语)的概率因子。采用以下公式进行转换为文档在短语主题模型下的联合概率分布：
[0020]其中，C表示归一值，C是一个常量使得左边为合理的概率分布，Plda是2.1中的LDA 主题模型计算的文档概率分布，C1>g表示第i个文档的第g个短语，与下文Wl, g的区别在于C1>g 还包括了短语中各个单词的主题变量，f(C1>g)表示C1>g的概率因子；
[0021 ] 2.3)使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，隐参数为文档在主题上的概率分布α和主题在单词上的概率分布β，短语C1>g取主题k的概率p(C1>g = k W，Z\Ci,g)为：
[0023]其中，W为单词向量，Z为主题向量，Z\Ci,g表示去除主题Ci,g的主题向量，Wi, g表示第i 个文档的第g个短语，〇k表示文档选择主题为k的概率，N1>k表示第i个文档中为主题k的单词的个数，表示主题选择单词Wi,g,j的概率，Nwi,g,j,k表示主题k中单词Wi,g,j的个数，Nk表示主题k的总单词个数，V表示主题的单词向量，X表示主题的单词向量V的序数，j表示短语 Wi,g中单词的序数；
[0024] Gibbs采样算法进行迭代计算使得隐参数收敛，迭代次数通常不少于500次，迭代计算后获得主题在单词上的概率分布β，从而得到单词在主题的概率分布。
[0025] 所述的单词Wi,j、单词分布识fc、主题Zi,j、主题多项式分布01通过以下LDA主题模型进行生成，LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两个狄利克雷分布参数α与β，α和β分别表示文档在主题上的概率分布和主题在单词上的概率分布：
[0026] 从狄利克雷分布α中取样生成文档i的主题多项式分布Θ,，从主题多项式分布0,中取样生成文档i第j个词的主题ZU;从狄利克雷分布β中取样生成主题ZU的单词多项式分布供却，_从单词多项式分布中取样生成单词W i, j ;各个主题Z i, j的单词多项式分布臀2i'J'合并形成主题k的单词分布识fc。
[0027]所述步骤2.2)中短语(：1,8的概率因子汽(：1, 8)采用以下公式计算处理，以减少第1个文档的第g个短语C1>g的可能状态的数量：
[0029] 其中，Zl,g,s表示第i个文档的第g个短语中的第s个单词的主题，s表示C 1>g中包含单词的数量。
[0030] 短语C1>g有Γ个可能的状态，K表示主题的个数，经概率因子f(C1>g)处理后C 1>g的可能状态从Γ减少为K个。
[0031 ]在考虑到短语中的单词概率差异过大可能造成计算不准确，所述步骤2.3)中的公式采用以下公式计算，引进标准差来减少可能的影响；
[0033]其中，p(Wl,g^k)在参数估计中单词Wl,g,j在主题k下的贝叶斯概率，即表示公式中的连乘项，VarianceSqrt是对短语中的单词Wi,g,j的贝叶斯概率p(wi,g,j |k)的标准差计算。 [0034]所述步骤3)具体是：
[0035] 3.1)利用步骤1)的结果对被测文档进行分词处理，得到短语或单词，
[0036] 3.2)根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的概率，根据句子和单词的关系计算得出句子属于该主题的概率，作为该主题下句子的主题权重；
[0037 ] 3.3)采用S u mB a s i c自动文摘算法以单词出现的频率作为依据计算获得句子的词频权重；
[0038] 3.4)对主题权重和词频权重进行加权计算得到句子的最终权重，依次选择最终权重最大的句子作为自动文摘的生成内容，直至短文文摘长度达到要求。
[0039] 所述的句子的主题权重具体是在经过分词处理后，利用步骤2)得到的单词在主题的概率分布采用以下公式计算：
[0041 ]其中，G为句子sentence的短语个数，L(gi)为gi的大小，p(gi,j)为短语gi的第j个单词在主题k下的概率，TopicWeight(sentence | k)表示主题k的主题权重，sentence | k表示主题k下的句子；
[0042] 所述的词频权重具体采用以下方式计算：
[0043] 统计被测文档获得被测文档中每个单词的频率，利用每个单词的频率使用以下公式计算获得句子的词频权重：
[0044] Frequencyffeight(sentence)=Max{p(wi)}
[0045] 其中，Max{p(wi)}表示取句子中单词频率最大的作为句子的词频权重，p(wi)表示句子中单词出现的频率。
[0046] 所述句子的最终权重具体使用以下公式计算：
[0047] Weight(sentence|k)=ATopicWeight(sentence|k) + ( l-AFrequencyWeight (sentence)
[0048] 其中，λ是用来控制主题权重和词频权重的影响因子，一般设置为0.5。
[0049] 本发明将句子的主题权重计算引入到多文档自动摘要计算中，利用挖掘出句子的主题信息，在句子的权重计算时除了考虑词频之外还考虑句子与主题的关系，得到了适用于文献的多文档自动摘要。
[0050] 本发明方法与现有技术相比具有的有益效果：
[0051] 1、该方法针对文献文本通常是以实际主题为中心，相比较新闻文章用词更加规范和精确，利用短语主题建模挖掘出隐藏在单词下的主题，然后利用单词在主题的概率分布来计算句子的主题权重。
[0052] 2、现有技术通常考虑相同的单词对多文档自动摘要算法的影响，忽略了不同单词之间关系，这并不符合人们实际的撰写短文摘要的情况，在引进句子的主题权重后，使得多文档自动摘要算法更加合理。
【附图说明】
[0053]图1是本发明的总体流程图；
[0054]图2是步骤2)的短语主题示意图。
[0055]表1是实施例结果短语主题结果；
[0056]表2是实施例结果自动文摘内容示。
【具体实施方式】
[0057]为了更好地理解本发明的技术方案，以下结合附图1对本发明作进一步的描述。 [0058]本实例实施例子的具体步骤，如下：
[0059] 1)预处理样本多文档：利用Mai let自然语言处理工具将文档分词处理，得到短语及其出现频率(短语长度被限制为不超过3)，在该过程中需要去除停词（如the、this)、无效词（如wepurpose)，然后构建词向量空间。
[0060] 2)短语主题建模：以LDA主题模型为基础，用短语代替单词作为计算的对象，计算文档的联合概率分布，转化到短语主题模型中，短语主题模型的示意图如图2所示，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，在经过500次数迭代后，得到主题在单词上的概率分布，转化得到单词在主题下的概率分布。根据贝叶斯概率模型，单词w在主题k下的
，在实际的应用中，对测试文档的自动摘要生成所根据的主题是固定的，即P(k)是个常量值，所以可通过记录单词w属于主题 k的个数与单词w的总数的比例作为其概率。
[0061] 3)被测多文档自动摘要:对被测文档进行分词处理，计算获得句子的主题权重和词频权重，如图1所示，句子的主题权重利用步骤2)中短语主题建模训练得到的单词在主题的概率分布，而句子的词频权重通过计算单词的频率得到。再加权计算得到句子的最终权重，λ取0.5,通过对句子的权重排序每次抽取权重最大的句子直到生成的短文长度达到要求。在实际的应用中，被测文档集与训练文档集不相同，且数量级差距很大，导致主题权重计算与词频权重计算不在同一层面上，需要分别对主题权重和词频权重进行归一化处理。 [0062] (1)实例采用的数据集均来自DBLP的数据挖掘、信息检索、图象识别、机器学习等领域的论文摘要，数量在8万篇左右，经过步骤1)的预处理得到词表大小为26034的词空间 (去除停词、无效词后）。
[0063] (2)根据（1)中信息，利用短语主题建模挖掘出的五个主题结果如表1所示，从中可以看出每个主题中的短语虽然不相同，但是都是属于同一主题，例如"Database Systems" 与"Concurrency Control"，虽然单词各不相同，但是隐藏在单词下的主题却是一致的。
[0064] 表 1
[0065]
[0066] (3)利用（2)中挖掘出的单词在主题上的概率分布，计算句子的主题权重，并将其与句子的词频权重进行加权求和，得到句子的最终权重，在实际应用中我们选择抽取4-5个权重最大的句子。在本实例中对"database system"这一主题进行自动文摘生成得到的结果如表2。表中不仅包含被选择的句子，还显示了句子在原文中的上下文从结果。可以看出句子虽然很少包括"database system"关键词，却是与"database system"主题密切相关的句子。
[0067] 表 2
[0068]
[0069]
[0070] 本实例的运行结果通过人工对自动生成的短文摘要进行评测，通过计算句子的接受率作为标准，将结果与SumBasic多文档自动摘要算法进行对，结果如下表3所示：
[0071] 表3
[0073]有实施例结果的对比可看出，本发明方法在文献上的自动文摘生成的内容相比较 SumBasic更容易接受，符合撰写短文摘要的情况，合理有效，具有其突出显著的效果和良好的使用价值和应用前景。
【主权项】
1. 一种基于短语主题建模的多文档自动摘要生成方法，其特征在于包括以下步骤： 1) 预处理样本多文档：利用Mallet自然语言处理工具将样本多文档进行分词处理，得到短语及其出现频率，文档被表示为短语袋的形式； 2) 对样本多文档进行短语主题建模：以LDA主题模型为基础，用短语代替单词作为计算的对象，计算文档的联合概率分布，转化到短语主题模型中，然后根据贝叶斯概率使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，最后得到主题在单词上的概率分布； 3) 多文档处理生成摘要:对被测文档进行分词处理，计算获得句子的主题权重和词频权重，加权计算得到句子的最终权重，根据最终权重生成摘要内容。2. 根据权利要求1中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于:所述的步骤2)具体是： 2.1) 根据步骤1)中的分词处理后，在词空间上用向量表示文档，采用以下公式计算获得文档在LDA主题模型下的联合概率分布：其中，Plda表示为文档在主题向量Z、单词向量W、主题的单词分布向量Φ和文档的主题分布向量Θ下的联合概率分布，i表示文档集的第i个文档，j表示文档的第j个单词，k表示第k个主题，0,表示文档i的主题分布，zu表示文档i第j个单词的主题， Wl>j表示文档i的第j 个单词，物表示主题k的单词分布，（pUuK))表示主题条件下的后验概率，p(Wl>J I Zi, j，Φ )表示单词wi，j在zi，j和Φ条件下的后验概率，ρ(θ?)和炉fe〕分别表示文档i的主题分布为Θ i的概率和主题k的单词分布为f fc的概率。 2.2) 采用以下公式进行转换为文档在短语主题模型下的联合概率分布：其中，C表示归一值，PLDA是2.1中的LDA主题模型计算的文档概率分布，Ci,g表示第i个文档的第g个短语，f(C1>g)表示C1>g的概率因子;2.3)使用Gibbs采样算法对短语主题模型中的隐参数进行参数估计，隐参数为文档在主题上的概率分布α和主题在单词上的概率分布β，短语Ci, g取主题k的概率p (Ci, g = k | W，Z\Ci, g)为：其中，W为单词向量，Z为主题向量，Z\Ci,g表示去除主题Ci,g的主题向量，Wi，g表示第i个文档的第g个短语，〇k表示文档选择主题为k的概率，N1>k表示第i个文档中为主题k的单词的个数，表示主题选择单词的概率，j表示文档i的第j个单词，N wl,^k表示主题k中单词w1>gd的个数，Nk表示主题k的总单词个数，V表示主题的单词向量，X表示主题的单词向量V的序数，j表示短语Wi，g中单词的序数； Gibbs采样算法进行迭代计算使得隐参数收敛，迭代计算后获得主题在单词上的概率分布β，从而得到单词在主题的概率分布。3. 根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于:所述的单词w^、单词分布炉fc、主题 Zl,>主题多项式分布01通过以下LDA主题模型进行生成，LDA主题模型针对于主题的单词分布向量Φ和文档的主题分布向量Θ分别使用两个狄利克雷分布参数α与β，α和β分别表示文档在主题上的概率分布和主题在单词上的概率分布：从狄利克雷分布α中取样生成文档i的主题多项式分布Θ,，从主题多项式分布Θ,中取样生成文档i第j个词的主题从狄利克雷分布β中取样生成主题的单词多项式分布从单词多项式分布内y中取样生成单词各个主题ZU的单词多项式分布?合并形成主题k的单词分布炉fc。4. 根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于:所述步骤2.2)中短语C1>g的概率因子f(C 1>g)采用以下公式计算处理，以减少第i个文档的第g个短语& "的可能状杰的教量，其中，z1>g,s表示第i个文档的第g个短语中的第s个单词的主题，s表示C1>g中包含单词的数量。5. 根据权利要求2中所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于:所述步骤2.3)中的公式采用以下公式计算：其中，P(w1>gd|k)在参数估计中单词Wl,g,j在主题k下的贝叶斯概率，即表示公式中的连乘项，VarianceSqrt是对短语中的单词Wi,g,j的贝叶斯概率p(wi,g,j |k)的标准差计算。6. 根据权利要求1所述的一种基于短语主题建模的多文档自动摘要生成方法，其特征在于:所述步骤3)具体是： 3.1) 利用步骤1)的结果对被测文档进行分词处理，得到短语或单词， 3.2) 根据在步骤2)中得到的主题在单词上的概率分布得到单词属于某一主题的概率，根据句子和单词的关系计算得出句子属于该主题的概率，作为该主题下句子的主题权重； 3.3) 采用SumBasic自动文摘算法以单词出现的频率作为依据计算获得句子的词频权重； 3.4) 对主题权重和词频权重进行加权计算得到句子的最终权重，依次选择最终权重最大的句子作为自动文摘的生成内容，直至短文文摘长度达到要求。7. 根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法，其特征在于:所述的句子的主题权重具体是在经过分词处理后，利用步骤2)得到的单词在主题的概率分布采用以下公式计算：其中，G为句子sentence的短语个数，L(gi)为gi的大小，p(gi,j)为短语gi的第j个单词在主题k下的概率，TopicWeight( sentence | k)表示主题k的主题权重，sentence | k表示主题k 下的句子。8. 根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法，其特征在于:所述的词频权重具体采用以下方式计算：统计被测文档获得被测文档中每个单词的频率，利用每个单词的频率使用以下公式计算获得句子的词频权重： Frequencyffeight(sentence) =Max{p(wi)} 其中，Max {p(wi)}表示取句子中单词频率最大的作为句子的词频权重，p(wi)表示句子中单词出现的频率，sentence表示被测文档中的句子。9. 根据权利要求1或6中所述的基于短语主题建模的多文档自动摘要生成算法，其特征在于:所述句子的最终权重具体使用以下公式计算： Weight(sentence|k)=ATopicWeight(sentence|k)+(l_AFrequencyWeight (sentence) 其中，λ是控制主题权重和词频权重的影响因子。
【文档编号】G06F17/27GK105868178SQ201610183423
【公开日】2016年8月17日
【申请日】2016年3月28日
【发明人】鲁伟明, 庄越挺, 张占江
【申请人】浙江大学

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鲁伟明;庄越挺;张占江;
技术所有人：浙江大学;
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。