专利名称:一种面向查询的多文档自动摘要方法
技术领域:
本发明涉及 一种自然语言的自动摘要处理技术,具体地说是 一种面向 查询的多文档自动摘要方法。
背景技术:
随着人类社会的快速变化和发展,每天都有大量的新信息产生,而互 联网技术的普及使得信息共享的程度越来越高,人们可以很容易地在网络 上发布信息,造成网上信息源过多,信息大量重复。例如,对于同一个新 闻事件,不同的新闻机构可能会发布不同的报道,但是报道的主要内容相 似乃至完全重复,区别仅在于表达方式不同而已。这种重复信息会浪费读 者的阅读时间。另一方面,同一主题下的不同文章也会涵盖一些不同的信 息。例如不同的新闻报道对事件描述的侧重点不同,而不同的评论家也会 从各自独特的视角发表对事件的观点,与公众共享。关于同一主题或相同 事件的信息甚至可能存在互相矛盾的地方,而事件的更新进展也会造成先 前报道的信息不准确,需要更正的情况。这种信息过量出现的现象称为信
息过载(Information Overload )。为了从彼此重复而又互为补充的信息中提
取想要的信息,需要进行大量的比较和筛选工作。
搜索引擎是处理信息过载问题的 一个选择,可以根据用户的特定需求,
查找到与之相关的信息,使信息处理的范围大大缩小。但是,搜索引擎技
术并不能很好地解决信息过载问题。用户每输入一个查询条件,搜索引擎
系统将返回成千上万的相关网页。虽然用户期望的信息很有可能就存在于
返回的结果里,但仍然难于迅速准确地从中找到满意的结果。为了对所査
询的问题有全面的了解,用户必须对检索结果进行人工分析和总结,去除
冗余信息,识别矛盾信息,摒弃错误信息,从中提炼出全面而简洁的分析 纟i果。
口多文档摘要技术就是为了解决这个问题,其目的是识别多篇同主题文 档中的有用信息,压缩其中的冗余信息,生成一篇简短、流畅的摘要。多 文档摘要技术可以帮助用户快速形成对特定主题的全面了解,减少阅读时 间,提高获取信息的效率,具有很高的实用价值。
根据摘要生成方法,可将现有多文档摘要方法分为两种
(1) 基于摘录的方法直接摘取重要的原始句子或自然段落,按一定 顺序形成摘要。方法简单,不需太多资源和语言学知识,可移植性好,但 摘要的连贯性和全面性较差。
(2) 基于语言生成的方法识别出重要的信息片段,再用语言生成技 术生成句子,形成摘要。摘要精炼、可读性较好,但对语言分析技术和语言生成模型有较高要求。
根据所釆用的主要技术,可将现有多文档摘要方法分为四种
(1) 基于浅层分析的方法通过一些浅层统计分析,识别文本浅层特
征如关键词、位置、句子长度等来对句子打分排序。方法实现简单,不受 领域和资源限制,可移植性较好,但摘要的准确性较差。
(2) 基于深层理解的方法对文本进行深层分析理解,如句法分析、 语义分析、领域本体分析等,获得较高层次的特征,更准确地识别重要信 息和重复信息。但对语言处理技术要求很高,往往受到领域限制。
(3) 基于信息抽取的方法利用信息抽取技术模板,对模板进行填充, 从而识别出重要信息片段,表示成结构化形式,并利用语言生成系统生成 摘要。摘要的可读性好,冗余信息少,但模板的获取是该方法的瓶颈。
(4) 基于句子压缩的方法通过现有的句子压缩技术将长句压縮成短 句。缺点是难于控制压缩比。
上述各种传统的多文档摘要方法进行的是一般性摘要,即直接分析目 标文档集合的内容,生成摘要。然而,随着研究的不断深入和进展,人们 发现,虽然多文档摘要系统的处理对象是同一主题下的多篇文档,即文档 具有相同的主题,但是不同的用户对于摘要的侧重点仍有不同的要求。例 如,对于北京奥运会主场馆"鸟巢"的建设这一主题,建筑界人士可能较为关 注"鸟巢"的建造技术和安全性,环保界人士可能较为关注项目所釆用的环保 技术和对北京环境的影响,商界人士可能较为关注奥运场馆的商业运营模 式,而普通巿民更关注场馆的独特外形和人文精神。也就是说,同一个主 题下仍然有不同的信息侧面,从不同角度来论述主题的不同方面。如果能 对主题信息进一步细化,从中找出更为贴合用户特定需求的一个或多个侧 面信息形成摘要,将会为用户带来更大的便利,进一步提高用户的满意度。
面向查询(query)的多文档摘要技术研究就是在这样的背景下开始的。 与一般性摘要,即查询无关的摘要技术不同,查询相关的多文档摘要技术 允许用户提交当前主题下自己最为关心的问题,并依据问题的要求和侧重 点生成摘要,使得摘要可以回答用户所提出的问题。其中问题可以看作当 前主题下用户更为关注的侧面。
查询相关的多文档摘要技术的关键问题和难点是,如何识别同 一主题下 的不同侧面,即如何对文档集内描述主题不同方面的信息进行区分,并选 取查询所关注的一个或多个侧面,用于生成摘要。现有方法主要是通过对 查询进行分析和扩展,得到关键概念和特征词,然后根据文本与查询的相 关度及与文档集主题的接近程度,在文档集里筛选或检索出相关文本,形 成摘要。
然而,通过分析人工书写的参考摘要,可以看出好的摘要所涉及的方面 较广,涵盖了文档集内与査询相关的多个不同事件或论点。而现有方法主 要根据句子与查询的相似度生成摘要,并不考虑摘要中的子主题分布情况,
8经常造成大量摘要句来自同一子主题的现象,虽然通过计算文本重复度, 尽量防止加入内容重复的摘要句,可以从一定程度上缓解了这个问题,但 仍无法很好地保证摘要中信息的全面性。
发明内容
针对现有技术中面向查询的多文档摘要存在的难点及不足之处,本发 明要解决的技术问题是提供 一种利用文本分割技术识别当前主题下的不同 子主题,从多个相关子主题内选取信息,并评价子主题的重要程度的多文 档摘要方法。
为解决上述技术问题,本发明釆用的技术方案包括以下步骤 对查询及文档进行预处理;
将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题; 将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与 子主题的相关度;
根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重 要程度,进行排序,选择前r个重要的子主题,得到与查询相关的子主题 有序序列;
从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。
所述对查询进行预处理过程如下 去除查询里的格式标记,提取出查询的主体部分; 对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作
为查询的关键词,得到查询的关键词集合。
所述对文档进行预处理过程如下
去除每篇文档内的格式标记,提取出文档的主体部分;
对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除 文档内的禁用词;
对每篇文档进行分句。
所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理, 将频繁出现在查询内的无关词去掉。
所述的主题分割采取算法1:
算法1:通过一个反映文档词汇整体分布情况的点图来识别语义段落边 界,包括以下步骤
构造点图假设某个词在文档中位置x和位置y处重复出现,则分别在 图中(x, jc),(;c,jc)和(y,力四个坐标上用 一个点标出该词,即将整篇文本表 示为一个对称的二维点列出潜在语义段落边界将文档中全部句子或自然段落边界作为潜在 语义段落边界;
确定最佳语义段落边界假设万为已确定的语义段落边界集合,那么余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它 们组成候选边界集合C;边界集合C中每个候选边界/,令/^^U(/卜计算 由P分割出的点图上对角线外部区域的总体密度,选择使得总体密度最小
的候选边界作为下一个最佳语义段落边界加入集合凡密度计算方法是<formula>formula see original document page 10</formula>其中"为整篇文档的长度,巧为第y'个语义段落边界的位置,|尸|为文档 中的语段数目,^卜。为第Ph个词至第马个词组成的文本片段的词频向量;
&, 为第A个词至文档末尾组成的文本片段的词频向量;为文档开头至
第A个词组成的文本片段的词频向量;&, 为第个词至第个词组成
的文本片段的词频向量。 "
重复上述过程,直至语段边界数目达到预先指定的数目K为止。 所述的主题分割釆取算法2:
算法2:如果给定文档为数据空间,语义段落为类别,则将主题分割的 过程转化为数据空间分割过程,求取最佳分割方式,具体包括以下步骤
文档表示定义文档W为块序列B^A…&,其中&、 ^和^分别表 示第1个、第2个和第A:个块,A:表示文本5包含块的个数,块定义为包含 Wocfo/ze个词的文本片段,釆用具有相同长度的块参与分割评价过程,将 求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的 过程,计算公式如下式所示<formula>formula see original document page 10</formula>
其中,S为具有最大评价值的文本分割方式;S为文本B的一个分割方 式;J^,s)为文本S下分割方式为S时的分割评价值。
构造候选分割方式集合将文档中全部自然段落边界作为潜在的语义 段落边界,自然段落边界的全部组合作为候选主题分割方式;
计算各种分割方式的评价值,其中
定义语义段落内散布矩阵S『为<formula>formula see original document page 10</formula>
其中6为第/块的向量表示;5^s化…&表示文本B的一个分割方式;c 为当前文本分割方式S包含的语义段落个数;尸,为语义段落A的先验概率, 即语义段落^的块个数与当前文本S的所有块个数的比值;w,表示语义段 落A中块的个数;w,为语义段落s,的中心向量;运算符f表示矩阵的转置。其中:
m,=丄》 定义语义段落间散布矩阵&为
其中m为当前分割方式S的总体平均向量
J为基于多元判别分析的分割评价函数,包括
根据语义段落内距离和语义段落间距离,定义第1 函数力
元判别分析评价
根据语义段落内距离和语义段落间距离,定义第2多元判别分析评价 函数力
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第3 多元判别分析评价函数A:
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第4 多元判别分析评价函数入
上述各式中^(W和^(^)分别表示矩阵^和矩阵^的迹,为矩阵对角 线元素之和;
釆用第1、 3多元判别分析评价函数力或力计算/(&6)评价值; 确定最佳语义段落数目
对于每个可能的语义段落数目,根据计算各种分割方式的评价值的结 果求取该数目下所有分割方式中带有最大评价值 /的最佳分割5*;釆用第2、 4多元判别分析评价函数^或^来计算评价函数/(B,5)评价值;具有最大 评价值/的分割方式所对应的语义段落数目iV为最佳语义段落数目;
确定最佳分割方式
最佳语义段落数目7V下具有最大评价值J的分割方式为最佳分割方式。所述的主题分割釆取算法3:
算法3:通过定义各种分割方式的评价函数,釆用动态规划方法寻求最 佳分割方式,具体包括以下步骤
定义评价文本分割方式的评价函数
'l+i,+i "'""'"
Z」
其中A为第Z个语义段落边界的位置,7V为语义段落数目,L为整篇文 档的长度,丄,为每个语义段落的长度;公式中第一项为同一语义段落内部词 汇相似度,第二项为相邻语义段落之间词汇相似度,ct和l-a分别为它们的
相对权重,第三项为语义段落长度惩罚因子,p为该因子的权重;A,为句 子/和句子y之间的相似度,『,,为根据句子/和句子y之间的距离为相似 度A,赋予的权重,计算方法如下式所示
1 z/1附—/7 |S 2
1
I附一n I —l
根据上述分割评价函数,采用动态规划算法求取使得函数值最大的最 优分割方式,具体计算步骤如下
1)初始化
对文档中任意两个句子/和/,利用下列公式计算相似度值
2) 最大化
递推地计算即从第1个句子到第f个句子组成的文本片段的最优 分割方式的评价函数值,其中s为前一个语义段落边界,计算公式为
C, t = arg max(C, + a , '"、'2 - (1 - a ) *^ " +''-《u - S ", , + " (i^")
(卜— S)(S - W ) K
其中w是f和s的前一个最优语义段落边界,《为文档里的句子数; 记录最优分割方式中边界^的前一个语义段落边界Z,,,;
3) 回溯
逆序地推出最优分割方式F = (d…,^)向量,在该过程中,最佳语 义段落数目7V自动确定。
所述语义段落聚类的具体步骤如下
1) 将语义段落表示成词频向量,认为每个语义段落均为一个簇;
2) 计算语义段落两两之间的相似度,选择相似度最高的两个簇合并为 一个簇;语义段落之间的文本相似度通过向量余弦来计算,假设两个语义 段落词频向量分别为 )和"",h,…,jj,则相似度计算公式如 下3) 计算新生成的语义段落簇两两之间的相似度,继续合并相似度最高
的簇;语义段落簇之间的文本相似度计算方法是,将两个簇之间相似度最 小的两个语义段落之间的文本相似度作为两个簇的相似度;
4) 重复步骤3,直到相似度最高的两个簇之间的相似度也低于阈值C 为止,这样,就得到了一定数量的簇,每个簇代表一个子主题。
所述查询与子主题之间相关度的计算方法是,计算查询与子主题内的 每个句子之间的相似度,将最大的相似度作为查询与子主题的相关度;查 询与子主题句之间的文本相似度通过向量余弦来计算,假设査询词频向量 为^ =化,子主题句的词频向量为^ = ",^2,..^ },则相似度计算公式
如下
其中w'附(^力表示查询《与句子s之间的相似度,仏和^分别为查询和 句子对应的词频向量表示;
假设子主题S内有m个句子,即子主题表示为>5 = ^(1),42),..^(附)},则 查询与子主题之间的相关度计算公式如下,,e/eva"ce(《,S) = maxW柳(仏s(/))}。
所述子主题的重要程度为子主题的簇内包含的句子数目;所述代表句 为与查询相似度最大的句子。
本发明利用主题分割技术,较好地解决了面向查询的多文档摘要技术 中的难点,具体体现在以下几个方面
1. 本发明方法通过主题分割技术,识别出当前主题下的不同子主题, 并选择与查询相关的多个重要子主题,从中摘取代表句生成摘要。由于摘 要覆盖了与查询相关的多个子主题,即多个主题侧面,因此摘要能在贴合
查询的特定关注点的基础上,覆盖更多的信息;本发明还对子主题的重要
程度进行了评价,在与查询相关的所有子主题中,逸择对于当前主题来讲 较为重要的子主题生成摘要,使得摘要在有限的长度范围内,尽量包括了 文档集内较为重要的信息,提供更加有针对性的服务,允许用户提出最关 心的问题,生成的摘要可以回答用户所提出的问题,进一步满足用户的个
性化要求
2. 本发明设计了合理的主题分割方法,其中方法l时间复杂度低,效 果优于同类算法,方法2同时考虑语义段落内部距离和语义段落之间距离 因素,具有很好的分割效果,且可自动确定语义段落数目,方法3在方法2 的基础上,进一步考虑了语义段落长度和句子距离对相似度的影响因素, 并釆用动态规划算法寻求最优分割,时间复杂度较低。
133. 本发明仅对文档进行了浅层分析,利用词汇分布和文档结构特点进 行文本分割,并根据子主题的词汇使用和大小等表层信息,识别出与查询 相关的重要子主题,进而生成摘要。方法不依赖于任何外部资源,是一种 独立于具体领域的方法,这也是基于主题分割技术的多文档摘要方法的优 势所在。
4. 本发明是一种基于摘录的方法,直接从文档中摘取原始句子形成摘 要,与基于语言生成的方法相比,无需语言分析技术、语言生成模型和其 他语言学知识的支持,易于实现,具有较好的实用性,并且有较大的提升 空间。
5. 本发明方法可用于搜索引擎、新闻服务、信息智能处理等,无需占 用过多的网络带宽资源,即可使用户获得大量信息。同时用户将自己的喜 好和关注点返回给服务器,而本发明方法可以根据用户的查询主题调整摘 要内容,实现与用户的互动。
图1为本发明方法流程图。
具体实施例方式
如图1所示,本发明一种面向查询的多文档自动摘要方法,包括以下 步骤
对查询及文档进行预处理;
将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题; 将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与 子主题的相关度;
根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重 要程度,进行排序,选择前r个重要的子主题,得到与查询相关的子主题 有序序列;
从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。
所述对查询进行预处理过程如下 去除査询里的格式标记,提取出查询的主体部分; 对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作 为查询的关键词,得到查询的关键词集合。 所述对文档进行预处理过程如下 去除每篇文档内的格式标记,提取出文档的主体部分; 对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除
文档内的禁用词;
对每篇文档进行分句。
所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理, 将频繁出现在查询内的无关词去掉。所述主题分割可釆取算法1:
通过 一 个反映文档词汇整体分布情况的点图来识别语义段落边界,包
括以下步骤
构造点图假设某个词在文档中位置x和位置y处重复出现,则分别在 图中(x, x),(x,x)和(y,力四个坐标上用 一个点标出该词,即将整篇文本表 示为一个对称的二维点列出潜在语义段落边界将文档中全部句子或自然段落边界作为潜在 语义段落边界,
口确定最佳语义段落边界假设S为已确定的语义段落边界集合,那么 余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它 们组成候选边界集合C;边界集合C中每个候选边界/,令尸=3^{/},计算 由户分割出的点图上对角线外部区域的总体密度,选择使得总体密度最小 的候选边界作为下一个最佳语义段落边界加入集合B,密度计算方法是
3(C("-。
或
其中"为整篇文档的长度,尸,为第、个语义'段i边界的位置,i尸i为文档
中的语段数目,、l。为第个词至第A个词组成的文本片段的词频向量;
&, 为第尸,个词至文档末尾组成的文本片段的词频向量;r。,为文档开头至
第A个词组成的文本片段的词频向量;^ ,,+|为第A个词至第尸,+7个词组成
的文本片段的词频向量。 ''
重复上述过程,直至语段边界数目达到预先指定的数目〖为止。 点图明显地反映了一篇文档内部的子主题分布情况。从这个图上,可以 清楚地看到文本中词汇的密度分布情况。密度是评价主题连贯性的度量方 法。 一般地说,语义段落内部的词汇重复程度会比较高,点图中对角线上 对应区域的点也会比较密集,对角线上密度较大的正方形区域就是语义段 落,区域内部密度越大,表示该语义段落内部主题连贯性越高。相应地, 对角线外部对应区域的点会比较稀疏,使得对角线外部区域总体密度最小 的位置就是语义段落边界。
本发明方法中的主题分割还可釆取算法2:
如果给定文档为数据空间,语义段落为类别,则将主题分割的过程转 化为数据空间分割过程,求取最佳分割方式,具体包括以下步骤
文档表示定义文档W为块序列5^A...^,其中&、 ^和^分别表 示第1个、第2个和第/t个块,A表示文本S包含块的个数,块定义为包含 Woc/bfee个词的文本片段,釆用具有相同长度的块参与分割评价过程,能够有效解决不平衡比较现象。通过定义全局评价函数/来评价具体分割方 式,评价值的大小表示分割方式的好坏。将求解最优分割方式的过程转换 成为求解具有最大评价值的文本分割方式的过程,计算公式如下式所示
S = arg max尹OS | B) = arg max y(5, S)
其中,i为具有最大评价值的文本分割方式;S为文本s的一个分割方 式;j(& s)为文本b下分割方式为s时的分割评价值。
构造候选分割方式集合将文档中全部自然段落边界作为潜在的语义 段落边界,自然段落边界的全部组合作为候选主题分割方式;
计算备种分割方式的评价值,其中
定义语义段落内散布矩阵《^为
其中6为第/块的向量表示;5=^2...^表示文本^的一个分割方式;c 为当前文本分割方式s包含的语义段落个数;尸,为语义段落s,的先验概率, 即语义段落s,的块个数与当前文本b的所有块个数的比值;w,表示语义段 落s,中块的个数;附,为语义段落s,的中心向量;运算符f表示矩阵的转置。 其中
m,=丄》
定义语义段落间散布矩阵&为
= 2《(附,——m丫
其中m为当前分割方式S的^、体平均向量
m =丄Z 6 =丄Z/7,m, w ^ w ,=,
J为基于多元判别分析的分割评价函数,包括
根据语义段落内距离和语义段落间距离,定义第1 函数力
元判别分析评价
,,外
根据语义段落内距离和语义段落间距离,定义第2多元判别分析评价 函数A
根据语义段落内距离、语义段落间距离和语义段落的长度,定义第
多元判别分析评价函数^:根据语义段落内距离、语义段落间距离和语义段落的长度,定义第4 多元判别分析评价函数力
上述各式中/K&)和^(;)分别表示矩阵&和矩阵&的迹,为矩阵对角 线元素之和;
釆用第1、 3多元判别分析评价函数力或A计算J(^,5)评价值; 确定最佳语义段落数目
对于每个可能的语义段落数目,根据计算各种分割方式的评价值的结 果求取该数目下所有分割方式中带有最大评价值 /的最佳分割S;釆用第2、 4多元判别分析评价函数^或入来计算评价函数/(B,5)评价值;具有最大 评价值/的分割方式所对应的语义段落数目W为最佳语义段落数目;
确定最佳分割方式
最佳语义段落数目iV下具有最大评价值J的分割方式为最佳分割方式。
上述文本主题分割方法独立于具体领域,其中釆用多元判别分析方法 定义四种分割全局评价函数,实现对文本分割的全局评价,比局部评价方 法具有更好的文本分割性能。该评价函数主要考虑了语义段落内距离、语 义段落间距离等几方面因素来评价各种分割方式。
本发明方法中所述的主题分割还可以釆取算法3:
通过定义各种分割方式的评价函数,釆用动态规划方法寻求最佳分割 方式,具体包括以下步骤
定义评价文本分割方式的评价函数
其中P,为第/个语义段落边界的位置,iv为语义段落数目,L为整篇文 档的长度,丄,为每个语义段落的长度;公式中第一项为同一语义段落内部词 汇相似度,第二项为相邻语义段落之间词汇相似度,a和i-"分别为它们的 相对权重,第三项为语义段落长度惩罚因子,其作用是抑制生成过多的语 义段落,/ 为该因子的权重;A,为句子/和句子y之间的相似度,计算方法 是若/和_/之间有共同词,则A,取值为l,否则为0; W,为根据句子/
和句子y'之间的距离为相似度A,赋予的权重,计算方法如下式所示
<formula>formula see original document page 17</formula>根据上述分割评价函数,采用动态规划算法求取使得函数值最大的最 优分割方式,具体计算步骤如下
1 )初始化
对文档中任意两个句子/和y',利用下列公式计算相似度值 2)最大化
递推地计算G,,即从第l个句子到第f个句子组成的文本片段的最优 分割方式的评价函数值,其中^为前一个语义段落边界,计算公式为
其中w是f和^的前一个最优语义段落边界,《为文档里的句子数; 记录最优分割方式中边界s的前一个语义段落边界Z,.,; 3)回溯
逆序地推出最优分割方式F = (d…,^)向量,在该过程中,最佳语 义段落数目W自动确定。
上述主题分割算法尝试同时最大化同一语义段落内部相似度,最小化 相邻语义段落之间相似度。另外,算法还考虑了其他文本结构特点,例如 句子距离和语段长度,并将这些丰富的因素整合入分割评价函数,来识别 子主题的跳转。利用动态规划寻求最佳分割方式,大大降低了算法的时间
复杂度
主题分割技术可以将 一 篇文档内论述不同子主题的文本片段分割开 来,也就是划分出文档内描述主题不同侧面的不同语义段落,如果将全部 文档的语义段落集合起来,进行聚类,就可以把整个文档集内关于同一个 主题侧面的文本聚集在一起,这样聚类后形成的每一个簇就代表了一个主 题侧面,即当前主题下的一个子主题。
本发明方法中的语义段落聚类的具体步骤如下
1) 将语义段落表示成词频向量,认为每个语义段落均为一个簇;
2) 计算语义段落两两之间的相似度,选择相似度最高的两个簇合并为
一个簇;语义段落之间的文本相似度通过向量余弦来计算,假设两个语义 段落词频向量分别为 }和"0^2,""凡},则相似度计算公式如
下
^ 、
■S7W(X,少)=,'一'
3) 计算新生成的语义段落簇两两之间的相似度,继续合并相似度最高
的簇;语义段落簇之间的文本相似度计算方法是,将两个簇之同相似度最 小的两个语义段落之间的文本相似度作为两个簇的相似度;
4) 重复步骤3,直到相似度最高的两个簇之间的相似度也低于阈值c 为止,这样,就得到了一定数量的簇,每个簇代表一个子主题。
18查询与子主题之间相关度的计算方法是,计算查询与子主题内的每个 句子之间的相似度,将最大的相似度作为查询与子主题的相关度;查询与 子主题句之间的文本相似度通过向量余弦来计算,假设查询词频向量为 9 = ,子主题句的词频向量为^ = ,则相似度计算公式如
下
其中W'"7(^,^表示査询《与句子S之间的相似度,仏和^分别为查询和
句子对应的词频向量表示; 一
假设子主题S内有m个句子,即子主题表示为5 = ^(1)^(2),. 则 查询与子主题之间的相关度计算公式如下re/ev朋ce(g,S) = max{w'w(g, —■))}
子主题的重要程度为子主题的簇内包含的句子数目,代表句为与查询 相似度最大的句子。
在聚类后生成的子主题集合的基础上,计算各个子主题与査询的相关 度,然后选择与查询相关的子主题,就是选出了用户所关注的侧面,最后 按照相关子主题的重要程度进行排序,依次从每个子主题中摘取代表性句 子,就可以形成摘要。用这种方式生成的摘要不但与查询紧密相关,而且 涵盖了查询所涉及的多个侧面,具有较高的覆盖度。另一方面,摘要也尽 可能地选择了当前主题下较为重要的信息。
本发明面向查询的多文档自动摘要方法可以提供更加有针对性的服 务,允许用户提出最关心的问题,生成的摘要可以回答用户所提出的问题, 进一步满足用户的个性化要求。本发明方法可用于搜索引擎,新闻服务、 信息智能处理等,例如应用于手机新闻服务,服务器端将篇幅短小的新闻 摘要以短信形式发送给用户,无需占用过多的网络带宽资源,即可使用户 获得大量信息。同时用户将自己的喜好和关注点返回给服务器,而本发明 方法可以根据用户的查询主题调整摘要内容,实现与用户的互动。
权利要求
1.一种面向查询的多文档自动摘要方法,其特征在于包括以下步骤对查询及文档进行预处理;将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。
2. 按权利要求l所述的面向查询的多文档自动摘要方法,其特征在于 所述对查询进行预处理过程如下去除査询里的格式标记,提取出查询的主体部分; 对每个主体部分进行词根还原,去除查询里的禁用词,将余下的词作 为查询的关键词,得到查询的关键词集合。
3. 按权利要求l所述的面向查询的多文档自动摘要方法,其特征在于 所述对文档进行预处理过程如下去除每篇文档内的格式标记,提取出文档的主体部分; 对每个文档中的英文文本进行词根还原,对中文文本进行分词,去除文档内的禁用词;对每篇文档进行分句。
4. 按权利要求2或3所述的面向查询的多文档自动摘要方法,其特征 在于所述的禁用词包括查询禁用词和文本禁用词,其中针对查询的预处理, 将频繁出现在查询内的无关词去掉。
5. 按权利要求1所述的面向查询的多文自动档摘要方法,其特征在于 所述的主题分割采取算法1:算法L通过一个反映文档词汇整体分布情况的点图来识别语义段落边 界,包括以下步骤构造点图假设某个词在文档中位置x和位置y处重复出现,则分别在 图中(x, x),(x,力,(y, x)和(y,力四个坐标上用 一个点标出该词,即将整篇文本表 示为一个对称的二维点图;列出潜在语义段落边界将文档中全部句子或自然段落边界作为潜在 语义段落边界;确定最佳语义段落边界假设S为已确定的语义段落边界集合,那么余下的所有边界都是候选语义段落边界,参与下一轮的最佳边界评选,它们组成候选边界集合C;边界集合C中每个候选边界/,令尸=^^{/},计算由p分割出的点图上对角线外部区域的总体密度,选择使得总体密度最小的候选边界作为下一个最佳语义段落边界加入集合凡密度计算方法是<formula>formula see original document page 3</formula>其中《为整篇文档的长度,A为第/个语义段落边界的位置,IPI为文档中的语段数目,、,为第户,,个词至第巧个词组成的文本片段的词频向量;^,,为第^个词至文档末尾组成的文本片段的词频向量;r"为文档开头至第A个词组成的文本片段的词频向量;^为第A个词至第个词组成的文本片段的词频向量。 ''重复上述过程,直至语段边界数目达到预先指定的数目《为止。
6.按权利要求1所述的面向查询的多文档自动摘要方法,其特征在于 所述的主题分割采取算法2:算法2:如果给定文档为数据空间,语义段落为类别,则将主题分割的 过程转化为数据空间分割过程,求取最佳分割方式,具体包括以下步骤文档表示定义文档W为块序列其中&、 62和&分别表 示第1个、第2个和第&个块,A表示文本S包含块的个数,块定义为包含 6foc^/m个词的文本片段,釆用具有相同长度的块参与分割评价过程,将 求解最优分割方式的过程转换成为求解具有最大评价值的文本分割方式的 过程,计算公式如下式所示S = arg max P(S | B) = arg max J(B, S)其中,》为具有最大评价值的文本分割方式;s为文本^的一个分割方式;J(5, S)为文本S下分割方式为S时的分割评价值。构造候选分割方式集合将文档中全部自然段落边界作为潜在的语义段落边界,自然段落边界的全部组合作为候选主题分割方式;计算各种分割方式的评价值,其中 定义语义段落内散布矩阵S^为.附,)(6—w,)'其中^为第/块的向量表示;S^&.4表示文本^的一个分割方式;c 为当前文本分割方式S包含的语义段落个数;尸,为语义段落^的先验概率, 即语义段落A的块个数与当前文本^的所有块个数的比值;",表示语义段落A中块的个数;m,为语义段落^的中心向量;运算符^表示矩阵的转置, 其中w,=丄》 定义语义段落间散布矩阵&为其中m为当前分割方式S的'i、体平均向量附=丄2^=丄尤",,",J为基于多元判别分析的分割评价函数,包括根据语义段落内距离和语义段落间距离,定义第1 函数4元判别分析评价根据语义段落内距离和语义段落间距离,定义第2多元判别分析评价 函数力根据语义段落内距离、语义段落间距离和语义段落的长度,定义第3 多元判别分析评价函数力根据语义段落内距离、语义段落间距离和语义段落的长度,定义第4 多元判别分析评价函数入W) = s,",化)x "D上述各式中^(sj和^(&)分别表示矩阵^和矩阵&的迹,为矩阵对角 线元素之和;釆用第1、 3多元判别分析评价函数力或力计算/(S,5)评价值; 确定最佳语义段落数目对于每个可能的语义段落数目,根据计算各种分割方式的评价值的结 果求取该数目下所有分割方式中带有最大评价值的最佳分割&釆用第2、 4多元判别分析评价函数^或^来计算评价函数/(5,5)评价值;具有最大 评价值/的分割方式所对应的语义段落数目7V为最佳语义段落数目;确定最佳分割方式最佳语义段落数目iV下具有最大评价值J的分割方式为最佳分割方式。
7.按权利要求l所述的面向查询的多文自动档摘要方法,其特征在于 所述的主题分割釆取算法3:算法3:通过定义各种分割方式的评价函数,釆用动态规划方法寻求最 佳分割方式,具体包括以下步骤定义评价文本分割方式的评价函数f^r ow,—,)2 -(1-外Z厶「丄",+' "'" "'"+^的2其中A为第z'个语义段落边界的位置,iV为语义段落数目,L为整篇文 档的长度,丄,为每个语义段落的长度;公式中第一项为同一语义段落内部词 汇相似度,第二项为相邻语义段落之间词汇相似度,a和l-ct分别为它们的相对权重,第三项为语义段落长度惩罚因子,;0为该因子的权重;A,为句 子/和句子y'之间的相似度,W,为根据句子/和句子y之间的距离为相似度A,赋予的权重,计算方法如下式所示1 1附—w |S 21/|附—/ I —1根据上述分割评价函数,釆用动态规划算法求取使得函数值最大的最优分割方式,具体计算步骤如下 1 )初始化对文档中任意两个句子/和,利用下列公式计算相似度值S,乂 ,j2) 最大化 '''递推地计算Cw即从第l个句子到第f个句子组成的文本片段的最优 分割方式的评价函数值,其中s为前一个语义段落边界,计算公式为其中w是f和s的前一个最优语义段落边界,尺为文档里的句子数; 记录最优分割方式中边界s的前一个语义段落边界Z"3) 回溯逆序地推出最优分割方式f = (H...,4)向量,在该过程中,最佳语 义段落数目W自动确定。
8.如权利要求1所述的一种面向査询的多文档自动摘要方法,其特征 在于所述语义段落聚类的具体步骤如下1) 将语义段落表示成词频向量,认为每个语义段落均为一个簇;2) 计算语义段落两两之间的相似度,选择相似度最高的两个簇合并为一个簇;语义段落之间的文本相似度通过向量余弦来计算,假设两个语义段落词频向量分别为 和y =, y2,...,兄,},则相似度计算公式如下3) 计算新生成的语义段落簇两两之间的相似度,继续合并相似度最高 的簇;语义段落簇之间的文本相似度计算方法是,将两个簇之间相似度最小的两个语义段落之间的文本相似度作为两个簇的相似度;4) 重复步骤3,直到相似度最高的两个簇之间的相似度也低于阈值C 为止,这样,就得到了一定数量的簇,每个簇代表一个子主题。
9.按权利要求l所述的一种面向查询的多文档自动摘要方法,其特征 在于所述查询与子主题之间相关度的计算方法是,计算查询与子主题内的每个句子之间的相似度,将最大的相似度作为査询与子主题的相关度;查询与子主题句之间的文本相似度通过向量余弦来计算,假设查询词频向 量为《={仏,^2,...,^},子主题句的词频向量为^ = {年^一,,},则相似度计算公式如下其中w'm化^表示查询《与句子s之间的相似度,《,和^分别为查询和 句子对应的词频向量表示;假设子主题S内有w个句子,即子主题表示为S—s(l)j(2),.一(w》,J 查询与子主题之间的相关度计算公式如下n;/era"ce(g,S) = maxW"勿,。
10.按权利要求1所述的一种面向查询的多文档自动摘要方法,其特 征在于所述子主题的重要程度为子主题的簇内包含的句子数目;所述代 表句为与查询相似度最大的句子。
全文摘要
本发明涉及一种面向查询的多文档自动摘要方法,包括以下步骤对查询及文档进行预处理;将上述预处理后的文档进行主题分割和语义段落聚类,得到子主题;将查询及上述每个子主题内的句子表示成词频向量形式,计算查询与子主题的相关度;根据查询与子主题的相关度,对子主题进行筛选,并根据子主题的重要程度,进行排序,选择前T个重要的子主题,得到与查询相关的子主题有序序列;从子主题序列中依次循环摘取代表句,并将代表句连接起来,生成摘要。本发明方法通过主题分割技术使得摘要在有限的长度范围内,尽量包括了文档集内较为重要的信息,提供更加有针对性的服务,可以根据用户的查询主题调整摘要内容,实现与用户的互动。
文档编号G06F17/30GK101620596SQ20081001209
公开日2010年1月6日 申请日期2008年6月30日 优先权日2008年6月30日
发明者娜 叶, 朱靖波, 王会珍, 妍 郑 申请人:东北大学