本发明属于自然语言处理和语音处理技术领域,涉及一种基于改进的pagerank算法的文本-音频自动文摘方法。
背景技术:
随着网络时代到来,多媒体信息包括文本文档、音频等信息随处可见。有效地分析相关的文本与音频信息,并尽可能多的获取其中的重要信息,以文本摘要的形式呈现给用户,有助于帮助用户仅通过文本摘要便可获取关键信息,实现便捷、高效的信息获取。对于一系列和某一信息事件相关的文本与音频,目前常见做法是首先通过自动语音识别系统将音频转录为文本,然后将其与原始文本文档一起,通过传统的多文档自动摘要方法,生成文本摘要。上述方法相较单独从原始文本获取信息的方式来说,转录了语音信息中的相关信息,且这些信息不会被原始文本文档完全覆盖,有助于提高获取的信息量,然而自动语音识别存在很多错误,其生成的转录文本的通顺性较差、存在较多语法错误,因而可读性较差。因此在尽可能保证获取较多重要信息量的同时,改善现有的文本-音频自动文摘可读性差的情况,是目前需要解决的技术问题。
技术实现要素:
(一)要解决的技术问题
本发明提供了一种基于改进的pagerank算法的文本-音频自动文摘方法,以至少部分解决以上所提出的技术问题。
(二)技术方案
根据本发明的一个方面,提供了一种基于改进的pagerank算法的文本-音频自动文摘方法,包括:将音频转录为文本,计算转录文本和原始文本的相似度;利用改进的pagerank算法根据相似度计算转录文本和原始文本中的句子的重要性;以及根据句子的重要性,生成文本摘要。
优选地,改进的pagerank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;mij为ci与cj的相似度;n为句子总数;ci表示转录文本中的任意一个句子;cj表示原始文本中的任意一个句子;其中,改进的pagerank算法中mij的定义如下:定义跨模态句子之间的相似度矩阵为
优选地,利用改进的pagerank算法根据相似度计算转录文本和原始文本中的句子的重要性包括:对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;定义改进的pagerank算法中两个模态的句子之间相似度矩阵
优选地,上述设定阈值通过在msr语料上测试获得。
优选地,根据句子的重要性,生成文本摘要包括:定义抽取用于生成摘要的句子的目标函数;定义长度约束;通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;以及按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要。
优选地,上述目标函数的表达式如下:
其中,s为摘要集合,u(ci)为摘要s中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。
优选地,上述贪心算法实施包括:对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:
其中,cl为句子l的长度;选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。
优选地,按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,包括:对于那些出现在转录文本和原始文本中的句子,按照原文档的日期先后排序;对于那些出现在相同原文档中的选入摘要中的句子,按照其出现在原文档中的先后排序。
优选地,将音频转录为文本,计算转录文本和原始文本的相似度包括:利用自动语音识别,将音频转录为文本;计算组成上述转录文本和原始文本中的句子的词向量的加权平均值,得到转录文本与原始文本中所有句子的句向量;以及从转录文本和原始文本任选两个句子组成句对,每对句子根据每个句子的句向量计算二者的相似度,直至所有转录文本和原始文本中的句子均任意匹配计算完相似度为止。
优选地,采用余弦相似度计算句子之间的相似度。
(三)有益效果
从上述技术方案可以看出,本发明提供的基于改进的pagerank算法的文本-音频自动文摘方法,具有以下有益效果:通过改进pagerank算法,引导排序,修改了跨模态句子之间的相似度矩阵,使得来自不同模态的两个语义相同的句子之间的连接指向从原来的双向变为单向,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本-音频自动文摘的可读性。
附图说明
图1为根据本发明实施例基于改进的pagerank算法的文本-音频自动文摘方法流程图。
图2为根据本发明实施例来实施步骤s102将音频转录为文本,计算转录文本和原始文本的相似度的流程图。
图3为根据本发明实施例来实施步骤s104利用改进的pagerank算法根据相似度计算转录文本和原始文本中的句子的重要性的流程图。
图4为根据本发明实施例来实施步骤s106根据句子的重要性,生成文本摘要的流程图。
图5为根据本发明实施例来实施图4所示流程采用的贪心算法的算法示意图。
具体实施方式
本发明提供了一种基于改进的pagerank算法的文本-音频自动文摘方法,通过引导排序,修改了跨模态句子之间的相似度矩阵,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本-音频自动文摘的可读性。
为使本发明的目的、技术方案和优点更加清楚明白,以下结合具体实施例,并参照附图,对本发明作进一步详细说明。
在本发明的示意性实施例中,提供了一种基于改进的pagerank算法的文本-音频自动文摘方法。
图1为根据本发明实施例基于改进的pagerank算法的文本-音频自动文摘方法流程图,如图1所示,基于改进的pagerank算法的文本-音频自动文摘方法,包括如下步骤:
步骤s102:将音频转录为文本,计算转录文本和原始文本的相似度;
图2为根据本发明实施例来实施步骤s102将音频转录为文本,计算转录文本和原始文本的相似度的流程图,如图2所示,上述步骤包括如下子步骤:
子步骤s102a:利用自动语音识别,将音频转录为文本;
子步骤s102b:计算组成上述转录文本和原始文本中的句子的词向量的加权平均值,得到转录文本与原始文本中所有句子的句向量;
其中,利用word2vec工具在大规模中、英文单语语料上训练300维的词向量。
子步骤s102c:从转录文本和原始文本任选两个句子组成句对,每对句子根据每个句子的句向量计算二者的相似度,直至所有转录文本和原始文本中的句子均任意匹配计算完相似度为止;
其中,采用余弦相似度计算句子之间的相似度。
步骤s104:利用改进的pagerank算法根据相似度计算转录文本和原始文本中的句子的重要性;
图3为根据本发明实施例来实施步骤s104利用改进的pagerank算法根据相似度计算转录文本和原始文本中的句子的重要性的流程图,如图3所示,上述步骤包括如下子步骤:
子步骤s104a:对来自转录文本和原始文本两个模态的句子根据相似度大于设定阈值来寻找语义相同的句对;
其中,设定阈值通过在msr语料上测试获得;msr语料是一个释义句语料库,一共含有5801个句对,其中3900个句对是语义相同的。
子步骤s104b:定义改进的pagerank算法中两个模态的句子之间相似度矩阵
(1)定义跨模态句子之间的相似度矩阵为
(2)对于语义相同的句对,
(3)对于在原始文本中找不到语义相同的转录文本句子,其相似度矩阵不变;
子步骤s104c:利用改进的pagerank算法来计算每个句子的重要性得分,通过公式(1)进行迭代递归,直到得分稳定为止;pagerank算法的公式如下:
其中,μ为平滑因子;u(ci)为ci的重要性得分;u(cj)为cj的重要性得分;mij为ci与cj的相似度;n为句子总数。
步骤s106:根据句子的重要性,生成文本摘要;
图4为根据本发明实施例来实施步骤s106根据句子的重要性,生成文本摘要的流程图,如图4所示,上述步骤可分为如下子步骤:
子步骤s106a:定义抽取用于生成摘要的句子的目标函数;目标函数表达式如下:
其中,s为摘要集合,u(ci)为摘要s中的句子ci的重要性得分;λ为对冗余性的惩罚因子,通过开发集调节;sim(ci,cj)为ci和cj间的余弦相似度。
子步骤s106b:定义长度约束;
在本实施例的实验中,对于英文摘要,长度约束定义为300个英文单词;对于中文摘要,长度约束定义为500个汉字,包括标点在内。
子步骤s106c:通过贪心算法,选取最大化目标函数且满足长度约束的句子集合;
图5为根据本发明实施例来实施图4所示流程采用的贪心算法的算法示意图,如图5所示,贪心算法的实施过程如下:
对于每一个还未选为摘要的句子l,计算选该句子给目标函数f带来的得分增益,其表达式如下式所示:
其中,cl为句子l的长度;
选取满足得分增益最高的句子作为选入摘要,如此循环进行,直至摘要长度达到预定的长度限制。
子步骤s106d:按照输入的转录文本和原始文本中句子的出现顺序,将符合条件的句子排序,作为输出摘要;
其中,对于那些出现在转录文本和原始文本中的句子,按照原文档的日期先后排序;对于那些出现在相同原文档中的选入摘要中的句子,按照其出现在原文档中的先后排序。
根据本发明实施例,进行了音频-文本实验,并且与如下两种传统方式进行对比:纯文本无引导基线系统,该基线系统只使用原始文本生成文本摘要;文本-音频无引导基线系统,该基线系统使用原始文本和转录文本生成摘要,但是采用普通的pagerank算法,没有采用引导排序。实验数据集包含25个文本-音频集合,每个文本-音频集合对应一个2011-2016年的热门新闻话题,包含20篇原始文本,5-10段音频。
一共有三个标注者参与了生成摘要的评价,评价标准为:信息量和可读性。信息量即生成摘要的重要信息含量,可读性包括生成摘要是否有语法错误,是否通顺。打分区间为1-5分,不允许小数。
附表1给出了不同系统对于中文数据生成的摘要的信息量和可读性平均得分。附表2给出了不同系统对于英文数据生成的摘要的信息量和可读性平均得分。通过上述两个表,对于可读性,我们可以看到在三个系统中,文本-音频无引导表现最差,纯文本无引导系统表现最好,本发明系统略低于纯文本无引导系统。对于信息量,本发明系统信息量最大。考虑到使用转录文本必然会降低可读性,本发明提出的方法,平衡了信息量和可读性,在保证较多信息量的同时,还提高了文本摘要的可读性。
表1中文文本-音频自动文摘结果
表2英文文本-音频自动文摘结果
综上所述,本发明实施例提供了一种基于改进的pagerank算法的文本-音频自动文摘方法,通过引导排序,修改了跨模态句子之间的相似度矩阵,将来自不同模态的两个语义相同的句子之间的连接改为单向,即将该连接由转录文本句子一侧指向原始文本句子一侧,从而鼓励原始文本句子获得更高的得分,同时,那些无法在原始文本中找到语义对应的重要的转录文本句子的得分不受影响,实现了原始文本句子与转录文本句子语义相同时,按照原始文本句子进行输出,在保证获取较多重要信息量同时,避免了转录带来的语法错误和不通顺的问题,提高了文本-音频自动文摘的可读性。
当然,根据实际需要,本发明提供的基于改进的pagerank算法的文本-音频自动文摘方法,还包含其他的常用算法和步骤,由于同发明的创新之处无关,此处不再赘述。
本领域技术人员应该能够意识到,结合本文中所公开的实施例描述的各示例的模块、及方法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明电子硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以电子硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。本领域技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
以上所述的具体实施例,对本发明的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为发明的具体实施例而已,并不用于限制本发明,凡在本发明的精神和原则之内,所做的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。