基于语义解析的摘要提取方法、装置、设备及介质与流程

文档序号:28171263发布日期:2021-12-24 23:41阅读:183来源:国知局
基于语义解析的摘要提取方法、装置、设备及介质与流程

1.本发明涉及人工智能的语音语义技术领域,尤其涉及一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质。


背景技术:

2.目前,对文本基于textrank算法(即文本排序算法)进行文本摘要提取时,主要是通过计算共同出现词来计算句子计算相似度,再以借鉴pagerank算法(即页面排序算法)为每个句子计算权重,然后选择权重高的句子,自动生成摘要。在获取句子中各关键词的词向量后进行加权求和得到句向量时,会受高频词影响,导致语义不够聚焦,所得到的句向量所包含信息特征并不准确。而且计算句子的相似度时,一般句向量是按句子中各关键词的词向量后进行加权求和得到,这样得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低,这就导致所计算每个句子计算权重的结果不够准确,所生成的摘要也就准确度不高。


技术实现要素:

3.本发明实施例提供了一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质,旨在解决现有技术中对文本基于textrank算法进行文本摘要提取时,是计算文本中句子之间的相似度以获取句子权重,且句向量是按句子中各关键词的词向量后进行加权求和得到,但依此得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低,所生成的摘要也就准确度不高的问题。
4.第一方面,本发明实施例提供了一种基于语义解析的摘要提取方法,其包括:响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本;将所述待提取文本进行分词和去停用词处理,得到分词结果;获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果;获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句;获取预训练bert模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练bert模型,得到每一转换分句的句向量;根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵;通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果;以及获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。
5.第二方面,本发明实施例提供了一种基于语义解析的摘要提取装置,其包括:
待提取文本获取单元,用于响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本;分词单元,用于将所述待提取文本进行分词和去停用词处理,得到分词结果;关键词筛选单元,用于获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果;掩码处理单元,用于获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句;句向量获取单元,用于获取预训练bert模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练bert模型,得到每一转换分句的句向量;相似度矩阵获取单元,用于根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵;输出结果获取单元,用于通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果;以及目标分句组合单元,用于获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。
6.第三方面,本发明实施例又提供了一种计算机设备,其包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的基于语义解析的摘要提取方法。
7.第四方面,本发明实施例还提供了一种计算机可读存储介质,其中所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行上述第一方面所述的基于语义解析的摘要提取方法。
8.本发明实施例提供了一种基于语义解析的摘要提取方法、装置、计算机设备及存储介质,先对待提取文本基于tf

idf及频率值筛选条件提取第一筛选结果,然后获取待提取文本包括的每一分句以根据掩码转换策略进行掩码替换,得到每一分句相应的转换分句,将每一分句相应的转换分句均输入至预训练bert模型得到相应的句向量,根据每一分句的句向量计算得到相似度矩阵,最后基于相似度矩阵和textrank算法计算每一分句的评分并筛选出评分排名未超出评分排名阈值的目标分句评分及分别相应的分句组成文本摘要。实现了基于tf

idf提取的重要词优化bert模型的掩码语言处理任务,输出有侧重点的句向量,之后基于textrank提取更为准确的重点分句组成文本摘要,所提取的文本摘要更加准确。
附图说明
9.为了更清楚地说明本发明实施例技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
10.图1为本发明实施例提供的基于语义解析的摘要提取方法的应用场景示意图;图2为本发明实施例提供的基于语义解析的摘要提取方法的流程示意图;
图3为本发明实施例提供的基于语义解析的摘要提取装置的示意性框图;图4为本发明实施例提供的计算机设备的示意性框图。
具体实施方式
11.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
12.应当理解,当在本说明书和所附权利要求书中使用时,术语“包括”和
ꢀ“
包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
13.还应当理解,在此本发明说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本发明。如在本发明说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
14.还应当进一步理解,在本发明说明书和所附权利要求书中使用的术语“和/ 或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
15.请参阅图1和图2,图1为本发明实施例提供的基于语义解析的摘要提取方法的应用场景示意图;图2为本发明实施例提供的基于语义解析的摘要提取方法的流程示意图,该基于语义解析的摘要提取方法应用于服务器中,该方法通过安装于服务器中的应用软件进行执行。
16.如图2所示,该方法包括步骤s101~s108。
17.s101、响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本。
18.在本实施例中,是以服务器为执行主体描述技术方案。当用户需要针对某一文本(该文本可视为待提取文本)进行文本摘要提取时,可以将待提取文本通过用户端等终端上传至服务器以基于服务器中的模型进行提取。也即当用户因上传或选中待提取文本等操作触发文本摘要提取指令时,是先确定哪一篇文本是与所述文本摘要提取指令相应的待提取文本,之后再进行具体的摘要提取处理。
19.s102、将所述待提取文本进行分词和去停用词处理,得到分词结果。
20.在本实施例中,对文本进行摘要提取的第一步就是需要进行文本分词处理,对所述待提取文本进行分词可以采用隐马尔科夫模型(即hmm模型)、条件随机场(即crf)、深度学习模型等方式进行基于统计的分词,也可以采用基于词典的分词算法进行分词。
21.在一实施例中,步骤s102包括:将所述待提取文本通过预设的基于概率统计分词模型进行分词得到初始分词结果,将所述初始分词结果中的停用词删除,得到分词结果。
22.在本实施例中,当通过预设的基于概率统计分词模型(采用基于概率统计分词模型只是其中一种具体实施方式,具体实施时还能采用其他分词算法,并不局限于基于概率统计分词模型,只要能实现中文文本分词即可)在将所述待提取文本进行分词得到初始分词结果后,由于其中包括语气助词、副词、介词、连词等停用词,因为停用词在文本中出现频
率很高但实际意义又不大,故可以基于预先存储的停用词表将所述初始分词结果中的停用词进行删除,从而得到分词结果,有效保留了待提取文本中出现频率高且有实际意义的词语。
23.s103、获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果。
24.在本实施例中,当获取了与所述带提取文本相应的分词结果后,可以基于预先设置的频率值筛选条件从分词结果进行筛选得到第一筛选结果。具体实施时,所述频率值筛选条件的获取过程如下:先统计获取所述分词结果中分词的分词总个数,然后基于所述分词总个数与预设的分词获取百分比阈值相乘得到分词获取个数,最后以获取分词结果基于各分词的词频

逆文档频率值进行降序排序而得到排序结果中排名未超出所述分词获取个数的分词作为频率值筛选条件。然后将所述分词结果基于所述频率值筛选条件的分词进行筛选,得到第一筛选结果。例如将百分比阈值设置为15%,则是获取分词结果中分词的词频

逆文档频率值排名在前15%的各分词以组成第一筛选结果。
25.在一实施例中,所述获取所述分词结果中每一分词的词频

逆文档频率值,包括:获取所述分词结果中每一分词的词频,以及每一分词的逆文档频率;根据所述分词结果中每一分词的词频与逆文档频率的乘积,得到所述分词结果中每一分词的词频

逆文档频率值。
26.在本实施例中,获取所述分词结果中分词word
i
的词频时,是由该分词word
i
在待提取文本出现的总次数除以分词结果中的分词总个数得到。获取所述分词结果中分词word
i
的逆文档频率时,是先获取预先存储语料库(在语料库中包括多篇文档),然后统计获取所述语料库中包括的文档总数,之后统计获取所述语料库中包括分词word
i
的目标文档总数,最后由逆文档频率=lg(语料库的文档总数)/(语料库中包括分词word
i
的目标文档总数+1)来计算获取所述分词结果中分词word
i
的逆文档频率;其中,word
i
中的i取值是自然数且取值范围是[1,m],m为分词结果在的分词总个数。
[0027]
从一个分词的tf

idf值可以看出,分词的tf

idf值与在待提取文本中的出现次数成正比,与该词在整个语料库中的出现次数成反比。所以,自动提取关键词就是计算出待提取文本中每个分词的tf

idf值,然后按降序排列,取排在最前面的几个词即可得到第一筛选结果。
[0028]
s104、获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句。
[0029]
在本实施例中,提取文本摘要的核心在于获取文本中的重要句子,而重要句子的特点就是与其他句子之间的相似性也比较高,这样只要准确的提取出文本的重要句子即可组成文本摘要。
[0030]
在计算句子之间的相似性时,一般是基于句子相应句向量之间的余弦相似度来计算。而获取句子的句向量一般是获取句子中各关键词的词向量后进行加权求和得到,这样得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低。为了提高分析句子之间的相似性时准确性,可以采用预训练的bert模型提取句子的句向量(bert模型中bert的英文全称是bidirectional encoder representation from transformers,表示transformer的双向
编码器表示)。由于bert模型提取句子的句向量是充分考虑了上下文信息,故所输出的句向量用于文摘提取时有效信息更多,计算结果更加准确。
[0031]
其中,在基于预训练的bert模型提取句子的句向量,需要先对所述待提取文本包括的每一分句中进行掩码处理(可以理解为基于mlm模型也即掩码语言模型进行掩码处理),也就是将每一分句中被选中的若干个分词以mask字符、或是第一筛选结果中的任意一个关键词、或者是任意一个随机词进行替换,这样将每一分句中的部分分词经过掩码处理后再获取句向量,既不影响句子的完整语义,而且能更深层次的挖掘出句子之间的相似性。
[0032]
在一实施例中,所述掩码转换策略用于将分句中满足重要分词筛选条件的分词提取并根据预设转化策略进行转化,得到分句相应的转换分句。通过该掩码转换策略,可以将分句中随机提取的分词进行掩码处理但又不影响正常语义理解。
[0033]
在一实施例中,作为步骤s104的第一实施例,步骤s104包括:若确定分句中具有所述第一筛选结果中的分词,判定分句中相应的分词满足重要分词筛选条件,获取分句中满足重要分词筛选条件相应的分词得到第一待掩码分词集合;若确定分句中不具有所述第一筛选结果中的分词,获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第二待掩码分词集合;将分句中的第一待掩码分词集合或第二待掩码分词集合以预设的第一掩码字符串进行替换,得到转换分句。
[0034]
在本实施例中,作为步骤s104的第一实施例,是将每一分句中的高频词进行掩码处理,从而降低高频词对文本摘要提取的影响。也就是每一分句中只要包括了所述第一筛选结果中的分词,也就是存在第一待掩码分词集合,说明该分句中有会对文本摘要提取造成影响的高频词,此时将每一分句的第一待掩码分词集合中所有分词以预设的第一掩码字符串(例如预设的第一掩码字符串为[mask])进行替换,得到转换分句。通过该掩码转换策略,可以将分句中高频词进行掩码处理但又不影响正常语义理解,有效降低了高频词对文本摘要提取的影响。其中,所预设的第一筛选比例可以设置为10%

20%区间中的任意一个百分比例值,设置这一第一筛选比例既可以确保有足够多的分词被选中进行掩码处理,也能确保不会影响整个句子的语义。
[0035]
另一种情况是若有分句中不包括所述第一筛选结果中的分词,直接从该分句中随机获取具有所述本句分词筛选个数的分词组成第二待掩码分词集合,此时将该分句的第二待掩码分词集合中所有分词以预设的第一掩码字符串(例如预设的第一掩码字符串为[mask])进行替换,得到转换分句。
[0036]
其中,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数时,若本句分词总个数与所述第一筛选比例之积不为正整数,此时进行一个向上取整的运算,得到一个整数取值的本句分词筛选个数。
[0037]
可见,对待提取文本中以句为单位分别进行掩码处理,能快速且准确的将待提取文本中的每句话均按预设规则进行转换,得到能用于进一步分析句子之间相似性的转换分句。
[0038]
在一实施例中,作为步骤s104的第二实施例,步骤s104包括:获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积
确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第三待掩码分词集合;获取预设的第二筛选比例,根据第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积确定的本集合筛选个数,在第三待掩码分词集合中随机获取具有所述本集合筛选个数的分词,组成第四待掩码分词集合;将分句的第四待掩码分词集合中每一分词以预设的第一掩码字符串进行替换,得到第一更新分句;在第三待掩码分词集合中获取所述第四待掩码分词集合的补集,得到第五待掩码分词集合;将第一更新分句的第五待掩码分词集合中每一分词以从所述第一筛选结果中任意选中的一个关键词进行替换,得到分句相应的转换分句。
[0039]
在本实施例中,作为步骤s104的第二实施例,所预设的第一筛选比例可以设置为10%

20%区间中的任意一个百分比例值,设置这一第一筛选比例既可以确保有足够多的分词被选中进行掩码处理,也能确保不会影响整个句子的语义。而且为了从整体控制各分句中被掩码的分词的比例,可以在每一句中均选取具有所述本句分词筛选个数的分词,组成第三待掩码分词集合,然后先将第三待掩码分词集合中的第四待掩码分词集合中每一分词以预设的第一掩码字符串(例如预设的第一掩码字符串为[mask])进行替换,得到第一更新分句。之后再将第一更新分句的第五待掩码分词集合中每一分词以从所述第一筛选结果中任意选中的一个关键词进行替换,得到分句相应的转换分句。与步骤s104的第一实施例相比,步骤s104的第二实施例控制了整篇待提取文本中被掩码处理的分词比例,也能快速且准确的将待提取文本中的每句话均按预设规则进行转换,得到能用于进一步分析句子之间相似性的转换分句。
[0040]
其中,根据第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积确定的本集合筛选个数时,若第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积不为正整数,此时进行一个向上取整的运算,得到一个整数取值的本集合筛选个数。
[0041]
s105、获取预训练bert模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练bert模型,得到每一转换分句的句向量。
[0042]
在本实施例中,bert模型自身就是一个两段式的nlp(即自然语言处理)模型,其第一个阶段是pre

training(也即预训练),利用现有无标记的语料训练一个语言模型。第二个阶段是fine

tuning(也即微调),利用预训练好的语言模型,完成具体的nlp下游任务。通过预训练bert模型可以直接用于获取句向量,从而提取中每一转换分句的整句话的语义。
[0043]
在一实施例中,步骤s105包括:将所述待提取文本中每一分句相应的转换分句均输入至预训练bert模型进行运算,获取每一转换分句经过所述预训练bert模型的前十一层transformer结构运算后输出的结果作为每一转换分句的句向量;其中,所述预训练bert模型包含12层transformer结构。
[0044]
在本实施例中,例如预训练bert模型是一个包含12层transformer的结构,每一层transformer的输出值,理论上来说都可以作为句向量,但是最后一层transformer的输出
值太接近于目标,前面十层的值可能语义还未充分的学习到,为了获取更充分理解语义的句向量,一般选取第11层transformer的输出作为句向量。
[0045]
s106、根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵。
[0046]
在本实施例中,若所述待提取文本以句号为分隔符切分为多个分句(该过程可以记为将待提取文本p经过切分为分句处理后得到的多个分句[s1,s2,
……
,sn]),每一分句分别依次进行掩码处理及句向量获取之后,得到了每一分句的句向量如[t1,t2,
ꢀ……
,tn](其中,句向量t1是分句s1的句向量,句向量t2是分句s2的句向量,
……
,句向量tn是分句sn的句向量)。那么计算每两个分句之间的余弦相似度,即可得到一个n*n的相似度矩阵。例如在该n*n的相似度矩阵中第i行第j列的值表示分句si和分句sj之间的余弦相似度值。通过上述方式能快速得到所述待提取文本中各分句之间的余弦相似度,并组成相似度矩阵。
[0047]
s107、通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果。
[0048]
在本实施例中,当获取了相似度矩阵后,可以基于textrank算法(即文本排序算法)获取与所述相似度矩阵相应的输出结果。其中,textrank算法的公式如下式(1):
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)其中,表示分句s
p
的评分,表示分句s
p
和分句s
q
之间的余弦相似度,表示分句s
q
和分句s
r
之间的边的权重(也可以理解为分句s
q
和分句s
r
之间的余弦相似度),表示分句s
q
的评分。
[0049]
通过基于式(1)的计算得到了与所述相似度矩阵相应的输出结果后,即可得到所述待提取文本中每一分句对应的评分,后续即可基于每一分句的评分筛选出较高评分的分句组成文本摘要。
[0050]
s108、获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。
[0051]
在本实施例中,当获取了所述输出结果后,即可获知所述待提取文本中每一分句对应的评分,此时将每一分句的评分按照降序排序后得到排序结果,获取排序结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,最终由各目标分句评分分别相应的分句组成文本摘要。通过这一方式筛选出待提取文本中重要的分句从而组成文本摘要。
[0052]
本技术实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(artificial intelligence,ai)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
[0053]
该方法实现了基于tf

idf提取的重要词优化bert模型的掩码语言处理任务,输出有侧重点的句向量,之后基于textrank提取更为准确的重点分句组成文本摘要,所提取的文本摘要更加准确。
[0054]
本发明实施例还提供一种基于语义解析的摘要提取装置,该基于语义解析的摘要提取装置用于执行前述基于语义解析的摘要提取方法的任一实施例。具体地,请参阅图3,图3是本发明实施例提供的基于语义解析的摘要提取装置100的示意性框图。
[0055]
其中,如图3所示,基于语义解析的摘要提取装置100包括待提取文本获取单元101、分词单元102、关键词筛选单元103、掩码处理单元104、句向量获取单元105、相似度矩阵获取单元106、输出结果获取单元107、目标分句组合单元108。
[0056]
待提取文本获取单元101,用于响应于文本摘要提取指令,获取与所述文本摘要提取指令相应的待提取文本。
[0057]
在本实施例中,是以服务器为执行主体描述技术方案。当用户需要针对某一文本(该文本可视为待提取文本)进行文本摘要提取时,可以将待提取文本通过用户端等终端上传至服务器以基于服务器中的模型进行提取。也即当用户因上传或选中待提取文本等操作触发文本摘要提取指令时,是先确定哪一篇文本是与所述文本摘要提取指令相应的待提取文本,之后再进行具体的摘要提取处理。
[0058]
分词单元102,用于将所述待提取文本进行分词和去停用词处理,得到分词结果。
[0059]
在本实施例中,对文本进行摘要提取的第一步就是需要进行文本分词处理,对所述待提取文本进行分词可以采用隐马尔科夫模型(即hmm模型)、条件随机场(即crf)、深度学习模型等方式进行基于统计的分词,也可以采用基于词典的分词算法进行分词。
[0060]
在一实施例中,分词单元102还用于:将所述待提取文本通过预设的基于概率统计分词模型进行分词得到初始分词结果,将所述初始分词结果中的停用词删除,得到分词结果。
[0061]
在本实施例中,当通过预设的基于概率统计分词模型(采用基于概率统计分词模型只是其中一种具体实施方式,具体实施时还能采用其他分词算法,并不局限于基于概率统计分词模型,只要能实现中文文本分词即可)在将所述待提取文本进行分词得到初始分词结果后,由于其中包括语气助词、副词、介词、连词等停用词,因为停用词在文本中出现频率很高但实际意义又不大,故可以基于预先存储的停用词表将所述初始分词结果中的停用词进行删除,从而得到分词结果,有效保留了待提取文本中出现频率高且有实际意义的词语。
[0062]
关键词筛选单元103,用于获取所述分词结果中每一分词的词频

逆文档频率值,将满足预设的频率值筛选条件的分词进行筛选,得到第一筛选结果。
[0063]
在本实施例中,当获取了与所述带提取文本相应的分词结果后,可以基于预先设置的频率值筛选条件从分词结果进行筛选得到第一筛选结果。具体实施时,所述频率值筛选条件的获取过程如下:先统计获取所述分词结果中分词的分词总个数,然后基于所述分词总个数与预设的分词获取百分比阈值相乘得到分词获取个数,最后以获取分词结果基于各分词的词频

逆文档频率值进行降序排序而得到排序结果中排名未超出所述分词获取个数的分词作为频率值筛选条件。然后将所述分词结果基于所述频率值筛选条件的分词进行筛选,得到第一筛选结果。例如将百分比阈值设置为15%,则是获取分词结果中分词的词频

逆文档频率值排名在前15%的各分词以组成第一筛选结果。
[0064]
在一实施例中,所述关键词筛选单元103,包括:分词参数获取单元获取所述分词结果中每一分词的词频,以及每一分词的逆文档频率;词频

逆文档频率值获取单元,用于根据所述分词结果中每一分词的词频与逆文档频率的乘积,得到所述分词结果中每一分词的词频

逆文档频率值。
[0065]
在本实施例中,获取所述分词结果中分词word
i
的词频时,是由该分词word
i
在待提取文本出现的总次数除以分词结果中的分词总个数得到。获取所述分词结果中分词word
i
的逆文档频率时,是先获取预先存储语料库(在语料库中包括多篇文档),然后统计获取所述语料库中包括的文档总数,之后统计获取所述语料库中包括分词word
i
的目标文档总数,最后由逆文档频率=lg(语料库的文档总数)/(语料库中包括分词word
i
的目标文档总数+1)来计算获取所述分词结果中分词word
i
的逆文档频率;其中,word
i
中的i取值是自然数且取值范围是[1,m],m为分词结果在的分词总个数。
[0066]
从一个分词的tf

idf值可以看出,分词的tf

idf值与在待提取文本中的出现次数成正比,与该词在整个语料库中的出现次数成反比。所以,自动提取关键词就是计算出待提取文本中每个分词的tf

idf值,然后按降序排列,取排在最前面的几个词即可得到第一筛选结果。
[0067]
掩码处理单元104,用于获取所述待提取文本包括的每一分句,将所述待提取文本的每一分句根据预设的掩码转换策略进行掩码替换,得到所述待提取文本中每一分句相应的转换分句。
[0068]
在本实施例中,提取文本摘要的核心在于获取文本中的重要句子,而重要句子的特点就是与其他句子之间的相似性也比较高,这样只要准确的提取出文本的重要句子即可组成文本摘要。
[0069]
在计算句子之间的相似性时,一般是基于句子相应句向量之间的余弦相似度来计算。而获取句子的句向量一般是获取句子中各关键词的词向量后进行加权求和得到,这样得到的句向量仅仅是考虑了句子本身的含义,并未充分融合上下文的信息,所得到的句向量用于进一步分析句子之间的相似性时准确性较低。为了提高分析句子之间的相似性时准确性,可以采用预训练的bert模型提取句子的句向量(bert模型中bert的英文全称是bidirectional encoder representation from transformers,表示transformer的双向编码器表示)。由于bert模型提取句子的句向量是充分考虑了上下文信息,故所输出的句向量用于文摘提取时有效信息更多,计算结果更加准确。
[0070]
其中,在基于预训练的bert模型提取句子的句向量,需要先对所述待提取文本包括的每一分句中进行掩码处理(可以理解为基于mlm模型也即掩码语言模型进行掩码处理),也就是将每一分句中被选中的若干个分词以mask字符、或是第一筛选结果中的任意一个关键词、或者是任意一个随机词进行替换,这样将每一分句中的部分分词经过掩码处理后再获取句向量,既不影响句子的完整语义,而且能更深层次的挖掘出句子之间的相似性。
[0071]
在一实施例中,所述掩码转换策略用于将分句中满足重要分词筛选条件的分词提取并根据预设转化策略进行转化,得到分句相应的转换分句。通过该掩码转换策略,可以将分句中随机提取的分词进行掩码处理但又不影响正常语义理解。
[0072]
在一实施例中,作为掩码处理单元104的第一实施例,掩码处理单元104包括:第一执行单元,用于若确定分句中具有所述第一筛选结果中的分词,判定分句中相应的分词满足重要分词筛选条件,获取分句中满足重要分词筛选条件相应的分词得到第一待掩码分词集合;第二执行单元,用于若确定分句中不具有所述第一筛选结果中的分词,获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第二待掩码分词集合;第三执行单元,用于将分句中的第一待掩码分词集合或第二待掩码分词集合以预设的第一掩码字符串进行替换,得到转换分句。
[0073]
在本实施例中,作为掩码处理单元104的第一实施例,是将每一分句中的高频词进行掩码处理,从而降低高频词对文本摘要提取的影响。也就是每一分句中只要包括了所述第一筛选结果中的分词,也就是存在第一待掩码分词集合,说明该分句中有会对文本摘要提取造成影响的高频词,此时将每一分句的第一待掩码分词集合中所有分词以预设的第一掩码字符串(例如预设的第一掩码字符串为[mask])进行替换,得到转换分句。通过该掩码转换策略,可以将分句中高频词进行掩码处理但又不影响正常语义理解,有效降低了高频词对文本摘要提取的影响。其中,所预设的第一筛选比例可以设置为10%

20%区间中的任意一个百分比例值,设置这一第一筛选比例既可以确保有足够多的分词被选中进行掩码处理,也能确保不会影响整个句子的语义。
[0074]
另一种情况是若有分句中不包括所述第一筛选结果中的分词,直接从该分句中随机获取具有所述本句分词筛选个数的分词组成第二待掩码分词集合,此时将该分句的第二待掩码分词集合中所有分词以预设的第一掩码字符串(例如预设的第一掩码字符串为[mask])进行替换,得到转换分句。
[0075]
其中,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数时,若本句分词总个数与所述第一筛选比例之积不为正整数,此时进行一个向上取整的运算,得到一个整数取值的本句分词筛选个数。
[0076]
可见,对待提取文本中以句为单位分别进行掩码处理,能快速且准确的将待提取文本中的每句话均按预设规则进行转换,得到能用于进一步分析句子之间相似性的转换分句。
[0077]
在一实施例中,作为掩码处理单元104的第二实施例,掩码处理单元104包括:第四执行单元,用于获取预设的第一筛选比例,根据分句的本句分词总个数与所述第一筛选比例之积确定的本句分词筛选个数,在分句中随机获取具有所述本句分词筛选个数的分词,组成第三待掩码分词集合;第五执行单元,用于获取预设的第二筛选比例,根据第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积确定的本集合筛选个数,在第三待掩码分词集合中随机获取具有所述本集合筛选个数的分词,组成第四待掩码分词集合;第六执行单元,用于将分句的第四待掩码分词集合中每一分词以预设的第一掩码字符串进行替换,得到第一更新分句;第七执行单元,用于在第三待掩码分词集合中获取所述第四待掩码分词集合的补集,得到第五待掩码分词集合;
第八执行单元,用于将第一更新分句的第五待掩码分词集合中每一分词以从所述第一筛选结果中任意选中的一个关键词进行替换,得到分句相应的转换分句。
[0078]
在本实施例中,作为掩码处理单元104的第二实施例,所预设的第一筛选比例可以设置为10%

20%区间中的任意一个百分比例值,设置这一第一筛选比例既可以确保有足够多的分词被选中进行掩码处理,也能确保不会影响整个句子的语义。而且为了从整体控制各分句中被掩码的分词的比例,可以在每一句中均选取具有所述本句分词筛选个数的分词,组成第三待掩码分词集合,然后先将第三待掩码分词集合中的第四待掩码分词集合中每一分词以预设的第一掩码字符串(例如预设的第一掩码字符串为[mask])进行替换,得到第一更新分句。之后再将第一更新分句的第五待掩码分词集合中每一分词以从所述第一筛选结果中任意选中的一个关键词进行替换,得到分句相应的转换分句。与步骤s104的第一实施例相比,掩码处理单元104的第二实施例控制了整篇待提取文本中被掩码处理的分词比例,也能快速且准确的将待提取文本中的每句话均按预设规则进行转换,得到能用于进一步分析句子之间相似性的转换分句。
[0079]
其中,根据第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积确定的本集合筛选个数时,若第三待掩码分词集合中的待掩码分词总个数与所述第二筛选比例之积不为正整数,此时进行一个向上取整的运算,得到一个整数取值的本集合筛选个数。
[0080]
句向量获取单元105,用于获取预训练bert模型,将所述待提取文本中每一分句相应的转换分句均输入至预训练bert模型,得到每一转换分句的句向量。
[0081]
在本实施例中,bert模型自身就是一个两段式的nlp(即自然语言处理)模型,其第一个阶段是pre

training(也即预训练),利用现有无标记的语料训练一个语言模型。第二个阶段是fine

tuning(也即微调),利用预训练好的语言模型,完成具体的nlp下游任务。通过预训练bert模型可以直接用于获取句向量,从而提取中每一转换分句的整句话的语义。
[0082]
在一实施例中,句向量获取单元105还用于:将所述待提取文本中每一分句相应的转换分句均输入至预训练bert模型进行运算,获取每一转换分句经过所述预训练bert模型的前十一层transformer结构运算后输出的结果作为每一转换分句的句向量;其中,所述预训练bert模型包含12层transformer结构。
[0083]
在本实施例中,例如预训练bert模型是一个包含12层transformer的结构,每一层transformer的输出值,理论上来说都可以作为句向量,但是最后一层transformer的输出值太接近于目标,前面十层的值可能语义还未充分的学习到,为了获取更充分理解语义的句向量,一般选取第11层transformer的输出作为句向量。
[0084]
相似度矩阵获取单元106,用于根据所述待提取文本中每一分句的句向量,计算得到相似度矩阵。
[0085]
在本实施例中,若所述待提取文本以句号为分隔符切分为多个分句(该过程可以记为将待提取文本p经过切分为分句处理后得到的多个分句[s1,s2,
……
,sn]),每一分句分别依次进行掩码处理及句向量获取之后,得到了每一分句的句向量如[t1,t2,
ꢀ……
,tn](其中,句向量t1是分句s1的句向量,句向量t2是分句s2的句向量,
……
,句向量tn是分句sn的句向量)。那么计算每两个分句之间的余弦相似度,即可得到一个n*n的相似度矩阵。例如
在该n*n的相似度矩阵中第i行第j列的值表示分句si和分句sj之间的余弦相似度值。通过上述方式能快速得到所述待提取文本中各分句之间的余弦相似度,并组成相似度矩阵。
[0086]
输出结果获取单元107,用于通过所述相似度矩阵及预先存储的文本排序策略进行运算,得到与所述相似度矩阵相应的输出结果。
[0087]
在本实施例中,当获取了相似度矩阵后,可以基于textrank算法(即文本排序算法)获取与所述相似度矩阵相应的输出结果。其中,textrank算法的公式如上式(1)。
[0088]
通过基于式(1)的计算得到了与所述相似度矩阵相应的输出结果后,即可得到所述待提取文本中每一分句对应的评分,后续即可基于每一分句的评分筛选出较高评分的分句组成文本摘要。
[0089]
目标分句组合单元108,用于获取所述输出结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,由各目标分句评分分别相应的分句组成文本摘要。
[0090]
在本实施例中,当获取了所述输出结果后,即可获知所述待提取文本中每一分句对应的评分,此时将每一分句的评分按照降序排序后得到排序结果,获取排序结果中分句评分排名未超出预设的评分排名阈值的目标分句评分,及各目标分句评分分别相应的分句,最终由各目标分句评分分别相应的分句组成文本摘要。通过这一方式筛选出待提取文本中重要的分句从而组成文本摘要。
[0091]
该装置实现了基于tf

idf提取的重要词优化bert模型的掩码语言处理任务,输出有侧重点的句向量,之后基于textrank提取更为准确的重点分句组成文本摘要,所提取的文本摘要更加准确。
[0092]
上述基于语义解析的摘要提取装置可以实现为计算机程序的形式,该计算机程序可以在如图4所示的计算机设备上运行。
[0093]
请参阅图4,图4是本发明实施例提供的计算机设备的示意性框图。该计算机设备500是服务器,也可以是服务器集群。服务器可以是独立的服务器,也可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network,cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。
[0094]
参阅图4,该计算机设备500包括通过装置总线501连接的处理器502、存储器和网络接口505,其中,存储器可以包括存储介质503和内存储器504。
[0095]
该存储介质503可存储操作装置5031和计算机程序5032。该计算机程序5032被执行时,可使得处理器502执行基于语义解析的摘要提取方法。
[0096]
该处理器502用于提供计算和控制能力,支撑整个计算机设备500的运行。
[0097]
该内存储器504为存储介质503中的计算机程序5032的运行提供环境,该计算机程序5032被处理器502执行时,可使得处理器502执行基于语义解析的摘要提取方法。
[0098]
该网络接口505用于进行网络通信,如提供数据信息的传输等。本领域技术人员可以理解,图4中示出的结构,仅仅是与本发明方案相关的部分结构的框图,并不构成对本发明方案所应用于其上的计算机设备500的限定,具体的计算机设备500可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
[0099]
其中,所述处理器502用于运行存储在存储器中的计算机程序5032,以实现本发明
实施例公开的基于语义解析的摘要提取方法。
[0100]
本领域技术人员可以理解,图4中示出的计算机设备的实施例并不构成对计算机设备具体构成的限定,在其他实施例中,计算机设备可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。例如,在一些实施例中,计算机设备可以仅包括存储器及处理器,在这样的实施例中,存储器及处理器的结构及功能与图4所示实施例一致,在此不再赘述。
[0101]
应当理解,在本发明实施例中,处理器502可以是中央处理单元 (central processing unit,cpu),该处理器502还可以是其他通用处理器、数字信号处理器 (digital signal processor,dsp)、专用集成电路 (application specific integrated circuit,asic)、现成可编程门阵列 (field

programmable gate array,fpga) 或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。其中,通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。
[0102]
在本发明的另一实施例中提供计算机可读存储介质。该计算机可读存储介质可以为非易失性的计算机可读存储介质,也可以为易失性的计算机可读存储介质。该计算机可读存储介质存储有计算机程序,其中计算机程序被处理器执行时实现本发明实施例公开的基于语义解析的摘要提取方法。
[0103]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的设备、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。
[0104]
在本发明所提供的几个实施例中,应该理解到,所揭露的设备、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为逻辑功能划分,实际实现时可以有另外的划分方式,也可以将具有相同功能的单元集合成一个单元,例如多个单元或组件可以结合或者可以集成到另一个装置,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0105]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本发明实施例方案的目的。
[0106]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0107]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用
时,可以存储在一个存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备 ( 可以是个人计算机,后台服务器,或者网络设备等 ) 执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u 盘、移动硬盘、只读存储器 (rom,read

only memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0108]
以上所述,仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到各种等效的修改或替换,这些修改或替换都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应以权利要求的保护范围为准。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1