文本的自动摘要方法、装置及存储介质与流程

文档序号:30429294发布日期:2022-06-15 16:23阅读:147来源:国知局
文本的自动摘要方法、装置及存储介质与流程

1.本发明实施例涉及自然语言处理技术领域,尤其涉及一种文本的自动摘要方法、装置及存储介质。


背景技术:

2.从自然语言文本中自动化提取摘要的定义是:给出一个自然语言文本,系统需要提取出一段长度小于原文长度的文本,其意思尽可能概括原文。
3.由于互联网的发展,有海量的用户产生数据,其中有大量冗余文本,例如政府企事业单位的投诉评价平台,有海量的用户产生数据,文本质量良莠不齐,冗余的文本多,较难使用,需摘要出关键部分以便后续处理。
4.现有技术主要以textrank为代表,此方法只判断句与句之间的关系,通过形成关系图并求解重要的句子节点得到摘要,在计算过程中没有整体文本内容的概念;同时,大量口语化的网络文本逻辑松散,通过句与句之间的关系进行摘要的方法在实际使用中效果不佳。


技术实现要素:

5.本发明实施例提供一种文本的自动摘要方法,解决了现有技术中只考虑上下文的联系导致摘要的句子与全文无关的问题,达到了提高摘要准确程度的效果。
6.本发明提供了一种文本的自动摘要方法,包括:
7.将待摘要文本按照预设长度进行段落划分,使用语义编码器计算划分后的每个段落,得到每个段落对应的语义向量,并将所有段落语义向量相加后归一化得到全文编码;
8.根据标点符号对所有段落中的句子进行划分,并使用语义编码器计算每个句子,得到每个句子的语义编码;
9.计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要。
10.优选地,所述语义编码器的训练过程包括:
11.将样本集分为正例及负例,采用对比学习的方式对正例及负例中的无标注语料进行训练得到训练结果;
12.使用样本集以外的数据对所述训练结果进行测试,当测试结果满足预设标准时,将所述训练结果作为语义编码器。
13.优选地,所述计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要的步骤具体包括:
14.计算每个句子的语义编码与所在段落的语义向量的段落匹配度,并计算每个句子的语义编码与全文编码的全文匹配度;
15.将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度;
16.选择每个段落匹配度最高的预设数量的句子按照原文顺序拼接得到对应段落的摘要;
17.将所有段落的摘要按原文顺序进行拼接得到待摘要文本的摘要。
18.优选地,将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度的步骤具体包括:
19.dist
ij
=a1·
cos(v
sij
,v
pi
)+a2·
cos(v
sij
,vd)
20.其中,所述dist
ij
为综合距离,所述a1为所述段落匹配度的权重,所述cos(v
sij
,v
pi
)为所述段落匹配度,所述a2为所述全文匹配度的权重,所述cos(v
sij
,vd)为所述全文匹配度。
21.优选地,所述段落匹配度为所述语义编码与所在段落的语义向量的距离;所述全文匹配度为所述语义编码与所述全文编码的距离;具体包括,
22.所述v
sij
为句子sij的语义编码,所述v
pi
为段落pi的语义向量,所述vd为待摘要文本d的全文编码。
23.优选地,还包括:
24.计算所述全文摘要的字数,当所述全文摘要的字数超过预设限制时,计算所述全文摘要的全文编码,并提取所述全文摘要中句子的语义编码;
25.计算所述群问摘要的全文编码与所述全文摘要中句子的语义编码的匹配度,并根据所述匹配度对所述全文摘要中的所有句子进行排序,删除排序后超过所述预设限制的句子;
26.将剩余句子按照原文顺序拼接,得到满足所述预设限制的全文摘要。
27.优选地,还包括:
28.计算所述全文摘要的字数,当所述全文摘要的字数超过预设限制时,根据所述全文摘要中保留的句子的语义编码及句子在所述全文摘要中的顺序进行段落合并;
29.计算所述合并后的全文摘要的全文编码得到合并编码,计算所述合并后的全文摘要的语义向量得到合并向量,提取所述全文摘要中保留的句子的语义编码;
30.计算所述全文摘要中保留的句子的语义编码与所述合并编码及所述合并向量的匹配度,加权后相加得到合并后的全文摘要的综合匹配度作为合并匹配度,选择每段全文摘要的合并匹配度最高的预设数量的句子按照原文顺序拼接得到满足预设限制的全文摘要。
31.本发明还提出一种文本的自动摘要装置,文本的自动摘要装置包括:存储器、处理器及存储在存储器上并可在处理器上运行文本的自动摘要程序,文本的自动摘要程序被处理器执行时实现如上的文本的自动摘要方法。
32.本发明还提出一种可读存储介质,可读存储介质上存储有文本的自动摘要程序,文本的自动摘要程序被处理器执行时实现如上的文本的自动摘要方法的步骤。
33.本发明通过将待摘要文本分为句子与段落,并分别计算句子与段落之间的匹配度及句子与全文的匹配度分别判断句子在段落中及全文中的重要性,而后将匹配度加权求和得到句子的综合重要性,最后选择综合重要性相对较高的句子作为摘要,只考虑上下文的联系导致摘要的句子与全文无关的问题,达到了提高摘要准确程度的效果。
附图说明
34.图1是本发明任务自动配置方法中一实施例的流程示意图;
35.图2是本发明任务自动配置方法中另一实施例的流程示意图;
36.图3是本发明任务自动配置方法中另一实施例的流程示意图;
37.图4是本发明实施例中的装置结构示意图。
具体实施方式
38.下面结合附图和实施例对本发明作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。
39.图1为本发明实施例提供的一种文本的自动摘要方法的流程图,具体包括:
40.s100、将待摘要文本按照预设长度进行段落划分,使用语义编码器计算划分后的每个段落,得到每个段落对应的语义向量,并将所有段落语义向量相加后归一化得到全文编码;
41.需要说明的是,由于某些段落较长而某些段落极短,因此需要按照预设长度进行段落划分,通常较长的段落会被分为一段,而较短的段落会被合并至相邻段落中较短的一段,易于理解的是,无论是语义向量还是全文编码,都是对应的文字在语义空间中的位置,一定程度上能够指代该段文字所想表达的含义。
42.s200、根据标点符号对所有段落中的句子进行划分,并使用语义编码器计算每个句子,得到每个句子的语义编码;
43.值得强调的是,通常情况下会根据句号、分号、问号及连续空格对段落中的句子进行划分,然而现有的用户数据中存在大量标点符号误用的情况,因此还会根据“首先”、“其次”、“再次”、“最后”之类的关键词对句子进行划分。
44.易于理解的是,每个句子的语义编码就是该句子在语义空间中的位置,代表语义编码器计算出来的该句子所想表达的含义,即将句子、段落及全文所表达的含义放在同一个空间中,便于后续的比较。
45.s300、计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要。
46.需要强调的是,由于不同场景的文字表达逻辑、文本质量不尽相同,因此需要采用权重值的方式调整所述语义编码与所述语义向量及所述全文编码的匹配度所占的比重。
47.本实施例的技术方案,通过将待摘要文本分为句子与段落,并分别计算句子与段落之间的匹配度及句子与全文的匹配度分别判断句子在段落中及全文中的重要性,而后将匹配度加权求和得到句子的综合重要性,最后选择综合重要性相对较高的句子作为摘要,只考虑上下文的联系导致摘要的句子与全文无关的问题,达到了提高摘要准确程度的效果。
48.具体地,所述语义编码器的训练过程包括:
49.将样本集分为正例及负例,采用对比学习的方式对正例及负例中的无标注语料进行训练得到训练结果;
50.易于理解的是,本技术使用无标注语料进行训练,大大降低了训练成本,通过大量的数据训练能够使得语义判断更加精准,还可通过抽取式的方法,避免文档外不可控的内容干扰,而对比学习的过程与现有的技术方案一致,还可采用现有的其它训练方法获取语义编码器,均可在无需额外创造性劳动的前提下应用至本技术技术方案,在此不再一一赘述。
51.使用样本集以外的数据对所述训练结果进行测试,当测试结果满足预设标准时,将所述训练结果作为语义编码器。
52.需要说明的是,由于对比学习训练的边际递减效应,同样的计算量前期精度的提升远大于后期精度的提升,每提升1%的精度所需要的算力越来越多,因此,当训练结果满足使用需求时,则可将其作为语义编码器进行使用,以降低算力消耗,当计算装置闲置时,可使用更多的数据继续执行训练,从而进一步提高本方案的准确程度。
53.本实施例通过公开语义编码器的训练方法,完善了技术方案,同时使用样本集以外的数据对所述训练结果进行测试,当测试结果满足预设标准时停止训练的方式,降低了算力消耗,且使用无标注语料,有效降低了训练数据的成本,极大的提升了使用体验。
54.参照图2,图2是本发明任务自动配置方法中另一实施例的流程示意图,所述计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要的步骤具体包括:
55.s310、计算每个句子的语义编码与所在段落的语义向量的段落匹配度,并计算每个句子的语义编码与全文编码的全文匹配度;
56.易于理解的是,本技术从句子与段落的关系以及句子与全文的关系两个维度判断句子的重要性,并通过匹配度的方式进行量化,使得各个句子之间的对比更加容易,摘要的句子也与段落内容及全文内容相关性更高,提高了文本摘要的准确程度。
57.s320、将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度。
58.需要说明的是,本实施例通过加权求和的方法,在判断每一句的时候都考虑整段及全文的语义,在摘要时不容易偏离主旨,提高了文本摘要的准确程度,降低了人工的工作量,提高了用户体验。
59.s330、选择每个段落匹配度最高的预设数量的句子按照原文顺序拼接得到对应段落的摘要;
60.值得强调的是,根据大量的数据验证,摘要出来的句子按照原文顺序进行排列,得到的摘要可读性通常更强,不修改句子顺序的情况下,摘要为原文精简而来,若自动调整句子顺序,会存在语义发生改变的问题,降低文本摘要的精确程度。
61.s340、将所有段落的摘要按原文顺序进行拼接得到待摘要文本的摘要。
62.已于理解的是,基于上述段落摘要的拼接原因,全文摘要的拼接原因也与之类似,但全文摘要的句子顺序颠倒,更易出现因果颠倒等问题,较段落语句顺序而言,其准确程度更低。
63.具体地,将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度的步骤具体包括:
64.dist
ij
=a1·
cos(v
sij
,v
pi
)+a2·
cos(v
sij
,vd)
65.其中,所述dist
ij
为综合距离,所述a1为所述段落匹配度的权重,所述cos(v
sij
,v
pi
)为所述段落匹配度,所述a2为所述全文匹配度的权重,所述cos(v
sij
,vd)为所述全文匹配度。
66.所述段落匹配度为所述语义编码与所在段落的语义向量的距离;所述全文匹配度为所述语义编码与所述全文编码的距离;具体包括,
67.所述v
sij
为句子sij的语义编码,所述v
pi
为段落pi的语义向量,所述vd为待摘要文本d的全文编码。
68.将待摘要原文d划分为不超过最大长度k的段落,得到m个段落p1~pm,算每个段落pi的语义向量v
pi
,将所有段落语义向量相加并归一化得到全文编码vd,在每个段落pi内分句,得到n个句子si1~sin,计算每个句子sij的语义编码v
sij
,计算每句的语义编码v
sij
与所在段落的语义编码v
pi
的距离,计算每句的语义编码v
sij
与全文编码vd的距离,然后分别乘以权重后相加,得到综合距离dist
ij

69.本实施例通过公开详细的匹配度及算方法,完善了技术方案,且通过语义空间中的向量来表示语句、段落及全文所要表达的含义,便于进行计算及比较,得到的结果更加精确,而后使用权重后相加的方式适应不同的文本内容,扩大了适用范围。
70.具体地,所述自动摘要方法还包括:
71.计算所述全文摘要的字数,当所述全文摘要的字数超过预设限制时,计算所述全文摘要的全文编码,并提取所述全文摘要中句子的语义编码;
72.易于理解的是,通常字数越多的句段,其与全文所需要表达的含义更为一致,因此可能出现摘要后减少的文字较少,剩余文字依然很多的问题,这同样说明摘要的工作没做好,虽然准确程度很高,但过多的字数降低了后续处理的处理效率,因此需对其进行进一步的精简,进一步的精简可通过多种方式进行,本实施例为实现进一步的提高摘要的准确程度,通过计算全文摘要的形式进行二次匹配,虽然可能与原意存在一定的区别,但是依然高于仅进行一次摘要的情况。
73.计算所述群问摘要的全文编码与所述全文摘要中句子的语义编码的匹配度,并根据所述匹配度对所述全文摘要中的所有句子进行排序,删除排序后超过所述预设限制的句子;
74.需要说明的是,本实施例通过删除相关性最低的句子,以提高摘要文本与源文本的相关性,即降低了文本数量,减少了后续处理消耗的资源,又提高了摘要的准确程度,提升了用户体验,完善了技术方案。
75.将剩余句子按照原文顺序拼接,得到满足所述预设限制的全文摘要。
76.值得强调的是,由于在排序时,句子的顺序已经被打乱,因此需要按照原文顺序重新拼接,以保障拼接后的摘要含义的准确性,避免由于语序颠倒造成的阅读障碍或因果颠倒,提高了后续处理的处理效率。
77.参照图3,图3是本发明任务自动配置方法中另一实施例的流程示意图。
78.所述自动摘要方法还包括:
79.s400、计算所述全文摘要的字数,当所述全文摘要的字数超过预设限制时,根据所述全文摘要中保留的句子的语义编码及句子在所述全文摘要中的顺序进行段落合并;
80.需要说明的是,通常字数越多的句段,其与全文所需要表达的含义更为一致,因此可能出现摘要后减少的文字较少,剩余文字依然很多的问题,这同样说明摘要的工作没做
好,虽然准确程度很高,但过多的字数降低了后续处理的处理效率,因此需对其进行进一步的精简,由于本实施例技术方案每段都会保留一定数量的句子,这是造成剩余文字较多的主要原因,因此本实施例执行段落合并步骤,有效降低了段落数量,减少了摘要后的文字。
81.s500、计算所述合并后的全文摘要的全文编码得到合并编码,计算所述合并后的全文摘要的语义向量得到合并向量,提取所述全文摘要中保留的句子的语义编码;
82.值得强调的,本实施例通过对摘要后的文字进行合并后,再次进行摘要,从而减少了无关段落中所保留下来的匹配度较低的句段,进一步降低了后续处理的工作量,提升了用户体验。
83.s600、计算所述全文摘要中保留的句子的语义编码与所述合并编码及所述合并向量的匹配度,加权后相加得到合并后的全文摘要的综合匹配度作为合并匹配度,选择每段全文摘要的合并匹配度最高的预设数量的句子按照原文顺序拼接得到满足预设限制的全文摘要。
84.值得说明的是,此步骤与第一次摘要的步骤较为一致,通过段落合并的步骤能够有效的降低句子数量,实现文字数量的减少,且删减的字段综合匹配度低于保留的字段,一定程度上提高了摘要的准确程度,提升了用户体验。
85.本实施例通过完善文本摘要后,文字数量任然过多的场景处理方法,完善了技术方案,且通过使用同一或不同的方案多次摘要,进一步提高了摘要的准确程度,极大的提升了使用体验。
86.如图4所示,图4是本发明另一实施例的装置结构示意图。该装置包括处理器70、存储器71、输入装置72和输出装置73;服务器中处理器70的数量可以是一个或多个,图4中以一个处理器70为例;服务器中的处理器70、存储器71、输入装置72和输出装置73可以通过总线或其他方式连接,图4中以通过总线连接为例。
87.存储器71作为一种计算机可读存储介质,可用于存储软件程序、计算机可执行程序以及模块,如本发明实施例中的文本的自动摘要方法对应的程序指令。处理器70通过运行存储在存储器71中的软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述的文本的自动摘要方法。
88.存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序;存储数据区可存储根据终端的使用所创建的数据等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他非易失性固态存储器件。在一些实例中,存储器71可进一步包括相对于处理器70远程设置的存储器,这些远程存储器可以通过网络连接至服务器。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。
89.输入装置72可用于接收输入的数字或字符信息,以及产生与服务器的用户设置以及功能控制有关的键信号输入。输出装置73可包括显示屏等显示服务器。
90.本实施例具备执行方法相应的功能模块和有益效果,在此不再一一赘述。
91.本发明实施例还提供一种包含计算机可执行指令的存储介质,计算机可执行指令在由计算机处理器执行时用于执行一种文本的自动摘要方法,该方法包括:
92.将待摘要文本按照预设长度进行段落划分,使用语义编码器计算划分后的每个段落,得到每个段落对应的语义向量,并将所有段落语义向量相加后归一化得到全文编码;
93.根据标点符号对所有段落中的句子进行划分,并使用语义编码器计算每个句子,得到每个句子的语义编码;
94.计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要。
95.具体地,所述语义编码器的训练过程包括:
96.将样本集分为正例及负例,采用对比学习的方式对正例及负例中的无标注语料进行训练得到训练结果;
97.使用样本集以外的数据对所述训练结果进行测试,当测试结果满足预设标准时,将所述训练结果作为语义编码器。
98.具体地,所述计算所述语义编码与所述语义向量及所述全文编码的匹配度,加权后相加得到综合匹配度,选择每段综合匹配度最高的预设数量的句子按照原文顺序拼接得到全文摘要的步骤具体包括:
99.计算每个句子的语义编码与所在段落的语义向量的段落匹配度,并计算每个句子的语义编码与全文编码的全文匹配度;
100.将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度;
101.选择每个段落匹配度最高的预设数量的句子按照原文顺序拼接得到对应段落的摘要;
102.将所有段落的摘要按原文顺序进行拼接得到待摘要文本的摘要。
103.具体地,将所述段落匹配度与所述全文匹配度加权后相加,得到综合匹配度的步骤具体包括:
104.dist
ij
=a1·
cos(v
sij
,v
pi
)+a2·
cos(v
sij
,vd)
105.其中,所述dist
ij
为综合距离,所述a1为所述段落匹配度的权重,所述cos(v
sij
,v
pi
)为所述段落匹配度,所述a2为所述全文匹配度的权重,所述cos(v
sij
,vd)为所述全文匹配度。
106.具体地,所述段落匹配度为所述语义编码与所在段落的语义向量的距离;所述全文匹配度为所述语义编码与所述全文编码的距离;具体包括,
107.所述v
sij
为句子sij的语义编码,所述v
pi
为段落pi的语义向量,所述vd为待摘要文本d的全文编码。
108.具体地,还包括:
109.计算所述全文摘要的字数,当所述全文摘要的字数超过预设限制时,计算所述全文摘要的全文编码,并提取所述全文摘要中句子的语义编码;
110.计算所述群问摘要的全文编码与所述全文摘要中句子的语义编码的匹配度,并根据所述匹配度对所述全文摘要中的所有句子进行排序,删除排序后超过所述预设限制的句子;
111.将剩余句子按照原文顺序拼接,得到满足所述预设限制的全文摘要。
112.具体地,还包括:
113.计算所述全文摘要的字数,当所述全文摘要的字数超过预设限制时,根据所述全文摘要中保留的句子的语义编码及句子在所述全文摘要中的顺序进行段落合并;
114.计算所述合并后的全文摘要的全文编码得到合并编码,计算所述合并后的全文摘要的语义向量得到合并向量,提取所述全文摘要中保留的句子的语义编码;
115.计算所述全文摘要中保留的句子的语义编码与所述合并编码及所述合并向量的匹配度,加权后相加得到合并后的全文摘要的综合匹配度作为合并匹配度,选择每段全文摘要的合并匹配度最高的预设数量的句子按照原文顺序拼接得到满足预设限制的全文摘要。
116.当然,本发明实施例所提供的一种包含计算机可执行指令的存储介质,其计算机可执行指令不限于如上的方法操作,还可以执行本发明任意实施例所提供的文本的自动摘要方法中的相关操作,具备执行方法相应的功能模块和有益效果,在此不再一一赘述。
117.通过以上关于实施方式的描述,所属领域的技术人员可以清楚地了解到,本发明可借助软件及必需的通用硬件来实现,当然也可以通过硬件实现,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例的方法。
118.值得注意的是,上述搜索装置的实施例中,所包括的各个单元和模块只是按照功能逻辑进行划分的,但并不局限于上述的划分,只要能够实现相应的功能即可;另外,各功能单元的具体名称也只是为了便于相互区分,并不用于限制本发明的保护范围。
119.注意,上述仅为本发明的较佳实施例及所运用技术原理。本领域技术人员会理解,本发明不限于这里的特定实施例,对本领域技术人员来说能够进行各种明显的变化、重新调整和替代而不会脱离本发明的保护范围。因此,虽然通过以上实施例对本发明进行了较为详细的说明,但是本发明不仅仅限于以上实施例,在不脱离本发明构思的情况下,还可以包括更多其他等效实施例,而本发明的范围由所附的权利要求范围决定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1