语料生成方法、装置、计算机设备及存储介质与流程

文档序号:26005238发布日期:2021-07-23 21:23阅读:来源:国知局

技术特征:

1.一种语料生成方法,其特征在于,包括:

获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;

根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;

对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;

将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;

将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。

2.如权利要求1所述语料生成方法,其特征在于,在所述将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料之后,所述语料生成方法还包括:

采用预训练的语言模型对所述提问语料进行语法语义检查,得到所述提问语料的得分值;

当所述得分值不小于预设分值阈值,保留所述提问语料;

当所述得分值小于所述预设分值阈值,去除所述提问语料;

所述将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料,包括:

将所述保留的提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料。

3.如权利要求2所述语料生成方法,其特征在于,在所述获取目标问答领域对应的高频提问词以及待挖掘文本之后,所述语料生成方法还包括:

对所述高频提问词进行同义词扩充,获取所述高频提问词对应的多个目标同义词;

所述将所述保留的提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料,包括:

根据每一所述目标同义词对所述保留的提问语料中的高频提问词进行替换,得到所述高频提问词对应的多个目标提问语料;

将每一所述目标提问语料与所述高频提问词对应的目标应答语句作为所述目标问答语料。

4.如权利要求1所述语料生成方法,其特征在于,所述根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句,包括:

获取所述目标问答领域对应的语句提取模板;

根据所述语句提取模板,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句。

5.如权利要求3所述语料生成方法,其特征在于,所述对所述高频提问词进行同义词扩充,获取所述高频提问词对应的多个目标同义词,包括:

将所述高频提问词输入到近似度函数中进行处理,获取与所述高频提问词相对应的多个候选同义词以及与所述候选同义词相对应的第一近似度;

基于所述第一近似度,从多个所述候选同义词中选取所述高频提问词对应的多个目标同义词。

6.如权利要求3所述语料生成方法,其特征在于,在所述根据每一所述目标同义词对所述保留的提问语料中的高频提问词进行替换,得到所述高频提问词对应的多个目标提问语料之后,所述语料生成方法还包括:

对所述目标提问语料进行分割,去除所述目标提问语料中的高频提问词,得到中间语句;

对所述中间语句进行分词处理,得到多个待替换词次;

将所述待替换词次输入到近似度函数中进行处理,获取与所述待替换词次相对应的多个原始近义词以及与所述原始近义词相对应的第二近似度;

基于所述第二近似度,从所述多个原始近义词中选取所述待替换词次对应的目标近义词;

基于所述目标近义词与所述高频提问词,对所述目标提问语料进行重构,以更新所述目标提问语料。

7.如权利要求1所述语料生成方法,其特征在于,所述对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板,包括:

获取所述高频提问词与每一所述历史提问语句的文本相似度;

对获取的多个文本相似度进行降序排列,获取排在前n位的所述历史提问语句为所述历史提问模板;或者,

基于获取多个所述文本相似度,将所述文本相似度大于预设文本相似度阈值的所述历史提问语句为所述历史提问模板。

8.一种语料生成装置,其特征在于,包括:

数据获取模块,用于获取目标问答领域对应的高频提问词以及待挖掘文本;其中,所述高频提问词用于指示所述目标问答领域中高频问题对应的主题词;

目标问答语句提取模块,用于根据所述高频提问词,从所述待挖掘文本中提取所述高频提问词对应的目标应答语句;

历史提问模板获取模块,用于对所述高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,获取多个历史提问语句作为历史提问模板;

提问语料获取模块,用于将所述历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;其中,所述历史提问词为所述历史提问模板对应的主题词;

目标问答语料获取模块,用于将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述语料生成方法的步骤。

10.一种计算机存储介质,所述计算机存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述语料生成方法的步骤。


技术总结
本发明涉及人工智能技术领域,尤其涉及一种语料生成方法、装置、设备及存储介质。该语料生成方法包括获取目标问答领域对应的高频提问词以及待挖掘文本;根据高频提问词,从待挖掘文本中提取高频提问词对应的目标应答语句;将高频提问词与历史问答库中的多条历史提问语句进行文本相似度匹配,并基于文本相似度,获取多个历史提问语句作为历史提问模板;对历史提问模板中的历史提问词替换成所述高频提问词,得到提问语料;将所述提问语料与所述高频提问词对应的目标应答语句作为目标问答语料。该方法可实现不同垂直领域的问答语料的快速构建,且可有效降低人力成本。本发明还涉及区块链技术领域,所述历史提问语句可存储至区块链中。

技术研发人员:谢忠玉
受保护的技术使用者:中国平安人寿保险股份有限公司
技术研发日:2021.05.26
技术公布日:2021.07.23
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1