基于人工智能的文本扩充方法、装置、设备及存储介质与流程

文档序号:29802999发布日期:2022-04-23 20:47阅读:来源:国知局

技术特征:
1.一种基于人工智能的文本扩充方法,其特征在于,包括:从预先获取的待扩充文本中提取得到初始关键词元组;基于预设规则对所述初始关键词元组进行处理,以得到与所述初始关键词元组存在区别的多个目标关键词元组;将所述多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,所述文本生成模型根据历史文本数据训练得到;分别计算每个定向文本与所述待扩充文本之间的语义相似度;将所述语义相似度低于预设相似度阈值的所述定向文本剔除。2.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,预先训练所述文本生成模型的步骤包括:获取训练样本文本,以及所述训练样本文本对应的初始训练关键词元组;基于所述预设规则对所述初始训练关键词元组进行处理,以得到与所述初始训练关键词元组存在区别的多个目标训练关键词元组;将所述多个目标训练关键词元组分别输入至待训练的所述文本生成模型中,以生成多个训练定向文本;根据所述多个训练定向文本、所述训练样本文本和预设的损失函数反向传播更新所述文本生成模型。3.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述基于预设规则对所述初始关键词元组进行处理,以得到与所述初始关键词元组存在区别的多个目标关键词元组,包括:对所述初始关键词元组中的关键词进行随机数量的同义词替换和/或进行随机数量的删减和/或进行排列位置顺序随机打乱,以得到多个所述目标关键词元组。4.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述从预先获取的待扩充文本中提取得到初始关键词元组,包括:利用预先构建的分词器对所述待扩充文本进行分词,得到多个候选词和每个候选词的属性;根据所述属性,利用预设打分算法对所述多个候选词分别打分,得到打分结果;根据所述打分结果对所述多个候选词降序排序,并选择排在前预设数量个所述候选词构建所述初始关键词元组。5.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述从预先获取的待扩充文本中提取得到初始关键词元组,包括:利用预先构建的分词器对所述待扩充文本进行分词,得到多个候选词;利用预先构建的关系词库对所述多个候选词中的关系词进行过滤,并利用剩余的候选词构建所述初始关键词元组。6.根据权利要求1所述的基于人工智能的文本扩充方法,其特征在于,所述从预先获取的待扩充文本中提取得到初始关键词元组之后,还包括:当所述初始关键词元组中的关键词数量低于预设数量阈值时,从预设的扩展关键词知识库中查询所述初始关键词元组中每个关键词的扩展关键词;将所述扩展关键词加入至所述初始关键词元组。
7.根据权利要求6所述的基于人工智能的文本扩充方法,其特征在于,所述将所述扩展关键词加入至所述初始关键词元组之前,还包括:将所述扩展关键词和所述初始关键词元组中的关键词输入至所述文本生成模型,得到扩展文本;计算所述扩展文本与所述待扩充文本的语义相似度;判断所述语义相似度是否高于所述预设相似度阈值;若是,则允许执行将所述扩展关键词加入至所述初始关键词元组的步骤。8.一种基于人工智能的文本扩充装置,其特征在于,包括:提取模块,用于从预先获取的待扩充文本中提取得到初始关键词元组;处理模块,用于基于预设规则对所述初始关键词元组进行处理,以得到与所述初始关键词元组存在区别的多个目标关键词元组;生成模块,用于将所述多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,所述文本生成模型根据历史文本数据训练得到;计算模块,用于分别计算每个定向文本与所述待扩充文本之间的语义相似度;剔除模块,用于将所述语义相似度低于预设相似度阈值的所述定向文本剔除。9.一种计算机设备,其特征在于,所述计算机设备包括处理器、与所述处理器耦接的存储器,所述存储器中存储有程序指令,所述程序指令被所述处理器执行时,使得所述处理器执行如权利要求1-7中任一项权利要求所述的基于人工智能的文本扩充方法的步骤。10.一种存储介质,其特征在于,存储有能够实现如权利要求1-7中任一项所述的基于人工智能的文本扩充方法的程序指令。

技术总结
本发明公开了一种基于人工智能的文本扩充方法、装置、设备及存储介质,其中方法包括:从预先获取的待扩充文本中提取得到初始关键词元组;基于预设规则对初始关键词元组进行处理,以得到与初始关键词元组存在区别的多个目标关键词元组;将多个目标关键词元组分别输入至预先训练好的文本生成模型中,以生成多个定向文本,文本生成模型根据历史文本数据训练得到;分别计算每个定向文本与待扩充文本之间的语义相似度;将语义相似度低于预设相似度阈值的定向文本剔除。本发明通过从待扩充文本中提取到初始关键词元组后,对初始关键词元组进行处理以得到多个目标关键词元组,再利用目标关键词元组生成定向文本,从而实现对文本进行有序地、定向地扩充。定向地扩充。定向地扩充。


技术研发人员:李志韬 王健宗
受保护的技术使用者:平安科技(深圳)有限公司
技术研发日:2022.01.14
技术公布日:2022/4/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1