基于用户聊天内容分析的信息推送方法及其相关设备与流程

文档序号:25880531发布日期:2021-07-16 18:31阅读:来源:国知局

技术特征:
1.一种基于用户聊天内容分析的信息推送方法,其特征在于,包括:若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型;判断所述数据类型是语音类型或是文本类型;若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据;若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据;将所述当前聊天数据与对应用户端的用户id绑定后存储在本地的第一存储区域;获取当前系统时间,判断当前系统时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期;若当前系统时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇;获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题;若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集;以及获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集。2.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据,包括:将所述聊天数据进行分词,得到第一分词结果;其中,所述第一分词结果中包括若干个分词;将所述第一分词结果中的每一分词均进行敏感词检测,以判断所述第一分词结果中是否存在有敏感词;若所述第一分词结果中存在有敏感词,获取对应的敏感词组成第一目标敏感词集;调用预先训练的敏感词分类模型,将所述第一目标敏感词集中每一敏感词均输入至所述敏感词分类模型中,获取所述第一目标敏感词集中每一敏感词分别对应的敏感词等级;若所述第一目标敏感词集中无敏感词对应的敏感词等级高于预设的敏感词等级阈值,将所述第一目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第一敏感词转换结果;将所述聊天数据中与所述第一目标敏感词集中相同的各词语通过对应的第一敏感词转换结果进行替换,得到第一脱敏处理后聊天数据以作为当前聊天数据。3.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进
行文本转语音以得到处理后聊天数据,包括:将所述聊天数据通过语音识别模型进行文本识别,得到文本识别结果;所述文本识别结果进行分词,得到第二分词结果;其中,所述第二分词结果中包括若干个分词;将所述第二分词结果中的每一分词均进行敏感词检测,以判断所述第二分词结果中是否存在有敏感词;若所述第二分词结果中存在有敏感词,获取对应的敏感词组成第二目标敏感词集;将所述第二目标敏感词集中每一目标敏感词均通过拼音首字母替换,得到与每一目标敏感词对应的第二敏感词转换结果;将所述文本识别结果中与所述第二目标敏感词集中相同的各词语通过对应的第二敏感词转换结果进行替换,得到第二脱敏处理后聊天数据以作为当前聊天数据;获取所述用户端对应的用户身份信息,及与所述用户身份信息对应用户声音特征;通过所述用户声音特征对所述第二脱敏处理后聊天数据进行语音合成,得到处理后聊天数据。4.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果,包括:获取所述聊天数据集中每一聊天数据对应的语义向量;获取所述聊天数据集所对应各语义向量之间的欧式距离以进行k

means聚类,得到聊天数据聚类结果。5.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题,包括:获取第i组聊天数据聚类结果中包括的聊天数据;其中,i的初始取值为1;将第i组聊天数据聚类结果中各聊天数据均输入至预先训练的lda模型进行主题抽取,得到与各聊天数据分别对应的主题抽取结果;其中,所述lda模型为文档

主题生成模型;获取第i组聊天数据聚类结果所对应的各主题抽取结果中词频为最大值的主题抽取结果,以作为第i组聊天数据聚类结果对应的文本主题;将i自增1以更新i的取值,判断i是否超出n;其中,n表示所述聊天数据聚类结果中所包括聊天数据聚类簇的总个数;若i未超出n,将第i组聊天数据聚类结果对应的文本主题进行保存,并返回执行所述获取第i组聊天数据聚类结果中包括的聊天数据的步骤;若i超出n,获取第1组聊天数据聚类结果至第i

1组聊天数据聚类结果分别对应的文本主题,以得到所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题。6.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集替换为以下步骤:获取与各文本主题分别对应的待审核推广文本数据,若各待审核推广文本数据均通过敏感词验证,将各待审核推广文本数据均作为与各目标聊天数据聚类簇的文本主题分别对
应的推广文本数据。7.根据权利要求1所述的基于用户聊天内容分析的信息推送方法,其特征在于,所述获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集之后,还包括:将待推送文本数据集发送至用户端;接收用户端根据所述待推送文本数据集发送的文本评价信息。8.一种基于用户聊天内容分析的信息推送装置,其特征在于,包括:聊天数据类型获取单元,用于若检测到用户端在进入预设场景上传的聊天数据,获取所述聊天数据的数据类型;类型判断单元,用于判断所述数据类型是语音类型或是文本类型;第一脱敏处理单元,用于若所述数据类型是文本类型,将所述聊天数据进行敏感词检测和敏感词转换处理,得到第一脱敏处理后聊天数据以作为当前聊天数据;第二脱敏处理单元,用于若所述数据类型是语音类型,将所述聊天数据进行语音文本提取、敏感词检测和敏感词转换处理,得到第二脱敏处理后聊天数据以作为当前聊天数据,并将所述第二脱敏处理后聊天数据根据对应用户声音特征进行文本转语音以得到处理后聊天数据;数据存储单元,用于将所述当前聊天数据与对应用户端的用户id绑定后存储在本地的第一存储区域;时间判断单元,用于获取当前系统时间,判断当前系统时间与上一聊天数据分析时间之间的时间间隔是否等于预设的聊天数据分析时间周期;文本聚类单元,用于若当前系统时间与上一聊天数据分析时间之间的时间间隔等于所述聊天数据分析时间周期,获取所述第一存储区域中当前已存储的聊天数据集,将所述聊天数据集进行文本聚类,得到对应的聊天数据聚类结果;其中,所述聊天数据聚类结果中包括若干个聊天数据聚类簇;文本主题抽取单元,用于获取所述聊天数据聚类结果中各聊天数据聚类簇分别对应的文本主题;目标聚类簇获取单元,用于若有聊天数据聚类簇对应的文本主题与预设的目标主题清单中的目标主题之间的文本相似度超出预设的相似度阈值,获取对应的文本主题所相应聊天数据聚类簇作为目标聊天数据聚类簇,组成目标聊天数据聚类簇集;以及待推送文本获取单元,用于获取与各目标聊天数据聚类簇的文本主题分别对应的推广文本数据,组成待推送文本数据集。9.一种计算机设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7中任一项所述的基于用户聊天内容分析的信息推送方法。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序当被处理器执行时使所述处理器执行如权利要求1至7任一项所述的基于用户聊天内容分析的信息推送方法。
当前第2页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1