数据的主题划分方法、装置、存储介质和设备与流程

文档序号:32301620发布日期:2022-11-23 08:33阅读:来源:国知局

技术特征:
1.一种数据的主题划分方法,其特征在于,包括:将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到所述主题分类模型输出的分类结果;所述主题分类模型基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到;所述分类结果包括各个所述待入仓数据的主题;对各个所述待入仓数据进行划分,得到多个数据分组;所述数据分组包括主题相同的多个所述待入仓数据;对于每个所述数据分组,将所述数据分组中的数据发送给与所述数据分组的主题对应的专家,并接收所述专家针对所述数据分组中的数据所反馈的专家评分;在所述专家评分大于第二预设阈值的情况下,将所述数据分组中的数据保存到数据仓库中与所述数据分组的主题对应的主题域内。2.根据权利要求1所述的方法,其特征在于,所述基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到所述主题分类模型的过程,包括:将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本;为所述数据样本设置主题标签;所述主题标签用于指示数据样本的主题;将所述数据样本输入至预设的神经网络模型中,经由所述神经网络模型输出所述数据样本的预测主题,并以所述主题标签所示的主题作为训练目标,不断调整所述神经网络模型的各项参数,直至所述预测主题与所述主题标签所示的主题之间的偏差小于预设阈值,确定所述主题分类模型训练成功。3.根据权利要求1所述的方法,其特征在于,还包括:在所述专家评分小于第一预设阈值的情况下,向所述专家发送修正请求,以使所述专家响应所述修正请求,对所述数据分组中的数据进行主题修正,得到修正主题;接收所述专家发送的所述修正主题,并利用所述修正主题替代所述数据分组中的数据的主题;基于所述数据分组中的数据作为验证样本,所述修正主题作为所述数据的主题标签,对所述主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。4.根据权利要求1所述的方法,其特征在于,还包括:在所述专家评分大于等于第一预设阈值,且小于等于所述第二预设阈值的情况下,将所述数据分组中的数据标识为重点数据,并通过预设前端界面向用户展示所述重点数据;所述第二预设阈值大于所述第一预设阈值。5.一种数据的主题划分装置,其特征在于,包括:分类单元,用于将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到所述主题分类模型输出的分类结果;所述主题分类模型基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到;所述分类结果包括各个所述待入仓数据的主题;分组单元,用于对各个所述待入仓数据进行划分,得到多个数据分组;所述数据分组包括主题相同的多个所述待入仓数据;评分单元,用于对于每个所述数据分组,将所述数据分组中的数据发送给与所述数据分组的主题对应的专家,并接收所述专家针对所述数据分组中的数据所反馈的专家评分;保存单元,用于在所述专家评分大于第二预设阈值的情况下,将所述数据分组中的数
据保存到数据仓库中与所述数据分组的主题对应的主题域内。6.根据权利要求5所述的装置,其特征在于,所述分类单元具体用于:将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本;为所述数据样本设置主题标签;所述主题标签用于指示数据样本的主题;将所述数据样本输入至预设的神经网络模型中,经由所述神经网络模型输出所述数据样本的预测主题,并以所述主题标签所示的主题作为训练目标,不断调整所述神经网络模型的各项参数,直至所述预测主题与所述主题标签所示的主题之间的偏差小于预设阈值,确定所述主题分类模型训练成功。7.根据权利要求5所述的装置,其特征在于,还包括修正单元;所述修正单元,具体用于:在所述专家评分小于第一预设阈值的情况下,向所述专家发送修正请求,以使所述专家响应所述修正请求,对所述数据分组中的数据进行主题修正,得到修正主题;接收所述专家发送的所述修正主题,并利用所述修正主题替代所述数据分组中的数据的主题;基于所述数据分组中的数据作为验证样本,所述修正主题作为所述数据的主题标签,对所述主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。8.根据权利要求5所述的装置,其特征在于,还包括展示单元;所述展示单元,具体用于:在所述专家评分大于等于第一预设阈值,且小于等于所述第二预设阈值的情况下,将所述数据分组中的数据标识为重点数据,并通过预设前端界面向用户展示所述重点数据;所述第二预设阈值大于所述第一预设阈值。9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的程序,其中,所述程序执行权利要求1-4任一所述的数据的主题划分方法。10.一种数据的主题划分设备,其特征在于,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行权利要求1-4任一所述的数据的主题划分方法。

技术总结
本申请公开了一种数据的主题划分方法、装置、存储介质和设备,应用于大数据领域,该方法为:将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到主题分类模型输出的分类结果;对各个待入仓数据进行划分,得到多个数据分组;对于每个数据分组,将数据分组中的数据发送给与数据分组的主题对应的专家,并接收专家针对数据分组中的数据所反馈的专家评分;在专家评分大于第二预设阈值的情况下,将数据分组中的数据保存到数据仓库中与数据分组的主题对应的主题域内。该方法利用主题分类模型,确定待入仓数据的主题,无需人工参与主题划分过程,有效提高了数据的主题划分效率。有效提高了数据的主题划分效率。有效提高了数据的主题划分效率。


技术研发人员:高进
受保护的技术使用者:中国银行股份有限公司
技术研发日:2022.08.29
技术公布日:2022/11/22
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1