数据的主题划分方法、装置、存储介质和设备与流程

文档序号:32301620发布日期:2022-11-23 08:33阅读:27来源:国知局
数据的主题划分方法、装置、存储介质和设备与流程

1.本技术涉及大数据领域,尤其涉及一种数据的主题划分方法、装置、存储介质和设备。


背景技术:

2.数据仓库(简称数仓)是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合,数仓是单个数据存储,出于分析性报告和决策支持目的而创建。
3.目前,数仓建模多数基于数据仓库中各个主题域内的数据进行建模,各个主题域内的数据由业务人员和技术人员共同梳理业务。对数据的主题判定需要具有一定的业务知识,但很多技术人员对业务知识了解并不深刻,且在数据量较大的情况下,可能需要花费较多时间进行数据的主题划分,从而降低数仓的建模效率。
4.为此,如何提高数据的主题划分效率成为一个亟需解决的问题。


技术实现要素:

5.本技术提供了一种数据的主题划分方法、装置、存储介质和设备,目的在于提高数据的主题划分效率。
6.为了实现上述目的,本技术提供了以下技术方案:
7.一种数据的主题划分方法,包括:
8.将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到所述主题分类模型输出的分类结果;所述主题分类模型基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到;所述分类结果包括各个所述待入仓数据的主题;
9.对各个所述待入仓数据进行划分,得到多个数据分组;所述数据分组包括主题相同的多个所述待入仓数据;
10.对于每个所述数据分组,将所述数据分组中的数据发送给与所述数据分组的主题对应的专家,并接收所述专家针对所述数据分组中的数据所反馈的专家评分;
11.在所述专家评分大于第二预设阈值的情况下,将所述数据分组中的数据保存到数据仓库中与所述数据分组的主题对应的主题域内。
12.可选的,所述基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到所述主题分类模型的过程,包括:
13.将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本;
14.为所述数据样本设置主题标签;所述主题标签用于指示数据样本的主题;
15.将所述数据样本输入至预设的神经网络模型中,经由所述神经网络模型输出所述数据样本的预测主题,并以所述主题标签所示的主题作为训练目标,不断调整所述神经网络模型的各项参数,直至所述预测主题与所述主题标签所示的主题之间的偏差小于预设阈值,确定所述主题分类模型训练成功。
16.可选的,还包括:
17.在所述专家评分小于第一预设阈值的情况下,向所述专家发送修正请求,以使所述专家响应所述修正请求,对所述数据分组中的数据进行主题修正,得到修正主题;
18.接收所述专家发送的所述修正主题,并利用所述修正主题替代所述数据分组中的数据的主题;
19.基于所述数据分组中的数据作为验证样本,所述修正主题作为所述数据的主题标签,对所述主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。
20.可选的,还包括:
21.在所述专家评分大于等于第一预设阈值,且小于等于所述第二预设阈值的情况下,将所述数据分组中的数据标识为重点数据,并通过预设前端界面向用户展示所述重点数据;所述第二预设阈值大于所述第一预设阈值。
22.一种数据的主题划分装置,包括:
23.分类单元,用于将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到所述主题分类模型输出的分类结果;所述主题分类模型基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到;所述分类结果包括各个所述待入仓数据的主题;
24.分组单元,用于对各个所述待入仓数据进行划分,得到多个数据分组;所述数据分组包括主题相同的多个所述待入仓数据;
25.评分单元,用于对于每个所述数据分组,将所述数据分组中的数据发送给与所述数据分组的主题对应的专家,并接收所述专家针对所述数据分组中的数据所反馈的专家评分;
26.保存单元,用于在所述专家评分大于第二预设阈值的情况下,将所述数据分组中的数据保存到数据仓库中与所述数据分组的主题对应的主题域内。
27.可选的,所述分类单元具体用于:
28.将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本;
29.为所述数据样本设置主题标签;所述主题标签用于指示数据样本的主题;
30.将所述数据样本输入至预设的神经网络模型中,经由所述神经网络模型输出所述数据样本的预测主题,并以所述主题标签所示的主题作为训练目标,不断调整所述神经网络模型的各项参数,直至所述预测主题与所述主题标签所示的主题之间的偏差小于预设阈值,确定所述主题分类模型训练成功。
31.可选的,还包括修正单元;
32.所述修正单元,具体用于:在所述专家评分小于第一预设阈值的情况下,向所述专家发送修正请求,以使所述专家响应所述修正请求,对所述数据分组中的数据进行主题修正,得到修正主题;接收所述专家发送的所述修正主题,并利用所述修正主题替代所述数据分组中的数据的主题;基于所述数据分组中的数据作为验证样本,所述修正主题作为所述数据的主题标签,对所述主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。
33.可选的,还包括展示单元;
34.所述展示单元,具体用于:在所述专家评分大于等于第一预设阈值,且小于等于所述第二预设阈值的情况下,将所述数据分组中的数据标识为重点数据,并通过预设前端界
面向用户展示所述重点数据;所述第二预设阈值大于所述第一预设阈值。
35.一种计算机可读存储介质,所述计算机可读存储介质包括存储的程序,其中,所述程序执行所述的数据的主题划分方法。
36.一种数据的主题划分设备,包括:处理器、存储器和总线;所述处理器与所述存储器通过所述总线连接;
37.所述存储器用于存储程序,所述处理器用于运行程序,其中,所述程序运行时执行所述的数据的主题划分方法。
38.本技术提供的技术方案,将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到主题分类模型输出的分类结果。对各个待入仓数据进行划分,得到多个数据分组。对于每个数据分组,将数据分组中的数据发送给与数据分组的主题对应的专家,并接收专家针对数据分组中的数据所反馈的专家评分。在专家评分大于第二预设阈值的情况下,将数据分组中的数据保存到数据仓库中与数据分组的主题对应的主题域内。本技术利用主题分类模型,确定待入仓数据的主题,无需人工参与主题划分过程,有效提高了数据的主题划分效率。
附图说明
39.为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
40.图1a为本技术实施例提供的一种数据的主题划分方法的流程示意图;
41.图1b为本技术实施例提供的一种数据的主题划分方法的流程示意图;
42.图2为本技术实施例提供的另一种数据的主题划分方法的流程示意图;
43.图3为本技术实施例提供的一种数据的主题划分装置的架构示意图。
具体实施方式
44.下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
45.如图1a和图1b所示,为本技术实施例提供的一种数据的主题划分方法的流程示意图,包括如下所示步骤。
46.s101:将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本。
47.其中,可以利用网络爬虫工具,从互联网中抓取样本数据仓库所包含多个主题下的业务数据。
48.s102:为数据样本设置主题标签。
49.其中,主题标签用于指示数据样本的主题。
50.s103:将数据样本输入至预设的神经网络模型中,经由神经网络模型输出的数据
样本的预测主题,并以主题标签所示的主题作为训练目标,不断调整神经网络模型的各项参数,直至预测主题与主题标签所示的主题之间的偏差小于预设阈值,确定主题分类模型训练成功。
51.其中,预设的神经网络模型包括但不限于为:深度语义匹配模型(deep structured semantic models,dssm)。
52.s104:将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到主题分类模型输出的分类结果。
53.其中,分类结果包括各个待入仓数据的主题。
54.s105:对各个待入仓数据进行划分,得到多个数据分组。
55.其中,数据分组包括主题相同的多个待入仓数据。
56.s106:对于每个数据分组,将数据分组中的数据发送给与数据分组的主题对应的专家,并接收专家针对数据分组中的数据所反馈的专家评分。
57.其中,专家在接收数据分组中的数据之后,将会对数据进行打分,得到数据的专家评分。
58.s107:在专家评分小于第一预设阈值的情况下,向专家发送修正请求,以使专家响应修正请求,对数据分组中的数据进行主题修正,得到修正主题。
59.s108:接收专家发送的修正主题,并利用修正主题替代数据分组中的数据的主题。
60.s109:基于数据分组中的数据作为验证样本,修正主题作为数据的主题标签,对主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。
61.s110:在专家评分大于等于第一预设阈值,且小于等于第二预设阈值的情况下,将数据分组中的数据标识为重点数据,并通过预设前端界面向用户展示重点数据。
62.其中,第二预设阈值大于第一预设阈值。
63.需要说明的是,通过预设前端界面向用户展示重点数据,能及时告知用户重点数据出现,需要对重点数据进行处理。
64.s111:在专家评分大于第二预设阈值的情况下,将数据分组中的数据保存到数据仓库中与数据分组的主题对应的主题域内。
65.综上所述,本实施例利用主题分类模型,确定待入仓数据的主题,无需人工参与主题划分过程,有效提高了数据的主题划分效率。
66.需要说明的是,上述实施例提及的s101,为本技术实施例所示数据的主题划分方法的一种可选的实现方式。此外,上述实施例提及的s110,为本技术实施例所示数据的主题划分方法的一种可选的实现方式。为此,上述实施例提及的流程,可以概括为图2所示的方法。
67.如图2所示,为本技术实施例提供的另一种数据的主题划分方法的流程示意图,包括如下所示步骤。
68.s201:将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到主题分类模型输出的分类结果。
69.其中,主题分类模型基于预先获取的样本作为输入,并以样本的主题标签作为训练目标,预先训练得到;分类结果包括各个待入仓数据的主题。
70.s202:对各个待入仓数据进行划分,得到多个数据分组。
71.其中,数据分组包括主题相同的多个待入仓数据。
72.s203:对于每个数据分组,将数据分组中的数据发送给与数据分组的主题对应的专家,并接收专家针对数据分组中的数据所反馈的专家评分。
73.s204:在专家评分大于第二预设阈值的情况下,将数据分组中的数据保存到数据仓库中与数据分组的主题对应的主题域内。
74.综上所述,本实施例利用主题分类模型,确定待入仓数据的主题,无需人工参与主题划分过程,有效提高了数据的主题划分效率。
75.需要说明的是,本发明提供的数据的主题划分方法可用于人工智能领域、区块链领域、分布式领域、云计算领域、大数据领域、物联网领域、移动互联领域、网络安全领域、芯片领域、虚拟现实领域、增强现实领域、全息技术领域、量子计算领域、量子通信领域、量子测量领域、数字孪生领域或金融领域。上述仅为示例,并不对本发明提供的数据的主题划分方法的应用领域进行限定。
76.本发明提供的数据的主题划分方法可用于金融领域或其他领域,例如,可用于金融领域中的交易应用场景。其他领域为除金融领域之外的任意领域,例如,电力领域。上述仅为示例,并不对本发明提供的数据的主题划分方法的应用领域进行限定。
77.与上述本技术实施例提供的数据的主题划分方法相对应,本技术实施例还提供了一种数据的主题划分装置。
78.如图3所示,为本技术实施例提供的一种数据的主题划分装置的架构示意图,包括如下所示单元。
79.分类单元100,用于将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到主题分类模型输出的分类结果;主题分类模型基于预先获取的样本作为输入,并以样本的主题标签作为训练目标,预先训练得到;分类结果包括各个待入仓数据的主题。
80.可选的,分类单元100具体用于:将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本;为数据样本设置主题标签;主题标签用于指示数据样本的主题;将数据样本输入至预设的神经网络模型中,经由神经网络模型输出数据样本的预测主题,并以主题标签所示的主题作为训练目标,不断调整神经网络模型的各项参数,直至预测主题与主题标签所示的主题之间的偏差小于预设阈值,确定主题分类模型训练成功。
81.分组单元200,用于对各个待入仓数据进行划分,得到多个数据分组;数据分组包括主题相同的多个待入仓数据。
82.评分单元300,用于对于每个数据分组,将数据分组中的数据发送给与数据分组的主题对应的专家,并接收专家针对数据分组中的数据所反馈的专家评分。
83.保存单元400,用于在专家评分大于第二预设阈值的情况下,将数据分组中的数据保存到数据仓库中与数据分组的主题对应的主题域内。
84.修正单元500,具体用于:在专家评分小于第一预设阈值的情况下,向专家发送修正请求,以使专家响应修正请求,对数据分组中的数据进行主题修正,得到修正主题;接收专家发送的修正主题,并利用修正主题替代数据分组中的数据的主题;基于数据分组中的数据作为验证样本,修正主题作为数据的主题标签,对主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。
85.展示单元600,具体用于:在专家评分大于等于第一预设阈值,且小于等于第二预
设阈值的情况下,将数据分组中的数据标识为重点数据,并通过预设前端界面向用户展示重点数据;第二预设阈值大于第一预设阈值。
86.综上所述,本实施例利用主题分类模型,确定待入仓数据的主题,无需人工参与主题划分过程,有效提高了数据的主题划分效率。
87.本技术还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的程序,其中,程序执行上述本技术提供的数据的主题划分方法。
88.本技术还提供了一种数据的主题划分设备,包括:处理器、存储器和总线。处理器与存储器通过总线连接,存储器用于存储程序,处理器用于运行程序,其中,程序运行时执行上述本技术提供的数据的主题划分方法,包括如下步骤:
89.将上游系统发送的多个待入仓数据,输入至主题分类模型中,得到所述主题分类模型输出的分类结果;所述主题分类模型基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到;所述分类结果包括各个所述待入仓数据的主题;
90.对各个所述待入仓数据进行划分,得到多个数据分组;所述数据分组包括主题相同的多个所述待入仓数据;
91.对于每个所述数据分组,将所述数据分组中的数据发送给与所述数据分组的主题对应的专家,并接收所述专家针对所述数据分组中的数据所反馈的专家评分;
92.在所述专家评分大于第二预设阈值的情况下,将所述数据分组中的数据保存到数据仓库中与所述数据分组的主题对应的主题域内。
93.具体的,在上述实施例的基础上,所述基于预先获取的样本作为输入,并以所述样本的主题标签作为训练目标,预先训练得到所述主题分类模型的过程,包括:
94.将预先获取的样本数据仓库所包含多个主题下的业务数据,标识为数据样本;
95.为所述数据样本设置主题标签;所述主题标签用于指示数据样本的主题;
96.将所述数据样本输入至预设的神经网络模型中,经由所述神经网络模型输出所述数据样本的预测主题,并以所述主题标签所示的主题作为训练目标,不断调整所述神经网络模型的各项参数,直至所述预测主题与所述主题标签所示的主题之间的偏差小于预设阈值,确定所述主题分类模型训练成功。
97.具体的,在上述实施例的基础上,还包括:
98.在所述专家评分小于第一预设阈值的情况下,向所述专家发送修正请求,以使所述专家响应所述修正请求,对所述数据分组中的数据进行主题修正,得到修正主题;
99.接收所述专家发送的所述修正主题,并利用所述修正主题替代所述数据分组中的数据的主题;
100.基于所述数据分组中的数据作为验证样本,所述修正主题作为所述数据的主题标签,对所述主题分类模型的各项参数进行调整训练,得到修正后的主题分类模型。
101.具体的,在上述实施例的基础上,还包括:
102.在所述专家评分大于等于第一预设阈值,且小于等于所述第二预设阈值的情况下,将所述数据分组中的数据标识为重点数据,并通过预设前端界面向用户展示所述重点数据;所述第二预设阈值大于所述第一预设阈值。
103.本技术实施例方法所述的功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算设备可读取存储介质中。基于这样的理解,本技术实
施例对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该软件产品存储在一个存储介质中,包括若干指令用以使得一台计算设备(可以是个人计算机,服务器,移动计算设备或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器、随机存取存储器、磁碟或者光盘等各种可以存储程序代码的介质。
104.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其它实施例的不同之处,各个实施例之间相同或相似部分互相参见即可。
105.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1