本技术涉及人工智能,尤其涉及一种数据处理方法及装置、电子设备及计算机可读存储介质。
背景技术:
1、随着人工智能技术的发展,人工智能技术的应用越来越广,其中就包括使用人工智能模型对数据进行分类。在使用人工智能模型进行分类之前,需要使用具有类别的训练数据对人工智能模型进行训练,以提高人工智能模型的分类准确度,而且训练数据的数量越多,训练效果越好。因此如何获得具有类别的数据对提升人工智能模型的训练效果具有非常重要的意义。
技术实现思路
1、本技术提供一种数据处理方法及装置、电子设备及计算机可读存储介质。
2、第一方面,提供了一种数据处理方法,该方法包括:
3、获取待标注数据集的第一特征数据集和已标注数据集的第二特征数据集;
4、通过对所述第一特征数据集和所述第二特征数据集进行聚类处理,得到聚类结果;
5、根据所述聚类结果和所述已标注数据集的第一类别,得到所述待标注数据集的第二类别。
6、在该种实施方式中,数据处理装置在获取待标注数据集的第一特征数据集和已标注数据集的第二特征数据集的情况下,通过对第一特征数据集和第二特征数据集进行聚类处理,得到第一特征数据集中的特征数据和第二特征数据集中的特征数据的聚类结果。然后,根据聚类结果和已标注数据集的第一类别,得到待标注数据集的第二类别,由此可通过已标注数据集,确定未标注数据的类别。
7、结合本技术任一实施方式,所述通过对所述第一特征数据集和所述第二特征数据集进行聚类处理,得到聚类结果,包括:
8、降低所述第一特征数据集中的特征数据的维度,得到第三特征数据集;
9、通过对所述第二特征数据集和所述第三特征数据集进行聚类处理,得到所述聚类结果。
10、在该种实施方式中,由于第三特征数据集中的特征数据的维度比第一特征数据集中的特征数据的维度低,通过对第二特征数据集和第三特征数据集进行聚类处理,可减少聚类处理所产生的数据处理量。
11、结合本技术任一实施方式,所述通过对所述第二特征数据集和所述第三特征数据集进行聚类处理,得到所述聚类结果,包括:
12、对所述第二特征数据集和所述第三特征数据集进行聚类处理,得到至少两个第四特征数据集;所述至少两个第四特征数据集包括第五特征数据集和第六特征数据集;
13、在匹配数据对在特征数据对中的占比大于或等于第一阈值的情况下,合并所述第五特征数据集和所述第六特征数据集合并,得到第七特征数据集;所述特征数据对包括所述第五特征数据集中的一个特征数据和所述第六特征数据集中的一个特征数据;所述匹配数据对为包括两个相互匹配的特征数据的所述特征数据对;
14、根据所述第七特征数据集和所述至少两个第四特征数据集中除所述第五特征数据集和所述第六特征数据集之外的特征数据集,得到所述聚类结果。
15、在该种实施方式中,数据处理装置在通过对第二特征数据集和第三特征数据集进行聚类处理,得到至少两个第四特征数据集的情况下,进一步以匹配数据对在特征数据对中的占比为依据,合并至少两个第四特征数据集中的第五特征数据集和第六特征数据集,得到第七特征数据集。再根据第七特征数据集和至少两个第四特征数据集中除第五特征数据集和第六特征数据集之外的特征数据集,得到聚类结果,相当于以匹配数据对在特征数据对中的占比为依据,对聚类处理得到的至少两个第四特征数据集进行修正得到聚类结果,由此提高聚类结果的准确度。
16、结合本技术任一实施方式,所述方法还包括:
17、在检测到针对所述第二类别的修改指令的情况下,根据所述修改指令对所述第二类别进行修改得到所述待标注数据集的第三类别。
18、在该种实施方式中,在数据处理装置得到待标注数据集的第二类别后,用户可在确定第二类别错误的情况下,通过向数据处理装置输入修改指令,将待标注数据集的类别修改为第三类别,从而提高待标注数据集的类别的准确度。
19、结合本技术任一实施方式,所述获取已标注数据集的第二特征数据集,包括:
20、获取待确认数据集和分类模型;所述待确认数据集包括第一数据;
21、使用所述分类模型识别所述第一数据的第四类别;
22、在所述第四类别与所述第一数据的标签所指示的类别相同的情况下,将所述待确认数据集作为所述已标注数据集;
23、在所述第四类别与所述第一数据的标签所指示的类别不同的情况下,去除所述待确认数据集中的所述第一数据得到所述已标注数据集;
24、对所述已标注数据集进行特征提取处理,得到所述第二特征数据集。
25、在该种实施方式,数据处理装置在使用分类模型确定第一数据的第四类别的情况下,以第四类别为依据,判断第一数据的标签所指示的类别是否正确,进而可提高已标注数据集中的数据的准确度,从而在通过对已标注数据集进行特征提取处理得到第二特征数据集的情况下,提高第二特征数据集的类别的准确度。
26、结合本技术任一实施方式,所述待标注数据集中的数据和所述已标注数据集中的数据均为图像。
27、结合本技术任一实施方式,所述第一类别和所述第二类别均为商品类别。
28、数据处理装置基于该种实施方式,可得到待标注数据集中的数据的商品类别。例如,待标注数据集中的数据和已标注数据集中的数据均为图像,已标注数据集中的图像的第一类别为该图像中的商品的类别。通过前文所述的技术方案,可基于已标注数据集的第一类别,确定待标注数据集中的图像中的商品的类别,得到第二类别。
29、结合本技术任一实施方式,所述方法还包括:
30、获取待训练模型;
31、根据所述第二类别、所述待标注数据集和所述已标注数据集,得到训练数据集;
32、使用所述训练数据集训练所述待训练模型,得到已训练模型。
33、在该种实施方式中,数据处理装置在得到待标注数据集的第二类别的情况下,可将待标注数据集作为训练数据。因此,根据第二类别、待标注数据集和已标注数据集,得到训练数据集,相当于扩充了训练数据的数量。于是使用训练数据集训练待训练模型,可提升训练效果。
34、结合本技术任一实施方式,所述训练数据集包括第二数据和第三数据,所述第二数据的类别与所述第三数据的类别相同;
35、所述使用所述训练数据集训练所述待训练模型,得到已训练模型,包括:
36、确定所述第二数据与所述第三数据的第一相似度;
37、根据所述第一相似度,得到第一损失;所述第一相似度与所述第一损失呈负相关;
38、根据所述第一损失,更新所述待训练模型的参数,得到所述已训练模型。
39、在该种实施方式中,第二数据与第三数据具有相同的类别,那么第二数据与第三数据的相似度应该越大越好。数据处理装置根据第一损失,更新待训练模型的参数,也就是说,第一损失可表征为待训练模型的参数的优化方向。因此,数据处理装置在第一相似度与第一损失呈负相关的情况下,根据第一相似度得到第一损失,相当于将第一相似度作为待训练模型的参数一个优化方向。这样,根据第一损失,更新待训练模型的参数,可提高通过待训练模型确定的第二数据与第三数据的第一相似度,即缩小第二数据的特征数据与第三数据的特征数据的距离,由此,可提高待训练模型的识别准确度。
40、结合本技术任一实施方式,所述训练数据集还包括第四数据,所述第二数据的类别与所述第四数据的类别不同;
41、在所述根据所述第一相似度,得到第一损失之前,所述方法还包括:
42、确定所述第二数据与所述第四数据的第二相似度;
43、所述根据所述第一相似度,得到第一损失,包括:
44、根据所述第一相似度和所述第二相似度,得到所述第一损失;所述第一损失与所述第二相似度呈正相关。
45、在该种实施方式中,第二数据与第四数据具有不同的类别,那么第二数据与第四数据的相似度应该越小越好。数据处理装置根据第一损失,更新待训练模型的参数,也就是说,第一损失可表征为待训练模型的参数的优化方向。因此,数据处理装置在第一相似度与第一损失呈负相关、第二相似度与第一损失呈正相关的情况下,根据第一相似度和第二相似度得到第一损失,相当于将第一相似度和第二相似度作为待训练模型的参数一个优化方向。这样,根据第一损失,更新待训练模型的参数,可提高通过待训练模型确定的第二数据与第三数据的第一相似度,以及降低通过待训练模型确定的第二数据与第四数据的第二相似度,即缩小第二数据的特征数据与第三数据的特征数据的距离,以及拉开第二数据的特征数据与第四数据的特征数据的距离,由此,可提高待训练模型的识别准确度。
46、第二方面,提供了一种数据处理装置,所述装置包括:
47、获取单元,用于获取待标注数据集的第一特征数据集和已标注数据集的第二特征数据集;
48、第一处理单元,用于通过对所述第一特征数据集和所述第二特征数据集进行聚类处理,得到聚类结果;
49、第二处理单元,用于根据所述聚类结果和所述已标注数据集的第一类别,得到所述待标注数据集的第二类别。
50、结合本技术任一实施方式,所述第一处理单元,用于:
51、降低所述第一特征数据集中的特征数据的维度,得到第三特征数据集;
52、通过对所述第二特征数据集和所述第三特征数据集进行聚类处理,得到所述聚类结果。
53、结合本技术任一实施方式,所述第一处理单元,用于:
54、对所述第二特征数据集和所述第三特征数据集进行聚类处理,得到至少两个第四特征数据集;所述至少两个第四特征数据集包括第五特征数据集和第六特征数据集;
55、在匹配数据对在特征数据对中的占比大于或等于第一阈值的情况下,合并所述第五特征数据集和所述第六特征数据集合并,得到第七特征数据集;所述特征数据对包括所述第五特征数据集中的一个特征数据和所述第六特征数据集中的一个特征数据;所述匹配数据对为包括两个相互匹配的特征数据的所述特征数据对;
56、根据所述第七特征数据集和所述至少两个第四特征数据集中除所述第五特征数据集和所述第六特征数据集之外的特征数据集,得到所述聚类结果。
57、结合本技术任一实施方式,所述第二处理单元,还用于:
58、在检测到针对所述第二类别的修改指令的情况下,根据所述修改指令对所述第二类别进行修改得到所述待标注数据集的第三类别。
59、结合本技术任一实施方式,所述获取单元,用于:
60、获取待确认数据集和分类模型;所述待确认数据集包括第一数据;
61、使用所述分类模型识别所述第一数据的第四类别;
62、在所述第四类别与所述第一数据的标签所指示的类别相同的情况下,将所述待确认数据集作为所述已标注数据集;
63、在所述第四类别与所述第一数据的标签所指示的类别不同的情况下,去除所述待确认数据集中的所述第一数据得到所述已标注数据集;
64、对所述已标注数据集进行特征提取处理,得到所述第二特征数据集。
65、结合本技术任一实施方式,所述待标注数据集中的数据和所述已标注数据集中的数据均为图像。
66、结合本技术任一实施方式,所述第一类别和所述第二类别均为商品类别。
67、结合本技术任一实施方式,所述获取单元,还用于获取待训练模型;
68、所述第二处理单元,还用于:
69、根据所述第二类别、所述待标注数据集和所述已标注数据集,得到训练数据集;
70、使用所述训练数据集训练所述待训练模型,得到已训练模型。
71、结合本技术任一实施方式,所述训练数据集包括第二数据和第三数据,所述第二数据的类别与所述第三数据的类别相同;
72、所述第二处理单元,用于:
73、确定所述第二数据与所述第三数据的第一相似度;
74、根据所述第一相似度,得到第一损失;所述第一相似度与所述第一损失呈负相关;
75、根据所述第一损失,更新所述待训练模型的参数,得到所述已训练模型。
76、结合本技术任一实施方式,所述训练数据集还包括第四数据,所述第二数据的类别与所述第四数据的类别不同;
77、所述第二处理单元,还用于:
78、确定所述第二数据与所述第四数据的第二相似度;
79、根据所述第一相似度和所述第二相似度,得到所述第一损失;所述第一损失与所述第二相似度呈正相关。
80、第三方面,提供了一种电子设备,其特征在于,包括:处理器和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
81、第四方面,提供了另一种电子设备,包括:处理器、发送装置、输入装置、输出装置和存储器,所述存储器用于存储计算机程序代码,所述计算机程序代码包括计算机指令,在所述处理器执行所述计算机指令的情况下,所述电子设备执行如上述第一方面及其任意一种可能实现的方式的方法。
82、第五方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序,所述计算机程序包括程序指令,在所述程序指令被处理器执行的情况下,使所述处理器执行如上述第一方面及其任意一种可能实现的方式的方法。
83、第六方面,提供了一种计算机程序产品,所述计算机程序产品包括计算机程序或指令,在所述计算机程序或指令在计算机上运行的情况下,使得所述计算机执行上述第一方面及其任一种可能的实现方式的方法。
84、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本技术。