本申请涉及数据处理技术领域,特别是涉及一种数据分类方法、装置和计算机设备。
背景技术
随着数据处理技术的发展,对数据的分类在数据处理中具有十分重要的意义。数据分类是指对数据结构相同的数据按照一定规则进行分类,将不同类别的数据进行分类,可以通过数据分类器实现。
传统的数据分类方法,在仅针对与目标分类数据的特征空间结构完全相同的数据进行分析,得到分类结果。
因此,传统的数据分类方法,存在准确率低的问题。
技术实现要素:
基于此,有必要针对上述技术问题,提供一种分类准确性高的数据分类方法、装置和计算机设备。
一种数据分类方法,所述方法包括:
根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
根据与所述预设源域对应的所述组合分类结果,确定所述目标分类数据的目标分类结果。
一种数据分类装置,所述装置包括:
空间划分模块,用于根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
同构分类模块,用于对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
异构分类模块,用于对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
分类组合模块,用于根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
结果确定模块,用于根据与所述预设源域对应的所述组合分类结果,确定所述目标分类数据的目标分类结果。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
根据与所述预设源域对应的所述组合分类结果,确定所述目标分类数据的目标分类结果。
上述数据分类方法、装置和计算机设备,首先根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,然后对所述同构部分进行分类得到基于所述预设源域的同构分类结果,并对所述异构部分进行分类得到基于所述预设源域的异构分类结果;因此,根据基于所述预设源域的同构分类结果及异构分类结果,确定的与所述预设源域对应的组合分类结果的准确性高,从而,根据与所述预设源域对应的所述组合分类结果,确定的所述目标分类数据的目标分类结果的准确性高。
附图说明
图1为一个实施例中数据分类方法的应用环境图;
图2为一个实施例中数据分类方法的流程示意图;
图3为另一个实施例中数据分类方法的流程示意图;
图4为一具体实施例的原理图;
图5为一具体实施例中组合分类器的工作原理图;
图6为一个实施例中数据分类装置的结构框图;
图7为另一个实施例中数据分类装置的结构框图;
图8为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的数据分类方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。本申请实施例的数据分类方法可以运行在服务器104上,终端102可通过网络发送需要分类的目标分类数据至服务器104。服务器104根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分;对同构部分进行分类,得到基于预设源域的同构分类结果;对异构部分进行分类,得到基于预设源域的异构分类结果;根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果;根据组合分类结果,确定目标分类数据的目标分类结果。最后将目标分类结果返回终端102。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
在一个实施例中,如图2所示,提供了一种数据分类方法,包括以下步骤:
s201,根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分。同构部分为与源域数据在特征空间中结构相同的部分,异构部分为与源域数据在特征空间中结构不同的部分。
目标分类数据为与目标域中的数据的特征空间结构完全相同的数据。该目标分类数据为待分类的数据。目标域为待分类的数据的域。预设源域的特征空间的结构与目标域的特征空间具有结构相同的部分。特征空间包括不少于两个维度的数据信息。特征空间具有结构相同的部分是指,在特征空间中至少存在一个相同的维度。换而言之,目标分类数据的同构部分是指与预设源域中源域数据的特征空间中维度相同的数据信息。目标分类数据的异构部分是指与预设源域中源域数据的数据空间中维度不同的数据信息。可以理解地,同构部分与异构部分的交集为空。
s203,对同构部分进行分类,得到基于预设源域的同构分类结果。
可以根据预设源域与目标域在特征空间上结构相同部分,对目标分类数据的同构部分进行分类,得到基于预设源域的同构分类结果。
进一步地,可以通过基于预设源域的同构分类器对同构部分进行分类,得到基于预设源域的同构分类结果。该同构分类器可以根据训练域中的训练对训练得到。训练对包括训练数据和目标训练结果。训练数据的数据结构与目标分类数据的数据结构相同,目标训练结果为训练数据应该得到的结果。可以根据该目标训练结果与训练数据的实际训练结果确定损失值,从而更新同构分类器,当损失值达到预设条件时(如可以是损失值小于预设值时达到预设条件),得到最优的同构分类器。
s205,对异构部分进行分类,得到基于预设源域的异构分类结果。
可以根据目标域与预设源域在特征空间上结构不同的部分,对目标分类数据的异构部分进行分类,得到基于预设源域的异构分类结果。
进一步地,可以通过基于预设源域的异构分类器对异构部分进行分类,得到基于预设源域的异构分类结果。该异构分类器可以根据训练域中的训练对训练得到。训练对包括训练数据和目标训练结果。训练数据的数据结构与目标分类数据的数据结构相同,目标训练结果为训练数据应该得到的结果。可以根据该目标训练结果与训练数据的实际训练结果确定损失值,从而更新异构分类器,当损失值达到预设条件时(如可以是损失值小于预设值时达到预设条件),得到最优的异构分类器。
s207,根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果。
在得到基于预设源域的同构分类结果及异构分类结果之后,可以根据该同构分类结果及异构分类结果确定与预设源域对应的组合分类结果。如,可以采用加权求和的方式,分别对同构分类结果及异构分类结果进行加权,并在加权之后对两者进行求和,得到与预设源域对应的组合分类结果。
s209,根据组合分类结果,确定目标分类数据的目标分类结果。
对于只有一个预设源域的情况,可以直接将该预设源域对应的组合结果,确定为目标分类数据的目标分类结果。
对于预设源域的数量不小于2的情况,可以采用加权求和的方式,分别对各预设源域对应的组合结果进行加权,并对各加权后的组合分类结果进行求和,得到目标分类数据的目标分类结果。还可以根据预设规则,将预设组合分类结果确定为目标分类结果,如该预设规则可以是将组合分类结果中值最大的或最小的,作为目标分类结果。
上述数据分类方法,首先根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,然后对同构部分进行分类得到基于预设源域的同构分类结果,并对异构部分进行分类得到基于预设源域的异构分类结果;因此,根据基于预设源域的同构分类结果及异构分类结果,确定的与预设源域对应的组合分类结果的准确性高,从而,根据组合分类结果,确定的目标分类数据的目标分类结果的准确性高。
在其中一实施例中,预设源域的数量不小于2。
根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果,包括:对于各预设源域,根据基于该预设源域的同构分类结果及异构分类结果,确定与各预设源域分别对应的各组合分类结果。
根据组合分类结果,确定目标分类数据的目标分类结果,包括:根据各组合分类结果,确定目标分类数据的目标分类结果。
基于本实施方式的技术方案,由于预设源域的数量不小于2,对于各预设源域,均根据基于该预设源域的同构分类结果及异构分类结果确定与该预设源域对应的组分类结果,最终能够确定与各预设源域分别对应的各组分类结果。需要说明的是一个预设源域对应一个组分类结果。在确定目标分类结果时,根据各组分类结果确定。如此,增加预设源域的数量,可以进一步提高数据分类的准确性。
进一步地,根据各组合分类结果,确定目标分类数据的目标分类结果,包括:
根据预设加权参数对各组合分类结果进行加权求和,得到目标分类数据的目标分类结果。
预设加权参数可以采用平均权重的方式确定,即各预设源域对应的组合分类结果的权重相同,也即各预设源域对应的权重参数为预设源域的数量的倒数。预设加权参数也可以根据经验设置。预设加权参数还可以是通过训练确定。
基于本实施例的技术方案,由于通过对各组合分类结果加权求和的方式确定目标分类结果,能够进一步提高数据分类的准确性。
请参阅图3,在其中一实施例中,根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果之前,还包括:
s306,根据预设源域对目标分类数据进行分类,得到基于预设源域的源域分类结果。
根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果,包括:
s307,根据基于预设源域的同构分类结果、异构分类结果及源域分类结果,确定与预设源域对应的组合分类结果。
根据预设源域对目标分类数据进行分类,可以是采用对预设源域内源域数据的分类方式对目标分类数据进行分类,得到基于该预设源域的分类结果;也可以是采用基于该预设源中源域数据的分类方式确定的分类方式对目标分类数据进行分类,得到基于该预设源域的分类结果。在本实施例中,该分类结果称之为源域分类结果。根据预设源域对目标分类数据进行分类,还可以是根据预设源于对目标分类数据的同构部分进行分类得到基于预设源域的源域分类结果。在确定与该预设源域对应的组合分类结果时,也加入该源域分类结果的因素,即根据基于该预设源域的同构分类结果、异构分类结果及源域分类结果,确定该预设源域对应的组合分类结果。
可以通过加权求和的方式,确定与预设源域对应的组合分类结果,如分别对该预设源域对应的同构分类结果、异构分类结果及源域分类结果进行加权,并在加权之后对三者进行求和,得到与该预设源域对应的组合分类结果。还可以根据预设规则,直接将同构分类结果或异构分类结果或源域分类结果确定为目标分类结果,如该预设规则可以是将该三类结果中值最大的或最小的,作为目标分类结果。
可以通过基于预设源域的源域分类器对目标分类数据进行分类,得到基于预设源域的源域分类结果。该源域分类器可以根据训练域中的训练对训练得到。训练对包括训练数据和目标训练结果。训练数据的数据结构与源域数据的数据结构相同,目标训练结果为训练数据应该得到的结果。可以根据该目标训练结果与训练数据的实际训练结果确定损失值,从而更新源域分类器,当损失值达到预设条件时(如可以是损失值小于预设值时达到预设条件),得到最优的源域分类器。
基于本实施例的技术方案,由于在组合分类结果中加入了通过源域分类结果的因素,可以提高组合分类结果的准确性,从而进一步提高目标分类结果的准确性。
进一步地,为了提高数据分类的效率可以通过离线方式,根据预设源域对目标分类数据进行分类,得到基于预设源域的源域分类结果。
离线的方式是指,无需接入互联网即可实现的方式。由于无需接入互联网,可以提高处理速度,从而能够提高数据分类的效率。
请继续参阅图3,在其中一实施例中,根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分之前,还包括:
s300,通过在线方式获取目标分类数据。
在线方式是指,通过接入互联网的方式。通过在线方式获取目标分类数据即为通过接入互联网的方式,从互联网上获取目标分类数据。由于通过在线方式获取目标分类数据的方式,往往目标域中的数据量较小,因此难以通过仅仅基于目标域的方式对目标分类数据进行准确性高的分类。从而,基于本实施例的技术方案,能够更大幅度的提高数据分类的准确性。
在其中一实施例中,根据基于预设源域的同构分类结果及异构分类结果,确定与预设源域对应的组合分类结果,包括:
根据预设加权参数对同构分类结果及异构分类结果进行加权求和,得到与预设源域对应的组合分类结果。
基本本实施例的技术方案,通过加权求和的方式,确定与预设源域对应的组合分类结果,如分别对该预设源域对应的同构分类结果及异构分类结果进行加权,并在加权之后对两者进行求和,得到与该预设源域对应的组合分类结果。预设加权参数可以采用平均权重的方式确定,即同构分类结果和异构分类结果的预设加权参数相同,均为0.5。预设加权参数也可以根据经验设置。预设加权参数还可以是通过训练确定。由于通过加权求和的方式确定组合分类结果,能够提高组合分类结果的准确性,从而可进一步提高数据分类的准确性。
在其中一实施例中,通过基于预设源域的同构分类器对同构部分进行分类,得到基于预设源域的同构分类结果;通过基于预设源域的异构分类器对异构部分进行分类,得到基于预设源域的异构分类结果;通过基于预设源域的源域分类器对目标分类数据进行分类,得到基于预设源域的源域分类结果。该同构分类器可以通过一个同构决策函数实现,该异构分类器可以通过一个异构决策函数实现,该源域分类器可以通过一个源域决策函数实现。第i个预设源域对应的同构决策函数可以表示为
在其中一实施例中,可以通过组合分类器实现根据基于预设源域的同构分类结果、异构分类结果及源域分类结果,确定与预设源域对应的组合分类结果。组合分类器可以通过组合决策函数实现,各预设源域对应的组合决策函数可以表示为fi。同构分类结果、异构分类结果及源域分类结果的权重可以分别表示为:
在其中一实施例中,第i个预设源域对应的组合分类结果的预设加权参数可以表示为wi,其取值可以为1/n。确定目标分类数据的目标分类结果的公式可以表示为:
在其中一实施例中,可以对各预设源域分别对应的组合分类结果的预设加权参数进行标准化,得到标准化后的预设加权参数。标准化的过程可以表示为:
在其中一具体实施例中,本申请的数据分类方法可以通过一个数据分类器实现,该数据分类器的训练过程与本申请的数据分类方法的步骤对应。
获取训练数据对,训练数据包括训练数据及目标训练结果;该目标数据的数据结构与目标分类数据的数据结构一致。
根据预设源域中源域数据的特征空间结构,将目标数据划分为同构部分及异构部分。第t轮迭代训练过程中第i个预设源域对应的同构部分及异构部分可以分别表示为
通过基于预设源域的同构分类器对同构部分进行分类,得到基于预设源域的同构分类结果;通过基于预设源域的异构分类器对异构部分进行分类,得到基于预设源域的异构分类结果;通过基于预设源域的源域分类器对目标分类数据进行分类,得到基于预设源域的源域分类结果。第t轮迭代训练过程中第i个预设源域对应的同构分类器、异构分类器及源域分类器,可以分别表示为
通过组合分类器实现采用预设加权参数对基于预设源域的同构分类结果、异构分类结果及源域分类结果进行加权求和,得到与预设源域对应的组合分类结果。第t轮迭代训练过程中第i个预设源域对应的组合分类器可以表示为fti。
根据组合分类结果,确定目标分类数据的目标分类结果。
根据实际训练结果、同构分类结果、异构分类结果、组合分类结果及目标训练结果,更新同构分类器、异构分类器、预设加权参数及组合分类器。
进一步地,在更新预设加权参数中,正则化参数c>0,同构分类结果及异构分类结果对应的加权参数时的权重衰退因子可以分别表示为β1,β2。其中,β1,β2∈(0,1)。
在其中一具体实施例中,可以通过公式
在其中一具体实施例中,在更新同构分类器时,第t轮迭代训练过程中第i预设源域对应的同构分类器的损失值可以表示为li1,t,其计算公式为:
在其中一具体实施例中,在更新异构分类器时,第t轮迭代训练过程中第i预设源域对应的异构分类器的损失值可以表示为li2,t,其计算公式为:
在其中一具体实施例中,本申请的数据分类方法可以应用于对不同商品评论情感信息的分类,可以是二分类任务,即分类结果包括正面评价和负面评价。目标分类数据可以为厨具类商品的评论,第1个预设源域可以为书籍类商品的评论,第2个预设源域可以为dvd类商品的评论,第3个预设源域可以为电子器件类商品的评论。本实施例中,目标分类数据所属的目标域中的数据是数量不足或标记不足,需要预设源域来辅助目标分类任务效果的提升。为进一步进行说明,如图4所示,场景中书籍、电子器件和dvd的评论分别为各预设源域的源域数据,为了辅助目标域数据的分类,需要分别构建相应的组合分类器,再将各组合分类器的结果结合起来,得到最后的目标分类结果。
其中,每个预设源域对应的组合分类器的工作原理可以如图5所示。根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分;根据预设源域对目标分类数据进行分类,得到基于预设源域的源域分类结果;对同构部分进行分类,得到基于预设源域的同构分类结果;对异构部分进行分类,得到基于预设源域的异构分类结果;对基于预设源域的同构分类结果、异构分类结果及源域分类结果进行加权求和,得到与预设源域对应的组合分类结果。
需要说明的是本申请的数据分类方法可以还适用于其它数据的分类,且数据的规模和分类器的选择也具有多样性。可以选择不同的硬件环境以满足需求,基本的运行硬件环境可为普通的计算机,如处理器为主频不低于2.93ghz,具有独立,内存不小于8gb的计算机。该数据分类方法的运行环境可以为linux平台。可以采用python语言(一种面向对象的解释型计算机程序设计语言)及其中与机器学习相关的库实现上述数据分类方法。
应该理解的是,虽然图2、3的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2、3中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图6所示,提供了一种与上述数据分类方法对应的数据分类装置,该装置,包括:
空间划分模块601,用于根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,所述同构部分为与所述源域数据在特征空间中结构相同的部分,所述异构部分为与所述源域数据在特征空间中结构不同的部分;
同构分类模块603,用于对所述同构部分进行分类,得到基于所述预设源域的同构分类结果;
异构分类模块605,用于对所述异构部分进行分类,得到基于所述预设源域的异构分类结果;
分类组合模块607,用于根据基于所述预设源域的同构分类结果及异构分类结果,确定与所述预设源域对应的组合分类结果;
结果确定模块609,用于根据所述组合分类结果,确定所述目标分类数据的目标分类结果。
上述数据分类装置,首先根据预设源域中源域数据的特征空间结构,将目标分类数据划分为同构部分及异构部分,然后对同构部分进行分类得到基于预设源域的同构分类结果,并对异构部分进行分类得到基于预设源域的异构分类结果;因此,根据基于预设源域的同构分类结果及异构分类结果,确定的与预设源域对应的组合分类结果的准确性高,从而,根据组合分类结果,确定的目标分类数据的目标分类结果的准确性高。
在其中一实施例中,所述预设源域的数量不小于2;
所述分类组合模块607,用于对于各所述预设源域,根据基于所述预设源域的同构分类结果及异构分类结果,确定与各所述预设源域分别对应的各组合分类结果;
所述结果确定模块609,用于根据各所述组合分类结果,确定所述目标分类数据的目标分类结果。
在其中一实施例中,所述结果确定模块609,用于根据预设加权参数对各所述组合分类结果进行加权求和,得到所述目标分类数据的目标分类结果。
请参阅图7,在其中一实施例中,所述装置还包括源域分类模块706;
所述源域分类模块706,用于根据所述预设源域对所述目标分类数据进行分类,得到基于所述预设源域的源域分类结果;
所述分类组合模块707,用于根据基于所述预设源域的同构分类结果、异构分类结果及源域分类结果,确定与所述预设源域对应的组合分类结果。
在其中一实施例中,所述源域分类模块706,用于通过离线方式,根据所述预设源域对所述目标分类数据进行分类,得到基于所述预设源域的源域分类结果。
在其中一实施例中,所述装置还包括:数据获取模块700,用于通过在线方式获取目标分类数据。
请返回参阅图6,在其中一实施例中,所述分类组合模块607,用于根据预设加权参数对所述同构分类结果及所述异构分类结果进行加权求和,得到与所述预设源域对应的组合分类结果。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图,8所示。该计算机设备包括通过系统总线连接的处理器、存储器和网络接口。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储异构数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据分类方法。
本领域技术人员可以理解,图8中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现上述数据分类方法的步骤。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。