数据对象分类方法、装置、计算机设备和存储介质与流程

文档序号:20776784发布日期:2020-05-19 20:51阅读:148来源:国知局
数据对象分类方法、装置、计算机设备和存储介质与流程

本申请涉及数据处理技术领域,特别是涉及一种数据对象分类方法、装置、计算机设备和存储介质。



背景技术:

伴随着云计算和大数据的发展,在大数据计算领域涌现出了各种各样的计算模型,用于在各种各样的数据计算场景中进行处理和计算;其中,从海量数据中筛选出部分有用数据这一数据计算场景的应用范围变得越来越广(例如信息推送场景、数据分类场景等),尤其表现为根据一次性输入的大批量筛选需求,从海量用户数据中筛选出满足大批量筛选需求中,各个筛选需求的目标用户群。

现有的解决方案是通过机器学习模型(例如:决策树模型(gradientboostingdecisiontree,gbdt))来对数据对象的特征进行提取并分类,并将分类后的数据与筛选需要进行对比,得到不同筛选需要的目标数据。这些方式对于组成结构较为单一的数据,具有较高的分类准确率,但是对于组成结构比较复杂的数据(例如同一对象,其数据来源为两个或多个,不同来源的数据其维度不一定相同,且存在部分关联),现有的机器学习模型无法对关联维度的特征进行有效综合,使得提取到的特征准确度不够,导致对象数据的筛选分类不够准确。



技术实现要素:

基于此,有必要针对上述技术问题,本申请提供一种数据对象分类方法、装置、计算机设备及存储介质,以解决现有技术中无法对特征进行准确提取,导致的数据对象分类不准确的技术问题。

一种数据对象分类方法,所述方法包括:

获取每个待分类对象的基础数据,作为待处理数据,并根据预设筛选需求数据将所述待处理数据分为标准数据与关联数据;

根据所述标准数据得到标准名义变量,对所述标准名义变量进行特征分类,并对分类后的结果进行融合处理,得到综合分类结果;

根据所述关联数据得到关联名义变量,并对所述关联名义变量进行数据评估,得到所述关联名义变量的评估分值;

根据每个所述待分类对象的基础数据确定所述待分类对象在所述综合分类结果中的目标分类,并根据所述关联数据确定所述待分类对象相对于所述评估分值的目标分值,将所述目标分值进行加权处理,得到所述待分类对象属于所述目标分类的评估概率;

若所述评估概率大于预设阈值,则将所述待分类对象归类到所述目标分类中,作为目标对象。

一种数据对象分类装置,所述装置包括:

数据划分模块,用于获取每个待分类对象的基础数据,作为待处理数据,并根据预设筛选需求将所述待处理数据分为标准数据与关联数据;

数据分类模块,用于根据所述标准数据得到标准名义变量,对所述标准名义变量进行特征分类,并对分类后的结果进行融合处理,得到综合分类结果;

数据评估模块,用于根据所述关联数据得到关联名义变量,并对所述关联名义变量进行数据评估,得到所述关联名义变量的评估分值;

对象筛选模块,用于根据每个所述待分类对象的基础数据确定所述待分类对象在所述综合分类结果中的目标分类,并根据所述关联数据确定所述待分类对象相对于所述评估分值的目标分值,将所述目标分值进行加权处理,得到所述待分类对象属于所述目标分类的评估概率;

对象分类模块,用于若所述评估概率大于预设阈值,则将所述待分类对象归类到所述目标分类中,作为目标对象。

一种计算机设备,包括存储器和处理器,以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述数据对象分类方法的步骤。

一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述数据对象分类方法的步骤。

上述数据对象分类方法、装置、计算机设备和存储介质,通过对获取到的数据对象的基础数据进行分类后分别输入到预设的分类器中进行处理得到分类结果、评估结果,然后汇总得到的分类结果,确定带筛选数据对象的目标分类。使得最终确定目标分类中包含的待筛选数据对象更具有针对性,更符合筛选需求,提高了数据对象分类的精准度,解决了现有技术中对数据对象分类不准确的技术问题。

附图说明

为了更清楚地说明本发明实施例的技术方案,下面将对本发明实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为数据对象分类方法的应用环境示意图;

图2为数据对象分类方法的流程示意图;

图3为图2中步骤202的流程示意图;

图4为图2中步骤204的流程示意图;

图5为图4中步骤402的流程示意图;

图6为图2中步骤204的另一流程示意图;

图7为图6中步骤604的一流程示意图;

图8为图2中步骤206的流程示意图;

图9为数据对象分类装置的示意图;

图10为一个实施例中计算机设备的示意图。

具体实施方式

除非另有定义,本文所使用的所有的技术和科学术语与属于本申请的技术领域的技术人员通常理解的含义相同;本文中在申请的说明书中所使用的术语只是为了描述具体的实施例的目的,不是旨在于限制本申请;本申请的说明书和权利要求书及上述附图说明中的术语“包括”和“具有”以及它们的任何变形,意图在于覆盖不排他的包含。本申请的说明书和权利要求书或上述附图中的术语“第一”、“第二”等是用于区别不同对象,而不是用于描述特定顺序。

在本文中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本申请的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。

为了使本申请的目的、技术方案及优点更加清楚明白,下面结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

本发明实施例提供的数据对象分类方法,可以应用于如图1所示的应用环境中。其中,该应用环境可以包括终端102、网络106以及服务端104,网络106用于在终端102和服务端104之间提供通信链路介质,网络106可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端102通过网络106与服务端104交互,以接收或发送消息等。终端102上可以安装有各种通讯客户端应用,例如网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

终端102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、电子书阅读器、mp3播放器(movingpictureexpertsgroupaudiolayeriii,动态影像专家压缩标准音频层面3)、mp4(movingpictureexpertsgroupaudiolayeriv,动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机和台式计算机等等。

服务端104可以是提供各种服务的服务器,例如对终端102上显示的页面提供支持的后台服务器。

需要说明的是,本申请实施例所提供的数据对象分类方法一般由服务端/终端执行,相应地,数据对象分类装置一般设置于服务端/终端设备中。

应该理解,图1中的终端、网络和服务端的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

其中,终端102通过网络与服务端104进行通信。服务端104将终端102作为数据对象从中拉取基础数据,并根据预设筛选对拉取到的基础数据进行分类。分类后的数据经过不同的处理方式处理后分别得到综合分类结果和评估分值,最后根据分类后的数据对数据对象进行分类和分类评估,确定该数据对象属于得到的分类类别的评估概率,若评估概率大于预设阈值则认为分类正确,将该数据对象作为目标对象。其中,终端102和服务端104之间通过网络进行连接,该网络可以是有线网络或者无线网络,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务端104可以用独立的服务器或者是多个组成的服务器集群来实现。

在一个实施例中,如图2所示,提供了一种数据对象分类方法,以该方法应用于图1中的服务端为例进行说明,包括以下步骤:

步骤202,获取每个待分类对象的基础数据,作为待处理数据,并根据预设筛选需求数据将待处理数据分为标准数据与关联数据。

待处理数据来自于多个数据源,服务器从每一个数据源那里采集需要的数据作为基础数据,然后将得到的所有基础数据作为待处理数据,并根据预设筛选需求数据将待处理数据分成标准数据和关联数据。其中,数据源可以是一个服务器集群的每台服务器,该数据对象对应的基础数据可以包括服务器的运行时间、硬件参数、日志文件、历史维修记录以及服务器完成解决方案的数量等等,然后将每一台服务器视为一个数据对象,作为待分类对象。

在本实施例中,由于数据对象众多,每个数据对象对应的基础数据维度较广,为了提高存储和获取效率,一般采用分布式的存储方式来进行数据存储,但一般的分布式存储由于宽带传输的速率过慢,使得数据采集效率低,或者数据量太大时,使得数据采集通道拥堵,甚至瘫痪,因而,在本实施例中,采用大数据平台,从分布式存储系统中,根据数据对象的标识,从每个数据源中,获取包含该数据对象的标识的数据,作为该数据对象的基础数据。

其中,标准数据是与预设筛选需求数据相关性强的数据,而关联数据是与预设筛选需求数据相关性相对标准数据较弱或者与预设筛选需求数据没有相关性的数据。

步骤204,根据标准数据得到标准名义变量,对标准名义变量进行特征分类,并对分类后的结果进行融合处理,得到综合分类结果。

应为采集到的基础数据中数据类型比较多样,既可以包含连续变量也可以包括离散变量。其中连续变量比如服务器的温度变化,这些连续变量无法直接应用到后续的数据分析中,因而需要对其进行数据预处理。离散变量指变量值可以按一定顺序一一列举,通常以整数位取值的变量。如服务器单位时间内解决问题的次数,一年中每个月被维修的次数等等,离散变量的数值可以用计数的方法来获取。

一般数据预处理的方式包括:连续变量离散化、数据分箱和热度编码等,本实施例可以通过连续变量离散化获取需要的数据,作为标准名义变量。本实施例中的标准名义变量便是离散变量。然后再对标准名义变量进行特征分类处理以获取标准名义变量中具有区分性的特征以及特征组合,得到一个特征分类结果,最后对分类后的结果进行融合处理,得到预测结果,作为综合分类结果。

步骤206,根据关联数据得到关联名义变量,并对关联名义变量进行数据评估,得到关联名义变量的评估分值。

在对关联数据进行处理时,可以先对关联数据进行筛选操作,得到符合业务场景的数据,然后再对筛选得到的数据进行处理,得到关联名义变量。

更具体地,从关联数据中选出各个变量或者各个参数的数据,并计算变量或参数的信息值(iv值,informationvalue)进行筛选操作,然后根据计算得到的iv值选出一定数量的变量或参数。例如,逻辑回归模型选择8-14个iv值符合要求的变量或参数的数据,提升树模型选择20-30个变量或参数的数据。

对于每个变量的iv值,随机从变量的数据中选取i个组别的数据输入到逻辑回归模型中进行评估,因为一个变量所对应的数据对象可以为多个(一般为多个),所以根据每个变量所选取到的数据对象是不相同的。其中,对每一个数据对象都设有用户标签,比如潜在客户、铁杆客户或者无意客户等等。具体地,iv值是基于数据的证据权重(woe,weightofevidence)计算得到的。

步骤208,根据每个待分类对象的基础数据确定待分类对象在综合分类结果中的目标分类,并根据关联数据确定待分类对象相对于评估分值的目标分值,将目标分值进行加权处理,得到待分类对象属于目标分类的评估概率。

对于任意一个数据对象,即待分类对象,都需要将该待分类对象的标准数据放入待处理数据与综合分类结果中进行比对,确定该待分类对象所属在综合分类结果中的类别,再根据该待处理数据的关联数据和上述评估分值确定该待分类对象的目标分值;然后再对目标分值进行加权处理,得到一个评估概率,该评估概率可以用于作为展示待分类对象数据目标分类中的概率。

步骤210,若评估概率大于预设阈值,则将待分类对象归类到目标分类中,作为目标对象。

当评估概率大于预设阈值时,则可以进一步确认该待分类对象是属于该目标分类的,换而言之,也就是得到了该待分类对象的目标分类,然后对于我一个待分类对象都做如是处理,由此,可得到综合分类结果中的每个类别中所对应的数据对象,实现对待分类对象的筛选与分类。需要说明的是,综合分类结果中可以包含多个类别,在最终的分类结果中,不一定每个类别中均存在符合要求的数据对象,具体以数据处理后的结果为准。

上述数据对象分类方法中,通过对获取到的数据对象的基础数据进行分类后分别输入到预设的分类器中进行处理得到分类结果、评估结果,然后汇总得到的分类结果,确定带筛选数据对象的目标分类。使得最终确定目标分类中包含的待筛选数据对象更具有针对性,更符合筛选需求,提高了数据对象分类的精准度,解决了现有技术中对数据对象分类不准确的技术问题。

在一个实施例中,如图3所示,在步骤202,包括:

步骤302,根据对象属性对待处理数据进行分类,得到对象属性数据。

对象属性是待分类对象的各种属性,比如服务器上保存的有用户的位置数据、某话题下问题的参与数、购买某类物品次数、搜索某处地名的频次等等。那么用户常去的位置便是待处理数据的其中一个对象属性。

步骤304,通过斯皮尔曼等级相关系数方式计算所述对象属性数据与预设筛选需求数据之间的相关系数,作为数据相关等级。

斯皮尔曼等级相关系数用于评估了使用单调函数描述两个变量之间关系的程度的算法。预设筛选需求是可以根据应用场景进行设定的,例如:给用户推送参加某科技研讨会,需要获取目标人群。具体地,通过斯皮尔曼等级相关系数计算某人购买某类物品的次数与某人参加某科技研讨会之间的关联性、某人在某话题下问题的参与数与某人参加某科技研讨会的概率。比如,该对象属性数据为“用户参与电气工程类话题下的问题次数”与“某人参加某科技公司发起的知识产权与企业研发大会”之间的相关性,或者“某人去某地的次数”与“某人参加某科技公司发起的知识产权与企业研发大会”之间的相关性。

针对每一个对象属性的对象属性数据都通过斯皮尔曼等级相关系数计算它们与预设筛选需求数据之间的相关性,作为数据相关等级。其中,得出的结果可以是单调相关,也可以是无任何相关,这些可以通过得出的数据图表中直观得出。

步骤306,若数据相关等级符合预设相关等级,则将对象属性数据作为标准数据。

预设相关等级可以是对象属性数据与预设筛选需求数据是正相关。若数据相关等级也为对象属性数据与预设筛选需求数据是正相关,则将对象属性数据作为标准数据。

步骤308,若数据相关等级不符合预设相关等级,则将对象属性数据作为关联数据。

将不符合预设相关等级的对象属性数据作为关联数据,其中,预设相关等级数据不仅仅只是对象属性数据与预设筛选需求数据是正相关,也可以是对象属性数据与预设筛选需求数据是负相关,这个需要根据需要而定,此处不做限定。

本实施例通过计算对象属性数据与预设筛选需求数据之间的相关程度将待处理数据进行分类后处理,将与预设筛选需求数据具有强相关性的数据集合进行处理,得到处理结果,提高了待分类对象分类的准确度。

在一个实施例中,如图4所示,步骤204,包括:

步骤402,提取标准数据中的连续变量数据,按照预设拟分裂点对连续变量数据进行拟分裂,得到拟分裂前和拟分裂后连续变量数据的信息增益。

拟分裂点可以是按照等差比标记在连续变量数据上的若干点,这些点将连续变量数据分割成若干份的子数据,然后计算每一份子数据的熵,得到一个拟分裂熵,再与连续变量数据的熵进行对比,得到拟分裂后各个子数据的熵与拟分裂前连续变量数据的熵的差值,作为增益变量。

步骤404,若信息增益大于预设增益差值,则将拟分裂点作为分裂点对连续变量数据进行分裂,得到分裂后的离散化数据,并将分裂点作为下一次拟分裂的预设拟分裂点进行分裂。

将信息增益大于预设增益差值的拟分裂点作为分裂点对连续变量数据进行分裂,得到离散化数据,并获取本次分裂的分裂点作为下一次拟分裂的预设拟分裂点,再进行下一次的分裂。其中,预设的增益差值可以根据业务需要进行调整。

步骤406,若分裂的次数达到预设分裂次数,则停止分裂,并将最后一次分裂后得到的离散化数据作为离散变量。

若分裂的次数达到预设分裂次数,则表示最后一次分裂后得到的离散化数据已经可以满足需要了,则停止分裂,并将最后一次分裂得到的离散化数据作为离散变量。

进一步地,在达到预设分裂次数之前得到的离散化数据并不是真正离散的数据,如:12/3/5/13/34,而是每次获取的都是信息增量符合预设增益差值的分裂点的两侧的数据,该数据可以是某一段时间内的数据。

步骤408,通过数据分箱对离散变量进行降低维度处理,并根据连续变量数据的特征值对降低维度处理后得到的离散数据进行排序,得到标准名义变量。

使用数据分箱的方式对离散变量进行降低维度,数据分箱的方式包括但不限于:等频分箱和等宽分箱,将分箱后的每一箱离散变量作为一个名义变量,并根据名义变量的特征值由小到大对名义变量进行排序。其中,标准名义变量属于分类变量,其变量值是定性的,即在现有的前提或条件下确定的数值,表现为互不相容的类别或属性。

本实施例中将连续变量数据进行离散化处理,可以提高数据处理的速度,方便存储和运用。

在一个实施例中,如图5所示,步骤402,还包括:

步骤502,根据预设拟分裂点从对连续变量数据进行特征数据切割,并计算切割后得到特征数据的拟分裂数据熵。

根据预设拟分裂点对连续变量数据进行特征数据切割,在一个具体实施例中,某监控端对一台服务器进行温度监控,在上午8:00-9:00这一个小时内每一分钟对该服务器进行一次温度测量,得到60个测量值分别记为:t_1,t_2,t_3,...,t_59,t_60,容易理解地,该测量值为连续变量,如果要获取该小时内的温度变化大致情况,则需要获取上述测量值,并在每两个测量值之间设置拟分裂点,分别记为:n_1,n_2,n_3,...,n_58,n_59,其中,n_1为t_1和t_2之间的拟分裂点,n_2为t_2和t_3之间的拟分裂点。然后计算每两个拟分裂点之间的数据熵作为拟分裂数据熵。

步骤504,获取连续变量数据的连续数据熵,并计算连续数据熵与拟分裂数据熵的差值,作为信息增益。

计算连续变量数据的熵作为连续数据熵,并计算每一个拟分裂数据熵与该连续数据熵之间的差值,将计算得到的差值作为信息增量。其中,信息增量不只是一个,每一个拟分裂熵都对应一个信息增量。直到拟分裂的次数达到预设分裂次数,则停止分裂,最终得到5个收敛区间,分别为:[t_1,t_11]、[t_12,t_23]、[t_24,t_26]、[t_27,t_45]和[t_46,t_60],这5个收敛区间对应的收敛值分别为13℃、16℃、14℃、17℃和18℃,将这5个收敛值作为该小时内温度变化的参考值,即离散变量,由这5个离散变量可以明显看出这一个小时内温度的变化情况,而无需去查看具体每分钟的温度的测量值。

本实施例中,通过对连续变量数据进行离散化处理,提取连续变化数据中具备代表性的数值,简化分析,提高数据处理的速度,也方便存储和运用。

在一个实施例中,如图6所示,步骤204,包括:

步骤602,将标准名义变量输入到至少2个预设机器学习模型中进行特征分类,得到每个预设机器学习模型对应的特征分类结果。

预设机器学习模型包括但不限于:梯度提升树(gradientboostingdecisontree,gbdt)、提升树(boostingtree)、随机森林(randomforest)和id3算法模型等。其中,特征分类包括对标准名义变量进行特征提取,然后根据提取到的特征进行分类处理,得到特征分类结果。

步骤604,采用k折交叉验证方式对特征分类结果进行融合处理,得到综合分类结果。

k折交叉验证(k-foldcross-validation)首先将所有数据即通过每一个预设机器学习模型得到特征分类结果分割成k个子样本,不重复的选取其中一个子样本作为测试集,其他k-1个样本用来训练。共重复k次,平均k次的得到结果或者使用其它指标,最终得到一个单一估测。

通过本实施例,通过k折交叉验证保证每个子样本都参与训练,降低泛化误差。

在一个实施例中,如图7所示,步骤604,包括:

步骤702,将特征分类结果分割为特征分类训练集以及特征分类测试集。

特征分类训练集用于训练模型用,特征分类测试集用于测试通过特征分类训练集训练处的特征分类模型,本实施例中,特征分类训练集为10000,特征分类测试集为2500行。

步骤704,根据预设切割条件分割特征分类训练集,得到特征分类喂养集以及特征分类验证集,并根据特征分类验证集对通过特征分类喂养集训练得到特征分类模型进行验证,得到特征分类验证数据。

预设切割条件为:每次从特征分类训练集中取出一定数量的数据作为特征分类验证集用于模型验证,剩下的数据作为特征分类喂养集用于模型的训练,在获取特征分类验证集时需要保证每次从特征分类训练集中取出的数据都是未曾参与模型验证的,以保证特征分类验证集中的每一行数据都参与到模型的验证,以及每一次进行模型训练的特征分类喂养集中都有与上次一模型训练的数据相比的新的数据。通过该方式能够降低泛化误差。

具体地,每次从特征分类训练集中取出2000行数据作为特征分类验证集,剩余的8000行数据用于模型训练,相当于每次都使用了新的2000条数据验证新训练出的特征分类模型,使用模型对验证集进行验证得到2000条数据,每一次的验证得到2000条数据,10000行特征分类训练集的数据可以分5次验证,得到10000条验证数据,作为特征分类验证数据。

步骤706,将特征分类测试集输入到特征分类模型中测试,得到特征分类测试数据。

将2500行特征分类测试集输入到每一次训练出的特征分类模型中进行预测,每一次都可以得到2500条测试数据,则将该测试数据作为特征分类测试数据。

步骤708,根据预设切割条件重新分割特征分类训练集,得到特征分类喂养集以及特征分类验证集以进行下一次的训练和验证。

每一次分割完成后或者每一次模型训练结束后都可以根据预设切割条件对特征分类训练集重新分割,或者提前根据预设切割条件将特征分类训练集分割预设分割次数,然后每一次模型训练都使用新的特征分类喂养集进行训练等等。

步骤710,当重新分割的次数达到预设分割次数,停止分割,并根据预设融合条件对得到的所有特征分类验证数据以及得到的所有特征分类测试数据进行处理,得到特征分类预测数据,并将特征分类预测数据作为综合分类结果。其中,本实施例的预设分割次数可以是5次。

预设融合条件是对得到的所有的特征分类测试数据、特征分类验证数据进行处理的方式,本实施例是:对通过对每一个预设机器学习模型得到特征分类结果进行模型训练、验证以及测试得到的特征分类测试数据以及特征分类验证数据进行集成。具体地,本实施例可以是只采用3中预设机器学习模型,可以得到6个数据矩阵,即,对于每一个预设机器学习模型的特征分类结果进行模型训练、验证测试后得到的特征分类验证数据都作为一个数据矩阵,每一个特征分类测试数据都也作为一个数据矩阵。

将3个预设机器学习模型对应的特征分类验证数据分别标记为a1、a2、a3并列在一起成10000行3列的矩阵作为训练数据(trainingdata),得到的特征分类测试数据标记为b1、b2、b3合并在一起成2500行3列的矩阵作为测试数据(testingdata),让下层学习器基于这样的数据根据预设融合条件进行再训练。其中,预设融合条件是基于每个预设机器学习模型的特征分类验证数据以及特征分类测试数据作为三个特征,其中,将每一个预设机器学习模型对应的特征分类验证数据以及特征分类测试数据作为一个预测分类结果,下层学习器会学习训练在预设分类结果上赋予权重w,来使得最后的分类最为准确。其中,下层学习期可以是回归预测。

本实施例通过多种预设机器学习模型对特征分类结果进行特征分类,并通过k折交叉验证方式得到的所有特征数据作为预测分类结果,根据预设融合方法对预测分类结果进行赋予权重,得到综合分类结果,以保证得到综合分类结果中的分类准确。

在一个实施例中,如图8所示,步骤206,包括:

步骤802,计算关联名义变量的信息值,并根据信息值对关联名义变量进行筛选,得到预设数量的关联名义变量,作为数据评估变量。

本实施例计算每个变量的iv值的证据权重woe,可以通过依次输入到公式(1)(2)(3)中得到:

iv=∑ivi(3);

其中,比如对数据对象的用户标签有:好客户、坏客户,那么badi,goodi分别表示该变量中第i个组别中的坏客户个数和好客户个数;badtotal,goodtotal分别表示所有组别中坏客户总数和好客户总数。其中,bad、good是对训练数据分类设置的标签。注意当badi=0时,该组用户的iv值直接设为1。

然后得到的iv值对关联名义数据进行筛选,得到预设数量的关联名义变量,作为数据评估变量。

步骤804,将数据评估变量输入到预设逻辑回归模型中进行数据评估,得到关联名义变的评估分值。

将根据iv值筛选得到的数据评估变量输入到预设逻辑回归模型中,执行分类操作,本实施例通过预设逻辑回归模型计算关联名义变量的各个分项的分数,作为评估分值,通过基于机器学习模型的分类器计算某类能力数据的分数,作为某某能力数据的评估分值。其中,预设逻辑回归模型可以是基于逻辑回归模型的分类器。

具体地,在逻辑回归子模型中,将筛选的10-20个iv值较高的变量的关联名义变量输入模型进行训练,通过逻辑回归计算分类概率pl,基于分类概率pl计算出该用户对应的待分类对象属于某类别的概率,从而实现对待分类对象进行准确归类,实现精准的数据推送。

本实施例通过计算每个变量的iv值,并根据iv值对关联名义变量进行筛选,从中筛选出变量预测能力较强的数据,使得得到的评估分值更加精确。

应该理解的是,虽然图2-图8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-图8中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中,如图9所示,提供了一种数据对象分类装置,该数据对象分类装置与上述实施例中数据对象分类方法一一对应。该数据对象分类装置包括数据划分模块902、数数据分类模块904、数据评估模块906、对象筛选模块908以及对象分类模块910,其中:

数据划分模块902,用于获取每个待分类对象的基础数据,作为待处理数据,并根据预设筛选需求将待处理数据分为标准数据与关联数据。

数据分类模块904,用于根据标准数据得到标准名义变量,对标准名义变量进行特征分类,并对分类后的结果进行融合处理,得到综合分类结果。

数据评估模块906,用于根据关联数据得到关联名义变量,并对关联名义变量进行数据评估,得到关联名义变量的评估分值。

对象筛选模块908,用于根据每个待分类对象的基础数据确定待分类对象在综合分类结果中的目标分类,并根据关联数据确定待分类对象相对于评估分值的目标分值,将目标分值进行加权处理,得到待分类对象属于目标分类的评估概率。

对象分类模块910,用于若评估概率大于预设阈值,则将待分类对象归类到目标分类中,作为目标对象。

进一步地,数据划分模块902,包括:

数据分类子模块9022,用于根据对象属性对待处理数据进行分类,得到对象属性数据;

相关计算子模块9024,用于通过斯皮尔曼等级相关系数方式计算对象属性数据与预设筛选需求数据之间的相关系数,作为数据相关等级;

相关判定子模块9026,用于若数据相关等级符合预设相关等级,则将对象属性数据作为标准数据;还用于若数据相关等级不符合预设相关等级,则将对象属性数据作为关联数据。

进一步地,数据分类模块904,包括:

拟分裂子模块9042,用于提取标准数据中的连续变量数据,按照预设拟分裂点对连续变量数据进行拟分裂,得到拟分裂前和拟分裂后连续变量数据的信息增益;

分裂子模块9044,用于若信息增益大于预设增益差值,则将拟分裂点作为分裂点对连续变量数据进行分裂,得到分裂后的离散化数据,并将分裂点作为下一次拟分裂的预设拟分裂点进行分裂;

分裂预判子模块9046,用于若分裂的次数达到预设分裂次数,则停止分裂,并将最后一次分裂后得到的离散化数据作为离散变量;

降维处理子模块9048,用于通过数据分箱对离散变量进行降低维度处理,并根据连续变量数据的特征值对降低维度处理后得到的离散数据进行排序,得到标准名义变量。

进一步地,拟分裂子模块9042,包括:

熵计算单元9042a,用于根据预设拟分裂点从对连续变量数据进行特征数据切割,并计算切割后得到特征数据的拟分裂数据熵;

信息增益单元9042b,用于获取连续变量数据的连续数据熵,并计算连续数据熵与拟分裂数据熵的差值,作为信息增益。

进一步地,数据分类模块904,还包括:

特征分类子模块9050,用于将标准名义变量输入到至少2个预设机器学习模型中进行特征分类,得到每个预设机器学习模型对应的特征分类结果;

特征融合子模块9052,用于采用k折交叉验证方式对特征分类结果进行融合处理,得到综合分类结果。

进一步地,特征融合子模块9052,包括:

特征切割单元9052a,用于将特征分类结果分割为特征分类训练集以及特征分类测试集;

模型验证单元9052b,用于根据预设切割条件分割特征分类训练集,得到特征分类喂养集以及特征分类验证集,并根据特征分类验证集对通过特征分类喂养集训练得到特征分类模型进行验证,得到特征分类验证数据;

模型测试单元9052c,用于将特征分类测试集输入到特征分类模型中测试,得到特征分类测试数据;

重新切割单元9052d,用于根据预设切割条件重新分割特征分类训练集,得到特征分类喂养集以及特征分类验证集以进行下一次的训练和验证;

特征融合单元9052e,用于当重新分割的次数达到预设分割次数,停止分割,并根据预设融合条件对得到的所有特征分类验证数据以及得到的所有特征分类测试数据进行处理,得到特征分类预测数据,并将特征分类预测数据作为综合分类结果。

进一步地,数据评估模块906,包括:

变量筛选子模块9062,用于计算关联名义变量的信息值,并根据信息值对关联名义变量进行筛选,得到预设数量的关联名义变量,作为数据评估变量;

分值评估子模块9064,用于将数据评估变量输入到预设逻辑回归模型中进行数据评估,得到关联名义变量的评估分值。

上述数据对象分类装置,通过对获取到的数据对象的基础数据进行分类后分别输入到预设的分类器中进行处理得到分类结果、评估结果,然后汇总得到的分类结果,确定带筛选数据对象的目标分类。使得最终确定目标分类中包含的待筛选数据对象更具有针对性,更符合筛选需求,提高了数据对象分类的精准度,解决了现有技术中对数据对象分类不准确的技术问题。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储用户订单数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据对象分类方法。

其中,本技术领域技术人员可以理解,这里的计算机设备是一种能够按照事先设定或存储的指令,自动进行数值计算和/或信息处理的设备,其硬件包括但不限于微处理器、专用集成电路(applicationspecificintegratedcircuit,asic)、可编程门阵列(field-programmablegatearray,fpga)、数字处理器(digitalsignalprocessor,dsp)、嵌入式设备等。

在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图10所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种数据对象分类方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解,图10中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在一个实施例中,提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述实施例中数据对象分类方法的步骤,例如图2所示的步骤202至步骤210,或者,处理器执行计算机程序时实现上述实施例中数据对象分类装置的各模块/单元的功能,例如图9所示模块902至模块910的功能。为避免重复,此处不再赘述。

在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述实施例中数据对象分类方法的步骤,例如图2所示的步骤202至步骤208,或者,处理器执行计算机程序时实现上述实施例中数据对象分类装置的各模块/单元的功能,例如图9所示模块902至模块910的功能。为避免重复,此处不再赘述。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。

所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,仅以上述各功能单元、模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能单元、模块完成,即将所述装置的内部结构划分成不同的功能单元或模块,以完成以上描述的全部或者部分功能。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形、改进或者对部分技术特征进行等同替换,而这些修改或者替换,并不使相同技术方案的本质脱离本发明个实施例技术方案地精神和范畴,都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1