基于动态阈值的标签生成方法、系统及存储介质与流程

文档序号:29044041发布日期:2022-02-25 21:31阅读:99来源:国知局
基于动态阈值的标签生成方法、系统及存储介质与流程

1.本发明涉及客户标签的生成、确定技术,具体为基于动态阈值的标签生成方法、系统及存储介质。


背景技术:

2.目前企业级客户画像系统均构建了多维度、多层级的客户标签体系,实现精准营销、差异化服务,以提升客户满意度、提高企业运营效率。各行业客户所涉及的指标繁多、数据冗杂,将指标数据标签化,数据会变得更加稳定,之前取值范围不定的数据变成了取值固定的数据,包容异常值的能力增强,方便业务人员更直接地理解指标数据的优劣,而且在后续应用中,数据标签化具有增强模型的泛化能力、加快模型的训练速度、提升模型表达能力等优点,因此在客户画像系统建设中如何科学、高效地完成数据标签化至关重要。
3.现有技术在构建客户画像系统时,对数据进行标签化处理时,往往采用单一的分箱方法,且在数据分箱时对数据分组所采取的阈值也为固定值。也就是说,现有技术无法根据数据的自身特点,动态地选择最合适的分箱方法,也不能自适应地调整相关分箱方法的数据划分阈值,因而无法科学、高效、准确地为数据生成相应的标签。


技术实现要素:

4.为解决现有技术中存在的不足,本发明的目的在于提供一种基于动态阈值的标签生成方法、系统及存储介质,通过分析基础数据的数据量、数值属性、分布特征等指标,选择合适的分箱方法,包括正态分布法、等频分箱、等距分箱和卡方分箱法,并根据不同的分箱方法自适应动态阈值,达到自动生成标签的目的。
5.本发明方法采用如下的技术方案:基于动态阈值的标签生成方法,包括以下步骤:s1、对标签数据中取值为数值型的数据进行数据特征分析,根据数据特征分析结果选择合适的分箱方法;进行数据特征分析的维度包括数据量、数值属性、数据分布特征;s2、根据选定的分箱方法,计算相应的动态阈值,基于业务要求将单个指标划分为多个等级标签,最终实现标签的自动生成;步骤s1包括:s11、整理需要生成标签的数据,将所整理的数据中所有取值为数值型数据的指标设为待生成标签指标,然后将待生成标签指标下所有取值不为空的数据构建成原始向量,作为指标向量;s12、基于步骤s11所构建的各类指标向量,统计各类指标向量对应的数据量n,当数据量n小于设定值时计算指标向量的标准差和极差,并根据标准差和极差 之间的关系选定等频分箱规则或等距分箱规则;当数据量n大于等于设定值时,转入步骤s13;s13、计算指标向量的最大值、最小值、均值 和标准差,从服从均值为、标准差为的正态分布中随机抽取n个数据构成第一标准向量,从服从[
,] 的均匀分布中随机抽取n个数据构成第二标准向量;s14、对步骤s11获得的指标向量、步骤s13得到的第一标准向量和第二标准向量进行内部排序形成新指标向量、新第一标准向量和新第二标准向量;s15、使用标准化欧氏距离,计算新指标向量与新第一标准向量之间的相似度,以及新指标向量与新第二标准向量之间的相似度;根据所计算的两个相似度判断待生成标签指标近似于正态分布还是均匀分布,得到待生成标签指标的数据分布特征;s16、将步骤s15得到的两个相似度进行比较,根据两个相似度的比较结果以及两个相似度的误差范围,选定等距分箱规则、正态分布法分箱规则或卡方法分箱规则。
[0006]
在优选的实施例中,步骤s12极差时则指标适用等频分箱规则,极差 时则指标适用等距分箱规则。
[0007]
优选地,步骤s1选定等频分箱规则时,步骤s2的动态阈值计算如下:把单个指标的所有指标数据由小到大排列;计算所有指标数据的分位数的位置:其中n为目标指标的数据量大小;r为自然数,最小值为1,最大值为标签等级数量减1;计算所有指标数据的分位数的取值,作为动态阈值:其中c为分位数位置的整数部分,d为分位数位置的小数部分, 表示指标向量经过内部排序后排在第c位的数据。
[0008]
优选地,步骤s1选定等距分箱规则时,步骤s2的动态阈值计算如下:计算指标数据极差:计算指标数据各分段的区间距:计算每个分段的区间边界值,作为动态阈值:其中,r为自然数,最小值为1,最大值为标签等级数量减1。
[0009]
优选地,指标向量;步骤s1选定正态分布法分箱规则时,步骤s2的动态阈值计算如下:计算指标数据的平均值:
计算指标数据的标准差:根据正态分布法确定三个动态阈值:其中,r为自然数,最小值为1,最大值为标签等级数量减1。
[0010]
优选地,步骤s1选定正态分布法分箱规则时,步骤s2的动态阈值计算如下:将需要生成标签的指标数据进行排序,每个样本值属于一个区间;合并区间,计算每一对相邻组的卡方值 :其中, 为第区间第类的样本数量,为的期望频率,,n是总样本数,是第组的样本数,是第类样本在全体中的比例;根据计算的卡方值, 对其中最小的一对相邻组合并为一组,不断重复上述过程直到分组数达到要求的数量,各指标数据分配到的数据组即为单个标签的命中范围。
[0011]
本发明基于动态阈值的标签生成系统,包括以下模块:特征分析模块,用于对标签数据中取值为数值型的数据进行数据特征分析,根据数据特征分析结果选择合适的分箱方法;进行数据特征分析的维度包括数据量、数值属性、数据分布特征;动态阈值计算模块,用于根据选定的分箱方法,计算相应的动态阈值,基于业务要求将单个指标划分为多个等级标签,最终实现标签的自动生成;所述特征分析模块中,进行数据特征分析及分箱方法的选择过程包括:整理需要生成标签的数据,将所整理的数据中所有取值为数值型数据的指标设为待生成标签指标,然后将待生成标签指标下所有取值不为空的数据构建成原始向量,作为指标向量;基于所构建的各类指标向量,统计各类指标向量对应的数据量n,当数据量n小于设定值时计算指标向量的标准差和极差,并根据标准差和极差之间的关系选定等频分箱规则或等距分箱规则;当数据量n大于等于设定值时,计算指标向量的最大值、最小值、均值和标准差,从服从均值为、标准差为的正态分布中随机抽取n个数据构成第一标准向量,从服从[,]的均匀分布中随机抽取n个数据构成第二标准向
为第k个客户在该指标的有效取值,共n个客户有有效取值。
[0019]
步骤1.2,基于步骤1.1中获得的各类指标下所构建的原始向量,即各类指标向量,统计各类指标向量对应的数据量大小n,当数据量n小于设定值时,例如n<30时,计算指标向量的标准差和极差,根据下式选定适用的分箱规则:当数据量n大于等于设定值时,例如n≥30时,转入步骤1.3。
[0020]
步骤1.3,对步骤1.2筛选出n≥30的指标向量,计算指标向量的最大值、最小值、均值和标准差,然后从服从均值为 、标准差为 的正态分布中随机抽取n个数据构成第一标准向量,其中,从服从[,]的均匀分布中随机抽取n个数据构成第二标准向量,其中。
[0021]
步骤1.4,对步骤1.1获得的指标向量、步骤1.3得到的第一标准向量和第二标准向量进行内部排序形成新指标向量、新第一标准向量和新第二标准向量和新第二标准向量上式中,下角标带括号表示排序后的顺序数,例如表示为原始向量的数据经过排序后在新指标向量中位于第k位的数据,表示为第一标准向量的数据经过排序后在新第一标准向量中位于第k位的数据,表示为第二标准向量的数据经过排序后在新第二标准向量中位于第k位的数据。内部排序时依据数据大小来排序。
[0022]
步骤1.5,对步骤1.4得到的新指标向量、新第一标准向量和新第二标准向量使用标准化欧氏距离,计算新指标向量与新第一标准向量之间的相似度,以及新指标向量与新第二标准向量之间的相似度:
其中,为新指标向量第k个值与新第一标准向量第k个值的方差,为新指标向量新指标向量第k个值与新第二标准向量第 k个值的方差;然后根据所计算的两个相似度判断待生成标签指标近似于正态分布还是均匀分布,得到待生成标签指标的数据分布特征。
[0023]
步骤1.6,将步骤1.5得到指标向量与两个标准向量之间的两个相似度进行比较,根据两个相似度的比较结果以及两个相似度的误差范围,选定等距分箱规则、正态分布法分箱规则或卡方法分箱规则。本实施例中可具体根据下式选定所适用的分箱规则:其中为可以接受的误差范围。
[0024]
步骤2、根据步骤1中选定的分箱方法,计算相应的动态阈值,最终实现标签的自动生成。
[0025]
在本实施例中,步骤2具体包括:步骤2.1,基于客户画像的业务需求,将各指标划分为四个等级的标签,根据步骤1选定合适的分箱方法以四分段为目标;步骤2.2,选定等频分箱法的指标动态阈值生成如下:等频分箱实际上是把指标数据划分成等量的数据集,这种分箱方法可以减少极大值或极小值对数据分布的影响。基于业务要求将单个指标划分为4个等级标签的具体步骤如下:步骤2.2.1,把单个指标的所有指标数据由小到大排列;步骤2.2.2,计算所有指标数据的分位数的位置:其中n为目标指标的数据量大小;r为自然数,最小值为1,最大值为标签等级数量减1;步骤2.2.3,计算所有指标数据的分位数的取值,作为动态阈值:其中c为分位数位置的整数部分,d为分位数位置的小数部分,表示指
标向量经过内部排序后排在第c位的数据。获得的三个分位数取值作为单个指标划分为4个等级标签的三个动态阈值。
[0026]
根据三个动态阈值将单个指标的所有指标数据划分为4段,判断各指标数据落入的区间段后完成数据分箱,各指标数据分配到的区间段(即数据组)即为单个标签的命中范围。
[0027]
当然,本实施例对单个指标的标签等级划分,也可以根据实际业务需求,划分为3个、5个等其他等级,在计算分位数的位置及取值时,相应调整计算公式中分位数的数量即可。
[0028]
步骤2.3,选定等距分箱法的指标动态阈值生成如下:等距分箱是把指标数据在取值范围内等分为多个区间,根据数据落入的区间完成标签生成,这种方法在数据没有太多异常值的情况下,能避免强制性等频分箱造成的组内间距过大。基于业务要求将单个指标划分为4个等级标签的具体步骤如下:步骤2.3.1,计算指标数据极差:步骤2.3.2,计算指标数据各分段的区间距:步骤2.3.3,计算每个分段的区间边界值,作为动态阈值:r为自然数,最小值为1,最大值为标签等级数量减1。
[0029]
根据三个动态阈值将单个指标的所有指标数据划分为4段,判断各指标数据落入的区间段后完成数据分箱,各指标数据分配到的区间段(即数据组)即为单个标签的命中范围。
[0030]
步骤2.4,选定正态分布法分箱的指标动态阈值生成如下:正态分布法采用24.65%、49.65%和74.65%概率设置来选取分位点,分为4个区间,再根据各指标数据落入的区间完成标签生成,正态分布法使用了均值和标准差作为动态阈值参考,标签生成更科学,具体步骤如下:步骤2.4.1,计算指标数据的平均值:步骤2.4.2,计算指标数据的标准差:步骤2.4.3,根据正态分布法确定三个动态阈值:其中,r为自然数,最小值为1,最大值为标签等级数量减1。
[0031]
根据三个动态阈值将单个指标的所有指标数据划分为4段,判断各指标数据落入的区间段后完成数据分箱,各指标数据分配到的区间段(即数据组)即为单个标签的命中范围。
[0032]
步骤2.5,选定卡方分箱法的指标动态阈值生成如下:卡方分箱把具有最小卡方值的相邻区间合并在一起,直到满足确定的停止准则,这种方法可以让分布规律不清晰的数据根据内部相似性自动聚合,具体步骤如下:步骤2.5.1,初始化阶段:将需要生成标签的指标数据进行排序,每个样本值属于一个区间;步骤2.5.2,合并区间,计算每一对相邻组的卡方值:其中,为第区间第类的样本数量,为的期望频率,,n是总样本数,是第组的样本数,是第类样本在全体中的比例。
[0033]
根据计算的卡方值, 对其中最小的一对相邻组合并为一组,不断重复上述过程直到分组数达到要求的数量,各指标数据分配到的数据组即为单个标签的命中范围。
[0034]
实施例2与实施例1基于相同的发明构思,本实施例提出基于动态阈值的标签生成系统,包括以下模块:特征分析模块,用于实现实施例1的步骤1,对标签数据中取值为数值型的数据进行数据特征分析,根据数据特征分析结果选择合适的分箱方法;进行数据特征分析的维度包括数据量、数值属性、数据分布特征;动态阈值计算模块,用于实现实施例1的步骤2,根据选定的分箱方法,计算相应的动态阈值,基于业务要求将单个指标划分为多个等级标签,最终实现标签的自动生成;所述特征分析模块中,进行数据特征分析及分箱方法的选择过程包括:整理需要生成标签的数据,将所整理的数据中所有取值为数值型数据的指标设为待生成标签指标,然后将待生成标签指标下所有取值不为空的数据构建成原始向量,作为指标向量;基于所构建的各类指标向量,统计各类指标向量对应的数据量n,当数据量n小于设定值时计算指标向量的标准差和极差,并根据标准差和极差之间的关系选定等频分箱规则或等距分箱规则;当数据量n大于等于设定值时,计算指标向量的最大值、最小值、均值和标准差,从服从均值为、标准差为的正态分布中随机抽取n个数据构成第一标准向量,从服从[,]的均匀分布中随机抽取n个数据构成第二标准向量;
对指标向量、第一标准向量和第二标准向量进行内部排序形成新指标向量、新第一标准向量和新第二标准向量;使用标准化欧氏距离,计算新指标向量与新第一标准向量之间的相似度,以及新指标向量与新第二标准向量之间的相似度;根据所计算的两个相似度判断待生成标签指标近似于正态分布还是均匀分布,得到待生成标签指标的数据分布特征;将两个相似度进行比较,根据两个相似度的比较结果以及两个相似度的误差范围,选定等距分箱规则、正态分布法分箱规则或卡方法分箱规则。
[0035]
本实施例还提出存储介质,其上存储有计算机指令,当计算机指令被处理器执行时,实现实施例所述标签生成方法的各步骤。
[0036]
可见,区别于传统的单一分箱、固定阈值划分数据生成标签技术,本发明公开了基于动态阈值的标签生成方法、系统和存储介质,通过计算数值型数据的平均特征、离散特征等指标,自动识别数据的近似分布,并根据数据分布特点自适应动态阈值,达到自动生成标签的目的。本发明通过数据表现的差异生成动态阈值,自动生成标签,为客户画像标签体系的建设提供新思路,减少了人为设置阈值导致的主观性,标签生成更加科学、高效。
[0037]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1