一种基于数据挖掘的携号转网用户识别方法与流程

文档序号:32515589发布日期:2022-12-10 09:20阅读:134来源:国知局
一种基于数据挖掘的携号转网用户识别方法与流程

1.本发明涉及短信服务技术领域,更具体地说,它涉及一种基于数据挖掘的携号转网用户识别方法。


背景技术:

2.移动通信用户在运营商进行携号转网业务办理后虽然更换了运营商,但是其号码并没有改变,短信平台在向这样的移动通信用户发送短信时会由于短信渠道不符的问题导致发送失败,而且无法返回可识别原因的回执代码。


技术实现要素:

3.本发明提供一种基于数据挖掘的携号转网用户识别方法,解决相关技术中短信平台无法识别携号转网用户的技术问题。
4.根据本发明的一个方面,提供了一种基于数据挖掘的携号转网用户识别方法,包括以下步骤:步骤s101,提取发送失败的短信数据;步骤s102,对于失败短信数据进行预处理,从失败短信数据中提取第一属性、第二属性、第三属性和第四属性;其中第一属性的值是失败短信的发送对象的号码使用时间;如果失败短信的内容为验证内容,则第二属性的值为1,否则第二属性的值为0;第三属性的值是失败短信的文字内容的字符长度;第四属性的值是短信接口返回发送失败的回执代码的时间;步骤s103,基于对象短信之外的失败短信的预处理之后的数据生成参考数据集;基于参考数据集的失败短信的失败原因类型计算失败短信的分类值,通过以下表达式确定:步骤s104,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信第一属性的值为x1的条件概率,x1等于对象短信的第一属性的值;步骤s105,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信的第二属性的值为x2的条件概率,x2等于对象短信的第二属性的值;步骤s106,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信的第三属性的值为x3的条件概率,x3等于对象短信的第三属性的值;步骤s107,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信的第四属性的值为x4的条件概率,x4等于对象短信的第四属性的值;步骤s108,分别计算对象短信的分类值为1和0的概率因素值,计算公式如下:p1表示对象短信的分类值为1时的概率因素值,p(y=1)表示分类值为1的参考数据
集的失败短信的比例,表示参考数据集的失败短信的分类值为1时参考数据集的失败短信的第i个属性的值为xi的条件概率,xi等于对象短信的第i个属性的值;p2表示对象短信的分类值为0时的概率因素值,p(y=0)表示分类值为0的参考数据集的失败短信的比例,表示参考数据集的失败短信的分类值为0时参考数据集的失败短信的第i个属性的值为xi的条件概率,xi等于对象短信的第i个属性的值;步骤s109,判断对象短信的发送失败的原因,判断条件如下:如果对象短信的分类值为1的概率因素值大于对象短信的分类值为0的概率因素值,则判断对象短信的发送失败的原因是发送对象为携号转网用户;如果对象短信的分类值为1的概率因素值小于或等于对象短信的分类值为0的概率因素值,则判断对象短信的发送失败的原因是发送对象不是携号转网用户。
5.进一步地,提取失败短信数据时保证20%以上的失败短信的发送失败的原因类型为发送对象是携号转网用户。
6.进一步地,步骤s104中计算参考数据集的失败短信的分类值为1时参考数据集的失败短信第一属性的值为x1的条件概率的公式如下:其中,x1=x1表示参考数据集的失败短信的第一属性的值为x1,x1等于对象短信的第一属性的值,y=1表示参考数据集的失败短信的分类值为1,是参考数据集中分类值为1的失败短信的第一属性的值的标准差,是参考数据集中分类值为1的失败短信的第一属性的值的均值;步骤s104中计算参考数据集的失败短信的分类值为0时参考数据集的失败短信第一属性的值为x1的条件概率的公式如下:其中,x1=x1表示参考数据集的失败短信的第一属性的值为x1,y=0表示的条件为参考数据集的失败短信的分类值为0,是参考数据集中分类值为0的失败短信的第一属性的值的标准差,是参考数据集中分类值为0的失败短信的第一属性的值的均值。
7.进一步地,步骤s105中计算参考数据集的失败短信的分类值为1时参考数据集的失败短信的第二属性的值为x2的条件概率的计算公式如下:其中,x2=x2表示参考数据集的失败短信的第二属性的值为x2,x2等于对象短信的
第二属性的值,y=1表示参考数据集的失败短信的分类值为1,s
21
表示参考数据集中分类值为1且第二属性的值为x2的失败短信的数量,s是参考数据集中的失败短信的总数量;步骤s105中计算参考数据集的失败短信的分类值为0时参考数据集的失败短信的第二属性的值为x2的条件概率的计算公式如下:其中,x2=x2表示参考数据集的失败短信的第二属性的值为x2,x2等于对象短信的第二属性的值,y=0表示参考数据集的失败短信的分类值为0,s
20
表示参考数据集中分类值为0且第二属性的值为x2的失败短信的数量,s是参考数据集中的失败短信的总数量。
8.进一步地,步骤s106中计算参考数据集的失败短信的分类值为1时参考数据集的失败短信的第三属性的值为x3的条件概率的计算公式如下:其中,x3=x3表示参考数据集的失败短信的第三属性的值为x3,x3等于对象短信的第三属性的值,y=1表示参考数据集的失败短信的分类值为1,是参考数据集中分类值为1的失败短信的第三属性的值的标准差,是参考数据集中分类值为1的失败短信的第三属性的值的均值;步骤s106中计算参考数据集的失败短信的分类值为0时参考数据集的失败短信的第三属性的值为x3的条件概率的计算公式如下:其中,x3=x3表示参考数据集的失败短信的第三属性的值为x3,y=0表示的条件为参考数据集的失败短信的分类值为0,是参考数据集中分类值为0的失败短信的第三属性的值的标准差,是参考数据集中分类值为0的失败短信的第三属性的值的均值。
9.进一步地,步骤s107中计算参考数据集的失败短信的分类值为1时参考数据集的失败短信的第四属性的值为x4的条件概率的公式如下:其中,x4=x4表示参考数据集的失败短信的第四属性的值为x4,x4等于对象短信的第四属性的值,y=1表示参考数据集的失败短信的分类值为1,是参考数据集中分类值为1的失败短信的第四属性的值的标准差,是参考数据集中分类值为1的失败短信的第四属性的值的均值;步骤s107中计算参考数据集的失败短信的分类值为0时参考数据集的失败短信的
第四属性的值为x4的条件概率的公式如下:其中,x4=x4表示参考数据集的失败短信的第四属性的值为x4,y=0表示的条件为参考数据集的失败短信的分类值为0,是参考数据集中分类值为0的失败短信的第四属性的值的标准差,是参考数据集中分类值为0的失败短信的第四属性的值的均值。
10.进一步地,如果失败短信的内容符合以下任意一个判断条件,则判断失败短信的内容为验证内容,否则判断失败短信的内容不是验证内容;判断条件包括:一、失败短信的内容包含四位或六位连续数字字符;二、失败短信的内容包括关键词“验证码”。
11.进一步地,短信接口返回发送失败的回执代码的时间是指从短信平台向短信接口发送短信请求到短信接口返回发送失败的回执代码所需要的时间。
12.进一步地,步骤s109之后将发送失败的原因是发送对象为携号转网用户的对象短信的发送对象标记为携号转网用户,将判断为携号转网用户的发送对象的id或号码发送到失败短信的发送方。
13.进一步地,被标记为携号转网用户的发送对象将不再尝试向其发送短信,基于失败短信的发送方的请求可以取消发送对象的标记,更正被误分类的发送对象。
14.本发明的有益效果在于:本发明基于历史数据挖掘来对发送对象是否属于携号转网用户进行判断,能够避免短信平台对因携号转网导致的发送失败的短信丧失处理策略,准确率高。
附图说明
15.图1是本发明的一种基于数据挖掘的携号转网用户识别方法的流程图一;图2是本发明的一种基于数据挖掘的携号转网用户识别方法的流程图二。
具体实施方式
16.现在将参考示例实施方式讨论本文描述的主题。应该理解,讨论这些实施方式只是为了使得本领域技术人员能够更好地理解从而实现本文描述的主题,可以在不脱离本说明书内容的保护范围的情况下,对所讨论的元素的功能和排列进行改变。各个示例可以根据需要,省略、替代或者添加各种过程或组件。另外,相对一些示例所描述的特征在其他例子中也可以进行组合。
17.实施例一如图1和图2所示,一种基于数据挖掘的携号转网用户识别方法,包括以下步骤:步骤s101,提取发送失败的短信数据;短信发送失败的原因一般可以通过短信接口返回的回执代码来判断发送失败的原因,但是对于携号转网用户无法返回可识别原因的回执代码,尤其是在携号转网办理之后的一段时间;
失败短信是指由通过短信接口返回的回执代码无法判断发送失败的原因的短信;失败短信包含对象短信,因此失败短信数据中包含对象短信的数据;对象短信之外的其他失败短信的失败原因类型是确定的,虽然无法通过短信接口返回的回执代码判断发送失败的原因,但是可以通过人工排查的方式确定发送失败的原因,因此对象短信之外的其他失败短信是历史的作为参考的短信;需要说明的是,提取失败短信数据时需要保证20%以上的失败短信的发送失败的原因类型为发送对象是携号转网用户;上述的短信接口一般为移动运营商提供;步骤s102,对于失败短信数据进行预处理;对失败短信数据的预处理包括:从失败短信数据中提取属性信息,提取的属性信息包括第一属性、第二属性、第三属性和第四属性;其中第一属性的值是失败短信的发送对象的号码使用时间;例如一个失败短信的发送对象的号码使用时间为13个月,则该失败短信的第一属性的值为13;第二属性表征失败短信的内容,如果失败短信的内容为验证内容,则第二属性的值为1,否则第二属性的值为0,第二属性的值通过以下表达式确定:如果失败短信的内容符合以下任意一个判断条件,则判断失败短信的内容为验证内容,否则判断失败短信的内容不是验证内容;判断条件包括:一、失败短信的内容包含四位或六位连续数字字符;二、失败短信的内容包括关键词“验证码”;第三属性的值是失败短信的文字内容的字符长度;在本发明的一个实施例中,失败短信的文字内容的字符长度是指文字内容中包含的文字字符的数量,文字字符包括标点符号、数字、中文字符和非中文字符;在本发明的一个实施例中,失败短信的文字内容的字符长度是指文字内容转换为十进制之后的字符的数量;具体的可以通过ascii码等编码表进行转换;这种方式对于计算机程序计算来说更为简单,不直接采用文字内容转换为十进制之后直接作为第三属性的值是为了避免第三属性的值过大,导致后续计算的数据开销过大。
18.第四属性的值是短信接口返回发送失败的回执代码的时间;短信接口返回发送失败的回执代码的时间是指从短信平台向短信接口发送短信请求到短信接口返回发送失败的回执代码所需要的时间;例如一个失败短信的短信接口返回发送失败的回执代码的时间为5s,则该失败短信的第四属性的值为5;步骤s103,基于对象短信之外的失败短信的预处理之后的数据生成参考数据集;基于参考数据集的失败短信的失败原因类型计算失败短信的分类值,通过以下表达式确定:
步骤s104,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信第一属性的值为x1的条件概率,x1等于对象短信的第一属性的值;其中,x1=x1表示参考数据集的失败短信的第一属性的值为x1,x1等于对象短信的第一属性的值,y=1表示参考数据集的失败短信的分类值为1,是参考数据集中分类值为1的失败短信的第一属性的值的标准差,是参考数据集中分类值为1的失败短信的第一属性的值的均值;其中,x1=x1表示参考数据集的失败短信的第一属性的值为x1,y=0表示的条件为参考数据集的失败短信的分类值为0,是参考数据集中分类值为0的失败短信的第一属性的值的标准差,是参考数据集中分类值为0的失败短信的第一属性的值的均值;步骤s105,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信的第二属性的值为x2的条件概率,x2等于对象短信的第二属性的值;计算公式如下:其中,x2=x2表示参考数据集的失败短信的第二属性的值为x2,x2等于对象短信的第二属性的值,y=1表示参考数据集的失败短信的分类值为1,s
21
表示参考数据集中分类值为1且第二属性的值为x2的失败短信的数量,s是参考数据集中的失败短信的总数量;其中,x2=x2表示参考数据集的失败短信的第二属性的值为x2,x2等于对象短信的第二属性的值,y=0表示参考数据集的失败短信的分类值为0,s
20
表示参考数据集中分类值为0且第二属性的值为x2的失败短信的数量,s是参考数据集中的失败短信的总数量;步骤s106,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信的第三属性的值为x3的条件概率,x3等于对象短信的第三属性的值;
其中,x3=x3表示参考数据集的失败短信的第三属性的值为x3,x3等于对象短信的第三属性的值,y=1表示参考数据集的失败短信的分类值为1,是参考数据集中分类值为1的失败短信的第三属性的值的标准差,是参考数据集中分类值为1的失败短信的第三属性的值的均值;其中,x3=x3表示参考数据集的失败短信的第三属性的值为x3,y=0表示的条件为参考数据集的失败短信的分类值为0,是参考数据集中分类值为0的失败短信的第三属性的值的标准差,是参考数据集中分类值为0的失败短信的第三属性的值的均值;步骤s107,分别计算参考数据集的失败短信的分类值为1和0时参考数据集的失败短信的第四属性的值为x4的条件概率,x4等于对象短信的第四属性的值;其中,x4=x4表示参考数据集的失败短信的第四属性的值为x4,x4等于对象短信的第四属性的值,y=1表示参考数据集的失败短信的分类值为1,是参考数据集中分类值为1的失败短信的第四属性的值的标准差,是参考数据集中分类值为1的失败短信的第四属性的值的均值;其中,x4=x4表示参考数据集的失败短信的第四属性的值为x4,y=0表示的条件为参考数据集的失败短信的分类值为0,是参考数据集中分类值为0的失败短信的第四属性的值的标准差,是参考数据集中分类值为0的失败短信的第四属性的值的均值;步骤s108,分别计算对象短信的分类值为1和0的概率因素值,计算公式如下:p1表示对象短信的分类值为1时的概率因素值,p(y=1)表示分类值为1的参考数据集的失败短信的比例,表示参考数据集的失败短信的分类值为1时参考数据集的失败短信的第i个属性的值为xi的条件概率,xi等于对象短信的第i个属性的值;p2表示对象短信的分类值为0时的概率因素值,p(y=0)表示分类值为0的参考数据集的失败短信的比例,表示参考数据集的失败短信的分类值为0时参考数
据集的失败短信的第i个属性的值为xi的条件概率,xi等于对象短信的第i个属性的值;步骤s109,判断对象短信的发送失败的原因,并将发送失败的原因是发送对象为携号转网用户的对象短信的发送对象标记为携号转网用户,判断条件如下:如果对象短信的分类值为1的概率因素值大于对象短信的分类值为0的概率因素值,则判断对象短信的发送失败的原因是发送对象为携号转网用户;如果对象短信的分类值为1的概率因素值小于或等于对象短信的分类值为0的概率因素值,则判断对象短信的发送失败的原因是发送对象不是携号转网用户;在步骤s109之后需要将判断为携号转网用户的发送对象的id或号码发送到失败短信的发送方;被标记为携号转网用户的发送对象将不再尝试向其发送短信,基于失败短信的发送方的请求可以取消发送对象的标记,更正被误分类的发送对象。
19.上面对本实施例的实施例进行了描述,但是本实施例并不局限于上述的具体实施方式,上述的具体实施方式仅仅是示意性的,而不是限制性的,本领域的普通技术人员在本实施例的启示下,还可做出很多形式,均属于本实施例的保护之内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1