本发明涉及通信领域,具体而言,涉及一种基于通话行为持续学习实现的行业分类与异常识别的方法、装置、电子设备及存储介质。
背景技术:
1、电信运营商在面向中小微企业、商户等提供外呼服务过程中,存在中小微企业外呼号码资源被转卖、盗用等,从事非法外呼用途,在运营商通信数据行为中会出现对外呼叫时从事不良骚扰、违法诈骗的呼叫。这类行为往往偏离其申请业务之初填报的所属行业通用常态化行为,或偏离其企业填报的服务属性应具备的常态化行为,或与其既往呼叫行为表现差异波动大。
2、针对当前运营商面向中小微企业提供外呼服务中可能存在的诈骗电话、骚扰电话问题,现有主流解决方案以诈骗电话/骚扰电话黑样本进行诈骗行为、骚扰行为分析建模的技术措施为主,此类方式以短期时间粒度(天级/小时级)进行通信数据记录提取,用于建模分析预测。其弊端在于短期分析模型必须通过严格的筛选条件精准识别,筛选条件宽松会导致误识别率高,筛选条件严格会导致覆盖率低,难以避免隐蔽性高、骚扰或诈骗行为特征表现不显著的号码呼叫漏网。
3、随着技术的发展,基于通话行为数据分析得到运用,例如,中国专利:cn109274834b,一种基于通话行为的快递号码识别方法;中国专利:cn112101046a,一种基于通话行为的会话分析方法、装置和系统。针对以上小微企业外呼号码资源,偏离其申请业务之初填报的所属行业通用常态化行为时,亟需研发一种基于通话行为持续学习实现行业分类与异常波动识别的方法,及时识别企业/号码对象出现的不同以往常态行为的异常波动,以预先发现被利用实施盗打、篡改等违规通信的企业对象、号码对象,提高预测风险的及时性与可行性。
技术实现思路
1、本发明要解决的技术问题是小微企业外呼号码资源偏离其申请业务之初填报的所属行业通用常态化行为,以致于出现对外呼叫时从事不良骚扰、违法诈骗的呼叫,对于外呼号码资源的异常波动行为如何及时识别、预先发现。
2、为解决上述技术问题,根据本发明的一个方面,提供一种行业分类与异常识别的方法,方法基于通话行为,通过持续学习实现行业分类与异常识别,行业分类与异常识别的方法包括如下步骤:s1、样本筛选,选择某一待识别是否存在异常的行业,在行业内选择多家企业,筛选多家企业的注册电话号码,其中,筛选出的企业与其对应的注册电话号码没有出现被举报记录,号码开通并且持续活跃时长n个月以上,收集号码归属企业填写行业信息和呼叫行为信息;s2、持续学习算法计算,针对指定行业和企业分别进行通信行为常态化学习,在典型行业中筛选行业/企业对象白样本;应用机器学习算法,提取样本对象最近1至n个月通信信息记录,持续跟踪训练行业/企业样本通信特征,包括日常呼叫活跃日期分布、活跃时段分布、外呼/入呼行为特征、静默时段分布等;结合行业业务方向人工专家经验归纳总结企业常态行为显著特征指标阈值范围,输出企业/行业/号码的常态行为习惯;s3、学习结果校正,以随机抽样方式选取待审核校正号码对象,采用多点校正,获取该号码对象所属行业信息、企业信息对其归属行业进行研判识别,结果综合校正当前号码所属行业及企业是否与持续学习结果一致,不一致情况基于研判结果修正;基于持续学习及校正结果,将确认可信号码、企业对象及其常态化行为特征信息入库;s4、异常波动检测,包括行业异常行为检测和企业异常行为检测,持续跟踪计算指定企业/企业号码通信特征,定时比对被监测对象与其所属企业或行业常态行为显著特征阈值偏离情况,针对异常偏离状态及时发现并检出,用于管理预警。
3、根据本发明的实施例,步骤s1中,呼叫行为信息可包括注册电话号码的1至n个月的提取通话记录、提取访问地区记录和提取短信收发记录。
4、根据本发明的实施例,步骤s2中,机器学习算法采用持续学习算法思路可为寻找一个超平面将样本中的正样本圈,用这个超平面做决策预测,在圈内的样本就是预测到的目标对象。
5、进一步地,持续学习算法思路为寻找一个超平面将样本中的正样本圈,通过设产生的超球体参数为中心o和对应的超球体半径r>0,超球体体积v(r)被最小化,中心o是支持向量的线性组合,和传统svm方法相似,可以要求所有训练数据点x到中心的距离严格小于r,其中,x=(x1,…,xn)=(通话行为特征因子集,行业/企业业务属性行为特征因子集),
6、但同时构造一个惩罚系数为c的松弛变量ξi,优化问题如下所示:
7、
8、||xi-o||2≤r+ξi,=1,2,3...m
9、ξi≥0,i=1,2,...m
10、在采用拉格朗日对偶求解之后,可以判断新的数据点y是否在类内,如果y到中心的距离小于等于半径r则是目标点,如果在超球体以外,则不是目标点。
11、根据本发明的实施例,步骤s3中,多点校正可包括如下步骤:s31、人工电话回访方式获取该号码对象所属行业信息、企业信息;s32、业务专家结合号码通话记录信息、业务属性信息对其归属行业进行研判识别;s33、企业业务主管自查复核方式确认当前号码行为与企业发展服务是否一致。
12、根据本发明的实施例,步骤s4可包括如下步骤:
13、s41、持续跟踪计算指定企业/企业号码包括号码最新通话记录、最新访问地区记录和最新短信收发记录的通信特征,进行最新行为计算;
14、s42、行为比对异常检测,比对被监测对象与其所属企业或行业常态行为显著特征阈值偏离情况;
15、s43、异常报送,针对异常偏离状态及时发现并检出,用于管理预警。
16、根据本发明的第二个方面,提供一种行业分类与异常识别的装置,包括:
17、样本筛选模块,用于选择某一待识别是否存在异常的行业,在行业内选择多家企业,筛选多家企业的注册电话号码,其中,筛选出的企业与其对应的注册电话号码没有出现被举报记录,号码开通并且持续活跃时长n个月以上,收集号码归属企业填写行业信息和呼叫行为信息;持续学习算法模块,用于针对指定行业和企业分别进行通信行为常态化学习,在典型行业中筛选行业/企业对象白样本;应用机器学习算法,提取样本对象最近1至n个月通信信息记录,持续跟踪训练行业/企业样本通信特征,包括日常呼叫活跃日期分布、活跃时段分布、外呼/入呼行为特征、静默时段分布等;结合行业业务方向人工专家经验归纳总结企业常态行为显著特征指标阈值范围,输出企业/行业/号码的常态行为习惯;学习结果校正模块,用于以随机抽样方式选取待审核校正号码对象,采用多点校正,获取该号码对象所属行业信息、企业信息对其归属行业进行研判识别,结果综合校正当前号码所属行业及企业是否与持续学习结果一致,不一致情况基于研判结果修正;基于持续学习及校正结果,将确认可信号码、企业对象及其常态化行为特征信息入库;异常波动检测模块,具有行业异常行为检测和企业异常行为检测的功能,用于持续跟踪计算指定企业/企业号码通信特征,定时比对被监测对象与其所属企业或行业常态行为显著特征阈值偏离情况,针对异常偏离状态及时发现并检出,用于管理预警。
18、根据本发明的实施例,持续学习算法模块的机器学习算法可采用持续学习算法思路为寻找一个超平面将样本中的正样本圈,用这个超平面做决策预测,在圈内的样本就是预测到的目标对象,通过设产生的超球体参数为中心o和对应的超球体半径r>0,超球体体积v(r)被最小化,中心o是支持向量的线性组合,和传统svm方法相似,可以要求所有训练数据点x到中心的距离严格小于r,其中,x=(x1,…,xn)=(通话行为特征因子集,行业/企业业务属性行为特征因子集),
19、但同时构造一个惩罚系数为c的松弛变量ξi,优化问题如下所示:
20、
21、||xi-o||2≤r+ξi,i=1,2、3...m
22、ξi≥0,i=1,2,...m
23、在采用拉格朗日对偶求解之后,可以判断新的数据点y是否在类内,如果y到中心的距离小于等于半径r则是目标点,如果在超球体以外,则不是目标点。
24、根据本发明的第三个方面,提供一种电子设备,包括:存储器、处理器及存储在存储器上并可在处理器上运行的行业分类与异常识别程序,行业分类与异常识别程序被处理器执行时实现上述的行业分类与异常识别方法的步骤。
25、根据本发明的第四个方面,提供一种计算机存储介质,其中,计算机存储介质上存储有行业分类与异常识别程序,行业分类与异常识别程序被处理器执行时实现上述的行业分类与异常识别方法的步骤。
26、与现有技术相比,本发明的实施例所提供的技术方案至少可实现如下有益效果:
27、本发明通过应用深度学习算法技术,主动持续学习中运营商外呼服务业务中中小微企业对象、号码对象及其归属行业的常态化呼叫行为习惯,转换为各企业及其号码的个性化习惯行为知识,并持续跟踪监测比对最新通信动作,及时识别企业/号码对象出现的不同以往常态行为的异常波动,以预先发现被利用实施盗打、篡改等违规通信的企业对象、号码对象。
28、本发明技术从两个方面打破惯用方法,首先将短期分析改变为长期信息数据的计算与分析;其次将黑号码作为样本分析训练的思路改变为通过行业、企业正常的常态化学习、持续学习思路,最终形成持续积累的行业对象、企业对象、号码对象及其可信的常态行为知识,用于及时监测不同与常态行为的异常波动,及时锁定问题对象,提高预测风险的及时性与可行性。