本发明涉及图建模和电信异常检测技术领域,尤其涉及一种基于图的骚扰电话识别模型构建方法。
背景技术:
骚扰电话是指假冒警方、银行等工作人员进行电话诈骗、电话推销产品以及恶意呼叫等骚扰行为。电信异常检测的目标就是识别骚扰电话。由于骚扰电话本身具有成本低、收益大和流动性高等特点,骚扰电话普遍存在且快速增加。现在的电话推销、电话诈骗等骚扰行为日趋专业化、自动化、平台化,尤其是电话诈骗方式越发多样和隐蔽,这些使得预防和打击骚扰电话的难度变得非常大。
目前,防范骚扰电话的技术手段包括:构建防骚扰的规则库的方法、互联网某些安全厂商会采用“众标众享”的方式和基于模型的预测方法(可参见图1)。其中,构建防骚扰的规则库的方法,其特征是建立客户档案,分析用户的行为模式,从而建立一套防骚扰电话的规则库,当用户行为与规则匹配或者达到预先设定的相似度阈值条件,系统会自动触发告警;互联网某些安全厂商会采用“众标众享”的方式,当手机用户遇到骚扰电话后,在软件中对相关电话进行标记,标记结果会上传到云端并会通过软件共享给其他用户,从而构成了骚扰电话号码库;基于模型的预测方法,其特征是构建数据模型和构建学习模型两个阶段,可以参考图1,基于模型的预测方法包括:步骤1)构建数据模型。根据通话数据及其它数据,构建电话骚扰行为的特征样本。定义特征主要使用通话数据,骚扰电话的行为主要表现在通话数量、通话频次、通话时长、通话时间分布、通话地域分布、长途或国际漫游、通话活跃周期等。采用规则、统计或者聚类等技术对通话数据进行处理和信息提取,从而得到上述的通话行为特征。定义特征也可以加入其它数据,包括用户信息(入网信息、用户标签等)、业务信息(用户办理了哪些业务)、以及外部数据(高危地区漫游、公安部黑号名单等)。这是个监督学习问题,需要对特征样本进行是否是骚扰电话的标注。最终得到数据集用于构建学习模型。步骤2)构建学习模型。这里的学习模型通过学习算法训练得到,其中学习算法主要包括机器学习、深度学习以及统计学方法,算法没有范围限制。同时,模型可以是组合模型,对算法数量没有限制。具体包括以下三个子步骤:步骤2-1)数据前处理。根据数据实际情况和算法实际需求,选择合适的技术组合对数据进行处理,用于模型进行训练。一般的数据预处理主要包括数据集成、数据清理、数据变换和数据归约。由于已标注的骚扰电话相对于海量的电信用户通常极少,从而构成了不平衡类别数据集。这里根据实际情况可能会使用采样技术。一方面是为平衡不同类别的样本数据量,另一方面是为减少样本量。此外,如果需要增加特征,可能会使用特征组合技术。步骤2-2)参数寻优。这里的参数主要指算法的超参数,其它包括特征权重、模型组合权重等。其一般过程是:将数据集划分为训练集和测试集;根据实际设定一个模型性能评价指标;根据数据和算法选择一个参数优化方法;使用参数优化方法对学习算法在训练集进行参数寻优,这里使用交叉验证,最终输出参数组合使得性能评价指标最优。步骤2-3)生成学习模型。使用最优参数组合在训练集上训练得到模型,可以在测试集上做泛化性能验证。最终在完整的数据集上训练学习模型输出。
但是,构建防骚扰的规则库的方法的主要缺陷在于:规则的建立和维护。骚扰行为没有固定模式,电话欺诈套呈现多样化和隐蔽化,恶意呼叫系统同样在升级发展,产品推销的号码在数据下并不存在显著规律;这样便导致规则定义难,规则效果有限,并且更新和维护大量的规则困难;此外,管理规则需要专家支持,对领域经验依赖度大。
互联网某些安全厂商会采用“众标众享”的方式构成的第三方骚扰电话号码库有两个主要缺陷:首先,标注准确性有限。受用户主观影响大,导致误判或失误的可能性较高。其次,这是种事后方式。接到相同骚扰电话且在同一个应用上做出相同标注的比例不高,号码被标记骚扰电话可能已经产生大量的骚扰行为。因此,这种防骚扰方式的稳定性和时效性都不高。
基于模型的预测方法,其效果好坏主要取决于第一阶段的数据模型构建。目前特征样本设计主要是以单个用户为对象去描述其通话行为,对通话的网络特征或者交互行为并没有深入考量,基于模型的预测方法的性能有待进一步提升。
技术实现要素:
针对现有技术存在的问题,本发明实施例提供一种基于图的骚扰电话识别模型构建方法。
本发明实施例提供一种基于图的骚扰电话识别模型构建方法,包括:
构建样本数据集:构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集;
构建学习模型:根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型。
本发明实施例提供的基于图的骚扰电话识别模型构建方法,通过构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集,根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型,由此,能够实现骚扰电话识别模型的构建,该骚扰电话识别模型可以提高对骚扰电话的识别性能,且利用通话关系网络,能够增强骚扰电话行为分析的可解释性。
附图说明
为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为现有的基于模型的预测方法的流程图;
图2为本发明一实施例提供的一种基于图的骚扰电话识别模型构建方法的流程示意图;
图3为本发明实施例提供的一种基于图的骚扰电话识别模型构建方法的更具体的流程示意图;
图4为本发明实施例提供的正常电话在通话关系网络中的特性表现示意图;
图5为本发明实施例提供的骚扰电话在通话关系网络中的特性表现示意图。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
图2示出了本发明一实施例提供的一种基于图的骚扰电话识别模型构建方法的流程示意图,参见图2,本实施例的基于图的骚扰电话识别模型构建方法,包括以下步骤s1和s2:
s1、构建样本数据集:构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集。
具体地,所述步骤s1包括以下步骤s11-s13三个子步骤:
s11、图模型设计:设置通话关系网络的图模型,其中,通话数据构成人与人之间的通话关系网络,所述通话关系网络是以号码为节点、以号码之间的通信为关系边构成的,骚扰电话在所述通话关系网络中具有相似性和同质性的表现,如图5所示,骚扰电话在通话关系网络中的相似性和同质性的表现为在通话关系网络中没有稳定的社交圈,包括:没有经常通话的群组、没有经常相互通话的群组和通话的对象之间没有通话环路回到源电话等。
可以理解的是,通话数据中包括骚扰电话的数据和正常电话的数据,因此,正常电话和骚扰电话在通话关系网络中均具有特性表现,可参见图4和图5。
s12、图模型构建:根据历史通话数据,构建通话关系网络的图模型。
具体地,在所述步骤s12中,可以在图数据库中定义通话关系网络的图模型,其中,图数据库中定义的通话关系网络的图模型,以号码为节点,以号码之间的通信为关系边(号码与号码之间的通信构成一条有向边),节点属性包括:号码的通话统计(可以包括:长通话统计、短通话统计、通话对象统计、地域统计等)和号码的用户信息(可以包括:入网信息、业务信息、激活信息、标签信息、设备信息等),关系边属性包括:两个号码的通话统计(可以包括:频次统计、时长统计、拒接统计、时间分布、等待时间统计等);采用规则、统计或者聚类技术,对历史通话数据进行数据处理和信息提取,映射到图数据库中定义的通话关系网络的图模型对应的节点、节点属性、关系边、关系边属性上,生成通话关系网络的图模型。这里使用的历史通话数据同背景技术使用的数据,根据实际的数据现状和业务需求,填充节点属性和关系边属性。
s13、从图模型上提取特征:从所述图模型上提取每个号码的图特征,生成样本数据集。
具体地,所述带有标签的每个号码的图特征,可以包括:具有业务含义的特征、图的常规指标和图嵌入生成的特征;
相应地,所述从所述图模型上提取每个号码的图特征,可以包括如下一种或者多种特征提取方式:
1)基于规则的方法,从所述通话关系网络的图模型上提取每个号码的图特征,包括:基于骚扰电话在通话关系网络中没有稳定的社交圈的特征,包括:没有经常通话的群组、没有经常相互通话的群组和通话的对象之间没有通话环路回到源电话等,从对于骚扰电话的主要表现的各方面出发,结合所述通话关系网络的图模型的节点、节点属性、关系边以及关系边属性,利用相应的图查询或统计从通话关系网络上提取每个号码的图特征。此外,背景技术提及的特征(通话行为特征和其它数据构成的特征),如果相关数据可以从所述图模型上一并提取。
2)基于图计算的方法,从所述通话关系网络的图模型上提取每个号码的图特征,包括:利用图计算技术,分别从路径连通性、节点中心度和网络群体度等不同维度对通话关系网络进行图指标计算,将计算得到的图指标作为提取得到的图特征,其中,所述图指标用于量化节点与节点,节点与网络,网络与网络的关联关系。这里图计算技术利用的算法包括但不限于pagerank(网页排名)、louvainmodularity(社区发现算法)、jaccardsimilarity(杰卡德相似系数)等,本实施例并不对其进行限制,可根据实际情况选择应用。
3)基于图嵌入的方法,从所述通话关系网络的图模型上提取每个号码的图特征,包括:利用图嵌入技术,从通话关系网络中提取网络的拓扑结构信息,将网络的拓扑结构映射成一个欧式空间的嵌入向量,将所述嵌入向量作为提取得到的图特征。这里图嵌入技术利用的算法,可以包括但不限于node2vec、line、grarep、struc2vec等,本实施例并不对其进行限制,可根据实际情况选择应用。
以上三种特征提取方式(基于规则的方法、基于图计算的方法和基于图嵌入的方法),可根据数据情况和业务需求,选择合适方法从图模型上提取每个号码的图特征。如果采用多种提取方式,需要将特征按样本进行合并。如果需要使用通话行为特征和其它数据构成的特征等,可以使用相关的方法生成特征,然后按样本合并特征,即将生成的特征与提取的图特征按样本合并,生成样本数据集用于模型学习。这是个监督学习问题,需要对特征样本进行是否是骚扰电话的标注。最终生成样本数据集用于模型学习。
具体地,本实施例中,从所述图模型上提取每个号码的图特征,生成样本数据集,可以包括:从所述图模型上提取每个号码的图特征,对每个号码打上标注是否为骚扰电话的标签,生成样本数据集。
s2、构建学习模型:根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型。
具体地,所述学习算法可以包括机器学习(回归模型、树模型、贝叶斯模型、集合学习和支持向量机等)、深度学习以及统计学方法,算法没有范围限制。同时,模型可以是组合模型,对算法数量没有限制。具体地,所述步骤s2的训练过程具体包括以下s21-s23三个子步骤:
s21、数据前处理:对所述样本数据集中的数据进行预处理。可根据数据实际情况和算法实际需求,选择合适的技术组合对所述样本数据集中的数据进行处理,用于模型进行训练。
具体地,所述预处理主要可以包括:数据集成、数据清理、数据变换和数据归约等;其中,对于所述样本数据集中的所有数据与所述样本数据集中利用标签已标注为骚扰电话的数据的数据量之差大于预设阈值(可以根据实际情况对所述预设阈值进行设置),从而所构成的样本数据集为不平衡类别数据集的情况(即已标注的骚扰电话相对于海量的电信用户通常极少,从而构成了不平衡类别数据集),使用欠采样、过采样、或者随机采样的采样技术,来减少所述样本数据集中的数据量并平衡所述样本数据集中不同类别的样本数据量。此外,如果需要增加特征,可能会使用特征组合技术。
s22、参数寻优:将预处理后的样本数据集划分为训练集和测试集;根据实际设定一个模型的性能评价指标;根据数据和算法选择一个参数优化方法;使用参数优化方法对学习算法在训练集进行参数寻优,使用交叉验证,最终输出参数组合使得性能评价指标最优;其中,所述参数为学习算法的超参数,包括特征权重、模型组合权重等。
s23、生成学习模型:使用最优参数组合在训练集上训练得到骚扰电话识别模型,将得到的骚扰电话识别模型在测试集上做泛化性能验证,得到最终的骚扰电话识别模型。
在具体应用中,本实施例可以根据所述样本数据集,以所述带有标签的每个号码的图特征作为输入,以用于标注是否为骚扰电话的标签作为输出,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型。
需要说明的是,本实施例所述基于图的骚扰电话识别模型构建方法的执行主体为处理器。图3为本发明实施例提供的一种基于图的骚扰电话识别模型构建方法的更具体的流程示意图,上述对本实施例上述方法的说明可参考图3。
本实施例提供的基于图的骚扰电话识别模型构建方法,通过构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集,根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型,由此,能够实现骚扰电话识别模型的构建,该骚扰电话识别模型可以提高对骚扰电话的识别性能,且利用通话关系网络,能够增强骚扰电话行为分析的可解释性。
最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。