基于图的骚扰电话识别模型构建方法与流程

文档序号:21644077发布日期:2020-07-29 02:57阅读:来源:国知局

技术特征:

1.一种基于图的骚扰电话识别模型构建方法,其特征在于,包括:

构建样本数据集:构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集;

构建学习模型:根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型。

2.根据权利要求1所述的基于图的骚扰电话识别模型构建方法,其特征在于,所述构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集,包括:

图模型设计:设置通话关系网络的图模型,其中,通话数据构成人与人之间的通话关系网络,所述通话关系网络是以号码为节点、以号码之间的通信为关系边构成的,骚扰电话在所述通话关系网络中具有相似性和同质性的表现,所述相似性和同质性的表现为在通话关系网络中没有稳定的社交圈,包括:没有经常通话的群组、没有经常相互通话的群组和通话的对象之间没有通话环路回到源电话;

图模型构建:根据历史通话数据,构建通话关系网络的图模型;

从图模型上提取特征:从所述图模型上提取每个号码的图特征,生成样本数据集。

3.根据权利要求2所述的基于图的骚扰电话识别模型构建方法,其特征在于,所述根据历史通话数据,构建通话关系网络的图模型,包括:

在图数据库中定义通话关系网络的图模型,其中,图数据库中定义的通话关系网络的图模型,以号码为节点,以号码之间的通信为关系边,节点属性包括:号码的通话统计和号码的用户信息,关系边属性包括:两个号码的通话统计;

采用规则、统计或者聚类技术,对历史通话数据进行数据处理和信息提取,映射到图数据库中定义的通话关系网络的图模型对应的节点、节点属性、关系边、关系边属性上,生成通话关系网络的图模型。

4.根据权利要求2所述的基于图的骚扰电话识别模型构建方法,其特征在于,所述带有标签的每个号码的图特征,包括:具有业务含义的特征、图的常规指标和图嵌入生成的特征;

相应地,所述从所述图模型上提取每个号码的图特征,包括:

基于规则的方法,从所述通话关系网络的图模型上提取每个号码的图特征,包括:基于骚扰电话在通话关系网络中没有稳定的社交圈的特征,结合所述通话关系网络的图模型的节点、节点属性、关系边以及关系边属性,利用相应的图查询或统计从通话关系网络上提取每个号码的图特征;

或者,基于图计算的方法,从所述通话关系网络的图模型上提取每个号码的图特征,包括:利用图计算技术,分别从不同维度对通话关系网络进行图指标计算,将计算得到的图指标作为提取得到的图特征,其中,所述图指标用于量化节点与节点,节点与网络,网络与网络的关联关系,所述不同维度,包括:路径连通性、节点中心度和网络群体度;

或者,基于图嵌入的方法,从所述通话关系网络的图模型上提取每个号码的图特征,包括:利用图嵌入技术,从通话关系网络中提取网络的拓扑结构信息,将网络的拓扑结构映射成一个欧式空间的嵌入向量,将所述嵌入向量作为提取得到的图特征。

5.根据权利要求2所述的基于图的骚扰电话识别模型构建方法,其特征在于,从所述图模型上提取每个号码的图特征,生成样本数据集,包括:

从所述图模型上提取每个号码的图特征,对每个号码打上标注是否为骚扰电话的标签,生成样本数据集。

6.根据权利要求1所述的基于图的骚扰电话识别模型构建方法,其特征在于,所述根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型的训练过程具体包括以下三个子步骤:

数据前处理:对所述样本数据集中的数据进行预处理;

参数寻优:将预处理后的样本数据集划分为训练集和测试集;根据实际设定一个模型的性能评价指标;根据数据和算法选择一个参数优化方法;使用参数优化方法对学习算法在训练集进行参数寻优,使用交叉验证,最终输出参数组合使得性能评价指标最优;其中,所述参数为学习算法的超参数,包括特征权重和模型组合权重;

生成学习模型:使用最优参数组合在训练集上训练得到骚扰电话识别模型,将得到的骚扰电话识别模型在测试集上做泛化性能验证,得到最终的骚扰电话识别模型。

7.根据权利要求6所述的基于图的骚扰电话识别模型构建方法,其特征在于,所述预处理,包括:数据集成、数据清理、数据变换和数据归约;

其中,对于所述样本数据集中的所有数据与所述样本数据集中利用标签已标注为骚扰电话的数据的数据量之差大于预设阈值,从而所构成的样本数据集为不平衡类别数据集的情况,使用欠采样、过采样、或者随机采样的采样技术,来减少所述样本数据集中的数据量并平衡所述样本数据集中不同类别的样本数据量。


技术总结
本发明实施例提供一种基于图的骚扰电话识别模型构建方法,包括:构建样本数据集:构建通话关系网络的图模型,从所述图模型上提取每个号码的图特征,生成样本数据集;构建学习模型:根据所述样本数据集,利用学习算法,对机器学习模型进行训练,生成骚扰电话识别模型。本发明实施例能够实现骚扰电话识别模型的构建,该骚扰电话识别模型可以提高对骚扰电话的识别性能,且利用通话关系网络,能够增强骚扰电话行为分析的可解释性。

技术研发人员:夏宇;季颖生;邢怀康;蔡明
受保护的技术使用者:北京中亦安图科技股份有限公司
技术研发日:2020.04.01
技术公布日:2020.07.28
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1