一种垃圾短信策略的优化方法及系统与流程

文档序号:12613845阅读:369来源:国知局
一种垃圾短信策略的优化方法及系统与流程

本发明涉及通信技术领域,特别是指一种垃圾短信策略的优化方法及系统。



背景技术:

随着移动通信服务的不断拓展,垃圾短信随之大量出现,轻则影响手机用户的正常生活,重则导致个人或公司产生重大的经济损失,治理垃圾短信有着十分重要的意义。

现有垃圾短信监控系统主要根据关键词策略实现对垃圾短信的判定和处理,当监控到的短信内容中包含垃圾短信关键词时,会将该短信作为疑似垃圾短信送人工审核处理,对确认为垃圾短信的主叫号码进行拦截。其中,关键词策略中包含垃圾短信中常见的任意关键字或关键词的组合,如“百家乐&注册&奖&合作”,&代表“与”,所监控的短信内容只要符合该关键字规则,将视为疑似垃圾短信进行人工审核确认。

通常垃圾短信拦截系统的关键词策略不低于两千条,并且随着新的垃圾短信出现,关键词策略的数量也随之增加,以便尽可能多的拦截垃圾短信。

但是,现有关键词策略数量过大,且存在大量冗余;另外,根据新的垃圾短信提取的关键词,可能与现有关键词策略重复,严重降低了系统的处理性能和短信过滤效率,主要为:

新的关键词策略无法及时添加;

无效关键词策略无法及时删除;

关键词策略之间重复、矛盾等不一致情况。

同时,由于关键词策略不精准,导致大量正常短信送至人工审核,浪费了大量人力。



技术实现要素:

本发明的目的在于提供一种垃圾短信策略的优化方法及系统,解决现有技术中垃圾短信关键词策略冗余,造成垃圾短信监控系统处理性能和短信过滤效率降低的问题。

为了解决上述技术问题,本发明实施例提供一种垃圾短信策略的优化方法,包括:

获取预设短信样本库中的短信和短信过滤策略库中的过滤策略;

将每一条所述短信与每一条所述过滤策略进行匹配;

根据匹配结果对所述短信过滤策略库中的过滤策略进行优化。

可选地,所述根据匹配结果对所述短信过滤策略库中的过滤策略进行优化的步骤包括:

在所述短信为垃圾短信且所述匹配结果指示所述短信未匹配到所述过滤策略时,在所述短信过滤策略库中增加与所述短信对应的过滤策略;

在所述匹配结果指示所述短信匹配到所述过滤策略时,计算匹配到的所述过滤策略对所述短信的过滤贡献度,根据所述过滤贡献度对所述过滤策略进行处理优化。

可选地,所述根据所述过滤贡献度对所述过滤策略进行处理优化的步骤包括:

根据同一条所述过滤策略的各个过滤贡献度计算所述过滤策略的总贡献度;

根据所述短信的总数对所述总贡献度进行归一化处理;

根据归一化处理结果对所述过滤策略进行处理。

可选地,所述根据归一化处理结果对所述过滤策略进行处理的步骤包括:

将所述归一化处理结果与预设阈值进行比较;

在比较结果指示所述归一化处理结果大于等于所述预设阈值时,保留对应的所述过滤策略;

在比较结果指示所述归一化处理结果小于所述预设阈值时,删除对应的所述过滤策略。

可选地,所述计算匹配到的所述过滤策略对所述短信的过滤贡献度的步骤包括:

在一条所述短信与一条所述过滤策略相匹配时,则记为所述过滤策略相对 于对应的所述短信的过滤贡献度为第一值。

可选地,所述短信为正常短信时的所述第一值与所述短信为垃圾短信时的所述第一值互为相反数。

可选地,在所述短信为正常短信时,所述计算匹配到的所述过滤策略对所述短信的过滤贡献度的步骤还包括:

在一条所述短信与多条所述过滤策略相匹配时,则记为多条所述过滤策略中的每一者对于对应的所述短信的过滤贡献度为所述第一值与多条所述过滤策略的数量的比值。

可选地,在所述短信为垃圾短信时,所述计算匹配到的所述过滤策略对所述短信的过滤贡献度的步骤还包括:

在一条所述短信与多条所述过滤策略相匹配时,则判断多条所述过滤策略之间是否存在相同的关键词;

根据判断结果计算多条所述过滤策略各自对于对应的所述短信的过滤贡献度。

可选地,所述根据判断结果计算多条所述过滤策略各自对于对应的所述短信的过滤贡献度的步骤包括:

在所述判断结果指示多条所述过滤策略之间存在相同的关键词时,则获取多条所述过滤策略中的所有关键词,并去重计算所述所有关键词的第一数量;

获取多条所述过滤策略中每一者包含的关键词的第二数量,将所述第二数量与所述第一数量以及多条所述过滤策略的数量的比值记为对应的所述过滤策略对于对应的所述短信的过滤贡献度;

在所述判断结果指示多条所述过滤策略之间不存在相同的关键词时,则记为多条所述过滤策略中的每一者对于对应的所述短信的过滤贡献度为所述第一值与多条所述过滤策略的数量的比值。

可选地,在所述获取预设短信样本库中的短信和短信过滤策略库中的过滤策略之前,所述优化方法还包括:

根据人工审核的疑似垃圾短信、投诉的垃圾短信以及拦截的垃圾短信建立所述预设短信样本库。

可选地,在所述根据人工审核的疑似垃圾短信、投诉的垃圾短信以及拦截 的垃圾短信建立所述预设短信样本库之前,所述优化方法还包括:

在线实时导入或离线导入所述人工审核的疑似垃圾短信、投诉的垃圾短信和拦截的垃圾短信,以及所述短信过滤策略库中的过滤策略。

可选地,在所述根据匹配结果对所述短信过滤策略库中的过滤策略进行优化之后,所述优化方法还包括:

将优化后的过滤策略下发给垃圾短信拦截系统。

可选地,所述获取预设短信样本库中的短信和短信过滤策略库中的过滤策略的步骤包括:

按照预设时间间隔获取预设短信样本库中的短信和短信过滤策略库中的过滤策略。

本发明还提供了一种垃圾短信策略的优化系统,包括:

第一获取模块,用于获取预设短信样本库中的短信和短信过滤策略库中的过滤策略;

第一匹配模块,用于将每一条所述短信与每一条所述过滤策略进行匹配;

第一处理模块,用于根据匹配结果对所述短信过滤策略库中的过滤策略进行优化。

本发明的上述技术方案的有益效果如下:

上述方案中,所述垃圾短信策略的优化方法通过获取预设短信样本库中的短信和短信过滤策略库中的过滤策略,将每一条短信与每一条过滤策略进行匹配,根据匹配结果对短信过滤策略库中的过滤策略进行优化;生成有效的关键词组合,使得过滤策略更加精简有效,提高了垃圾短信监控系统的处理性能和短信过滤效率,减少了人工审核量。

附图说明

图1为本发明实施例一的垃圾短信策略的优化方法流程示意图一;

图2为本发明实施例一的垃圾短信策略的优化方法流程示意图二;

图3为本发明实施例一的垃圾短信策略优化框架示意图;

图4为本发明实施例一的垃圾短信策略优化多轮迭代示意图;

图5为本发明实施例二的垃圾短信策略的优化系统构成示意图一;

图6为本发明实施例二的垃圾短信策略的优化系统构成示意图二。

具体实施方式

为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具体实施例进行详细描述。

本发明针对现有的技术中垃圾短信关键词策略冗余,造成垃圾短信监控系统处理性能和短信过滤效率降低的问题,提供了多种解决策略,具体如下:

实施例一

如图1所示,本发明实施例一提供的垃圾短信策略的优化方法包括:

步骤11:获取预设短信样本库中的短信和短信过滤策略库中的过滤策略;

步骤12:将每一条所述短信与每一条所述过滤策略进行匹配;

步骤13:根据匹配结果对所述短信过滤策略库中的过滤策略进行优化。

本发明实施例一提供的所述垃圾短信策略的优化方法通过获取预设短信样本库中的短信和短信过滤策略库中的过滤策略,将每一条短信与每一条过滤策略进行匹配,根据匹配结果对短信过滤策略库中的过滤策略进行优化;生成有效的关键词组合,使得过滤策略更加精简有效,提高了垃圾短信监控系统的处理性能和短信过滤效率,减少了人工审核量。

其中,所述根据匹配结果对所述短信过滤策略库中的过滤策略进行优化的步骤包括:在所述短信为垃圾短信且所述匹配结果指示所述短信未匹配到所述过滤策略时,在所述短信过滤策略库中增加与所述短信对应的过滤策略;在所述匹配结果指示所述短信匹配到所述过滤策略时,计算匹配到的所述过滤策略对所述短信的过滤贡献度,根据所述过滤贡献度对所述过滤策略进行处理优化。

具体的,所述根据所述过滤贡献度对所述过滤策略进行处理优化的步骤包括:根据同一条所述过滤策略的各个过滤贡献度计算所述过滤策略的总贡献度;根据所述短信的总数对所述总贡献度进行归一化处理;根据归一化处理结果对所述过滤策略进行处理。

更具体的,所述根据归一化处理结果对所述过滤策略进行处理的步骤包括:将所述归一化处理结果与预设阈值进行比较;在比较结果指示所述归一化处理结果大于等于所述预设阈值时,保留对应的所述过滤策略;在比较结果指示所 述归一化处理结果小于所述预设阈值时,删除对应的所述过滤策略。

其中,所述计算匹配到的所述过滤策略对所述短信的过滤贡献度的步骤包括:在一条所述短信与一条所述过滤策略相匹配时,则记为所述过滤策略相对于对应的所述短信的过滤贡献度为第一值。

需要说明的是,所述短信为正常短信时的所述第一值与所述短信为垃圾短信时的所述第一值互为相反数。

进一步的,在所述短信为正常短信时,所述计算匹配到的所述过滤策略对所述短信的过滤贡献度的步骤还包括:在一条所述短信与多条所述过滤策略相匹配时,则记为多条所述过滤策略中的每一者对于对应的所述短信的过滤贡献度为所述第一值与多条所述过滤策略的数量的比值。

在所述短信为垃圾短信时,所述计算匹配到的所述过滤策略对所述短信的过滤贡献度的步骤还包括:在一条所述短信与多条所述过滤策略相匹配时,则判断多条所述过滤策略之间是否存在相同的关键词;根据判断结果计算多条所述过滤策略各自对于对应的所述短信的过滤贡献度。

具体的,所述根据判断结果计算多条所述过滤策略各自对于对应的所述短信的过滤贡献度的步骤包括:在所述判断结果指示多条所述过滤策略之间存在相同的关键词时,则获取多条所述过滤策略中的所有关键词,并去重计算所述所有关键词的第一数量;获取多条所述过滤策略中每一者包含的关键词的第二数量,将所述第二数量与所述第一数量以及多条所述过滤策略的数量的比值记为对应的所述过滤策略对于对应的所述短信的过滤贡献度;

在所述判断结果指示多条所述过滤策略之间不存在相同的关键词时,则记为多条所述过滤策略中的每一者对于对应的所述短信的过滤贡献度为所述第一值与多条所述过滤策略的数量的比值。

本发明实施例一中,在所述获取预设短信样本库中的短信和短信过滤策略库中的过滤策略之前,所述优化方法还包括:根据人工审核的疑似垃圾短信、投诉的垃圾短信以及拦截的垃圾短信建立所述预设短信样本库。

进一步的,在所述根据人工审核的疑似垃圾短信、投诉的垃圾短信以及拦截的垃圾短信建立所述预设短信样本库之前,所述优化方法还包括:在线实时导入或离线导入所述人工审核的疑似垃圾短信、投诉的垃圾短信和拦截的垃圾 短信,以及所述短信过滤策略库中的过滤策略。

考虑到实际应用情况,在所述根据匹配结果对所述短信过滤策略库中的过滤策略进行优化之后,所述优化方法还包括:将优化后的过滤策略下发给垃圾短信拦截系统。

其中,下发操作支持在线和离线两种方式。

为了达到最优的效果,所述获取预设短信样本库中的短信和短信过滤策略库中的过滤策略的步骤包括:按照预设时间间隔获取预设短信样本库中的短信和短信过滤策略库中的过滤策略。后续的步骤流程也会顺次执行,每获取一次短信和过滤策略,就执行一次策略优化,也就是,对过滤策略进行多轮迭代更新,达到最佳效果。

对应的,上述建立预设短信样本库以及导入相关短信的操作也可按照预设时间间隔进行。

上述的预设时间间隔可优选为一周(7天)。

下面对本发明实施例一提供的垃圾短信策略的优化方法进行具体说明。

如图2所示,优化方法大体包括三个过程:短信样本库的建立过程(样本库建立)、短信样本库与策略库的匹配过程(策略匹配过程)和策略优化过程。

过程一:短信样本库的建立过程

短信样本库的建立主要有两三个数据源,人工审核的疑似垃圾短信、投诉系统举报的垃圾短信和垃圾短信监测系统拦截的垃圾短信。疑似垃圾短信是由关键词策略触发的短信,分为确认为垃圾短信和误判为垃圾短信的正常短信,举报的垃圾短信是由于策略不全面漏掉的部分短信。短信样本库可分为垃圾短信库(垃圾库)和正常短信库(正常库),样本库是垃圾短信策略优化的基础。

过程二:短信样本库与策略库的匹配过程

短信样本库包括垃圾短信库和正常短信库,分别和策略库(短信过滤策略库/关键词策略库)进行匹配,如图2所示,匹配结果可归结为以下五种场景。

场景1:垃圾短信匹配单条策略;

场景2:同一条垃圾短信匹配多条策略;

场景3:垃圾短信、正常短信匹配相同策略;

场景4:正常短信匹配单条或多条策略;

场景5:垃圾短信未匹配策略。

短信样本库与策略库匹配结果,以网格结构图方式进行分布,其中横向为垃圾短信和正常短信,纵向为关键词策略,通过网格分布图可以将短信与策略库的匹配结果归结出上述五类场景,如下表所示:

短信样本库与策略库匹配结果表

过程三:策略优化过程

如图2所示,策略优化过程包括对缺失的策略进行添加、对无效的策略进行删除和对于冗余策略进行合并(删除过滤效果低的策略)。对于垃圾短信匹配单条策略为最优策略需要保留,对于正常短信匹配单条策略为无效(误判)策略需要删除,对于垃圾短信未匹配策略为缺失策略进行添加,策略优化框架如图3所示,具体处理流程如下:

此处说明,贡献度代表了过滤策略对垃圾短信的治理效果,贡献度越高则对应的过滤策略越有效。

假设短信总数为N,每一过滤策略对一条短信的贡献度为SAi,1≤i≤N:

(1)过滤策略对单条短信的贡献度定义如下,其中贡献度SAi的值可以根据算法需要进行调整:

1)若一条垃圾短信匹配单条策略,对应于场景1,可将该策略贡献度SAi设置为1;

2)若同一条垃圾短信匹配n条策略,对应于场景2:

a)策略之间没有关联关系,即策略里的关键词均没有重复,则策略贡献度 SAi设置为1/n;

b)策略之间存在关联关系,即策略里有部分重复关键词,则首先提取n条策略的所有关键词并去重计算关键词数量为n’,再提取A策略的关键词并计算关键词数量为a’,则SAi的值为(1/n)*(a’/n’)。

3)若一条正常短信匹配单条策略,对应于场景4,可将该策略贡献度SAi设置为-1;

4)若同一条正常短信匹配n条策略,对应于场景4,可将该策略贡献度SAi设置为-1/n。

此处指出对于场景3,计算流程是上述步骤的组合,得到各个策略贡献度SAi

(2)计算每个过滤策略的总贡献度,并对总贡献度进行归一化处理得到参考值SA,如下:

(3)根据策略设定的阈值,如0.5(该值可调),选取参考值SA大于阈值的过滤策略,即为优化后的过滤策略。

进一步的,本发明实施例一中的垃圾短信策略的优化方法还包括:策略优化迭代过程。

如图4所示,策略优化需要多轮次进行才能达到最优效果。由于垃圾短信系统每天都会监控到千万数量的垃圾短信,短信样本库可以根据每天收到的垃圾短信生成当天的样本子库,每天的样本子库与策略库进行匹配,根据上述优化过程进行优化。经过多伦策略优化后(通常一周共7轮),策略能达到最佳效果。策略优化多轮迭代过程如下:

短信样本库/样本子库输入到原始关键词策略库,然后进行策略优化,之后生成新的策略库,根据新的策略输出生效策略,并将新的策略更新到原始关键词策略库。

需要说明的是,上述方案中未匹配到短信的过滤策略可以采用暂不处理的手段。

实施例二

如图5所示,本发明实施例二提供的垃圾短信策略的优化系统包括:

第一获取模块51,用于获取预设短信样本库中的短信和短信过滤策略库中 的过滤策略;

第一匹配模块52,用于将每一条所述短信与每一条所述过滤策略进行匹配;

第一处理模块53,用于根据匹配结果对所述短信过滤策略库中的过滤策略进行优化。

本发明实施例二提供的所述垃圾短信策略的优化系统通过获取预设短信样本库中的短信和短信过滤策略库中的过滤策略,将每一条短信与每一条过滤策略进行匹配,根据匹配结果对短信过滤策略库中的过滤策略进行优化;生成有效的关键词组合,使得过滤策略更加精简有效,提高了垃圾短信监控系统的处理性能和短信过滤效率,减少了人工审核量。

其中,所述第一处理模块包括:第一处理子模块,用于在所述短信为垃圾短信且所述匹配结果指示所述短信未匹配到所述过滤策略时,在所述短信过滤策略库中增加与所述短信对应的过滤策略;第二处理子模块,用于在所述匹配结果指示所述短信匹配到所述过滤策略时,计算匹配到的所述过滤策略对所述短信的过滤贡献度,根据所述过滤贡献度对所述过滤策略进行处理优化。

具体的,所述第二处理子模块包括:第一计算子模块,用于根据同一条所述过滤策略的各个过滤贡献度计算所述过滤策略的总贡献度;归一化子模块,用于根据所述短信的总数对所述总贡献度进行归一化处理;第三处理子模块,用于根据归一化处理结果对所述过滤策略进行处理。

更具体的,所述第三处理子模块包括:比较子模块,用于将所述归一化处理结果与预设阈值进行比较;第四处理子模块,用于在比较结果指示所述归一化处理结果大于等于所述预设阈值时,保留对应的所述过滤策略;删除子模块,用于在比较结果指示所述归一化处理结果小于所述预设阈值时,删除对应的所述过滤策略。

其中,所述第二处理子模块包括:第五处理子模块,用于在一条所述短信与一条所述过滤策略相匹配时,则记为所述过滤策略相对于对应的所述短信的过滤贡献度为第一值。

需要说明的是,所述短信为正常短信时的所述第一值与所述短信为垃圾短信时的所述第一值互为相反数。

进一步的,在所述短信为正常短信时,所述第二处理子模块还包括:第六 处理子模块,用于在一条所述短信与多条所述过滤策略相匹配时,则记为多条所述过滤策略中的每一者对于对应的所述短信的过滤贡献度为所述第一值与多条所述过滤策略的数量的比值。

在所述短信为垃圾短信时,所述第二处理子模块还包括:判断子模块,用于在一条所述短信与多条所述过滤策略相匹配时,则判断多条所述过滤策略之间是否存在相同的关键词;第二计算子模块,用于根据判断结果计算多条所述过滤策略各自对于对应的所述短信的过滤贡献度。

具体的,所述第二计算子模块包括:第七处理子模块,用于在所述判断结果指示多条所述过滤策略之间存在相同的关键词时,则获取多条所述过滤策略中的所有关键词,并去重计算所述所有关键词的第一数量;第八处理子模块,用于获取多条所述过滤策略中每一者包含的关键词的第二数量,将所述第二数量与所述第一数量以及多条所述过滤策略的数量的比值记为对应的所述过滤策略对于对应的所述短信的过滤贡献度;

第九处理子模块,用于在所述判断结果指示多条所述过滤策略之间不存在相同的关键词时,则记为多条所述过滤策略中的每一者对于对应的所述短信的过滤贡献度为所述第一值与多条所述过滤策略的数量的比值。

本发明实施例二中,所述优化系统还包括:建立模块,用于所述第一获取模块执行操作之前,根据人工审核的疑似垃圾短信、投诉的垃圾短信以及拦截的垃圾短信建立所述预设短信样本库。

进一步的,所述优化系统还包括:导入模块,用于所述建立模块执行操作之前,在线实时导入或离线导入所述人工审核的疑似垃圾短信、投诉的垃圾短信和拦截的垃圾短信,以及所述短信过滤策略库中的过滤策略。

考虑到实际应用情况,所述优化系统还包括:下发模块,用于所述第一处理模块执行操作之后,将优化后的过滤策略下发给垃圾短信拦截系统。

其中,下发操作支持在线和离线两种方式。

为了达到最优的效果,所述第一获取模块包括:获取子模块,用于按照预设时间间隔获取预设短信样本库中的短信和短信过滤策略库中的过滤策略。后续的操作流程也会顺次执行,每获取一次短信和过滤策略,就执行一次策略优化,也就是,对过滤策略进行多轮迭代更新,达到最佳效果。

对应的,上述建立预设短信样本库以及导入相关短信的操作也可按照预设时间间隔进行。

上述的预设时间间隔可优选为一周(7天)。

下面对本发明实施例二提供的垃圾短信策略的优化系统进行具体说明。

本系统主要依据垃圾短信样本对过滤策略进行自动化分析和优化,系统构成如图6所示,可实现如下功能:

1)垃圾短信及过滤策略导入

垃圾短信策略优化系统支持垃圾短信拦截系统中的过滤策略和拦截的垃圾短信的导入、疑似垃圾短信人工审核样本的导入功能(垃圾短信拦截系统上报疑似短信进行的人工审核),以及垃圾短信投诉系统投诉的垃圾短信样本的导入功能,导入方式可同时支持如文件传输协议FTP接口的在线实时导入和纯文本csv或电子表格excel文件的离线导入等功能。

2)垃圾短信策略优化

垃圾短信策略优化系统利用短信样本对原始策略进行优化,并将优化后的结果进行展示。

3)垃圾短信策略下发

垃圾短信策略优化系统对已有关键词策略进行优化,最后将关键词优化策略下发给垃圾短信拦截系统。

其中,上述垃圾短信策略的优化方法的所述实现实施例均适用于该垃圾短信策略的优化系统的实施例中,也能达到相同的技术效果。

需要说明的是,此说明书中所描述的许多功能部件都被称为模块/子模块,以便更加特别地强调其实现方式的独立性。

本发明实施例中,模块/子模块可以用软件实现,以便由各种类型的处理器执行。举例来说,一个标识的可执行代码模块可以包括计算机指令的一个或多个物理或者逻辑块,举例来说,其可以被构建为对象、过程或函数。尽管如此,所标识模块的可执行代码无需物理地位于一起,而是可以包括存储在不同位里上的不同的指令,当这些指令逻辑上结合在一起时,其构成模块并且实现该模块的规定目的。

实际上,可执行代码模块可以是单条指令或者是许多条指令,并且甚至可 以分布在多个不同的代码段上,分布在不同程序当中,以及跨越多个存储器设备分布。同样地,操作数据可以在模块内被识别,并且可以依照任何适当的形式实现并且被组织在任何适当类型的数据结构内。所述操作数据可以作为单个数据集被收集,或者可以分布在不同位置上(包括在不同存储设备上),并且至少部分地可以仅作为电子信号存在于系统或网络上。

在模块可以利用软件实现时,考虑到现有硬件工艺的水平,所以可以以软件实现的模块,在不考虑成本的情况下,本领域技术人员都可以搭建对应的硬件电路来实现对应的功能,所述硬件电路包括常规的超大规模集成(VLSI)电路或者门阵列以及诸如逻辑芯片、晶体管之类的现有半导体或者是其它分立的元件。模块还可以用可编程硬件设备,诸如现场可编程门阵列、可编程阵列逻辑、可编程逻辑设备等实现。

以上所述的是本发明的优选实施方式,应当指出对于本技术领域的普通人员来说,在不脱离本发明所述原理前提下,还可以作出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。

当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1