垃圾短信过滤方法及引擎的制作方法

文档序号:7778974阅读:279来源:国知局
垃圾短信过滤方法及引擎的制作方法
【专利摘要】本发明提供了一种垃圾短信过滤方法和垃圾短信过滤引擎。所述方法可以包括:提取短信内容中的电话号码和/或统一资源定位符(URL);从电话号码和/或URL的信誉级别库中检索所提取的电话号码和/或URL的信誉级别;以及,至少依据所述电话号码和/或URL的信誉级别,判断所述短信是否是垃圾短信;其中,所述电话号码和/或URL的信誉级别库是根据采集的短信样本集确定的。根据本发明实施例的方法,能够提高对那些使用运营商提供的正规商用短信号码发送的、包含恶意电话和/或恶意网址的垃圾短信的过滤效率。
【专利说明】垃圾短信过滤方法及引擎
【技术领域】
[0001]本发明涉及移动通信领域,更具体地,涉及垃圾短信的过滤方法和设备。
【背景技术】
[0002]近些年,随着移动电话的普及率越来越高,以及短信的成本越来越低,利用短信来实现营销、甚至实施诈骗的行为越来越多。这些正常用户不希望接收到的或与用户无关的大量的短信被称为垃圾短信。根据统计,约有35%的移动电话用户不同程度地受到过垃圾短信的骚扰。每个用户平均每月收到的垃圾短信约为8条。按照2013年3月底中国移动电话用户总数已达11.46亿的统计来保守估计,我国移动电话用户平均每天收到的垃圾短信总量将超过三亿条。垃圾短信已经成为ー个严重的社会问题。
[0003]为了避免垃圾短信的骚扰,智能移动电话的用户通常选择安装具有垃圾短信过滤引擎来避免骚扰。目前,市面上的垃圾过滤引擎主要根据发送方号码属于黑名单或白名单来识别垃圾短信。然而,越来越多的垃圾短信发送方可能使用从中国移动、联通、电信等运营商处购买的提供短信批量发送服务的商用短信号码(例如,以区号如021、075开头的号码,或者以106开头的号码)来发送短信,而将真正的联系他们的电话号码放置在短信内容中。因此,依据现有的发送方号码的黑白名单的机制,容易漏报使用这些商用短信号码作为发送方的短信中的垃圾短信。如果用户将这些商用短信号码都设置为黑名单,则又可能将用户希望接收的真实的商家的推荐活动短信误报为垃圾短信。
[0004]因此,需要一种改进的过滤短信的机制,其能够减少垃圾短信的漏报和误报。

【发明内容】

[0005]为了实现该目的,本发明提供了一种改进的垃圾短信过滤方法和垃圾短信过滤引擎,其不仅考虑短信发送方号码,而且考虑短信内容中包含的电话号码和/或URL的信誉级另IJ。根据本发明的方法,能够提高对那些使用运营商提供的正规商用短信号码发送的、包含恶意电话和/或恶意网址的垃圾短信的过滤效率。
[0006]根据本发明的ー个方面,提供了一种垃圾短信过滤方法。该方法可以包括:提取短信内容中的电话号码和/或统ー资源定位符(URL);从电话号码和/或URL的信誉级别库中检索所提取的电话号码和/或URL的信誉级别;以及,至少依据所述电话号码和/或URL的信誉级别,判断所述短信是否是垃圾短信;其中,所述电话号码和/或URL的信誉级别库是根据采集的短信样本集确定的。
[0007]在本发明的一些实施例中,判断短信是否是垃圾短信至少还依据:短信的发送方信誉级别、关键字匹配结果、和/或基于语义的策略。
[0008]在本发明的一些实施例中,判断短信是否是垃圾短信可以进一歩包括:计算所述短信的可疑度;以及如果所述短信的可疑度大于阈值,则判断所述短信是垃圾短信。
[0009]优选地,计算所述短信的可疑度按照下述公式执行:[0010]
【权利要求】
1.一种垃圾短信过滤方法,包括: 提取短信内容中的电话号码和/或统ー资源定位符(URL), 从电话号码和/或URL的信誉级别库中检索所提取的电话号码和/或URL的信誉级别,以及 至少依据所述电话号码和/或URL的信誉级别,判断所述短信是否是垃圾短信; 其中,所述电话号码和/或URL的信誉级别库是根据采集的短信样本集确定的。
2.根据权利要求1所述的方法,其中判断所述短信是否是垃圾短信至少还依据:所述短信的发送方信誉级别、关键字匹配结果、和/或基于语义的策略。
3.根据权利要求1所述的方法,其中判断所述短信是否是垃圾短信进ー步包括: 计算所述短信的可疑度,以及 如果所述短信的可疑度大于阈值,则判断所述短信是垃圾短信。
4.根据权利要求3所述的方法,其中计算所述短信的可疑度按照下述公式执行:
5.根据权利要求1所述的方法,还包括:定期更新所述短信样本集以及电话号码和/或URL的信誉级别库。
6.一种垃圾短信过滤引擎,包括: 提取单元,配置为:提取短信内容中的电话号码和/或统ー资源定位符(URL), 检索单元,配置为:从电话号码和/或URL的信誉级别库中检索所提取的电话号码和/或URL的信誉级别, 判断単元,配置为:至少依据所述电话号码和/或URL的信誉级别,判断所述短信是否是垃圾短イ目; 其中,所述电话号码和/或URL的信誉级别库是根据短信样本集确定的。
7.根据权利要求6所述的引擎,其中所述判断単元判断所述短信是否是垃圾短信至少还依据:所述短信的发送方信誉级别、关键字匹配结果、和/或基于语义的策略。
8.根据权利要求6所述的引擎,其中所述判断単元进ー步包括: 计算子単元,计算所述短信的可疑度, 其中如果所述短信的可疑度大于阈值,则判断所述短信是垃圾短信。
9.根据权利要求8所述的引擎,其中所述计算子単元配置为:按照下述公式计算所述短信的可疑度:
10.根据权利要求9所述的引擎,还包括:更新単元,配置为:定期更新所述短信样本集以及电话号码和/或URL的信誉级别库。
【文档编号】H04W12/12GK103607705SQ201310646010
【公开日】2014年2月26日 申请日期:2013年12月4日 优先权日:2013年12月4日
【发明者】史领航 申请人:北京网秦天下科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1