专利名称:短信拦截方法和系统的制作方法
技术领域:
本发明涉及信息技术,特别是涉及一种短信拦截方法和系统。背景技术:
随着手机的普及,手机逐渐成为人们生活中不可或缺的通讯工具。其中最重要的运用之一就是短信。大量的用户也诱使不少人为了私利而制造各种垃圾短信。例如诱使用户回复的扣费短信、各种商业广告和诈骗短信。为了免受各种垃圾短信的困扰,不少厂商的手机内置了黑名单功能,允许用户创建添加黑白名单,并根据用户指定的过滤规则针对列表中的号码的短信进行拦截。然而,这种拦截垃圾短信的方式只能拦截那些反复发送垃圾短信的号码,大量的垃圾短信使用的号码是千变万化的,并且很多都是新出现的号码,这些新出现的号码通常不在用户手机的黑名单中,从而有大量的垃圾短信无法真正被拦截。为此,开发出了一种允许用户创建关键字列表,并根据用户指定的过滤规则对含有列表中关键字的短信进行拦截的方法,即,如果短信中有设定的关键字,则将该短信列为垃圾短信予以拦截。然而,这种方案在正常短信也包含上述关键字的时候,容易误判正常短
fn °
发明内容基于此,有必要针对使用黑名单或关键字列表无法有效拦截垃圾短信的问题,提供一种短信拦截方法。一种短信拦截方法,包括以下步骤接收短信;将所述短信的内容与拦截数据库中的垃圾短信进行对比;判断所述短信的内容与所述垃圾短信的相似度是否大于阈值;如果大于阈值,则拦截所述短信。在优选的实施例中,所述将所述短信的内容与拦截数据库中的垃圾短信进行对比的步骤为将所述短信的哈希值与所述拦截数据库存储的垃圾短信的哈希值进行对比;所述判断所述短信的内容与所述垃圾短信的相似度是否大于阈值的步骤为判断所述短信的哈希值与所述垃圾短信的哈希值是否相同,如果相同则认为大于阈值,如果不同则认为不大于阈值。在优选的实施例中,所述将所述短信的内容与拦截数据库中的垃圾短信进行对比的步骤为统计所述短信与所述垃圾短信相同汉字占总字数的百分比;所述判断所述短信的内容与所述垃圾短信的相似度是否大于阈值的步骤为判断所述百分比是否大于预定百分比,如果大于则认为大于阈值,如果不大于则认为不大于阈值。在优选的实施例中,所述拦截所述短信的步骤为将所述短信放入垃圾短信文件夹、将所述短信放入已删除短信文件夹、将所述短信彻底删除、或者在所述短信上添加区分标记。在优选的实施例中,还包括判断所述短信的发送号码是否在拦截数据库中的垃圾短信发送号码列表中的步骤,如果是,则拦截所述短信。在优选的实施例中,还包括通过网络下载更新拦截数据库的步骤。在优选的实施例中,还包括将用户主动认定为垃圾短信的短信上传以增加所述拦截数据库中的垃圾短信的步骤。在优选的实施例中,还包括将用户主动撤销为垃圾短信的短信上传以删除所述拦截数据库中的垃圾短信的步骤。此外,还有必要针对使用黑名单或关键字列表无法有效拦截垃圾短信的问题,提供一种短信拦截系统。一种短信拦截系统,包括通信装置,用于接收短信;存储装置,用于存储拦截数据库;处理装置,与所述通信装置及所述存储装置相连,将所述短信的内容与拦截数据库中的垃圾短信进行对比,判断所述短信的内容与所述垃圾短信的相似度是否大于阈值,如果大于阈值,则拦截所述短信。在优选的实施例中,所述处理装置将所述短信的内容与拦截数据库中的垃圾短信进行对比,判断所述短信的内容与所述垃圾短信的相似度是否大于阈值具体为将所述短信的哈希值与所述拦截数据库存储的垃圾短信的哈希值进行对比,判断所述短信的哈希值与所述垃圾短信的哈希值是否相同,如果相同则认为大于阈值,如果不同则认为不大于阈值。在优选的实施例中,所述处理装置将所述短信的内容与拦截数据库中的垃圾短信进行对比,判断所述短信的内容与所述垃圾短信的相似度是否大于阈值具体为统计所述短信与所述垃圾短信相同汉字占总字数的百分比,判断所述百分比是否大于预定百分比, 如果大于则认为大于阈值,如果不大于则认为不大于阈值。上述短信拦截方法和系统,通过将短信的内容与拦截数据库中的垃圾短信进行对比,根据短信的内容与垃圾短信的相似度确定是否拦截,在发送方号码变化的情况依然能够识别出垃圾短信,同时降低误判发生的可能性,能够有效拦截垃圾短信。
图1为一实施例的短信拦截方法的流程图;图2为另一实施例的短信拦截方法的流程图;图3为短信拦截系统的模块图。
具体实施方式为了解决使用黑名单或关键字列表无法有效拦截垃圾短信的问题,提出了一种根据收到的短信内容与垃圾短信的内容来实现垃圾短信的有效拦截。如图1所示,其为一实施方式的短信拦截方法的流程图。图1所示的短信拦截方法可以用在普通用户的手机中,还可以用在移动运营商的短信处理设备中。具体而言,包括以下步骤步骤Sl 10,接收短信。对于应用在普通用户的手机中的情形,本步骤手机通过移动运营商的移动通信网络接收短信。对于应用在移动运营商的短信处理设备中的情形,本步骤短信处理设备通过基站接收发送方手机发送的短信或者通过互联网接收发送方发送的短信等。收到的短信包括短信内容、短信的发送号码及时间等信息。这里的短信内容包括文字、图片、视频、声音等信息,因此,本说明书及权利要求中的短信包括普通的文字短信和多媒体短信,或称为彩信。例如,接收到内容为“某楼盘开盘优惠,详询电话88888888”的短信,以下简称短信A。步骤S120,将短信的内容与拦截数据库中的垃圾短信进行对比。垃圾短信是指并非用户所需要且对用户造成騷扰的短信,例如广告短信、诈骗短信、诱使用户预定某些业务的短信等。通过将垃圾短信预先存储到拦截数据库中,在收到短信时,进行对比,以判断收到的短信是否是垃圾短信。拦截数据库中存储的垃圾短信可以是垃圾短信的全文,也可以是垃圾短信的哈希(Hash)值。拦截数据库可以由服务器对被认定为垃圾短信的短信采用云计算的方式获得,可以对恶意短信实现更有效的过滤,并且大量的短信样本,能够有效降低短信的误判率。对比的过程中,对比的方式可以是逐个对比,例如逐个文字、逐个图片、逐个视频等;也可以是统计相同的文字、图片、视频、声音的个数;还可以是计算哈希(Hash) 值进行对比等。步骤S130,判断短信的内容与垃圾短信的相似度是否大于阈值。对于逐个对的情况,如果逐个对比都相同,即短信内容完全相同,可以认为相似度大于阈值,反之认为不大于阈值。这种方式在发送方号码变化的情况依然能够识别出垃圾短信,同时降低误判发生的可能性。例如拦截数据库中已经有垃圾短信“某楼盘开盘优惠, 详询电话88888888”的内容,由于内容完全相同,可以认为短信A与垃圾短信的相似度大于阈值。逐个对比的方式需要存储大量的短信内容,容易增加存储量,并且逐个对比也需要较大的计算量,为此,在一实施例中,将短信的内容与拦截数据库中的垃圾短信进行对比的步骤S120为将短信的哈希值与拦截数据库存储的垃圾短信的哈希值进行对比;判断短信的内容与所述垃圾短信的相似度是否大于阈值的步骤S130为判断短信的哈希值与垃圾短信的哈希值是否相同,如果相同则认为大于阈值,如果不同则认为不大于阈值。例如拦截数据库中已经有垃圾短信“某楼盘开盘优惠,详询电话88888888”的哈希值,由于与收到的短信A内容完全相同,哈希值也就相同,可以认为相似度大于阈值。这种方式对于大面积传播的垃圾短信尤为有效,只需要存储哈希值和计算哈希值进行对比即可,可以大量降低存储容量的要求和计算量的要求。对于短信制造者故意用生僻字或错别字来替换短信内容中的个别文字,以避免被逐个对比或计算哈希值的方式识别为垃圾短信的情况,在一实施例中,将短信的内容与拦截数据库中的垃圾短信进行对比的步骤S120为统计短信与垃圾短信相同汉字占短信和垃圾短信的总字数、短信的字数或垃圾短信字数的百分比;判断短信的内容与垃圾短信的相似度是否大于阈值的步骤S130为判断所述百分比是否大于预定百分比,如果大于则认为大于阈值,如果不大于则认为不大于阈值。例如拦截数据库中已经有垃圾短信“某楼盘开盘大幅让利,详询电话88888888”的内容,虽然与短信A的内容不完全相同,但大多数文字相同,短信A与垃圾短信相同汉字占总字数的42.5%,设定的阈值如果是35%,则认为大于阈值。通过这种方式,即使进行了个别字的替换或省略,依然能够被识别为垃圾短信。该预定百分比可以采用默认值,也可以由系统根据短信内容的长短自动调整,或者由用户自行设定。例如,在采用收到的短信与对比的垃圾短信相同汉字占收到的短信和对比的垃圾短信的总字数计算百分比时,可以将百分比适当设低,例如35% ;在采用收到的短信与对比的垃圾短信相同汉字占对比的垃圾短信字数的百分比时,可以将百分比适当设高,例如70%。步骤S140,如果大于阈值,则拦截所述短信。对于应用在普通用户的手机中的情形,拦截的方式可以是将短信放入垃圾短信文件夹、将短信放入已删除短信文件夹、将短信彻底删除、或者在短信上添加区分标记等。通过添加区分标记,可以让用户快速了解到该短信是垃圾短信,并且用户还可以用正常的方式查看,避免产生误判时被错误的删除或者被移动到用户不容易发现的位置。对于应用在移动运营商的短信处理设备中的情形,可以直接不下发所述短信,或者在短信上添加区分标记等。上述短信拦截方法通过将短信的内容与拦截数据库中的垃圾短信进行对比,根据短信的内容与垃圾短信的相似度确定是否拦截,在发送方号码变化的情况依然能够识别出垃圾短信,同时降低误判发生的可能性,能够有效拦截垃圾短信。如图2所示,另一实施方式的短信拦截方法,包括如下步骤步骤S200,通过网络下载更新拦截数据库。可以由用户主动下载更新垃圾短信的拦截数据库,也可以定期自动下载更新垃圾短信的拦截数据库。通过不断更新拦截数据库, 可以更有效拦截新出现的垃圾短信。步骤S210至步骤S230与步骤SllO至步骤S130相同,不再赘述。如果步骤S230的判断结果为否,则进入步骤S240,判断所述短信的发送号码是否在拦截数据库中的垃圾短信发送号码列表中,如果是,则进入步骤S250拦截所述短信;如果否,则流程结束。通过在拦截数据库中存储垃圾短信发送号码列表,对于经常发送垃圾短信的发送号码,即便其更换短信内容,也可以有效拦截。为了使拦截数据库对新出现的垃圾短信也有效,在优选的实施例中,短信拦截方法还包括将用户主动认定为垃圾短信的短信上传以增加拦截数据库中的垃圾短信的步骤。 对于新“创造”出来的短信,由于拦截数据库中没有存储,可能无法实现拦截,如果用户发现其为垃圾短信,可以对该短信进行标记。在用户对该短信进行标记后,将该短信上传到拦截数据库,上传的内容可以包括短信内容、发送号码等。上传成功后,其他用户如果更新了拦截数据库,就会对这种新的垃圾短信有“免疫”功能,能有效拦截该垃圾短信。部分情况下,拦截数据库会存储一些错误的信息,误将正常的短信也纳入到垃圾短信中,为此,在优选的实施例中,短信拦截方法还包括将用户主动撤销为垃圾短信的短信上传以删除所述拦截数据库中的垃圾短信的步骤。当然,拦截数据库中记录的增加和删除可以设定一些条件,例如增加或删除申请的次数要达到预定次数才能进行增加或删除,如此,只有很多用户认为是垃圾短信时才增力口,很多用户认为存在错误时才进行删除。此外,还提供了一种短信拦截系统,如图3所示,短信拦截系统300包括通信装置 310、存储装置320及处理装置330。通信装置310用于接收短信。对于短信拦截系统应用在普通用户的手机中的情形,通信装置310为移动通信模块,例如GSM或者3G的移动通信模块等,通信装置310通过移动运营商的移动通信网络接收短信。对于应用在移动运营商的短信处理设备中的情形, 通信装置310可以是基站或者互联网设备,接收发送方手机发送的短信或者通过互联网接收发送方发送的短信等。收到的短信包括短信内容、短信的发送号码及时间等信息。这里的短信内容包括文字、图片、视频、声音等信息,因此,本说明书及权利要求中的短信包括普通的文字短信和多媒体短信,或称为彩信。例如,接收到内容为“某楼盘开盘优惠,详询电话 88888888”的短信,以下简称短信A。存储装置320用于存储拦截数据库。拦截数据库中可以设置有垃圾短信的短信内容、发送号码等,还可以设置对短信内容进行计算处理后的哈希值。垃圾短信是指并非用户所需要且对用户造成騷扰的短信,例如广告短信、诈骗短信、诱使用户预定某些业务的短信等。拦截数据库可以由服务器对被认定为垃圾短信的短信采用云计算的方式获得,可以对恶意短信实现更有效的过滤,并且大量的短信样本,能够有效降低短信的误判率。处理装置330与通信装置310及存储装置相连,将短信的内容与拦截数据库中的垃圾短信进行对比,判断短信的内容与垃圾短信的相似度是否大于阈值,如果大于阈值,则拦截所述短信。对于应用在普通用户的手机中的情形,拦截的方式可以是将短信放入垃圾短信文件夹、将短信放入已删除短信文件夹、将短信彻底删除、或者在短信上添加区分标记等。通过添加区分标记,可以让用户快速了解到该短信是垃圾短信,并且用户还可以用正常的方式查看,避免产生误判时被错误的删除或者被移动到用户不容易发现的位置。对于应用在移动运营商的短信处理设备中的情形,可以直接不下发所述短信,或者在短信上添加区分标记等。对于逐个对比的情况,如果逐个对比都相同,即短信内容完全相同,可以认为相似度大于阈值,反之认为不大于阈值。这种方式在发送方号码变化的情况依然能够识别出垃圾短信,同时降低误判发生的可能性。例如拦截数据库中已经有垃圾短信“某楼盘开盘优惠,详询电话88888888”的内容,由于内容完全相同,可以认为短信A与垃圾短信的相似度大于阈值。逐个对比的方式需要存储大量的短信内容,容易增加存储量,并且逐个对比也需要较大的计算量,为此,在一实施例中,处理装置330将短信的内容与拦截数据库中的垃圾短信进行对比,判断短信的内容与垃圾短信的相似度是否大于阈值具体为将短信的哈希值与拦截数据库存储的垃圾短信的哈希值进行对比,判断短信的哈希值与垃圾短信的哈希值是否相同,如果相同则认为大于阈值,如果不同则认为不大于阈值。例如拦截数据库中已经有垃圾短信“某楼盘开盘优惠,详询电话88888888”的哈希值,由于与收到的短信A内容完全相同,哈希值也就相同,可以认为相似度大于阈值。这种方式对于大面积传播的垃圾短信尤为有效,只需要存储哈希值和计算哈希值进行对比即可,可以大量降低存储容量的要求和计算量的要求。对于短信制造者故意用生僻字或错别字来替换短信内容中的个别文字,以避免被逐个对比或计算哈希值的方式识别为垃圾短信的情况,在一实施例中,处理装置330将短信的内容与拦截数据库中的垃圾短信进行对比,判断短信的内容与垃圾短信的相似度是否大于阈值具体为统计短信与所述垃圾短信相同汉字占短信和垃圾短信的总字数、短信的字数或垃圾短信字数的百分比,判断所述百分比是否大于预定百分比,如果大于则认为大于阈值,如果不大于则认为不大于阈值。例如拦截数据库中已经有垃圾短信“某楼盘开盘大幅让利,详询电话88888888 ”的内容,虽然与短信A的内容不完全相同,但大多数文字相同, 短信A与垃圾短信相同汉字占总字数的42.5%,设定的阈值如果是35%,则认为大于阈值。 通过这种方式,即使进行了个别字的替换或省略,依然能够被识别为垃圾短信。该预定百分
8比可以采用默认值,也可以由系统根据短信内容的长短自动调整,或者由用户自行设定。例如,在采用收到的短信与对比的垃圾短信相同汉字占收到的短信和对比的垃圾短信的总字数计算百分比时,可以将百分比适当设低,例如35% ;在采用收到的短信与对比的垃圾短信相同汉字占对比的垃圾短信字数的百分比时,可以将百分比适当设高,例如70%。
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
1.一种短信拦截方法,包括以下步骤接收短信;将所述短信的内容与拦截数据库中的垃圾短信进行对比;判断所述短信的内容与所述垃圾短信的相似度是否大于阈值;如果大于阈值,则拦截所述短信。
2.根据权利要求1所述的短信拦截方法,其特征在于,所述将所述短信的内容与拦截数据库中的垃圾短信进行对比的步骤为将所述短信的哈希值与所述拦截数据库存储的垃圾短信的哈希值进行对比;所述判断所述短信的内容与所述垃圾短信的相似度是否大于阈值的步骤为判断所述短信的哈希值与所述垃圾短信的哈希值是否相同,如果相同则认为大于阈值,如果不同则认为不大于阈值。
3.根据权利要求1所述的短信拦截方法,其特征在于,所述将所述短信的内容与拦截数据库中的垃圾短信进行对比的步骤为统计所述短信与所述垃圾短信相同汉字占总字数的百分比;所述判断所述短信的内容与所述垃圾短信的相似度是否大于阈值的步骤为判断所述百分比是否大于预定百分比,如果大于则认为大于阈值,如果不大于则认为不大于阈值。
4.根据权利要求1所述的短信拦截方法,其特征在于,所述拦截所述短信的步骤为将所述短信放入垃圾短信文件夹、将所述短信放入已删除短信文件夹、将所述短信彻底删除、 或者在所述短信上添加区分标记。
5.根据权利要求1所述的短信拦截方法,其特征在于,还包括判断所述短信的发送号码是否在拦截数据库中的垃圾短信发送号码列表中的步骤,如果是,则拦截所述短信。
6.根据权利要求1至5中任意一项所述的短信拦截方法,其特征在于,还包括通过网络下载更新拦截数据库的步骤。
7.根据权利要求6所述的短信拦截方法,其特征在于,还包括将用户主动认定为垃圾短信的短信上传以增加所述拦截数据库中的垃圾短信的步骤。
8.根据权利要求6所述的短信拦截方法,其特征在于,还包括将用户主动撤销为垃圾短信的短信上传以删除所述拦截数据库中的垃圾短信的步骤。
9.一种短信拦截系统,其特征在于,包括通信装置,用于接收短信;存储装置,用于存储拦截数据库;处理装置,与所述通信装置及所述存储装置相连,将所述短信的内容与拦截数据库中的垃圾短信进行对比,判断所述短信的内容与所述垃圾短信的相似度是否大于阈值,如果大于阈值,则拦截所述短信。
10.根据权利要求9所述的短信拦截系统,其特征在于,所述处理装置将所述短信的内容与拦截数据库中的垃圾短信进行对比,判断所述短信的内容与所述垃圾短信的相似度是否大于阈值具体为将所述短信的哈希值与所述拦截数据库存储的垃圾短信的哈希值进行对比,判断所述短信的哈希值与所述垃圾短信的哈希值是否相同,如果相同则认为大于阈值,如果不同则认为不大于阈值。
11.根据权利要求9所述的短信拦截系统,其特征在于,所述处理装置将所述短信的内容与拦截数据库中的垃圾短信进行对比,判断所述短信的内容与所述垃圾短信的相似度是否大于阈值具体为统计所述短信与所述垃圾短信相同汉字占总字数的百分比,判断所述百分比是否大于预定百分比,如果大于则认为大于阈值,如果不大于则认为不大于阈值。
全文摘要
一种短信拦截方法,包括以下步骤接收短信;将所述短信的内容与拦截数据库中的垃圾短信进行对比;判断所述短信的内容与所述垃圾短信的相似度是否大于阈值;如果大于阈值,则拦截所述短信。上述短信拦截方法,通过将短信的内容与拦截数据库中的垃圾短信进行对比,根据短信的内容与垃圾短信的相似度确定是否拦截,在发送方号码变化的情况依然能够识别出垃圾短信,同时降低误判发生的可能性,能够有效拦截垃圾短信。此外,还提供了一种短信拦截系统。
文档编号H04W4/14GK102480702SQ20101055856
公开日2012年5月30日 申请日期2010年11月24日 优先权日2010年11月24日
发明者林吓洪, 胡鹏 申请人:腾讯科技(深圳)有限公司