专利名称:一种群发垃圾短信的监管方法
技术领域:
本发明属于无线通信技术领域的短信息处理技术,具体来讲,涉及一种在 无线通信系统的短信服务中心对海量短信流进行智能监管的方法。
背景技术:
随着通信技术的快速发展及应用领域的不断拓展,催生了诸多移动增值业 务。短信作为移动增值业务的重要应用服务模式之一,为用户提供了方便快捷 和价格低廉的通信服务,同时,某些非法分子利用短信通信平台传播淫秽色情、 恶意人格诋毁、虚假欺诈、煽动动乱、传播谣言、危害公共安全以及非法商业
广告等垃圾短信。据有关统计国内短信业务2001年190亿条,2002年900亿条, 2003年1600亿条,2004年2177亿条,2005年4296亿条,2006年已经达4500 亿条左右,其中垃圾短信约占30%。在2008年315晚会报道的关于手机垃圾短 信的调査,几乎所有的手机用户都收到过垃圾信息,这些垃圾信息背后隐藏着 巨大的利益链,记者调查发现,仅2007年,垃圾短信发送者每个季度的利益收 益同比增长都达到250%以上,单个季度的非法牟利髙达1400万美元。据有关 手机短信状况调査报我国手机用户平均每周收到8.29条垃圾短信,其中商品 广告、欺诈类短信居多。这些垃圾短信严重干扰人们生活、妨害社会安全以及 造成网络拥塞,垃圾短信的监管问题已经受到社会各界的广泛重视。除了从政 策法规层面加强对垃圾短信传播进行监管外,更重要的是要从技术层面探索垃 圾短信有效的防范技术,研究高效的短信监管方法,开发适合海量短信流中的 垃圾短信监管系统。
在现有的垃圾短信拦截技术中,主要有两种垃圾短信过滤模式 一种是在 短信服务中心安装短信监管过滤系统对垃圾短信进行拦截;另外一种是在用户 的手机终端配置相应短信过滤软件对垃圾短信过滤。
在短信服务中心过滤垃圾短信的方法主要采用短信内容分析的关键词提取 技术、用户黑名单以及机器分类学习等技术,对每条短信逐一检测或直接拦截,实时对垃圾短信进行过滤。例如1、在专利号为ZL200720112853.X,发明名称 为"短信息监控中心"的实用新型专利中,主要使用关键字语音模糊匹配、短 信发送频率统计、群发短信MD5检测、关键字黑名单过滤以及贝叶斯分类等技 术对垃圾短信进行逐条过滤;2、在申请号为"200710135019.7",名称为"一种 垃圾短信实时拦截方法与系统"的发明专利申请中,在短信服务中心,使用黑 名单以及短信关键字分析技术对垃圾短信进行拦截,在华为公司申请的,专利 号为ZL200510117448.2,发明名称为"一种处理垃圾短信息的方法与系统"中, 用户在短信服务中心建立号码列表,短信服务中心根据号码列表屏蔽号码列表 中用户短信,并生成投诉消息发往短信发送方的短信服务中心,当该号码的投 诉消息数量超过阈值时,发送方的短信服务中心禁止该号码发送短信。
在某些高端商务手机配置垃圾短信过滤软件的方法主要是由手机用户在自 己的手机上配置希望接收或拒绝短信的手机号码,或者设定过滤关键词等技术。 例如1、在申请号为"02137133.4",名称为"一种手机短消息过滤方法"的发 明专利中,采用了在用户手机终端设置敏感关键词,对含有敏感关键词的短信 进行过滤;2、在专利号为"ZL 200410042668.3",名称为"手机过滤短消息的 一种方法"中在用户手机终端采用了设置用户拟接收短信的短信源电话号码, 拒绝接收此号码以外的短信源发送的短信。但这种在手机终端配置过滤软件的 过滤模式受手机处理能力、关键词涵盖面、手机用户成本增加以及拦截规则的 即时更新的制约,难于对传播危害公共安全和色情淫秽的垃圾短信进行有效拦 截。
在短信服务中心安装短信监管过滤系统对垃圾短信拦截,是一种面向全局 的社会行为,可以根据国家和社会安全的需要对垃圾短信进行拦截,特别对煽 动动乱、传播谣言和危害公共安全的垃圾短信进行主动过滤,防止谣言的传播。 因此,在短信服务中心对垃圾短信进行过滤处理的方法仍是目前的主流技术。 已有一些企业推出了具有一定过滤能力的短信监管系统。例如北京启明星辰 信息技术有限公司推出的短消息监控系统、北京宏基联合网络技术开发有限公
司的短信过滤系统SMS等。
在短信服务中心对垃圾短信进行过滤的现有方法,缺点(1)在短信服务 中心采用对短信进行内容或关键词逐条分析的过滤方法,这种在短信服务中心采用单一逐条分析方法,难于适用海量短信流的分析处理,容易造成短信服务 中心网络堵塞;(2) —般来讲,垃圾短信具有群发特性,现有的群发短信过滤 方法,当短信群发量达到一定数量时,认为是群发垃圾短信,简单地采用禁止 或限制该短信源发送短信的方法,实现群发垃圾短信的监管,但某些群发短信 可能不是垃圾短信,如节日里祝福短信,该方法有失合理性。
发明内容
本发明在于克服上述现有技术的不足,提供一种高效合理的、适用于海量 短信流的群发垃圾短信监管方法。
为实现上述发明目的,本发明的群发垃圾短信的监管方法,包括以下步骤
(1) 、用短信流量采集模块对短信流进行流量采集,并存储在短信流量库
中;
(2) 、垃圾短信日志库存储垃圾短信的拦截情况,并用日志分析模块对垃 圾短信日志库进行日志分析,得到垃圾短信在时间上的频繁区和非频繁区;
(3) 、建立两个短信缓存区,交替接收并缓存短信流,当一个缓存区已满
或缓存时间大于设定时间时,停止接收和缓存,并启动另外一个缓存区接收并
缓存可疑短信流;
(4) 、短信流量预测模块根据短信流量库中的流量统计,预测得到当前短 信流量;
(5) 、根据当前短信流的流量以及当前时间位于垃圾短信在时间上的频繁 区还是非频繁区,采取不同的群发垃圾短信批量拦截处理策略,对己满或缓存 时间大于设定时间的缓存区中的短信进行拦截处理;
(6) 、已满或缓存时间大于设定时间的缓存区中的短信拦截处理完后,清 除该缓存区的短信,返回步骤(3)。
本发明通过建立两个交替使用的短信缓存区,将缓存的短信针对不同的流 量、垃圾短信在不同的时间的频繁情况,分别釆取不同的群发垃圾短信批量拦 截处理策略,这样可以有效地克服传统的群发垃圾短信监管方法造成的短信服 务中心网络堵塞以及监管不合理的问题。
图1是本发明群发垃圾短信监管方法的一种具体实施方式
流程具体实施方式
.
为了便于问题描述,下面将结合附图,描述本发明优选具体实施方式
。但 值得注意的是,为避免在系统所采用已知技术和功能冲淡本发明主题,在相应 描述中将被会简化或忽略。
图1是本发明群发垃圾短信监管方法的一种具体实施方式
流程图。
在本实施例中,本发明的群发垃圾短信监管方法,包括
步骤ST101:短信流量采集
用短信流量采集模块对短信流进行流量采集,并存储在短信流量库中。 步骤ST102:当前流量预测
根据短信流量库中的流量统计,预测得到当前短信流量,存入批量拦截策 略库中。
步骤ST103:进行日志分析
垃圾短信日志库存储垃圾短信的拦截情况,并用日志分析模块对垃圾短信 日志库进行日志分析,得到垃圾短信在时间上的频繁区和非频繁区。
步骤ST104:转发特权用户短信
特权用户短信主要是指短信用户定制或经有关部门审批允许发送的合法短
信,特权用户被登记在特权用户库中。在步骤ST104中,短信服务中心接收短 信流,检查短信源号码是否出现在特权用户库中,如果该短信源号码为特权用 户,则负责转发特权用户短信,否则,作为可疑短信,转交步骤ST105处理。 这样避免这些短信经过后续的复杂分析、过滤,降低短信服务中心的处理载荷。 步骤ST105:黑名单过滤
黑名单是指明确被禁止发送任何短信的短信用户或号码。黑名单库中记录 了系统禁止发送短信的短信源号码。在步骤ST105中,接收来自步骤ST104的 可疑短信,检查该短信的源号码是否在黑名单库中,如果在,则禁止转发该短 信并记入垃圾短信日志库中;否则转交步骤ST106处理。
步骤ST106:两个缓存区交替接收并缓存在建立的两个短信缓存区,交替接收并缓存来自步骤ST105的可疑短信, 当一个缓存区已满或缓存时间大于设定时间时,停止接收和缓存,并启动另外 一个缓存区接收并缓存可疑短信流
步骤ST107:批量拦截处理
根据当前短信流的流量以及当前时间位于垃圾短信在时间上的频繁区还是 非频繁区,采取不同的群发垃圾短信批量拦截处理策略,对已满或缓存时间大 于设定时间的缓存区中的短信进行拦截处理,拦截的垃圾短信存入垃圾短信日 志库。
图2-5给出当前短信流量大小以及当前时间位于垃圾短信在时间上的频繁
区还是非频繁区时的处理流程,主要根据垃圾短信的频繁时域以及预测模型预 测的未来一段时间内短信流量,分别采用不同的处理流程。 在本实施例中,
(1) 从垃圾短信日志库统计每个时间片r内发送的垃圾短信数量。每天24 小时(从零点开始)划分为若干大小为r的时间片,r取几秒到几十秒之间的值, 对时间片每天按顺序从1开始编号。
(2) 对于编号相同的时间片,按编号分别计算时间片内的垃圾短信数量大 于指定阈值的天数m并计算n与垃圾短信过滤的总天数w的比值,如果该比 值大于指定的阈值"则该时间片为垃圾短信的频繁时域区。
(3) 循环计算一天内所有频繁时域区,并存入过滤策略库。
(4) 针对频繁区和非频繁区,分别采用不同的批量拦截处理策略。 在本实施例中,短信流量是指单位时间片r内通过短信服务中心的短信条数
//,如果对于给定域值/l,某时间段内发送短信的数量^》;i,则认为该时间段 内的短信流量较大,否则认为流量较小。义的大小一般根据短信服务中心的处理 能力确定。
在一天内短信发送量的统计分布规律与人们的工作和生活节奏有着密切的 联系。本发明使用方法为将每天24小时(从零点开始)划分为若干大小为r的 时间片,r一般取几秒到几十秒之间,时间片按顺序编号,每天重新从l开始编 号。该模块统计在每个时间片通过短信服务中心短信条数,并计入短信流量数 据库,短信流量数据库的结构为曰期
时间片编号
短信条数
(1)当经过短信服务中心的当前短信流量较大,并且是垃圾短信的低发时 段即为非频繁区时, 一般情况近似认为发送短信较少短信源发送的是垃圾短信 的可能性较少,为了降低监管服务器负载,仅对在较短时间片发送大量短信的 短信源监管,并且对发送短信量超过给定阈值的短信源进行抽样,如存在垃圾 短信,则可近似认为该短信源在较近时间段发送的为垃圾短信。 其处理步骤如下,如图2所示
步骤201:交替接收并缓存可疑短信,缓冲区的大小由管理员根据系统处理 能力和单位时间片平均通过短信量确定。当一个缓冲区已满或缓存时间大于设 定时间,在本实施例中为时间片r时,另一个缓冲区用于接收可疑短信,两个缓 存区交替使用。
步骤202:判断缓存区是否已满或缓存时间大于"如果是,则将缓存区短
信交步骤203处理,否则继续缓存。
步骤203和204:建立缓存区中短信源列表,按照短信发送源的不同,分别 统计缓冲区内各短信源发送短信的数量。
步骤205和206:顺序取发送短信源,在短信中心负载较大,即当前短信流 量较大而该时段,即时间片又在垃圾短信非频繁区,对于发送短信数量小于阈 值^的短信源,可近似认为该短信源在短期内发送的是正常短信,因此作为正常 短信予以转发;否则,进入步骤207。
步骤207:对该短信源在该缓冲区的短信随机抽取一定数量的短信。
步骤208和209:根据关键词库的过滤关键词,检测短信中是否含有设定关 键词,并根据短信的内容进行分类。在本实施例中,该内容过滤主要采用贝叶 斯分类算法,其训练样本来自于正常短信库和垃圾短信库。对可疑短信进行自 动的分类,如果抽样短信中没有垃圾短信,可近似认为该短信源在缓冲区内的 短信均属正常,则交步骤210转发;否则近似认为该短信源在缓冲区内的短信 均属垃圾短信,并交步骤211拦截归档处理;转发或拦截归档后,转到步骤212。
在系统初始化时,关键词库设有初始值,根据系统的运行情况由系统管理 员对其进行灵活调整,可从垃圾短信日志库中提取新的垃圾关键词扩充到关键
词列表中。步骤212:判断短信源列表是否为空,是转到步骤213,如果不为空,则转
到步骤205。
步骤213:当缓冲区中所有短信均被处理后,则重新初始化缓冲区继续缓存
新的短信,清除短信缓存区的短信,返回步骤201处理下一个缓冲区内的短信。
(2) 当经过短信服务中心的流量较大,并且是垃圾短信的频发时段,即为 频繁区时,为了降低监管服务器负载,加强对在较短时间片发送短信量大且是
垃圾短信可能性大的短信源的监管。其处理步骤如下,如图3所示
步骤301-308处理步骤和图2中的步骤201 208相同,仅在步骤309~315
做改进
步骤309:对抽样短信进行内容和关键词分析后,判断该短信源发送垃圾短
信比例n
如果垃圾短信的比例y小于给定的阈值c,则转到步骤310,近似作为正常
短信转发该短信源在缓冲区的所有短信,发送后转到步骤316;
如果垃圾短信的比例y大于等于给定的阈值",则转到步骤311,拦截并归
档该短信源在缓冲区的所有短信并转到步骤316;
如果垃圾短信的比例y大于给定的阈值c且小于给定的阈值",则转到步骤
312,检査该短信源在缓冲区的所有短信,然后到步骤313判断是否是垃圾短信, 如果是垃圾短信,转到步骤315,拦截并归档该短信并转到步骤316;如果不是 垃圾短信转到步骤314,转发正常短信并转到步骤316;
步骤316:判断短信源列表是否为空,是转到步骤317,如果不为空,则转 到步骤205。
步骤317:当缓冲区中所有短信均被处理后,则重新初始化缓冲区,清除短 信缓存区的短信,继续缓存新的短信,返回步骤301处理下一个缓冲区内的短信。
(3) 当经过短信服务中心的流量较小,并且是垃圾短信的频发时段,即为 频繁时域区时,监管服务器负载相对较小,此时可以加强监管力度,对缓冲区 内的所有短信源进行监管,分别对每个短信源的短信进行随机抽样,可采用如
图4所示的监管流程步骤401-403处理步骤和图2中的步骤201-203相同;
步骤404:顺序取短信源并抽样其短信; 步骤405:短信内容及关键词分析;
在步骤406中,对抽样短信进行内容和关键词分析后,如果无垃圾短信, 转到步骤407则作为正常短信转发该短信源在缓存区的所有短信,发送后转到
歩骤413;如果全为垃圾短信,可近似认为该短信源发送到该缓冲区的均为垃圾
短信的可能性很大,因此,转到步骤408,拦截并归档该短信源在缓冲区的所有 短信并转到步骤413;否则,部分为垃圾短信,转到步骤409,检查该短信源在 此缓冲区的所有短信,然后到步骤410判断是否是垃圾短信,如果是垃圾短信, 转到步骤412,拦截并归档该短信并转到步骤413;如果不是垃圾短信转到步骤 411,转发正常短信并转到步骤413;
步骤413:判断短信源列表是否为空,是转到步骤414,如果不为空,则转 到步骤404。
步骤414:当缓冲区中所有短信均被处理后,则重新初始化缓冲区,清除短 信缓存区的短信,继续缓存新的短信,返回步骤401处理下一个缓冲区内的短信。
(4)当经过短信服务中心的流量较小,并且是垃圾短信的低发时段,即为 非频繁时域区时, 一般来讲,可认为大多数短信源发送的短信均为正常短信, 同时服务器处理负载相对较小。可对缓冲区内的所有短信源进行监管,并分别
对每个短信源的短信进行随机抽样,处理流程如图5所示
步骤501~506处理步骤和图4中的步骤401~406相同;
在步骤506,对抽样短信进行内容及关键词分析后,如果无垃圾短信,则转 到步骤507,作为正常短信转发该短信源在缓存区的所有短信,发送后转到步骤 511;如果含有垃圾短信,转到步骤508,检査该短信源在此缓冲区的所有短信, 判断是否是垃圾短信,如果是垃圾短信,转到步骤510,拦截并归档该短信并转 到步骤511;如果不是垃圾短信转到步骤509,转发正常短信并转到步骤511;
歩骤511:判断短信源列表是否为空,是转到步骤512,如果不为空,则转 到步骤504。
步骤512:当缓冲区中所有短信均被处理后,则重新初始化缓冲区,清除短信缓存区的短信,继续缓存新的短信,返回步骤501处理下一个缓冲区内的短信。
尽管上面对本发明说明性的具体实施方式
进行了描述,。以便于本技术领域 的技术人员理解本发明,但应当清楚,本发明不限于具体实施方式
的范围,对 本技术领域的普通技术人员来讲,只要各种变化在所附的权利要求限定和确定 的本发明的精神和范围内,这些变化是显而易见的, 一切利用本发明构思的发 明创造均在保护之列。
权利要求
1、一种群发垃圾短信的监管方法,其特征在于,包括以下步骤(1)、用短信流量采集模块对短信流进行流量采集,并存储在短信流量库中;(2)、垃圾短信日志库存储垃圾短信的拦截情况,并用日志分析模块对垃圾短信日志库进行日志分析,得到垃圾短信在时间上的频繁区和非频繁区;(3)、建立两个短信缓存区,交替接收并缓存短信流,当一个缓存区已满或缓存时间大于设定时间时,停止接收和缓存,并启动另外一个缓存区接收并缓存可疑短信流;(4)、短信流量预测模块根据短信流量库中的流量统计,预测得到当前短信流量;(5)、根据当前短信流的流量以及当前时间位于垃圾短信在时间上的频繁区还是非频繁区,采取不同的群发垃圾短信批量拦截处理策略,对已满或缓存时间大于设定时间的缓存区中的短信进行拦截处理;(6)、已满或缓存时间大于设定时间的缓存区中的短信拦截处理完后,清除该缓存区的短信,返回步骤(3)。
2、 根据权利要求1所述的群发垃圾短信的监管方法,其特征在于,步骤(5) 所述的不同的群发垃圾短信批量拦截处理策略是当经过短信服务中心的短信流量较大,并且是垃圾短信的非频繁区时,仅 对发送短信量超过给定阈值的短信源进行抽样,如存在垃圾短信,则该短信源 在缓存区中的所有短信为垃圾短信,否则转发所有短信。
3、 根据权利要求1所述的群发垃圾短信的监管方法,其特征在于,步骤(5) 所述的不同的群发垃圾短信批量拦截处理策略是当经过短信服务中心的短信流量较大,并且是垃圾短信的频发频繁区时, 经抽样分析短信内容后,如果垃圾短信的比例大于给定的阈值",则拦截该短信 源在缓冲区的所有短信;如果垃圾短信的比例小于给定的阈值c7,则近似作为正 常短信转发该短信源在缓冲区的所有短信;否则检查该短信源在缓冲区的所有 短信,如果是垃圾短信,拦截并归档该短信,如果不是垃圾短信,转发正常短 信。
4、 根据权利要求1所述的群发垃圾短信的监管方法,其特征在于,步骤(5) 所述的不同的群发垃圾短信批量拦截处理策略是当经过短信服务中心的流量较小,并且是垃圾短信的频繁区时,抽样分析 短信内容后,如果无垃圾短信,则作为正常短信转发该短信源在缓冲区的所有 短信;如果全为垃圾短信,则拦截该短信源在缓冲区的所有短信;否则检查该短信源在此缓冲区的所有短信,如果是垃圾短信,拦截并归档该短信,如果不 是垃圾短信,转发正常短信。
5、 根据权利要求1所述的群发垃圾短信的监管方法,其特征在于,步骤(5) 所述的不同的群发垃圾短信批量拦截处理策略是当经过短信服务中心的流量较小,并且是垃圾短信的非频繁区时,对缓冲 区内的所有短信源的短信分别进行随机抽样,如果检测样本无垃圾短信,则作为正常短信转发该短信源在缓冲区的所有短信;如果有垃圾短信,则检査该短信源在此缓冲区的所有短信,如果是垃圾短信,拦截并归档该短信,如果不是 垃圾短信,转发正常短信。
全文摘要
本发明公开了一种群发垃圾短信的监管方法,通过建立两个交替使用的短信缓存区,将缓存的短信针对不同的流量、垃圾短信在不同时间的频繁情况,分别采取不同的群发垃圾短信批量拦截处理策略,这样可以有效地克服传统的群发垃圾短信监管方法造成的短信服务中心网络堵塞以及监管不合理的问题。
文档编号H04W12/00GK101415188SQ200810147720
公开日2009年4月22日 申请日期2008年11月28日 优先权日2008年11月28日
发明者彦 傅, 虎 夏, 曾金全, 引 罗, 陈安龙 申请人:电子科技大学