本发明涉及通信,具体涉及一种依据短信号码和内容的垃圾短信监测控制方法及系统。
背景技术:
1、垃圾短信的治理是电信运营商的一项长期工作,虽然取得了一定的成效,但各种各样垃圾短信仍然层出不穷。现有的垃圾短信监控主要聚焦在对短信内容的检测和拦截上,主要是通过计算机软件对文本语义的识别,来实现关键字(词)的匹配。短信中心对每条短信文本中匹配已经出现在垃圾短信中提取到的关键字/词,如果匹配成功,则认为该条短信为垃圾短信,阻止其下发,否则正常下发短信。由于计算机软件对文本语义的识别准确度不高,并且短信中心是一个高速存储转发设备,在短信中心内部并不适合做比较复杂的文本处理运算,只能做一些简单的文本匹配运算。因此这种方法的缺陷明显,一是容易误拦正常短信,二是这些关键字/词很容易通过“加分隔符”,“同音字替换”等手段被真正的垃圾短信绕过匹配。综上,目前需要一种依据短信号码和内容的垃圾短信监测控制方法及系统,能够使垃圾短信识别效率加快,并提高垃圾短信监测及控制的准确性。
技术实现思路
1、本发明所要解决的技术问题是利用关键字匹配和发送成功率判断垃圾短信的成功率不高,目的在于提供一种依据短信号码和内容的垃圾短信监测控制方法及系统,通过对短信发送用户进行实时监控,针对垃圾短信的内容进行相似度匹配,根据匹配结果判断是否属于垃圾短信,并及时拦截垃圾短信或者下发正常短信;使垃圾短信识别效率加快,并提高垃圾短信监测及控制的准确性;解决了以上技术问题。
2、本发明通过下述技术方案实现:
3、一种依据短信号码和内容的垃圾短信监测控制方法,包括:
4、实时读取当前用户的多个短信发送记录,根据采集时间内,该用户是否向超过预设数量的同一运营商基站范围的号码发送短信,判断该用户是否异常;如果是,则进入下一步骤;否则,继续处理当前用户的下一短信发送记录;
5、读取该用户在判定为异常后发送的每条短信,判断每条短信的长度是否小于预设字数,如果是,则该短信是正常短信,并下发该短信;否则,分别计算每条短信与多个垃圾短信模板的相似度,判断最高相似度是否属于预设相似度阈值,如果是,则表示该短信为垃圾短信;否则,该短信为正常短信,并下发该短信。
6、上述根据采集时间内,该用户是否向超过预设数量的同一运营商基站范围的号码发送短信,判断该用户是否异常,包括:通过大数据学习得到用于判断短信是否为异常的异常短信监测模型;利用上述异常短信监测模型判断当前用户是否异常。
7、上述通过大数据学习得到用于判断短信是否为异常的异常短信监测模型,包括:读取多个用户的多个短信发送历史记录,并统计各用户在采集时间内向不同手机号码发送短信的发送数量;获取多组短信历史数据;每组上述短信历史数据包括用户的多个上述短信发送记录、上述采集时间、运营商基站位置、上述发送数量,以及用于标记各短信是否异常的异常标记;将多组上述短信历史数据输入神经网络模型中进行训练,得到上述异常短信监测模型。
8、上述判断最高相似度是否属于预设相似度阈值,如果是,则表示该短信为垃圾短信;否则,该短信为正常短信,并下发该短信后,还包括:将多个正常短信和多个上述垃圾短信通过机器学习训练得到垃圾短信相似度模型,利用上述垃圾短信相似度模型判断短信是否为垃圾短信。
9、上述分别计算每条短信与多个垃圾短信模板的相似度,包括:将各短信的每个字加入第一集合,将当前一个上述垃圾短信模板的每个字加入第二集合;利用第一集合和第二集合计算该短信和各上述垃圾短信模板的相似度。
10、上述利用第一集合和第二集合计算该短信和各上述垃圾短信模板的相似度,表示为:
11、s=(s1∩s2)/(s1∪s2);
12、式中,s表示当前短信和各上述垃圾短信模板的相似度;s1表示上述第一集合的元素个数;s1表示上述第二集合的元素个数。
13、上述判断最高相似度是否属于预设相似度阈值,如果是,则表示该短信为垃圾短信;否则,该短信为正常短信,包括:当满足0.9≤s1≤1时,该短信为垃圾短信;否则,该短信为正常短信。
14、上述分别计算每条短信与多个垃圾短信模板的相似度,判断最高相似度是否属于预设相似度阈值,如果是,则表示该短信为垃圾短信,还包括:把垃圾短信的相关信息保存到垃圾箱中供人员审核。
15、一种依据短信号码和内容的垃圾短信监测控制系统,包括:
16、短信发送号码特征分析检测平台:从短信中心中实时采集当前用户的日志文件,读取日志文件中的多个短信发送记录;根据采集时间内,该用户是否向超过预设数量的同一运营商基站范围的号码发送短信,判断该用户是否异常;如果是,则要求短信中心将该用户在判定为异常后发送的每条短信,转发至短信内容相似度分析及管控系统;否则,继续处理当前用户的下一短信发送记录;
17、短信内容相似度分析及管控系统:读取该用户在判定为异常后发送的每条短信,判断每条短信的长度是否小于预设字数,如果是,则该短信是正常短信,并下发该短信;否则,分别计算每条短信与多个垃圾短信模板的相似度,判断最高相似度是否属于预设相似度阈值,如果是,则表示该短信为垃圾短信;否则,该短信为正常短信,并下发该短信。
18、上述短信中心包括高速短信下发模块、短信转发模块和日志文件模块;上述短信发送号码特征分析检测平台包括数据采集模块和发送记录数据库;上述短信内容相似度分析及管控系统包括短信接收模块、垃圾箱、垃圾短信库和短信下发模块;
19、上述高速短信下发模块用于实时采集用户的日志文件,并将日志文件转发到上述数据采集模块;上述数据采集模块用于读取日志文件中用户的多个短信发送记录,并将多个短信发送记录存储到上述发送记录数据库;
20、上述短信转发模块用于当该用户在判定为异常后,将该用户为异常后发送的每条短信转发到上述短信接收模块;否则,继续处理当前用户的下一短信发送记录;
21、上述垃圾短信库用于存储多个垃圾短信模板;上述垃圾箱用于当根据每条短信与多个垃圾短信模板的相似度,判断出该短信为垃圾短信时,存储该短信;上述短信下发模块用于当根据每条短信与多个垃圾短信模板的相似度,判断出该短信为正常短信时,下发该短信。
22、本发明与现有技术相比,具有如下的优点和有益效果:
23、本发明基于用户发送短信的异常行为进行监测,针对正在发送垃圾短信的异常号码,将其发送的每条短信与垃圾短信库中的垃圾短信进行逐条比较,如果匹配到高度相似的垃圾短信,则说明该短信为垃圾短信,阻止其下发,否则把它当做正常短信下发。由于不同时段异常号码需要处理短信数量较少,所以对处理能力要求并不高,在短信后续重新下发中,对用户不会产生明显的延迟感觉。本发明通过对短信发送用户进行实时监控,针对垃圾短信的内容进行相似度匹配,根据匹配结果判断是否属于垃圾短信,并及时拦截垃圾短信或者下发正常短信;解决了利用关键字匹配和发送成功率判断垃圾短信的成功率不高的问题,并且提高了垃圾短信的监测及控制效率。