本发明涉及网络安全,具体涉及一种基于日志信息的集装箱行业电商网站攻击识别方法。
背景技术:
1、集装箱行业的电子商务平台在每天面对大量用户访问的同时,也会遇到不法人员的攻击,主要包括频繁调用货物跟踪,船期查询等航运网站通用功能,用户检查接口获取网站用户信息,上传脚本文件等。这些请求往往有着正确的请求方式,难以被waf,cdn等发现并及时拦截,造成一定程度上的网站数据被爬取和恶意访问。
2、现有技术利用集装箱行业电商网站日志平台记录的日志信息去设置一些简单的报警规则:例如,登录账号密码输入错误次数达到阈值后告警;同一ip在一定时间范围内请求达到一定次数后告警,或者同一ip访问某一url在一定时间范围内请求达到一定次数后告警等。然而,这些报警规则的功能比较单一,不能基于集装箱行业电商网站特性去综合分析一个ip的行为,存在遗漏和误判的可能性较大,还需人工去分析日志信息并判断一个ip是否为攻击或者爬虫ip。因此,亟需针对集装箱行业电子商务平台的特点,定制一套完整的监控预警方法。
技术实现思路
1、本发明解决现有技术不能基于集装箱行业电商网站特性综合分析一个ip的行为,导致集装箱行业电商网站攻击被遗漏和误判的问题,提出一种基于日志信息的集装箱行业电商网站攻击识别方法,针对集装箱行业电子商务平台的特点,基于集装箱行业电商网站记录的日志信息,自动判断识别可疑用户ip,实现及时的报警与监控。
2、本发明要求保护的技术方案如下:
3、一种基于日志信息的集装箱行业电商网站攻击识别方法,包括如下步骤:
4、s1:数据收集:收集一批被判定为攻击行为的ip的日志信息,作为反例,收集一批正常行为的ip的日志信息,作为正例;所述正例和反例的数目相同;
5、s2:特征提取和数据预处理:将s1收集的日志信息,针对集装箱行业电商网站的日志信息的特点,针对同一ip根据日志特征提取其对应的所有日志特征信息,并对同一ip对应的各日志特征信息进行整理,然后汇总;
6、s3:数据拆分:s1中正例和反例经s2处理后各取相同比例作为训练集,剩余的作为测试集;
7、s4:模型训练:根据s3中得到的训练集,采用svm算法,进行模型训练,初步得到svm分类模型;
8、s5:模型效果测试:根据评价标准计算模型效果,计算s4中初步得到svm分类模型的效果,若评价指标达到设置值,则模型训练完成;否则,回到s4重新进行模型训练;
9、s6:监控与报警:s5训练完成的svm分类模型对实时获取的所有ip对应的日志信息分别进行预测,自动识别攻击行为的ip,并对攻击行为的ip进行监控和报警;
10、s61:设置定时任务,获取集装箱行业电商网站中某一时间段内的所有ip对应的日志信息;
11、s62:s61得到的所有ip对应的日志信息进行s2所述特征提取和数据预处理;
12、s63:通过s5训练完成的svm分类模型对s62处理后的同一ip的日志信息进行预测,判断是否存在攻击行为的ip;
13、s64:对判定为攻击行为的ip,进行监测和报警。
14、优选地,s1中所述被判定为攻击行为的ip,包括cdn识别到的攻击行为的ip和电商网站的应用服务器判定的攻击行为的ip。
15、优选地,s1中所述日志信息包括ip,url,请求方式,请求时间,user-agent,返回状态。
16、优选地,s2中所述的日志特征信息包括请求次数、是否调用上传接口、上传接口的次数、上传不合规的文件数目、登录错误次数、验证码错误次数、http请求方法、调用api的方式、响应状态码非20x/30x次数、平均每分钟是否以固定频率访问、请求包含攻击/测试信息、user-agent中信息以及请求货物跟踪/船期查询等重要查询功能的次数。
17、优选地,s3中训练集从正例和反例中各取80%,其余的作为测试集;所述训练集采用svm算法训练得到svm分类模型。
18、s5模型测试效果使用f1值作为方法性能的评价指标,所述f1的计算公式为:
19、f1=2pr/(p+r)
20、其中,p是精确率,r是召回率;所述精准率代表对正样本结果中的预测准确程度;所述召回率指分类正确的正样本个数占正样本个数的比例;所述精确率和召回率的计算公式如下:
21、精确率:p=tp/(tp+fp)
22、召回率:r=tp/(tp+fn)
23、其中,tp代表预测正确的正例样本数量,fp代表预测错误的反例样本数量,fn代表预测错误的正例样本数量。
24、优选地,s6在所述svm分类模型训练完成后进行,s61中所述的某一时间段为10分钟。
25、优选地,s5中所述设定值为0.7,f1的值大于等于所述设定值0.7时,模型效果测试合格,svm分类模型训练完成。
26、有益效果:
27、本发明提供一种基于日志信息的集装箱行业电商网站攻击识别方法,专门针对集装箱行业的电子商务平台中的日志信息进行收集和整理,分别收集一批被判定为攻击行为的ip的日志信息,作为反例,收集一批正常行为的ip的日志信息,作为正例;为了消除某一类样本的数量偏高导致的结果偏差,保证模型预测的准确性,所述正例和反例的数目相同;根据日志信息的特点,针对同一ip某一时间段内的日志信息,提取日志特征信息,去除日志信息中的冗余和噪声,减少数据的维度,提高数据的处理效率,并根据提取的日志特征信息对日志信息进行整理和汇总,正例和反例经上述处理后各取相同比例作为训练集采用svm算法训练初步得到svm分类模型,并采用测试集对初步建立的svm分类模型进行效果预测,模型效果预测合格后得到训练完成的svm分类模型,如果模型效果预测不合格则需对模型进行重新训练,从而使得模型预测结果最优,保证模型预测的准确性;svm分类模型对攻击行为进行预测时,自动判断攻击行为的ip,并对攻击行为的ip进行监控和报警,解决现有技术不能基于集装箱行业电商网站特性综合分析一个ip的行为,导致集装箱行业电商网站攻击被遗漏和误判的问题。
28、s1收据收集步骤中,所述被判定为攻击行为的ip包括cdn识别到的攻击行为的ip和电商网站的应用服务器判定的攻击行为的ip,保证收集到的攻击行为的ip的完整性和广泛性,从而使得建立的模型预测的准确性。
29、所述svm分类模型训练完成后,对实时获取的所有ip对应的日志信息进行预测时,设置定时任务,获取集装箱行业电商网站中10分钟内的所有ip对应的日志信息,这个10分钟是一段相对适中的时间,能够积累一定数目的日志,保障用于预测的数据量,还能在一定程度上保障及时性,尽早判断出攻击ip,便于有效拦截。
30、本发明针对中远海运集运电子商务平台的日志信息特点,实现一套全新的基于日志信息的监控报警系统,能够在较短时间内,根据用户的访问记录,通过训练好的模型,较为准确地识别非正常用户的请求,达到及时告警的目的。