一种用于划分恶意文本的方法与流程

文档序号:31575971发布日期:2022-09-20 23:34阅读:来源:国知局

技术特征:
1.一种用于划分恶意文本的方法,其特征在于,包括如下步骤:步骤1,启动恶意文本检测系统;步骤2,恶意文本检测系统释放爬虫获取页面;步骤3,检测系统对爬虫获取的页面进行判定;步骤4,检测系统根据步骤3判定结果对网页分类;步骤5,检测系统收到用户访问请求,判断该网页是否包含恶意文本;若该页面未被判定则检测系统将该页面加入url集合并返回步骤3;步骤6,若该页面被判定为恶意则阻断访问,若该页面不被判定为恶意则正常访问。2.根据权利要求1所述的一种用于划分恶意文本的方法,其特征在于:步骤2中,爬虫获取页面采用爬虫调度子系统,该系统包括如下步骤:步骤2.1,启动恶意文本检测系统,爬虫调度子系统开始运行;步骤2.2,监控线程循环监控cpu和内存使用状态,若超过阈值则向爬虫线程发送结束信号,爬虫线程系统结束;若未超过阈值则向爬虫系统发送正常运行信号;步骤2.3,监控线程休眠30秒后返回步骤2.2再次进行判定;步骤2.4,爬虫线程判断当前url集合是否为空,为空则结束系统;否则从待爬取url集合中获取一个待爬取url,爬取并渲染页面,将页面更新至检测系统。3.根据权利要求1所述的一种用于划分恶意文本的方法,其特征在于:步骤3中,恶意文本检测系统检测网页是否为恶意采用恶意文本检测子系统,该系统包括如下步骤:步骤3.1,启动恶意文本检测系统,恶意文本检测子系统开始运行,等待url;步骤3.2根据url特征判断是否包含恶意文本内容;若不是则获取url关联文本并进入文本检测模型,判断是否包含恶意文本内容;步骤3.3,检测系统阻断访问判定为恶意的页面,并对其内容拆解分析,提取新特征并构建检测向量,更新检测模型。4.根据权利要求1所述的一种用于划分恶意文本的方法,其特征在于:当用户请求访问的页面未被检测系统判定,则爬虫调度子系统优先爬取该页面,且恶意文本检测子系统优先检测该页面是否为恶意网页。5.根据权利要求2所述的一种用于划分恶意文本的方法,其特征在于:步骤2.2中,若超过阈值则向爬虫线程发送结束信号,该阈值为80%cpu使用率和85%内存使用率,若任一使用率超过阈值,则向爬虫线程发送结束信号。6.根据权利要求2所述的一种用于划分恶意文本的方法,其特征在于:步骤2.2中,爬虫线程结束后cpu和内存使用率下降,若监控系统监测到cpu和内存使用率均低于阈值则向爬虫系统发送正常运行信号,爬虫线程开始运行。

技术总结
本发明属于计算机应用技术领域,具体涉及一种用于划分恶意文本的方法,包括如下步骤:步骤1,启动恶意文本检测系统;步骤2,恶意文本检测系统释放爬虫获取页面;步骤3,检测系统对爬虫获取的页面进行判定;步骤4,检测系统根据步骤3判定结果对网页分类;步骤5,检测系统收到用户访问请求,判断该网页是否包含恶意文本;若该页面未被判定则检测系统将该页面加入URL集合并返回步骤3;步骤6,若该页面被判定为恶意则阻断访问;若该页面不被判定为恶意则正常访问,本发明解决了现有的检测方法模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问题。难以持续有效的问题。难以持续有效的问题。


技术研发人员:宁晓莉 钟华 刘瑶
受保护的技术使用者:北京天瑞宁科技有限公司
技术研发日:2022.06.06
技术公布日:2022/9/19
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1