一种用于划分恶意文本的方法与流程

文档序号：31575971发布日期：2022-09-20 23:34阅读：来源：国知局

技术特征：
1.一种用于划分恶意文本的方法，其特征在于，包括如下步骤：步骤1，启动恶意文本检测系统；步骤2，恶意文本检测系统释放爬虫获取页面；步骤3，检测系统对爬虫获取的页面进行判定；步骤4，检测系统根据步骤3判定结果对网页分类；步骤5，检测系统收到用户访问请求，判断该网页是否包含恶意文本；若该页面未被判定则检测系统将该页面加入url集合并返回步骤3；步骤6，若该页面被判定为恶意则阻断访问，若该页面不被判定为恶意则正常访问。2.根据权利要求1所述的一种用于划分恶意文本的方法，其特征在于：步骤2中，爬虫获取页面采用爬虫调度子系统，该系统包括如下步骤：步骤2.1，启动恶意文本检测系统，爬虫调度子系统开始运行；步骤2.2，监控线程循环监控cpu和内存使用状态，若超过阈值则向爬虫线程发送结束信号，爬虫线程系统结束；若未超过阈值则向爬虫系统发送正常运行信号；步骤2.3，监控线程休眠30秒后返回步骤2.2再次进行判定；步骤2.4，爬虫线程判断当前url集合是否为空，为空则结束系统；否则从待爬取url集合中获取一个待爬取url，爬取并渲染页面，将页面更新至检测系统。3.根据权利要求1所述的一种用于划分恶意文本的方法，其特征在于：步骤3中，恶意文本检测系统检测网页是否为恶意采用恶意文本检测子系统，该系统包括如下步骤：步骤3.1，启动恶意文本检测系统，恶意文本检测子系统开始运行，等待url；步骤3.2根据url特征判断是否包含恶意文本内容；若不是则获取url关联文本并进入文本检测模型，判断是否包含恶意文本内容；步骤3.3，检测系统阻断访问判定为恶意的页面，并对其内容拆解分析，提取新特征并构建检测向量，更新检测模型。4.根据权利要求1所述的一种用于划分恶意文本的方法，其特征在于：当用户请求访问的页面未被检测系统判定，则爬虫调度子系统优先爬取该页面，且恶意文本检测子系统优先检测该页面是否为恶意网页。5.根据权利要求2所述的一种用于划分恶意文本的方法，其特征在于：步骤2.2中，若超过阈值则向爬虫线程发送结束信号，该阈值为80％cpu使用率和85％内存使用率，若任一使用率超过阈值，则向爬虫线程发送结束信号。6.根据权利要求2所述的一种用于划分恶意文本的方法，其特征在于：步骤2.2中，爬虫线程结束后cpu和内存使用率下降，若监控系统监测到cpu和内存使用率均低于阈值则向爬虫系统发送正常运行信号，爬虫线程开始运行。

技术总结
本发明属于计算机应用技术领域，具体涉及一种用于划分恶意文本的方法，包括如下步骤：步骤1，启动恶意文本检测系统；步骤2，恶意文本检测系统释放爬虫获取页面；步骤3，检测系统对爬虫获取的页面进行判定；步骤4，检测系统根据步骤3判定结果对网页分类；步骤5，检测系统收到用户访问请求，判断该网页是否包含恶意文本；若该页面未被判定则检测系统将该页面加入URL集合并返回步骤3；步骤6，若该页面被判定为恶意则阻断访问；若该页面不被判定为恶意则正常访问，本发明解决了现有的检测方法模型构建代价高、无法持续有效更新且特征向量更新慢、难以持续有效的问题。难以持续有效的问题。难以持续有效的问题。

技术研发人员：宁晓莉钟华刘瑶
受保护的技术使用者：北京天瑞宁科技有限公司
技术研发日：2022.06.06
技术公布日：2022/9/19

完整全部详细技术资料下载

当前第2页1 2