一种网络垃圾信息过滤优化方法

文档序号：10577322阅读：483来源：国知局

一种网络垃圾信息过滤优化方法【专利摘要】本发明公开了一种网络垃圾信息过滤优化方法，采用用逐级的hashtable结构实现，第一级是所有垃圾词的第一个字，去重后依次放进一个hashtable结构中，这个是第一级hashtable结构，后面递此数据结构。高效的层级hashtable结构，使效率达到了极致；利用通道过滤方式，把各种匹配模型有机的结合起来，使垃圾信息的过滤更具灵活性。【专利说明】一种网络垃圾信息过滤优化方法
技术领域：
[0001]本发明本技术所属的
技术领域：
是网络spam过滤领域，涉及一种网络垃圾信息过滤优化方法。【
背景技术：
】[0002]今天随互联网行业蓬勃发展，随之而来的却是垃圾信息泛滥，包括欺诈、色情、反动、虚假广告等信息充斥着互联网的各个角落。这些信息不仅严重扰乱了网络秩序，更使网民遭受重大损失，平台运营方也面临着各方面巨大的压力，为此不得不投入巨大的人力、财力、物力，但往往仍然不能全面肃清垃圾信息。【
发明内容】[0003]本发明的目的是提供一种网络垃圾信息过滤优化方法，把各种匹配模型有机的结合起来，使垃圾信息的过滤更具灵活性。[0004]本发明所采用的技术方案是：[0005]-种网络垃圾信息过滤优化方法，包括如下步骤：[0006]S1、外部客户端数据进入，执行被动防御引擎，判断是否是垃圾信息，是，信息写入垃圾信息库;否，信息执行主动防御引擎；[0007]判断是否是垃圾信息，是，信息写入垃圾信息库；否，信息写入健康信息库；[0008]S2、执行被动防御引擎，进行信息清洗、偏移增量比对和知识继承跳跃比对；[0009]S3、执行被动防御引擎，进行特殊模型1比对、特殊模型2比对至特殊模型N比对。[0010]进一步的，所述被动防御引擎包括初始化知识库和模型维护。[0011]进一步的，所述初始化知识库包括静态知识库、信息垃圾字典知识库和图知识库。[0012]进一步的，所述信息垃圾字典知识库采用逐级的hashtable结构实现，第一级是所有垃圾词的第一个字，去重后依次放进一个hashtable结构中，这个是第一级hashtable结构，后面递此数据结构。[0013]进一步的，所述模型维护包括统一验证规则模型维护和特殊场景模型维护。[0014]本发明的有益效果是，[0015]1、高效的层级hashtable结构，使效率达至Ij了极致；[0016]2、提出一种利用通道过滤方式，把各种匹配模型有机的结合起来，使垃圾信息的过滤更具灵活性。[0017]下面结合附图对本发明作进一步详细描述。【附图说明】[0018]图1为本发明的消息处理过程图。[0019]图2为本发明的被动垃圾防御引擎流程图【具体实施方式】[0020]为了加深对本发明的理解，下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于更加清楚地说明本发明的技术方案，而不能以此来限制本发明的保护范围。[0021]如图1所示，本发明一种网络垃圾信息过滤优化方法，包括如下步骤：[0022]S1、外部客户端数据进入，执行被动防御引擎，判断是否是垃圾信息，是，信息写入垃圾信息库;否，信息执行主动防御引擎；[0023]判断是否是垃圾信息，是，信息写入垃圾信息库;否，信息写入健康信息库；[0024]S2、执行被动防御引擎，进行信息清洗、偏移增量比对和知识继承跳跃比对；[0025]S3、执行被动防御引擎，进行特殊模型1比对、特殊模型2比对至特殊模型N比对。[0026]进一步的，所述被动防御引擎包括初始化知识库和模型维护。[0027]进一步的，所述初始化知识库包括静态知识库、信息垃圾字典知识库和图知识库。[0028]进一步的，所述信息垃圾字典知识库采用逐级的hashtable结构实现，第一级是所有垃圾词的第一个字，去重后依次放进一个hashtable结构中，这个是第一级hashtable结构，后面递此数据结构。[0029]进一步的，所述模型维护包括统一验证规则模型维护和特殊场景模型维护。[0030]如图2所示，[0031]信息垃圾字典知识库[0032]此库的结构用逐级的hashtable结构实现，第一级是所有垃圾词的第一个字，去重后依次放进一个hashtable结构中，这个是第一级hashtable结构，后面递此数据结构；[0033]节点定义：{Type：节点类型（0=普通节点；1=叶子节点），Hash-key:-个字，Hash-value：{ValueU[0034]Weight:小于1000的正整数，//路径权重Frequency:路劲频度，//使用频度seraanticType:分类，//褒贬industryType:行业分类，//所属行业vrordType:词语类型，//如动词、名称、形容词等〇〇〇〇〇〇〇Hashtable:指向一个hashtable的指针，//通过这个节点形成递归结构}}通过这种递归结构把垃圾特征词存储进去；优点：这种结构有极高的检索效率。图知识库节点定义：{nodeValue:-个字，Weight:小于1000的正整数,//权重outRelations:出度，inRelations:入度,[0035]semanticType:分类，//褒贬industryType:行业分类，//所属行业wordType:词语类型，//如动词、名称、形容词等otherProperty:其他属性在自学习中自动增加，Relationship:出度指针集合[{RelationLevel:关系级别，pointer:出度指针，},{OOOOOO}]}[0036]静态知识库：[0037]主体结构：[0042]I、通过常用垃圾信息知识库，结合各种模式匹配筛选过滤垃圾内容，进行被动垃圾防御；[0043]2、通过机器学习的手段，产生垃圾信息的相识度模型，更精确的进行垃圾信息过滤；[0044]3、通过大规模的数据挖掘，与时倶进丰富知识库，同时通过知识库进一步的影响机器学习，形成一个开放的自学习闭环。[0045]要说明的是，以上所述实施例是对本发明技术方案的说明而非限制，所属
技术领域：
普通技术人员的等同替换或者根据现有技术而做的其他修改，只要没超出本发明技术方案的思路和范围，均应包含在本发明所要求的权利范围之内。【主权项】1.一种网络垃圾信息过滤优化方法，其特征在于:包括如下步骤：51、外部客户端数据进入，执行被动防御引擎，判断是否是垃圾信息，是，信息写入垃圾信息库;否，信息执行主动防御引擎；判断是否是垃圾信息，是，信息写入垃圾信息库;否，信息写入健康信息库；52、执行被动防御引擎，进行信息清洗、偏移增量比对和知识继承跳跃比对；53、执行被动防御引擎，进行特殊模型1比对、特殊模型2比对至特殊模型N比对。2.根据权利要求1所述的一种网络垃圾信息过滤优化方法，其特征在于:所述被动防御引擎包括初始化知识库和模型维护。3.根据权利要求1所述的一种网络垃圾信息过滤优化方法，其特征在于:所述初始化知识库包括静态知识库、信息垃圾字典知识库和图知识库。4.根据权利要求3所述的一种网络垃圾信息过滤优化方法，其特征在于:所述信息垃圾字典知识库采用逐级的hashtable结构实现，第一级是所有垃圾词的第一个字，去重后依次放进一个hashtable结构中，这个是第一级hashtable结构，后面递此数据结构。5.根据权利要求3所述的一种网络垃圾信息过滤优化方法，其特征在于:所述模型维护包括统一验证规则模型维护和特殊场景模型维护。【文档编号】G06F17/30GK105938483SQ201610227843【公开日】2016年9月14日【申请日】2016年4月14日【发明人】陈勇,司良省,李志魁【申请人】江苏马上游科技股份有限公司

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：陈勇;司良省;李志魁;
技术所有人：江苏马上游科技股份有限公司;
我是此专利的发明人

上一篇：基于用户反馈知识库的机器人交互方法和系统的制作方法
上一篇：电子产品系统调试方法及系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。