一种网络垃圾信息过滤优化方法【专利摘要】本发明公开了一种网络垃圾信息过滤优化方法,采用用逐级的hashtable结构实现,第一级是所有垃圾词的第一个字,去重后依次放进一个hashtable结构中,这个是第一级hashtable结构,后面递此数据结构。高效的层级hashtable结构,使效率达到了极致;利用通道过滤方式,把各种匹配模型有机的结合起来,使垃圾信息的过滤更具灵活性。【专利说明】一种网络垃圾信息过滤优化方法
技术领域:
[0001]本发明本技术所属的
技术领域:
是网络spam过滤领域,涉及一种网络垃圾信息过滤优化方法。【
背景技术:
】[0002]今天随互联网行业蓬勃发展,随之而来的却是垃圾信息泛滥,包括欺诈、色情、反动、虚假广告等信息充斥着互联网的各个角落。这些信息不仅严重扰乱了网络秩序,更使网民遭受重大损失,平台运营方也面临着各方面巨大的压力,为此不得不投入巨大的人力、财力、物力,但往往仍然不能全面肃清垃圾信息。【
发明内容】[0003]本发明的目的是提供一种网络垃圾信息过滤优化方法,把各种匹配模型有机的结合起来,使垃圾信息的过滤更具灵活性。[0004]本发明所采用的技术方案是:[0005]-种网络垃圾信息过滤优化方法,包括如下步骤:[0006]S1、外部客户端数据进入,执行被动防御引擎,判断是否是垃圾信息,是,信息写入垃圾信息库;否,信息执行主动防御引擎;[0007]判断是否是垃圾信息,是,信息写入垃圾信息库;否,信息写入健康信息库;[0008]S2、执行被动防御引擎,进行信息清洗、偏移增量比对和知识继承跳跃比对;[0009]S3、执行被动防御引擎,进行特殊模型1比对、特殊模型2比对至特殊模型N比对。[0010]进一步的,所述被动防御引擎包括初始化知识库和模型维护。[0011]进一步的,所述初始化知识库包括静态知识库、信息垃圾字典知识库和图知识库。[0012]进一步的,所述信息垃圾字典知识库采用逐级的hashtable结构实现,第一级是所有垃圾词的第一个字,去重后依次放进一个hashtable结构中,这个是第一级hashtable结构,后面递此数据结构。[0013]进一步的,所述模型维护包括统一验证规则模型维护和特殊场景模型维护。[0014]本发明的有益效果是,[0015]1、高效的层级hashtable结构,使效率达至Ij了极致;[0016]2、提出一种利用通道过滤方式,把各种匹配模型有机的结合起来,使垃圾信息的过滤更具灵活性。[0017]下面结合附图对本发明作进一步详细描述。【附图说明】[0018]图1为本发明的消息处理过程图。[0019]图2为本发明的被动垃圾防御引擎流程图【具体实施方式】[0020]为了加深对本发明的理解,下面结合附图和实施例对本发明作进一步详细的说明。以下实施例仅用于更加清楚地说明本发明的技术方案,而不能以此来限制本发明的保护范围。[0021]如图1所示,本发明一种网络垃圾信息过滤优化方法,包括如下步骤:[0022]S1、外部客户端数据进入,执行被动防御引擎,判断是否是垃圾信息,是,信息写入垃圾信息库;否,信息执行主动防御引擎;[0023]判断是否是垃圾信息,是,信息写入垃圾信息库;否,信息写入健康信息库;[0024]S2、执行被动防御引擎,进行信息清洗、偏移增量比对和知识继承跳跃比对;[0025]S3、执行被动防御引擎,进行特殊模型1比对、特殊模型2比对至特殊模型N比对。[0026]进一步的,所述被动防御引擎包括初始化知识库和模型维护。[0027]进一步的,所述初始化知识库包括静态知识库、信息垃圾字典知识库和图知识库。[0028]进一步的,所述信息垃圾字典知识库采用逐级的hashtable结构实现,第一级是所有垃圾词的第一个字,去重后依次放进一个hashtable结构中,这个是第一级hashtable结构,后面递此数据结构。[0029]进一步的,所述模型维护包括统一验证规则模型维护和特殊场景模型维护。[0030]如图2所示,[0031]信息垃圾字典知识库[0032]此库的结构用逐级的hashtable结构实现,第一级是所有垃圾词的第一个字,去重后依次放进一个hashtable结构中,这个是第一级hashtable结构,后面递此数据结构;[0033]节点定义:{Type:节点类型(0=普通节点;1=叶子节点),Hash-key:-个字,Hash-value:{ValueU[0034]Weight:小于1000的正整数,//路径权重Frequency:路劲频度,//使用频度seraanticType:分类,//褒贬industryType:行业分类,//所属行业vrordType:词语类型,//如动词、名称、形容词等〇〇〇〇〇〇〇Hashtable:指向一个hashtable的指针,//通过这个节点形成递归结构}}通过这种递归结构把垃圾特征词存储进去;优点:这种结构有极高的检索效率。图知识库节点定义:{nodeValue:-个字,Weight:小于1000的正整数,//权重outRelations:出度,inRelations:入度,[0035]semanticType:分类,//褒贬industryType:行业分类,//所属行业wordType:词语类型,//如动词、名称、形容词等otherProperty:其他属性在自学习中自动增加,Relationship:出度指针集合[{RelationLevel:关系级别,pointer:出度指针,},{OOOOOO}]}[0036]静态知识库:[0037]主体结构:[0042]I、通过常用垃圾信息知识库,结合各种模式匹配筛选过滤垃圾内容,进行被动垃圾防御;[0043]2、通过机器学习的手段,产生垃圾信息的相识度模型,更精确的进行垃圾信息过滤;[0044]3、通过大规模的数据挖掘,与时倶进丰富知识库,同时通过知识库进一步的影响机器学习,形成一个开放的自学习闭环。[0045]要说明的是,以上所述实施例是对本发明技术方案的说明而非限制,所属
技术领域:
普通技术人员的等同替换或者根据现有技术而做的其他修改,只要没超出本发明技术方案的思路和范围,均应包含在本发明所要求的权利范围之内。【主权项】1.一种网络垃圾信息过滤优化方法,其特征在于:包括如下步骤:51、外部客户端数据进入,执行被动防御引擎,判断是否是垃圾信息,是,信息写入垃圾信息库;否,信息执行主动防御引擎;判断是否是垃圾信息,是,信息写入垃圾信息库;否,信息写入健康信息库;52、执行被动防御引擎,进行信息清洗、偏移增量比对和知识继承跳跃比对;53、执行被动防御引擎,进行特殊模型1比对、特殊模型2比对至特殊模型N比对。2.根据权利要求1所述的一种网络垃圾信息过滤优化方法,其特征在于:所述被动防御引擎包括初始化知识库和模型维护。3.根据权利要求1所述的一种网络垃圾信息过滤优化方法,其特征在于:所述初始化知识库包括静态知识库、信息垃圾字典知识库和图知识库。4.根据权利要求3所述的一种网络垃圾信息过滤优化方法,其特征在于:所述信息垃圾字典知识库采用逐级的hashtable结构实现,第一级是所有垃圾词的第一个字,去重后依次放进一个hashtable结构中,这个是第一级hashtable结构,后面递此数据结构。5.根据权利要求3所述的一种网络垃圾信息过滤优化方法,其特征在于:所述模型维护包括统一验证规则模型维护和特殊场景模型维护。【文档编号】G06F17/30GK105938483SQ201610227843【公开日】2016年9月14日【申请日】2016年4月14日【发明人】陈勇,司良省,李志魁【申请人】江苏马上游科技股份有限公司