大数据环境下新型多模型智能网警检测方法
【专利摘要】一种在大数据环境下新型多模型智能网警检测方法,主要包括:前台模块,海量日志服务器,海量日志处理模块,Hadoop分布式集群,后台多重算法模块,客服展示模块,和数据统计和反馈模块。本发明多重模型智能网警系统具有如下特点:1)采用Hadoop分布式集群技术,因此适用于海量(大)数据的处理。2)采用了机器学习技术和文本挖掘技术,使得系统具有很强的学习能力和自适应性。3)采用混合模型多重侦测用户实时,动态的行为极大地避免了漏判和误判。4)适用面广,可移植性强。本系统不仅适用于中小型的婚恋网站,也适用于超大型的婚恋网站(8000万用户级别)。
【专利说明】大数据环境下新型多模型智能网警检测方法
【技术领域】
[0001]本方法主要用于互联网婚恋领域,具体涉及到在海量(大)数据环境下,如何采用 机器学习技术来设计自适应模型从而智能地预测出可疑的用户。
【背景技术】
[0002]随着互联网技术的普及,婚恋交友这个传统严肃的活动也开始互联网化,越来越 多的人选择通过专业的互联网婚恋网站来寻找另一半。由于互联网的低门槛和虚拟性,其 提供优质婚恋服务的同时,也很容易成为各类骗子活跃的舞台。
[0003]现有的解决办法,主要是通过以下四种方式来抓骗子:用户投诉,客服人员人工审 核,通过建立模型来预测可疑用户,以及前三种方式的结合。第一种方法属于被动投诉,其 效率很低。第二种方法过于依赖人工,这对于巨大的互联网用户群来说,显得效率低下。第 三种方法主要是采用机器学习技术进行建模,从而使得系统能主动地预测可疑的用户,然 后通过客服人员进行审核,这可以极大地提高客服人员的效率。
[0004]而现有的依赖模型方法主要存在以下几个问题:1)模型比较单一,错误率较高, 误判,漏判严重;2)智能化程度和实时性不高;3)模型的适用范围狭窄,没法自动应对变 化,也没法应用推广到其它类似的婚恋交友环境和海量数据环境(比如8000万级别的用户量)。
【发明内容】
[0005]为了克服上述现有的解决办法缺点,本在大数据环境下新型多模型智能网警检测 方法的目的在于提供一种能使用在大数据环境下,智能程度高,使用范围广并且准确率高 的网警系统。
[0006]为了达到上述目的,本在大数据环境下新型多模型智能网警检测方法的技术方案 为:
[0007]前台模块,海量日志服务器,海量日志处理模块,Hadoop分布式集群,后台多重算 法模块,客服展示模块,和数据统计和反馈模块。其中海量日志服务器主要用于记录用户的 基本属性信息(比如年龄,教育程度等)和基本行为信息(比如发信,收信,点击等)。海量 日志处理模块主要用于从原始的日志记录中提取出网警机器学习模型所需要的各种信息。 Hadoop分布式集群主要用户支持对海量数据(8000万用户级别,每个用户又包含近百个维 度)的提取,查询,处理和计算。后台多重算法模块主要包括模型的建立,更新,选择和预 测。后台多重算法模块又分为注册IP侦测模型,信件内容处理模型,主系统模型和其它辅 助模型。
[0008]IP侦测模型主要是通过训练实时模型来监测使用高度可疑的注册IP段的用户。 以前的IP侦测系统只能侦测四段完整的IP,而如果可疑用户使用VPN代理技术或虚拟IP 技术,就很容易造成漏判。而本模型主要是根据历史上骗子的注册IP段(分为2段IP,3 段IP和4段IP)的统计信息来对新用户的注册IP段进行评分,然后再利用用户注册时必须填写的五个基本信息(身高,年龄,收入,性别和教育水平),运用机器学习分类算法建立 模型,从而对可疑用户进行预测。IP侦测模型提供了网警系统的第一道关卡,可以在用户还 没有任何行为之前,找出高度可疑的用户,并对这些用户进行监测,从而可以降低可疑用户 造成的危害。
[0009]信件内容侦测模型主要是通过对信件文本内容进行处理(计算信件相似度,包含 敏感词比例,非字符数目所占总字符比例,发信给同城用户的比例,发信给异地用户的比例 等),然后根据用户的基本属性和基本行为信息(是否信件群发),运用机器学习分类算法 建立模型,从而对可疑用户进行预测。信件内容侦测模型提供了智能网警的第二道关卡, 可以有效的侦测可疑用户注册初期产生的异常发信行为,从而及时地把他们加为黑名单用 户,这样可以及时降低他们的危害。
[0010]主系统模型主要是根据用户大量的基本属性和发信行为信息,应用机器学习分类 技术建立模型。以前的网警模型大部分只是建立一个单一模型来预测用户的可疑概率,这 样会造成大量的误判和漏判。为了克服这个问题,本新型多模型智能网警检测方法根据用 户注册时间的长短训练学习多个模型,从而进行混合推荐。本系统根据用户注册时间的长 短共训练了 11个模型:分布包括注册6分钟模型,注册20分钟模型,注册40分钟模型,注 册I小时模型,注册2小时模型,注册4小时模型,注册8小时模型,注册16小时模型,注册 32小时模型,注册64小时模型,注册128小时模型。这11个子模型构建了 11道关卡,如果 用户在任意一个模型内被检测为异常,则认为该用户是可疑用户。该模型有效地解决了单 一模型没有充分考虑用户不同时间段实时的行为而造成准确率低下的情况。
[0011]其它辅助系统主要包括照片子系统和注册邮箱子系统。照片子系统主要用户正常 不同的用户使用相同的照片作为头像的情况。而注册邮箱子系统主要用户侦测使用高度相 似注册邮箱的用户。这些子系统配合之前描述的三个模型,可疑进一步提高每日的可疑用 户侦测人数,进一步减少骗子可能造成的危害。
[0012]前台展示模块主要展示后台多重算法模块输出的结果,以供客服人员进行审核和处理。
[0013]数据统计和反馈模块主要是记录算法模型中各个不同子模型每日侦测人数和加 入黑名单的用户人数,并计算各个模型的侦测准确率。该模块输出的准确率情况进一步反 馈到后台多重算法模块,这样就实现了自适应调整每日侦测人数。如果某个子模型的准确 率在7天时间内,有5天低于某一个阈值下限,则自适应地调整该模型日侦测人数,以提高 准确率。反正,则降低阈值以进一步提高该模型日侦测人数。
【专利附图】
【附图说明】
[0014]附图为本大数据环境下新型多模型智能网警检测方法的结构示意图。
【具体实施方式】
[0015]下面结合附图对本在大数据环境下新型多模型智能网警检测方法做详细描述。
[0016]参照附图,开发人员首先搭建好日志服务器,Hadoop分布式集群,前端平台。用户 通过前端平台访问网站,主要行为包含注册,登录,发信,和浏览,海量日志服务器记录用户 的实时的行为。海量日志处理模块在Hadoop分布式集群的支持下,会把用户的实时行为日志会处理为后台多重算法模块所需要的数据格式,并存放在Hadoop分布式集群中。
[0017]一个新用户在刚注册之后,并且尚未有发信行为之前,后台算法模型会启动IP侦 测模型和其它辅助模型(照片模型和注册邮箱模型)来侦测用户的可疑程度。IP侦测模型 可以侦测信注册用户的可疑程度。与传统的IP模型不同的是,本IP侦测模型充分考虑到 某个注册IP段(前面已经提及的2段IP,三段IP,和完整的4段IP)在不同时间段的可疑 程度可能是不同的。本模型构造了三个时间段:分别是当天,前一天到前7天时间段,以及 7天以前的时间段。每个时间段定义一个动态的阈值来判断信注册用户的IP段是否可疑。 只要在任一个时间段内,该用户的注册IP段被判断为可疑的(即大于相应时间段定义的阈 值),就将该用户作为嫌疑人加入训练好的机器学习分类模型进一步预测该用户的可疑概 率。当用户可疑概率较高时,就通过客服展示平台展示给客服人员进行审核。最后,根据审 核结果获得的准确率来动态地调整之前提到的三个时间段定义的阈值。如果连续出现高准 确率,可以适当地降低阈值。反正,就适当地提高阈值。
[0018]照片模型可以侦测哪些用户使用相同的照片作为头像。如果该用户与历史上某位 骗子使用相同的照片作为头像,则认为该用户的可疑程度非常高。注册邮箱模型可以侦测 哪些用户使用相似的邮箱进行注册。同样地,如果该用户的注册邮箱与历史上某位骗子的 邮箱非常相似,则认为该用户的可疑程度非常高。同样地,当用户可疑程度较高时,就进一 步通过客服展示平台展示给客服人员进行审核。
[0019]IP侦测模型和其它辅助系统提供了第一道关卡,这道关卡主要是针对新注册用 户,并且他们还没有任何发信行为。一旦当用户有了发信行为之后,后台多重算法模块就会 启动第二道关卡(信件内容侦测模型)和第三道关卡(主系统模型)来监测用户实时的可 疑程度。同样地,当可疑程度较高时,就通过客服展示平台展示给客服人员进行人工审核。
[0020]审核的结果(主要包括日侦测人数和准确率)会通过数据统计和反馈模块写入文 件。如果某个子模型的准确率在连续一段时间内(假设7天),有若干天(比如5天)低于 某个阈值,则自适应地降低该模型日侦测人数,以提高准确率。反正,如果该模型的准确率 一直高于某个阈值,则可以是适应地提高该模型日侦测人数,从而可以侦测出更多的可以 用户。
[0021]通过上面的描述,本在大数据环境下新型多模型智能网警检测方法具有如下的特 点:1)采用Hadoop分布式集群技术,因此适用于海量数据的处理。2)采用了机器学习技术 和文本挖掘技术,使得系统具有很强的学习能力和自适应性。3)采用混合模型多重侦测用 户实时,动态的行为极大地避免了漏判和误判。4)适用面广,可移植性强。本系统不仅适用 于中小型的婚恋网站,也适用于超大型的婚恋网站(8000万用户级别)。
【权利要求】
1.一种在大数据环境下新型多模型智能网警检测方法,核心模块为海量日志处理模 块,Hadoop分布式集群,后台多重算法模块,以及数据统计和反馈模块,其特征在于通过海 量日志处理模块和Hadoop分布式集群可以将非结构化的用户信息处理成为结构化的数 据,并存储在Hadoop分布式集群中,然后通过后台多重算法模块中多重机器学习模型实 时,自适应地计算用户的可疑概率,最后通过数据统计和反馈模块反馈的侦测结果来动态 地调整后台多重算法模块中多模型的阈值,从而使得系统具有更高的智能型和灵活度。
【文档编号】G06F17/30GK103593385SQ201310351717
【公开日】2014年2月19日 申请日期:2013年8月14日 优先权日:2013年8月14日
【发明者】不公告发明人 申请人:北京觅缘信息科技有限公司