一种网页信息识别方法及装置的制造方法
【专利摘要】本申请公开了一种网页信息识别方法及装置。其中,网页信息识别方法包括:更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;获取当前SNS应用网页中出现的网页信息;在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。通过本申请,可以提高网页信息识别的通用性。
【专利说明】
一种网页信息识别方法及装置
技术领域
[0001]本申请涉及网络技术领域,尤其涉及一种网页信息识别方法及装置。
【背景技术】
[0002]随着互联网技术的日益普及和不断发展,论坛、BBS (Bulletin Board System,电子公告牌系统)、微博等SNS (Social Networking Services,社会性网络服务)应用以方便、快速、低成本传播等特点已经成为人们日常交流的重要通讯工具。
[0003]然而,社交网络在给人们带来便利的同时,网络中附带的虚假信息、诈骗信息、炒信广告等也像洪水一样在社交网络中泛滥,这类信息为了满足小部分人的需求,往往以损害大多数用户利益为代价,甚至威胁到了 SNS应用的正常发展。
[0004]通常,各个SNS应用都有自己的网页信息识别系统,通过自身的网页信息识别系统进行网页中信息的识别,以发现虚假信息、诈骗信息、炒信广告等信息。但是,现有的网页信息识别系统往往针对所应用的SNS应用的自身特点进行设定,应用于某个SNS应用的网页信息识别系统可能不适用于其他SNS应用。因此,现有SNS应用中的网页信息识别方式通用性较差。
【发明内容】
[0005]本申请实施例提供一种网页信息识别方法及装置,以提高网页信息识别的通用性。
[0006]本申请提供一种网页信息识别方法,包括:
[0007]更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;
[0008]获取当前SNS应用网页中出现的网页信息;
[0009]在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;
[0010]利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。
[0011]可选的,所述更新与SNS应用相关的网页信息识别规则,包括:
[0012]修改已有网页信息识别规则中的配置参数,并使得修改后的网页信息识别规则实时启用生效。
[0013]可选的,所述在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则,包括:
[0014]获取所述网页信息所属的特征类别;
[0015]在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。
[0016]可选的,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括:
[0017]获取所述网页信息的第一关键特征;
[0018]利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配;
[0019]如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。
[0020]进一步,所述更新与SNS应用相关的网页信息识别规则,还包括:
[0021]在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。
[0022]可选的,当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括:
[0023]按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第二关键特征;
[0024]通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息;
[0025]接收所述第三方通过所述交互接口返回的识别结果信息。
[0026]本申请提供一种网页信息识别装置,包括:
[0027]识别规则配置模块,用于更新与社会性网络服务SNS应用相关的网页信息识别规贝1J,并将更新后的网页信息识别规则预置在识别规则库中;
[0028]网页信息获取模块,用于获取当前SNS应用网页中出现的网页信息;
[0029]匹配规则查找模块,用于在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则;
[0030]网页信息识别模块,用于利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。
[0031]可选的,所述识别规则配置模块,包括:
[0032]配置参数修改单元,用于修改已有网页信息识别规则中的配置参数;
[0033]启用单元,用于使得修改后的网页信息识别规则实时启用生效。
[0034]可选的,所述匹配规则查找模块,包括:
[0035]网页特征获取单元,用于获取所述网页信息所属的特征类别;
[0036]查找单元,用于在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。
[0037]可选的,所述网页信息识别模块,包括:
[0038]第一特征获取单元,用于获取所述网页信息的第一关键特征;
[0039]第一识别单元,用于利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配;
[0040]结果单元,用于如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。
[0041]进一步,所述识别规则配置模块,还包括:
[0042]第三方规则接入单元,用于在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。
[0043]可选的,所述网页信息识别模块,包括:
[0044]第二特征获取单元,用于当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第二关键特征;
[0045]特征发送单元,用于通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息;
[0046]识别结果接收单元,用于接收所述第三方通过所述交互接口返回的识别结果信息。
[0047]本申请实施例中,预置的与SNS应用相关的网页信息识别规则并非是固定不变的,而是可以采用动态配置的方式进行调整更新。通过调整更新,使得预置的网页信息识别规则能有效应对网页中非法信息的变化;同时,由于网页信息识别规则针对SNS应用进行更新设置,使得网页信息识别规则可以同时对应多个SNS应用。由此,本申请实施例能够大大提高网页信息识别的通用性。
【附图说明】
[0048]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0049]图1为本申请实施例中一种网页信息识别方法的流程示意图;
[0050]图2为图1中步骤103的实现流程图;
[0051]图3为图1中步骤104的一种实现流程示意图;
[0052]图4为图1中步骤104的另一种实现流程示意图;
[0053]图5为本申请实施例中的一个应用场景示意图;
[0054]图6为图5应用场景中进行广告识别过滤的流程示意图;
[0055]图7为本申请实施例中一种网页信息识别装置的结构示意图;
[0056]图8为图7中识别规则配置模块的一种具体结构示意图;
[0057]图9为图7中匹配规则查找模块的具体结构示意图;
[0058]图10为图7中网页信息识别模块的一种结构示意图;
[0059]图11为图7中识别规则配置模块的另一种具体结构示意图;
[0060]图12为图7中网页信息识别模块的另一种结构示意图。
【具体实施方式】
[0061]为了使本申请所要解决的技术问题、技术方案及有益效果更加清楚、明白,以下结合附图和实施例,对本申请进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
[0062]为了应对SNS应用网页上出现的虚假信息、诈骗信息、炒信广告等信息,各个SNS用于网站通常都拥有自己的网页识别系统。以识别广告信息为例,传统的反广告平台往往采用以下几种网页信息识别方案:一、基于用户行为特征识别,通过分析用户行为上的变化,有效识别出用户异常行为,来帮助系统找出广告文本;二、基于关键词识别,通过判断信息文本是否包含特定关键词,来帮助系统发现广告文本;三、基于机器学习算法进行广告识另IJ,通过不断累积广告信息样本和正常信息样本,通过聚类分析算法识别广告信息文本。然而,现有进行广告的识别和召回的网页信息识别系统,往往都是针对各自应用网页上泛滥广告的特点所制定。由于传统反广告平台通常采用几种固定的广告识别方法,往往只能在上线初期达到较好的效果。随着时间的推移,当已有的广告识别规则被攻击者发现后,攻击者会通过各种变异文本绕开系统广告识别规则,而反广告平台无法通过快速修改配置以应对变异,容易导致广告短时间内的快速泛滥;此外,传统的反广告平台往往只针对某个SNS应用的特征设计相应的识别规则,当其他SNS应用接入同一系统时,平台无法针对新业务的特征设置相应广告识别策略,无法达到同样高效的防广告效果。
[0063]为了解决现有SNS应用中网页信息识别方式通用性较差的问题,本申请实施例提供的一种网页信息识别方法。
[0064]如图1所示,为本申请提供的一个网页信息识别方法实施例,具体包括:
[0065]步骤101、更新与SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中。
[0066]本申请实施例中,网页信息识别规则为网页信息识别平台对网页中出现的网页信息进行识别所采用的规则。网页信息识别平台上与某个SNS应用相关的网页信息识别规则并非是固定不变的,而是可以采用动态配置的方式进行更新。通常,网页信息识别规则预置于识别规则库中,当通过规则更新,产生更新后的网页信息识别规则之后,将该更新后的网页识别规则预置于该识别规则库中。通过更新网页信息识别规则,使得识别规则库中能够预置不同的网页信息识别规则,以便对SNS应用网页上出现的不同网页信息进行识别。其中,网页信息可以包括:网页中出现的文本信息、图片信息等需要进行合法性识别的信息。
[0067]网页信息识别规则的更新通常为预先行为,可以由开发人员在对SNS应用网页中网页信息进行识别之前进行,也可以按照约定的更新周期,周期性更新识别规则库中的网页信息识别规则。具体更新方式将在随后进行详细说明。
[0068]步骤102、获取当前SNS应用网页中出现的网页信息;
[0069]该步骤102中,网页信息识别平台需要获取当前SNS应用网页中出现的待识别网页信息。具体地,可以在用户打开某个SNS应用网页时,即获取网页中出现的待识别网页信息;此外,在用户浏览网页的过程中,网页上实时出现的一些网页弹出层也属于待识别网页信息范畴。
[0070]步骤103、在预置的识别规则库中查找与SNS应用相匹配的网页信息识别规则;
[0071]该步骤中,当获取当前SNS应用网页中出现的待识别网页信息之后,则需要在预置的识别规则库中查找与当前SNS应用相匹配的网页信息识别规则。
[0072]步骤104、利用相匹配的网页信息识别规则,对网页信息进行识别。
[0073]该步骤中,当确定与SNS应用相匹配的网页信息识别规则之后,即可利用该相匹配的网页信息识别规则,对当前网页信息进行识别,以便根据具体识别结果,判断当前网页信息中是否存在虚假信息、诈骗信息、炒信广告等网页信息,从而便于对网页上显示内容的管理和控制,提高网页信息的安全性。
[0074]本申请实施例中,预置的与SNS应用相关的网页信息识别规则并非是固定不变的,而是可以采用动态配置的方式进行调整更新。通过调整更新,使得预置的网页信息识别规则能有效应对网页中非法信息的变化;同时,由于网页信息识别规则针对SNS应用进行更新设置,使得网页信息识别规则可以同时对应多个SNS应用。由此,本申请实施例能够大大提高网页信息识别的通用性。
[0075] 为了便于对本申请实施例的进一步理解,下面通过【具体实施方式】对上述技术方案进行详细说明。
[0076] 在本申请的一个实施例中,更新与SNS应用相关的网页信息识别规则的具体实现方式可以为:修改已有网页信息识别规则中的配置参数,并使得修改后的网页信息识别规则实时启用生效。
[0077] 具体应用场景中,修改网页信息识别规则中的配置参数可以包括:当网页中常见的非法信息改变形式时,可以快速对当前识别规则库中已有的网页信息识别规则中的配置参数进行修改,实现网页信息识别规则的动态配置;此外,还可以根据SNS应用自身的业务特点,动态组合不同的识别规则,已达到更好的网页信息识别效果。
[0078] 为了便于开发人员更为快速、高效的操作,本申请实施例中的本地网页信息识别平台支持网页信息识别规则的可视化配置和实时查询识别结果。网页信息识别平台提供可视化的管理后台,方便使用者进行应用管理、规则管理、惩罚行为管理、过滤内容管理等操作,实时监控当前网页信息识别平台的运行状况,根据网页信息的变化,进行识别规则的可视化编辑、配置,以求更高效、快速地应对网页信息的变化。
[0079] 通过网页信息识别规则中配置参数的的修改,使得预置的网页信息识别规则能有效应对网页中非法信息的变化;同时,由于网页信息识别规则针对SNS应用进行更新设置, 使得网页信息识别规则可以同时对应多个SNS应用,如:微博、微信、网络聊天室等。
[0080] 为了迅速应对网页中非法网页信息的变异,避免新变异的非法网页信息在短时间内影响SNS应用业务的正常运作,需支持修改更新后的网页识别规则实时启用生效。
[0081] 在本申请的另一个实施例中,如图2所示,上述步骤103中,在预置的识别规则库中查找与SNS应用相匹配的网页信息识别规则的具体实现方式可以为:
[0082] 步骤201、获取网页信息所属的特征类别;
[0083] 步骤202、在预置的识别规则库中查找与特征类别相匹配的网页信息识别规则。
[0084] 该实现方式中,查找的网页信息识别规则需要与当前SNS应用相匹配,S卩:需要网页信息识别规则与当前SNS应用网页上网页信息所属的特征类别相匹配,例如:对于“微博”、“微信”等SNS应用,由于网页中以文字信息和图片信息为主,因此,需要针对这类SNS 用于,选择以文字信息和图片信息为主的网页信息识别规则。
[0085] 此外,对于发布博客这类的SNS应用,时常会出现网页信息多次重复出现的场景, 例如:一帖多发的情形,可以设置允许重复网页信息出现的阈值,当重复网页信息出现的次数超过这个阈值时,则可初步确定当前重复网页信息为可疑非法信息。
[0086] 本申请实施例对于网页信息所属的特征类别并不做具体限定,并不局限于上述几种特征类别,本领域技术人员可以结合具体SNS应用场景,设置相应的网页信息特征类别。
[0087]在图3所示的实施例中,上述步骤104中,利用相匹配的网页信息识别规则,对网页信息进行识别的具体实现方式可以为:
[0088] 步骤301、获取网页信息的第一关键特征;
[0089] 步骤302、利用相匹配的网页信息识别规则,对第一关键特征进行识别,判断第一关键特征与网页信息识别规则规定的非法信息特征是否相匹配;如果匹配,则执行步骤 303 ;否则,执行步骤304 ;
[0090]步骤303、确定网页信息为非法信息;
[0091]步骤304、确定网页信息为合法信息。
[0092]为了与后面实施例中网页信息的关键特征相区分,将该实施例中的网页信息的关键特征称为“第一关键特征”。此处,“第一关键特征”为SNS应用网页中出现的敏感特征信息,包括:违禁词、URL(Uniform Resource Locator,统一资源定位符)、数字、用户行为、图像等,根据获取到的第一关键特征,结合相匹配的网页信息识别规则,对第一关键特征进行识别匹配,判断该第一关键特征是否对应非法信息。例如:当网页中的文本信息中包括某个 URL,而这个URL已经确认是诈骗信息URL或钓鱼网站URL,则可认定当前文本信息为非法信息。当文本信息中包含的URL之前并未被认定为诈骗信息URL或钓鱼网站URL,但系统发现该URL在某个时间段内出现的频率过高,则可先将当前文本信息状态设置为疑似非法信息,再由网页信息识别平台的运营人员判断当前文本信息是否为非法信息,若判定为非法信息,则抽取当前文本信息中的URL,将该URL纳入平台知识库,这样以后这类垃圾信息再次出现在网页中时,网页信息识别平台便可自动完成识别。
[0093]为了进一步提高网页信息识别平台的通用性,除了网页信息识别平台提供的网页信息识别规则之外,还可以在已有网页信息识别规则的基础之上,接入第三方网页信息识别规则。
[0094]需要说明的是,第三方通常可以理解为本网页信息识别平台之外的其他网页信息识别平台,该网页信息识别平台具备与本网页信息识别平台相同或者不同的网页信息识别规则。通过接入第三方网页信息识别平台,使得不仅可以通过原始设置的网页信息识别平台进行网页信息识别,还可以利用其他网页信息识别平台进行网页信息识别。该实施方式尤其适用于通过原始设置的网页信息识别平台无法进行网页信息识别的应用场景,当出现在网页上的非法信息发生变化,利用当前网页信息识别平台上已有的网页信息识别规则已经无法识别出非法信息时,通过接入第三方网页信息识别平台,使得可以利用第三方网页信息识别平台将当前网页上的非法信息识别出来。
[0095]具体地,可以建立本地网页信息识别平台与第三方网页信息识别平台之间的交互接口,S卩:第三方网页信息识别平台只需按照与本地网页信息识别平台约定的方式,提供远程服务化接口、HTTP (Hypertext transfer protocol,超文本传送协议)接口或其他可供交互的接口,通过该交互接口,建立与本地网页信息识别平台的通信连接。
[0096]在接入第三方网页信息识别平台的场景下,对网页信息进行识别的过程如图4所示,包括:
[0097]步骤401、按照第三方网页信息识别规则,获取第三方所需的网页信息的第二关键特征;
[0098]步骤402、通过交互接口,将第二关键特征发送至第三方,由第三方对第二关键特征进行识别,以确定网页信息是否为合法信息;
[0099]步骤403、接收第三方通过交互接口返回的识别结果信息。
[0100]该实现方式下,本地网页信息识别平台需要动态配置第三方网页信息识别规则, 并设置交互接口的调用方法、接口名称、版本号等属性信息,以便根据第三方网页信息识别规则,获取第三方网页信息识别平台进行网页信息识别时所需的网页信息关键特征,此处, 将该场景下获取的网页信息关键特征称为“第二关键特征”。当获取当前网页的第二关键特征之后,本地网本地网页信息识别平台通过已建立的交互接口,将第二关键特征发送至第三方网页信息识别平台,在第三方网页信息识别平台上进行网页信息识别。例如:根据第三方网页信息识别规则,获取当前网页上的二维码图像或条形码图像,并将二维码图像或条形码图像通过交互接口,发送至第三方网页信息识别平台。当第三方网页信息识别平台完成网页信息识别之后,通过交互接口,将识别结果信息返回至本地网页信息识别平台,告知本地网页信息识别平台当前网页中是否存在非法信息。
[0101]本申请实施例中,对于网页信息识别过程中,本地网页信息识别平台和第三方网页信息识别平台根据网页信息识别规则,如何确定出识别结果不做具体限定。通常,确定识别结果是与特定的网页信息识别规则相关的。例如:当接入敏感词识别规则时,当网页中文本中出现“小姐”、“淘宝兼职”这样的文本信息时,则确定当前网页包含敏感信息;当接入炒信图像识别规则时,当网页中出现诈骗图像、广告图像时,则确定当前网页包含广告图像信息。但是否将该确认出的上述敏感信息或广告图像识别为非法信息,则需要由网页信息识别平台上具体的判断逻辑和对应的处罚行为列表决定。
[0102]为了便于对本申请技术方案的整体理解,下面以识别网页中广告信息的应用场景为例,对前述方案进行详细说明。
[0103]如图5所示,反广告平台主要包括五个子系统:识别规则中心501、惩罚行为中心 502、识别过滤中心503、日志中心504和可视化操作后台505。其中,各个子系统的功能如下:识别规则中心,支持多种基础的广告识别方法,并支持动态接入第三方网页信息识别规贝1J,通过不同的网页识别规则,应对网页上广告信息的不断变化,从而为反广告平台提供很强的扩展性;惩罚行为中心,支持基于用户、内容、样本库等多维度的惩罚行为,并且支持动态接入第三方惩罚行为,能够针对不同SNS应用设置个性化的惩罚行为;识别过滤中心,为反广告平台的核心,支持动态组合各种广告识别规则,为不同应用提供对应的广告识别策略,并支持识别策略实时动态更新,以达到最佳的广告识别效果;日志中心,用于记录反广告平台各流程的执行日志、操作日志,方便系统维护者监控当前系统的运行状况;可视化操作后台,为反广告平台维护者、使用者提供可视化的管理后台,方便使用者进行应用管理、 规则管理、惩罚行为管理、过滤内容管理等操作,实时监控当前反广告平台的运行状况,根据广告的变化,进行识别规则的可视化编辑、配置,并与文本过滤中心实时通信,保证过滤规则动态化、可配置化,以求更高效、快速地应对广告行为的变化。
[0104]如图6所示,在上述反广告平台上进行广告识别过滤的流程可以包括:
[0105]步骤601、当用户在某个SNS应用中发布文本内容后,该SNS应用系统自动发送一个异步请求到反广告平台;
[0106]步骤602、进入反广告平台后,首先接入平台日志中心,对用户发布的文本内容产生时间、应用、请求方式等日志信息进行记录分析;
[0107]步骤603、文本数据流入反广告平台的识别过滤中心,根据文本数据所归属的SNS 应用,自动选择相应的广告识别策略,进行广告识别;
[0108]步骤604、通过识别,确定当前文本是否包含诈骗、虚假广告信息,如果是,则执行步骤606 ;如果否,则执行步骤605 ;如果无法得出识别结果,则执行步骤607 ;
[0109]步骤605、如果确定当前文本内容为非诈骗、虚假广告信息,则标记该文本通过审核;
[0110]步骤606、如果确定当前文本内容为虚假、诈骗广告,则接入惩罚中心,根据该规则配置的惩罚行为对文本内容进行召回、对发布人进行拉黑等处理,并且将该广告文本作为样本入库,提升平台广告过滤识别算法的准确性;
[0111]步骤607、如果系统该文本内容为疑似广告,则由系统运营人员进行人工审核。
[0112]基于同一发明构思,本申请实施例还提供的一种网页信息识别装置,该装置可以设置在SNS应用对应的网页信息识别平台中,该装置的结构如图7所示,包括:
[0113]识别规则配置模块701,用于更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中;
[0114]网页信息获取模块702,用于获取当前SNS应用网页中出现的网页信息;
[0115] 匹配规则查找模块703,用于在预置的识别规则库中查找与SNS应用相匹配的网页信息识别规则;
[0116]网页信息识别模块704,用于利用相匹配的网页信息识别规则,对网页信息进行识别。
[0117]本申请实施例中,网页信息识别规则为网页信息识别平台对网页中出现的网页信息进行识别所采用的规则。网页信息识别平台上与某个SNS应用相关的网页信息识别规则并非是固定不变的,而是可以采用通过识别规则配置模块,动态配置的方式进行更新。通常,网页信息识别规则预置于识别规则库中,当通过识别规则配置模块进行规则更新,产生更新后的网页信息识别规则之后,将该更新后的网页识别规则预置于该识别规则库中。通过更新网页信息识别规则,使得识别规则库中能够预置不同的网页信息识别规则,以便对 SNS应用网页上出现的不同网页信息进行识别。其中,网页信息可以包括:网页中出现的文本信息、图片信息等需要进行合法性识别的信息。
[0118]网页信息识别规则的更新通常为预先行为,可以由开发人员在对SNS应用网页中网页信息进行识别之前进行,也可以按照约定的更新周期,周期性更新识别规则库中的网页信息识别规则。
[0119]接着,网页信息识别平台需要通过网页信息获取模块,获取当前SNS应用网页中出现的待识别网页信息。具体地,可以在用户打开某个SNS应用网页时,即通过网页信息获取模块获取网页中出现的待识别网页信息;此外,在用户浏览网页的过程中,网页上实时出现的一些网页弹出层也属于需要通过网页信息获取模块获取的待识别网页信息范畴。
[0120]当通过网页信息获取模块获取当前SNS应用网页中出现的待识别网页信息之后, 则需要通过匹配规则查找模块在预置的识别规则库中查找与当前SNS应用相匹配的网页信息识别规则。
[0121]当通过网页信息获取模块确定与SNS应用相匹配的网页信息识别规则之后,即可利用该相匹配的网页信息识别规则,对当前网页信息进行识别,以便根据具体识别结果,判断当前网页信息中是否存在虚假信息、诈骗信息、炒信广告等网页信息,从而便于对网页上显示内容的管理和控制,提高网页信息的安全性。
[0122]本申请实施例中,预置的与SNS应用相关的网页信息识别规则并非是固定不变的,而是可以采用动态配置的方式进行调整更新。通过调整更新,使得预置的网页信息识别规则能有效应对网页中非法信息的变化;同时,由于网页信息识别规则针对SNS应用进行更新设置,使得网页信息识别规则可以同时对应多个SNS应用。由此,本申请实施例能够大大提高网页信息识别的通用性。
[0123] 在本申请的一个实施例中,如图8所示,识别规则配置模块的具体实现方式可以为:
[0124] 配置参数修改单元801,用于修改已有网页信息识别规则中的配置参数;
[0125]启用单元802,用于使得修改后的网页信息识别规则实时启用生效。
[0126]具体应用场景中,修改网页信息识别规则中的配置参数可以包括:当网页中常见的非法信息改变形式时,可以快速对当前识别规则库中已有的网页信息识别规则中的配置参数进行修改,实现网页信息识别规则的动态配置;此外,还可以根据SNS应用自身的业务特点,动态组合不同的识别规则,已达到更好的网页信息识别效果。
[0127]为了便于开发人员更为快速、高效的操作,本申请实施例中的本地网页信息识别平台支持网页信息识别规则的可视化配置和实时查询识别结果。网页信息识别平台提供可视化的管理后台,方便使用者进行应用管理、规则管理、惩罚行为管理、过滤内容管理等操作,实时监控当前网页信息识别平台的运行状况,根据网页信息的变化,进行识别规则的可视化编辑、配置,以求更高效、快速地应对网页信息的变化。
[0128]通过网页信息识别规则中配置参数的的修改,使得预置的网页信息识别规则能有效应对网页中非法信息的变化;同时,由于网页信息识别规则针对SNS应用进行更新设置, 使得网页信息识别规则可以同时对应多个SNS应用。
[0129]为了迅速应对网页中非法网页信息的变异,避免新变异的非法网页信息在短时间内影响SNS应用业务的正常运作,需支持修改更新后的网页识别规则实时启用生效。由此, 通过设置启用单元,将修改更新后的网页识别规则实时启用生效。
[0130]在本申请的另一个实施例中,如图9所示,上述匹配规则查找模块,具体可以包括:
[0131]网页特征获取单元901,用于获取网页信息所属的特征类别;
[0132]查找单元902,用于在预置的识别规则库中查找与特征类别相匹配的网页信息识别规则。
[0133]该实现方式中,查找的网页信息识别规则需要与当前SNS应用相匹配,S卩:需要网页信息识别规则与当前SNS应用网页上网页信息所属的特征类别相匹配,例如:对于“微博”、“微信”等SNS应用,由于网页中以文字信息和图片信息为主,因此,需要针对这类SNS 用于,选择以文字信息和图片信息为主的网页信息识别规则。由此,通过网页特征获取单元,可以获取网页信息所属的特征类别。
[0134] 此外,对于发布博客这类的SNS应用,时常会出现网页信息多次重复出现的场景, 例如:一帖多发的情形,可以设置允许重复网页信息出现的阈值,当重复网页信息出现的次数超过这个阈值时,则可初步确定当前重复网页信息为可疑非法信息。
[0135] 在本申请的另一个实施例中,如图10所示,上述网页信息识别模块,具体可以包括:
[0136]第一特征获取单元1001,用于获取网页信息的第一关键特征;
[0137]第一识别单元1002,用于利用相匹配的网页信息识别规则,对第一关键特征进行识别,判断第一关键特征与网页信息识别规则规定的非法信息特征是否相匹配;
[0138]结果单元1003,用于如果第一关键特征与网页信息识别规则规定的非法信息特征相匹配,则确定网页信息为非法信息;否则,确定网页信息为合法信息。
[0139]该实施例中,“第一关键特征”为SNS应用网页中出现的敏感特征信息,包括:违禁词、URL、数字、用户行为、图像等,根据获取到的第一关键特征,第一识别单元结合相匹配的网页信息识别规则,对第一关键特征进行识别匹配,判断该第一关键特征是否对应非法信息。
[0140]为了进一步提高网页信息识别平台的通用性,除了网页信息识别平台提供的网页信息识别规则之外,还可以在已有网页信息识别规则的基础之上,接入第三方网页信息识别规则。第三方通常可以理解为本网页信息识别平台之外的其他网页信息识别平台,该网页信息识别平台具备与本网页信息识别平台相同或者不同的网页信息识别规则。通过接入第三方网页信息识别平台,使得不仅可以通过原始设置的网页信息识别平台进行网页信息识别,还可以利用其他网页信息识别平台进行网页信息识别。该实施方式尤其适用于通过原始设置的网页信息识别平台无法进行网页信息识别的应用场景,当出现在网页上的非法信息发生变化,利用当前网页信息识别平台上已有的网页信息识别规则已经无法识别出非法信息时,通过接入第三方网页信息识别平台,使得可以利用第三方网页信息识别平台将当前网页上的非法信息识别出来。
[0141]具体地,如图11所示,识别规则配置模块,还可以包括:
[0142]第三方规则接入单元803,用于在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,第三方网页信息识别规则由提供网页信息识别服务的第三方设置。
[0143]该实施例中,可以建立本地网页信息识别平台与第三方网页信息识别平台之间的交互接口,即:第三方网页信息识别平台只需按照与本地网页信息识别平台约定的方式,提供远程服务化接口、HTTP接口或其他可供交互的接口,通过该交互接口,建立与本地网页信息识别平台的通信连接。
[0144]在接入第三方网页信息识别平台的场景下,如图12所示,网页信息识别模块,还可以包括:
[0145]第二特征获取单元1004,用于当相匹配的网页信息识别规则为第三方网页信息识别规则时,按照第三方网页信息识别规则,获取第三方所需的网页信息的第二关键特征;
[0146]特征发送单元1005,用于通过交互接口,将第二关键特征发送至第三方,由第三方对第二关键特征进行识别,以确定网页信息是否为合法信息;
[0147]识别结果接收单元1006,用于接收第三方通过交互接口返回的识别结果信息。
[0148]该实现方式下,本地网页信息识别平台需要动态配置第三方网页信息识别规则, 并设置交互接口的调用方法、接口名称、版本号等属性信息,以便根据第三方网页信息识别规则,获取第三方网页信息识别平台进行网页信息识别时所需的网页信息关键特征,此处, 将该场景下获取的网页信息关键特征称为“第二关键特征”。当获取当前网页的第二关键特征之后,本地网本地网页信息识别平台通过已建立的交互接口,将第二关键特征发送至第三方网页信息识别平台,在第三方网页信息识别平台上进行网页信息识别。例如:根据第三方网页信息识别规则,获取当前网页上的二维码图像或条形码图像,并将二维码图像或条形码图像通过交互接口,发送至第三方网页信息识别平台。当第三方网页信息识别平台完成网页信息识别之后,通过交互接口,将识别结果信息返回至本地网页信息识别平台上的识别结果接收单元,告知本地网页信息识别平台当前网页中是否存在非法信息。
[0149]本申请实施例中,对于网页信息识别过程中,本地网页信息识别平台和第三方网页信息识别平台根据网页信息识别规则,如何确定出识别结果不做具体限定。通常,确定识别结果是与特定的网页信息识别规则相关的。
[0150]上述说明示出并描述了本申请的优选实施例,但如前所述,应当理解本申请并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文所述发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本申请的精神和范围,则都应在本申请所附权利要求的保护范围内。
【主权项】
1.一种网页信息识别方法,其特征在于,包括: 更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中; 获取当前SNS应用网页中出现的网页信息; 在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则; 利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。2.根据权利要求1所述的方法,其特征在于,所述更新与SNS应用相关的网页信息识别规则,包括: 修改已有网页信息识别规则中的配置参数,并使得修改后的网页信息识别规则实时启用生效。3.根据权利要求1或2所述的方法,其特征在于,所述在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则,包括: 获取所述网页信息所属的特征类别; 在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。4.根据权利要求1或2所述的方法,其特征在于,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括: 获取所述网页信息的第一关键特征; 利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配; 如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。5.根据权利要求2所述的方法,其特征在于,所述更新与SNS应用相关的网页信息识别规则,还包括: 在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。6.根据权利要求5所述的方法,其特征在于,当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,所述利用所述相匹配的网页信息识别规则,对所述网页信息进行识别,包括: 按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第二关键特征; 通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息; 接收所述第三方通过所述交互接口返回的识别结果信息。7.—种网页信息识别装置,其特征在于,包括: 识别规则配置模块,用于更新与社会性网络服务SNS应用相关的网页信息识别规则,并将更新后的网页信息识别规则预置在识别规则库中; 网页信息获取模块,用于获取当前SNS应用网页中出现的网页信息; 匹配规则查找模块,用于在预置的识别规则库中查找与所述SNS应用相匹配的网页信息识别规则; 网页信息识别模块,用于利用所述相匹配的网页信息识别规则,对所述网页信息进行识别。8.根据权利要求7所述的装置,其特征在于,所述识别规则配置模块,包括: 配置参数修改单元,用于修改已有网页信息识别规则中的配置参数; 启用单元,用于使得修改后的网页信息识别规则实时启用生效。9.根据权利要求7或8所述的装置,其特征在于,所述匹配规则查找模块,包括: 网页特征获取单元,用于获取所述网页信息所属的特征类别; 查找单元,用于在预置的识别规则库中查找与所述特征类别相匹配的网页信息识别规则。10.根据权利要求7或8所述的装置,其特征在于,所述网页信息识别模块,包括: 第一特征获取单元,用于获取所述网页信息的第一关键特征; 第一识别单元,用于利用所述相匹配的网页信息识别规则,对所述第一关键特征进行识别,判断所述第一关键特征与所述网页信息识别规则规定的非法信息特征是否相匹配;结果单元,用于如果所述第一关键特征与所述网页信息识别规则规定的非法信息特征相匹配,则确定所述网页信息为非法信息;否则,确定所述网页信息为合法信息。11.根据权利要求8所述的装置,其特征在于,所述识别规则配置模块,还包括: 第三方规则接入单元,用于在已有网页信息识别规则的基础之上,通过与第三方之间的交互接口,接入第三方网页信息识别规则,其中,所述第三方网页信息识别规则由提供网页信息识别服务的所述第三方设置。12.根据权利要求11所述的装置,其特征在于,所述网页信息识别模块,包括: 第二特征获取单元,用于当所述相匹配的网页信息识别规则为所述第三方网页信息识别规则时,按照所述第三方网页信息识别规则,获取所述第三方所需的所述网页信息的第一■关键特征; 特征发送单元,用于通过所述交互接口,将所述第二关键特征发送至所述第三方,由所述第三方对所述第二关键特征进行识别,以确定所述网页信息是否为合法信息; 识别结果接收单元,用于接收所述第三方通过所述交互接口返回的识别结果信息。
【文档编号】G06F17/30GK105989136SQ201510089211
【公开日】2016年10月5日
【申请日】2015年2月27日
【发明人】李攀, 李凯
【申请人】阿里巴巴集团控股有限公司