假冒公众号的检测方法和装置、电子设备、及介质与流程

文档序号:25596352发布日期:2021-06-22 17:15阅读:95来源:国知局
假冒公众号的检测方法和装置、电子设备、及介质与流程

本公开涉及人工智能领域,更具体地,涉及一种假冒公众号的检测方法、检测装置、电子设备和存储介质。



背景技术:

随着自媒体行业的兴起,各大社区平台允许个人或机构创建公众账号向网民推送消息,以获取关注度。但是,可能会出现大量不法分子假冒公众号的现象,例如不法分子利用仿制某个机构的官方公众号发送不实信息,从而谋取非法利益。因此,对于假冒公众号应当及时发现并清理。目前,对于假冒公众号通常由人工发现后向平台举报,然后由平台官方进行审查处理。

在实现本公开构思的过程中,发明人发现现有技术中至少存在如下问题:人工发现假冒公众号效率较低,耗时较长,并且不能及时的发现假冒公众号。



技术实现要素:

有鉴于此,本公开实施例提供了一种能够自动检测假冒公众号的检测方法、检测装置、电子设备和存储介质。

本公开实施例的一个方面提供了一种假冒公众号的检测方法。该方法包括:利用与目标主体相关的关键词搜索公众号,得到m个待识别公众号,其中,m为大于或等于1的整数;获取每个所述待识别公众号的账号信息;以及基于每个所述待识别公众号的所述账号信息与所述目标主体的信息的对比,从m个所述待识别公众号中确定出假冒公众号的名单。识别假冒公众号包括:基于所述待识别公众号的所述账号信息与所述目标主体的信息的对比,确定所述待识别公众号是否为所述目标主体运营;在确定所述待识别公众号非所述目标运营主体运营时,确定所述待识别公众号的所述账号信息与所述目标主体的信息的关联程度;以及在所述关联程度满足预定条件时确定所述待识别公众号为所述假冒公众号。

根据本公开的实施例,所述账号信息包括公众号名称、公众号头像、公众号简介及账号主体。

根据本公开的实施例,当所述待识别公众号的账号主体不包括所述目标主体的名称关键词、且所述待识别公众号的公众号名称不属于预定的白名单列表时,确定所述待识别公众号非所述目标主体运营。

根据本公开的实施例,所述关联程度满足预定条件包括以下至少之一:所述待识别公众号的公众号头像与所述目标主体的标识图像的相似度满足第一预定条件;或者,所述待识别公众号的公众号简介与所述目标主体的业务功能描述信息的相关性满足第二预定条件。

根据本公开的实施例,所述待识别公众号的公众号头像与所述目标主体的标识图像的相似度满足第一预定条件包括以下至少之一:所述待识别公众号的公众号头像与所述目标主体的标识图像的重比率达到预设的第一重合度阈值;或者所述待识别公众号的公众号头像与所述目标主体的标识图像对应的特征向量的余弦相似性达到预设的第一相似度阈值;或者在利用图像分类深度学习模型对所述待识别公众号的公众号头像进行分类后,所述待识别公众号的公众号头像被分类到与所述目标主体的标识图像的相似的类别中。

根据本公开的实施例,所述图像分类深度学习模型是基于卷积神经网络和归一化指数函数softmax分类网络串联构建的二分类模型,用于将任意一个图像分类到与所述目标主体的标识图像相似的类别或不相似的类别。

根据本公开的实施例,所述待识别公众号的公众号简介与所述目标主体的业务功能描述信息的相关性满足第二预定条件包括:检测所述待识别公众号的公众号简介中是否包含所述目标主体的业务功能描述信息;以及当检测到所述待识别公众号的公众号简介中包含所述目标主体的业务功能描述信息时,确定所述待识别公众号的公众号简介与所述目标主体的业务功能描述信息的相关性满足第二预定条件。

根据本公开的实施例,所述检测所述待识别公众号的公众号简介中是否包含所述目标主体的业务功能描述信息包括:利用检测网络模型检测所述待识别公众号的公众号简介中是否包含所述目标主体的业务功能描述信息。其中,所述检测网络模型为基于word2vec神经网络模型和循环神经网络组合而成的语义理解模型。

根据本公开的实施例,所述基于每个所述待识别公众号的所述账号信息与所述目标主体的信息的对比,从m个所述待识别公众号中确定出假冒公众号的名单包括:利用关键词匹配技术将所述待识别公众号的账号主体与所述目标主体的名称关键词进行匹配;当所述待识别公众号的账号主体不包含所述目标主体的名称关键词时,确定所述待识别公众号为疑似假冒公众号;以及当所述疑似假冒公众号不属于白名单列表,但所述关联程度满足预定条件时,确定所述待识别公众号为所述假冒公众号。

根据本公开的实施例,所述当所述疑似假冒公众号不属于所述白名单列表,但所述关联程度满足预定条件时,确定所述待识别公众号为所述假冒公众号包括:将所述疑似假冒公众号的公众号头像与所述目标主体的标识图像进行对比;当所述疑似假冒公众号的公众号头像与所述目标主体的标识图像的相似度满足第一预定条件时,将所述疑似假冒公众号的公众号名称与所述白名单列表进行对比;当所述疑似假冒公众号的公众号名称不属于所述白名单列表时,确定所述疑似假冒公众号为所述假冒公众号。

根据本公开的实施例,所述当所述疑似假冒公众号不属于所述白名单列表,但所述关联程度满足预定条件时,确定所述待识别公众号为所述假冒公众号包括:当所述疑似假冒公众号的公众号头像与所述目标主体的标识图像的相似度不满足所述第一预定条件时,检测所述疑似假冒公众号的公众号简介与所述目标主体的业务功能描述信息的相关性;当所述疑似假冒公众号的公众号简介与所述目标主体的业务功能描述信息的相关性满足第二预定条件时,将所述疑似假冒公众号的公众号名称与所述白名单列表进行对比;以及当所述疑似假冒公众号的公众号名称不属于所述白名单列表时,确定该疑似假冒公众号为所述假冒公众号。

根据本公开的实施例,在所述确定出假冒公众号的名单之后,所述方法还包括:输出所述假冒公众号的名单。

本公开实施例的另一个方面提供了一种假冒公众号的检测装置。所述检测装置包括搜索模块、获取模块和确定模块。所述搜索模块用于利用与目标主体相关的关键词搜索公众号,得到m个待识别公众号,其中,m为大于或等于1的整数。所述获取模块用于获取每个所述待识别公众号的账号信息,所述账号信息包括公众号名称、公众号头像、公众号简介及账号主体。以及所述确定模块用于基于每个所述待识别公众号的所述账号信息与所述目标主体的信息的对比,从m个所述待识别公众号中确定出假冒公众号的名单。所述确定模块包括运营主体确定子模块、关联程度确定子模块、以及假冒公众号确定子模块。运营主体确定子模块用于确定所述待识别公众号是否为所述目标主体运营。关联程度确定子模块用于确定所述待识别公众号的所述账号信息与所述目标主体的信息的关联程度。假冒公众号确定子模块用于在所述待识别公众号非所述目标主体运营,且所述关联程度满足预定条件时确定所述待识别公众号为所述假冒公众号。

本公开实施例的另一方面提供了一种电子设备。所述电子设备包括一个或多个存储器、以及一个或多个处理器。所述存储器上存储有计算机可执行指令。所述处理器执行所述指令,以实现如上所述的方法。

本公开实施例的另一方面提供了一种计算机可读存储介质,其上存储有可执行指令,该指令被处理器执行时使处理器执行如上所述的方法。

本公开实施例的又一方面提供了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现如上所述的方法。

上述一个或多个实施例具有如下优点或益效果:

根据本公开的实施例,能够至少部分地解决人工发现假冒公众号效率较低的问题,通过获取搜索到的每个待识别公众号的账号信息,并基于每个待识别公众号的账号信息与目标主体的信息从多个维度进行分析对比,从m个待识别公众号中确定出假冒公众号的名单,能够迅速检测出假冒公众号,节省人力成本,缩短发现周期,减少假冒公众号可能造成的危害。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的可以应用假冒公众号的检测方法的示例性系统架构;

图2示意性示出了根据本公开的实施例的一个公众号的资料示意图;

图3示意性示出了根据本公开实施例的假冒公众号的检测方法的流程图;

图4示意性示出了根据本公开的实施例的确定出假冒公众号的流程图;

图5示意性示出了根据本公开的另一实施例的确定出假冒公众号的流程图;

图6示意性示出了根据本公开实施例的判断公众号头像相似度满足第一预定条件的流程图;

图7示意性示出了根据本公开实施例的检测公众号简介相关性满足第二预定条件的流程图;

图8示意性示出了根据本公开实施例的假冒公众号的检测装置的框图;

图9示意性示出了根据本公开另一实施例的假冒公众号的检测装置的架构示意图;

图10示意性示出了根据本公开实施例的图9中数据特征提取装置和深度神经网络识别模型的交互示意图;

图11示意性示出了根据本公开另一实施例的检测假冒公众号的流程图;以及

图12示意性示出了根据本公开实施例的适于实现检测假冒公众号的方法和装置的计算机系统的方框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。在下面的详细描述中,为便于解释,阐述了许多具体的细节以提供对本公开实施例的全面理解。然而,明显地,一个或多个实施例在没有这些具体细节的情况下也可以被实施。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

本公开实施例提供了一种假冒公众号的检测方法。该检测方法包括首先利用与目标主体相关的关键词搜索公众号,得到m个待识别公众号,其中,m为大于或等于1的整数。然后获取每个待识别公众号的账号信息。接下来,基于每个待识别公众号的账号信息与目标主体的信息的对比,从m个待识别公众号中确定出假冒公众号的名单。其中,一个假冒公众号为非目标主体运营的、但易被识别为目标主体运营的公众号。

具体地基于每个待识别公众号的账号信息与目标主体的信息的对比识别假冒公众号时,首先基于所述待识别公众号的所述账号信息与所述目标主体的信息的对比,确定所述待识别公众号是否为所述目标主体运营。例如,在一个实施例中,当待识别公众号的账号主体不包括目标主体的名称关键词时,确定待识别公众号非目标主体运营。在另一个实施例中,还可以预先收集出该目标主体运营的公账号的白名单列表,当待识别公众号的账号主体不包括目标主体的名称关键词、且待识别公众号的公众号名称不属于预定的白名单列表时,确定待识别公众号非目标主体运营,这样可以减少误判率。

然后,在确定所述待识别公众号非所述目标运营主体运营时,确定所述待识别公众号的所述账号信息与所述目标主体的信息的关联程度。在所述关联程度满足预定条件时确定所述待识别公众号为所述假冒公众号。本公开实施例可以通过该关联程度是否满足预定条件可以衡量一个公众号被识别为目标主体运营的公众号的可能性。在一个实施例中,当满足以下条件至少之一时,确定该待识别公众号与目标主体运营的公众号的关联程度满足预定条件,包括:待识别公众号的公众号头像与目标主体的标识图像的相似度满足第一预定条件;或者,待识别公众号的公众号简介与目标主体的业务功能描述信息的相关性满足第二预定条件。

以此方式,本公开实施例可以自动地检测出假冒公众号(即,非目标主体运营的、且易被识别为目标主体运营的公众号),提高检测假冒公众号的效率。

图1示意性示出了根据本公开实施例的可以应用假冒公众号的检测方法的示例性系统架构100。需要注意的是,图1所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图1所示,根据该实施例的系统架构100可以包括web服务器101、终端设备102和数据库服务器103。其中,web服务器101与终端设备102之间可以通过网络(例如,互联网)连接。数据库服务器103与终端设备102之间也可以通过网络(例如,内网连接。

用户可以使用终端设备102与web服务器101交互,以接收或发送消息等。终端设备102也可以与数据库服务器103进行交互。

例如用户可以使用终端设备102进行搜索操作,以通过终端设备102从web服务器101上获取到m个待识别公众号的账号信息。接着,用户可以在终端设备102上操作将m个待识别公众号的账号信息下载到本地,也上传到数据库服务器103上。

在数据库服务器103上例如可以预先存储有目标主体的信息(例如目标主体的名称关键词、标识图像和业务功能描述信息等),以及预订的白名单列表。在获取到m个待识别的账号信息之后,数据库服务器103可以将每个待识别公众号的账号信息与预先存储的目标主体的信息进行对比,并结合预订的白名单列表,最终确定出假冒公众号名单。最后,数据库服务器103例如可以将假冒公众号名单通过终端设备102展示给用户。

web服务器101可以是提供各种服务的服务器,例如可以对用户利用终端设备102所浏览的社区平台提供支持的后台管理服务器(仅为示例)。后台管理服务器可以对接收到的用户搜索公众号的请求等数据进行分析处理,并将待识别公众号的账号信息(例如根据用户的搜索请求获取或生成的网页、信息、或数据等)反馈给终端设备。

终端设备102可以是具有显示屏并且支持网页浏览的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等等。终端设备101、102、103上可以安装有各种通讯客户端应用,例如购物类应用、网页浏览器应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等(仅为示例)。用户可以使用终端设备102访问各个社区平台,浏览各个社区平台中的公众号推送的信息。

数据库服务器103可以是提供各种服务的服务器,例如可以对接收到的检测假冒公众号的请求等数据进行分析等处理,并将处理结果(例如根据用户请求获取或生成的假冒公众号名单)反馈给终端设备102。

需要说明的是,本公开实施例所提供的假冒公众号的检测方法一般可以由数据库服务器103执行,或由终端设备102与数据库服务器联合执行。相应地,本公开实施例所提供的假冒公众号的检测装置一般可以设置于服务器103中,或设置在终端设备102与数据库服务器中。本公开实施例所提供的假冒公众号的检测方法也可以由不同于服务器105且能够与终端设备102和/或服务器103通信的服务器或服务器集群执行。相应地,本公开实施例所提供的假冒公众号的检测装置也可以设置于不同于服务器103且能够与终端设备102和/或服务器103通信的服务器或服务器集群中。

应该理解,图1中的终端设备、web服务和数据库服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、web服务和数据库服务器。

本公开中的公众号可以为在平台上注册成功后,能够面向组织或个人进行信息发布、在线沟通,可以接受其他用户关注的账号。例如在微信、知乎、微博、或者抖音等社区平台上,用户账号可以关注别人的账号,也可以被别人关注。本公开中的目标主体可以为个人,也可以为集团、公司或政府单位等机构。

图2示意性示出了根据本公开的实施例的一个公众号的资料示意图。

如图2所示,当用户在浏览一个公众号时,例如可以查看公众号名称210、公众号头像220、公众号简介230、账号主体240和公众号号文章260。在浏览相关信息后,若是对该公众号感兴趣,可以点击关注按钮250。

在一些场景下,例如用户通过朋友或网络了解到一个公众号的信息,或者在线下机构了解到该机构的公众号,想要去关注其公众号时,往往会通过公众号头像220、公众号名称210或公众号简介230去确认是否是想要关注的公众号。不法分子会利用这一点,设置具有混淆性的公众号头像220、公众号名称210或公众号简介230,甚至盗取公众号文章260,制造一个高度相似的假冒公众号。针对这一现象,本公开实施例可以通过对一个公众号的多维度信息(例如包括公众号名称210、公众号头像220、公众号简介230、和/或账号主体240)与目标主体的多维度信息(例如,标识图像、名称关键词、业务功能描述信息、以及白名单列表),按照不同的策略进行比较分析,来检测出一个公众号是否为假冒公众号,从而自动化的检测出假冒公众号。

下面以一个目标主体为一集团公司,其中,该集团公司下设有多个分公司或多个部门,且该集团公司及其分公司或部门可以各自注册有一个或多个公众号的场景为例,详细说明本公开实施例的假冒公众号的检测方法。

图3示意性示出了根据本公开实施例的假冒公众号的检测方法的流程图。

如图3所示,本公开实施例的假冒公众号的检测方法可以包括操作s310~操作s330。

首先在操作s310,利用与目标主体相关的关键词搜索公众号,得到m个待识别公众号,其中,m为大于或等于1的整数。根据本公开的实施例,与目标主体相关的关键词例如可以根据该集团公司名称、各个分公司名称或者公司业务等进行制定,并可以根据对应平台的搜索规则进行调整,本公开不对具体的关键词内容进行限定。

然后在操作s320,获取每个待识别公众号的账号信息。账号信息例如可以包括公众号名称、公众号头像、公众号简介及账号主体。根据本公开的实施例,通过与目标主体相关的关键词搜索得到的多个公众号即表示会被其他用户搜索到。因此,需要对多个公众号信息识别,以免出现假冒公众号。在本公开的一些实施例中,可以爬取待识别公众号的账号信息,参照图2,例如得到每个待识别公众号的公众号名称210、公众号头像220、公众号简介230和账号主体240等。

在操作s330,基于每个待识别公众号的账号信息与目标主体的信息的对比,从m个待识别公众号中确定出假冒公众号的名单。

其中,一个假冒公众号为非目标主体运营的、但所述待识别公众号的所述账号信息与所述目标主体的信息的关联程度满足预定条件导致容易被识别为目标主体运营的公众号。

根据本公开的实施例,当待识别公众号的账号主体不包括目标主体的名称关键词、且待识别公众号的公众号名称不属于预定的白名单列表时,确定待识别公众号非目标主体运营。

在一个应用场景中,集团公司下可以设置许多分公司,例如在不同地方的分公司可以各自申请公众号,甚至一个分公司出于不同业务的考虑,还会申请多个公众号,开展营销传播,推广产品、服务和形象,客户引流等活动。而为了统一管理,该集团公司可以收集统计出各个分公司以及总部申请的公众号名单,以获得预定的白名单列表。该白名单列表里的公众号是确定为目标主体(该集团公司)运营的公众号。但是,考虑到统计周期或者上报错误等因素,可能白名单列表中并不包含所有的属于该集团公司运营的公众号名单。为此本公开实施例会的方法将白名单列表作为判断账号是否为假冒公众号的一个判断因素之一。

参照图2,平台在展示一个公众号的资料时,可能会展示账号主体240。在不同的社区平台,账号主体240的位置并不相同,但是一般并不显著,或者需要进一步点击才能看到更加详细的信息。这就会导致个人用户可能不会关注账号主体240所包含的信息。而实际上,以微信平台申请公众号为例,例如一个公司作为主体申请公众号时,平台官方会审查该公司的企业名称、经验范围、工商执照注册号/统一社会信用代码等信息。因此,在一个待识别公众号的账号主体与目标主体的名称关键词匹配时,可以认定该待识别公众号为目标主体所运营的。从而可以有效的弥补白名单列表中可能包含的公众号名单不全的情况。

在一个待识别公众号的账号主体与目标主体的名称关键词不匹配时,可以与预定的白名单列表进一步对比。若是在白名单列表中,表明该公众号的申请人在公众号注册没有使用公司的资料,但是该公众号依然为该公司运营的。若该公众号不在预定的白名单列表中,则可能并非是该公司运营的。那么可以进一步确认是否会对其他用户造成混淆(即易被识别为目标主体运营的公众号),容易被确认为本公司的官方公众号。

根据本公开过的实施例,当待识别公众号的公众号头像与目标主体的标识图像的相似度满足第一预定条件,和/或待识别公众号的公众号简介与目标主体的业务功能描述信息的相关性满足第二预定条件时,确定待识别公众号与目标主体的信息的关联程度满足预定条件,为易被识别为目标主体运营的公众号。

根据本公开的一个实施例,可以通过对比待识别公众号的头像与目标主体的标识图像的相似性确认是否会对其他用户造成混淆。具体地,例如目标主体的标识图像可以为集团公司的logo、各个分公司的logo、或者其他足以代表该集团公司的图片等。例如可以通过对比图像中主体(例如图像中的人物或物体形象)、颜色配比、字体含义或者字体外观(例如“六个核桃”与“大个核桃”)等相似性,当任一要素足以引起其他用户混淆时,即为满足第一预定条件。

对相似性的判断,例如,可以通过计算像个图像的内容重合比率来确定,或者可以通过计算两个图像对应的特征向量的余弦相似性来确定,再或者可以通过人工智能模型进行图像相似性分类来判断。在一些实施例中,出现以下任意一种情形时,可以确定待识别公众号的头像与目标主体的标识图像的相似度满足第一预定条件,包括:所述待识别公众号的公众号头像与所述目标主体的标识图像的重比率达到预设的第一重合度阈值;或者所述待识别公众号的公众号头像与所述目标主体的标识图像对应的特征向量的余弦相似性达到预设的第一相似度阈值;或者在利用图像分类深度学习模型对所述待识别公众号的公众号头像进行分类后,所述待识别公众号的公众号头像被分类到与所述目标主体的标识图像的相似的类别中。在一个实施例中,所述图像分类深度学习模型是基于卷积神经网络和归一化指数函数softmax分类网络串联构建的二分类模型,用于将任意一个图像分类到与所述目标主体的标识图像相似的类别或不相似的类别。

应知的是,第一重合度阈值、第一相似度阈值等标准可以根据实际情况设定,本公开不对其做具体限制。

根据本公开的另一个实施例,可以通过对比待识别公众号的公众号简介与目标主体的业务功能描述信息的相关性确认是否会对其他用户造成混淆。假设该集团公司为银行为例,往往该银行在各个省市会设立多个分支机构。而每个分支机构申请的公众号的业务功能描述信息可能会带有银行名称、优惠、余额、贷款、网点或者理财等业务功能描述信息。若待识别公众号的公众号简介与上述内容具有相关性,且可能会导致其他用户产生错误认识,即为满足第二预定条件。应知的是,可能会导致其他用户产生错误认识的标准可以根据实际情况设定,本公开不对其做具体限制。

本公开实施例可以通过对一个公众号的多维度信息(公众号名称、公众号头像、公众号简介、和账号主体)与目标主体的多维度信息(例如,标识图像、名称关键词、业务功能描述信息、以及白名单列表),按照不同的策略进行比较分析,以确定一个公众号是否为假冒公众号。在实际应用中,在比较分析的过程中,公众号名称、公众号头像、公众号简介、和/或账号主体的比较先后顺序可以根据需要灵活设定。

利用本公开实施例的假冒公众号的检测方法,可以自动获取到m个待识别公众号,并自动将每个待识别公众号的账号信息与目标主体的信息进行对比,快速得到m个待识别公众号中假冒公众号的名单。因此可以高效、快速检测出容易与目标主体导致混淆的假冒公众号,节省人力成本,缩短假冒公众号的发现周期,并及时发现假冒公众号的潜藏危险,避免目标主体的利益受到损害。

图4示意性示出了根据本公开的实施例的操作s330中确定出假冒公众号的流程图。

如图4所示,根据该实施例操作s330例如可以包括操作s410~操作s430。

在操作s410,利用关键词匹配技术将待识别公众号的账号主体与目标主体的名称关键词进行匹配。

在操作s420,当待识别公众号的账号主体不包含目标主体的名称关键词时,确定待识别公众号为疑似假冒公众号。在公众号申请注册的过程中,通常公众号平台官方多会对申请人的信息(即账号主体)进行资格审查。因此,本公开实施例可以借助平台官方对于账号主体的审核机制,对公众号的账号主体进行检测。可以通过关键词匹配技术快速确定待识别公众号的账号主体中与目标主体的名称关键词匹配的部分。

若当待识别公众号的账号主体包含目标主体的名称关键词时,则说明该待识别公众号就是目标主体运营的。而当待识别公众号的账号主体不包含目标主体的名称关键词,则该待识别公众号为疑似假冒公众号。

在操作s430,当疑似假冒公众号不属于白名单列表,但所述关联程度满足预定条件时,确定待识别公众号为假冒公众号。

根据本公开的实施例,例如爬取到的待识别公众号的账号主体中可以包括但不限于申请人信息(例如个人姓名或者企业名称)、经营范围或者企业类型等。然后可以利用分词工具将待识别公众号的相关文字信息分割,并利用关键词匹配工具将分隔后的关键词与一字典内的词语进行匹配。该字典里面的词语可以是通过人工筛选的能够体现目标主体特征的名称关键词。其中,目标主体的名称关键词例如可以为一个公司的名称、业务或者经营范围等信息。

图5示意性示出了根据本公开的另一实施例的操作s330中确定出假冒公众号的流程图。

如图5所示,根据该实施例操作s330除了包括操作s410~操作s430之外,还可以包括操作s510~操作s570。

在操作s510,将疑似假冒公众号的公众号头像与目标主体的标识图像进行对比。

在操作s520,判断疑似假冒公众号的公众号头像与目标主体的标识图像是否满足第一预定条件。

在操作s530,当疑似假冒公众号的公众号头像与目标主体的标识图像的相似度满足第一预定条件时,将疑似假冒公众号的公众号名称与白名单列表进行对比。

在操作s540,当疑似假冒公众号的公众号名称不属于白名单列表时,确定疑似假冒公众号为假冒公众号。

根据本公开的实施例,当疑似假冒公众号的公众号头像与目标主体的标识图像满足第一预定条件时,说明该疑似假冒公众号已经足以对其他用户造成混淆(即易被识别为目标主体运营的公众号)。那么进一步与白名单列表对比,例如可以确认出是否是本公司运营的公众号。当该疑似假冒公众号不在白名单列表中时,那么可以确认其为假冒公众号,可以后续采取举报或者联系申请主体等措施进行处理。

在操作s550,当疑似假冒公众号的公众号头像与目标主体的标识图像的相似度不满足第一预定条件时,检测疑似假冒公众号的公众号简介与目标主体的业务功能描述信息的相关性。

根据本公开的实施例,当疑似假冒公众号的公众号头像与目标主体的标识图像不满足第一预定条件时,说明由公众号头像引起混淆的概率降低。然而,考虑到公众号简介也有可能会隐蔽性地存在一些误导性内容,因此可以对公众号简介进一步识别,以判断其与目标主体的业务功能描述信息的相关性。目标主体的业务功能描述信息,例如对于银行业务,该业务功能描述信息可以是诸如理财、贷款、信用卡办理等信息。

在操作s560,当疑似假冒公众号的公众号简介与目标主体的业务功能描述信息的相关性满足第二预定条件时,将疑似假冒公众号的公众号名称与白名单列表进行对比。

在操作s570,当疑似假冒公众号的公众号名称不属于白名单列表时,确定该疑似假冒公众号为假冒公众号。

根据本公开的实施例,在疑似假冒公众号与目标主体的标识图像的相似度不满足第一预定条件,通过进一步确定其公众号简介与目标主体的业务功能描述信息具有相关性,那么对于不了解目标主体的标识图像的用户而言,依然会导致错误认识。因此,若该疑似假冒公众号的公众号名称不在白名单列表上,可以确定其为假冒公众号。

图6示意性示出了根据本公开实施例的操作s520中判断公众号头像相似度满足第一预定条件的流程图。

如图6所示,根据该实施例操作s520可以包括操作s610~操作s620。

在操作s610,利用图像分类深度学习模型对于待识别公众号的头像进行分类。其中,图像分类深度学习模型是基于卷积神经网络和归一化指数函数softmax分类网络串联构建的二分类模型,用于将任意一个图像分类到与目标主体的标识图像相似的类别或不相似的类别。

在操作s620,当待识别公众号的头像被分类至与目标主体的标识图像相似的类别时,确定待识别公众号的公众号头像与目标主体的标识图像的相似度满足第一预定条件。

根据本公开的实施例,可以利用卷积神经网络对爬取的公众号图像进行特征提取。具体地,深度学习模型卷积神经网络(cnn神经网络)可以模拟人的视觉神经,利用其中多个神经元可以准确提取到丰富的图片信息,并将图像信息转换成计算机可以识别的多维向量。

根据本公开的实施例,softmax分类网络利用softmax函数将一个k维的任意实数向量压缩(映射)成另一个k维的实数向量,其中向量中的每个元素取值都介于(0,1)之间,并且压缩后的k个值相加等于1。

根据本公开的实施例,可以预先将目标主体的标识图像作为正样本,以正样本为分类标准预先训练好二分类模型。然后,在预测时将待识别的公众号头像输入二分类模型进行分类。如果待识别的公众号头像与目标主体的标识图像相似,那么二分类模型会输出相似的分类结果,即满足第一预定条件,此时说明该待识别公众号可能会被其他用户认定为是目标主体运营的。

图7示意性示出了根据本公开实施例的操作s550中检测相关性满足第二预定条件的流程图。

如图7所示,根据本公开的实施例操作s550中检测公众号的公众号简介与目标主体的业务功能描述信息的相关性是否满足第二预定条件可以包括操作s710~操作s720。

在操作s710,利用检测网络模型检测待识别公众号的公众号简介中是否包含目标主体的业务功能描述信息。其中,检测网络模型为基于word2vec神经网络模型和循环神经网络组合而成的语义理解模型。

在操作s720,当检测到待识别公众号的公众号简介中包含目标主体的业务功能描述信息时,确定待识别公众号的公众号简介与目标主体的业务功能描述信息的相关性满足第二预定条件。

根据本公开的实施例,首先,可以利用word2vec神经网络模型将文字描述转化成计算机可以识别的高维度低稠密度的one-hot独热编码,该编码模式没有考虑词与词之间的关联性。然后,将独热编码向量通过word2vec神经网络模型转换成低维度高稠密度的词向量。转换后的词向量可以充分学习到词与词之间的上下文关系,保存文本中的原始信息。

根据本公开的实施例,还可以将关键词匹配技术和基于自然语言处理(例如crf分词、word2vec词向量、lstm长短期记忆分类模型等)技术的文本识别方法相结合。具体地,在进行关键词匹配的基础上,例如待识别公众号的公众号简介不包含与目标主体相关的关键词,可以进一步利用word2vec神经网络模型对爬取的文字数据进行处理和提取,然后进行语义识别。

根据本公开的实施例,循环神经网络(rnn神经网络)模型可以预先学习到目标主体的业务功能描述语句的上下文信息,然后根据word2vec神经网络模型提取的待识别公众号的文字特征来识别出与目标主体相关的文字信息。当检测到待识别公众号的公众号简介中包含目标主体的业务功能描述信息时,可以认定待识别公众号的公众号简介与目标主体的业务功能描述信息的相关性满足第二预定条件,即易被识别为目标主体运营的公众号。从而可以将非目标主体运营的、但易被识别为目标主体运营的公众号确定为假冒公众号。

根据本公开的实施例,在确定出假冒公众号的名单之后,还可以输出假冒公众号的名单。

图8示意性示出了根据本公开的实施例的假冒公众号的检测装置800的框图。

如图8所示,该假冒公众号的检测装置800可以包括搜索模块810、获取模块820和确定模块830。进一步地,根据本公开一些实施例,该装置800还可以进一步包括输出模块840。

搜索模块810例如可以执行操作s310,用于利用与目标主体相关的关键词搜索公众号,得到m个待识别公众号,其中,m为大于或等于1的整数。

获取模块820例如可以执行操作s320,用于获取每个待识别公众号的账号信息,账号信息包括公众号名称、公众号头像、公众号简介及账号主体。

确定模块830例如可以执行操作s330,用于基于每个待识别公众号的账号信息与目标主体的信息的对比,从m个待识别公众号中确定出假冒公众号的名单。其中,一个假冒公众号为非目标主体运营的、但所述待识别公众号的所述账号信息与所述目标主体的信息的关联程度满足预定条件的公众号。

所述确定模块830可以包括运营主体确定子模块831、关联程度确定子模块832、以及假冒公众号确定子模块833。

运营主体确定子模块831用于确定所述待识别公众号是否为所述目标主体运营。根据本公开的一个实施例,运营主体确定子模块831用于当待识别公众号的账号主体不包括目标主体的名称关键词、且待识别公众号的公众号名称不属于预定的白名单列表时,确定待识别公众号非目标主体运营。根据本公开的实施例,所述关联程度满足预定条件包括以下至少之一:待识别公众号的公众号头像与目标主体的标识图像的相似度满足第一预定条件,或者,待识别公众号的公众号简介与目标主体的业务功能描述信息的相关性满足第二预定条件。

关联程度确定子模块832用于确定所述待识别公众号的所述账号信息与所述目标主体的信息的关联程度。

假冒公众号确定子模块833用于在所述待识别公众号非所述目标主体运营,且所述关联程度满足预定条件时确定所述待识别公众号为所述假冒公众号。

所述输出模块840用于在确定出假冒公众号的名单后,输出假冒公众号的名单。

该装置800可以用于实现本公开各个实施例的检测方法。具体参考上文的介绍,此处不再赘述。

图9示意性示出了根据本公开另一实施例的假冒公众号的检测装置900的架构示意图。

如图9所示,根据该实施例该检测装置900可以包括公众号数据获取装置910、数据特征提取装置920、以及深度神经网络识别模型930、以及识别结果输出装置940。

公众号数据获取装置910用于获取到公众号的账号信息。

数据特征提取装置920用于将获取的公众号的账号信息输入到数据特征提取装置,以处理公众号名称、公众号头像、公众号简介和账号主体等信息,将上述账号信息转换成机器可以识别的有效特征向量。

深度神经网络识别模型930用于利用已经通过学习已有数据样本训练好的深度神经网络识别模型,以数据特征提取装置920所提取的有效特征作为识别模型的输入,对公众号的图像和文字信息进行识别和处理。

识别结果输出装置940用于获得检测结果,输出假冒公众号名单。

图10示意性示出了根据本公开实施例的图9中数据特征提取装置920和深度神经网络识别模型930的交互示意图。

如图10所示,数据特征提取装置920和深度神经网络识别模型930的交互可以包括操作s1010~操作s1060。

在操作s1010,可以利用数据特征提取装置的cnn神经网络对爬取的公众号图像信息进行特征提取。

在操作s1020,可以利用数据特征提取装置的word2vec神经网络对待识别的公众号简介或者账号主体等文字信息进行处理和提取,将文字信息转化成计算机可以识别的词向量。

在操作s1030,可以利用数据特征提取装置的分词工具将公众号名称、公众号简介或者账号主体等句子信息分割成一个个单词,进行关键词提取。

在操作s1040,可以利用深度神经网络识别模型中的softmax分类网络对公众号头像进行分类,利用在操作s1010提取的每一个待识别公众号头像的图像特征,识别出与目标主体的标识头像相似的公众号头像。

在操作s1050,可以利用深度神经网络识别模型中的rnn神经网络,将在操作s1020提取的文字信息的词向量作为rnn神经网络的输入,识别出与目标主体相关的公众号简介或者账号主体。

在操作s1060,可以利用深度神经网络识别模型中的关键词匹配工具,基于在操作s1030提取出的关键词,与目标主体的名称关键词进行匹配。

图11示意性示出了根据本公开另一实施例的检测假冒公众号的流程图。

如图11所示,该实施例的检测假冒公众号流程可以包括操作s1110~操作s1170。

在操作s1110,检测装置开始运行,可以在利用关键词搜索到m个待识别公众号后,爬取m个待识别公众号的账号信息,例如公众号名称、公众号头像、公众号简介、账号主体,并可以进行存储。

在操作s1120,可以利用关键词匹配技术对每个待识别公众号的账号主体进行匹配,如果包含目标主体的名称关键词,则可以认为该公众号不是假冒公众号,则执行操作s1170,流程结束。如果不包含目标主体的名称关键词,则执行操作s1130。

根据本公开的另一些实施例,如果不包含目标主体的名称关键词,还可以利用基于自然语言处理的语义理解技术对待识别公众号的账号主体进行语义分析,如果与目标主体的业务功能描述信息语义相近,则可以认为该待识别公众号不是目标企业假冒公众号,则执行操作s1170,流程结束。如果语义不相近,则执行操作s1130。

在操作s1130,将每个待识别的公众号头像输入到构建的图像分类深度学习模型(由cnn神经网络与softmax神经网络联合构建)中,如果模型的识别结果表明与目标主体的标识图片相似,则执行流程s1140,如果不相似则执行操作s1170,流程结束。

在操作s1140,可以利用检测网络模型(由word2vec神经网络与rnn神经网络联合构建)检测待识别公众号的公众号简介中是否包含目标主体的业务功能描述信息。当检测到待识别公众号的公众号简介中包含目标主体的业务功能描述信息时,确定待识别公众号的公众号简介与目标主体的业务功能描述信息具有相关性,则执行操作s1150。如果不具有相关性,则执行操作s1170,流程结束。

根据本公开的实施例,还可以利用关键词匹配技术检测公众号简介中是否包含与目标主体的业务功能描述信息相关的关键词,如果包含,则执行流程s1150中。

在操作s1150,可以将判断的疑似假冒公众号与目标主体经营的预定白名单列表进行对比,当疑似假冒公众号在预定白名单列表中时,则执行操作s1170,流程结束。当不在预定白名单列表中时,则执行操作s1160。

在操作s1160,输出假冒公众号名单。

在操作s1170,给出不是假冒公众号的检测结果,例如可以汇总为一个检测列表对预定报名单列表进行补充。

本公开实施例的检测装置通过数据爬取、卷积神经网络(cnn)图片识别技术、循环神经网络(rnn)等自然语言处理技术、关键词匹配技术的综合应用,可以高效、快速检测出假冒公众号。能够节省大量人力,缩短假冒公众号的发现周期,减少假冒公众号对目标主体的危害。

根据本公开的实施例的模块、子模块、单元、子单元中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块、子模块、单元、子单元中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块、子模块、单元、子单元中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

例如,搜索模块810、获取模块820、确定模块830、输出模块840、运营主体确定子模块831、关联程度确定子模块832、以及假冒公众号确定子模块833可以合并在一个模块中实现,或者其中的任意一个模块可以被拆分成多个模块。或者,这些模块中的一个或多个模块的至少部分功能可以与其他模块的至少部分功能相结合,并在一个模块中实现。根据本公开的实施例,搜索模块810、获取模块820、确定模块830、输出模块840、运营主体确定子模块831、关联程度确定子模块832、以及假冒公众号确定子模块833中的至少一个模块可以至少被部分地实现为硬件电路,例如现场可编程门阵列(fpga)、可编程逻辑阵列(pla)、片上系统、基板上的系统、封装上的系统、专用集成电路(asic),或可以通过对电路进行集成或封装的任何其他的合理方式等硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,搜索模块810、获取模块820、确定模块830、输出模块840、运营主体确定子模块831、关联程度确定子模块832、以及假冒公众号确定子模块833中的至少一个模块可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。

图12示意性示出了根据本公开实施例的适于实现检测假冒公众号的方法和装置的计算机系统1200的方框图。图12示出的计算机系统1200仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示,根据本公开实施例的计算机系统1200包括处理器1201,其可以根据存储在只读存储器(rom)1202中的程序或者从存储部分1208加载到随机访问存储器(ram)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如cpu)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(asic)),等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在ram1203中,存储有系统1200操作所需的各种程序和数据。处理器1201、rom1202以及ram1203通过总线1204彼此相连。处理器1201通过执行rom1202和/或ram1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除rom1202和ram1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例,系统1200还可以包括输入/输出(i/o)接口1205,输入/输出(i/o)接口1205也连接至总线1204。系统1200还可以包括连接至i/o接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(crt)、液晶显示器(lcd)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如lan卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至i/o接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

根据本公开的实施例,可以以一种或多种程序设计语言的任意组合来编写用于执行本公开实施例提供的计算机程序的程序代码,具体地,可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。程序设计语言包括但不限于诸如java,c++,python,“c”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(lan)或广域网(wan),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的rom1202和/或ram1203和/或rom1202和ram1203以外的一个或多个存储器。

附图中的流程图和框图,图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分,上述模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个接连地表示的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图或流程图中的每个方框、以及框图或流程图中的方框的组合,可以用执行规定的功能或操作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

以上对本公开的实施例进行了描述。但是,这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1