本发明涉及信息处理技术领域,尤其涉及一种gcn模型的建立方法、装置、服务器及存储介质。
背景技术:
随着信息时代的发展,人们越来越离不开网络,日常生活中会涉及很多通过网络进行的活动,例如:网购火车票、网购优惠商品等,这些活动通常是由用户在用户终端上进行,但由于人工智能对于信息的处理能力远超人类,因此,很多资源容易被利用人工智能来模拟用户行为的攻击者垄断,使得真正的用户无法享受到这些资源。
为保证真正的用户能够享受到这些资源,现有技术中通常采用人机识别验证的方式来对人工智能模拟的用户行为进行识别,并根据识别结果进行行为拦截或行为封禁等处理,从一定层面上增加了人工智能模拟用户行为的难度,但由于现有技术中的人工识别验证的方式在验证过程中仅考虑属性,识别准确性无法满足实际需求。
上述内容仅用于辅助理解本发明的技术方案,并不代表承认上述内容是现有技术。
技术实现要素:
本发明的主要目的在于提供一种gcn模型的建立方法、装置、服务器及存储介质,旨在解决现有技术中人工识别验证的识别准确性无法满足实际需求的技术问题。
为实现上述目的,本发明提供一种gcn模型的建立方法,所述gcn模型的建立方法包括以下步骤:
获取样本访问请求;
从所述样本访问请求中提取样本事件相关的样本属性;
根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据;
获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应;
根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
优选地,所述获取样本访问请求,具体包括:
获取历史访问日志,从所述历史访问日志中获取样本访问请求。
优选地,所述获取历史访问日志,从所述历史访问日志中获取样本访问请求,具体包括:
获取历史访问日志,获取所述历史访问日志中各历史访问请求的请求时间;
根据所述请求时间按照预设时间间隔从所述历史访问日志中选取样本访问请求。
优选地,所述根据所述样本事件相关的样本属性以及各样本属性间的关系生成样本图数据,具体包括:
将所述样本事件作为所述样本图数据的中心节点,将各样本属性作为所述样本图数据的从节点,并根据各样本属性与所述样本事件的关系将所述中心节点和从节点进行连接,以生成样本图数据。
优选地,所述样本属性包括:样本页面id、样本用户id、样本设备id、样本ip地址和样本浏览器标识中的至少一个。
优选地,所述根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型之后,所述gcn模型的建立方法还包括:
从用户终端的当前访问请求中提取待验证事件相关的当前属性;
根据所述当前属性、以及各当前属性与所述待验证事件的关系生成待验证图数据;
通过预设gcn模型对所述待验证图数据进行识别,以确定所述待验证事件的当前事件类型。
优选地,所述根据所述当前属性、以及各当前属性与所述待验证事件的关系生成待验证图数据,具体包括:
将所述待验证事件作为所述待验证图数据的中心节点,将各当前属性作为所述样本图数据的从节点,并根据各当前属性与所述待验证事件的关系将所述中心节点和从节点进行连接,以生成待验证图数据。
此外,为实现上述目的,本发明还提供一种服务器,所述服务器包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的gcn模型的建立程序,所述gcn模型的建立程序配置为实现如上所述的gcn模型的建立方法的步骤。
此外,为实现上述目的,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有gcn模型的建立程序,所述gcn模型的建立程序被处理器执行时实现如上所述的gcn模型的建立方法的步骤。
此外,为实现上述目的,本发明还提供一种gcn模型的建立装置,所述装置包括:
请求获取模块,用于获取样本访问请求;
属性提取模块,用于从所述样本访问请求中提取样本事件相关的样本属性;
图数据生成模块,用于根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据;
类型获取模块,用于获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应;
模型训练模块,用于根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
本发明从样本访问请求中提取样本事件相关的样本属性,再根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据,然后获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应,最后根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型,在建立预设gcn模型时不仅考虑属性,还考虑了各样本属性与样本事件的关系,能够提高识别准确率,增加了人工智能模型用户行为的难度。
附图说明
图1是本发明实施例方案涉及的硬件运行环境的服务器结构示意图;
图2为本发明gcn模型的建立方法第一实施例的流程示意图;
图3为本发明实施例中待验证图数据的结构示意图;
图4为本发明gcn模型的建立方法第二实施例的流程示意图;
图5为本发明实施例中gcn模型和gbdt模型的准确率衰减示意图;
图6为本发明gcn模型的建立装置第一实施例的结构框图。
本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
如图1所示,该服务器可以包括:处理器1001,例如cpu,通信总线1002、用户接口1003,网络接口1004,存储器1005。其中,通信总线1002用于实现这些组件之间的连接通信。用户接口1003可以包括显示屏(display)、输入单元比如键盘(keyboard),可选用户接口1003还可以包括标准的有线接口、无线接口。网络接口1004可选的可以包括标准的有线接口、无线接口(如wi-fi接口)。存储器1005可以是高速ram存储器,也可以是稳定的存储器(non-volatilememory),例如磁盘存储器。存储器1005可选的还可以是独立于前述处理器1001的存储装置。
本领域技术人员可以理解,图1中示出的结构并不构成对服务器的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
如图1所示,作为一种计算机存储介质的存储器1005中可以包括操作系统、网络通信模块、用户接口模块以及gcn模型的建立程序。
在图1所示的服务器中,网络接口1004主要用于与外部网络进行数据通信;用户接口1003主要用于接收用户的输入指令;所述服务器通过处理器1001调用存储器1005中存储的gcn模型的建立程序,并执行以下操作:
获取样本访问请求;
从所述样本访问请求中提取样本事件相关的样本属性;
根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据;
获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应;
根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
进一步地,处理器1001可以调用存储器1005中存储的gcn模型的建立程序,还执行以下操作:
获取历史访问日志,从所述历史访问日志中获取样本访问请求。
进一步地,处理器1001可以调用存储器1005中存储的gcn模型的建立程序,还执行以下操作:
获取历史访问日志,获取所述历史访问日志中各历史访问请求的请求时间;
根据所述请求时间按照预设时间间隔从所述历史访问日志中选取样本访问请求。
进一步地,处理器1001可以调用存储器1005中存储的gcn模型的建立程序,还执行以下操作:
将所述样本事件作为所述样本图数据的中心节点,将各样本属性作为所述样本图数据的从节点,并根据各样本属性与所述样本事件的关系将所述中心节点和从节点进行连接,以生成样本图数据。
进一步地,处理器1001可以调用存储器1005中存储的gcn模型的建立程序,还执行以下操作:
从用户终端的当前访问请求中提取待验证事件相关的当前属性;
根据所述当前属性、以及各当前属性与所述待验证事件的关系生成待验证图数据;
通过预设gcn模型对所述待验证图数据进行识别,以确定所述待验证事件的当前事件类型。
进一步地,处理器1001可以调用存储器1005中存储的gcn模型的建立程序,还执行以下操作:将所述待验证事件作为所述待验证图数据的中心节点,将各当前属性作为所述样本图数据的从节点,并根据各当前属性与所述待验证事件的关系将所述中心节点和从节点进行连接,以生成待验证图数据。
本实施例通过上述方案,从样本访问请求中提取样本事件相关的样本属性,再根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据,然后获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应,最后根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型,在建立预设gcn模型时不仅考虑属性,还考虑了各样本属性与样本事件的关系,能够提高识别准确率,增加了人工智能模型用户行为的难度。
基于上述硬件结构,提出本发明gcn模型的建立方法实施例。
参照图2,图2为本发明gcn模型的建立方法第一实施例的流程示意图。
在第一实施例中,所述gcn模型的建立方法包括以下步骤:
s10:获取样本访问请求。
可理解的是,所述样本访问请求即为用户曾经在用户终端上触发的访问请求。
需要说明的是,所述用户终端即为用户所使用的终端,其可为个人电脑、智能手机、笔记本电脑或平板电脑等终端设备,本实施例对此不加以限制。
为便于获取所述样本访问请求,本实施例中,可获取历史访问日志,从所述历史访问日志中获取样本访问请求。
为保证样本事件的多元性,本实施例中,可获取历史访问日志,获取所述历史访问日志中各历史访问请求的请求时间;并根据所述请求时间按照预设时间间隔从所述历史访问日志中选取样本访问请求。
s20:从所述样本访问请求中提取样本事件相关的样本属性。
在具体实现中,所述样本访问请求中通常会携带一些信息,具体地,所述样本访问请求中可包括:用于表征访问对象的样本事件、以及与所述样本事件相关的样本属性,因此,可从所述样本访问请求中提取样本事件相关的样本属性。
s30:根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据。
为便于生成样本图数据,本实施例中,可将所述样本事件作为所述样本图数据的中心节点,将各样本属性作为所述样本图数据的从节点,并根据各样本属性与所述样本事件的关系将所述中心节点和从节点进行连接,以生成样本图数据。
通常情况下,所述样本属性包括:样本页面id、样本用户id、样本设备id、样本ip地址和样本浏览器标识中的至少一个,为提高验证效果,参照图3所示,所述样本属性可包括样本页面id(即对应图中的“pageid”)、样本用户id(即对应图中的“userid”)、样本设备id(即对应图中的“deviceid”)、样本ip地址(即对应图中的“ip”)和样本浏览器标识(即对应图中的“ua”)。
s40:获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应。
在具体实现中,获取所述样本事件对应的样本事件类型,可由人工对样本事件进行核实后,输入所述样本事件类型。
s50:根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
需要说明的是,图卷积神经网络(graphconvolutionalnetworks,gcn)模型是能对图数据进行深度学习的模型,现有技术中gcn模型的研究对象仅用于欧几里得整环(euclideandomain)数据,而本实施例通过样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
由于所述预设gcn模型进行过训练,因此,可对后续访问请求的待验证事件进行识别。
本实施例从样本访问请求中提取样本事件相关的样本属性,再根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据,然后获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应,最后根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型,在建立预设gcn模型时不仅考虑属性,还考虑了各样本属性与样本事件的关系,能够提高识别准确率,增加了人工智能模型用户行为的难度。
参照图4,图4为本发明gcn模型的建立方法第二实施例的流程示意图,基于上述图2所示的实施例,提出本发明gcn模型的建立方法的第二实施例。
在第二实施例中,步骤s50之后,所述gcn模型的建立方法还包括:
s60:从用户终端的当前访问请求中提取待验证事件相关的当前属性。
可理解的是,所述当前访问请求即为用户处于当前时刻在用户终端上所触发的访问请求。
s70:根据所述当前属性、以及各当前属性与所述待验证事件的关系生成待验证图数据。
为便于生成待验证图数据,本实施例中,可将所述待验证事件作为所述待验证图数据的中心节点,将各当前属性作为所述待验证图数据的从节点,并根据各当前属性与所述待验证事件的关系将所述中心节点和从节点进行连接,以生成待验证图数据。
通常情况下,所述当前属性可包括:当前页面id、当前用户id、当前设备id、当前ip地址和当前浏览器标识中的至少一个,为提高验证效果,继续参照图3,所述当前属性可包括当前页面id(即对应图中的“pageid”)、当前用户id(即对应图中的“userid”)、当前设备id(即对应图中的“deviceid”)、当前ip地址(即对应图中的“ip”)和当前浏览器标识(即对应图中的“ua”)。
s80:通过预设gcn模型对所述待验证图数据进行识别,以确定所述待验证事件的当前事件类型。
需要说明的是,图卷积神经网络(graphconvolutionalnetworks,gcn)模型是能对图数据进行深度学习的模型,现有技术中gcn模型的研究对象仅用于欧几里得整环(euclideandomain)数据,而本实施例通过建立待验证图数据,也可通过预设gcn模型对所述待验证图数据进行识别,以确定所述待验证事件的当前事件类型。
可理解的是,所述事件类型可分为正常事件和异常事件,在所述当前事件类型为正常事件时,说明所述当前访问请求为常规请求,可对所述当前访问请求进行放行;在所述当前事件类型为异常事件时,说明所述当前访问请求为异常请求,可对所述当前访问请求进行拦截,当然,也可对所述用户终端进行封禁,不再响应后续访问请求。
假设对初始gcn模型进行训练的网络结构为gcn(128)->gcn(64)->gcn(64)->linear(2),并且训练采用adam优化器,学习率lr=0.001,同时,以只能学习特征信息(即属性)的梯度提升决策树(gradientboostdecisiontree,gbdt)模型作为基准,网格搜索grid_search搜索超参数。
获取一个月31天内的历史访问日志,采用第1天历史访问日志对gcn模型和gbdt模型进行训练,并通过后续30天进行预测,以观察模型衰减程度,参照图5,可见gcn模型比gbdt模型要更加有效,并且鲁棒性更好。
此外,本发明实施例还提出一种存储介质,所述存储介质上存储有gcn模型的建立程序,所述gcn模型的建立程序被处理器执行时实现如下操作:
获取样本访问请求;
从所述样本访问请求中提取样本事件相关的样本属性;
根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据;
获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应;
根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
本实施例的gcn模型的建立程序还可用于实现上述gcn模型的建立方法的各步骤,在此不再赘述。
此外,本发明实施例还提出一种gcn模型的建立装置,参照图6,所述gcn模型的建立装置包括:
请求获取模块10,用于获取样本访问请求;
属性提取模块20,用于从所述样本访问请求中提取样本事件相关的样本属性;
图数据生成模块30,用于根据所述样本事件相关的样本属性、以及各样本属性与所述样本事件的关系生成样本图数据;
类型获取模块40,用于获取所述样本事件对应的样本事件类型,并将各样本事件的样本事件类型与样本图数据进行对应;
模型训练模块50,用于根据所述样本图数据及对应的样本事件类型对初始gcn模型进行训练,获得预设gcn模型。
上述装置中的各模块可用于实现上述方法中的各个步骤,在此不再赘述。
需要说明的是,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括该要素的过程、方法、物品或者系统中还存在另外的相同要素。
上述本发明实施例序号仅仅为了描述,不代表实施例的优劣。
通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到上述实施例方法可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件,但很多情况下前者是更佳的实施方式。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品存储在如上所述的一个存储介质(如rom/ram、磁碟、光盘)中,包括若干指令用以使得一台终端设备(可以是手机,计算机,服务器,空调器,或者网络设备等)执行本发明各个实施例所述的方法。
以上仅为本发明的优选实施例,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。