一种IP地址业务属性标定方法及装置与流程

文档序号:16973234发布日期:2019-02-26 18:44阅读:249来源:国知局
一种IP地址业务属性标定方法及装置与流程

本发明涉及互联网领域,具体涉及一种ip地址业务属性标定方法及装置。



背景技术:

ip地址作为互联网的核心,是连接人、物、环境的纽带。传统的ip地址属性研究偏重于位置属性研究,典型应用包括ip地址定位服务、网络流量智能调度、智能dns解析以及精准投放取悦广告等,原理是根据ip地址位置的不同推送个性化服务,但是无法确定ip地址上层承载的业务属性,不利于网络安全态势感知。



技术实现要素:

本发明提供一种ip地址业务属性标定方法及装置,其目的是通过网络爬虫获得域名的页面信息,利用机器学习文本分类算法模型确定域名的业务分类,建立“ip-域名-业务分类”的映射关系,完成对ip地址上层承载业务分类的标定,扩充了现有的ip地址属性库,提高了ip业务属性的实时性。

本发明的目的是采用下述技术方案实现的:

一种ip地址业务属性标定方法,其改进之处在于,所述方法包括:

获取域名的子域名以及域名及其子域名的页面信息;

利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果;

利用域名及其子域名的页面信息的分类结果标定域名及其子域名对应的ip地址集的分类属性。

优选的,所述获取域名的子域名以及域名及其子域名的页面信息,包括:

a.判断域名是否合法,若所述域名合法,则执行步骤b,否则结束操作;

b.利用网络爬虫方法获取域名的首页信息,若所述首页信息的页面内容为空,则结束操作,否则执行步骤c;

c.利用正则表达式匹配获取所述首页信息中的子域名,并输出该子域名;

d.对子域名重复执行步骤a至c,直至子域名中不存在嵌套的子域名。

优选的,所述预先建立的文本分类机器学习模型的建立过程,包括:

a.利用历史已标定分类属性的页面信息作为文本分类机器学习模型的训练数据和测试数据,利用训练数据训练文本分类机器学习模型;

b.利用测试数据测试所述文本分类机器学习模型的正确率,若所述文本分类机器学习模型的正确率达到85%及以上,则输出该文本分类机器学习模型,若否,则修改文本分类机器学习模型的参数,并返回步骤a;

其中,所述文本分类机器学习模型为基于cnn/rnn的文本分类算法,所述文本分类机器学习模型的参数可以为学习率,神经网络层数。

优选的,所述利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果之前,包括:

去掉域名及其子域名的页面信息中的代码信息。

优选的,所述域名及其子域名对应的ip地址集的获取过程,包括:

根据dns解析原理,利用至少一个dns服务器解析获取一个域名或其子域名对应的至少一个ip地址,利用一个域名或其子域名对应的至少一个ip地址构建所述域名或其子域名对应的ip地址集,其中,dns服务器与域名或其子域名对应的ip地址一一对应。

一种ip地址业务属性标定装置,其改进之处在于,所述装置包括:

第一获取单元,用于获取域名的子域名以及域名及其子域名的页面信息;

第二获取单元,用于利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果;

标定单元,用于利用域名及其子域名的页面信息的分类结果标定域名及其子域名对应的ip地址集的分类属性。

优选的,所述第一获取单元,包括:

第一判断模块,用于判断域名是否合法,若所述域名合法,则执行第二判断模块,否则结束操作;

第二判断模块,用于利用网络爬虫方法获取域名的首页信息,若所述首页信息的页面内容为空,则结束操作,否则执行获取模块;

获取模块,用于利用正则表达式匹配获取所述首页信息中的子域名,并输出该子域名;

循环模块,用于对子域名重复执行第一判断模块至获取模块,直至子域名中不存在嵌套的子域名。

优选的,所述预先建立的文本分类机器学习模型的建立过程,包括:

训练模块,用于利用历史已标定分类属性的页面信息作为文本分类机器学习模型的训练数据和测试数据,利用训练数据训练文本分类机器学习模型;

测试模块,用于利用测试数据测试所述文本分类机器学习模型的正确率,若所述文本分类机器学习模型的正确率达到85%及以上,则输出该文本分类机器学习模型,若否,则修改文本分类机器学习模型的参数,并返回训练模块;

其中,所述文本分类机器学习模型为基于cnn/rnn的文本分类算法,所述文本分类机器学习模型的参数可以为学习率,神经网络层数。

优选的,所述利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果之前,包括:

去掉域名及其子域名的页面信息中的代码信息。

优选的,所述域名及其子域名对应的ip地址集的获取过程,包括:

根据dns解析原理,利用至少一个dns服务器解析获取一个域名或其子域名对应的至少一个ip地址,利用一个域名或其子域名对应的至少一个ip地址构建所述域名或其子域名对应的ip地址集,其中,dns服务器与域名或其子域名对应的ip地址一一对应。

本发明的有益效果:

本发明提供的技术方案,通过获取域名的子域名以及域名及其子域名的页面信息,利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果,利用域名及其子域名的页面信息的分类结果标定域名及其子域名对应的ip地址集的分类属性,实现应用服务空间与ip地址空间动态映射,以国家安全视角,绘制网络空间应用服务威胁视图,服务于网络空间安全态势感知以及商业化的智能网络调度,扩充了现有的ip地址属性库,提高了ip业务属性的实时性;

本发明提供的技术方案,通过利用分布式dns解析的方法,尽可能多地确定域名的ip地址集;采用的基于cnn/rnn的文本分类算法作为文本分类机器学习模型,提高了网页内容业务分类的准备率。

附图说明

图1是本发明一种ip地址业务属性标定方法的流程图;

图2是本发明一种ip地址业务属性标定装置的结构示意图。

具体实施方式

下面结合附图对本发明的具体实施方式作详细说明。

为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

本发明提供的一种ip地址业务属性标定方法,如图1所示,所述方法包括:

101.获取域名的子域名以及域名及其子域名的页面信息;

102.利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果;

例如:利用文本分类机器学习模型可获取域名www.icbc.com.cn及其子域名的页面信息的分类结果为:财经

103.利用域名及其子域名的页面信息的分类结果标定域名及其子域名对应的ip地址集的分类属性。

生成“ip-域名-业务分类”映射数据条目,并将所述“ip-域名-业务分类”映射数据条目存入数据库,所述数据库可以为mysql。

需要注意的是,ip地址与域名可能会出现多对多的情况,即单个ip地址可能对应多个域名,多个ip地址可能对应一个域名,生成的“ip-域名-业务分类”数据条目需要以ip和域名为联合主键;

例如,对域名www.icbc.com.cn解析到的ip地址有:122.228.86.148、115.231.14.81、183.131.168.210、183.134.10.170和218.92.221.7等共58个ip地址。最终生成“122.228.86.148-www.icbc.com.cn-财经”、“115.231.14.81-www.icbc.com.cn-财经”,“183.131.168.210-www.icbc.com.cn-财经”,“183.134.10.170-www.icbc.com.cn-财经”,“218.92.221.7-www.icbc.com.cn-财经”等数据条目,对于域名www.icbc.com.cn的子域名www.sh.icbc.com.cn,解析到ip地址为59.49.42.248,页面内容的分类结果为:财经,则最终生成“59.49.42.248-www.sh.icbc.com.cn-财经”数据条目。

进一步的,所述步骤101,包括:

a.判断域名是否合法,若所述域名合法,则执行步骤b,否则结束操作;

b.利用网络爬虫方法获取域名的首页信息,若所述首页信息的页面内容为空,则结束操作,否则执行步骤c;

c.利用正则表达式匹配获取所述首页信息中的子域名,并输出该子域名;

d.对子域名重复执行步骤a至c,直至子域名中不存在嵌套的子域名。

例如:获取域名www.icbc.com.cn的子域名以及域名及其子域名的页面信息的过程可以包括:

a.判断域名www.icbc.com.cn是否合法,若所述域名合法,则执行步骤b,否则结束操作;根据正则表达式判断www.icbc.com.cn是合法域名

b.利用网络爬虫方法获取域名www.icbc.com.cn的首页信息,若所述首页信息的页面内容为空,则结束操作,否则执行步骤c;利用网络爬虫获取到的www.icbc.com.cn首页内容不为空;

c.利用正则表达式匹配获取所述首页信息中的子域名,并输出该子域名;

d.对子域名重复执行步骤a至c,直至子域名中不存在嵌套的子域名。

经步骤c和步骤d可得所述域名www.icbc.com.cn的首页信息中的子域名有54个,子域名中嵌套的子域名有34个,则本实施例共获取到88个子域名;

进一步的,所述预先建立的文本分类机器学习模型的建立过程,包括:

a.利用历史已标定分类属性的页面信息作为文本分类机器学习模型的训练数据和测试数据,利用训练数据训练文本分类机器学习模型;

其中,所述训练数据和测试数据均可以为6500条,并且所述训练数据和测试数据均涵盖14种分类;所述14种分类为:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐;

所述文本分类机器学习模型为开源的使用卷积神经网络以及循环神经网络;

b.利用测试数据测试所述文本分类机器学习模型的正确率,若所述文本分类机器学习模型的正确率达到85%及以上,则输出该文本分类机器学习模型,若否,则修改文本分类机器学习模型的参数,并返回步骤a;

其中,所述文本分类机器学习模型为基于cnn/rnn的文本分类算法,所述文本分类机器学习模型的参数可以为学习率,神经网络层数;

经测试,所述文本分类机器学习模型的正确率可以达到96.04%;

进一步的,所述利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果之前,包括:

去掉域名及其子域名的页面信息中的代码信息。

例如:由于网络爬虫返回的是网页的html源代码,因此需要对网络爬虫获取的页面内容进行清洗、规整,提取页面的title、keywords、description和正文关键信息。

例如,可从所述域名www.icbc.com.cn提取的title、keywords、description和正文关键信息有:

title:中国工商银行中国网站;

keywords:网上基金、网上股票、网上贵金属、网上黄金、网上理财、网上保险、网上外汇、网上期货、网上债券、专家述评、财经动态、电子银行、网上银行、电话银行、手机银行、网上缴费、网上捐款、个人金融、银行卡、公司业务、机构业务、资产托管、企业年金、投资银行、资产处置、网上商城、工行学苑、原创舞台、e动天地、金融咨询、焦点关注、网上论坛、工行风貌、工行快讯、媒体看工行、金融信息、重要公告、优惠活动、客户服务、金融超市;

description:工商银行金融服务全面介绍,投资理财信息丰富全面,在线交易方便快捷,满足客户专业化、多元化、人性化的金融服务需求,打造集业务、信息、交易、购物、互动于一体综合性金融服务平台;

正文:个人客户、企业客户、全球主站、分支机构、服务网点、客户服务、人才招聘、繁体、en、请输入关键字、账户服务、存款与贷款、信用卡、投资理财、私人银行、金融市场、个人网上银行登录、注册、业务指南、网银助手、客户端下载、安全专区、防范假网站、企业网上银行登录、注册、业务指南、网银助手、演示、融e购电商平台、个人商城、企业商城;重要公告:关于国家开发银行2018年第一期第二期及第三期金融债券柜台市场发行续发行的销售通告、关于国家开发银行2018年第一期第二期及2017第九期金融债券柜台市场发行续发行的销售通告等;

进一步的,所述域名及其子域名对应的ip地址集的获取过程,包括:

根据dns解析原理,利用至少一个dns服务器解析获取一个域名或其子域名对应的至少一个ip地址,利用一个域名或其子域名对应的至少一个ip地址构建所述域名或其子域名对应的ip地址集,其中,dns服务器与域名或其子域名对应的ip地址一一对应。

例如,获取域名www.icbc.com.cn及其子域名对应的ip地址集的过程可以包括:

利用部署于国内外的15个dns服务器分别对域名www.icbc.com.cn及其子域名执行dns解析,去重后获得531个ip地址;

所述dns服务器可以为114.114.114.114、8.8.8.8。

本发明实施例中,可以以30天为周期,重新执行步骤101-103,更新“ip-域名-业务分类”映射关系。

本发明还提供一种ip地址业务属性标定装置,如图2所示,所述装置包括:

第一获取单元,用于获取域名的子域名以及域名及其子域名的页面信息;

第二获取单元,用于利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果;

标定单元,用于利用域名及其子域名的页面信息的分类结果标定域名及其子域名对应的ip地址集的分类属性。

进一步的,所述第一获取单元,包括:

第一判断模块,用于判断域名是否合法,若所述域名合法,则执行第二判断模块,否则结束操作;

第二判断模块,用于利用网络爬虫方法获取域名的首页信息,若所述首页信息的页面内容为空,则结束操作,否则执行获取模块;

获取模块,用于利用正则表达式匹配获取所述首页信息中的子域名,并输出该子域名;

循环模块,用于对子域名重复执行第一判断模块至获取模块,直至子域名中不存在嵌套的子域名。

进一步的,所述预先建立的文本分类机器学习模型的建立过程,包括:

训练模块,用于利用历史已标定分类属性的页面信息作为文本分类机器学习模型的训练数据和测试数据,利用训练数据训练文本分类机器学习模型;

测试模块,用于利用测试数据测试所述文本分类机器学习模型的正确率,若所述文本分类机器学习模型的正确率达到85%及以上,则输出该文本分类机器学习模型,若否,则修改文本分类机器学习模型的参数,并返回训练模块;

其中,所述文本分类机器学习模型为基于cnn/rnn的文本分类算法,所述文本分类机器学习模型的参数可以为学习率,神经网络层数。

进一步的,所述利用预先建立的文本分类机器学习模型获取域名及其子域名的页面信息的分类结果之前,包括:

去掉域名及其子域名的页面信息中的代码信息。

进一步的,所述域名及其子域名对应的ip地址集的获取过程,包括:

根据dns解析原理,利用至少一个dns服务器解析获取一个域名或其子域名对应的至少一个ip地址,利用一个域名或其子域名对应的至少一个ip地址构建所述域名或其子域名对应的ip地址集,其中,dns服务器与域名或其子域名对应的ip地址一一对应。

本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。

本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。

这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。

这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。

最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1