一种网页解析、获取方法及装置与流程

文档序号:12364498阅读:290来源:国知局
一种网页解析、获取方法及装置与流程
本申请涉及网页处理
技术领域
,更具体地说,涉及一种网页解析、获取方法及装置。
背景技术
:用户在浏览网页时,通常是通过域名的形式来打开远程网页。如浏览新浪门户网站http://www.sina.com.cn,www.sina.com.cn就是新浪网的域名。用户只需要在浏览器的地址栏输入这个域名,就可以打开远程服务器上的网页进行浏览了。浏览器与远程服务器之间的数据交互,使用的是IP网络,必须使用IP地址才能进行。因此,浏览器需要先对用户输入的域名进行解析,解析成IP地址之后,才能够访问IP地址对应的远程服务器。在网页上会有很多的超级链接,指向其他网页或资源。如果这个超级链接指向一个域名形式的其他网页或资源,那么浏览器需要先把这个域名地址解析成服务器的IP地址,才能进行数据载入。现有浏览器处理机制是,当用户打开一个包含超级链接的网页并触发点击该超级链接时,浏览器响应用户操作,对该超级链接对应的域名进行解析,获取IP地址。进而根据该IP地址下载数据。由于域名解析过程会消耗一定时间,因此会导致响应时间长,增加用户等待时间的问题。技术实现要素:有鉴于此,本申请提供了一种网页解析、获取方法及装置,以解决现有技术当用户触发网页中的超级链接时,浏览器临时进行域名解析所造成的响应时间长,增加用户等待时间的问题。为了实现上述目的,现提出的方案如下:一种网页解析方法,包括:对获取的待显示网页进行解析时,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。优选地,所述对获取的待显示网页进行解析时,获取所述待显示网页头部的目标标识的标签,包括:在对待显示网页进行解析时,获取所述待显示网页头部的name值为目标值的meta标签。优选地,在所述获取所述待显示网页头部的目标标识的标签之后,该方法还包括:将所述标签包含的各域名添加至域名预解析队列中;所述对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址,包括:调用后台线程,对所述域名预解析队列中的各所述域名进行预解析,获取各所述域名对应的IP地址。优选地,还包括:在判断保存的域名及对应的IP地址达到失效时限时,将达到失效时限的域名添加至所述域名预解析队列中。一种网页获取方法,基于上述所述的网页解析方法,该网页加载方法包括:接收对网页中目标超级链接的触发指令;在所述目标超级链接中提取域名,并查询已存储的域名及IP地址对应关系列表,确定与提取的域名对应的IP地址;其中,所述域名及IP地址对应关系列表中记录有,在所述网页解析时获取的网页头部的目标标识的标签所包含的各域名,以及对各域名预解析所得到的对应的IP地址;根据确定的与提取的域名对应的IP地址,访问该IP地址对应的服务器,获取网页数据。一种网页解析装置,包括:域名获取单元,用于对获取的待显示网页进行解析时,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;域名预解析单元,用于对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;对应关系保存单元,用于将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。优选地,所述域名获取单元包括:Meta标签获取单元,用于在对待显示网页进行解析时,获取所述待显示网页头部的name值为目标值的meta标签。优选地,还包括:第一队列添加单元,用于在获取所述待显示网页头部的目标标识的标签之后,将所述标签包含的各域名添加至域名预解析队列中;所述域名预解析单元包括:后台预解析单元,用于调用后台线程,对所述域名预解析队列中的各所述域名进行预解析,获取各所述域名对应的IP地址。优选地,还包括:第二队列添加单元,用于在判断保存的域名及对应的IP地址达到失效时限时,将达到失效时限的域名添加至所述域名预解析队列中。一种网页获取装置,基于上述所述的网页解析装置,其特征在于,该网页获取装置包括:触发指令接收单元,用于接收对网页中目标超级链接的触发指令;IP地址查询单元,用于在所述目标超级链接中提取域名,并查询已存储的域名及IP地址对应关系列表,确定与提取的域名对应的IP地址;其中,所述域名及IP地址对应关系列表中记录有,在所述网页解析时获取的网页头部的目标标识的标签所包含的各域名,以及对各域名预解析所得到的对应的IP地址;IP地址访问单元,用于根据确定的与提取的域名对应的IP地址,访问该IP地址对应的服务器,获取网页数据。从上述的技术方案可以看出,本申请实施例提供的网页解析方法,对获取的待显示网页进行解析,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。由此可知,本申请网页开发人员在开发网页时预先将与网页关联的超级链接的域名写入网页头部的标签中,并为标签指定目标标识,进而浏览器在对待显示网页进行解析过程,获取网页头部目标标识的标签,即可获取到标签所包含的各域名,进而在网页解析过程并行对各域名进行解析,获取域名对应的IP地址并保存,避免了当用户请求网页中某个超级链接的域名对应的资源时,临时对域名进行解析所带来的时间消耗,降低了用户等待时间。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本申请实施例公开的一种网页解析方法流程图;图2为本申请实施例公开的另一种网页解析方法流程图;图3为本申请实施例公开的又一种网页解析方法流程图;图4为本申请实施例公开的一种网页获取方法流程图;图5为本申请实施例公开的一种网页解析装置结构示意图;图6为本申请实施例公开的一种网页获取装置结构示意图。具体实施方式在介绍本申请方案之前首先对文中会提及的专业名词进行解释:1.1IP地址IP地址是指互联网协议地址(英语:InternetProtocolAddress,又译为网际协议地址),是IPAddress的缩写。IP地址是IP协议提供的一种统一的地址格式,它为互联网上的每一个网络和每一台主机分配一个逻辑地址,以此来屏蔽物理地址的差异。1.2域名域名(DomainName),是由一串用点分隔的名字组成的Internet上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置,地理上的域名,指代有行政自主权的一个地方区域)。一个域名的目的是便于记忆和沟通的一组服务器的地址(网站,电子邮件,FTP等)。IP地址是Internet主机的作为路由寻址用的数字型标识,人不容易记忆。因而产生了域名(domainname)这一种字符型标识。1.3DNS(域名系统)DNS(DomainNameSystem,域名系统),因特网上作为域名和IP地址相互映射的一个分布式数据库,能够使用户更方便的访问互联网,而不用去记住能够被机器直接读取的IP数串。通过主机名,最终得到该主机名对应的IP地址的过程叫做域名解析(或主机名解析)。DNS协议运行在UDP协议之上,使用端口号53。在RFC文档中RFC2181对DNS有规范说明,RFC2136对DNS的动态更新进行说明,RFC2308对DNS查询的反向缓存进行说明。1.4DNS服务器DNS服务器是指保存有该网络中所有主机的域名和对应IP地址,并具有将域名转换为IP地址功能的服务器。其中域名必须对应一个IP地址,一个IP地址可以有多个域名,而IP地址不一定有域名。域名系统采用类似目录树的等级结构。域名服务器通常为客户机/服务器模式中的服务器方,它主要有两种形式:主服务器和转发服务器。将域名映射为IP地址的过程就称为“域名解析”。1.5链接链接是指在电子计算机程序的各模块之间传递参数和控制命令,并把它们组成一个可执行的整体的过程。链接也称超级链接,是指从一个网页指向一个目标的连接关系,所指向的目标可以是另一个网页,也可以是相同网页上的不同位置,还可以是图片、电子邮件地址、文件、甚至是应用程序。1.6Meta标签<meta>元素可提供有关页面的元信息(meta-information),比如针对搜索引擎和更新频度的描述和关键词。<meta>标签位于文档的头部,不包含任何内容。<meta>标签的属性定义了与文档相关联的名称/值对。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。首先本申请通过一个具体实例来介绍现有技术方案。当用户网页中点击一个超链接:http://www.ipanel.cn/index.htm,按时间先后顺序,整个处理流程大致如下:1、浏览器解析地址,获取域名www.ipanel.cn;2、浏览器连接DNS服务器,发送域名查询请求;3、DNS服务器返回域名对应的IP地址给浏览器;4、浏览器通过IP地址,与WEB服务器建立套接字socket连接;5、WEB浏览器发送HTTP请求,请求头为GET/index.htmHTTP/1.1;6、WEB服务器收到请求,从文件系统中读取index.htm,将内容返回给浏览器;7、浏览器收到index.htm的页面内容,开始解析、渲染、排版、绘图,完成页面显示。8、浏览器关闭连接;9、服务器关闭连接。由上述流程可以看出,在用户点击网页中的超链接之后,浏览器才对该超链接地址进行域名解析,通过与DNS服务器交互确定域名对应的IP地址,之后才能够访问IP地址对应的服务器。显然,域名解析过程将会占用一定时间,使得响应时间增长,用户等待时间加长,影响用户体验。为此,本申请提供了一种网页解析方法,参见图1,图1为本申请实施例公开的一种网页解析方法流程图。如图1所示,该方法包括:步骤S100、对获取的待显示网页进行解析,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;具体地,网页开发人员在开发网页时确定与网页关联的超级链接的域名,例如网页中所包含的超级链接和/或网页的二级页面中所包含的超级链接的域名。在确定了域名之后,将域名写入网页头部的标签中,并为标签设定目标标识,以便浏览器识别。可以理解的是,标签中包含的域名的个数并不限定,可以是一个或多个,具体视网页而定。基于此,浏览器在对获取的待显示网页进行解析时,首先解析网页的头部,获取目标标识的标签,进而可以获取标签中所包含的各个域名。步骤S110、对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;具体地,在解析获取域名之后,对各所述域名进行预解析,获取各域名对应的IP地址。可以理解的是,对域名预解析的过程可以是与待显示网页解析过程同步执行,也即在解析待显示网页的同时对获取的域名进行预解析,获取对应的IP地址。当然,由于目标标识的标签位于网页头部,而网页解析过程一般是按照从头至尾顺序,因此会首先解析得到目标标识的标签。此时,可以直接对标签所包含的各域名进行预解析,而不必等到网页全部解析完成。可选的,域名预解析的方式可以是,将域名发送至DNS服务器,由DNS服务器查询域名对应的IP地址,进而返回给浏览器。步骤S120、将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。具体地,在预解析获取到域名对应的IP地址之后,将域名以及对应的IP地址进行保存。通过保存域名及对应的IP地址,后续用户在请求待显示网页中目标超级链接的域名对应的资源时,可以直接在保存的域名与IP地址对应关系中查询,避免临时对域名进行解析,从而提高了网页打开速度。本申请实施例提供的网页解析方法,对获取的待显示网页进行解析,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。由此可知,本申请网页开发人员在开发网页时预先将与网页关联的超级链接的域名写入网页头部的标签中,并为标签指定目标标识,进而浏览器在对待显示网页进行解析过程,获取网页头部目标标识的标签,即可获取到标签所包含的各域名,进而在网页解析过程并行对各域名进行解析,获取域名对应的IP地址并保存,避免了当用户请求网页中某个超级链接的域名对应的资源时,临时对域名进行解析所带来的时间消耗,降低了用户等待时间。参见图2,图2为本申请实施例公开的另一种网页解析方法流程图。步骤S200、对待显示网页进行解析,获取所述待显示网页头部的name值为目标值的meta标签,所述meta标签包含有与所述待显示网页关联的超级链接的域名;具体地,网页开发人员在开发网页时确定与网页关联的超级链接的域名,例如网页中所包含的超级链接和/或网页的二级页面中所包含的超级链接的域名。在确定了域名之后,将域名写入网页头部的meta标签中,并将meta标签的name值设定为目标值,以便浏览器识别。举例如:<metaname=”dns”content=www.example.com,example2.com/>其中,该meta标签的值为dns。meta标签一共包含两个域名,分别为:www.example.com和www.example2.com。其中,不同域名在meta标签的content属性中,以固定分隔符隔开,如上述的分隔符为逗号“,”。步骤S210、对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;具体地,在解析获取域名之后,对各所述域名进行预解析,获取各域名对应的IP地址。可以理解的是,对域名预解析的过程可以是与待显示网页解析过程同步执行,也即在解析待显示网页的同时对获取的域名进行预解析,获取对应的IP地址。当然,由于目标标识的标签位于网页头部,而网页解析过程一般是按照从头至尾顺序,因此会首先解析得到目标标识的标签。此时,可以直接对标签所包含的各域名进行预解析,而不必等到网页全部解析完成。步骤S220、将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。本实施例中介绍了获取待显示网页所包含的域名的具体实现方式,也即解析网页获取网页头部的name值为目标值的meta标签,进而得到该标签所包含的各域名。参见图3,图3为本申请实施例公开的又一种网页解析方法流程图。如图3所示,该方法包括:步骤S300、对待显示网页进行解析,获取所述待显示网页头部的name值为目标值的meta标签,所述meta标签包含有与所述待显示网页关联的超级链接的域名;具体地,网页开发人员在开发网页时确定与网页关联的超级链接的域名,例如网页中所包含的超级链接和/或网页的二级页面中所包含的超级链接的域名。在确定了域名之后,将域名写入网页头部的meta标签中,并将meta标签的name值设定为目标值,以便浏览器识别。步骤S310、将所述标签包含的各域名添加至域名预解析队列中;具体地,本申请可以预先设置一个域名预解析队列。对于标签中包含的各域名,添加至该域名预解析队列中。步骤S320、调用后台线程,对所述域名预解析队列中的各所述域名进行预解析,获取各所述域名对应的IP地址;具体地,本步骤中可以在后台设置一个线程,该线程专门用于对域名预解析队列中的域名进行解析。线程工作时间与浏览器解析网页的时间可以是同步执行。步骤S330、将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。本实施例中,介绍了通过队列形式存储解析获取的域名,并调用后台线程对队列中的域名进行解析,线程解析域名的过程与浏览器解析网页的过程可以是并行的。可选的,在上述各实施例的基础上,本申请还可以对保存的域名及对应的IP地址设置失效时限。在检测判断保存的域名及对应的IP地址达到失效时限时,将达到失效时限的域名添加至所述域名预解析队列中。通过将达到失效时限的域名添加至所述域名预解析队列中,由后台线程对该域名重新进行解析,获取对应的最新的IP地址,并建立该最新的IP地址与对应域名间的关系。其中,域名与IP对应关系可以按照如下方式进行存储:域名(key)IP地址(value)www.example1.comxxx.xxx.xxx.xxxwww.example2.comxxx.xxx.xxx.xxx表1基于上述各实施例的网页解析方法,本申请实施例进一步提供了一种网页获取方法,即在用户对网页中某个超级链接进行触发后,浏览器获取对应网页的处理过程,参见图4,图4为本申请实施例公开的一种网页获取方法流程图。如图4所示,该方法包括:步骤S400、接收对网页中目标超级链接的触发指令;具体地,用户浏览的网页中经常会携带有超级链接,用户可以对所要浏览的目标超级链接进行触发,如点击等,由浏览器接收用户的触发指令。步骤S410、在所述目标超级链接中提取域名,并查询已存储的域名及IP地址对应关系列表,确定与提取的域名对应的IP地址;其中,其中,所述域名及IP地址对应关系列表中记录有,在所述网页解析时获取的网页头部的目标标识的标签所包含的各域名,以及对各域名预解析所得到的对应的IP地址。对于域名及IP地址对应关系的获取方式可以参照上述各实施例的介绍,此处不再赘述。本步骤中,从目标超级链接中提取域名,并查询存储的对应关系,确定与提取的域名对应的IP地址。步骤S420、根据确定的与提取的域名对应的IP地址,访问该IP地址对应的服务器,获取网页数据。具体地,根据IP地址获取网页数据的过程可以参照现有技术。由于本申请已经预先对网页中包括的超级链接的域名进行解析,得到了对应的IP地址。因此,在用户触发目标超级链接时,可以直接在本地查询对应的IP地址,省去了对域名进行解析的环节,加快了页面载入时间,降低了用户等待时间。下面对本申请实施例提供的网页解析装置进行描述,下文描述的网页解析装置与上文描述的网页解析方法可相互对应参照。其中,装置项未公开的细节可以参照方法项实施例的介绍。参见图5,图5为本申请实施例公开的一种网页解析装置结构示意图。如图5所示,该装置包括:域名获取单元51,用于对获取的待显示网页进行解析时,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;域名预解析单元52,用于对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;对应关系保存单元53,用于将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。本申请实施例提供的网页解析装置,对获取的待显示网页进行解析,获取所述待显示网页头部的目标标识的标签,所述标签包含有与所述待显示网页关联的超级链接的域名;对所述标签所包含的各域名进行预解析,获取各所述域名对应的IP地址;将各所述域名对应的IP地址进行保存,以便在请求所述待显示网页中目标超级链接的域名对应的资源时,查询保存的与所述目标超级链接的域名对应的IP地址,并基于查询到的IP地址进行资源的下载。由此可知,本申请网页开发人员在开发网页时预先将与网页关联的超级链接的域名写入网页头部的标签中,并为标签指定目标标识,进而浏览器在对待显示网页进行解析过程,获取网页头部目标标识的标签,即可获取到标签所包含的各域名,进而在网页解析过程并行对各域名进行解析,获取域名对应的IP地址并保存,避免了当用户请求网页中某个超级链接的域名对应的资源时,临时对域名进行解析所带来的时间消耗,降低了用户等待时间。可选的,所述域名获取单元可以包括:Meta标签获取单元,用于对待显示网页进行解析,获取所述待显示网页头部的name值为目标值的meta标签。可选的,本申请的装置还可以包括:第一队列添加单元,用于在获取所述待显示网页头部的目标标识的标签之后,将所述标签包含的各域名添加至域名预解析队列中。基于此,所述域名预解析单元可以包括:后台预解析单元,用于调用后台线程,对所述域名预解析队列中的各所述域名进行预解析,获取各所述域名对应的IP地址。可选的,本申请的装置还可以包括:第二队列添加单元,用于在判断保存的域名及对应的IP地址达到失效时限时,将达到失效时限的域名添加至所述域名预解析队列中。进一步,对本申请实施例提供的网页获取装置进行描述,下文描述的网页获取装置与上文描述的网页获取方法可相互对应参照。本申请公开的网页获取装置基于上述实施例的网页解析装置,参见图6,图6为本申请实施例公开的一种网页获取装置结构示意图。如图6所示,该装置包括:触发指令接收单元61,用于接收对网页中目标超级链接的触发指令;IP地址查询单元62,用于在所述目标超级链接中提取域名,并查询已存储的域名及IP地址对应关系列表,确定与提取的域名对应的IP地址;其中,所述域名及IP地址对应关系列表中记录有,在所述网页解析时获取的网页头部的目标标识的标签所包含的各域名,以及对各域名预解析所得到的对应的IP地址;IP地址访问单元63,用于根据确定的与提取的域名对应的IP地址,访问该IP地址对应的服务器,获取网页数据。由于本申请已经预先对网页中包括的超级链接的域名进行解析,得到了对应的IP地址。因此,在用户触发目标超级链接时,可以直接在本地查询对应的IP地址,省去了对域名进行解析的环节,加快了页面载入时间,降低了用户等待时间。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。当前第1页1 2 3 
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1