本申请涉及计算机技术领域,尤其涉及一种网页信息获取方法、装置以及设备。
背景技术:
随着计算机技术的发展,在许多应用中都需要获取网页中的指定信息,而传统的网页信息获取方法主要是利用预先开发的脚本,运行脚本从网页中自动获取指定信息。
由于不同网络(web)应用的页面开发技术不同,一个脚本往往无法适配多种web应用的页面信息获取,因此,通常在需要获取不同web应用的页面信息时,开发人员需要先针对不同web应用编写不同的脚本,这就导致当web应用较多时,开发人员需要编码更多的脚本来实现网页信息获取功能,对于开发人员而言,脚本编写的工作量较大,且效率较低,这就导致传统的网页信息获取方法,无法适应于web应用日新月异的网络环境。
基于此,目前亟需开发一种网页信息获取方法能够快速适应web应用日新月异的网络环境,以简化开发人员的工作量,提高开发效率。
技术实现要素:
本申请实施例提供了一种网页信息获取方法,该方法基于模板配置文件实现从网页中自动获取相关信息,由于模板配置文件能够随着需求而不断更新,因此,该方法能够适应于web应用日异月新的环境,能够兼容多种web应用的网页获取场景。
具体的,在本申请第一方面提供了一种网页信息获取方法,该方法包括:
识别网络应用的应用类型;
从模板配置文件中读取与所述应用类型匹配的模板参数,所述模板参数包括指定节点名称和指定标签属性,所述模板配置文件中存储有多种网络应用各自对应的模板参数;
根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息。
可选的,以后台进程的方式,循环执行根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息的步骤。
可选的,所述方法还包括:
更新所述模板配置文件。
可选的,所述方法还包括:
将所述信息存储至本地数据库中。
可选的,所述方法还包括:
将所述信息存储于指定服务器中,并在本地数据库中存储所述信息的存储地址。
可选的,所述指定标签属性包括:
指定标签的类名和/或者指定标签的唯一标识。
可选的,所述指定标签属性对应的信息包括一下任意或者多种类型:
网址、文本、图片和/或视频。
在本申请第二方面提供了一种网页信息获取装置,该装置包括:
识别模块,用于识别网络应用的应用类型;
匹配模块,用于从模板配置文件中读取与所述应用类型匹配的模板参数,所述模板参数包括指定节点名称和指定标签属性,所述模板配置文件中存储有多种网络应用各自对应的模板参数;
获取模块,用于根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息。
在本申请第三方面提供了一种设备,该设备包括:处理器和存储器;
所述存储器,用于存储可执行指令;
所述处理器,用于从所述存储器中读取所述可执行指令,并在运行所述可执行指令时实现如上述第一方面所述的网页信息获取方法。
在本申请第四方面提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如上述第一方面所述的网页信息获取方法。
从以上技术方案可以看出,本申请实施例具有以下优点:
本申请实施例中,提供了一种网页信息获取方法,在该方法中提出了基于模板配置文件来存储各个web应用各自对应的模板参数,该模板参数至少包括指定节点名称和指定标签属性,通过该模板参数来指定所需获取的页面中的指定位置的指定数据,进而在需要获取网页信息时,无需针对web应用开发对应的脚本,而是先判断web应用的类型,进而在模板配置文件中匹配对应的模板参数,进而基于该模板参数从该web应用的网页中自动获取对应的信息。基于此,若有新的web应用,开发人员只需要更新模板配置文件中的模板参数,这样利用该方法就能够快速适应新的web应用环境,可以看出,对于开发人员而言,其也只需要配置模板参数,相比编写脚本,其工作量大大减少,开发效率也大大提高。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种网页信息获取方法的应用场景图;
图2为本申请实施例提供的一种网页信息获取方法的流程图;
图3为本申请实施例提供的一种网页信息获取装置的结构图;
图4为本申请实施例提供的一种设备的结构图。
具体实施方式
为了使本技术领域的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
应理解,本申请提供的网页信息获取方法应用于电子设备中,该电子设备可以为个人计算机、笔记本、服务器等设备。在实际应用中,利用该电子设备实施本申请提供的网页信息获取方法能够兼容地从多个web应用的网页中自动获取相应的信息,能够适应web应用多样化的网络环境,在应用过程中,无需针对不同的web应用开发不同的脚本代码,大大减少了开发人员的工作量,提高了开发效率。
下面结合图1对本申请提供的网页信息获取方法在实际中的应用情况进行示例说明。如图1所示,本申请提供的网页信息获取方法应用于电子设备100中,可以理解的是,该电子设备100至少应该包括存储器和处理器,而该网页信息获取方法可以程序的形式存储与电子设备100的存储器中,则该电子设备100在运行时,由其中的处理器运行该程序以实现该方法,如图1所示,该电子设备100需要从待访问的web应用集合中各个web应用的网页中获取相应的信息,基于此,电子设备100在访问web应用1的页面时,先匹配该web应用1对应的模板参数a,进而利用该模板参数a从web应用1的页面中获取对应的信息;该电子设备100访问另一种类型的web应用2的页面时,先匹配该web应用2对应的模板参数b,进而利用该模板参数b从web应用2的页面中获取对应的信息,该电子设备100访问另一种类型的web应用3的页面时,先匹配该web应用3对应的模板参数c,进而利用该模板参数c从web应用3的页面中获取对应的信息。
以上仅为示例,在实际应用中,电子设备100需要访问的web应用集合可以根据业务需求而设定,该web应用集合中可以包括一个类型的web应用,也可以包括多个类型的web应用,同理,其可以包括一个web应用,也可以包括多个web应用。
在实际应用中,可以依次从多个不同web应用中获取对应的信息,也可以并行地执行获取流程,即并行地从多个不同web应用中获取各自对应的信息。
在实际应用中,web应用可以是公共的网站,也可以是企业或者个人私有的网站等。
为了更好地理解本申请提供的网页信息获取方法,下面结合图2进行示例说明。
参见图2,图2为本申请实施例提供的一种网页信息获取方法的流程图,该方法包括:
s201:识别网络应用的应用类型;
在具体实现时,根据业务需求可以预先设置好待访问的网页应用的网络地址,即web应用的网络地址如url,可以设置一个web应用的网络地址,也可以设置多个web应用的网络地址,则基于预设的该网络地址访问网络应用的页面,根据页面的源代码信息识别web应用的应用类型。
在具体实现时,根据业务需求为用户提供编辑界面,用户在该编辑界面上设置此次需要访问的网络应用的网络地址,则根据用户此次设置的网络地址,访问对应网络应用的页面,根据页面的源代码信息识别web应用的应用类型。
s202:从模板配置文件中读取与所述应用类型匹配的模板参数,所述模板参数包括指定节点名称和指定标签属性,所述模板配置文件中存储有多种网络应用各自对应的模板参数;
在具体实现时,开发人员需要根据实际业务需求预先设置各个web应用各自对应的模板参数,以生成模板配置文件,该模板配置文件可以以表格、文本等形式进行存储。可以理解的是,当需要从新型的web应用网页获取信息,开发人员只需要在该模板配置文件中增加该新的web应用对应的模板参数即可。同理,当不再需要从某个web应用网页中获取信息,开发人员也可以在该模板配置文件中删除对应的模板参数即可。基于此,应理解的是,在具体实现时,可以实时更新所述模板配置文件。
应理解的是,一种web应用对应的模板参数,其能够表明需要从web应用的网页中获取指定位置的指定属性的属性值。
可选的,一个web应用对应的模板参数中的指定属性标识可以为指定标签的类名(class)和/或者指定标签的唯一标识(id)。基于类名或者基于唯一标识能够快速定位到需要获取的信息。
在具体实现时,该指定标签属性对应的信息可以为以下一种或者多种类型:网址、文本、图片和/或视频等。在具体实现时,很多业务都需要获取网页中的敏感信息,例如用户名,密码,后台地址等私密信息,则将该指定标签属性设置为属性值为敏感信息的标签属性。
s203:根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息。
在具体实现时,获取所述网络应用的网页信息,然后根据该指定节点名称定位出对应的节点,然后,在基于所定位的节点位置获取该指定标签属性对应的信息,即属性值。
在具体实现时,该步骤203可以仅执行一次,即针对该web应用的网页仅执行一次获取操作,仅获取一次信息。当然,也可以以后台进程的方式,循环执行根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息的步骤。即,也可以执行多次获取操作,周期性地从该web应用的网页中获取对应的信息。
在具体实现时,考虑到获取到信息之后,这些信息是为了给其他业务提供数据基础的,基于此,为了方便其他业务的正常执行,可以直接将获取到的所述信息存储至电子设备的本地数据库中。当然,也可以将获取到的所述信息存储至指定服务器中,并将所述信息的具体存储地址存储在该电子设备的本地数据库中。基于此,在实际应用中,可以通过该电子设备获取所述信息的存储地址,进而根据该存储地址从指定服务器中获取对应的信息。
需要说明的是,在实际应用中,有时需要从多个web应用的网页获取相关信息,则上述步骤201具体为针对需要被访问的多个web应用,分别识别每个web应用的类型,进而针对每个web应用执行步骤202和步骤203。即,应理解的是,在具体实现时,也可以针对每个web应用,依次执行s202-s203,可以通过发起多个进程的方式,针对多个web应用,并行执行s202-203,基于此,并行地从多个web应用的页面中获取到对应的信息。
通过上述实施例可以看出,在本申请提供的页面信息获取方法中提出了基于模板配置文件来存储各个web应用各自对应的模板参数,该模板参数至少包括指定节点名称和指定标签属性,通过该模板参数来指定所需获取的页面中的指定位置的指定数据,进而在需要获取网页信息时,无需针对web应用开发对应的脚本,而是先判断web应用的类型,进而在模板配置文件中匹配对应的模板参数,进而基于该模板参数从该web应用的网页中自动获取对应的信息。基于此,若有新的web应用,开发人员只需要更新模板配置文件中的模板参数,这样利用该方法就能够快速适应新的web应用环境,可以看出,对于开发人员而言,其也只需要配置模板参数,相比编写脚本,其工作量大大减少,开发效率也大大提高。
与上述图2所示方法相对应的,本申请还提供了对应的装置。下面结合图3对该装置进行解释说明。参见图3,图3为本申请实施例提供的一种网页信息获取装置的结构图,该装置300包括:
识别模块301,用于识别网络应用的应用类型;
匹配模块302,用于从模板配置文件中读取与所述应用类型匹配的模板参数,所述模板参数包括指定节点名称和指定标签属性,所述模板配置文件中存储有多种网络应用各自对应的模板参数;
获取模块303,用于根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息。
可选的,该获取模块303在具体实现时,可以用于以后台进程的方式,循环执行根据所述指定节点名称定位所述网络应用的网页中节点,并从所述节点相关信息中获取所述指定标签属性对应的信息的步骤。
可选的,该装置300还可以包括更新模块,该更新模块用于更新所述模板配置文件。
可选的,该装置300还可以包括第一存储模块,该第一存储模块用于将所述信息存储至本地数据库中。
可选的,该装置300还可以包括第二存储模块,该第二存储模块用于将所述信息存储于指定服务器中,并在本地数据库中存储所述信息的存储地址。
可选的,所述指定标签属性包括:
指定标签的类名和/或者指定标签的唯一标识。
可选的,所述指定标签属性对应的信息包括一下任意或者多种类型:
网址、文本、图片和/或视频。
通过上述实施例可以看出,利用本申请提供的网页信息获取装置,能够基于模板配置文件来存储各个web应用各自对应的模板参数,该模板参数至少包括指定节点名称和指定标签属性,通过该模板参数来指定所需获取的页面中的指定位置的指定数据,进而在需要获取网页信息时,无需针对web应用开发对应的脚本,而是先判断web应用的类型,进而在模板配置文件中匹配对应的模板参数,进而基于该模板参数从该web应用的网页中自动获取对应的信息。基于此,若有新的web应用,开发人员只需要更新模板配置文件中的模板参数,这样利用该装置就能够快速适应新的web应用环境,可以看出,对于开发人员而言,其也只需要配置模板参数,相比编写脚本,其工作量大大减少,开发效率也大大提高。
另外,本申请还提供了一种设备,以保证上述方法在实际中应用和实现。下面结合图4对该设备进行解释说明。
参见图4,图4为本申请实施例提供的一种设备的结构图,如图4所示,该设备400包括:处理器401和存储器402;
所述存储器402,用于存储可执行指令;
所述处理器201,用于从所述存储器中读取所述可执行指令,并在运行所述可执行指令时实现如上述本申请实施例所提供的网页信息获取方法。
其中,所述存储器402在具体实现时,可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。
另外,本申请还提供了一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时实现如本申请实施例所提供的网页信息获取方法。基于此,以保证本申请提供的网页信息获取方法能够在任意电子设备上运行。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(英文全称:read-onlymemory,英文缩写:rom)、随机存取存储器(英文全称:randomaccessmemory,英文缩写:ram)、磁碟或者光盘等各种可以存储程序代码的介质。
以上所述,以上实施例仅用以说明本申请的技术方案,而非对其限制;尽管参照前述实施例对本申请进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。