
1.本发明涉及网络资源技术领域,尤其涉及一种自动采集网络资源的方法。
背景技术:2.互联网又称国际网络,是指网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络,即广域网、城域网、局域网及单机按照一定的通讯协议组成的国际计算机网络,将两台计算机或者是两台以上的计算机终端、客户端、服务端通过计算机信息技术的手段互相联系起来的结果。
3.在互联网中具有多种类型的网络资源,是利用计算机系统通过通信设备传播和网络软件管理的信息资源,需要由用户根据需求进行筛选;用户评价和选择网络信息资源的标准包括:网络信息资源所涵盖的范围是否广泛,是否针对相关领域或专业;本网页制作的目的是什么,有何针对性,是否面对特定方向的用户;所提供的信息的广度、深度如何;包括哪些网络资源类型,是书目、索引、文摘,还是网络期刊或者网上图书等;
4.由于现有的网络资源的格式、质量、运行环境等参差不一,用户难以获取符合需求的网络资源,尤其针对不同的数字期刊资源,缺乏一种对用户需求的资源进行有效整编的方法,获取网络资源的效率较低。
技术实现要素:5.本发明提供一种自动采集网络资源的方法,用以解决上述现有技术中的缺陷。
6.本发明提供一种自动采集网络资源的方法,包括步骤:
7.输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;
8.解析对应网络资源的页面代码,获取第一节点树;
9.根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;
10.若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;
11.通过所述url地址,下载所述需获取资源。
12.优选的,所述预配置信息包括报刊名和报刊类型。
13.根据本发明提供的一种自动采集网络资源的方法,进一步包括步骤:
14.若根据所述预配置信息,从所述第一节点树中查询不到所述预配置信息;则输入需获取资源的报刊日期,根据所述报刊日期解析对应日期报刊的url地址,将新的页面代码转化为第二节点树;
15.根据所述报刊日期解析所述第二节点树,解析所述需获取资源的url地址,并下载所述需获取资源。
16.优选的,还包括步骤:
17.根据所述报刊名、报刊类型和所述报刊日期,生成所述报刊名和对应的报刊类型、对应的报刊日期的映射目录。
18.优选的,还包括步骤:
19.将所有同一报刊名的所有所述需获取资源整合生成一个报刊文件。
20.优选的,还包括步骤:
21.在下载过程中,实时显示同一报刊名下的所有所述需获取资源的下载进度。
22.另一方面,本发明还提供一种自动采集网络资源的系统,包括:信息单元、解析单元和下载单元;
23.其中,信息单元用于获取用户输入的待获取报刊的网络资源链接以及需获取资源的预配置信息;
24.解析单元用于根据用户输入的信息解析对应网络资源的页面代码,获取第一节点树;并根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;
25.下载单元用于通过所述url地址,下载所述需获取资源。
26.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述自动采集网络资源的方法的步骤。
27.本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述自动采集网络资源的方法的步骤。
28.本发明提供的一种自动采集网络资源的方法,通过输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;通过所述url地址,下载所述需获取资源;本发明能够针对不同的数字期刊资源构建相应的采集规则,将数字期刊的网页资源转化为节点树直接从当前版面的节点树中获取所需资源的下载url,从而能够对需获取的资源进行集中统一处理,直接将期刊网站上分散的资源以自动化的方式进行整编,有效地提高了网络资源的获取效率,同时降低了网络资源的获取难度。
附图说明
29.为了更清楚地说明本发明或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作以简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
30.图1是本发明提供的自动采集网络资源的方法的流程示意图;
31.图2是本发明提供的自动采集网络资源的系统的结构示意图;
32.图3是本发明提供的电子设备的结构示意图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚,下面将结合本发明中的附图,对本发明中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳
动前提下所获得的所有其他实施例,都属于本发明保护的范围。
34.需要说明的是本发明涉及的术语“第一\第二”仅仅是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序。应该理解“第一\第二”区分的对象在适当情况下可以互换,以使这里描述的本发明的实施例能够以除了在这里描述或图示的那些以外的顺序实施。
35.如图1所示,在一个实施例中,本发明提供的一种自动采集网络资源的方法,其特征在于,包括:
36.输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;
37.解析对应网络资源的页面代码,获取第一节点树;
38.根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;
39.若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;
40.通过所述url地址,下载所述需获取资源。
41.需要说明的是,在互联网中每一信息资源都有统一且唯一的地址,即url(uniform resource locator,统一资源定位器),它是互联网中的标准的统一资源定位标志,url由三部分组成:资源类型、存放资源的主机域名、资源文件名;即可以通过url获取并下载需要的文件资源;
42.其中,待获取报刊可以是任意学术、新闻等刊物;所述待获取报刊的网络资源链接可以为对应的学术、新闻刊物的主页面链接,也可以为图书馆、期刊数据库的网页链接;
43.优选的,用户输入的所述预配置信息应包括报刊名和报刊类型;
44.需要说明的是,图书馆数据库以及各个期刊的网络页面往往信息较为复杂,用户难以直接根据预配置信息获取需要的资源,各个文件资源的url往往隐含在网站的页面代码中;
45.通过解析对应网络资源的页面代码,根据代码逻辑构建与当前页面对应的第一节点树;将各个数据库和各个期刊的网络页面的网页代码转化为节点树的形式,可以从当前版面的节点树中寻找所需资源的url链接;
46.若寻找到包含预设配置信息的url链接,则直接下载所需的文件;
47.可选的,所述网页代码可以为html,javascript,asp,php,cgi等中的任意一种;
48.在一个实施例中,若在当前版面的节点树中没有寻找到包含预设配置信息的url链接,进一步包括步骤:
49.由用户输入所需资源的报刊日期;
50.在原第一节点树的原版面上,根据输入的报刊日期解析对应日期报刊的url地址,并进入包含报刊日期的次级版面中;
51.进一步获取次级版面的页面代码,将该页面代码转化为第二节点树;
52.进一步根据用户输入的预配置信息,如期刊名、期刊类型等,在第二节点树中,检索符合日期、期刊名、期刊类型的url地址;
53.根据查询获取的url地址,下载用户需要的资源。
54.在一个实施例中,作为本发明的进一步优化,还包括:
55.根据所述报刊名、报刊类型和所述报刊日期,生成所述报刊名和对应的报刊类型、
对应的报刊日期的映射目录;
56.将所有同一报刊名的所有所述需获取资源整合生成一个报刊文件;
57.具体的,在下载获取不同版面中的多处资源后,按报刊名和报刊日期对获取的文件进行排列,将同一报刊的所有文件都整合至同一个报刊文件夹内,并根据报刊的发表时间进行排序;使得用户可以获取完整的期刊资源,更便于用户阅读和查询;
58.可选的,可以根据报刊类型对获取的所有文件进行归纳,包括但不限于:例如学术期刊,可根据学术的分类号对获取的所有资源进行整合;此处只作为对本发明实施例的进一步解释,不应视为对本发明的限定;
59.在一个实施例中,作为本发明的进一步优化,还包括:
60.通过下载模块下载对应的文件,并根据报刊类型对获取的所有文件进行归纳,将同一报刊类型的文件整合为一个文件;或根据按报刊名和报刊日期对获取的文件进行排列,将同一报刊的所有文件都整合至同一个报刊文件夹内,并根据报刊的发表时间进行排序;
61.实时统计每个文件的下载速度,并将下载速度反馈至用户;
62.在所有文件下载完成后,可以由用户选择获取文件的方式,包括但不限于:直接存储至外部存储设备、存储在本地硬盘中或由用户指定接收文件的邮箱,通过邮箱接收所需的文件。
63.如图2所示,本发明还提供一种自动采集网络资源的系统,下文描述的自动采集网络资源的系统与上文描述的自动采集网络资源的方法可相互对应参照,包括信息单元、解析单元和下载单元:
64.其中,信息单元用于获取用户输入的待获取报刊的网络资源链接,以及需获取资源的预配置信息;
65.解析单元用于根据用户输入的信息解析对应网络资源的页面代码,获取第一节点树;并根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;
66.下载单元用于通过所述url地址,下载所述需获取资源。
67.另一方面,图3示例了一种电子设备的实体结构示意图,如图3所示,该电子设备可以包括:处理器(processor)310、通信接口(communicationsinterface)320、存储器(memory)330和通信总线340,其中,处理器310,通信接口320,存储器330通过通信总线340完成相互间的通信。处理器310可以调用存储器330中的逻辑指令,以执行自动采集网络资源的方法,该方法包括:输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;通过所述url地址,下载所述需获取资源。
68.此外,上述的存储器330中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施
例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、磁碟或者光盘等各种可以存储程序代码的介质。
69.另一方面,本发明还提供一种计算机程序产品,所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,计算机能够执行上述各方法所提供的自动采集网络资源的方法,该方法包括:输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;通过所述url地址,下载所述需获取资源。
70.又一方面,本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现以执行上述各提供的自动采集网络资源的方法,该方法包括:输入待获取报刊的网络资源链接,输入需获取资源的预配置信息;解析对应网络资源的页面代码,获取第一节点树;根据所述预配置信息,从所述第一节点树中查询是否包含所述预配置信息;若所述第一节点树中包含所述预配置信息,则从对应的初级节点中解析所述需获取资源的url地址;通过所述url地址,下载所述需获取资源。
71.以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下,即可以理解并实施。
72.通过以上的实施方式的描述,本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现,当然也可以通过硬件。基于这样的理解,上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来,该计算机软件产品可以存储在计算机可读存储介质中,如rom/ram、磁碟、光盘等,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。
73.最后应说明的是:以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。