本发明涉及信息处理技术领域,尤其涉及信息处理方法及装置。
背景技术:
在信息处理领域,常需要爬取网络中的各种词汇,然后对爬取的词汇进行存储。
现有技术将爬取的各种词汇以文本形式进行存储,如:csv格式。在使用某词汇时需要在存储的文件中进行遍历,对查找到的词汇进行使用。但用户常常不仅需要某个词汇,还需要网页中和该词汇相关的其他词汇。这种情况下,现有技术将无法满足用户需要。
技术实现要素:
鉴于上述问题,提出了本发明以便提供一种克服上述问题或者至少部分地解决上述问题的信息处理方法及装置,方案如下:
一种信息处理方法,包括:
确定所要爬取的网页;
在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
按照所述层级关系将爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
可选的,在所述按照所述层级关系将爬取的多个词汇放入嵌套字典树中之前,所述方法还包括:
在本次爬取过程结束后,新建一嵌套字典树,在所述嵌套字典树中新建与本次爬取过程爬取的各词汇一一对应的节点,按照本次爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述按照所述层级关系将爬取的多个词汇放入嵌套字典树中,包括:按照所述层级关系将本次爬取过程爬取的多个词汇放入嵌套字典树中。
可选的,在所述按照所述层级关系将爬取的多个词汇放入嵌套字典树中之前,所述方法还包括:
在对一网页完成爬取后,判断该完成爬取的网页是否为初始网页,如果是,则新建一嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
否则,查找对初始网页完成爬取后新建的嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述按照所述层级关系将爬取的多个词汇放入嵌套字典树中,包括:按照所述层级关系将从该完成爬取的网页中爬取的多个词汇放入嵌套字典树中。
可选的,所述确定各词汇之间的层级关系,包括:
根据网页中与词汇对应的层级关键字确定各词汇之间的层级关系。
可选的,所述方法还包括:
获得需检索的检索词;
在所述套嵌字典树中查找键为所述检索词的节点,将查找到的节点的值确定为检索结果。
一种信息处理装置,包括:网页确定单元、关系确定单元和词汇处理单元,
所述网页确定单元,用于确定所要爬取的网页;
所述关系确定单元,用于在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
所述词汇处理单元,用于按照所述层级关系将爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
可选的,所述装置还包括:第一建树单元,用于在所述词汇处理单元按照所述层级关系将爬取的多个词汇放入嵌套字典树中之前,在本次爬取过程结束后,新建一嵌套字典树,在所述嵌套字典树中新建与本次爬取过程爬取的各词汇一一对应的节点,按照本次爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述词汇处理单元,具体用于:按照所述层级关系将本次爬取过程爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
可选的,所述装置还包括:网页判断单元、第二建树单元和查找单元,
所述网页判断单元,用于在所述词汇处理单元按照所述层级关系将爬取的多个词汇放入嵌套字典树中之前,在对一网页完成爬取后,判断该完成爬取的网页是否为初始网页,如果是,则触发所述第二建树单元;否则,触发所述查找单元;
所述第二建树单元,用于新建一嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述查找单元,用于查找对初始网页完成爬取后新建的嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述词汇处理单元,具体用于:包括:按照所述层级关系将从该完成爬取的网页中爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
可选的,所述关系确定单元,具体用于根据网页中与词汇对应的层级关键字确定各词汇之间的层级关系。
可选的,所述装置还包括:检索词获得单元和检索单元,
所述检索词获得单元,用于获得需检索的检索词;
所述检索单元,用于在所述套嵌字典树中查找键为所述检索词的节点,将查找到的节点的值确定为检索结果。
借由上述技术方案,本发明提供的一种信息处理方法及装置,可以在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系并按照所述层级关系将爬取的多个词汇放入嵌套字典树中。由于嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树,因此当需要查找某词汇的相关词汇时,只需要在本发明的嵌套字典书中查找到键为该词汇的节点即可通过该键的值确定相关词汇。可见,本发明使得查找词汇的过程更加方便快捷。
上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂,以下特举本发明的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本发明的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本发明实施例提供的一种信息处理方法的流程图;
图2示出了本发明实施例提供的另一种信息处理方法的流程图;
图3示出了本发明实施例提供的另一种信息处理方法的流程图;
图4示出了本发明实施例提供的另一种信息处理方法的流程图;
图5示出了本发明实施例提供的一种嵌套字典树的示意图;
图6示出了本发明实施例提供的子树的示意图;
图7示出了本发明实施例提供的一种信息处理装置的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
如图1所示,本发明实施例提供了一种信息处理方法,可以包括:
s100、确定所要爬取的网页;
s200、在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
其中,步骤s200可以具体包括:在所要爬取的网页中爬取多个词汇,根据网页中与词汇对应的层级关键字确定各词汇之间的层级关系。
具体的,步骤s200在爬取多个词汇后,还可以对爬取的词汇进行去重处理。
词汇的层级关系与其含义有关,例如对于汽车行业词汇:大众、一汽大众、上海大众、宝来,大众是汽车品牌,一汽大众和上海大众都是汽车子品牌,宝来是车系。可知,上海大众和一汽大众为同层级,并位于大众的下一级,同时位于宝来的上一级。
网页中的层级关键字可以从网页的源代码中得到。
s300、按照所述层级关系将爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
设爬取的词汇包括:大众、一汽大众、上海大众、宝来、途观、1.6l手动时尚型(宝来)、¥107800(1.6l手动时尚型)、1.8tsi手动风尚版前驱(途观)、¥199800(1.8tsi手动风尚版前驱),则将这些词汇放入嵌套字典树后如图5所示。由于¥199800和¥107800对应的节点均为叶子节点,因此除这两个节点外的其他节点的值为以该节点为根节点的子树。如:宝来对应的节点的值为如图6所示的子树。这样,当要查找宝来的相关词汇时,只需要查找到宝来对应的节点即可从该节点的值中得到图6所示的子树,该子树中的词汇即为宝来及宝来的相关词汇,无需继续在宝来的下层节点中查找,十分快捷。
为方便表示,各节点中的文字均为该节点的键,除叶子节点外,与键对应的值为以该节点为根节点的子树。对于叶子节点,其可以没有与键对应的值。当然,在本发明其他实施例中,由于叶子节点的键已经作为该叶子节点的上层节点的键对应的值,因此可以不为层级最低的词汇设置节点直接将其作为上一层级节点的键对应的值即可。这种情况下,叶子节点的键即为次最低层级的词汇。
本发明实施例提供的一种信息处理方法,可以在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系并按照所述层级关系将爬取的多个词汇放入嵌套字典树中。由于嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树,因此当需要查找某词汇的相关词汇时,只需要在本发明的嵌套字典书中查找到键为该词汇的节点即可通过该键的值确定相关词汇。可见,本发明使得查找词汇的过程更加方便快捷。
如图2所示,本发明实施例提供的另一种信息处理方法中,可以包括:
s100、确定所要爬取的网页;
s200、在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
s210、在本次爬取过程结束后,新建一嵌套字典树,在所述嵌套字典树中新建与本次爬取过程爬取的各词汇一一对应的节点,按照本次爬取的词汇之间的层级关系对新建的节点进行位置设置;
上述爬取过程即为一次完整的爬取过程,即:从某初始网页开始爬取,到爬取终止条件满足时停止爬取的过程。此过程中会爬取大量的网页中的词汇。对于一次完整的爬取过程,由于和其他爬取过程无关,因此需要新建一嵌套字典树并根据爬取的词汇对该嵌套字典树中的节点进行设置。
s310、按照所述层级关系将本次爬取过程爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
其中,步骤s310为图1所示方法中步骤s300的一种具体执行过程。
如图3所示,本发明实施例提供的另一种信息处理方法中,可以包括:
s100、确定所要爬取的网页;
s200、在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
s220、在对一网页完成爬取后,判断该完成爬取的网页是否为初始网页,如果是,则执行步骤s230;否则执行步骤s240;
s230、新建一嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
s240、查找对初始网页完成爬取后新建的嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
s320、按照所述层级关系将从该完成爬取的网页中爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
图3所示方法在对初始网页爬取后即新建一嵌套字典树,本次爬取过程中对其他网页爬取后直接在该嵌套字典树中进行节点设置即可。图3所示方法可以实现词汇的爬取和存储的同步进行。
其中,步骤s320为图1所示方法中步骤s300的一种具体执行过程。
在图1所示实施例基础上,如图4所示,本发明实施例提供的另一种信息处理方法中,还可以包括:
s400、获得需检索的检索词;
s500、在所述套嵌字典树中查找键为所述检索词的节点,将查找到的节点的值确定为检索结果。
例如:检索词为宝来,则将以宝来为根节点的子树确定为检索结果。以宝来为根节点的子树中包括有宝来的车型信息及价格信息,由于子树中的词汇均与检索词相关,因此可以方便用户对与检索词相关的词汇进行使用。
与上述方法实施例相对应,本发明还提供了一种信息处理装置。
如图7所示,本发明实施例提供的一种信息处理装置,可以包括:网页确定单元100、关系确定单元200和词汇处理单元300,
所述网页确定单元100,用于确定所要爬取的网页;
所述关系确定单元200,用于在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
其中,关系确定单元200,可以具体用于根据网页中与词汇对应的层级关键字确定各词汇之间的层级关系。
词汇的层级关系与其含义有关,例如对于汽车行业词汇:大众、一汽大众、上海大众、宝来,大众是汽车品牌,一汽大众和上海大众都是汽车子品牌,宝来是车系。可知,上海大众和一汽大众为同层级,并位于大众的下一级,同时位于宝来的上一级。
网页中的层级关键字可以从网页的源代码中得到。
所述词汇处理单元300,用于按照所述层级关系将爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
设爬取的词汇包括:大众、一汽大众、上海大众、宝来、途观、1.6l手动时尚型(宝来)、¥107800(1.6l手动时尚型)、1.8tsi手动风尚版前驱(途观)、¥199800(1.8tsi手动风尚版前驱),则将这些词汇放入嵌套字典树后如图5所示。由于¥199800和¥107800对应的节点均为叶子节点,因此除这两个节点外的其他节点的值为以该节点为根节点的子树。如:宝来对应的节点的值为如图6所示的子树。这样,当要查找宝来的相关词汇时,只需要查找到宝来对应的节点即可从该节点的值中得到图6所示的子树,该子树中的词汇即为宝来及宝来的相关词汇,无需继续在宝来的下层节点中查找,十分快捷。
为方便表示,各节点中的文字均为该节点的键,除叶子节点外,与键对应的值为以该节点为根节点的子树。对于叶子节点,其可以没有与键对应的值。当然,在本发明其他实施例中,由于叶子节点的键已经作为该叶子节点的上层节点的键对应的值,因此可以不为层级最低的词汇设置节点直接将其作为上一层级节点的键对应的值即可。这种情况下,叶子节点的键即为次最低层级的词汇。
本发明实施例提供的一种信息处理装置,可以在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系并按照所述层级关系将爬取的多个词汇放入嵌套字典树中。由于嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树,因此当需要查找某词汇的相关词汇时,只需要在本发明的嵌套字典书中查找到键为该词汇的节点即可通过该键的值确定相关词汇。可见,本发明使得查找词汇的过程更加方便快捷。
在本发明另一实施例中,图7所示装置还可以包括:第一建树单元,用于在所述词汇处理单元300按照所述层级关系将爬取的多个词汇放入嵌套字典树中之前,在本次爬取过程结束后,新建一嵌套字典树,在所述嵌套字典树中新建与本次爬取过程爬取的各词汇一一对应的节点,按照本次爬取的词汇之间的层级关系对新建的节点进行位置设置;
上述爬取过程即为一次完整的爬取过程,即:从某初始网页开始爬取,到爬取终止条件满足时停止爬取的过程。此过程中会爬取大量的网页中的词汇。对于一次完整的爬取过程,由于和其他爬取过程无关,因此需要新建一嵌套字典树并根据爬取的词汇对该嵌套字典树中的节点进行设置。
所述词汇处理单元300,具体用于:按照所述层级关系将本次爬取过程爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
在本发明另一实施例中,图7所示装置还可以包括:网页判断单元、第二建树单元和查找单元,
所述网页判断单元,用于在所述词汇处理单元300按照所述层级关系将爬取的多个词汇放入嵌套字典树中之前,在对一网页完成爬取后,判断该完成爬取的网页是否为初始网页,如果是,则触发所述第二建树单元;否则,触发所述查找单元;
所述第二建树单元,用于新建一嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述查找单元,用于查找对初始网页完成爬取后新建的嵌套字典树,在所述嵌套字典树中新建与从该完成爬取的网页中爬取的各词汇一一对应的节点,按照从该完成爬取的网页中爬取的词汇之间的层级关系对新建的节点进行位置设置;
所述词汇处理单元300,具体用于:包括:按照所述层级关系将从该完成爬取的网页中爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
该实施例在对初始网页爬取后即新建一嵌套字典树,本次爬取过程中对其他网页爬取后直接在该嵌套字典树中进行节点设置即可。该实施例可以实现词汇的爬取和存储的同步进行。
进一步,上述各实施例所述的装置还可以包括:检索词获得单元和检索单元,
所述检索词获得单元,用于获得需检索的检索词;
所述检索单元,用于在所述套嵌字典树中查找键为所述检索词的节点,将查找到的节点的值确定为检索结果。
例如:检索词为宝来,则将以宝来为根节点的子树确定为检索结果。以宝来为根节点的子树中包括有宝来的车型信息及价格信息,由于子树中的词汇均与检索词相关,因此可以方便用户对与检索词相关的词汇进行使用。
所述信息处理装置包括处理器和存储器,上述网页确定单元、关系确定单元、词汇处理单元、第一建树单元、网页判断单元、第二建树单元和查找单元、检索词获得单元和检索单元等均作为程序单元存储在存储器中,由处理器执行存储在存储器中的上述程序单元来实现相应的功能。
处理器中包含内核,由内核去存储器中调取相应的程序单元。内核可以设置一个或以上,通过调整内核参数来在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系并按照所述层级关系将爬取的多个词汇放入嵌套字典树中。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram),存储器包括至少一个存储芯片。
本发明提供的一种信息处理装置,可以在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系并按照所述层级关系将爬取的多个词汇放入嵌套字典树中。由于嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树,因此当需要查找某词汇的相关词汇时,只需要在本发明的嵌套字典书中查找到键为该词汇的节点即可通过该键的值确定相关词汇。可见,本发明使得查找词汇的过程更加方便快捷。
本申请还提供了一种计算机程序产品,当在数据处理设备上执行时,适于执行初始化有如下方法步骤的程序代码:
确定所要爬取的网页;
在所要爬取的网页中爬取多个词汇,确定各词汇之间的层级关系;
按照所述层级关系将爬取的多个词汇放入嵌套字典树中,其中,所述嵌套字典树中每一节点的键均为一个爬取的词汇,除叶子节点外的其他节点的值为以该节点为根节点的子树。
本领域内的技术人员应明白,本申请的实施例可提供为方法、系统、或计算机程序产品。因此,本申请可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本申请可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器、cd-rom、光学存储器等)上实施的计算机程序产品的形式。
本申请是参照根据本申请实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序指令实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器,使得通过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的指令产生包括指令装置的制造品,该指令装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
在一个典型的配置中,计算设备包括一个或多个处理器(cpu)、输入/输出接口、网络接口和内存。
存储器可能包括计算机可读介质中的非永久性存储器,随机存取存储器(ram)和/或非易失性内存等形式,如只读存储器(rom)或闪存(flashram)。存储器是计算机可读介质的示例。
计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(pram)、静态随机存取存储器(sram)、动态随机存取存储器(dram)、其他类型的随机存取存储器(ram)、只读存储器(rom)、电可擦除可编程只读存储器(eeprom)、快闪记忆体或其他内存技术、只读光盘只读存储器(cd-rom)、数字多功能光盘(dvd)或其他光学存储、磁盒式磁带,磁带磁磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。
以上仅为本申请的实施例而已,并不用于限制本申请。对于本领域技术人员来说,本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等,均应包含在本申请的权利要求范围之内。