专利名称:一种用于确定网页访问请求的方法、装置及设备的制作方法
技术领域:
本发明涉及网页浏览技术,尤其涉及一种用于确定网页访问请求的方法、装置及 设备。
背景技术:
当前许多网页中都包含了 JS、Applet、AjaX、VBscript等可执行对象,而对于该等 可执行对象,需要浏览器在获得初步网页信息的基础上发起多次网页请求才能完整的获取 网页内容。当前的现有技术是对所有网页都执行二次请求,但事实上,许多网页中并不包含 需要多次请求的可执行对象,对这些网页进行多次请求会增加网络带宽负担,耗费更多的 时间。因此,需要一种预判断技术,来判断网页是否需要多次请求,以达到节约网络带 宽,并提高浏览效率与用户体验的目的。
发明内容
本发明的目的是提供一种用于涉及确定网页访问请求的方法与设备。根据本发明的一个方面,提供一种计算机实现的用于确定网页访问请求的方法, 其中,该方法包括以下步骤a获取网页信息;b当检测到所述网页信息中包括可能触发网页访问的可执行对象,判断该网页信 息是否符合预定条件;-当所述网页信息符合该预定条件时,发起与该可执行对象相对应的网页访问请 求。根据本发明的另一个方面,还提供了一种用于确定网页访问请求的访问装置,其 中,该访问装置包括第一获取装置、用于获取网页信息;判断装置、用于当检测到所述网页信息中包括可能触发网页访问的可执行对象, 判断该网页信息是否符合预定条件;第一请求发起装置、用于当所述网页信息符合该预定条件时,发起与该可执行对 象相对应的网页访问请求。与现有技术相比,本发明具有以下优点1)能够快速根据已获得的网页信息判断 该网页信息所属网页是否为可能触发进一步请求的网页,并根据判断结果,仅对可能触发 进一步请求的网页发起下一次请求,从而节约网络带宽,提高网页访问效率;幻根据本发 明的方案能够依据多层级的预定条件来对网页信息是否可能触发下次网页请求进行判定, 使得判定的结果更加准确;幻根据本发明的方案能够在多种应用中辅助相应设备减少网 页请求次数,提高访问效率,例如,能够大大减少网络蜘蛛请求网页信息的次数,提高网页 蜘蛛获取网页的速度;或者,在用户浏览网页时,减少浏览器请求网页的次数,提高了用户浏览体验等。
通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本发明的其它 特征、目的和优点将会变得更明显图1为本发明一个方面的计算机实现的用于确定网页访问请求的方法流程图;图2为本发明一个优选实施例的用于确定网页访问请求的方法流程图;图3为本发明另一个优选实施例的用于确定网页访问请求的方法流程图;图4示意出了本发明另一个方面的用于确定网页访问请求的访问装置的结构示 意图;图5示意出了本发明一个优选实施例的用于确定网页访问请求的访问装置的结 构示意图;图6示意出了本发明另一个优选实施例的用于确定网页访问请求的访问装置的 结构示意图。 附图中相同或相似的附图标记代表相同或相似的部件。
具体实施例方式下面结合附图对本发明作进一步详细描述。图1示意出了本发明一个方面的计算机实现的用于确定网页访问请求的方法流 程图。其中,根据本发明的方法可通过计算机设备中的操作系统或处理控制器来完成,为简 明起见,以下将所述操作系统或处理控制器统称为访问装置。其中,该计算机设备包括但不 限于1)用户设备;2)网络设备。所述用户设备包括但不限于计算机、智能手机、PDA等;所 述网络设备包括但不限于单个网络服务器、多个网络服务器组成的服务器组或基于云计算 (Cloud Computing)的由大量计算机或网络服务器构成的云,其中,云计算是分布式计算的 一种,由一群松散耦合的计算机集组成的一个超级虚拟计算机。在步骤Sl中,访问装置获取网页信息。其中,所述获取网页信息的方式包括但不 限于1)访问装置根据所获取的地址信息来向对应的网页服务器进行一次网页获取请求 而获得;幻访问装置读取保存于访问装置或与访问装置物理分离但通信连接的装置中的 网页信息。在步骤S2中,当访问装置检测到所述网页信息中包括可能触发网页访问的可执 行对象,判断该网页信息是否符合预定条件。其中,所述可能触发网页访问的可执行对象包 括基于Java、JS、Ajax和/或VBscript的对象;所述检测方式包括但不限于分析所获得的 网页信息中是否包含与可执行对象相对应的代码或标签等可执行对象的标识信息。例如,预定条件为网页信息中包含关键词“试听”并且网页信息对应的网页的URL 中包括以下任一字符串“mp3”、“rm”、“Wn^^r‘ape”。访问装置检测已获得的网页信息,并 在网页信息中查询得到javascript的标签,则访问装置判断所述网页信息中包括可能触 发网页访问的可执行对象JS,并继续判断该网页信息是否符合预定条件。访问装置对网页 信息及所述网页信息所对应网页的URL进行分析,在网页信息中查询得到关键词“试听”, 并且在所述URL中查询得到字符串“wma”,则访问装置判定所述网页信息符合预定条件。
又例如,预定条件为网页信息代码中同时包含字符串“playlist”及字符 串“object”。访问装置在已获得的网页信息中查询与可执行对象对应的代码,并获得 Vbscript的标签,则访问装置判定所述网页信息中包括可能触发网页访问的可执行对象 Vbscript,并继续判断该网页信息是否符合预定条件,即判断该网页信息是否同时包含字 符串“playlist”及字符串“object”。当访问装置在网页信息的代码部分中查询到字符串“playlist”及字符串“object”,即网页信息所包含的代码信息中同时包含了字符 串“playlist”及字符串“object”,则访问装置判定网页信息符合预定条件。其中,访问装 置可根据网页信息中的标识信息来确定网页信息中的代码部分。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何通过检测到所述网页信息中包括可能触发网页访问的 可执行对象,判断该网页信息是否符合预定条件的实现方式,均应包含在本发明的范围内。在步骤S3中,当所述网页信息符合该预定条件时,访问装置发起与该可执行对象 相对应的网页访问请求。例如,对包含JS可执行对象的网页信息,当访问装置判定符合所述网页信息符合 预定条件时,则根据所述JS可执行对象,向网页信息所对应网页的服务器发起JS请求。又例如,如访问装置判定符合预定条件的网页信息中包括可执行对象JS及可执 行对象Applet,则浏览器向所述网页信息所对应网页的服务器分别发起JS请求和Applet 请求。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何当所述网页信息符合该预定条件时,发起与该可执行对 象相对应的网页访问请求的实现方式,均应包含在本发明的范围内。作为本发明的优选方案之一,其中,根据本发明的方法还包括步骤S10(图未示)、 步骤Sll(图未示)、步骤S12(图未示)和步骤S13(图未示)。在步骤SlO中,当判断一个网页信息符合该预定条件时,访问装置根据该网页信 息所属网页的地址信息来建立或更新网页类别库。具体的,当访问装置判定一个网页信息符合该预定条件时,若访问装置已获取该 网页信息所属网页的地址信息,则访问装置将该地址信息添加或更新至网页类别库中,若 访问装置未获取该网页信息所属网页的地址信息,则访问装置进一步获取所述地址信息, 并将所述地址信息加入网页类别库中。在步骤Sll中,访问装置获取一个新网页信息及其所属网页的地址信息。具体的,获取所述新网页信息及其所属网页的地址信息的方式包括但不限于1) 访问装置由预设的网页信息库中获取网页信息,并根据网页信息进行搜索来获得所述网页 信息所属网页的地址信息;2)访问装置由预设的网页信息库中获取网页信息,并在已有的 与网页信息相对应的数据库中进行查询来获得所述网页信息所属网页的地址信息;3)访 问装置获取所述地址信息,并根据所述地址信息来获取所述新网页信息等。接着,在步骤S12中,访问装置基于所获取的网页的地址信息来在所述网页类别 库中进行查询,以获得查询结果。接着,在步骤S13中,当查询结果为匹配时,访问装置对该新网页信息中的可执行 对象发起相对应的网页访问请求。其中,所述匹配表示所述新网页信息所属网页的地址信息与网页类别库中的地址信息完全匹配。具体的,当在网页类别库中查询到新网页信息所属网页的地址信息,则访问装置 进一步获取新网页信息中所包含的各类可执行对象信息,并根据所述可执行对象的信息发 起相应的网页访问请求。根据本实施例的方法,访问装置对于所请求的网页信息,能够快速判定其所属网 页是否为可能触发进一步请求的网页,并根据判断结果,仅对可能触发进一步请求的网页 发起下一次请求,可以较大的提高网页的访问效率。例如,在网络蜘蛛或爬虫等爬取网页信 息时,通过采用本发明的方案,能够大大减少网页请求次数,提高爬取速递,减少网络带宽 的消耗;或者,在用户访问网页时,加快网页生成速度,改善用户体验。图2示意出了本发明一个优选实施例的用于确定网页访问请求的方法流程图。根 据本实施例的方法包括步骤Si、步骤S4、步骤S2、步骤S3。步骤Sl已在参照图1所示实施例中予以详述,并以引用的方式包含于此,不再赘 述。在步骤S4中,访问装置获取所述网页信息中所包含的预定文本信息的数量。其中,所述预定文本信息包括以下至少一类1)短文本信息;2)短文本信息组合。获取所述预定文本信息数量的方式包括但不限于在网页信息中查询预定文本信 息并累计所有预定文本信息的出现次数。例如,预定文本信息包括“歌曲”、“试听”、“热门点播”、“mp3”、“新歌在线”;第一预
定阈值为10。访问装置在网页信息中查询前述预定文本信息,获得网页信息中出现“歌曲” 的次数为5次,获得网页信息中出现“试听”的次数为3次,获得网页信息中出现“热门点 播”的次数为3次,则访问装置获得的预定文本信息数量共计为11。接着,在步骤S2中,当访问装置检测到所述网页信息中包括可能触发网页访问的 可执行对象,判断该网页信息是否符合预定条件。其中,所述预定条件包括所述网页信息 所包含的预定文本信息数量大于或等于第一预定阈值,所述第一预定阈值应可由本领域技 术人员根据实际情况及需求来确定。例如,若第一预定阈值为10,在前述步骤S4中所得的预定文本信息数量为11,则 访问装置判定获得的网页信息符合预定条件。需要说明的是,所述访问装置获取所述网页信息中所包含的预定文本信息的数量 的步骤既可以在步骤S2之前执行,也可以包含在步骤S2中执行,例如,在步骤S2中,访问 装置检测到所述网页信息中包括可能触发网页访问的可执行对象后,执行步骤S4来获得 预定文本信息数量,随后,基于预定条件及所获得的预定文本信息数量,来判断是否对该新 网页信息中的可执行对象发起相对应的网页访问请求。需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发 明的限制,本领域技术人员应该理解,任何获取所述网页信息中所包含的预定文本信息的 数量的实现方式,均应包含在本发明的范围内。步骤S3已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再 赘述。图3示意出了本发明另一个优选实施例的用于确定网页访问请求的方法流程图。 根据本实施例的方法包括步骤Si、步骤S5、步骤S6、步骤S2及步骤S3。
步骤Sl已在参照图1所示的实施例中予以详述,并以引用的方式包含于此,不再 赘述。在步骤S5中,访问装置获取所述网页信息中包含的预定文本信息。具体的,所述获取预定文本信息的方式包括但不限于通过访问装置在网页信息 中查询并对所述预定文本信息进行统计获得。在步骤S6中,访问装置基于第一预定规则,根据所获取的预定文本信息,来确定 所述网页信息的总评价值。其中,所述第一预定规则根据以下至少任一项,来确定所述总评价值1)所述网页信息所包含的预定文本信息的总数量;其中,所述预定文本信息的总数量为所有特定类别的预定文本信息的数量之和。 具体的,访问装置在网页信息中查询并统计预定文本信息出现的次数,并根据网页信息中 预定文本信息出现的总次数,来确定所述网页信息的总评价值。例如,直接将所述总次数对 应的数量值作为总评价值,或者,将该数量值进行一定的处理,例如,乘以相应系数,或者, 进行归一化处理后,作为总评价值。2)所述网页信息所包含的预定文本信息的总类别;具体的,访问装置根据网页信息中所包含的预定文本信息的类别的数量,来确定 所述网页信息的总评价值。例如,第一预定规则包括根据所述网页信息所包含的预定文本信息的总类别的数 量来确定总评价值,例如,将网页信息中包含的预定文本信息的类别数量作为总评价值。访 问装置对获得的网页信息进行分析,获得其中包含自然语言类的短文本信息“歌曲”和“播 放”;地址类别的短文本信息“gequ”,以及代码类别的短文本信息“playmusic”。访问装置 根据第一预定规则,获得所述网页信息的总评价值为3。3)所述网页信息所包含的所有预定文本信息所对应的权重值;具体的,访问装置获取网页信息中所包含的预定文本信息,根据所述预定文本信 息获取其相应的权重值,并根据所述权重值获得总评价值。例如,直接将网页信息所包含预 定文本信息对应的权重值相加,以获得该总评价值,又例如,将各网页信息所包含预定文本 信息对应的权重值取平均值后获得该总评价值等。其中,所述获得特定类别的预定文本信息权重值的方式包括但不限于a)通过查 询访问装置或其他装置中预存储的与预定文本信息对应的权重值来获得;b)通过获取预 设的与该预定文本对应的相关信息,例如,该预定文本信息的搜索频次,该预定文本信息的 表意能力等,并多所获取的相关信息进行相应处理,例如,求和或求取平均值等来得到。4)所述网页信息所包含的所有预定文本信息类别所对应的权重值。具体的,访问装置获取网页信息中的预定文本信息,根据所获取的预定文本信息 的特定类别,获取与所述特定类别对应的权重值,并根据所述权重值获得总评价值。其中, 所述类别对应的权重值通过查询预设的与各特定类别对应的权重值信息来获得。其中,所述特定类别包括但不限于1)自然语言类别;该自然语言类别的预定文本信息在网页生成后能够被用户所 阅读,例如,网页信息中所包含的自然语言词汇或自然语言词汇的组合等;2)地址类别;例如,网页信息中所包含的URL地址信息,或者,网页信息所包含的可执行对象中的链接信息等;3)代码类别;例如,浏览器能够根据预定的解码规则来进行解析的代码信息等。其中,对于代码类别的预定文本信息,访问装置可根据网页信息中所包含的标志 信息来确定;对于地址类别的预定文本信息,可通过以下任一方式来确定i)根据标识信息来识别地址信息,并将所有识别得到的地址信息作为地址类别的 预定文本信息;ii)根据标识信息来识别可执行对象范围,并识别可执行对象范围内的地址信息 来作为地址类别的预定文本信息未被识别为代码类别及地址类别的文本信息,作为自然语言类别的预定文本信 肩、ο需要说明的是,访问装置还可结合上述四项因素中的任意若干种,来获得所述网 页信息的总评价值。例如,第一预定规则规定,总评价值=Σ (Wi^Ni);其中,i表示预定文 本信息的类别,Wi表示特定类别对应的预定文本信息的权重值,Ni表示特定类别的预定文 本信息的数量,即总评价值由各个类别的预定文本信息的数量乘以与类别对应的类别权重 值后累加得到。当预设自然语言类别的类别权重值为2 ;地址类别的类别权重值为4 ;代码 类别的类别权重值为8,且访问装置获取的预定文本信息中,包括33项自然语言类别的预 定文本信息、2项地址类别的预定文本信息以及4项代码类别的预定文本信息,则访问装置 根据第一预定规则确定所述网页信息的总评价值为106。又例如,访问装置根据上述四项因素分别获得相应的值后,再对所获得的四个值 进行相应处理,例如,取平均值,或取平方和,或分别加权后相加等,来得到总评价值。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何基于第一预定规则,根据所获取的预定文本信息,来确 定所述网页信息的总评价值的实现方式,均应包含在本发明的范围内。在步骤S2中,当访问装置检测到所述网页信息中包括可能触发网页访问的可执 行对象,判断该网页信息是否符合预定条件。其中,所述预定条件还包括所述总评价值大 于或等于第二预定阈值;所述第二预定阈值应可由本领域技术人员根据实际情况及需求来 确定。需要说明的是,所述步骤S5与步骤S6既可以在步骤S2之前执行,也可以包含在 步骤S2中执行,例如,在步骤S2中,访问装置检测到所述网页信息中包括可能触发网页访 问的可执行对象后,执行步骤S5来获取所述网页信息中包含的预定文本信息,接着执行步 骤S6,基于第一预定规则,根据所获取的预定文本信息,来确定所述网页信息的总评价值。 随后,基于预定条件及所获得的总评价值,来判断是否对该新网页信息中的可执行对象发 起相对应的网页访问请求。接着,步骤S3已在参照图1所示的实施例中予以详述,并以引用的方式包含于此, 不再赘述。作为本发明的优选方案之一,其中,根据本实施例的方法还包括步骤S7(图未 示)。所述预定条件还包括所述总评价值小于所述第三预定阈值且所述网页的重要度大 于第四预定阈值。其中,所述第三预定阈值小于等于所述第二预定阈值,所述第三预定阈值和第四预定阈值可由本领域技术人员根据实际情况及需求来确定。在步骤S7中,访问装置获取所述网页信息所属的网页的重要度。访问装置获取该 重要度的方式包括但不限于1)获取预设的与该网页信息所述网页对应的重要度;2)获取 预获取的与该网页信息对应的相关信息,通过对相关信息进行相应处理,例如,直接将相关 信息中包含的一项因素对应的值来作为该重要度,或者,将相关信息中包含的各项因素对 应的值相加或取平均值或加权相加后归一化等,来获得该重要度。其中,所述相关信息包括 以下至少一项1)所述网页信息所属网页的被点击次数;2)所述网页信息所属网页的被推 荐次数;幻所述网页信息所属网页的权威性等。前述步骤S7可在步骤Sl之后,步骤S2之前执行;或者,步骤S7包含在步骤S2 中,且当在步骤S2中,访问装置判断所述总评价值小于第二预定阈值后执行,随后,访问装 置判断根据网页信息所获得的重要度及总评价值是否满足所述总评价值小于所述第三预 定阈值且所述网页的重要度大于第四预定阈值的预定条件,以根据判断结果来确定是否执 行步骤S3。作为本发明的优选方案之一,其中,根据本实施例的方法还包括步骤S8(图未 示)°在步骤S8中,访问装置基于第二预定规则,根据所述网页信息所包含的各个特定 类别的预定文本信息分别获得相应的各个单项评价值。其中,所述第二预定规则包括根据 以下至少一项因素,来确定所述单项评价值1)所述网页信息所包含的各个特定类别的预定文本信息分别对应的数量;具体的,访问装置查询并统计获得网页信息中各个特定类别的预定文本信息的数 量,并根据所述特定类别的预定文本信息的数量,获得相应类别的单项评价值。其中,所述 获得相应类别的单项评价值的方法包括但不限于采用以预定文本信息数量为参数的多种 函数。例如,第二预定规则规定,自然语言类别单项评价值为网页信息所包含的各自然 语言类别的预定文本信息数量的平均值;地址类别单项评价值为网页信息所属网页的地址 信息中所包含的地址类别预定文本信息的数量;代码类别单项评价值为网页信息所属网页 的代码信息中所包含的代码类别预定文本信息的数量乘以调整系数,例如,0. 5后的值。对 于一网页信息,访问装置获得自然语言类别的预定文本信息中,“音乐”出现8次、“点歌”出 现12次、“热播”出现4次;地址类别的预定文本信息中,“song”出现1次,“listen”出现1 次;代码类别的预定文本信息中,“playlist^^S3次,“musicbof出现4次,“lister^,出现 2次,则根据第二预定规则,访问装置获得自然语言类别单项评价值为各自然语言预定文本 信息的出现次数之和的平均值,即自然语言类别单项评价值为(8+12+4)/3 = 8 ;地址类别 预定文本信息共有2项,即地址类别单项评价值为2 ;代码类别单项评价值为(3+4+2)*0. 5 =4. 5。2)所述网页信息所包含的各个特定类别的预定文本信息分别对应的权重值;具体的,访问装置获取网页信息中所包含的特定类别的预定文本信息,并获取所 述预定文本信息对应的权重值,以根据该权重值来获得相应类别的单项评价值。其中,所述 获得特定类别的预定文本信息权重值的方式包括但不限于a)通过查询预存储的预定文 本信息的权重值表获得;b)获取预获取的与该特定类别的预定文本信息对应的相关信息,通过对相关信息进行相应处理,例如,直接将相关信息中包含的一项因素对应的值来作为 该重要度,或者,将相关信息中包含的各项因素对应的值相加或取平均值或加权相加后归
一化等,来获得该重要度。例如,第二预定规则规定,各单项评价值由网页信息所包含的各特定类别预定文 本信息的权重值相加后获得。若访问装置在步骤S5所获得的预定文本信息包括自然语 言类别的预定文本信息“音乐”、“点歌”出及“热播”;地址类别的预定文本信息“song”及 “listen” ;代码类别的预定文本信息“playliSt”、“mUSicb0X”及“listen”,访问装置通过 查询预设的各预定文本信息对应的权重值表,获得类别权重值如下自然语言类别中,“音乐”权重值为0. 5,点歌权重值为1,热播为1. 2 ;地址类别中,“song”权重值为1. 1,“ listen”权重值为1. 6 ;代码类别中,“playlist”权重值为2. 1,“musicbox”权重值为1. 4,“listen”权重 值为1.2;则访问装置根据第二预定规则,获得各单项权重如下自然语言类别单项权重值=0. 5+1+1. 2 = 2. 7 ;地址类别单项权重值=1. 1+1. 6 = 2. 7 ;代码类别单项权重值=2. 1+1. 4+1. 2 = 4. 7。需要说明的是,访问装置还可结合上述两项因素来获得各单项权重值,例如,若第 二预定规则规定,单项权重值为各预定文本信息的出现次数乘以其权重值后相加所得的 值,则访问装置根据第二预定规则,计算各个类别下预定文本信息的加权和作为相应类别 的单项权重值,访问装置所得的各特定类别的预定文本信息及其出现次数及权重值如上述 两个实施例所示,则访问装置分别获得各个单项平均值如下自然语言类别单项权重值为8*0. 5+12*1+4*1. 2 = 20. 8 ;地址类别单项权重值为1*1. 1+1*1. 6 = 2. 7 ;代码类别单项权重值为3*2. 1+4*1. 4+2*1. 2 = 14. 3。在步骤S2中,当访问装置检测到所述网页信息中包括可能触发网页访问的可执 行对象,判断该网页信息是否符合预定条件。其中,所述预定条件还包括所述总评价值大 于第五预定阈值,而且所述各个单项评价值均大于相应的各个预定阈值;所述第五预定阈 值可由本领域技术人员根据实际情况及需求来确定,但所述第五预定阈值的选取应满足大 于或等于所述第二预定阈值的条件。例如,访问装置中预设自然语言类别单项评价值的预定阈值为12,地址类别单项 评价值的预定阈值为1,代码类别单项评价值的预定阈值为10,总评价值为76,且访问装置 在步骤S6中所获得的总评价值为106,在步骤S8中所获得的自然语言类别单项权重值为 20. 8,地址类别单项权重值为2. 7,代码类别单项权重值为14. 3,则访问装置判定所述总评 价值大于第五预定阈值,而且所述各个单项评价值均大于相应的各个预定阈值,则所述网 页信息符合预定条件。又例如,访问装置中预设自然语言类别单项评价值的预定阈值为12,地址类别单 项评价值的预定阈值为5,代码类别单项评价值的预定阈值为10,总评价值为76,且访问装 置在步骤S6中所获得的总评价值为106,在步骤S8中所获得的自然语言类别单项权重值为 20. 8,地址类别单项权重值为2. 7,代码类别单项权重值为14. 3,则访问装置判断地址类别单项权重值小于其预定阈值,所述网页信息不符合预定条件。前述步骤S8可在步骤Sl之后,步骤S2之前执行;或者,步骤S8包含在步骤S2中 执行,例如,在步骤S2中访问装置检测到所述网页信息中包括可能触发网页访问的可执行 对象后,访问装置执行步骤S6及步骤S8以获得总评价值及各单项评价值,随后,访问装置 判断根据网页信息所获得的总评价值及个单项评价值是否满足总评价值大于第五预定阈 值,且所述各个单项评价值均大于相应的各个预定阈值,以根据判断结果来确定是否执行 步骤S3 ο需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何基于第二预定规则,根据所述网页信息所包含的各个特 定类别的预定文本信息分别获得相应的各个单项评价值的实现方式,均应包含在本发明的 范围内。作为本发明的优选方案之一,其中,所述方法还包括步骤S9(图未示)。在步骤S9中,访问装置通过对多个网页进行预训练来确定所述预定条件。其中, 所述预训练的方式包括但不限于采用以下分类模型来实现1)支持向量机模型;2)贝叶斯 模型;3)最大熵模型等。所述预定条件包括分类模型判断所获得的网页信息为需要进行多 次访问的网页信息。具体的,访问装置获得多个已确定为需发起多次访问请求的网页及多个已确定为 仅需发起一次访问请求的网页,随后,访问装置根据该等多个网页来对分类模型进行训练, 以获得训练后的分类模型。则当在步骤S2中,访问装置判断网页信息中包含可执行对象 时,若分类模型根据网页信息所输出的分类结果为需要进行多次访问的网页信息,则访问 装置判断网页信息符合预定条件,并执行步骤S3。根据本实施例的方法,访问装置依据多个层级的预定条件,来对网页信息是否可 能触发下次网页请求进行判定,使得判定的结果更加准确,更加有效提高网页访问效率,避 免因不必要的网页访问请求所造成的资源浪费与时间消耗。图4示意出了本发明一个方面的用于确定网页访问请求的访问装置的结构示意 图。第一获取装置1获取网页信息。其中,所述获取网页信息的方式包括但不限于1) 第一获取装置1根据所获取的地址信息来向对应的网页服务器进行一次网页获取请求而 获得;幻第一获取装置1读取保存于访问装置或与访问装置物理分离但通信连接的装置中 的网页信息。当判断装置2检测到所述网页信息中包括可能触发网页访问的可执行对象,判断 该网页信息是否符合预定条件。其中,所述可能触发网页访问的可执行对象包括基于Java、 JS.Ajax和/或VBscript的对象;所述检测方式包括但不限于分析所获得的网页信息中是 否包含与可执行对象相对应的代码或标签等可执行对象的标识信息。例如,预定条件为网页信息中包含关键词“试听”并且网页信息对应的网页的URL 中包括以下任一字符串“mp3”、“rm”、“Wn^^r‘ape”。判断装置2检测已获得的网页信息, 并在网页信息中查询得到javascript的标签,则判断装置2判断所述网页信息中包括可能 触发网页访问的可执行对象JS,随后,判断装置2对网页信息及所述网页信息所对应网页 的URL进行分析,在网页信息中查询得到关键词“试听”,并且在所述URL中查询得到字符串“wma”,则判断装置2判定所述网页信息符合预定条件。又例如,预定条件为网页信息代码中同时包含字符串“playlist”及字符串 “object”。判断装置2在已获得的网页信息中查询与可执行对象对应的代码,并获得 Vbscript的标签,则判断装置2判定所述网页信息中包括可能触发网页访问的可执行对 象Vbscript,并继续判断该网页信息是否符合预定条件,即判断该网页信息是否同时包含 字符串“playlist”及字符串“object”。当判断装置2在网页信息的代码部分中查询到字 符串“playlist”及字符串“object”,即网页信息所包含的代码信息中同时包含了字符串 “playlist”及字符串“object”,则判断装置2判定网页信息符合预定条件。其中,判断装 置2可根据网页信息中的标识信息来确定网页信息中的代码部分。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何通过检测到所述网页信息中包括可能触发网页访问的 可执行对象,判断该网页信息是否符合预定条件的实现方式,均应包含在本发明的范围内。当所述网页信息符合该预定条件时,第一请求发起装置3发起与该可执行对象相 对应的网页访问请求。例如,对包含JS可执行对象的网页信息,当判断装置2判定符合所述网页信息符 合预定条件时,则第一请求发起装置3根据所述JS可执行对象,向网页信息所对应网页的 服务器发起JS请求。又例如,如判断装置2判定符合预定条件的网页信息中包括可执行对象JS及可执 行对象Applet,则第一请求发起装置3向所述网页信息所对应网页的服务器分别发起JS请 求禾口 Applet请求。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何当所述网页信息符合该预定条件时,发起与该可执行对 象相对应的网页访问请求的实现方式,均应包含在本发明的范围内。作为本发明的优选方案之一,其中,根据本发明的访问装置还包括第二更新装置 (图未示)、第五获取装置(图未示)、查询装置(图未示)和第二请求发起装置(图未示)。当判断一个网页信息符合该预定条件时,第二更新装置根据该网页信息所属网页 的地址信息来建立或更新网页类别库。具体的,当判断装置2判定一个网页信息符合该预定条件时,若访问装置已获取 该网页信息所属网页的地址信息,则第二更新装置将该地址信息添加或更新至网页类别库 中,若第二更新装置未获取该网页信息所属网页的地址信息,则访问装置进一步获取所述 地址信息,并将所述地址信息加入网页类别库中。第五获取装置获取一个新网页信息及其所属网页的地址信息。具体的,获取所述新网页信息及其所属网页的地址信息的方式包括但不限于1) 第五获取装置由预设的网页信息库中获取网页信息,并根据网页信息进行搜索来获得所述 网页信息所属网页的地址信息;2)第五获取装置由预设的网页信息库中获取网页信息,并 在已有的与网页信息相对应的数据库中进行查询来获得所述网页信息所属网页的地址信 息;3)第五获取装置获取所述地址信息,并根据所述地址信息来获取所述新网页信息等。接着,查询装置基于所获取的网页的地址信息来在所述网页类别库中进行查询, 以获得查询结果。
接着,当查询结果为匹配时,第二请求发起装置对该新网页信息中的可执行对象 发起相对应的网页访问请求。其中,所述匹配表示所述新网页信息所属网页的地址信息与 网页类别库中的地址信息完全匹配。具体的,当在网页类别库中查询到新网页信息所属网页的地址信息,则第二请求 发起装置进一步获取新网页信息中所包含的各类可执行对象信息,并根据所述可执行对象 的信息发起相应的网页访问请求。根据本实施例的访问装置,对于所请求的网页信息,能够快速判定其所属网页是 否为可能触发进一步请求的网页,并根据判断结果,仅对可能触发进一步请求的网页发起 下一次请求,可以较大的提高网页的访问效率。例如,在网络蜘蛛或爬虫等爬取网页信息 时,通过采用本发明的方案,能够大大减少网页请求次数,提高爬取速递,减少网络带宽的 消耗;或者,在用户访问网页时,加快网页生成速度,改善用户体验。图5示意出了本发明一个优选实施例的用于确定网页访问请求的访问装置的结 构示意图。根据本实施例的访问装置包括第一获取装置1、第二获取装置4、判断装置2和 第一请求发起装置3。第一获取装置1已在参照图4所示实施例中予以详述,并以引用的方式包含于此, 不再赘述。第二获取装置4获取所述网页信息中所包含的预定文本信息的数量。其中,所述预定文本信息包括以下至少一类1)短文本信息;2)短文本信息组合。获取所述预定文本信息数量的方式包括但不限于在网页信息中查询预定文本信 息并累计所有预定文本信息的出现次数。例如,预定文本信息包括“歌曲”、“试听”、“热门点播”、“mp3”、“新歌在线”;第一预
定阈值为10。第二获取装置4在网页信息中查询前述预定文本信息,获得网页信息中出现 “歌曲”的次数为5次,获得网页信息中出现“试听”的次数为3次,获得网页信息中出现“热 门点播”的次数为3次,则第二获取装置4获得的预定文本信息数量共计为11。接着,当判断装置2检测到所述网页信息中包括可能触发网页访问的可执行对 象,判断该网页信息是否符合预定条件。其中,所述预定条件包括所述网页信息所包含的 预定文本信息数量大于或等于第一预定阈值,所述第一预定阈值应可由本领域技术人员根 据实际情况及需求来确定。例如,若第一预定阈值为10,在前述步骤S4中所得的预定文本信息数量为11,则 判断装置2判定获得的网页信息符合预定条件。需要说明的是,所述第二获取装置4获取所述网页信息中所包含的预定文本信息 的数量的操作既可以在判断装置2执行判断步骤之前执行,也可以判断装置2的执行判断 步骤的过程中执行,例如,当判断装置2检测到所述网页信息中包括可能触发网页访问的 可执行对象后,第二获取装置4获得预定文本信息数量,随后,基于预定条件及所获得的预 定文本信息数量,来判断是否对该新网页信息中的可执行对象发起相对应的网页访问请 求。需要进一步说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发 明的限制,本领域技术人员应该理解,任何获取所述网页信息中所包含的预定文本信息的 数量的实现方式,均应包含在本发明的范围内。
第一请求发起装置3已在参照图4所示的实施例中予以详述,并以引用的方式包 含于此,不再赘述。图6示意出了本发明另一个优选实施例的用于确定网页访问请求的访问装置的 结构示意图。根据本实施例的访问装置包括第一获取装置1、第三获取装置5、第一确定装 置6、判断装置2及第一请求发起装置3。第一获取装置1已在参照图4所示的实施例中予以详述,并以引用的方式包含于 此,不再赘述。第三获取装置5获取所述网页信息中包含的预定文本信息。具体的,所述获取预定文本信息的方式包括但不限于通过访问装置在网页信息 中查询并对所述预定文本信息进行统计获得。第一确定装置6基于第一预定规则,根据所获取的预定文本信息,来确定所述网 页信息的总评价值。其中,所述第一预定规则根据以下至少任一项,来确定所述总评价值1)所述网页信息所包含的预定文本信息的总数量;其中,所述预定文本信息的总数量为所有特定类别的预定文本信息的数量之和。 具体的,第三获取装置5在网页信息中查询并统计预定文本信息出现的次数,第一确定装 置6根据网页信息中预定文本信息出现的总次数,来确定所述网页信息的总评价值。例如, 直接将所述总次数对应的数量值作为总评价值,或者,将该数量值进行一定的处理,例如, 乘以相应系数,或者,进行归一化处理后,作为总评价值。2)所述网页信息所包含的预定文本信息的总类别;具体的,第一确定装置6根据网页信息中所包含的预定文本信息的类别的数量, 来确定所述网页信息的总评价值。例如,第一预定规则包括根据所述网页信息所包含的预定文本信息的总类别的数 量来确定总评价值,例如,将网页信息中包含的预定文本信息的类别数量作为总评价值。第 一确定装置6对获得的网页信息进行分析,获得其中包含自然语言类的短文本信息“歌曲” 和“播放”;地址类别的短文本信息“gequ”,以及代码类别的短文本信息“playmusic”。第一 确定装置6根据第一预定规则,获得所述网页信息的总评价值为3。3)所述网页信息所包含的所有预定文本信息所对应的权重值;具体的,第一确定装置6根据网页信息中所包含的预定文本信息,获取相应的权 重值,并根据所述权重值获得总评价值。例如,直接将网页信息所包含预定文本信息对应的 权重值相加,以获得该总评价值,又例如,将各网页信息所包含预定文本信息对应的权重值 取平均值后获得该总评价值等。其中,所述获得特定类别的预定文本信息权重值的方式包括但不限于a)通过查 询访问装置或其他装置中预存储的与预定文本信息对应的权重值来获得;b)通过获取预 设的与该预定文本对应的相关信息,例如,该预定文本信息的搜索频次,该预定文本信息的 表意能力等,并多所获取的相关信息进行相应处理,例如,求和或求取平均值等来得到。4)所述网页信息所包含的所有预定文本信息类别所对应的权重值。具体的,第一确定装置6根据第三获取装置5所获取的预定文本信息的特定类别, 获取与所述特定类别对应的权重值,并根据所述权重值获得总评价值。其中,所述类别对应的权重值通过查询预设的与各特定类别对应的权重值信息来获得。其中,所述特定类别包括但不限于1)自然语言类别;该自然语言类别的预定文本信息在网页生成后能够被用户所 阅读,例如,网页信息中所包含的自然语言词汇或自然语言词汇的组合等;2)地址类别;例如,网页信息中所包含的URL地址信息,或者,网页信息所包含的 可执行对象中的链接信息等;3)代码类别;例如,浏览器能够根据预定的解码规则来进行解析的代码信息等。其中,对于代码类别的预定文本信息,访问装置可根据网页信息中所包含的标志 信息来确定;对于地址类别的预定文本信息,可通过以下任一方式来确定i)根据标识信息来识别地址信息,并将所有识别得到的地址信息作为地址类别的 预定文本信息;ii)根据标识信息来识别可执行对象范围,并识别可执行对象范围内的地址信息 来作为地址类别的预定文本信息未被识别为代码类别及地址类别的文本信息,作为自然语言类别的预定文本信 肩、ο需要说明的是,第一确定装置6还可结合上述四项因素中的任意若干种,来获得 所述网页信息的总评价值。例如,第一预定规则规定,总评价值=Σ (Wi^Ni);其中,i表示预 定文本信息的类别,Wi表示特定类别对应的预定文本信息的权重值,Ni表示特定类别的预 定文本信息的数量,即总评价值由各个类别的预定文本信息的数量乘以与类别对应的类别 权重值后累加得到。当预设自然语言类别的类别权重值为2 ;地址类别的类别权重值为4 ; 代码类别的类别权重值为8,且第三获取装置5获取的预定文本信息中,包括33项自然语言 类别的预定文本信息、2项地址类别的预定文本信息以及4项代码类别的预定文本信息,则 第一确定装置6根据第一预定规则确定所述网页信息的总评价值为106。又例如,第一确定装置6根据上述四项因素分别获得相应的值后,再对所获得的 四个值进行相应处理,例如,取平均值,或取平方和,或分别加权后相加等,来得到总评价 值。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何基于第一预定规则,根据所获取的预定文本信息,来确 定所述网页信息的总评价值的实现方式,均应包含在本发明的范围内。判断装置2检测到所述网页信息中包括可能触发网页访问的可执行对象,判断该 网页信息是否符合预定条件。其中,所述预定条件还包括所述总评价值大于或等于第二预 定阈值;所述第二预定阈值应可由本领域技术人员根据实际情况及需求来确定。需要说明的是,所述第三获取装置5和第一确定装置6既可以在判断装置2之前 执行操作,也可以在判断装置2执行判断操作的过程中执行操作,例如,判断装置2检测到 所述网页信息中包括可能触发网页访问的可执行对象后,第三获取装置5获取所述网页信 息中包含的预定文本信息,接着第一确定装置6基于第一预定规则,根据所获取的预定文 本信息,来确定所述网页信息的总评价值。随后,基于预定条件及所获得的总评价值,来判 断是否对该新网页信息中的可执行对象发起相对应的网页访问请求。
接着,第一请求生成装置3已在参照图4所示的实施例中予以详述,并以引用的方 式包含于此,不再赘述。作为本发明的优选方案之一,其中,根据本实施例的装置还包括第四获取装置 (图未示)。所述预定条件还包括所述总评价值小于所述第三预定阈值且所述网页的重要 度大于第四预定阈值。其中,所述第三预定阈值小于等于所述第二预定阈值,所述第三预定 阈值和第四预定阈值可由本领域技术人员根据实际情况及需求来确定。第四获取装置获取所述网页信息所属的网页的重要度。第四获取装置获取该重要 度的方式包括但不限于1)获取预设的与该网页信息所述网页对应的重要度;幻获取预获 取的与该网页信息对应的相关信息,通过对相关信息进行相应处理,例如,直接将相关信息 中包含的一项因素对应的值来作为该重要度,或者,将相关信息中包含的各项因素对应的 值相加或取平均值或加权相加后归一化等,来获得该重要度。其中,所述相关信息包括以下 至少一项1)所述网页信息所属网页的被点击次数;2)所述网页信息所属网页的被推荐次 数;3)所述网页信息所属网页的权威性等。第四获取装置可在第一获取装置1之后,判断装置2之前执行操作;或者,第四获 取装置可在判断装置2执行操作的过程中,且当在判断装置2判断所述总评价值小于第二 预定阈值后执行操作,随后,访问装置判断根据网页信息所获得的重要度及总评价值是否 满足所述总评价值小于所述第三预定阈值且所述网页的重要度大于第四预定阈值的预定 条件,以根据判断结果来确定是否执行第一请求发起装置3的操作。作为本发明的优选方案之一,其中,根据本实施例的访问装置还包括第二确定装 置(图未示)。第二确定装置基于第二预定规则,根据所述网页信息所包含的各个特定类别的预 定文本信息分别获得相应的各个单项评价值。其中,所述第二预定规则包括根据以下至少 一项因素,来确定所述单项评价值1)所述网页信息所包含的各个特定类别的预定文本信息分别对应的数量;具体的,第二确定装置根据网页信息中各个特定类别的预定文本信息的数量,并 根据所述特定类别的预定文本信息的数量,获得相应类别的单项评价值。其中,所述获得相 应类别的单项评价值的方法包括但不限于采用以预定文本信息数量为参数的多种函数。例如,第二预定规则规定,自然语言类别单项评价值为网页信息所包含的各自然 语言类别的预定文本信息数量的平均值;地址类别单项评价值为网页信息所属网页的地址 信息中所包含的地址类别预定文本信息的数量;代码类别单项评价值为网页信息所属网页 的代码信息中所包含的代码类别预定文本信息的数量乘以调整系数,例如,0. 5后的值。对 于一网页信息,第三获取装置5获得自然语言类别的预定文本信息中,“音乐”出现8次、“点 歌”出现12次、“热播1现4次;地址类别的预定文本信息中,“song”出现1次,“listen”出 现1次;代码类别的预定文本信息中,“playlist^^S3次,“musicbof出现4次,“listen” 出现2次,则根据第二预定规则,第二确定装置获得自然语言类别单项评价值为各自然语 言预定文本信息的出现次数之和的平均值,即自然语言类别单项评价值为(8+12+4)/3 = 8 ;地址类别预定文本信息共有2项,即地址类别单项评价值为2 ;代码类别单项评价值为 (3+4+2) *0. 5 = 4. 5。2)所述网页信息所包含的各个特定类别的预定文本信息分别对应的权重值;
具体的,第二确定装置获取网页信息中所包含的特定类别的预定文本信息,并获 取所述预定文本信息对应的权重值,以根据该权重值来获得相应类别的单项评价值。其中, 所述获得特定类别的预定文本信息权重值的方式包括但不限于a)通过查询预存储的预 定文本信息的权重值表获得;b)获取预获取的与该特定类别的预定文本信息对应的相关 信息,通过对相关信息进行相应处理,例如,直接将相关信息中包含的一项因素对应的值来 作为该重要度,或者,将相关信息中包含的各项因素对应的值相加或取平均值或加权相加 后归一化等,来获得该重要度。例如,第二预定规则规定,各单项评价值由网页信息所包含的各特定类别预定文 本信息的权重值相加后获得。若第三获取装置5所获得的预定文本信息包括自然语言类别 的预定文本信息“音乐”、“点歌”出及“热播”;地址类别的预定文本信息“song”及“listen”; 代码类别的预定文本信息“playliSt”、“mUSicb0X”及“listen”,第二确定装置通过查询预 设的各预定文本信息对应的权重值表,获得类别权重值如下自然语言类别中,“音乐”权重值为0. 5,点歌权重值为1,热播为1. 2 ;地址类别中,“song”权重值为1. 1,“ listen”权重值为1. 6 ;代码类别中,“playlist”权重值为2. 1,“musicbox”权重值为1. 4,“listen”权重 值为1.2;则第二确定装置根据第二预定规则,获得各单项权重如下自然语言类别单项权重值=0. 5+1+1. 2 = 2. 7 ;地址类别单项权重值=1. 1+1. 6 = 2. 7 ;代码类别单项权重值=2. 1+1. 4+1. 2 = 4. 7。需要说明的是,第二确定装置还可结合上述两项因素来获得各单项权重值,例如, 若第二预定规则规定,单项权重值为各预定文本信息的出现次数乘以其权重值后相加所得 的值,则第二确定装置根据第二预定规则,计算各个类别下预定文本信息的加权和作为相 应类别的单项权重值,第三获取装置5所得的各特定类别的预定文本信息及其出现次数及 权重值如上述两个实施例所示,则第二确定装置分别获得各个单项平均值如下自然语言类别单项权重值为8*0. 5+12*1+4*1. 2 = 20. 8 ;地址类别单项权重值为1*1. 1+1*1. 6 = 2. 7 ;代码类别单项权重值为3*2. 1+4*1. 4+2*1. 2 = 14. 3。判断装置2检测到所述网页信息中包括可能触发网页访问的可执行对象,判断该 网页信息是否符合预定条件。其中,所述预定条件还包括所述总评价值大于第五预定阈 值,而且所述各个单项评价值均大于相应的各个预定阈值;所述第五预定阈值可由本领域 技术人员根据实际情况及需求来确定,但所述第五预定阈值的选取应满足大于或等于所述 第二预定阈值的条件。例如,访问装置中预设自然语言类别单项评价值的预定阈值为12,地址类别单项 评价值的预定阈值为1,代码类别单项评价值的预定阈值为10,总评价值为76,且第一确定 装置6所获得的总评价值为106,第二确定装置所获得的自然语言类别单项权重值为20. 8, 地址类别单项权重值为2. 7,代码类别单项权重值为14. 3,则判断装置2判定所述总评价值 大于第五预定阈值,而且所述各个单项评价值均大于相应的各个预定阈值,则所述网页信 息符合预定条件。
又例如,预设自然语言类别单项评价值的预定阈值为12,地址类别单项评价值的 预定阈值为5,代码类别单项评价值的预定阈值为10,总评价值为76,且第一确定装置6中 所获得的总评价值为106,第二确定装置所获得的自然语言类别单项权重值为20.8,地址 类别单项权重值为2. 7,代码类别单项权重值为14. 3,则判断装置2判断地址类别单项权重 值小于其预定阈值,所述网页信息不符合预定条件。第二确定装置可在第一获取装置1之后,判断装置2之前执行操作;或者,第二确 定装置可以在判断装置2执行判断操作的过程中执行操作,例如,判断装置2检测到所述网 页信息中包括可能触发网页访问的可执行对象后,通过第一确定装置6和第二确定装置执 行的操作以获得总评价值及各单项评价值,随后,判断装置2判断根据网页信息所获得的 总评价值及个单项评价值是否满足总评价值大于第五预定阈值,且所述各个单项评价值均 大于相应的各个预定阈值,以根据判断结果来确定是否执行第一请求发起装置3的操作。需要说明的是,上述举例仅为更好地说明本发明的技术方案,而非对本发明的限 制,本领域技术人员应该理解,任何基于第二预定规则,根据所述网页信息所包含的各个特 定类别的预定文本信息分别获得相应的各个单项评价值的实现方式,均应包含在本发明的 范围内。作为本发明的优选方案之一,其中,所述访问装置还包括第一更新装置(图未 示)°第一更新装置通过根据多个网页进行预训练来确定所述预定条件。其中,所述预 训练的方式包括但不限于采用以下分类模型来实现1)支持向量机模型;2)贝叶斯模型; 3)最大熵模型等。所述预定条件包括分类模型判断所获得的网页信息为需要进行多次访问 的网页信息。具体的,访问装置获得多个已确定为需发起多次访问请求的网页及多个已确定为 仅需发起一次访问请求的网页,随后,第一更新装置根据该等多个网页来对分类模型进行 训练,以获得训练后的分类模型。则当判断装置2判断网页信息中包含可执行对象时,若分 类模型根据网页信息所输出的分类结果为需要进行多次访问的网页信息,则判断装置2判 断网页信息符合预定条件,并执行第一请求发起装置3的操作。根据本实施例的访问装置,依据多层级的预定条件,来对网页信息是否可能触发 下次网页请求进行判定,使得判定的结果更加准确,更加有效提高网页访问效率,避免因不 必要的网页访问请求所造成的资源浪费与时间消耗。对于本领域技术人员而言,显然本发明不限于上述示范性实施例的细节,而且在 不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论 从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权 利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有 变化涵括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。此 外,显然“包括” 一词不排除其他单元或步骤,单数不排除复数。系统权利要求中陈述的多 个单元或装置也可以由一个单元或装置通过软件或者硬件来实现。第一,第二等词语用来 表示名称,而并不表示任何特定的顺序。
权利要求
1.一种计算机实现的用于确定网页访问请求的方法,其中,该方法包括以下步骤 a获取网页信息;b当检测到所述网页信息中包括可能触发网页访问的可执行对象,判断该网页信息是 否符合预定条件;-当所述网页信息符合该预定条件时,发起与该可执行对象相对应的网页访问请求。
2.根据权利要求1所述的方法,其中,该方法还包括以下步骤 -获取所述网页信息中所包含的预定文本信息的数量;其中,所述预定条件包括-所述网页信息所包含的预定文本信息数量大于或等于第一预定阈值。
3.根据权利要求1所述的方法,其中,该方法还包括以下步骤 -获取所述网页信息中包含的预定文本信息;-基于第一预定规则,根据所获取的预定文本信息,来确定所述网页信息的总评价值; 其中,所述预定条件还包括 -所述总评价值大于或等于第二预定阈值。
4.根据权利要求3所述的方法,其中,该方法还包括以下步骤 -获取所述网页信息所属的网页的重要度;其中,所述预定条件还包括-所述总评价值小于所述第三预定阈值且所述网页的重要度大于第四预定阈值,其中, 所述第三预定阈值小于等于所述第二预定阈值。
5.根据权利要求3或4所述的方法,其中,所述第一预定规则根据以下至少任一项,来 确定所述总评价值-所述网页信息所包含的预定文本信息的总数量; -所述网页信息所包含的预定文本信息的总类别; -所述网页信息所包含的所有预定文本信息所对应的权重值; -所述网页信息所包含的所有预定文本信息类别所对应的权重值。
6.根据权利要求3至5中任一项所述的方法,其中,该方法还包括以下步骤-基于第二预定规则,根据所述网页信息所包含的各个特定类别的预定文本信息分别 获得相应的各个单项评价值; 其中,所述预定条件还包括-所述总评价值大于第五预定阈值,而且所述各个单项评价值均大于相应的各个预定 阈值。
7.根据权利要求6所述的方法,其中,所述第二预定规则包括,根据以下至少一项因 素,来确定所述单项评价值-所述网页信息所包含的各个特定类别的预定文本信息分别对应的数量; -所述网页信息所包含的各个特定类别的预定文本信息分别对应的权重值。
8.根据权利要求5至7中任一项所述的方法,其中,所述类别包括 -自然语言类别;-地址类别; -代码类别。
9.根据权利要求2至8中任一项所述的方法,其中,所述预定文本信息包括以下至少一类-短文本信息; -短文本信息组合。
10.根据权利要求1至9中任一项所述的方法,其中,该方法还包括以下步骤 -通过根据多个网页进行预训练来确定所述预定条件。
11.根据权利要求1至10中任一项所述的方法,其中,该方法还包括以下步骤-当判断一个网页信息符合该预定条件时,根据该网页信息所属网页的地址信息来建 立或更新网页类别库。
12.根据权利要求11所述的方法,其中,该方法包括以下步骤 -获取一个新网页信息及其所属网页的地址信息;-基于所获取的网页的地址信息来在所述网页类别库中进行查询,以获得查询结果; -当所述查询结果为匹配时,对该新网页信息中的可执行对象发 起相对应的网页访问请求。
13.根据权利要求1至12中任一项所述的方法,其中,所述可执行对象包括基于Java、 JS、Ajax 和 / 或 VBscript 的对象。
14.一种用于确定网页访问请求的访问装置,其中,该访问装置包括 第一获取装置、用于获取网页信息;判断装置、用于当检测到所述网页信息中包括可能触发网页访问的可执行对象,判断 该网页信息是否符合预定条件;第一请求发起装置、用于当所述网页信息符合该预定条件时,发起与该可执行对象相 对应的网页访问请求。
15.根据权利要求14所述的访问装置,其中,该访问装置还包括 第二获取装置、用于获取所述网页信息中所包含的预定文本信息的数量; 其中,所述预定条件包括-所述网页信息所包含的预定文本信息数量大于或等于第一预定阈值。
16.根据权利要求14所述的访问装置,其中,该访问装置还包括 第三获取装置、用于获取所述网页信息中包含的预定文本信息;第一确定装置、用于基于第一预定规则,根据所获取的预定文本信息,来确定所述网页 信息的总评价值;其中,所述预定条件还包括 -所述总评价值大于或等于第二预定阈值。
17.根据权利要求16所述的访问装置,其中,该访问装置还包括 第四获取装置、用于获取所述网页信息所属的网页的重要度; 其中,所述预定条件还包括-所述总评价值小于所述第三预定阈值且所述网页的重要度大于第四预定阈值,其中, 所述第三预定阈值小于等于所述第二预定阈值。
18.根据权利要求16或17所述的访问装置,其中,所述第一预定规则包含,根据以下至 少任一项,来确定所述总评价值-所述网页信息所包含的预定文本信息的总数量; -所述网页信息所包含的预定文本信息的总类别; -所述网页信息所包含的所有预定文本信息所对应的权重值; -所述网页信息所包含的所有预定文本信息类别所对应的权重值。
19.根据权利要求16至18中任一项所述的访问装置,其中,该访问装置还包括 第二确定装置、用于基于第二预定规则,根据所述网页信息所包含的各个特定类别的预定文本信息分别获得相应的各个单项评价值; 其中,所述预定条件还包括-所述总评价值大于第五预定阈值,而且所述各个单项评价值均大于相应的各个预定 阈值。
20.根据权利要求19所述的访问装置,其中,所述第二预定规则根据以下至少一项因 素,来确定所述单项评价值-所述网页信息所包含的各个特定类别的预定文本信息分别对应的数量; -所述网页信息所包含的各个特定类别的预定文本信息分别对应的权重值。
21.根据权利要求18至20中任一项所述的访问装置,其中,所述类别包括 -自然语言类别;-地址类别; -代码类别。
22.根据权利要求15至21中任一项所述的访问装置,其中,所述预定文本信息包括以 下至少一类-短文本信息; -短文本信息组合。
23.根据权利要求14至21中任一项所述的访问装置,其中,该访问装置还包括 第一更新装置、用于通过根据多个网页进行预训练来确定所述预定条件。
24.根据权利要求14至23中任一项所述的访问装置,其中,该访问装置还包括 第二更新装置、用于当判断一个网页信息符合该预定条件时,根据该网页信息所属网页的地址信息来建立或更新网页类别库。
25.根据权利要求M所述的访问装置,其中,该访问装置包括 第五获取装置、用于当获取一个新网页信息及其所属网页的地址信息;查询装置、用于基于所获取的网页的地址信息来在所述网页类别库中进行查询,以获 得查询结果;第二请求发起装置、用于当所述查询结果为匹配时,对该新网页信息中的可执行对象 发起相对应的网页访问请求。
26.根据权利要求14至25中任一项所述的访问装置,其中,所述可执行对象包括基于 Java、JS, Ajax 和 / 或 VBscript 的对象。
27.一种计算机设备,其中,该计算机设备包括如权利要求14至16中任一项所述的访 问装置。
全文摘要
本发明涉及一种用于确定网页访问请求的方法和设备,其中,根据本发明的方案获取网页信息;当检测到所述网页信息中包括可能触发网页访问的可执行对象,判断该网页信息是否符合预定条件;当所述网页信息符合该预定条件时,发起与该可执行对象相对应的网页访问请求。与现有技术相比,本发明的优点在于能够预先判定网页中是否可能包含可执行对象,对不包含可执行对象的网页不再发起网页请求,提高了网页浏览的效率。
文档编号G06F17/30GK102073728SQ20111000677
公开日2011年5月25日 申请日期2011年1月13日 优先权日2011年1月13日
发明者姚远 申请人:百度在线网络技术(北京)有限公司