用于优化浏览器的搜索结果页面的装置及方法

文档序号:6365744阅读:289来源:国知局
专利名称:用于优化浏览器的搜索结果页面的装置及方法
技术领域
本发明涉及网络搜索技术领域,尤其涉及一种用于优化浏览器的搜索结果页面的装置及方法。
背景技术
互联网的搜索引擎面向数以亿万计的各种各样的网页,虽然现有的搜索技术和相应的搜索算法已取得了巨大的改进及飞跃,但是在处理海量的形形色色的网页时难免出现搜索结果效果不理想的情况,例如,搜索结果的相关性不好、搜索结果的展现效果不好、死链、乱码、搜索结果重复、标题摘要不准确等现象,我们统称这些现象为Bad Case,及时发现这些Bad Case并进行相应的进行搜索算法的改进,对于互联网的搜索引擎异常重要。

发明内容
本发明旨在至少解决上述技术问题之一。为此,本发明的一个目的在于提出一种可以在用户使用搜索引擎的同时自动对搜索结果进行分析进而挖掘出搜索坏点并自动向后台服务器反馈以用于搜索引擎改进的用于优化浏览器的搜索结果页面的装置。本发明的另一目的在于提出一种用于优化浏览器的搜索结果页面的方法。为了实现上述目的,根据本发明的第一方面实施例的用于优化浏览器的搜索结果页面的装置包括提取模块,所述提取模块用于提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息;判断模块,所述判断模块用于根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点;以及自动反馈模块,所述自动反馈模块用于将所述搜索坏点自动反馈给后台服务器。根据本发明实施例的用于优化浏览器的搜索结果页面的装置,一方面通过提取模块和判断模块可以实现对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该装置可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。为了实现上述目的,根据本发明的第二方面实施例的用于优化浏览器的搜索结果页面的方法包括以下步骤提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息;根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点;以及将所述搜索坏点自动反馈给后台服务器。根据本发明实施例的用于优化浏览器的搜索结果页面的方法,一方面通过提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息,对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该方法可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。本发明附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。


本发明上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中,图I是根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图;图2是根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图;图3是根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图;图4是根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图;图5是根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图;以及图6是根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。
具体实施例方式下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本发明,而不能理解为对本发明的限制。相反,本发明的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。在本发明的描述中,需要理解的是,术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性。在本发明的描述中,需要说明的是,除非另有明确的规定和限定,术语“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。此外,在本发明的描述中,除非另有说明,“多个”的含义是两个或两个以上。流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现特定逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本发明的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本发明的实施例所属技术领域的技术人员所理解。下面参考说明书附图描述根据本发明实施例的用于优化浏览器的搜索结果页面的装置。一种用于优化浏览器的搜索结果页面的装置,包括提取模块,提取模块用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息;判断模块,判断模块用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点;以及自动反馈模块,自动反馈模块用于将搜索坏点自动反馈给后台服务器。图I为根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图。如图I所示,根据本发明实施例的用于优化浏览器的搜索结果页面的装置包括 提取模块100、判断模块200和自动反馈模块300。具体地,提取模块100用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。在本发明的一个实施例中,提取模块100的功能可以使用JavaScript进行定义,例如定义一个batOverlay. js文件,该batOverlay. js文件里面定义了一个类bat (可执行文件)及相关的方法以用于初始化,同时在该batOverlay. js文件里面定义了各种针对搜索结果进行分析的函数。例如函数Bat. page_analysis()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P:l,AS:5, AL: I, AS:3},其中,P: I表示一个品牌广告位于第一个位置,AS:5表示5个普通结果,位置在一个品牌广告的后面,AL: I表示I个 Aladdin结果,位置在5个普通结果的后面,AS: 3表不3个普通结果,位置在I个Aladdin结果的后面。判断模块200用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。具体地,判断模块200根据结构信息判断搜索结果页面中是否存在搜索坏点。首先设置搜索结果页面的结构信息的阈值,例如在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果的数目阈值为1,如果一个搜索结果页面中的设置广告信息项的数目或者Aladdin结果的数目超过设置的阈值1,则判断模块200判断该搜索结果页面中存在搜索坏点。判断模块200还可以根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点。例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则判断模块200判断该第一信息项是搜索坏点。在本发明的一个实施例中,判断模块200的功能也可以使用JavaScript进行定义,例如定义的batOverlay. js文件里面定义了各种针对搜索结果进行分析的函数,如函数 Bat. Iinkcheck(type)、Bat. is_equal O、Bat. piaohongO 等。例如,使用函数 Bat.Iinkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type = all表示对搜索结果页面中的所有信息项进行死链检查,当参数type = top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type = random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat. is_eqUal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat. piaohong O可以判断搜索结果页面中的飘红是否正 常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat. title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,Al :{0,0,0},A2 :{0,1,0},…,AlO :{0,0,0}},表示共展现了 10条普通结果,其中第2条结果(A2 : {0,I,0})的摘要标记为I,表示摘要有异常。自动反馈模块300用于将搜索坏点自动反馈给后台服务器。在本发明的一个实施例中,自动反馈模块300通过使用HTTP请求向后台服务器进行反馈。例如,自动反馈模块300将判断模块200所判断的存在搜索坏点的搜索结果以json (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中,其中,自动反馈模块300可以将上述功能封装起来,当判断模块200判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。根据本发明实施例的用于优化浏览器的搜索结果页面的装置,一方面通过提取模块和判断模块可以实现对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该装置可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。图2为根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图。如图2所示,根据本发明实施例的用于优化浏览器的搜索结果页面的装置包括提取模块100、判断模块200、自动反馈模块300和手动反馈模块400。具体地,提取模块100用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。判断模块200用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。自动反馈模块300用于将搜索坏点自动反馈给后台服务器。手动反馈模块400提供接口从而用户能够使用接口来向后台服务器反馈对搜索结果的意见。在本发明的一个实施例中,自动反馈模块300或手动反馈模块400通过使用HTTP请求向后台服务器进行反馈。例如,自动反馈模块300或手动反馈模块400将判断模块200所判断的存在搜索坏点的搜索结果以j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中。其中,自动反馈模块300可以将上述功能封装起来,当判断模块200判断存在搜索坏点时将搜索坏点自动反馈给后台服务器,手动反馈模块400可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷反馈,通过简单的功能按钮例如右键菜单可以方便及时地反馈搜索坏点,做到一键式反馈。根据本发明实施例的用于优化浏览器的搜索结果页面的装置,当用户认为搜索结果效果不好时可以通过手动反馈模块快捷地反馈向后台服务器尽心反馈,通过用户加速搜索坏点的发现,提高效率,同时将手动反馈模块包装成接口,用户通过简单的功能按钮即可方便及时地反馈搜索坏点,降低用户参与测试的成本。图3为根据本发明一个实施例的用于优化浏览器的搜索结果页面的装置的结构框图。如图3所示,根据本发明实施例的用于优化浏览器的搜索结果页面的装置包括提取模块100、判断模块200、设置单元210、比较单元220、确定单元230和自动反馈模块300。具体地,提取模块100用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息。判断模块200用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。在本发明的一个实施例中,判断模块200包括设置单元210、比较单元220和确定单元230。更具体地,设置单元210用于根据搜索关键字设置搜索结果页面的结构信息的阈值。例如,在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果数目阈值为I。比较单元220用于将结构信息与阈值比较。具体地,比较单元将提取模块100提取的结构信息与设置单元210设置的结构信息的阈值相比较。确定单元230用于根据比较单元220的比较结果或者根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点。在本发明的一个实施例中,确定单元230用于根据比较单元220的比较结果确定搜索结果页面中是否存在搜索坏点,例如如果根据比较单元220的比较结果,一个搜索结果页面中的广告信息项的数目为2或者Aladdin结果的数目为3,超过设置的阈值,则确定单元230确定搜索结果页面中存在搜索坏点。在本发明的一个实施例中,确定单元230还用于根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点,例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或 者第一信息项包括的标题或摘要中不包含搜索关键字,则确定单元230确定该第一信息项是搜索坏点。在本发明的一个实施例中,确定单元230根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点的功能也可以使用JavaScript进行定义,例如定义的batOverlay.js文件里面定义了各种针对搜索结果进行分析的函数,如函数Bat. Iinkcheck(type)、Bat. is_equal O、Bat. piaohong O 等。例如,使用函数 Bat. Iinkcheck (type)可以对搜索结果的信息项进行死链检查,其中,当参数type = all表示对搜索结果页面中的所有信息项进行死链检查,当参数type = top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type = random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat. is_equal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat. piaohongO可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat. title_abstract O可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10, Al :{0,0,0},A2 :{0,1,0},…,AlO : {0,0,0}},表示共展现了 10 条普通结果,其中第2条结果(A2 :{0,1,0})的摘要标记为1,表示摘要有异常。 自动反馈模块300用于将搜索坏点自动反馈给后台服务器。手动反馈模块400提供接口从而用户能够使用接口来向后台服务器反馈对搜索结果的意见。在本发明的一个实施例中,自动反馈模块300或手动反馈模块400通过使用HTTP请求向后台服务器进行反馈。例如,自动反馈模块300或手动反馈模块400将确定单元230所确定的存在搜索坏点的结果以j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果回传到数据库中,其中,自动反馈模块300可以将上述功能封装起来,当确定单元230确定存在搜索坏点时将搜索坏点自动反馈给后台服务器,手动反馈模块400可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷地向后台服务器反馈。根据本发明实施例的用于优化浏览器的搜索结果页面的装置,通过提取模块提取搜索结果页面的结构信息及搜索结果页面中每条信息项的信息,再通过设置单元、比较单元和确定单元实现对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该装置可以利用搜索引擎客户端的空闲资源进行搜索结果页面提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。下面参考说明书附图描述根据本发明实施例的用于优化浏览器的搜索结果页面的方法。一种用于优化浏览器的搜索结果页面的方法,包括以下步骤提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息;根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点;以及将搜索坏点自动反馈给后台服务器。图4为根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。
如图4所示,根据本发明实施例用于优化浏览器的搜索结果页面的方法,包括下述步骤。步骤S101,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信
肩、O在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。在本发明的一个实施例中,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息的功能可以使用JavaScript进行定义,例如定义一个batOverlay. js文件,该batOverlay. js文件里面定义了一个类bat (可执行文件)及相关的方法以用于初始化,同时在该batOverlay. js文件里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analySiS()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P: I,AS: 5, AL: I, AS: 3},其中,P: I表不一个品牌广告位于第一个位置,AS: 5表不5个普通结果,位置在一个品牌广告的后面,AL: I表示I个Aladdin结果,位置在5个普通结果的后面,AS: 3表不3个普通结果,似直在I个Aladdin结果的后面。步骤S102,根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。具体地,根据结构信息判断搜索结果页面中是否存在搜索坏点首先需要设置搜索结果页面的结构信息的阈值,例如在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果的数目阈值为1,如果一个搜索结果页面中的设置广告信息项的数目或者Aladdin结果的数目超过设置的阈值1,则判断搜索结果页面中存在搜索坏点。根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点主要通过特定的现象实现,例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则判断该第一信息项是搜索坏点。在本发明的一个实施例中,根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点的功能可以利用batOverlay. js文件里面定义的各种搜索结果分析的函数。例如,使用JavaScript进行定义,例如定义的batOverlay. js文件里面定义了各种针对搜索 结果进行分析的函数,如函数 Bat. Iinkcheck(type)、Bat. is_equal O、Bat. piaohongO等。例如,使用函数Bat. Iinkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type = all表示对搜索结果页面中的所有信息项进行死链检查,当参数type = top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type = random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat. is_eqUal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat. piaohongO可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat. title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,Al :{0,0,0},A2 :{0,1,0},…,AlO :{0,0,0}},表示共展现了 10条普通结果,其中第2条结果(A2 :{0,1,O})的摘要标记为I,表示摘要有异常。步骤S103,将搜索坏点自动反馈给后台服务器。在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以 j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中,其中,可以将上述功能封装起来,当判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。根据本发明实施例的用于优化浏览器的搜索结果页面的方法,一方面通过提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息,对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该方法可以利用搜索引擎客户端的空闲资源进行搜索结果页面的提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。图5为根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。如图5所示,根据本发明实施例用于优化浏览器的搜索结果页面的方法,包括下述步骤。步骤S201,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信
肩、O在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。在本发明的一个实施例中,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息的功能可以使用JavaScript进行定义,例如定义一个batOverlay. js文件,该batOverlay. js文件里面定义了一个类bat (可执行文件)及相关的方法以用于初始化,同时在该batOverlay. js文件里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analySiS()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P: I,AS: 5, AL: I, AS: 3},其中,P: I表不一个品牌广告位于第一个位置,AS: 5表不5个普通结果,位置在一个品牌广告的后面,AL: I表示I个Aladdin结果,位置在5个普通结果的后面,AS: 3表不3个普通结果,似直在I个Aladdin结果的后面。步骤S202,根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点。具体地,根据结构信息判断搜索结果页面中是否存在搜索坏点首先需要设置搜索结果页面的结构信息的阈值,例如在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为1,Aladdin结果的数目阈值为1,如果一个搜索结果页面中的设置广告信息项的数目或者Aladdin结果的数目超过设置的阈值1,则判断搜索结果页面中存在搜索坏点。根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点主要通过特定的 现象实现,例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则判断该第一信息项是搜索坏点。在本发明的一个实施例中,根据每条信息项的信息判断搜索结果页面中是否存在搜索坏点的功能可以利用batOverlay. js文件里面定义的各种搜索结果分析的函数。例如,使用JavaScript进行定义,例如定义的batOverlay. js文件里面定义了各种针对搜索结果进行分析的函数,如函数 Bat. Iinkcheck(type)、Bat. is_equal O、Bat. piaohongO等。例如,使用函数Bat. Iinkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type = all表示对搜索结果页面中的所有信息项进行死链检查,当参数type = top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type = random表示对搜索结果页面中随机的三条信息项进行死链检查。使用函数Bat. is_eqUal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat. piaohongO可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat. title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,Al :{0,0,0},A2 :{0,1,0},-,AlO :{0,0,0}},表示共展现了 10条普通结果,其中第2条结果(A2 :{0,1,0})的摘要标记为I,表示摘要有异常。步骤S203,将搜索坏点自动反馈给后台服务器。在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中,其中,可以将上述功能封装起来,当判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。步骤S204,提供用户能够主动向后台服务器反馈对搜索结果的意见的接口。在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中,通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中。其中,可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷反馈,通过简单的功能按钮例如右键菜单可以方便及时地反馈搜索坏点,做到一键式反馈。根据本发明实施例的用于优化浏览器的搜索结果页面的方法,当用户认为搜索结果效果不好时可以通过提供的接口快捷地向后台服务器反馈,通过用户加速搜索坏点的发现,提高效率,同时将手动反馈包装成接口,用户通过简单的功能按钮即可方便及时地反馈搜索坏点,降低用户参与测试的成本。
图6为根据本发明一个实施例的用于优化浏览器的搜索结果页面的方法的流程图。如图6所示,根据本发明实施例用于优化浏览器的搜索结果页面的方法,包括下述步骤。步骤S301,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信肩、O在本发明的一个实施例中,结构信息包括搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置。具体地,广告信息项可以包括品牌广告、赞助商链接广告、推广广告、品牌保护结果等,普通信息项可以为AS结果,此为还包括Aladdin结果(搜索引擎百度推出的通用开放平台,将接口开放提供给独特信息数据的拥有者,解决现有搜索引擎无法抓取和检索到的暗网信息)等。在本发明的一个实施例中,每条信息项的信息包括每条信息项包括的链接、标题、摘要和搜索关键字。在本发明的一个实施例中,提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息的功能可以用JavaScript进行定义,如定义了一个batOverlay. js文件,该batOverlay. js文件里面定义了一个类bat (可执行文件)及相关的方法以用于初始化,同时在该batOverlay. js里面定义了各种针对搜索结果进行分析的函数。例如函数Bat.page_analysis()可以对搜索结果页面包括的广告信息项的数目及位置和普通信息项的数目及位置进行分析,如调用该函数对某个搜索结果页面进行页面分析之后输出的结果为{P I, AS: 5, AL: I, AS: 3},其中,P: I表不一个品牌广告位于第一个位置,AS:5表不5个普通结果,位置在一个品牌广告的后面,AL: I表示I个Aladdin结果,位置在5个普通结果的后面,AS: 3表示3个普通结果,位置在I个Aladdin结果的后面。步骤S302,根据搜索关键字设置搜索结果页面的结构信息的阈值。例如,在一个搜索结果页面中根据用户输入的搜索关键字设置广告信息项的数目阈值为I,Aladdin结果数目阈值为I。步骤S303,将结构信息与阈值比较。具体地,将步骤S301所提取到的结构信息与步骤S302所设置的结构信息的阈值相比较。步骤S304,根据比较结果或者根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点。在本发明的一个实施例中,根据比较结果确定搜索结果页面中是否存在搜索坏点。例如,将结构信息与阈值比较,一个搜索结果页面中的广告信息项的数目为2或者Aladdin结果的数目为3,超过设置的阈值,则确定单元230确定搜索结果页面中存在搜索坏点。在本发明的一个实施例中,还可以根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点。例如,如果每条信息项中的第一信息项包括的链接是无法打开的链接,或者第一信息项不包括摘要,或者第一信息项包括的标题和/或摘要重复,或者第一信息项包括的标题或摘要中不包含搜索关键字,则确定该第一信息项是搜索坏点。其中,根据每条信息项的信息确定搜索结果页面中是否存在搜索坏点的功能也可以使用JavaScript进行定义,例如定义的batOverlay. js文件里面定义了各种针对搜索结果进行分析的函数,如函数 Bat. Iinkcheck(type)、Bat. is_equal O、Bat. piaohongO 等。例如,使用函数Bat. Iinkcheck(type)可以对搜索结果的信息项进行死链检查,其中,当参数type = all表示对搜索结果页面中的所有信息项进行死链检查,当参数type = top表示对搜索结果页面中的前三条信息项进行死链检查,当参数type = random表示对搜索结果 页面中随机的三条信息项进行死链检查。使用函数Bat. is_eqUal()可以判断搜索结果页面中是否存在标题或者摘要相同的信息项。使用函数Bat. piaohongO可以判断搜索结果页面中的飘红是否正常,标题和摘要中是否有无飘红的情况,即信息项中的标题或摘要中是否包含搜索关键字。使用函数Bat. title_abstract()可以检查搜索结果页面中信息项的标题摘要是否正确,例如调用该函数之后的一个输出结果为{A:10,A1 :{0,0,0},A2 :{0,1,0},…,AlO :{0,0,0}},表示共展现了 10条普通结果,其中第2条结果(A2:{0,1,0})的摘要标记为I,表不摘要有异常。步骤S305,将搜索坏点自动反馈给后台服务器。在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中可以通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中,其中,可以将上述功能封装起来,当判断存在搜索坏点时将搜索坏点自动反馈给后台服务器。步骤S306,提供用户能够主动向后台服务器反馈对搜索结果的意见的接口。在本发明的一个实施例中,通过使用HTTP请求向后台服务器进行反馈。例如,将判断存在搜索坏点的搜索结果以j son (JavaScript Object Notation,轻量级的数据交换格式)格式通过HTTP Service端口传递到后台服务器,HTTP Service端口提供一个write_db. php文件,该文件能够将POST传递的数据写入数据库中,在浏览器中,通过插件经由XmlHttpRequest请求该write_db. php对应的php页面将结果上传到数据库中。其中,可以将上述功能做成接口,当用户认为搜索结果效果不好时可以快捷反馈,通过简单的功能按钮例如右键菜单可以方便及时地反馈搜索坏点,做到一键式反馈。根据本发明实施例的用于优化浏览器的搜索结果页面的方法,通过提取搜索结果页面的结构信息及搜索结果页面中每条信息项的信息,再通过对搜索结果页面的结构信息分析及每条信息项所包括的死链、标题、摘要和搜索关键字进行检查判断,进而挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面该方法可以利用搜索引擎客户端的空闲资源进行搜索结果页面提取、分析、判断及反馈,节约资源,同时在用户使用搜索引擎时同步实现对搜索结果页面的分析,不需要单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。应当理解,本发明的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。例如,如果用硬件来实现,和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任何的一个或多个实施例或示例中以合适的方式结合。尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以 理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同限定。
权利要求
1.一种用于优化浏览器的搜索结果页面的装置,其特征在于,包括提取模块,所述提取模块用于提取所述搜索结果页面的结构信息或者所述搜索结果页 面中每条信息项的信息;判断模块,所述判断模块用于根据所述结构信息或所述每条信息项的信息判断所述搜 索结果页面中是否存在搜索坏点;以及自动反馈模块,所述自动反馈模块用于将所述搜索坏点自动反馈给后台服务器。
2.根据权利要求I所述的装置,其特征在于,进一步包括手动反馈模块,所述手动反馈模块提供接口从而用户能够使用所述接口来向后台服务 器反馈对搜索结果的意见。
3.根据权利要求I或2所述的装置,其特征在于,所述判断模块包括设置单元,所述设置单元用于根据搜索关键字设置搜索结果页面的结构信息的阈值; 比较单元,所述比较单元用于将所述结构信息与所述阈值比较;以及 确定单元,所述确定单元用于根据所述比较单元的比较结果或者根据所述每条信息项 的信息确定所述搜索结果页面中是否存在搜索坏点。
4.根据权利要求3所述的装置,其特征在于,所述结构信息包括所述搜索结果页面包 括的广告信息项的数目及位置和普通信息项的数目及位置。
5.根据权利要求3所述的装置,其特征在于,所述每条信息项的信息包括所述每条信 息项包括的链接、标题、摘要和搜索关键字。
6.根据权利要求5所述的装置,其特征在于,如果所述每条信息项中的第一信息项包 括的链接是无法打开的链接,或者所述第一信息项不包括摘要,或者所述第一信息项包括 的标题和/或摘要重复,或者所述第一信息项包括的标题或摘要中不包含搜索关键字,则 所述确定单元确定所述第一信息项是搜索坏点。
7.根据权利要求I或2所述的装置,其特征在于,所述自动反馈模块或所述手动反馈模 块通过使用HTTP请求向后台服务器进行反馈。
8.一种用于优化浏览器的搜索结果页面的方法,其特征在于,包括以下步骤提取所述搜索结果页面的结构信息或者所述搜索结果页面中每条信息项的信息; 根据所述结构信息或所述每条信息项的信息判断所述搜索结果页面中是否存在搜索坏点;以及将所述搜索坏点自动反馈给后台服务器。
9.根据权利要求8所述的方法,其特征在于,进一步包括步骤提供用户能够主动向后台服务器反馈对搜索结果的意见的接口。
10.根据权利要求8或9所述的方法,其特征在于,所述判断步骤包括根据搜索关键字设置搜索结果页面的结构信息的阈值;将所述结构信息与所述阈值比较;以及根据所述比较结果或者根据所述每条信息项的信息确定所述搜索结果页面中是否存 在搜索坏点。
11.根据权利要求10所述的方法,其特征在于,所述结构信息包括所述搜索结果页面 包括的广告信息项的数目及位置和普通信息项的数目及位置。
12.根据权利要求10所述的方法,其特征在于,所述每条信息项的信息包括所述每条信息项包括的链接、标题、摘要和搜索关键字。
13.根据权利要求12所述的方法,其特征在于,如果所述每条信息项中的第一信息项 包括的链接是无法打开的链接,或者所述第一信息项不包括摘要,或者所述第一信息项包 括的标题和/或摘要重复,或者所述第一信息项包括的标题或摘要中不包含搜索关键字, 则确定所述第一信息项是搜索坏点。
14.根据权利要求8或9所述的方法,其特征在于,通过使用HTTP请求向后台服务器进 行反馈。
全文摘要
本发明提出一种用于优化浏览器的搜索结果页面的装置及方法,其中该装置包括提取模块,用于提取搜索结果页面的结构信息或者搜索结果页面中每条信息项的信息;判断模块,用于根据结构信息或每条信息项的信息判断搜索结果页面中是否存在搜索坏点;以及自动反馈模块,用于将搜索坏点自动反馈给后台服务器。根据本发明实施例的装置,一方面可以挖掘出相关性或展现效果不好的搜索结果并反馈给后台服务器,便于改进搜索引擎算法;另一方面可以利用搜索引擎客户端的空闲资源进行搜索结果页面分析,节约资源,在用户使用搜索引擎时同步实现搜索结果页面分析,无需单独向搜索引擎发起分析请求,不会造成对搜索产品本身的压力,也不会对用户的使用产生影响。
文档编号G06F17/30GK102662957SQ201210054359
公开日2012年9月12日 申请日期2012年3月2日 优先权日2012年3月2日
发明者阮星华, 高亮 申请人:百度在线网络技术(北京)有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1