专利名称:一种互联网搜索方法
技术领域:
本发明涉及一种互联网搜索的方法,特别涉及一种模拟人类思维,充分考虑了世间万物之间的关系,词与词之间的关系,以及信息发生的环境,从而使搜索结果更准确,更全面,更人性化的互联网搜索方法。
背景技术:
互联网发展日新月异,网上信息爆炸性增长,搜索引擎成了人们从信息海洋中检索信息的最佳工具,Google、百度等搜索引擎成了其中出色代表。但是,这些搜索引擎都存在着以下一些突出的缺点 1、仅凭搜索关键词来检索信息,没有考虑词与词之间的关系,没有考虑信息发生的环境,从而搜索结果的准确率很低,存在着大量无效冗余信息。
2、没有考虑到信息之间的包容关系,搜索结果不全面。
3、没有充分考虑时间性,不能让客户在第一时间看到最新的信息。
4、没有对信息进行分类,从而不具有信息分类导航功能,不能让用户按信息层次来查询信息。
5、没有对信息进行分类,从而不具备用户自定义分类搜索能力,不能让用户自定义搜索首页,不能让用户一打开浏览器就能自己最感兴趣的信息。
6、搜索结果笼统,检索时没有考虑到搜索词所代表的信息主体的特性,从而不能让用户从信息主体的各个侧面来进行全面了解。
发明内容
本发明的目的是克服现有搜索方法搜索准确率低、存在着大量无效冗余信息、不全面、用户查询信息不方便的缺陷,提供一种更准确、更全面、无效信息更少、用户查询更方便的互联网搜索方法。
为了实现上述目的,本发明提供了一种互联网搜索方法,具体包括以下步骤 1)、对互联网信息进行树状分类,并在数据库中为分类树中的每一层分类建立关系表; 2)、为步骤1)得到的每个分类建立一个或多个关键词,并设定每个关键词的各项属性,从而建立关键词库; 3)、按信息的特性为信息建立栏目; 4)、对互联网上的站点进行分析,使网站中的网页与步骤1)中所得到的相应分类以及步骤3)中所得到的栏目进行关联,从而建立网页映射库; 5)、获取网页的内容,根据网页中每条信息的标题、内容及所处的环境,配合步骤2)得到的分类关键词库、步骤4)得到的网页映射库,确定每条信息的分类归属关系,栏目归属关系,发生时间以及所在地; 6)、把步骤5)得到的每一条搜索结果与结果数据库中现有的结果进行比较,若该结果是新的,则把它加入结果数据库; 7)、展示用户搜索的结果。
上述技术方案中,在所述的步骤1)中,在对所述的互联网信息进行树状分类时,范围最大的分类位于树的顶层,范围较小的分类处于范围较大分类的下一层,依次类推,分类树的最后一层为范围最小的分类。
上述技术方案中,在所述的步骤1)中,所述关系表包括分类的标识号、分类的名称、分类的地址和上层标识号,表与表之间通过标识号进行关联;所述的分类的地址为全局唯一。
上述技术方案中,在所述的步骤2)中,所述的关键词对应一个分类,关键词与分类间通过分类地址产生关联;所述的关键词的属性包括地名、别名。
上述技术方案中,在所述的步骤3)中,所述的栏目包括新闻、行情、评论、论坛、知识、音乐、影视、下载、报价、导购、供应、求购、二手、加工、招商、招标、词典、地图。
上述技术方案中,在所述的步骤7)中,当展示搜索的结果时,展示窗口分为左右两部分,左边部分用于导航页,右边部分作为用户搜索结果的结果展示页。
在所述的导航页上包括文本搜索框、分类导航目录、历史搜索记录下拉列表、自定义搜索下拉列表框和自定义首页;其中 所述的文本搜索框可使用户在文本框中键入搜索关键词直接进行搜索; 所述的分类导航目录包括至少二个平行的下拉列表框,每个下拉列表对应系统分类的一层,每个下拉列表前设置一个单选按钮,所述下拉列表按分类大小进行平行排列,每个下拉列表当前选定内容的改变都可引起下方下拉列表内容的改变,点击每层下拉列表前的单选按钮可设置当前从哪一层分类开始搜索及当前的搜索分类; 所述的历史搜索记录下拉列表记录用户的最近搜索分类; 所述的自定义搜索下拉列表框显示用户自定义的搜索分类; 所述的自定义首页功能,是把当前选定的分类名称或分类地址记录进用户端Cookie记录,并同时改写浏览器起始页地址,使用户一打开浏览器就看到自己最感兴趣的信息。
所述的结果展示页分为上下两部分,最上部分用来展示跟当前搜索相关的栏目列表,下方部分用来展示当前选定栏目的结果信息。
本发明的优点在于 1、与现有的搜索引擎相比,采用本发明的搜索方法使得搜索结果的准确率大大提高,冗余信息大大减少。
2、本发明的搜索方法所展示信息是逻辑的包容性信息,不再是仅仅包容关键字的信息,因此搜索结果更全面。
3、本发明的搜索方法可让用户从搜索分类的各个侧面进行了解,从而能让用户更深入地了解事物。
4、采用本发明搜索方法,用户可以选用分类导航栏目来查看结果,不必每一次搜索都要用键盘键入搜索关键字。
5、用户可以把自己感兴趣的分类进行预先自定义,从而方便了将来的搜索。
6、用户可以把自己最感兴趣的分类信息定义为首页,以后打开浏览器就能看到自己最感兴趣的内容。
7、本发明的互联网搜索方法的时间性更强,用户第一时间看到的是最新信息。
图1为实施例中树状分类的示意图; 图2为本发明的互联网搜索方法的流程图。
具体实施例方式 下面结合附图和具体实施方式
对本发明作进一步说明。
本发明的互联网搜索方法具体包括以下步骤 步骤10、对互联网信息进行树状分类,并在数据库中为分类树中的每一层分类建立关系表。互联网上的信息种类繁多、数量庞大,对信息的分类有助于实现对信息的管理,从而方便对信息做进一步的检索。本步骤包括子步骤11和子步骤12。
步骤11、根据行业的标准和用户的习惯,对互联网信息进行树状分类,范围最大的分类位于树的顶层,范围较小的分类处于范围较大分类的下一层,依次类推,分类树的最后一层为范围最小的分类。
在一个实施例中,可将分类树的第一层分为“行业”、“科技”、“政治”、“军事”、“社会”、“财经”、“娱乐”、“旅游”、“教育文化”、“求职招聘”等,然后对第一层中的各个分类进行进一步划分,如将“行业”进一步划分为“机械”、“化工”、“IT”等,将“军事”进一步划分为“海军”、“陆军”、“空军”等,而“机械”、“化工”等第二层的类也可以进行进一步的划分。
为了说明的方便,在本实施例中,对信息所分的分类进行简化,假设分类树的第一层只包含“行业”和“军事”两类,在“行业”中包括“机械”和“IT”,在“军事”中只包含有“海军”和“陆军”,而第二层的类“IT”进一步包含第三层类“硬件”和“软件”,第三层类“硬件”还包含有第四层类“CPU”。对上述信息所包含的分类进行树状分类后,分类后的树如图1所示。应当说明,在本实施例中第三层和第四层只包含了很少的类,这种处理只是为了说明的方便,一般情况下,类在树中所占据的层次越低,则所包含类的数目应该越多。
步骤12、在数据库中为分类建立关系表,每一个表对应一层分类,表与表之间应用ID号进行关联。在添加分类的过程中,系统为分类添加一个全局唯一的地址。
在本实施例中,如图1所示,信息分为三层,因此需要用四个表来表示。第一层的类如表1所示,第二层的类如表2所示,第三层的类如表3所示,第四层的类 如表4所示。图1中为每个分类标明了其分类的地址。
表1 表2 表3 表4 在上述表格中,每个表格都包含有四项属性,分别为ID、名称、地址和上层ID。其中的ID是由系统自动进行分配的,名称表示了各个分类的名称,地址是分类在添加时由系统自动生成的,该地址是全局唯一的。上层ID表示了当前分类与上层表中的哪一个分类相关联,在表1中,由于该表所表示的分类位于分类树的第一层,所以其上层ID这一项设为0。
步骤20、根据分类的信息,建立关键词库。根据信息分类,建立搜索关键词库,为每个分类建立一个或多个关键词,并设定每个关键词各项属性,从而使关键词与分类、关键词与关键词之间产生合理的逻辑关系。在建立关键词库的过程中,每个关键词在添加时都对应一个分类,关键词与分类间使用分类地址来产生关联。
在本实施例中,假设首先将关键词“IT”、“信息产业”添加到关键词库中,则添加后的项如表5所示。
表5 在上表中,关键词“IT”属于分类“IT”中,因此它的地址与表2中类IT的地址相同,而且关键词“IT”既不是地名,也不是类“IT”的别名,所以这两项都为假,用“0”来表示。关键词“信息产业”是关键词“IT”的中文译名,因此它也属于类“IT”中,它的地址与表2中类IT的地址相同。由于它是类“IT”的别名,所以属性别名为真,用“1”来表示。在实际使用中,关键词的属性不仅仅包含以上几种,还可以包括“人名”等,在本实施例中,为了说明的方便,不对其做进一步的说明。
步骤30、为信息建立栏目。根据互联网用户的习惯,还可以按照信息的特性来建立栏目。在一个实施例中,可建立如“新闻”、“行情”、“评论”、“论坛”、“知识”、“音乐”、“影视”、“下载”、“报价”、“导购”、“供应”、“求购”、“二手”、“加工”、“招商”、“招标”、“词典”、“地图”等栏目。所建立的栏目可以用一个表来表示,在表中,每添加一个栏目就可以自动产生一个ID号,利用该ID号可以在后续操作中对搜索结果进行栏目标识。
如表6所示,为本实施例中用于表示栏目的表。
表6 步骤40、建立网页映射库。
步骤41、建立一个网站数据表,维护人员把各个站点加入其中,表中包含域名和站点名等字段。
步骤42、维护人员分析各个网站,把相关的网页记录下来,并把它们与前述步骤中的分类与栏目进行关联。
在本实施例中,假如维护人员从一个论坛上找到一个关于IT信息的网页,则在数据库中对该网页的记录如下 表7 步骤50、获取网页的内容,根据网页中每条信息的标题、内容及所处的环境,配合分类关键词库、网页映射库,确定每条信息的分类归属关系,栏目归属关系,发生时间以及所在地等。比如,在该网页中寻找到以下条信息
标题为“供应XXXX”,则确定它属于“供应”这个栏目,使用栏目ID号11对其进行标识;
标题为“供应英特尔CPU”,则可以确定它是属于“CPU”这个分类,用分类地址1.1.1.1标识。如果标题的信息不足以准确判定它的归属,进一步分析内容。以分类地址对其进行标识。
开发识别地名子程序,从每条信息的内容中检索出信息所在地,如果没有,则把数据库中相应字段设置为空。假设“供应英特尔CPU”的信息来源于上海,则本条信息所在地就为上海。
开发识别时间子程序,从每条信息的内容中检索出时间。假设“供应英特尔CPU”的信息的发布时间为2006年4月1日,则检索出的时间即为2006年4月1日。
将网页中的每条信息做处理后,与结果数据库中现有的信息进行比较,若信息为新的信息,则把新的信息加入结果数据库。
将“供应英特尔CPU”这一条目信息以表8的形式添加到结果数据库中。
表8 步骤60、展示搜索的结果。
A.把展示窗口分为左右两部分,左边部分占窗口宽度的五分之一左右,用于导航页;右边部分作为用户搜索结果的展示页。
B.在导航页上依次建立以下搜索模块
建立文本搜索框,文本框后放一个搜索按钮。用户可以在文本框中键入搜索关键词进行搜索。
建立分类导航目录。设计几个平行的下拉列表框,每个列表框前加一个单选按钮。每个下拉列表对应系统分类的一层,这些下拉列表按分类大小进行平行排列,每个下拉列表当前选定内容的改变都可引起下方几个下拉列表内容的改变。点击每层下拉列表前的单选按钮来设置当前从哪一层分类开始搜索,及当前的搜索分类。
建立历史搜索记录下拉列表框。程序应用用户端Cookie记录来记录用户的后几次搜索,以后用户每次打开导航页时程序都会自动从用户端Cookie记录中读取相应记录加入下拉列表。
建立自定义搜索下拉列表框。开发自定义搜索网页,网页中设计多个文本框。用户可以在这些文本框中键入自己感兴趣的分类,程序把这些分类记入用户端Cookie记录。以后用户每次打开导航页程序都会自动从用户端Cookie记录读取相应记录加入该下拉列表。
建立自定义首页功能。在搜索文本框与分类导航目录下的提交按钮旁分别加一个“定义首页”链接按钮,用户点击该按钮后,程序自动把当前的分类信息记录进用户端Cookie记录,并同时改写浏览器起始页地址,将来用户一打开浏览器就可以看到自己最感兴趣的信息,从而为他带来了极大的便利。
C.把结果展示页分为上下两部分,最上部分用来展示跟当前搜索相关的栏目列表,下方部分用来展示当前选定栏目的结果信息。
用户提交搜索后,程序根据用户提交内容,配合语法,配合分类关键词库,确定用户的当前搜索与哪个分类相关,进一步分析在哪些栏目中存在与本次搜索相关的信息,把这些有结果的栏目依次排列,并在下方展示第一个栏目的内容。
用户可以选择不同的栏目来查看跟本次搜索相关的各个侧面的信息,因此本项功能让用户能从当前搜索的各个侧面来进行深入了解。
根据不同栏目的特点设计进一步搜索功能,比如对于“新闻”这样的栏目设计搜索文本框,用户可以键入搜索关键词对本栏目信息进一步搜索;对于“报价”这样的栏目,开发“价格范围”、“关键词”等文本框和“排序方式”下拉列表框,用户可以利用这些搜索选项来进一步搜索;对于“租赁”这样的栏目,开发地名下拉列表与关键词文本框,用户可以按地名与关键词进一步搜索。
权利要求
1、一种互联网搜索方法,包括以下步骤
1)、对互联网信息进行树状分类,并在数据库中为分类树中的每一层分类建立关系表;
2)、为步骤1)得到的每个分类建立一个或多个关键词,并设定每个关键词的各项属性,从而建立关键词库;
3)、按信息的特性为信息建立栏目;
4)、对互联网上的站点进行分析,使网站中的网页与步骤1)中所得到的相应分类以及步骤3)中所得到的栏目进行关联,从而建立网页映射库;
5)、获取网页的内容,根据网页中每条信息的标题、内容及所处的环境,配合步骤2)得到的分类关键词库、步骤4)得到的网页映射库,确定每条信息的分类归属关系,栏目归属关系,发生时间以及所在地;
6)、把步骤5)得到的每一条搜索结果与结果数据库中现有的结果进行比较,若该结果是新的,则把它加入结果数据库;
7)、展示用户搜索的结果。
2、根据权利要求1所述的互联网搜索方法,其特征在于,在所述的步骤1)中,在对所述的互联网信息进行树状分类时,范围最大的分类位于树的顶层,范围较小的分类处于范围较大分类的下一层,依次类推,分类树的最后一层为范围最小的分类。
3、根据权利要求1所述的互联网搜索方法,其特征在于,在所述的步骤1)中,所述关系表包括分类的标识号、分类的名称、分类的地址和上层标识号,表与表之间通过标识号进行关联;所述的分类的地址为全局唯一。
4、根据权利要求3所述的互联网搜索方法,其特征在于,在所述的步骤2)中,所述的关键词对应一个分类,关键词与分类间通过分类的地址产生关联;所述的关键词的属性包括地名、别名。
5、根据权利要求1所述的互联网搜索方法,其特征在于,在所述的步骤3)中,所述的栏目包括新闻、行情、评论、论坛、知识、音乐、影视、下载、报价、导购、供应、求购、二手、加工、招商、招标、词典、地图。
6、根据权利要求1所述的互联网搜索方法,其特征在于,在所述的步骤7)中,当展示搜索的结果时,展示窗口分为左右两部分,左边部分用于导航页,右边部分作为用户搜索结果的结果展示页。
7、根据权利要求6所述的互联网搜索方法,其特征在于,在所述的导航页上包括文本搜索框、分类导航目录、历史搜索记录下拉列表、自定义搜索下拉列表框和自定义首页;其中
所述的文本搜索框可使用户在文本框中键入搜索关键词直接进行搜索;
所述的分类导航目录包括至少二个平行的下拉列表框,每个下拉列表对应系统分类的一层,每个下拉列表前设置一个单选按钮,所述下拉列表按分类大小进行平行排列,每个下拉列表当前选定内容的改变都可引起下方下拉列表内容的改变,点击每层下拉列表前的单选按钮可设置当前从哪一层分类开始搜索及当前的搜索分类;
所述的历史搜索记录下拉列表记录用户的最近搜索分类;
所述的自定义搜索下拉列表框显示用户自定义的搜索分类;
所述的自定义首页功能,是把当前选定的分类名称或分类地址记录进用户端Cookie记录,并同时改写浏览器起始页地址,使用户一打开浏览器就看到自己最感兴趣的信息。
8、根据权利要求6所述的互联网搜索方法,其特征在于,所述的搜索结果展示页分为上下两部分,最上部分用来展示跟当前搜索相关的栏目列表,下方部分用来展示当前选定栏目的结果信息。
全文摘要
本发明公开了一种互联网搜索方法,包括对互联网信息进行树状分类,并在数据库中为分类树中的每一层分类建立关系表;为每个分类建立一个或多个关键词,并设定每个关键词的各项属性,建立关键词库;为信息建立栏目;对互联网上的站点进行分析,使网站中的网页与分类以及栏目进行关联,建立网页映射库;获取网页的内容,根据网页中每条信息的标题、内容及所处环境、分类关键词库、网页映射库,确定每条信息的分类归属,栏目归属,发生时间及所在地;把每一条搜索结果与结果数据库中现有的结果进行比较,若该结果是新的,则把它加入结果数据库;展示用户搜索的结果。本发明使得搜索结果更准确,更全面,更人性化。
文档编号G06F17/30GK1983255SQ20061001191
公开日2007年6月20日 申请日期2006年5月17日 优先权日2006年5月17日
发明者唐红春 申请人:唐红春