根据文件内容确定特征词并用于检索的方法

文档序号:6596793阅读:291来源:国知局
专利名称:根据文件内容确定特征词并用于检索的方法
技术领域
本技术属于计算机检索技术或搜索引擎技术。
背景技术
多年来,计算机数据库检索技术有了极大发展,特别是网络技术的进展,使得人们 可以共享的数据库的规模达到了天文数字。这也给人们查找所需信息带来了很大困难。
以查询词搜索为核心的搜索引擎技术为用户带来了便利。该系统可以通过客户机 上的交互界面以及通讯网络得到查询者的关键词查询请求,在文本索引库或文本库中进行 查询,并进行关键词请求与文本的相关性分析,得到相关结果并排序,再经由通讯网络或线 路提供到交互界面。这种搜索系统使用起来十分便利迅速,但返还结果包含的索引总数仍 然十分庞大,难于逐一查阅。 第6, 285, 999号美国专利提出了基于网页超级链接结构,能将潜在的对查询者最 有价值的查询结果尽量排在前面以方便查询(佩奇链接)的技术,超过了其他排序技术,获 得空前成功。然而,该技术以及其他各种排序技术,仅仅是在统计学意义上提高了关键词搜 索的效率,并不能保证每个人希望的查询结果都能排在庞大索引表的前面。我们在读到期 望的信息之前,却无奈地读到种种主要内容一再重复的无关信息。 为了解决该问题,人们还求助于垂直分类技术和以该技术为基础的目录检索系 统。为了给海量信息分类或确定特征,出现了各种计算机文本分类方法。然而,由机器判断 某一网页或文件属于哪一条特征或类别是十分困难的,其可靠性和准确率不高,特别是在 多级分类中,错误率高得令人无法忍受。因此,计算机分类仅仅用于最简单的粗略分类,例
如根据若干组词出现的频度或格式特征,判定网上文件是"网页"还是"地图"或是"MP3"等等。 目前,准确率较高的垂直分类技术还离不开人工参与。例如20世纪90年代雅虎 等网站的人工信息分类系统,只能承担极少一部分网上信息的分类加工。其它如"百度百 科"、"维基百科"、"淘宝网"、"阿里巴巴"的各种数量十分有限的专业分类信息,都是通过各 自专门的数据库平台,由注册会员或注册用户或网站工作人员针对特定范围的词条,按照 特殊的编写规则汇集而成的,其中包含的附带分类内容也只能是针对本数据库的少量词条 或文本的,范围很小。可以说,对于非特定网上数据库内容的广大用户来说,在搜索时得到 的帮助十分有限。 因此,国内外广大网民迫切需要一种新技术,使得计算机系统或搜索引擎系统不 仅能向查询者提供亿万文件的题录信息,还能严格准确地判定文件作者认可的各种文件的 特征或类别,得到各种不同特征词或类别词的文件索引或其题录索引,并按查询者的查询 要求和对文件特征或类别的要求,提供准确率和集中度大为改善的搜索结果。

发明内容
本发明的目的在于提供一种适于计算机系统(包括计算机检索系统或搜索引擎系统)使用的方法,使其能在不同网站来源的大量相关文件的内容中寻找隐含的特征词信
息,为各个文件确定特征词,并对相关信息进行处理,以便产生便于用户利用的包含不同特
征词或分类结果的资料或检索工具,大大提高检索或搜索的效率。 本发明为一种计算机执行的多个文件的处理方法,包括以下操作 操作A:获得多个文件; 操作B :确定(或规定或选择) 一种或者多种字符或字符组合作为特征词内容标 记; 操作C :核查各个文件的内容里面所含有的所述特征词内容标记的位置;将每个 文件所含有的特征词内容标记在规定方向邻接的(邻接的可以是指最接近的)一个或多个 字词,作为该文件或其题录对应的一个或多个特征词。 所述的计算机可以是独立系统,也可以是计算机检索系统或搜索引擎系统,或其 组成部分。 所述文件可以是电子文件(包括非电子形式转化而来的电子文件)或网页或者网 页的部分内容或者是检索系统或其它计算机系统存储或转存内容(如网页快照),可以包 含文字内容,也可以包含图象内容或音频内容或视频内容。 所述方法所述文件可以带有特征词内容的图形文件或音频文件或视频文件。 所述题录可以是文件的标题或摘要或标题加摘要,可以包含图象内容或音频内容
或视频内容。 所述特征词可以为文件作者或提供者或编辑者在文件内容中在特征词内容标记 附近所撰写或输入或编辑的一个或多个字词或词组;所述字词或词组应该可以反映相应题 录或文件内容特点,可以作为对相应题录或文件进行识别、编目或编制索引或进行检索的 依据或进行编辑或处理的依据。所述特征词的字词或词组可以含有字符或符号或音符或图 形。 需要时,特征词可以含有反映音频或视频文件的音调或曲调的简短乐谱或乐谱片 段或多个音符。 所述的特征词可以是反映相对应题录或文件内容特点的关键词,该关键词也可以 是在相对应题录或文件中出现的词。 所述的特征词可以是反映相对应题录或文件内容类别的类别词,或是反映它们在 多级分类系统中不同级别类别的类别词。 所述的特征词可以是反映相对应题录或文件或内容风格或其它特点的词。 所述方法得到的各个不同文件或其题录与特征词对应关系的信息可以称作特征
词数据。 本发明的处理方法可以包括计算机或检索系统在向终端用户(可以是查询者)
提供的信息中,可以直接或间接利用所述处理方法得到的特征词数据。换句话说,可以向终
端用户(可以是查询者)提供利用了所述处理方法得到的特征词数据的信息。 —般可以认为,一个题录的特征词与该题录所属的文件的特征词相同。 我们可以将某文件或其题录对应的特征词,或者称为属于该文件或其题录的特征
词,或者称为该文件或其题录具有的特征词,或者称为该文件或其题录的特征词。 在以上所述处理方法中,允许同一文件或其题录可以同时具有多个不同的类别词, 一种特征词可以同时属于多个不同文件或其题录。 或者说,一个文件可以具有一个或多个特征词,多个文件可以具有或不具有相同 的一个或多个特征词。 所述的特征词内容标记可以是位于一个或多个特征词前面的前置标记。 所述的特征词内容标记可以是位于一个或多个特征词后面的后置标记。 所述的特征词内容标记可以是前置标记与后置标记的组合标记。 所述的特征词内容标记可以是关键词标记。该种标记提示附近的特征词是关键词。 所述的特征词内容标记可以是类别词标记。该种标记提示附近的特征词是类别 词。 所述的特征词内容标记可以包含将多个不同的特征词或关键词或类别词分隔开 的分隔标记。 所述的特征词内容标记可以包含提示特征词或类别词或关键词在相关分类系统 或分级系统中所在分类级别的标记。 本处理方法还可以包括操作D :以下列方式之一利用所述操作C的结果或数据 方式D1 :令相关特征词与原文件或其题录或其地址或其代码相对应。
方式D2 :形成包含与各个文件对应的在原文件外部的特征词信息的资料或数据
或数据库。 方式D3 :在各个文件或其题录原来的内容之外为它们分别附加其对应的特征词 或特征词标签。
方式D4 :按照其具有的特征词的异同,建立多个文件的分类数据库。
方式D5 :按照其具有的特征词的异同,建立多个文件的特征词索引。
方式D6 :按照其具有的特征词的异同,建立多个文件题录的特征词索引。 所述文件的特征词索引可以是指,利用该索引可以根据选择的任一特征词去检索
或访问或链接对应于该特征词的文件或其题录或其地址或其相关信息。 所述文件题录的特征词索引可以是指,利用该索引可以根据选择的任一特征词去 检索或访问或链接对应于该特征词的文件题录或其地址或其相关信息。 需要时,还可以建立多个文件的同根特征词索引或多个文件题录的同根特征词索 引。所谓多个文件的或题录的同根特征词索引是指,利用该索引可以根据选择的任一特征 词去检索或访问或链接对应于该特征词及以该特征词的同根词为特征词的文件或其题录 或其地址或其相关信息。这种索引对西文文件检索十分重要。
方式D7 :按照其具有的类别词的异同,建立多个文件或题录的分类索引。 所述分类索引可以是指,利用该索引可以根据选择的任一类别词去检索或访问或
链接对应于该类别词的文件或其题录或其地址或其相关信息或它们的序列。
方式D8 :根据多个文件的不同级别的特征词或类别词或关键词的异同,建立或是
向用户终端提供特征词或类别词或关键词的目录或多级目录。 方式D9 :利用上述方式的数据或数据库,或者利用上述方式的特征词索引或分类 索引或特征词目录,得到或向用户终端提供符合所需特征词或类别词要求的检索或搜索结 果。
本发明的处理方法,还可以包括计算机或检索系统在向终端用户提供的信息中, 可以直接或间接利用所述操作C或者操作D中部分或全部方式得到的结果或数据。该结果 或数据可以包括所需的题录或题录序列或目录或树状目录或者文件或题录的特征词信息。
本发明的处理方法,还可以包括在接受查询时,检索系统利用所述特征词索引或 分类索引,得到或向用户提供既符合用户所需特征词要求又符合原查询词要求的检索或搜 索结果。该结果可以包括文件或题录或题录序列或目录。
本发明的处理方法,还可以包括 操作E :计算机检索系统在提供搜索服务时,根据网络查询用户提出的查询要求, 向用户终端提供的多个文件的题录的序列;在所述的题录序列部分或全部各个题录附近, 可以分别具有该题录或其所属文件所属的一个或多个特征词的提示。
所述特征词提示可以是该特征词或者是包含该特征词的提示。 本方法允许根据终端用户的操作,增加或减少或替换所述题录附近所显示的的特 征词提示。 所述的特征词提示可以是反映相对应题录或文件内容特点的关键词的提示,也可 以是在相对应题录或文件中出现的关键词的提示。需要时,允许关键词的提示出现在操作E 所述题录的字里行间,例如可以令作为关键词的提示的关键词具有特定的字体或颜色或者 带有特定的符号,以区别于题录中的其它字词。
所述的特征词提示也可以是类别词提示,可以是单级或多级分类系统的类别提 示。
本发明的处理方法,还可以包括操作F : 可以令操作E所述的题录附近的各个特征词提示,分别可以与另外多个文件题录
的序列链接;所述链接的另外多个文件题录的序列中的部分或全部题录或者题录所属的文
件,至少各有一个所属的特征词,与该序列链接的原来的特征词提示中的特征词相同。 需要时,可以要求操作F所述链接的另外多个文件题录的序列中的部分或全部题
录或者题录所属的文件,还要符合操作E所述用户原来提出的查询要求。 本发明的处理方法,还可以包括操作G:在计算机检索系统根据网络查询用户提
出的查询要求向用户终端提供的多个文件题录序列附近,具有多个特征词提示组成的导航
目录,各个特征词提示可以分别与各个不同的包含多个文件题录的序列链接,所述链接的
另外多个文件题录的序列中的部分或全部题录或者题录所属的文件,至少各有一个所属的
特征词,与该序列链接的原来的特征词提示中的特征词相同。 需要时,可以要求操作G所述链接的另外多个文件题录的序列中的部分或全部题 录或者题录所属的文件,还要符合所述查询用户原来提出的查询要求。 所述导航目录的特征词提示可以是反映相对应题录或文件内容特点的关键词的
提示,也可以是在相对应题录或文件中出现的关键词的提示,也可以是类别词提示。 所述的导航目录可以是一级目录或多级目录。可以允许该目录的上一级特征词或
类别词选择确定后再自动显示下一级待选的多个特征词或多个类别词提示。 本方法允许根据终端用户的操作,增加或减少或替换该目录所显示的特征词提示
或类别词提示或关键词提示。 本方法还允许在提供操作F和操作G所链接或展示的题录附近或题录序列附近,具有特征词提示或导航目录,以链接或供点击展示更新的题录序列结果。 本发明的处理方法,为海量网页或题录的特征词确定问题,提供了一种可能的解
决手段。任何文件或网页的作者或提供者,可以预先在文件(包括纸面文件或电子文件)
或网页里写入应有的或约定俗成的或规定的特征词内容标记以及适当的特征词或关键词
或类别词。由于具有多个准确的特征词的网页更容易被优先搜索到,这样,对于有价值的网
页,相关的内行人士会有足够的动力事先主动在其内容中(例如在文章的末尾)按照本方
法安排特征词。利用本发明的方法,计算机系统可以迅速准确地确定所汇集的各个文件的
特征词。在此基础上,数据库或检索系统或搜索引擎系统可以建立更优质的分类数据库或
索引系统,可以为相当比例的已分类文件或网页提供高质量的与特征词相关的检索服务,
例如多级分类检索服务,使人们在查询时可以得到高度集中或高度浓縮的搜索结果,大大
提高广大网民网上搜索的效率,解决多年困扰网民的难题,因而本技术具有突出的实用价
值和效果。


图1为本发明的实施例的一种适用环境示意图。 图2为本发明的实施例的文件中几种特征词内容标记的说明示意图。其中,文件 内容的各种文字都用X来表示。 图3为本发明的一个实施例的用户查询搜索结果的题录序列页面的题录附带的 其所属文件的对应特征词提示(关键词提示)和导航目录的示意图。 图4为本发明的另外一个实施例的用户查询搜索结果的题录序列页面的题录附 带的所属文件的特征词提示(多级类别词提示)和导航目录的示意图。
图5为本发明的一个实施例的实现方法的流程示意框图。
具体的实施方式 以下结合

具体的实施方法。 在图1中,101为计算机系统,搜索引擎系统102为计算机检索系统102的一种专 门类型。它们通过互联网103与用户终端104联系(参见图1)。 在图2的实施例中,201为特征词内容标记,202为特征词,203为文件,204为分隔 标记,205为后置标记,206为一级类别词标记,207为二级类别词标记,208为三级类别词标 记。 在图3、图4的实施例中,301为输入查询词的查询栏,302为题录,305为鼠标装置 操作的光标,306为特征词提示(关键词提示),307为选定操作标示,308为增项操作标示, 309为导航目录;401为特征词提示(类别词提示)。 本发明的处理方法,需要计算机(可以是计算机系统或数据库或查询系统或搜索 引擎系统)进行以下操作 操作A,获得多个文件(图5流程501)。这些文件可以是电子文件(包括非电子 形式转化而来的电子文件)或网页或者网页的部分内容或者是检索系统或其它计算机系 统转存内容(如网页快照),可以包含文字内容,也可以包含图象内容或音频内容或视频内 容。 计算机还需要进行操作B,确定(规定或选择) 一种或者多种字符或字符组合作为特征词内容标记201 (流程502)。所谓特征词内容标记是用来提示附近字符内容为特
征词的标记。该标记可以是人们在纸面或电子文件约定成俗的或习惯的文字,例如"关键
词:"(图2(a)的201),或者规定的字符组例如"==="(图2(b)的201)。 下面还要进行操作C(流程503),核查各个文件的内容里面所含有的所述特征词
内容标记的位置(流程503),并且将每个文件所含有的特征词内容标记在规定方向邻接的
一个或多个字词,作为该文件或其题录对应的一个或多个特征词(流程504)。 所述邻接可以是指特征词内容标记与所述一个或多个特征词之间除了空格以外
没有其它文字。 需要时,本方法还可以要求,某个或某些字词要作为某个文件或其题录对应的特 征词,不仅要在规定方向与特征词内容标记邻接,而且该特征词内容标记或该字词在该文 件或其题录内容中应该满足规定的格式。例如,可以规定,特征词内容标记的第一个字符应 该位于行首才有效。 这里,所述特征词可以为文件作者或提供者或编辑者在文件内容中所撰写或输入 的认为可以反映相应题录或文件内容特点的一个或多个字词或词组,作为对相关文件进行 识别、编辑、编目、建立索引等处理工作的依据。所述字词可以是字符或符号或音符或图形。 特征词可以是反映相对应题录或文件内容特点的关键词,例如我们通常在学术论文开头摘 要后面列出的关键词(图2(a)的202)。也可以是在相对应题录或文件中出现过的比较重 要的词或关键词,例如同时属于重点词库的词。特征词可以是反映相对应文件内容类别的 类别词,或是反映其在多级分类系统中不同级别类别的类别词。例如一篇关于超导材料的 论文的特征词或类别词可能选择"学术","理工","物理",分别表示该论文在一级分类、二 级分类、三级分类中的类别。 显然,本方法的实施需要文件作者或提供者有意或无意的配合。也就是需要他
们在任何时间在文件内容的某处,写入某种特征词内容标记,并在旁边写入适当的特征词
(例如作者认为适当的关键词或类别词或其它类型的相关词)。这样,无论以何种方式得到
的这些文件,在使用本方法的计算机或数据库或搜索引擎中可以方便地根据特征词查找这
些文件,以利于这些文件的传播。因此,本方法将会得到作者热情的配合。 可以看出,本发明的方法,对作者或提供者的要求十分简单,甚至不一定需要登陆
网站或规定的系统,不需要填写规定的表格,不需要复杂的操作或模式,具有特殊的优越性。 对于图形或视频或音频文件来说,本方法意义更为重大。因为图形文件和视频文 件以及音频文件的计算机分类技术一直陷于困境,其分类的准确性极低,令人无法忍受。在 作者或提供者标注特征词的配合下,可以利用本方法可以对这些文件精确分类或确定其特 征词,彻底解决这一问题。 所述的特征词内容标记可以是位于一个或多个特征词(202)前面的前置标记 (201)。也可以是位于一个或多个特征词(202)后面的后置标记(205)。可以规定,前置标 记后面直到一定数量空格之前的内容,或者后置标记前面直到一定数量的空格之后的内容 为相应的特征词。 所述的特征词内容标记也可以是前置标记与后置标记的组合标记(参见图2的 (a)和(b))。 一般情况下,只要间距不是过大或者说不超过规定值,前置标记与后置标记之
9间的内容就是特征词。 前置标记与后置标记的组合标记的方法十分重要,可以使特征词内容无论在文件
的什么位置,都可以被计算机系统准确地识别和处理,很难发生错误。 如果文件的对应特征词有多个,可以用分隔标记(204)把他们分隔开。 特征词内容标记可以是关键词标记,可以专门规定有别于一般特征词内容标记的
关键词标记,例如"==K:"。 特征词内容标记也可以是类别词标记,也可以专门规定有别于一般特征词内容标 记的关键词标记,例如"===:"。所述的特征词内容标记可以包含提示特征词或类别词 或关键词在相关分类系统中所在级别的标记。例如"V,(图2(b)的206) 、"W"(图2(b)的 207) 、"\\\"(图2(b)的208)分别表示其后面的类别词各属于一级或二级或三级分类。当 然,也可以约定,利用类别词标记后面的罗马数字或其它数字直接标示类别词的分类级别。
利用识别类别词标记或级别标记的方法可以使文件分类的计算机处理技术变得 既简捷又精确,得到突破性进步。 —般可以认为,一个题录的特征词与该题录所属的文件的特征词相同。所述题录 可以是文件的标题或摘要或标题加摘要,可以包含图象内容或音频内容或视频内容。
确定文件或其题录对应的一个或多个特征词(流程504)时,还应该对相关特征词 进行记录,形成关于各个文件的特征词数据或特征词索引或特征词目录(流程505)。
具体作法可以考虑以下方式 令相关特征词与原文件或其题录或其地址或其代码相对应,例如以列表方式存储 相关特征词数据; 形成包含各个文件对应的在原文件外部的特征词信息的资料或数据库; 在各个文件或其题录原来的内容之外为它们分别附加其对应的特征词或特征词
标签; 需要时,这种标签可以是附加在原来文件上的后缀或前缀。
按照其具有的特征词的异同,建立多个文件的分类数据库;
按照其具有的特征词的异同,建立多个文件的特征词索引; 所述特征词索引可以是指,利用该索引可以根据选择的任一特征词去检索或访问
或链接对应于该特征词的文件或其题录或其地址或其相关信息。 按照其具有的类别词的异同,建立多个文件题录的分类索引; 这样,在需要时,可以根据特定的特征词直接得到对应该特征词的文件的题录序 列或文件目录。 根据多个文件的不同级别的特征词或类别词或关键词的异同,建立或是向用户终 端提供特征词或类别词或关键词的目录或多级目录;可以令这些目录或多级目录中的条目 也就是相应的特征词(或类别词或关键词)与具有该特征词(或该类别词或该关键词)的 文件或题录链接。 自然,本方法的目的是利用所述数据或数据库,或者利用所述特征词索引或分类 索引或特征词目录,在接受查询时,向用户终端提供符合所需特征词或类别词要求的检索 或搜索结果。该结果可以包括具有该特征词(或该类别词或该关键词)的文件或题录或题 录序列或目录或树状目录。
在利用根据本方法得到的各种文件或其题录对应的特征词数据或索引或目录时, 或者在进行本方法的各种操作的过程中,可能需要在不同的计算机或系统或数据库或搜索 引擎之间甚至在不同法人的设备之间转移相关特征词数据,这种数据转移可以利用通讯线 路或网络或可移动存储媒介或可移动设备,但仍然属于利用了本发明的方法。
本发明的处理方法,还可以包括在接受查询时,检索系统利用所述特征词索引或 分类索引以及计算机检索系统处理终端用户提出的查询要求时所利用的查询词索引或关 键词索引,得到或提供既符合所需特征词要求又符合所需查询要求的检索或搜索结果。该 结果可以包括题录或题录序列(流程506)或目录。
本方法还可以包括 计算机检索系统根据网络查询用户提出的查询要求,向用户终端提供的多个文件 的题录序列;在所述的题录序列部分或全部各个题录附近,可以分别具有该题录或其所属 文件所属的特征词提示(306或401)(流程506)。 所述特征词也可以是与该题录或其所属文件相关的关键词提示306 (图3)。
各个题录或其所属文件所属的特征词提示可以是单级或多级类别提示401(参见 图4)。 所谓所属的多级类别词提示,就是显示适合于该题录或其所属文件的多个分别属
于不同级别分类的类别词或类别名称或类别条目或者代表类别的符号或图形键。 显然,所谓所属的多级类别词提示的各个类别词,无论类别大小或高低,都是该题
录或其所属文件所属类别词(该题录或其所属文件具有的类别词)。这样比起显示一般的
树状目录或泛泛的导航目录来说,不仅大大减少了占用空间,还对相关题录具有直接针对
性或可类比性或提示性。 例如,某一文件或题录属于"学知"这一大类类别词中的下一级子类类别词"学术" 里面的"物理"这一更下一级子类类别词,那么,在该题录的附近例如将出现"学知;学术; 物理"的字样401,作为该题录的多级类别词提示。 所述与该题录或其所属文件相关的关键词提示306,可以是或不是指原来的查询 关键词,需要时可以是能反映该题录或其所属文件区别于原序列许多其它题录的特点或内 容的意义重大的关键词。 实现在题录附近增加或显示该题录或其所属文件所属的多级特征词或关键词或 类别词提示(流程506),可以有多种方法。 一种是利用该题录附带的其所属文件的地址或 网址访问该文件,进而获得该文件的特征词或关键词或类别词信息(利用流程504或流程 505的结果),再添加到原题录附近。另一种方法是在生成带有自身特征词信息文件的关键 词或查询词倒排题录索引时,直接令各个题录附带原文件的多个特征词或关键词或类别词 信息,与各个题录一起显示。或者利用其它方法。 我们可以令所述的题录附近的特征词提示,分别可以与另外多个文件题录的序列 链接508 ;所述链接的另外多个文件题录的序列中的部分或全部题录或者其所属的文件, 其特征词(或关键词或类别词)与该序列链接的原来的提示的特征词(或关键词或类别 词)相同,并且可以符合或不符合原来用户提出的查询要求。 例如需要时,搜索用户在点击供选择的多个提示中的某个特征词提示时,就会得 到新的属于该特征词的并且符合原来用户提出的查询要求的文件题录序列(流程508),这样可以大大縮小或自由调控搜索范围,得到查询结果及所需文件。 如果搜索用户希望得到同时满足多个特征词(例如多个关键词)要求的结果或题 录序列,那么他可以点击原题录附近的特征词提示之中的多个。为了避免误操作,可以在特 征词附近设置"选定"操作标示307(图3)或图形键,点击该标示或该键,将链接到符合此 前刚刚点击的一个或多个特征词标示的结果或题录序列。 如果用户希望题录附近显示更多的特征词提示,也可以点击在附近设置的增项操 作标示308 (图3)会图形键。 显然,在所述得到的新的符合该特征词的文件题录序列中的题录附近,也可以同 时具有该题录或其所属文件所属的多个不同特征词或类别词提示或关键词提示;也可以令 其中题录所属文件所属的多个不同特征词提示或类级别词提示或者关键词提示,分别与另 外的与这些提示相关的多个文件题录的序列链接。并可以依此类推。 在已有检索技术中有时也会提供在特定的范围内的多级分类目录(如专利文献 国际分类目录),但是非专业的普通用户往往不能准确把握每个类别词的含意或确切覆盖 范围,常常错误地选择类别,严重影响了检索速度。 有些搜索引擎系统在搜索结果的题录末尾提供"类似网页"或"相同网站"之类的 提示或链接,但得到的结果过于笼统或杂乱,用处十分有限。 而本发明的在查询时提供的题录附近同时显示的多级特征词提示的方法,会为查 询者带来极大便利。用户看到有兴趣的题录时,如果希望得到与原题录大类(较高级类别) 相同的题录序列,可以点击提示中较高级的特征词或类别词(例如前述的"学知");如果希 望得到与原题录细类(较低级类别)相同的题录序列,可以直接点击提示中较低级的特征 词(例如前述的"物理")。这样,可以同时保持查询者点击选择的准确性和灵活性,大大提 高了查询的效率,并改善了用户的查询体验。 本发明所述类别词提示或关键词提示与新的题录序列的链接(流程508),可以是
直接链接或者间接链接。 所述提示可以首先链接到在原查询的基础上增加了提示中特征词或相应类别词 或关键词的查询搜索,从而得到所需的题录序列。 所述提示也可以首先链接到在原查询的搜索题录序列结果基础上进一步所作的 以提示中的特征词或相应类别词或关键词为查询逻辑要求的查询搜索,从而得到所需的题 录序列。 需要时,也可以将原查询结果序列中未出现在所述新的题录序列的题录,安排在 所述新的题录序列的后面或者适当后移。 需要时可以安排在计算机检索系统根据网络查询用户提出的查询要求向用户终 端提供的题录序列附近,具有多个提示组成的导航目录(流程507),各个特征词提示可以 分别与各个不同的包含多个文件题录的序列链接。也就是说,如果用户在搜索时点击该目 录中的某一特征词(也可以安排需要再点击一下"搜索"或"确认"或其它名称的操作键), 就会得到新的符合该特征词的文件题录序列(流程508),该序列中的题录所属的文件的特 征词,与该序列链接的原来的提示中(被点击的)的特征词相同,并且可以仍然符合或不符 合原来用户提出的查询要求。 所述的导航目录也可以是一级目录或多级目录。可以允许该目录的上一级类别选择确定前或确定后自动显示下一级待选类别。 所述的导航目录的特征词提示可以是类别词提示也可以是关键词提示。 所述导航目录的特征词提示与新的题录序列的链接,可以是直接链接或者间接链
接。所述提示可以首先链接到在原查询词的基础上增加了提示中关键词提示要求的查询搜
索,从而得到所需的题录序列。所述提示也可以首先链接到在原查询要求的搜索题录序列
结果基础上进一步所作的以提示中特征词为查询逻辑要求的查询搜索,从而得到所需的新
的题录序列。需要时,也可以将原查询结果序列中,未出现在所述新的题录序列的题录,安
排在所述新的题录序列的后面或适当后移。需要时,可在流程508的题录序列上重复流程
506或507,令其具有相应的特征词提示或导航目录,以链接或供点击展现更新的题录序列结果。 搜索完毕后,搜索者可以返回(流程508),重新开始操作。 以上内容为本发明方法的示例性说明,不得以此来限制本发明的权利范围。
权利要求
一种计算机执行的多个文件的处理方法,包括以下操作操作A获得多个文件;操作B确定一种或者多种字符或字符组合作为特征词内容标记;操作C核查各个文件的内容里面所含有的所述特征词内容标记的位置;将每个文件所含有的特征词内容标记在规定方向邻接的一个或多个字词,作为该文件或其题录对应的一个或多个特征词。
2. 按照权利要求1所述的处理方法,包括计算机或检索系统在向终端用户提供的信 息中,直接或间接利用所述处理方法得到的结果。
3. 按照权利要求1所述的处理方法,包括操作D :以下列方式之一利用所述操作C的结果方式Dl :令相关特征词与原文件或其题录或其地址或其代码相对应; 方式D2 :形成包含与各个文件对应的在原文件外部的特征词信息的数据或数据库; 方式D3 :在各个文件或其题录原来的内容之外为它们分别附加其对应的特征词或特 征词标签;方式D4 :按照其具有的特征词的异同,建立多个文件的分类数据库;方式D5 :按照其具有的特征词的异同,建立多个文件的特征词索引;方式D6 :按照其具有的特征词的异同,建立多个文件题录的特征词索引;方式D7 :按照其具有的类别词的异同,建立多个文件或题录的分类索引;方式D8 :根据多个文件的不同级别的特征词或类别词或关键词的异同,建立或是向用户终端提供特征词或类别词或关键词的目录或多级目录;方式D9 :利用上述方式的数据或数据库,或者利用上述方式的特征词索引或分类索引或特征词目录,得到或向用户终端提供符合所需特征词或类别词要求的检索结果。
4. 按照权利要求1所述的处理方法,包括计算机或检索系统在向终端用户提供的信 息中,直接或间接利用所述操作C或者操作D中部分或全部方式得到的结果。
5. 按照权利要求l所述的处理方法,其中所述的特征词是反映相对应题录或文件内 容特点的关键词。
6. 按照权利要求1所述的处理方法,其中所述的特征词是在相对应题录或文件中出 现的字词。
7. 按照权利要求l所述的处理方法,其中所述的特征词是反映相对应题录或文件内 容类别的类别词。
8. 按照权利要求1所述的处理方法,包括操作E :计算机检索系统在提供搜索服务时, 根据网络查询用户提出的查询要求,向用户终端提供的多个文件的题录的序列;在所述的 题录序列部分或全部各个题录附近,分别具有该题录或其所属文件所属的一个或多个特征 词的提示。
9. 按照权利要求1所述的处理方法,包括操作F :令操作E所述的题录附近的各个特 征词提示,分别与另外多个文件题录的序列链接;所述链接的另外多个文件题录的序列中 的部分或全部题录或者题录所属的文件,至少各有一个所属的特征词,与该序列链接的原 来的特征词提示中的特征词相同。
10. 按照权利要求1所述的处理方法,包括操作G :在计算机检索系统根据网络查询用户提出的查询要求向用户终端提供的多个文件题录序列附近,具有多个特征词提示组成的 导航目录,各个特征词提示可以分别与各个不同的包含多个文件题录的序列链接,所述链 接的另外多个文件题录的序列中的部分或全部题录或者题录所属的文件,至少各有一个所 属的特征词,与该序列链接的原来的特征词提示中的特征词相同。
全文摘要
一种计算机执行的多个文件的处理方法,包括,操作A获得多个文件;操作B确定一种或者多种字符或字符组合作为特征词内容标记;操作C核查各个文件的内容里面所含有的所述特征词内容标记的位置,将每个文件所含有的特征词内容标记在规定方向邻接的一个或多个字词,作为该文件或其题录对应的一个或多个特征词。利用本发明的方法,计算机系统可以迅速准确地确定汇集到计算机的符合一定标示要求的各个文件的特征词。在此基础上,数据库或搜索引擎系统可以建立更优质的分类数据库或索引系统,可以为分类文件或网页提供高质量的与特征词相关的检索服务,使人们在查询时可以得到高度集中或高度浓缩的搜索结果,大大提高查询者或广大网民搜索的效率,解决多年困扰网民的难题。
文档编号G06F17/30GK101763424SQ20101000118
公开日2010年6月30日 申请日期2010年1月15日 优先权日2009年12月14日
发明者刘二中 申请人:刘二中
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1