专利名称:在网站和类似信息源中导航的制作方法
技术领域:
本发明涉及一种定位和导航到万维网上诸如网站或类似信息源之类的信息组内所包含的信息的改进系统和方法。本发明还涉及一种产生容易地对这样的信息进行导航的交互指南的系统和方法。
背景技术:
高级主管和研究员经常难以在公司组织结构内详细地获得与什么事务正在进行有关的精确信息。然而,公司网站越来越包含大量的信息,例如关于公司的产品、人员和组织结构的信息。如果很快地进行对该信息的轻松访问,则可以提供有价值的资源。然而,当前,由于当前网站位置和浏览技术的低效,和识别大量可用信息中的重要主题的困难,难以定位相关网站和找到信息。
当前可以使用各种搜索和浏览技术来在网站中进行定位和导航。这些技术中的第一种技术是传统的搜索引擎。这可以识别包含了在搜索引擎框中输入的特定词或短语的网页。该技术依赖于搜索者知道在网站上使用的准确的词或短语以识别特定主题。尽管该搜索方法对于产品名称之类的硬信息(hard information)可能非常有效,但是当搜索更为抽象的概念且在可以使用不同的词和短语来描述相同或相关信息的情况下,其不太有效。例如,如果所有的所需信息都处于包含词“教师”的网页上,则在搜索引擎或网站上对词“教师”的搜索可能是有效的。然而,如果在另一网页上存在不包括词“教师”的相关信息,例如“教育”、“学校”、“孩子”和“教室”,则通过仅针对关键词“教师”的搜索引擎搜索将无法对此进行定位。当查找特定类型的业务时(例如,当定位潜在的联合体和买进对象、市场和营销前景或商业伙伴时)该方法的另外的缺点在于其定位的各网页可能仅反映给定公司的活动的很小部分。在给定的公司网站上可能存在好几万网页,因此通常单个的网页无法从整体上反映公司的活动,这使得根据其活动范围来识别公司的过程变得非常困难。
为了帮助用户在网站内进行导航,传统的解决方案是提出网站地图或链接网页。这典型地提供了主要主题或子主题的较长列表,具有去往在网站中包含这样的主题的各个网页的链接。网站地图通常手动地产生并处于相对较高的级别。因此,其通常缺少大量的细节且组织和结构上相当扁平。这意味着获得信息可能会非常困难,因为其通常不能够“向下钻”过一个信息级别,而每一次当用户想要浏览与不同的主题有关的信息时,需要用户返回到网站地图。
用于在网站内导航的另一传统技术是手动浏览。典型地,万维网包含通过每一个网页之间的多个可能路径而相互链接的数百万个网页。选择在特定网页内所包含的链接允许用户导航到包含由链接文本或图形所识别的信息的下一链接网页。然而,当手动浏览时可能难以确保包含相关信息的网页未被错过,并且网页在先前并未访问过。此外,由于充分描述能够通过链接而得到的大量主题的空间限制,在典型网站上所使用的文本链接通常包含不充分的词。手动浏览的另一缺点在于用户经常会略读每一个网页,不可避免地导致了在网页上可视地突显的题头文本和其他项的更为敏感地重点关注。如果所需的关键词并未包含在重点关注的文本中,这可能会在通过略读网页来识别关键词信息时,歪曲用户的有效性。
发明内容
本发明的目的是提出一种对万维网上的信息组或其他类似信息源进行定位的系统和方法。这样的信息组典型地将包含在由诸如www.google.com或www.uspto.gov等统一资源定位符(URL)所标识的网站内。
本发明的另一目的是提出一种在万维网或其他信息存储器上的信息组之间和之内进行导航的改进方法。这样的信息组典型地将被包含在单个网站的界限内、或通过内容相关的网站内。
在所附独立权利要求中限定了本发明的各个方面。在从属权利要求中限定了一些优选的特征。
根据本发明的一个方面,提出了一种对基于文本(text)的电子文档的组或集合进行分布(profiling)的方法,所述方法包括分析组中的每一个文档以识别关键主题;将重要性量度分配给已识别的关键主题;以及使用该量度产生包括多个主题标识符的主题分布图和已识别每一个主题对所述组在整体上的重要性的指示。
优选地,所述电子文档的组包括网站的网页。在这种情况下,所述方法还可以包括下载网站的每一个网页以便执行分析步骤。
所述分析文档的步骤可以包括搜索特定单词。另外或可选地,所述分析步骤包括搜索并消除与重要关键词无关的主题。另外或优选地,所述分析步骤可以包括确定与组中已识别的多个关键主题的每一个相关的单词列表;确定每一个关键主题是否出现于针对所述组中的其他关键主题的任一个的相关单词的列表中,并丢弃关键主题并未出现于针对任意其他关键主题的相关单词列表中的任意关键主题。
根据本发明的另一方面,提出了一种对基于文本的电子文档的组或集合进行分布的系统,所述系统包括用于分析组中的每一个文档以识别关键主题的装置;用于将重要性量度分配给已识别的关键主题的装置;以及使用所述量度产生包括多个主题标识符的主题分布图和已识别的主题对所述组在整体上的重要性的量度或指示的装置。
根据本发明的另一方面,提出了一种在诸如因特网或内联网网站之类例如万维网的子集的电子文档的组内进行导航的方法,所述方法包括在屏幕或显示器上自动呈现多个主题标识符和已识别主题对所述组在整体上的相对重要性的指示,每一个主题是用户可选的;接收用户对给定主题的选择,并响应用户的选择,提供对关于所选主题的信息的访问。
通过自动呈现主题标识符以及其相对重要性而不需用户启动关键词搜索,提供了一种简单而有效的技术来允许用户对感兴趣的信息进行容易的导航。
根据本发明的另一方面,提出了一种允许对诸如因特网或内联网网站之类电子文档组进行导航的交互/电子指南,所述指南用于自动地呈现多个主题标识符和已识别的主题的重要性的指示,每一个主题是用户可选的,其中对给定主题的选择提供对关于所选主题的信息的访问。
根据本发明的另一方面,提出了一种在万维网上或其他信息存储器中定位信息组的方法,所述方法包括识别多个候选信息组;获得针对每一个候选组的内容分布图;将第一候选组的分布图与所述多个候选组中的每一个其他候选组进行比较,以便识别和测量第一与其他候选组之间的分布图上的任何差别。
通过比较多个不同网站的内容分布图,提出了一种简单的机制来识别具有相似或相关内容的网站、或者识别与任意所需内容分布图相匹配的网站。
根据本发明的另一方面,提出了一种在万维网或其他信息存储器上的信息组之间和之内进行导航的方法,包括在屏幕或显示器上自动呈现多个组标识符、以及已识别的组相对于所需内容分布图的相似性的指示,每一个组是用户可选的;接收用户对给定组标识符的选择,并响应用户的选择,提供对关于所选组的信息的访问。
根据本发明的另一方面,提出了一种用于在万维网等上定位诸如网站等文档组的交互/电子指南,所述指南用于呈现多个组标识符、以及每一个组对目标内容分布图的相似性的指示,每一个组标识符是用户可选的;其中对组标识符的选择提供了对关于所选组的信息的访问。
将仅作为示例并参考附图来描述本发明的各个方面,其中图1是用于在具有关键网站标题列表的网站内定位和导航以及对这些网站进行定位和导航的电子指南的主视图的示例图;图2是当从图1的列表中选择关键主题时呈现给用户的后续视图的示例图;图3是在图1和2所示的网页之间的链接的分级结构的图;图4是对与诸如图1所示的目标主题分布图相关的网站进行定位和导航的电子指南的相关视图的示例图;图5示出了该指南的无限钻过能力;图6示出了用户可以通过图1到3的指南进行导航的各种方式;图7是创建图1到3的指南的步骤的高级流程图;图8是创建图1到3的指南所采用的步骤的更详细的流程图;图9是设计关键主题的初始列表的步骤的流程图;图10是简化通过执行图9的步骤所获得的初始关键主题列表的各种步骤的流程图;图11示出了丢弃从整体上与信息子集无关的主题的相关词的使用;图12是示出了在两组信息之间比较标题分布图的过程的图;图13是比较两个网站的分布图所需的步骤的流程图;图14是利用关键词主题信息来创建图1的主视图网页的步骤的流程图;图15是创建图2的后续视图网页的步骤的流程图;以及图16是创建图3的相关视图网页的步骤的流程图。
具体实施例方式
图1示出了网站的电子指南12的主视图网页10,其中自动地呈现用户可选的关键主题标识符14,而用户不用必须输入主题或关键词来启动搜索。实际上,在从远程服务器下载来自网站的页面之前,可以将指南12呈现给观看者。当然,创建并下载网站的机制是非常公知的,并且这里不将详细描述。典型地,关键主题列表扩展到多个网站网页上。为了实现在这些网页之间的导航,提出了一组导航按钮,包括“第一个”、“下一个”、“前一个”和“最后一个”按钮。点击这些按钮的任一个引起了关键标题的所需集合被列出。点击关键主题的连续集合按照相继的次序将用户从关键主题的最重要的集合带到最不重要的集合。
按照预定的次序来提供图1所示的主视图10的关键主题标识符14,最重要的标题最先呈现。这意味着搜索者并不需要预先知道针对作者在网站中已经使用的主题的实际文本,而能够从可能主题列表中选择对其最感兴趣的。这样,例如,针对教师的网站可以识别所有的主题“教师”、“教育”、“学校”、“小孩”和“教室”,作为该网站中的最重要的主题,并且将这些显示在重要主题列表的顶部,允许用户点击其中之一以对相关内容进行导航。给定针对或关于教师的网站访问者可能会对所有这些主题感兴趣,这是相对于传统搜索引擎的关键词优势,在传统搜索引擎中,仅当在搜索框中输入其时,将返回与单个主题“教师”有关的内容。同样,如图1所示,对于针对从事航空工程产品的公司(例如公司X)的网站,主题可能是“电子”、“飞机”、“公司”等。
除了按照最重要的主题处于列表中的第一位来呈现主题之外,图1提供了给出各个主题的相对重要性的清楚的可视指示的可视主题分布图。特别地,图1示出了关键主题的列表、以及这些主题的重要性的图形指示16,网站上的最重要的主题出现在顶部。更具体地,对于图1的指南中的每一个主题,提供了示出了主题对网站的重要性的横条(bar)16。这允许对重要内容进行突显,即使其藏在网站的深处而非清楚地显示在网站主页上。该关键主题列表可以将每一个关键主题示作单个词或多个词的短语。
可以对关键主题分布图中的每一个主题标识符14或横条16进行选择。点击标识符和/或横条使得包含另一主题列表的后续视图18得以呈现。在该后续视图18中,可以将信息特定地与包含与主视图10中的所选关键主题有关的内容的网页进行关联。
图2示出了当选择图1的标题14和横条16之一时所呈现的后续视图18的示例。这在框架中具有活动网页20。在该示例中,该指南适合于允许用户点击到活动网页20自身;点击到对使用“第一个”、“下一个”、“前一个”和“最后一个”按钮的已选主题较为重要的另一后续视图网页;或者点击到包含与该后续视图网页上所列出的其他关键主题24有关的信息的另外的后续视图网页。这些其他关键主图24是仅对该网页较为重要而非从整体上对网站较为重要且以对网页的重要性的降序列出的主题。这使得容易对相关主题进行访问,因为互相关的主题经常群集在相同的网页上,且这样点击这些相关关键主题的任一个将用户直接带到针对该关键主题的顶部网页,使得容易进行浏览。例如,针对与“史密斯博士的化学课”有关的网页的后续视图可以列出仅与该网页相关的以下关键主题史密斯博士、化学、本生灯、元素、化学系,并且允许对针对网页上的这些关键主题的每一个的顶部后续视图网页的一次点击访问。这样的点击能力允许通过向下钻/钻过能力对关键内容进行容易的访问,这消除了当想要导航到网站内的另一重要主题时返回到网站地图网页或主视图的需要。
在图2的后续视图18中,还提供了主题分级。这示出了该主题相对于其他主题分级为多高,不管是在该网页还是作为整体在网站上。特别地,设置了具有两个尺度和两个指针的指示符26。第一尺度的指针28指示了所选关键主题对整个网站的重要性。第二尺度的指针30指示了后续视图列表中的所选主题相对于后续视图列表中的其他主题的重要性。利用诸如“下一个”等导航按钮来点击针对所选主题的关键网页的连续后续视图按照相继的次序将用户从针对该主题的最重要关键网页带到最不重要关键网页。图3示出了如何对图1和2的网页进行链接。
除了提供导航网站的机制之外,图1的指南适合于提供将用户与具有类似主题分布图的网站链接的装置,从而提供网站间访问机制、以及网站内访问。为了该目的,该指南包括一个或多个相关的视图网页32。这些可以通过点击在每一个主要和后续视图中表示的“相关视图”链路33来访问。图4示出了用于对这样的相关网站进行导航的相关视图网页32,其中呈现了用户可选的网站标识符34。图4所示的相关视图32的相关网站标识符34以预定次序提供,其中这些网站具有最类似于首先呈现的目标主题分布图的主题分布图。优选地,相关视图网页32提供可视分布图,给出了网站与目标分布图的相似性的清楚可视指示。特别地,图4示出了网站的列表、以及网站与目标分布图的相似性的图形指示36,最相似的网站呈现在开始处。更具体地,针对图4的网页中的每一个网站,提供了示出了网站与目标分布图的相似性的横条36。这意味着当可能获取者和被获取者的目标分布图可能类似时,搜索者可以容易地从相关网站中进行选择。这允许用户定位可能有帮助的相似网站,例如,当识别合并和获取目标时。
典型地,图4的网站列表在多个网站网页上扩展。如前所述,为了实现这一点,通常,提供了一组导航按钮38,包括“第一个”、“下一个”、“前一个”和“最后一个”按钮。点击这些按钮允许用户列出所需的网站集合。点击连续的网站集合按照相继的次序将用户从网站的最紧密相关集合带到最不紧密相关集合。此外,可以对网站列表中的每一个网站标识符34或横条36进行选择。优选地,对相关视图网页进行适配,从而点击标识符34或横条36的任一个使得与各个主题分布图之间的重叠和差别有关的信息得以呈现。
图1到3的指南具有提供对无限深度的向下钻能力的链接特性,如图5所示,在不同网站地图中这是不可能的。该向下钻能力依赖于互相关的标题经常在网页的文本中群集在彼此周围的事实。这样,例如,诸如“教育”、“学校”、“小孩”和“教室”等相关主题经常群集在网页上词“教师”的周围。这允许已经从主视图10点击到针对主题“教师”的第一后续视图18的搜索者回顾在该网页上的所有其他关键主题,包括那些最紧密相关的,然后点击到针对网页上的任意其他关键主题的第一后续视图。这允许无限地钻过网站,在主题和网页之间点击,而不需返回到主视图或网站地图,从而提供了在网站内导航的显著改进的技术。相反,传统网站地图将需要用户点击回到网站地图以点击到针对网站上的另一主题的网页。除此之外,通过提供相关视图网页,用户能够有利地进行网站间搜索和导航。
图6示出了当在图1和2和3的导航网页之间导航时能够使用的不同导航路线。从初始主视图,优选地,以最重要的主题开始,可以使用按钮“第一个”、“下一个”、“前一个”和“最后一个”来对主视图中的关键主题的列表进行导航。选择主视图中的主题标识符使得后续视图网页得以呈现,并且可以利用“第一个”、“下一个”、“前一个”和“最后一个”按钮对另外的后续视图网页进行导航,优选地,针对在主视图中预先选择的主题,从最重要的网页导航到最不重要的网页。在后续视图中选择“主视图”按钮返回到针对该网站的主视图。在任意后续或主视图中选择“相关视图”按钮33导航到相关视图网页,从中可以使用“第一个”、“下一个”、“前一个”和“最后一个”按钮来导航该相关网站的列表,优选地,从最相似的网站开始。在相关视图中选择任意相关的网站标识符(通常为URL)将导航到针对相关网站的主视图,而在主视图中选择“相关视图”按钮将导航到相似网站的相关视图,优选地,从最相似的网站开始。
图7示出了构造图1和2和3中的指南的步骤。实际上,将通过适当处理器(未示出)中的指南创建/分析软件来执行这些步骤。第一步骤是完整地并综合地分析感兴趣的网站以识别关键主要的主题。为此,首先将来自每一个目标网站的可访问网页的一些或全部从其设置于其上的基于服务器或计算机的处理器下载40到包括分析软件的处理器。然后,对每一个网页进行分析42以识别关键主题。然后,确定44每一个关键主题的重要性,并比较主题的分布图。最后,使用该信息来产生指南46。更具体地,对网站的每一个网页进行处理(仅一次)以提取重要主题。这确保了在每一个网页上的关键主题仅在每一个网页上识别和记录一次。将互斥的、彼此完备的处理应用于网站上的所有可访问内容。该处理不会在不同的内容格式之间进行区分。因此,与主体文本相同地对格式化为题头的文本进行处理以消除当用户略读网页时可能会出现的理解偏差。
为了识别关键主题,所使用的基本技术将处理网站上的每一个词,并且将可能主题的数量连续地从完整的词内容减小到可管理的水平,从而突显关键主题。图8示出了在识别关键主题的示例方法中所采用的步骤。这涉及到识别单个关键词的初始简化列表48;修改该简化列表以包括多个单词的短语50;排除单个单词,除了从简化列表中一些所选的单个单词之外52;根据主题在网站中的出现频率来分配重要性量度54;以及根据重要性量度来分配等级56。图9更详细地示出了用于识别初始简化列表的更详细的步骤。这涉及到对网站中的每一个词的出现数量进行计数58;将这些数量与针对按照整体上的网站的特定语言(例如英语)、或该语言的子集的每一个词的平均频率进行比较60,并且选择具有以上平均出现频率的这些词62。
一旦确定了初始简化列表,则采用多种技术来缩减所包括的关键主题的数量。这是必须的,因为传统搜索引擎技术具有有限的精度和相关性,通常包括对于网站的特定内容并非真正地关键的简化列表中的短语。一种简化关键主题的技术是搜索并包括多个单词的短语。这通过以下方式来实现定位在单词在网站上的初始简化列表中的每一次出现,并且从网站中提取并添加后续单词以形成针对每一个关键词64的关键短语,如图10所示。对这些关键短语的每一个的出现进行计数66,并且选择具有最高频率的这些短语并包括在列表中68。
在分析多个词的短语并添加到列表中之后,排除在列表上的一些单个单词的标题。这是因为通常与多个单词的标题相比,单个单词标题传递了较少特别的信息给用户,并因而对于想要快速识别特定信息的用户而言较为不相关。例如,将第二、或许为描述性的单词添加到单个单词上显著地提升了其含义,例如“化学教师”与只有“教师”相比传递了与教师有关的更多信息,并因而将化学教师保持为更为具体,并因而是与教师相比可能更为相关的主题。然而,一些单个单词的特例被保留。例如,作为诸如人名、地名或产品等专有名词的主题由其大写字母的使用来识别并包括在内,因为这些经常会涉及专有或个人信息,例如商品名、或诸如CEO等重要人物的名称,这可以表示主管或研究员要找到的重要主题。在标准词典中未包括的词也可以被保留。这是因为在词典中并未包括的任意单词横可能为高度专用的或不常见的,因此非常可能的是这将与该网站相关,无论网站的特定内容。
网站分析还排除了在简化列表中并不与至少一个其他主题相关的主题,如图11所示。为此,该分析涉及到确定与网站中已识别的多个关键主题的每一个相关的单词列表;以及确定每一个关键主题是否出现在针对网站中的任意其他关键主题的相关单词列表中。然后,丢弃其中关键主题并未出现在针对任意其他关键主题的相关单词列表中的任意关键主题。可以使用词典或辞典或其他方法来确定相关单词。作为示例,在与“教师”相关的网站上,主题“运输”没有与其他与教师相关的关键主题的任一个的明显相关性,并因而被排除,而,简化列表中的“班级”的主题将被识别为与“教师”相关(还可以是简化列表中的其他主题),并因而将包括在内。类似地,尽管其并未表现为与“教师”相关,但是可能与“教育”松散地相关的单词也可以包括在内,构建其相关性逐渐减小的关键主题列表是可行的(traversed),但是其主要排除了无关主题。
测试相关关键词的优点在于该过程可以通过去除无关的主题来增加结果的精度,同时消除了预先知道正在分析的网站的内容以选择所有其他网站必须与其相关的初始关键词的传统要求。这是因为利用标准词典针对简化主题列表中的单词的彼此关系而对简化列表中的所有可能主题单词进行了测试,而非针对通过预先知道网站内容而选择的关键单词的关系进行测试。可选地,可以对简化主题列表的子集进行测试以简化所需的处理。
搜索过程适合于为相对于诸如网页上的有界框(隐藏或可见)等格式化元素具有较大位置变化的主题提供优先。这是因为并非真正主题的许多单词出现在许多或所有网页的相同位置中,例如,在每一个网页的相同位置处重复的横幅或按钮条中。这些可能会在传统搜索中错误地出现,传统搜索仅依赖于出现频率。然而,真正主题的特征在于其经常分散在文本中间,而非文档的一个特定位置处。结果,对主题相对于通常围绕横幅和按钮条的格式化元素的位置变化的检查趋向于从简化列表中排除一些这样的静态定位的元素。
一旦确定了网站的所有网页上的关键主题的简化列表,则对预先记录的每一个网页的内容逐网页地再次分析,识别针对最终简化列表中的主题的等级最高的那些网页。同时,还对每一个网页进行处理以在每一个网页上产生关键主题的逐网页的标题列表。然后,使用该简化列表来产生所有主视图并使用逐网页的主题列表来产生所有后续视图。为了提供主题等级,使用每一个主题的出现率来分配对该主题的重要性量度。这通过对网站上作为整体提到特定主题的实例数进行计数来实现。优选地,将重要性量度表达为作为整体的网站上的单词总数的百分比或可选地表达为所有关键主题单词的实例和的百分比。
当确定了每一个主题的重要性的测量值时,使用其来构造指南或地图的主视图10。通常,将最重要的主题出现在关键主题列表的顶部,如图1所示。由此,本发明具体实现的指南提供了非常简单有效的机制来使用户能够对网站进行导航。理想地,当访问网站时,将指南或地图自动地提供给用户而无需用户启动关键词搜索。为了确保地图是最新的,应该定期地对网站进行分析。
总之,分析该网站的总体策略如下通过对每一个单词在网站中的出现次数进行计数来识别单个关键词的初始简化列表;将每一个单词的出现次数与按照该网站语言的每一个单词的平均频率进行比较;在网站上或在大量网站上或按照目标语言,选择与平均值相比具有最高频率的那些单词。一旦这样做之后,通过以下方式修改简化列表以包括多个单词的短语定位单词在网站的简化列表中的每一个出现并提取且添加网站上的后续单词以形成针对每一个关键词的关键短语;对网站中的每一个关键短语的出现次数进行计数并选择网站上具有最高频率的那些短语。然后,从简化列表中排除单个单词,除了专有名词或单词、在词典中不存在的单词、或与简化列表中的其他单词相关的单词。然后,根据其在网站中的出现率对这些短语分配等级,并且选择最高等级的短语且将其包括在作为整体的网站的最终关键主题列表中。之后,从先前记录的信息对每一个网页的内容逐网页地进行再次分析,识别针对最终简化列表中的每一个主题具有最高重要性的那些网页。然后,在逐网页的关键主题列表中对网页上的简化列表中的所有其他关键主题进行记录,将其用来在稍后的过程中产生后续视图。一旦这样做之后,可以产生指南的主视图和后续视图。
可以将确定主题分布图的上述技术应用于多个不同的网站,并且这些分布图可以用来识别相似度。一旦已经针对多于一个的网站上的每一个关键主题确定了重要性量度,则可以通过依次选择每一个网站、然后依次选择每一个其他网站来形成一系列(目标网站、候选网站)对来比较所得到的主题分布图。然后,通过选择目标分布图中的每一个主题、将该主题的重要性量度与候选网站中的相同或相似主题(如果其存在)的重要性量度进行比较,来比较针对这些对中的每一个的主题分布图。这由图12所示。在优选实施例中,这可以相当简单地实现,因为作为上述分布图构建过程的一部分对重要性量度进行归一化,从而使重要性量度通常表达为预定特性的百分比或分数。然后,可以计算重要性的总计量度,其是在两个网站共用的所有主题上的比较值的总计。作为对此的变化,除了使用先前所述而产生的主题分布图之外,目标分布图可以是手工分布图,包含多于一个的主题且可以包括主题对作为整体的目标网站的重要性量度。
为了对主题分布图进行比较,首选和最简单的方法是对两个分布图共用的主题进行计数。第二种、可能是更为精确的方法如图13所示。这涉及对目标分布图70和第一候选网站分布图72进行选择。然后,优选地从目标分布图中的最重要的主题开始,选择对候选分布图共用的该分布图中的每一个主题74,并且与候选网站中的相同或相似主题进行比较。特别地,对两个分布图中的重要性的主题量度的幅度(例如主题单词频率)进行比较,如图12所示。这提供了在正在被比较的两个网站上、针对这些分布图的该主题的相似性的比较值。针对目标分布图中的所有关键主题对此进行重复76。然后,通过对正在被比较的两个网站上的针对所有公共主题的比较的大小进行求和,可以实现对总计比较值的获取。然后,针对所有候选网站重复该过程78。
一旦已经识别了关键主题,则可以产生针对指南的主要、后续和相关视图。图14、15和16示出了这样做的步骤。为此,首先必须产生三个网页模板,一个针对主视图,如图1所示,一个针对后续视图,作为图2所示的网页;以及一个针对相关视图,作为图3所示的网页。这些模板可以采用任意所需的形式或布局或设计。
一旦提供了这些模板,则可以使用其来产生指南。如图14所示,产生主视图网页涉及选择针对图1的网页模板结构,即,主视图网页布局(HTML码)80。然后,优选地,从关键主题列表中的最重要主题开始,将每一个主题和等级作为HTML码插入在模板82中。然后,将网页公布到所得到的网站84。对此进行重复,直到已经将所有关键主题插入到模板中为止86。图15示出了产生后续视图网页的步骤。这可以在产生主视图网页之后进行,并且首先涉及到针对图2的网页布局(HTML码)选择网页模板结构88。然后,优选地,从针对每一个主题的最重要的网页开始,将来自逐网页的关键主题列表的关键主题和相应等级作为HTML码插入到模板中90。然后,将该网页公布到所得到的网站92。对此进行重复,直到已经将针对关键主题的所要网页插入到模板为止94,然后,针对简化列表96中的所有其他关键主题重复整个过程96。最后,通过选择适当的网页模板结构来产生相关的视图网页(如图3所示),如图16所示。然后,优选地从与相关网站列表中的目标分布图的最相似网站开始,将每一个网站和相似性作为HTML码插入到模板中。然后,将网页公布到所得到的网站。对此进行重复直到已经将所有相关的网站插入到模板为止。
一旦创建了指南,则能够将其包括到相关的网站中或主持为单独、链接的网站,由此,当选择网站时或当用户想要浏览该网站时,将其呈现给用户。当然,对此进行实现的技术是本领域的技术人员所公知的。
本领域的技术人员将会意识到,在不脱离本发明的情况下,所公开的结构的变体均为可能的。例如,可以将主页或公司金融信息与图1中的关键主题列表一起呈现在主视图中。典型地,这将会示出对网站主页的预览,从而提供用户正在查看正确的网站的快速可视指示。作为第二示例,后续视图可以显示该主题列表所涉及的网页的网页预览,以允许用户快速地评估该网页是否授权进一步的调查,例如点击活动网页。作为另一可选方案,尽管主要参考网站和因特网对本发明进行了描述,但是将会意识到,这里所述的技术可以用来提供对基于文本的电子文档的任意集合进行导航的机制。例如,该系统可以用于基于Windows的系统中,从而提供在本地PC上所存储的所有基于文本的文档的标题分布图,而与格式无关。因此,以上对特定实施例的描述仅是示例性的而非限定性。对于本领域的技术人员显而易见,在不对所述操作进行非常巨大的改变的情况下,可以进行各种少量修改。
权利要求
1.一种允许对诸如因特网或内联网网站之类的电子文档组进行导航的交互/电子指南,所述指南用于自动地呈现多个主题标识符,和已识别的主题对所述组在整体上或部分上的重要性的指示,每一个主题是用户可选的,其中对主题标识符进行呈现,而无需用户启动关键词搜索,且对给定主题的选择提供了对所述组中关于所选主题的信息的访问。
2.根据权利要求1所述的指南,其中主题按照预定次序呈现,从而提供主题对所述组在整体上或部分上的重要性的指示。
3.根据权利要求2所述的指南,其中所述主题按照重要性的降序呈现,最重要的主题呈现在列表的开始处,而最不重要的主题呈现在列表的末尾处。
4.根据权利要求1到3任一个所述的指南,其中所述主题标识符是一个或多个关键字或关键短语标识符。
5.根据权利要求1到4任一个所述的指南,其中提供图形指示,以给出主题对所述组在整体上或部分上的重要性的可视指示。
6.根据权利要求5所述的指南,其中所述图形标识符是横条,其长度提供了相关主题对所述组在整体上或部分上的重要性的指示。
7.根据权利要求5或6所述的指南,其中所述图形标识符是可选的,从而允许用户选择相关的主题。
8.根据权利要求1到7任一个所述的指南,其中对给定主题的选择使得多个附加指南网页之一得以呈现。
9.根据权利要求8所述的指南,其中在选择任一主题或主题标识符时,所述指南用于使附加主题标识符的相似列表得以呈现或者使包含与所需主题相关的内容的活动网页得以呈现。
10.根据前述权利要求任一个所述的指南,其中所述指南用于呈现识别诸如以太网或内联网网站之类一个或多个相关的电子文档组的相关组标识符,和第一组与每一个相关组的关键主题分布图之间的相似性的指示或量度。
11.一种允许在诸如因特网或内联网网站之类例如万维网的子集的电子文档的组内进行导航的方法,所述方法包括在屏幕或显示器上自动呈现多个主题标识符,和已识别主题对所述组在整体上或部分上的相对重要性的指示;接收用户对给定主题的选择,并响应用户的选择,提供对关于所选主题的信息的访问。
12.根据权利要求11所述的方法,包括呈现用于识别诸如以太网或内联网网站之类一个或多个相关的电子文档组的相关组标识符,和第一组与每一个相关组的关键主题分布图之间的相似性的指示或量度。
13.一种在诸如因特网或内联网网站之类例如万维网子集的电子文档的组内进行导航的系统,所述系统包括自动地在屏幕或显示器上呈现多个主题标识符,和已识别主题对所述组在整体上或部分上的相对重要性的指示的装置;用于接收用户对给定主题的选择的装置;以及响应用户的选择提供对关于所选主题的信息的访问的装置。
14.根据权利要求13所述的方法,包括用于呈现识别诸如以太网或内联网网站之类一个或多个相关的电子文档组的相关组标识符,和第一组与每一个相关组的关键主题分布图之间的相似性的指示或量度的装置。
15.一种优选地位于数据载体上或其他一些计算机可读介质上的计算机程序,所述计算机程序用于产生在因特网或内联网等中使用的交互/电子指南,所述程序具有配置来实现以下功能的代码或指令自动地呈现多个主题标识符和所述主题对文档组在整体上或部分上的重要性的指示,每一个主题是用户可选的,接收对给定主题的选择,并响应主题选择,提供对关于所选主题的信息的访问。
16.根据权利要求15所述的计算机程序,其中所述计算机程序用于呈现识别诸如以太网或内联网网站之类一个或多个相关的电子文档组的相关组标识符,和第一组与每一个相关组的关键主题分布图之间的相似性的指示或量度。
17.一种在万维网上或其他信息存储器中定位信息组的方法,所述方法包括识别多个候选信息组;获得针对每一个候选组的内容分布图;将第一候选组的分布图与所述多个候选组中的每一个其他候选组进行比较,以便识别第一与其他候选组之间的分布图上的任何差别。
18.根据权利要求17所述的方法,其中所述分布图由多个主题构成。
19.根据权利要求17或18所述的方法,其中每一个所述主题分配有所述主题对所述组在整体上或部分上的内容的重要性量度。
20.根据权利要求19所述的方法,其中所述比较步骤包括对第一和其他候选组共用的主题数量进行计数。
21.根据权利要求17到20任一个所述的方法,其中所述比较步骤包括将针对所述第一候选组的每一个关键主题的重要性量度与其他候选组中的相同或相似主题的重要性量度进行比较。
22.根据权利要求17所述的方法,其中所述比较步骤包括计算所述第一和其他候选组之间共用的所有主题上的总计比较。
22.根据权利要求17到22任一个所述的方法,还包括针对任一个或多个候选组,自动地呈现多个主题标识符和已识别的主题的重要性的指示,每一个主题是用户可选的,其中呈现所述主题标识符,而无需用户启动关键字搜索,并且对给定主题的选择提供了对关于所选主题的信息的访问。
23.一种在万维网或其他信息存储器上定位信息组的系统,所述系统包括用于识别多个候选信息组的装置;用于获得针对每一个候选组的内容的分布图的装置;以及用于将第一候选组与所述多个候选组中的每一个其他第二候选组进行比较的装置。
24.根据权利要求23所述的系统,其中所述比较装置用于计算每一个候选组之间的主题分布图上的任何差别。
25.根据权利要求23或24所述的系统,其中所述获得主题分布图的装置包括用于识别所述组中的多个关键主题的装置。
26.根据权利要求23到25任一个所述的系统,其中所述获得关键主题的装置包括分配所述主题对所述多个候选组在整体上或部分上的内容的重要性量度的装置。
27.根据权利要求23到26任一个所述的系统,其中所述比较装置包括用于将针对第一候选组的一个关键主题的重要性量度与第二候选组中的相同或相似主题的重要性量度进行比较的装置。
28.根据权利要求23到27所述的系统,其中所述比较装置包括总计装置,用于通过对针对所述主题分布图中的每一个主题的各个差值进行求和,计算第一与其他候选组之间的分布图之间的总计差值。
29.一种在万维网或其他信息存储器上的信息组之间和之内进行导航的方法,包括在屏幕或显示器上自动呈现多个组标识符,和已识别的组相对于所需主题分布图的相似性的指示,每一个组是用户可选的;接收用户对给定组标识符的选择,并响应用户的选择,提供对关于所选组的信息的访问。
30.一种在万维网或其他信息源上的信息组之间和之内进行导航的方法,所述方法包括在屏幕或显示器上自动呈现多个组标识符,和已识别的组对目标主题分布图的相似性的指示的装置,每一个组是用户可选的;用于接收用户对给定组标识符的选择的装置;以及响应用户的选择,提供对关于所选组的信息的访问的装置。
31.一种用于在万维网等上定位网站或其他信息组的交互/电子指南,所述指南用于呈现多个组标识符,和每一个组对内容主题的目标分布图的相似性的指示,每一个组标识符是用户可选的;其中对组标识符的选择提供了对关于所选组的信息的访问。
32.根据权利要求31所述的指南,其中所述组标识符按照预定次序呈现,从而提供了所述组对目标分布图的相似性的指示。
33.根据权利要求33所述的指南,其中所述组按照相似性的降序来呈现,相对于目标分布图最相似的组呈现在列表的开始处,而最不相似的组呈现在所述列表的结尾处。
34.根据权利要求31到33任一个所述的指南,其中提供图形指示以提供对组相对于目标分布图的相似性的可视指示。
35.根据权利要求34所述的指南,其中所述图形标识符是可选的,从而允许用户选择相关组。
36.根据权利要求31所述的指南,其中所述指南用于通过选择给定组,使多个附加定位网页之一得以呈现,优选地,其中所述定位网页包括多个主题标识符,优选地以在所定位的组内已识别的主题的重要性来排序,优选地每一个主题是用户可选的,优选地对给定主题的选择提供了对关于所选主题的信息的访问。
37.一种优选地位于数据载体上或一些其他计算机可读介质上的计算机程序,所述计算机程序用于产生在因特网或内联网网站之类上使用的系统,所述具有配置来执行以下功能的代码或指令呈现多个组标识符,和所述组相对于所需主题分布图的相似性的指示,每一个组是用户可选的;接收对给定组的选择,并且响应对所述组的选择,提供对已定位组或相关信息的访问。
38.一种对基于文档的电子文档的组或集合进行分布的方法,所述方法包括分析组中的每一个文档以识别关键主题;将重要性量度分配给已识别的关键主题;以及使用所述量度来产生包括多个主题标识符的主题分布图,和已识别每一个主题对所述组在整体上或部分上的重要性的指示。
39.根据权利要求38所述的方法,其中电子文档的组包括网站的网页。
40.根据权利要求39所述的方法,还包括下载网站的每一个网页以便执行分析步骤。
41.根据权利要求38或39所述的方法,其中所述分析文档的步骤包括搜索特定单词。
42.根据权利要求38到41任一个所述的方法,其中所述分析步骤包括搜索并消除与重要关键词无关的主题。
43.根据权利要求42所述的方法,包括确定与组中已识别的多个关键主题的每一个相关的单词列表;确定每一个关键主题是否出现于针对所述组中的其他关键主题的任一个的相关单词的列表中,并丢弃关键主题并未出现于针对任意其他关键主题的相关单词列表中的任意关键主题。
44.一种对基于文档的电子文档的组或集合进行分布的系统,所述系统包括用于分析组中的每一个文档以识别关键主题的装置;用于将重要性量度分配给已识别的关键主题的装置;以及使用所述量度产生包括多个主题标识符的主题分布图,和已识别每一个主题对所述组在整体上或部分上的重要性的指示的装置。
45.根据权利要求44所述的系统,其中所述电子文档的组包括网站的网页。
46.根据权利要求45所述的系统,其中还包括下载网站的每一个网页以便进行分析的装置。
47.根据权利要求45或46所述的系统,其中所述分析装置用于搜索对于网站拥有者的具有重要性的特定单词。
48.根据权利要求44到47任一个所述的系统,其中所述分析装置用于搜索并消除与重要关键词无关的主题。
49.根据权利要求48所述的系统,其中包括用于确定与组中已识别的多个关键主题的每一个相关的单词列表的装置;用于确定每一个关键主题是否出现于针对所述组中的其他关键主题的任一个的相关单词的列表中的装置;以及丢弃关键主题并未出现于针对任意其他关键主题的相关单词列表中的任意关键主题的装置。
全文摘要
一种允许对诸如因特网或内联网网站等电子文档组进行导航的交互/电子指南(10),所述指南用于自动地呈现多个主题标识符(14)已识别的主题在网站内的重要性的指示(16),每一个主题(14,16)是用户可选的。对给定主题(14,16)的选择提供对关于该主题的信息的访问。优选地,该指南(10)还提供了可能通过内容相关的多个网站有关的信息、以及对这样的多个网站之间的内容的相似性程度的指示。
文档编号G06F17/30GK1777892SQ200480010784
公开日2006年5月24日 申请日期2004年4月23日 优先权日2003年4月23日
发明者戴维·瓦特·斯蒂芬森 申请人:戴维·瓦特·斯蒂芬森