专利名称:用于评估趋势分析系统的方法和装置的制作方法
技术领域:
本发明涉及一种趋势分析系统,并且特别地涉及一种自评估趋势分 析系统。
背景技术:
文本挖掘是趋势分析技术之一,用于主要基于使用自然语言处理的 信息提取的结果,通过找出关于关键词的信息片的总数和在被包含于文 档集合内的各关键词之间的依赖性信息来分析趋势和知识。为了将趋势 分析系统实际引入到 一新位置,必须提供像用户字典这样的语言资源并 且必须根据该位置的情况来调整参数,使得趋势分析系统将能够执行优 化分析。然而,这种调整是在反复试验的基础上以及/或者在经验的基础 上执行的,并且没有任何技术可用于度量调整结果的有效性。此外,这 种调整还需要大量的时间和人力。
在诸如从文档中提取或检索信息之类的技术的情况下, 一般通过执 行从事先被给予了属性的正确答案以及属性之间的关联的正确答案的 文档中提取或检索信息,以及通过比较该执行结果与对提取结果或检索 结果的测量,来评估系统或技术。另一方面,在目标是从文档集合中提 取关联、知识和趋势的趋势分析系统的情况下,在实际在已安装的地点 中使用该系统的同时,验证对所获得的结果的有效性的评估。换言之, 还没有建立一种机制用于定量和定性地评估常规趋势分析系统。因此, 当趋势分析系统中的某个部件被改善时,很难客观地评估该系统将被增 强的程度。以下等式已被用来计算在常规系统评估中所使用的准确度。
准确度=(系统正确地提取的关联的数目+系统正确地提取的不关 联的数目)/系统提取的总数目。除了上面的考虑了正确的确定的计算方
法之外,还存在另一种考虑了错误的确定的准确度计算方法。错误的确 定包括两种类型,即假阳性和假阴性。这两种类型在常规的准确度中被 当成是相同的确定类型来处理,并且由此在准确度中不能反映在各用户
地点之间的差异。日本专利申请未审公开号No.2005-237441是相关现 有技术的一个例子。
发明内容
已做出本发明用于解决上述技术问题。本发明的目的是 提供一种装置,用于客观地评估从数据集中提取关联、趋势和知识 的趋势分析系统;
提供一种趋势分析系统,其提取数据集中各数据片的属性之间的关 联,并通过对该系统执行定量的评估来对该系统执行自调整;
提供一种自评估趋势分析系统,其通过使用包含正确信息的相关数 据执行对从数据集等等中提取关联信息片、趋势信息片和知识信息片的 功能的定量的自评估,并执行针对功能的调整,该正确信息指示了关于 属性之间的关联、以及属性的趋势和知识的信息;
提供一种方法,该方法用于通过使用从用户分别针对系统所做出的 假阳性和假阴性设置的容许范围所计算的权重,将准确度计算成用于求 得系统评估的定量结果的指示符;以及
提供一种方法,用于根据包含正确信息的相关数据求得用于计算指 示符的不是作为任意值而是作为统计上合适的值的权重,以合理地评估 系统。
根据本发明,提供了一种趋势分析系统,用于从数据集等等中提取 属性之间的关联(例如,A和B有关联)。在可以获得包含正确信息的 相关数据的情况下,所述趋势分析系统通过使用指示符来对该系统自身 执行定量评估并且接着执行自调整,该正确信息包括关于属性之间的已 知关联的信息。所述评估指示符指示由系统从数据集中提取的关联/趋势 信息覆盖了多少包含正确信息的相关数据中的信息,该正确信息指示存 在或不存在关联。通过使用 一种确定该评估指示符的方法来执行对该系
统的定量评估。
根据本发明,从由用户分别设置的针对假阳性和假阴性的数目的容 许范围求得用于假阳性和假阴性的数目的惩罚分数(权重),并接着通 过使用该惩罚分数来计算准确度。如果所述惩罚分数被给定为任意值, 则该系统不能被合理地评估,并且由此可能执行不合适的调整和反馈。 出于这种原因,在本发明中,求得用于包含着正确信息的相关数据的统 计上适合的惩罚分数,以便合理地评估该系统。本发明的趋势分析系统 可以不通过使用包含正确信息的相关数据而通过使用这些惩罚分数来 找出合理的准确度。当通过调整参数或更新用于下一次挖掘的字典来改 变系统时,系统执行客观的自评估,其示出根据关联信息或趋势信息的 存在或不存在(二进制分配问题)由系统所提取的假阳性和假阴性的数 目相比用户所希望的数目被改善多少。接着,系统基于评估结果执行自 调整。
图8示出根据本发明的一种用于评估趋势分析系统的装置。根据本发明的该装置包括容许值输入单元810和准确度计算单元820。容许值 输入单元810接收假阳性和假阴性的相应的容许值。假阳性是指数据片 被判断为彼此相关,但是所述数据片实际上并不相关。另一方面,假阴 性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的。 准确度计算单元820计算系统的准确度,并且包括权重确定单元840和 计算单元850。权重确定单元840读取包含正确信息的相关数据860, 其正确地指示在存储装置830中所存储的默认数据集里所包括的数据片 之间的存在或不存在关联,并且接着通过使用包含正确信息的相关数据 860从假阳性和假阴性的容许值确定被分配给由该系统做出的假阳性和 假阴性的数目的权重。计算单元850通过使用假阳性的数目、被分配给 它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算 该系统的准确度。因此,由准确度计算单元820因此所计算的准确度可 被直接用作系统的评估结果。作为替代,参数调整单元可以根据已计算 的准确度来调整系统的参数从而系统的准确度可以被进一 步增加。
根据本发明,通过提供阚值可以找到趋势分析系统的合理的准确
度,而无需使用包含正确信息的相关数据,所述阈值是趋势分析系统所 做出的错误(假阳性和假阴性)的容许值(容许范围),并容易被用户理解。 因此,所找到的准确度可被用作客观的评估的结果。另夕卜,本发明的趋 势分析系统可以通过使用满足用户需要的评估指示符来执行自评估,并 接着基于该评估结果来执行参数调整。
为了更完整地理解本发明和其优点,现在结合附图参考以下描述。 图1是本发明的实施例的处理的流程图。
图2是用于解释包括可被取作权重的值的区域的例子的示图,该权 重满足同 一性和鉴别的可能性。
图3解释对趋势分析系统的评估结果。
图4是调整基于自评估的文本挖掘系统的处理流程。
图5示出硬件配置的例子。
图6示出指示遗传因子之间的关联的路径。
图7示出对趋势分析系统的评估例子。
图8是本发明的评估系统的框图。
具体实施例方式
图1示出根据本发明的实施例的处理的流程图。在步骤110中,假 阳性和假阴性的容许范围被输入。在步骤120中,用于计算准确度的权 重被计算。如何计算该准确度和权重将稍后描述。在步骤130中,做出 关于是否已经成功地计算这些权重的判决。如果计算这些权重失败了 , 则在步骤135中发出通知"容许范围不合适",并且接着该处理再次移 动回到用于输入容许值范围的处理。如果计算这些斥又重成功了,则在步 骤140中针对该趋势分析系统生成用于通过使用这些权重来计算准确度 的功能。在步骤150中,通过使用所述准确度计算功能来计算系统的准 确度。在下文中,当描述词语"系统"时,这暗指该趋势分析系统。利 用通过使用包含正确信息的相关数据和权重所找到的准确度来评估该
系统。当只想得到评估结果时,该处理在步骤150中被终止。当想要进
行系统调整时,该处理移动到步骤160。在步骤160中,^f故出关于是否 满足终止该系统调整的条件的判决。如果不满足终止条件,则处理移动 到步骤170,并且执行系统调整。如果满足终止条件,则在步骤160中 纟冬止处理。
图6示出包含正确信息的相关数据的例子。例如,在基因数据的情 况下,用路径的形式提供在特定基因组里的各基因间的关联。本发明使 用指示了图6中所图示的趋势信息存在或不存在的知识数据作为包含正 确信息的相关数据。图6说明一路径,其示出在与Alzheimer疾病相关 的基因组里各基因之间的关联的一部分。图6示出与边沿相连的每对基 因具有关联。图7示出一例子,其中通过使用上面的包含正确信息的相 关数据来评估趋势分析系统。针对图7的左端列里的趋势信息候选者中 的每一项,通过比较由趋势分析系统所输出的确定和包含正确信息的相 关数据来评估该系统。存在该系统针对其做出与包含正确信息的相关数 据一致的正确确定的项和错误确定的项。该错误确定包括假阳性和假阴 性,其中假阳性是确定了不相关信息片具有关联的错误,而假阴性是确 定了相关信息片不具有关联的错误。
在下文中,将根据本发明的实施例来描述如何计算准确度和权重。 这里,权重是针对由系统做出的各个假阳性和假阴性的项中的错误的数 目所计算的惩罚分数。通过使用包含正确信息的相关数据从作为输入提 供的假阳性和假阴性的容许值来确定这些权重,其中该正确信息正确地 指示在当前数据集里各数据片之间的存在或不存在关联。稍后将描述该 确定方法。通过使用这些权重来计算系统的准确度。当P表示假阳性的 数目、WP表示被分配给它的权重、N表示假阴性的数目、WN表示被 分配给它的权重、而S表示数据片的总数目时,准确度(R)是用以下 等式来计算的,
<formula>complex formula see original document page 9</formula>
被分配给假阳性和假阴性的数目的权重被确定是统计上适用于包 含正确信息的相关数据的值,从而可以合理地评估系统。这里,该统计
上合适的值意指满足以下两个条件的值 _同 一性
用于在系统的准确度之间不存在任何差异的情况下,以不小于预定 概率的概率确定系统中不存在任何差异的条件,以及 -鉴别的可能性。
用于在系统的准确度之间存在差异的情况下,以不小于预定概率的 概率确定系统中存在差异的条件。
注意,鉴别的可能性包括来自针对假阳性错误的容许值集(假阳性 的容许值)的鉴别的可能性和来自针对假阴性错误的容许值集(假阴性
的容许值)的鉴别的可能性。例如,作为预定概率,所使用的是95%等 等,其在统计试验中被广泛使用。图2将同一性和鉴别的可能性说明为 区域。在图2中,X轴指示权重WP, Y轴指示权重WN,线段210的 内部指示同一性,而线段220和线段230的外部指示鉴别的可能性。从 同 一性所求得的线段210是园,而被写为这个园的半径的一个例子。 注意,线段220和线段230通常是双曲线。满足这些条件的区域D指示 权重的值。通过使用这个区域D所指示的某些权重,这些权重被确定为 统计上合适的值。反之,通过取这个区域D中的值作为权重,可以找到 合理的准确度而无需使用包含正确信息的相关数据,并且由此可以客观 的评估趋势分析系统。
通过使用图3,将描述通过使用本发明的实施例的准确度对趋势分 析系统所进行的评估。标号310示出文档之间的关联的确定结果,所述 确定结果是由某个趋势分析系统通过使用包含正确信息的相关数据输 出的。在所有55个文档中,其中12个文档实际上彼此相关,系统正确 地判断5个文档是相关的,并且不正确地判断剩下的7个文档不相关(假 阴性)。另一方面,其中43个文档实际上不相关,系统正确地判断36 个文档不相关,而不正确地判断7个文档是相关的(假阳性)。假设, 通过修改系统的挖掘参数或通过更新用于挖掘的字典来改变了系统。标 号320示出由新的被改变了的系统所输出的在各文档之间的关联的确定 结果。如可以在这些结果中看到的那样,在所有55个文档中,其中12
个文档实际上彼此相关,系统正确地判断7个文档是相关的,并不正确
地判断剩下的5个文档是不相关的(假阴性)。另一方面,在所有43个 实际不相关的文档中,系统正确地判断34个文档是不相关的,并不正 确地判断剩下的9个文档是相关的(假阳性)。这里,考虑结果320的 新系统相比结果310的系统是否被改善了 。当使用如下表达的常规准确 度(R)时,
R=(被正确地提取的关联的数目+被正确地提取的不关联的数目) /由系统4是耳又的总凄丈目,
两个系统的准确度彼此相等,也即R = 41/55=0.745。换言之,不能证实 系统被改善了。
相反,根据本发明的实施例,从例如由用户所指定的用于假阳性的 容许值4和用于假阴性的容许值2来计算用于假阳性的权重1.2和用于 假阴性的权重0.742。接着,通过使用用于假阳性的数目P的权重1.2 和用于假阴性的数目N的权重0.742,如下计算准确度
R=l- (Px 1.20+Nx 0.742) /55 作为结果,结果310的系统的准确度是0.752,而结果320的新系统的 准确度是0.769。因此,在用户所假设的条件下,系统可以被评估为已 经被改善。虽然在本发明的这个实施例中输入了假阳性和假阴性的容许 值,但是也可以输入假阳性和假阴性的容许值之间的比(上面的例子中 的2)。除此之外,在不偏离本发明的实质特点的条件下,在给出这种输 入的方式方面有许多可能的变型。
对趋势分析系统的自动调整可以通过以下方式来实现通过根据上 述的对系统改善的评估来修改趋势分析系统的参数而增加准确度。例 如,可能的方法之一是改变置信系数,其是在文本挖掘系统中常被使用 的参数。图4示出调整结合了本发明的实施例的评估装置的自评估文本 挖掘系统的处理流程。在步骤410中,输入诸如不小于90%的准确度之 类的终止条件。接着,在步骤420中,通过使用包含正确信息的相关数 据来执行文本挖掘。在步骤430中,评估挖掘的结果,并由此计算准确 度。如果步骤430中已计算的准确度满足终止条件,则终止调整。如果
已计算的准确度不满足终止条件,则在步骤450中修改参数。在步骤450 中,根据准确度的增加或减少来修改这些参数(诸如置信系数)。例如, 当置信系数的减小导致准确度的增加时,置信系数被进一步减小。相反, 当置信系数的增大导致准确度的增加时,置信系数被进一步增大。此外, 当置信系数的减小导致准确度的减少时,置信系数被增大。相反,当置 信系数的增大导致准确度的减少时,置信系数被减小。这种自动调整不 仅可以被应用于置信系数而且还可以被应用于诸如系统的字典的更新 之类的其它参数。
图5示出本发明的实施例的评估装置的硬件配置和被作为结合了该 评估装置的自评估趋势分析系统来使用的优选的信息处理设备的硬件 配置。计算机501包括具有通过使用主机控制器510来彼此相互连接的 CPU 500、 RAM540、 ROM 530以及I/O控制器520的CPU外围单元。 另外,计算机501包括通信接口 550、能够从存储装置580中读以及向 其写的硬盘驱动器、能够从诸如CD/DVD之类的盘类型的介质595中 读以及向其写的多结合物(multi-combo)驱动器590、能够从软盘585 中读和向其写的FD驱动器545、用于驱动声音输入/输出装置565的声 音控制器560、以及用于驱动显示装置575的图形控制器570,所有这 些都被连接到I/O控制器520。
CPU 500根据存储在ROM 530、 BIOS和RAM 540中的程序进行操 作,并由此控制每个部件。图形控制器570包含CPU 500等在RAM 540 中所提供的緩冲器内生成的图像数据,并导致显示装置575显示由该图 像数据所指示的图像。作为替代,图形控制器570可以在其内部包括用 于存储由CPU500等所生成的图像数据的緩冲器。当信息处理设备501 作为包括评估装置的自评估趋势分析系统来工作时,通过使用被记录在 存储装置580中的包含正确信息的相关数据来计算该趋势分析系统的准 确度。为了更加精确,通过诸如键盘515之类的输入装置来输入终止条 件,挖掘程序和本发明的程序被从存储装置580中装载到存储器,并且 接着CPU 500执行这些程序以通过读取被记录在存储装置580中的包含 正确信息的相关数据来计算准确度。如果该准确度满足终止条件,则终
止调整。如果该准确度不满足终止条件,则根据该准确度的增加或者减 少来修改各参数(诸如置信系数)。调整结果被显示在显示装置575上。
通信接口 550经由网络与外部通信装置进行通信。当信息处理设备 501仅作为评估装置来工作时,信息处理设备501通过经由通信接口 550 接收输出自外部趋势分析系统的用于准确度计算的信息来计算准确度, 并且接着将计算结果经由通信接口 550传送给该外部趋势分析系统。顺 便提及,即使当与包括有线网络、无线网络和诸如红外网络或蓝牙之类 的短程无线网络的任何类型的网络进行连接时,本发明的实施例的这些 配置也是可应用的而不需进行任何修改。存储装置580存储根据本发明 的实施例的程序的代码和数据、应用、操作系统等等,它们可以被计算 机501使用。多结合物驱动器590从诸如CD/DVD之类的介质595中 读取程序或数据。从存储装置580等中读取的程序和数据被装载到RAM 540,并且因此由CPU 500使用。可以从外部存储介质提供本发明的实 施例的程序、目标是用于趋势分析的数据、以及包含正确信息的相关数 据。
作为外部存储介质,除了软盘585和CD-ROM以外,还可以使用 诸如DVD或PD之类的光记录介质、诸如MD之类的》兹光记录介质、 磁带介质、诸如IC卡之类的半导体存储器。另外,通过使用在连接到 专用通信网络或因特网的服务器系统中所提供的诸如硬盘或RAM之类 的存储装置作为记录介质,可以从网络中输入程序。从上述配置例子可 以理解,任何类型的设备只要具有正常的计算功能都可以被用作实现本 发明的实施例所需要的硬件。例如,移动终端、便携式终端和家用电子 设备也是可应用的而不会有任何问题。
在本发明的实施例的优选的信息处理设备501上操作支持图形用户 接口 (GUI)多窗口环境的操作系统。这种操作系统的例子包括微软公 司所提供的Windows (R)操作系统、苹果公司所提供的Mac OS (R)、 和包括X Windowx系统的UNIX (R)系统(例如,国际商业机器公司 所提供的AIX(R))。此外,可以通过使用硬件、软件以及硬件和软件 的组合来实现本发明。使用硬件和软件的组合的实现的典型例子是使用
了具有预定程序的数据处理系统的实现。在这种情况下,预定程序被装 载到数据处理系统中并由该数据处理系统执行,并且因此该程序使得该 数据处理系统可以被控制来执行根据本发明的实施例的处理。该程序包 括可以用任意语言、代码和符号来表达的命令集合。
图5只是说明实现本实施例的计算机的硬件配置的例子,并且可以 使用其它各种配置,只要本实施例可以被应用到其上。上述部件被作为
t 、 、 、、 权利要求
1.一种用于评估趋势分析系统的装置,包括容许值输入单元,其用于接收假阳性的容许值和假阴性的容许值,所述假阳性是指数据片被判断为彼此相关,但是所述数据片实际上并不相关,所述假阴性是指数据片被判断为不相关,但是所述数据片实际上是彼此相关的;以及准确度计算单元,其用于计算所述系统的准确度,其中所述准确度计算单元包括权重确定单元,其用于读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间存在或不存在关联的正确信息的相关数据,以及用于通过使用所述包含正确信息的相关数据从假阳性和假阴性的所述容许值确定被分配给所述系统所做出的假阳性和假阴性的数目的权重;以及计算单元,其用于通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算所述系统的准确度。
2. 根据权利要求1所述的装置,其中用以下等式来计算所述准确 度(R):<formula>complex formula see original document page 2</formula>其中,P表示假阳性的数目,WP表示被分配给它的权重,N表示 假阴性的数目,WN表示被分配给它的权重,而S表示数据片的总数目。
3. 根据权利要求1所述的装置,其中所述权重确定单元是确定满 足以下条件的权重的权重确定单元满足如下条件对于在系统的准确 度之间不存在任何差异的情况下确定所述系统中不存在任何差异的概 率不小于默认概率;而且还满足如下条件对于在系统的准确度之间存 在差异的情况下,确定所述系统中存在差异的概率不小于默认概率。
4. 一种趋势分析系统,包括趋势分析系统;根据权利要求1所述的装置;以及参数调整单元,其用于根据所述准确度的增加或减少来调整所述系 统的参数。
5. —种用于评估趋势分析系统的方法,所述方法包括步骤 接收假阳性的容许值和假阴性的容许值,所述假阳性是指数据片被判断为彼此相关,但是所述数据片实际上并不相关,所述假阴性是指数 据片被判断为不相关,但是所述数据片实际上是彼此相关的;以及 计算所述系统的准确度,其中 所述准确度计算步骤包括以下步骤读取包含正确地指示了在存储装置中所存储的默认数据集里 所包括的各数据片之间存在或不存在关联的正确信息的相关数 据,以及接着通过使用所述包含正确信息的相关数据从假阳性和 假阴性的所述容许值确定被分配给所述系统所做出的假阳性和假 阴性的数目的权重;以及通过使用假阳性的数目、被分配给它的权重、假阴性数目、 被分配给它的权重和数据片的总数目来计算所述系统的准确度。
6. —种用于评估趋势分析系统的程序,所述程序使计算机执行以 下步骤接收假阳性的容许值和假阴性的容许值,所述假阳性是指数据片被 判断为彼此相关,但是所述数据片实际上并不相关,所述假阴性是指数 据片被判断为不相关,但是所述数据片实际上是彼此相关的;以及 计算所述系统的准确度, 其中所述准确度计算包括以下步骤读取包含正确地指示了在存储装置中所存储的默认数据集里 所包括的各数据片之间存在或不存在关联的正确信息的相关数 据,以及接着通过使用所述包含正确信息的相关数据从假阳性和 假阴性的所述容许值确定被分配给所述系统所做出的假阳性和假 阴性的lt目的坤又重;以及通过使用假阳性的数目、被分配给它的权重、假阴性的数目、 被分配给它的权重和数据片的总数目来计算所述系统的准确度。
全文摘要
本发明提供一种用于评估趋势分析系统的方法和装置,并且该装置包括容许值输入单元,其用于接收假阳性的容许值和假阴性的容许值;以及准确度计算单元,其用于计算系统的准确度。该准确度计算单元包括权重确定单元,其用于读取包含正确地指示了在存储装置中所存储的默认数据集里所包括的各数据片之间的存在或不存在关联的正确信息的相关数据,以及用于通过使用包含正确信息的相关数据从假阳性和假阴性的容许值确定被分别分配给该系统所做出的假阳性的数目和假阴性的数目的权重;以及计算单元,其用于通过使用假阳性的数目、被分配给它的权重、假阴性的数目、被分配给它的权重和数据片的总数目来计算系统的准确度。
文档编号G06F19/00GK101196907SQ200710192728
公开日2008年6月11日 申请日期2007年11月16日 优先权日2006年12月8日
发明者宅间大介, 竹内广宜 申请人:国际商业机器公司