特征分级的制作方法

文档序号:6456708阅读:240来源:国知局
专利名称:特征分级的制作方法
技术领域
本发明涉及模式发现(pattern discovery),特别地,涉及包括在所 述模式中的测量的分级(rating)。本发明找到了在生物信息学分类器评估 方面的特殊应用。
背景技术
最近,在关于人类基因组细节和基因如何在健康和患病对象中找到它 们的基因表达(expression)的可获得信息量巨大爆发。现在有实验室技 术能够迅速地获取大量的以DNA、 RNA、蛋白质和其他有机大分子在生物
学对象中的浓度为特征的测量组。
例如,微阵列(microarray)包括载玻片或载玻板,在其上放置c-DNA 或另一个结合物(binder)的微小样本"点,,的阵列。每个点包括特定的 c-DNA或其他与感兴趣的特定大分子绑定的结合物,单个的微阵列可包括 成百、成千或更多的这样的点。从病人提取组织样本,感兴趣的分子种
(molecular species)(例如,DNA、 RNA等)被提取,用发光信号剂或 其他标记(marker )处理,并在微阵列上被清洗。在被称为杂交的过程中, 组织中特别类型的大分子在具有连接那些特别的大分子的结合物的点上 聚集。典型地,使用不同标记(例如不同颜色的发光剂)处理的对比或参 考样本也被应用于微阵列。例如使用激光束激活标记以致产生光致发光
(photoluminescence ),并且检测反应强度以便表征与各种点关联的大分 子浓度。这样,包含在生物样本中大量的有机大分子(例如成百、成千或 更多)的化验(assay)得以迅速和定量地完成。
质镨分析是快速化验在从病人获取的样本中大量大分子浓度的另一 种方法。在该方法中,样本在真空环境中通过激光或其他机制被电离,电
离的分子碎片的分子量分布/电荷比率通过离子计数器得以测量。基于各 种大分子的已知裂化谱图(cracking pattern),各种大分子的浓度可从 质谱推导得出。可替换地,质谱的峰值可用作生物信息学测量数据,而不
将质语图与特定的大分子相关。
生物信息学使用数学方法从微阵列测量、质i普或者其他基因组或有机大分子化验提取有用的生物信息。例如,如果微阵列或质镨中的特定才莫式 能够与特定类型的癌症强烈地联系,则该模式能够被用作检测这种癌症的
分类器。这使得能够通过相对非入侵的技术,例如提:pL血液或脑脊液、获 取唾液、小便、大便等样本或者获取液体或组织样本,来早期检测癌症和 其他感兴趣的病理。
然而,由于可获得用于开发这种诊断医疗测试的大量信息,因而出现
了一个问题。例如,如果想开发使用2500个测量(例如使用5t)x50点阵 列的微阵列)中的五个测量(例如微阵列点、质i普峰值等)的癌症筛选测 试,则可用于诊断测试的、可能的五个样本测量子集的搜索空间为
、,、^Us.ixio'4,这太大了以至于不能通过穷尽技术来搜索。并且,
L 5 J 2495!5!
该估计假设五个测量的子集是用于正在开发的癌症篩选测试的最佳选择, 这也许不正确。测量的最佳子集可能是四个测量、六个测量等,并且通常 是未知的。
开发基因组诊断医疗测试的另 一个问题是测量的总数很大,而从其提
取这些测量的病人数通常小很多。例如,通常的研究可使用50 x 50的微 阵列和40个测试对象的测试组,在测试组中20个对象患有感兴趣的癌症, 20个对象是没有癌症的对照标准(control )。生成了 100, 000个测量的 大集合;然而,与很小的测试对象组大小相结合引起了这样的关注在测 量数据中也许存在许多错误的关联,这些关联与在普通人群中与感兴趣的 癌症没有关系。
从少数对象提取大量测量是为什么不能获取基于每个测量评估的有 用的测量分级的原因。为每个测量能获得的等级数受限于对象的数量,因 此少到不能评估每个测量。
因此,取代对每个测量进行分级,遗传算法已被用于计算对分类对象 有用的测量子集。在遗传算法中,生成初始一代染色体总体(initial generation chromosome population),其中每个染色体具有一纟且指示测 量组子集的基因。例如,使用由50 x 50的微阵列生成的测量组,相应于 由微阵列的2500个点提供的2500个测量的索引,每个基因具有在1和 2500之间的值。在单一染色体中的五个这样的基因适合地指定2500个测 量的5个测量的特定子集。分类器使用由染色体指定的基因来将对象分类 为两个或更多类别(例如癌症类别和非癌症类别)。优质系数(figure of merit)测量分类器在病人群中识别癌症的精确度,并且被用于选择染色体池中的最适合染色体以传播给下一代。类似于生物变异过程,通过基因
值随机或伪随机的改变,后代(offspring)染色体随后被变异。在许多 这样的变异和伪随机改变之后,染色体在它们将对象分类为两个或更多类
别(例如癌症类别和非癌症类别)的能力方面得以最优化。

发明内容
一种生成染色体的优化組的遗传算法或者任何其他合适的算法,每个 染色体包含基因。下文中,基因被称为特征,染色体被称为特征子集。表 示测量组的基因组此后被称为特征池。来自特征池的特征子集作为分类器 对于将对象分类为两个或更多类别是有用的,此后对象(例如病人或组织 样本)被称为研究对象,在该研究对象上进行测量。原则上,由遗传算法 生成的特征最优化子集当涉及到它们将研究对象划分为两个或更多类别 的有效性时具有类似的性能。然而,遗传算法不根据特征在将研究对象分 类方面的有效性将来自特征池的特征分级。
具有一种将来自特征池的特征分级的方法将是有益的,该方法能够解 决涉及特征与数据的错误相关性的问题,该问题出现在当在特征池中的特 征数量远大于(例如一个或多个数量级)可获得用于评估这些特征的研究 对象的数量时。
为了解决该问题,在本发明的一个方面中,提供了一种计算来自特征 池至少一个特征的等级的方法,该方法包括
- 获取多个特征子集,其中每个特征子集包括来自特征池的特征;和
- 基于在特征子集中至少一个特征的出现,计算来自特征池至少一个特 征的等级。
来自特征池的特征的多个特征子集可通过任何合适的方法来获取,例 如基于遗传算法的方法。获得的多个特征子集包括适合用于将研究对象分 类的特征子集。典型地,来自多个特征子集的特征子集当涉及到它们在将
研究对象分类方面的有效性时具有突出地高性能。因此,包括在所获得的 特征子集中的特征可被认为在将研究对象分类的方面是有用的。可选地, 多个特征子集可以被获得以便,例如研究对象组的至少 一半分类器具有大 于50%的基于研究对象组的性能分级(performance rating),基于来自 多个特征子集的特征子集定义每个分类器。来自特征池的特征的等级将取 决于所述特征出现在其中的特征子集的数量。在本发明的核心存在一种推 测在来自多个特征子集的许多特征子集中出现的特征典型地比在来自多个特征子集的较少特征子集中出现的特征在分类研究对象方面更有用。这 个推测已在大量实验中得以证实。因此,该方法被有利地应用于来自特征
池的特征的分级。基于计算的特征等级,包括了一流(top-rank)特征的 新的特征子集将得以创建,该一流特征潜在地在分类研究对象方面比来自 特征池的特征子集更有用。对于来自特征池的分级特征这样的列表,可能
有许多其他有利用途。
此外,来自特征池的每个特征结合其他特征内在地考虑其分类能力是 本发明的一个优点。对于每个特征子集,包括在所述特征子集中的各个特 征关于它们在研究对象分类方面的性能是内在互补的。
建立用于获取多个特征子集的选择标准和建立计算特征等级的方法 的过程打开了一条通向找到有用特征的有力道路。可选地, 一流的特征将 被并入不太可能是假的的新的特征子集。因此,本发明提供了一种找到与 研究对象分类中类别更可能真正关联的重要特征和特征子集的方法,例如 找到在对病人临床情况分类方面描述生物标志物有用的重要特征和特征 子集的方法。
在本方法的实现中,根据进化计算算法获取多个特征子集。对于很大 的特征池,所有特征子集的数量很大。因此评估特征池的每个特征子集是 不可行的。进化计算算法能够生成基于它们的能力被最优化的特征子集来 分类研究对象组。有利地,进化计算算法考虑包括在特征子集中多个特征 的结合能力来获取研究对象的有用分类。
在本方法的实现中,获取多个特征子集包括基于选择标准从多个候选 特征子集中选择多个特征子集。这使得从例如通过进化计算算法产生的多 个候选特征子集中选择最佳的多个特征子集成为可能。
在本方法的实现中,来自多个候选特征子集的每个候选特征子集与各 个候选特征子集的特性相关联,并且选择标准基于所述各个候选特征子集 的特性评估。使用候选特征子集的特性有助于从多个候选特征子集选择最 优的多个特征子集。
在本方法的实现中,计算来自特征池的至少一个特征的等级进一步基 于该至少一个特征在多个特征子集中出现的频率。具有相对较高出现频率 的特征(即在许多特征子集中出现的特征)获得比具有相对较低出现频率 的特征(即在较少特征子集中出现的特征)更高的等级。
在本方法的实现中,来自多个特征子集的每个特征子集与各个特征子 集的特性相关联。特征子集的特性将被有利地用于根据特征子集在计算包括在特征子集中特征的等级的有效性来评估该特征子集。例如,基于特征 特性的权重将被分配给来自多个特征子集的每个特征子集。
在本方法的实现中,计算来自特征池的至少一个特征的等级进一步基
于与来自多个特征子集的各个特征子集相关联的特性。特征子集对至少一 个特征的等级的贡献可由基于与所迷特征子集相关联的特性的权重给出。
在本方法的实现中,来自特征池的至少一个特征的等级是4艮据来自特 征池的两个或更多特征在来自多个特征子集的特征子集中的同时出现而 计算的。例如,在特征子集中总是一起出现的两个特征将获得更高的等级, 这样考虑了在分类研究对象方面的它们的结合能力。
在本方法的实现中,该方法进一步包括基于至少一个特征的计算等级 创建分级特征的列表。该分级特征的列表在创建用于分类研究对象的最优 特征子集方面将非常有用。
在本发明的另 一个方面中,提供了 一种用于计算来自特征池至少一个
特征的等级的模块,该模块包括
- 用于获取多个特征子集的获取单元,其中每个特征子集包括来自特 征池的特征;和
- 用于基于至少一个特征在特征子集中的出现,计算来自特征池的至 少一个特征的等级的计算单元。
在本发明的另一个方面中,提供了一种计算机程序产品,用于当所述 计算机程序产品在计算机上运行时指令处理单元执行权利要求1的方法。
总的来说,本发明的各种实现、实施例和方面可以任何可能的方式在 本发明的范围中被组合和结合。参考以下描述的实施例,本发明的这些和 其他方面、特征和/或优点将变得显而易见和得以阐明。
在本说明书的J^出上,与本方法的所描述的修改和它的变形对应的模 块和/或计算机程序产品的修改和它的变形能够由本领域技术人员实现。
附图概述
将参考附图,仅以示例的方式描述本发明的实施例和实现,其中 图l是计算来自特征池至少一个特征等级的方法的实现的流程图;和 图2图示地解释了用于计算来自特征池至少一个特征等级的模块的 实施例。
具体实施例方式
7

图1是计算来自特征池至少一个特征等级的方法io的示例实现的流
程图。方法10从获取1多个特征子集开始,每个特征子集包括来自特征
池的特征。在获取l多个特征子集后,方法基于该至少一个特征在特征子
集中的出现继续计算2来自特征池的特征的等级。如果来自特征池的特征 在来自多个特征子集的数个特征子集中出现,其中该数可以是预定义的或 者基于用户输入,那么该特征可被分级为相关的并获得例如等级l。如果 来自特征池的特征没有在来自多个特征子集的任何特征子集中出现,该特 征可被分级为不相关的并获得等级0。在计算2特征的等级后,方法10 可基于另一个特征在特征子集中的出现,计算2来自特征池的该另一个特 征的等级。该方法继续计算2特征等级,直到终止计算2特征等级的条件 满足,例如当来自特征池的所有特征都被分级时。 一旦终止计算2特征等 级的条件被满足,方法10终止。
在方法10的实现中,该方法进一步包括基于至少一个特征的计算等 级,创建3分级特征的列表。该分级特征的列表可被用来确定例如用于分 类研究对象的有用特征子集。
在方法10的实现中,特征的多个特征子集根据进化计算算法得以获 得。进化计算算法的一个例子是遗传算法。尽管参考遗传算法描述本发明 方法10的实现,但本发明的范围并不限制于这类算法。总的来说,任何 产生多个特征子集的算法可由方法10使用。这样的算法包括,但不限于, 进化算法、进化编程、演进策略、遗传编程、迭代本地搜索和学习分类器 系统。
遗传算法运行典型地包括几个实验。每个实验从特征子集的不同初始 整体(initial ensemble)开始。特征子集的这个整体被称为特征子集的 第一代。来自特征子集初始整体的每个特征子集可包括从特征池中随机选 择的特征。在从研究对象的学习组分类研究对象方面的有效性方面,评估 来自特征子集整体的每个特征子集。基于该评估的性能分级可^f皮分配给该 特征子集。在每个评估后,通过变异操作、交换(crossover)操作和/ 或其他操作,包括在特征子集全体中的每个特征子集可被修改,从而在每 个特征子集中潜在有用的特征被保留,而潜在地没用的特征从每个特征子 集中被删除。特征子集的更新整体被称为下一代,例如特征子集的第二代、 第三代等。包括在特征子集更新整体中的每个被修改的特征子集被再次评 估。修改-评估循环的迭代继续,直到终止条件被满足。终止条件可以基 于更新前后特征子集整体的比较。在遗传算法中,当^^改前后特征子集中包括的特征子集类似时,修改-评估循环的迭代被终止。每个实验可包括 多个所谓的软重启。当终止修改-评估迭代循环迭代的终止条件发生时, 可以执行软重启。在每个软重启时,包括在特征子集整体中的每个特征子 集被再次随机初始化,即从特征子集中移除一些特征并且来自特征池的一 些特征被加入特征子集,但是至少一个特征子集,典型地具有最佳性能分 级的那个,被保持完整。在已经执行了预定次数的软重启之后,可以终止 实验。在名为"一种用于基于染色体的医疗诊断测试优化的遗传算法
(Genetic algorithms for optimization of genomics-based medical diagnostic tests)"公开专利申请W02005/078629中描述了一种遗传算 法,通过引用它被结合于此。遗传算法的其他方面和它们的应用在由 D.Schaffer、 A.Janevski 和M.Simpson在 2005 IEEE Symposicum on Computational Intelligence in Bioinformatics and Computational Biology学报(CIBCB 2005, La Jolla, CA, USA, 2005 )中公开的论文
"一种用于在分子测量数据中发现诊断模式的遗传算法方法(A Genetic Algorithm Approach for Discovering Diagnostic Patterns in Molecular Measurement Data)"中得以描述,通过引用该论文被结合于 此。
在方法10的实现中,获取1多个特征子集包括通过执行遗传算法创 建特征子集。多个特征子集可通过运行或多次运行遗传算法得以获取。在 运行期间生成的多个特征子集可被存储在存储装置中,以便它们能够被本 发明的方法IO检索。
在方法10的实现中,获得的多个特征子集包括所有通过遗传算法的 运行生成的子集。因此,多个特征子集包括所有包括在特征子集初始整体、 在遗传算法每次软重启时特征子集的更新整体和包括在遗传算法运行中 每个实验中的特征子集。
在方法10的实现中,获得1多个特征子集包括基于选择标准从多个 候选特征子集中选择多个特征子集。多个候选特征子集可包括由运行遗传 算法生成的所有子集,而多个特征子集可包括例如在每次软重启之后预定 义数目的修改-评估循环迭代中生成的特征子集。例如,在终止标准满足 之前包括在修改-评估循环最后100次迭代中的特征子集可被包括在多个
特征子集中。
在方法10的实现中,来自多个候选特征子集的每个候选特征子集与
各个候选特征子集的特性相关联,并且选择标准基于所述各个候选特征子集特性的评估。例如,候选特征子集的特性可通过遗传算法计算。由遗传 算法计算的特性的例子包括在评估期间特征子集的性能分级、特征子集的 大小和特征子集的最大年龄(即包括该特征子集的特征子集的连续更新整 体的最大数目)。例如,每个候选特征子集可基于它的性能分级和/或它的
最大年龄得以评估。其性能分级高于分级阈值的特征子集和/或其最大年 龄高于年龄阈值的特征子集可被包括在多个特征子集中。
在方法10的实现中,获取1多个特征子集包括将来自多个候选特征 子集的特征子集聚合(group)在一起。例如,包括来自特征池中相同特 征的、由运行遗传算法生成的所有那些候选特征子集可被认为是一个特征 子集,并且只有这个特征子集可被包括在多个特征子集中。可选地, 一个 特征子集的特性可根据包括相同特征的候选特征子集的各个特性得以计 算。可选地, 一个特征子集的特性可包括由运行遗传算法生成的、包括相 同特征的特征子集的数量。
本领域的技术人员将理解描述的获取多个特征子集的方法用于解释 本发明,而不限制权利要求的范围。
在方法10的实现中,计算2来自特征池至少一个特征的等级进一步 基于该至少一个特征在多个特征子集中的出现频率。特征a的等级L可等 于来自多个特征子集的子集数,其中该特征被包括
^ = ,
其中求和在来自多个特征子集的所有特征子集A上运行,并且其中如果 m」,L(。)为l,在其他情况下为0。
在方法10的实现中,来自特征的多个特征子集的每个特征子集与各
个特征子集的特性相关联。例如,每个特征子集的特性可由遗传算法得以 计算。由遗传算法计算的特性的例子包括在评估期间特征子集的性能分 级、特征子集的大小和特征子集的最大年龄(即包括该特征子集的特征子 集连续更新整体的最大数目)。
在方法10的实现中,计算2来自特征池至少一个特征的等级进一步
基于与来自多个特征子集的每个特征子集相关联的特性。例如,与每个特 征子集A相关联的特性可以是特征子集A的性能分级p (A )。性能分级p (A )可被定义为来自由特征子集A正确分类的有效研究对象组的一小部 分研究对象。来自特征池的特征a的等级ra可被定义为其中求和在来自多个特征子集的所有特征子集A上运行。与每个特征子集 A关联的特性可以是特征子集的大小s (A)。例如,才艮据特征子集的大小 s (A)对特征a的每次出现进行加权f。
/(
在方法10的实现中,来自特征池至少一个特征的等级根据来自特征 池两个或更多特征在来自多个特征子集的特征子集中的同时出现得以计 算。在这种情况下,特征的同时出现,即成对、三个一组的出现,将被计 数。
在方法10的实现中,基于由特征池和多个特征子集定义的类同网络 (affinity network),来自特征池两个或更多特征在来自多个特征子集 的特征子集中的同时出现被评估。基于特征池和多个特征子集定义的类同 网络包括节点。类同网络的每个节点相应于来自特征池的特征。如果一个 特征子集存在于多个特征子集中,类同网络的两个节点由边缘(edge )连 接,以便相应于这两个节点的特征被包括在所述特征子集中。来自特征池 的特征也可以被称为类同网络上下文中的节点。类同网络和它们的参数可 在http: 〃arxiv. org/PS—cache/cond-mat/pdf/0608/0608670. pdf可获得 的、Jari Saramaki等人的名为"加权复杂网络聚类系数的概述 (Generalizations of the clustering coefficient to weighted complex networks ),,的论文中得以描述。
类同网络可由邻接矩阵来描述。类同网络的邻接矩阵是包括元素Mab 的矩阵,其中指数a、 b是类同网络的节点。如果两个节点a和b由边缘 连接,邻接矩阵元素NL等于1,否则等于O。
描述类同网络(尤其是加权类同网络)的另一个矩阵是权重矩阵。权 重矩阵包括元素Wab,其中指数a、 b是类同网络的节点。权重矩阵元素W" 等于a和b特征对在多个特征子集中出现的频率。权重矩阵元素W化定义 了连接节点a和b的边缘的权重。
提议了用于描述类同网络和加权类同网络的节点的几个参数。例如, 节点a的度(degree) ka被定义为、-ZM。6;节点a的强度(strength)
33被定义为&=2;^^ ,节点a的聚类系数被定义为c^^^,其中ta 是将节点a作为三角形的顶点(triangle vertex)的三角形的数目,_^。以上^t定义中的求和在类同网络的所有
4 (、 - )) 2
节点b或b和C上运行。类同网络和加权类同网络的参数可被用于计算在
类同网络中节点(即来自特征池特征)的等级。例如,节点a的度或强度 被用作出现频率的权值,。=、^ )或者^=5。2> 。可替换地,类同
爿 爿
网络或加权类同网络的参数可被用来定义特征的等级r。 = c。或者r。=《。 在方法10的实现中,来自特征池特征的多个等级被计算。不同的等 级可被结合以便计算另一个等级。可选地,不同的等级可被用于创建分级 特征的不同列表。在特殊应用中使用的分级特征列表的创建和选择可基于 各种因素,例如获取将由来自特征分级列表中的特征分类的研究对象的外 部条件(例如温度、压力、湿度、污染),或者从中获取研究对象的研究 对象人群(例如农民、女人、男人)。
在实现中,方法10包括获取1两个或更多特征子集。每个多个特征 子集包括来自特征池的特征。例如,每个多个特征子集可从遗传算法的两 次或多次运行获取。对于每个多个特征子集,来自特征池的特征等级被计 算。该实现使得基于两个或更多等级值将特征分类为三组成为可能 对于每个多个特征子集一致具有高等级的特征——必须具有的 (must-haves )。例如,如果等级是由在多个特征子集中特征出现的频率 定义,那么必须具有的是一直出现在每个多个特征子集大多数子集中的特 征。
对于一些多个特征子集具有高等级并且对于来自两个或更多多个特征子 集的其他多个特征子集具有相对低的等级的特征一一交换的(swaps )。例 如,如果等级是由在多个特征子集中特征出现的频率定义,那么交换是一 直出现在来自 一些多个特征子集的大多数特征子集的、相对经常缺席来自 其他多个特征子集的特征子集的特征,和
对于来自两个或更多多个特征子集的每个多个特征子集一直具有低等级 的特征——填充的(padders)。
基于特征等级值统计分布的参数计算,可以实现将特征分类为三组, 必须具有的、交换的和填充的。例如,参数可以是等级值的平均和标准差。 显示出大平均和相对小的标准差的特征是必须具有的。显示出例如与必须 具有的具有相同等级量级的类似平均差,但相对大标准差的特征是交换 的。最后,显示出小平均和小标准差的特征在分类研究对象方面没用,是
12填充的。
图2解释了用于计算来自特征池至少一个特征的等级的^^莫块20的示 意性实施例。该模块的示例实施例包括
- 用于获取多个特征子集的获取单元21 ,每个特征子集包括来自特征池 的特征;和
- 用于基于至少一个特征在特征子集中的出现,计算来自特征池至少一 个特征的等级的计算单元22。
模块20的示例实施例进一步包括
- 用于基于至少一个特征的计算等级,创建分级特征列表的列表单元 23;
- 用于接收输入数据的输入连接器27;
- 用于传输输出数据的输出连接器28;
- 用于存储通过输入连接器27从外部设^^接收的输入数据和由模块20 的单元计算的数据的存储器单元25;和
醫用于连接模块20的单元的存储器总线26。
该模块可包括其他的单元,例如用于基于选择标准从多个候选特征子 集中选择多个特征子集的选择单元。
本发明可由任何合适的形式实现,包括硬件、软件或固件实现,或者 这些的任意组合。本发明或本发明的一些特征可被实现为在一个或多个数 据处理器和/或数字信号处理器上执行的计算机程序产品。本发明实施例 的元件或组件可以以任何合适的方式物理地、功能地和逻辑地实现。模块 20的功能性可在单一的单元或多个单元中得以实现。
虽然结合特定的实施例来描述本发明,但并不意欲将其限制为在此阐 述的特定形式。相反的,本发明的范围仅由附加的权利要求书限制。在权 利要求书中,术语"包括"不排除其他元件或步骤的存在。此外,虽然单 独的特征被包括在不同的权利要求中,但是这些特征可能被有利地組合, 且包括在不同的权利要求中并不意味着特征的组合是不可行的和/或没有 益处的。除此之外,单数术语并不排除复数。因此,术语"一个"、"第一"、 "第二"等并不排除复数。并且,在权利要求书中的附图标记不应当被解 释为对它范围的限制。
权利要求
1.一种计算来自特征池的至少一个特征的等级的方法,该方法包括-获取(1)多个特征子集,每个特征子集包括来自特征池的特征;和-根据至少一个特征在特征子集中的出现,计算(2)来自特征池的至少一个特征的等级。
2. 根据权利要求l的方法,其中,多个特征子集通过进化计算算法 得以获取。
3. 根据权利要求1的方法,其中,获取多个特征子集包括基于选择 标准从多个候选特征子集选择多个特征子集。
4. 根据权利要求3的方法,其中,来自多个候选特征子集的每个候 选特征子集与相应候选特征子集的特性相关联,并且其中选择标准基于对 所述相应候选特征子集特性的评估。
5. 根据权利要求1的方法,其中,计算来自特征池的至少一个特征 的等级进一步基于至少 一个特征在多个特征子集中出现的频率。
6. 根据权利要求l的方法,其中,来自多个特征子集的每个特征子 集与所述特征子集的特性相关联。
7. 根据权利要求6的方法,其中,计算来自特征池的至少一个特征 的等级进一步基于与来自多个特征子集的相应特征子集相关联的特性。
8. 根据权利要求l的方法,其中,基于来自特征池的两个或更多特 征在来自多个特征子集的特征子集中的同时出现,来自特征池的至少一个 特征的等级得以计算。
9. 根据权利要求1的方法,进一步包括基于至少一个特征的计算等 级,创建(3)分级特征的列表。
10. —种用于计算来自特征池的至少一个特征的等级的模块(20), 该模块包括- 用于获取多个特征子集的获取单元(21 ),每个特征子集包括来自特 征池的特征;和- 用于基于至少一个特征在特征子集中的出现,计算来自特征池的至少 一个特征的等级的计算单元(22 )。
11. 一种计算机程序产品,用于当所述计算机程序产品在计算机上 被运行时,指令处理单元执行权利要求1的方法。
全文摘要
本发明涉及一种计算来自特征池的至少一个特征的等级的方法,该方法包括获取(1)多个特征子集,每个特征子集包括来自特征池的特征;和基于至少一个特征在特征子集中的出现,计算(2)至少一个特征的等级。例如,至少一个特征的等级可基于该至少一个特征在多个特征子集中出现的频率。因此,该方法可被有利地应用于分级来自特征池的特征。包括一流特征的新的特征子集可根据计算的特征等级值得以创建,一流的特征潜在地比来自特征池的特征子集更有用。对于这种来自特征池的分级特征列表,可有许多其他的有益用途。
文档编号G06N3/00GK101558419SQ200780046259
公开日2009年10月14日 申请日期2007年12月6日 优先权日2006年12月13日
发明者A·A·J·简夫斯基, J·D·沙弗, M·R·辛普森 申请人:皇家飞利浦电子股份有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1