专利名称:发现曲线分析系统及其程序的制作方法
技术领域:
本发明涉及对遗传基因的发现曲线进行分析等的发现曲线分析系统及其程序。本申请根据在2009年3月16日在日本申请的特愿2009-063273号而主张优先权,在此引用其内容。
背景技术:
随着染色体组分析研究的进展,功能未知的新遗传基因被大量确认,必须弄清其功能,为了得到揭示其功能的信息,使用了与发现条件(表示出发现遗传基因的条件的信息)对应的遗传基因的发现模式。为此,通过EST、MPSS, SAGE、CAGE等,进行了以下这样的处理,即网罗地对从疾病患者、病理模型动物的组织或培养细胞等中取得的大量(数万水平)的遗传基因的发现进行分析。S卩,在根据信使RNA(以下称为mRNA)的计数数目进行的遗传基因分析中,通过根据遗传基因的发现模式的特征,利用遗传基因发现曲线分析,来进行对象的全部遗传基因的分类。一般,通过使用由η个遗传基因构成的mRNA,利用从k个独立的实验条件所得到的 mRNA的发现频度的数据,从而η个遗传基因分别成为k维特征空间中的具有k维特征向量的坐标点。因此,η个遗传基因分别根据各自的特征向量,而成为上述特征空间中的η个坐标点的集合。上述发现曲线分析是指对在上述特征空间中标绘的坐标点,即在特征空间上成为类似的遗传基因之间,进行分组而分类。通过上述分组的处理,例如得到在处于正常状态的健康人中所发现的遗传基因在任意疾病的患者中没有发现、或者发现量增加或者减少了等对于疾病的患者是特异的发现曲线,从而能够检测出健康人所没有而与疾病相关的特有的遗传基因。这样,遗传基因发现曲线成为为了预测功能未知的遗传基因的功能而使用的重要的工具。在遗传基因发现曲线分析中,使用了对遗传基因发现比的指标进行了矩阵化的数据作为分析对象的数据。例如,将在各行中排列所评价的遗传基因群,在各列中分别排列采样群(成为标的的表现型),该行和列就是遗传基因发现曲线。另外,采样更具体地是指通过不同的多个调查个体或同一个体中的Time Course实验而检测到的表现型等。例如,在用50个个体检测100种遗传基因的发现量时,矩阵A的要素Aij (i行j列的值、1 ( i ( 100、1 ( j ( 50) 表示与第i个遗传基因有关的第j个个体所显示出的发现量。在从遗传基因发现曲线分析中的巨大量的采样所得到的结果的分析中,需要一种用于更有效地分析其结果而迅速地发现目标遗传基因的信息处理技术。以前,作为这样的技术,例如进行了分类(clustering)分析、主成分分析等特别多变量的分析、系统的分析 (例如参考非专利文献1、非专利文献2)。另外,对异常基因发现量(发现比)进行对数变换来进行遗传基因发现曲线分析。具体地说,对数变换将发现水平的比(发现比、ratio)作为对数变换的指标(例如 log2 (ratio)等),主要在通过微配列(microarray)实验,在采样之间比某遗传基因的发现水平的情况下被使用。作为进行该对数变换的理由,例如如果是log2(rati0)变换,可以列举出能够将-2、-1、0、1、2、1倍为中心将1/4倍、1/2倍、1倍(等发现)、2倍、4倍这样的发现比变换为等尺度,研究者容易理解、在进行统计分析的基础上是妥当的等。但是,有以下这样的跨学科的问题,即由研究机构、研究者对该对数的底使用2、e、10等是没有统一性的,无法对在Web上等公开的数据之间进行直接比较。另外,在分类分析中,可以根据多维的特征向量将具有类似的遗传基因发现曲线的遗传基因群或采样群分割为同一类(cluster)。为此,在分类分析中,通过被广泛利用的阶段性分类(Ewing等,1999,Genome Res. 9 :950-959的研究等),由于计算量的增加而难以通过通用的计算机等进行分析。另外,一般根据现在的巨大量的EST数据来预测数千到数万个发现遗传基因。作为对遗传基因模式的分类分析结果的代表性的表现方法的树状图是用于从视觉捕捉遗传基因之间的发现模式的类似性的有用的表现方法(后述的图8, "van t Veer, L. J. , Dai, H. , van de Vi jver, M. J. , He, Y. D. , Hart, Α. A. , Mao, Μ. , Peterse, H. L,van der Kooy,K.,Marton, Μ. J.,Witteveen, A. T.,et al,(2002) Gene Expression profiling predicts clinical outcome of breast cancer,Nature,415,530-536,,中的图1),但遗传基因个数为数千个以上的情况下,难以将树状图全体输出到计算机监视器或印刷纸上,为了根据大规模的树状图解释结果就需要大量的劳力。即,阶段性分类也具有以下这样的缺点等,即伴随着遗传基因个数的增加而计算量增加,另外依存于所给出的数据组而树状图的拓扑逻辑容易发生变化,随着矩阵大小的增加而分析时间急剧加长,需要计算机的CPU和存储器。另外,在Kmeans法、SOM(Self Organizing Maps)法中,与阶段性分类相比,能够通过少的计算机资源进行分析。但是,在进行分析时,需要预先决定类别(cluster)数,是主观的方法。另外,在作为多变量分析的一个的主成分分析方法中,虽然能够高速地执行计算, 但由于并不是对曲线的分析方法,所以无法根据所得到的分数对发现曲线进行比较。另外,还有以下这样的问题点,即难以视觉地掌握通过上述各方法得到的巨大量 (万的级别)采样、遗传基因的类别。因此,现在主要进行以下的操作,即根据Pearson的相关系数等从大规模类别中只取出成为目标的类别。但是,对于研究者来说,所得到的类别的观察器并不容易理解(参考图8)。上述图8所示的被称为two-dimensional-display的观察器是纵横(或相反)地将各遗传基因和各采样排列起来。另外,进行了视觉化使得各单元(cell)的颜色、该颜色的浓淡表示所对应的采样 遗传基因发现的强弱。另外,主成分分析是直接对遗传基因发现曲线的数值的大小进行比较的统计方法,能够进行更高速的分析。但是,在主成分分析中,进行高速分析的结果是输出了与调查对象的表现型无关的家政(houseke印ing)遗传基因相对于各主轴输出了不同的分数(score)(坐标那样的数据),因此在绘制为散布图的情况下,也难以进行检测。非专利文献1: 了解!使用! DNA微配列数据分析入门,羊土社,Steen Knudsen (著),盐岛聪(翻译),迁本豪三(翻译),松本治(翻译)非专利文献2 数据必出DNA微配列实战手册-基本原理,从芯片制造技术到生物信息学,羊土社,岡琦康司(编集),林琦良英如上所述,在分析法中存在各种问题,但分析时间(处理时间)长,另外对微量的遗传基因发现比检测力低(与量化性状相关的遗传基因的检测力低)的问题很大。具体地说,在遗传基因发现曲线分析中,对超过103的巨大量的数据进行处理来进行分析。但是,难以使用通常的计算机迅速地计算这样巨大量的数据。其结果是分析时间长。另外,在以前主要使用的阶段性分类方法中,为了缩短计算时间/简化,主观地关注采样之间的发现比是数倍以上或数倍以下的遗传基因群。这基于以下这样的期望,即越是发现量2 3倍地有很多变化的遗传基因越是明显地对采样之间的表现型的差异产生影响。但是,在该阶段性分类方法中,即使发现比人为地不同,但差异小的遗传基因也从分析对象中被排除了。其结果是例如极其难以检测出与量化性状相关的遗传基因。即,在该方法中,在要检测的表现型不是定性的而是定量的情况下,无法检测出与该表现型相关的遗传基因中的遗传基因发现量的比极少变化的遗传基因。即,在现有的方法中,无法全部检测出与目标的表现型有关的遗传基因。如上所述,在现有分析的状况下,由于不存在网罗地发现发现比极少变化的遗传基因这样的视点,所以在现有的分析方法(对数变换)中,不存在对微量的遗传基因发现比的检测力低这样的问题本身。另外,在以前检测不出来的与量化性状相关的遗传基因中,包含重要的新遗传基因的可能性高。因此,开发出有效地发现与量化性状相关的遗传基因的新大规模分析工具是必要不可缺的。
发明内容
因此,本发明鉴于上述现有的问题,其目的在于提供一种发现曲线分析系统及其程序,即使在使用了通常的计算机的情况下也能够迅速地分析巨大量的发现曲线数据,同时与现有技术相比,通过对遗传基因的发现模式进行可视化,能够容易地分析出新遗传基因是否具有与任意库的遗传基因接近的功能。本发明的发现曲线分析系统是对遗传基因的发现曲线数据进行分析的发现曲线分析系统,其特征在于包括存储部件,与评价遗传基因对应地,将遗传基因的多个发现条件的每一个的从评价对象的上述评价遗传基因中发现的mRNA的计数数目存储为发现数据;对应分析处理部件,针对每个上述评价遗传基因,从上述存储部件中读出上述发现数据,根据发现数据的每个发现条件的计数数目,进行对应分析;坐标变换处理部件,根据通过对应分析所得到的η (η是自然数)维的分数,将各评价遗传基因变换为配置为m(m是自然数,m^ η)维的坐标值;图像处理部件,描绘为与每个上述遗传基因对应的坐标值而显示在图像显示部件上。理想的是在本发明的发现曲线分析系统中,在对应分析的处理中包含功能已知的已知遗传基因,根据该已知遗传基因和与上述评价遗传基因的上述η维坐标的距离,而进行功能与上述已知遗传基因类似的评价遗传基因的抽出处理。理想的是在本发明的发现曲线分析系统中,在对应分析的处理中作为虚拟遗传基因而包含只根据各发现参数发现的上述已知遗传基因,将该虚拟遗传基因的坐标作为表示通过上述η维所显示的图形中的只有任意一个发现参数的发现条件的顶点。理想的是在本发明的发现曲线分析系统中,还包括类似发现条件检索部件,求出配置在上述顶点的上述虚拟遗传基因的坐标与上述评价遗传基因的坐标的距离,针对上述顶点的坐标,抽出位于预定距离内的坐标的评价遗传基因。理想的是在本发明的发现曲线分析系统中,还包括数据显示部件,通过选择与上述评价遗传基因、上述已知遗传基因对应的坐标,而从上述存储部件中读出被配置在该选择出的遗传基因的图像的坐标位置上的遗传基因相关的信息并显示。理想的是在本发明的发现曲线分析系统中,上述坐标变换处理部件在由对应分析处理部件所求出的各维中,从行分数的贡献率高的维开始对该贡献率进行累计,将累计结果的累计贡献率与预先设置的阈值进行比较,由此通过一维、2维和3维的任意一个来显示由上述顶点构成的图形。理想的是本发明的发现曲线分析程序是对遗传基因的发现曲线数据进行分析的发现曲线分析系统,其特征在于通过计算机执行以下的处理对应分析处理,分析处理部件针对每个上述评价遗传基因从存储部件中读出发现数据,根据发现数据的每个发现条件的计数数目,进行对应分析,其中,存储部件,与上述评价遗传基因对应地,将遗传基因的多个发现条件的每一个的从评价对象的上述评价遗传基因中发现的mRNA的计数数目存储为发现数据;坐标变换处理,坐标变换处理部件根据通过对应分析所得到的η (η是自然数)维的分数,将各评价遗传基因变换为配置为m(m是自然数,m^ η)维的坐标值;图像处理,图像处理部件描绘为与每个上述遗传基因对应的坐标值而显示在图像显示部件上。如以上说明的那样,根据本发明,通过根据评价对象的评价遗传基因的每个发现条件的mRNA数的计数值进行对应分析,通过与各个发现模式对应的坐标值来将各评价遗传基因配置在空间(分析空间)中,通过可显示的维显示在图像显示部件上,因此,能够得到以下这样的效果用户能够上述图像显示部件的显示画面上容易地抽出由评价遗传基因的每个发现条件的计数数目构成的发现模式的发现曲线接近的形状(一致或类似)的,即功能类似的遗传基因。另外,根据本发明,能够得到以下这样的效果通过将只按照任意一个发现条件而发现的特异遗传基因的发现模式包含在由分析对象(评价对象)的评价遗传基因构成的评价遗传基因群中,由此由于各特异遗传基因成为表示各发现条件的标志,所以用户能够容易地在上述图像显示部件的显示画面上确认是否能够明确地发现各分析对象的评价遗传基因将哪个发现条件作为主要因素。另外,根据本发明,通过由用户输入上述空间的任意距离,选择特异遗传基因,类似发现条件检索部件抽出包含在以该特异遗传基因为中心以上述距离为半径的球内的评价遗传基因,因此能够容易地抽出具有由用户设定的距离所对应的类似性的评价遗传基因。另外,根据本发明,能够得到以下这样的效果由于通过将功能已知的已知遗传基因包含在由评价遗传基因构成的评价遗传基因群中,各已知遗传基因成为表示遗传基因的功能的发现条件的标志,所以用户能够容易地在上述图像显示部件的显示画面上确认各评价遗传基因是否具有与已知遗传基因的功能接近的功能。另外,根据本发明,能够得到以下这样的效果由于通过选择显示在上述图像显示部件的显示画面上的各遗传基因的显示图像,而将各遗传基因的遗传基因配列/测定条件等与遗传基因有关的信息显示在上述图像显示部件的显示画面上,所以能够在显示得很多的信息中容易地确认关注的遗传基因的固有信息。另外,根据本发明,能够得到以下这样的效果由于根据通过对应分析的结果所得到的多维的累计贡献率,来设定通过1维、2维还是3维进行图像显示,所以在图像显示部件的显示画面上识别类似性变得容易(在此,在2维的情况下,发现条件在2维平面上,被描绘为对于2个条件O个主轴)将特异地发现的描绘位置的顶点之间连接起来的直线,或者以该描绘位置为顶点而形成的多角形。在该情况下,描绘位置为2维坐标)。
图1是表示本发明的一个实施例的发现曲线分析系统的结构例子的框图。图2是表示存储在图1的存储部件7中的发现数据表的结构例子的概念图。图3是表示存储在图1的存储部件7中的分数表的结构例子的概念图。图4是表示存储在图1的存储部件7中的坐标表的结构例子的概念图。。图5是表示在3维空间中显示出以与5个发现条件对应的特异遗传基因的显示图像为顶点的五面体,用线将该五面体的各顶点连接起来,并且在顶点的近旁显示出表示发现条件的字符串的图像的概念图。图6是表示在3维空间中显示出以与5个发现条件对应的特异遗传基因的显示图像为顶点的五面体,用线将该五面体的各顶点连接起来,并且在顶点的近旁显示出表示发现条件的字符串的图像的概念图。图7是表示在3维空间中显示出以与5个发现条件对应的特异遗传基因的显示图像为顶点的六面体,用线将该六面体的各顶点连接起来,并且在顶点的近旁显示出表示发现条件的字符串的图像的概念图。图8是表示现有的分析系统中的遗传基因的发现曲线的分析结果的显示工具的显示画面的概念图。附图标号1 对应分析处理部件;2 坐标变换处理部件;3 图像处理部件;4 图像显示部件;5 类似发现条件检索部件;6 数据显示部件;7 存储部件
具体实施例方式以下,参考附图,说明本发明的一个实施例的发现曲线分析系统。本实施例的发现曲线分析系统基于根据从遗传基因的发现曲线数据所得到的每个发现条件的计数值所进行的对应分析(例如,大隅升,L. Lebart,其他著,记述的多变量分析法,1994,日科连出版社记载),推测、确定、预测与预先设定的表现型相关的遗传基因。另外,上述“发现曲线数据”是指各个实验材料,例如在细胞中发现的多个遗传基因的mRMNA的发现模式,换一种说法,就是表示由遗传基因的种类、其各自的发现量(或每个发现条件的计数值)构成的数据的集合体。另外,以下,将各个发现曲线数据简单地说明为发现数据、遗传基因发现数据。另外,在作为每个发现条件的计数值的情况下,表示构成发现条件的各条件的计数值,在作为发现条件的发现模式的情况下,表示形成构成发现条件的每个条件的计数值的模式。另外,上述“表现型”是指与各遗传基因的性格相关联的任意的性质,包含定性的指标、定量的指标。例如,对于与疾病相关联的指标可以列举疾病的名称、原因、进展状况、 预后、残年或病症、再发、转移的可能性等,但并不特别限定于此。另外,本实施例的发现曲线系统是以下这样的系统,即能够高效地迅速地处理通 ji EST(Expressed Sequence Tag) Λ MPSS(Massively Parallel Signature Sequencing)Λ SAGE (Serial Analysis of Gene Expression)以及 CAGE (Cap Analysis Gene Expression) 等所得到的巨大量的遗传基因的各发现条件的mRNA的发现数,即发现曲线数据。在本实施例中,上述发现条件是指对遗传基因的由来(任意的动物、该动物的任意生物体部分等)、 发现时的环境等的发现量进行比较的参数。S卩,通过发现曲线实验、特别是根据使用大量的发现数据所得到的每个发现条件的计数值所进行的对应分析,能够对与任意的发现型相关的遗传基因进行分析,推测出与该发现型相关的遗传基因。特别地,从遗传基因发现的从mRNA利用逆转录酶逆转录反应而合成的从cDNA克隆而得到的cDNA配列、发现遗传基因断片EST、另外从下一代高速序列产生器得到的发现遗传基因的配列除了转录产物的数组信息以外,还能够得到遗传基因所发现的生育阶段、 器官、组织等的信息。即,这意味着通过针对1个以上的生物物种,进行EST的配列和由来 (生育阶段、器官)的信息收集和调查,能够进行生物物种固有的发现遗传基因的探索,乃至生殖和应力响应、植物的光合作用、从根的养分水分吸收等与各种生物学过程相关联的遗传基因的探索。近年来,通过许多研究者,动植物、微生物的EST分析正在发展,登记在国际碱基配列数据库中的EST条目数从2000年10月当时的约623万件以指数函数增长到 2008年11月当时的约5834万件。另外,近年来,首先广泛使用了利用下一代高速时序产生器的大规模发现分析。这些EST、从下一代高速时序产生器所得到的信息的积蓄使得遗传基因的发现模式的详细分析和有用的遗传基因的推测成为可能。另一方面,为了从这样的大规模数据中引出有用信息,不开发出通过多数研究者所利用的通用计算机能够处理的统计分析方法和工具,就无法灵活利用所积蓄的基础信息。
以下,说明本实施例的发现曲线分析系统。图1是表示该实施例的发现曲线分析系统的结构例子的框图。在该图中,发现曲线分析系统具备对应分析处理部件1、坐标变换处理部件2、图像处理部件3、图像显示部件4、类似发现条件检索部件5、数据显示部件6和存储部件7。在本实施例中,将各遗传基因的每个发现条件(库)的mRNA的发现数目的计数值作为发现数据。因此,被用为该发现条件的每个发现条件的mRNA的计数值可以是通过上述EST、MPSS、 SAGE和CAGE的任意一个得到的数值。如图2所示,在存储部件7中存储有发现数据表,它与所分析的遗传基因名对应地在该遗传基因中表示出多个发现条件的每一个,例如发现条件A、发现条件B、发现条件C、 发现条件D、发现条件E的每个的发现了的mRNA的计数数目。对应分析处理部件1从存储部件7中顺序地读入作为各遗传基因的发现数据的每个发现条件的上述mRNA的计数值,根据由每个读入的发现条件的发现数据即计数值构成的发现模式,进行对应分析。简单地说明对应分析处理部件1中的对应分析。该对应分析与主成分分析一样, 是决定用于说明η维数据的主轴的分析方法。在本实施例中,对应分析处理部件1使用从存储部件7的数据表读入的遗传基因的发现数据,求出可以说明表现型(性状等)的不同的1个或多个主轴。S卩,对应分析与简单地缩减进行比较的维数的主成分分析不同,不是将各个数据的量或大小作为分析对象,而是将数据矩阵的曲线(发现条件的发现量,即计数值的模式) 作为分析对象,使得不损失发现模式,即作为多维数据的发现数据的本质性信息量(遗传基因的每个发现条件的计数数目的集合即发现模式)。由此,具有类似的活动的遗传基因并不是只根据任意一个发现条件的发现量而检测出的,而是与各发现条件所对应的mRNA的计数值的曲线近似这样的具有类似的功能的遗传基因。因此,对应分析对于从每个该发现条件的计数值的曲线即发现曲线抽出具有类似的活动的遗传基因群这样的目的来说,是有用的。其结果是发现模式具有相同的发现曲线的遗传基因被配置(描绘)在空间的同一坐标上(表示发现条件的计数值的分布相同或者类似的程度),能够容易地从巨大量的发现数据中抽出发现的曲线近似的遗传基因或遗传基因群。对于上述的对应分析中的分布的等同性(同样还是类似),可以将后述成为发现模式的分类指标的虚拟遗传基因(例如为了进行功能分类而明确地具有该功能并且具有成为分类的基准的发现模式的已知遗传基因)附加到上述发现数据表中(将后面说明通过附加该虚拟遗传基因而使被描绘曲线的遗传基因群(或遗传基因)的分析的位置具有意义)。依照对应分析的计算方法,对应分析处理部件1为了求出各遗传基因的发现数据的发现模式,而进行相对频度的计算。在此,如果设与q个遗传基因相关的P种发现条件的发现数据qXp矩阵的i行j列的要素为ki j,则作为向相对频度的变换,对应分析处理部件 1根据以下所示的式⑴的第i行的列和ki.与式⑵的第j行的行和k. j的相乘结果,对各要素kij进行除法运算。在此,ρ和q是2以上的自然数。由此,能够与全部行和列相等地对每个发现条件的计数值附加加权,根据不是强度而是由发现曲线的每个发现条件的计数值的直方图形成的模式形状,能够抽出功能类似的遗传基因。式(1)
权利要求
1.一种发现曲线分析系统,是对遗传基因的发现曲线数据进行分析的发现曲线分析系统,其特征在于,包括存储部件,与评价遗传基因对应地,将遗传基因的多个发现条件的每一个的从评价对象的所述评价遗传基因中发现的mRNA的计数数目存储为发现数据;对应分析处理部件,针对每个所述评价遗传基因,从所述存储部件中读出所述发现数据,根据发现数据的每个发现条件的计数数目,进行对应分析;坐标变换处理部件,根据通过对应分析所得到的η维的分数,将各评价遗传基因变换为配置为m维的坐标值,其中,η是自然数,m是自然数,m^n;图像处理部件,描绘为与每个所述遗传基因对应的坐标值而显示在图像显示部件上。
2.根据权利要求1所述的发现曲线分析系统,其特征在于在对应分析的处理中包含功能已知的已知遗传基因,根据该已知遗传基因和与所述评价遗传基因的所述η维坐标的距离,而进行功能与所述已知遗传基因类似的评价遗传基因的抽出处理。
3.根据权利要求2所述的发现曲线分析系统,其特征在于在对应分析的处理中作为虚拟遗传基因而包含只根据各发现参数发现的所述已知遗传基因,将该虚拟遗传基因的坐标作为表示通过所述η维所显示的图形中的只有任意一个发现参数的发现条件的顶点。
4.根据权利要求3所述的发现曲线分析系统,其特征在于,还包括类似发现条件检索部件,求出配置在所述顶点的所述虚拟遗传基因的坐标与所述评价遗传基因的坐标的距离,针对所述顶点的坐标,抽出位于预定距离内的坐标的评价遗传基因。
5.根据权利要求2 4的任意一个所述的发现曲线分析系统,其特征在于,还包括数据显示部件,通过选择与所述评价遗传基因、所述已知遗传基因对应的坐标,而从所述存储部件中读出被配置在该选择出的遗传基因的图像的坐标位置上的遗传基因相关的信息并显示。
6.根据权利要求2 5的任意一个所述的发现曲线分析系统,其特征在于所述坐标变换处理部件在由对应分析处理部件所求出的各维中,从行分数的贡献率高的维开始对该贡献率进行累计,将累计结果的累计贡献率与预先设置的阈值进行比较,由此通过1维、2维和3维的任意一个来显示由所述顶点构成的图形。
7.一种发现曲线分析程序,是对遗传基因的发现曲线数据进行分析的发现曲线分析系统,其特征在于,通过计算机执行以下的处理对应分析处理,分析处理部件针对每个所述评价遗传基因从存储部件中读出发现数据,根据发现数据的每个发现条件的计数数目,进行对应分析,其中,存储部件,与所述评价遗传基因对应地,将遗传基因的多个发现条件的每一个的从评价对象的所述评价遗传基因中发现的mRNA的计数数目存储为发现数据;坐标变换处理,坐标变换处理部件根据通过对应分析所得到的η (η是自然数)维的分数,将各评价遗传基因变换为配置为m(m是自然数,m^ η)维的坐标值;图像处理,图像处理部件描绘为与每个所述遗传基因对应的坐标值而显示在图像显示部件上。
全文摘要
本发明提供一种发现曲线分析系统,即通过通常的计算机高速地分析从下一代高速时序产生器、类似的实验方法等得到的大量的发现曲线数据,将遗传基因的发现模式可视化,容易地对新遗传基因是否具有与任意的遗传基因接近的功能进行分析。本发明的发现曲线分析系统是对遗传基因的发现曲线数据进行分析的发现曲线分析系统,包括存储部件,与评价遗传基因对应地,将遗传基因的多个发现条件的每一个的从评价对象的每个评价遗传基因中发现的mRNA的计数数目存储为发现数据;对应分析处理部件,针对每个评价遗传基因,从存储部件中读出发现数据,根据发现数据的每个发现条件的计数数目,进行对应分析;坐标变换处理部件,根据通过对应分析所得到的n(n是自然数)维的分数,将各评价遗传基因变换为配置为m(m是自然数,m≤n)维的坐标值;图像处理部件,描绘为与每个遗传基因对应的坐标值而显示在图像显示部件上。
文档编号G06F19/20GK102349075SQ20108001200
公开日2012年2月8日 申请日期2010年3月16日 优先权日2009年3月16日
发明者清水顕史, 矢野健太郎 申请人:公立大学法人滋贺县立大学, 学校法人明治大学