本发明涉及一种细胞周期时间的预测方法、设备及系统。
背景技术:
1、细胞周期是细胞生长和分裂发生的一系列事件,完整的细胞周期包括四个不同的阶段。已知细胞周期参与基本的生物学过程的发生,在多种系统(如,人,植物和鼠)中证实,细胞周期与发育和分化有着重要的关系。此外,细胞周期过程的失调是癌症的主要特征,同时也是癌症治疗的重要靶点。对于单细胞转录组数据而言,造成基因表达差异的原因除了技术噪音外,细胞类型和细胞周期无疑是最大的原因,尤其在以上提及的发育或者癌症治疗的研究中,细胞周期通常被认为是混淆因素,因此正确地刻画细胞周期阶段,定量细胞周期效应,并校正对于下游的分析以及充分理解生物学问题至关重要。
2、目前通过实验方法获取细胞周期阶段的信息是目前常用的手段。首先是流式细胞仪染色法,通常采用流式细胞技术分选并富集出不同周期阶段的细胞,然后再分别进行建库测序,其原理是采用dna染料标记后,基于不同的细胞周期阶段dna含量的不同进行分选。其次是,基于成像的荧光检测法,该方法基于遗传操作的策略,通过在不同细胞周期阶段差异表达的基因中插入荧光探针(fucci技术,结合荧光成像进行细胞周期的确定。这些实验方法费时费力,处理的细胞数目有限,并且具有侵入性,可能会对细胞的后续研究带来干扰。再者,这些方法获得的是离散的细胞周期四个阶段的分类,是一种分辨率低的表征。
技术实现思路
1、为解决上述问题,本发明提供了一种预测细胞周期时间的方法,它是从获取的细胞测序表达数据中提取特征基因表达矩阵,采用余弦函数拟合特征基因表达矩阵,并计算特征基因表达的似然函数,根据最大化似然函数确定细胞所处的时间段。
2、进一步地,所述似然函数的计算公式为:
3、
4、其中,p(xij|t)=normpdf(xij;gi(t);σi)
5、gi(t)=si(k)
6、k=t*(n+1)
7、
8、为余弦函数对应的曲线的相位,其取值范围[0,2π];n为[0,2π]等间距份数;i为矩阵的周期特征数目;j为样本数;x为特征基因表达矩阵。
9、进一步地,所述似然函数通过马尔科夫链蒙特卡洛采样,构造并平稳分布马尔科夫链,得到最大化似然函数。
10、进一步地,所述细胞为单细胞、细胞系或组织样本来源的细胞。
11、更进一步地,它通过细胞周期时间预测模型实现,所述细胞周期时间预测模型包括如下步骤:
12、s1:收集细胞测序表达数据,预处理得周期基因表达矩阵信息;
13、s2:采用奇异值分解对步骤s1所得基因表达矩阵信息降维,再用计算数据集的香农熵提取得特征基因细胞的矩阵;
14、s3:采用余弦函数拟合特征基因表达矩阵,并计算特征基因表达的似然函数,根据最大化似然函数确定细胞所处的时间段。
15、进一步地,s1所述预处理是先标准化细胞测序表达数据,再采用log2转换标准化后的数据,最后用先验细胞周期基因数据库cyclebase 3.0提取周期基因表达矩阵信息。
16、本发明所述“标准化”是基于基本原理:数值减去平均值,再除以其标准差,得到均值为0,标准差为1的服从标准正态分布的数据。原始数据经过数据标准化处理后,各指标处于同一数量级,适合进行综合对比评价。
17、本发明所述“细胞所处的时间段”的范围为[0,2π],其中[0,2π]与一个细胞周期对应。
18、本发明还提供了一种预测细胞周期时间的装置,所述装置包括获取单元、处理单元和输出单元;
19、所述获取单元用于获取细胞测序表达数据;
20、所述处理单元用执行如前述的方法,得到细胞周期特征;
21、所述输出单元用于输出细胞周期阶段的时间,数值范围为0-2π。
22、进一步地,所述细胞为单细胞、细胞系或组织样本来源的细胞。
23、本发明还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序用于使计算机执行如前述的预测细胞周期时间的方法和/或前述的步骤。
24、本发明最后提供了一种用于预测细胞周期时间的系统,包括通过数据线和/或数据接口连接的如下设备:
25、细胞测序表达数据采集和/或输入设备;
26、前述的设备。
27、本发明提供了一种预测细胞周期时间的方法,该方法是基于细胞测序数据的细胞周期信息挖掘的方法,该方法利用细胞群体异质性的特点,建模进行细胞周期预测,省时省力。经试验证明,本发明适用于任何无标签的细胞测序数据,准确率明显优于现有预测方法。
28、显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
29、以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
1.一种预测细胞周期时间的方法,其特征在于:它是从获取的细胞测序表达数据中提取特征基因表达矩阵,采用余弦函数拟合特征基因表达矩阵,并计算特征基因表达的似然函数,根据最大化似然函数确定细胞所处的时间段。
2.根据权利要求1所述的方法,其特征在于:所述似然函数的计算公式为:
3.根据权利要求1或2所述的方法,其特征在于:所述似然函数通过马尔科夫链蒙特卡洛采样,构造并平稳分布马尔科夫链,得到最大化似然函数。
4.根据权利要求1所述的方法,其特征在于:所述细胞为单细胞、细胞系或组织样本来源的细胞。
5.根据权利要求1~4任一项所述的方法,其特征在于:它通过细胞周期时间预测模型实现,所述细胞周期时间预测模型包括如下步骤:
6.根据权利要求5所述的方法,其特征在于:s1所述预处理是先标准化细胞测序表达数据,再采用log2转换标准化后的数据,最后用先验细胞周期基因数据库cyclebase 3.0提取周期基因表达矩阵信息。
7.一种预测细胞周期时间的装置,其特征在于:所述装置包括获取单元、处理单元和输出单元;
8.根据权利要求7所述的方法,其特征在于:所述细胞为单细胞、细胞系或组织样本来源的细胞。
9.一种计算机可读存储介质,其特征在于:其上存储有计算机程序,所述计算机程序用于使计算机执行如权利要求1-6任一项中所述的预测细胞周期时间的方法和/或权利要求7所述的步骤。
10.一种用于预测细胞周期时间的系统,其特征在于,包括通过数据线和/或数据接口连接的如下设备: