1.本发明属于单细胞分析技术领域,具体涉及一种模块化的单细胞快速分析系统构建方法。
背景技术:
2.单细胞分析技术是一种具有高灵敏度、高选择性、高时空分辨等特点的新型细胞研究技术,目前常见的单细胞分析技术有单细胞分离、单细胞测序(single cell sequencing)等。
3.单细胞分离常用的方法有流式细胞分离法。单细胞测序技术是指在单个细胞水平上,对基因组、转录组、表观组进行高通量测序分析的一项新技术。它能够揭示单个细胞的基因结构和基因表达状态,反映细胞间的异质性,在肿瘤、发育生物学、微生物学、神经科学等领域发挥重要作用,正成为生命科学研究的焦点。且该技术由于灵敏度和准确度高,非常适用于生物学和医学检测。但现在的单细胞分析没有形成体系,且分析过程差别较大,因此需要构建一种模块化的单细胞快速分析系统。
技术实现要素:
4.为了克服上述现有技术的不足,本发明提供了一种模块化的单细胞快速分析系统构建方法,该方法用于构建一种模块化的单细胞快速分析方法,形成单细胞分析体系,降低分析过程的差异性。
5.为实现上述目的,本发明提供如下技术方案:一种模块化的单细胞快速分析系统构建方法,具体内容如下:将分选出来的单细胞进行高通量测序,获得原始数据(raw data),对原始数据进行预处理(质控),数据标准化分析,细胞分群分析,细胞亚群分析及细胞测序分析流程。
6.优选的,所述模块化的单细胞快速分析系统中对原始数据进行预处理包括:细胞数量判断、基因组对比、表达量统计、数据过滤。
7.优选的,细胞数量判断的方法为:对细胞测序信息进行归一化后,统计总的细胞数量。
8.优选的,基因组比对方法为:以cell barcode对应的reads为研究对象,采用短序列比对算法,将测序获得的序列比对到物种对应的基因组上,并得到比对结果bam文件。接着基于bam文件进行信息统计,得到基因组比对率等信息。
9.优选的,所述表达量统计的方法为:以基因组比对后的bam文件以及基因组注释文件为研究对象,将比对到同一基因上的umi进行合并,并去除其中重复的umi序列,得到每个基因的umi数量,统计每个细胞中检测到的基因数以及转录本数量,并得到表达量矩阵表。将测序信息采用短序列比对算法比对到对应基因组后,获得每个细胞内基因的表达值,并生成表达矩阵。
10.优选的,所述数据过滤方法为:以基因组比对结果以及表达量结果为研究对象,对
测序检测到的细胞进行过滤,去除细胞中基因检测数少、线粒体基因占比大的细胞,统计过滤后的细胞数量并得到对应的表达量矩阵表。
11.优选的,所述模块化的单细胞快速分析系统中的数据标准化的方法为:基于筛选得到的cell barcode及对应的reads,采用短序列比对算法,将测序数据比对到物种对应的基因组上,获得基因组比对的bam文件,并基于bam文件进行信息统计,得到基因组比对率等信息,每个细胞中检测到的基因数以及转录本数量,得到表达量矩阵表,对标准化结果采用t-sne/umap对结果进行降维展示。
12.优选的,所述模块化的单细胞快速分析系统中的细胞分群的方法为:对细胞进行去批次效应,将细胞测序信息进行归一化,然后通过pca降维分析,选取多个维度采用graphcluster聚类算法对细胞进行无监督聚类后的分群。
13.优选的,所述细胞亚群分析包括细胞特征基因分析、特征基因功能富集分析和特征基因信号通路富集分析,所述细胞特征基因分析的方法为:对于每个细胞亚群,将基因表达值与其他所有亚群做比较,获得每个亚群中差异高表达的基因,并且按照log2foldchange从大到小排列选取排名靠前的若干基因作为候选特征基因。
14.优选的,所述模块化的单细胞快速分析系统中的细胞测序信息分析流程包括:marker基因鉴定、差异基因筛选、基因群体功能分析(marker gene ontology(marker go))、基因群体进行信号通路分析(markerpathway)、细胞类型鉴定(celltypeanalysis)、细胞类型显著性分析(easysc_dbcelltype)、基因关联性分析(gene module)、不同功能性基因集的激活程度分析(quantitative setanalysis for gene expression,(qusage))、转录因子调控分析(single cell regulatory network inference and clustering,scenic)、细胞间通讯分析(cell phone)、细胞间的状态转换关系(pseudotime)获取和在时间维度上预测细胞进程(velocityanalysis)。优选的,所述基因组比对方法为:以cell barcode对应的reads为研究对象,采用短序列比对算法,将测序获得的序列比对到物种对应的基因组上,并得到比对结果bam文件。接着基于bam文件进行信息统计,得到基因组比对率等信息。
15.本发明的技术效果和优点:本方法提供了一个模块化的单细胞快速分析系统,能够快速实现单细胞的快速分析。
具体实施方式
16.接下来结合一些具体实施案例对本发明作进一步的阐述,但本发明的权利要求不仅仅局限于下述实例。
17.实施例
18.对新鲜的组织样本通过酶解等方式制备单细胞,对分选出的单细胞进行高通量测序,获得原始数据(raw data),对原始数据进行预处理(质控),然后对细胞进行细胞测序信息分析,获得质控后细胞测序数据信息;根据细胞测序数据信息对数据标准化,将细胞分群,并对细胞类型进行判断;对分类后的细胞进行功能描述、细胞演化和机制分析,对细胞生物信息进行分析。
19.对原始数据进行预处理包括:细胞数量判断、基因组对比、表达量统计、数据过滤。细胞数量判断方法为:以测序数据为研究对象,采用barcode处理算法,对测序数据中的
cell barcode信息及其对应的counts数进行统计,判断测序样本中实际检测到的细胞数量,获得样本的测序细胞数,并根据最终确认的cell barcode信息提取对应的reads。基因组比对方法为:以cell barcode对应的reads为研究对象,采用短序列比对算法,将测序获得的序列比对到物种对应的基因组上,并得到比对结果bam文件。接着基于bam文件进行信息统计,得到基因组比对率等信息。表达量统计方法为:以基因组比对后的bam文件以及基因组注释文件为研究对象,将比对到同一基因上的umi进行合并,并去除其中重复的umi序列,得到每个基因的umi数量,统计每个细胞中检测到的基因数以及转录本数量,并得到表达量矩阵表。数据过滤方法为:以基因组比对结果以及表达量结果为研究对象,对测序检测到的细胞进行过滤,去除细胞中基因检测数少、线粒体基因占比大的细胞,统计过滤后的细胞数量并得到对应的表达量矩阵表。
20.数据标准化方法为:以表达量表为研究对象,采用数据标准化方法(cpm/rle/uq/tmm/scran/downsampling等),对不同样本间的数据量进行标准化,得到标准化后的表达量矩阵表;细胞分群的方法为:将细胞测序信息进行归一化,然后通过pca降维分析,选取10个维度采用graphcluster聚类算法对细胞进行无监督聚类后的分群,具体方法为:对于线粒体和基因数量或者细胞周期进行回归后获得scale date,基于scale date进行初次降维获得pca,基于pca的结果选择最主要代表差异的pca的面做t-sne分析。其中从normalization data获得variable,再计算scale data,再根据variablegene(可变基因)和scaledata计算pca。
21.细胞测序信息分析流程包括:marker基因鉴定、差异基因筛选、基因群体间维度上预测细胞进程(velocityanalysis);marker基因鉴定为:以细胞分群结果为研究对象,鉴定不同细胞亚群中的marker基因,并对marker基因的表达分布进行可视化展示;差异基因筛选为:以细胞分群结果为研究对象,针对特定细胞亚群,进行细胞亚群间差异表达基因筛选,获得细胞亚群间差异表达基因;通过采用差异筛选算法,会计算得到单细胞的cluster的marker gene群体,并通过这些marker基因我们可以对于每一个细胞群体所属的细胞类群进行推测以及鉴定。基因群体功能分析(marker go)为:以marker基因/差异基因为研究对象,采用ncbi/uniprot/swissprot/amigo等go数据库,对于基因群体进行功能分析得到该基因群体所显著性富集的功能条目;基因群体进行信号通路分析为:以marker基因/差异基因为研究对象,采用kegg数据库,对于基因群体进行信号通路分析(markerpathway),得到该基因群体所显著性富集的信号通路条目;细胞类型鉴定(celltypeanalysis)为:依托cellmarker数据库(人、小鼠)对于分群结果进行细胞类型鉴定;细胞类型显著性分析(easysc_dbcelltype)为:采用fisher精确检验,根据cell marker数据库中记载的marker基因对细胞所属的细胞类型进行显著性打分;不同功能性基因集的激活程度分析(qusage)为:采用方差膨胀因子(vif)诊断共线性的方法对于诸如kegg基因集、gsea基因集、甚至研究者自己搜集的基因集在cluster中的富集度进行分析,比较不同cluster所富集的基因集的差异。转录因子调控分析(scenic)分析为:一种以单细胞数据为基础推断其中的转录因子调控网络(gene regulatory network)以及其相关细胞状态(cell state)的工具。基于转录因子靶点数据库,转录因子以及其靶基因在目标细胞群体中的表达情况,计算每一个转录因子在细胞中的调控基因以及其调控强度(aucell score);基于已知的转录因子靶点数据库(或者rcistarget and grnboost等转录因子motif数据库),以及转录因子和靶基因
的表达矩阵,采用scenic算法,对于转录因子的调控网络进行计算,得到在每一个细胞中表达的转录因子的调控基因以及调控强度。通过该分析,能得到不同的细胞群体所受到的转录因子的调控情况,可能可以找到每一个cell cluster的特异性转录因子;细胞间通讯分析为:以细胞亚群的基因表达量数据为研究对象,获得细胞中的配体及受体基因的表达信息,采用cellphonedb算法以及数据库,得到细胞亚群间的信号通讯(cell phone)关系,并计算获得关系的显著性和强度;细胞间的状态转换关系获取为:以细胞的表达量数据为研究对象,采用monocle2等算法,在虚拟时间轴上对细胞的变化模式进行分析,模拟重建细胞的动态变化过程,获得细胞间的状态转换关系;在时间维度上预测细胞进程(velocityanalysis)为:以基因组比对文件为研究对象,采用velocyto算法,通过计算基于单细胞测序的转录本剪接情况,预测单个细胞的演化方向,得到细胞间的转变过程。
22.细胞数量判断的方法为:对细胞测序信息进行归一化后,统计总的细胞数量。表达量统计的方法为:将测序信息采用短序列比对算法比对到对应基因组后,获得每个细胞内基因的表达值,并生成表达矩阵。细胞亚群分析包括细胞特征基因分析、特征基因功能富集分析和特征基因信号通路富集分析,所述细胞特征基因分析的方法为:对于每个细胞亚群,将基因表达值与其他所有亚群做比较,获得每个亚群中差异高表达的基因,并且按照log2foldchange从大到小排列选取排名靠前的若干基因作为候选特征基因。
23.最后应说明的是:以上所述仅为本发明的优选实施例而已,并不用于限制本发明,尽管参照前述实施例对本发明进行了详细的说明,对于本领域的技术人员来说,其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。