一种单细胞测序数据的生成方法

文档序号:40355955发布日期:2024-12-18 13:33阅读:18来源:国知局
一种单细胞测序数据的生成方法

本发明涉及一种单细胞测序数据的生成方法,属于生物信息学。


背景技术:

1、细胞是生物体基本的结构和功能单位,为了研究发育中的胚胎、肿瘤、微生物等复杂的生物系统,需要了解构成系统的单个细胞的行为、细胞异质性及细胞间相互作用。随着科技的快速更迭,涌现出大量的以单细胞转录组主导的单细胞测序技术,传统的测序(bulkrna-seq)得到的是一群细胞的转录组平均数据,无法对单个细胞研究,目前研发的单细胞测序(scrna-seq)是在单个细胞水平上,对基因组、转录组及表观基因组水平进行测序分析的技术。单细胞多组学测序用于同时分析单个细胞的基因组、转录组、表观基因组和蛋白质组等多种生物大分子组成和特征。这项技术的发展使得研究人员能够深入了解单个细胞的功能和多样性。通过单细胞测序技术得到的数据,并对单细胞数据解析可以揭示生物学过程的机制和调控网络。单细胞数据维数高、存在信息冗余且包含大量噪声,因此造成了数据分析上的困难,对单细胞数据进行适当地降维以及特征选择可以有效地去除噪声并支撑可视化、聚类、轨迹推断等生物学下游分析。单细胞数据分析主要是数据预处理(降维、数据插补、批次矫正等)和生物学下游任务分析(聚类、细胞之间的通讯、轨迹分析等)。

2、单细胞技术能够研究组织中单个细胞的基因组学、转录组学和多组学,单细胞rna测序(scrna-seq)检测单细胞水平的基因表达等信息,使用单细胞测序技术得到的单细胞数据并不能直接应用于下游任务的分析,而是需要对这些数据进行降维、去噪、缺失值填充,高维的单细胞数据中存在大量的0值,这些0值的产生包括生物质0(即该基因在细胞中未表达)和技术误差(由于表达量低或其他因素未能检测到),数据中大量的缺失值会影响生物信号。单细胞数据通常来自多个实验,捕获时间、处理人员、试剂批次、设备甚至技术平台都有所不同。这些差异会导致数据异常或批次效应,很有可能在合并数据的过程中混淆细胞的特异性。随着scrna-seq数据的持续增长,因此实现有效的数据批次集成至关重要。

3、scrna-seq是高通量测序技术,在单个实验中分析数千到数百万个细胞,能够识别细胞类型、状态和群体中的异质性,提供基因表达信息不提供细胞的空间位置信息。转录组(st)数据是低通量测序技术,擅长捕获基因表达的空间信息,能够了解基因表达在组织切片中的分布,以及得到多个细胞的平均表达值,但是不能够得到单个细胞的表达值。st为解离细胞的scrna-seq提供关于基因表达和空间位置之间的补充信息。由于已经生成了大量的scrna-seq数据,因此希望通过利用从st学到的基因表达和空间位置的关系来恢复scrna-seq的细胞位置信息。对scrna-seq数据位置信息的恢复有助于下游任务分析,例如细胞与细胞间的通信。

4、scrna-seq数据的研究在诸多方面发挥着至关重要的作用,scrna-seq可帮助鉴定和描述异质细胞群中不同的细胞类型,识别癌细胞的异质性并开发个性化治疗,了解免疫细胞群的复杂性及其对刺激的反应,剖析干细胞的分化与调控以及发现干细胞的标志物,深入理解控制基因表达的调控网络等。

5、在对scrna-seq数据进行下游任务分析时,充足的高质量scrna-seq数据有助于研究人员得出相对正确的结论。但测序价格昂贵、稀有类型细胞测量精度低、数据隐私等因素都会影响测序数据的数量和质量,这很可能会影响后续分析的准确性。为解决这个问题,研究人员可以使用不同测序技术进行多次实验以收集更多的样本。这么做不但增加实验成本,不同测序平台数据的整合也会引入批次效应而导致数据质量的下降。另一方面,数据由于隐私保护等原因,研究人员也很难对现有数据进行扩充。


技术实现思路

1、本发明为解决现有技术中scrna-seq数据测序实验中成本高,难以对现有数据扩充的技术问题,进而提出一种单细胞测序数据的生成方法;

2、本发明为解决上述问题采取的技术方案是:本发明提出一种单细胞测序数据的生成方法,包括:

3、s1:构建深度神经网络模型;

4、s2:获取scrna-seq综合数据集;

5、s3、对所述scrna-seq综合数据集进行预处理;

6、s4:基于预处理后的scrna-seq综合数据集对深度神经网络模型进行训练;

7、s5:基于训练后的深度神经网络模型对待测数据的特征进行加噪、去噪和重构,生成单细胞测序数据。

8、可选的,s1中深度神经网络模型由编码器、扩散模块和解码器组成;

9、编码器和解码器组成自动编码器;

10、编码器用于对提取输入数据的基因表达数据特征;

11、扩散模块用于对提取的基因表达数据特征进行加噪和去噪;

12、解码器用于对去噪后的基因表达数据特征进行重构,生成单细胞测序数据。

13、可选的,s2中scrna-seq综合数据集包括多种测序技术下的scrna-seq数据集、具有多种属性的scrna-seq数据集和在伪时间节点下细胞生长发育的scrna-seq数据集。

14、可选的,多种测序技术下的scrna-seq数据集的获取步骤包括:

15、s20101:将深度神经网络模型在推理阶段跳跃步数设置为5,并与scdiffusion、cscgan、lsh-gan、scigan现有的4个生成模型做对比;

16、s20102:使用scc、pcc、wasserstein、mmd、ilisi指标评价这些模型生成的单细胞基因表达数据的质量以及使用umap可视化单细胞基因表达数据;

17、s20103:使用不同的测序技术,结合单细胞基因表达数据,获取多种测序技术下的scrna-seq数据集。

18、可选的,具有多种属性的scrna-seq数据集的获取步骤包括:

19、s20201:将muris_mam_spl_t_b数据集中的单细胞数据划分为器官类型和细胞类型,器官类型包括乳腺和脾脏,细胞类型包括b细胞和t细胞;

20、s20202:基于划分后的器官类型和细胞类型单细胞数据构建训练标签,训练标签包括乳腺t细胞、乳腺b细胞、脾脏t细胞、脾脏b细胞;

21、s20203:基于训练标签训练扩散模块,引导扩散模块生成多种属性的scrna-seq数据集。

22、可选的,在伪时间节点下细胞生长发育的scrna-seq数据集的获取步骤包括:

23、s20301:获取wadding-ot数据,选取wadding-ot数据中前15个时间节点的细胞状态,并将时间节点作为数据标签;

24、s20302:将深度神经网络模型在推理节点的跳跃步数设为5,使用wadding-ot数据中前15个时间节点细胞状态数据和数据标签对深度神经网络模型进行训练,获取在伪时间节点下细胞生长发育的scrna-seq数据集。

25、本发明在多种测序平台的数据集上,cfdiffusion都能生成高质量的scrna-seq数据,保证生成更高质量且具有多种属性的scrna-seq数据的基础上,大大减少了模型的训练成本和推理时间。

26、可选的,s3中对scrna-seq综合数据集进行预处理的步骤包括:

27、s301:将scrna-seq综合数据集转换为基因表达矩阵xn×m;

28、s302:对基因表达矩阵xn×m进行归一化操作,将基因表达矩阵xn×m中细胞的总技术缩放为10000.,加入一个偏移量1,并取对数,得到归一化后的基因表达矩阵sori;

29、归一化操作的表达式为:

30、

31、公式(1)中,x的行代表不同的细胞,共有n个细胞,x的列代表基因,每一个细胞共有m个基因。

32、可选的,s4中对深度神经网络模型进行训练的步骤包括:

33、s401:将归一化后的基因表达矩阵sori输入编码器,编码器采用2个mlp,sori经过编码器得到128维的嵌入层x0;

34、s402:将x0输入扩散模块中的全连接网络进行连续的加噪,通过反向扩散进行连续的去噪,输出去噪后的基因表达矩阵srec;

35、s403:将去噪后的基因表达矩阵srec输入解码器,解码器采用3个mlp,x0经过解码器得到与基因表达矩阵sori相同的维度的基因表达矩阵srec,并对基因表达矩阵srec进行重构,得到生成单细胞测序数据;

36、嵌入层x0的计算公式为:

37、x0=encoder(sori)   (2);

38、公式(2)中,encoder为编码器;

39、基因表达矩阵srec的计算公式为:

40、srec=decoder(x0)  (3);

41、公式(3)中,decoder为解码器;

42、对去噪后的基因表达矩阵srec进行重构的表达式为:

43、loss=mse(srec,sori)  (4)。

44、可选的,s402中扩散模块包括d1层、d2层、u1层、u2层、fg1层和fg2层;

45、输出去噪后的基因表达矩阵srec的步骤包括:

46、s40201:获取在t个时间步的嵌入xt,将时间信息t和标签信息y汇入全连接网络中的chunk中,基于每个chunk对x0进行更新,得到加噪后的x0;

47、本发明构建深度神经网络模型能够模拟伪时间尺度下的单细胞数据,为追踪细胞分化和发育轨迹、分析细胞间的通讯、揭示细胞的异质性等分析提供高质量的数据支持。

48、s40202:对扩散模块进行训练,得到反向扩散的扩散模块,设置跳跃的次数为3,在第t个时间步内,将x0中的xt输入训练后的全连接网络,得到去噪后的嵌入xt-1;

49、s40203:在第t-1个时间步内,xt-1经过d1层后直接经过u2层,计算得到去噪后的xt-2;

50、s40204:重复s40202-s40203,对噪声序列和跳跃过程进行更新,直至得到去噪后的x0;

51、本发明采用跳跃计算的方式加速深度神经网络模型的推理速度,增加了深度神经网络模型生成数据和原有数据的融合度。

52、去噪后的xt-2的计算公式为:

53、∈t-2=fc2{fc1[d1(xt-1,t-1,y)+u2(xsave,t-1,y)]}   (5);

54、xt-2=denoise(xt-1,∈t-2)  (6);

55、更新噪声序列和跳跃过程的表达式为:

56、

57、公式(7)中,为在t时间步编号为b-1的高水平特征。

58、可选的,s40202中获取反向扩散的扩散模块具体包括:

59、将扩散模块参数化为∈θ,并且在训练的过程中加入标签信息y,获取学习到的噪音∈θ,并在加噪后的x0减去学习到的噪音∈θ后,由贝叶斯公式去对数并引入超参数k得到反向扩散的扩散模块;

60、去噪后的xt为:

61、

62、贝叶斯公式以及取对数等的表达式为:

63、

64、引入一个超参数k得:

65、

66、公式(10)中,k用于调节生成数据的保真度和多样性,取值范围是(1,2)。

67、本发明的有益效果是:

68、1.本发明提出cfdiffusion模型,在diffusion模型的基础上,通过引入classifier-free方法和缓存高水平特征机制,在保证生成更高质量且具有多种属性的scrna-seq数据的基础上,大大减少了模型的训练成本和推理时间。

69、2.本发明在多种测序平台的数据集上,cfdiffusion模型都能生成高质量的scrna-seq数据。通过与其它最新的数据生成模型进行比较,cfdiffusion模型在多个评价指标上均表现出更优秀的性能。

70、3.本发明构建的cfdiffusion模型还能够模拟伪时间尺度下的单细胞数据,为追踪细胞分化和发育轨迹、分析细胞间的通讯、揭示细胞的异质性等分析提供高质量的数据支持。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1