本技术涉及rna测序,具体涉及一种rna测序数据的校正方法、装置、电子设备及存储介质。
背景技术:
1、转录组测序(rna_seq)技术基于第二代高通量dna测序技术,提供了单碱基水平的全转录本信息,转录组测序技术发展到现在,已经成为了分子生物学领域中不可或缺的工具。如今,rna-seq技术被广泛的应用于基因表达定量、转录起始位点识别、非编码rna功能鉴定以及单细胞分析等多个领域。
2、高通量测序数据的积累,使得对大量公共转录组测序数据进行集成分析,从中发现生物学规律变得更加可行,但如何校正大规模数据集中的由批次效应产生的噪声数据成为了首要的问题。
技术实现思路
1、为了解决上述技术问题,本技术提供一种rna测序数据的校正方法、装置、电子设备及存储介质。
2、根据本技术实施例的第一方面,提供了一种rna测序数据的校正方法,包括:
3、利用预先构建的校正模型,对rna测序数据进行校正处理,获得校正后的rna测序数据,其中,所述对rna测序数据进行校正处理,用于消除所述rna测序数据中的噪声数据;
4、所述校正模型基于对变分自编码器的训练获得;所述变分自编码器包括所述校正模型,所述变分自编码器用于提取rna测序样本中的噪声信息分布和校正后的rna测序样本中的生物学信息分布,并结合所述噪声信息分布和所述生物学信息分布,对所述rna测序样本进行解码还原处理,获得还原后的rna测序样本;
5、所述变分自编码器,至少基于所述还原后的rna测序样本和所述rna测序样本,以及针对所述噪声信息分布和所述生物学信息的判别结果训练得到;其中,针对所述噪声信息分布和所述生物学信息分布的判别,包括:判别所述噪声信息分布中的噪声信息和生物学信息,以及判别所述生物学信息分布中的噪声信息和生物学信息。
6、在本技术的一种可选实施方式中,所述校正模型,包括:第一编码器和第一解码器;
7、利用预先构建的校正模型,对rna测序数据进行校正处理,获得校正后rna测序数据,包括:
8、利用所述第一编码器对所述rna测序数据进行生物学维度的编码处理,获得所述rna测序数据的生物学信息分布;
9、利用所述第一解码器对所述生物学信息分布进行解码还原处理,获得所述校正后的rna测序数据。
10、在本技术的一种可选实施方式中,所述校正模型通过以下方式进行训练:
11、对所述rna测序样本进行噪声维度的编码处理,获得所述rna测序样本的噪声信息分布;
12、对所述校正后的rna测序样本进行编码处理,获得所述rna测序样本的生物学信息分布;
13、对所述噪声信息分布和所述生物学信息分布进行联合解码还原处理,获取还原后的rna测序样本;
14、基于所述rna测序样本与所述还原后的rna测序样本之间的差异,对所述变分自编码器进行优化,以训练所述校正模型。
15、在本技术的一种可选实施方式中,所述对所述rna测序样本进行噪声维度的编码处理,获得所述rna测序样本的噪声信息分布;对所述校正后的rna测序样本进行编码处理,获得所述rna测序样本的生物学信息分布;对所述噪声信息分布和所述生物学信息分布进行联合解码还原处理,获取还原后的rna测序样本,包括:
16、利用第二编码器对所述rna测序样本进行噪声维度的编码处理,获得所述rna测序样本的噪声信息分布;
17、利用第三编码器对所述校正后的rna测序样本进行编码处理,获得所述rna测序样本的生物学信息分布;
18、利用第二解码器对所述噪声信息分布和所述生物学信息分布进行联合解码还原处理,获取还原后的rna测序样本。
19、在本技术的一种可选实施方式中,还包括:
20、利用第一噪声信息判别器,分别对所述噪声信息分布和所述生物学信息分布进行判别处理,获得针对所述噪声信息分布中的噪声信息的第一判别结果,以及针对所述生物学信息分布中的噪声信息的第二判别结果;
21、利用第一生物学信息判别器,分别对所述噪声信息分布和所述生物学信息分布进行判别处理,获得针对所述噪声信息分布中的生物学信息的第三判别结果,以及针对所述生物学信息分布中的生物学信息的第四判别结果;
22、基于所述第一判别结果、所述第二判别结果、所述第三判别结果,以及所述第四判别结果,对第一编码器和所述第二编码器进行优化,以训练所述校正模型。
23、在本技术的一种可选实施方式中,还包括:
24、基于所述噪声信息分布与先验假设之间的差异,以及所述生物学信息分布与先验假设之间的差异,对所述变分自编码器进行优化,以训练所述校正模型;其中,所述先验假设为正态分布。
25、在本技术的一种可选实施方式中,还包括:
26、利用第二生物学信息判别器,对所述rna测序样本和所述校正后的rna测序样本的生物学信息进行判别,获得针对所述rna测序样本的第五判别结果和针对所述校正后的rna测序样本的第六判别结果;
27、利用第二噪声信息判别器,对所述rna测序样本和所述校正后的rna测序样本的噪声信息进行判别,获得针对所述rna测序样本的第七判别结果和针对所述校正后的rna测序样本的第八判别结果;
28、基于所述第五判别结果、第六判别结果、第七判别结果,以及第八判别结果,对所述变分自编码器进行优化,以训练所述校正模型。
29、在本技术的一种可选实施方式中,还包括:
30、获取rna测序数据集,所述rna测序数据集中包括多个校正处理后的rna测序数据;
31、对所述多个校正后的rna测序数据进行分类处理,获得不同类别的所述rna测序数据。
32、根据本技术实施例的第二方面,提供了一种rna测序数据的校正装置,包括:
33、第一单元,用于利用预先构建的校正模型,对rna测序数据进行校正处理,获得校正后的rna测序数据,其中,所述对rna测序数据进行校正处理,用于消除所述rna测序数据中的噪声数据;
34、所述校正模型基于对变分自编码器的训练获得;所述变分自编码器包括所述校正模型,所述变分自编码器用于提取rna测序样本中的噪声信息分布和校正后的rna测序样本中的生物学信息分布,并结合所述噪声信息分布和所述生物学信息分布,对所述rna测序样本进行解码还原处理,获得还原后的rna测序样本;
35、所述变分自编码器,至少基于所述还原后的rna测序样本和所述rna测序样本,以及针对所述噪声信息分布和所述生物学信息的判别结果训练得到;其中,针对所述噪声信息分布和所述生物学信息分布的判别,包括:判别所述噪声信息分布中的噪声信息和生物学信息,以及判别所述生物学信息分布中的噪声信息和生物学信息。
36、根据本技术实施例的第三方面,提供了一种电子设备,包括:
37、处理器;
38、用于存储所述处理器可执行指令的存储器;
39、所述处理器,用于通过运行所述存储器中的指令,执行上述rna测序数据的校正方法。
40、根据本技术实施例的第四方面,提供了一种计算机存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器运行时,执行上述rna测序数据的校正方法。
41、本技术提供一种rna测序数据的校正方法、装置、电子设备及存储介质,所述rna测序数据的校正方法,包括:利用预先构建的校正模型,对rna测序数据进行校正处理,获得校正后的rna测序数据,其中,所述对rna测序数据进行校正处理,用于消除所述rna测序数据中的噪声数据;所述校正模型基于对变分自编码器的训练获得;所述变分自编码器包括所述校正模型,所述变分自编码器用于提取rna测序样本中的噪声信息分布和校正后的rna测序样本中的生物学信息分布,并结合所述噪声信息分布和所述生物学信息分布,对所述rna测序样本进行解码还原处理,获得还原后的rna测序样本;所述变分自编码器,至少基于所述还原后的rna测序样本和所述rna测序样本,以及针对所述噪声信息分布和所述生物学信息的判别结果训练得到;其中,针对所述噪声信息分布和所述生物学信息分布的判别,包括:判别所述噪声信息分布中的噪声信息和生物学信息,以及判别所述生物学信息分布中的噪声信息和生物学信息。
42、该方法通过利用校正模型实现了对rna测序数据的校正,同时所述校正模型的训练基于对包括所述校正模型的变分自编码器的训练,以及对rna测序数据中的噪声信息分布和生物学信息分布的判别结果得到,提高了所述校正模型对rna测序数据的校正精度。