本申请涉及数据挖掘,尤其涉及一种对空间转录组数据进行降噪的方法及装置。
背景技术:
1、基因表达具有时间特异性和空间特异性,对组织中的全基因组基因表达的分析一般采用空间转录组技术,将空间信息与形态学内容相结合,并绘制所有基因表达发生的位置,获得组织完整的基因表达图谱。不仅提供了组织的基因表达谱,同时提供了空间位置信息。
2、现有技术中,空间转录组技术通过微阵列芯片捕获每个采样点的转录本,这些转录本包含了位置信息,但对采样点的信息捕获会受到附近采样点流出的信使rna的影响,而采样点本身的信使rna也会流出到附近采样点,使得该采样点的唯一分子标识符(uniquemolecular identifiers,umi)计数受到污染,导致采样点捕获的信息不完整,进而降低空间转录组数据的准确性。
技术实现思路
1、本申请实施例提供一种对空间转录组数据进行降噪的方法及装置,用以解决现有技术中空间转录组数据准确性低从而无法保障数据下游分析准确度的技术问题。
2、第一方面,本申请实施例提供一种对空间转录组数据进行降噪的方法,包括:
3、通过rgb图像表示空间转录组数据的基因表达和组织图像特征信息;
4、基于所述rgb图像的三维数据信息对每个采样点进行聚类划分;
5、对聚类后的每一组织区域内的同类采样点数据恢复真实的基因表达。
6、在一些实施例中,所述通过rgb图像表示空间转录组数据的基因表达和组织图像特征信息,包括:
7、基于空间转录组数据的原始基因表达矩阵以及相应的组织图像特征信息数据,利用图神经网络生成保留组织图像特征信息的连接采样点的关系图;
8、基于采样点的关系图,利用图自动编码器学习采样点的三维嵌入;
9、将三维嵌入映射到rgb图像。
10、在一些实施例中,所述基于空间转录组数据的原始基因表达矩阵以及相应的组织图像信息数据,利用图神经网络生成保留组织图像特征的连接采样点的关系图,包括:
11、基于空间转录组数据的原始基因表达矩阵确定空间转录组数据的重构基因表达矩阵;
12、基于所述重构基因表达矩阵以及相应的组织图像特征信息数据,利用图神经网络为每个采样点生成空间嵌入;
13、采用欧几里得距离区分直接相邻的采样点;
14、采样点的直接相邻的空间关系被构造成邻接关系矩阵,生成保留组织图像信息的连接采样点的关系图。
15、在一些实施例中,所述图自动编码器的编码器由两层图卷积网络组成,用于学习低维图嵌入;
16、所述图自编码器的解码器设置为图嵌入之间的内积;
17、所述图自编码器的解码器使用sigmoid作为激活函数;
18、所述图自编码器学习的目标是最小化输入采样点邻接矩阵与重构基因表达矩阵之间的交叉熵。
19、在一些实施例中,所述将三维嵌入映射到rgb图像,包括:
20、根据全色光谱为每个采样点的三维嵌入分配r、g、b三个值;
21、基于全分辨率组织图像中的每个采样点的坐标和直径,以及为每个采样点分配的rgb值,生成rgb图像。
22、在一些实施例中,所述基于所述rgb图像的三维数据信息对每个采样点进行聚类划分,包括:
23、基于所述rgb图像的三维数据信息生成采样点的邻接矩阵;相邻边的权重为两个邻接采样点rgb值的相似性;
24、利用图聚类算法对邻接矩阵进行聚类,获得对采样点的聚类划分结果。
25、在一些实施例中,所述对聚类后的每一组织区域内的同类采样点数据恢复真实的基因表达,包括:
26、将每一组织区域内的基因表达建模为所述组织区域内的同类采样点中存在的基因表达量的函数,读取每一采样点向其他采样点渗出的数据和从其他采样点流入的数据;
27、基于每一采样点向其他采样点渗出的数据和从其他采样点流入的数据,利用梯度下降算法估计每一类采样点的渗出率和受影响邻域的大小;
28、基于每一类采样点的渗出率和受影响邻域的大小,利用最大期望em算法估计每一采样点的潜在表达水平;
29、基于每一采样点的潜在表达水平对每一采样点的空间转录组数据进行修正,恢复采样点的真实的基因表达。
30、第二方面,本申请实施例提供一种对空间转录组数据进行降噪的装置,包括:
31、表示模块,用于通过rgb图像表示空间转录组数据的基因表达和组织图像特征信息;
32、聚类模块,用于基于所述rgb图像的三维数据信息对每个采样点进行聚类划分;
33、恢复模块,用于对聚类后的每一组织区域内的同类采样点数据恢复真实的基因表达。
34、第三方面,本申请实施例提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述第一方面所述的对空间转录组数据进行降噪的方法。
35、第四方面,本申请实施例还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面所述的对空间转录组数据进行降噪的方法。
36、第五方面,本申请实施例还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述第一方面所述的对空间转录组数据进行降噪的方法。
37、本申请实施例提供的对空间转录组数据进行降噪的方法及装置,将空间转录组数据的基因表达和组织图像特征信息压缩降维后映射至rgb图像,基于该rgb图像的三维数据信息对每个采样点进行聚类划分后,对聚类后的每一组织区域内的同类采样点数据恢复真实的基因表达,提高数据下游分析的准确性,得到可靠的分析结果。
1.一种对空间转录组数据进行降噪的方法,其特征在于,包括:
2.根据权利要求1所述的对空间转录组数据进行降噪的方法,其特征在于,所述通过rgb图像表示空间转录组数据的基因表达和组织图像特征信息,包括:
3.根据权利要求2所述的对空间转录组数据进行降噪的方法,其特征在于,所述基于空间转录组数据的原始基因表达矩阵以及相应的组织图像特征信息数据,利用图神经网络生成保留组织图像特征信息的连接采样点的关系图,包括:
4.根据权利要求2所述的对空间转录组数据进行降噪的方法,其特征在于,所述图自动编码器的编码器由两层图卷积网络组成,用于学习低维图嵌入;
5.根据权利要求2所述的对空间转录组数据进行降噪的方法,其特征在于,所述将三维嵌入映射到rgb图像,包括:
6.根据权利要求1所述的对空间转录组数据进行降噪的方法,其特征在于,所述基于所述rgb图像的三维数据信息对每个采样点进行聚类划分,包括:
7.根据权利要求1所述的对空间转录组数据进行降噪的方法,其特征在于,所述对聚类后的每一组织区域内的同类采样点数据恢复真实的基因表达,包括:
8.一种对空间转录组数据进行降噪的装置,其特征在于,包括:
9.一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现如权利要求1至7任一项所述对空间转录组数据进行降噪的方法。
10.一种非暂态计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述对空间转录组数据进行降噪的方法。