质谱成像图的空间区域分型方法、装置及电子设备与流程

文档序号:33476410发布日期:2023-03-15 10:28阅读:137来源:国知局
质谱成像图的空间区域分型方法、装置及电子设备与流程

1.本技术涉及图像处理技术领域,具体而言,本技术涉及一种质谱成像图的空间区域分型方法、装置、电子设备及存储介质。


背景技术:

2.质谱分析技术是精密仪器分析领域的前沿技术之一,近年来在临床检测领域也得到了快速发展,可在生化免疫、药物代谢、微生物、病理诊断、分子等多领域对常规方法学进行替代,譬如与基因测序相比,质谱适用于各类分子的检测,包括核酸、多肽等生物大分子和代谢产物、激素、维生素等生物小分子,以及微量无机元素,能实现上千种标志物的同时定性和定。
3.在质谱成像图中单个像素点接近于单个细胞,每个细胞中包括了多个代谢物离子,质谱成像图是不同的离子图层数据堆叠在一起构成的图像,每一个离子图层数据包括一个代谢物离子在生物样本的各个细胞的信号强度。质谱成像图的原始数据构成了进行空间代谢组学数据分析的数据基础,在对应的数据分析中,需要按照一定的方法对组织特异性空间区域进行自动化划分,依照所划分的结果才可以进行相应的组学分析,但目前获得的分型结果并不准确,影响后续组学分析。


技术实现要素:

4.本技术实施例提供了一种质谱成像图的空间区域分型方法、装置、电子设备、计算机可读存储介质及计算机程序产品,可以解决现有技术的上述问题。所述技术方案如下:
5.根据本技术实施例的一个方面,提供了一种质谱成像图的空间区域分型方法,所述质谱成像图中的每个像素点用于表征生物样本中单个细胞的代谢检测结果,所述代谢检测结果包括至少一种代谢物离子的信号强度,该方法包括:
6.根据所述像素点的代谢检测结果,获得所述像素点的特征向量;
7.根据各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,每个聚类簇中包括至少一个像素点;
8.将未确定所属聚类簇的像素点作为目标像素点,根据所述目标像素点与周围预设范围内的其他像素点的距离和组成相似度,以及所述其他像素点素所在的聚类簇,确定所述目标像素点所在的聚类簇;
9.根据各像素点所在的聚类簇确定空间区域分型结果。
10.作为一种可选实施例,根据所述目标像素点与周围预设范围内的其他像素点的距离和组成相似度,以及所述其他像素点素所在的聚类簇,确定所述目标像素点所在的聚类簇,包括:
11.将所述目标像素点与各其他像素点的距离进行排序,确定各其他像素点的排序结果;
12.根据所述其他像素点的排序结果获得对应的权重,所述权重大小与排序结果成正
比,根据所述其他像素点的权重以及组成相似度,获得所述其他像素点与所述目标像素点的关联度;
13.根据关联度最高的其他像素点所在的聚类簇,确定所述目标像素点所在的聚类簇。
14.作为一种可选实施例,根据所述像素点的代谢检测结果,获得所述像素点的特征向量,包括:
15.根据所述代谢物离子在各细胞中的信号强度,确定所述代谢物离子的信号强度的分布情况,根据所述分布情况对所述代谢物离子的信号强度进行裁剪,对裁剪后的信号强度进行归一化处理,获得所述代谢物离子的更新后的信号强度;
16.将所述像素点对应的各代谢物离子的更新后的信号强度,作为所述像素点的初始特征向量,对所述初始特征向量进行降维处理,获得所述像素点的特征向量,所述特征向量用于表征所述像素点与其他像素点的代谢物离子组成的差异性。
17.作为一种可选实施例,组成相似度为目标像素点和其他像素点包含的代谢物离子的种类间的相似度或者目标像素点和其他像素点的特征向量间的相似度。
18.作为一种可选实施例,根据代谢物离子在各细胞中的信号强度,确定所述代谢物离子的信号强度的分布情况,根据所述分布情况对所述代谢物离子的信号强度进行裁剪,包括:
19.对于每一种代谢物离子,根据所述代谢物离子在各细胞中的信号强度进行数据等宽分箱,每个分箱用于统计一个信号强度范围内的细胞数量占总细胞数量的比例;
20.根据各分箱对应的比例,确定所述代谢物离子的信号强度的上限值,根据所述上限值对所述代谢物离子的信号强度进行裁剪。
21.作为一种可选实施例,根据各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,包括:
22.确定两两像素点的特征向量间的相似度;
23.根据所述两两像素点的特征向量间的相似度,获得相似度矩阵,所述相似度矩阵中的元素用于表征两两像素点的特征向量间的相似度;
24.将所述相似度矩阵中相似度大于相似度阈值的元素作为目标元素,根据所述目标元素构建关系网络图,所述关系网络图中具有连接关系的两个节点用于表征一个目标元素中的两个像素点;
25.根据预设的图聚类算法对所述关系网络图中的各节点进行聚类。
26.作为一种可选实施例,根据各分箱对应的比例,确定所述代谢物离子的信号强度的上限值,包括:
27.根据信号强度范围从小到大的顺序,对各分箱对应的比例进行累积,当累积值达到预设数值时,将累加的最后一个比例所对应的分箱中的信号强度的最小值作为所述上限值。
28.作为一种可选实施例,根据遍历后的各像素点所在的聚类簇确定空间区域分型结果,包括:
29.将各像素点的特征向量降维至三维特征向量,根据三维特征向量确定所述像素点在三维虚拟空间中的位置;
30.确定每个聚类簇在三维虚拟空间中的展示样式;
31.根据每个像素点在三维空间系中的位置,以及所述像素点所在聚类簇对应的展示样式,绘制三维效果图,作为所述空间区域分型结果。
32.根据本技术实施例的另一个方面,提供了一种质谱成像图的空间区域分型装置,质谱成像图中的每个像素点用于表征生物样本中单个细胞的代谢检测结果,所述代谢检测结果包括至少一种代谢物离子的信号强度,该装置包括:
33.特征向量提取模块,用于根据所述像素点的代谢检测结果,获得所述像素点的特征向量;
34.聚类模块,用于根据各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,每个聚类簇中包括至少一个像素点;
35.填充模块,用于将未确定所属聚类簇的像素点作为目标像素点,根据所述目标像素点与周围预设范围内的其他像素点的距离和组成相似度,以及所述其他像素点素所在的聚类簇,确定所述目标像素点所在的聚类簇;
36.分型模块,用于根据各像素点所在的聚类簇确定空间区域分型结果。
37.根据本技术实施例的另一个方面,提供了一种电子设备,该电子设备包括存储器、处理器及存储在存储器上的计算机程序,其特征在于,处理器执行计算机程序以实现上述方面提供的质谱成像图的空间区域分型方法的步骤。
38.根据本技术实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述方面提供的质谱成像图的空间区域分型方法的步骤。
39.根据本技术实施例的一个方面,提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现上述方面提供的质谱成像图的空间区域分型方法的步骤。
40.本技术实施例提供的技术方案带来的有益效果是:
41.本技术实施例根据像素点的代谢检测结果,获得像素点的特征向量,基于各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,由于聚类过程会存在一些无法分类的像素点,通过其周围预设范围内的其他像素点所在的聚类簇以及其他像素点与目标像素点的聚类和组成相似度,确定目标像素点所在的聚类簇,可增强聚类的准确性,产生低噪声且符合真实的生物组织形态划分的空间分型分类结果。
附图说明
42.为了更清楚地说明本技术实施例中的技术方案,下面将对本技术实施例描述中所需要使用的附图作简单地介绍。
43.图1为本技术实施例提供的实现质谱成像图的空间区域分型方法的系统架构示意图;
44.图2为本技术实施例提供的一种质谱成像图的空间区域分型方法的流程示意图;
45.图3为本技术实施例提供的一种降维的示意图;
46.图4为本技术另一个实施例的空间区域分型方法的流程示意图;
47.图5为本技术实施例提供的一种空间区域分型装置的结构示意图;
48.图6为本技术实施例提供的一种电子设备的结构示意图。
具体实施方式
49.下面结合本技术中的附图描述本技术的实施例。应理解,下面结合附图所阐述的实施方式,是用于解释本技术实施例的技术方案的示例性描述,对本技术实施例的技术方案不构成限制。
50.本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式“一”、“一个”和“该”也可包括复数形式。应该进一步理解的是,本技术实施例所使用的术语“包括”以及“包含”是指相应特征可以实现为所呈现的特征、信息、数据、步骤、操作、元件和/或组件,但不排除实现为本技术领域所支持其他特征、信息、数据、步骤、操作、元件、组件和/或它们的组合等。应该理解,当我们称一个元件被“连接”或“耦接”到另一元件时,该一个元件可以直接连接或耦接到另一元件,也可以指该一个元件和另一元件通过中间元件建立连接关系。此外,这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的术语“和/或”指示该术语所限定的项目中的至少一个,例如“a和/或b”可以实现为“a”,或者实现为“b”,或者实现为“a和b”。
51.为使本技术的目的、技术方案和优点更加清楚,下面将结合附图对本技术实施方式作进一步地详细描述。
52.首先对本技术涉及的几个名词进行介绍和解释:
53.质谱图,不同质荷比(m/z)的代谢物离子经质量分析器分开后,到检测器被检测并记录下来,经计算机处理后以质谱图的形式表示出来。在质谱图中,横坐标表示代谢物离子的质荷比,从左到右质荷比的值增大,对于带有单电荷的离子,横坐标表示的数值即为代谢物离子的质量;纵坐标表示离子流的信号强度。
54.质谱成像图,在空间代谢组学技术中,利用仪器将生物组织切片上的细胞按照一定的空间排列顺序进行扫描,每一个细胞都可以扫描得到一张质谱图。每一张质谱图都相当于质谱成像图上的二维平面上的一个像素点。对所扫描得到的具有空间顺序坐标信息的质谱图集合按照空间坐标信息排列在一个二维平面上,产生了空间代谢组学中的质谱成像图数据。
55.降维,降维是将高维数据集转换为可比较的低维空间的过程。常见的降维方式包括主成分分析法、独立成分分析法、因子恩分析、线性判别法等。
56.聚类,将物理或抽象对象的集合分成由类似的对象组成的多个类的过程被称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其他簇中的对象相异。
57.空间区域分型,就是针对一个生物器官组织切片图像平面,根据一定的数据差异性,针对生物器官组织进行区域分割,划分出不同类型的生物组织区域。
58.本技术提供的质谱成像图的空间区域分型方法、装置、电子设备、计算机可读存储介质以及计算机程序产品,旨在解决现有技术的如上技术问题。
59.下面通过对几个示例性实施方式的描述,对本技术实施例的技术方案以及本技术的技术方案产生的技术效果进行说明。需要指出的是,下述实施方式之间可以相互参考、借鉴或结合,对于不同实施方式中相同的术语、相似的特征以及相似的实施步骤等,不再重复描述。
60.图1为本技术实施例提供的实现质谱成像图的空间区域分型方法的系统架构示意
图,具体可以应用于医学分析场景,该系统包括:终端101、质谱仪102、网络服务器103,用户将待分析的生物样本通过质谱仪102进行质谱分析,质谱仪将质谱分析的结果,也即质谱成像图发送至终端101,终端101将质谱成像图发送至服务器103,由服务器103根据本技术实施例提供的质谱成像图的空间区域分型方法,获得空间区域分型结果,服务器103将空间区域分型结果返回终端101,由终端101展示给用户。
61.本技术实施例中提供了一种质谱成像图的空间区域分型方法,如图2所示,该方法包括s101~s105。
62.s101、根据所述像素点的代谢检测结果,获得所述像素点的特征向量。
63.由于代谢检测结果包括了至少一种代谢物离子的信号强度,因此本技术实施例可以统计质谱成像图中存在的所有代谢物离子,然后将每一个代谢物离子对应特征向量的一个维度,将代谢物离子的信号强度,作为该维度的特征值,从而获得像素点的特征向量。
64.s102、根据各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,每个聚类簇中包括至少一个像素点。
65.本技术实施例在获得各像素点的特征向量后,即可根据低维的特征向量进行聚类,本技术实施例对于聚类的具体方法不作限定,例如可以采用图聚类方法,具体的,以降维后的矩阵中的行数据作为数据对象,进行行数据与行数据之间的两两cos相似度计算,得到一个相似度矩阵。按照一定的阈值对相似度矩阵中低于阈值的元素做删除后,剩余的元素可以产生一个网络图,网络图中,质谱成像数据中的像素点,即原始矩阵中的行数据为网络节点。基于一定的网络社区发现算法处理整个网络图数据,即可得到像素点的聚类结果。
66.在一个实施例中,本技术实施例在聚类后,还可以遍历所有像素点,对于遍历的每个像素点,根据像素点的周围预设范围内的其他像素点所在的聚类簇,更新像素点的聚类簇,直至所有像素的聚类簇不再更新。
67.需要注意的是,聚类算法确定的聚类结果可能是比较粗糙的,存在一些分布在临近区域中的、零散的、簇类别比较解决的噪声像素点,因此本技术实施例通过对于每个像素点,统计与该像素点周围预设半径内的所有其他像素点所在的聚类簇,将统计次数最多的聚类簇更新为该像素点的聚类簇。应当理解的是,随着遍历的进行,像素点的聚类簇是可能发生变化的,本技术实施例可以先按照行的顺序遍历像素点,再按照列的顺序遍历像素点,直到所有的像素点的聚类簇不再更新,此时每个像素点所在的聚类簇真正被确定下来,本方案针对使用聚类方法所产生的未分类的背景像素点以及错误分类的噪声像素点的分类信息,根据周围的像素点信息进行纠错,并且融合低分布密度的小区域为完整的组织结构区域,可以有效地将错误分类的噪声像素点合并至正确的聚类簇中。
68.s103、将未确定所属聚类簇的像素点作为目标像素点,根据所述目标像素点与周围预设范围内的其他像素点的距离和组成相似度,以及所述其他像素点素所在的聚类簇,确定所述目标像素点所在的聚类簇。
69.聚类算法并不能保证所有像素点都得到聚类,仍然会存在少部分未分类的像素点,针对与未确定聚类簇的像素点,本技术将其作为目标像素点,对于每个目标像素点,基于其周围预设范围内的其他像素点所在的聚类簇以及其他像素点与目标像素点的聚类和组成相似度,确定目标像素点所在的聚类簇,可增强聚类的准确性。
70.本技术实施例的组成相似度,可以以像素点包括的代谢物离子的类型的相似度表
征,例如,某一目标像素点包括a、b、c三种代谢物离子,某一其他像素点包括a、b、c、d四种代谢物离子,两者的相似度为75%。
71.s104、根据各像素点所在的聚类簇确定空间区域分型结果。
72.在确定每个像素点所在的聚类簇后,可以基于预先设置的每种聚类簇的展示样式,对质谱成像图中的每个像素点进行渲染,从而获得空间区域分型结果。在一个实施例中,本技术实施例可以针对不同的聚类簇设置不同的颜色,对于质谱成像图中的每个像素点,根据该像素点所在的聚类簇的颜色,对该像素点进行渲染,最终获得的控件区域分型结果的尺寸与质谱成像图一致,但因为各个像素点具有颜色,所以用户可以直观地看出生物样本中区域的差异。
73.本技术实施例根据像素点的代谢检测结果,获得像素点的特征向量,基于各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,由于聚类过程会存在一些无法分类的像素点,通过其周围预设范围内的其他像素点所在的聚类簇以及其他像素点与目标像素点的聚类和组成相似度,确定目标像素点所在的聚类簇,可增强聚类的准确性,产生低噪声且符合真实的生物组织形态划分的空间分型分类结果。
74.在上述各实施例的基础上,作为一种可选实施例,根据所述目标像素点与周围预设范围内的其他像素点的距离和组成相似度,以及所述其他像素点素所在的聚类簇,确定所述目标像素点所在的聚类簇,包括:
75.s201、将所述目标像素点与各其他像素点的距离进行排序,确定各其他像素点的排序结果;
76.s202、根据所述其他像素点的排序结果获得对应的权重,所述权重大小与排序结果成正比,根据所述其他像素点的权重以及组成相似度,获得所述其他像素点与所述目标像素点的关联度;
77.s203、根据关联度最高的其他像素点所在的聚类簇,确定所述目标像素点所在的聚类簇。
78.本技术实施例对于目标像素点,首先将目标像素点与各其他像素点的距离进行排序,确定各其他像素点的排序结果,应当理解的是,一个中心像素点周围1个单位距离的8个像素点与中心像素点的单位距离都为1,因此这8个像素点的排序结果一致,并列为1,该中心像素点周围两个单位距离的其他像素点共有16个,这16个像素点的排序结果一致,并列为2。
79.本技术在确定排序结果后可以确定对应的权重,本技术可以将排序结果的倒数作为权重,比如排序结果为2,则权重为1/2,距离目标像素点越远的其他像素点的权重越低,对目标像素点的聚类的影响越小。
80.本技术实施例通过权重对组成相似度进行加权,获得所述其他像素点与所述目标像素点的关联度,具体地,本技术实施例可以以公式:(1/rank(d))*cos确定关联度,其中,d表示目标像素点与其他像素点的距离,rank(d)表示距离的排序结果,cos表示组成相似度。
81.在一个实施例中,可以将关联度最高的其他像素点所在的聚类簇,作为所述目标像素点所在的聚类簇。
82.在一个实施例中,可以将关联度进行降序排序,若其他像素点的总数为k,取队列中靠前的k/2数量的其他像素点,将这些其他像素点中占比最多的聚类簇作为目标像素点
的聚类簇,本实施例利用了更多数量的其他像素点的聚类信息,由此确定的目标像素点的聚类簇更加准确。
83.在上述各实施例的基础上,作为一种可选实施例,根据所述像素点的代谢检测结果,获得所述像素点的特征向量,包括:
84.s301、根据所述代谢物离子在各细胞中的信号强度,确定所述代谢物离子的信号强度的分布情况,根据所述分布情况对所述代谢物离子的信号强度进行裁剪,对裁剪后的信号强度进行归一化处理,获得所述代谢物离子的更新后的信号强度;
85.s302、将所述像素点对应的各代谢物离子的更新后的信号强度,作为所述像素点的初始特征向量,对所述初始特征向量进行降维处理,获得所述像素点的特征向量,所述特征向量用于表征所述像素点与其他像素点的代谢物离子组成的差异性。
86.应当理解的是,本技术实施例每一种代谢物离子具有唯一的质荷比。由于一种代谢物离子会在多个细胞中存在,因此本技术可以统计每一种代谢物离子在每个细胞中的信号强度,并确定代谢物离子的信号强度的分布情况,然后基于分布情况确定出过高或者过低的异常信号,使得裁剪后的信号强度能够代表大部分像素点的信号分布特征。
87.本技术实施例可以统计不同信号强度范围的像素点的数量,来表征代谢物离子的分布情况,也可以是在统计不同信号强度范围的像素点的数量后,进一步进行处理,将处理结果来表征代谢物离子的分布情况,本技术实施例不作具体的限定。
88.在完成信号强度裁剪后,本技术实施例可以进行信号强度的归一化处理,例如可以基于总峰面积归一化方法实现。在一个实施例中,对于一种代谢物离子,可以对质谱成像图的每一行像素点中该代谢物离子的信号强度进行归一化,最终将所有分布在100至1e8信号强度范围内的信号强度都归一化至[0,1]之间。
[0089]
通过上述步骤的处理,每个像素点表征的代谢检测结果中包括了各个代谢物离子的归一化后的信号强度(也即更新后的信号强度),将一个代谢物离子的更新后的信号强度作为像素点的一个维度的特征,所以一个像素点的初始特征向量的维度的数量就是所有代谢物离子的数量。一般地,初始特征向量的维度一般在一万维度以上,属于高维度数据,若直接以初始特征向量对像素点进行聚类分析,容易出现过拟合的问题,因此本技术实施例考虑对初始特征向量进行降维。
[0090]
可以理解的是,若某一个代谢物离子没有出现在一个像素点中,则该像素点的该代谢物离子对应维度的特征值为预设值,例如为0。举例来说,若质谱成像图中一共有10000种代谢物离子,某一个像素点中存在其中700种代谢物离子,则该像素点的初始特征向量为10000个维度,其中有9300个维度的特征值是预设值,700个维度的特征值是相应700种代谢物离子的更新后的信号强度,可以发现初始特征向量是比较稀疏的。
[0091]
本技术实施例对于降维的具体方法不作具体限定,例如可以是统一流形逼近和投影(uniform manifold approximation and projection,umap)、主成分分析(principal component analysis,pca)或者t分布随机邻居嵌入(t-distributed stochastic neighbor embedding,t-sne)等。
[0092]
本技术实施例降维后的特征向量用于表征像素点与其他像素点的代谢物离子组成的差异性,每一维度的特征值不再简单地表征一个代谢物离子的信号强度,维度数大幅减少,在一个实施例中,本技术可以将维度由一万维减少至400维。
[0093]
请参见图3,其示例性地示出了本技术实施例的降维的示意图,如图所示,mz1、mz2、

mzi表示i种代谢物离子,pixel1、pixel2、

pixelj表示质谱成像图中的j个像素点,降维前,所有像素点中的所有代谢物离子的信号强度可以构成一个原始矩阵,其中每个元素表示一个像素点中的代谢物离子的信号强度,该原始矩阵是一个稀疏矩阵。降维后的矩阵的列不再对应代谢物离子,而是更新为了dim1、dim2、

dim800,也即800个维度的特征值,虽然每一列代表的含义不同,但后续仍可以用于像素点间的聚类。
[0094]
本技术实施例的空间区域分型方法,通过对代谢物离子的信号强度进行裁剪,对裁剪后的信号强度进行归一化处理,获得代谢物离子的更新后的信号强度,既可以解决信号强度异常的问题,还可以消除此数量级差异,将像素点对应的各代谢物离子的更新后的信号强度,作为像素点的初始特征向量,对初始特征向量进行降维处理,获得像素点的特征向量,为后续进行聚类避免过拟合奠定基础,同时可有效提升聚类的准确性。
[0095]
在上述各实施例的基础上,作为一种可选实施例,组成相似度为目标像素点和其他像素点包含的代谢物离子的种类间的相似度或者目标像素点和其他像素点的特征向量间的相似度。需要注意的是,本技术实施例中的特征向量是指降维处理后的特征向量。
[0096]
在上述各实施例的基础上,作为一种可选实施例,根据代谢物离子在各细胞中的信号强度,确定代谢物离子的信号强度的分布情况,根据分布情况对代谢物离子的信号强度进行裁剪,包括:
[0097]
对于每一种代谢物离子,根据代谢物离子在各细胞中的信号强度进行数据等宽分箱,每个分箱用于统计一个信号强度范围内的细胞数量占总细胞数量的比例;
[0098]
根据各分箱对应的比例,确定代谢物离子的信号强度的上限值,根据上限值对代谢物离子的信号强度进行裁剪。
[0099]
对于每一种代谢物离子,本技术实施例可以根据该代谢物离子在各个细胞中的信号强度的分布区间,设置多个分箱,例如,若信号强度的分布区间为10至10000,那么可以设置0至1000的子区间为第一个分箱,1001至2000的子区间为第二个分箱,

,9001至10000的子区间为最后一个分箱,在设置分箱后,统计各细胞中该代谢物离子的信号强度属于哪个分箱的子分布区间,在统计完所有细胞的该代谢物离子的信号强度所属的分箱后,就可以统计每个分箱中的细胞占总细胞个数的比例,根据各分箱对应的子分布区间从小到大的顺序,对每个分箱对应的比例进行累加,按照预设的分布概率阈值,例如0.65,根据概率累加到0.65时的分箱对应的信号强度获得限号强度上限值,将所有高于该上限值的信号强度裁剪至该上限值以下。
[0100]
在上述各实施例的基础上,作为一种可选实施例,根据各分箱对应的比例,确定代谢物离子的信号强度的上限值,包括:
[0101]
根据信号强度范围从小到大的顺序,对各分箱对应的比例进行累积,当累积值达到预设数值时,将累加的最后一个比例所对应的分箱中的原始信号值的最小值作为上限值。
[0102]
例如,若存在分箱1~6,共6个分箱,分箱1-6对应的子分布区间逐渐变大,若分箱1的比例为15%,分箱2的比例为18%,分箱3的比例为19%,分箱4的比例为23%,分箱5的比例为15%,分箱6的比例为10%,若预设数值为65%,从分箱1的比例开始累加,在累积到分箱3时,累加的比例达到了52%,还没有超过预设数值,在累加分箱4后,累加的比例达到
75%,超过了65%,所以将分箱4作为累加的最后一个比例所对应的分箱,然后将分箱4中的最小信号强度作为上限值。假设某一代谢物离子的上限值为10000,那么如果一个细胞中该代谢物离子的信号强度为9000,则不需要调整,若一个细胞中该代谢物离子的信号强度为11000,则需要更新为10000。
[0103]
在上述各实施例的基础上,作为一种可选实施例,根据各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,包括:
[0104]
s401、确定两两像素点的特征向量间的相似度;
[0105]
s402、根据两两像素点的特征向量间的相似度,获得相似度矩阵,相似度矩阵中的元素用于表征两两像素点的特征向量间的相似度;
[0106]
s403、将相似度矩阵中相似度大于相似度阈值的元素作为目标元素,根据目标元素构建关系网络图,关系网络图中具有连接关系的两个节点用于表征一个目标元素中的两个像素点;
[0107]
s404、根据预设的图聚类算法对关系网络图中的各节点进行聚类。
[0108]
本技术实施例对于计算特征向量间的相似度的方法不作具体限定,例如可以采用余弦相似度、欧氏距离、马氏距离等等。需要注意的是,在一个实施例,本技术实施例采用余弦相似度衡量特征向量间的像素点,采用余弦相似度可以有效减少在采用杰卡德相似度时带来的误判。
[0109]
在获得两两像素点的特征向量的相似度后,即可获得相似度矩阵,可以理解的是,若像素点的总数为n,则相似度矩阵的大小为n*n,相似度矩阵中的元素用于表征两两像素点的特征向量间的相似度。
[0110]
在获得相似度矩阵后,本技术实施例可以基于预设的相似度阈值对相似度矩阵中的每个元素进行筛选,从相似度矩阵中筛选出大于该相似度阈值的目标元素,每个目标元素对应了两个像素点,可以基于所有目标元素对应的所有像素点建立关系网络图。关系网络图中的节点为目标元素中的像素点,节点还记录了相应像素点的坐标,具有连接关系的两个节点表示相似度大于预设阈值,连接该两个节点的边记录了该两个节点的相似度。
[0111]
本技术实施例对于图聚类算法不作具体限定,例如可以是louvain算法或者其他图节点社区聚类算法。
[0112]
在上述各实施例的基础上,作为一种可选实施例,根据遍历后的各像素点所在的聚类簇确定空间区域分型结果,包括:
[0113]
s501、将各像素点的特征向量降维至三维特征向量,根据三维特征向量确定像素点在三维虚拟空间中的位置;
[0114]
s502、确定每个聚类簇在三维虚拟空间中的展示样式;
[0115]
s503、根据每个像素点在三维空间系中的位置,以及像素点所在聚类簇对应的展示样式,绘制三维效果图,作为空间区域分型结果。
[0116]
本技术上述实施例获得的空间区域分型结果是二维图像,该二维图像中每个像素点表征的细胞与原始的质谱成像图上同一像素点表征的细胞是相同的,此时用户看到的是生物样本的不同区域被分类后的图像。而本技术实施例则是将像素点的特征向量进一步降为至三个维度,也即三维特征向量,由于三维虚拟空间的坐标系是三维坐标系,所以本技术实施例可以将三维特征向量的每个维度与三维坐标系中的一个坐标轴对应,从而确定每个
三维特征向量在三维虚拟空间中的唯一位置。
[0117]
应当理解的是,在降维后的散点图之中,点的位置与数据点与其他的数据点之间的差异性有直接关联,两个数据点间的差异性越大,则位置越远,反之两个数据点间的相似度越高,则相互位置越靠近对方。
[0118]
在上述各实施例的基础上,作为一种可选实施例,根据像素点的周围预设范围内的其他像素点所在的聚类簇,更新像素点的聚类簇,包括:
[0119]
确定像素点的周围预设范围内的相似度最高的、预设个数的参考像素点;
[0120]
统计每个参考像素点所在的聚类簇,将统计次数最多的聚类簇更新为像素点所在的聚类簇。
[0121]
本技术实施例对于当前遍历的像素点,可以从在先步骤获得的相似度结果,确定周围预设范围内的相似度最高的k(k为正整数)个的参考像素点,然后统计这k个参考像素点所在的聚类簇,统计次数最多的聚类簇更新为像素点所在的聚类簇。
[0122]
请参见图4,其示例性地示出了本技术另一个实施例的空间区域分型方法的流程示意图,如图所示,包括:
[0123]
s601、对于每一种代谢物离子,根据代谢物离子在各细胞中的信号强度进行数据等宽分箱,每个分箱用于统计一个信号强度范围内的细胞数量占总细胞数量的比例;
[0124]
s602、根据各分箱对应的比例,确定代谢物离子的信号强度的上限值,根据上限值对代谢物离子的信号强度进行裁剪;
[0125]
s603、对裁剪后的信号强度进行归一化处理,获得代谢物离子的更新后的信号强度;
[0126]
s604、将像素点对应的各代谢物离子的更新后的信号强度,作为像素点的初始特征向量,对初始特征向量进行降维处理,获得像素点的特征向量;
[0127]
s605、确定两两像素点的特征向量间的相似度;
[0128]
s606、根据两两像素点的特征向量间的相似度,获得相似度矩阵,相似度矩阵中的元素用于表征两两像素点的特征向量间的相似度;
[0129]
s607、将相似度矩阵中相似度大于相似度阈值的元素作为目标元素,根据目标元素构建关系网络图,关系网络图中具有连接关系的两个节点用于表征一个目标元素中的两个像素点;
[0130]
s608、根据预设的图聚类算法对关系网络图中的各节点进行聚类;
[0131]
s609、遍历所有像素点,对于遍历的每个像素点,确定像素点的周围预设范围内的相似度最高的、预设个数的参考像素点;
[0132]
s610、统计每个参考像素点所在的聚类簇,将统计次数最多的聚类簇更新为像素点所在的聚类簇,更新像素点的聚类簇,直至像素点的聚类簇不再更新;
[0133]
s611、将未确定所属聚类簇的像素点作为目标像素点,将目标像素点与各其他像素点的距离进行排序,确定各其他像素点的排序结果;
[0134]
s612、根据其他像素点的排序结果获得对应的权重,权重大小与排序结果成正比,根据其他像素点的权重以及组成相似度,获得所述其他像素点与所述目标像素点的关联度;
[0135]
s613、根据关联度最高的其他像素点所在的聚类簇,确定目标像素点所在的聚类
簇;
[0136]
s614、将各像素点的特征向量降维至三维特征向量,根据三维特征向量确定像素点在三维虚拟空间中的位置;
[0137]
s615、确定每个聚类簇在三维虚拟空间中的展示样式,根据每个像素点在三维空间系中的位置,以及像素点所在聚类簇对应的展示样式,绘制三维效果图,作为空间区域分型结果。
[0138]
本技术实施例提供了一种质谱成像图的空间区域分型装置,质谱成像图中的每个像素点用于表征生物样本中单个细胞的代谢检测结果,代谢检测结果包括至少一种代谢物离子的信号强度,如图5所示,该装置可以包括特征向量提取模块501、聚类模块502、填充模块503和分型模块504,具体地:
[0139]
特征向量提取模块501,用于根据所述像素点的代谢检测结果,获得所述像素点的特征向量;
[0140]
聚类模块502,用于根据各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,每个聚类簇中包括至少一个像素点;
[0141]
填充模块503,用于将未确定所属聚类簇的像素点作为目标像素点,根据所述目标像素点与周围预设范围内的其他像素点的距离和组成相似度,以及所述其他像素点素所在的聚类簇,确定所述目标像素点所在的聚类簇;
[0142]
分型模块504,用于根据各像素点所在的聚类簇确定空间区域分型结果。
[0143]
本技术实施例的装置可执行本技术实施例所提供的方法,其实现原理相类似,本技术各实施例的装置中的各模块所执行的动作是与本技术各实施例的方法中的步骤相对应的,对于装置的各模块的详细功能描述具体可以参见前文中所示的对应方法中的描述,此处不再赘述。
[0144]
本技术实施例中提供了一种电子设备,包括存储器、处理器及存储在存储器上的计算机程序,该处理器执行上述计算机程序以实现质谱成像图的空间区域分型方法的步骤,与相关技术相比可实现:根据像素点的代谢检测结果,获得像素点的特征向量,基于各像素点的特征向量,对各像素点进行聚类,获得多个聚类簇,由于聚类过程会存在一些无法分类的像素点,通过其周围预设范围内的其他像素点所在的聚类簇以及其他像素点与目标像素点的聚类和组成相似度,确定目标像素点所在的聚类簇,可增强聚类的准确性,产生低噪声且符合真实的生物组织形态划分的空间分型分类结果。
[0145]
在一个可选实施例中提供了一种电子设备,如图6所示,图6所示的电子设备4000包括:处理器4001和存储器4003。其中,处理器4001和存储器4003相连,如通过总线4002相连。可选地,电子设备4000还可以包括收发器4004,收发器4004可以用于该电子设备与其他电子设备之间的数据交互,如数据的发送和/或数据的接收等。需要说明的是,实际应用中收发器4004不限于一个,该电子设备4000的结构并不构成对本技术实施例的限定。
[0146]
处理器4001可以是cpu(central processing unit,中央处理器),通用处理器,dsp(digital signal processor,数据信号处理器),asic(application specific integrated circuit,专用集成电路),fpga(field programmable gate array,现场可编程门阵列)或者其他可编程逻辑器件、晶体管逻辑器件、硬件部件或者其任意组合。其可以实现或执行结合本技术公开内容所描述的各种示例性的逻辑方框,模块和电路。处理器
4001也可以是实现计算功能的组合,例如包含一个或多个微处理器组合,dsp和微处理器的组合等。
[0147]
总线4002可包括一通路,在上述组件之间传送信息。总线4002可以是pci(peripheral component interconnect,外设部件互连标准)总线或eisa(extended industry standard architecture,扩展工业标准结构)总线等。总线4002可以分为地址总线、数据总线、控制总线等。为便于表示,图6中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
[0148]
存储器4003可以是rom(read only memory,只读存储器)或可存储静态信息和指令的其他类型的静态存储设备,ram(random access memory,随机存取存储器)或者可存储信息和指令的其他类型的动态存储设备,也可以是eeprom(electrically erasable programmable read only memory,电可擦可编程只读存储器)、cd-rom(compact disc read only memory,只读光盘)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质、其他磁存储设备、或者能够用于携带或存储计算机程序并能够由计算机读取的任何其他介质,在此不做限定。
[0149]
存储器4003用于存储执行本技术实施例的计算机程序,并由处理器4001来控制执行。处理器4001用于执行存储器4003中存储的计算机程序,以实现前述方法实施例所示的步骤。
[0150]
本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0151]
本技术实施例还提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时可实现前述方法实施例的步骤及相应内容。
[0152]
本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”、“1”、“2”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例能够以除图示或文字描述以外的顺序实施。
[0153]
应该理解的是,虽然本技术实施例的流程图中通过箭头指示各个操作步骤,但是这些步骤的实施顺序并不受限于箭头所指示的顺序。除非本文中有明确的说明,否则在本技术实施例的一些实施场景中,各流程图中的实施步骤可以按照需求以其他的顺序执行。此外,各流程图中的部分或全部步骤基于实际的实施场景,可以包括多个子步骤或者多个阶段。这些子步骤或者阶段中的部分或全部可以在同一时刻被执行,这些子步骤或者阶段中的每个子步骤或者阶段也可以分别在不同的时刻被执行。在执行时刻不同的场景下,这些子步骤或者阶段的执行顺序可以根据需求灵活配置,本技术实施例对此不限制。
[0154]
以上所述仅是本技术部分实施场景的可选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本技术的方案技术构思的前提下,采用基于本技术技术思想的其他类似实施手段,同样属于本技术实施例的保护范畴。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1