高密度基因芯片的微珠亮暗分类方法、终端和存储介质与流程

文档序号：30889845发布日期：2022-07-26 22:21阅读：91来源：国知局

1.本发明涉及生物芯片技术领域，尤其涉及一种基因芯片的微珠亮暗分类方法。

背景技术：

2.在基因芯片的生产制造环节，需要对基因芯片进行解码。在解码的过程中，需要将基因芯片扫描为图像，然后提取图像特征并识别基因芯片上各个微珠的亮暗分布，然后对照参照表解码各个微珠所携带的探针类型，从而完成基因芯片的解码过程。对于扫描后的基因芯片图像而言，现有的特征提取方法，多基于技术人员指定好的固定规则，如提取以每一个微珠中心点为中心，一定矩形或者圆形范围内灰度值的均值作为该微珠的灰度值，进而进行后续的分析处理。但由于微珠并不总是一个非常均匀的圆形，所以这种人为根据理想情况划定的规则并不总能很好地表达微珠。比如若两颗有着相同亮度的微珠，其中一颗因为一些扰动，如灰尘、微珠破裂等因素导致微珠中部一小部分区域变暗；在这种情况下，若仍然取中心矩形区域的均值作为微珠灰度值的表示，则这两颗微珠可能会截然不同。因此，人工选取特征的固定性会在很多情况下限制特征提取的效果。我们需要更加鲁棒而适应性强的方法。

技术实现要素：

3.为了克服上述技术缺陷，本发明的第一个方面提供一种高密度基因芯片的微珠亮暗分类方法，包括：步骤s1：将每个微珠的灰度图作为自动编码器模型的输入图像和结果标签，对自动编码器模型的编码器和解码器进行预训练，直至自动编码器模型学会从微珠中自动提取出微珠的高维特征、并且能够从提取到的微珠的高维特征中重构出与输入相同的图像时，则完成自动编码器模型的预训练；步骤s2：完成自动编码器模型的预训练后，使用编码器的输出作为后续模型的输入，使用解码器计算重构损失以优化模型；值得注意的是，在完成自动编码器模型的预训练后，编码器的输出将作为后续模型的输入，解码器仅仅作为模型优化时计算重构损失而保留，除此之外，解码器在后续过程中不再起到其他作用；步骤s3：在自动编码器的编码层后再加一神经网络中的全连接层作为自表达层，并进一步训练自动编码器和自表达层，直至当编码器输出的高维特征作为自表达层的输入、并且输入自表达层的高维特征通过自表达层的表达系数矩阵被自表达时，则完成了自动编码器和自表达层的训练，并在这一过程中，使自表达层中的表达系数矩阵完成构建；步骤s4：将待分类的每个微珠的灰度图输入训练后的编码器编码以获得当前高维特征；步骤s5：将当前高维特征输入训练后的自表达层以获得当前表达系数矩阵；步骤s6：使用谱聚类算法，将自表达层的当前表达系数矩阵作为谱聚类算法中的
相似度矩阵进行聚类，从而分出微珠的亮暗。
4.所述编码器提取出的编码为一组抽象的高维特征。由于神经网络的黑盒特性以及编码存在于高维空间，其并不具备如“均值”这般人类容易理解的意义。但是由于编码可以被自动编码器的解码层成功重构回原始输入图像，而仅靠“均值”、“方差”等特征无法做到这一点，说明编码蕴含着更为丰富的信息。
5.进一步地，在步骤s6中，使用谱聚类算法对相似度矩阵进行切割，找出能够互相线性表达的样本聚作一类，从而得到微珠的亮暗分类结果。
6.进一步地，使用谱聚类算法进行聚类包括步骤：（1）将自表达层中的表达系数矩阵当作相似度矩阵w；（2）通过计算相似度矩阵或拉普拉斯矩阵l，并构建标准化的拉普拉斯矩阵；（3）计算标准化后的拉普拉斯矩阵的前k个特征值与特征向量，构建特征向量矩阵q；（4）利用k-means聚类算法对特征矩阵q中的特征向量进行聚类，对应得到相似度矩阵w中每行对象所属的类别。
7.进一步地，在步骤s3中，假设编码器得到的高维特征为z，自表达层间的表达系数矩阵为c，训练自表达层使得输入z通过自表达层得到的输出也为z，即zc = z，输入z通过线性组合成功表达了自己，即“自表达性质”。
8.进一步地，步骤s2进一步包括：使用下述损失函数计算自动编码器的重构损失：其中为输入自动编码器的原始图像，为自动编码器输出的重构图像，为该项损失的权重系数。
9.进一步地，步骤s3进一步包括：使用下述损失函数计算自表达层的自表达损失：其中为自动编码器中编码器的输出，同时也是自表达层的输入，为自表达层中的表达系数矩阵，为该项损失的权重系数。
10.进一步地，步骤s3进一步包括：使用下述损失函数对自表达层的权重进行正则化约束，从而计算相似度矩阵正则损失：其中为自表达层中的表达系数矩阵，为该项损失的权重系数。
11.本发明的第二个方面提供一种终端，包括：存储器，所述存储器用于存储可执行程序代码；以及处理器，所述处理器用于读取所述存储器中存储的可执行程序代码以执行上述高密度基因芯片的微珠亮暗分类方法。
12.本发明的第三个方面提供一种存储介质，所述存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时，实现上述高密度基因芯片的微珠亮暗分类方法。
13.采用了上述技术方案后，与现有技术相比，具有以下有益效果：本发明提供一种基于自动编码器和高维空间聚类的基因芯片微珠亮暗分类方法，
用于自动提取高密度基因芯片中作为核酸探针固定载体的微球的高维特征，并将提取出的高维特征直接进行聚类，从而得到微珠的亮暗分类结果，整个过程具有更好的鲁棒性。此外，本技术的技术方案能够从微珠的完整图像中提取更加丰富的信息，从而保证提取出的微珠特征的准确性。
附图说明
14.图1为本技术一实施例中的高密度基因芯片的微珠亮暗分类方法的流程图；图2 为自动编码器重构图像的十组示例，从左向右看，每两个为一组，每组中的左图为原始图像，右图为自动编码器重构图像；图3为编码层、自表达层和解码层之间的结构关系示意图；图4为使用本技术的微珠亮暗分类方法进行分类的效果图，图中的黑色“+”代表分类后的亮珠，白色
“‑”
代表分类后的暗珠。
具体实施方式
15.以下结合附图与具体实施例进一步阐述本发明的优点。本领域技术人员应当理解，下面所具体描述的内容是说明性的而非限制性的，不应以此限制本发明的保护范围。
16.本实施例提供一种智能终端，该智能终端包括：存储器，所述存储器用于存储可执行程序代码；以及处理器，所述处理器用于读取所述存储器中存储的可执行程序代码以执行下述高密度基因芯片的微珠亮暗分类方法。
17.如图1所示，高密度基因芯片的微珠亮暗分类方法包括以下步骤1-步骤6：步骤1：预训练自动编码器：将每个微珠的灰度图作为自动编码器模型的输入图像和结果标签，对自动编码器模型的编码器和解码器进行预训练，直至自动编码器模型学会从微珠中自动提取出微珠的高维特征、并且能够从提取到的微珠的高维特征中重构出与输入相同的图像时，则完成自动编码器模型的预训练；所述编码器提取出的编码为一组抽象的高维特征。由于神经网络的黑盒特性以及编码存在于高维空间，其并不具备如“均值”这般人类容易理解的意义。但是由于编码可以被自动编码器的解码层成功重构回原始输入图像，而仅靠“均值”、“方差”等特征无法做到这一点，说明编码蕴含着更为丰富的信息。
18.自动编码器作为一种神经网络模型，拥有非常好的鲁棒性，能够在各种扰动下依旧输出正确的结果。它的结构由两部分构成：一个编码器与一个解码器；编码器中，图像由原本的灰度信息转变为一组编码，之后这组编码便可高效地表示输入的图像。同时，编码的过程也可以理解为特征提取的过程，编码器的每一层都相当于一个特征提取器，提取了丰富的各种特征；解码器则是从编码器提取到的特征中，重构原图像，如果解码器能够重构原图，则说明编码器是十分优秀的，因为编码器成功提取出了富含信息的编码。我们也可以通过改变编码器的深度与宽度的方式，得到更加高维和丰富的特征。因此，我们可以将自动编码器这一模型用于微珠的特征提取。
19.具体的做法是，将每颗微珠的图像作为自动编码器模型的输入；而作为训练模型的真实值，依然用与输入一模一样的该微珠的图像作为标签来作为模型训练的结果：即模型学会从微珠中自动提取特征，之后从提取到的特征中，重构出一模一样的图像。
20.由于模型可以从自动提取的特征中，成功重构出与输入图像近乎完全相同的图像，我们完全可以认为模型提取出的特征是非常高效且包含非常丰富的信息的。如果特征提取的步骤人为完成的话，我们根据提取出的诸如“均值”、“方差”、“图像熵”等数据，很难去还原和原图一模一样的图像。而自动编码器提取到的特征能做到这一点，如图2所示，说明其提取到的特征更为高效。
21.优选地，为了保证自动编码器提取到的特征更加准确高效，本步骤还包括：使用重构误差函数计算自动编码器的重构误差。
22.步骤2：完成自动编码器模型的预训练后，使用编码器的输出作为后续模型的输入，使用解码器计算重构损失以优化模型；而在模型训练完成，能够完美重构图像后，便可以将输入的图像，编码为我们想要的特征，利用这些特征来表示图像。值得注意的是，在完成自动编码器模型的预训练后，编码器的输出将作为后续模型的输入，而解码器仅仅作为模型优化时计算重构损失而保留，除此之外，解码器在后续过程中不再起到其他作用。
23.本步骤还包括使用下述损失函数计算自动编码器的重构损失：其中为输入自动编码器的原始图像，为自动编码器输出的重构图像，为该项损失的权重系数。
24.步骤3：增加并训练自表达层：在自动编码器的编码层后再加一神经网络中的全连接层作为自表达层，并进一步训练自动编码器和自表达层，直至当编码器输出的高维特征作为自表达层的输入、并且输入自表达层的高维特征通过自表达层的表达系数矩阵被自表达时，则完成了自动编码器和自表达层的训练，并在一过程中，使自表达层中的表达系数矩阵完成构建；在获得自动编码器提取到的特征后，我们便需要基于提取到的特征，对微珠进行亮暗的分类。这里我们使用聚类的方法，将彼此相似的样本归为一类。由于自动编码器已经为我们提取好了特征，因此最直接简单的想法是，将每个输入样本所提取出来的这些编码，直接当作样本的特征，利用我们熟知的kmeans，dbscan等算法进行聚类。但是实际测试中，这样得到的结果并不好。这一点也是可以解释的：kmeans等传统的聚类算法是基于较低维的数据所开发，计算距离时采用的度量也更适合低维数据；而在高维空间中，距离（如欧氏距离）相近的数据点也许并不属于一类，并且由于高维空间中的稀疏性，高维的空间中并不存在数据簇。因此，我们需要专门针对高维数据的方法。
25.深度子空间聚类，正好可以适用于我们的情况。其基本思想为：在高维空间中，同一个类别的数据属于同一个子空间，而这些同属一类的数据点具有“自表达性质”：数据点可以通过与其在同一个子空间的其他数据点的线性组合来表示。而神经网络中全连接层的结构正好满足了这一点：若用每个神经元表示一个样本，神经元间带权重的线性连接恰恰是神经元相互间的线性表示。为此，我们需要在自动编码器的编码层后再加一层名叫“自表达层”的全连接层，如图3所示，来获得记录了各样本点表达系数的相似度矩阵。具体的做法是，假设编码器得到的编码为z，子表达层间的表达系数矩阵为c，我们训练自表达层，使得其输出也为z，即zc = z。因此，输入z通过线性组合成功表达了自己，也就是所谓的“自表达
性质”。在通过自表达层得到相似度矩阵后，便可以通过谱聚类的方法，对相似度矩阵进行切割，找出能够互相线性表达的样本聚作一类，得到微珠的亮暗分类结果。
26.为了我们得到的稀疏矩阵具有“子空间保持性”，即对于某一样本点，其非零表达系数对应的样本点也都属于同一个子空间，我们希望得到解是稀疏的。在训练模型时候，需要对子表达层的权重进行正则化约束。而为了自表达层中，自表达性质更加准确，从而使得后续的谱聚类得到更加准确的相似度矩阵，我们会对自表达层的输出与输入计算损失，使得自表达性质更加准确。优选地，使用损失函数计算自表达层的输入损失和输出损失。优选地，使用正则损失函数对自表达层的权重进行正则化约束，从而计算相似度矩阵正则损失。
27.本步骤还包括使用下述损失函数计算自表达层的自表达损失：其中为自动编码器中编码器的输出，同时也是自表达层的输入，为自表达层中的表达系数矩阵，为该项损失的权重系数。
28.本步骤还包括使用下述损失函数对自表达层的权重进行正则化约束，从而计算相似度矩阵正则损失：其中为自表达层中的表达系数矩阵，为该项损失的权重系数。
29.步骤4：将待分类的每个微珠的灰度图输入训练后的编码器编码以获得当前高维特征；在通过步骤1-步骤3完成了整个模型的全部训练步骤之后，即可采用训练后的该模型对高密度基因芯片上的微珠亮暗进行分类。自动编码器获取待分类的每个微珠的灰度图，并输出作为当前高维特征的编码。
30.值得注意的是，本技术的技术方案中，在每一次使用模型进行微珠分类之前，都需要按照步骤1-步骤3对模型进行训练。
31.步骤5：将当前高维特征输入训练后的自表达层以获得当前表达系数矩阵；编码层输出的当前高维特征（即编码）作为自表达层的输入，即自表达层获取编码层输出的当前高维特征，并得到当前表达系数矩阵。
32.步骤6：使用谱聚类算法，将自表达层的当前表达系数矩阵作为谱聚类算法中的相似度矩阵进行聚类，从而分出微珠的亮暗。
33.图4所示为某高密度基因芯片上的微珠进行亮暗分类的效果图。使用谱聚类算法对相似度矩阵进行切割，找出能够互相线性表达的样本聚作一类，从而得到微珠的亮暗分类结果。使用谱聚类算法进行聚类包括步骤：（1）将自表达层中的表达系数矩阵当作相似度矩阵w；（2）通过计算相似度矩阵或拉普拉斯矩阵l，并构建标准化的拉普拉斯矩阵；（3）计算标准化后的拉普拉斯矩阵的前k个特征值与特征向量，构建特征向量矩阵q；（4）利用k-means聚类算法对特征矩阵q中的特征向量进行聚类，对应得到相似度矩阵w中每行对象所属的类别。
34.在本技术的另一实施例中，还提供一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序指令，所述计算机程序指令被处理器执行时，实现上述高密度
基因芯片的微珠亮暗分类方法中的步骤1-步骤6。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom，read-only memory)、随机存取存储器(ram，random access memory)、电载波信号、电信信号以及软件分发介质等。
35.应当注意的是，本发明的实施例有较佳的实施性，且并非对本发明作任何形式的限制，任何熟悉该领域的技术人员可能利用上述揭示的技术内容变更或修饰为等同的有效实施例，但凡未脱离本发明技术方案的内容，依据本发明的技术实质对以上实施例所作的任何修改或等同变化及修饰，均仍属于本发明技术方案的范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘超钧刘若愚许心意
技术所有人：苏州拉索生物芯片科技有限公司
我是此专利的发明人

上一篇：一种用于紫藤生长的支撑设备的制作方法
上一篇：一种车门上铰链加强板冲孔、冲侧孔、修边模具的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。