基于对抗自动编码器的单细胞RNA测序聚类方法与流程

文档序号：22550734发布日期：2020-10-17 02:26阅读：来源：国知局

技术特征：

1.一种基于对抗自动编码器的单细胞rna测序聚类方法，其特征在于，包括：

利用基于深度技术自动编码器方法的零膨胀负二项分布特定损失函数对输入的数据进行数据重建，得到无噪音数据，并构建一个由编码器，中间隐藏层和解码器三部分构成的自动编码器框架，利用自动编码器的中间隐藏层中学习到隐藏层特征向量；

利用对抗自编码器对隐藏层特征向量的先验分布进行约束，将隐藏层特征向量的聚合后验与先验分布进行匹配；

使用负二项分布特定损失函数作为重建损失函数，并使用改进深度嵌入聚类进行聚类，计算聚类损失；

联合优化约束特征的重建损失和聚类损失，迭代地更新聚类标签分配。

2.根据权利要求1所述的基于对抗自动编码器的单细胞rna测序聚类方法，其特征在于，所述利用基于深度技术自动编码器方法的零膨胀负二项式分布损失函数对输入的数据进行数据重建，得到无噪音数据包括，

通过负二项式分布的均值和离散度以及代表数据缺失概率的附加系数估算零膨胀负二项式分布损失函数：

zinb(x|π,μ,θ)＝πδ0(x)+(1-π)nb(x|μ,θ)

其中μ表示负二项式分布的均值，θ表示离散度，π表示数据缺失概率的附加系数，zinb表示零膨胀负二项式分布损失函数；

将零膨胀负二项式分布损失函数作为重建损失函数对输入的数据进行数据重建，得到无噪音数据。

3.根据权利要求1所述的基于对抗自动编码器的单细胞rna测序聚类方法，其特征在于，所述利用对抗自编码器对隐藏层特征向量的先验分布进行约束包括：

在自动编码器的中间隐藏层顶部添加一个判别器，将自动编码器修改为对抗自编码器；

将编码器函数和解码器函数分别定义为和其中z表示隐藏层的特征，权重we和wd分别是编码器和解码器中的待学习参数；

将自动编码器中间隐藏层的潜在特征和来自先验分布的一组相同维度大小的真实样本输入判别器，利用二进制交叉熵损失来训练和更新参数，其中ld代表判别器的损失函数：

将自动编码器作为生成器进行训练，以混淆判别器，并让判别器判断编码器生成的输入样本为真实样本；

其中lg代表判别器的损失函数，zi表示真实样本，d表示判别器，si表示自动编码器中间隐藏层的潜在特征。

4.根据权利要求3所述的基于对抗自动编码器的单细胞rna测序聚类方法，其特征在于，在利用二进制交叉熵损失来训练和更新参数之前，所述方法还包括：

将零均值高斯随机噪声添加到编码器的每一层，使模型更健壮。

5.根据权利要求1所述的基于对抗自动编码器的单细胞rna测序聚类方法，其特征在于，所述使用负二项分布特定损失函数作为重建损失函数，并使用idec进行聚类，计算聚类损失包括：

将解码器的最后一层替换为三个独立的全连接层，且三个独立的全连接层的维度与输入数据相同，解码器的架构为：

de＝gwd(h)

φ＝sigmoid(wπde)

θ＝exp(wθde)

其中，h表示瓶颈层的输出，wm，wπ和wθ分别代表最后三个全连接层中的待学习参数，尺度因子sf是一个独立的生物学变量，由原始数据的库大小和细胞中位数计算得出；

zinb分布的重建损失函数是zinb分布的负对数变换

lr＝-log(zinb(x|π,μ,θ))

在辅助目标分布p和样本特征中软聚类标签的分布q之间的kl散度计算得到聚类损失，

6.根据权利要求1所述的基于对抗自动编码器的单细胞rna测序聚类方法，其特征在于，所述包括：

联合优化约束特征的重建损失和聚类损失，迭代地更新聚类标签分配，

模型的目标函数定义为

l1＝lr+lg

相对于聚类中心μj和隐藏层特征样本zi的lc的梯度计算如下

在聚类过程中，聚类中心μj通过以下方式更新

技术总结
本说明书一个或多个实施例提供基于对抗自动编码器的单细胞RNA测序聚类方法，综合了特定生物噪声建模，变异推断和深度聚类建模的优势。我们的模型约束了数据结构，并通过AAE模块进行聚类分析。在三个真实的scRNA‑seq数据集上进行的实验表明，与最新技术在聚类准确度，标准化互信息和调整兰德系数上相比，本方法的聚类性能都要好得多。

技术研发人员：郭延明;武与伦;肖延东;老松杨
受保护的技术使用者：中国人民解放军国防科技大学
技术研发日：2020.07.24
技术公布日：2020.10.16

完整全部详细技术资料下载

当前第2页1 2