基于域适应的药物敏感性预测方法

文档序号：35466184发布日期：2023-09-16 05:43阅读：30来源：国知局

本发明属于生物信息学，特别涉及一种癌症药物敏感性预测方法，可用于预测对癌症的高敏感性药物，对于药物发现中的表型筛选工作给出参考作用。

背景技术：

1、药物研究是在化学达到一定程度的成熟时开始的，在药理学和临床科学的指导下，对医学进步的贡献超过了任何其他科学因素。而分子生物学的出现，尤其是基因组科学的发展，对药物发现产生了深远的影响。基因组科学与生物信息学工具相结合，使人们能够剖析多因素疾病的遗传基础，从而选择最适合的治疗方法。分子生物学使人们在遗传水平上理解疾病过程，并确定药物干预的最佳分子靶点。靶点的修饰为药物发现的最高级别验证，例如药物作用下受体的阻断或者酶的抑制，导致疾病状况的逆转。而由修饰靶标的化合物引起的分离细胞的表型变化构成了最低程度的验证，如果表型变化可以在某些疾病相关机制的动物模型中被重复诱导，并且靶标的可信度随动物模型的数量增加而增加，那靶标的修饰会导致所需的表型变化。所以，药物发现主要基于分子靶点发现和表型筛选，前者是近几十年来的药物发现主要方法。然而近些年来，从大量获得批准的药物来看，它们大部分起源于表型筛选，然后才详细阐述其确切的作用机制或分子靶点。高通量筛选技术已经提供了癌细胞系与几百种化合物的不同药物反应数据，癌症基因组的大规模药物基因组学研究为研究抗癌疗法以确定药物反应的假定预测提供了前所未有的见解，以此进行表型筛选开发新的抗癌药物来帮助抗癌治疗。

2、近些年来，许多研究使用计算方法来进行药物敏感性预测，主要分为基于传统机器学习的方法和基于深度学习的方法。基于传统机器学习的方法主要通过手工构建癌症和药物的特征，然后送入成熟的预测模型进行预测。基于深度学习的方法主要是通过深度网络进行一系列的非线性变换提取输入的抽象特征。各种深度学习网络包括卷积神经网络、图卷积神经网络等成功应用在癌症基因组相关数据与化合物数据上以进行药物敏感性预测。

3、machine learning prediction of cancer cell sensitivity to drugs basedon genomic and chemical properties中首次综合细胞系基因组特征包括微卫星序列、序列变异数和拷贝数变异，以及化合物的一维与二维特征，利用随机森林建立了预测癌症药物敏感性的模型。

4、a deep learning method to predict drug sensitivity of cancer celllines中利用堆叠自编码器提取癌症基因组特征，再将化合物特征与其拼接，利用深度前馈网络建立癌症药物敏感性模型。

5、以上的研究中都是利用单一的数据源或者是多个数据源的简单整合，其在面对不同实验平台所测得的数据，没有有效的结合利用。而可利用的数据库之间存在密切的联系，它们都提供了相同的生物过程，所以有效的结合它们可以设计更精确的药物敏感性预测模型。

技术实现思路

1、本发明的目的在于克服上述现有技术的不足，提出一种基于域适应的癌症药物敏感性预测方法，以通过深度网络和域适应的方法，获得优秀的特征表示的同时，解决不同数据集数据分布不一致的问题，提高了药物敏感性预测模型的准确率。

2、为实现上述目的，本发明采取的技术方案包括如下步骤：

3、(1)从两个癌症药物反应数据库和化合物数据库下载基因表达谱数据、癌症药物反应数据和化合物结构数据，按照数据库划分得到源域数据集s，目标域数据集d，并将两个数据集的数据格式设置为[癌症基因表达值，药物特征，药物敏感性值]；

4、(2)对源域数据集s和目标域数据集d进行预处理：

5、(2a)对两种来源的癌症基因表达谱数据进行整合，得到维度为16017的基因表达值数据；

6、(2b)利用软件包rdkit对所有化合物结构数据进行处理，得到处理后的药物特征d；

7、(3)构建基于域适应的药物敏感性预测模型；

8、(3a)使用源域数据集s中的基因表达数据，通过无监督的反向传播算法对现有的堆叠自编码器进行训练，得到训练好的堆叠自编码器，并将其编码器部分的网络a作为特征提取网络；

9、(3b)构建由网络a组成的基因特征提取器，用于提取基因特征，即将源域和目标域数据集中的基因表达数据在batch维度上进行拼接得到第一输入向量b1，并将其输入到基因特征提取器，得到第一输出向量m1；

10、(3c)构建由现有两层前馈神经网络组成的药物特征提取器，用于提取药物特征，即将药物特征d作为第二输入向量b2，并将其输入到药物特征提取器，得到第二输出向量m2；

11、(3d)构建由现有的两层前馈神经网络组成的领域判别器，用于领域特征适应，即将基因特征提取器的第一输出向量m1输入到领域判别器，得到二维的领域概率预测值，并将交叉熵损失函数作为该领域判别器的损失函数l1；

12、(3e)构建由现有的三层前馈神经网络组成的回归预测器，用于预测药物敏感性值，即将基因特征提取器得到的第一输出向量m1在batch维度上分割出的源域输出向量和药物特征提取器得到的第二输出向量m2拼接输入到回归预测器，得到药物敏感性预测值，并将均方差损失函数作为该回归预测器的损失函数l2；

13、(3f)将基因特征提取器与药物特征提取器并联，将领域判别器与回归预测器并联，再将这两者级联构成药物敏感性预测模型，设该模型的总损失为:l＝l1+l2；

14、(4)将源域集数据和目标域数据集中的基因表达数据和药物特征输入到药物敏感性预测模型中，利用反向传播方法对药物敏感性预测模型进行迭代训练，直到损失函数收敛，得到训练后的整个网络；

15、(5)将目标域数据集d输入到训练后的药物敏感性预测模型中，得到每一样本的药物敏感性值。

16、本发明与现有技术相比，具有以下优点：

17、第一，本发明通过无监督的堆叠自编码器和深度前馈网络对癌症基因组特征和药物特征建模，增强了特征信息，提升了模型的预测性能。

18、第二，本发明在构建药物敏感性预测模型中的领域判别器中，由于通过域适应方法整合了不同数据库之间的有效信息，设计出了更精确的药物敏感性预测模型，进一步提升了模型的预测性能。

技术特征：

1.一种基于域适应的药物敏感性预测方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的方法，其特征在于，步骤(3a)对堆叠自编码进行训练，实现如下：

3.根据权利要求1所述的方法，其特征在于，步骤(3b)中得到的第一输出向量m1，表示如下：

4.根据权利要求1所述的方法，其特征在于，步骤(3c)中得到的第二输入向量b2，表示如下：

5.根据权利要求1所述的方法，其特征在于，步骤(3c)中得到的第二输出向量m2，表示如下：

6.根据权利要求1所述的方法，其特征在于，步骤(3d)得到二维的领域概率预测值p1，表示如下：

7.根据权利要求1所述的方法，其特征在于，步骤(3e)中得到的药物敏感性预测值p2，表示如下：

8.根据权利要求1所述的方法，其特征在于，步骤(4)对药物敏感性预测模型进行训练，实现如下：

技术总结
本发明公开了一种基于域适应的药物敏感性预测方法。主要解决现有技术对癌症药物敏感性预测不准确的问题。其实现方案为：使用源域训练集训练堆叠自编码器得到其编码器部分的网络作为基因特征提取器；构建由前馈神经网络组成的药物特征提取器；构建由前馈神经网络组成的领域判别器；构建由前馈神经网络组成的回归预测器；将基因特征提取器与药物特征提取器并联，将领域判别器与回归预测器并联，再将这两者级联构成药物敏感性预测模型；将源域数据集和目标域数据集中的基因表达数据输入模型进行训练；将目标域数据集输入到训练好的模型进行预测，得到预测结果；本发明提高了药物敏感性预测准确性、减少了资源消耗，可用于预测对癌症的高敏感性药物。

技术研发人员：鱼亮,胥新宇
受保护的技术使用者：西安电子科技大学
技术研发日：
技术公布日：2024/1/15

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：鱼亮胥新宇
技术所有人：西安电子科技大学
我是此专利的发明人

上一篇：一种提高大米总氨基酸含量的水稻种植方法与流程
上一篇：滚筒式UVA-LED柔版曝光洗版一体机的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。