所属的技术人员能够理解,本发明提供的基于深度学习的大肠杆菌中4mc点位预测方法各个方面可以实现为系统、方法或程序产品。因此,本公开的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“系统”。在储存基于深度学习的大肠杆菌中4mc点位预测方法的非暂态计算机可读存储介质中,可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(ram)、只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。尽管通过参考附图并结合优选实施例的方式对本发明进行了详细描述,但本发明并不限于此。在不脱离本发明的精神和实质的前提下,本领域普通技术人员可以对本发明的实施例进行各种等效的修改或替换,而这些修改或替换都应在本发明的涵盖范围内/任何熟悉本的技术人员在本发明揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本发明的保护范围之内。
背景技术:
1、dna的甲基化修饰,尤其是4-甲基胞嘧啶,又称4mc,在生物体内具有至关重要的作用,其参与调节dna复制、转录调控和基因表达等多个关键过程。因此在基因组学研究中,准确识别基因组中的4mc位点对于理解4mc位点的遗传功能、疾病机制具有重要意义。
2、目前通过多种实验技术可识别4mc点位,例如质谱、简化代表性亚硫酸盐序列和单分子实时测序等,但这些技术在处理大规模测序数据时存在成本高、效率低等问题。新一代基于计算方法的预测模型在识别4mc点位中开始使用,例如,idna4mc、iec4mc-svm、dna4mc-lip和meta-4mcpred等模型已被提出并应用于多种物种中4mc位点的预测。然而,这些模型大多基于传统机器学习算法,其性能受限于特征提取的复杂性和模型的泛化能力。尤其是已经出现一种深度学习模型4mccnn被用于多种物种中4mc点位的预测,但此模型在针对特定物种尤其是大肠杆菌中4mc点位预测精度不高。
3、此为现有技术的不足,因此,针对现有技术中的上述缺陷,提供一种基于深度学习的大肠杆菌中4mc点位预测方法、系统、设备及介质,是非常有必要的。
技术实现思路
1、针对现有技术的上述4mc点位预测对生物体至关重要,实验技术识别4mc点位的方式成本高,效率低,新一代预测模型受限于特征提取的复杂性,预测精度不高的缺陷,本发明提供一种基于深度学习的大肠杆菌中4mc点位预测方法、系统、设备及介质,以解决上述技术问题。
2、第一方面,本发明提供一种基于深度学习的大肠杆菌中4mc点位预测方法,包括如下步骤:
3、s1.采集大肠杆菌基因组的dna序列数据,对采集数据进行预处理构建训练数据集和独立测试数据集;
4、s2.将训练数据集和独立测试数据集中dna序列数据进行特征编码生成预设维度的特征向量;
5、s3.基于一维卷积神经网络构建预测模型,并使用训练数据集中特征向量对预测模型进行训练,通过10折交叉验证方式优化模型参数,以及在训练完成后,通过独立测试数据集评估预测模型的性能;
6、s4.将待测的大肠杆菌基因组的dna序列数据输入性能评估通过的预测模型中,得到dna序列中4mc点位的预测结果。
7、进一步地,步骤s1具体步骤如下:
8、s11.基于idna4mc预测工具采集大肠杆菌基因组的dna序列数据,并对dna序列数据进行4mc点位和非4mc点位标注;
9、s12.对采集的dna序列数据进行分析,计算各dna序列的相似度,从相似度高于预设的序列同一性阈值的两个dna序列删除一个,完成数据预处理;
10、s13.预先设定长度p,从完成数据预处理的dna序列数据根据长度p筛选出包含4mc点位的n组dna序列片段作为正样本,以及根据长度p筛选出不包含4mc点位的n组dna序列作为负样本,得到训练数据集;
11、s14.从完成数据预处理的dna序列数据根据长度p筛选出包含4mc点位的m组dna序列片段作为正样本,以及根据长度p筛选出不包含4mc点位的m组dna序列作为负样本,得到独立测试数据集,其中n与m的比例为预先设定值。
12、进一步地,步骤s2具体步骤如下:
13、s21.使用word2vec词嵌入工具中的连续词袋模型将训练数据集中各训练样本的dna序列转换为预设维度w的特征向量;
14、s22.使用word2vec词嵌入工具中的连续词袋模型将独立测试数据集中各测试样本的dna序列转换为预设维度w的特征向量。
15、进一步地,步骤s21具体步骤如下:
16、s211.将word2vec词嵌入工具的连续词袋模型作为编码模型;
17、s212.设置长度为p的训练样本的dna序列作为编码模型的输入,设置编码模型的特征向量维度为w,设置dna序列中每个核苷酸组成的特征向量作为编码模型的输出;
18、s213.将训练样本输入设置好的编码模型中对dna序列的上下文相似性进行训练,得到作为w维度的特征向量的训练样本;
19、步骤s22具体步骤如下:
20、s221.将word2vec词嵌入工具的连续词袋模型作为编码模型;
21、s222.设置长度为p的测试样本的dna序列作为编码模型的输入,设置编码模型的特征向量维度为w,设置dna序列中每个核苷酸组成的特征向量作为编码模型的输出;
22、s223.将测试样本输入设置好的编码模型中对dna序列的上下文相似性进行训练,得到作为w维度的特征向量的测试样本。
23、进一步地,步骤s3具体步骤如下:
24、s31.基于一维卷积神经网络构建预测模型,所述预测模型包括若干卷积层、若干池化层以及至少一个全连接层,初始化预测模型的参数;
25、s32.将训练数据集随机划分为训练子集和测试子集,使用训练子集对预测模型进行训练,提取分层特征,并使用测试子集对预测模型分类精确性进行评估,再根据评估结果调整预测模型的参数;
26、s33.通过独立测试数据集对训练完成的预测模型进行性能评估;
27、若性能评估通过,进入步骤s4;
28、若性能评估不通过,重新进行预测模型训练,返回步骤s21。
29、进一步地,步骤s32具体步骤如下:
30、s321.将训练数据集随机划分为10个子集,并定位1个子集;
31、s322.将定位的子集作为测试子集,选择剩余9个子集作为训练子集;
32、s323.使用训练子集对预测模型进行训练,提取分层特征;
33、s324.使用测试子集对预测模型分类精确性进行评估,记录评估结果;
34、s325.判断子集是否定位完毕;
35、若是,进入步骤s326;
36、若否,定位下一个子集,返回步骤s322;
37、s326.计算10个评估结果的平均值作为最终评估结果;
38、若最终评估结果符合要求,进入步骤s33;
39、若最终结果不符合要求,进入步骤s327;
40、s327.对预测模型的参数进行调整,返回步骤s21;
41、步骤s33具体步骤如下:
42、s331.将独立测试数据集中dna序列输入训练完成的预测模型中得到模型预测结果;
43、s332.将独立测试数据集中dna序列的实际标注结果与模型预测结果进行比对,计算4mc点位识别正确率tp,4mc点位识别错误率fp,非4mc点位识别正确率tn以及非4mc点位识别错误率fn;
44、s333.根据4mc点位识别正确率tp,4mc点位识别错误率fp计算预测模型灵敏度、特异性、准确率以及马修斯相关系数指标;
45、s334.构建预先模型的工作特征曲线表征预测模型的效率,并计算工作特征曲线的分类效能面积;
46、s335.使用预测模型灵敏度、特异性、准确率、马修斯相关系数指标以及工作特征曲线的分类效能面积对预测模型进行评估;
47、若评估通过,进入步骤s4;
48、若评估不通过,返回步骤s21。
49、进一步地,步骤s4具体步骤如下:
50、s41.获取待测的大肠杆菌基因组的dna序列数据并输入预测模型;
51、s42.预测模型对待测的大肠杆菌基因组的dna序列数据进行编码、特征提前和分类处理后输出预测结果,确定dna序列4mc点位。
52、第二方面,本发明提供一种基于深度学习的大肠杆菌中4mc点位预测系统,包括:
53、数据集构建模块,用于采集大肠杆菌基因组的dna序列数据,对采集数据进行预处理构建训练数据集和独立测试数据集;
54、特征向量生成模块,用于将训练数据集和独立测试数据集中dna序列数据进行特征编码生成预设维度的特征向量;
55、模型训练模块,用于基于一维卷积神经网络构建预测模型,并使用训练数据集中特征向量对预测模型进行训练,通过10折交叉验证方式优化模型参数,以及在训练完成后,通过独立测试数据集评估预测模型的性能;
56、4mc点位预测模块,用于将待测的大肠杆菌基因组的dna序列数据输入性能评估通过的预测模型中,得到dna序列中4mc点位的预测结果。
57、第三方面,本发明提供一种电子设备,包括处理器和存储器;
58、其中,该存储器用于存储计算机程序,该处理器用于从存储器中调用并运行该计算机程序,使得电子设备执行上述第一方面所述的方法。
59、第四方面,本发明提供了一种存储介质,
60、所述存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的方法。
61、本发明的有益效果在于:
62、本发明提供的基于深度学习的大肠杆菌中4mc点位预测方法、系统、设备及介质,通过基于神经网络的深度学习模型实现大肠杆菌中4mc点位的预测,并在模型训练过程中通过10折交叉验证方式提升了模型的预测准确性和泛化能力。由此可见,本发明与现有技术相比,具有突出的实质性特点和显著的进步,其实施的有益效果也是显而易见的。