本说明书实施例涉及生物信息检测,特别涉及转录因子结合位点的预测方法。
背景技术:
1、转录因子(transcription factor,tf)是一种蛋白质,可以通过和dna(脱氧核糖核酸)上的特定区域结合,启动并控制对应的一些基因的转录过程,对特定细胞内的转录调控起到关键作用。其中,与转录因子相结合的特定dna片段称为转录因子结合位点,而在特定细胞内找到这些转录因子结合位点对基因转录调控和表达的研究有重要意义。
2、目前已经发现的转录因子结合位点主要来源于生物实验,而目前已进行的生物实验仅仅只发现了人类转录因子结合位点中非常少的一部分,同生物实验也非常繁琐,由于转录因子的结合位点有特定的序列排布规律,因此,亟需一种新的转录因子结合位点的预测方法来提高确定转录因子结合位点的预测效率和准确率。
技术实现思路
1、有鉴于此,本说明书实施例提供了转录因子结合位点的预测方法。本说明书一个或者多个实施例同时涉及转录因子结合位点的预测装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
2、根据本说明书实施例的第一方面,提供了一种转录因子结合位点的预测方法,包括:
3、接收针对待检测细胞的转录因子结合位点的预测请求;
4、响应于所述预测请求,获取所述待检测细胞的待检测细胞基因序列和目标组蛋白修饰信息;
5、将待检测细胞基因序列和目标组蛋白修饰信息输入至结合位点预测模型,获得所述结合位点预测模型输出的预测结合位点信息,其中,所述结合位点预测模型用于预测细胞基因序列的转录因子结合位点。
6、根据本说明书实施例的第二方面,提供了一种转录因子结合位点的预测装置,包括:
7、接收模块,被配置为接收针对待检测细胞的转录因子结合位点的预测请求;
8、获取模块,被配置为响应于所述预测请求,获取所述待检测细胞的待检测细胞基因序列和目标组蛋白修饰信息;
9、预测模块,被配置为将待检测细胞基因序列和目标组蛋白修饰信息输入至结合位点预测模型,获得所述结合位点预测模型输出的预测结合位点信息,其中,所述结合位点预测模型用于预测细胞基因序列的转录因子结合位点。
10、根据本说明书实施例的第三方面,提供了一种计算设备,包括:
11、存储器和处理器;
12、所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述转录因子结合位点的预测方法的步骤。
13、根据本说明书实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述转录因子结合位点的预测方法的步骤。
14、根据本说明书实施例的第五方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述转录因子结合位点的预测方法的步骤。
15、本说明书实施例提供的转录因子结合位点的预测方法,包括接收针对待检测细胞的转录因子结合位点的预测请求;响应于所述预测请求,获取所述待检测细胞的待检测细胞基因序列和目标组蛋白修饰信息;将待检测细胞基因序列和目标组蛋白修饰信息输入至结合位点预测模型,获得所述结合位点预测模型输出的预测结合位点信息,其中,所述结合位点预测模型用于预测细胞基因序列的转录因子结合位点。
16、通过本说明书实施例提供的方法,在进行转录因子结合位点的预测过程中,加入了组蛋白修饰信息,组蛋白修饰信息为模型提供了额外的与转录因子结合位点具有相关性的信息,提升了预测的准确率,组蛋白修饰信息在不同细胞中有不同的位点的特性,为结合位点预测模型提供了预测转录因子结合位点的能力,同时还可以实现了对未知生物样本的检测。
1.一种转录因子结合位点的预测方法,包括:
2.如权利要求1所述的方法,所述结合位点预测模型包括嵌入层、嵌入信息平衡层、编码层、输出层;
3.如权利要求2所述的方法,将所述待检测细胞基因序列和所述目标组蛋白修饰信息输入至所述嵌入层,获得所述待检测细胞基因序列对应的基因序列特征信息和所述目标组蛋白修饰信息对应的组蛋白特征信息,包括:
4.如权利要求3所述的方法,所述嵌入层包括第一嵌入层和第二嵌入层;
5.如权利要求3所述的方法,根据所述待检测细胞基因序列生成待检测基因子序列集合,包括:
6.如权利要求5所述的方法,根据所述预设切分长度信息对所述待检测细胞基因序列进行切分,获得待检测基因子序列集合,包括:
7.如权利要求2所述的方法,将所述基因序列特征信息、所述组蛋白特征信息、所述基因序列权重和所述组蛋白权重输入至所述编码层,获得所述基因序列特征信息对应的基因序列编码特征信息,包括:
8.如权利要求7所述的方法,所述输出层包括分类器;
9.如权利要求1所述的方法,所述结合位点预测模型通过下述步骤训练获得:
10.如权利要求9所述的方法,获取样本细胞基因序列、样本组蛋白修饰信息、样本序列分类标签,包括:
11.如权利要求10所述的方法,在所述样本细胞基因序列中确定样本序列正标签和样本序列负标签,包括:
12.一种转录因子结合位点的预测装置,包括:
13.一种计算设备,包括:
14.一种计算机可读存储介质,其存储有计算机可执行指令,该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述方法的步骤。