本发明涉及生物科学与人工智能交叉领域,尤其涉及基于迁移学习的分布式转录调控网络大模型构建方法。
背景技术:
1、转录调控是细胞代谢活动的核心调节机制之一。真核细胞中大量转录因子和靶基因之间的相互作用组成了极其庞大复杂的转录调控网络,用于维持细胞代谢稳态和调控细胞代谢分化。鉴于真核细胞中转录调控网络的极端复杂性和多变性,亟需在系统和全局水平开展转录调控网络基础模型搭建,以精准解析基因调控机制,并在系统水平上解析细胞衰老、肿瘤发生等重要生命活动背后的分子机理。因此开展真核细胞转录调控网络基础模型构建对我国精准医学和健康产业发展具有重大研究意义。
2、目前转录调控网络构建方法可分为机理建模和数据驱动建模。机理建模的方法指的是从一组核心转录调控网络的先验知识出发,应用数学模型或信号通路来模拟基因的动态表达过程。对于已经得到广泛研究的细胞和系统来说,积累的大量知识有助于构建效果较好的转录调控网络模型。然而,截止目前,细胞中转录调控关系尚未完全解析,其如何响应外界环境刺激仍不得而知。因此基于机理的转录调控网络建模策略存在着明显缺陷。数据驱动的构建方法是指基于全基因组或转录组学数据,采用机器学习或统计的方法来大规模的推断转录调控网络。这种数据驱动的方法在没有充足的先验调控关系知识但已有大量的转录组学数据的情况下,可以推断可能的基因相互作用,并预测影响关键功能或调控关系的基因靶点。然而,两种构建方法都存在着一些局限性,无法对转录调控过程实现准确的模拟。因此,采用机理与数据融合驱动的方法,可以充分利用已知的转录调控先验知识,并更好的借助机器学习等人工智能方法,对细胞的转录调控过程进行建模。
3、转录调控过程中的一个关键问题是找到转录因子对应靶基因的调控方向,这将决定当需要对某个靶基因的表达水平进行调控时,需要将对应的转录因子增强或是抑制。但是,由于微生物细胞生长过程的极度复杂性与高度的耦合性,且同种微生物在不同实验条件、不同生长阶段呈现的调控关系存在差异,单一的调控关系难以被直接捕捉到。现有数据库中的转录调控关系也大多为布尔型,即仅表征该转录因子与靶基因之间是否存在调控关系,而调控方向的信息大多缺失。因此,通过机器学习的方法从批量数据中学习准确的转录调控关系有着重要的意义,可以从数据集中学习到数据之间的内在联系,从而帮助理解转录因子与靶基因之间的调控方向,进而发掘基因表达的调控手段,加快转录调控关系的研究。所以,建立一个用于描述细胞内转录调控关系的转录调控网络模型,对细胞的生命科学研究有着非常重要的作用。
4、当前生物领域中的大模型的构建主要由两个步骤组成:预训练与微调,即迁移学习的思想。预训练过程是指在没有特定任务的情况下预先训练模型,因此使用无监督预训练的方式来学习基因间的潜在关系。微调则是将预训练好的参数初始化,根据下游任务的具体数据进行特异性训练。因此,采用包含多种菌株的泛转录组数据作为预训练数据集,从泛转录组数据中学习得到某一类细胞、某一种物种内基因之间的转录调控关系。随着被送入机器学习模型的数据量增加,模型会从这些数据中提取出高阶的、抽象的、更加贴近本质的特征信息。在迁移学习的微调阶段,将预训练模型的部分参数固定,将其他参数在更加具体的数据集上进行重新训练。即实现从预训练模型中的抽象特征出发,对下游任务的数据进行针对性训练,将下游任务的特异性特征提取出来,得到一个微调后的精细模型。
5、在转录调控过程中,一个基因一般需要受到多个转录因子的共同调控,同时由于细胞中的基因数量非常庞大,一般达到数千个到万个不等,这就导致转录调控网络是一个非常庞大的系统。因此,当我们采用人工神经网络方法对其进行建模时,如果将所有转录因子与靶基因构成一个完整神经网络结构,即使可以根据转录调控先验知识将部分层与层之间的连接舍弃,其包含的参数量仍然十分庞大,会收到计算机运行内存的限制,模型计算也会过于复杂导致训练时间过长。并且,对于参数量较大的网络模型,其训练所需的数据量也是非常庞大的。
技术实现思路
1、本发明的目的在于提供基于迁移学习的分布式转录调控网络大模型构建方法,以解决上述背景技术中提出的问题。
2、为实现上述发明目的,本发明提供基于迁移学习的分布式转录调控网络大模型构建方法,是以有文献支撑的可靠转录调控先验关系作为分布式子网络输入变量和输出变量的选择依据,利用迁移学习思想进行两个阶段的模型训练,以获取转录过程中的调控关系,进而指导基因表达调控的研究。建立分布式转录调控网络大模型,是通过机器学习的方法从数据中提取转录调控关系的高阶抽象特征信息,分布式的结构可避免了计算机运行内存的局限性,并且可以实现靶基因调控的预测,为调控关系的研究提供可靠的工具。为了实现具体转录调控关系的获取,采用迁移学习的思想。包括以下步骤:
3、步骤s1,通过转录调控先验知识获取转录调控关系,得到转录因子对应靶基因的配对。
4、步骤s2,构建分布式转录调控网络大模型;
5、步骤s3,在泛转录组数据上进行模型预训练,获取多种菌株中存在的转录调控关系的高阶特征。
6、步骤s4,采用时序数据集,对模型进行微调以得到特异性分布式大模型;
7、步骤s5,根据数据特征制定预测结果的评价指标,将预测结果的分为三级准确程度,根据各子网络的准确程度来观察数据集对模型预测性能的影响以及它们的可靠性。
8、进一步的,所述转录调控先验知识,转录调控关系由一对转录因子及其靶基因形成的,一个转录因子可以调控多个靶基因,同样的一个靶基因可能受到多个转录因子的调控。数据库中获取的转录调控先验知识,是从中选择具有文献报道和支持的转录因子以及靶基因的研究中选择的。所得到的调控关系是一组配对,即表征转录因子与该靶基因之间存在调控关系,但不包含调控方向等其他信息。将数据库中所有相关基因配对,即可得到一个转录调控知识图谱,基于该知识图谱即可构建一个转录调控的机理网络。
9、进一步的,所述分布式转录调控网络大模型由分布式子网络组成,所述分布式子网络基于数据库中获取的转录调控机理网络,将机理网络以靶基因为中心进行分离,得到靶基因受到的转录因子调控关系进行提取,以转录因子的表达水平作为输入,靶基因的表达水平作为输出;所述是分布式子网络多输入单输出的;所有子网络的整合表征细胞整体的转录调控关系。
10、进一步的,当靶基因仅受到一个转录因子或自身调控时,所述分布式子网络是单输入单输出的结构。
11、进一步的,所述步骤s3中的预训练,是根据确定好结构后的分布式网络在泛转录组数据集上进行数据处理和对齐并进行分布式训练的过程。包括以下步骤:
12、步骤s301,需要对预训练数据进行处理,泛转录组数据是以tpm(transcripts permillion)为单位的,它是rna测序数据分析领域经常使用的一种单位,表示每百万读取次数中某个转录本的占比,并且tpm可以消除样本的测序深度对基因表达量分析的影响。其中,由于泛转录组数据集在多种菌株中收集测序数据,尽管在同一物种多种菌株的基因相似度非常高,但检测的误差和局限性导致每种菌株测序结果中的基因数量仍然存在些许的差异,这导致部分基因并非在所有菌株中都有数据。因此需要对数据进行补充与对齐。
13、步骤s302,将所有的tpm数据对齐到对数空间中,使其数据分布更加适合于机器学习的训练,其处理公式可以表示为log2(tpm+1)。
14、步骤s303,根据每一个子网络的输入输出的不同,将预训练数据进行分割以适应每一个子网络的特征。
15、步骤s304,确定好训练过程的基本参数后,对每一个子网络模型进行分布式训练,训练过程中各子网络之间互不影响。每一个子网络在处理好并完成分割的子数据集上进行训练,减小了训练网络规模,提高了训练效率,克服了数据量不充足的问题。
16、进一步的,所述步骤s4中的微调是将预训练完成的各个子模型在下游任务的具体数据集上继续训练的过程。包括以下步骤:
17、步骤s401,对微调数据集进行处理,将预训练数据集与微调数据集在基因数、基因名上对齐,对各子网络的结构根据微调数据集进行调整。由于微调数据集是基于时序检测得到的,而不同检测批次采用了不同的测样时间间隔,因此采用插值的方法将各样本间的时间间隔进行对齐,以方便模型的微调训练。
18、步骤s402,由于微调数据集的分布不同,是基因扰动前后的表达水平比值,并且经过了处理使无变化数据设定为零,因此为了同样将微调数据对齐到对数空间,采用的数据处理方法是:log2(2x+1)。
19、步骤s403,固定各子模型的部分参数,基于迁移学习将一部分参数冻结在预训练的结果上,其他参数可以在预训练结果的基础上继续训练。
20、步骤s404,同样对微调数据集进行分割,确定各子网络的输入和输出,送入各子模型中按照分布式训练的方法进行模型微调。
21、进一步的,所述的预测结果评价指标,是根据微调模型的输出结果与标签值之间的不同关系制定评价指标。由于转录调控过程复杂多变,微调分布式模型的预测输出值与实际标签值存在误差,这些误差在一定范围内上是可以接受的。并且,定性的转录调控关系的获取是构建转录调控网络模型的主要功能之一。因此,根据微调模型的输出与实际标签值之间误差的不同表现,将其结果分为三个等级:优、合格和不合格,分别用来表示预测结果与实际标签的误差较小、预测结果与实际标签的误差较大但方向正确、预测结果与实际标签的误差很大。基于自定义的预测结果评价指标,可以清晰的分析出各子模型在微调后的表现,可以用来对子模型实施进一步的分析。
22、由于采用本系统和方法,与现有技术相比,具有以下优点:
23、(1)充分利用已知转录调控先验知识,实现了机理与数据融合驱动建模,挖掘数据中的高阶抽象信息特征;
24、(2)以靶基因为基础将庞大的转录调控网络进行分割,形成分布式子网络模型框架,克服了计算机运行内存、数据量大小、运算时间等局限;
25、(3)采用迁移学习的思想,从不同数据集中提取转录调控关系的抽象特征,并将其通过微调过程提取出来,得到针对下游任务的特异性微调模型;
26、(4)制定了结果评价指标,根据不同误差表现对每一个模型的结果进行评价,分布式的模型结构有利于进一步的转录因子定性研究。