一种超图结构约束的多任务稀疏典型相关分析方法

文档序号:37069280发布日期:2024-02-20 21:22阅读:24来源:国知局
一种超图结构约束的多任务稀疏典型相关分析方法

本发明属于脑影像基因组学领域,特别是涉及结合超图及多任务稀疏典型相关分析技术,在精神分裂症等脑疾病中探索影像表型与基因数据间关联的一种方法。


背景技术:

1、随着多模态数据采集技术的发展,脑影像基因组学已成为一个不断发展的新兴研究领域。脑影像基因组学研究的主要目标之一就是探索基因和大脑结构或功能之间的联系,该领域的研究为解释脑疾病的发病机制提供了一个新的视角。先前的一项研究通过对基因数据与基于多个频段计算的静息态比率低频振幅(fractional amplitude oflow-frequency fluctuation,falff)特征进行相关性分析,在健康个体中发现了自发神经元活动的频率依赖性遗传调制。最近,多频段的静息态脑影像特征在精神分裂症(schizophrenia,scz)中被广泛研究,其中包括基于多个频段计算的静息态falff特征。然而,虽然基于scz的研究表明falff特征的异常模式在不同频段上存在差异,但在不同频段下造成这种差异的潜在遗传底物仍需得到进一步探索,以加深对scz病理机制的理解。

2、近年来,稀疏典型相关分析(sparse canonical correlation analysis,scca)已广泛应用于脑影像基因组学研究。这种方法可以检测出影像表型和单核苷酸多态性(single nucleotide polymorphisms,snp)之间的关联。而传统的scca不适用于探究两种以上模态数据之间的复杂关联。为了探索更多模态数据之间的关联,有研究者提出了多任务scca。在该模型中可以同时使用l1范数和l21范数来确定任务特异性的关联和任务一致性的关联。对于脑影像基因组学的研究,如何充分利用生物学上有意义的信息十分关键,但这种信息经常被忽视。近年来的研究证明,特征之间的成对相关性有助于刻画这种基于连接或基于网络的生物学信息。已有研究基于graphnet正则化的形式,提出了一些新的惩罚,从而利用特征或样本之间的关联结构。然而,在现实世界中,这些关联结构通常处于一种高阶的交互模式。基于二阶关联的约束项对于揭示这些复杂的高阶关联的能力有限,因此仍需提出新的模型用于刻画特征之间的高阶关联性。但是,目前还没有可以有效利用高阶特征关联信息的分析方法。


技术实现思路

1、本发明的目的在于提出一种超图结构约束的多任务稀疏典型相关分析方法,能够探索基因和多频段的大脑功能特征之间的联系。基于所提出的新方法可以有效解决基于二阶关联的约束项无法充分揭示并利用特征间高阶关联的缺点,可以利用特征之间的高阶关系提升模型的关联识别能力,从而实现在scz中对频率依赖性的脑影像与遗传关联的探索。

2、针对该目的,本发明提出一种超图结构约束的多任务稀疏典型相关分析方法,该解决方案为:

3、影像和基因数据预处理和特征提取,包括对fmri数据以及基因数据的预处理及特征提取;

4、超图结构约束的多任务稀疏典型相关分析模型的构建,包括基于多任务稀疏典型相关分析框架来识别频率依赖性的多频段falff特征与遗传数据的关联,其中每个任务对应于在特定的频段下进行snp和falff之间的稀疏典型相关分析,引入l1范数用于选择在某个频段特异性相关的snp和falff,引入l21范数在所有频段上联合选择snp和falff,还引入了一种新的超图结构约束,以刻画并利用snp特征以及每个频段中falff特征之间的高阶关系;

5、疾病相关的多模态生物学标志物的识别,包括将四个频段的falff特征与snp特征送入提出的hs-mtscca模型,根据模型得到的典型权重可以获取与scz相关的最重要的脑区和snp。

6、而且,所述影像和基因数据预处理和特征提取,具体实现步骤如下,步骤a1,使用dpabi工具包对静息态fmri数据进行常规预处理,包括(1)去除前十个时间点;(2)时间层校正;(3)头动校正;(4)采用李代数微分同胚配准算法(diffeomorphic anatomicalregistration through exponential lie algebra,dartel)进行空间标准化;(5)回归协变量;(6)空间平滑;(7)根据先前的研究计算四个不同频段(slow-5:0.01-0.027hz,slow-4:0.027-0.073hz,slow-3:0.073-0.198hz,slow-2:0.198-0.25hz)的falff特征;(8)基于aal大脑图谱得到116个感兴趣区域的falff特征;(9)为了消除年龄、性别和教育程度的影响,使用回归方法对falff特征进行了调整;

7、步骤a2,采用plink软件包对从被试的血液样本中提取获得的基因数据进行标准质量控制,包括snp数据缺失、性别检测、次等位基因频率检测、哈代平衡检测和杂合率,随后对snp数据进行重新编码,根据gtex数据库将分析范围缩小到大脑显著表达基因的340个snp;

8、而且,所述超图结构约束的多任务稀疏典型相关分析模型的构建,具体实现步骤如下,

9、步骤b1,基于稀疏表示方法构建超图结构,以第s个频段的成像数据为例,其稀疏表示可由如下公式表示:

10、

11、其中是第i个roi的falff特征向量。参数bi,i是第j个roi的特征对第i个roi的特征的影响。α>0是正则化参数,用于控制解的稀疏;

12、步骤b2,对每个roi进行稀疏表示后,共得到p个超边。最后,根据生成的超图可以得到关联矩阵

13、步骤b3,根据上述步骤b1和b2可以得到每个频段falff特征的关联矩阵以及snp特征的关联矩阵;

14、步骤b4,构建超图结构约束,提出的超图结构约束公式如下:

15、

16、

17、其中,和分别表示第s个频段的falff特征xs和基因特征y的第i个节点和第j个节点间的相似度。和分别是第i个脑区falff特征和第j个脑区falff特征的典型权重。和是第i个snp和第j个snp的典型权重。将上述两公式改写为:

18、

19、

20、步骤b5,通过在mtscca模型中引入超图结构约束,获得了hs-mtscca模型。hs-mtscca的公式如下所示:

21、

22、

23、为了求解该模型,可以将上式改写为:

24、

25、

26、步骤b6,通过采用交替迭代算法求解hs-mtscca,首先固定v,求解u,随后固定u求解v。在此过程中,可以迭代更新u和v,直到达到预定义的停止条件,如达到最大迭代次数t或可容忍误差∈。

27、而且,所述疾病相关的多模态生物学标志物的识别,具体实现步骤如下,

28、步骤c1,将提取的四个频段的falff特征与snp特征送入提出的hs-mtscca模型;

29、步骤c2,对snp和falff特征分别都生成了对应的典型权重向量,其中在每一个频段都有其对应的snp及falff特征的典型权重向量。典型权重的幅值大小表明检测到的生物学标志物的重要性,幅值越大该特征越重要;

30、步骤c3,根据典型权重vs和us的绝对平均值,选择在各个频段中最重要的snp和falff特征所属脑区。

31、本发明与现有技术相比,其显著优点是:该方法利用稀疏表示方法构建超图结构,从而刻画了不同类型特征之间的高阶关系,通过引入了超图结构约束,考虑了不同特征之间的高阶相互作用,可以有效利用数据中生物学上有意义的结构信息,如大脑的高阶连通性和snp的高阶相关网络。进一步将超图结构约束引入多任务学习框架,可以充分利用特征之间的高阶关联性,从而提高模型的关联识别能力。另外,由于采用了多任务学习框架,该方法可以用于探索多模态成像数据与遗传数据间的关联,可以检测出疾病相关的频率一致性和频率特异性的多模态生物学标志物,这些检测到的生物学标志物为进一步理解scz等脑疾病的病理机制提供了参考和依据。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1