基于单样本数据的个体特异性网络构建方法和装置的制造方法
【专利摘要】本发明公开了一种基于单样本数据的个体特异性网络构建方法和装置,能够利用单个样本的表达信息构建该样本特异性的分子网络。其技术方案为:首先建立一个多样本的参考网络,在这个参考网络的基础上,加入一个独立样本,并重新建立新网络(即扰动网络),扰动网络和参考网络的所有差别都是由独立样本引起的,对扰动网络和参考网络的边对应做减法,即可得到样本的个体特异性网络。利用单样本数据构建的单样本特异性生物分子网络,能够在单样本的水平上标识出基因间异常的调控关系和失调的蛋白相互作用,为复杂疾病对不同病人的精确性治疗提供必要的分子间调控信息,为个性化治疗发展提供了新的研究方向。
【专利说明】
基于单样本数据的个体特异性网络构建方法和装置
技术领域
[0001] 本发明设及一种计算系统生物学和生物信息学,尤其设及构建生物分子网络的方 法和装置。
【背景技术】
[0002] 人类复杂疾病是对病因不明确、设及因素众多、无有效治疗手段的一类疾病的统 称,如各类癌症及糖尿病等。而目前在复杂疾病的诊断,药物设计和治疗等方面存在着很多 个体差异性,此时,个性化医疗的概念既应运而生。随着生物医学的发展,个性化医疗,又被 称为精确医疗,正在成为未来治疗复杂疾病的发展方向,然而目前仅能够对个人的基因的 表达量和突变信息进行研究,虽然个性化的表达信息和基因突变是重要的个性化信息,但 运些信息不能够体现基因之间个性化的调控方式和相互作用。生物分子网络可W掲示生物 分子之间的相互作用和调控关系,是理解生物分子间信息交流,调控机制和多分子协同作 用的基础,在许多方面具有单分子监测信息(如,表达和突变)不可替代的功能。然而,由于 在建立生物网络的过程中需要统计和计算不同生物分子之间的相关性信息,因此就需要多 个样本数据建立网络。而且运种网络只包含了多样本之间公共的调控信息,而忽略了每个 样本特异的调控异常信息。而基于单样本生物分子网络既包含了疾病共同的调控信息,也 掲示的样本特异性的调控信息,运能够为个性化医疗的发展提供个性化的网络调控信息。
[0003] 在单个生物体内,分子间呈现出错综复杂的相互作用网络,运些相互作用的改变 往往是导致复杂疾病发生发展的关键因素,而利用单样本检测数据,构建传统上要通过多 样本数据才能建立的生物分子网络是目前亟待解决的技术问题。
【发明内容】
[0004] W下给出一个或多个方面的简要概述W提供对运些方面的基本理解。此概述不是 所有构想到的方面的详尽综览,并且既非旨在指认出所有方面的关键性或决定性要素亦非 试图界定任何或所有方面的范围。其唯一的目的是要W简化形式给出一个或多个方面的一 些概念W为稍后给出的更加详细的描述之序。 阳〇化]本发明的目的在于解决上述问题,提供了一种基于单样本数据的个体特异性网络 构建方法和装置,能够利用单个样本的表达信息构建该样本特异性的分子网络,利用单样 本数据构建的单样本特异性生物分子网络,能够在单样本的水平上标识出基因间异常的调 控关系和失调的蛋白相互作用,为复杂疾病对不同病人的精确性治疗提供必要的分子间调 控信息,为个性化治疗发展提供了新的研究方向。
[0006] 本发明的技术方案为:本发明掲示了一种基于单样本数据的个体特异性网络构建 方法,包括:
[0007] 利用特定表象的表达数据作为参考数据,计算参考数据之间的相关系数并利用参 考数据之间的相关系数构建参考网络;
[0008] 将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参考数据中, 计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关系数构建扰 动网络;
[0009] 计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条边的相关 系数的差值在标准正态分布中的Z值;
[0010] 计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值的大小关 系确定概率值对应的边是否在统计上显著;
[0011] 保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本的个体 特异性网络。
[0012] 根据本发明的基于单样本数据的个体特异性网络构建方法的一实施例,计算每条 边的相关系数的差值在标准正态分布中的Z值的公式为:
[0013]
阳014] 其中Δ PCC。为差异相关系数,PCC。为η个样本的相关系数。
[0015] 根据本发明的基于单样本数据的个体特异性网络构建方法的一实施例,预设值为 0. 05〇
[0016] 根据本发明的基于单样本数据的个体特异性网络构建方法的一实施例,表达数据 包括基因表达数据、蛋白质谱数据。
[0017] 本发明还掲示了一种基于单样本数据的个体特异性网络构建装置,包括:
[0018] 参考网络构建模块,利用特定表象的表达数据作为参考数据,计算参考数据之间 的相关系数并利用参考数据之间的相关系数构建参考网络;
[0019] 扰动网络构建模块,将需要构建的个体单样本的表达数据添加到参考数据成为更 新后的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之 间的相关系数构建扰动网络;
[0020] 差值分布模块,计算扰动网络和参考网络之间的每条边的相关系数的差值并计算 每条边的相关系数的差值在标准正态分布中的Ζ值;
[0021] 边显著统计模块,计算得到的标准正态分布中的Ζ值对应的概率值,基于概率值 和预设值的大小关系确定概率值对应的边是否在统计上显著;
[0022] 边处理模块,保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单 样本的个体特异性网络。
[0023] 根据本发明的基于单样本数据的个体特异性网络构建装置的一实施例,差值分布 模块计算每条边的相关系数的差值在标准正态分布中的Ζ值的公式为:
[0024]
[00巧]其中Δ PCC。为差异相关系数,PCC。为η个样本的相关系数。
[00%] 根据本发明的基于单样本数据的个体特异性网络构建装置的一实施例,边显著统 计模块中的预设值为0.05。
[0027] 根据本发明的基于单样本数据的个体特异性网络构建装置的一实施例,表达数据 包括基因表达数据、蛋白质谱数据。
[0028] 本发明对比现有技术有如下的有益效果:本发明首先建立一个多样本的参考网 络,在运个参考网络的基础上,加入一个独立样本,并重新建立新网络(即扰动网络),扰动 网络和参考网络的所有差别都是由独立样本引起的,对扰动网络和参考网络的边对应做减 法,即可得到样本的个体特异性网络。通过本发明的方法和装置所构建的个体特异性网络, 能够在单样本的水平上标识出基因间异常的调控关系和失调的蛋白相互作用,为复杂疾病 对不同病人的精确性治疗提供必要的分子间调控信息,为个性化治疗发展提供了新的研究 方向。
【附图说明】
[0029] 图1示出了本发明的基于单样本数据的个体特异性网络构建方法的较佳实施例 的流程图。
[0030] 图2示出了本发明的基于单样本数据的个体特异性网络构建装置的较佳实施例 的原理图。
[0031] 图3示出了基于单样本数据的个体特异性网络构建流程的示意图。
【具体实施方式】
[0032] 在结合W下附图阅读本公开的实施例的详细描述之后,能够更好地理解本发明的 上述特征和优点。在附图中,各组件不一定是按比例绘制,并且具有类似的相关特性或特征 的组件可能具有相同或相近的附图标记。
[0033] 图1示出了本发明的基于单样本数据的个体特异性网络构建方法的较佳实施例 的流程。请参见图1,本实施例的基于单样本数据的个体特异性网络构建方法的各个步骤详 述如下。
[0034] 步骤S1 :利用已有的特定表象的表达数据作为参考数据,计算参考数据之间的相 关系数并利用参考数据之间的相关系数构建参考网络。
[0035] 将已有的特定表象的表达数据比如正常情况下的表达数据作为疾病研究的参考 数据,此类数据主要是基因表达数据,主要W Microarray和RNA-Seq产生的数据为主,对于 其他符合标准的数据,如蛋白质谱数据,也可W应用于本方法。
[0036] 本步骤的实施请见图3所示的曰。
[0037] 步骤S2 :将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参 考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关 系数构建扰动网络。
[003引在本步骤中,按照传统的方式计算基因间的相关系数,建立一个新的扰动网络,如 图3所示的b。
[0039] 步骤S3 :计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条 边的相关系数的差值在标准正态分布中的Z值。
[0040] 在单样本网络方法的基础上,计算每条边的相关系数的差值在标准正态分布中的 Z值,利用统计学理论推导出化arson相关系数在单样本网络上的应用公式为:
[0041 ]
阳042] 其中Δ PCC。为差异相关系数,PCC。为η个样本的相关系数。
[0043] 本步骤的实施如图3所示的c。
[0044] 步骤S4 :计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值 的大小关系确定概率值对应的边是否在统计上显著。
[0045] 本实施例中的预设值为0. 05,如果一条边的概率值(p-value)小于0. 05,则认为 运条边在统计上显著,如果一条边的概率值(p-value)大于0.05,则认为运条边在统计上 不显著。
[0046] 步骤S5:保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样 本的个体特异性网络。
[0047] 图2示出了本发明的基于单样本数据的个体特异性网络构建装置的较佳实施例 的原理。请参见图1,本实施例的个体特异性网络构建装置包括:参考网络构建模块1、扰动 网络构建模块2、差值分布模块3、边显著统计模块4、W及边处理模块5。
[0048] 参考网络构建模块1利用特定表象的表达数据作为参考数据,计算参考数据之间 的相关系数并利用参考数据之间的相关系数构建参考网络。将已有的特定表象的表达数据 比如正常情况下的表达数据作为疾病研究的参考数据,此类数据主要是基因表达数据,主 要W Microarray和RNA-Seq产生的数据为主,对于其他符合标准的数据,如蛋白质谱数据, 也可W应用于本方法。
[0049] 扰动网络构建模块2将需要构建的个体单样本的表达数据添加到参考数据成为 更新后的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据 之间的相关系数构建扰动网络。
[0050] 差值分布模块3计算扰动网络和参考网络之间的每条边的相关系数的差值并计 算每条边的相关系数的差值在标准正态分布中的Z值。
[0051] 差值分布模块3计算每条边的相关系数的差值在标准正态分布中的Z值的公式 为:
[0052]
[0053] 其中Δ PCC。为差异相关系数,PCC。为η个样本的相关系数。
[0054] 边显著统计模块4计算得到的标准正态分布中的Ζ值对应的概率值,基于概率值 和预设值的大小关系确定概率值对应的边是否在统计上显著。本实施例中的预设值例如为 0.05,如果一条边的概率值(p-value)小于0.05,则认为运条边在统计上显著,如果一条边 的概率值(p-value)大于0.05,则认为运条边在统计上不显著。 阳化5] 边处理模块5保留统计上显著的边,消除统计上不显著的边,从而得到基于个体 单样本的个体特异性网络。
[0056] 尽管为使解释简单化将上述方法图示并描述为一系列动作,但是应理解并领会, 运些方法不受动作的次序所限,因为根据一个或多个实施例,一些动作可按不同次序发生 和/或与来自本文中图示和描述或本文中未图示和描述但本领域技术人员可W理解的其 他动作并发地发生。
[0057] 本领域技术人员将进一步领会,结合本文中所公开的实施例来描述的各种解说性 逻辑板块、模块、电路、和算法步骤可实现为电子硬件、计算机软件、或运两者的组合。为清 楚地解说硬件与软件的运一可互换性,各种解说性组件、框、模块、电路、和步骤在上面是W 其功能性的形式作一般化描述的。此类功能性是被实现为硬件还是软件取决于具体应用和 施加于整体系统的设计约束。技术人员对于每种特定应用可用不同的方式来实现所描述的 功能性,但运样的实现决策不应被解读成导致脱离了本发明的范围。
[0058] 结合本文所公开的实施例描述的各种解说性逻辑板块、模块、和电路可用通用处 理器、数字信号处理器值SP)、专用集成电路(ASIC)、现场可编程口阵列(FPGA)或其它可编 程逻辑器件、分立的口或晶体管逻辑、分立的硬件组件、或其设计成执行本文所描述功能的 任何组合来实现或执行。通用处理器可W是微处理器,但在替换方案中,该处理器可W是任 何常规的处理器、控制器、微控制器、或状态机。处理器还可W被实现为计算设备的组合,例 如DSP与微处理器的组合、多个微处理器、与DSP核屯、协作的一个或多个微处理器、或任何 其他此类配置。
[0059] 结合本文中公开的实施例描述的方法或算法的步骤可直接在硬件中、在由处理器 执行的软件模块中、或在运两者的组合中体现。软件模块可驻留在RAM存储器、闪存、ROM存 储器、EPROM存储器、EEPR0M存储器、寄存器、硬盘、可移动盘、CD-ROM、或本领域中所知的任 何其他形式的存储介质中。示例性存储介质禪合到处理器W使得该处理器能从/向该存储 介质读取和写入信息。在替换方案中,存储介质可W被整合到处理器。处理器和存储介质 可驻留在ASIC中。ASIC可驻留在用户终端中。在替换方案中,处理器和存储介质可作为分 立组件驻留在用户终端中。
[0060] 在一个或多个示例性实施例中,所描述的功能可在硬件、软件、固件或其任何组合 中实现。如果在软件中实现为计算机程序产品,则各功能可W作为一条或更多条指令或代 码存储在计算机可读介质上或藉其进行传送。计算机可读介质包括计算机存储介质和通信 介质两者,其包括促成计算机程序从一地向另一地转移的任何介质。存储介质可W是能被 计算机访问的任何可用介质。作为示例而非限定,运样的计算机可读介质可包括ram、rom、 EEPR0M、CD-ROM或其它光盘存储、磁盘存储或其它磁存储设备、或能被用来携带或存储指令 或数据结构形式的合意程序代码且能被计算机访问的任何其它介质。任何连接也被正当 地称为计算机可读介质。例如,如果软件是使用同轴电缆、光纤电缆、双绞线、数字订户线 值化)、或诸如红外、无线电、W及微波之类的无线技术从web网站、服务器、或其它远程源 传送而来,则该同轴电缆、光纤电缆、双绞线、DSL、或诸如红外、无线电、W及微波之类的无 线技术就被包括在介质的定义之中。如本文中所使用的盘(disk)和碟(disc)包括压缩碟 (CD)、激光碟、光碟、数字多用碟值VD)、软盘和蓝光碟,其中盘(disk)往往W磁的方式再现 数据,而碟(disc)用激光W光学方式再现数据。上述的组合也应被包括在计算机可读介质 的范围内。
[0061] 提供对本公开的先前描述是为使得本领域任何技术人员皆能够制作或使用本公 开。对本公开的各种修改对本领域技术人员来说都将是显而易见的,且本文中所定义的普 适原理可被应用到其他变体而不会脱离本公开的精神或范围。由此,本公开并非旨在被限 定于本文中所描述的示例和设计,而是应被授予与本文中所公开的原理和新颖性特征相一 致的最广范围。
【主权项】
1. 一种基于单样本数据的个体特异性网络构建方法,包括: 利用特定表象的表达数据作为参考数据,计算参考数据之间的相关系数并利用参考数 据之间的相关系数构建参考网络; 将需要构建的个体单样本的表达数据添加到参考数据成为更新后的参考数据中,计算 更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的相关系数构建扰动网 络; 计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条边的相关系数 的差值在标准正态分布中的Z值; 计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预设值的大小关系确 定概率值对应的边是否在统计上显著; 保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本的个体特异 性网络。2. 根据权利要求1所述的基于单样本数据的个体特异性网络构建方法,其特征在于, 计算每条边的相关系数的差值在标准正态分布中的Z值的公式为:其中A PCC。为差异相关系数,PCC。为n个样本的相关系数。3. 根据权利要求1所述的基于单样本数据的个体特异性网络构建方法,其特征在于, 预设值为0. 05。4. 根据权利要求1至3中任一项所述的基于单样本数据的个体特异性网络构建方法, 其特征在于,表达数据包括基因表达数据、蛋白质谱数据。5. -种基于单样本数据的个体特异性网络构建装置,包括: 参考网络构建模块,利用特定表象的表达数据作为参考数据,计算参考数据之间的相 关系数并利用参考数据之间的相关系数构建参考网络; 扰动网络构建模块,将需要构建的个体单样本的表达数据添加到参考数据成为更新后 的参考数据中,计算更新后的参考数据之间的相关系数,并利用更新后的参考数据之间的 相关系数构建扰动网络; 差值分布模块,计算扰动网络和参考网络之间的每条边的相关系数的差值并计算每条 边的相关系数的差值在标准正态分布中的Z值; 边显著统计模块,计算得到的标准正态分布中的Z值对应的概率值,基于概率值和预 设值的大小关系确定概率值对应的边是否在统计上显著; 边处理模块,保留统计上显著的边,消除统计上不显著的边,从而得到基于个体单样本 的个体特异性网络。6. 根据权利要求5所述的基于单样本数据的个体特异性网络构建装置,其特征在于, 差值分布模块计算每条边的相关系数的差值在标准正态分布中的Z值的公式为:其中A PCC。为差异相关系数,PCC。为n个样本的相关系数。7. 根据权利要求5所述的基于单样本数据的个体特异性网络构建装置,其特征在于, 边显著统计模块中的预设值为0. 05。8. 根据权利要求5至7中任一项所述的基于单样本数据的个体特异性网络构建方法, 其特征在于,表达数据包括基因表达数据、蛋白质谱数据。
【文档编号】G06F19/26GK105989250SQ201510058477
【公开日】2016年10月5日
【申请日】2015年2月4日
【发明人】陈洛南, 刘小平, 合原幸, 合原一幸
【申请人】中国科学院上海生命科学研究院