单组学及多组学KEGGPATHWAYmap表达热图个性化展示的方法及应用与流程

文档序号:22325427发布日期:2020-09-25 17:53阅读:317来源:国知局
单组学及多组学KEGG PATHWAY map表达热图个性化展示的方法及应用与流程
本发明属于生物信息
技术领域
,涉及单组学及多组学keggpathwaymap表达热图个性化展示的方法及应用。
背景技术
:kegg数据库是日本京都大学生物信息学中心的kanehisa实验室于1995年建立的,用于系统分析基因功能的公开数据库,它将基因组的信息与基因功能联系起来,旨在揭示生命现象的遗传与化学蓝图。keggpathway是kegg最核心的数据库之一。keggpathway数据库收录了人工手绘的通路图,重点呈现了分子间相互作用和分子间互作网络。在转录组、蛋白组和代谢组,经常会以kegg通路图的形式将映射到keggpathway的差异基因(转录本)、差异蛋白或者差异代谢物进行特殊的展示,比如根据转录组基因差异比较结果,上调基因用深绿色、下调基因用红色在keggmap中进行展示,以直观了解差异基因在kegg代谢通路中的作用。在单组学中,单纯以红绿蓝等颜色表示上下调信息并不能直观了解基因、蛋白和代谢物的具体表达数值。而在组学联合中,比如转录组与蛋白组联合,因为基因和转录本占据同一个位置方框,尽管采取了将方框分割的方式,依旧无法直观展示具体的差异倍数或者表达数值。一些集成的软件,比如pathview和mapman,可以实现表达数值以热图的方法直观展示,但限制因素较多,比如物种限制,无法个性化设置颜色及标尺,而且仅限于单组学,无法实现多组学共同展示。而在多组学联合中,尤其是转录组、蛋白组和代谢组三组学联合,因为基因、蛋白和代谢物的表达或者差异表达的范围不同,使用同一标尺,会让范围较小的元素表达区分不明显。现有方法和软件,尚未实现在组学联合中,每单一组学享有独自标尺,且能进行个性化调整和适应,以直观展示keggmap中各元素的具体表达或者差异表达水平。技术实现要素:针对上述技术问题,本发明旨在提供一种单组学及多组学keggpathwaymap表达热图个性化展示的方法及应用,将一种生物信息方法,应用于动植物细菌等物种单组学中,以实现直观显示基因、蛋白或者代谢物的(差异)表达水平,应用于多组学中,实现以不同热图标尺直观显示基因、蛋白和代谢物的(差异)表达水平。为了实现上述技术目的,本发明采用以下技术方案:根据本发明的一个方面,本发明提供了单组学及多组学keggpathwaymap表达热图个性化展示的方法,包括单组学法和多组学法,所述单组学法包括以下步骤:1)根据已知目标基因、蛋白或者代谢物的表达或者差异表达水平信息及其在keggpathway中对应的被注释元素,匹配注释元素到keggpathway的html文件中以获取被注释元素在keggpathwaymap图片中的坐标信息;2)对目标基因、蛋白或者代谢物注释到的每一个keggpathway,获取该keggpathway中的所有基因、蛋白或者代谢物的表达或差异表达上下极值的整数值作为表达热图颜色标尺的上下限;3)将上下限均分为一定等份,形成一个从极小值到极大值的等差数列,并为标尺赋予颜色;4)根据该keggpathway下每一个基因、蛋白或者代谢物的表达或者差异表达值,匹配到对应的范围区间,获取相应的归属颜色;5)使用imagemagick的convert命令,在keggpathwaymap上绘制标尺,根据映射到被注释元素的基因、蛋白或者代谢物的坐标信息及归属颜色,进行上色;6)根据html规则,编辑和修改keggpathway的html文件,将被注释元素的弹窗title信息修改为对应基因、蛋白或者代谢物的表达或者差异表达信息及其他附属信息。优选地,步骤2)中,若所述差异表达上下极值为无限值,则替换为非无限值的极大值或极小值;若所述差异表达上下极值为非整数,则极小值向下取整,极大值向上取整。优选地,步骤5)中,在keggpathwaymap的上方空白处绘制标尺。进一步地,所述多组学法包括两组学联合法及三组学法,所述两组学联合法中,对于蛋白组与代谢组或者转录组与代谢组,按照上述单组学法分别获得两组各自的标尺以及每一个基因、蛋白或者代谢物的颜色信息之后,分别进行基因、蛋白或者代谢物的上色,双颜色标尺的绘制及html文件信息弹窗编辑。优选地,所述双颜色标尺在keggpathwaymap中的上方空白处以横排或者竖排排列。进一步地,所述两组学联合法中,对于蛋白组和转录组,在获取各自的颜色标尺及基因和蛋白的颜色后,根据被注释元素的坐标对其在map中占据的方框进行左右均分或对其在map中占据的线进行前后部分均分,之后再进行上色,双颜色标尺的绘制及html文件信息弹窗编辑。优选地,所述双颜色标尺在keggpathwaymap中的上方空白处以横排或者竖排排列。进一步地,所述三组学法中,对于蛋白组、转录组和代谢组,按照上述单组学法及两组学联合法分别获得各自的标尺以及每一个基因、蛋白或者代谢物的颜色信息之后,分别进行三颜色标尺的绘制,基因、蛋白或者代谢物的上色及html文件信息弹窗编辑。优选地,所述三颜色标尺在keggpathwaymap中的上方空白处以横排或者竖排排列。根据本发明的另一个方面,本发明提供了上述单组学及多组学keggpathwaymap表达热图个性化展示的方法在单组学及多组学中实现直观显示基因、蛋白或者代谢物的(差异)表达水平的应用。本发明的创新性在于,在多组学联合的keggpathwaymap中,通过颜色标尺以及元素填充色、元素图形展现等方式同时批量呈现各组学元素在各keggpathwaymap中的表达、差异水平及其显著性。克服了现有相关软件只能显示单组学元素表达热图且不易编辑、修改和个性化展示的缺点,也克服了其功能不能拓展到多组学联合,且不能清晰呈现具有不同表达尺度的各组学元素表达和差异的缺点。本发明的创新性还在于,基于此发明,可以对keggpathwaymap在单组学,多组学范围内进行拓展,批量对keggpathwaymap中元素进行其他个性化展示,如五角星标记,如图1。总体而言,本发明的创新优势在于,可批量处理、可个性化修改,可从转录、蛋白和代谢中单一组学到多组学以不同尺度不同形式清晰具体展示其中元素的表达及显著性。附图说明图1是本发明keggpathwaymap拓展示例,图中对差异上调基因进行五角星标记。图2是本发明keggpathwaymap的蛋白或者基因占据的方框坐标示例。图3是本发明keggpathwaymap的蛋白或者基因占据的线段坐标示例。图4是本发明keggpathwaymap的代谢物占据的圆圈坐标示例。图5是本发明单组学keggpathwaymap基因或者蛋白表达热图的结果展示。图6是本发明单组学以keggpathwayhtml方式为keggpathwaymap编辑弹窗的结果展示。图7是本发明两组学联合(蛋白与代谢或者转录与代谢)keggpathwaymap基因和蛋白表达热图的结果展示。图8是本发明两组学联合(蛋白与代谢或者转录与代谢)以keggpathwayhtml方式为keggpathwaymap编辑弹窗的结果展示。图9是本发明两组学联合(蛋白与转录)keggpathwaymap基因和蛋白表达热图的方框结果展示。图10是本发明两组学联合(蛋白与转录)keggpathwaymap基因和蛋白表达热图的线段结果展示。图11是本发明两组学联合(蛋白与转录)以keggpathwayhtml方式为keggpathwaymap编辑弹窗的结果展示。图12是本发明三组学联合keggpathwaymap基因、蛋白和代谢物表达热图的结果展示。具体实施方式为了便于理解本发明,下面将参考附图并结合实施例来详细阐述本发明。需要说明的是,由于说明书附图仅显示为黑白图,无法显示实际颜色填充,图中采用“蓝”、“黄”、“半蓝半粉”、“半红半粉”等文字标记于部分颜色旁侧辅助说明,实际应用时并不限于此。实施例1单组学keggpathway实现步骤如下:1)根据基因、蛋白或者代谢物的表达信息及keggpathway注释信息(如表1),为涉及的每一个keggpathway准备格式文件(如表2)。表1.基因、蛋白或者代谢物的表达信息及keggpathway注释信息示例gene_idlog2foldchangekopathwaytrinity_1-3.02858k00012ko00040|ko00520|ko00053|ko00500trinity_2-1.5612k01728ko00040|ko0204trinity_32.670045k01051ko00040|ko00500trinity_53.643347k00963ko00040|ko00520|ko00500|ko00052表2.表1涉及的每一个keggpathway的准备格式文件htmlgene_idlog2fcup_downko
trinity_1-3.02858downk00012
trinity_2-1.5612downk01728
trinity_32.670045upk01051
trinity_53.643347upk009632)获取每个keggpathway中的所有基因、蛋白或者代谢物的表达或差异表达上下极值(如果是无限值则替换为非无限值的极大值或极小值)的整数值(若为非整数,极小值向下取整,极大值向上取整),在表2示例中,最大值为13,最小值为0。3)将最大值到最小值均分为n等份,形成一个从0到13的等差数列。为标尺赋予颜色,比如最小值为蓝色(#4682b4),从最小值到中值为从蓝色到灰色的渐变色,最大值为红色(#ff0000),从中值到最大值为从灰色到红色的渐变色。4)最小值与最大值之间有n-1个范围区间,每一个范围区间会有且仅有一个对应的渐变颜色。根据该keggpathway下每一个基因、蛋白或者代谢物的表达或者差异表达值,匹配到对应的范围区间,获取相应的渐变色,如表3。表3.keggpathway下每一个基因、蛋白或者代谢物的表达或者差异表达值对应的颜色代码htmlgene_idlog2fcup_downko颜色代码
trinity_1-3.02858downk00012#5a8ab1
trinity_2-1.5612downk01728#849aad
trinity_32.670045upk01051#e33535
trinity_53.643347upk00963#ff00005)根据基因、蛋白或者代谢物(表1第一列)对应的被注释元素(表1第三列)在keggpathwayhtml中的信息,获取被注释元素坐标,蛋白与基因在keggpathwaymap中若是方框(长宽固定),有四个坐标值,如图2,若是线段,有八个坐标值,如图3。代谢物在keggpathwaymap中是小圆圈(半径固定),有三个坐标值,如图4。6)在获取坐标之后,使用imagemagick的convert命令,对对应坐标的基因、蛋白或者代谢物进行上色。7)根据渐变色及颜色标尺范围,对元素上色后的map图片绘制颜色标尺,得到结果如图5。8)对map对应html文件进行编辑,根据html书写规则,修改和编写弹窗信息。如此,在将鼠标放在上色元素上时,会弹出对应的表达信息及其他附属信息,如图6。实施例2蛋白与代谢或者转录与代谢keggpathway实现步骤如下:1)按照实施例1中1)-6)步骤分别对蛋白和代谢或者基因与代谢物选择不同的渐变颜色,进行上色。2)根据渐变色及颜色标尺范围,对元素上色后的map图片绘制双颜色标尺。得到结果如图7。3)对map对应html文件进行编辑,根据html书写规则,修改和编写弹窗信息。如此,在将鼠标放在上色元素上时,会弹出对应的表达信息及其他附属信息,如图8。实施例3蛋白与转录keggpathway实现步骤如下:1)按照实施例1中1)-4)步骤分别对蛋白和基因选择不同的渐变颜色选择。2)因为基因与其编码的蛋白对应同一个被注释元素,故而在map是占据同一个线或者方框(坐标)。对于方框来说,因为其长宽固定(46,17),对其进行均分,根据相应坐标使用imagemagick的convert命令对左半边上基因渐变色,右半边上蛋白渐变色。比如一个方框的位置坐标是coords=620,532,666,549,那么坐标620,532,643,549上基因渐变色,643,532,666,549上蛋白渐变色,根据渐变色及颜色标尺范围,对元素上色后的map图片绘制颜色标尺。如图9所示。对于线来说,原理同方框,对线进行均分,前一部分上基因渐变色,后一部分上蛋白渐变色,根据渐变色及颜色标尺范围,对元素上色后的map图片绘制颜色标尺。如图10。3)对map对应html文件进行编辑,根据html书写规则,修改和编写弹窗信息。如此,在将鼠标放在上色元素上时,会弹出对应的表达信息及其他附属信息,如图11。实施例4三组学keggpathway实现步骤如下:1)按照实施例3中1)-3)步骤分别对蛋白和基因选择不同的渐变颜色进行上色,并绘制颜色标尺。2)按照实施例1中1)-7)步骤对代谢物选择与基因和蛋白不同的渐变颜色上色,并绘制颜色标尺。三组学颜色标尺横向排列,互不覆盖和遮挡。如图12。3)对map对应html文件进行编辑,根据html书写规则,修改和编写弹窗信息。如此,在将鼠标放在上色元素上时,会弹出对应的表达信息及其他附属信息。以上所述仅是本专利申请的优选实施方式,应当指出,对于本
技术领域
的普通技术人员来说,在不脱离本专利申请技术原理的前提下,还可以做出若干改进和替换,这些改进和替换也应视为本专利申请的保护范围。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1