可变剪切分析方法与流程

文档序号:13513272阅读:5625来源:国知局

本发明涉及生物技术领域,特别涉及可变剪切分析方法。



背景技术:

可变剪切是指有些基因的一个mrna前体通过不同的剪接方式(选择不同的剪接位点)产生不同的mrna剪接异构体。可变剪接是调节基因表达和产生蛋白质组多样性的重要机制,是导致真核生物基因和蛋白质数量较大差异的重要原因。现有的可变剪切分析方法是指根据测序结果预测基因的可变剪切方式,如asprofile软件统计可变剪切的不同类型,

该可变剪切分析方法存在如下问题:不能直观地展示可变剪切模型。



技术实现要素:

本发明所要解决的技术问题在于针对现有可变剪切分析方法所存在的上述问题而提供一种优化的可变剪切分析方法。

本发明所要解决的技术问题可以通过以下技术方案来实现:

可变剪切分析方法,包括如下步骤:

(1)配置splicegrapher所需环境;

(2)获得参考gtf和sam文件共有染色体id,去掉参考gtf中非共有染色体的行和类型为“gene”的行输出到reference.gtf中,去掉sam文件中非共有染色体的条目输出到tmp.sam中;

(3)用splicegrapher的sam_filter.py脚本过滤tmp.sam文件,去除掉可能存在假阳性可变剪切事件的部分,以reference.gtf作为参考结构注释文件,输出结果为filtered.sam;

(4)用splicegrapher的predict_graphs.py脚本预测全长转录本的可变剪切模式,输入文件为filtered.sam,以reference.gtf作为参考结构注释文件,输出结果为各基因的结构文件;

(5)用splicegrapher的find_splice_forms.py脚本预测基因的isoform,输入文件为filtered.sam,以reference.gtf作为参考结构注释文件,输出文件为各基因的isoform结构文件;

(6)用bedtools软件的bamtobed脚本将tmp.sam转化为bed格式,从而获得有reads覆盖的区域;

(7)根据各基因的结构文件判断该基因是否存在可变剪切事件;

(8)对于有reads覆盖且存在可变剪切事件的基因制作含有四个绘图区(已知基因的可变剪切模型,根据tmp.sam文件预测的可变剪切模型,根据tmp.sam文件预测的isoform模型,以及各外显子的reads覆盖度柱状图)的绘图配置文件,对于无reads覆盖的基因和不存在可变剪切事件的基因制作含有一个绘图区(已知基因的可变剪切模型)的绘图配置文件;

(9)将所有基因的绘图命令写入plot_asgraph.sh文件中,并用trinity软件的parafly脚本并行运行绘图命令;

(10)用splicegrapher的splicegraph_statistics.py脚本对所有基因的可变剪切事件数目进行统计,并整理统计结果。

由于采用了如上的技术方案,本发明核心部分使用了splicinggrapher软件,脚本的作用是配置splicinggrapher所需的环境,将已有的注释gtf文件和sam文件按splicinggrapher软件所需的格式修改,将splicinggrapher的步骤串联成完整的流程,并按有没有reads覆盖对基因进行分类,分别制作绘图所用的配置文件,调用splicinggrapher和另一个并行运行命令的程序进行批量绘图,最后进行统计。

附图说明

图1为本发明可变剪切分析方法流程示意图。

具体实施方式

参见图1,本发明的可变剪切分析方法,包括如下步骤:

(1)配置splicegrapher所需环境;

(2)获得参考gtf和sam文件共有染色体id,去掉参考gtf中非共有染色体的行和类型为“gene”的行输出到reference.gtf中,去掉sam文件中非共有染色体的条目输出到tmp.sam中;

(3)用splicegrapher的sam_filter.py脚本过滤tmp.sam文件,去除掉可能存在假阳性可变剪切事件的部分,以reference.gtf作为参考结构注释文件,输出结果为filtered.sam;

(4)用splicegrapher的predict_graphs.py脚本预测全长转录本的可变剪切模式,输入文件为filtered.sam,以reference.gtf作为参考结构注释文件,输出结果为各基因的结构文件;

(5)用splicegrapher的find_splice_forms.py脚本预测基因的isoform,输入文件为filtered.sam,以reference.gtf作为参考结构注释文件,输出文件为各基因的isoform结构文件;

(6)用bedtools软件的bamtobed脚本将tmp.sam转化为bed格式,从而获得有reads覆盖的区域;

(7)根据各基因的结构文件判断该基因是否存在可变剪切事件;

(8)对于有reads覆盖且存在可变剪切事件的基因制作含有四个绘图区(已知基因的可变剪切模型,根据tmp.sam文件预测的可变剪切模型,根据tmp.sam文件预测的isoform模型,以及各外显子的reads覆盖度柱状图)的绘图配置文件,对于无reads覆盖的基因和不存在可变剪切事件的基因制作含有一个绘图区(已知基因的可变剪切模型)的绘图配置文件;

(9)将所有基因的绘图命令写入plot_asgraph.sh文件中,并用trinity软件的parafly脚本并行运行绘图命令;

(10)用splicegrapher的splicegraph_statistics.py脚本对所有基因的可变剪切事件数目进行统计,并整理统计结果。



技术特征:

技术总结
本发明公开的可变剪切分析方法,其使用了splicingGrapher软件,脚本的作用是配置splicingGrapher所需的环境,将已有的注释gtf文件和sam文件按splicingGrapher软件所需的格式修改,将splicingGrapher的步骤串联成完整的流程,并按有没有reads覆盖对基因进行分类,分别制作绘图所用的配置文件,调用splicingGrapher和另一个并行运行命令的程序进行批量绘图,最后进行统计。本发明能够直观地展示可变剪切模型。

技术研发人员:王智健;简洁;姜丽荣;孙子奎
受保护的技术使用者:上海派森诺生物科技股份有限公司
技术研发日:2017.08.21
技术公布日:2018.01.19
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1