一种基因大肠杆菌表达谱芯片的基因网络构建方法

文档序号:6440635阅读:358来源:国知局
专利名称:一种基因大肠杆菌表达谱芯片的基因网络构建方法
技术领域
本发明属于生物技术领域,涉及一种基于大肠杆菌表达谱芯片的基因网路构建及进行基因之间相互作用关系研究的方法。
背景技术
基因芯片的原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法。在一块基片表面固定了序列已知的八核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。基因是编码蛋白质或RNA(核糖核酸)等具有特定功能产物的遗传信息的基本单位,是染色体或基因组的一段DNA (脱氧核糖核酸)序列,对以RNA作为遗传信息载体的RNA病毒而言,基因则是RNA序列。包括编码序列(外显子)、编码区前后对于基因表达具有调控功能的序列和单个编码序列间的间隔序列(内含子)。从生物进化的角度来讲,基因又称为遗传因子,它是生物遗传变异的物质基础,是DNA (或RNA)分子上具有遗传信息的特定核苷酸序列的总称,是具有遗传效应的DNA (或RNA)分子片段。基因通过复制把遗传信息传递给下一代,使后代出现与亲代相似的性状。人类大约有几万个基因,储存着生命孕育生长、凋亡过程的全部信息,通过复制、表达、修复,完成生命繁衍、细胞分裂和蛋白质合成等重要生理过程。基因是生命的密码,记录和传递着遗传信息。生物体的生、长、病、老、死等一切生命现象都与基因有关。它同时也决定着人体健康的内在因素,与人类的健康密切相关。基因存在于生物体内的功能之一便是翻译蛋白质,通过蛋白质活性的表现,决定生物体的表型。换而言之,生物的各种性状几乎都是基因之间相互作用、调控各个基因表达的结果。所谓基因之间的相互作用,是指不同基因之间存在的表达调控关系,一般都是一个基因的表达产物作用于另一个基因,影响另一个基因的转录、翻译等过程。为研究基因之间相互作用关系,本发明所述方法引入了一种基于大肠杆菌表达谱芯片的数据分析处理,通过对大肠杆菌基因芯片的数据分析处理,找到了一种构建基因网络间的构建方法,通过对芯片产出数据的分析处理及对差异表达基因的网络构建,可了解基因间的相互作用关系。

发明内容
本发明所述的方法的一大特点便是将大肠杆菌的表达谱基因芯片的数据进行统计学分析处理进行网络构建,用于研究基因之间的相互作用关系,该方法实施的基本流程为:步骤1、待检测样品进行大肠杆菌表达谱芯片检测获得原始数据。步骤2、对原始数据进行预处理及统计学分析并筛查差异表达的基因。步骤3、文档搜索及格式化。
步骤4、将文档分离成单个句子,作为后续分析基本单位。步骤5、基因描述的定位。步骤6、统一基因描述中使用的基因符号。步骤7、建立基因互作动词词典。步骤8、生成需要研究基因的同义词字典,并从上述句子中提取出基因的描述。步骤9、统计分析基因名、基因互作动词和需要研究的基因同时出现的句子,整理成列表。步骤10、构建相互作用关系网络。


图1、本发明所述方法的实施流程图实施方式本发明将以大肠杆菌的表达谱芯片数据分析处理为例,对筛查出的差异表达基因进行基因的相互作用关系网络构建,介绍本发明所述方法的具体实施步骤。步骤1、利用关键词从Pubmed数据库(http://www.ncb1.nlm.nih.gov/pubmed)中搜索相关文献,下载到本地,并整理成XML格式。

步骤2、下载基于 java 环境的 Lingpipe 工具包(http://alias_1.com/lingpipe/),利用它的Sentence tokenlization工具将搜索到的摘要文本分离成单个句子,整理成文档保存,作为后续分析的基本单位。步骤3、应用ABNER软件进行人类基因的描述的定位,并提取出基因,对于提取的基因的描述中,多个基因缩写到一起的将被分离,如“STAT3/5 gene”将被解析成STAT3gene 和 STAT5 gene。步骤4、因为搜索到的文献中对于基因名字的书写格式大多不同,为了分析的方便和准确,需要将文献中的基因符号统一为官方的基因符号,这里我们以NCBI (www.ncb1.nlm.nih.gov/)的 Entrez gene 数据库为准。步骤5、建立一个基因互作的动词词典,包含如repress, regulate, inhibit,interact, phosphorylate, downregulate, upregulate 等所有动词及其变型。词典取材自BioNLP 项目(http://bionlp.sourceforge.net/),然后利用 Lingpipe 工具包分离句子中基因互作的动词。步骤6、利用NCBI的Entrez gene数据库(http://www.ncb1.nlm.nih.gov/sites/entrez db = gene)生成 MAPK 的同义词字典,然后利用Lingpipe工具包分离句子中基因的描述。步骤7、对处理好的文献数据进行搜索,统计分析基因名、基因互作动词以及MAPK基因描述同时出现的句子,计算句子出现的频率,整理出基因关系列表,统计处与具有相互作用关系的基因。步骤8、使用 Cytoscape (http://www.cytoscape.0rg/)软件,依据上述关系列表,构建相互作用关系网络以上是对本发明的描述而非限定,基于本发明思想的其它实施方式,均在本发明的保护范围之中。
权利要求
1.本发明专利所述的一种基于大肠杆菌表达谱芯片的基因网路构建及进行基因之间相互作用关系研究的方法,其主要特征如下: 步骤1、待检测样品进行大肠杆菌表达谱芯片检测获得原始数据; 步骤2、对原始数据进行预处理及统计学分析并筛查差异表达的基因; 步骤3、文档搜索及格式化; 步骤4、将文档分离成单个句子,作为后续分析基本单位; 步骤5、基因描述的定位; 步骤6、统一基因描述中使用的基因符号; 步骤7、建立基因互作动词词典; 步骤8、生成需要研究基因的同义词字典,并从上述句子中提取出基因的描述; 步骤9、统计分析基因名、基因互作动词和需要研究的基因同时出现的句子,整理成列表; 步骤10、构建相互作用关系网络。
全文摘要
本发明所述的方法的一大特点便是将大肠杆菌的表达谱基因芯片的数据进行统计学分析处理进行网络构建,用于研究基因之间的相互作用关系,该方法实施的基本流程为步骤1、待检测样品进行大肠杆菌表达谱芯片检测获得原始数据。步骤2、对原始数据进行预处理及统计学分析并筛查差异表达的基因。步骤3、文档搜索及格式化。步骤4、将文档分离成单个句子,作为后续分析基本单位。步骤5、基因描述的定位。步骤6、统一基因描述中使用的基因符号。步骤7、建立基因互作动词词典。步骤8、生成需要研究基因的同义词字典,并从上述句子中提取出基因的描述。步骤9、统计分析基因名、基因互作动词和需要研究的基因同时出现的句子,整理成列表。步骤10、构建相互作用关系网络。
文档编号G06F19/24GK103164634SQ201110407359
公开日2013年6月19日 申请日期2011年12月9日 优先权日2011年12月9日
发明者曾华宗 申请人:上海聚类生物科技有限公司
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1