专利名称:生物分子数据的高效共享方法
技术领域:
本发明涉及一种数据的高效共享方法。
背景技术:
生物多样性是生物的基本属性,可以从分子、细胞、生物个体等不同的方向进行研究。随着测序技术和计算机技术的发展,产生了海量的生物分子数据。由于生物分子领域的复杂性,使得该领域的研究呈现出周期长、研究结果复杂、研究难度大、数据量大等特点。 目前,世界上成千上万的研究者对生物分子进行过研究,为了保存研究得到的结果数据,以及有利于世界各地的研究者相互借鉴研究成果和长期持续性的研究,就需要对结果数据进行组织操作,即功能描述、调整顺序、修补剪切、存储等操作。由于不同的研究者采用的计算机系统千差万别,对不同功能软件的熟知程度业不同,用于加工生物分子数据的软件数据结构也千差万别,因此产生了大量存储于不同计算机系统的不同类型和格式的生物分子数据,为共享生物分子数据带来了巨大的麻烦。例如科学家1在A研究中通过某种手段,得到了某生物物种1号染色体的研究结果--1号染色体的生长基因数据,该研究结果按照NCBI (美国国立生物信息数据中心)推荐的GenBank数据描述格式或数据结构描述后,以文件的形式提交到NCBI数据库发布。科学家2在B研究中通过某种手段,得到了该生物物种2,3号染色体的研究结果一2,3号染色体的生长基因数据,该研究结果按照EMBL(欧洲生物信息数据中心)推荐的EMBL数据描述格式进行描述后,以文件的形式提交到EMBL数据库发布。科学家3在C研究中,希望使用科学家1和科学家2的研究成果进行后续研究。但是科学家1和科学家2的研究结果被提交到了两种不同的计算机系统中的数据结构不同的数据库中,由于上述数据库的数据描述格式,即数据结构存在差异,科学家3需要花费大量的时间解析上述科学家1和科学家2存储在NCBI数据库和EMBL数据库中的数据文件,无法直接参考利用上述来源于不同数据库的相关数据文件进行后续的分析研究。即使科学家针对采用不同数据结构的生物分子数据文件编制不同的数据解析程序自动完成文件中数据的解析,由于解析程序的相对独立性,也难以从整体上提高数据解析速度且实现方案麻烦, 同时数据共享效率仍然没有提高,这给科学家3的研究带来了困难。可见,现有的用于组织分子生物数据的数据结构复杂多样,要使用采用这些数据结构组织起来的数据,就要了解具体的数据结构,显然,要了解大量复杂的数据结构才能解析和使用其组织的数据,会极大限制生物分子数据的数据处理速度和降低数据共享效率。
发明内容
本发明要解决的问题在于,提供一种能够高效共享生物分子数据的生物分子数据的高效共享方法。本发明提供的生物分子数据的高效共享方法实施例,包括选择每一种生物分子数据文件的数据结构中有意义的字段;
组合所述字段,直到每一种生物分子数据文件的数据结构中有意义的字段都被选择;按照所述字段表达信息的逻辑排列组合所述字段,形成新的字段集合;用所述集合中的字段生成生物分子数据文件的新数据结构。使用拥有所述新数据结构的新生物分子数据文件承载读取到的生物分子数据文件中的数据。按照本发明实施例提供的方法,无论现有的生物分子数据文件采用的数据结构有多么不同以及数量有多少,由于构成新数据结构的字段集合以现有的生物分子数据文件的数据结构为基础,都可以将不同生物分子数据文件的内容自动统一到新的文件中,由于新文件的数据结构具有预先设定的特性,这样就能预先编制基于新数据结构的数据处理程序,对每一种生物分子数据文件进行解析,因此可以加快生物分子数据文件的解析速度,解析数据时也无需再考虑现有的生物分子数据文件采用的数据结构,通过统一来源不同、数据结构不同的生物分子数据文件,将杂乱无章的生物数据转换为易于操作的通用数据结构,有利于背景不同,水平不同的生物分子研究者都能从已有的生物分子数据文件中,获取自己所需的信息,从而进一步提高了生物分子数据的数据处理速度和数据共享效率。
下面结合附图和具体实施方式
对本发明作进一步详细的说明。图1是本发明所述方法的第一实施例的步骤流程图;图2是本发明所述方法的第一实施例的步骤流程图。
具体实施例方式在计算机领域,通常根据被组织数据的特性,构建用于组织所述数据的数据结构 (也可称为数据模型或数据格式),当使用该数据结构组织数据完毕后,就会以文件的形式将这些数据存储起来。在共享由不同数据结构组织的生物分子数据时,为了消除承载生物分子数据的文件所采用数据结构的大数量和复杂性,本实施例以其它各种已知生物分子数据文件的数据结构为基础,根据客观上存在的生物分子数据的特点,构建新的有利于共享生物分子数据的数据结构,即用于组织生物分子数据的新计算机模型,从而将各种来源不同的生物分子数据组织起来存储为生物分子数据文件,供研究者共享使用。按照图1所述的第一实施例的流程,可以看出该实施例主要包括四个主要的步马聚ο首先在步骤1,选择每一种生物分子数据文件的数据结构中有意义的字段。这里所述的生物数据文件的数据结构已被预先研究清楚,因此可以从生物分子学的角度确定其中有意义的字段。由于研究内容、深度、生物多样性等的差异,不同生物分子数据文件数据结构的复杂度、结构也有较大的差异。例如具体数据结构的字段数量、字段表达数据的含义都不相同,所述有意义的字段,就是从生物分子研究的共性出发,选择出有信息价值的字段, 这样才能在后续的步骤中,组织出来有利于持续研究、有共享价值的生物分子数据。无价值的字段,例如标示个人研究进程的字段会因人而异,对于后续的研究来说,就没有意义,此外还有数据存储进入文件的顺序编号字段等。需要说明,本实施例适用于采用二维表式的
4数据存储结构,也适用于采用文本结构,即.TXT结构的文件。对于.TXT文件,如果某一行字符没有标识生物分子数据的关键字,就是无意义的行,即无意义的字段,其中,关键字即为字段名。对于步骤1确定的每一种生物分子数据文件的数据结构中有意义的字段,在步骤 2组织起来,即将这些字段按照选择的顺序组合成字段组,直到每一种生物分子数据文件的数据结构中有意义的字段都被选择。在步骤3按照所述字段表达信息的逻辑排列组合所述字段组中的字段,形成新字段集合。本实施例在构建新的数据结构时,按照生物分子数据的特点,对新的字段集合中的字段进行重新排列和组合。所述排列组合的依据,在于生物分子数据自身客观上存在的逻辑关联,也就是说,如果字段表达的生物分子数据之间具有关联性,就认为这些字段具有逻辑关系,即这些字段表达的生物分子数据客观上存在逻辑关联。这些逻辑关联使排列组合后字段的数据顺序具有下述关系,顺序排列在先的字段是在后字段的基础,这样有利于用有限的数据表达更多的信息,从而能够取得使用较少数据提供较多信息的技术效果,进而获得较多的信息量而较少的存储空间占用的技术效果,这方面的例子在以后的文字中举例说明。所述组合式指对表达不同,但字段内容本质相同的字段合并,具体的合并按照数据的意义完成,实际中有多种具体的实现方式,例如先获得第一种生物分子数据文件的数据结构中有意义的字段,形成字段组;对于获得的第二种以及以后的每一种生物分子数据文件的数据结构中有意义的字段,将与字段组中的字段不相同的字段补充进入字段组。本发明实施例提供的这种较少数据量表达较多信息的方案,以及新的数据结构能够涵盖现有的生物分子数据文件的数据结构,在共享该生物数据文件的数据时,可以不用考虑被共享的生物数据文件的数据结构,因此采用本发明实施例能够达到高效共享生物分子数据的技术效果,解决了研究者遇到存储于不同计算机系统、采用不同数据结构的生物分子数据文件无法方便操作和分析研究的问题。顺便说,本实施例特别适用于组织数据量较大的生物数据文件的数据,如果文件中顺序排列在先的数据需要排列在后的数据的解释,为了共享数据的高效率,要么花费大量的时间调整或查询需要的数据,要么依赖数据的冗余解决该时间花费大的问题,而采用本实施例恰好能够解决该问题。本步骤的最大意义在于利用了数据本身的逻辑特性,提高组织数据的效率,即用较少的数据表达较多信息的问题,和提高共享数据的效率。接着在步骤4用新字段集合生成生物分子数据文件的新数据结构,即生成能够用于共享现有的生物分子数据文件中数据的文件。最后在步骤5使用拥有所述新数据结构的新生物分子数据文件承载读取到的生物分子数据文件中的数据。本实施例中,步骤5按照下述子步骤实现首先读入需要共享的生物分子数据文件到计算机内存中,接着判断该生物分子数据文件采用的数据结构能否被正确识别,如果不能,反馈无法识别信息,结束操作,否则使用新生物分子数据文件数据结构与读入到计算机内存中的生物分子数据文件数据结构的字段对应关系,将该文件中数据结构字段的数据对应填充到新生物分子数据文件数据结构相应字段对应的数据空间。判断生物分子数据文件采用的数据结构能否被正确识别,可以通过文件的扩展名或文件内容中的特殊标识完成,此不赘述。
下面以.TXT生物分子数据文件的共享为例说明图1所示实施例。.TXT文件的内容通常为下述形式第一行文字数据;第二行文字数据;第三行文字数据;......·第N行文字数据。其中,第一行文字数据为该生物分子数据文件的首行,用于描述该生物分子数据文件第二行到第N行文字数据的结构和含义。第二行文字数据到第N行文字数据用于描述该生物分子文件的具体生物分子信息。例如,采用GenBank数据结构的生物分子文件的实例数据在计算机中以.TXT文件的形式保存,其首行文字数据为LOCUS LISOD 756 bp DNA linear BCT 30-JUN-1993 ;第二行之后数据为DEFINITION Listeria ivanovii sod gene for superoxide dismutase ;KEYWORDS sod gene ;superoxi de dismutase ;ACCESSION X64011 S78972 ;其中,首行文字数据的含义为
权利要求
1.一种生物分子数据的高效共享方法,其特征在于选择每一种生物分子数据文件的数据结构中有意义的字段;组合所述字段,直到每一种生物分子数据文件的数据结构中有意义的字段都被选择;按照所述字段表达信息的逻辑排列组合所述字段,形成新的字段集合;用所述集合中的字段生成生物分子数据文件的新数据结构;使用拥有所述新数据结构的新生物分子数据文件承载读取到的生物分子数据文件中的数据。
2.如权利要求1所述的方法,其特征在于按照下述步骤使用所述新数据结构承载读取到的生物分子数据文件中的数据读入生物分子数据文件到计算机内存中;判断该生物分子数据文件采用的数据结构能否被正确识别,如果不能,反馈无法识别信息,结束操作,否则,使用新生物分子数据文件数据结构与读入到计算机内存中的生物分子数据文件数据结构的字段对应关系,将该文件中数据结构字段的数据对应填充到新生物分子数据文件数据结构相应字段对应的数据空间。
3.如权利要求2所述的方法,其特征在于所述生物分子数据文件为文本结构文件或数据库结构的文件。
4.如权利要求3所述的方法,其特征在于如果所述生物分子文件为文本结构文件文件,逐行扫描读入到计算机内存中的生物分子数据文件,采用正则表达式识别该文件数据结构字段的数据。
5.如权利要求1所述的方法,其特征在于按照字段之间的逻辑关联排列组合所述字段,使顺序排列在先的字段是在后字段的基础。
6.如权利要求2所述的方法,其特征在于将能够被正确识别的生物分子数据文件采用的数据结构存储到模型数据库中,以及使用所述模型数据库中的数据判断生物分子数据文件采用的数据结构能否被正确识别。
7.如权利要求6所述的方法,其特征在于存储新数据结构,如果一个能够被正确识别的生物分子数据文件的采用的数据结构被存储到模型数据库,用该生物分子数据文件的数据结构中有意义的字段补充新数据结构。
8.如权利要求1所述的方法,其特征在于按照下述步骤组合所述字段形成字段组获得第一种生物分子数据文件的数据结构中有意义的字段,形成字段组;对于获得的第二种以及以后的每一种生物分子数据文件的数据结构中有意义的字段, 将与字段组中的字段不相同的字段补充进入字段组。
全文摘要
本发明公开了一种生物分子数据的高效共享方法,包括,选择每一种生物分子数据文件的数据结构中有意义的字段;组合所述字段,直到每一种生物分子数据文件的数据结构中有意义的字段都被选择;按照所述字段表达信息的逻辑排列组合所述字段,形成新的字段集合;用所述集合中的字段生成生物分子数据文件的新数据结构;使用拥有所述新数据结构的新生物分子数据文件承载读取到的生物分子数据文件中的数据。使用本发明解析数据时无需再考虑现有的生物分子数据文件采用的数据结构,有利于背景不同,水平不同的生物分子研究者都能从已有的生物分子数据文件中,获取自己所需的信息,从而进一步提高生物分子数据的数据处理速度和数据共享效率。
文档编号G06F17/30GK102411572SQ201010288419
公开日2012年4月11日 申请日期2010年9月21日 优先权日2010年9月21日
发明者孔令印, 宋立宇, 王敏, 王翊, 陈平, 鲁方 申请人:重庆诺京生物信息技术有限公司