基于混合云的生物信息管理系统的制作方法

文档序号:19221661发布日期:2019-11-26 02:11阅读:194来源:国知局
基于混合云的生物信息管理系统的制作方法

本申请涉及生物信息系统领域,且更为具体地,涉及一种基于混合云的生物信息管理系统。



背景技术:

混合云和大数据如今已经越来越普及,互联网、物联网等诸多行业都已经开始使用混合云和大数据技术,混合云包含计算、网络、存储、安全、容器服务等it架构所有的组件;大数据技术能给企业提供对海量数据的计算和分析服务,挖掘数据本身价值,助力企业高速发展。

目前,伴随着生物行业的快速发展,对于生物信息的管理要求也越来越高。具体地,在生物信息管理方面,普遍需要面对实验室管理、客户维护、项目管理等问题。

并且,随着业务的发展,对it架构的要求越来越高,需要有灵活可靠的it架构来支持现在以及未来的业务变化,提升用户满意度。

因此,需要改进的生物信息管理系统。



技术实现要素:

为了解决上述技术问题,提出了本申请。本申请的实施例提供了一种基于混合云的生物信息管理系统,其通过混合云向用户提供包括数据和应用的生物信息管理服务,并与用户进行数据交互,从而实现了高性能的生物信息管理系统。

根据本申请的一个方面,提供了一种基于混合云的生物信息管理系统,包括:基础设施层,包括经由物理链路联通的至少一个本地互联网数据中心和公有云;平台层,包括调度服务平台和容器服务平台;以及,软件层,用于将下层的数据和应用通过生物信息管理服务经由统一接口提供给用户,并接收用户提交的数据。

在上述基于混合云的生物信息管理系统中,所述平台层进一步包括用于提供并发送生物数据分析的大数据分析平台。

在上述基于混合云的生物信息管理系统中,所述生物信息管理服务包括实验室管理服务、客户关系维护服务和项目管理服务,用于由用户经由用户界面的业务流程任务进行数据分析以及数据上传及下载。

在上述基于混合云的生物信息管理系统中,所述业务流程任务包括:从代码仓库下载代码以创建所述业务流程任务;以及,将所述业务流程任务的更新后的代码上传到所述代码仓库以更新所述业务流程任务。

在上述基于混合云的生物信息管理系统中,所述业务流程任务进一步包括:提交所述创建或者更新的业务流程任务;由所述调度服务平台检查所提交的业务流程任务的权限;以及,响应于所述权限检查通过,由所述调度服务平台将所述业务流程任务调度到满足资源需求的工作节点。

在上述基于混合云的生物信息管理系统中,提交所述创建或者更新的业务流程任务包括:对所述业务流程任务中的生物数据进行拆分。

在上述基于混合云的生物信息管理系统中,所述对所述业务流程任务中的生物数据进行拆分包括:确定拆分后的数据文件的大小;确定拆分后的数据文件的数目;以及,基于所述拆分后的数据文件的大小和数目编辑指定汇总文件。

在上述基于混合云的生物信息管理系统中,对所述业务流程任务中的生物数据进行拆分包括:基于标签和引物序列将多样本混合的测序数据拆分为单样本的测序数据。

在上述基于混合云的生物信息管理系统中,基于所述拆分后的数据文件的大小和数目编辑指定汇总文件包括:基于所述拆分后的数据文件的大小对样本数据进行质控分析;响应于所述单样本的测序数据的质控分析不合格,对所述样本进行重新测序;以及,响应于所述单样本的测序数据的质控分析合格,将所述测序数据汇总到指定文件夹。

在上述基于混合云的生物信息管理系统中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:确定所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%;以及,响应于所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%,确定所述单样本的测序数据的质控分析合格。

在上述基于混合云的生物信息管理系统中,基于所述拆分后的数据文件的大小对样本数据进行质控分析包括:确定所述拆分后的数据文件中的n碱基的比例是否小于或等于3%;以及,响应于所述拆分后的数据文件中的n碱基的比例小于或等于3%,确定所述单样本的测序数据的质控分析合格。

在上述基于混合云的生物信息管理系统中,所述业务流程任务进一步包括:从镜像仓库获取所述业务流程任务所需的镜像数据。

在上述基于混合云的生物信息管理系统中,所述业务流程任务进一步包括:由用户经由所述业务流程任务进行数据分析以及数据上传及下载。

在上述基于混合云的生物信息管理系统中,所述至少一个本地互联网数据中心中的每一个包括第一计算资源和第一存储资源,且所述第一计算资源和所述第一存储资源的比例为25-30台/pb。

在上述基于混合云的生物信息管理系统中,所述公有云包括第二计算资源和第二存储资源,且所述第二计算资源和所述第二存储资源的比例为8-10台/pb。

与现有技术相比,本申请提供的基于混合云的生物信息管理系统通过混合云的基础设施层提供物理资源,通过平台层提供服务平台,并进一步通过软件层向用户提供包括数据和应用的生物信息管理服务,并与用户进行数据交互,从而实现了高性能的生物信息管理系统。

附图说明

通过结合附图对本申请实施例进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显。附图用来提供对本申请实施例的进一步理解,并且构成说明书的一部分,与本申请实施例一起用于解释本申请,并不构成对本申请的限制。在附图中,相同的参考标号通常代表相同部件或步骤。

图1图示了根据本申请实施例的示例性云架构。

图2图示了根据本申请实施例的云架构的抽象功能层的示意图。

图3图示了根据本申请实施例的基于混合云的生物信息管理系统的框图。

图4图示了根据本申请实施例的业务流程任务的示意图。

具体实施方式

下面,将参考附图详细地描述根据本申请的示例实施例。显然,所描述的实施例仅仅是本申请的一部分实施例,而不是本申请的全部实施例,应理解,本申请不受这里描述的示例实施例的限制。

申请概述

如上所述,随着公司业务的发展,传统的it架构越来越无法满足需求。

具体来说,传统的生物信息分析平台使用sge资源调度平台对分析任务进行调度,由于sge调度平台是在2000年9月份发布到2006年停止更新,技术过于老旧,资源调度不灵活,集群资源利用率过低,资源扩展不灵活;软件部署为共享方式部署,软件版本更新会产生“雪崩效应“导致整个集群相关软件都不可用,直接影响生产分析流程,脚本组装流程易受软件环境影响,问题排查困难;数据交付方式采用邮寄硬盘、crftp进行交付,交付方式老旧,数据拷贝工作占用大量数据交付时间。

此外,业务系统部署以传统架构为基础,部署比较零散,没有集中管理,不支持ci/cd持续集成,代码迭代更新速度较慢,无法满足业务需求,架构单节点过多,不支持ha模式,前端应用及数据库故障恢复需要停业务,导致用户体验差,影响公司正常运营。

另外,由于传统的生物信息分析软件基于不同的运行环境,无法在传统的业务系统架构上统一运行,用户在使用这些生物信息分析软件时,需要针对不同运行环境分别进行系统配置,显著影响用户使用的便利性。

针对上述技术问题,本申请的基本构思是提供一种基于混合云的生物信息管理系统,从而针对生物信息的服务场景和实际服务需求,基于混合云系统架构运行生物信息管理服务并与用户进行交互。

具体地,本申请提供的基于混合云的生物信息管理系统包括:基础设施层,包括经由物理链路联通的至少一个本地互联网数据中心和公有云;平台层,包括调度服务平台和容器服务平台;以及,软件层,用于将下层的数据和应用通过生物信息管理服务经由统一接口提供给用户,并接收用户提交的数据。

因此,本申请提供的基于混合云的生物信息管理系统能够通过混合云的基础设施层提供物理资源,通过平台层提供服务平台,并进一步通过软件层向用户提供包括数据和应用的生物信息管理服务,并与用户进行数据交互,从而实现了高性能的生物信息管理系统。

通过以上高性能的基于混合云的生物信息管理系统,可以实现软件环境的标准化、数据的融会贯通和资源调度共享,以及信息管理的系统化、网络化。这样,使得数据传递安全、快捷、便利,并且提高资源利用率、降低成本、提高公司市场竞争力。另外,软件环境的标准化方便流程的跨区迁移,节约了人工,并提高了资源配置的灵活性。

在介绍了本申请的基本原理之后,下面将参考附图来具体介绍本申请的各种非限制性实施例。

云架构概述

如上所述,根据本申请实施例的基于混合云的生物信息管理系统采用的是基于云计算环境的系统架构,简称为云架构。本领域技术人员可以理解,云计算是一种服务提供模式,可以实现对可配置计算资源所组成(例如,网络,网络带宽,服务器,处理器,内存,存储介质,应用程序,虚拟机,和服务)的共享资源池进行按需式网络访问。该共享资源池仅需较小的管理工作或与服务供应商的交互,便能快速进行配置和发布。

图1图示了根据本申请实施例的示例性云架构。如图1所示,示例性的云架构10包括一系列云计算节点11。通过这些云计算节点11,本地计算设备,例如,车载电脑12a、智能手机12b,个人数字助手12c和平板电脑12d等可实现互联通信。云计算节点11彼此之间可通信,并可被虚拟地或物理地分组以形成一系列节点网络,例如私有云,公有云,社区云或混合云等,通过这样的方式,为云用户提供无需在本地计算设备进行资源维护的云服务,例如基础设备,软件程序或平台等。本领域技术人员可以理解,图1中所示意的计算设备仅为示例,云计算环境可与其他任意的可计算设备通过网络直接或间接地实现互联,对此本申请并不意在进行任何限制。

图2图示了根据本申请实施例的云架构的抽象功能层的示意图。

如图2所示,由云架构10所提供的一组抽象功能层包括硬件和软件层,虚拟层,管理层和工作层。本领域技术人员可以理解,图2中所示意的部件,层和功能仅为示例,用以说明云架构10的特征,对此本申请并不意在进行任何限制。

硬件和软件层层包括一系列硬件和软件,其中硬件包括但不限于主机,risc(精简指令集计算机reducedinstructionsetcomputer)体系结构的服务器,服务器,刀锋性服务器,存储设备,网络和网络组件等。此外,软件包括网络应用服务器和数据库软件等。

虚拟层包括一系列虚拟实体,包括但不限于虚拟服务器,虚拟存储空间,虚拟网络,虚拟专用网络,虚拟应用程序和操作系统和虚拟客户端等。

管理层用于实现如下描述的功能。首先,资源的灵活调度功能,其能够提供用于在云架构内执行任务所需的计算资源和和存储资源等的动态伸缩;第二,计量和定价功能,其能够实现对云架构内的资源进行使用成本追踪,且对资源消耗进行计费或标价等;第三,安全防护功能,其能够对云用户和任务进行身份验证,并保护数据和其他资源;第四,用户门户功能,其能够为云用户和系统管理员提供对云架构的访问通道;第五,服务管理功能,其能够对云计算资源进行分配和管理,以满足所需服务的需求;第六,服务级别协议规划和实施功能,其能够根据sla(servicelevelagreement,sla,服务级别协议)对所需的云计算资源进行预安排和采购。

工作层提供了藉由云架构可实现的功能示例,例如,如上所述的生物信息管理服务的各项功能。

示例性系统

图3图示了根据本申请实施例的基于混合云的生物信息管理系统的具体架构的框图。

如图3所示,根据本申请实施例的基于混合云的生物信息管理系统100包括:基础设施层110,包括经由物理链路联通的至少一个本地互联网数据中心和公有云;平台层120,包括调度服务平台和容器服务平台;以及,软件层130,用于将下层的数据和应用通过生物信息管理服务经由统一接口提供给用户,并接收用户提交的数据。

与图1和图2比较可以看到,根据本申请实施例的生物信息管理系统100采用混合云架构,其主要包括iaas(基础设施即服务)、paas(平台即服务)以及saas(软件即服务)三层。其中,iaas层提供底层资源,包括服务器、网络、存储、安全等it相关基础设施;paas提供相关平台服务,比如资源调度平台服务、数据分析平台服务等;saas提供相关软件及服务,比如门户、管理平台、业务系统等。

在根据本申请实施例的基于混合云的生物信息管理析系统100中,所述基础设施层110包括经由物理链路联通的至少一个本地互联网数据中心和公有云。其中,所述至少一个本地互联网数据中心idc作为基础设置,所述公有云作为资源扩展,提供用于系统的底层资源。例如,所述基础设置层110可以包括两个本地idc和一个公有云的部署和使用,且所述公有云和idc经由物理专线链路联通,以实现资源的共享和灵活动态调度,以及快速部署满足业务需求的服务。也就是,通过物理专线链路的方式,可以直接将云端和本地资源打通,从而实现资源的动态横向扩展,节约人力物力财力。

为了使得物理资源能够得到有效利用,在本申请实施例中,优选地分别设置本地互联网数据中心和公有云的计算资源和存储资源的比例。

也就是,在根据本申请实施例的基于混合云的生物信息管理系统中,所述至少一个本地互联网数据中心中的每一个包括第一计算资源和第一存储资源,且所述第一计算资源和所述第一存储资源的比例为25-30台/pb。

并且,在根据本申请实施例的基于混合云的生物信息管理系统中,所述公有云包括第二计算资源和第二存储资源,且所述第二计算资源和所述第二存储资源的比例为8-10台/pb。

具体地,在包括两个本地idc的情况下,上述一个本地idc部署计算资源59台、存储2.4pb,另一本地idc部署计算资源22台,存储1.3pb,公有云部署计算资源109台、存储13pb,并全部通过物理专线链路联通。通过运行和优化,上述基础设施层110可以在1天的时间内完成100台计算资源的混合部署和调度,在4.8小时内实现1.5tb的基因数据分析处理和上云,满足了公司业务动态扩展的需求,加快了业务系统代码迭代的更新,提高生物信息流程分析速度,并且,网络融会贯通实现数据云交付,数据随时随地下载使用,同时大大降低了公司的基础设施投入成本。

在根据本申请实施例的基于混合云的生物信息管理系统100中,所述平台层120包括调度服务平台和容器服务平台,例如,kubernetes调度服务平台和docker容器服务平台。这里,调度服务平台和容器服务平台相对于传统的sge资源调度平台,可以解决资源调度不灵活、软件版本更新困难、流程易受环境影响等问题;同时,也能很好地解决业务系统代码更新不及时、单节点等问题,提供快速业务代码迭代更新以及应用ha高可用等功能。

另外,所述平台层120可以进一步包括大数据分析平台,例如spark、hadoop等,从而提供高并发的数据分析服务,提高数据挖掘效率。

也就是,在根据本申请实施例的基于混合云的生物信息管理系统中,所述平台层进一步包括用于提供并发生物数据分析的大数据分析平台。

例如,所述平台层120通过kubernetes调度服务平台、docker容器服务平台和spark等大数据分析平台,可以提供资源调度、业务系统及集群软件环境标准统一化以及流程大数据分析等功能。

在根据本申请实施例的基于混合云的生物信息管理系统100中,所述软件层130用于将下层的数据和应用通过生物信息管理服务经由统一接口提供给用户,并接收用户提交的数据。具体地,所述软件层130可以将下层的数据和应用通过软件即服务平台展现给用户,方便用户通过ui界面进行业务流程任务提交分析和数据上传、下载等。并且,所述软件层130还能够简化客户操作步骤,实现一键分析、一键出报告等功能,根据实际运行,非生物信息业务人员在5分钟能就可以完成基本流程的组装和分析。这里,在本申请实施例中,通过标准化的业务流程及其运行的软件环境,可以使得流程通过容器的方式方便地迁移,而无需再做流程软件安装等工作,节约了人工。在下文中,将进一步详细说明根据本申请实施例的业务流程的具体操作。

此外,所述软件层130向所有用户提供统一接口,使得内部生物信息分析人员和外部客户都可以使用该统一接口进行相关业务系统访问、流程任务分析和数据下载等,极大提高了分析效率,大大缩短了数据交付时间。因此,从资源扩展和调度、流程分析、流程组装等各方面都极大地提高了工作效率并降低了成本。

这里,在根据本申请实施例的基于混合云的生物信息管理系统中,所述生物信息管理服务包括实验室管理服务、客户关系维护服务和项目管理服务,用于由用户经由用户界面的业务流程任务进行数据分析以及数据上传及下载。

也就是,在本申请实施例中,通过在混合云平台上运行实验室管理系统、客户关系维护系统、项目管理系统及相应的报告系统,可以实现公司的实验管理、客户关系维护、项目运营等的网络信息化。

下面,将对根据本申请实施例的基于混合云的生物信息管理系统中的业务流程任务进行详细说明。

图4图示了根据本申请实施例的业务流程任务的示意图。如图4所示,在根据本申请实施例的业务流程任务中,为了运行生物信息管理服务,首先需要创建业务流程任务。具体地,通过从代码仓库下载代码以创建所述业务流程任务,并且将所述业务流程任务的更新后的代码上传到所述代码仓库以更新所述业务流程任务。

也就是,在根据本申请实施例的基于混合云的生物信息管理系统中,所述业务流程任务包括:从代码仓库下载代码以创建所述业务流程任务;以及,将所述业务流程任务的更新后的代码上传到所述代码仓库以更新所述业务流程任务。

在创建业务流程任务之后,提交创建或者更新的业务流程任务,并且由调度服务平台,例如,kubernetesapi-server进行基于角色的权限访问控制(role-basedaccesscontrol,rbac)。该基于角色的权限访问控制指的是在提交任务时,对提交人的权限做一系列的检查,如果权限正确则通过,如果不正确则拒绝。这里,如果权限正确,将所述业务流程任务调度到满足资源需求的工作节点,例如,本地互联网数据中心idc,或者云端计算资源。

因此,在根据本申请实施例的基于混合云的生物信息管理系统中,所述业务流程任务进一步包括:提交所述创建或者更新的业务流程任务;由所述调度服务平台检查所提交的业务流程任务的权限;以及,响应于所述权限检查通过,由所述调度服务平台将所述业务流程任务调度到满足资源需求的工作节点。

在本申请实施例中,对于类似于基因测序数据之类的生物数据,由于这类型的生物数据通常具有较大的数据大小,在运行生物信息管理服务时,优选地对所述生物数据进行拆分。

也就是,在根据本申请实施例的基于混合云的生物信息管理系统中,提交所述创建或者更新的业务流程任务包括:对所述业务流程任务中的生物数据进行拆分。

这里,可以通过多种方式对所述生物数据进行拆分,例如,测序时通常为多样本混合数据,可以将其拆分为单个样本数据,以此便于后续对样品进行分析。具体地,可以基于标签和引物序列将多样本混合的测序数据拆分为单样本的测序数据。

并且,对所述生物数据进行拆分可以具体包括:确定拆分后的数据文件的大小;确定拆分后的数据文件的数目;以及,基于所述拆分后的数据文件的大小和数目编辑指定汇总文件。其中,需要说明的是,拆分后的数据文件是单个样本的测序数据。

这里,在基于所述拆分后的数据文件的大小和数目编辑指定汇总文件时,可以基于所述拆分后的数据文件的大小对样本数据进行质控分析。具体地,针对拆分后的单样本的测序数据,如果质控分析不合格,则需要对所述样本进行重新测序,而如果质控分析合格,可以将所述单样本的测序数据汇总到指定文件夹。

也就是,在根据本申请实施例的基于混合云的生物信息管理系统中,基于所述拆分后的数据文件的大小和数目编辑指定汇总文件包括:基于所述拆分后的数据文件的大小对样本数据进行质控分析;响应于所述单样本的测序数据的质控分析不合格;以及,响应于所述单样本的测序数据的质控分析合格,将所述测序数据汇总到指定文件夹。

在基于所述拆分后的数据文件的大小对样本数据进行质控分析时,可以采用各种数据指标来确定所述样本数据是否质控分析合格。例如,可以以所述拆分后的数据文件的大小是否大于或者等于预期数据文件大小的15%为指标进行判断,并且可以在所述拆分后的数据文件的大小大于或者等于预期数据文件大小的15%的情况下,确定所述单样本的测序数据的质控分析合格。此外,还可以以所述拆分后的数据文件中的n碱基的比例是否小于或等于3%为指标进行判断,并且可以在所述拆分后的数据文件中的n碱基的比例小于或等于3%的情况下,确定所述单样本的测序数据的质控分析合格。进而,基于上述指标对数据进行拆分,可以满足后续测序数据信息处理的数据量要求。

现在返回图4,在将所述业务流程任务调度到满足资源需求的工作节点之后,就可以进一步进行数据分析,例如,通过分析样本的测序数据来确定对象是否存在特定基因缺陷等。并且,还可以进一步向用户提供数据的上传和下载服务,从而实现与生物信息管理系统与用户的交互。

此外,除了业务流程任务本身提交的数据之外,还可能需要其它镜像数据,因此,在根据本申请实施例的基于混合云的生物信息管理系统中,所述业务流程任务进一步包括:从镜像仓库获取所述业务流程任务所需的镜像数据。

并且,如上所述,在根据本申请实施例的基于混合云的生物信息管理系统中,所述业务流程任务进一步包括:由用户经由所述业务流程任务进行数据分析以及数据上传及下载。

这样,根据本申请实施例的基于混合云的生物信息管理系统通过标准化的业务流程及其运行的软件环境,方便了流程的跨区迁移,比如某地的流程可以直接通过容器的方式转移到另一地点的软件环境下使用,而无需再做流程软件安装等工作,节约了人工。

综上所述,根据本申请实施例的基于混合云的生物信息管理系统可以实现资源的灵活调度、快速部署以及基于大数据平台的基因流程分析,解决了it硬件资源扩展周期长、业务项目数据分析及交付周期过长等问题,同时提高用户体验度,大大降低公司it及相关基础设施投入成本。

以上结合具体实施例描述了本申请的基本原理,但是,需要指出的是,在本申请中提及的优点、优势、效果等仅是示例而非限制,不能认为这些优点、优势、效果等是本申请的各个实施例必须具备的。另外,上述公开的具体细节仅是为了示例的作用和便于理解的作用,而非限制,上述细节并不限制本申请为必须采用上述具体的细节来实现。

本申请中涉及的器件、装置、设备、系统的方框图仅作为例示性的例子并且不意图要求或暗示必须按照方框图示出的方式进行连接、布置、配置。如本领域技术人员将认识到的,可以按任意方式连接、布置、配置这些器件、装置、设备、系统。诸如“包括”、“包含”、“具有”等等的词语是开放性词汇,指“包括但不限于”,且可与其互换使用。这里所使用的词汇“或”和“和”指词汇“和/或”,且可与其互换使用,除非上下文明确指示不是如此。这里所使用的词汇“诸如”指词组“诸如但不限于”,且可与其互换使用。

还需要指出的是,在本申请的装置、设备和方法中,各部件或各步骤是可以分解和/或重新组合的。这些分解和/或重新组合应视为本申请的等效方案。

提供所公开的方面的以上描述以使本领域的任何技术人员能够做出或者使用本申请。对这些方面的各种修改对于本领域技术人员而言是非常显而易见的,并且在此定义的一般原理可以应用于其他方面而不脱离本申请的范围。因此,本申请不意图被限制到在此示出的方面,而是按照与在此公开的原理和新颖的特征一致的最宽范围。

为了例示和描述的目的已经给出了以上描述。此外,此描述不意图将本申请的实施例限制到在此公开的形式。尽管以上已经讨论了多个示例方面和实施例,但是本领域技术人员将认识到其某些变型、修改、改变、添加和子组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1