本申请涉及数据处理技术领域,特别是涉及一种科学数据基因组的处理方法、装置和存储介质。
背景技术:
随着科学技术的迅速发展,在生产活动过程或是药物研发过程的各个步骤中,都会产生各种各样的生产数据或研发数据,在一些高度复杂的生产或研发过程中,常常会在不同的时间收集成百上千的海量数据。
由于这些数据来源多样,导致这些数据分布于不同的数据源,比如研发过程中使用到的研发软件,或者是生产过程中使用到的生产设备装置,或者是各种监控设备;再比如研发软件底层存储数据用的数据库,也可能分布在不同的服务器上,或生产设备存储数据所关联的存储设备上,甚至在地点上可能分布在不同的城市或国家,因此用户通常很难同时去访问存储在多个和各种数据源中的数据。
目前,一般通过用户手动从不同的来源定位、提取和格式化所需的数据。例如,如果用户想要跟踪混合物的温度和混合物的最终粘度,用户通常需要手动关联这两部分数据,所以每次用户需要分析数据时,必须根据自己对各种数据集之间的关系和数据分析所需的格式的了解,然后重复这个手动关联过程,而通过手动关联的方式获取数据不仅过程复杂,且容易导致错误产生。
技术实现要素:
基于此,有必要针对上述通过手动关联不同数据源获取数据过程复杂的问题,提供一种科学数据基因组的处理方法、装置、计算机设备和存储介质。
一种科学数据基因组的处理方法,所述方法包括:
建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段;
获取对所述多个数据源提供的数据进行展示的数据层级关系,所述数据层级关系包括不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系;
根据所述数据层级关系,建立所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系;
基于所述映射关系和与多个数据源之间的连接关系,从所述多个数据源中获取与所述展示节点中对应展示字段匹配的数据,根据所述数据层级关系展示所述数据。
在其中一个实施例中,所述多个数据源包括但不限于用于提供关系型数据或非关系型数据的数据库、以及用于提供文件型数据的数据源;所述建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段包括:若所述数据源为用于提供关系型数据或非关系型数据的数据库,则获取所述数据库的第一地址信息以及账户登录信息,根据所述数据库的第一地址信息以及账户登录信息访问所述数据库,获取所述数据库中的数据字段;或者,若所述数据源为用于提供文件型数据的数据源,则获取所述数据源的第二地址信息,根据所述数据源的第二地址信息访问所述数据源,获取所述数据源中的数据字段。
在其中一个实施例中,所述从所述多个数据源中获取与所述展示节点中对应展示字段匹配的数据,包括:从所述多个数据源中获取与所述展示节点中对应展示字段匹配的原始数据;根据设定的数据筛选条件对所述原始数据进行筛选,得到符合所述数据筛选条件的数据。
在其中一个实施例中,所述从所述多个数据源中获取与所述展示节点中对应展示字段匹配的原始数据之后,所述方法还包括:根据设定的数据异常验证条件对所述原始数据进行验证,若确定所述原始数据中存在异常数据,则采用预先设定的异常处理方式对所述原始数据中的异常数据进行处理,得到处理后的数据。
在其中一个实施例中,所述获取对所述多个数据源提供的数据进行展示的数据层级关系,包括:获取对所述多个数据源提供的数据进行展示的展示节点和展示字段;基于所述展示节点和展示字段获取不同所述展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,得到对应的数据层级关系。
在其中一个实施例中,所述根据所述数据层级关系,建立所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系,包括:通过树形目录的方式展示所述数据层级关系,通过列表的方式展示所述多个数据源;获取对所述数据源的选择指令,展示所述数据源对应的数据字段;获取从所述数据源中选择的数据字段与从所述展示节点中选择的展示节点之间的关联关系;根据所述关联关系将选择的数据字段映射到选择的所述展示节点中对应的展示字段中,建立选择的数据字段与对应的展示字段之间的映射关系。
在其中一个实施例中,所述根据所述数据层级关系展示所述数据,包括:根据所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系,确定所述展示字段对应数据的数据源;根据不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,确定所述展示字段对应的展示节点所属的节点类型;根据所述展示字段对应数据的数据源和所述展示字段对应的展示节点所属的节点类型,采用预设的数据渲染方式对所述数据进行渲染,生成对应的数据基因图谱;展示所述数据基因图谱。
一种科学数据基因组的处理装置,所述装置包括:
数据字段获取模块,用于建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段;
数据层级关系获取模块,用于获取对所述多个数据源提供的数据进行展示的数据层级关系,所述数据层级关系包括不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系;
映射关系建立模块,用于根据所述数据层级关系,建立所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系;
数据获取模块,用于基于所述映射关系和与多个数据源之间的连接关系,从所述多个数据源中获取与所述展示节点中对应展示字段匹配的数据;
展示模块,用于根据所述数据层级关系展示所述数据。
一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述方法的步骤。
一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述方法的步骤。
上述科学数据基因组的处理方法、装置、计算机设备和存储介质,通过建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段,并获取对多个数据源提供的数据进行展示的数据层级关系,从而根据数据层级关系,建立多个数据源中的数据字段与展示节点中对应展示字段之间的映射关系,基于映射关系和与多个数据源之间的连接关系,从多个数据源中获取与展示节点中对应展示字段匹配的数据并展示,从而实现按用户希望查看的数据之间的关系展示数据,且避免了传统技术中通过手动关联不同数据源获取数据过程复杂的问题。
附图说明
图1为一个实施例中科学数据基因组的处理方法的应用环境图;
图2为一个实施例中科学数据基因组的处理方法的流程示意图;
图3为一个实施例中从数据源中获取数据步骤的流程示意图;
图4为一个实施例中获取数据层级关系步骤的流程示意图;
图5为一个实施例中展示的数据层级关系的示意图;
图6为一个实施例中建立映射关系步骤的流程示意图;
图7为一个实施例中展示的映射关系的示意图;
图8为一个实施例中展示数据步骤的流程示意图;
图9为一个实施例中展示的数据基因图谱的示意图;
图10为一个实施例中科学数据基因组的处理装置的结构框图;
图11为一个实施例中计算机设备的内部结构图。
具体实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。
本申请提供的科学数据基因组的处理方法,可以应用于如图1所示的应用环境中。其中,计算机设备102通过网络连接至多个数据源104(如图5数据源1、数据源2、……、数据源n)中。具体地,计算机设备102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备等终端,或者也可以是服务器。多个数据源104可以但不限于是各种关系型数据库、非关系型数据库以及文件型数据源等。
在一个实施例中,如图2所示,提供了一种科学数据基因组的处理方法,以该方法应用于图1中的计算机设备进行说明,具体地,以该计算机设备为终端为例进行说明,包括以下步骤:
步骤202,建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段。
其中,多个数据源包括但不限于用于提供关系型数据的关系型数据库、用于提供非关系型数据的非关系型数据库、以及用于提供文件型数据的文件型数据源。连接关系具体可以是指网络连接关系。数据字段表示存储数据的数据属性,每个数据字段描述数据的某一特征,并有唯一的供计算机识别的字段标识符。在本实施例中,通过建立终端与多个数据源之间的连接关系,从而使得终端可以访问该多个数据源,并从多个数据源中分别获取对应的数据字段。
步骤204,获取对多个数据源提供的数据进行展示的数据层级关系。
其中,数据层级关系提供了用户希望查看的数据之间的关系,具体地,数据层级关系包括不同展示节点之间的从属关系以及展示字段与展示节点之间的隶属关系。其中,不同展示节点之间的从属关系是指不同展示节点之间的依存、附属关系,展示字段与展示节点之间的隶属关系是指展示字段隶属于哪一个展示节点。在本实施例中,可以基于用户希望查看的数据之间的关系,获取对多个数据源提供的数据进行展示的数据层级关系,并定义其为对应的数据模型。
步骤206,根据数据层级关系,建立多个数据源中的数据字段与展示节点中对应展示字段之间的映射关系。
其中,映射关系是指数据源中数据字段与展示节点中展示字段之间的关联关系。在本实施例中,由于数据层级关系只是关系层面的对象,其中并未存储任何数据,因此,为了将用户希望查看的数据通过该数据层级关系展现出来,可以建立多个数据源中的数据字段与展示节点中对应展示字段之间的关联关系,从而使得展示节点中对应的展示字段可以基于该关联关系获取对应的数据。
步骤208,基于映射关系和与多个数据源之间的连接关系,从多个数据源中获取与展示节点中对应展示字段匹配的数据并展示。
其中,与展示节点中对应展示字段匹配的数据,是指与展示节点中对应展示字段存在关联关系的数据源中数据字段对应的数据。在本实施例中,基于上述建立的映射关系和与多个数据源之间的连接关系,从多个数据源中获取与展示节点中对应展示字段匹配的数据并展示,从而实现按用户希望查看的数据之间的关系展示数据。
上述科学数据基因组的处理方法,通过建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段,并获取对多个数据源提供的数据进行展示的数据层级关系,从而根据数据层级关系,建立多个数据源中的数据字段与展示节点中对应展示字段之间的映射关系,基于映射关系和与多个数据源之间的连接关系,从多个数据源中获取与展示节点中对应展示字段匹配的数据并展示,从而实现按用户希望查看的数据之间的关系展示数据,且避免了传统技术中通过手动关联不同数据源获取数据过程复杂的问题。
在一个实施例中,多个数据源包括但不限于用于提供关系型数据的关系型数据库、用于提供非关系型数据的非关系型数据库、以及用于提供文件型数据的数据源。具体地,关系型数据库包括但不限于oracle(一个面向internet计算环境的数据库)、mysql(一个关系型数据库管理系统)、sqlserver(structuredquerylanguage的缩写,意思为结构化查询语言)及postgresql(一个功能非常强大的、源代码开放的客户/服务器关系型数据库管理系统)等;非关系型数据库包括但不限于nosql(notonlysql,泛指非关系型的数据库)的数据库,比如mongodb(一个基于分布式文件存储的数据库)等;文件型数据源则包括提供excel(microsoftofficeexcel,一款电子表格软件)、csv(comma-separatedvalues,逗号分隔值文件格式)、xml(extensiblemarkuplanguage,用于标记电子文件使其具有结构性的标记语言)、txt(一种文本格式)及sdf(standarddelayformat,标准延时格式文件)这几种格式文件的器件或媒体。
在步骤202中,建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段,具体可以包括:若数据源为用于提供关系型数据或非关系型数据的数据库,则获取数据库的第一地址信息以及账户登录信息,根据数据库的第一地址信息以及账户登录信息访问数据库,获取数据库中的数据字段。其中,第一地址信息是指数据库(关系型数据库或非关系型数据库)所在的服务器名称或ip地址以及相应的端口信息。账户登录信息是指访问数据库所需的用户名及密码等信息。即当数据源为数据库(包括关系型数据库和非关系型数据库)时,则获取该数据库的第一地址信息以及账户登录信息,并基于数据库的第一地址信息以及账户登录信息访问该数据库,从而获取数据库中的数据字段。
若数据源为用于提供文件型数据的数据源,则获取数据源的第二地址信息,根据数据源的第二地址信息访问数据源,获取数据源中的数据字段。其中,第二地址信息则是指存放文件型数据的地址信息,如链接地址。在本实施例中,若数据源为提供文件型数据的数据源时,则获取该数据源的第二地址信息,并基于该数据源的第二地址信息访问数据源,从而获取数据源中的数据字段。
进一步地,为了便于后续获取数据,访问数据源的连接信息(包括数据库的第一地址信息以及账户登录信息,或者存放文件型数据的数据源的第二地址信息)可以通过配置的方式进行设置,且获取的数据字段可以基于对应的数据源进行命名并保存。使得用户在后续想要获取相关数据的时候,可以直接通过保存好的信息来获取来自不同数据源的数据,而不需要每次都去设定与不同的数据源之间的连接关系。
在一个实施例中,如图3所示,从多个数据源中获取与展示节点中对应展示字段匹配的数据,具体包括如下步骤:
步骤302,从多个数据源中获取与展示节点中对应展示字段匹配的原始数据。
其中,原始数据是指数据源中存储的未经过处理的数据,例如,数据源中存储的由仪器或软件直接采集的数据。在本实施例中,基于上述建立的映射关系和与多个数据源之间的连接关系,从多个数据源中获取与展示节点中对应展示字段存在关联关系的数据字段对应的原始数据。
步骤304,根据设定的数据筛选条件对原始数据进行筛选,得到符合数据筛选条件的数据。
其中,设定的数据筛选条件是指预先设定的对原始数据进行筛选的规则,其可以根据实际应用的需要进行设定。具体地,筛选条件可以是基于对数据质量的考虑而设定的筛选规则,例如,只从原始数据中筛选数据质量满足要求的数据,如非异常数据、非缺失数据等;筛选条件也可以是基于对数据本身的考虑而设定的筛选规则,例如,从原始数据中筛选数值类型的数据,或者筛选某个设定的大小范围之内的数据;而对于时间类型的数据,则可以基于时间范围设定筛选规则,即只筛选设定时间范围内的数据。
上述实施例通过从多个数据源中获取与展示节点中对应展示字段匹配的原始数据,并根据设定的数据筛选条件对原始数据进行筛选,从而得到符合数据筛选条件的数据,使得获取的数据能够满足用户的需求,而直接用于进行数据分析,而无需再进行数据处理。
进一步地,由于来自于不同数据源的数据,其数据类型也可能多种多样,比如温度、质量这样的数值型数据,记录时间的时间类型数据,记录化合物结构式信息的结构式数据,记录生物的蛋白序列数据等。又由于仪器记录误差或者其它一些原因,这些数据中还可能存在一些“脏”数据,比如有数据缺失的问题,有数据异常值的问题,因此用户很难直接使用这些数据去做数据分析。基于此,在本实施例中,从多个数据源中获取与展示节点中对应展示字段匹配的原始数据之后,上述方法还包括:根据设定的数据异常验证条件对原始数据进行验证,若确定原始数据中存在异常数据,则采用预先设定的异常处理方式对原始数据中的异常数据进行处理,得到处理后的数据。其中,设定的数据异常验证条件是指预先设定的验证数据是否存在异常的规则及方法,例如,是否存在指定数据字段中数据的缺失,对于指定数据字段中存储的数据类型是否匹配等。预先设定的异常处理方式是指对验证为异常的数据的处理方式,例如,对缺失数据的具体处理是丢弃该条数据还是对其进行赋值,而赋值又包括赋予空值、赋予平均值以及通过插值函数的方式赋值等。在本实施例中,当从多个数据源中获取与展示节点中对应展示字段匹配的原始数据之后,则可以根据设定的数据异常验证条件对获取的原始数据进行验证,即验证原始数据中是否存在异常数据,若确定原始数据中存在异常数据,则基于预先设定的异常处理方式对原始数据中的异常数据进行相应的处理,从而得到处理后的数据,使得最终呈现给用户的数据都是规整的数据。
可以理解的是,上述对数据进行筛选以及验证异常数据并进行处理的步骤,可以基于实际需要选择使用或相互配合使用,其目的是为用户提供符合需求的数据,而无需用户掌握复杂的数据处理技术。
在一个实施例中,如图4所示,获取对多个数据源提供的数据进行展示的数据层级关系,具体包括如下步骤:
步骤402,获取对多个数据源提供的数据进行展示的展示节点和展示字段。
其中,展示节点和展示字段是构成数据层级关系的成员,而展示节点又包括根节点和子节点。具体地,如图5所示,基于不同的数据层级关系分别具有唯一的根节点,可以基于数据展示需求在根节点下建立子节点,子节点下可继续建立子节点,而所有节点(包括根节点和子节点)下均可建立展示字段。在本实施例中,展示字段可兼容各种数据类型,例如,该展示字段可以兼容数值类型、时间类型、文本类型、结构式类型以及生物蛋白类型等各种数据类型。本实施例通过获取对多个数据源提供的数据进行展示的展示节点和展示字段,并通过后续步骤得到对应的数据层级关系。
步骤404,基于展示节点和展示字段获取不同展示节点之间的从属关系以及展示字段与展示节点之间的隶属关系,得到对应的数据层级关系。
其中,不同展示节点之间的从属关系是指不同展示节点之间的依存、附属关系,也即层级关系,展示字段与展示节点之间的隶属关系是指展示字段隶属于哪一个展示节点。在本实施例中,基于用户希望查看的数据之间的关系,获取根节点、子节点和展示字段之间的从属关系和隶属关系,从而得到对应的数据层级关系,基于可视化的数据层级关系得到对应的数据模型。
在一个实施例中,如图6所示,根据数据层级关系,建立多个数据源中的数据字段与展示节点中对应展示字段之间的映射关系,具体包括如下步骤:
步骤602,通过树形目录的方式展示数据层级关系,通过列表的方式展示多个数据源。
其中,树形目录是指通过树状结构分布的上下、左右等一系列结构的目录,具体地,通过树形目录的方式展示数据层级关系,具体可以是如图5所示的展现方式。并通过列表的方式展示多个数据源,即多个数据源通过列表的方式展示。
步骤604,获取对数据源的选择指令,展示数据源对应的数据字段。
其中,选择指令是指对数据源进行选择的指示或命令。对于每一个数据源,其相应的数据字段可以按照一定的线性顺序排列。在本实施例中,通过获取对数据源的选择指令,从而展示该数据源对应的数据字段。
步骤606,获取从数据源中选择的数据字段与从展示节点中选择的展示节点之间的关联关系。
由于对于数据层级关系中,每一个展示字段都隶属于某一展示节点,因此,在本实施例中,获取从数据源中选择的数据字段与从展示节点中选择的展示节点之间的关联关系,即基于用户需求获取字段与节点之间的这种隶属关系。
步骤608,根据关联关系将选择的数据字段映射到选择的展示节点中对应的展示字段中,建立选择的数据字段与对应的展示字段之间的映射关系。
由于数据层级关系中的一个展示字段,可能对应了一个数据源中的多个数据字段,或多个数据源中的多个数据字段,这些不同数据字段在抽取到同一个数据层级关系中的时候,这些字段之间同样需要建立关联关系,因此在设置完数据源中的数据字段与数据层级关系中展示节点之间的关联关系后,还需要建立字段之间的映射关系。
举例来说,在本实施例中,可以基于可视化的方式建立多个数据源中的数据字段与展示节点中对应展示字段之间的映射关系。具体地,在终端的显示界面中,可以在显示界面的一侧通过树形目录的方式展示数据层级关系(也即数据模型),在显示界面的另一侧通过列表的方式展示多个数据源,基于对展示的某一数据源名称的选择,展示该数据源对应的数据字段,进而可以通过可视化拖拽的方法,建立数据字段与数据层级关系中展示字段之间的关联关系(具体如图7所示)。例如,可以通过鼠标点击选中和拖拽数据源中的数据字段,并放到数据层级关系中的展示字段上,从而建立从数据源中数据字段到数据层级关系中展示字段之间的映射关系,实现数据源中数据字段的数据到数据层级关系中展示字段的映射。
在一个实施例中,如图8所示,根据数据层级关系展示数据,具体包括如下步骤:
步骤802,根据多个数据源中的数据字段与展示节点中对应展示字段之间的映射关系,确定展示字段对应数据的数据源。
由于展示节点中每一个展示字段对应的数据都是从相应的数据源中获取得到,因此,基于数据源中的数据字段与展示节点中对应展示字段之间的映射关系,可以确定每一个展示字段对应数据的数据源,即确定展示字段对应数据的数据来源是哪里。
步骤804,根据不同展示节点之间的从属关系以及展示字段与展示节点之间的隶属关系,确定展示字段对应的展示节点所属的节点类型。
其中,节点类型是基于数据层级关系确定的,由于不同展示节点之间具有一定的从属关系,因此,节点类型具体可以基于节点之间的从属关系确定。具体地,如图5所示,对于根节点下的第一级子节点(图中虚线框中的子节点),则每一个第一级子节点具有对应的节点类型,而对于第一级子节点下的子节点,由于其分别从属于不同的第一级子节点,因此,可以根据其从属的第一级子节点的节点类型而确定该子节点所属的节点类型。
步骤806,根据展示字段对应数据的数据源和展示字段对应的展示节点所属的节点类型,采用预设的数据渲染方式对数据进行渲染,生成对应的数据基因图谱。
其中,预设的数据渲染方式是指预先设定的数据渲染方式,例如,对于每一个展示字段,若对应数据的数据源不同,则可以采用不同的形状进行标识,若对应数据的数据源相同,则可以采用相同的形状进行标识;对于每一个展示字段,若对应展示节点的节点类型不同,则可以采用不同的颜色进行标识,若对应展示节点的节点类型相同,则可以采用相同的颜色进行标识。在本实施例中,根据展示字段对应数据的数据源和展示字段对应的展示节点所属的节点类型,采用预设的数据渲染方式对数据进行渲染,从而生成对应的数据基因图谱。数据基因图谱是指通过图谱的方式展示数据,且通过图谱中的展示内容可以一目了然的知道数据的具体来源以及数据之间的关系。
步骤808,展示数据基因图谱。
通过展示基于上述渲染得到的数据基因图谱,从而方便用户查看,或进一步分析。
具体地,数据基因图谱可以是如图9所示的形式,其中,图9是基于某一润滑油配方的基因家族分析示例图,由图可知,对于该润滑油配方,其包括主要成分、性能测试、评价数据、所属项目以及制备工艺5种类型的数据,而对于每一类型的数据中又包括多个展示节点以及对应的展示字段,其展示字段对应的数据又可能来自于不同的数据源。因此,对于每一种类型的数据,在展示时可以根据不同的颜色加以区分,如在展示时主要成分部分可通过紫色显示、性能测试部分可通过蓝色显示、评价数据部分可通过红色显示、所属项目部分可通过绿色显示以及制备工艺部分可通过黄色显示等。而对于每一个展示字段对应数据的数据源,在展示时则可以采用相应的形状进行标识,如图中显示为实心三角形的数据字段,表示其对应的数据来自于试剂物料管理系统,图中显示为实心圆形的数据字段,表示其对应的数据来自于erp(enterpriseresourceplanning,企业资源计划)系统,图中显示为正“十”字形的数据字段,表示其对应的数据来自于计算模拟平台,图中显示为实心棱形的数据字段,表示其对应的数据来自于eln(electroniclabnotebook,电子实验记录本)系统,图中显示为倾斜“十”字形的数据字段,表示其对应的数据来自于lims(laboratoryinformationmanagementsystem,实验室信息管理系统)系统,图中显示为空心三字形的数据字段,表示其对应的数据来自于excel数据文件。
可以理解的是,数据基因图谱是基于预设的数据渲染方式以及上述数据层级关系,对获取的数据进行渲染后得到的,例如,上述数据基因图谱中“润滑油配方”则相当于对应数据层级关系中的根节点,上述数据基因图谱中5种数据的类型则相当于根节点下的第一级子节点,对于制备工艺的第一级子节点,其又包括单元操作a的子节点,以及数据字段单元操作b和单元操作c,而对于单元操作a的子节点,其又包括工作温度、工作压力、操作时间的展示字段,基于展示字段与对应数据源中数据字段之间的映射关系,可以从数据源中获取对应数据字段具体的数据内容,由图可知,如对于工作温度、工作压力、操作时间的展示字段,其关联的是eln系统中对应数据字段的数据“28摄氏度、1个大气压、3小时”。且由图像的渲染标识可知,对于单元操作b和单元操作c的数据字段,其对应的数据来自于excel数据文件,而对于工作温度、工作压力以及操作时间的数据字段,其对应的数据来自于eln系统。本实施例通过数据基因图谱的方式展示数据,使得用户可以通过展示的内容清楚地知道每个展示字段的来源信息,从而方便用户对数据的来源进行追溯,为用户分析数据提供帮助,并能够直观的从大量数据中,快速找出影响研发和生产过程的主要因素,进而提高研发和生产的效率和质量。
应该理解的是,虽然图1-8的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图1-8中的至少一部分步骤可以包括多个步骤或者多个阶段,这些步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。
在一个实施例中,如图10所示,提供了一种科学数据基因组的处理装置,包括:数据字段获取模块1001,数据层级关系获取模块1002,映射关系建立模块1003,数据获取模块1004和展示模块1005,其中:
数据字段获取模块1001,用于建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段;
数据层级关系获取模块1002,用于获取对所述多个数据源提供的数据进行展示的数据层级关系,所述数据层级关系包括不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系;
映射关系建立模块1003,用于根据所述数据层级关系,建立所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系;
数据获取模块1004,用于基于所述映射关系和与多个数据源之间的连接关系,从所述多个数据源中获取与所述展示节点中对应展示字段匹配的数据;
展示模块1005,用于根据所述数据层级关系展示所述数据。
在一个实施例中,所述多个数据源包括但不限于用于提供关系型数据或非关系型数据的数据库、以及用于提供文件型数据的数据源;则数据字段获取模块1001具体用于:若所述数据源为用于提供关系型数据或非关系型数据的数据库,则获取所述数据库的第一地址信息以及账户登录信息,根据所述数据库的第一地址信息以及账户登录信息访问所述数据库,获取所述数据库中的数据字段;或者,若所述数据源为用于提供文件型数据的数据源,则获取所述数据源的第二地址信息,根据所述数据源的第二地址信息访问所述数据源,获取所述数据源中的数据字段。
在一个实施例中,数据获取模块1004具体用于:从所述多个数据源中获取与所述展示节点中对应展示字段匹配的原始数据;根据设定的数据筛选条件对所述原始数据进行筛选,得到符合所述数据筛选条件的数据。
在一个实施例中,数据获取模块1004还用于:从所述多个数据源中获取与所述展示节点中对应展示字段匹配的原始数据之后,根据设定的数据异常验证条件对所述原始数据进行验证,若确定所述原始数据中存在异常数据,则采用预先设定的异常处理方式对所述原始数据中的异常数据进行处理,得到处理后的数据。
在一个实施例中,数据层级关系获取模块1002具体用于:获取对所述多个数据源提供的数据进行展示的展示节点和展示字段;基于所述展示节点和展示字段获取不同所述展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,得到对应的数据层级关系。
在一个实施例中,映射关系建立模块1003具体用于:通过树形目录的方式展示所述数据层级关系,通过列表的方式展示所述多个数据源;获取对所述数据源的选择指令,展示所述数据源对应的数据字段;获取从所述数据源中选择的数据字段与从所述展示节点中选择的展示节点之间的关联关系;根据所述关联关系将选择的数据字段映射到选择的所述展示节点中对应的展示字段中,建立选择的数据字段与对应的展示字段之间的映射关系。
在一个实施例中,展示模块1005具体用于:根据所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系,确定所述展示字段对应数据的数据源;根据不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,确定所述展示字段对应的展示节点所属的节点类型;根据所述展示字段对应数据的数据源和所述展示字段对应的展示节点所属的节点类型,采用预设的数据渲染方式对所述数据进行渲染,生成对应的数据基因图谱;展示所述数据基因图谱。
关于科学数据基因组的处理装置的具体限定可以参见上文中对于科学数据基因组的处理方法的限定,在此不再赘述。上述科学数据基因组的处理装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。
在一个实施例中,提供了一种计算机设备,该计算机设备可以是终端,其内部结构图可以如图11所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中,该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信,无线方式可通过wifi、运营商网络、nfc(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种科学数据基因组的处理方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏,该计算机设备的输入装置可以是显示屏上覆盖的触摸层,也可以是计算机设备外壳上设置的按键、轨迹球或触控板,还可以是外接的键盘、触控板或鼠标等。
本领域技术人员可以理解,图11中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。
在一个实施例中,提供了一种计算机设备,包括存储器和处理器,存储器中存储有计算机程序,该处理器执行计算机程序时实现以下步骤:
建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段;
获取对所述多个数据源提供的数据进行展示的数据层级关系,所述数据层级关系包括不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系;
根据所述数据层级关系,建立所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系;
基于所述映射关系和与多个数据源之间的连接关系,从所述多个数据源中获取与所述展示节点中对应展示字段匹配的数据,根据所述数据层级关系展示所述数据。
在一个实施例中,所述多个数据源包括但不限于用于提供关系型数据或非关系型数据的数据库、以及用于提供文件型数据的数据源;则处理器执行计算机程序时还实现以下步骤:若所述数据源为用于提供关系型数据或非关系型数据的数据库,则获取所述数据库的第一地址信息以及账户登录信息,根据所述数据库的第一地址信息以及账户登录信息访问所述数据库,获取所述数据库中的数据字段;或者,若所述数据源为用于提供文件型数据的数据源,则获取所述数据源的第二地址信息,根据所述数据源的第二地址信息访问所述数据源,获取所述数据源中的数据字段。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:从所述多个数据源中获取与所述展示节点中对应展示字段匹配的原始数据;根据设定的数据筛选条件对所述原始数据进行筛选,得到符合所述数据筛选条件的数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据设定的数据异常验证条件对所述原始数据进行验证,若确定所述原始数据中存在异常数据,则采用预先设定的异常处理方式对所述原始数据中的异常数据进行处理,得到处理后的数据。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:获取对所述多个数据源提供的数据进行展示的展示节点和展示字段;基于所述展示节点和展示字段获取不同所述展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,得到对应的数据层级关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:通过树形目录的方式展示所述数据层级关系,通过列表的方式展示所述多个数据源;获取对所述数据源的选择指令,展示所述数据源对应的数据字段;获取从所述数据源中选择的数据字段与从所述展示节点中选择的展示节点之间的关联关系;根据所述关联关系将选择的数据字段映射到选择的所述展示节点中对应的展示字段中,建立选择的数据字段与对应的展示字段之间的映射关系。
在一个实施例中,处理器执行计算机程序时还实现以下步骤:根据所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系,确定所述展示字段对应数据的数据源;根据不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,确定所述展示字段对应的展示节点所属的节点类型;根据所述展示字段对应数据的数据源和所述展示字段对应的展示节点所属的节点类型,采用预设的数据渲染方式对所述数据进行渲染,生成对应的数据基因图谱;展示所述数据基因图谱。
在一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现以下步骤:
建立与多个数据源之间的连接关系,获取多个数据源分别对应的数据字段;
获取对所述多个数据源提供的数据进行展示的数据层级关系,所述数据层级关系包括不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系;
根据所述数据层级关系,建立所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系;
基于所述映射关系和与多个数据源之间的连接关系,从所述多个数据源中获取与所述展示节点中对应展示字段匹配的数据,根据所述数据层级关系展示所述数据。
在一个实施例中,所述多个数据源包括但不限于用于提供关系型数据或非关系型数据的数据库、以及用于提供文件型数据的数据源;则计算机程序被处理器执行时还实现以下步骤:若所述数据源为用于提供关系型数据或非关系型数据的数据库,则获取所述数据库的第一地址信息以及账户登录信息,根据所述数据库的第一地址信息以及账户登录信息访问所述数据库,获取所述数据库中的数据字段;或者,若所述数据源为用于提供文件型数据的数据源,则获取所述数据源的第二地址信息,根据所述数据源的第二地址信息访问所述数据源,获取所述数据源中的数据字段。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:从所述多个数据源中获取与所述展示节点中对应展示字段匹配的原始数据;根据设定的数据筛选条件对所述原始数据进行筛选,得到符合所述数据筛选条件的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据设定的数据异常验证条件对所述原始数据进行验证,若确定所述原始数据中存在异常数据,则采用预先设定的异常处理方式对所述原始数据中的异常数据进行处理,得到处理后的数据。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:获取对所述多个数据源提供的数据进行展示的展示节点和展示字段;基于所述展示节点和展示字段获取不同所述展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,得到对应的数据层级关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:通过树形目录的方式展示所述数据层级关系,通过列表的方式展示所述多个数据源;获取对所述数据源的选择指令,展示所述数据源对应的数据字段;获取从所述数据源中选择的数据字段与从所述展示节点中选择的展示节点之间的关联关系;根据所述关联关系将选择的数据字段映射到选择的所述展示节点中对应的展示字段中,建立选择的数据字段与对应的展示字段之间的映射关系。
在一个实施例中,计算机程序被处理器执行时还实现以下步骤:根据所述多个数据源中的数据字段与所述展示节点中对应展示字段之间的映射关系,确定所述展示字段对应数据的数据源;根据不同展示节点之间的从属关系以及展示字段与所述展示节点之间的隶属关系,确定所述展示字段对应的展示节点所属的节点类型;根据所述展示字段对应数据的数据源和所述展示字段对应的展示节点所属的节点类型,采用预设的数据渲染方式对所述数据进行渲染,生成对应的数据基因图谱;展示所述数据基因图谱。
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(read-onlymemory,rom)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(randomaccessmemory,ram)或外部高速缓冲存储器。作为说明而非局限,ram可以是多种形式,比如静态随机存取存储器(staticrandomaccessmemory,sram)或动态随机存取存储器(dynamicrandomaccessmemory,dram)等。
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。