本发明涉及数据管理与共享服务领域,尤其涉及一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统。用户可以统一实现将分布式异构数据进行逻辑的汇聚组织、集中发布审核监控与集成共享服务。
背景技术:
伴随着云计算、大数据、人工智能技术给人类社会信息化发展带来极大的促进作用,人们对数据资源的重要性的认识也越来越深刻,已经上升到国家重要的战略资源的层面。同时,促进数据融合、开放共享的需求也越来越强烈,国家也出台了“以数据集中和共享为途径,建设全国一体化的国家大数据中心的发展战略”。社会各领域各层级数据中心,数据资源共享服务平台正在不断建立。
目前数据共享服务平台的数据资源大多组织成数据集形式提供共享,包括元数据和实体数据。其中数据集元数据由于信息存储量较少,容易集中汇集存储,而实体数据是数据资源的核心,受集中存放意愿,集中的存储环境等多种情况制约,在某些条件下无法进行数据资源物理汇聚(即实体数据集中汇集,统一集中存储),需要实现数据资源逻辑汇聚(即实体数据仍然分散存储,通过数据访问接口进行集成共享服务)。
目前数据资源逻辑汇聚中,实体数据多以文件接口或数据访问页面url的形式提供,严重影响了数据服务的构建和服务体验,存在以下不足:
(1)缺乏一个通用可定制的异构数据逻辑汇聚组织封装、发布与共享服务的一体化解决方法,现有的平台仅支持局限的某个或某些过程的服务子集;并且现有平台多为根据建设需求专门化的设计开发,缺乏定制化、通用化的解耦设计,降低了开发实现的效率,产生了大量重复工作,加大了研发成本。
(2)无法实现(关系型、文件型)异构数据资源的统一共享服务,实体数据访问接口仅提供文件访问形式或页面访问形式。弱化了关系型结构化数据在线统一服务的优势,弱化了关系型数据库表之间相互关联服务的优势。
(3)在共享数据组织模型方面缺乏国际认可的唯一标识的引入和规范化数据引用的引入。
(4)在服务形式方面缺乏数据访问接口的监控预警,缺乏面向实体数据文件内容的全文检索、缺乏关系型实体数据的全字段定制化检索、简单的融合服务集成(如与数据子表关联,各种url展示关联,枚举列表关联等),缺乏数据集的多种关联推荐模式,缺乏数据资源api的封装服务,缺乏面向用户的个性化服务支撑,缺乏平台的多语言国际化的支撑等等。
技术实现要素:
针对以上分布式数据管理与共享服务方面存在的弊端,本发明提出了一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法及系统设计。
本发明采用的技术方案如下:
一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务方法,其特征在于,包括以下步骤:
1)在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册;
2)在分布端进行分布式异构数据的建库、管理与描述;
3)在分布端进行分布式异构数据的统一封装与发布组织;
4)在中心端进行数据资源集中发布审核与监控;
5)在中心端进行数据资源的集成共享服务。
进一步地,所述数据节点注册实现分布端数据节点信息及节点管理员认证信息的注册管理;
所述元数据扩展要素注册,支持扩展元数据项的定制化配置管理,元数据配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注;
所述数据分类体系注册,支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括:分类名称、分类代码、分类描述,用户能够对任意树状分类体系节点信息进行新增、编辑,插入和删除操作;
所述许可协议注册,支持标准的许可协议,同时支持自定义许可内容的注册、编辑、删除操作,注册信息包括协议标识码、协议名称,协议标识图片,协议说明文本。
进一步地,所述分布式异构数据的建库、管理与描述,包括:
2.1)进行异构数据源注册,包括关系型数据源和文件型数据源的统一注册连接管理;
2.2)进行异构数据源连接,包括关系型数据源和文件型数据源的统一选定和连接;
2.3)进行关系型数据建表,包括通过excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新表;
2.4)进行关系库表描述与融合配置,实现分布端选定的关系数据源下关系表结构信息的描述与融合配置;
2.5)进行关系库表数据管理,实现分布端选定的关系数据源下全部关系表的数据管理,支持数据查看、添加、编辑、删除操作;
2.6)进行文件型数据管理,实现分布端选定的文件数据源下全部数据文件、目录的网盘式管理。
进一步地,所述分布式异构数据的统一封装与发布组织,包括:
3.1)进行实体数据访问接口封装,实现分布端实体数据访问接口的统一封装管理;
3.2)进行公共基础数据同步,基于公共基础数据注册中中心端封装的各类基础数据的获取接口的调用,实现从中心端同步访问获取最新的数据资源节点信息、扩展元数据信息、数据分类体系信息和许可协议信息到分布端存储,并保证信息同步的准确和稳定;
3.3)进行数据集元数据填报,包括基于内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报;
3.4)进行实体数据选定与接口填报,包括基于分布端关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定,同时支持文件的在线即刻上传选定;并基于实体数据访问接口的封装,根据用户选定或上传的实体数据,根据其数据类型,自动完成分布端数据访问接口参数的填报;
3.5)进行数据集编辑与提交发布,在数据集编辑时支持两个步骤3.3)、3.4)的再次重新编辑和选择,当确认无误后,提交数据集相关信息进行集中的上报到中心端进行审核;在数据集提交发布审核时,对数据集下的全部文本类实体文件实现自动的文本内容抽取,并构建相关实体文件的全文数据库,实现文件内容索引,支持文本类实体文件检索接口的调用访问;
3.6)进行数据集信息提交上报,实现待发布数据集信息的统一上报传输到中心端,保证信息传输的准确完整。
进一步地,所述数据资源集中发布审核与监控,包括:
4.1)进行数据集发布审核,包括对待发布的数据集进行在线内容审核,以及将数据集批量导出进行线下审核;
4.2)进行数据集发布授权,包括对审核通过的数据集,支持审核人员进行发布授权操作,即支持选定数据集可授权访问的用户或用户组的范围;
4.3)进行数据集监控预警,包括对中心端待发布和已发布的全部数据集实体数据访问接口的定时监控扫描,对于超过预警上限阈值的数据集自动触发给系统管理员邮箱发送数据集监控预警提醒邮件;
4.4)进行数据集关停管理,供系统管理员将某个已发布的数据集进行手动关停服务。
进一步地,所述数据资源的集成共享服务,包括:
5.1)数据集检索,支持关键词、分类导航两种数据检索模式,支持多种数据检索模式的api接口封装;
5.2)数据集过滤排序,支持数据资源标签云展示及其多条件逐级过滤服务,支持数据资源检索结果多条件再次排序显示;
5.3)数据集访问与评价,包括数据资源中典型实体数据文件的在线浏览、播放展示;支持关系表实体数据的在线定制查询和结果下载和融合集成展示;支持文本类实体文件的全文检索;支持元数据在线下载和api访问服务封装;支持数据社交服务;
5.4)数据集推荐,支持基于数据集元数据内容关联化计算的推荐服务,支持基于用户访问行为统计的数据推荐服务。
5.5)数据集服务记录与统计,支持用户数据访问行为全日志记录管理,支持数据集访问、下载情况统计及展示。
5.6)用户个性化服务,支持用户访问及下载历史的展示,支持用户收藏、评价和打标签管理。
一种通用的分布式异构数据一体化逻辑汇聚组织、发布与服务系统,包括中心端和分布端,所述分布端部署数据管理与发布组织软件模块,所述中心端部署数据审核与监控管理软件模块和数据集成共享服务门户模块,所述数据审核与监控管理软件模块中集成有公共基础数据注册与服务子模块;
所述数据管理与发布组织软件模块,负责在分布端进行分布式异构数据的建库、管理与描述,以及在分布端进行分布式异构数据的统一封装与发布组织;
所述数据审核与监控管理软件模块,负责在中心端对公共基础数据进行注册,包括分布端的数据节点注册、元数据扩展要素注册、分类体系注册、许可协议注册,以及在中心端进行数据资源集中发布审核与监控;
所述数据集成共享服务门户模块,负责在中心端进行数据资源的集成共享服务。
本发明的重点创新包括:
1)提出了一种通用的分布式异构数据(关系型、文件型)一体化逻辑汇聚、组织发布与集成融合服务方法及系统设计。方法具有一体化,通用可定制特点,保证了数据组织、管理、封装、发布、审核与服务全流程的整体连通。同时方法易于扩展的。其中在异构数据源方面,用户可以根据需要自行扩展。如本发明系统中实现了mysql、oracle、sqlserver等主流关系数据库,用户可以自行扩展其他需要的关系数据源。在文件方面,本发明实现了本地文件系统,和ftp文件数据源,用户可以扩展其他如samba文件数据源等。另外用户也可以自行扩展nosql的数据源,如:mongodb等。
2)实现了异构(关系型、文件型)数据资源逻辑汇聚、组织、发布与集成融合服务全流程的解耦合,在方法的设计中,充分考虑了高可定制性和高可复用的需求,有效提升了发明的通用性和灵活性,具有普遍的场景适用性。用户仅通过定制化配置,即可完成分布式数据的有效逻辑汇聚、发布与服务,从而提升了分布式数据共享服务系统设计开发的效率,缩短软件的开发周期。
3)实现了分布端多种关系型、文件型数据服务接口的自动封装,有效支持逻辑汇聚模式下中心端面向文本类实体数据文件内容的全文检索、面向关系型数据的全字段定制化检索服务的实现;支持关系表数据的融合服务(如与数据子表关联等);支持中心端对分布端数据服务有效监控管理。实现了中心端多种数据服务接口的有效封装,支持中心端数据配置信息及时同步到分布端节点。
4)实现了多种先进数据组织与服务功能的集成,并于国际化服务有效对接。在数据组织管理方面实现了数据批量填报、组织,审核管理功能,强化了对分布端数据服务监控预警管理;在中心端统一数据服务方面集成实现了多种数据检索模式,多种关联推荐模式,实现标签云逐级过滤及排序,实现了数据资源api的自动封装服务,实现了面向用户的个性化服务支撑,实现了平台的双语支持,实现了唯一标识的和规范化数据引用服务,实现了数据许可协议定制化服务等。
本发明的有益效果如下:
本发明实现了分布式异构数据(文件型、关系型数据)的建库、编辑管理和融合描述配置,实现了实体数据访问接口的封装、数据资源的统一发布组织、上报同步与审核(注:以数据集为发布组织模型:包括pid,元数据,实体数据三部分,其中pid即持续数据对象标识,是指国际认可的全球唯一标识编码,如handle码或doi标识等均可),实现了数据集的访问接口的自动定时监控预警,最后在数据资源门户实现了多种形式的数据服务集成与共享(重点包括:文本类实体文件全文检索、关系型数据的全字段定制化检索、融合服务,多种数据关联推荐服务、多类数据api封装服务,用户个性化服务,门户的双语服务等),方法具有一体化,通用可定制特点,保证了数据组织、管理、封装、发布、审核与服务全流程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。
附图说明
图1.本发明总体功能逻辑框架图。
图2.本发明总体方法步骤及关系图。
图3.公共基础数据注册细化流程结构关系图。
图4.分布式异构数据建库、管理与描述细化流程结构关系图。
图5.新增关系数据源原型界面图。
图6.数据源选定连接与数据管理配置关联原型界面图。
图7.导入式建表数据模板图。
图8.导入式创建新表原型界面图。
图9.关联式创建新表原型界面图。
图10.关系库表描述与融合配置原型界面图。
图11.关系库表数据管理原型界面图。
图12.文件型数据管理原型界面图。
图13.分布式异构数据统一封装与发布组织细化流程结构关系图。
图14.数据集元数据在线填报样例图。
图15.数据集pid标识与引用要素样例图。
图16.数据集实体数据选定原型界面图。
图17.数据资源集中发布审核与监控细化流程结构关系图。
图18.数据资源集成共享服务细化流程结构关系图。
图19.本发明总体系统软件结构图。
图20.本发明总体系统软件部署结构图。
具体实施方式
为使本发明的上述目的、特征和优点能够更加明显易懂,下面通过具体实施例和附图,对本发明做进一步详细说明。
本发明的总体功能逻辑框架如图1所示,总体方法步骤及关系如图2所示。整个方法共概括分为五个大的步骤(或子系统):1.公共基础数据注册,2.分布式异构数据建库、管理与描述,3.分布式异构数据统一封装与发布组织,4、数据资源集中发布审核与监控,5.数据资源集成共享服务。
其中第1步可以理解为整个发明的初始化过程,主要完成公共基础数据的注册工作;第2步实现分布式异构数据资源的建库管理、编辑管理与融合配置描述;第3步实现分布式异构数据的统一访问接口封装与发布组织管理;第4步实现待发布数据集的集中发布审核授权与监控管理,第5步实现(已发布)数据集的集成共享服务与管理。其中第2步、第3步在分布端完成,其余各步在中心端完成。
下面对每个步骤的具体流程及功能进行重点说明。
1.公共基础数据注册
实现的公共基础数据的并行注册功能,包括分布式数据资源节点信息、元数据扩展要素、数据资源分类体系、数据许可协议等基础运行数据的注册管理。
本步骤在中心端部署实施,供系统管理员使用,在启动本步骤前需要通过系统管理用户的身份认证。
为了便于分布端数据节点能及时同步获取中心端的公共基础数据,在实施中中心端需同步封装相关各类基础数据的获取接口(包括获取数据资源节点信息接口,获取扩展元数据信息接口,获取数据分类体系信息接口和获取许可协议信息接口等)。
本步骤的主要流程结构如图3所示。下面对该图中每个步骤实现细节进行重点说明。
1.1数据资源节点注册
实现分布端数据节点信息及节点管理员认证信息的注册管理。具体包括:数据节点名称、节点代码、节点简介、节点url地址、节点联系人、联系电话、email、节点管理员账号、节点管理员密码、数据节点创建时间、序号等属性信息的注册填写和编辑管理。
其中节点管理员账号、密码供分布端部署执行步骤2、步骤3时进行节点管理员用户认证时使用;节点url地址供节点同步中心端公共基础数据时认证节点合法性使用,同时也是分布端数据监控接口、实体数据访问获取接口等必须绑定的基础地址信息。数据资源节点注册体现本发明具有通用可定制性。
1.2元数据扩展要素注册
支持扩展元数据项的定制化配置管理包括新增,编辑和查询等,具体元数据配置项包括:元数据中文名、元数据英文名称、字段类型、是否必填项、是否重复、排序号、备注。
1)元数据扩展要素注册是实现用户自定义扩展元数据结构功能,是本发明具有通用可定制性一种体现。
2)在本发明中数据集的核心元数据内置了如表1所示的元数据要素(元数据扩展要素即是相对于内置核心要素而言的)。
3)表1中必填项代表元数据要素是必须填报的,唯一性代表元数据要素是否允许多条填报,字段类型包括了:字符串、整型、多精度类型、时间日期、枚举、附件等,字段类型将决定将来录入元数据界面的显示控件样式,如单行文本,多行文本,日期控件,下拉列表、上传控件等控件,具有较强的可定制型;元数据要素的校验规则提供了基本的格式校验格式定义,用户可以自己定义规则,然后自行解析实现,也可利用正则表达式进行定义,通过正则校验实现。
表1本发明数据集内置的核心元数据要素说明
4)表1中英文名称要素与本发明支持英文版数据发布及英文版门户密切相关,后续在数据资源发布中的元数据填报部分会补充说明。
1.3数据分类体系注册
支持树状数据分类体系的注册、编辑、删除操作,分类体系信息包括但不局限于:分类名称、分类代码、分类描述等,用户可以对任意树状分类体系节点信息进行新增、编辑,插入和删除操作。
数据分类体系应支持多级分类的自动定制扩展,它与数据资源集成共享服务中数据集分类导航式检索密切关联,通过前文叙述的内置元数据要素“分类编码”进行关联,在数据发布时由发布用户进行关联选择后自动填报。数据分类体系注册是本发明通用可定制性一种体现。
1.4许可协议注册
支持cc、odc、pddl等标准的许可协议,同时支持自定义许可内容的注册、编辑、删除等操作,注册信息重点包括协议标识码、协议名称,协议标识图片,协议说明文本等。
许可协议是数据获取、复用、传播的一种保护方式。注册的许可协议与数据资源集成共享服务中数据集细览展示相关联,通过前文叙述的内置元数据要素“许可协议”进行关联,在数据发布时由发布用户进行关联选择填报。许可协议注册也是本发明通用可定制性一种体现。
2.分布式异构数据建库、管理与描述
实现关系型、文件型数据源统一注册及连接验证管理;实现关系数据库构建与管理,支持在线新的表结构构建与表数据导入,为用户提供在线数据库构建与数据管理服务。实现文件数据网盘式管理,支持文件型数据资源的上传、下载、拷贝、复制、移动、删除等管理操作。实现数据表与字段的融合配置描述。
本步骤需在分布端数据节点上进行应用,供节点管理员使用,在启动本步骤前需要通过节点管理员用户的身份认证。
本步骤的主要流程结构如图4所示。下面对该图中每个步骤实现细节进行重点说明。
2.1异构数据源注册
实现关系型数据源和文件型数据源的统一注册连接管理。
关系型数据源:支持数据库连接信息的注册和连接测试。数据源信息至少应包括数据源名称、数据库类型、主机地址、端口号、用户名、密码等,其中数据库类型至少应支持mysql、oracle、sqlserver等主流关系数据库,并且可以扩展其他关系库。新增关系数据源原型界面如图5所示。
文件型数据源:支持文件型数据存储的地址信息的定义和管理。数据源信息至少应包括数据源名称、文件访问协议(当访问协议本地文件系统时,后续信息需包括数据文件路径信息;当访问协议为ftp时,后续信息需包括ftp账号,ftp密码,数据文件的ftp路径信息等);支持samba等协议的扩展。
在方法实施中无论是关系型数据源还是文件型数据源都必须实现连通性测试,保证数据源注册信息的有效性。连通性测试可以放在数据源信息保存时进行校验,出现无法连通问题需及时反馈信息注册用户。
2.2异构数据源连接
实现关系型数据源和文件型数据源的统一选定和连接。
数据源连接是本发明第2步骤“分布式异构数据建库、管理与描述”后续各子步骤的前提和基础,从图4分布式异构数据建库、管理与描述细化流程结构关系图中也可以看出。在第2大步骤后续的描述中默认都是以选定了某一数据源为前提的。
数据源选定与数据管理、配置操作关系界面原型图如图6所示。
2.3关系型数据建表
支持通过excel模板导入创建新的关系型数据库,或者通过关联已存在的且已描述的关系型数据表创建新表。
·导入式建表:通过excel模板创建新表,并将模板中的数据存储到数据库中。excel模板规则:excel中每个sheet页代表一个数据表,sheet页名称为待建立数据表名称,第一行必须为字段描述信息,第二行为字段名称,第三行是数据类型(包括:varchar、text、integer、float、double、datetime等),从第四行开始为实际数据。样式如图7所示。
在针对选定的目标关系数据源导入式建表实现时,需要在后台进行模板数据类型与相应关系数据源数据库字段类型的映射适配转换。
·关联创建新表:有两种方式。
导入式创建新表:通过界面分别选择表a和表b的连接字段以及新表的构成字段,填写新表名后构建形成新表,可预览新表的数据,如图8所示。
关联式创建新表:通过多表连接的sql语句,定义新的表名称形成新表,支持sql语句的校验,可预览sql语句即新表数据的结果,支持表数据的定制频率的同步更新,如图9所示。
2.4关系库表描述与融合配置
实现对分布端选定的关系数据源下某关系表结构信息的描述与融合配置。
1、包括描述关系数据表名称,描述关系型数据表字段名称,原型参见图10。
2、通过设置关系数据表某字段显示类型实现融合配置,具体包括:
·文本类型(默认显示类型)
·url类型(进一步选择设置包括ftp,http,email等)
·字典枚举类型(进一步选择设置枚举字符串如:male=男,female=女;或者设置包括存储列、显示列的sql语句,如:selectuser_id,user_namefromuser)
·关联子表类型(进一步选择设置关联子表的表名及其关联字段;可增减并设置多个)
2.5关系库表数据管理
实现分布端选定关系数据源下全部关系表的数据管理,支持数据查看、添加、编辑、删除操作。
用户可以查看所管理数据库下的所有数据表,并且可以对这些数据表进行更新,增加,查看数据、删除等操作,支持关系表中全字段的检索。原型图如图11所示。
2.6文件型数据管理
实现分布端选定文件数据源下全部数据文件、目录的网盘式管理。原型图如图12所示。
·文件及目录基本操作,右键操作文件重命名、移动、复制、删除。
·搜索文件及目录,以当前路径为根路径深度搜索包含指定名称的文件及目录。
·上传文件,支持文件上传到当前路径下和选中指定路径上传文件。
·下载文件,支持双击选中文件下载和右键选中文件进行下载。
·新建目录,在当前路径下创建文件夹。
3.分布式异构数据统一封装与发布组织
实现分布式异构实体数据访问接口的统一封装;支持实现数据资源的集中发布(如前所述以数据集为发布组织模型:包括pid,元数据,实体数据三部分,其中pid即持续数据对象标识,是指国际认可的全球唯一标识编码,如handle码或doi标识等均可),重点实现异构数据统一的元数据填报、实体数据选定与接口填报、数据集编辑与发布提交上报等过程。
本步骤需在分布端数据节点上进行应用,供节点管理员使用,在启动本步骤前需要通过节点管理员用户的身份认证。
本步骤的主要流程结构如图13所示。下面对该图中每个步骤实现细节进行重点说明。
3.1实体数据访问接口封装
实现分布端实体数据访问接口的统一封装管理,其中封装的接口通过结合分布端数据节点url统一服务。具体封装的接口应该包括:
1)单文件访问接口:重点参数包括文件数据源标识,文件标识等;
2)多文件访问接口:重点参数包括文件数据源标识,文件标识列表等,支持返回多文件的压缩包。
3)单关系表访问接口:重点参数包括关系数据源标识,关系表名称,支持返回excle或sql文件。
4)多关系表访问接口:重点参数包括关系数据源标识,关系表名称列表;,支持返回excle或sql文件压缩包。
5)文本类文件查询接口:重点参数包括数据集标识,查询文本等。
6)关系表数据查询接口:重点参数包括关系数据源标识,关系表名称,sql查询语句。
另外,分布端还包括以下接口:判断db类型接口是否正常的接口;判断file类型接口是否正常的接口。
在中心端包括以下接口:获取节点信息进行用户登录验证的接口;获取数据分类信息的接口;获取扩展元数据信息的接口;获取许可协议列表信息的接口;获取分布端传输数据,更新表字段类型和注释的接口;分布端提交待发布数据集,中心端进行元数据及实体接口信息同步存储的接口;从中心端同步数据集审核结果和审核详情的接口;传输发布数据集的图片的接口;删除停用数据集的接口。
3.2公共基础数据同步
基于本发明第1步公共基础数据注册中中心端封装的各类基础数据的获取接口的调用,实现从中心端同步访问获取最新的数据资源节点信息、扩展元数据信息、数据分类体系信息、和许可协议信息等存储到分布端,并保证信息同步的准确和稳定。
其中同步的时间可以在分布端用户认证通过后进行。
本发明中同步是指由分布端发起,调用中心端的服务,获取中心端设置的公共基础数据,如:数据资源节点信息、扩展元数据信息、数据分类体系信息、和许可协议信息等,考虑到这些公共基础数据有变化的可能,同步操作可以在每次分布端登录时进行,并保证每次获取到最新的数据。
3.3数据集元数据填报
基于前述说明本发明的内置元数据和扩展元数据,动态实现数据集元数据的逐条在线填报和批量填报。
1)在填报方面,基于内置、扩展元数据要素定义的必填项,唯一性,元素类型和校验规则,①自动生成元数据在线填报页面,实现元数据逐条在线填报(样例见下图),其中分类体系、数据许可协议可以基于基础公共数据注册部分的定义提供枚举列表工用户选择,系统对应存储相关枚举项编号;②可自动生成数据模板,实现批量导入式填报。数据模板可以采用excle,xml,json等形式。
两种填报方式都应对必填项和校验规则进行自动校验。另外,表1列出的本发明内置元数据中系统自动填报的要素已经备注标识,在填报实现时部分要素由用户在线选择后自动填报(如分类体系选择,许可协议选择等),其他要素应由系统后台保存时自动填报完成(如pid通过后台pid自动注册接口获取后填报,数据集发布时间由系统自动根据当前时间填报,引用格式通过引用格式字符串定义规则,自动拼接填报;总文件数、总存储量等由后台自动统计后填报),无需用户在线和批量填报。如图14所示。
2)在填报方面,支持与全球唯一的数据持久标识分配接口有效对接,自动生成当前数据集的pid;并根据数据引用格式定义,自动实现当前数据集的数据引用文本,并实现内置的数据引用元数据要素的自动填报。pid数据标识和数据引用的样例见图15。
3)如前所述本发明支持中英文双语的实现。在元数据要素显示上可以利用内置和扩展元数据的英文名称,在元数据内容方面,应在元数据在线填报和批量填报后,支持自动将填报的中文元数据翻译成英文(可利用百度或谷歌的开放翻译接口实现),支持用户对翻译结果的人工校验,并将最终中英文元数据在系统后台同步存储。
3.4实体数据选定与接口填报
基于分布端关系库表和文件系统,实现在线关系型实体数据表的选定和基于文件目录体系的实体数据文件的选定(应支持关系型,文件型多个数据源同时选择,支持同一数据源下多个实体数据表、实体文件的分别选定),同时支持文件的在线即刻上传选定。实体数据选定原型界面如图16所示。
基于3.1中实体数据访问接口的封装,系统根据用户选定或上传的实体数据,根据其数据类型,自动完成分布端数据访问接口参数的填报,并记录存储到相应的数据集实体数据的元数据库中。
3.5数据集编辑与提交发布
3.3中的数据集元数据填报和3.4中的实体数据选定是分布式数据统一封装与发布组织中两个重要步骤。在数据集编辑时支持两个步骤的再次重新编辑和选择。当确认无误后,可以提交数据集相关信息进行集中的上报到中心端进行审核。
在数据集提交发布审核时,后台应对该数据集下的全部文本类实体文件(如txt、doc、pdf等)实现自动的文本内容抽取,并构建相关实体文件的全文数据库,实现文件内容索引,支持文本类实体文件检索接口的调用访问。
3.6数据集信息提交上报
实现待发布数据集信息的统一上报传输到中心端,保证信息传输的准确完整。在具体实施中中心端需提供上报同步的服务接口供分布端调用,具体接口应包括:
1)上报分布端待发布数据集元数据和实体数据元数据的访问接口;
2)上报分布端待发布数据集中最新关系型数据结构、描述及融合配置信息的接口(参见2.4关系库表描述与融合配置);
3)上报分布端待发布数据集封面图片文件的接口等。
4.数据资源集中发布审核与监控
实现数据资源的集中发布审核,支持批量审核模式,支持设置数据集的用户权限;实现数据资源的定时监控和预警(向系统管理员发送预警通知邮件)。
本步骤供中心端系统管理员使用,在启动本步骤相应功能前需要通过系统管理用户的身份认证。
本步骤的主要流程结构如图17所示。下面对该图中每个步骤实现细节进行重点说明。
4.1数据集发布审核
对待发布的数据集进行在线内容审核,支持在线查看并审核元数据信息填报是否规范准确,支持在线访问分布端实体数据,查看数据是否连接准确有效;支持审核人员在线录入审核意见并提交完成审核工作。
在数据集审核方面,除了实现在线审核功能支持以外,还应支持数据集批量导出进行线下审核。在实现上应支持数据集元数据的批量导出成excel(含数据集中全部实体数据访问接口信息),支持审核人员线下批量查看数据集元数据,访问实体数据,选择审核结果并录入意见;支持审核人员将excel元数据审核结果批量导入系统,实现数据集的批量审核。
4.2数据集发布授权
对审核通过的数据集,支持审核人员进行发布授权操作,即支持选定数据集可授权访问的用户(组)范围,包括:对全部用户完全公开或对某个/某些用户(用户组)公开。
数据集发布授权操作与共享服务密切相关,发布授权的数据集实现了完整的审核流程,用户可以在共享服务步骤中查询查看到相关数据集;在数据集授权范围内的用户,登录系统后可以获取数据集实体数据的完整访问权限。
无论是4.1中审核不通过的数据集,还是4.2中完成发布授权的审核通过数据集,都需要将相应审核结果信息同步到分布端,供分布端更新获取已提交数据的状态信息。考虑到中心端服务的稳定性,为此在中心端需封装获取数据集审核状态的接口供分布端进行定时查询调用。
4.3数据集监控预警
实现中心端待发布和已发布的全部数据集实体数据访问接口的定时监控扫描,具体扫描频率系统管理员可以自行定制,以小时或天为单位。用户可以设置简单的预警规则,对于超过预警上限阈值的数据集自动触发给系统管理员邮箱发送数据集监控预警提醒邮件。其中监控规则可以设定为连续若干次某数据集所属实体数据接口访问异常。
为了高效的实现数据集下实体数据的接口监控扫描,需要在分布端统一封装针对文件和数据表实体数据的监控接口。同时监控程序应通过独立的定时程序实现,并采用多线程模式进行封装。
4.4数据集关停管理
供系统管理员将某个已发布的数据集进行手动关停服务。多在系统管理员收到监控预警通知邮件情况下,通过线下查证和沟通,对无法持续有效服务的数据集进行手工关闭。关停的数据集参照审核未通过数据集,进行同样的状态和操作管理,需要录入关停理由。中心端的数据集状态获取接口实现中需要与相关状态保持一致。
5.数据资源集成共享服务
集成实现数据资源的发现与访问服务,支持中英文双语服务与自动切换。支持数据资源的统一分类检索、关键词检索,支持标签云过滤、多种排序组织,支持实体关系库表全字段定制化查询,支持文本类实体文件的全文内容检索,支持文档、图片、视频、音频等多格式数据文件的在线预览、播放;实现数据资源的推荐及获取服务,支持基于内容和用户行为的多种数据关联推荐模式,支持数据资源在线下载、api接口访问等多种数据获取模式,支持面向管理的数据访问分类统计;实现数据资源的个性化管理服务,支持个性化需求的收藏、推荐、下载、评价、打标签等服务。
本步骤中数据集检索、过滤排序、访问、推荐供匿名用户使用;本步骤中数据集下载评价、个性化服务供授权用户使用,在启动本步骤相应功能前需要通过用户的身份认证。
本步骤的主要流程结构如图18所示。下面对该图中每个步骤实现细节进行重点说明。
5.1数据集检索
支持关键词、分类导航两种数据检索模式(当用户自定义扩展元数据中包括了经纬度元数据的数据集,应支持在线地图检索),支持多种数据检索模式的api接口封装。
·关键词检索,支持基于数据元数据全文搜索某个关键词,并按相关度排序搜索到的数据集信息。
·分类导航检索,根据全局设定的分类体系,按相关分类展示相关数据资源,或在指定分类中搜索数据集信息。
5.2数据集过滤排序
支持数据资源标签云展示及其多条件逐级过滤服务,支持数据资源检索结果多条件再次排序显示。
·标签云等组合逐级过滤,支持用户基于数据资源检索结果动态生成标签云,进而支持数据资源的逐级标签云过滤;支持基于分类导航关键词的组合筛选过滤。
·综合排序,支持数据资源按照时间、文件类型、用户访问热度等信息的动态排序。
5.3数据集访问与评价
面向用户需求,实现数据资源中典型实体数据文件的在线浏览、播放展示;支持关系表实体数据的在线定制查询和结果下载和融合集成展示;支持文本类实体文件的全文检索;支持元数据(实体数据)在线下载和api访问服务封装;支持用户自定义打标签、评价、分享等数据社交服务。
·实体数据文件在线浏览,支持的文件格式包括但不限于doc、xls、pdf、mp3、csv、avi、txt等主流数据文件类型,同时应能动态扩展,可支持其他扩展格式的预览显示及播放。
·表格数据在线查询与展示,支持关系表数据的全字段定制化检索及结果下载,基于关系库表融合配置,支持关系表行级数据关联子表;支持关联枚举字典,url类型的选择与连接服务。
·文本类文件全文检索,基于数据集提交发布时的文本类文件(包括但不限于txt,doc,docx,pdf等)内容抽取与索引,支持文本类实体数据文件全文检索功能。
·数据下载服务,面向登录用户提供基于查询结果的面向数据集、数据文件不同层次、不同范围数据实体选择性下载,同时提供面向元数据的下载。在下载形式上除了基于界面的在线下载外,同时需要提供基于api接口的下载服务封装。
●数据社交服务:支持对已登录下载用户提供数据资源打分评价,支持访问用户对数据集打标签功能,后台管理员对用户所打标签的审核管理和过滤,补充修正现有数据集标签设置。支持用户方便将数据集url分享到微信,微博等社交媒体。
5.4数据集推荐
支持基于数据集元数据内容关联化计算的推荐服务,支持基于用户访问行为统计的数据推荐服务。
●元数据内容关联推荐,支持基于元数据各要素描述信息内容推荐与当前数据集相似度较高的其他数据集,便于用户快速发现关联相似度较高的其他数据集。
●用户访问行为分析推荐,支持基于当前数据集访问用户群对其他数据集访问情况统计分析,推荐当前用户可能感兴趣的同类数据集,便于用户快速发现同类数据资源。
5.5数据集服务记录与统计
支持用户数据访问行为全日志记录管理,支持数据集访问、下载情况统计及展示。
·用户访问日志管理,支持用户登录、访问、下载等访问行为全日志记录。
·数据资源及服务统计,支持数据集查看、收藏、下载情况的统计及排名。
·数据集统计展示,支持以柱状图、曲线图等多种展示形式的统计结果展示形式。
5.6用户个性化服务
支持用户访问及下载历史的展示,支持用户收藏、评价和打标签管理。
·我的访问与下载,支持用户快速搜索、查看自己访问、下载过的数据资源。
·我的评价,支持用户快速搜索、查看自己评价过的数据资源。
·我的标签,支持用户快速搜索、查看自己对数据资源打的标签。
·我的收藏,支持针对数据资源的收藏操作,便于用户方便查看获取自己感兴趣的数据资源。
6.系统集成说明
在系统实现上,将本发明方法步骤进行了适当组合,总体系统软件结构如图19:自下而上包括了分布端的数据管理与发布组织软件、中心端的数据审核与监控管理软件和中心端的数据集成共享服务门户三个软件系统,本发明中公共基础数据注册与服务,在数据审核与监控管理软件中进行集成,通过系统管理员登录后访问。
系统整体部署结构如图20所示。在系统实现方式上可以采用目前广泛使用的web开发技术,基于b/s框架,采用mvc的设计模式。其中:模型(model)是应用程序中用于处理应用程序数据逻辑的部分,控制器(controller)是应用程序中处理用户交互的部分,视图(view)是应用程序中处理数据显示的部分。
7.总结
本发明的有益效果是提出了一种通用的分布式异构数据(关系型、文件型)一体化逻辑汇聚、组织发布与集成融合服务方法及系统设计。方法具有一体化,通用可定制特点,保证了数据组织、管理、封装、发布、审核与服务全流程的整体连通、高可定制和高可复用,大大提升了数据服务封装的通用性和灵活性。
该方法实现了异构(关系型、文件型)数据资源逻辑汇聚、组织、发布与集成融合服务全流程的解耦合,在方法的设计中,充分考虑了高可定制性和高可复用的需求,有效提升了发明的通用性和灵活性,具有普遍的场景适用性。用户仅通过定制化配置,即可完成分布式数据的有效汇聚、发布与服务,从而大力提升了分布式数据共享服务系统设计开发的效率,缩短软件的开发周期。
同时本方法考虑到服务的先进性,实现了分布式异构数据(文件型、关系型数据)的建库、编辑管理和融合描述配置,实现了实体数据访问接口的封装、数据资源的统一发布组织,实现了数据批量填报、组织,审核的模式,打通了数据持久标识接入,数据引用标准,实现了双语发布的支持,实现了文本类实体数据的全文检索和数据表全表定制检索,实现了关系表数据的融合集成服务,实现了多类数据api封装服务,实现了多种检索、过滤、访问,下载,推荐,社交等服务集成。
本发明提供了一个通用的方法、模式和框架,是开放易于扩展的。其中在异构数据源方面,用户可以根据需要自行扩展。如本发明系统中实现了mysql、oracle、sqlserver等主流关系数据库,用户可以自行扩展其他需要的关系数据源。在文件方面,本发明实现了本地文件系统,和ftp文件数据源,用户可以扩展其他如samba文件数据源等。另外用户也可以自行扩展nosql的数据源,如:mongodb等。
以上实施例仅用以说明本发明的技术方案而非对其进行限制,本领域的普通技术人员可以对本发明的技术方案进行修改或者等同替换,而不脱离本发明的原理和范围,本发明的保护范围应以权利要求书所述为准。