多模态数据存储管理的方法及系统与流程

文档序号:32902747发布日期:2023-01-13 02:04阅读:40来源:国知局
多模态数据存储管理的方法及系统与流程

1.本发明涉及多模态数据存储的技术领域,具体地,涉及多模态数据存储管理的方法及系统。


背景技术:

2.信息技术与经济社会的交汇融合引发了数据迅猛增长,数据已成为国家基础性战略资源。多模态数据存储是支撑上层数据融合管理和分析等服务的基础。针对实际应用中数据所具有的海量、复杂和多源异构特征,研究海量不确定异构数据的存储模型等理论方法和关键技术是海量异构数据分析、共享和开发的必要前提。多源异构数据的组织和管理是大数据时代的重要研究内容。随着用户数据不断增加,数据采集渠道不断丰富,其规模增长不受限制。另一方面,数据信息的载体多样化,从文字到图形、图像、声音,从结构化到半结构、非结构化,数据种类的增多也没有止境。
3.随着信息系统的研发和应用朝着智能化阶段迈进,对于海量多源异构数据进行多元化管理、标准化治理,并通过高质量数据实现精准治理、快速决策的业务需求成为了新的挑战。国内外围绕海量多模态数据的数据存储结构、管理方式展开了许多研究,进行了诸多努力与尝试。国外针对多模态数据的整合系统的研究发展迅速,已经开发出比较典型的集成系统。
4.pentaho公司的首席技术官james dixon提出数据湖作为一种大数据存储处理和共享服务机制。数据湖是一种能够保存数据原始格式的新型存储架构。它将所有结构化和非结构化数据存储在一个集中式存储库中,支持分布式地存储海量的结构化数据、半结构化数据和非结构化数据。允许扩展到任何规模的数据,同时节省定义数据结构、schema和转换的时间。针对相关领域大数据多源异构特性,搭建数据湖用于存储多模态数据,可使得项目快速周转。
5.亚马逊、微软等国外领先云计算与人工智能企业基于数据湖技术需求,分别提出了aws lake format ion、azure data lake。亚马逊公司的amazon simple storage service(s3)是一种高性能对象存储服务,适用于结构化和非结构化数据,使用amazon s3存储的数据受到99.999999999%的持久性保护,是可用于构建数据湖的存储服务。在amazon s3上构建的数据湖,可以使用原生aws服务运行大数据分析、人工智能(ai)、机器学习(ml)、高性能计算(hpc)和媒体数据处理应用程序,以便从多模态数据集中获得关键信息。
6.美国csc公司开发的multibase系统是一种集成异构分布式数据库系统,用于集成多源的、异构的、分布式数据库的访问。该系统抑制了数据库管理系统、语言和数据模型之间的差异,为用户提供了统一的全局模式和单一的高级查询语言,并且使得本地数据库保留了更新的自主权。
7.美国ibm公司开发了garl ic系统,设计之初是为了建立一个异构数据库系统,能够集成不同数据库系统以及各种非数据库数据服务器中的数据。这种整合必须在保证数据
服务器独立性的同时不创建其数据的副本。由于数据大多是由对象自然建模的,因此该系统为应用程序提供了一个面向对象的模式,提供对象查询,创建并且将查询片段发送到适当的数据服务器,并汇编查询结果以将其传递回应用程序。
8.斯坦福大学研究开发的tsimmis是一个异构信息源集成系统,主要针对结构化数据和非结构化数据,从非结构化数据中提取属性的组件对象,将信息转换为公共对象模型,它结合了来自多个来源的信息,并且允许浏览信息,并管理约束跨异构站点。其优点是对任意数据源皆可适用,不同数据可以用不同程序解决。
9.随着社会经济的发展和各类大数据技术的运用,多源构数据已经成为社会经济发展的重要组成部分。有助于落实国家关于“数据是新的生产要素”的指示,切实促进我国数据管理和服务行业的发展。国内关于数字存储技术和多模态大数据融合的研究起步较晚,但随着对自主可控软硬件的重视,和国内对于多模态数据快速存储系统的需求增加,以及对信息化、现代化、智能化发展的重视,各个领域的多家企业和科研机构在相关技术研发方面取得了很大的进步。为解决多模态数据存储、分析和管理的问题,国内华为云、阿里云、腾讯云都发布了各自的数据湖及其数据存储服务。
10.北京大学开发的coxml v1.0是基于可扩展置标语言(xml)的信息应用系统,能够实现数据的采集、管理以及共享。该系统以关系模型数据库为基础,开发了协同查询应答框架,实现了与其他数据库和数据源之间的查询应答机制。该系统能够基于协同查询应答机制建立通用平台,对海量的多源异构数据进行集成,管理以及共享。
11.南京南瑞集团公司基于hadoop构建多源异构配用电数据存储技术。使配用电数据储存技术的数据更加标准和分布,存储层包括数据预处理和nosql两个重要部分。使用数据预处理将不同结构化的数据模式统一转化,统一的标准化模式使得多模态数据的储存和检索更容易实现,nosql使得数据进行分布式储存储。
12.针对上述中的相关技术,发明人认为存在海量多源异构数据的有效管理与存储问题,因此,需要提出一种新的技术方案以改善上述技术问题。


技术实现要素:

13.针对现有技术中的缺陷,本发明的目的是提供一种多模态数据存储管理的方法及系统。
14.根据本发明提供的一种多模态数据存储管理的方法,所述方法包括如下步骤:
15.步骤s1:对多源异构数据进行统一描述,基于元数据,规范和驱动各类数据访问过程;
16.步骤s2:经过统一描述后的多源异构数据,获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联,进行跨越异构数据的语义分析、内在数据整合;
17.步骤s3:将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率。
18.优选地,所述步骤s1包括如下步骤:
19.步骤s1.1:研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取方法,对多源异构数据进行元数据归一化处理与入库存储,关注非结构化数据的统一描述;
20.步骤s1.2:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不改变原始数据的存储结构;
21.步骤s1.3:在扁平的命名空间内把所有数据存储为对象;
22.步骤s1.4:将相关信息存储到元数据的扩展属性空间。
23.优选地,所述步骤s1.3中的对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。
24.优选地,所述步骤s2抽取已读取文件的相关特性和对预读取的文件进行特性分析;根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对应的数字id,依据设定好的顺序进行拼接,得到一个能够用于计算的文件特征向量;然后把这些文件特征向量作为一个是否预取的评判标准,得到一系列的文件特征向量,然后将获得的向量与之前的评判标准向量进行对比分析得到文件关联度并判定是否预取该文件的元数据,最终输出所获得的预取元数据序列。
25.优选地,所述步骤s3中当用户发起文件访问操作时,对于文件元数据的读请求操作将首先通过文件系统到达客户端中,接着客户端在自身的本地缓存层中寻找目标文件的元数据,如果命中,客户端在本地缓存中处理本次操作后续的元数据请求,然后将相应的文件元数据信息返回上层;否则客户端会通过网络转发读请求操作给mdss,当读请求操作到达其中的一个mds后,该服务器上的元数据预取模块会根据关联分析模型给出的结果,在自身的服务器缓存层中寻找目标文件及其相关文件的元数据,然后将查找到的全部所需元数据打包后返回给客户端,在后续元数据访问时客户端无需再向mds请求其他的相关元数据,待到客户端处理好这些文件的元数据后,再通过元数据中的数据索引信息与对应的osd进行交互,最终完成文件的读操作。
26.本发明还提供一种多模态数据存储管理的系统,所述系统包括如下模块:
27.模块m1:对多源异构数据进行统一描述,基于元数据,规范和驱动各类数据访问过程;
28.模块m2:经过统一描述后的多源异构数据,获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联,进行跨越异构数据的语义分析、内在数据整合;
29.模块m3:将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率。
30.优选地,所述模块m1包括如下模块:
31.模块m1.1:研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取系统,对多源异构数据进行元数据归一化处理与入库存储,关注非结构化数据的统一描述;
32.模块m1.2:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不改变原始数据的存储结构;
33.模块m1.3:在扁平的命名空间内把所有数据存储为对象;
34.模块m1.4:将相关信息存储到元数据的扩展属性空间。
35.优选地,所述模块m1.3中的对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。
36.优选地,所述模块m2抽取已读取文件的相关特性和对预读取的文件进行特性分析;根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对应的数字id,依据设定好的顺序进行拼接,得到一个能够用于计算的文件特征向量;然后把这些文件特征向量作为一个是否预取的评判标准,得到一系列的文件特征向量,然后将获得的向量与之前的评判标准向量进行对比分析得到文件关联度并判定是否预取该文件的元数据,最终输出所获得的预取元数据序列。
37.优选地,所述模块m3中当用户发起文件访问操作时,对于文件元数据的读请求操作将首先通过文件系统到达客户端中,接着客户端在自身的本地缓存层中寻找目标文件的元数据,如果命中,客户端在本地缓存中处理本次操作后续的元数据请求,然后将相应的文件元数据信息返回上层;否则客户端会通过网络转发读请求操作给mdss,当读请求操作到达其中的一个mds后,该服务器上的元数据预取模块会根据关联分析模型给出的结果,在自身的服务器缓存层中寻找目标文件及其相关文件的元数据,然后将查找到的全部所需元数据打包后返回给客户端,在后续元数据访问时客户端无需再向mds请求其他的相关元数据,待到客户端处理好这些文件的元数据后,再通过元数据中的数据索引信息与对应的osd进行交互,最终完成文件的读操作。
38.与现有技术相比,本发明具有如下的有益效果:
39.1、本发明以海量多源异构数据为研究对象,提出一种多模态数据分布式智能存储技术,并基于该技术设计多模态数据优化管理系统,该系统在管理多源异构数据的同时还能完成历史数据的有效累积,实现对多源异构数据的统一描述,为多源数据提供一体化数据存储、访问服务,进一步促进数据综合治理系统的优化;
40.2、本发明采用元数据归一化处理的方法,对多源异构数据进行元数据归一化处理与入库存储,更好地理解异构数据包含的信息,实现多源异构系统数据交互与统一,从而有利于数据共享;
41.3、本发明采用关联性分析的方法,从文件访问特性中学习已取出文件与待分析文件之间的隐藏关系,提取文件相关特性整合成特征向量,然后借助特征向量进行元数据预取。通过对文件元数据进行预取、缓存等一系列的操作,优化关联文件的元数据存取流程,实现元数据存取性能的提升;
42.4、本发明采用高效访问的方法,设计客户端缓存层和服务器端缓存层,以提供两阶段的存取性能加速。通过对文件元数据进行分析、预取、缓存等一系列的操作,使得系统中元数据的访问请求数量显著减少,在分布式文件系统中优化元数据访问过程并提高元数据访问效率。
附图说明
43.通过阅读参照以下附图对非限制性实施例所作的详细描述,本发明的其它特征、目的和优点将会变得更明显:
44.图1为本发明多模态数据优化管理系统架构图;
45.图2为本发明元数据结构图;
46.图3为本发明元数据预取流程图;
47.图4为本发明元数据访问流程图。
具体实施方式
48.下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变化和改进。这些都属于本发明的保护范围。
49.实施例1:
50.根据本发明提供的一种多模态数据存储管理的方法,方法包括如下步骤:
51.步骤s1:对多源异构数据进行统一描述,基于元数据,规范和驱动各类数据访问过程;
52.步骤s1.1:研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取方法,对多源异构数据进行元数据归一化处理与入库存储,关注非结构化数据的统一描述;
53.步骤s1.2:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不改变原始数据的存储结构;
54.步骤s1.3:在扁平的命名空间内把所有数据存储为对象;对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。
55.步骤s1.4:将相关信息存储到元数据的扩展属性空间。
56.步骤s2:经过统一描述后的多源异构数据,获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联,进行跨越异构数据的语义分析、内在数据整合;抽取已读取文件的相关特性和对预读取的文件进行特性分析;根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对应的数字id,依据设定好的顺序进行拼接,得到一个能够用于计算的文件特征向量;然后把这些文件特征向量作为一个是否预取的评判标准,得到一系列的文件特征向量,然后将获得的向量与之前的评判标准向量进行对比分析得到文件关联度并判定是否预取该文件的元数据,最终输出所获得的预取元数据序列。
57.步骤s3:将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率;当用户发起文件访问操作时,对于文件元数据的读请求操作将首先通过文件系统到达客户端中,接着客户端在自身的本地缓存层中寻
找目标文件的元数据,如果命中,客户端在本地缓存中处理本次操作后续的元数据请求,然后将相应的文件元数据信息返回上层;否则客户端会通过网络转发读请求操作给mdss,当读请求操作到达其中的一个mds后,该服务器上的元数据预取模块会根据关联分析模型给出的结果,在自身的服务器缓存层中寻找目标文件及其相关文件的元数据,然后将查找到的全部所需元数据打包后返回给客户端,在后续元数据访问时客户端无需再向mds请求其他的相关元数据,待到客户端处理好这些文件的元数据后,再通过元数据中的数据索引信息与对应的osd进行交互,最终完成文件的读操作。
58.实施例2:
59.实施例2为实施例1的优选例,以更为具体地对本发明进行说明。
60.本发明还提供一种多模态数据存储管理的系统,系统包括如下模块:
61.模块m1:对多源异构数据进行统一描述,基于元数据,规范和驱动各类数据访问过程;
62.模块m1.1:研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取方法,对多源异构数据进行元数据归一化处理与入库存储,关注非结构化数据的统一描述;
63.模块m1.2:按照规则进行命名,生成音视频、图像的id字段,作为数据管理的标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不改变原始数据的存储结构;
64.模块m1.3:在扁平的命名空间内把所有数据存储为对象;对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。
65.模块m1.4:将相关信息存储到元数据的扩展属性空间。
66.模块m2:经过统一描述后的多源异构数据,获得统一结构的元数据,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联,进行跨越异构数据的语义分析、内在数据整合;抽取已读取文件的相关特性和对预读取的文件进行特性分析;根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对应的数字id,依据设定好的顺序进行拼接,得到一个能够用于计算的文件特征向量;然后把这些文件特征向量作为一个是否预取的评判标准,得到一系列的文件特征向量,然后将获得的向量与之前的评判标准向量进行对比分析得到文件关联度并判定是否预取该文件的元数据,最终输出所获得的预取元数据序列。
67.模块m3:将高效访问机制建立在分布式文件系统的客户端/服务器模式架构基础之上,设计客户端缓存层和服务器端缓存层,提供两阶段的存取性能加速;通过对文件元数据进行分析、预取和缓存操作,减少系统中元数据的访问请求数量,得到在分布式文件系统中优化元数据的访问过程和元数据访问效率;当用户发起文件访问操作时,对于文件元数据的读请求操作将首先通过文件系统到达客户端中,接着客户端在自身的本地缓存层中寻找目标文件的元数据,如果命中,客户端在本地缓存中处理本次操作后续的元数据请求,然后将相应的文件元数据信息返回上层;否则客户端会通过网络转发读请求操作给mdss,当读请求操作到达其中的一个mds后,该服务器上的元数据预取模块会根据关联分析模型给出的结果,在自身的服务器缓存层中寻找目标文件及其相关文件的元数据,然后将查找到的全部所需元数据打包后返回给客户端,在后续元数据访问时客户端无需再向mds请求其
他的相关元数据,待到客户端处理好这些文件的元数据后,再通过元数据中的数据索引信息与对应的osd进行交互,最终完成文件的读操作。
68.实施例3:
69.实施例3为实施例1的优选例,以更为具体地对本发明进行说明。
70.本发明提供一种多模态数据分布式智能存储技术,并基于该技术设计多模态数据优化管理系统,解决海量多源异构数据的有效管理与存储问题。支持海量多模态数据的存储一致性,数据访存高效、安全、可靠,以满足云计算、大数据应用的高性能、低时延、高可用性、高可扩展、高安全的大规模、分布式存储需求。促进海量数据存储目标的实现,将数据优势转化为决策优势,实现数据处理效率和能力的切实提高,打造多模态数据互通体系,同时也为知识图谱的构建打下坚实基础。
71.参照图1,本发明提出一种多模态数据分布式智能存储技术,并基于该技术设计多模态数据优化管理系统,实现对多源异构数据的统一描述,为多源数据提供一体化数据存储、访问服务。通过梳理与分析业务系统的实际需求,结合专家的领域知识,多模态数据优化管理系统提供以下三大功能:元数据归一化处理、关联性分析、高效访问机制,给出了系统的整体架构,分析了核心模块,梳理了数据处理流程。从多源异构数据进行元数据归一化处理入手,通过分析文件元数据关联性更好地理解异构数据包含的信息,结合累积的历史数据在入库存储的同时完成预取缓存,实现多源异构系统数据交互与统一,提高访问效率,从而利于数据共享。多模态数据信息采用块设备存储、文件系统存储和对象存储三种存储功能,提出精简与复杂数据组织结构相结合的混合存储方式,提供丰富的数据操作接口并保证存储性能。梳理多模混合存储体系的技术框架和存储方式,研究以语义分析为基础的多模态数据存储技术,旨在为多源异构数据的高效存储提供参考方案,为正确认识、快速处理和有效使用多模态数据奠定基础。
72.元数据归一化处理模块:实现对多源异构数据的统一描述,基于元数据,规范和驱动各类数据访问过程,为多源数据提供一体化数据访问服务。研究多源数据模板化抽取,结合规则及各类基于机器学习的模板化抽取方法,对多源异构数据进行元数据归一化处理与入库存储,重点关注非结构化数据的统一描述;按照规则进行命名,生成音视频、图像的id字段,作为数据管理的唯一标识,插入元数据的扩展属性中,运用元数据对异构数据源进行统一的逻辑表示,不需要改变原始数据的存储结构,解决各数据源的异构问题,为数据集成提供统一基础结构,更好地理解异构数据包含的信息,实现多源异构系统数据交互与统一,也为后续数据联通、关联性分析、数据文件共享奠定基础。
73.参照图2,分布式的多模态数据优化管理系统,在扁平的命名空间内把所有数据存储为对象,对象包含一个id标识符、二进制数据、和由名字/值对组成的元数据。将相关信息存储到元数据的扩展属性空间,这样不仅减少向元数据服务器发起访问请求的次数,也避免了对元数据结构和接口函数的修改。归一化处理不需要改变原始数据的存储结构,因此访问用户也不需要知道各个数据源的具体细节与差异。
74.关联性分析模块:原本不同来源的异构数据之间不存在交互作用,无法联动分析、互联互通。经过统一描述后的多源异构数据,获得了统一结构的元数据,得以发挥异构数据之间的互补优势,提取各异构数据的特征,再分析和存储,将多源异构数据的特征串联起来,使得跨越异构数据的语义分析、内在数据整合成为可能。
75.为了能够更好的处理元数据之间的关联关系问题,这里考虑使用计算隐藏特征向量的方法进行处理。如果取出一个文件后,又相继取出了其他两个文件,那么这两个文件之间应该是有关联的,或者说在一定程度上是相似的,因此这两个文件的特征向量在向量空间中的距离与已取出文件应该较近;如果取出一个文件后,没有继续取出其他的文件,那么这些文件与已取出文件是无关的,即是相反的,所以其特征向量与已取出文件的距离应该相对较远。这里选择了几个典型的特性要素对其进行编码,作为计算隐藏特征向量的依据,使隐藏特征向量能够更充分的表达出关联性:频繁访问顺序特性、同级目录存储关系特性、应用内部访问顺序特性、用户直接读取顺序特性。
76.为了能够更好的处理元数据的预取问题,我们在设计关联性分析模型时主要进行了两个方面的考虑:其中一方面为模型能够从文件的读取中学习到已取出文件与待分析文件之间隐藏的关系:如果文件file1与文件file2都是与当前已取出文件相关的文件,那么模型需要认为file1、file2与已取出文件在某种程度上是相似的;另一方面为模型能够对暂未执行过任何读取操作的文件进行分析,并预取其对应的元数据文件。
77.参照图3,预取算法接收两部分输入。其中一部分是抽取已读取文件的相关特性,另一部分是对预读取的文件进行特性分析。为了将抽取出来的四种数据特性编码成为可计算的特征向量,我们根据一个有固定顺序的字典,将所抽取数据特性中的文字转化为对应的数字id,这样就可以依据设定好的顺序进行拼接,最终得到一个可用于计算的文件特征向量。然后把这些文件的特征向量作为一个是否预取的评判标准。从而得到一系列的文件特征向量,然后将获得的向量与之前的评判标准向量进行对比分析得到文件关联度并判定是否预取该文件的元数据,最终输出所获得的预取元数据序列。
78.高效访问机制:建立在分布式文件系统的客户端/服务器(c/s)模式架构基础之上,设计客户端缓存层和服务器端缓存层,以提供两阶段的存取性能加速。通过对文件元数据进行分析、预取、缓存等一系列的操作,使得系统中元数据的访问请求数量显著减少,在分布式文件系统中优化元数据访问过程并提高元数据访问效率。
79.参照图4,当用户发起文件访问操作时,对于文件元数据的读请求操作将首先通过文件系统到达客户端中,接着客户端会先在自身的本地缓存层中寻找目标文件的元数据,如果命中,客户端可以在本地缓存中处理本次操作后续的元数据请求,然后将相应的文件元数据信息返回上层;否则客户端会通过网络转发读请求操作给mdss,当读请求操作到达其中的一个mds后,该服务器上的元数据预取模块会根据关联分析模型给出的结果,在自身的服务器缓存层中寻找目标文件及其相关文件的元数据,然后将查找到的全部所需元数据打包后返回给客户端,在后续元数据访问时客户端无需再向mds请求其他的相关元数据,待到客户端处理好这些文件的元数据后,再通过元数据中的数据索引信息与对应的osd进行交互,最终完成文件的读操作。在文件访问包含写请求时,客户端中的关联分析模型会随之激活,开始分析提取文件的访问特性并整合成为特征向量,以规定的组织形式保存在客户端的缓存层中,客户端完成写请求操作以后会将文件全部信息同步更新至对应mds,完成元数据版本的替换,保证系统数据的可靠性和一致性。
80.本发明以海量多源异构数据为研究对象,提出一种多模态数据分布式智能存储技术,并基于该技术设计多模态数据优化管理系统,该系统在管理多源异构数据的同时还能完成历史数据的有效累积,实现对多源异构数据的统一描述,为多源数据提供一体化数据
存储、访问服务,进一步促进数据综合治理系统的优化。
81.采用元数据归一化处理的方法,对多源异构数据进行元数据归一化处理与入库存储,更好地理解异构数据包含的信息,实现多源异构系统数据交互与统一,从而有利于数据共享。
82.采用关联性分析的方法,从文件访问特性中学习已取出文件与待分析文件之间的隐藏关系,提取文件相关特性整合成特征向量,然后借助特征向量进行元数据预取。通过对文件元数据进行预取、缓存等一系列的操作,优化关联文件的元数据存取流程,实现元数据存取性能的提升。
83.采用高效访问的方法,设计客户端缓存层和服务器端缓存层,以提供两阶段的存取性能加速。通过对文件元数据进行分析、预取、缓存等一系列的操作,使得系统中元数据的访问请求数量显著减少,在分布式文件系统中优化元数据访问过程并提高元数据访问效率。
84.多模态:在信息领域,模态可以理解为数据格式的存在,如文本格式、音频格式、图像格式、视频格式等格式。各种单模态信息的共生性或并发性,统称为多模态信息,且都是非结构化的。
85.多源异构数据:多源异构数据是一种复合型数据,类似于多模态数据,但包含更多的数据类型。
86.多源:指的是一个数据的整体具有多个数据持有方,具有多个来源。
87.异构:指的是整体数据包含不同的数据成分,内容类型不同、特征不同,既有离散型数据,又含有混合型数据,既包含了结构化数据,也包含了非结构化数据。
88.本领域技术人员可以将本实施例理解为实施例1、实施例2的更为具体的说明。
89.本领域技术人员知道,除了以纯计算机可读程序代码方式实现本发明提供的系统及其各个装置、模块、单元以外,完全可以通过将方法步骤进行逻辑编程来使得本发明提供的系统及其各个装置、模块、单元以逻辑门、开关、专用集成电路、可编程逻辑控制器以及嵌入式微控制器等的形式来实现相同功能。所以,本发明提供的系统及其各项装置、模块、单元可以被认为是一种硬件部件,而对其内包括的用于实现各种功能的装置、模块、单元也可以视为硬件部件内的结构;也可以将用于实现各种功能的装置、模块、单元视为既可以是实现方法的软件模块又可以是硬件部件内的结构。
90.以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变化或修改,这并不影响本发明的实质内容。在不冲突的情况下,本技术的实施例和实施例中的特征可以任意相互组合。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1