一种数据文件的快速存取方法及装置与流程

文档序号:30844779发布日期:2022-07-23 02:02阅读:136来源:国知局
一种数据文件的快速存取方法及装置与流程

1.本发明涉及大量数据文件处理、存储和读取领域,更具体地说,涉及一种数据文件的快速存取方法及装置。


背景技术:

2.对政府、保险、医疗、教育、金融等行业而言,为了保障用户和企业的合法权益、保护用户隐私信息,以及为投诉、法律诉讼、历史研究等提供充分的依据,大量文件需要长期存储,或永久存储。如:保险行业的投保影像文件、投保签字照片等文件,需要在保单有效期内存储;终身险业务文件,需要存储50年以上。医疗行业,国家规定数据文件要存储15-30 年以上。金融机构的数据库备份需要永久存储;银行窗口业务数据需要存储至业务终止。
3.随着时间推移及业务数字化发展,这些长期或永久存储的数据文件不断产生,且产生的速度随着各行业信息化和数字化水平的提升不断加快。如银行每次办理业务时,需要对每个证件拍照保存,每天都会生产非常多的文件;保险公司、保险中介机构每笔业务都要产生投保人、被保险人的个人信息、录音、录像、照片等数据文件。
4.针对这些大量文件需要快速归档存储和快速读取的业务场景,不仅要解决海量数据文件存储的问题,还要解决如何快速存储这些文件,同时在使用时如何快速访问到这些文件,这已经成为相关政府部门、企业以及行业用户的共同诉求。
5.面向这一需求,目前主要有3类解决方案,即磁盘、磁带和光盘存储。
6.其中,磁盘存储方案是将这些数据文件存储在磁盘设备上,如专用存储一体机、服务器等。该方案在访问数据文件时能够提供相对较快的查询性能,但由于设备自身限制和存储介质的影响,该方案首先扩展性能存在瓶颈,无法为不断增长的大量文件提供的足够存储空间及可扩展性;其次,由于设备采用存储介质一般为磁盘,磁盘读写速度较快,但生命周期为 3-5年,不适合存储归档数据文件几十年的需求。同时磁盘的采购成本相对较高,也大大增加了政府部门及企业的资金投入。
7.磁带存储方案以此带为存储介质存储数据文件。磁带存储是由磁带机及其控制器组成的存储设备,在记录或读取数据时通过驱动磁带相对磁头运动、用磁头进行电磁转换实现顺序记录或读取,对比磁盘和光盘,访问速度适中。同时,磁带存储介质易受电磁辐射而损坏,磁带上的数据信号会随时间推移变弱,需要定期检查和刷新。在使用过程中,磁带还会磨损,受潮发霉,寿命有限;磁带规格众多,互不兼容,如果老的磁带机被淘汰,磁带上的数据将无法读取。另外,随着现有存储技术的成熟,磁带存储的价格等优势也渐已消失。
8.光盘存储方案以光盘作为存储介质存储数据文件。鉴于光盘具有记录密度高、非接触式读写等特性,因此该方案存储量大,能够满足大量数据文件存储的要求;可靠性高,对环境的适用性强,不易损坏、数据不易丢失;数据可以长期,存储寿命可达到10年~50年。但磁盘在读取数据时,转速低于磁盘,且会因数据矫正、光盘磨损等影响速度,故光盘存储方案的访问速度比磁盘和磁带的访问速度要慢。
9.综合以上3类方案,磁盘存储虽然读写速度相对较快,但其使用寿命短;磁带存储
访问速度适中,但生命周期较短、可靠性差,而且对使用和保存环境有较高要求;而光盘生命周期长、可靠性强,但数据访问速度最慢。因此,上述3种方案都无法满足当前大量数据文件长期存储和快速读取的需求。
10.在此情况下,为兼顾大量数据文件的存储空间、访问性能及总体成本等问题,有必要设计和提供一种数据文件的快速存取装置,通过采用磁盘存储热数据,光盘存储冷数据的冷热分层存储、数据速冻解冻、数据压缩和查询优化等技术,实现以最优的成本对大量数据文件进行快速存储和读取。同时,该系统或装置还需要需要具备备兼容性强、设计简单、部署灵活、操作便捷、采购和使用成本低廉、扩展性强等特性,能够方便大范围推广使用,以满足大量数据文件长期存储、快速访问和降低成本等需求,提升数据文件快速存储与读取装置面向大量数据文件存储的可用性、可靠性和可扩展性。


技术实现要素:

11.本发明的目的在于提供一种数据文件的快速存取方法,以解决上述背景技术中提出的问题,本发明提供如下技术方案:
12.一种数据文件的快速存取方法,包括以下步骤:
13.s1、接收数据文件,对该数据文件进行预处理,其中包括如下子步骤:
14.s11、对接收的数据文件设置访问频率值;
15.s12、提取该数据文件的文件信息;
16.s13、根据所述文件信息,计算数据文件压缩率,确定存储方式和存储路径;
17.s2、根据存储要求和压缩率,对数据文件进行速冻存储处理,其中包括如下子步骤:
18.s21、生成数据文件的索引文件;
19.s22、根据所述数据文件压缩率,对数据文件进行压缩;
20.s23、根据所述存储方式和路径,对压缩后的数据文件进行存储;
21.s3、数据文件快速解冻读取处理,其中包括如下子步骤:
22.s31、从用户查询请求中获取数据文件信息,根据所述数据文件信息,获取与所述数据文件匹配的数据文件索引;
23.s32、根据数据文件索引从存储模块中查询并提取压缩数据文件;
24.s33、根据所述数据文件索引中的数据文件压缩率,解压提取的压缩数据文件;
25.所述数据文件索引文件的格式包括如下字段:
26.字段1:数据文件压缩率c;
27.字段2:存储路径;
28.字段3:访问频率值;
29.字段4:数据文件信息。
30.本发明通过对数据文件进行数据文件信息提取、快速速冻和解冻读取处理、文件压缩和解压缩处理、冷热数据差异化存储和索引优化,以提升大量数据文件存储和读取的性能及效率,本发明采用冷热数据分层存储、数据速冻解冻、数据压缩和查询优化等技术,以及成本和容量兼顾的蓝光存储介质,以及在数据文件访问时,无需磁盘目录逐级检索,通过关键字在数据库中快速定位文件存储位置,并读取数据文件的内容,不但提供了成本更
低、安全性更高且适于数据长期存储的存储,使得大量的数据文件得以长期或永久存储,而且解决了当前数据文件存储存在的存储空间不足、使用成本高、读取速度慢等难题。
31.优选地,所述数据文件压缩率通过快速动态压缩率(rdc)模型计算获取,所述rdc模型为:
32.c=log
max(n,n)
min(n,n)*100%;
33.式中,c为数据文件压缩率;n为用于存储数据文件的存储模块的存储极值;n为数据文件的存储条件值;
34.所述存储方式根据文件信息中的数据存储要求确定,所述存储路径根据数据存储要求对应的存储模块来确定;
35.所述存储模块可根据数据文件的访问频率值动态对存储的数据文件进行顺序排序;所述顺序排序规则为根据访问频率高低进行排序。
36.优选地,所述步骤s3.2中根据数据文件索引从存储模块中查询并提取压缩数据文件,具体包括以下步骤:
37.s321、从用户查询请求中获取的数据文件信息中获取数据文件压缩率;
38.s322、根据数据文件压缩率与索引文件中的字段1确定数据文件的索引文件;
39.s323、根据索引文件中的字段2确定数据文件的存储路径;
40.s324、根据索引文件中的字段2找到存储数据文件的存储模块;
41.s325、根据索引文件中的字段4获取数据文件。
42.优选地,所述步骤s325中根据索引文件的字段4获取数据文件,具体包括以下步骤:
43.s3251、从存储模块存储中提取数据文件访问频率的统计信息,该统计信息为数据文件的访问频率的最大值和最小值,根据最大值和最小值计算获得访问频率的中间值;
44.s3252、根据访问频率的中间值将存储模块分成访问频率值大于访问频率的中间值的存储区域1和小于访问频率的中间值的存储区域2;
45.s3253、将索引文件中的字段3与访问频率的中间值进行比较,确定存储区域;
46.s3254、获取数据文件。
47.本发明还提供上述的一种数据文件的快速存取方法使用的快速存取装置,包括数据接收模块、热存储池、数据处理模块、冷存储池、解冻模块、快速查询信息存储单元和输出单元;所述数据接收模块通过数据线与数据文件源连接,所述数据接收模块通过数据总线与热存储池和数据处理模块连接;所述热存储池通过数据总线与数据接收模块和数据处理模块连接;所述数据处理模块通过数据总线与数据接收模块、热存储池、冷存储池和快速查询信息存储单元连接;所述冷存储池通过数据总线与所述数据处理模块和解冻模块连接;所述解冻模块通过数据总线与冷存储池、热存储池和快速查询信息存储单元连接;所述快速查询信息存储单元通过数据总线与数据处理模块、解冻模块和输出单元;
48.所述输出单元用于从文件快速存储与读取装置接收到的用户请求中分离并获取查询条件,并将所述查询条件发送至所述快速查询信息存储单元;然后从所述热存储池中读取与所述查询条件对应的查询结果并输出,从而完成数据文件的快速读取;
49.当所述热存储池中存在所述结果文件时,则所述查询结果为“true”,所述输出单元从所述热存储池中读取所述结果数据文件并输出;当所述热存储池中不存在所述结果文
件时,则所述查询结果为“false”,所述输出单元输出“查询结果不存在”。
50.进一步地,所述数据接收模块包括流数据接入单元和批数据接入单元;
51.所述流数据接入单元通过数据总线与数据处理模块连接,用于为流数据文件提供连接接口或像流水一样接收流数据文件,同时对流数据文件的大小、日期、类型、md5值、存储目录等信息进行识别,并将接入的数据文件传输至数据处理模块;其中,所述流数据接入单元包括多个流连接器,连接器之间通过数据总线并行连接;所述流连接器可以在流数据文件接入时由所述流数据接入单元按需创建,也可以预先创建好,在流数据文件接入时由所述流数据接入单元按需分配;
52.所述批数据接入单元通过数据总线与热存储池连接,用于为批量数据文件提供连接接口,及批量地接入批量数据文件,同时对批量数据文件的大小、日期、类型、md5值、存储目录等信息进行识别,并将接入的数据文件传输至热存储池;
53.其中,所述批数据接入单元包括多个批连接器,批连接器之间通过数据总线并行连接;所述批连接器可以在批量数据文件接入时由所述流数据接入单元按需创建,也可以预先创建好,并按照数据文件的类型进行分组,在批数据文件接入时由所述流数据接入单元按需分配。
54.进一步地,所述热存储池包括批量文件存储单元和结果文件存储单元;
55.所述批量文件存储单元通过数据总线与所述批数据接入单元和所述数据处理模块连接,用于临时存储批量数据文件,等待所述数据处理模块的处理,从而减缓所述数据处理模块的数据处理压力;
56.所述结果文件存储单元通过数据总线与所述解冻模块和所述输出单元连接,用于接收并临时存储所述结果数据文件,从而提升用户访问时的数据文件读取速度,实现快速读取;
57.其中,所述批量文件存储单元和所述结果文件存储单元均采用磁介质作为存储介质,从而在兼顾成本的同时提供高效数据存储及数据文件访问性能,提升数据文件传输、存储和读取的效率。
58.进一步地,所述数据处理模块包括元数据处理单元、速冻处理单元和压缩单元;
59.所述元数据处理单元用于提取数据文件中的元数据,并传输至快速查询信息存储单元;
60.所述速冻处理单元用于对数据文件进行速冻,即通过添加数据文件标签对数据文件进行分类,并添加访问权限;
61.所述压缩单元用于将提取元数据和速冻后的数据文件以文件目录为层级进行压缩打包,实现类似于将目录中的文件“速冻”操作,然后将压缩打包的数据文件传输至冷存储池进行存储,从而通过多文件目录压缩减少文件体积,从而减少存储介质的写入量,最终实现文件的快速写入;
62.其中元数据处理单元、速冻处理单元和压缩单元均通过数据总线与数据接收模块、热存储池、冷存储池和快速查询信息存储单元连接;所述数据文件包括流数据文件和批量数据文件,流数据文件由所述流连接器接入后直接进行处理,批量数据文件先缓存在所述批量存储单元中,按照预设的数据量阈值进行批量处理。
63.进一步地,所述冷存储池包括数据存储单元、备份单元、备存单元和管理单元;
64.所述数据存储单元用于长期或永久存储所述数据处理模块处理后的数据文件;
65.所述备份单元用于备份所述数据存储单元存储的数据文件,从而实现在所述数据存储单元异常或故障时,数据文件能够快速恢复,提升所述的可靠性;
66.所述备存单元用于为所述数据存储单元备用的存储资源,从而实现在所述数据存储单元故障或损坏时,将存储任务及存储的数据文件快速切换或迁移至备用的存储单元,保障所述装置运行的连续性和数据存储的完整性;
67.所述管理单元用于管理存储的数据文件,并对所述数据存储单元、所述备份单元和所述备存单元三者之间的协同工作、存储任务切换、数据迁移等进行调度和管理;
68.其中,所述数据存储单元、所述备份单元和所述备存单元均通过数据总线与所述数据处理模块和解冻模块连接,均采用蓝光光盘作为存储介质,蓝光存储介质可以将数据文件存储 50年以上,从而实现大量数据文件的长期存储或永久存储,并降低存储成本。
69.进一步地,所述解冻模块包括解压缩单元和解冻处理单元;
70.所述解压缩单元用于获取并根据速查询信息存储单元中存储的与用户查询条件对应的请求元数据,从冷存储池中获取对应的数据文件,并对获取的所述数据文件进行解压缩操作,得到解压数据文件;
71.所述解冻处理单元用于对所述解压的数据文件进行解冻,解冻后得到结果数据文件;然后在冷存储池中存在所述结果数据文件时,将所述结果数据文件上传至热存储池,供用户访问和下载;在冷存储池中不存在所述结果数据文件时,返回空值;
72.其中,所述解压缩单元和所述解冻处理单元均通过数据总线与冷存储池、热存储池和快速查询信息存储单元连接。
73.相比于现有技术,本发明的优点在于:
74.1、本发明通过对数据文件进行数据文件信息提取、快速速冻和解冻读取处理、文件压缩和解压缩处理、冷热数据差异化存储和索引优化,以提升大量数据文件存储和读取的性能及效率,本发明采用冷热数据分层存储、数据速冻解冻、数据压缩和查询优化等技术,以及成本和容量兼顾的蓝光存储介质,以及在数据文件访问时,无需磁盘目录逐级检索,通过关键字在数据库中快速定位文件存储位置,并读取数据文件的内容,不但提供了成本更低、安全性更高且适于数据长期存储的存储,使得大量的数据文件得以长期或永久存储,而且解决了当前数据文件存储存在的存储空间不足、使用成本高、读取速度慢等难题。
75.2、数据文件灵活处理:根据业务需求,可以像流水一样实时接收并处理数据文件,也可以定时定量批量地处理数据文件,有效地提升了数据文件处理的效率和灵活性,适用性更强。
76.3、可靠与成本兼顾的海量存储空间:提供了适用于大量数据文件长期或永久存储的装置,且存储空间可根据业务增长需要按需扩展;同时降低存储成本,数据长期或永久存储的可靠性和安全性得到保障。在存储层面实现面大量数据文件存储技术及能力的升级。
77.4、提升存储空间利用率和传输速度:通过数据文件的压缩,减少了数据文件对存储空间的使用量,以及数据文件在系统内部的传输速度。
78.5、数据文件的快速读取能力:通过元数据快速定位数据文件存储的位置,并以热存储为大量数据文件下载提供缓存支持,大大提升了大量数据文件查询和读取的速度。
79.6、本发明的数据文件的快速存取装置在设计时根据不同数据文件的处理要求及
流程选用不同的介质作为存储介质,并具设计简单、部署灵活、操作便捷,在提升大量文件存储和读取效率的同时,也能够帮助客户降低使用门槛,快速完成部署,减轻日常运维的压力,以低成本获得最佳的数据文件存储、处理和访问等数据库服务体验,满足业务增长的短期及长期需求。
附图说明
80.图1为本发明实施例的一种数据文件的快速存取装置的结构示意图;
81.图2为本发明实施例的数据接收模块的结构示意图;
82.图3为本发明实施例的热存储池的结构示意图;
83.图4为本发明实施例的的数据处理模块的结构示意图;
84.图5为本发明实施例的冷存储池的结构示意图;
85.图6为本发明实施例的解冻模块的结构示意图;
86.图7为本发明实施例的一种数据文件的快速存取流程图。
具体实施方式
87.在本发明的描述中,需要理解的是,术语“中心”、“纵向”、“横向”、“长度”、“宽度”、“厚度”、“上”、“下”、“前”、“后”、“左”、“右”、“竖直”、“水平”、“顶”、“底”、“内”、“外”、“顺时针”、“逆时针”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的设备或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。
88.在本发明的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
89.实施例一
90.如图1所示,本实施例提供一种数据文件的快速存取装置,包括数据接收模块100、热存储池200、数据处理模块300、冷存储池400、解冻模块500、快速查询信息存储单元600 和输出单元700。
91.所述数据接收模块100通过数据线与数据文件源连接,所述数据接收模块100通过数据总线与热存储池200和数据处理模块300连接;所述热存储池200通过数据总线与数据接收模块100和数据处理模块300连接;所述数据处理模块300通过数据总线与数据接收模块100、热存储池200、冷存储池400和快速查询信息存储单元600连接;所述冷存储池400通过数据总线与所述数据处理模块300和解冻模块500连接;所述解冻模块500通过数据总线与冷存储池400、热存储池200和快速查询信息存储单元600连接;所述快速查询信息存储单元 600通过数据总线与数据处理模块300、解冻模块500和输出单元700;
92.所述输出单元700用于从文件快速存储与读取装置接收到的用户请求中分离并获取查询条件,并将所述查询条件发送至所述快速查询信息存储单元600;然后从所述热存储池200 中读取与所述查询条件对应的查询结果并输出,从而完成数据文件的快速读取;
93.当所述热存储池200中存在所述结果文件时,则所述查询结果为“true”,所述输出单元700从所述热存储池200中读取所述结果数据文件并输出;当所述热存储池200中不存在所述结果文件时即读取的返回结果值为空值,则所述查询结果为“false”,所述输出单元 700输出“查询结果不存在”。
94.如图2所示,所述数据接收模块100包括流数据接入单元101和批数据接入单元102;
95.所述流数据接入单元101通过数据总线与数据处理模块300连接,用于为流数据文件提供连接接口或像流水一样接收流数据文件,同时对流数据文件的大小、日期、类型、md5值、存储目录等信息进行识别,并将接入的数据文件传输至数据处理模块;其中,所述流数据接入单元101包括多个流连接器,连接器之间通过数据总线并行连接;所述流连接器可以在流数据文件接入时由所述流数据接入单元101按需创建,也可以预先创建好,在流数据文件接入时由所述流数据接入单元101按需分配;
96.所述批数据接入单元102通过数据总线与热存储池200连接,用于为批量数据文件提供连接接口,及批量地接入批量数据文件,同时对批量数据文件的大小、日期、类型、md5值、存储目录等信息进行识别,并将接入的数据文件传输至热存储池200;
97.其中,所述批数据接入单元102包括多个批连接器,批连接器之间通过数据总线并行连接;所述批连接器可以在批量数据文件接入时由所述流数据接入单元101按需创建,也可以预先创建好,并按照数据文件的类型进行分组,在批数据文件接入时由所述流数据接入单元 101按需分配。
98.如图3所示,所述热存储池200包括批量文件存储单元201和结果文件存储单元202;
99.所述批量文件存储单元201通过数据总线与所述批数据接入单元102和所述数据处理模块300连接,用于临时存储批量数据文件,等待所述数据处理模块300的处理,从而减缓所述数据处理模块300的数据处理压力;
100.所述结果文件存储单元202通过数据总线与所述解冻模块500和所述输出单元700连接,用于接收并临时存储所述结果数据文件,从而提升用户访问时的数据文件读取速度,实现快速读取;
101.其中,所述批量文件存储单元201和所述结果文件存储单元202均采用磁介质作为存储介质,从而在兼顾成本的同时提供高效数据存储及数据文件访问性能,提升数据文件传输、存储和读取的效率。
102.如图4所示,所述数据处理模块300包括元数据处理单元301、速冻处理单元302和压缩单元303;
103.所述元数据处理单元301用于提取数据文件中的元数据,并传输至快速查询信息存储单元600;
104.所述速冻处理单元302用于对数据文件进行速冻,即通过添加数据文件标签对数据文件进行分类,并添加访问权限;
105.所述压缩单元303用于将提取元数据和速冻后的数据文件以文件目录为层级进行压缩打包,实现类似于将目录中的文件“速冻”操作,然后将压缩打包的数据文件传输至冷存储池 400进行存储,从而通过多文件目录压缩减少文件体积,从而减少存储介质的写入量,最终实现文件的快速写入;
106.其中元数据处理单元301、速冻处理单元302和压缩单元303均通过数据总线与数据接收模块100、热存储池200、冷存储池400和快速查询信息存储单元600连接;所述数据文件包括流数据文件和批量数据文件,流数据文件由所述流连接器101接入后直接进行处理,
批量数据文件先缓存在所述批量存储单元201中,按照预设的数据量阈值进行批量处理。
107.如图5所示,所述冷存储池400包括数据存储单元401、备份单元402、备存单元403和管理单元404;
108.所述数据存储单元401用于长期或永久存储所述数据处理模块300处理后的数据文件;
109.所述备份单元402用于备份所述数据存储单元401存储的数据文件,从而实现在所述数据存储单元401异常或故障时,数据文件能够快速恢复,提升所述的可靠性;
110.所述备存单元403用于为所述数据存储单元401备用的存储资源,从而实现在所述数据存储单元401故障或损坏时,将存储任务及存储的数据文件快速切换或迁移至备用的存储单元,保障所述装置运行的连续性和数据存储的完整性;
111.所述管理单元404用于管理存储的数据文件,并对所述数据存储单元401、所述备份单元402和所述备存单元403三者之间的协同工作、存储任务切换、数据迁移等进行调度和管理;
112.其中,所述数据存储单元401、所述备份单元402和所述备存单元403均通过数据总线与所述数据处理模块300和解冻模块500连接,均采用蓝光光盘作为存储介质,蓝光存储介质可以将数据文件存储50年以上,从而实现大量数据文件的长期存储或永久存储,并降低存储成本。
113.如图6所示,所述解冻模块500包括解压缩单元501和解冻处理单元502;
114.所述解压缩单元501用于获取并根据速查询信息存储单元600中存储的与用户查询条件对应的请求元数据,从冷存储池400中获取对应的数据文件,并对获取的所述数据文件进行解压缩操作,得到解压数据文件;
115.所述解冻处理单元502用于对所述解压的数据文件进行解冻,解冻后得到结果数据文件;然后在冷存储池400中存在所述结果数据文件时,将所述结果数据文件上传至热存储池200,供用户访问和下载;在冷存储池400中不存在所述结果数据文件时,返回空值;
116.其中,所述解压缩单元501和所述解冻处理单元502均通过数据总线与冷存储池400、热存储池200和快速查询信息存储单元600连接。
117.所述索引文件格式为数据文件的索引文件的格式,其中:
118.字段1:数据文件压缩率c,为数据文件被压缩的压缩率值,所述数据文件压缩率c,根据接收的数据文件的所述文件信息,通过快速动态压缩率(rdc)模型计算获取,用于确定数据文件的存储模块;
119.其中,所述rdc模型为:
120.c=log
max(n,n)
min(n,n)*100%;
121.式中,c为数据文件压缩率;n为用于存储数据文件的存储模块的存储极值;n为数据文件的存储条件值;
122.字段2:存储路径,为数据文件存储的所述存储模块对应的路径,根据所述数据存储要求对应的存储模块来确定。
123.字段3:访问频率值,为存储于存储模块中的数据文件访问频率的统计值,所述访问频率值从所述存储模块中存储的数据文件的所述访问频率的统计信息中获取。
124.字段4:数据文件信息,为数据文件的描述信息,用于对数据文件进行具体的描述,
如数据文件的名称、大小、日期、类型、md5值、元数据、业务属性、存储条件等。
125.所述数据文件快速存储流程包括如下步骤:
126.s1、接收数据文件,对该数据文件进行预处理:其中,接收数据文件,包括:流式数据实时接收和批量数据实时接收,针对实时产生的流式数据,系统提供流数据接口,将流数据接入系统,并根据流数据的业务属性选择不同的处理方式进行累计处理,当流数据的业务属性为时间时,按照时间段累计流数据,并将每个时间段的数据文件转换成系统统一的数据文件格式;当流数据的业务属性为事件时,对所述流数据文件按照事件进行归类处理和数据文件格式的统一转换,并标记事件的开始和结束。针对批量的历史数据,通过数据文件接入接口,如jdbc、odbc等,接收数据文件时同时判断数据文件的格式是否与系统存储格式匹配,若不匹配再进行格式转换后批量接入;若匹配直接批量接入。
127.s11、对接收的数据文件设置访问频率值:数据文件的所述访问频率值的初始值为“0”,通过数据文件便签的方式进行设置;随着数据文件的访问频率增加,所述访问频率值的初始值也将递增,并生成数据文件的访问频率统计信息。
128.s12、提取该数据文件的文件信息:提取的数据文件的所述文件信息包括:数据文件的名称、大小、日期、类型、md5值、元数据、业务属性、存储条件等。
129.根据所述文件信息,计算数据文件压缩率,确定存储方式和存储路径:所述数据文件压缩率,通过快速动态压缩率(rdc)模型计算获取;所述存储方式根据所述文件信息中的数据存储要求确定,所述存储路径根据所述数据存储要求对应的存储模块来确定;
130.所述存储模块存储数据文件的所述访问频率的统计信息,并可根据数据文件的访问频率值动态对存储的数据文件进行顺序排序,所述顺序排序规则为根据访问频率高低进行排序。
131.s2、根据存储要求和压缩率,对数据文件进行速冻存储处理:
132.s21、生成数据文件的索引文件:数据文件的所述索引文件的格式包括如下字段:
133.字段1:数据文件压缩率c;
134.字段2:存储路径;
135.字段3:访问频率值;
136.字段4:数据文件信息。
137.s22、根据所述数据文件压缩率,对数据文件进行压缩;
138.s23、根据所述存储方式和路径,对压缩后的数据文件进行存储;
139.s24、数据文件存储成功。
140.所述数据文件读取流程包括如下步骤:
141.s3、数据文件快速解冻读取处理:
142.s31、从用户查询请求中获取数据文件信息,根据所述数据文件信息,获取与所述数据文件匹配的数据文件索引;
143.s32、根据数据文件索引从存储模块中查询并提取压缩数据文件;
144.s321、从用户查询请求中获取的数据文件信息中获取数据文件压缩率;
145.s322、根据数据文件压缩率与索引文件中的字段1确定数据文件的索引文件;
146.s323、根据索引文件中的字段2确定数据文件的存储路径;
147.s324、根据索引文件中的字段2找到存储数据文件的存储模块;
148.s325、根据索引文件中的字段4获取数据文件;
149.s3251、从存储模块存储中提取数据文件访问频率的统计信息,该统计信息为数据文件的访问频率的最大值和最小值,根据最大值和最小值计算获得访问频率的中间值;
150.s3252、根据访问频率的中间值将存储模块分成访问频率值大于访问频率的中间值的存储区域1和小于访问频率的中间值的存储区域2;
151.s3253、将索引文件中的字段3与访问频率的中间值进行比较,确定存储区域;
152.s3254、获取数据文件;
153.s33、根据所述数据文件索引中的数据文件压缩率,解压提取的压缩数据文件。
154.以上显示和描述了本发明的基本原理、主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的仅为本发明的优选例,并不用来限制本发明,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1