一种新型分布式大数据筛选过滤系统的制作方法

文档序号:36253296发布日期:2023-12-03 06:39阅读:41来源:国知局
一种新型分布式大数据筛选过滤系统的制作方法

本发明涉及电数字数据处理领域,具体涉及一种新型分布式大数据筛选过滤系统。


背景技术:

1、在现有的分布式大数据技术中,通常由终端自行对数据进行筛选,或者将数据上传至中央服务器后再统一筛选,前者效率高,但筛选效果欠佳,后者效果好但效率低,因此需要一种数据过滤系统能够结合两者的优点来对分布式大数据进行筛选。

2、背景技术的前述论述仅意图便于理解本发明。此论述并不认可或承认提及的材料中的任一种公共常识的一部分。

3、现在已经开发出了很多数据过滤系统,经过我们大量的检索与参考,发现现有的过滤系统有如公开号为cn104376089b所公开的系统,这些系统方法一般包括:从第一数据项的第一内容中筛选多个第一关键词,所述第一数据项为多个数据项中的一个;将筛选的第一关键词与所述多个数据项的第一内容逐个进行首次匹配,根据匹配结果将所述多个数据项分成匹配程度高和低的两部分;从第一数据项的第二内容中筛选多个第二关键词,将筛选的第二关键词与所述匹配程度低的数据项的第二内容逐个进行匹配,根据匹配结果将所述匹配程度低的数据项的多个数据项分成两部分;其中,所述第一内容的数据量小于第二内容的数据量;将两次匹配后,各次匹配度高的多个数据项的作为一个集合,并对集合内的数据项聚类分析。但该系统是对集中数据的筛选,不适用于分布式数据,且处理大数据时效率较低。


技术实现思路

1、本发明的目的在于,针对所存在的不足,提出了一种新型分布式大数据筛选过滤系统。

2、本发明采用如下技术方案:

3、一种新型分布式大数据筛选过滤系统,其特征在于,包括分布采集模块、特征提取模块、传输模块、中央分析模块和筛选过滤模块;

4、所述分布式采集模块用于在各终端采集原始数据,所述特征提取模块用于对各终端的原始数据进行特征处理得到特征信息,所述传输模块用于在终端和中央服务器之间传输数据,所述中央分析模块用于对接收的特征信息进行分析处理得到过滤参数,所述筛选过滤模块基于过滤参数对原始数据进行筛选过滤;

5、所述特征提取模块包括时间规划单元、数据转移单元和特征处理单元,所述时间规划单元用于设置需要进行数据过滤的时间段,所述数据转移单元从所述数据缓存单元中转移得到对应时间段的数据并保存,所述特征处理单元用于对所述数据转移单元中的数据进行特征计算处理;

6、所述中央分析模块包括终端管理单元、特征解析单元和参数处理单元,所述终端管理单元用于识别特征信息所属的终端并对终端的信息进行管理,所述特征解析单元用于对接收的特征信息进行解析处理,所述参数处理单元根据解析结果对过滤参数进行计算处理;

7、所述筛选过滤模块包括有效数据存储单元和过滤执行单元,所述过滤执行单元根据过滤参数对数据转移单元中的数据进行筛选过滤,所述有效数据存储单元用于保存筛选后的数据;

8、进一步的,所述特征处理单元包括数据分类处理器、质量鉴定处理器和特征计算处理器,所述数据分类处理器基于数据的用途对每份数据进行分类,所述质量鉴定处理器根据数据的完整性以及准确性对每一份数据进行质量鉴定,所述特征计算处理器根据数据转移单元中所有数据的分类信息、质量信息以及数量计算出一个特征数据;

9、所述质量鉴定处理器根据下式计算出每份数据的鉴定值cu:

10、;

11、其中,a为数据的完整度,b为数据的准确度;

12、进一步的,所述特征计算处理器根据下式计算出每类数据的综合质量指数cq(i):

13、;

14、其中,n(i)为每类数据的数量,i为数据类别的序号,cu(i,j)表示第i类数据第j份数据的鉴定值,j为每份数据的排序序号;

15、所述特征计算处理器将综合质量指数构成一个特征向量fv:

16、fv=,其中,m为数据类别的数量;

17、进一步的,所述终端管理单元包括通讯识别处理器、特征数据寄存器和特征管理处理器,所述通讯识别处理器用于记录各个终端的通讯码并根据通讯码来识别接收到的信息,所述特征数据寄存器为每个终端创建了一个存储区域用来保存特征数据,所述特征管理处理器用于对特征数据寄存器的存储状态进行监控,并在每个存储区域保存了特征数据后向特征解析单元发送激活信息,当所述特征解析单元对特征数据处理完毕后,所述特征管理处理器将所述特征数据寄存器中的数据清空;

18、进一步的,所述参数处理单元包括基础参数寄存器和参数计算处理器,所述基础参数寄存器用于保存每个终端每个数据类别的基础筛选参数,所述参数计算处理器对基础筛选参数进行计算处理的到每个终端的筛选向量sv;

19、所述参数计算处理器根据下式计算出第j个终端筛选向量sv的第i个元素值:

20、;

21、其中,表示第i个数据类别的基础筛选参数,为调整值。

22、本发明所取得的有益效果是:

23、本系统通过将终端采集的数据特征化,并由中央服务器对特征数据进行分析再返回筛选参数,能够在传输少量数据的前提下结合所有终端的数据特征对数据进行筛选,提高筛选的效果。

24、为使能更进一步了解本发明的特征及技术内容,请参阅以下有关本发明的详细说明与附图,然而所提供的附图仅用于提供参考与说明,并非用来对本发明加以限制。



技术特征:

1.一种新型分布式大数据筛选过滤系统,其特征在于,包括分布采集模块、特征提取模块、传输模块、中央分析模块和筛选过滤模块;

2.如权利要求1所述的一种新型分布式大数据筛选过滤系统,其特征在于,所述特征处理单元包括数据分类处理器、质量鉴定处理器和特征计算处理器,所述数据分类处理器基于数据的用途对每份数据进行分类,所述质量鉴定处理器根据数据的完整性以及准确性对每一份数据进行质量鉴定,所述特征计算处理器根据数据转移单元中所有数据的分类信息、质量信息以及数量计算出一个特征数据;

3.如权利要求2所述的一种新型分布式大数据筛选过滤系统,其特征在于,所述特征计算处理器根据下式计算出每类数据的综合质量指数cq(i):

4.如权利要求3所述的一种新型分布式大数据筛选过滤系统,其特征在于,所述终端管理单元包括通讯识别处理器、特征数据寄存器和特征管理处理器,所述通讯识别处理器用于记录各个终端的通讯码并根据通讯码来识别接收到的信息,所述特征数据寄存器为每个终端创建了一个存储区域用来保存特征数据,所述特征管理处理器用于对特征数据寄存器的存储状态进行监控,并在每个存储区域保存了特征数据后向特征解析单元发送激活信息,当所述特征解析单元对特征数据处理完毕后,所述特征管理处理器将所述特征数据寄存器中的数据清空。

5.如权利要求4所述的一种新型分布式大数据筛选过滤系统,其特征在于,所述参数处理单元包括基础参数寄存器和参数计算处理器,所述基础参数寄存器用于保存每个终端每个数据类别的基础筛选参数,所述参数计算处理器对基础筛选参数进行计算处理的到每个终端的筛选向量sv;


技术总结
本发明提供了一种新型分布式大数据筛选过滤系统,包括分布采集模块、特征提取模块、传输模块、中央分析模块和筛选过滤模块,所述分布式采集模块用于在各终端采集原始数据,所述特征提取模块用于对各终端的原始数据进行特征处理得到特征信息,所述传输模块用于在终端和中央服务器之间传输数据,所述中央分析模块用于对接收的特征信息进行分析处理得到过滤参数,所述筛选过滤模块基于过滤参数对原始数据进行筛选过滤;本系统能够在不上传全部数据的前提下结合各终端的情况对数据进行筛选,能够提高筛选后数据的整体质量。

技术研发人员:张卫平,王晶,王丹,丁洋,李显阔
受保护的技术使用者:环球数科集团有限公司
技术研发日:
技术公布日:2024/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1