本发明涉及大数据处理技术领域,特别涉及一种基于多源多模态数据融合分析处理方法,还涉及一种基于多源多模态数据融合分析处理平台。
背景技术:
在交通、司法等领域的多源异构数据,数据种类繁多、来源广泛且协议多样化不统一,存在数据杂乱、质量不高和数据架构混乱、存储不一等问题。
由于这些原始数据中包含大量的错误和冗余数据,而数据的优劣直接影响上层应用分析结果的可靠性及应用目标的真正实现,因此需对其数据质量进行评估以便为上层应用提供更丰富的数据信息。基于此,对异构多源多模态数据质量进行建模,针对这些多源多模态数据中存在的数据缺失、时空数据异常、数据不一致等问题,有必要设计一种新的融合分析处理方法,通过多种数据清洗模型,对多模态数据进行处理。
技术实现要素:
有鉴于此,本发明的目的是提供一种基于多源多模态数据融合分析处理方法,还提供了了一种基于多源多模态数据融合分析处理平台,针对不同应用需求及数据结构,构建聚类分析、关联分析、分类预测等算法库,实现对来自多源的结构化数据和非结构化数据进行融合分析,解决了现有多源多模态数据中存在的数据缺失、时空数据异常、数据不一致等问题。
本发明的目的之一是通过以下技术方案实现的:
该种基于多源多模态数据融合分析处理方法,所述方法包括以下步骤:
步骤s1:数据采集,包括系统融合采集、物联网数据采集和互联网数据采集;所述系统融合采集通过融合采集系统对开放数据接口、以及接入的数据库服务进行数据采集;所述物联网数据在分布式环境下采用分布式协调服务zookeeper以及消息中间件kafka进行实时数据采集;所述互联网数据采集通过搭建的分布式爬虫系统爬取数据;
步骤s2:对采集到的数据进行融合分析,针对数据不同特性,对数据进行特征抽取及属性融合,针对不同应用需求及数据结构,构建聚类分析、关联分析和分类预测算法库,实现对来自多源的结构化数据和非结构化数据进行融合分析。
特别地,所述步骤s1中,系统融合采集、物联网数据采集过程中,针对采集到的数据根据情况进行临时存储redis、永久存储mysql和分布式存储hdfs,并针对结构化数据通过数据质量检测模型,对数据中存在的数据冗余、缺失、异常、不一致等问题进行数据剔除、补全、或修改,提高结构化数据质量。
特别地,所述步骤s1中,所述互联网数据采集过程中,针对采集到的数据根据情况进行分布式存储hdfs,针对海量文本数据,采用latticelstm进行中文命名实体识别,进行实体抽取,采用bootstrapping的反复迭代进行关系挖掘。
本发明的目的之二是通过以下技术方案实现的:
该种基于多源多模态数据融合分析处理平台,包括
数据采集模块,包括系统融合采集、互联网数据采集和物联网数据采集单元;
基础硬件设施,
虚拟设施,用于实现服务器虚拟化、存储虚拟化和网络虚拟化;
调度中心,用于实现任务调度、资源调度、可用性管理和负载均衡;
数据预处理模块,用于实现非结构化数据、半结构化数据和结构化数据的预处理以及数据提取;
数据挖掘模块,用于实现经过预处理后数据的特征提取、关联分析、分类预测和聚类分析;
应用中心模块,
开放中心模块。
特别地,所述系统融合采集单元通过融合采集系统对开放数据接口、以及接入的数据库服务进行数据采集;所述物联网数据采集单元在分布式环境下采用分布式协调服务zookeeper以及消息中间件kafka进行实时数据采集;所述互联网数据采集单元通过搭建的分布式爬虫系统爬取数据。
特别地,所述互联网数据采集过程中,针对采集到的数据根据情况进行分布式存储hdfs,针对海量文本数据,采用latticelstm进行中文命名实体识别,进行实体抽取,采用bootstrapping的反复迭代进行关系挖掘。
本发明的有益效果是:
本发明提供了基于多源多模态数据融合分析处理方法,通过接口服务采集、物联网感知读取、数据库同步、文件同步、数据爬取等方式进行数据采集,针对采集到的这些结构化数据库数据、半结构化网络数据以及非结构化文本、视频等海量数据中存在的数据缺失、时空数据异常、数据不一致等问题,建立多种数据清洗模型,对多模态数据进行处理;多源多模态数据融合分析模块构建了常用的数据融合常见算法的算法库,能够支持对文本数据分析和图像数据分析,以及对来自多源的结构化数据和非结构化数据进行融合分析。
本发明的其他优点、目标和特征在某种程度上将在随后的说明书中进行阐述,并且在某种程度上,基于对下文的考察研究对本领域技术人员而言将是显而易见的,或者可以从本发明的实践中得到教导。本发明的目标和其他优点可以通过下面的说明书和权利要求书来实现和获得。
附图说明
为了使本发明的目的、技术方案和优点更加清楚,下面将结合附图对本发明作进一步的详细描述,其中:
图1为本发明的方法流程示意图。
图2为本发明的平台架构示意图。
具体实施方式
以下将参照附图,对本发明的优选实施例进行详细的描述。应当理解,优选实施例仅为了说明本发明,而不是为了限制本发明的保护范围。
如图1所示,本发明的基于多源多模态数据融合分析处理方法,包括以下步骤:
步骤s1:数据采集,包括系统融合采集、物联网数据采集和互联网数据采集;系统融合采集通过融合采集系统对开放数据接口、以及接入的数据库服务进行数据采集;物联网数据在分布式环境下采用分布式协调服务zookeeper以及消息中间件kafka进行实时数据采集;所述互联网数据采集通过搭建的分布式爬虫系统爬取数据,能够高效爬取数据的同时,避免触发社交网络的反爬虫机制;系统融合采集、物联网数据采集过程中,针对采集到的数据根据情况进行临时存储redis、永久存储mysql和分布式存储hdfs,并针对结构化数据通过数据质量检测模型,对数据中存在的数据冗余、缺失、异常、不一致等问题进行数据剔除、补全、或修改,提高结构化数据质量。
互联网数据采集过程中,针对采集到的数据根据情况进行分布式存储hdfs,针对海量文本数据,采用latticelstm进行中文命名实体识别,进行实体抽取,采用bootstrapping的反复迭代进行关系挖掘。
步骤s2:对采集到的数据进行融合分析,针对数据不同特性,对数据进行特征抽取及属性融合,针对不同应用需求及数据结构,构建聚类分析、关联分析和分类预测算法库,实现对来自多源的结构化数据和非结构化数据进行融合分析。
基于上述方法的设计思想,本发明还提供了一种基于多源多模态数据融合分析处理平台,包括以下组成部分:
(1)数据采集模块,包括系统融合采集、互联网数据采集和物联网数据采集单元;系统融合采集单元通过融合采集系统对开放数据接口、以及接入的数据库服务进行数据采集;物联网数据采集单元在分布式环境下采用分布式协调服务zookeeper以及消息中间件kafka进行实时数据采集;互联网数据采集单元通过搭建的分布式爬虫系统爬取数据;
互联网数据采集过程中,针对采集到的数据根据情况进行分布式存储hdfs,针对海量文本数据,采用latticelstm进行中文命名实体识别,进行实体抽取,采用bootstrapping的反复迭代进行关系挖掘。
(2)基础硬件设施;包括用于实现各项功能的基础硬件设施;包括服务器资源、网络资源和存储资源;
(3)虚拟设施:用于实现服务器虚拟化、存储虚拟化和网络虚拟化;
(4)调度中心,用于实现任务调度、资源调度、可用性管理和负载均衡;
(5)数据预处理模块,用于实现非结构化数据、半结构化数据和结构化数据的预处理以及数据提取;
(5)数据挖掘模块,用于实现经过预处理后数据的特征提取、关联分析、分类预测和聚类分析;
(6)应用中心模块:用于实现各项功能性应用;
(7)开放中心模块:包括软件开发工具包sdk、应用程序编程接口api等供开发人员使用的接口和工具包软件。
本发明的大数据融合分析基础架构平台可以提供移动终端app、城市治理决策支持、公共服务支持等。
在实施过程中,多源多模态数据融合分析需要对多源多模态数据进行跨网络跨模态关联分析。同时需要构建包含了常用的数据融合常见算法的算法库,使平台便于对数据进行融合分析。多源多模态数据分析平台除了能够支持对文本数据分析和图像数据分析,还有面对在许多应用场景下需要对来自多源的文本数据和图像数据进行融合分析。对海量的文本数据进行分析,文本数据分析可以分为分词、特征提取和训练模型及应用。多源多模态数据分析平台为了能够让用户能够快速使用平台对文本数据进行分析,提供文本分析算法库,文本分析算法中包括常见的分词方法、特征提取方法和常见的模型。
本领域人员应该理解的是,上述实施例提供的方法步骤的时序可根据实际情况进行适应性调整,也可根据实际情况并发进行。
上述实施例涉及的方法中的全部或部分步骤可以通过程序来指令相关的硬件来完成,所述的程序可以存储于计算机设备可读取的存储介质中,用于执行上述各实施例方法所述的全部或部分步骤。所述计算机设备,例如:个人计算机、服务器、网络设备、智能移动终端、智能家居设备、穿戴式智能设备、车载智能设备等;所述的存储介质,例如:ram、rom、磁碟、磁带、光盘、闪存、u盘、移动硬盘、存储卡、记忆棒、网络服务器存储、网络云存储等。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、商品或者设备中还存在另外的相同要素。
最后说明的是,以上实施例仅用以说明本发明的技术方案而非限制,尽管参照较佳实施例对本发明进行了详细说明,本领域的普通技术人员应当理解,可以对本发明的技术方案进行修改或者等同替换,而不脱离本技术方案的宗旨和范围,其均应涵盖在本发明的权利要求范围当中。