面向多源数据的数据清洗方法与流程

文档序号：36960179发布日期：2024-02-07 13:04阅读：41来源：国知局

本发明涉及数据治理，具体涉及一种面向多源数据的数据清洗方法。

背景技术：

1、在军事应用中，多源侦察数据具有多手段、各异性、周期性、批量性等特点，如海军近远海航行中收集和获取的各类天基、空基、地基、船基和其他侦察数据，它们的文件命名、文件来源、数据内容、数据格式各异，数据采集方式和原理等各不相同，有些数据甚至只有图像文件加不规范文件命名等，给数据的存储和使用分析带来诸多不便，严重影响数据的应用效率。

2、目前，在军事应用中，数据主要包括天基、空基、地基、船基数据或其他侦察数据。其中：

3、(1)天基数据主要是各类遥感卫星探测到的近远海各类目标(舰船、飞机、航母、驱护等)的遥感影像数据或数据产品，根据探测手段包括可见光探测数据、sar探测数据、多光谱探测数据、红外探测数据、电子侦查探测数据等，探测手段不同，获取的数据信息内容不同，作用也不同。同一探测手段还分不同的工作模式，模式不同，作用也不同；根据卫星高度可以分为低轨卫星探测数据、高轨卫星探测数据、地球静止轨道探测数据、太阳同步轨道探测数据等；根据遥感数据的传输到用户单位的时延，可以分为实时数据、准实时数据和事后数据；卫星数据下传地面站后，经过不同处理获得不同级别的数据，可以分为一级产品、二级产品、三级产品等。

4、(2)空基信息主要包括以侦查监视飞机和无人机等平台节点为主题采集的目标图形及数据等。

5、(3)地基数据主要包括利用部署在地面的雷达等传感器采集的目标数据。

6、(4)其他侦察手段获取的侦察数据。

7、目前在面对军事多源侦察数据的治理时，现有清洗技术对于结构化数据治理有很好的效果；对于非结构化数据，由于数据源格式各异，规律很少，存在处理效率低、处理效果有限等问题，无法满足用户标准化存储和快熟使用提取情报的要求。尤其是在军事应用中，获取的各类侦察信息需要快速处理，以便迅速作出决断，这更对数据处理手段提出了更高的要求。

技术实现思路

1、有鉴于此，本发明旨在提出一种面向多源数据的数据清洗方法，解决目前在军事应用中多源数据处理效率低、处理效果有限的问题，提高数据存储和利用效率。

2、本发明实施例提供一种面向多源数据的数据清洗方法，所述方法包括：

3、s100，预处理历史数据；

4、s200，根据预处理后的历史数据，构建历史数据属性结构；

5、s300，根据所述历史数据属性结构，构建历史数据边端关系及相应的知识图谱关系网；

6、s400，通过人工智能学习方法对所述历史数据边端关系进行学习，得到学习模型及相应的数据存储规则；

7、s500，通过所述学习模型清洗数据，筛选出所述学习模型无法清洗的新数据；

8、s600，逐级提取所述新数据中的文件及数据信息；

9、s700，通过人工智能学习方法对所述新数据中提取的文件及数据信息进行学习和分类，并按照所述数据存储规则进行分类存储；

10、s800，当任一分类中的新数据积累预定量后，通过人工智能学习方法对当前分类的新数据进行学习训练，并将学习结果更新至所述学习模型和所述知识图谱关系网；

11、s900，根据更新后的所述学习模型清洗数据。

12、进一步地，步骤s100中：

13、所述预处理历史数据包括脏数据去重、缺失项补充和异常值修正。

14、进一步地，步骤s200中：

15、根据预定目标及预定属性，构建预定任务需求的所述历史数据属性结构，所述预定目标及预定属性包括目标国别、目标型号、目标名称、目标位置、目标属性、目标运行状态、数据存储规则、数据坐标。

16、进一步地，步骤s300中：

17、根据预定任务需求的所述历史数据属性结构，构建预定任务需求的所述历史数据边端关系及相应的知识图谱关系网。

18、进一步地，步骤s400中：

19、积累预定量的所述历史数据边端关系后，再通过人工智能学习方法对所述历史数据边端关系进行学习。

20、进一步地，步骤s500中：

21、所述清洗数据包括缺失值清洗、格式内容清洗、逻辑错误清洗和非需求数据清洗。

22、进一步地，步骤s600中：

23、所述文件及数据信息包括数据文件名、数据文件属性和数据元信息文件。

24、进一步地，所述历史数据和所述新数据为天基数据、空基数据、地基数据或船基数据。

25、本发明实施例的面向多源数据的数据清洗方法，通过构建统一的数据标准，构建不同元素与数据对象间边端的关系，利用人工智能方法学习各类边端关系，指导数据应用，可有效提高数据存储和利用效率，且构建的目标知识图谱关系网可供用户后续使用时快速提炼情报信息。

技术特征：

1.一种面向多源数据的数据清洗方法，其特征在于，所述方法包括：

2.根据权利要求1所述的面向多源数据的数据清洗方法，其特征在于，步骤s100中：

3.根据权利要求1所述的面向多源数据的数据清洗方法，其特征在于，步骤s200中：

4.根据权利要求3所述的面向多源数据的数据清洗方法，其特征在于，步骤s300中：

5.根据权利要求1所述的面向多源数据的数据清洗方法，其特征在于，步骤s400中：

6.根据权利要求1所述的面向多源数据的数据清洗方法，其特征在于，步骤s500中：

7.根据权利要求1所述的面向多源数据的数据清洗方法，其特征在于，步骤s600中：

8.根据权利要求1-7任一项所述的面向多源数据的数据清洗方法，其特征在于，所述历史数据和所述新数据为天基数据、空基数据、地基数据或船基数据。

技术总结
本发明涉及一种面向多源数据的数据清洗方法，包括：S100，预处理历史数据；S200，根据预处理后的历史数据构建历史数据属性结构；S300，根据历史数据属性结构，构建历史数据边端关系及相应的知识图谱关系网；S400，根据历史数据边端关系得到学习模型及数据存储规则；S500，筛选出学习模型无法清洗的新数据；S600，逐级提取新数据中的文件及数据信息；S700，对新数据中提取的文件及数据信息进行学习和分类，并按照数据存储规则进行分类存储；S800，当任一分类中的新数据积累预定量后，通过人工智能学习方法对当前分类的新数据进行学习训练，并将学习结果更新至学习模型和知识图谱关系网；S900，根据更新后的学习模型清洗数据。本发明可提高数据存储和利用效率。

技术研发人员：姚乐乐,苏浩,张睿,张敬一,吴学友,汪芳琴,王大年
受保护的技术使用者：中国空间技术研究院
技术研发日：
技术公布日：2024/2/6

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：姚乐乐,苏浩,张睿,张敬一,吴学友,汪芳琴,王大年
技术所有人：中国空间技术研究院
我是此专利的发明人

上一篇：任务调度方法、装置、电子设备及可读存储介质与流程
上一篇：一种显示面板的制造方法及显示面板与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。