一种基于孤立森林算法的交通行业数据质量异常检测方法与流程

文档序号:40187161发布日期:2024-12-03 11:35阅读:24来源:国知局
一种基于孤立森林算法的交通行业数据质量异常检测方法与流程

本发明涉及交通工程领域,更具体地说,本发明涉及一种基于孤立森林算法的交通行业数据质量异常检测方法。


背景技术:

1、交通行业各业务领域陆续建设一批业务系统支撑日常的运行、监控、应急、决策、管理等工作,包括并不限于综合交通运行监测与预警系统、综合交通应急及协调调度系统、综合交通辅助决策支持系统、综合交通视频管理系统、重点车辆监管系统、交通信号控制系统。这些系统集成当前主流的微服务、大数据、人工智能等信息化技术,为交通行业信息化发展提供了有力支撑,为各级交通管理部门提供了高效、便捷的工作手段,提升了交通运输效率和质量。

2、目前的交通行业信息化缺乏关注结构化数据和半结构化数据,在数据录入和采集阶段,因各类因素导致交通业务数据存在各类异常情况,且异常情况难以及时发现,往往到了呈现在界面时才发现有数据质量异常问题,成为交通行业信息系统建设中亟需解决的问题。

3、当前的检测异常数据的门槛较高,实施人员需具有相当了解的业务数据知识,随着数据维度和数据量的增加,检测复杂度也会相应提升,无法主动全面发现数据存在的异常问题。


技术实现思路

1、本发明针对现有技术中存在的技术问题,提供一种基于孤立森林算法的交通行业数据质量异常检测方法,以解决上述背景技术中提出的问题。

2、本发明解决上述技术问题的技术方案如下:一种基于孤立森林算法的交通行业数据质量异常检测方法,包括以下步骤:

3、s101.通过交通行业信息系统和交通行业专用终端设备分别自动捕捉静态、动态交通数据,加载整合通过两个dataframe合并构成交通行业数据集,并直接或间接存储至数据库表、csv文件以及json文件;

4、s102.检查并处理交通行业数据集,根据交通行业数据集中字段取值范围判断字段类型,提取离散型字段并创建新的dataframe存储离散型字段,利用on e-hot encod ing方法对离散型字段进行独热编码处理;

5、s103.随机选择特征和切分值作为孤立树的根节点沿着分支向下移动,根据特征和切分值将交通行业数据集划分为左、右两个孤立树子集,通过迭代构造孤立子树组合构成孤立森林,并通过孤立森林的异常分识别交通行业数据集的异常点;

6、s104.对当前静态、动态交通数据对应的异常点所在的特征进行绘制箱线图并可视化,连接领域知识图谱并结合特征和上下文信息探索导致当前静态、动态交通数据异常的原因;

7、在一个优选地实施方式中,所述s101中,通过交通行业信息系统推送自动捕捉静态交通数据,利用交通行业专用终端设备自动捕捉动态交通数据,将静态交通数据和动态交通数据加载整合至两个dataframe中,根据静态、动态交通数据之间的关联字段利用pandas库的merge()函数将两个dataframe合并构成交通行业数据集,利用sqla l chemy库连接数据库并创建存储引擎,直接或间接将交通行业数据集存储至数据库表、csv文件以及json文件,利用select*from查询存储离散型字段的新表,检查数据库表中的记录数量是否相符预期并对比存储前的数据。

8、在一个优选地实施方式中,所述s102中,利用df.i snu l l()方法检查交通行业数据集是否存在空值和缺失值,检查交通行业数据集是否在有效范围内,利用df.dup l icated()方法检查交通行业数据集是否存在异常和重复记录。

9、进一步地,设定离散型字段阈值为5,根据交通行业数据集中字段取值范围判断字段类型,当字段取值范围小于离散型字段阈值,则判断为离散型字段,将离散型字段提取并创建新的dataframe存储离散型字段,利用one-hot enco d i ng方法对离散型字段进行独热编码处理,将离散型字段的每个取值转换为一个二进制向量。

10、在一个优选地实施方式中,所述s103中,随机选择离散型字段转换二进制向量的特征,对于选定的特征,随机选择一个值“va l”作为切分值,以特征和切分值作为孤立树的根节点,对于每个交通行业数据集,从孤立树的根节点开始沿着分支向下移动,直至到达孤立树的叶子节点,定义每棵孤立树的深度正常化值,根据特征和切分值将交通行业数据集划分为左、右两个孤立树子集,对左、右两个孤立树子集分别迭代随机选择、划分步骤在孤立树子集上构造孤立子树,直到停止条件被触发,将孤立子树组合构成孤立森林,通过孤立森林的异常分识别交通行业数据集的异常点,其具体公式为:

11、

12、其中,s(x,n)表示当前静态、动态交通数据在n棵孤立子树上的异常分,e(h(x))表示当前静态、动态交通数据在所有孤立子树上深度的期望值,c(n)表示孤立森林中当前静态、动态交通数据在所有孤立子树的平均深度,其中当s(x,n)=1时,表示找到一个当前静态、动态交通数据对应的异常点。

13、在一个优选地实施方式中,所述s104中,对当前静态、动态交通数据对应的异常点所在的特征进行绘制箱线图并可视化当前静态、动态交通数据对应的异常点在不同特征维度的分布情况和位置,通过查看异常点在不同特征维度上的分布情况寻找具有异常值的特征并考虑其与异常原因的联系,连接交通行业领域知识图谱,对当前静态、动态交通数据构建成知识图谱的实体节点,并将交通行业领域知识构建知识图谱的关系边,组合实体节点和关系边并构建完整的交通行业领域知识图谱验证当前静态、动态交通数据对应的异常点,利用知识图谱查询语言获取当前静态、动态交通数据对应的异常点的实际节点与知识图谱的实体节点进行匹配并进行比对,通过比对实际节点属性信息和知识图谱的实体节点的属性信息理解节点之间的关联,结合特征和上下文信息探索导致当前静态、动态交通数据异常的原因。

14、本发明的有益效果是:通过交通行业信息系统和专用终端设备实现自动捕捉静态和动态交通数据,减少人工干预并提高数据采集的效率和准确性,将静态和动态交通数据加载整合至两个dataframe,并根据关联字段合并构成交通行业数据集,有助于综合分析不同来源的数据,揭示数据之间的关联和规律,利用sqlal chemy库连接数据库并创建存储引擎,将交通行业数据直接或间接存储至数据库表、csv文件以及json文件,方便数据的存储、访问和管理,有助于不同系统之间数据的交互和共享,通过利用df.i snu l l()方法检查空值和缺失值,使用df.dup l icated()方法检查异常和重复记录,能够及时发现和处理数据集中的问题,确保数据的准确性和完整性,检查交通行业数据集是否在有效范围内,有助于排除不合理或异常值,保证数据的有效性和可靠性,提高了数据的质量,判断字段类型是否为离散型字段,有助于对数据进行更准确的分类和特征提取,通过孤立森林异常检测算法帮助快速找出数据集中的异常点,节省人力成本和时间成本,定义每棵孤立树的深度正常化值,有助于对孤立森林中每棵树的深度进行标准化处理,保证异常点检测的准确性和稳定性,能够有效地识别异常点,提高了异常检测的效果和准确性,更全面地评估数据的异常性。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1