1.一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于,具体包括以下步骤:
2.根据权利要求1所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述s101中,通过交通行业信息系统推送自动捕捉静态交通数据,利用交通行业专用终端设备自动捕捉动态交通数据。
3.根据权利要求1所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述s101中,将静态交通数据和动态交通数据加载整合至两个dataframe中,根据静态、动态交通数据之间的关联字段利用pandas库的merge()函数将两个dataframe合并构成交通行业数据集,利用sqlalche my库连接数据库直接或间接将交通行业数据集存储至数据库表、csv文件以及json文件,利用select*from查询存储离散型字段的新表,检查数据库表中的记录数量是否相符预期并对比存储前的数据。
4.根据权利要求1所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述s102中,利用df.isnul l()方法检查交通行业数据集是否存在空值和缺失值,检查交通行业数据集是否在有效范围内,利用df.duplicated()方法检查交通行业数据集是否存在异常和重复记录。
5.根据权利要求1所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述s102中,设定离散型字段阈值为5,根据交通行业数据集中字段取值范围判断字段类型,当字段取值范围小于离散型字段阈值,则判断为离散型字段,将离散型字段提取并创建新的dataframe存储离散型字段,利用one-hot encoding方法对离散型字段进行独热编码处理,将离散型字段的每个取值转换为一个二进制向量。
6.根据权利要求1所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述s103中,随机选择离散型字段转换二进制向量的特征,对于选定的特征,随机选择一个值“val”作为切分值,以特征和切分值作为孤立树的根节点,对于每个交通行业数据集,从孤立树的根节点开始沿着分支向下移动,直至到达孤立树的叶子节点,定义每棵孤立树的深度正常化值,根据特征和切分值将交通行业数据集划分为左、右两个孤立树子集,对左、右两个孤立树子集分别迭代随机选择、划分步骤在孤立树子集上构造孤立子树,直到停止条件被触发,将孤立子树组合构成孤立森林,通过孤立森林的异常分识别交通行业数据集的异常点。
7.根据权利要求6所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述孤立森林的异常分的具体公式为:
8.根据权利要求1所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述s104中,对当前静态、动态交通数据对应的异常点所在的特征进行绘制箱线图并可视化当前静态、动态交通数据对应的异常点在不同特征维度的分布情况和位置,通过查看异常点在不同特征维度上的分布情况寻找具有异常值的特征并考虑其与异常原因的联系,连接交通行业领域知识图谱,结合特征和上下文信息探索导致当前静态、动态交通数据异常的原因。
9.根据权利要求8所述的一种基于孤立森林算法的交通行业数据质量异常检测方法,其特征在于:所述交通行业领域知识图谱对当前静态、动态交通数据构建成知识图谱的实体节点,并将交通行业领域知识构建知识图谱的关系边,组合并构建完整的交通行业领域知识图谱验证当前静态、动态交通数据对应的异常点,利用知识图谱查询语言获取当前静态、动态交通数据对应的异常点的实际节点与知识图谱的实体节点进行匹配并进行比对,通过比对实际节点属性信息和知识图谱的实体节点的属性信息理解节点之间的关联。