地下水型饮用水水源地污染源解析方法
【技术领域】
[0001] 本发明涉及水体检测技术领域,特别是指一种地下水型饮用水水源地污染源解析 方法。
【背景技术】
[0002] 近年来,就全国范围而言,我国地下水质量下降趋势明显,不宜作为饮用水水源的 比例逐渐增大,即使存在地下水水源地饮用水指标并不一定受到直接污染而超标现象,但 其水质可能已经不同程度承受污染风险,且水质同时受地下水运动演化影响,因此考虑选 择反映水质演化的地下水水化学类型常规指标,进行污染来源解析。地下水水质指标在取 样与分析过程中,由于取样和样品处理、试剂和水纯度、仪器量度和仪器洁净、采用的分析 方法、测定过程以及数据处理等过程均会产生测量误差(系统误差,随机误差,过失误差)。 从取样到分析结果计算误差都绝对存在,虽然在各个过程中进行质量控制,但无法完全消 除不确定性的影响。
【发明内容】
[0003] 本发明要解决的技术问题是提供一种地下水型饮用水水源地污染源解析方法,能 够有效消除测量检测的消除不确定性。
[0004] 为解决上述技术问题,本发明的实施例提供一种地下水型饮用水水源地污染源解 析方法,所述地下水型饮用水水源地污染源解析方法包括:
[0005] 对采样数据进行预处理,所述预处理包括缺失值处理、不确定性处理和数据合理 性分析中的至少一种;
[0006] 计算预处理后的采样数据的特征值和特征向量,得到特征值矩阵和特征向量矩 阵;
[0007] 利用所述特征值矩阵和特征向量矩阵求得因子载荷矩阵和因子得分矩阵;
[0008] 对所述因子载荷矩阵和因子得分矩阵进行非负约束的旋转;
[0009] 使用最小二乘方法进行迭代运算重复所述对所述因子载荷矩阵和因子得分矩阵 进行非负约束的旋转,确定因子载荷矩阵和因子得分矩阵,所述因子载荷矩阵对应污染源 指纹图谱,所述因子得分矩阵对应主要污染源贡献。
[0010]优选的,对采样数据进行缺失值处理包括:
[0011] 丢弃采样数据中含缺失数据的记录;
[0012] 用全局变量或属性的平均值代替缺失数据;
[0013] 先根据欧式距离或相关分析来确定距离缺失数据样本最近的K个样本,将这K个值 加权平均来估计该样本的缺失数据,其中k为大于零的整数;
[0014] 采用神经网络模型预测每一个缺失数据;
[0015] 对低于数据检测限的数据用数据检测限值或1/2检测限代替;
[0016]优选的,对采样数据进行不确定性处理包括:
[0017] 利用下式计算采样数据的不确定性:
[0018]
[0019]其中,S为误差百分数;C为指标浓度值;1为因子数据检出限。
[0020] 优选的,对采样数据进行数据合理性分析,包括:
[0021] 采用下式对采样数据进行筛选:
[0022]
[0023] 其中,S/N为信噪比,Xij表示第i采样点第j个样品的浓度,Sij表示第i采样点第j个 样品的标准偏差。
[0024] 优选的,所述计算预处理后采样数据的特征值和特征向量,得到特征值矩阵和特 征向量矩阵,包括:
[0025] 对预处理后的采样数据进行无量纲化;
[0026] 计算无量纲化后采样数据的协方差矩阵;
[0027] 利用雅各布方法计算协方差矩阵的特征值和特征向量,得到特征值矩阵和特征向 量矩阵;
[0028] 优选的,所述计算无量纲化后采样数据的协方差矩阵,包括:
[0029] 利用下式计算无量纲化后采样数据的协方差矩阵:
[0030] Z = DD7
[0031] 其中,Z为协方差矩阵,D为无量纲化后的样品数据矩阵,V为D的转置;
[0032] 利用雅各布方法计算协方差矩阵的特征值和特征向量,得到特征值矩阵和特征向 量矩阵,协方差矩阵表不为:
[0033] Z = QEQ/
[0034] 其中,E为特征值矩阵,Q为特征向量矩阵,Q'为Q的转置。
[0035] 优选的,所述利用所述特征值矩阵和特征向量矩阵求得因子载荷矩阵和因子得分 矩阵之前,包括:
[0036] 利用累计方差贡献率提取显著性因子;
[0037] 所述利用累计方差贡献率提取显著性因子的提取条件为:
[0038]
[0039]其中:η为显著性因子个数;m为污染物个数;λ为特征值。
[0040]优选的,所述利用所述特征值矩阵和特征向量矩阵求得因子载荷矩阵和因子得分 矩阵,所述因子载荷矩阵表示为:
[0041 ] S = QE1/2
[0042]因子得分矩阵可表示为:
[0043] c=(s,s)-Yd
[0044] 其中,S为因子载荷矩阵,C为因子得分矩阵,S'为S的转置。
[0045] 优选的,所述对所述因子载荷矩阵和因子得分矩阵进行非负约束的旋转,包括:
[0046] 利用下式对所述因子载荷矩阵和因子得分矩阵进行非负约束的旋转:
[0047] S^STf1
[0048] Ci = TiC
[0049] 其中,Si为旋转后的因子载荷矩阵;&为旋转后的因子得分矩阵;Ti为转换矩阵,且 Ti= (ct) ((/cr1彳为把c中的负值替换为零后的因子得分矩阵;
[0050] 利用因子载荷矩阵Si构建转换矩阵T2对因子载荷矩阵5:和因子得分矩阵&继续旋 转:
[0051] S2 = SiT2
[0052] C2 = T2_1Ci
[0053] 其中:S2为二次旋转后的因子载荷矩阵;C2为二次旋转后的因子得分矩阵;T2为二 次转换矩阵,且T 2 = (S/ SiΓ1 (S/ SJ),SJ为Si中的负值换为零后的因子载荷矩阵。
[0054] 优选的,所述使用最小二乘方法进行迭代运算重复所述对所述因子载荷矩阵和因 子得分矩阵进行非负约束的旋转,确定因子载荷矩阵和因子得分矩阵,包括:
[0055] 重复所述对所述因子载荷矩阵和因子得分矩阵进行非负约束的旋转,因子载荷中 负值的平方和小于预先设定的第二限定值时,输出因子载荷矩阵和因子得分矩阵。
[0056] 本发明的上述技术方案的有益效果如下:
[0057] 上述方案中,对所述因子载荷矩阵和因子得分矩阵进行非负约束的旋转,避免矩 阵分解的结果中出现负值,使得因子载荷和因子得分具有可解释性和明确的物理意义,使 用最小二乘方法进行迭代运算重复所述对所述因子载荷矩阵和因子得分矩阵进行非负约 束的旋转,确定因子载荷矩阵和因子得分矩阵,能够同时确定污染源和贡献,而不需要事先 知道源成分谱,运用简便,从而有效消除测量检测的不确定性。
【附图说明】
[0058]图1为本发明实施例的地下水型饮用水水源地污染源解析方法流程图。
【具体实施方式】
[0059] 为使本发明要解决的技术问题、技术方案和优点更加清楚,下面将结合附图及具 体实施例进行详细描述。
[0060] 如图1所示,本发明的实施例一种地下水型饮用水水源地污染源解析方法,所述地 下水型饮用水水源地污染源解析方法包括:
[0061] 步骤101:对采样数据进行预处理,所述预处理包括缺失值处理、不确定性处理和 数据合理性分析中的至少一种。
[0062] 步骤102:计算预处理后的采样数据的特征值和特征向量,得到特征值矩阵和特征 向量矩阵。
[0063] 步骤103:利用所述特征值矩阵和特征向量矩阵求得因子载荷矩阵和因子得分矩 阵。
[0064] 步骤104:对所述因子载荷矩阵和因子得分矩阵进行非负约束的旋转。
[0065] 步骤105:使用最小二乘方法进行迭代运算重复所述对所述因子载荷矩阵和因子 得分矩阵进行非负约束的旋转,确定因子载荷矩阵和因子得分矩阵,所述因子载荷矩阵对 应污染源指纹图谱,所述因子得分矩阵对应主要污染源贡献。
[0066] 本发明实施例的地下水型饮用水水源地污染源解析方法,对所述因子载荷矩阵和 因子得分矩阵进行非负约束的旋转,避免矩阵分解的结果中出现负值,使得因子载荷和因 子得分具有可解释性和明确的物理意义,使用最小二乘方法进行迭代运算重复所述对所述 因子载荷矩阵和因子得分矩阵进行非负约束的旋转,确定因子载荷矩阵和因子得分矩阵, 能够同时确定污染源和贡献,而不需要事先知道源成分谱,运用简便,从而有效消除测量检 测的不确定性。
[0067] 正定矩阵因子分析是基于多元统计的分析方法,对数据有效性具有一定的要求, 因此在进行分析之前首先对数据进行预处理。
[0068] 优选的,对采样数据进行缺失值处理包括:
[0069] 丢弃采样数据中含缺失数据的记录;
[0070] 用全局变量或属性的平均值代替缺失数据;
[0071] 先根据欧式距离或相关分析来确定距离缺失数据样本最近的K个样本,将这K个值 加权平均来估计该样本的缺失数据,其中k为大于零的整数;
[0072] 采用神经网络模型预测每一个缺失数据;
[0073]对低于数据检测限的数据用数据检测限值或1/2检测限代替;
[0074] 优选的,对采样数据进行不确定性处理包括:
[0075] 利用下式计算采样数据的不确定性:
[0076]
[0077]其中,3为误差百分数;c为指标浓度值;1为因子数据检出限。
[0078] 优选的,对采样数据进行数据合理性分析,包括:
[0079] 采用下式对采样数据进行筛选:
[0080]
[0081] 其中,S/N为信噪比,Xij表示第i采样点第j个样品的浓度,Sij表示第i采样点第j个 样品的标准偏差。
[0082] 信噪比小,说明样品的噪声大,信噪比越大则表示样品检出的可能性越大,越适合 模型。
[0083] 优选的,所述计算预处理后采样数据的特征值和特征向量,得到特征值矩阵和特 征向量矩阵,包括:
[0084] 对预处理后的采样数据进行无量纲化;
[0085] 计算无量纲化后采样数据的协方差矩阵;
[0086] 利用雅各布方法计算协方差矩阵的特征值和特征向量,得到特征值矩阵和特征向 量矩阵;
[0087] 优选的,所述计算无量纲化后采样数据的协方差矩阵,包括:
[0088] 利用下式计算无量纲化后采样数据的协方差矩阵:
[0089] Z = DD7
[0090] 其中,Z为协方差矩阵,D为无量纲化后的样品数据矩阵,V为D的转置;
[0091] 利用雅各布方法计算协方差矩阵的特征值和特征向量,得到特征值矩阵和特征向 量矩阵,协方差矩阵表不为:
[0092] Z = QEQ/
[0093] 其中,E为特征值矩阵,Q为特征向量矩阵,Q'为Q的转置。
[0094] 优选的,所述利用所述特征值矩阵和特征向量矩阵求得因子载荷矩阵和因子得分 矩阵之前,包括:
[0095] 利用累计方差贡献率提取显著性因子;
[0096] 所述利用累计方差贡献率提取显著性因子的提取条件为:
[0097]
第一限定值
[00