数据真实值的估计方法及数据真实值估计装置的制造方法
【技术领域】
[0001] 本发明涉及数据领域,尤其涉及一种数据真实值的估计方法及数据真实值估计装 置。
【背景技术】
[0002] 随着信息技术的发展,"大数据"一词越来越多地被提及,大数据被用以描述和定 义信息爆炸时代产生的海量数据,如企业在日常运营中生成、累积的用户网络行为数据。
[0003] 大数据的特点不仅仅是数据规模的大,而且还有一个非常重要的特点是数据的多 样性,多样性是指描述同一个对象的数据可能来自不同的数据源,且具有不同的数据表现 形式。例如,同一个客户的信息可能存储在同一个公司的多个不同的数据库当中,一个病人 的病历记录可能分布在多个不同的医院里,同一个自然现象(台风或者暴雨)在不同的实验 室、气象台可能会观测到不同的风力指数等。数据在输入,变换等操作过程中由于人为或 者设备的误差可能导致描述同一个对象的数据在不同的数据源中存在误差,缺失甚至是相 互冲突的现象。在工业生产或者基于数据分析的决策支持系统中,这种数据的冲突而导致 的信息不可靠会引起极其严重的后果,给企业造成重大的损失。所以,从多源异构数据源当 中辨识出真实可靠的数据,化解多源数据之间的冲突现象具有非常重要现实意义和应用价 值。
[0004] 数据库研究领域对多源数据的冲突化解问题进行了深入的研究,在数据集成的应 用中,提出了一系列的方法来化解多源异构数据的冲突。对于类别型的数据,常用的冲突化 解方法是根据投票原则,将多个数据源当中出现次数最多的值作为数据的真实值;对于连 续型的数据,常用的冲突化解方法是简单的取多个数据源的数据的中值或者均值作为数据 的真实值。
[0005] 然而,投票、取中值或均值的方法对于过去的应用来讲,一般来说能够满足要求, 但是随着科技的发展和应用的变化,这种简单的方法对所有的数据源均等对待的手段就明 显不足。对每个数据源都取相等的权重,极有可能得到与真实值偏差严重的不可靠数据。在 复杂的现实世界当中,投票、取中值或均值的方法不能判断出不可靠的数据源。例如当出故 障的传感器不断发射错误的值或者是网络病毒不断在网络上传播错误的信息时,投票、取 中值或均值的方法不能判断出这种不可靠的信息来源,造成对真实值的偏差估计。
【发明内容】
[0006] 本发明提供了一种数据真实值的估计方法及数据真实值估计装置,用于提高数据 真实值估计的准确性。
[0007] 第一方面,本发明提供了一种数据真实值的估计方法,该方法包括:
[0008] 确定数学优化模型,其中,所述数学优化模型基于第一优化参数和第二优化参数 构建,所述第一优化参数包括目标数据的估计值,所述第二优化参数包括各个目标数据源 的权重值,其中,所述目标数据源包含所述目标数据;
[0009] 初始化所述第一优化参数和所述第二优化参数;
[0010] 对所述第一优化参数和所述第二优化参数进行迭代更新运算;
[0011] 当满足预置的迭代中止条件时,将满足预置的迭代中止条件时得到的所述目标数 据的估计值确定为所述目标数据的真实值;
[0012] 其中,所述对所述第一优化参数和所述第二优化参数进行迭代更新运算,包括:第 一迭代更新运算或第二迭代更新运算;
[0013] 所述第一迭代更新运算包括:
[0014] 根据所述数学优化模型,所述目标数据在所述各个目标数据源中的记录值以及所 述第一优化参数的当前值,更新所述第二优化参数;
[0015] 在更新所述第二优化参数后,根据所述目标数据在所述各个目标数据源中的记录 值和所述第二优化参数的当前值,更新所述第一优化参数;
[0016] 在更新所述第一优化参数后,返回并顺序执行所述更新所述第二优化参数的步骤 和所述更新所述第一优化参数的步骤;
[0017] 所述第二迭代更新运算包括:
[0018] 根据所述目标数据在所述各个目标数据源中的记录值和所述第二优化参数的当 前值,更新所述第一优化参数;
[0019] 在更新所述第一优化参数后,根据所述数学优化模型,所述目标数据在所述各个 目标数据源中的记录值以及所述第一优化参数的当前值,更新所述第二优化参数;
[0020] 在更新所述第二优化参数后,返回并顺序执行所述更新所述第一优化参数的步骤 和所述更新所述第二优化参数的步骤。
[0021] 在第一方面的第一种可能的实现方式中,在所述各个目标数据源中,每个目标数 据源包含至少一条数据记录,且每条数据记录包含至少一个数据,且,每个目标数据源包含 相同数量的数据记录,且,每条数据记录包含相同数量的数据;
[0022] 所述确定数学优化模型具体为确定如下数学优化模型:
[0026] 在上式中,vW为目标数据源中所有数据的估计值集合,W表示各个目标数据源的 权重值的集合,K表示目标数据源的个数,N表示每个目标数据源包含的数据记录的数量, M表示每条数据记录包含的不同数据类型数据的数量,wk表示第k个目标数据源的权重值, 表示第i条数据记录的第m个数据在第k个目标数据源中的记录值,^>丨为 用于计算vif与vf之间的误差的代价函数,S(w)为用于对目标数据源的权重值进行约 束的约束函数,其中,各个目标数据源的权重值均为实数;
[0027] 所述初始化所述第一优化参数和所述第二优化参数,包括:
[0028] 初始化目标数据源中每个数据的估计值和每个目标数据源的权重值;
[0029] 所述根据所述数学优化模型,所述目标数据在所述各个目标数据源中的记录值以 及所述第一优化参数的当前值,更新所述第二优化参数,包括:
[0030] 所述根据所述数学优化模型,所述每个数据在所述各个目标数据源中的记录值, 当前所述每个数据的估计值以及第一公式,更新每个目标数据源的权重值,其中,所述第一 公式为:
[0032] s. t. 8 (ff)=l;
[0033] 所述根据所述目标数据在所述各个目标数据源中的记录值和所述第二优化参数 的当前值,更新所述第一优化参数,包括:
[0034] 根据所述每个数据在所述各个目标数据源中的记录值,当前每个目标数据源的权 重值以及第二公式,更新所述每个数据的估计值,其中,所述第二公式为:
[0036] 结合第一方面的第一种可能的实现方式,在第二种可能的实现方式中,
[0037] 所述S(W)取如下三种形式中的任意一种:
[0038]
_,其中,wk 不小于 0,k=l, 2. ? ?,K;
[0039]
,其中,wk不小于0,且p为正整数;
[0040]
,其中,wk取0或1,且j为不等于0的实数。
[0041] 结合第一方面的第一或第二种可能的实现方式,在第三种可能的实现方式中,
[0042] 对于数据类型为离散型变量的数据,(v£\ 满足如下条件:
[0044] 结合第一方面的第一或第二种可能的实现方式,在第四种可能的实现方式中,对 于数据类型为连续型变量的数据,满足如下两个条件中的任一个:
[0047] 结合第一方面,或第一方面的第一至第四任一种可能的实现方式,在第五种可能 的实现方式中,所述方法还包括:
[0048] 判断所述迭代更新运算过程中的迭代累计次数是否超过预置的门限值,若超过, 则判定当前满足预置的迭代中止条件,若不超过,则判定当前不满足预置的迭代中止条件。
[0049] 结合第一方面的第一至第四任一种可能的实现方式,在第六种可能的实现方式 中,所述方法还包括:判断所述迭代更新运算过程中,本次迭代得到的f(vW,W)与前次迭 代得到的f(vW,W)之间的差值是否小于预置阈值;
[0050] 若小于预置阈值,则判定当前满足预置的迭代中止条件,若不小于预置阈值,则判 定当前不满足预置的迭代中止条件。
[0051] 第一方面,本发明提供了一种数据真实值估计装置,该装置包括:
[0052] 第一确定单元,用于确定数学优化模型,其中,所述数学优化模型基于第一优化参 数和第二优化参数构建,所述第一优化参数包括目标数据的估计值,所述第二优化参数包 括各个目标数据源的权重值,其中,所述目标数据源包含所述目标数据;
[0053] 初始化单元,用于初始化所述第一优化参数和所述第二优化参数;
[0054] 迭代更新运算单元,用于对所述第一优化参数和所述第二优化参数进行迭代更新 运算;
[0055] 第二确定单元,用于当满足预置的迭代中止条件时,将满足预置的迭代中止条件 时得到的所述目标数据的估计值确定为所述目标数据的真实值;
[0056] 其中,所述迭代更新运算单元具体用于:根据所述数学优化模型,所述目标数据在 所述各个目标数据源中的记录值以及所述第一优化参数的当前值更新所述第二优化参数, 在更新所述第二优化参数之后,根据所述目标数据在所述各个目标数据源中的记录值和所 述更新后的第二优化参数更新所述第一优化参数,返回并顺序执行所述更新所述第二优化 参数的动作和所述更新所述第一优化参数的动作;
[0057]或者,
[0058] 所述迭代更新运算单元具体用于:根据所述目标数据在所述各个目标数据源中的 记录值和所述第二优化参数的当前值更新所述第一优化参数,在更新所述第一优化参数之 后,根据所述数学优化模型,所述目标数据在所述各个目标数据源中的记录值以及所述更 新后的第一优化参数,更新所述第二优化参数,返回并顺序执行所述更新所述第一优化参 数的动作和所述更新所述第二优化参数的动作。
[0059] 在第一方面的第一种可能的实现方式中,在所述各个目标数据源中,每个目标数 据源包含至少一条数据记录,且每条数据记录包含至少一个数据,且,每个目标数据