一种基于双重信任检验的提高Skyline数据质量的采集方法

文档序号:32658904发布日期:2022-12-23 22:48阅读:28来源:国知局
一种基于双重信任检验的提高Skyline数据质量的采集方法
一种基于双重信任检验的提高skyline数据质量的采集方法
技术领域
1.本发明涉及移动群智感知中天际线计算应用,尤其涉及一种提高skyline数据质量的采集方法。


背景技术:

2.移动群智感知是物联网重要的应用之一。在这样的平台上,许多传感设备作为工人,利用其丰富的传感设备来感知数据并向移动群智感知平台报告。移动群智感知平台综合这些数据应用,并将其提供给用户。skyline的中文名称是天际线。skyline计算是一种用户提交查询数据任务,移动群智感知平台从许多工人向用户提交的数据中返回优化结果的数据收集方式。skyline数据包括许多工人向用户提交的数据及其返回的优化结果。然而,虽然这种数据采集方式给生活带来了更多的方便,但它也使其安全性成为一个关键的要求。因为工人需要支付时间、通信资源、设备和其他成本来感知数据,而且在某些情况下,他们需要转移到指定的地点来收集数据,所以他们需要支付更多的费用。因此,一些不可信的工人会捏造一些虚假数据来欺骗奖励,甚至一些恶意的工人会故意提交一些特定的攻击性数据来危害应用,给平台造成重大损失。由于天际线计算的特性,这些虚假或冒犯性的数据对天际线计算的危害尤为严重。因此,出于安全考虑,平台需要能够选择可信工人来获取真实数据,以确保平台不受攻击。然而,确定可靠的工人以获取真实数据面临着巨大的挑战。
3.(1)首先,如何识别工人上报的数据是否是真实面临着巨大的挑战。目前研究的主要方法是基于数理统计的一类方法:均值法、中值法、加权平均法和投票法。其中,均值法的思想是mcs中的工人大部分是可信的,因此平台从同一地点招募工人并收集数据,然后将这些数据的均值作为真实数据。投票的方法是请一些有经验的专家对工人的数据进行投票,投票越多的就是真实数据。然而,均值法、中值法和加权平均法本质上都是数学统计值。因此,恶意工人可以通过低成本的方法轻松击败这些方法。例如,恶意工人可以使用组队攻击的方法,多个恶意工人组队在同一地点提交数据。由于攻击者占多数,攻击者可以让平台得到任何他们想要的错误结果。此外,在少数攻击者的情况下,攻击者仍然可以通过报告与真实数据相差较大距离的数据,使平均值偏离真实数据。(2)其次,在很多情况下,真实数据很难核实。这使得恶意工人很难核实,即使他们报告了错误的数据,也很难确定它是真的还是假的,因此获取真实数据更具挑战性。(3)最后,隐私保护也是天际线计算中另一个值得注意的问题。采用信任评价最重要的一点是不向工人透露用户的评价,也不向用户透露工人的评价。然而,在天际线计算中,工人和用户之间没有直接的交互,在进行间接信任评估的过程中,评价者的隐私会被泄露。


技术实现要素:

4.本发明要解决的技术问题是克服现有技术存在的不足,提供一种基于双重信任检验的提高skyline数据质量的采集方法,准确识别恶意工人,并将其排除在任务之外,提高平台采集的数据质量。让系统收集到的恶意数据比例降低,有效保障了系统的安全性和隐
私性。
5.为解决上述技术问题,本发明采用以下技术方案:一种基于双重信任检验的提高skyline数据质量的采集方法,工人检验中首先是通过可信工人提交的数据来验证其他信任程度未知的工人的信任程度。其次通过可信用户的评价对信任程度未知的工人进行信任度评价;用户检验中首先通过可信用户对数据的评估来验证其他未知可信用户的可信度。然后通过用户对可信工人提交的可信数据的评价来验证信任程度;最后基于概率天际线计算的工人选择算法,消除了与任务无关的低信任度工人,有效提高了平台采集数据的质量。
6.上述的提高skyline数据质量的采集方法中,优选的,所述的双重信任检验为:系统定义k个信任等级,数据是百分制,得分越高,数据的质量越高。首先,为了避免数据最值的影响,将检验阈值设置为同一类型数据去掉最大值和最小值后的平均值。其次,检验过程是将新工人或新用户的数据与相应的检验阈值进行比较。不同的数据差值d对应不同的信任等级l,如以下公式所示。
[0007][0008]
(1)首先,通过可信工人提交的数据来验证其他信任度未知工人的可信度。令工人i为可信的工人,可信工人提交的数据为datai。与此同时,一些信任度未知的工人也提交了工人i相同任务的数据。因此,用datai来检验其他工人提交的数据,并根据其他工人提交的数据与datai之间的差异程度,将其他工人划分为不同的信任等级。如果新工人是可信的,则将其添加到可信的工人队列并更新可信数据的阈值。(2)其次,通过可信用户对数据的评价来验证其它信任度未知用户的信任度。设用户j为可信的用户。设可信用户j提交对数据的评价γi。同时还有些信任度未知的用户也提交了同一数据的评价。因而,将其它用户提交的评价与γi进行比对,依据其它用户提交的评价与γi的差异程度,将其他用户归入不同的信任等级。(3)然后,通过用户对可信工人提交的可信数据的评价来验证其信任度。系统收集信任度未知用户对这些可信数据的评价。由于对可信数据的评价是好的评价,因而,其评价结果是已知的。则可以通过这些用户的评价与正确评价结果的差异程度而将这些用户归入不同的信任等级。(4)最后,通过可信用户的评价给出信任度未知工人的信任度评价。已经获得一组可信的用户集合,有一组信任度未知的工人提交了一组数据集合。那么,就让可信用户对这些数据进行评价。由于可信用户的评价是真实的评价,因而直接反映了工人提交的数据的好坏。因而就可以依据可信用户对数据评价的好坏而将这些工人归入不同的信任等级。
[0009]
上述的提高skyline数据质量的采集方法中,优选的,所述的基于概率天际线计算的工人选择为:不确定对象之间的主导关系是不同的,为简单起见,假设对象中的每个元组都有相同的出现概率。对于ai∈a和bj∈b,a<b即a主导b可由以下式子得出:
[0010][0011]
概率天际线表示一个对象在天际线中被选中的概率,可用于计算mcs任务中工人的数据质量。工人a的概率天际线值计算为:
[0012][0013]
其中,对于一个元组的天际线概率,可以由以下式子得出:
[0014][0015]
同样也可以计算工人选择中的其他工人的数据质量。mcs平台所匹配的工人都有五种数据,即信任等级l,传感位置r,工人要价p,任务相似度s和ps-score。设置阈值t序列,根据实际情况t
1-t4对应着信任等级,传感位置,工人要价和任务相似度。只选择满足阈值范围内匹配的工人。ps-score值越大,所选工人的数据质量越高。在阈值范围内,优先考虑ps-score较高的工人。首先,第一位阈值范围内的工人将被添加到天际线队列skyline中,并从工人表wc中删除。其次,新工人将不断与skyline中的工人进行比较,如果他没有被所有的skyline工人所主导,那么将他添加到skyline中,并从wc工人表中删除他;否则,将直接从wc中删除他。该算法对其余工人重复上述步骤,直到skyline中有n
sky
工人或者遍历完成。最后,平台宣布所有的n
sky
工人来执行mcs任务,并将其任务数据传送给用户。
[0016]
与现有技术相比,本发明的优点在于:(1)本发明基于双重信任检验来获取工人的信任。在评价过程中,可信工人/用户的信任度会逐渐增加,加快信任评价的进程,从而使被识别的工人/用户的比例不断增加。能够有效区分恶意工人和用户,将平台获取恶意数据的概率降低约12.6%-61.1%;(2)根据概率天际线计算的性质,在工人信任评价的基础上进行工人选择,这样候选工人的属性就不会被其他工人主导,从而提高了天际线计算的数据采集质量。
附图说明
[0017]
图1为本发明所采用的移动群智感知网络结构。
[0018]
图2为本发明工人选择的示意图。
[0019]
图3为本发明与其它方法候选工人集的数据得分对比图。
[0020]
图4为本发明与其它方法候选工人集的可信率对比图。
[0021]
图5为本发明与其它方法候选工人集的数量对比图。
[0022]
图6为本发明与其它方法第一名天际线工人的信任等级对比图。
[0023]
图7为本发明与其它方法第一名天际线工人的数据得分对比图。
[0024]
图8为本发明与其它方法用户评论得分对比图。
[0025]
图9为本发明说明书摘要的附图。
具体实施方式
[0026]
以下结合附图和具体实施例对本发明作进一步详细说明。
[0027]
如图1所示,本发明的结构主要由四个实体组成,其中包括部分有着请求任务的用户u={u1,u2,u3…
},一个服务提供商(sp),服务提供商中的移动群智感知云处理服务平台s1,s2,和一些工人w={w1,w2,w3…
}。
[0028]
如图2所示,在一个1500m
×
1500m的传感区域a和具有不同关键参数的n个工人的
集合。对于每个工人关键参数包括信任等级trust_level,传感位置r,工人要价p,任务相似度s和ps-score。假设所有的mcs任务发生在a的中心位置。在用户发起感知任务请求之后,s1根据过滤阈值(信任等级t1,传感位置t2,工人要价t3,任务相似t4)来选择合适的工人。更具体地说,首先,s1只选trust_level≤t1,r≤t2,p≥t3,s≥t4的工人子集(记为wc);然后,s1和s2便会开始对用户与工人进行双重检验并更新对应的信任等级,让ns天际线工人来执行感知任务;最后,mcs任务完成后,用户需要向s1提交一份带有d维度的评价表。s1和s2会更新每个工人的ps-score和用户的新评价等。
[0029]
为验证本发明方法的可行性与高效性,对本发明方法进行了理论与实验分析。得到图3到图8的实验结果。在图中dtc-mdd即基于双重信任检验的提高skyline数据质量的采集方法,就是本文发明的方法。pcs-wss即只基于概率天际线的工人选择方案,它在不检测恶意数据的情况下,利用概率天际线算法选择工人。然而,工人和用户的高质量数据很可能是联合欺骗,这样就会导致mcs任务执行失败。
[0030]
图3给出了本发明与其它方法候选工人集的数据得分对比,从实验结果可以看出,dtc-mdd的得分均在80分以上,这说明本发明中候选工人数据的质量较高,有效提高了skyline数据质量的采集方法。在图3(a)(b)中,在不同信任等级阈值下得分表现存在较大差异,dtc-mdd的得分都比较稳定。图3说明了本发明的有效性和稳定性。
[0031]
图4给出了本发明与其它方法候选工人集的可信率对比,从实验结果可以看出,总体可信率在78%以上,这说明了dtc-mdd恶意数据检测的有效性。其次,在图6(a)(b)中,不同信任等级阈值下的可信率存在较大差距。当信任等级阈值为3.5时,可信率高达96%左右,且相对稳定。当信任等级阈为5时,即在pcs-wss方案中,可信率呈下降趋势。这说明了dtc-mdd稳定性,能够准确识别恶意工人,保证mcs的安全。
[0032]
图5给出了本发明与其它方法候候选工人集的数量对比,从实验结果可以看出,随着位置阈值和工人数量的增加,候选工人的数量也会增加。但是阈值不同,每个增长的速度也不同。其次,在图5(a)(d)中,当信任等级阈值为1时,数量处于更低的水平,更稳定。由此可以证明dtc-mdd的有效性,它可以检验工人的信任度和数据质量,从而减少恶意数据攻击。
[0033]
图6给出了本发明与其它方法第一名天际线工人的信任等级对比,从实验结果可以看出,第一名天际线工人的信任等级为3或更小。也就是说,他们都是可信工人。可以看到信任阈值2和信任阈值5之间的差异非常大。他们之间的差距可以有两到三个信任等级。这也反映了dtc-mdd恶意检测的有效性,保证了天际线第一名工人的可靠性。当信任等级阈值为2时,天际线第一名工人的平均信任等级在1.6左右,相对稳定。因此可以看到dtc-mdd比pcs-wss更稳定。
[0034]
图7给出了本发明与其它方法第一名天际线工人的数据得分对比,从实验结果可以看出,在dtc-mdd方案中,第一名天际线工人的得分在80分以上,这说明了dtc-mdd系统中工人选择的有效性,保证了工人数据的质量。其次,当信任等级阈值为1-3时,随着t1,t2,t3和t4的增长,他们的平均分数相对稳定,大多在88分左右.这显示了dtc-mdd是多么稳定。相反,在图11(d)中,随着工人任务相似度的降低,第一名天际线工人的得分也有下降的趋势。从中可以看出pcs-wss的稳定性很差。
[0035]
图8给出了本发明与其它方法用户评价分数对比,从整体上看,在dtc-mdd中用户
的评价分数均在75以上。说明dtc-mdd方案能够提高skyline数据质量。随着用户数量、工人信任等级阈值和距离阈值的增加,各信任等级阈值的评价分数表现相对稳定。也说明了dtc-mdd具有很高的稳定性。
[0036]
以上所述仅是本发明的优选实施方式,本发明的保护范围并不仅局限于上述实施例。对于本技术领域的技术人员来说,在不脱离本发明技术构思前提下所得到的改进和变换也应视为本发明的保护范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1