一种面向社交网络的基于信任的众包工人筛选方法
【技术领域】
[0001] 本发明涉及众包工人筛选领域,特别是涉及一种面向社交网络的基于信任的众包 工人筛选方法。
【背景技术】
[0002] 众包是互联网环境下新兴的一种商业模式。简单地说,众包是任务需求者将计算 机难以完成的任务发布到网络上,依靠大众智慧来完成的过程。然而,由于大量欺骗者类型 工人的存在,众包工人的可信度一直以来都是众包领域的关键问题之一。欺骗者类型的众 包工人为了快速获取完成任务所能得到的奖励,往往不会关注任务本身,不仅导致任务不 能高质量完成,还会使任务需求者花费较高的时间和经济代价。相反,可信任的工人使得任 务能够高质量完成,为任务需求者节省时间经济成本。因此,如何在众多众包工人中选择出 可信任工人是众包领域所需要解决的首要问题。
[0003] 现有众包工人的筛选方法主要侧重于对"欺骗者类型"工人的过滤。直接的方案 是使用黄金标准数据(Gold Standard Data)。黄金标准数据是指有着正确答案的问题,可 以用来评价工人的可信任性。通过查看工人提交的答案,如果工人将此类问题回答错误,任 务需求者则认为这个工人是不可信的,从而拒绝其完成任务。另外,一些质量控制机制通过 对众包工人的可信度进行预测性分析,根据任务需求者设置的可信度标准,从而过滤掉可 信度达不到标准的工人。
[0004] 目前,关于众包工人选取的研究工作主要集中在传统众包平台上(比如亚马逊土 耳其机器人(Amazon Mechanical Turk))。任务需求者将任务发布在众包平台上,等待众 包工人来完成。这类众包模式的一个典型特征是任务需求者与众包工人之间没有社交关 系,导致任务需求者只能被动地选择众包工人。然而,随着社交网络的普及(如Facebook、 Twitter、微博等),社交网络具有用户众多、用户之间有社交关系以及根据用户分享的内 容,便于推测其可信度等特点,将众包系统与社交网络相结合势必会产生更强大的众包平 台。但是,现有的众包工人的筛选主要通过过滤欺骗者类型的工人,并且没有考虑语境信 肩、。
【发明内容】
[0005] 本发明主要解决的技术问题是提供一种面向社交网络的基于信任的众包工人筛 选方法,具有可靠性能高、工作量少、计算准确、可信度高等优点,同时在众包工人筛选的应 用及普及上有着广泛的市场前景。
[0006] 为解决上述技术问题,本发明采用的一个技术方案是: 提供一种面向社交网络的基于信任的众包工人筛选方法,步骤包括: (1)搭建语境社交网络框架G = (V,E,LV,LE),其中,V是顶点集,E是边集,LV是相 关定点属性,LE是相关边属性;所述相关定点属性包括个人影响力,所述相关边属性包括 社会信任和社会亲密度; (2) 在语境社交网络中,构建强关联单元的子网,随机挑选出社交网络中的K个含有高 数值的社会影响力的顶点作为种子节点,对于每个种子结点,采用深度优先遍历方法来寻 找连接具有高数值社会影响因素的后继结点;所述强关联单元的每个顶点都连接着具有较 大值的个人影响力,所述强关联单元的每条边都连接着具有较大值的社会亲密度和社会信 任; (3) 对强关联单元做一个索引,所述索引包括连接索引和社会语境索引; (4) 设置用来作为社交工人信任度估量标准的信任质量的限制值,即设置社会信任、社 会亲密度以及个人影响力三个社会影响因素的限制值; (5) 设置源点需求者为wl,目标工人表示为wm,且沿着从源点需求者到目标工人的社 交路径的中间结点表示为w2,一,Wm-I,并将社会信任、社会亲密度和个人影响力这3个 的合成值分别设置为 Tp (wl,· · ·,wm)、rp (wl,· · ·,wm )和 P p (wl,· · ·,wm ); (6) 计算3个社会影响因素的合成值以及可用性函数: (6. 1)社会信任的合成值:沿着源点需求者到目标工人的社交信任路径,将所有中间结 点之间的社会信任值相乘,其计算公式如下:
(6. 2)社会亲密度的合成值:在一条社交路径中,社会亲密度会随着中间结点的增加而 迅速减小,另外,在实际的社交网络中,当延伸到另一个顶点时,社会亲密度会下降得更快, 即社会亲密度的减弱不是线性的,其合成值计算如下:
(6. 3)个人影响力的合成值:因为在社交网络中,个人影响力不具有传递性,所以将所 有中间结点的个人影响力值的平均值作为这条社交路径的个人影响合成值,其计算方式如 下:
(6. 4)设置一个作为沿着源点需求者到目标工人的社交路径的信任度的测量标准,即 用来估计目标工人的信任度测量的可用性函数Q,其计算公式如下:
其中,T,r,P是社交路径影响因素所对应的合成值,和分别是T,r, P的权重,轉、乳和:?:均取值于集合(〇,1)并且·: + :?^ + %: =1,当一条路径的可用 性函数值越大,则这个目标工人的可信度越高; (7) 设置一个用来查看目标工人是否达到源点需求者要求的目标函数δ ; 如果目标工人满足源点需求者所设置的信任质量的限制值,即当从源点需求者到目标 工人的社交路径的社交影响因素合成值大于对应的信任质量的限制值时,目标函数计算公 式如下:
其中,t、r和P分别是沿着源点需求者到目标工人的社交影响因素的合成值,λ, ,\分别是源点需求者所设置的信任质量的限制值; 由于如果一个目标工人满足信任质量的限制,即^ 〈 1,如果一个目标工人不 满足信任质量的限制,即1,所以目标函数值越小,目标工人的可信度越高; (8)采用蒙特卡洛方法,即通过从目标工人(Vt)遍历到源点需求者(Vs)的反向筛选过 程,以及通过从源点需求者(Vs)遍历到目标工人(Vt)的正向选取过程,查找到符合源点需 求者要求的目标工人。
[0007] 在本发明一个较佳实施例中,所述连接索引记录了一系列顶点的信息,每个顶点 的索引包含了这个顶点的祖先结点以及后继结点,当要查询的顶点包含在强关联单元中 时,即可直接查看其连接索引,找到其祖先结点或者后继结点。
[0008] 在本发明一个较佳实施例中,所述社会语境索引的步骤为:计算两个顶点之间的 多条路径的社会信任值、社会亲密度和个人影响力合成值,如果一条路径的三个社会影响 因素值,即社会信任值、社会亲密度以及个人影响力均大于其余路径,那么社会语境索引就 会记录这条路径所合成的社会影响因素值,否则,就索引三条分别有着社会信任、社会亲密 度以及个人影响力的最大值的路径。
[0009] 在本发明一个较佳实施例中,所述反向筛选,即从目标工人点出发,查看目标工人 能否满足源点需求者设置的信任质量限制,并且筛选掉不能够满足源点需求者基本需求的 目标工人,其具体步骤包括: (a) 按顺序搜索K个强关联单元,如果查找成功,即在强关联单元中找到相应的顶点, 则将其祖先结点添加到反向标记顶点集中,将从目标工人结点到要查找的顶点的祖先结点 的相应的合成值保存到其祖先节点;如果查找失败,进行步骤(b); (b) 计算从目标工人点到当前选中点的所有邻接点的社交路径的目标函数值,并产生 出K个最小目标函数值的候选点; (c) 在候选点中挑选出一个作为要扩展的点,且挑选扩展的点的概率公式如下:
(d) 保存相应的T、r、雜合成值到当前扩展点; (e) 如果没有到达源点需求者要求的目标工人点,则继续步骤(a);如果,δ >1,则过滤 掉这个目标工人点;如果S <1,则将其添加到候选工人集中。
[0010] 在本发明一个较佳实施例中,所述正向选取,就是从源点需求者出发,查看一个目 标工人究竟有多可靠,即查看从源点需求者到其的社交路径所能得到的可用值有多大,其 具体步骤包括: (f) 按顺序搜索K个强关联单元,如果要查询的顶点包含在强关联单元中,则将顶点的 后继结点添加到正向扩展顶点集中,并保存相应的T、r、#的合成值到顶点的后继结点,否 贝1J,进行步骤(g); (g) 计算从源点需求者到当前扩展点的并且被反向标记过的邻接点的可用性值,并挑 选出K个具有最大可用性值的点作为候选点; (h) 在候选点中挑选出一个作为要扩展的点,且挑选扩展的点的概率公式如下:
(i) 保存相应的T、r、雜合成值到当前扩展点; (j) 如果没有到达目标工人点,继续步骤(f),否则,返回其可用值。
[0011] 本发明的有益效果是:。
【附图说明】
[0012] 为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它 的附图,其中: 图1是本发明的一种面向社交网络的基于信任的众包工人