一种基于用户不一致性信息的协同众包质量控制方法与流程

文档序号:15639334发布日期:2018-10-12 21:52阅读:318来源:国知局

本发明涉及协同计算以及众包技术领域,是一种基于用户不一致性来提高众包任务质量的众包质量控制方法。



背景技术:

“众包”(crowdsourcing)这一概念最早是由美国《连线》杂志的记者杰夫•豪(jeffhowe)在2006年6月提出的,它是指任务发布者利用互联网将任务分配出去,借助群体的智慧来完成大量计算机难以完成的任务。作为一个新兴的商业和工作模式,众包迅速吸引了各个领域专家、学者的关注,大量的研究学者从不同视角开展了一系列关于众包的应用研究。其中,利用众包技术来进行数据标注是众包的一个典型应用。

在机器学习等领域中,研究人员常常需要大量的标注数据作为训练集。由于众包有参与人数多、花费少等优点,越来越多的研究者选择众包平台收集实验数据。通常的工作模式为,任务发布者将大批量原始数据进行预处理后,发布在众包平台上,由互联网上的分布式用户来进行数据标注,并将答案汇集至任务发布者,用以进行模型的训练。在整个过程中,标签的质量至关重要,直接影响到机器学习模型训练的效果。但由于众包的开放性特征(opencall),工作者的个人背景、专业技能、工作环境等各不相同且具有不确定性,这种不确定性导致了众包过程很难保证结果的质量。特别是对于一个任务规模较大且不确定的数据集,任务发布者难以给出足够详细且精确的工作指南,而在没有非常完备且精准的工作指南的情况下让用户进行标注,势必会得到低质量的众包标注结果,并且任务的较大规模使得任务发布者也难以发现其中可能存在的结果质量问题,进而间接影响了训练模型的效果。

众包任务质量是众包领域一直以来的研究热点和难点。为保证任务质量,传统的众包交互模式一般会采用让多个用户进行统一任务标注的方法,根据众数投票原则,选出得分较高的答案作为最终结果。这种方法在大多数情况下是有效的,但对于大规模且存在歧义的数据集,任务工作者数量的增加对任务质量的提升并无显著效果。

究其原因,这种常用的质量控制方法,例如众数投票、答案聚合、工作者过滤、答案推理等,在本质上都是忽略了用户中产生的不一致答案,将这类不一致信息视为“噪声”而不是“信息”,并试图通过众数投票的过程移除这些“噪声”,将概率较高的答案定义为最终答案。例如,在图片标注、实体识别等标注任务中,如果标注数据本身存在歧义或者一词多义等情况,而发布者又预先框定备选答案(选择“是”或者“否”),导致工作者在不确定的情况下,依然会选择某一个答案,最终导致低质量的众包结果。这样的过程无法过滤出数据中存在的歧义,也无法发现其中的歧义任务并对其进行修订。



技术实现要素:

本发明的目的是针对现有质量控制方法对任务不一致性的重视程度不足,对用户的不一致性信息进行深入分析和利用,重新考虑这些不一致信息的价值,并提供一种基于用户不一致性信息的协同众包质量控制方法,通过与工作者的迭代交互,发现并利用这些不一致信息,确定众包中存在的歧义信息,进而进行质量优化,为众包的任务质量控制研究提供新的方法。

实现本发明目的的技术方案是:

一种基于用户不一致性信息的协同众包质量控制方法,其特点是:充分利用用户的不一致性信息来发现海量众包任务中的歧义任务,并通过迭代优化的方式提升任务质量;该方法包括以下具体步骤:

第一步:通过众包平台对大规模众包任务进行发布,要求工作者提供答案a、答案b或“不确定”选项;

第二步:判断题目是否产生差异化较大的不一致答案:如果未产生,则直接确定该题目的最终答案;如果产生,将题目放入不确定集合{n}中,进入第三步;

第三步:对于不确定集合{n}中的题目,要求提供负向或者不确定答案的用户给出解释性信息,转向第四步;

第四步:分析用户的反馈信息,得到冗余的备选类别;第五步:通过迭代的方式对不确定集合{n}中的题目逐一进行答案修正;首先向用户展示需要进行修正的题目{ni},以及通过第四步得到的冗余备选类别;用户一对{ni}题目进行挑战,选择或填写自己认为正确的答案;然后用户二对用户一的答案进行判定;如果用户二赞同,转第六步;如果用户二不赞同,转第七步;

第六步:用户一的答案被选择为最终答案;此题判定结束,用户一获得双倍奖励,用户二获得单倍奖励;结束;

第七步:用户二对{ni}题目进行挑战,选择或填写自己认为正确的答案;用户三对用户一和用户二的答案进行判定;如果赞同用户一,转第八步;如果赞同用户二,转第九步;如果都不赞同,转第十步;

第八步:用户一答案被选择为最终答案;此题判定结束,用户一获得双倍奖励,用户三获得单倍奖励;结束;

第九步:用户二答案被选择为最终答案;此题判定结束,用户二获得双倍奖励,用户三获得单倍奖励;结束;

第十步:随机选择一个答案为最终答案,都无奖励;结束。

本发明基于用户不一致答案中所隐藏的歧义信息,提出了一种基于用户不一致信息的众包质量控制方法。当工作者之间出现不一致答案时,要求他们出给有价值的解释信息,而不是将他们视为“垃圾工作者”。然后,本发明利用用户给出的解释信息去发现任务中可能存在的歧义,并设计迭代众包策略去修正这些容易引起歧义的任务。在迭代修正策略中,本发明还融入“鼓励勇敢者”的显式激励机制设计,用来鼓励用户提供高质量、有价值的解释数据,在提高众包结果的质量同时,降低众包费用。

与背景技术相比,本发明有以下优点:

本发明创新性地提出了一种基于用户不一致性信息的协同众包质量控制方法,该方法发掘和利用用户产生的不一致信息,来进行众包交互过程的优化,发现与任务相关的更多有价值的解释性信息;本发明的实现步骤能够有效地激发众包过程中的群体智慧,鼓励工作者来自主优化众包任务,克服了传统方法中对用户不一致性信息的忽略问题;本发明通过迭代设计减少工作者劳动量,克服了传统方法因工作者人数增加而带来的费用增加问题;本发明设计了鼓励勇敢者的激励机制,能最大程度地调动工作人员的积极性,也能较好地控制恶意工作者的干扰。本发明进行了一系列的实验评估来验证本发明的有效性。最终结果显示,本发明的方法与最新的几种众包质量控制方法相比,准确率有明显的提高。

附图说明

图1为本发明方法流程图。

具体实施方式

参阅图1,本发明方法主要包括两个阶段:歧义发现阶段和歧义修正阶段。在歧义发现阶段,通过用户产生的不一致信息及“消极答案”用户的反馈来发现众包中潜在的歧义任务,然后通过数据分析,得到冗余的备选类别,并在修正阶段供工作者参考;在修正阶段,本发明要求工作者迭代修订那些产生于第一阶段的不确定任务。具体介绍如下:

(1)歧义发现阶段:

在众包任务的执行过程中,不同的工作者可能会对同一任务产生不同的答案,这些不同的答案中可能存在连需求者都没有发现的知识。为了能更加有效地得到这部分知识,当工作者对任务产生不一致意见时,本发明要求工作者对于一些有异议的答案,给出自己的解释。这不仅仅只要求工作者简单地选择“对或者错”,而是敢于“挑战”答案。但是如果对于每道题目,都要求工作者给出解释信息,这势必会增加工作的复杂度和开销。所以本发明提出一种基于负向用户的反馈机制,首先让工作者对每道题目给出答案,当任务出现不一致情况时,只要求提供“不确定”或者负向答案的工作者给出相应的解释。然后根据用户的解释信息发现海量任务中的歧义任务。

(2)迭代修正阶段:

相对于传统众包交互模式中的“匿名”“互相独立”的交互特征,本发明针对歧义任务设置迭代修正过程,来优化其结果质量。该过程先由第一个工作者对不确定任务给出答案及其解释,并通过可视化的方式传递给第二个工作者,第二个工作者在其基础上给出意见。如果同意第一个工作者的答案,则该任务结束;如果不同意,继续给出解释并传递给下一个工作者,直至收敛结束。该阶段的设计,一方面提升了“歧义任务”的众包输出质量,另一方面也在一定程度上降低了众包的费用。

(3)激励机制设计:

物质奖励往往是激发众包工作者态度的主要因素。本发明中,在迭代修正阶段中融入了“鼓励勇敢者”的激励机制。在传统的众包交互过程中,激励的模式往往对所有工作者“一视同仁”,酬金的分配是以“任务完成度”为衡量标准,即所有工作者无论任务完成质量好坏,均可获取同等报酬;而本发明所设计的鼓励“勇敢者”激励机制则以“任务完成质量”为衡量标准,通过工作者的表现来决定劳动报酬,而不是完全一致的报酬。简单来说,对于敢于挑战不一致的答案,并得到其他用户认可的工作者(即在第二阶段,不同意前面工作者给出的答案,并敢于给出自己的答案和解释信息的工作者),给出双倍的奖励。为了防止用户恶意的给出相悖的答案,给出“清零”的限制,即如果给出的答案没有引起其他工作者的“共鸣”,则奖金清零。对于“鼓励勇敢者”奖励机制,做以下几点说明:

-用户如果不确定,就直接选择不确定,不会影响报酬;

-用户做完所有题目以后,会给一个基础的费用,作为用户时间的补偿;

-对于给出异议的答案,如果最终结果被采纳,就翻倍奖金;如果判断错误,则奖金清零;

-在修正阶段,判定其他用户答案时,判定正确,则给出一定额度的奖金(低于首次提出异议的工作者);如果判定错误,则奖金也清零。

下面将以图片场景标注任务为例,具体介绍本发明方法的总体流程:

在歧义发现阶段,首先让工作者对每道题目给出答案,当任务出现不一致情况时,只要求提供“不确定”或者负向答案的工作者给出相应的解释。然后分析用户的解释信息,获得容易引起工作者产生歧义的冗余备选类别,并进入修正阶段。在修正阶段,对于有争议的歧义题目,本发明不是召集所有工作者同时完成,而是通过迭代交互的方式来完成,对阶段一产生的不确定集合{n}中的题目逐一进行修正。首先向用户展示需要进行修正的题目{ni},以及在发现阶段得到的冗余备选类别。第一个工作者给出答案,并给出相应解释,然后通过可视化的方式传递给第二个工作者。第二个工作者看到第一个工作者的答案和解释之后,给出是否同意第一位工作者答案的意见。如果同意,则该任务判定结束,第一位工作者获得双倍奖励,第二位工作者获得单倍奖励。如果不同意,则第二位工作者给出自己的答案和解释。第三位工作者看到前两位的答案和解释,如果同意前两位工作者的任意一个答案,则判定结束,得到第三位工作者赞同意见的工作者获得双倍奖励,同时第三位工作者获得单倍奖励。如果第三位工作者对两个答案都不同意,则要求他(她)给出自己的答案,然后随机选择一个结果作为此题的最终结果,此时三位工作者都无额外奖励。逐一对不确定集合{ni}中的题目进行修正,直至修正所有题目。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1