一种基于并行分配制度下Two-Agent的悲观操作方法与流程

文档序号：16313452发布日期：2018-12-19 05:22阅读：149来源：国知局

本发明涉及人工智能及多agent系统技术领域，尤其涉及一种基于并行分配制度下two-agent的悲观操作方法。

背景技术

如何分配整个社会的资源问题在计算机科学和经济学中都是一个十分重要的问题，且资源配置是社会面临的一个长期问题,经济、环境和政治压力迫使我们试图用更少的资源做更多的事情，并做得更公平。

在经济领域中面向多个自利agent的资源分配问题是一个重要的研究方向。根据经济和社会的需求，在不同的资源配置问题中，经济效率必须考虑到社会平等和价格刚性，在经济学中，大多数相关的研究侧重于在数学模型上探讨“最优”的分配方案的存在性问题。另一方面，多agent参与的资源分配问题也成为了近年来人工智能领域里的研究热点。许多相关的工作都旨在设计具有执行效率高的智能化资源分配制度，并从计算复杂性的角度分析智能agent的策略性行为。

近年来人工智能领域的学者们开始尝试同时从以上这两方面研究如何设计面向多个自利agent的分配制度。bouveret和lang研究了一种串行无诱导的资源分配制度框架。在这一制度框架下，各个自利agent无需在分配过程开始前提交任何信息，只需根据一个指定的顺序轮流从剩余资源集合中取出自己最喜欢的资源。他们针对某些特定规模的分配问题通过实验找到了(在各agent都采用诚实行为时)在经济效益或社会平等标准下的最优agent顺序；又在某个agent提前获知其他agent偏好信息的条件下，初步分析了该agent操作分配结果的计算复杂性。

上述现有技术存在着在agent资源分配过程中按照指定的顺序，对身份敏感，造成经济效益、社会平等、计算效率分配欠公平，效率欠高的缺点。

公开号为cn107463443a，名称为“一种基于对身份不敏感的并行机制的分配方法”的中国发明公开了一种分配方法，包括步骤：(1)在分配过程的每一个步骤里，根据指定的“并行机制”，将选择某些公开报告自己在剩下的所有物品中最喜欢的物品，然后物品将被分配出去；(2)如果有多个agent同时想要某个物品，那么这些通过抽签的方式随机决定哪个agent来得到该物品，然后继续，直到所有的物品都被分配出去。该发明的技术方案通过采用并行机制分配方法，利用了对身份不敏感性质，保证了每个agent选择自己最爱的物品时的事前公平性，有效的解决了资源分配不公平，效率欠高的缺点。但对于多个agent同时想要某个物品时采用的是抽签的方式随机决定，无法确保agent能得到最优物品集，实现利益最大化。

技术实现要素：

针对现有技术的不足，本发明所解决的问题是提供一种在并行无诱导的资源分配制度框架下，two-agent在分配过程中如何找到一个能成功操作得到最优物品集的操作方法。

为解决上述技术问题，本发明采用的技术方案是一种基于并行分配制度下two-agent的悲观操作方法,包括如下步骤：

(1)定义一个三元组用表示被分配的物品集合；n＝2，表示参与分配操作者agent的数量，用agent-a和agent-b表示；每个agent对物品的偏好顺序集合由

表示；在分配物品的每一轮中，操作者各自选择自己最想要拿取的物品，被选中的物品将被分配出去；

(2)当操作者agent-a和操作者agent-b同时想要同一个物品时，则通过抛硬币的方式随机决定，但当操作者agent-a在悲观策略下，默认当两个操作者agent在同一轮同时报告同一个物品时，悲观的认为自己不可能拿到该物品，会避免与其他操作者同时报告某个物品；

(3)操作者agent-a在悲观策略下，采用悲观操作策略，根据所有操作者对分配物品的喜好顺序依次把第i轮(i＝1、2、3...且i≤n)的物品放入目标集进行判断能否被拿取，直到分配完所有物品后，得到一个确切的最优物品集，其具体过程如下：

1)设定操作者agent-a提前知道了agent-b对物品的偏好顺序且agent-b会诚实的按照自己的偏好顺序去报告每一轮想要拿取的物品；

2)判断物品放入目标集能否被拿取，需要满足下面的条件：

且对于所有的

上述式中，x表示操作者agent-a的目标物品集合，o表示当前第i轮选取的属于目标集中的物品，表示所有被分配的物品集合，表示操作者agent-b认为在集合即目标集x之外，之内中的比o物品要好的物品集，表示agent-b认为在x集合中比o物品要好的物品集；

当前第i轮拿取在目标集内的物品o，如果满足操作者agent-b认为在集合中比物品o要好的数量大于集合x中比物品o要好的数量，那么第i轮拿取物品时操作者agent-a都不会与操作者agent-b发生冲突，且顺利拿取到目标集中的所有物品；若目标集的物品数量则操作者谎报的物品偏好顺序在|x|轮之后皆与操作者agent-b相同；

3)得到一个确切的最优物品集，根据操作者agent-a的物品偏好顺序先检偏好顺序中的第一个物品作为目标集x看是否可以被保证拿到，如可以则继续并入下一个物品，此时|x|＝2，在中的第二个物品并入之后，目标集x不能保证拿到，则排除第二个，并入第三个，直至找到|x|＝2保证被拿到的目标集x；然后不断重复，直到找到的目标集，则该目标集x为悲观策略下的最优物品集。

采用本发明的技术方案，基于并行分配制度下，当满足条件且对于所有的则可以保证该目标集x能够被实现，然后基于操作者agent-a的物品偏好顺序依次改进目标集x，找到一个成功能操作得到的最优物品集。

附图说明

图1为悲观策略操作操作流程图；

图2为两个操作者agent对自己心中最喜爱物品的一个偏好排序；

图3为两个操作者agent都诚实的情况下，每个操作者agent分配到自己最喜爱物品的一个分配结果；

图4为操作者agent-a进行悲观策略操作，在操作者agent-b诚实的情况下，每个操作者agent分配到物品的一个分配结果；

图5为两个操作者agent对每个物品的记分情况；

图6为检验一个给定的物品集是否可以保证拿到的算法；

图7为在悲观策略操作下如何找到一个确定的最优物品集的算法。

具体实施方式

下面结合附图和实施例对本发明的具体实施方式作进一步的说明，但不是对本发明的限定。

一种基于并行分配制度下two-agent的悲观操作方法,包括如下步骤：

(1)定义一个三元组用表示被分配的物品集合；n＝2，表示参与分配操作者agent的数量，用agent-a和agent-b表示；每个agent对物品的偏好顺序集合由

表示；在分配物品的每一轮中，操作者各自选择自己最想要拿取的物品，被选中的物品将被分配出去；

(3)操作者agent-a在悲观策略下，采用悲观操作策略，根据所有操作者对分配物品的喜好顺序依次把第i轮(i＝1、2、3...且i≤n)的物品放入目标集进行判断能否被拿取，直到分配完所有物品后，得到一个确切的最优物品集，其具体过程如下，如图1所示：

1)设定操作者agent-a提前知道了agent-b对物品的偏好顺序且agent-b会诚实的按照自己的偏好顺序去报告每一轮想要拿取的物品；

2)判断物品放入目标集能否被拿取，需要满足下面的条件：

且对于所有的

图2为每个操作者agent对自己心中最喜爱物品的一个偏好排序排名越前的代表越被agent喜欢，并依次降低。中间的的数字如“o1、o2、o3、o4、o5等代表是物品。

图3为在并行分配制度下，两个操作者agent都诚实的按照自己的喜好报告每一轮想要拿取的物品，那么第一轮操作者agent-a报告o4，操作者agent-b报告o1,依次进行下去，直到物品被分配完，根据图5两个操作者agent对各个物品的记分情况分别计算出他们的期望价值。

图4为在并行分配制度下，操作者agent-a采用悲观操作策略，操作者agent-b依旧是诚实按照自己喜好进行报告，那么在第一轮中操作者agent-a则会报告o2，agent-b还是报告o1，剩下的每一轮报告如图4所示，并分别计算出两个操作者agent在该情况下的期望价值。

图5为在多项式的时间内，检验一个给定的物品集是否能够被保证拿到。

图6为在多项式的时间内，找到一个对于操作者agent-a来说确定能被拿到的最优物品集。

实例：

在一种基于并行分配制度下，采用悲观操作策略获取一个确定的最优物品集，包括如下步骤：

步骤(1)和步骤(2)，图2中是两个操作者agent对自己心中最喜爱物品的一个偏好排序，按照各自对物品的偏好排序。每个操作者agent诚实的同时报自己最喜爱的物品，当多个操作者agent同时选择同一个物品时，那么这些通过抽签的方式等概率的来随机决定哪个agent来得到该物品。然后继续直到所有的物品都被分配出去。最后的分配结果如图3所示。

图4中，则是在操作者agent-a提前知道了操作者agent-b的物品喜好顺序，并采用悲观操作策略，而操作者agent-b依旧诚实的按照自己的物品喜好顺序报告物品，在第一轮中操作者agent-a报告o2，操作者agent-b报告o1；第二轮，操作者agent-a报告o4，操作者agent-b报告o3；第三轮，操作者agent-a报告o6，操作者agent-b报告o5；第四轮，操作者agent-a报告o9，操作者agent-b报告o7；第五轮，操作者agent-a和操作者agent-b同时报告o8。在如图5的borda计分函数下，ua(o1)＝10，ua(o2)＝60，ua(o3)＝36，

ua(o4)＝70，ua(o5)＝5，ua(o6)＝65，ua(o7)＝38，ua(o8)＝20，

ua(o9)＝37；ub(o1)＝15，ub(o2)＝20，ub(o3)＝25，ub(o4)＝30，

ub(o5)＝35，ub(o6)＝40，ub(o7)＝45，ub(o8)＝50，ub(o9)＝55。

在操作分配和诚实分配下，两个操作者agent各自获得的期望价值，分别如图3和图4所示，诚实分配下ua＝220，ub＝120；操纵分配下ua＝232，ub＝170。

当操作者agent-a为了在分配中获得更多的利益进行悲观操作时，最后确实通过操作获得了更多的利益。

结果仿真：

通过上述事例和图3、图4的结果可以看出，确实存在在对身份不敏感的并行机制的分配方法下，操作者two-agent的悲观操作策略，具体的操作算法如图6和图7所示。

采用本发明的技术方案，在并行分配制度下，操作者two-agent的悲观操作情况确实存在，为了保证分配制度的公平性，杜绝作弊行为，需要参与分配的操作者agent保护好自己对物品喜好顺序等私有信息，或增加参与分配的操作者agent数量，加大操作难度，保证分配的公平性。

采用本发明的技术方案，基于并行分配制度下，采取悲观操作策略可找到一个成功能操作得到的最优物品集。

以上结合附图对本发明的实施方式做出了详细说明，但本发明不局限于所描述的实施方式。对于本领域技术人员而言，在不脱离本发明的原理和精神的情况下，对这些实施方式进行各种变化、修改、替换和变型仍落入本发明的保护范围内。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄巍;黄宇;唐倩;卢雨戈
技术所有人：桂林电子科技大学
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。