一种基于决策概率逼近的矩阵对策近似求解方法及装置与流程

文档序号:13236488阅读:217来源:国知局

本发明涉及矩阵对策中的策略确定领域,尤其是一种基于决策概率逼近的矩阵对策近似求解方法及装置。



背景技术:

当前矩阵对策中的策略确定使用以下方法计算纳什均衡策略:

(1)图解法

该方法采用平面二维画图的方法求解,适合于收益矩阵为2×n(n>=2)或m×2(m>=2)阶的对策问题,对其它矩阵对策问题不适用。

(2)方程组法

该方法事先假定对策双方的最优策略的所有分量均不为零,在此基础上将矩阵对策问题转化为等价的线性方程组问题进行求解。该方法有两方面的缺点:一是上述假定有些情况下不成立,二是对于大规模的矩阵对策问题,求解方程组的开销太大。

(3)线性规划法

该方法将矩阵对策问题转化为等价的线性规划问题,利用单纯形或对偶单纯形法求解,属于具有一般性的求解矩阵对策的方法,可以求解任意矩阵对策。该方法的缺点在于,对于大规模的矩阵对策问题,求解线性规划的开销太大。

对于大规模的矩阵对策问题,要求解纳什均衡策略,图解法完全不可用,而方程组法和线性规划法都有开销太大的问题,应考虑使用其它方法求解近似最优策略。



技术实现要素:

本发明所要解决的技术问题是:针对现有技术存在的问题,提供一种基于决策概率逼近的矩阵对策近似求解方法及装置。本发明提出一种基于决策概率逼近的矩阵对策策略确定方法。

本发明采用的技术方案如下:

一种基于决策概率逼近的矩阵对策近似求解方法包括:

步骤1:设置该局中人关于其策略集中策略的选择概率向量初始值;该局中人所有策略选择概率向量满足所有分量值属于区间[0,1],且其总和为1;

步骤2:针对该局中人的策略选择概率向量,计算另一局中人所有策略的期望收益;使用最新计算出的另一局中人所有策略的期望收益,计算另一局中人的策略选择概率向量;通过归一化,使另一局中人所有策略选择概率向量满足所有分量值属于区间[0,1],且其总和为1;

步骤3:针对另一局中人的策略选择概率向量,计算该局中人所有策略的期望收益;使用最新计算出的该局中人所有策略的期望收益,计算该局中人的策略选择概率向量;通过归一化,使该局中人所有策略选择概率向量满足所有分量值属于区间[0,1],且其总和为1;

步骤4:通过步骤2及3之间的反复迭代,使得该局中人的策略选择概率向量以及另一局中人的策略选择概率向量收敛,结束迭代,求得该局中人与另一局中人的矩阵对策测量的近似最优策略。

进一步的,所述收敛判断过程是:

步骤41:记录当前与上一次的该局中人策略选择概率向量gcur、gprev;同理记录当前与上一次的另一局中人策略选择概率向量hcur、hprev;

步骤42:根据上述数据,计算该局中人的前后相继迭代轮的策略选择概率向量的相对距离值,以及另一局中人的前后相继迭代轮的策略选择概率向量的相对距离值;

步骤43:将上述两个相对距离值分别与预设精度值相比较,记录两个相对距离值都满足预设精度条件的连续满足次数l,若连续满足次数l达到门限值,则判断该局中人的策略选择概率向量以及另一局中人的策略选择概率向量收敛。

进一步的,所述步骤1具体指的是:

1)记局中人关于其策略集中策略的选择概率向量为m维向量h,设定其初值h(0),h(0)满足所有分量值属于区间[0,1],且其总和为1;或

2)记局中人关于其策略集中策略的选择概率向量为n维向量g,设定其初值g(0),g(0)满足所有分量值属于区间[0,1],且其总和为1。

进一步的,计算该局中人的策略选择概率向量具体过程是:

计算m维向量f和h:

f=rg;

其中h(0)满足所有分量值属于区间[0,1],且其总和为1;r是另一局中人的收益矩阵;f表示当另一局中人的策略选择概率向量为g时,该局中人各策略的期望收益;h为该局中人的策略选择概率向量,满足:0≤hi≤1,i=1,...,m,以及函数f满足:f(0)=0,且f(x)关于x严格单调上升。

进一步的,对函数f(x)=x,有:

其中计算h时,当时h=h(0),h满足所有初始分量值属于区间[0,1],且其总和为1。

进一步的,所述计算另一局中人的策略选择概率向量具体过程是:

如下计算n维向量e、q和g:

e=-rth

其中,-r为该局中人的收益矩阵;e表示当该局中人的策略选择概率向量为h时,另一局中人各策略的期望收益;g为另一局中人的策略选择概率向量,满足0≤gj≤1,j=1,...,n,以及函数g满足:

g(0)=0,且g(x)关于x严格单调上升。

进一步的,对函数g(x)=x,有:

e、q、g的计算反映了局中人的策略选择概率是关于其策略期望收益的严格单调上升函数;计算g时,当时g=g(0),g满足所有分量值属于区间[0,1],且其总和为1。

一种基于决策概率逼近的矩阵对策近似求解装置包括:

初始值设置模块,用于设置该局中人关于其策略集中策略的选择概率向量初始值;该局中人所有策略选择概率向量满足所有分量值属于区间[0,1],且其总和为1;

另一局中人策略选择概率向量计算模块,用于针对该局中人的策略选择概率向量,计算另一局中人所有策略的期望收益;使用最新计算出的另一局中人所有策略的期望收益,计算另一局中人的策略选择概率向量;

该局中人策略选择概率向量计算模块,用于针对另一局中人的策略选择概率向量,计算该局中人所有策略的期望收益;使用最新计算出的该局中人所有策略的期望收益,计算该局中人的策略选择概率向量;

矩阵对策近似求解模块,用于根据该局中人策略选择概率向量计算模块以及另一局中人策略选择概率向量计算模块的反复迭代使得该局中人的策略选择概率向量以及另一局中人的策略选择概率向量收敛,结束迭代。

综上所述,由于采用了上述技术方案,本发明的有益效果是:

本发明提出的基于决策概率逼近的矩阵对策策略优化选择方法,对于大规模矩阵对策问题,能够快速收敛到近似最优解。

具体实施方式

本说明书中公开的所有特征,或公开的所有方法或过程中的步骤,除了互相排斥的特征和/或步骤以外,均可以以任何方式组合。

本说明书中公开的任一特征,除非特别叙述,均可被其他等效或具有类似目的的替代特征加以替换。即,除非特别叙述,每个特征只是一系列等效或类似特征中的一个例子而已。

1、设计原则:

该方法以风险型决策和不确定型决策的视角看待矩阵对策问题,并依赖于以下准则:一是矩阵对策双方都会根据期望收益最大(或期望损失最小)原则进行分析,即根据每个决策方案的期望收益(或期望损失)来对方案进行比较,从中选择期望收益最大(或期望损失最小)的方案;二是决策方案选择的概率分布是关于其期望收益的单调上升函数(或关于其期望损失的单调下降函数)。

2、将矩阵对策问题表示如下:

(1)局中人

以i表示局中人的集合;矩阵对策包括两个局中人,因此i中元素的个数为2。

(2)策略

可供局中人选择的策略集记为sz(z=1,2),其元素个数分别记为m和n。

(3)收益函数

该局中人1的任一策略和另一局中人2的任一策略一起形成的策略组称为一个局势,该局势下两个局中人的收益由收益函数确定。所有局势下另一局中人2的收益构成一个m×n收益矩阵r,该局中人1的收益构成另一个m×n收益矩阵-r。不失一般性约定收益矩阵r满足0≤rij≤1(i=1,...,m,j=1,...,n)。

3、迭代计算:

对于不属于纳什均衡策略的某一局中人的任一策略而言,其期望收益是与对方采取的策略有关的。如果能够有效估计对方可能采取的策略,对于提升期望收益是有利的。一种合理的想法是,认为对方从其策略集中选择某一策略的概率是关于该策略的期望收益的单调上升函数,即期望收益越大的策略的选择概率越大,期望收益越小的策略的选择概率越小。另一方面,对方计算其某一策略的期望收益时,必须有我方策略选择的概率分布输入,其同样会认为,我方从策略集中选择某一策略的概率是关于该策略的期望收益的单调上升函数。这样就形成了如下迭代计算,具体过程是:

(1)该局中人1:

针对该局中人1的策略选择概率分布(以向量表示),计算另一局中人2所有策略的期望收益。使用最新计算出的另一局中人2所有策略的期望收益,计算另一局中人2的策略选择概率分布(计算函数要求是另一局中人2的期望收益的严格单调上升函数)。

(2)另一局中人2:

针对另一局中人2的策略选择概率分布(以向量表示),计算该局中人1所有策略的期望收益。使用最新计算出的该局中人1所有策略的期望收益,计算该局中人1的策略选择概率分布(计算函数要求是该局中人1的期望收益的严格单调上升函数)。

只要为该局中人1(或另一局中人2)的策略选择概率分布给出一个初始值(从而可以计算另一局中人2或该局中人1的所有策略的期望收益),就可以驱动上述迭代计算(以(1)或(2)为开始)。迭代计算应该在判断该局中人1和另一局中人2的策略选择概率分布都收敛的时候终止。

具体实现过程:

不失一般性,站在该局中人1的立场,为另一局中人2的策略选择概率分布给出初始值,则迭代计算的具体步骤如下:

(1)设置初值

11)记该局中人1关于其策略集中策略的选择概率向量为m维向量h,不失一般性设定其初值如下:设置选择概率向量初值时,认为各策略的选择概率均等;如果有更多的信息用于判断各策略的选择概率,也可以设置为其它向量值。不同初值的影响在于收敛的速度可能不同。或,

12)记局中人2关于其策略集中策略的选择概率向量为n维向量g,不失一般性设定其初值如下:g(0)=[1/n,...,1/n]t;设置选择概率向量初值时,认为各策略的选择概率均等;如果有更多的信息用于判断各策略的选择概率,也可以设置为其它向量值。不同初值的影响在于收敛的速度可能不同。

(2)计算该局中人1的策略选择概率向量:

如下计算m维向量f和h:f=rg;

其中h(0)=[1/m,...,1/m]t,r是另一局中人2的收益矩阵;f表示当另一局中人2的策略选择概率向量为g时,该局中人1各策略的期望收益;h为该局中人1的策略选择概率向量,满足:0≤hi≤1,i=1,...,m;以及

函数f满足:f(0)=0,且f(x)关于x严格单调上升

特别的,对于函数f(x)=x,有:

f、h的计算反映了该局中人1的策略选择概率是关于其策略期望收益的严格单调上升函数。

计算h时,当时h=h(0),实际上这时只要h满足所有分量值属于区间[0,1],且其总和为1就可以(由f的定义,等价于f(fi)=0(i=1,..,m),即该局中人1的任意策略的期望收益效用都为0。由于该局中人1策略的期望收益属于区间[0,1],这表明该局中人1无论如何选择策略都只能取得最低的期望收益0,一般简单以均等概率选择,即h=h(0))。

(3)计算另一局中人2的策略选择概率向量

如下计算n维向量e、q和g:

e=-rth

这里-r为该局中人1的收益矩阵;e表示当该局中人1的策略选择概率向量为h时,另一局中人2各策略的期望收益;g为另一局中人2的策略选择概率向量,满足:0≤gj≤1,j=1,...,n;以及q为计算g用到的中间向量。

函数g满足:g(0)=0,且g(x)关于x严格单调上升

特别的,对于函数g(x)=x,有:

e、q、g的计算反映了另一局中人2的策略选择概率是关于其策略期望收益的严格单调上升函数。

计算g时,当时g=g(0),实际上这时只要g满足所有分量值属于区间[0,1],且其总和为1就可以(由g的定义,等价于g(ej)=0(j=1,..,n),即另一局中人2的任意策略的期望收益效用都为0。由于另一局中人2策略的期望收益属于区间[-1,0],这表明另一局中人2无论如何选择策略都能取得最高的期望收益0,一般简单以均等概率选择,即g=g(0))。

完成上述计算后转(2)。(2)执行完后又会转(3)。

4、矩阵对策策略的近似最优策略计算:

上述(2)、(3)之间的往复迭代计算到g、h都收敛后结束,求得该局中人与另一局中人的矩阵对策的近似最优策略(即该局中人策略选择概率向量以及另一局中人的策略选择概率向量分别是该局中人与另一局中人的近似最优策略)。g和h可能是纯策略(策略选择概率向量的其中一个分量值为1,其余分量值为0),也可能是混合策略(策略选择概率向量至少有2个分量值不为0)。对于混合策略不能接受(要求完全确定的策略)的情况,可以在可选的所有纯策略中,根据期望收益最大原则(或期望损失最小原则)选择一个(计算期望收益时假定对手方不排斥最优混合策略)。

(41)g、h的收敛判断采用如下方法,记录当前与上一次的该局中人策略选择概率向量gcur、gprev;同理记录当前与上一次的另一局中人策略选择概率向量hcur、hprev;

(42)根据上述数据,计算该局中人1的前后相继迭代轮的策略选择概率向量的相对距离值,以及另一局中人2的前后相继迭代轮的策略选择概率向量的相对距离值:

例如计算:

其中

其中,为当前g的第j个分量值(j=1,...,n),为上轮迭代得到的g的第j个分量值(j=1,...,n),为当前h的第i个分量值(i=1,...,m),为上轮迭代得到的h的第i个分量值(i=1,...,m)。

(43)将上述两个相对距离值分别与预设精度值相比较,记录两个相对距离值都满足预设精度条件的连续满足次数l,若连续满足次数l达到门限值,则判断该局中人的策略选择概率向量以及另一局中人的策略选择概率向量收敛。具体过程是:

设置整数变量l初值为0,如下在每次迭代中更新l:

这里mineps为预设精度。

如果l值达到预设门限lmax(lmax≥1),那么判断g、h均收敛,迭代结束,否则继续迭代。

说明:不同场景中,g、h的收敛速度是不一样的,为了确保计算在可接受的迭代次数内结束,可以设置迭代次数门限,当迭代次数达到该门限时,无论g、h是否满足收敛条件,都结束迭代计算,并以结束迭代时的g和h分别作为该局中人1和2的近似最优策略。

具体实施例:在一轮计算实验中,设置该局中人1和2的策略集合的元素个数范围均为[128,1024],预设精度为mineps=10-3。l值预设门限lmax=5。判断策略选择概率向量g、h的收敛性。遍历该局中人1和2的策略集合元素个数组合(共有(1024-128+1)×(1024-128+1)=804609个),同时在[0,1]范围内随机设置收益矩阵的元素,构建矩阵对策问题。按照本说明书中描述的方法迭代计算矩阵对策问题的近似最优策略,记录收敛时的迭代次数。

上述计算实验可以持续进行多轮(每次只有收益矩阵不同)。实验的结果如下:

具体实施例:给定另一局中人2的收益矩阵如下,

那么有m=2,n=3。

(1)设定初值

记另一局中人2关于其策略集中策略的选择概率向量为3维向量g,设定其初值:

g(0)=[1/3,1/3,1/3]t

(2)计算该局中人1的策略选择概率向量

如下计算2维向量f和h:

f=rg=[0.3,0.2]t

(3)计算另一局中人2的策略选择概率向量

如下计算3维向量e、q和g:

e=-rth=[-0.32,-0.24,-0.22]t

完成上述计算后转(2)。(2)执行完后又会转(3)。

g、h的收敛判断采用如下方法,记录最近2次计算出的g、h值,并如下计算前后相继的g之间的相对距离,以及前后相继的h之间的相对距离:

其中

这里为当前g的第j个分量值(j=1,...,n),为上轮迭代得到的g的第j个分量值(j=1,...,n),为当前h的第i个分量值(i=1,...,m),为上轮迭代得到的h的第i个分量值(i=1,...,m)。

设置整数变量l初值为0,如下在每次迭代中更新l:

这里mineps=10-3为预设精度。

如果l值达到预设门限5,那么判断g、h均收敛,迭代结束,否则继续迭代。

计算结果如下:

迭代次数:7;

该局中人1的策略:[0.5970,0.4030]t

另一局中人2的策略:[0.2642,0.3512,0.3846]t

该局中人1的期望损失(另一局中人2的期望收益):0.2532。

这里该局中人1的期望损失和另一局中人2的期望收益都是在双方都使用基于决策概率逼近的矩阵对策策略优化选择方法的假定下计算出来的。

说明:上述实施实例旨在说明基于决策概率逼近的矩阵对策方法的实施方法。实际应用中,该方法更适合用于规模足够大,以至于方程组法和线性规划法不适用的矩阵对策问题。

本发明并不局限于前述的具体实施方式。本发明扩展到任何在本说明书中披露的新特征或任何新的组合,以及披露的任一新的方法或过程的步骤或任何新的组合。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1