专利名称:一种预测行为规划的期望效用的方法
技术领域:
本发明属于计算机科学技术领域,可基于规划知识自动进行概率推理,井根据个体或组织的行为或状态观察给出对其最可能采取的行为及行为意图的分析結果,以预测行为规划的期望效用。
背景技术:
行为分析方法在国家与社会公共安全、商业管理、决策评估等领域都具有十分重要的应用。以往的行为分析方法主要基于Markov或Bayesian模型,这些模型方法存在计算空间和条件概率表的赋值等ー些固有的弱点,使得其应用受到较大的局限。而且,基于Markov和Bayesian方法只能提供行为分析结果,在行为的深层分析和结果的解释方面都存在较大欠缺。相对于这些传统的行为分析方法,基于规划知识的行为分析方法由于米用了明晰的行为知识表示,且不但可以提供行为分析結果,还可以分析个体或组织采取行 为的意图和目标,因此在行为分析结果的可解释性和丰富程度上较以往方法具有明显的优势。近年来,基于规划知识的行为意图分析方法以概率方法为代表。Charniak和Goldman (Artificial Intelligence, 1993)采用贝叶斯推理方法建立了第一个基于规划知识、用于意图分析的概率模型。Panadath和WeIIman(UAI,2000)提出一种基于PSDGs文法的概率意图分析方法。Avrahami-Zilberbrand和Kaminka(AAAI, 2007)提出一种结合符号规划识别和观察者自身偏见的混合意图分析方法。Geib和Goldman (ArtificialIntelligenCe,2009)提出一种基于规划执行模型的概率意图分析算法。尽管所采用的具体方法各不相同,目前提出的行为意图分析方法存在着以下不足I、以往行为意图分析方法中均未考虑规划表示的行为知识间固有的因果联系,特别是行为与行为前提、行为与行为结果以及行为与行为间的内在关联,因而所提出的方法中均未结合这些类行为知识进行因果推理;2、行为意图分析的过程可以看作是识别被观察者(个体或组织)的行为决策策略,即通过模拟被观察者的行为决策策略达到分析识别行为意图的目的,而以往方法中均未考虑结合行为决策理论进行意图分析与识别。
发明内容
(一 )要解决的技术问题本发明要解决的技术问题是给定当前行为或状态观察,基于个体或组织行为的规划知识描述,分析识别被观察者(个体或组织)最可能采取的行为及其行为意图。( ニ )技术方案为解决上述技术问题,本发明提出一种预测行为规划的期望效用的方法,所述行为规划是指为达到ー个目标的行为的集合,该方法根据所观察到的证据获得行为规划的期望效用值,所述方法包括步骤Si、根据证据计算状态出现的概率,所述证据指的是对行为和状态的观察结果,所述状态指的是行为的前提和结果的出现情況;步骤S2、根据状态出现的概率计算行为发生的概率;步骤S3、根据行为出现的概率计算行为结果出现的概率和行为的期望效用值;步骤S4、根据行为结果出现的概率和行为的期望效用值计算行为规划结果出现的概率和行为规划的期望效用值。根据本发明的ー种具体实施方式
,在所述步骤SI中,当证据E给定,如果观察到状态X,则状态X出现的概率P(x|E)为I ;如果观察到正在执行或已经执行行为A,则行为A的姆个行为前提的状态出现的概率为I ;如果观察到正在执行行为A,则行为A的行为结果e出现的概率为其执行概率Pexecution (A | precondition (A))与该行为的行为结果出现的概率Peffeet (e IA)的乘积,precondition (A)表示行为A的前提状态;如果行为A已经执行完毕,则行为A的行为结果e出现的概率为Prffert (e IA)。 根据本发明的ー种具体实施方式
,在步骤S2中,当证据E给定,如果观察到已经执行行为A,则行为A发生的概率P (A|E)为I ;如果观察到正在执行A,则行为A发生 的概率P (AIE)等于行为 A 的执行概率 Pexeeutim (A| precondition (A)), precondition (A)表示行为A的前提状态;如果没有观察到行为A被执行,则行为A出现的概率等于行为A的执行概率与它的每个行为前提(状态)出现的概率的乘积。根据本发明的ー种具体实施方式
,在步骤S3中,行为结果出现的概率等于行为发生的概率与当行为发生时的行为结果出现的概率的乘积;行为的期望效用值等于由该行为的每个行为结果出现的概率及其效用值的乘积的加权。根据本发明的ー种具体实施方式
,在步骤S4中,每个行为规划结果出现的概率等于该行为规划中每个导致行为规划结果的行为发生的概率和当该行为发生时的的规划的发生概率的累乘乘积。根据本发明的ー种具体实施方式
,在步骤S4中,行为规划的期望效用值由行为规划中每个行为规划结果出现的概率及其效用值的乘积的加权计算得到。(三)有益效果本发明相比于传统的行为意图分析识别方法,主要具有以下几方面优点(I)本发明明确采用状态信息,特别是被观察者对状态的偏好信息进行行为意图分析;(2)本发明基于决策理论,分析识别行为意图所依据的原则与人的决策策略相符;(3)本发明利用关于行为的因果知识參与推理计算过程;(4)本发明对状态和行为观察以及增量行为意图分析均采用一致的解决方法。
图I是本发明的预测行为规划的期望效用方法的原理示意图;图2是说明本发明的预测行为规划的期望效用方法具体实施所用的规划知识库中两个规划的示例图。
具体实施例方式基于上述背景技术和其存在的问题,本发明结合行为因果推理和决策理论中的“期望效用最大化”原则,提出一种新的基于概率规划推理的预测行为规划的期望效用方法。图I是本发明的行为意图分析方法的原理示意图。如图I所示,对行为意图的分析识别基于决策理论中的“期望效用最大化”原则,即同时考虑行为目标的合意性和目标实现的可能性。因此,我们在计算行为规划PL的期望效益值EU (PL)时考虑两方面重要因素即规划结果的效用值Utility (表示该结果对被观察者的合意性)和规划结果出现的概率Prob (表示被观察者实现该结果的可能性)。推断规划结果出现的概率时,综合考虑三类导致不确定性的因素行为前提的不确定性(即状态的出现概率P(state),state表示状态)、行为执行的不确定性(即执行概率Pex_tim(A|preC0nditi0n㈧),表示当行为A的所有前提成立时,该行为成功执行的概率,precondition (A)表示行为A的所有前提)、行为结果的不确定性(即结果概率PeffM (e IA),表示当行为A成功执行吋,该行为结果e出现的概率)。本发明的基于概率规划推理的行为意图分析方法可用于预测行为规划的期望效 用。即依据所观察到的行为或状态证据,利用行为与状态(包括行为前提和結果)及行为之间的因果关联进行推理计算,得到行为规划的期望效用值,进而结合决策原则判断被观察者最可能采取的行为及其意图。以下我们逐一说明基于概率规划推理的行为意图分析过程。状态出现概率的推理计算相对于行为本身,行为的前提和结果的出现情况属于状态。设关于行为和状态证据为E,所谓证据指的是对行为和状态的观察結果。给定证据E,如果观察到状态X,则状态χ出现的概率P(x|E)为I。所观察到的行为会改变与其关联的状态出现的概率。如果观察到正在执行或已经执行行为A,则行为A的每个行为前提状态出现的概率为I。如果观察到正在执行行为A,则行为A的行为结果e出现的概率为其执行概率Pexecuti0n(aI Precondition (A))与其结果概率 Peffeet (e | A)的乘积,precondition (A)表示行为A的前提状态;行为结果e可以不止ー个。如果行为A已经执行完毕,则行为A的行为结果e出现的概率为PeffM (e IA)。如果没有观察到状态X,则状态χ出现的概率等于状态χ的先验概率P(x)。行为发生的概率的推理计算行为发生的概率是指行为被成功执行的概率。设观察到的行为和状态证据为E。给定证据E,如果观察到已经执行行为A,则行为A发生的概率P (AIE)为I ;如果观察到正在执行A,则行为A发生的概率P (AIE)等于行为A的执行概率Pexeeutim(A | precondition (A)),precondition⑷表示行为A的前提状态。如果没有观察到行为A被执行,则行为A出现的概率等于行为A的执行概率与它的每个行为前提(状态)出现的概率的乘积,即P(A I E) = P, xecvtion (A \ precondition{A)) χ Π广刚c
ee precondition (A)行为结果出现的概率与行为的期望效用值计算行为发生的概率变化会影响该行为结果出现的概率,即行为结果出现的概率等于行为发生的概率与当行为发生时的行为结果出现的概率的乘积P (e IE) = P (A | E) X Peffect (e | A)。
行为A的行为结果集由行为A的效用值非零那些行为结果构成。行为结果出现的概率会影响行为的期望效益值。令Oa为行为A的行为结果集合,且每个行为结果Oi e 0A, i为自然数,则行为A的期望效用值EU (AIE)由行为A的每个行为结果Oi出现的概率P (ο, | E)及其效用值Utility (Oi)的乘积的加权计算得到
权利要求
1.一种预测行为规划的期望效用的方法,所述行为规划是指为达到一个目标的行为的集合,该方法根据所观察到的证据获得行为规划的期望效用值,其特征在于,所述方法包括 步骤Si、根据证据计算状态出现的概率,所述证据指的是对行为和状态的观察结果,所述状态指的是行为的前提和结果的出现情况; 步骤S2、根据状态出现的概率计算行为发生的概率; 步骤S3、根据行为出现的概率计算行为结果出现的概率和行为的期望效用值; 步骤S4、根据行为结果出现的概率和行为的期望效用值计算行为规划结果出现的概率和行为规划的期望效用值。
2.如权利要求I所述的预测行为规划的期望效用的方法,其特征在于,在所述步骤SI中,当证据E给定, 如果观察到状态X,则状态χ出现的概率P (χ IE)为I ; 如果观察到正在执行或已经执行行为A,则行为A的每个行为前提的状态出现的概率为I ; 如果观察到正在执行行为A,则行为A的行为结果e出现的概率为其执行概率Pexecution (AI precondition (A))与该行为的行为结果出现的概率Peffect (e IA)的乘积,precondition (A)表示行为A的前提状态; 如果行为A已经执行完毕,则行为A的行为结果e出现的概率为PrffK;t (e IA)。
3.如权利要求2所述的预测行为规划的期望效用的方法,其特征在于,在步骤S2中,当证据E给定, 如果观察到已经执行行为A,则行为A发生的概率P (A|E)为I ; 如果观察到正在执行A,则行为A发生的概率P(A|E)等于行为A的执行概率PexecUtim(aI Precondition (A)),precondition (A)表示行为 A 的前提状态; 如果没有观察到行为A被执行,则行为A出现的概率等于行为A的执行概率与它的每个行为前提(状态)出现的概率的乘积。
4.如权利要求3所述的预测行为规划的期望效用的方法,其特征在于,在步骤S3中, 行为结果出现的概率等于行为发生的概率与当行为发生时的行为结果出现的概率的乘积; 行为的期望效用值等于由该行为的每个行为结果出现的概率及其效用值的乘积的加权。
5.如权利要求4所述的预测行为规划的期望效用的方法,其特征在于,在步骤S4中, 每个行为规划结果出现的概率等于该行为规划中每个导致行为规划结果的行为发生的概率和当该行为发生时的规划的发生概率的累乘乘积。
6.如权利要求5所述的预测行为规划的期望效用的方法,其特征在于,在步骤S4中, 行为规划的期望效用值由行为规划中每个行为规划结果出现的概率及其效用值的乘积的加权计算得到。
全文摘要
本发明公开了一种预测行为规划的期望效用的方法,所述规划是指为达到一个目标的行为的集合,该方法根据所观察到的证据获得行为规划的期望效用值,所述方法包括步骤S1.根据证据计算状态出现的概率,所述证据指的是对行为和状态的观察结果,所述状态指的是行为的前提和结果的出现情况;步骤S2.根据状态出现的概率计算行为发生的概率;步骤S3.根据行为出现的概率计算行为结果出现的概率和行为的期望效用值;步骤S4.根据行为结果出现的概率和行为的期望效用值计算行为规划结果本。出现的概率和行为规划的期望效用值。本发明能够用于分析行为意图。
文档编号G06Q10/04GK102867224SQ20121032264
公开日2013年1月9日 申请日期2012年9月3日 优先权日2012年9月3日
发明者毛文吉, 王飞跃, 曾大军, 李晓晨 申请人:中国科学院自动化研究所