可解释的智能体决策方法、智能系统和该系统的应用与流程

文档序号:30494322发布日期:2022-06-22 03:25阅读:181来源:国知局
可解释的智能体决策方法、智能系统和该系统的应用与流程

1.本发明属于人工智能技术领域,特别涉及一种可解释的智能体决策方法、智能系统和该系统的应用。


背景技术:

2.人工智能领域ai模型大都采用深度模型和强化学习模型或者两种模型的组合,需要大数据训练,这些技术能大幅提升模型的智能,但是带来的问题是它们是不透明的,不具有可解释性,无法向用户解释他们的决策。基于知识库构建的专家系统,虽然具有可解释性,但是性能与如今的机器学习模型相差甚远,不能进行训练。


技术实现要素:

3.为了克服上述现有技术的缺点,本发明的目的在于提供一种可解释的智能体决策方法、智能系统和该系统的应用,基于生长新结构的方式进行训练以提升决策智能,并可解决决策不可解释的问题,将决策步骤以及决策依据提供给用户。
4.为了实现上述目的,本发明采用的技术方案是:
5.可解释的智能体决策方法,包括:
6.步骤1,建立知识库及知识库配置文件
7.所述知识库由应用场景内的元素信息组成,所述知识库配置文件是指在元素间建立的因果关系以及为元素设定的所属层级;其中,所述元素信息包括该场景的感知数据、场景描述信息、场景内的法定或业界约定的规则;
8.步骤2,建立因果推理网络
9.基于所述知识库,用节点表示知识库中的任意一个元素,节点之间的边表示一种因果关系,建立因果推理网络;
10.步骤3,提取并固定学习到的新知识
11.使用一层因式分解机训练层与所述因果推理网络建立连接,通过在因果推理网络中生长新节点的方式进行数据训练,由此提取并固定学习到的新知识;再将所述新节点以及与前驱节点的因果关系加入知识库及知识库配置文件中;所述前驱节点指因果推理网络中通过边与新节点连接的节点;
12.步骤4,训练单层全连接层
13.将所述因式分解机训练层替换成单层全连接层,继续进行数据训练,全连接层的输出向量与决策类别对应,且输出向量中最大值对应的决策类别为做出的决策;
14.步骤5,决策的可解释实现
15.对决策进行溯源,监测因果推理网络的节点激活情况,找出对应的元素及其因果关系和所属层级;分析全连接层的权重矩阵,找出影响决策的特征,将监测和分析结果作为溯源记录,输出并与用户离线交互。
16.在一个实施例中,所述步骤1,将元素的内容转换为特定的符号表示,并根据元素
的数量确定决策方法的输入大小,二者是相等关系,其中元素的内容和数量根据应用场景确定;所述元素所属层级的设定规则为:如果某个元素没有前驱元素,即不需要其他元素驱动,直接接收外界信息,则其层级为1;如果某个元素有前驱元素,即需要其他元素驱动,无法直接接收外界信息,则其层级为前驱元素中所属的最大层级加1;所述步骤2,所述因果推理网络,训练数据中如果没有知识库中的元素,则知识库中该元素对应的因果推理网络中的节点为0,如果有知识库中的元素,则知识库中该元素对应的因果推理网络中的节点为1。
17.在一个实施例中,所述步骤5,在模型的每一次决策过程中,因果推理网络中的部分节点被激活,依据被激活的节点以及其连接关系,形成与决策步骤对应的推理链,根据推理链,反向监测知识库和知识库配置文件;将连向每个决策类别的权重值从大到小排列,每个权重对应的输入特征即为影响决策的特征。
18.在一个实施例中,所述步骤5,溯源记录经过溯源接口与用户交互,所述溯源接口将决策步骤和每一步骤的决策依据转换成溯源记录文档。
19.本发明还提供了一种采用所述可解释的智能体决策方法的智能系统,且所述智能系统配置有用于输出溯源记录的溯源接口以及用于显示溯源记录的电子界面。
20.在一个实施例中,将所述可解释的智能体决策方法迁移至基于risc-v芯片的嵌入式系统上,对溯源记录进行保存,通过输出端口输出溯源记录,与用户进行交互。
21.本发明的所述智能系统,可应用于游戏中,进行可解释性决策,即向玩家展示决策步骤和决策依据。也可应用于工业领域中,进行可解释性决策控制,即向用户展示决策控制的步骤和依据。
22.示例地,所述工业领域可为无人驾驶,所述可解释性决策控制包括自主控制对象以及保存、输出决策溯源记录。
23.与现有技术相比,本发明的有益效果是:
24.1.基于知识库和图结构记录决策步骤,再用单层全连接层替换原输出层,实现了可解释性。
25.2.本发明网络的通用性强,可在不同智能系统决策场景间迁移部署,仅需根据不同决策场景提取不同的信息构建知识库和知识库配置文件。
26.3.本发明通过向用户展示决策步骤和决策依据,可使用户与智能体建立理解与信任,并在一定条件下,例如工业控制中,可允许用户通过调整知识库及其配置文件,干预智能体的决策,形成反馈机制,促使智能体决策方法更符合用户需求和实际场景环境。
附图说明
27.图1为本发明方法整体框图。
28.图2为本发明结构自生长示意图,r节点为自生长出的节点。
29.图3为本发明实例中从斗地主游戏领域的场景提取基本知识元素构建知识库的示意图。
30.图4为本发明实施例中一次完整决策过程以及该决策的可解释性和溯源记录示意图。
具体实施方式
31.下面结合附图和实施例详细说明本发明的实施方式。
32.为便于更好地理解本发明,首先给出本发明所涉及的术语定义如下:
33.智能系统:本发明所指智能系统,指算法和其他配套硬件设施所形成的一个整体,用于在现实社会中替代人的角色的一个泛称。
34.可解释性决策:指智能系统像人一样对外界的输入信息做出决策,并且可以反向溯源得出系统是通过哪些步骤以及哪些依据做出该决策的。
35.智能系统决策场景:在需要人决策的生活场景中,打算部署智能系统来替代人的场景。
36.知识库:知识元素的集合。
37.知识库配置文件:表示知识库的元素间的因果联系,这些元素的所属层级的记录。
38.图结构:指数据的逻辑结构d=(kr)中,如果k中结点对于关系r的前趋和后继的个数不加限制,即仅含一种任意的关系,则称这种数据结构为图形结构
39.自生长:表示图结构能自行往结构中添加新节点,建立新的更复杂的结构的一个过程。
40.因果联系:表示图结构中两个节点之间的连接是有方向的,两个节点间具有一种原因和结果的关系。
41.小样本:表示从智能系统决策场景中采集的少量数据作为训练样本。
42.增量学习:表示算法在训练的过程中实现的是一个连续学习过程,增加新数据后再训练不会破坏原先学习到的东西。
43.智能系统决策场景内的元素信息:指智能系统决策场景的感知数据、场景描述信息、场景内的法定或业界约定的规则等,场景中的所有基本元素信息构成一种集合。例如:在自动驾驶(无人驾驶)场景,基本元素包括人、固定障碍、卡车、各种移动方位表示(如有向前、向后、向左、向右)、运动状态(移动、静止等)、各种交通引导线、红绿灯等。
44.解释:能够告知用户该模型是通过哪些步骤做出该决策的。
45.本发明基于知识库和图结构设计可解释的智能体决策方法。如图1所示,本发明可解释的智能体决策方法的主要步骤如下:
46.步骤1,提取应用场景内的元素信息建立知识库
47.其中,元素信息包括该场景的感知数据、场景描述信息、场景内的法定或业界约定的规则,场景中的所有元素信息构成知识库,表示描述智能系统决策场景的一个全部元素信息集合。
48.示例地,在知识库中,可将元素的内容转换为特定的符号表示,并根据元素的数量确定决策方法的输入大小,元素的内容和数量根据应用场景确定,元素的数量等于决策方法的输入大小。
49.步骤2,建立知识库配置文件
50.在知识库的元素间建立因果联系,并设定元素的所属层级,所建立和设定的结果作为知识库的配置,进而建立知识库配置文件。
51.元素的所属层级根据各知识元素间的因果联系设定。示例地,如果某个元素没有前驱元素,即不需要其他元素驱动,直接接收外界信息,则其层级为1;如果某个元素有前驱
元素,即需要其他元素驱动,无法直接接收外界信息,则其层级为前驱元素中所属的最大层级加1。
52.步骤3,建立因果推理网络
53.基于所述知识库,用节点表示知识库中的任意一个元素,节点之间的边表示一种因果关系,建立一个因果推理网络。
54.本发明中,因果联系根据智能系统决策场景的具体规则和要求确定,通过建立因果联系,使得知识库中的所有元素之间形成了联系,元素不再孤立存在。
55.示例地,训练数据中如果没有知识库中的元素,则知识库中该元素对应的因果推理网络中的节点为0,如果有知识库中的元素,则知识库中该元素对应的因果推理网络中的节点为1。
56.步骤4,提取并固定学习到的新知识
57.使用一层因式分解机训练层与因果推理网络建立连接,基于从现实场景中收集的数据形成的样本,通过在因果推理网络中生长新节点的方式进行数据训练,由此提取并固定学习到的新知识。再将新节点以及与前驱节点的因果关系加入知识库及知识库配置文件中;其中,前驱节点指因果推理网络中通过边与新节点连接的节点。
58.显然,因果推理网络中,网络节点数与知识库中的元素数量相等且一一对应。
59.本发明采用的因式分解机的模型如下式:
[0060][0061]
上式x为数据输入,y1表示因式分解机的计算输出,c对应三阶张量,n对应其第一维的大小,i表示c的维度变量,w1代表因式分解机权值矩阵,b1代表因式分解机的偏置矩阵。
[0062]
在训练过程中,统计训练数据中xi*xj出现的频数f的最小值,xi、xj表示训练数据向量,输入因果推理网络中对应的节点分别表示为ni、nj,求 f
·
(v
·vt
)在输出维度上的l1范数,得到交叉特征,每一个交叉特征对应一对节点ni、nj,将所述交叉特征从大到小排序,对于前m个交叉特征,在因果推理网络中添加m个新节点,前驱节点为每一个交叉特征对应的一对节点,即每个新节点有两个前驱节点;将新添加的m个节点以及与前驱节点构成的因果关系加入知识库及其配置文件中。
[0063]
重复上述过程,直到生长出的新节点数超过设定值。但是,如果连续10个训练回合训练效果没有改善,即停止。
[0064]
图2为本发明训练时图结构的自生长流程,图中圆块表示节点,其中数字编号节点和无编号节点均表示非自生长出的节点,同时数字编号节点还表示不需要由其他节点驱动的节点,对应知识库中的某个元素直接从外界环境中输入。无编号节点和r节点表示需要由其他节点驱动的节点,对应知识库中的某个元素需要在其他元素具备的情况下其才具备,r节点则为自生长出的新节点。
[0065]
步骤5,训练单层全连接层
[0066]
步骤4利用因式分解机提取新知识,即生长出新节点,但是因式分解机还有一定的不可解释性,所以本步骤中,将因式分解机训练层替换成单层全连接层,由于单层不具有隐藏层,所以是可解释的。
[0067]
具体地,将因式分解机训练层替换成单层全连接层,保持因果推理网络结构(步骤4引入了“新节点以及与前驱节点的因果关系”的因果推理网络)不变,继续进行数据训练,全连接层的输出向量与决策类别对应,且输出向量中最大值对应的决策类别即为做出的决策。
[0068]
本发明采用全连接层的模型如下式所示:
[0069]
y2=x
·
w2+b2[0070]
上式x为数据输入,y2表示全连接层的模型计算输出(即决策类别),其对应一个向量,向量中最大值所对应的索引为要决策的类别,w2代表全连接层的权重矩阵,是一个二维矩阵,b2代表全连接层的偏置矩阵。
[0071]
示例地,与步骤4类似,本步骤如果连续10个训练回合训练效果没有改善,即停止。
[0072]
步骤6,决策的可解释实现
[0073]
对决策进行溯源,监测因果推理网络的节点激活情况,找出对应的元素及其因果关系和所属层级。分析全连接层的权重矩阵,找出影响决策的特征。这些监测和分析结果作为溯源记录,输出与用户离线交互,建立与用户的理解与信任。
[0074]
具体地,在模型的每一次决策过程中,因果推理网络中的部分节点被激活,依据被激活的节点以及其连接关系,形成与决策步骤对应的推理链,根据推理链,反向监测知识库和知识库配置文件,输出结果与权重矩阵w2共同参与分析,即分析哪些输入特征影响智能体得出该输出结果。而根据上述y2公式,模型计算后,y2向量中最大值表示的决策类别即为该做出的决策。网络结构上所有输入特征都会连向决策类别,每个连接代表一个权重值,所有输入特征的值都会与对应的权重值相乘。找出影响决策的特征的方式是将连向每个决策类别的权重值从大到小排列,每个权重对应的输入特征即为影响决策的特征。
[0075]
示例地,溯源记录经过溯源接口与用户交互,溯源接口将决策步骤和每一步骤的决策依据转换成溯源记录文档,输出与用户进行离线交互。通过溯源记录记载智能体通过哪些步骤做出这一决策过程。
[0076]
基于上述的智能系统决策方法,本发明还提供了相应的智能系统,智能系统运行该方法时,可实现智能系统决策场景的可解释性决策。显然,为了更好地与用户交互,该智能系统可适宜地配置有溯源接口和交互设施,溯源接口用于将得到的溯源记录输出至交互设施,交互设施则需要向用户展示溯源记录。示例地,交互设施可以是以视觉形式显示内容的电子界面,也可以是以听觉形式显示内容的语音设备。
[0077]
实际应用中,可将本发明可解释的智能体决策方法迁移至基于risc-v芯片的嵌入式系统上,对溯源记录进行保存,并通过输出端口输出溯源记录,与用户进行交互。
[0078]
本发明智能系统的典型应用,例如,可在游戏中替代人类玩家与其他玩家共同游戏,也可在工业领域中替代人类进行决策控制,并且向用户提供可解释性信息,即溯源记录。
[0079]
示例地,在游戏中替代人类玩家时,其可解释性决策包括:代替人类玩家在游戏中,像人类玩家一样操作,并且向用户提供可解释性。以斗地主游戏为例,能够根据牌面决定如何出牌,如何跟牌,并提供可解释性;训练出这样的决策模型,消耗的时间和资源少,且能够提供可解释性,即能够让人类用户知道模型是通过哪些步骤做出决策的,有利于建立用户和模型之间的信任。
[0080]
参考图3,以基于知识库和图结构的斗地主决策算法为例,其步骤如下:
[0081]
首先,对斗地主这一场景中的元素进行表达,共有54张牌,种类有“3,4, 5,6,7,8,9,10,j,q,k,大王,小王”共15种,除大小王外每种牌4张,大王1张,小王1张,能组成的牌型有:单张、双王、炸弹、对子、三张、三带一、三带二、四带一、四带二、三连对、四连对、五连对、六连对、七连对、八连对、九连对、十连对、五张顺子、六张顺子、七张顺子、八张顺子、九张顺子、十张顺子、十一张顺子、十二张顺子、二连飞机、飞机带翅膀、三连飞机、飞机带两对、四连飞机、三连飞机带翅膀、五连飞机、三连飞机带三对、四连飞机带翅膀、六连飞机、四连飞机带四对、五连飞机带翅膀,根据斗地主规则划分为276个基本元素知识。玩家之间有地主和农民两种身份,地主与农民是对抗,农民与农民是合作。能得到五类元素信息:第一种是手牌数据,表示自己有哪几种牌,每种牌的张数,以及能组成的牌型数据;第二种是合作关系,这是ai模型即智能系统对自己是地主还是其他玩家是地主的感知,当一名玩家是地主本家就需要与另一名玩家建立合作关系,决策时就需要考虑合作策略;第三种是牌面情况,每个玩家手上还剩的牌数,需要时刻感知这一情况,防止对手先出完牌;第四种是历史牌,各玩家已经出过的牌,需要纳入知识库中,可以基于已知信息推理未知信息,有助于决策;第五种是因果关联关系,每一个纳入知识库的知识都是一个单独的元素,几个元素之间是存在逻辑关系的,有组合构成、传值、推理。再用图结构对知识库进行表达,知识的层次从内到外逐渐加深。根据熟练玩家的经验,也可人为加入若干条经验来构建知识库及其配置文件。
[0082]
建立一层因式分解机输出层,利用小样本数据集进行训练,然后在根据本发明提出的技术在原有图结构上生长新的节点,再将新节点以及与前驱节点的因果联系加入知识库及其配置文件中。训练完成后形成的网络模型既可以实现斗地主出牌功能。
[0083]
再将因式分解机输出层模型替换成单层全连接层,这时提出的全连接模型不具有隐藏层,具备可解释性。
[0084]
如图4所示,为智能体拥有手牌“aaakjjj1066633”时,其出牌决策为“66633”的一次完整决策过程,同时示出了决策的可解释性以及溯源记录。
[0085]
决策过程:从智能体的手牌开始,第一步需要知道能组合出哪些牌,第二步需要知道能出什么牌,第三步需要知道主要关注哪些牌,第四步...,这些步骤基于知识库的因果推理网络计算获取,最后经权重矩阵w2的计算得出决策。在该过程中,因果推理网络中的相应节点被激活,依据被激活的节点以及其连接关系,可形成与决策步骤对应的推理链。
[0086]
通过推理链上的节点以及连接关系,再反向监测知识库和知识库配置文件,将相应的特征对应,得到溯源记录,溯源记录包括决策步骤,在必要时还包括相应的决策依据。
[0087]
图4同时示出了本实施例得到的溯源记录,为直观表达,本实施例以表格形式体现,根据需要,也可以图样等形式体现。其中,第一列“node_encode”表示因果推理网络中节点的索引,这一列用于记载因果推理网络中所有激活的节点。第二列表示节点对应的知识库内容,对应节点的解释性内容,
ꢀ“
comb_level_1”,comb_level_2”,comb_level_1_2”,comb_level_3”,comb_level_4”, 表示节点所属层级。决策步骤为“comb_level_1
”‑“
comb_level_2
”‑ꢀ“
comb_level_1_2
”‑“
comb_level_3
”‑“
comb_level_4”。以“node_encode”值为 43为例,解释其对应的知识库内容,(“6”,3)中的符号“6”表示牌面大小为“6”,数字3表示牌的数量,“value”表示激活值,1表示该节点激活,0 表示该节点未激活。
[0088]
输出该溯源记录时,将因果推理网络中所有参与决策的激活节点输出。“id”表示信息的归属对象,“me”表示属于决策模型自身的信息,“others”表示属于其他玩家的信息。其它层级的相同记录方式同理,“take_a_*”这种记录方式中,以“take_a_3”为例,表示层级“comb_level_1”中存在一张牌面为“3”的牌。第一列中的“card_alternative”表示所有可以出牌决策的选择节点,“card_block”表示该节点内容。“strategy”表示运用的策略节点,“test_playout”表示策略名,“play_card”表示所出的牌,“trio_with”表示牌型为三张牌带翅膀。
[0089]
可见,该溯源记录表格记载决策过程中因果推理网络中参与决策的各节点内容,对用户完全透明。另外fc输出层为单层全连接层,对用户完全透明,因此完全保证了可解释性。
[0090]
本发明可解释性的决策方法,可以由前述实施例的棋牌游戏决策向工业领域决策场景间迁移,以无人驾驶决策为例,其解释性决策控制包括自主控制对象以及保存、输出决策溯源记录。根据前述步骤1,从自动驾驶这一决策场景中提取元素信息,包括该场景的感知数据、场景描述信息、场景内的法定或业界约定的规则。例如,由摄像头和雷达等从外界采集,有行人、不同位置车辆、障碍等会发生碰撞事故等元素,停止线、人行道、虚实线、交通灯信号等路面交通标记,行驶、刹车、起步、应急、变道等车辆状态,以及交通规则等法定规则都需要提取出来。上述这些元素信息形成了知识库,在建立一个知识库配置文件表示这些元素信息之间的因果关系。比如“红灯停,绿灯行”这一基本的因果关系,它含有交通灯以及车辆决策这些元素,在步骤1的指导下需要事先表示好,后续步骤则完全相同,最终得出的溯源记录即相应的决策步骤以及必要时的决策依据。
[0091]
综上,本发明可实现智能系统决策场景下的通用方法,基于知识库对应用场景进行表达,在知识之间建立因果联系,使用图结构固定小样本学习后生长出的新知识,最后将输出层替换成单层全连接层,保证可解释性。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1