一种AI决策系统的测试方法及系统与流程

文档序号:32714972发布日期:2022-12-28 02:14阅读:31来源:国知局
一种AI决策系统的测试方法及系统与流程
一种ai决策系统的测试方法及系统
技术领域
1.本发明属于ai决策系统的测试领域,特别是涉及一种ai决策系统的测试方法及系统。


背景技术:

2.在进行ai决策系统测试时,其实际运行环境状况是不同的,因此,所面临的输入事件是不可预知的,测试ai决策系统采用的测试输入数据集须模拟现实情况,而现有技术中通常采用固定输入,如:已有发明专利,公开号:cn 104063313 a,该专利采用固定测试输入数据进行测试,因此,测试结果往往有较大偏差。
3.另外,ai决策系统部署在实际生产环境中会产生经济效益和社会效益,作为使用者还是希望ai决策系统尽可能做到对其运行状态事前可知可控。每一个ai决策系统在构建之后,都需要对其正确性、可用性和效率等方面进行分析。没有一个ai决策系统在任何情况下都是最优的,有些系统判断正确率略低,但是其能够覆盖绝大多数场景信息输入;而有些系统虽然判断更加精准,但是能够进行有效判定的机会较少。因此,需要对系统进行测试评估,从而保障ai决策系统在实际应用环境中部署后,能达到预期的效果。
4.中国电子技术标准化研究院2018年7月1日发布了《人工智能深度学习算法评估规范》(url:http://www.cesi.cn/201807/4058.html),现有测试方法主要从accuracy(准确率)、precision(精确率)、recall(查全率)、可靠性 (reliability)、响应时间(response time)等方面进行评估,其中,可靠性与响应时间为软件测评的一般方法。在上述方法中,需要计算被测ai决策系统的准确率、精确率、查全率,因此会引入结果混淆矩阵,所述结果混淆矩阵如图1所示。准确率定义为:a=(tp+tn)/(p+n),即预测正确的样本(tp和tn)在所有样本中占的比例。精确率定义为:p=tp/(tp+fp),即所有被预测为正例的样本中,多少比例是真的正例。查全率定义为:r=tp/(tp+fn),即所有真的正例中,多少比例被模型预测出来了。
5.因此,现有技术默认ai决策系统对所有事件输入必须做出非正即反的判定,没有包含“人机交互”机制的影响,将决策系统无法判定的事件推给运行操作者进行人工判定。而实际上是应该包含“人机交互”因素的影响,以预判实际部署运行时人工参与的比例。
6.实际部署系统时,每次正确判定所带来的收益或损失应该被包含进测试评价体系中,如ai人脸识别应用中,将一个普通百姓识别错误的损失与将一个网上追逃嫌疑人识别错误的损失肯定不一样。所以仅判断非正即反,不能反应该系统实际部署时的效用,还需评估每次正确判定所带来的收益或损失。


技术实现要素:

7.本发明的目的在于,针对现有ai决策系统的测试方法中没有考虑“人机交互”因素的影响以及缺乏正确判定所带来的收益或损失判定,引入了人工决策对系统的影响,对入库事件数据的收益及损失进行确定,提出了一种ai决策系统的测试方法及系统。
8.为了实现上述目的,本发明采用的技术方案为:
一种ai决策系统的测试方法,包括以下步骤:s1,构建数据集,所述数据集中的数据记录至少包括数据指针、标注结果、收益和损失,其中,所述数据指针指向事件数据实际存放位置,所述标注结果的内容是所述事件数据正确与否的判断结果,所述收益是当被测ai算法判断结果与所述标注结果的内容相符时,得到的收益值,所述损失是当被测ai算法判断结果与所述标注结果的内容不相符时,得到的损失值;s2,将所述数据集中的数据记录输入被测ai算法,得到ai算法的测试结果,将测试结果与步骤s1中数据集的标注结果的内容进行对比,得到判断结果;s3,根据所述判断结果,对被测ai算法的实际效益进行分析,计算出被测ai算法的效益指数,所述被测ai算法的效益指数用于对被测ai算法的效益进行评估。
9.作为优选方案,步骤s2中所述判断结果包括:判断结果一致的数据记录、判断结果不一致的数据记录以及无法进行判断的数据记录。
10.作为优选方案,所述数据记录中还包括序号和时间,所述序号对数据集中的数据记录进行排序,所述时间是数据记录自然产生的时间。
11.作为优选方案,步骤s2中,所述数据集中的数据记录输入被测ai算法的顺序包括按随机顺序输入和按照数据记录自然产生的时间先后顺序输入。
12.作为优选方案,数据集中的数据记录按随机顺序输入被测ai算法包括但不限于一般伪随机方法、线性同余随机方法和梅森旋转随机方法。
13.作为优选方案,步骤s1中所述收益值和损失值根据实际的收益和损失确定。
14.作为优选方案,步骤s3具体包括以下步骤:s31,统计所述判断结果一致的数据记录中所有数据记录的收益值之和的平均数,记为w;s32,统计所述判断结果不一致的数据记录中所有数据记录的损失值的绝对值之和的平均数,记为l;s33,用所述判断结果一致的数据记录中数据记录个数之和除以所有数据记录数量,记为r;s34,用本发明公开的效益评价公式b =(w/(w+l)+ r)计算被测系统效益指数。
15.基于相同的构思,还提出了一种ai决策系统的测试系统,包括至少一个处理器,以及与所述至少一个处理器通信连接的存储器;所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述任一项所述的一种ai决策系统的测试方法。
16.基于相同的构思,还提出了一种计算机可读介质,其上存储有可由处理器执行的指令,所述指令在被处理器执行时,使得处理器执行上述任一项所述的一种ai决策系统的测试方法。
17.与现有技术相比,本发明的有益效果:本发明的方法建立了新的测试数据集,数据集中至少包括数据指针、标注结果、收益和损失,通过对测试数据集的组织与运用,避免算法过渡拟合导致泛化误差过大;同时ai算法的判断结果所产生的总体影响纳入测试评估范围,让其测试结果与实际部署后产生的社会及经济效益更为逼近。按本发明所公开的方法,可以适用于文本、图像、视频、语音等多
媒体信息作为输入,并将实际运行中ai算法无把握决策的事件输入推给运营维护人员处理。
附图说明
18.图1是背景技术中结果混淆矩阵的示意图;图2是本发明实施例1中一种ai决策系统的测试方法流程图;图3是本发明实施例1中是自动化测试的流程图。
具体实施方式
19.下面结合试验例及具体实施方式对本发明作进一步的详细描述。但不应将此理解为本发明上述主题的范围仅限于以下的实施例,凡基于本发明内容所实现的技术均属于本发明的范围。
20.实施例1一种ai决策系统的测试方法,流程图如图2所示,具体包括以下步骤:s1,构建数据集,所述数据集中的数据元至少包括数据指针、标注结果、收益和损失,其中,所述数据指针指向实际数据存放位置,所述标注结果的内容是入库时人为标注的入库事件数据正确与否的结果,所述收益是当被测ai算法判断结果与“标注结果”相符时,得到的收益值,所述损失是当被测ai算法判断结果与“标注结果”不相符时,得到的损失值。
21.入库时人为标注的入库事件数据正确与否的结果具体是指:根据被判断的对象类型(例如文本、图像、视频、语音),人为判断内容是否正确,例如,在数据标注时,数据记录的数据类型是图片,需要判断图片是是否为一只猫,若标注数据时,数据记录中的图片中的确是一只普通猫,就将其结果标注为“是”,同时设定收益值为1,损失值记为-1,如果不是猫,就将其结果标注为“否”,收益值记为-1,损失值记为1。
22.数据记录的数据类型不仅是图片,还可以是文字、视频,例如一段关于“猫”的描述文字、一段关于猫的短视频,若文字或视频中的确是一只普通猫,就将其结果标注为“是”,同时设定收益值为1,损失值记为-1,如果不是猫,就将其结果标注为“否”,收益值记为-1,损失值记为1。
23.收益值和损失值根据判断对象的重要程度进行设定,例如,如果数据标注时是判断对象是否是一只老虎,如果不是,即将结果标注为“否”,收益值记为1,损失记为-100,收益值记为1,损失记为-100,表明判断正确收益不大,判断错误损失巨大。
24.如果数据标注时是判断对象是毕加索关于猫的名画,如果是,即将结果标注为“是”,收益值记为100,损失记为-1,收益值记为100,损失记为-1,表明判断正确收益巨大,判断错误损失不大。
25.s2,将所述数据集输入被测ai算法,得到ai算法决策结果,将决策结果与步骤s1中数据集的标注结果进行对比,将被测系统判断结果与数据标注结果一致的加入队列tx,同时也得到了队列tx中各数据记录的收益值和损失值;将被测系统判断结果与标注结果不一致的加入队列fx,同时也得到了队列fx中各数据记录的收益值和损失值;以及将被测系统无法进行判定的加入队列hx。
26.s3,根据所述判断结果一致的队列、判断结果不一致的队列以及无法进行判断的
队列对被测ai系统的实际效益进行分析,计算出被测ai系统的效益指数,所述被测ai系统的效益指数用于对被测ai系统的效益进行评估。
27.作为优选方案,步骤s1中数据集构建具体包括:数据元描述如下:typedef {
ꢀꢀꢀꢀ
序号;
ꢀꢀꢀꢀꢀ
//对数据库中的数据记录进行排序
ꢀꢀꢀꢀ
日期时间; //数据的自然产生日期时间
ꢀꢀꢀꢀ
数据指针; //指向实际数据存放位置
ꢀꢀꢀꢀ
标注结果; //入库时标注的正确与否
ꢀꢀꢀꢀ
收益;
ꢀꢀꢀ
//当算法判断结果与“标注”相符时,所获得收益
ꢀꢀꢀꢀ
损失;
ꢀꢀꢀ
//当算法判断结果与“标注”不符时,所受到损失}测试数据记录;本方法及系统按照“测试数据记录”数据类型构建每条数据,并将其逐次加入测试数据库管理。
28.作为优选方案,步骤s2的步骤流程图如图2所示,具体包括以下步骤:1.系统加载测试ai算法;2.从测试数据中按随机(如:伪随机、线性同余、梅森旋转等)或数据自然产生的时间顺序等方法抽取测试数据记录,按被标注数据的自然产生时间先后顺序输入时,如果照片产生于1982年12月10日,则该照片存入的时间点一定先于2016年3月11日的照片)。将测试数据中按随机方式输入的思路的来源在于,ai算法是具备人类思维特征的算法,如果待测试数据始终以同样的顺序输入算法进行测试,那么算法可能就会根据顺序推测后序序列的结果,这就是算法的过拟合。为了避免此种情况的发生,而考察算法的真实能力,所以需要将被测数据集中的数据按照一定随机方法进行输入。
29.3.将抽取的测试记录输入待测试的ai算法;4.将算法判断的结果与测试数据记录的标注结果进行对比;5.若4判断的结果与标注中一致,则将此条记录复制到“tx队列”;6.若4判断的结果与标注不一致,则将此条记录复制到“fx队列”;7.若4无法进行判断,则将此条记录复制到“hx队列”;8.重复2~7,直致所有记录均已完成测试输入并执行完成。
30.步骤s3是ai决策系统实际效益分析,具体包括以下步骤:1.统计“tx队列”中所有数据记录的收益值之和的平均数,记为w。
31.2.统计“fx队列”中所有数据记录的损失值的绝对值之和的平均数,记为l。
32.3.用“tx队列”中数据记录总数除以能用ai系统进行判断的所有测试数据集的数量,记为:r,r是所有被测数据集中,决策正确的比例。
33.4.用公式b =(w/(w+l) + r)计算被测系统效益指数。
34.其中,w代表统计所述判断结果一致的数据记录中所有数据记录的收益值之和的平均数;l代表统计所述判断结果不一致的数据记录中所有数据记录的损失值的绝对值之和的平均数;r:代表用所述判断结果一致的数据记录中数据记录个数之和除以所有数据记录数量,即为正确率。
35.其中效益指数越高的表示其效益期望越好。
36.实施例2分别有ai系统a和b采用本方法及系统分别对系统a和b进行测试,示例如下:ai系统a的“tx队列”中收益值序列如下:[8, 9, 3, 9, 7, 2, 4, 1, 6, 1, 5, 9, 10, 2]ai系统a的“fx队列”中损失序列如下:[-7,
ꢀ‑
2,-10,-5,-5]ai系统a的“hx队列”共有元素10个系统a的w = (8+9+3+9+7+2+4+1+6+1+5+9+10+2)/14≈ 5.43系统a的l=(7+2+10+5+5)/5 = 5.8系统a的r=14/(14+5)≈73.68%系统a的效益指数 = (5.43/(5.43+5.8) +72.68%)= 1.22ai系统b的“tx队列”中收益序列如下:[1,7, 0,8,5,1,7, 0, 4,7]ai系统b的“fx队列”中损失序列如下:[-8,
ꢀ‑
7,
ꢀ‑
3,
ꢀ‑
8,
ꢀ‑
12,
ꢀ‑
6,
ꢀ‑
6,
ꢀ‑
12,
ꢀ‑
5,
ꢀ‑
11,
ꢀ‑
7,
ꢀ‑
1,
ꢀ‑
1,
ꢀ‑
12,
ꢀ‑
11,
ꢀ‑
5,
ꢀ‑
8,
ꢀ‑
9,
ꢀ‑
8]ai系统b的“hx队列”共有元素0个系统b的w=(1+7+0+8+5+1+7+0+4+7)/10 = 4系统b的l= (8+7+3+8+12+6+6+12+5+11+7+1+1+12+11+5+8+9+8)/19 ≈7.37系统b的r= 10/(10+19) ≈ 33.48%系统b的效益指数=(4/(4+7.37))+33.48% ≈ 0.6866效益指数越高的表示其效益期望越好,则对比起来,ai系统a的效益指数比ai系统b好,a系统正确率高,并且在正确时均能得到较高收益。当有效决策次数,被测数据输入顺序,决策收益和损失均为变量时,本算法可以综合判断其期望收益。
[0037]
实施例3例如,有三个同类的ai算法,均是进行“人脸识别”,但在相同测试数据集的情况下得到如表1所示的不同结果。
[0038]
表1 系统a、系统b、系统c采用本发明的方法测试的结果如果没有本发明公开的效益指数计算,几乎不能判断这三个算法的优劣。但通过本方法的测评后,如表1所示,可以得出结论该轮测评三个ai算法的效益几乎一致。进一步的,本发明的方法可以将人工决策次数,正确率,收益与损失值分布,这些均作为变量,对ai决策系统进行评估,在评估时,本发明的方法可以囊括差异进行综合评判。当前业界对ai算法进行测评时均只考虑其“识别能力”,并未对其部署后的实际社会及经济效益进行测评,
本方法是对当前主流测评方法的补充。
[0039]
以上显示和描述了本发明的基本原理和主要特征及本发明的优点,对于本领域技术人员而言,显然在不背离本发明的精神或基本特征的情况下,能够以其他的具体形式实现本发明。因此,无论从哪一点来看,均应将实施例看作是示范性的,而且是非限制性的,本发明的范围由所附权利要求而不是上述说明限定,因此旨在将落在权利要求的等同要件的含义和范围内的所有变化囊括在本发明内。不应将权利要求中的任何附图标记视为限制所涉及的权利要求。
[0040]
此外,应当理解,虽然本说明书按照实施方式加以描述,但并非实施方式仅包含一个独立的技术方案,说明书的这种叙述方式仅仅是为清楚起见,本领域技术人员应当将说明书作为一个整体,实施例中的技术方案也可以经适当组合,形成本领域技术人员可以理解的其他实施方式。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1