本发明涉及人工智能ai以及人工智能背景下的评测,尤其涉及一种基于ai生成内容匹配度评测的ai评测方法及系统。
背景技术:
1、aigc(ai-generated content,人工智能自主生成内容)已经从概念逐渐走向了现实,正如其字面意思,aigc是由ai创作和生产的内容。在ai写作、ai绘图、ai作曲等越来越多的场景中,aigc给予了很多令人惊艳的结果。以ai绘图为例,只需要输入文本,ai绘图工具就能根据文本生成图片,目前已有数家提供此类服务的公司,学术界也有很多方法完成ai绘画。
2、与ai创作方法方式的迅猛发展相比,对ai生产内容的评价方式却没有很大的进步。将ai生成内容与现实已有内容作比较是最早期的做法。还是以ai绘图为例,把文本对应的现实照片和使用该文本ai生成的图片相比,计算差距就是这种评价方法。这种方法在早期ai生成的图片内容质量不高时非常有用,因为当时ai生成的图片和现实照片越相近就说明生成质量越好。但当ai生成的图片质量达到一定程度以后,和现实图片计算差距的方法往往限制了创作力,因为现实中的某张图肯定不是该文本的唯一解。令人惊艳的ai生成图片往往和现有照片的差距很大,所以这种方法不太适合评价富有创作力的图片。
3、近期的ai绘图论文中开始大量采用人工标注的方法来评价生成图片的好坏。由于人工标注的情况下,看一张图并标注图片质量分数的难度高,标注一致性低,所以采取了相对评价的方案,即看两张图让标注人判断哪张图更好。虽然这种相对评价方案解决了标注难度和数据一致性问题,但由于标注次数的增加,标注效率也随之降低。尤其在需要大量比较时,人工标注更需要大量的时间去进行重复性的标注。并且,相对评价的标注一致性已经比绝对评价的标注一致性要高,但不同的标注人员的标注一致性还是影响评测结果可信度的重要障碍,往往需要更多更精细地标注来缓解一致性差的问题。
4、因此,亟需寻找更加公正、有效和普适的基于ai生成内容匹配度评测的ai评测方法及系统,并需要解决ai生成内容的可解释性和可控制性问题,同时也要面对和解决人工智能伦理问题。
技术实现思路
1、为了解决现有技术中存在的问题,本发明提供了如下技术方案,一种基于ai生成内容匹配度评测的ai评测方法及系统,通过计算模型的输入与输出的匹配度来评估ai生成内容的质量。例如:对于文本到图像的生成模型,系统会提取输入文本和输出图像的关键信息,并计算其相似度以得到匹配度;对于文本到文本的生成模型,系统会通过语义相似度分析比较输入和输出文本的匹配度。为了提高匹配度的准确性,系统会结合多种计算方法,例如,像素级别匹配度、语义级别匹配度等,并自动优化这些计算方法以适应不同类型的ai模型和任务。
2、本发明一方面提供了一种基于ai生成内容匹配度评测的ai评测方法,针对单一ai模型进行所述ai评测,包括:
3、s1,生成所述ai模型的输入数据和输出数据,其中所述输出数据是ai模型根据所述输入数据生成的内容;
4、s2,接收所述输入数据和输出数据,并计算所述输入数据和输出数据的匹配度;
5、s3,将所述输入数据和输出数据的匹配度输出给用户或其他系统组件以进行展示和进一步优化计算。
6、优选的,所述s1包括:
7、s11,生成ai模型的输入数据,所述输入数据为文本、图像、音频或视频;
8、s12,将所述输入数据输入到ai模型中获得所述ai模型的输出数据,所述输出数据为文本、图像、音频或视频;所述输入数据与所述输出数据的类型无需一致。
9、优选的,所述s1还包括:
10、s13,对所述输入数据和输出数据进行预处理;所述预处理包括:
11、若所述输入数据和/或输出数据为文本,则进行分词、去停用词和词嵌入操作;
12、若所述输入数据和/或输出数据为图像,则进行像素标准化和特征提取;
13、若所述输入数据和/或输出数据为音频,则进行语音分帧和加窗操作;
14、若所述输入数据和/或输出数据为视频,则进行视频镜头分割或镜头边界检测、关键帧提取以及视频特征提取。
15、优选的,所述s2包括:
16、s21,接收经过所述预处理的所述输入数据和输出数据;
17、s22,计算经过所述预处理的所述输入数据和输出数据的匹配度;
18、所述s22的匹配度计算方法取决于输入数据和输出数据的类型;
19、对于输入数据为文本到输出数据为图像的ai模型,匹配度计算方法包括:
20、(1)提取输入数据和输出数据的关键信息;
21、(2)基于语义相似度和像素级别的匹配度作为输入数据和输出数据的匹配度评价;
22、对于输入数据为文本到输出数据为文本的ai模型,匹配度计算的方式为:
23、使用词嵌入和语义相似度的计算比较输入数据和输出数据的匹配度;其中:词嵌入为利用词特征矩阵所获得的词的分布式表示;
24、所述语义相似度的计算公式为式(1):
25、s_semantic=sum(cosine_similarity(t_i,i_i))/n (1);
26、其中,s_semantic表示语义相似度;t_i表示输入文本中第i个关键词的词向量;i_i表示输出图像中第i个关键特征的特征向量;n表示关键词或关键特征的数量;cosine_similarity表示余弦相似度函数;
27、像素级别的匹配度的计算公式为式(2):
28、s_pixel=1-1/(1+exp(-sum(abs(p_i-q_i))/m)) (2);
29、其中,s_pixel表示像素级别的匹配度;p_i表示输出图像的第i个像素值;q_i表示标准图像的第i个像素值;m表示像素值的数量;abs表示取绝对值函数,exp表示指数函数。
30、优选的,所述基于语义相似度和像素级别的匹配度作为输入数据和输出数据的匹配度评价包括:基于将语义相似度和像素级别的匹配度进行加权平均的方式得到总的匹配度评分,将所述总的匹配度评分作为输入和输出的匹配度评价,其中所述总的匹配度评分的计算公式如式(3):
31、s_total=w1*s_semantic+w2*s_pixel (3);
32、其中,s_total表示总的匹配度评分;w1和w2分别表示语义相似度和像素级别的匹配度的权重,并且满足w1+w2=1。
33、优选的,所述方法还包括:
34、s4,基于所述输入数据和输出数据的匹配度、输入数据和输出数据优化输入数据和输出数据的匹配度的计算方法。
35、本发明第二方面提供了一种基于ai生成内容匹配度评测的ai评测系统,包括:
36、输入层,用于生成所述ai模型的输入和输出数据;
37、匹配度计算层,用于接收所述输入数据和输出数据,并计算所述输入数据和输出数据的匹配度;
38、输出层,用于将所述输入数据和输出数据的匹配度输出给用户或其他系统组件以进行展示和进一步优化计算。
39、优选的,所述系统还包括:
40、优化器,用于基于所述匹配度、输入数据和输出数据优化匹配度计算层的输入数据和输出数据的匹配度计算方法。
41、本发明的第三方面提供一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器用于读取所述指令并执行如第一方面所述的方法。
42、本发明的第四方面提供一种计算机可读存储介质,所述计算机可读存储介质存储有多条指令,所述多条指令可被处理器读取并执行如第一方面所述的方法。
43、本发明提供的基于ai生成内容匹配度评测的ai评测方法和系统,具有如下有益效果:
44、可以有效地评价文本到图像、文本到视频、文本到音频、图像到文本、图像到音频的ai模型的性能,对于输入和输出匹配度高的模型,给出了高的评分,反之则给出了低的评分。对于ai模型的优化也起到了指导作用,能够实现自我优化,持续提高生成内容的质量。