本发明涉及绘本识别领域,尤其涉及一种数字绘本识别方法、系统、电子设备及存储介质。
背景技术:
1、目前,数字绘本内容识别主要采用基于规则或传统机器学习的方法。这些方法通常依赖于手工设计的特征和规则,或者使用浅层的机器学习模型,如支持向量机(svm)、决策树等。然而,这些方法在识别数字绘本内容时存在一定的局限性和不足。
2、首先,数字绘本包含丰富的文本、图像和音频信息,这些信息之间存在着复杂的语义关联和上下文依赖关系。传统的识别方法难以有效捕捉和利用这些关联信息,导致识别准确性受到限制。其次,数字绘本的内容具有多样性和变化性,不同绘本在文本表述、图像风格和音频表现上可能存在较大差异。基于规则或浅层机器学习的方法泛化能力较弱,难以适应不同绘本的特点,导致识别准确率不高。
技术实现思路
1、本申请提供一种数字绘本识别方法、系统、电子设备及存储介质,用以提高数字绘本识别的准确度。
2、第一方面,本申请提供了一种数字绘本识别方法,所述方法,包括:
3、获取数字绘本数据,所述数字绘本数据包括绘本文本数据、绘本图像数据和绘本音频数据;
4、将所述数字绘本数据输入预设特征提取网络,得到数字绘本特征数据,所述数字绘本特征数据包括文本特征数据、图像特征数据和音频特征数据;
5、将所述数字绘本特征数据进行空间维度对齐处理,得到目标数字绘本特征数据;
6、将所述目标数字绘本特征数据输入预设的特征融合模块,具体的处理过程为:对所述目标数字绘本特征数据依次进行注意力处理和多层感知处理,得到绘本识别结果。
7、在上述技术方案中,通过获取数字绘本的多模态数据,利用预设特征提取网络提取文本、图像和音频特征,并进行空间维度对齐处理,得到目标数字绘本特征数据。然后,将目标数字绘本特征数据输入预设的特征融合模块,通过注意力处理和多层感知处理,得到最终的绘本识别结果。这种方法充分利用了数字绘本的多模态信息,通过特征提取、对齐和融合,有效地提高了识别的准确性和可靠性。同时,注意力机制和多层感知处理的引入,使得模型能够自适应地关注绘本内容的重要部分,提取高级语义信息,进一步增强了识别性能。
8、在本申请的第二方面提供了一种数字绘本识别系统,该系统包括:
9、数字绘本数据获取模块,用于获取数字绘本数据,所述数字绘本数据包括绘本文本数据、绘本图像数据和绘本音频数据;
10、特征数据提取模块,用于将所述数字绘本数据输入预设特征提取网络,得到数字绘本特征数据,所述数字绘本特征数据包括文本特征数据、图像特征数据和音频特征数据;
11、目标特征数据确定模块,用于将所述数字绘本特征数据进行空间维度对齐处理,得到目标数字绘本特征数据;
12、绘本识别模块,用于将所述目标数字绘本特征数据输入预设的特征融合模块,具体的处理过程为:对所述目标数字绘本特征数据依次进行注意力处理和多层感知处理,得到绘本识别结果。
13、在本申请的第三方面提供了一种计算机存储介质,计算机存储介质存储有多条指令,指令适于由处理器加载并执行上述的方法步骤。
14、在本申请的第四方面提供了一种电子设备,包括处理器、存储器、用户接口及网络接口,存储器用于存储指令,用户接口和网络接口用于给其他设备通信,处理器用于执行存储器中存储的指令,以使电子设备执行上述的方法。
15、综上,本申请实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:
16、1、本发明通过获取数字绘本的多模态数据,利用预设特征提取网络提取文本、图像和音频特征,并进行空间维度对齐处理,得到目标数字绘本特征数据。然后,将目标数字绘本特征数据输入预设的特征融合模块,通过注意力处理和多层感知处理,得到最终的绘本识别结果。这种方法充分利用了数字绘本的多模态信息,通过特征提取、对齐和融合,有效地提高了识别的准确性和可靠性。同时,注意力机制和多层感知处理的引入,使得模型能够自适应地关注绘本内容的重要部分,提取高级语义信息,进一步增强了识别性能。
17、2、本申请通过对绘本图像数据进行数据标注、融合处理、特征提取、注意力机制处理和特征处理等一系列操作,充分利用了图像的语义信息和注意力机制,提取出更加准确、全面、有针对性的图像特征数据。这种方法不仅考虑了图像的原始像素信息,还融合了语义标注信息,通过注意力机制自适应地关注图像的重要区域和关键对象,抑制无关和冗余信息,得到了高质量、高区分度的图像特征表示。图像特征数据的质量直接影响着后续的跨模态融合和语义理解的性能,本发明方法通过一系列技术手段,有效地提升了图像特征的表达能力和适用性,为实现高准确度、高智能化的绘本语义理解奠定了坚实的基础。
18、3、本申请通过对数字绘本特征数据进行尺寸统一、通道数对齐、层次排列、归一化处理、flatten处理和维度映射等一系列操作,实现了数字绘本特征在空间维度上的对齐和统一。这种对齐处理不仅考虑了特征的尺寸、通道数、层次结构等因素,还进行了归一化和flatten等转换,使得不同来源和形式的数字绘本特征能够映射到一个共同的特征空间,具有一致的维度和表示形式。空间维度对齐后的目标数字绘本特征数据,具有更好的可比性、兼容性和一致性,为后续的跨模态特征融合和语义理解提供了便利条件。同时,对齐后的特征数据也具有更好的数值稳定性和计算效率,有利于提高模型的训练速度和泛化能力。
1.一种数字绘本识别方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述预设特征提取网络包括文本特征提取网络、图像特征提取网络和音频提取网络;所述将所述数字绘本数据输入预设特征提取网络,得到数字绘本特征数据,包括:
3.根据权利要求2所述的方法,其特征在于,所述将所述绘本图像数据输入所述图像特征提取网络,得到所述图像特征数据,包括:
4.根据权利要求1所述的方法,其特征在于,所述将所述数字绘本特征数据进行空间维度对齐处理,得到目标数字绘本特征数据,包括:
5.根据权利要求1所述的方法,其特征在于,所述对所述目标数字绘本特征数据依次进行注意力处理和多层感知处理,得到绘本识别结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述注意力特征向量进行多层感知处理,得到所述绘本识别结果,包括:
7.根据权利要求2所述的方法,其特征在于,所述将所述绘本音频数据输入所述音频特征提取网络,得到所述音频特征数据,包括:
8.一种数字绘本识别系统,其特征在于,包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有多条指令,所述指令适用于由处理器加载并执行如权利要求1~7任意一项所述的方法。
10.一种电子设备,其特征在于,包括处理器、存储器和收发器,所述存储器用于存储指令,所述收发器用于和其他设备通信,所述处理器用于执行所述存储器中存储的指令,以使所述电子设备执行如权利要求1~7任意一项所述的方法。