1.一种基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:从青瓷图像中提取轮廓、纹理和色彩方面的局部特征;接着引入带门控的多元融合器来动态地融合多个图像特征;进一步地通过多层全连接网络,学习将融合特征映射到一个合适的中间表示空间,以引导文本编码器生成与图像特征更加匹配的文本特征;最后借助infonce损失函数对模型进行训练和优化。
2.如权利要求1所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:所述方法包括以下步骤:
3.如权利要求2所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:所述步骤1中,视觉语言模型的构建步骤如下:
4.如权利要求2或3所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:所述步骤2的过程如下: