基于视觉语言模型的青瓷跨模态知识图谱构建方法

文档序号：40052810发布日期：2024-11-22 17:14阅读：来源：国知局

技术特征：

1.一种基于视觉语言模型的青瓷跨模态知识图谱构建方法，其特征在于：从青瓷图像中提取轮廓、纹理和色彩方面的局部特征；接着引入带门控的多元融合器来动态地融合多个图像特征；进一步地通过多层全连接网络，学习将融合特征映射到一个合适的中间表示空间，以引导文本编码器生成与图像特征更加匹配的文本特征；最后借助infonce损失函数对模型进行训练和优化。

2.如权利要求1所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法，其特征在于：所述方法包括以下步骤：

3.如权利要求2所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法，其特征在于：所述步骤1中，视觉语言模型的构建步骤如下：

4.如权利要求2或3所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法，其特征在于：所述步骤2的过程如下：

技术总结
一种基于视觉语言模型的青瓷跨模态知识图谱构建方法，从青瓷图像中提取轮廓、纹理和色彩方面的局部特征；接着引入带门控的多元融合器来动态地融合多个图像特征；进一步地通过多层全连接网络，学习将融合特征映射到一个合适的中间表示空间，以引导文本编码器生成与图像特征更加匹配的文本特征；最后借助InfoNCE损失函数对模型进行训练和优化。本发明在不改变视觉语言模型参数的前提下，充分挖掘图像特征的有效中间表示来完成文本特征的重构，提高了青瓷细节特征的跨模态识别准确度，为青瓷跨模态知识图谱的构建提供了有效支持。

技术研发人员：肖刚,何宜强,方静雯,张豪,徐俊
受保护的技术使用者：浙江工业大学
技术研发日：
技术公布日：2024/11/21

完整全部详细技术资料下载

当前第2页1 2