基于视觉语言模型的青瓷跨模态知识图谱构建方法

文档序号:40052810发布日期:2024-11-22 17:14阅读:来源:国知局

技术特征:

1.一种基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:从青瓷图像中提取轮廓、纹理和色彩方面的局部特征;接着引入带门控的多元融合器来动态地融合多个图像特征;进一步地通过多层全连接网络,学习将融合特征映射到一个合适的中间表示空间,以引导文本编码器生成与图像特征更加匹配的文本特征;最后借助infonce损失函数对模型进行训练和优化。

2.如权利要求1所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:所述方法包括以下步骤:

3.如权利要求2所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:所述步骤1中,视觉语言模型的构建步骤如下:

4.如权利要求2或3所述的基于视觉语言模型的青瓷跨模态知识图谱构建方法,其特征在于:所述步骤2的过程如下:


技术总结
一种基于视觉语言模型的青瓷跨模态知识图谱构建方法,从青瓷图像中提取轮廓、纹理和色彩方面的局部特征;接着引入带门控的多元融合器来动态地融合多个图像特征;进一步地通过多层全连接网络,学习将融合特征映射到一个合适的中间表示空间,以引导文本编码器生成与图像特征更加匹配的文本特征;最后借助InfoNCE损失函数对模型进行训练和优化。本发明在不改变视觉语言模型参数的前提下,充分挖掘图像特征的有效中间表示来完成文本特征的重构,提高了青瓷细节特征的跨模态识别准确度,为青瓷跨模态知识图谱的构建提供了有效支持。

技术研发人员:肖刚,何宜强,方静雯,张豪,徐俊
受保护的技术使用者:浙江工业大学
技术研发日:
技术公布日:2024/11/21
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1