本发明涉及图像处理,特别是涉及一种基于目标检测的背景唐卡图像标注的方法及系统。
背景技术:
1、唐卡(又名唐嘎、唐喀)是青藏高原地区独特的艺术绘画,装裱后悬挂供奉的宗教卷轴画。2006年,唐卡被联合国教科文组织评为世界非物质文化保护遗产。唐卡不仅是了解藏区历史、社会、经济、文化、科技等方面的重要实物史料,还是民间艺术中弥足珍贵的非物质文化遗产。保护、发扬和传承这些珍贵的人类非物质文化遗产具有重要的社会意义。
2、近年来,随着“数字人文”理念的提出,唐卡数字化保护越来越受到重视。研究者在唐卡图像数字化修复、语义检索、智能问答、知识图谱构建等方面开展了一系列研究。然而,目前在唐卡图像分类和检索方面,大部分研究都集中在整张唐卡图像上,很少关注唐卡内部的细节。
3、事实上,一张唐卡中包含多个人物、法器或坐台等元素,这些元素各自蕴含丰富的含义。使用目标检测算法可以直观展示唐卡中人物或法器等多个目标对象及其位置关系,通过识别和标注这些信息,可以帮助人们更深入地了解唐卡所蕴含的语义信息。然而,由于唐卡图像背景复杂、颜色丰富,且同一对象在不同图像中的呈现大小和颜色各不相同,给目标检测和人物识别带来了极大挑战。
4、目前,唐卡图像的目标检测尚无专门的软件或系统,现有的图像处理方法难以高效、准确地对唐卡图像进行标注和分类。人工标注不仅耗时耗力,而且容易受到主观因素的影响,导致标注结果的不一致性。
技术实现思路
1、为了克服现有技术的不足,本发明的目的是提供一种基于目标检测的背景唐卡图像标注的方法及系统,本发明解决了现有技术中唐卡图像的标准和分类准确率和效率低下的问题。
2、为实现上述目的,本发明提供了如下方案:
3、一种基于目标检测的背景唐卡图像标注的方法,包括:
4、获取待处理图像数据集;
5、对所述待处理图像数据集进行预处理,得到预处理后的图像数据集;
6、将所述预处理后的图像数据集输入至yolov8目标检测模型,得到预处理后的图像数据集的类别、边界框坐标和置信度分数;
7、根据所述边界框坐标,对边界框进行手动调整,得到调整后的边界框;
8、根据所述类别、调整后的边界框和置信度分数对所述预处理后的图像数据集进行调整并裁剪,得到裁剪图像集;
9、根据所述裁剪图像集构建第一分类数据集和第二分类数据集;
10、将所述第二分类数据集输入构建好的分类模型中,得到分类结果;
11、根据所述分类结果得到目标检测标注数据集。
12、优选地,所述对所述待处理图像数据集进行预处理,得到预处理后的图像数据集,包括:
13、对所述待处理图像数据集进行归一化,得到归一化数据;
14、对所述归一化数据进行图像增强,得到预处理后的图像数据集。
15、优选地,所述将所述预处理后的图像数据集输入至yolov8目标检测模型,得到预处理后的图像数据集的类别、边界框坐标和置信度分数,包括:
16、利用所述yolov8目标检测模型对所述预处理后的图像数据进行特征提取,得到特征集合;
17、根据所述特征集合,将所述预处理后的图像数据划分为多个网格单元并对各个网格单元进行目标检测,得到目标数据;
18、基于非极大值抑制算法,根据所述目标数据得到预处理后的图像数据集的类别、边界框坐标和置信度分数。
19、优选地,所述分类模型的构建方法为:
20、获取初始vit模型和所述第一分类数据集;
21、将所述初始vit的分类头进行替换并将前8层transformer编码器层进行冻结,得到最终vit模型,其中,所述最终vit模型的分类头输出维度设置为72;
22、根据所述最终vit模型和所述第一分类数据集构建分类模型。
23、优选地,所述根据所述分类结果得到目标检测标注数据集,包括:
24、确定裁剪图像集中各个裁剪图像的边界框信息和文件名;
25、根据所述各个裁剪图像的边界框信息确定对应的预处理后的图像数据集中各个图像数据集的边界框信息和文件名;
26、根据所述各个图像数据集的边界框信息和文件名及分类结果得到目标检测标注数据集。
27、优选地,所述第一分类数据集中的分类结果设置为72个。
28、一种基于目标检测的背景唐卡图像标注的系统,包括:
29、数据获取模块,用于获取待处理图像数据集;
30、图像预处理模块,用于对所述待处理图像数据集进行预处理,得到预处理后的图像数据集;
31、目标检测模块,用于将所述预处理后的图像数据集输入至yolov8目标检测模型,得到预处理后的图像数据集的类别、边界框坐标和置信度分数;
32、手动调整模块,用于根据所述边界框坐标,对边界框进行手动调整,得到调整后的边界框;
33、图像裁剪模块,用于根据所述类别、调整后的边界框和置信度分数对所述预处理后的图像数据集进行调整并裁剪,得到裁剪图像集;
34、分类数据集构建模块,用于根据所述裁剪图像集构建第一分类数据集和第二分类数据集;
35、分类标注模块,用于将所述第二分类数据集输入构建好的分类模型中,得到分类结果;
36、类别回填模块,用于根据所述分类结果得到目标检测标注数据集。
37、本发明公开了以下技术效果:
38、本发明提供了一种基于目标检测的背景唐卡图像标注的方法,包括:获取待处理图像数据集;对所述待处理图像数据集进行预处理,得到预处理后的图像数据集;将所述预处理后的图像数据集输入至yolov8目标检测模型,得到预处理后的图像数据集的类别、边界框坐标和置信度分数;根据所述边界框坐标,对边界框进行手动调整,得到调整后的边界框,根据所述类别、调整后的边界框坐标和置信度分数对所述预处理后的图像数据集进行调整并裁剪,得到裁剪图像集;根据所述裁剪图像集构建第一分类数据集和第二分类数据集;将所述第二分类数据集输入构建好的分类模型中,得到分类结果;根据所述分类结果得到目标检测标注数据集。本发明使用yolov8模型进行目标检测,提高了检测的准确率和效率。yolov8模型将目标检测问题转化为回归问题,通过单一神经网络直接预测目标的类别和边界框坐标,具有高效、准确的特点采用vit模型进行分类,保证了分类结果的准确性。vit模型基于transformer架构,通过将图像分割成若干个固定大小的图块,进行特征提取和处理,具有强大的特征提取能力和自注意力机制;智能标注模块的设计,实现了自动化的图像标注。通过结合自动化的目标检测和分类模型,以及手动调整和筛选,确保了标注结果的高效性和准确性。
1.一种基于目标检测的背景唐卡图像标注的方法,其特征在于,包括:
2.根据权利要求1所述的一种基于目标检测的背景唐卡图像标注的方法,其特征在于,所述对所述待处理图像数据集进行预处理,得到预处理后的图像数据集,包括:
3.根据权利要求1所述的一种基于目标检测的背景唐卡图像标注的方法,其特征在于,所述将所述预处理后的图像数据集输入至yolov8目标检测模型,得到预处理后的图像数据集的类别、边界框坐标和置信度分数,包括:
4.根据权利要求1所述的一种基于目标检测的背景唐卡图像标注的方法,其特征在于,所述分类模型的构建方法为:
5.根据权利要求1所述的一种基于目标检测的背景唐卡图像标注的方法,其特征在于,所述根据所述分类结果得到目标检测标注数据集,包括:
6.根据权利要求1所述的一种基于目标检测的背景唐卡图像标注的方法,其特征在于,所述第一分类数据集中的分类结果设置为72个。
7.一种基于目标检测的背景唐卡图像标注的系统,其特征在于,包括: