本发明属于图像处理,具体涉及结合视觉大模型sam的辅助标注方法。
背景技术:
1、在现有技术中,针对传统浏览器网页页面只能展现图片,或者画布(canvas)只提供的基本的图形绘制,不便于操作图片进行图片编辑以及页面图片绘制工作,也无法和鼠标进行联动操作。尤其在深度学习领域,需要对图形进行坐标记录以及标注等。
2、如现有技术公开了名称为网页图像标注方法、装置、电子设备及存储介质(申请公布号:cn112346809a)的发明专利,由于可以实现操作事件与操作画布的联动,通过操作事件对操作画布中的多个目标对象进行图形标注之后,同时还可以实时记录目标对象的坐标信息,能够方便快捷的对操作画布中的图片进行操作。
3、然而,在现有标注的方案中,对于大批量、重复性高的图像数据,一般需要人工完成对所有数据的标注,人工标注时,需要用户手动拖拽拉框,存在以下技术问题:画出来的框是一个不适合ai学习的状态,需要反复微调修改大小至合适,需要花费较多的时间去反复与修正标注框,才能让ai更好地识别与学习,标注过程对于人工的依赖较大,且多为重复性工作,效率较低。
技术实现思路
1、本发明目的在于解决现有技术中存在的上述技术问题,提供结合视觉大模型sam的辅助标注方法,实现了高效的图像标注过程,降低了人工标注的工作量。
2、为了解决上述技术问题,本发明采用如下技术方案:
3、结合视觉大模型sam的辅助标注方法,其特征在于包括如下步骤:
4、步骤a、图片分割:用户打开图片标注工具,通过视觉大模型sam,将用户需要标注的图片分割成若干个图像嵌入掩码,并整合生成一个能在网页端展示的模型。
5、步骤b、根据鼠标坐标计算结果:解码模型,从而找到符合鼠标位置的目标块,并展示在网页上,用户通过鼠标悬浮,产生提示区域,通过用户点击提示区域,确立正确的目标块。
6、步骤c、标注框生成:根据用户点击正确的目标块,显示的目标块的坐标和长宽生成一个标注框来包裹这个目标块。
7、步骤d、确认标注框是否满足要求,若满足要求后,重复步骤b,直至图片全部标注完成。
8、进一步,视觉大模型包括编码器和解码器,对图片分割具体为:(1)采用编码器提取图像特征;(2)采用解码器将特征图恢复到原始图像大小,并生成分割结果。
9、进一步,视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括像素级别的分类损失和边界框级别的回归损失。分类损失用于衡量每个像素所属类别,回归损失则用于调整每个像素的边界框位置。
10、进一步,视觉大模型采用数据增强模块,数据增强模块包括随机旋转、缩放、裁剪、翻转,以及颜色空间变换和噪声添加。
11、进一步,视觉大模型使用预训练模型作为编码器的初始权重,用于加速模型训练和提高分割精度。
12、进一步,预训练模型使用了mae和vit进行预训练。
13、进一步,将视觉大模型切割图片处理成embedding模型文件,再利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置。
14、进一步,提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。
15、本发明由于采用了上述技术方案,具有以下有益效果:
16、本发明将视觉大模型sam与传统的标注工具结合,视觉大模型sam将用户需要标注的图片分割成若干个目标块,再在网页上展示,实现了高效的图像标注过程,降低了人工标注的工作量。
17、本发明通过鼠标悬浮,显示目标块,再通过用户点击提示区域,确立正确的目标块,从鼠标两次以上的点击和位移减少到了一次点击,极大地减少了用户的操作量。
1.结合视觉大模型sam的辅助标注方法,其特征在于包括如下步骤:
2.根据权利要求1所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型包括编码器和解码器,对图片分割具体为:
3.根据权利要求2所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型使用了一种基于交叉熵的多任务损失函数,其中包括像素级别的分类损失和边界框级别的回归损失;
4.根据权利要求2所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型采用数据增强模块,数据增强模块包括随机旋转、缩放、裁剪、翻转,以及颜色空间变换和噪声添加。
5.根据权利要求2所述的结合视觉大模型sam的辅助标注方法,其特征在于:视觉大模型使用预训练模型作为编码器的初始权重,用于加速模型训练和提高分割精度。
6.根据权利要求5所述的结合视觉大模型sam的辅助标注方法,其特征在于:预训练模型使用了mae和vit进行预训练。
7.根据权利要求1所述的结合视觉大模型sam的辅助标注方法,其特征在于:将视觉大模型切割图片处理成embedding模型文件,再利用onnx运行embedding模型文件,去处理该模型文件,根据鼠标坐标获取对应的mask,将mask解码转成图片文件,图片文件为目标块,然后覆盖在原图对应位置。
8.根据权利要求1所述的结合视觉大模型sam的辅助标注方法,其特征在于:提示区域为一个覆盖标注目标的蓝色区域,通过鼠标滚轮切换蓝色区域的大小,进行调整,通过鼠标坐标寻找到符合的若干个目标块并组装成数组,让用户通过滚轮来切换数组展示的目标块。