本发明涉及计算机领域,特别涉及一种用于多模态数据标注的系统及方法,使用深度学习模型的目标检测算法,加快标注人员在需标注数据上进行标注的效率。
背景技术:
1、多模态数据标注是计算机视觉与数据科学领域的一个重要研究领域,它涉及为包含文本、图像、音频、视频等多种类型信息的数据赋予语义标签、元数据或注释。这些标注使得计算机系统能够理解和处理这些信息。多模态数据标注的目标是将数据与语义信息关联起来,例如分类标签、描述性文本、情感情感极性等,以便于计算机系统更好地理解和分析这些数据。这种标注通常由人工标注员完成,他们根据数据的内容和特点,为数据添加适当的标签和注释,但是人工标注会随之带来高成本、时间消耗、数据整合难度、一致性和标准化等问题。多模态数据标注的重要性在于提高机器的理解能力。当计算机系统能够理解不同模态的数据时,它们可以更好地处理和分析这些数据,从而提高在各种应用中的性能。
2、随着数字化技术的快速发展,多模态数据的获取和应用已经成为现实生活和各个行业中的常见情况。这些多模态数据通常包括图像、文本等不同形式的信息,这些信息相互之间存在关联,综合利用这些信息可以帮助实现更准确和全面的数据分析、识别和应用。然而,多模态数据的标注工作却面临着诸多挑战。传统的标注方法通常需要大量的人力投入,且标注过程中容易出现主观误差,标注效率和准确性难以保证。另外,不同模态数据之间的复杂关联性也增加了标注任务的复杂性。
3、现有的技术往往采用人工标注的方式,即便在一定程度上利用了自动化标注工具,但仍然存在标注效率低、准确性差等问题。因此,迫切需要一种能够高效、准确地完成多模态数据标注的方法和系统。提供一种自动化、高效、准确的多模态数据标注系统及方法成为一项迫切需要完成的任务,以应对日益增长的多模态数据标注需求,推动多模态数据在各领域的应用和发展。
4、公开号cn113535949a的专利公开了提供了一种基于图片和句子的多模态联合事件检测方法。同时从图片和句子中识别事件,可以利用现有的单模态数据集分别学习图片和文本事件分类器;另一方面利用已有的图片与标题对训练图片句子匹配模块,找出多模态文章中语义相似度最高的图片和句子,从而获取图片实体和单词在公共空间的特征表示。最后,利用少量的多模态标注数据对模型进行测试,利用共享事件分类器分别获取图片和句子描述的事件及其类型。
5、公开号cn115311512a的专利公开了一种数据标注方法、装置、设备及存储介质。将待标注数据集输入预设的自动标注模型,得到第一数据集;将第一数据集中相同帧的标注数据进行标注之间的融合补全,得到第二数据集;确定第二数据集中存在冗余标注的标注数据,并根据存在冗余标注的标注数据对第二数据集进行交叉验证整合,得到补全数据集。通过采集器获取点云和图像数据,使用多模态标注交叉验证并丰富语义信息,并将多模态标注融合。
6、公开号cn115937738a的专利公开了视频标注模型的训练方法、装置、设备及存储介质。其方法包括:获取视频数据,在所述视频数据中提取关键帧;对帧进行特征提取,得到帧在不同模态下的特征数据;基于不同模态下的特征数据,构建不同模态对应的子图;基于图神经网络,对不同模态对应的子图执行聚合操作,得到目标图;基于目标图,获取图神经网络对关键帧进行视频标注的预测标注结果;基于预测标注结果和关键帧的实际标注结果,训练图神经网络直至收敛,得到视频标注模型。
7、综合目前存在的多模态标注工具,智能模型发展较为缓慢,多数工具只能进行文字、图片或者视频单一文件进行标注,对文件的处理过程也很复杂,标注的形式也很单一,不能添加标注标签的关系等方面的信息。标注效率也是一个工具的重要评价指标,现存的工具对智能标注的发展也是相对有限的,加入深度学习模型可以在很大程度上进行自动化标注、提高准确性、进行多模态融合、加强实时性与适应性。
8、不同的文件内容,如文本和图片在进行标注时要求完全不同,标注模型需要针对不同的内容进行专门的训练。基于此现状,本发明提供一种基于深度学习的多模态标注方法,能直接在多种形式的数据上进行多模态信息标注,训练模型,优化模型,对标注的信息进行实时回显。
技术实现思路
1、为解决上述问题,本发明提供一种基于深度学习的多模态标注方法。本发明利用深度学习技术,针对包含图像、文本等多种模态的数据进行高效准确的标注。
2、本发明的技术方案为:
3、一种基于深度学习的多模态标注方法,其步骤包括:
4、1)利用多模态标注模块进行数据内容的标注:
5、11)标注任务定义,明确定义标注任务的具体内容和标准,确定需要标注的数据类型、标签体系等,确保标注人员理解标注任务的要求;
6、12)标注形式选择,选择合适的多模态标注形式,确保标注的形式能够满足标注任务的需求。
7、13)标注结果整合,将标注结果整合到统一的数据集中,确保数据的组织和格式符合后续任务的需求。
8、2)利用深度学习模型对标注出的内容进行学习:
9、21)收集标注好的数据集,包括输入数据和对应的标注信息。确保数据集的质量和标注准确性对于深度学习模型的训练至关重要;
10、22)选择合适的深度学习模型,根据公开数据集arxiv dataset的特点和标注任务的复杂性来确定模型的结构和参数,arxiv dataset数据集是一个包含170万篇文章的资料库,其中包含文章标题、作者、类别、摘要、pdf全文等相关特征,数据以json格式存储;
11、23)使用准备好的数据集对深度学习模型进行训练。在训练过程中,通过反向传播算法和优化器来调整模型的权重和参数,使模型逐渐学习到标注内容的特征和规律,为了提高模型在处理多模态数据时对标注内容的学习能力,对损失函数进行改进,使其能够更好地捕捉各模态之间的关系和特征,本发明使用了加权融合的多模态损失函数:
12、l=α·ltext+β·limg+γ·lfusion
13、其中,ltext是针对文本模态的损失,limg是图像数据的损失,lfusion是模态融合的损失,α、β、γ是不同的权重系数。
14、24)利用验证数据集对训练好的模型进行验证,评估模型的性能和泛化能力,根据验证结果进行模型的调优,以提高模型的性能;
15、25)将训练好的深度学习模型应用于新的未标注数据,进行推理和预测。模型会根据输入数据自动进行标注或分类,生成相应的输出结果。
16、进一步的,对于多模态数据形式的标注,提供不同的标注方式,如文本、图像、音频等,用不同的标注方式进行标注,以人工标注的方式构建标注数据集。
17、进一步的,需要选择适合的标注工具,以本系统为标注工具,进行数据标注,本系统提供了不同数据的标注方法,如图片类型,可以进行目标识别和分类、关键点标注、图像描述、区域标注、属性标注。
18、进一步的,深度学习模块,对标注的数据进行训练、预测和评估,以及根据标注人员对智能标注识别的信息进行修改所得更新数据,对所述深度学习模型进行增量训练。
19、进一步的,收集标注后的数据进行存储,存储到指定数据库,用于下一步进行模型的训练,存储数据库使用非关系型数据库。
20、进一步的,在收集好的数据集上使用yolo算法进行预训练深度学习模型,对模型参数进行训练和调优,使用yolo算法结合手动标注的标签相结合,以训练模型检测图像中的对象并识别它们的类别和属性。
21、进一步的,应用训练完成的深度学习模型,整合yolo和标注模型,融合yolo目标检测和标注模型的多模态框架,将yolo和智能标注模型整合到一个多模态标注框架中,该框架可以用于对新的未标注文件进行多模态标注,具有使用yolo模型检测图像中的对象、提取每个检测到的对象的特征、使用文本标注模型预测每个对象的类别和属性等功能。框架使用yolo算法进行图片模态目标检测识别,识别结果为json格式传输到数据库,标注模型进行在前端的显示;文本模态直接通过深度学习模型进行抽取标注实体,同样保存json格式数据。
22、一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。
23、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。
24、本发明分为四个模块,多模态标注模块、模型训练模块、智能标注模块和标注回显模块。附图1展示了多模态标注方法的模块。
25、多模态标注模块是使用各种标注方法对内容进行标注,对文字、表格和图片等进行标注,定位其位置和信息,并对标注信息进行数据存储。模型训练模块是根据数据库标注的数据进行模型的训练,对模型的参数进行学习和调优。智能标注模块是应用已训练好的模型对未标注的文件进行自动标注,把标注结果存储到数据库中。标注回显模块基于模型输出结果在文档相应位置显示标注结果。
26、下面对本发明的四个模块进行详细的说明。
27、一、多模态标注模块
28、多模态标注模块需要完成对文档中各种数据格式的标注,对于不同的数据类型应进行区分。首先进行数据收集,对文档内容应标注的部分进行详细的说明。
29、定义标注方案,确定标注的类型和格式,文本标注类型包括:分类,将文本分配到预定义的类别中。实体识别:识别文本中特定类型的实体,例如人名、地点或组织。关系抽取:识别文本中实体之间的关系。然后使用标注模块对文本进行标注。对图片以及其他形式的数据,标注方案是类似的,但标注的形式要相应改变,图片作为一种包含数字化数据的视觉媒介,并不能直接使用文字直观表达出来。我们规定多模态标注模块使用坐标选择的方式进行标注,并可进行与关系联系起来。
30、分类标注,是一种文本数据的标注技术,是将文本数据分为不同的类别或标签,并为每个类别分配一个标签的过程。为每个文本数据分配相应的类别标签,标注者需要根据预先定义好的分类体系对文本进行分类。分类标注的保存通常相对简单,只需存储文本内容和文本标签,其他根据实际场景进行增加。
31、边界框标注,是一种图片标注技术,涉及为图片中的对象绘制矩形框,并指定对象的类别标签。是计算机视觉中最常用的标注类型之一,用于训练对象检测和识别模型。使用标注模块中的选择工具在图片上绘制边界框,为每个边界框分配一个类别标签,表示对象所属的类别。类别标签可以是预定义的,也可以是自定义的。将标注保存为所需格式。
32、边界框通常表示为一个四元组(x,y,w,h),
33、其中:
34、x和y是边界框左上角的坐标;
35、w和h是边界框的宽度和高度。
36、多边形标注,是一种图片标注技术,涉及使用多边形形状来勾勒出图片中对象或区域的轮廓。它比边界框标注更精细,可以更准确地表示对象的形状。使用标注模块中的多边形绘制工具在图片上绘制边界框,为每个边界框分配一个类别标签,表示对象所属的类别。多边形可以用一组有序顶点来表示:
37、p=[(x1,y1),(x2,y2),...,(xn,yn)],
38、其中:
39、(xi,yi)是第i个顶点的坐标;
40、n是多边形的顶点数。
41、如上所述的各类数据的标注,对原始数据文档进行标注后,标注数据存储到数据库中。数据库负责管理和处理数据,包括存储、检索、更新和删除等操作。数据库自发的组织和索引数据,以实现快速高效的访问。标注数据存储到数据库采用非关系型数据库进行存储,每条数据采用json格式进行存储到数据库中。json数据为键值对格式的数据,存储到非关系型数据库中会非常方便。同时,取出数据时转化为json格式更方便下游模块进行使用和分析,对于模型的训练速度也有很大的提升。
42、附图2展示了多模态标注模块的架构。
43、二、模型训练模块
44、为了处理图像和文本数据的多模态输入,我们可以设计一个联合的深度学习模型,其中包含两个分支:图像处理分支和文本处理分支。这两个分支分别负责处理图像和文本数据,并在后续的层中将它们的特征进行融合,以实现联合的多模态处理。
45、1.图像处理分支
46、图像特征提取器:使用卷积神经网络作为图像处理分支的基础模型,用于提取图像数据的特征。池化层:将卷积层输出的特征图进行池化操作,减少特征维度并提高模型的鲁棒性。全连接层:将池化层的输出连接到一个或多个全连接层,用于学习更高级别的图像特征表示。
47、2.文本处理分支
48、词嵌入层:将文本数据表示为词嵌入向量,使用预训练的词嵌入模型或通过训练自己的词嵌入模型。循环神经网络:使用循环神经网络模型对词嵌入向量序列进行处理,捕捉文本数据的语义信息。池化层或全局平均池化:对循环神经网络的输出进行池化操作,得到文本数据的固定长度的表示。
49、3.多模态融合
50、特征融合层:将图像处理分支和文本处理分支的特征进行融合,使用拼接、相加、加权平均等方式。全连接层:将融合后的特征输入到全连接层,用于学习多模态特征的联合表示。
51、模型训练与优化方式,使用带有图像和文本数据标注的训练集对模型进行训练,采用损失函数和优化器进行参数优化。通过验证集对模型进行验证和调优,防止过拟合并提高模型的泛化能力。此模型可以同时处理图像和文本数据,并将它们的特征进行有效融合,从而实现多模态输入的处理和联合学习。
52、附图3为模型训练模块的整体架构。
53、三、智能标注模块
54、智能标注模块对需要标注的文档中的文字、图片等信息进行智能标注,在结合多模态标注模块的基础上,使用训练完成的智能模型进行自动化标注。智能标注的质量取决于模型的准确率,在标注结束后,可以人工进行查看标注结果,并对其进行修改。
55、根据模型进行多模态标注,标注得到的实体信息和关系信息使用统一的格式放入数据库中并在文档进行显示,并根据预先定义的知识本体进行标注筛选,以实现方便使用者使用的自动标注工具。
56、此模块可以自动创建标注实体和关系信息,也可通过人工进行对模块处理后缺乏的实体和关系信息进行添加,对于标注完成后未使用的标注实体和关系信息,可以通过人工的方式进行删除。
57、文本信息标注,使用word2vec模型对定义的实体名和关系名向量化,基于向量的余弦相似度计算每一个名称(包括实体名和关系名)对应的智能标注模型中标出的实体和关系类别。选择的实体和关系名称进行智能标注模型输出筛选。智能标注模块模型的输出结果为实体字典和关系字典,根据字典中的类别名称筛选出标注项目需要的类别。生成标注,将文本内容的标注或描述输出给用户,以辅助用户理解文本内容或进行相关应用。
58、多媒体信息标注,涉及图像、视频、音频、文本等不同类型的数据,使用常见的多媒体信息转换模型。首先将图像转换为文本,使用图像到文本的转换模型将图像中的内容转换成文字描述用于辅助图片内容识别,其次使用卷积神经网络和循环神经网络结合,使用预训练的卷积神经网络模型,将图像输入网络中,将图像转化为数字特征,提取图像的隐含特征。将卷积神经网络提取的图像特征作为循环神经网络的初始隐藏状态,然后通过循环神经网络逐步生成文本序列。
59、附图4为智能标注模块的整体架构。
60、四、标注回显模块
61、根据模型得到的实体信息和实体关系信息使用统一的格式放入数据库中并在文档上进行回显,并根据预先定义的知识本体进行标注筛选,实现方便使用者使用自动标注工具。此模块在标注过程中起到了及时反馈和确认标注结果的作用,以直观的方式展示标注结果,如在图像上绘制边界框、在文本中显示标注部分等,使用户能够清晰地看到标注的内容。
62、1.用户在标注工具中建立标注项目本体和关系,包含标注项目中需要标注的实体类别和实体间的关系类别。
63、2.使用word2vec模型对用户定义的实体名和关系名向量化,基于向量的余弦相似度计算每一个名称对应的智能标注模型中标出的实体和关系类别。
64、3.根据步骤2中选择的实体和关系名称进行智能标注模型输出筛选。智能标注模块模型的输出结果为实体字典和关系字典,根据字典中的类别名称筛选出标注项目需要的类别。
65、4.根据文档的文字和文字坐标信息字典进行定位,将筛选出的实体和关系定位到文档上的坐标。
66、5.在原始文档上建立一个智能标注层,根据坐标构建标注框,标注出实体类别和关系类别。
67、附图5为标注回显模块的整体架构。
68、与现有技术相比,本发明的积极效果为:
69、本发明通过深度学习技术实现了自动化标注,相比于传统的标注方法,本发明的系统和方法具有标注效率高、准确性高的优点,可以广泛应用于文本标注、图像标注、知识图谱构建等领域,为多模态数据的标注提供了一种高效可靠的解决方案。