一种基于AIGC大模型图像生成技术的少样本数据扩增方法与流程

文档序号：39767634发布日期：2024-10-25 13:44阅读：68来源：国知局

本发明属于人工智能、计算机图形学和自然语言处理应用，具体公开了一种基于aigc大模型图像生成技术的少样本数据扩增方法。
背景技术：
：：1、在当前的技术背景下，少样本数据扩增在多个行业中发挥着至关重要的作用，尤其是在需要大量高质量图像数据的领域。然而这些领域面临着一个主要问题：缺乏足够的数据来训练和优化模型，由于目标对象的形态多变且受多种环境因素影响，获取高质量的图像数据既困难又成本高昂。此外，实际的模拟采集不仅耗费巨大，而且存在安全隐患，这些因素严重限制了算法的性能和应用范围。2、为了解决上述问题，业界普遍采取的做法是利用现有的有限数据集进行模型训练，并通过数据增强技术来人工扩充数据集，这些方法虽然在一定程度上缓解了数据稀缺的问题，但仍然难以模拟真实世界中的全部复杂性。此外，数据增强可能导致图像失真，从而影响模型的泛化能力和识别准确性。3、基于上述问题，本发明提供一种基于aigc大模型图像生成技术的少样本数据扩增方法。技术实现思路1、发明目的：本发明的目的是提供一种基于aigc大模型图像生成技术的少样本数据扩增方法，旨在解决现有多种应用领域中数据稀缺、采集成本高和安全性差的问题，通过构建详尽的文生图数据集、训练专用的文生图大模型、生成三元文本指令、成对图像生成、文本引导图生图大模型训练以及现场图像编辑等步骤，实现了对各种场景的高度逼真模拟。2、技术方案：本发明的提供一种基于aigc大模型图像生成技术的少样本数据扩增方法，包括以下步骤：a)构建文生图数据集，该数据集包含多种目标对象和场景状态的图像及其相应的文本描述，以确保模型能够学习目标对象在不同环境条件下的变化。b)利用所述文生图数据集训练文生图大模型gtext2image，使得所述模型能够根据文本描述生成相应的图像，从而提高生成图像的真实性和多样性。c)使用先进语言模型生成三元组文本指令ttriplet，包括基础场景描述、目标对象添加指令以及最终的场景描述，以指导所述文生图大模型创建特定场景。d)结合所述文生图大模型和文本指令，生成一系列成对的图像，通过成对图像生成，模拟不同场景下有无目标对象的情况，丰富数据集的多样性。e)利用成对图像和编辑指令，训练文本引导图生图大模型gtext_image2image，使得该模型能够根据文本指令在现有图像中精确添加或修改目标对象。f)利用文本引导图生图大模型，根据文本指令在实际场景图像中添加或修改目标对象效果，从而实现少样本数据的高效扩增；其中，能够在保持场景原有特征的基础上添加或修改目标对象效果。3、本技术方案的，所述步骤a)中文生图数据集的构建，包括收集和整理不同环境条件下的图像i集合和对应的文本描述集合t；其中，图像集合i＝{ii|i＝1,2,...,n}表示不同环境条件下的图像，文本描述集合t＝{ti|i＝1,2,...,n}表示描述目标对象变化的文本信息。4、本技术方案的，所述步骤a)中文生图数据集的构建，进一步包括对图像i进行预处理，以及对文本描述t进行语义分析和标注；其中，若通过滤波器f增强图像质量，并进行语义分析sa和标注l来提高数据集的质量和模型的训练效果。5、本技术方案的，所述文生图数据集，用于训练文生图大模型，以提高生成图像的真实性和多样性。6、本技术方案的，所述步骤b)中文生图大模型的训练过程，包括但不限于模型架构的选择、损失函数loss的优化、学习率lr的调整和过拟合的防止，以确保生成图像的高质量和多样性。7、本技术方案的，所述步骤b)中文生图大模型gtext2image，包括但不限于stablediffusion、stablediffusion xl，通过以下公式表示生成igenerated过程：igenerated＝gtext2image(t)。8、本技术方案的，所述步骤c)中三元组文本指令ttriplet，包括基础场景描述tbase、目标对象添加指令teddit以及最终的场景描述teddited，通过语义理解、关键词提取和文本生成，以确保指令的准确性和可执行性。9、本技术方案的，所述步骤d)中成对图像生成步骤通过对训练好的文生图大模型gtext2image应用图像一致技术，保证每次生成的图像ipair是同一场景下的目标对象；其中，图像一致技术包括但不限于co-attention、prompt2prompt。10、本技术方案的，所述步骤e)中文本引导图生图大模型gtext_image2image的训练过程，包括但不限于模型参数的微调、条件生成策略的优化和编辑指令的精确匹配，以提高图像编辑的精确度和自然性。11、本技术方案的，所述步骤e)中文本引导图生图大模型gtext_image2image，包括但限于instruct pix2pix、dreambooth、sdedit。12、与现有技术相比，本发明的一种基于aigc大模型图像生成技术的少样本数据扩增方法的有益效果在于：1)本发明通过构建详尽的文生图数据集、训练专用的文生图大模型、生成三元文本指令、成对图像生成、文本引导图生图大模型训练以及现场图像编辑等步骤，实现了对各种场景的高度逼真模拟，实现了对少样本目标对象的大规模图像数据扩增；2)本发明不仅能够生成多样化的图像内容，而且能够根据实际需求进行定制化生成，极大地丰富了数据集并提高了算法的鲁棒性，通过这种方法，可以在不增加实际采集成本和风险的情况下，为各种应用领域提供大量高质量的训练数据，从而显著提升算法的性能和应用价值；3)降低数据采集成本和风险：通过使用人工智能技术生成图像数据，本发明避免了实际场景模拟采集过程中的高昂成本和潜在安全风险；4)增强算法的鲁棒性和准确性：通过提供大量逼真的图像数据，本发明旨在提升各类图像识别算法的泛化能力和准确性，使其在实际应用中更加可靠；5)提供定制化图像生成：通过文本引导的图像编辑技术，本发明能够根据特定需求生成定制化的、特定场景的图像，从而为研究和开发提供更大的灵活性；6)推动技术创新和应用：本发明不仅在技术上具有创新性，而且通过提供高质量的图像数据，推动多种应用领域的技术进步和应用拓展；7)本发明通过跨领域的技术创新，实现了一种高度逼真的图像生成方法，这种方法不仅在技术上具有突破性，而且在实际应用中具有广泛的适用性和深远的影响力，为相关行业的发展带来了新的动力和可能性。技术特征：1.一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：包括以下步骤：2.根据权利要求1所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤a)中文生图数据集的构建，包括收集和整理不同环境条件下的图像i集合和对应的文本描述集合t；3.根据权利要求2所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤a)中文生图数据集的构建，进一步包括对图像i进行预处理，以及对文本描述t进行语义分析和标注。4.根据权利要求1或2或3所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述文生图数据集，用于训练文生图大模型，以提高生成图像的真实性和多样性。5.根据权利要求1所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤b)中文生图大模型的训练过程，包括但不限于模型架构的选择、损失函数loss的优化、学习率lr的调整和过拟合的防止，以确保生成图像的高质量和多样性。6.根据权利要求1所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤b)中文生图大模型gtext2image，包括但不限于stable diffusion、stablediffusion xl，通过以下公式表示生成igenerated过程：igenerated＝gtext2image(t)。7.根据权利要求1所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤c)中三元组文本指令ttriplet，包括基础场景描述tbase、目标对象添加指令teddit以及最终的场景描述teddited，通过语义理解、关键词提取和文本生成，以确保指令的准确性和可执行性。8.根据权利要求1所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤d)中成对图像生成步骤通过对训练好的文生图大模型gtext2image应用图像一致技术，保证每次生成的图像ipair是同一场景下的目标对象；9.根据权利要求1所述的一种基于aigc大模型图像生成技术的少样本数据扩增方法，其特征在于：所述步骤e)中文本引导图生图大模型gtext_image2image的训练过程，包括但不限于模型参数的微调、条件生成策略的优化和编辑指令的精确匹配，以提高图像编辑的精确度和自然性。10.根据权利要求1或9所述的一种基于aigc大模型的少样本数据扩增方法，其特征在于：所述步骤e)中文本引导图生图大模型gtext_image2image，包括但限于instruct pix2pix、dreambooth、sdedit。技术总结本发明属于人工智能、计算机图形学和自然语言处理应用
技术领域：
：，具体公开一种基于AIGC大模型图像生成技术的少样本数据扩增方法，包括以下步骤，通过构建详尽的文生图数据集、训练专用的文生图大模型、生成三元文本指令、成对图像生成、文本引导图生图大模型训练以及现场图像编辑等步骤。本发明的一种基于AIGC大模型图像生成技术的少样本数据扩增方法的有益效果在于：实现对各种场景的高度逼真模拟，从而有效地扩充少样本数据集，同时不仅能够生成逼真的场景虚假图像，而且能够极大程度上扩充少样本数据集，有助于提高下游检测、识别、分割等小模型算法的鲁棒性和准确性，为相关领域的研究和应用提供了强有力的数据支持。技术研发人员：王龙,王玉琛,孙子正,周超,赵亚军,王成军,景文林受保护的技术使用者：南京南自信息技术有限公司技术研发日：技术公布日：2024/10/24

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王龙,王玉琛,孙子正,周超,赵亚军,王成军,景文林
技术所有人：南京南自信息技术有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。