一种在人工智能中文与图匹配的精选方法与流程

文档序号：39489272发布日期：2024-09-24 20:38阅读：48来源：国知局

本发明涉及图文匹配，具体涉及一种在人工智能中文与图匹配的精选方法。
背景技术：
：：1、在人工智能领域，大语言模型已经取得了显著的进展，能够实现由文本输入到文本输出的任务，并确保输出结果的准确性和连贯性。这些模型通过训练海量的文本数据，学习了语言的语法、语义和上下文关系，从而能够生成高质量的文本响应。然而，仅仅依靠文本输出还不足以满足人们对人工智能的期望，因为现实世界中的信息不仅包括文本，还包括图像、视频等多模态数据。2、为了将大语言模型的能力扩展到图像生成领域，研究人员提出了一种新的方法，即结合深度学习的图像生成模型，如生成对抗网络(gans)、变分自编码器(vaes)和stablediffusion等，将大语言模型的文本输出作为这些图像生成模型的输入。这种方法利用了大语言模型强大的语言理解和生成能力，同时也借助了图像生成模型在视觉领域的优势，实现了从文本到图像的跨模态转换。3、具体而言，首先使用大语言模型处理输入的文本描述，生成一段高质量的文本输出，其中包含了对图像内容、风格、构图等方面的详细描述。然后，将这段文本输出作为图像生成模型的输入，通过模型的学习和生成过程，最终得到与文本描述相对应的图像。这种方法的优点在于，它能够充分利用文本中的语义信息，生成与文本内容高度相关的图像，而不仅仅是随机生成的图像。4、然而，文本描述与图像之间存在着一定的差异性。文本描述通常较为抽象和间接，而图像则更加直观和具体。一段文本描述可能对应多个不同的图像表现形式，因为不同的人可能会对同一段文本有不同的理解和想象。因此，在实际应用中，这种方法可以根据文本描述生成多张图像。5、当然，如果需要生成一张特定的图像，也可以通过设置相应的参数来控制图像生成模型的输出。例如，可以指定图像的风格、色彩、构图等属性，以生成符合特定要求的图像。但是，这种做法可能会损失文本描述中的一些细节和丰富性，无法准确捕捉文本的全部含义。技术实现思路1、有鉴于此，本发明提供一种在人工智能中文与图匹配的精选方法，在生成多张图像的基础上，根据文本与图像之间的高度相关性，选出一张与文本最为匹配的图像作为最终的单一输出。这种方法有效实现了文本到图像的精准匹配。2、本发明的技术目的是这样实现的：3、本发明提供一种在人工智能中文与图匹配的精选方法，包括如下步骤：4、s1获取文本信息，计算文本信息的文本词向量，文本词向量的维度为n；5、s2基于文本信息生成多个图像，对图像进行编号；6、s3将图像转换为设计矩阵，每个设计矩阵形式为n×q，根据设计矩阵计算得到投影矩阵，基于投影矩阵将文本词向量投影到图像空间中，得到投影向量，计算每个投影向量与文本词向量的距离；7、s4选择最短距离的投影向量，将其对应的图像作为匹配图像进行输出。8、在上述方案的基础上，优选的，步骤s3包括：9、s31设置两个临时变量tmpd和tmpnum，分别用于存储当前计算的最短距离和该距离对应的图像序号；10、s32选择一张图像；11、s33对当前图像进行分辨率检查，若分辨率不符合要求，则将该图像跳过，并返回步骤s32，若符合要求，则执行步骤s34；12、s34通过维度计算方式计算q值；13、s35将当前图像转换为灰度格式；14、s36确定设计矩阵的构建方式，根据n值和q值，按照构建方式构建得到设计矩阵xi；15、s37利用投影矩阵计算公式，计算当前图像的投影矩阵pi，基于投影矩阵pi计算文本词向量y在当前图像空间的投影向量yi；16、s38计算文本词向量y和投影向量yi的距离di，若di<tmpd或tmpd<0，则将计算得到的di和当前图像序号分别赋值为临时变量tmpd和tmpnum；17、s39重复步骤s32-s38，遍历所有图像，得到最终的临时变量tmpd和tmpnum。在上述方案的基础上，优选的，维度计算公式为：18、q＝(h×v)/n19、式中，h和v分别为图像的水平和垂直方向上的像素数，n值与文本词向量的维度相同。20、在上述方案的基础上，优选的，取整方式为向下取整或向上取整，其中：21、向下取整指的是将图像超过q值的部分进行截断；22、向上取整指的是将图像不足q值的部分利用0或255进行填充。23、在上述方案的基础上，优选的，步骤s36包括：24、确定设计矩阵的尺寸，其行数n与文本词向量的维度相同，其列数为q；25、选择设计矩阵的构建方式，包括自上而下逐行从左至右将图像的每个像素点依次填充设计矩阵，或，自下而上逐行从右至左将图像的每个像素点依次填充设计矩阵；26、根据构建方式将图像的像素值填入设计矩阵；27、处理超出设计矩阵尺寸的像素，若采用向下取整的方式得到q值，则将超出设计矩阵尺寸的像素进行截断，若采用向上取整的方式得到q值，则完成所有像素填充后，对设计矩阵中空余的部分采用0或255进行填充。28、在上述方案的基础上，优选的，投影矩阵pi的计算公式为：29、30、式中，xi为设计矩阵。31、在上述方案的基础上，优选的，投影向量yi的计算公式为：32、yi＝piy33、式中，pi为投影矩阵，y为文本词向量。34、在上述方案的基础上，优选的，文本词向量y和投影向量yi的距离di的计算公式为：35、36、式中，yk和yik分别表示文本词向量y和投影向量yi在第k维的坐标值，n是文本词向量的维度。37、在上述方案的基础上，优选的，文本词向量的维度为768、1024或1536。38、在上述方案的基础上，优选的，步骤s35中，将当前图像转换为灰度格式后，对每个像素点进行归一化，将像素点的值归一化到0-1之间。39、本发明的方法相对于现有技术具有以下有益效果：40、本发明首先通过文本生成一系列图像，随后利用这些图像构建投影矩阵，以此生成对应文本的投影向量。通过比较这些投影向量与原始文本之间的接近度，选出与原始文本具有最高相关性的图像。这一过程实现了在文本到图像生成模型中，精确挑选出最能代表原文本语义的图像的目标。技术特征：1.一种在人工智能中文与图匹配的精选方法，其特征在于，包括如下步骤：2.如权利要求1所述的一种在人工智能中文与图匹配的精选方法，其特征在于，步骤s3包括：3.如权利要求2所述的一种在人工智能中文与图匹配的精选方法，其特征在于，维度计算公式为：4.如权利要求2所述的一种在人工智能中文与图匹配的精选方法，其特征在于，取整方式为向下取整或向上取整，其中：5.如权利要求4所述的一种在人工智能中文与图匹配的精选方法，其特征在于，步骤s36包括：6.如权利要求2所述的一种在人工智能中文与图匹配的精选方法，其特征在于，投影矩阵pi的计算公式为：7.如权利要求6所述的一种在人工智能中文与图匹配的精选方法，其特征在于，投影向量yi的计算公式为：8.如权利要求2所述的一种在人工智能中文与图匹配的精选方法，其特征在于，文本词向量y和投影向量yi的距离di的计算公式为：9.如权利要求1所述的一种在人工智能中文与图匹配的精选方法，其特征在于，文本词向量的维度为768、1024或1536。10.如权利要求2所述的一种在人工智能中文与图匹配的精选方法，其特征在于，步骤s35中，将当前图像转换为灰度格式后，对每个像素点进行归一化，将像素点的值归一化到0-1之间。技术总结本发明提供一种在人工智能中文与图匹配的精选方法，涉及图文匹配
技术领域：
：，包括：S1获取文本信息，计算文本信息的文本词向量，文本词向量的维度为N；S2基于文本信息生成多个图像，对图像进行编号；S3将图像转换为设计矩阵，每个设计矩阵形式为N×Q，根据设计矩阵计算得到投影矩阵，基于投影矩阵将文本词向量投影到图像空间中，得到投影向量，计算每个投影向量与文本词向量的距离；S4选择最短距离的投影向量，将其对应的图像作为匹配图像进行输出。本发明在生成多张图像的基础上，根据文本与图像之间的高度相关性，选出一张与文本最为匹配的图像作为最终的单一输出。这种方法有效实现了文本到图像的精准匹配。技术研发人员：易小林,杨红兵,汪爱华,蔡青受保护的技术使用者：湖北泰跃卫星技术发展股份有限公司技术研发日：技术公布日：2024/9/23

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：易小林,杨红兵,汪爱华,蔡青
技术所有人：湖北泰跃卫星技术发展股份有限公司
我是此专利的发明人

上一篇：一种基于大数据的建筑工程管理方法与流程
上一篇：一种基于创成式设计的轮胎外轮廓数学建模方法与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。