一种在人工智能中文与图匹配的精选方法与流程

文档序号:39489272发布日期:2024-09-24 20:38阅读:33来源:国知局
本发明涉及图文匹配,具体涉及一种在人工智能中文与图匹配的精选方法。
背景技术
::1、在人工智能领域,大语言模型已经取得了显著的进展,能够实现由文本输入到文本输出的任务,并确保输出结果的准确性和连贯性。这些模型通过训练海量的文本数据,学习了语言的语法、语义和上下文关系,从而能够生成高质量的文本响应。然而,仅仅依靠文本输出还不足以满足人们对人工智能的期望,因为现实世界中的信息不仅包括文本,还包括图像、视频等多模态数据。2、为了将大语言模型的能力扩展到图像生成领域,研究人员提出了一种新的方法,即结合深度学习的图像生成模型,如生成对抗网络(gans)、变分自编码器(vaes)和stablediffusion等,将大语言模型的文本输出作为这些图像生成模型的输入。这种方法利用了大语言模型强大的语言理解和生成能力,同时也借助了图像生成模型在视觉领域的优势,实现了从文本到图像的跨模态转换。3、具体而言,首先使用大语言模型处理输入的文本描述,生成一段高质量的文本输出,其中包含了对图像内容、风格、构图等方面的详细描述。然后,将这段文本输出作为图像生成模型的输入,通过模型的学习和生成过程,最终得到与文本描述相对应的图像。这种方法的优点在于,它能够充分利用文本中的语义信息,生成与文本内容高度相关的图像,而不仅仅是随机生成的图像。4、然而,文本描述与图像之间存在着一定的差异性。文本描述通常较为抽象和间接,而图像则更加直观和具体。一段文本描述可能对应多个不同的图像表现形式,因为不同的人可能会对同一段文本有不同的理解和想象。因此,在实际应用中,这种方法可以根据文本描述生成多张图像。5、当然,如果需要生成一张特定的图像,也可以通过设置相应的参数来控制图像生成模型的输出。例如,可以指定图像的风格、色彩、构图等属性,以生成符合特定要求的图像。但是,这种做法可能会损失文本描述中的一些细节和丰富性,无法准确捕捉文本的全部含义。技术实现思路1、有鉴于此,本发明提供一种在人工智能中文与图匹配的精选方法,在生成多张图像的基础上,根据文本与图像之间的高度相关性,选出一张与文本最为匹配的图像作为最终的单一输出。这种方法有效实现了文本到图像的精准匹配。2、本发明的技术目的是这样实现的:3、本发明提供一种在人工智能中文与图匹配的精选方法,包括如下步骤:4、s1获取文本信息,计算文本信息的文本词向量,文本词向量的维度为n;5、s2基于文本信息生成多个图像,对图像进行编号;6、s3将图像转换为设计矩阵,每个设计矩阵形式为n×q,根据设计矩阵计算得到投影矩阵,基于投影矩阵将文本词向量投影到图像空间中,得到投影向量,计算每个投影向量与文本词向量的距离;7、s4选择最短距离的投影向量,将其对应的图像作为匹配图像进行输出。8、在上述方案的基础上,优选的,步骤s3包括:9、s31设置两个临时变量tmpd和tmpnum,分别用于存储当前计算的最短距离和该距离对应的图像序号;10、s32选择一张图像;11、s33对当前图像进行分辨率检查,若分辨率不符合要求,则将该图像跳过,并返回步骤s32,若符合要求,则执行步骤s34;12、s34通过维度计算方式计算q值;13、s35将当前图像转换为灰度格式;14、s36确定设计矩阵的构建方式,根据n值和q值,按照构建方式构建得到设计矩阵xi;15、s37利用投影矩阵计算公式,计算当前图像的投影矩阵pi,基于投影矩阵pi计算文本词向量y在当前图像空间的投影向量yi;16、s38计算文本词向量y和投影向量yi的距离di,若di<tmpd或tmpd<0,则将计算得到的di和当前图像序号分别赋值为临时变量tmpd和tmpnum;17、s39重复步骤s32-s38,遍历所有图像,得到最终的临时变量tmpd和tmpnum。在上述方案的基础上,优选的,维度计算公式为:18、q=(h×v)/n19、式中,h和v分别为图像的水平和垂直方向上的像素数,n值与文本词向量的维度相同。20、在上述方案的基础上,优选的,取整方式为向下取整或向上取整,其中:21、向下取整指的是将图像超过q值的部分进行截断;22、向上取整指的是将图像不足q值的部分利用0或255进行填充。23、在上述方案的基础上,优选的,步骤s36包括:24、确定设计矩阵的尺寸,其行数n与文本词向量的维度相同,其列数为q;25、选择设计矩阵的构建方式,包括自上而下逐行从左至右将图像的每个像素点依次填充设计矩阵,或,自下而上逐行从右至左将图像的每个像素点依次填充设计矩阵;26、根据构建方式将图像的像素值填入设计矩阵;27、处理超出设计矩阵尺寸的像素,若采用向下取整的方式得到q值,则将超出设计矩阵尺寸的像素进行截断,若采用向上取整的方式得到q值,则完成所有像素填充后,对设计矩阵中空余的部分采用0或255进行填充。28、在上述方案的基础上,优选的,投影矩阵pi的计算公式为:29、30、式中,xi为设计矩阵。31、在上述方案的基础上,优选的,投影向量yi的计算公式为:32、yi=piy33、式中,pi为投影矩阵,y为文本词向量。34、在上述方案的基础上,优选的,文本词向量y和投影向量yi的距离di的计算公式为:35、36、式中,yk和yik分别表示文本词向量y和投影向量yi在第k维的坐标值,n是文本词向量的维度。37、在上述方案的基础上,优选的,文本词向量的维度为768、1024或1536。38、在上述方案的基础上,优选的,步骤s35中,将当前图像转换为灰度格式后,对每个像素点进行归一化,将像素点的值归一化到0-1之间。39、本发明的方法相对于现有技术具有以下有益效果:40、本发明首先通过文本生成一系列图像,随后利用这些图像构建投影矩阵,以此生成对应文本的投影向量。通过比较这些投影向量与原始文本之间的接近度,选出与原始文本具有最高相关性的图像。这一过程实现了在文本到图像生成模型中,精确挑选出最能代表原文本语义的图像的目标。技术特征:1.一种在人工智能中文与图匹配的精选方法,其特征在于,包括如下步骤:2.如权利要求1所述的一种在人工智能中文与图匹配的精选方法,其特征在于,步骤s3包括:3.如权利要求2所述的一种在人工智能中文与图匹配的精选方法,其特征在于,维度计算公式为:4.如权利要求2所述的一种在人工智能中文与图匹配的精选方法,其特征在于,取整方式为向下取整或向上取整,其中:5.如权利要求4所述的一种在人工智能中文与图匹配的精选方法,其特征在于,步骤s36包括:6.如权利要求2所述的一种在人工智能中文与图匹配的精选方法,其特征在于,投影矩阵pi的计算公式为:7.如权利要求6所述的一种在人工智能中文与图匹配的精选方法,其特征在于,投影向量yi的计算公式为:8.如权利要求2所述的一种在人工智能中文与图匹配的精选方法,其特征在于,文本词向量y和投影向量yi的距离di的计算公式为:9.如权利要求1所述的一种在人工智能中文与图匹配的精选方法,其特征在于,文本词向量的维度为768、1024或1536。10.如权利要求2所述的一种在人工智能中文与图匹配的精选方法,其特征在于,步骤s35中,将当前图像转换为灰度格式后,对每个像素点进行归一化,将像素点的值归一化到0-1之间。技术总结本发明提供一种在人工智能中文与图匹配的精选方法,涉及图文匹配
技术领域
:,包括:S1获取文本信息,计算文本信息的文本词向量,文本词向量的维度为N;S2基于文本信息生成多个图像,对图像进行编号;S3将图像转换为设计矩阵,每个设计矩阵形式为N×Q,根据设计矩阵计算得到投影矩阵,基于投影矩阵将文本词向量投影到图像空间中,得到投影向量,计算每个投影向量与文本词向量的距离;S4选择最短距离的投影向量,将其对应的图像作为匹配图像进行输出。本发明在生成多张图像的基础上,根据文本与图像之间的高度相关性,选出一张与文本最为匹配的图像作为最终的单一输出。这种方法有效实现了文本到图像的精准匹配。技术研发人员:易小林,杨红兵,汪爱华,蔡青受保护的技术使用者:湖北泰跃卫星技术发展股份有限公司技术研发日:技术公布日:2024/9/23
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1