基于信息检索技术的设计方案生成方法

文档序号：41033760发布日期：2025-02-21 20:01阅读：8来源：国知局

本发明涉及信息检索和图文生成领域，具体涉及一种基于信息检索技术的设计方案生成方法。

背景技术：

1、在创意产业中，艺术设计方案优化扮演着至关重要的角色，它不仅关乎作品的创意性与美观度，更是决定作品能否在市场上获得成功的关键因素；然而，传统的艺术设计方案优化方法往往受限于设计师的个人经验和创意水平，难以在短时间内产生高质量的设计方案。

2、因此，寻求一种高效、自动化的艺术设计方案优化方法成为了当前研究的热点。

3、信息检索技术作为计算机科学领域的重要分支，其强大的信息检索和信息处理能力为艺术设计方案优化提供了新的可能性；通过利用信息检索技术，设计师可以从海量的设计资源中快速找到与用户需求相似或相关的设计案例，从而为设计师提供灵感和参考；同时，信息检索技术还可以帮助设计师自动化地评估和优化设计方案，提高设计效率和质量；因此，基于信息检索技术的设计方案生成方法的研究，具有重要的理论和实践意义。

技术实现思路

1、针对现有技术的不足之处，提供一种基于信息检索技术的设计方案生成方法，其整合rag技术以及llm大模型，使得从庞大的设计数据库中快速检索并生成与用户需求高度相关的设计方案成为可能，利用自动化工具快速评估和迭代设计，显著提高了设计的质量和创新速度

2、为实现上述技术目的，本发明的基于信息检索技术的艺术设计方案生成方法，步骤如下：

3、步骤1、收集文本描述以及与文本描述内容匹配的图像作为原始方案，并将两者原始方案关联后分别存储为数据库，分别对文本描述数据库以及图像数据库进行预处理，去除文本描述中的非关键词，统一图像的参数；

4、步骤2、对图像预处理数据进行特征提取处理，得到视觉特征和语义特征：使用自然编码器提取图像类数据中的视觉特征；对与图像匹配的文字描述数据，使用语义分割网络对文字图像进行处理，以识别并分割出文字区域，通过四叉树分配算法取出均匀分布的语义特征点，整合所有区域的语义特征点，形成完整、与包括文字的图像类数据对应的语义特征点集合；

5、步骤3、使用特征金字塔网络(fpn)构建多尺度特征图，利用多尺度特征图将不同层次的特征图进行融合，同步捕捉丰富的语义特征和视觉特征上下文信息；利用转换矩阵，将上一步骤提取的视觉特征和语义特征映射到多尺度特征图中的统一的特征空间中，确保在映射过程中保留各自特征的关键信息；使用注意力机制对不同的视觉特征和语义特征进行加权处理，实现视觉特征和语义特征的融合，该融合过程可全面反映原始设计方案的核心视觉和语义属性；基于图像描述生成任务预训练端到端的模型，任务预训练端到端的模型为传统编码器-解码器架构，将融合后的语义特征和视觉特征输入任务预训练端到端的模型中进行优化，得到融合特征，将所有的文字、图像的融合特征构成计材料数据库；

6、步骤4、根据需要，使用搜索引擎从设计材料数据库中获取与需要的融合特征相关的设计材料；通过固定大小分块的方式对设计材料进行分块处理，得到多个分块信息；使用transformers库加载bge v1.5模型，而后采用momentum encoder方法对bge v1.5模型进行微调，将分块信息转换为高维向量，根据预设的聚类数量k，使用k-means聚类量化方法初始化k个聚类中心，将每个高维向量分配到最近的聚类中心，形成k个聚类；采用invertedfile(ivf)复核pq的索引结构组织量化后的高维向量；为每个聚类构建一个倒排列表，得到k个倒排列表，倒排列表中包含该聚类中所有高维向量的标识符；使用折叠树策略优化检索过程；根据嵌入信息与向量数据库中的节点向量的相似度，得到候选集，相似度最高的节点向量为需求设计材料；最后采用上下文丰富方法对需求设计材料进行拓展，得到拓展后设计材料；

7、将所述拓展后设计材料输入至llm语言大模型中，得到初步文字设计方案；初步文字设计方案总结和要点提取，得到语义要点，最后将语义要点输入至现有文生图模型中，得到初步图片设计方案，即需要的图像成品；整合初步文字设计方案和初步图片设计方案，得到初步设计方案；

8、步骤5、根据用户反馈的评述信息，根据评述信息判断是否需要优化初步设计方案，优化初步设计方案过程为根据已搜索得到的材料，返回迭代步骤1-步骤4。

9、进一步，自然编码器包括输入层layer1、隐藏层layer 2、layer 3以及输出层layer 4，输入层用于接收图像类数据，并将其转换为神经网络能理解的形式；隐藏层通过relu非线性激活函数，将输入的图像类数据映射到低微空间；输出层用于将隐藏层的输出与输入层的输入进行比较，通过均方误差函数计算损失，然后，通过反向传播算法，根据损失函数计算出的误差来调整网络中的权重和偏置；重复执行损失计算和反向传播过程，直到达到预定的迭代次数，而后输出视觉特征；

10、通过自然编码器，对输入数据进行变换，以输出期望的视觉特征；第一层有两个神经元x1、x2以及一个截距项c1；第二层有两个神经元y1、y2以及一个截距项c2；第三层是输出,有两个神经元h1和h2；每条线上的数值表示神经元之间连接的权重,损失函数σ选用sigmoi函数；

11、对于包括文字的图像类数据，使用语义分割网络对文字图像进行处理，以识别并分割出文字区域；利用四叉树分配算法对图像进行递归分割，直到达到预设的最小分割单元；在每个四叉树的叶节点区域内，应用自适应提取阈值算法，确定特征点的提取阈值；根据设定的阈值，从每个叶节点区域中提取出均匀分布的语义特征点；整合所有区域的语义特征点，形成完整、与包括文字的图像类数据对应的语义特征点集合；

12、对于纯文字数据，即文本描述，使用自然语言处理技术提取文本描述的文本体征，通过文字描述可为素材搜索过程提供更多的关键信息，整合语义特征点集合和文本特征，得到语义特征。

13、进一步，特征金字塔网络(fpn)的backbone采用resnet，包括一个自底向上的线路，一个自顶向下的线路，两个线路横向连接；自底向上：其实就是网络的前向过程；在前向过程中，按2的整数倍进行选取；feature map的大小在经过某些层后会改变，而在经过其他一些层的时候不会改变，将不改变feature map大小的层归为一个stage，每次抽取的特征都是每个stage的最后一个层输出，这样就能构成特征金字塔；在特征选取网络的backbone都是以2的整数倍进行缩放的；自顶向下：过程中采用上采样(upsampling)进行，这里的上采样是一个2倍的上采样，上采样后便保证了高与宽相同，使用横向可以进行相加融合操作；横向连接则是将上采样的结果和自底向上生成的相同大小的feature map进行融合；在融合之后再采用3*3的卷积核对每个融合结果进行卷积，消除上采样的混叠效应。

14、进一步，使用注意力机制加权不同特征的重要性，实现视觉特征和语义特征的融合，该融合过程可全面反映原始设计方案的核心视觉和语义属性；注意力机制加权流程包括三部分，第一部分为特征提取器,首先将视觉特征送入预训练好的cnn中,提取n个栅格化特征x＝{x 1,x 2,……,xn}；第二部分为编码器,将语义特征以及栅格化特征分别送入编码器,得到编码后的特征,编码器由具有跨尺度特征融合自注意力的l层编码层构成；第三部分为解码器,将编码后的特征送入解码器,得到解码后的描述序列,解码器由具有普通自注意力的l层解码层构成；所述解码后的描述序列为融合后的语义特征和视觉特征。

15、进一步，transformers框架微调的bge v1.5模型具体为：

16、使用transformers库加载bge v1.5模型，而后采用momentum encoder方法对bgev1.5模型进行微调，利用momentum encoder方法向bge v1.5模型中引入用于动态更新的动量更新机制，以更好地捕捉数据中的动态变化；利用momentum encoder方法的moco，通过动态字典和动量更新来增强表示学习；bge具有动画功能，为bge v1.5模型添加动态元素，艺术设计任务需要展示模bge v1.5模型在不同条件下的变化，通过微调后的bge v1.5模型，能够更好地适应艺术设计类任务，创造出既美观又实用的设计作品。

17、进一步，采用inverted file(ivf)复核pq的索引结构组织量化后的向量；ivf索引将数据点分配到多个“倒排列表”中，每个聚类代表一个视觉词汇，使用聚类中心来表示；即为每个聚类构建一个倒排列表，得到k个倒排列表，列表中包含该聚类中所有向量的标识符；

18、对于每个聚类中心，构建一个倒排列表，该倒排列表包含属于该聚类的所有向量的标识符；这意味着每个倒排列表存储了一组相似的向量，从而加速近似最近邻搜索，在进行搜索时，ivf索引会先计算查询向量与所有聚类中心的距离，然后选择距离最近的k个聚类中心，并评估这些聚类中心对应的倒排列表中的向量；ivf索引适用于大规模数据集，特别是在需要快速近似搜索的场景中，它通过减少搜索空间和利用聚类中心作为索引节点，显著提高了查询效率；而复合ivf与pq结合的索引方法可以在不牺牲准确性的前提下，将搜索速度提高16.5倍，整体性能提升了92倍。

19、进一步，使用折叠树策略来优化检索过程；

20、根据构建的倒排列表，从根节点开始，根据嵌入信息与向量数据库中的节点向量的相似度，决定遍历的方向，在每一层中，选择与嵌入信息最相似的子树继续深入；

21、在遍历过程中，对遇到的每个节点的向量，基于余弦相似度算法，与嵌入信息进行相似度计算；根据相似度阈值或排名，确定一个候选集，这个集合包含了与嵌入信息最相似的节点向量；

22、余弦相似度的计算公式为：

23、

24、其中p和q是两个向量，pi和qi分别是向量p和q的第i个维度的值，余弦相似度的范围是[-1,1]，值越接近1表示两个向量越相似，值越接近-1表示两个向量越不相似；由于折叠树策略将所有层次展平为单层进行检索，一次你所有的节点都会被展平到同一层，以便于使用近似最近邻ann库中更容易被快速查询出来。

25、若用户反馈的评述信息表明无需修改，则无需进行初步设计方案的优化；

26、若用户反馈的评述信息表明需要修改，则获取用户反馈的修改设计思路，采用所述设计修改思路替代步骤1中的原始设计方案，并重新执行步骤1-4，直至用户反馈的评述信息表明无需修改。

27、有益效果：本发明基于信息检索技术的设计方案生成方法相较于传统方法具有更高的优势。本方法在设计方案的功能性和实用性方面做出了更好的优化。本方法能够更好地提高设计方案的美学表现和视觉吸引力。本方法在多个方面综合考虑下具有更好的整体效果。本技术通过整合rag技术以及llm大模型，探索一种新的艺术设计方案优化方法；这些技术使得从庞大的设计数据库中快速检索并生成与用户需求高度相关的设计方案成为可能。通过这种方法，设计师能够接触到广泛的设计灵感和资源，同时利用自动化工具快速评估和迭代设计，显著提高了设计的质量和创新速度

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘一铄,吴佳琦,吴星辰,刘振
技术所有人：江苏建筑职业技术学院
我是此专利的发明人

上一篇：一种融合TF-IDF与贝叶斯算法的电网违章行为预警方法与流程
上一篇：一种型材成形系统及饰条生产系统的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。