一种用于图像生成的自然语言描述构建方法与流程

文档序号：34571186发布日期：2023-06-28 12:07阅读：45来源：国知局

本发明涉及一种用于图像生成的自然语言描述构建方法，属于自然语言处理与人工智能。

背景技术：

1、使用描述文字自动生成图像是人工智能领域重要应用之一，广泛地用于创意设计、网页开发、软件界面生成等应用场景，当前已有许多成熟的图像生成引擎投入应用。在使用图像生成引擎时，需将能够反应图像内容的关键词输入，并从图像生成结果中选择出最符合用户需求的图像。因此，对待生成的图像使用准确的自然语言进行描述是生成符合需求图像的前提。但是，由于计算机对自然语言理解的不准确，无法理解自然语言词汇的语义和意境，导致最终所生成的图像会与用户期望存在一定的偏差。如：在图像生成引擎输入“snow white drives”时，所生成为一副雪地道路的图像，即计算机无法理解用户期望为“白雪公主开车”的概念。另外，将固定中文或外文短语，如诗词句子、成语、俗语作为输入词时，文字的意境很难在生成图像中直接反映出来。因此，在图像生成时，需要一种能够准确地对自然语言描述进行准确地构建的方法，提高所生成图像的适用性。

技术实现思路

1、发明要解决的技术问题

2、本发明针对现有图像生成时对于用户自然语言描述不准确导致生成图像存在误差的问题，提出一种用于图像生成的自然语言描述构建方法。

3、技术方案

4、为达到上述目的，本发明提供的技术方案为：

5、一种用于图像生成的自然语言描述构建方法，其特征在于，包括如下步骤：

6、步骤1，构建一个两列的自然语言字典，其中第一列为自然语言，第二列为对该自然语言的描述；

7、步骤2，对字典中的自然语言进行扩展，并将扩展词添加到字典第二列中；

8、步骤3，将步骤2生成的扩展词输入到图像生成引擎中生成图像；

9、步骤4，当生成的图像为多张时，利用人工进行选择或计算图像熵选择最佳图像。

10、进一步地，步骤2中扩展词的生成方法为：对字典中第一列的自然语言进行分词，对分词后的每个词，计算其与语料库中词的向量空间距离，取低于某一阈值的若干个词作为扩展词。

11、进一步地，步骤2中扩展词的生成方法为：对字典中第一列的自然语言进行分词，对分词后的每个词进行英译中/中译英翻译，将翻译后的结果作为扩展词。

12、进一步地，步骤2的扩展词生成方法为：直接对字典中的自然语言进行英译中/中译英翻译，将翻译后的句子进行分词并删除虚词后，剩余部分作为扩展词。

13、进一步地，对字典中第一列的自然语言进行分词后，对分词后的每个词进行命名实体识别，将命名实体识别的结果作为扩展词。

14、进一步地，步骤4选择图像二维熵最大的图像最为最佳图像，图像二维熵的计算方法为：

15、

16、其中s为图像二维熵，i表示图像中某个像素的灰度值，j表示该像素邻域像素的灰度均值，f(i,j)为灰度组合(i,j)在图像中出现的频数，n为图像的尺寸。

17、有益效果

18、本发明方法提供了一种高效自动的从中文固定短语生成准确的反映其意境的图像方法，较传统方法能够更加准确的生成图像；

19、本发明所提出的方法可应用在利用主要语料非中文训练的文字生成图像模型上，大大节省了工作时间，提高了工作效率。

技术特征：

1.一种用于图像生成的自然语言描述构建方法，其特征在于，包括如下步骤：

2.如权利要求1所述的一种用于图像生成的自然语言描述构建方法，其特征在于，步骤s2中扩展词的生成方法为：对字典中第一列的自然语言进行分词，对分词后的每个词，计算其与语料库中词的向量空间距离，取低于某一阈值的若干个词作为扩展词。

3.如权利要求1所述的一种用于图像生成的自然语言描述构建方法，其特征在于，所述步骤s2中扩展词的生成方法为：对字典中第一列的自然语言进行分词，对分词后的每个词进行英译中/中译英翻译，将翻译后的结果作为扩展词。

4.如权利要求1所述的一种用于图像生成的自然语言描述构建方法，其特征在于，所述步骤s2的扩展词生成方法为：直接对字典中的自然语言进行英译中/中译英翻译，将翻译后的句子进行分词并删除虚词后，剩余部分作为扩展词。

5.如权利要求2、3任一项所述的一种用于图像生成的自然语言描述构建方法，其特征在于，对字典中第一列的自然语言进行分词后，对分词后的每个词进行命名实体识别，将命名实体识别的结果作为扩展词。

6.如权利要求1所述的一种用于图像生成的自然语言描述构建方法，其特征在于，所述步骤s4选择图像二维熵最大的图像最为最佳图像，图像二维熵的计算方法为：

技术总结
本发明公开了一种用于图像生成的自然语言描述构建方法，属于自然语言处理与人工智能技术领域。本发明方法首先构建包含自然语言和对应自然语言的描述的字典，通过在语料库中查询各个分词的向量空间距离，对自然语言进行中译英/英译中翻译，命名实体识别等方法对自然语言进行扩展，并将扩展后的结果添加到字典描述中，图像生成阶段将扩展词输入到图像生成引擎中，利用人工进行选择或计算图像熵选择最佳图像。本发明方法提供了一种高效自动的从中文固定短语生成准确的反映其意境的图像方法，较传统方法能够更加准确的生成图像，所提出的方法可应用在利用主要语料非中文训练的文字生成图像模型上，节省了工作时间，提高了工作效率。

技术研发人员：刘扬,吉辉,李芝喜,冯超
受保护的技术使用者：苏摩智能技术（南京）有限公司
技术研发日：
技术公布日：2024/1/13

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：刘扬吉辉李芝喜冯超
技术所有人：苏摩智能技术（南京）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。