本发明属于文本数据挖掘、数据分析、可视化与可视化分析,特别涉及一种智能旅游杂志广告布局自动生成器。
背景技术:
1、好的设计视觉上令人愉悦,同时清晰地传递信息,但是高质量的设计依靠经验丰富的设计师的专业知识。在一本杂志中设计师经常需要创建多种元素交汇,设计风格相似却布局又不同的页面。设计者一般是先拥有设计杂志的材料(如一共有多少张图片、多少段文字说明等),然后根据拥有的材料的数量、图片的大小等设计布局,再根据杂志材料设计符合的风格,这需要耗费大量的人力和时间。将一组给定的元素(图片、文本、标题等)组织成一个布局是有很多的可能性,一个好的布局必须满足设计目标(阅读顺序,和谐等),并且改变一个元素可能需要重组许多其它元素。所以生成自定义的旅游杂志布局具有重大意义,其大大解放了劳动力,用户可以根据手中的设计旅游杂志广告的材料数量来设计合适的布局,也可以根据想要的布局风格进行设计布局。其中,建模布局是图形设计的重要步骤,生成图形布局的方法取得了进展,特别是生成对抗网络(gan)。但是,指定位置和大小的问题设计元素通常涉及关于元素属性的约束,例如面积、纵横比和阅读顺序,自动化属性条件图形布局仍然是一个复杂且未解决的问题。
技术实现思路
1、为了解决上述描述的问题,本发明提供了一种旅游杂志广告布局自动生成器。
2、为了实现上述技术目的,本发明采用的技术方案如下:
3、本发明一种旅游杂志广告布局自动生成器,包括如下步骤:
4、步骤1:遍历待爬取的各个旅游网站,获取旅游网站中的旅游杂志广告;设置旅游杂志广告尺寸阈值,过滤掉数据库中尺寸不符合阈值要求的旅游杂志广告,再过滤掉模糊不清的旅游杂志广告。
5、步骤2:使用全卷积神经网络将旅游杂志广告布局划分为旅游杂志广告文本、旅游杂志广告标题、图片、图片上标题、图片上文本、背景六类标签,对每个标签进行细化处理,然后对每个旅游杂志广告布局标注语义信息,作为每个旅游杂志广告布局的约束条件文本。
6、步骤3:将步骤2得到的每个旅游杂志广告布局的约束条件文本经过文本编码器转化为向量,然后通过布局编码器将步骤2中得到的各个旅游杂志广告布局转化为特征向量,再构建并训练生成对抗网络,生成对抗网络中引入混合器,形成鉴别器的三种输入,分别为:约束条件文本转化的向量yi和匹配约束条件文本的真实旅游杂志广告布局对应的向量xi所组成的向量对(yi,xi)、约束条件文本转化的向量yi和不匹配约束条件文本的真实旅游杂志广告布局对应的向量xj所组成的向量对(yi,xj)、约束条件文本转化的向量yi和生成器生成的布局pi′通过布局编码器输出的向量xi′所组成的向量对(yi,xi′),让鉴别器来判断输入的向量对中包含的是生成布局对应的向量还是真实旅游杂志广告布局对应的向量。生成对抗网络训练结束后,利用生成器自动生成与约束条件文本匹配的旅游杂志广告布局。
7、优选地,步骤1中,遍历待爬取的各个旅游网站,获取旅游网站中的旅游杂志广告,具体过程如下:使用基于python的scrapy爬虫框架,创建一个旅游杂志广告搜索项目,由“引擎”向爬虫文件索要待爬取的旅游网站,并将其交给调度器加入旅游网站队列当中;调度器处理完请求后,将旅游网站返回给引擎;引擎将该旅游网站交给下载器去下载响应对象;下载器得到响应对象后,将响应结果交给引擎,引擎收到后,经由蜘蛛中间件将响应结果交给爬虫文件;爬虫文件对响应结果进行处理、分析,并提取出所需要的旅游杂志广告交给管道文件存储到数据库。
8、优选地,步骤1中,通过sobel算子边缘检测算法过滤掉模糊不清的旅游杂志广告。
9、优选地,步骤2的具体过程如下:
10、步骤2.1:设置旅游杂志广告文本、旅游杂志广告标题、图片、图片上标题、图片上文本、背景六类标签,分别用黄色、绿色、红色、紫色、蓝色、灰色区域表示;然后,手动将步骤1得到的一部分旅游杂志广告布局划分成六类标签作为训练集,对全卷积神经网络进行训练。接着,通过训练后的全卷积神经网络将步骤1得到的其余旅游杂志广告布局分别经语义分割划分为六类标签。
11、步骤2.2:对语义分割划分后的每个标签进行细化处理,具体过程如下:首先通过颜色识别技术识别出语义分割划分后的各标签中内部噪声点,然后用对应标签的颜色填充内部噪声点。接着,对去除内部噪声点后的各标签去除边界噪声点。最后,对去除边界噪声点后的各标签校正边界。
12、步骤2.3:对步骤2.1中手动划分成六类标签的旅游杂志广告布局和步骤2.2处理后得到的旅游杂志广告布局计算每个标签的占比,并计算每个旅游杂志广告布局由哪几类标签构成以及各类标签的数量。通过表1中的九句话表述旅游杂志广告布局的语义信息,作为旅游杂志广告布局的约束条件文本。
13、表1
14、
15、更优选地,全卷积神经网络训练时,使用数据增强技术对训练集增强。
16、更优选地,对去除边界噪声点后的各标签校正边界的过程具体如下:利用python的opencv包中的cv2.convexhull函数得到标签四条边界的点集合,然后求出每条边界的均值点,将上、下两边界的均值点作为两个纵轴坐标值,将左、右两边界的均值点作为两个横轴坐标值,将每个横轴坐标值与两个纵轴坐标值分别组合,共得到四个点坐标,作为四个顶点,四个顶点所围成的矩形区域边界就是该标签校正后的边界。
17、更优选地,将旅游杂志广告布局分为七种类型构图,分别是内外嵌套式构图、宫格式构图、左右对称式构图、三栏式构图、组合式构图、分割式构图、两栏式构图;分割式构图中其中一个标签占据大部分版面。
18、优选地,步骤3具体过程如下:
19、步骤3.1:将步骤2得到的每个旅游杂志广告布局的约束条件文本经过文本编码器转化为向量,具体过程如下:使用python中的jieba库对旅游杂志广告布局的约束条件文本进行分词,用one-hot编码的形式,创建一个词库表,使用循环语句读取所有旅游杂志广告布局的约束条件文本,判断旅游杂志广告布局的约束条件文本中每个词组是否在词库表中,如果这个词组不在词库表中,更新词库表,将这个词组添加到词库表中,并且对这个词组进行编号并用该编号来替代这个词组,如果这个词组在词库表中,则直接用这个词组在词库表中的编号来替代这个词组,从而将每个旅游杂志广告布局的约束条件文本转化为一个向量xi={x1,x2,…,xm,…,xm},m为旅游杂志广告布局的约束条件文本中词组数量,xm为约束条件文本中第m个词组对应的编号;然后将该向量通过一个词嵌入层,再通过一个循环神经网络层,最终输出向量yi。
20、步骤3.2:通过布局编码器将步骤2中得到的各个旅游杂志广告布局转化为特征向量,具体是先通过空间注意力机制使旅游杂志布局显著化,然后再通过cnn网络层转化为特征向量。在布局编码器中,输入的是各旅游杂志广告布局组成的向量p,输出的为各旅游杂志广告布局的特征向量x,其中,p=[p1,p2,…,pi,…,pl],p中各元素表示旅游杂志广告布局,l表示旅游杂志广告布局的总数;空间注意力机制的输出向量si为pi在空间注意力机制的中间隐藏状态;将得到的向量输入到cnn网络层中学习,最终输出为x=[x1,x2,…,xi,…,xl],cnn()表示cnn网络层的卷积运算。
21、步骤3.3:构建并训练生成对抗网络,生成对抗网络由一个生成器和一个鉴别器组成。生成对抗网络训练结束后,利用生成器自动生成与约束条件文本匹配的旅游杂志广告布局。
22、更优选地,步骤3.1中:
23、yi=rnn(s)
24、其中词嵌入层的输出si={sm|m=1,2,…,m},sm是与xm对应的词嵌入层输出向量;rnn()为循环神经网络层的运算;yi={ym|m=1,2,…,m},ym是与xm对应的循环神经网络层输出向量。
25、更优选地,步骤3.3中,生成对抗网络首先从服从高斯分布n(0,1)的噪声中采样,再将采样后的噪声和约束条件文本转化的向量yi输入到生成器中,生成符合该约束条件文本的布局pi′。
26、本发明具有的有益效果:
27、1、本发明将过滤得到的各真实旅游杂志广告布局均通过九个短句进行描述组成的约束条件文本,然后通过文本编码器转化为向量yi;真实旅游杂志广告布局pi则经过布局编码器生成特征向量xi,再将向量y和一段高斯分布噪声z一起输入到生成器中生成布局p′i,将生成布局、匹配的真实旅游杂志广告布局和非匹配的真实旅游杂志广告布局分别与约束条件文本配对输入到鉴别器中判断各配对是否匹配,提升鉴别器的鉴别能力,最终保证生成器的生成布局更匹配约束条件文本。
28、2、布局编码器中先通过空间注意力机制使旅游杂志布局显著化,生成高质量的布局图,然后再通过cnn网络层转化为特征向量,从而通过循环神经网络学习布局图片的特征,提高生成器的性能,这也使得生成的布局更符合文本条件。
29、3、本发明在由一个生成器和一个鉴别器组成的生成对抗网络中引入一个混合器,在鉴别器中添加三种类型的输入,包含带有不匹配文本和真实布局的向量对,提高鉴别器的性能,还能通过学习优化布局和文本之间的约束关系。