一种新闻配图方法、装置、设备及存储介质与流程

文档序号:26531487发布日期:2021-09-04 11:51阅读:151来源:国知局
一种新闻配图方法、装置、设备及存储介质与流程

1.本文涉及互联网技术领域,具体涉及一种新闻配图方法、装置、设备及存储介质。


背景技术:

2.新闻是用于记录社会生态、传播信息、反映时代变化的一种文体。随着信息化技术的迅速发展,特别是新媒体时代的发展,每时每刻都会产生大量的新闻。为了能够图文并茂、生动形象地表述新闻,同时更快的吸引用户的注意,会首先向用户呈现新闻的最直观的信息,新闻封面或新闻内部配图就起到了这样的作用,而针对纯文本的新闻在进行配图时,现有技术中有人工配图和自动配图两种方式,其一采用人工网上检索的方式进行人工配图,但这种效率低下,同时由于不同人检索能力不同,导致新闻配图的质量也参差不齐;其二是通过建立图文匹配模型进行自动配图,利用图像

标签或图像

文本描述训练多模态模型,然后基于模型计算无图新闻和图片库里图片的匹配度,该方法主要存在难以标注大量高质量的数据集,以及计算图文相似度的耗时长问题,因此配图的效率降低,很难进行大规模的推广。因此如何提高无图新闻配图的效率和质量成为目前亟需解决的技术问题。


技术实现要素:

3.针对现有技术的上述问题,本文的目的在于,提供一种新闻配图方法、装置、设备及存储介质,以提高无图新闻配图的效率和质量。
4.为了解决上述技术问题,本文的具体技术方案如下:一方面,本文提供一种新闻配图方法,所述方法包括:将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;确定与所述多个候选历史文本向量对应的多个候选历史图片;根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片。
5.进一步地,所述神经网络模型通过如下步骤训练得到:初始化训练模型参数,以获得初始神经网络模型;获取历史新闻数据,并对所述历史新闻数据进行预处理,得到待训练数据,所述待训练数据包括训练输入数据和目标输出数据;将所述训练输入数据输入到初始神经网络模型中进行训练,得到预测数据;根据所述预测数据和所述目标输出数据,按照训练规则对所述初始神经网络模型进行训练,以获得固定的训练模型参数;将所述固定的训练模型参数带入到初始神经网络模型中,得到训练好的神经网络
模型。
6.进一步地,所述训练好的神经网络模型包括:输入层,用于接收文本的初始文本向量和输入词向量;聚合层,将所述初始文本向量和所述输入词向量进行聚合处理,形成聚合向量;隐藏层,用于对所述聚合向量进行隐藏处理,以生成针对预设词语的输出词向量;预测函数,用于根据所述输出词向量和所述预设词语,更新所述初始文本向量,以得到所述文本的文本向量。
7.进一步地,所述根据所述待配图新闻的文本向量和历史文本向量库,确定多个历史候选文本,包括:根据所述待配图新闻的文本向量和历史文本向量库,计算获得所述文本向量与每个历史文本向量之间的相似度;确定满足指定条件的相似度对应的多个历史文本向量;将所述多个历史文本向量对应的历史文本作为多个历史候选文本。
8.进一步地,所述计算获得所述文本向量与每个历史文本向量之间的相似度,包括:确定所述文本向量和每个历史文本向量的向量长度;根据所述文本向量的向量长度和所述历史文本向量的向量长度,计算获得所述文本向量和每个历史文本向量的向量内积,并将所述向量内积作为所述文本向量与每个历史文本向量之间的相似度。
9.进一步地,所述确定满足指定条件的相似度对应的多个历史文本向量,包括:将所述相似度按照大小排序,获得相似度序列;确定所述相似度序列中指定数量较大值的相似度作为多个历史文本向量。
10.进一步地,所述历史文本向量库通过如下步骤建立:获取历史新闻数据,所述历史新闻数据包括历史新闻文本及其对应的图片url地址;对所述历史新闻数据进行分类,得到多个新闻数据集合;将每个新闻数据集合中的每个历史新闻文本依次输入到训练好的神经网络模型中,得到针对不同新闻类型的历史新闻文本向量集合;根据所述历史新闻文本向量集合和所述历史新闻文本对应的图片url地址,建立所述历史新闻文本向量和所述图片url地址的映射关系;根据不同新闻类型的历史新闻文本向量集合、所述历史新闻文本对应的图片url地址和所述映射关系,建立所述历史文本向量库。
11.进一步地,所述确定与所述多个候选历史文本向量对应的多个候选历史图片,包括:根据所述多个候选历史文本向量和所述映射关系,确定每个候选历史文本向量对应的图片url地址;根据每个所述图片url地址,提取得到多个候选历史图片。
12.进一步地,所述根据每个所述图片url地址,提取得到多个候选历史图片之后还包括:根据所述待配图新闻,从所述多个候选历史图片中剔除满足预设条件的候选历史
图片,以获得剔除后的多个候选历史图片。
13.进一步地,所述根据所述待配图新闻,从所述多个候选历史图片中剔除满足预设条件的候选历史图片,以获得剔除后的多个候选历史图片,包括:根据所述待配图新闻,确定所述待配图新闻的关键词信息,所述关键词信息包括以下要素中的至少一种:时间、地点、人物和事件;识别每个候选历史图片中的关键词信息;将所述待配图新闻的关键词信息和所述候选历史图片中的关键词信息进行匹配,确定关键词信息不一致的候选历史图片;剔除关键词信息不一致的候选历史图片,获得更新后的多个候选历史图片,以从所述更新后的多个候选历史图片中确定目标图片。
14.进一步地,所述根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,包括:依次确定每个所述候选历史图片的尺寸参数和质量参数;根据所述尺寸参数和所述质量参数,计算得到所述候选历史图片的评分参数,所述评分参数包括图片整洁度、图片清晰度、图片尺寸比例以及图片像素比例;根据所述评分参数,计算得到每个所述候选历史图片的评分值。
15.进一步地,所述将评分值最高的候选历史图片作为所述待配图新闻的目标图片之后还包括:获取所述目标图片的使用授权信息,并根据所述使用授权信息和多个候选历史图片确定所述待配图新闻的匹配图片。
16.进一步地,所述获取所述目标图片的使用授权信息,并根据所述使用授权信息和多个候选历史图片确定所述待配图新闻的匹配图片,包括:从目标图片中提取图片的版权信息,和/或从所述目标图片的图片url地址中确定图片的版权信息;根据所述版权信息生成图片授权请求,并将所述图片授权请求发送至图片授权机构,以获得所述目标图片的使用授权信息;接收所述图片授权机构发送的使用授权信息,并根据所述使用授权信息确定是否采用所述目标图片;若采用,则将该目标图片作为所述待配图新闻的匹配图片;若不采用,则按照所述评分值从高到低顺序更新所述目标图片,依次执行是否采用所述目标图片的步骤,直到确定所述待配图新闻的匹配图片。
17.另一方面,本文还提供一种新闻配图装置,所述装置包括:文本向量获取模块,用于将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;候选历史文本向量确定模块,用于根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;候选历史图片确定模块,用于确定与所述多个候选历史文本向量对应的多个候选历史图片;
目标图片确定模块,用于根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片。
18.另一方面,本文还提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述所述的方法。
19.最后,本文还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述所述的方法。
20.采用上述技术方案,本文所述的一种新闻配图方法、装置、设备及存储介质,提前训练好用于生成文本向量的神经网络模型,通过将待配图新闻输入到训练好的训练模型中得到该待配图新闻的本文向量,然后以文本向量对比的方式确定多个候选历史文本向量,该多个候选历史文本向量是由已知有图新闻通过训练好的神经网络模型得到的,然后再确定候选历史文本向量对应的候选历史图片,通过对候选历史图片进一步的评分,将评分值最高的候选历史图片作为所述待配图新闻的目标图片,本文通过文本向量对比的方式可以提高对无图新闻配图的效率,同时提高配图的质量。
21.为让本文的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。
附图说明
22.为了更清楚地说明本文实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本文的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1示出了本文实施例提供的方法的实施环境示意图;图2示出了本文实施例提供的新闻配图方法的步骤示意图;图3示出了本文实施例中神经网络模型训练步骤示意图;图4示出了本文实施例中候选历史文本向量确定步骤示意图;图5示出了本文实施例中历史文本向量库建立步骤示意图;图6示出了本文实施例中候选历史文本向量筛选步骤示意图;图7示出了本文实施例中评分值计算步骤示意图;图8示出了本文实施例中目标图片使用权获取步骤示意图;图9示出了本文实施例中提供的新闻配图装置的结构示意图;图10示出了本文实施例提供的计算机设备结构示意图。
24.附图符号说明:10、服务器;20、新闻配图装置;30、用户;100、文本向量获取模块;200、候选历史文本向量确定模块;
300、候选历史图片确定模块;400、目标图片确定模块;1002、计算机设备;1004、处理器;1006、存储器;1008、驱动机构;1010、输入/输出模块;1012、输入设备;1014、输出设备;1016、呈现设备;1018、图形用户接口;1020、网络接口;1022、通信链路;1024、通信总线。
具体实施方式
25.下面将结合本文实施例中的附图,对本文实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本文一部分实施例,而不是全部的实施例。基于本文中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本文保护的范围。
26.需要说明的是,本文的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本文的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、装置、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
27.现有技术中,针对新闻配图方式较多,其中人工配图方式效率低下,而且人工新闻配图的质量参差不齐,很难适应现在大量的配图需求;另外是通过建立图文匹配模型进行自动配图,利用图像

标签或图像

文本描述训练多模态模型,然后基于模型计算无图新闻和图片库里图片的匹配度,该方法主要存在难以标注大量高质量的数据集,以及计算图文相似度的耗时长问题,因此配图的效率降低,很难进行大规模的推广。
28.为了解决上述问题,本说明书实施例提供一种新闻配图方法,如图1所示,为所述方法的实施环境示意图,可以包括新闻配图装置20和服务器10,所述服务器10用于采集历史新闻数据,并进行存储,所述新闻配图装置20通过获取所述服务器10中的历史新闻数据进行神经网络模型的训练,从而得到能够生成文本向量的训练好的神经网络模型,进而对所述服务器10中的历史新闻数据进行训练,从而得到历史新闻数据对应的文本向量库,进而发送并存储在所述服务器10中,另外所述服务器10还存储所述历史新闻数据中的图片信息,在进行配图过程中,所述新闻配图装置20通过接收用户30输入的待配图新闻,进而通过
训练好的神经网络模型训练得到所述待配图新闻的文本向量,然后所述新闻配图装置20通过该文本向量从所述服务器10中的文本向量库中提取相似度高的候选文本向量,进而确定候选文本向量对应的候选历史图片,然后对候选历史图片进一步的筛选得到所述待配图新闻对应的目标图片,本文通过文本向量的比较以及对图片的进一步筛选,可以提高图片匹配的效率和质量,同时,也降低了配图和无图新闻产生差异的概率。
29.其中,所述服务器10能够实现对历史新闻数据的实时采集和存储,同时为文本向量库提供存储空间,可以为独立式服务器,也可以为分布式服务器,在本说明书实施例中不做限定。
30.作为可选地,本文实施例提供了一种新闻配图方法,能够提高对无图新闻配图的效率和质量。图2是本文实施例提供的一种新闻配图方法的步骤示意图,本说明书提供了如实施例或流程图所述的方法操作步骤,但基于常规或者无创造性的劳动可以包括更多或者更少的操作步骤。实施例中列举的步骤顺序仅仅为众多步骤执行顺序中的一种方式,不代表唯一的执行顺序。在实际中的系统或装置产品执行时,可以按照实施例或者附图所示的方法顺序执行或者并行执行。具体的如图2所示,所述方法可以包括:s101:将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;s102:根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;s103:确定与所述多个候选历史文本向量对应的多个候选历史图片;s104:根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片。
31.可以理解为,本说明书实施例提前训练神经网络模型,比如通过历史新闻数据进行训练,得到能够生成文本向量的神经网络模型,通过训练好的神经网络模型可以得到所述待配图新闻的历史文本向量,然后结合历史文本向量库进行相似度匹配得到相似度较高的多个候选历史文本向量,进而确定多个候选历史文本向量对应的多个候选历史图片,通过对候选历史图片进行评分从而确定评分最高的候选历史图片为目标图片,本文只通过文本向量的对比,结合图片的筛选可以提高无图新闻配图的效率和质量。
32.其中,所述神经网络模型可以根据已知的历史新闻数据(即历史新闻的文本)进行文本向量的生成,作为可选地,如图3所示,所述神经网络模型通过如下步骤训练得到:s201:初始化训练模型参数,以获得初始神经网络模型;s202:获取历史新闻数据,并对所述历史新闻数据进行预处理,得到待训练数据,所述待训练数据包括训练输入数据和目标输出数据;s203:将所述训练输入数据输入到初始神经网络模型中进行训练,得到预测数据;s204:根据所述预测数据和所述目标输出数据,按照训练规则对所述初始神经网络模型进行训练,以获得固定的训练模型参数;s205:将所述固定的训练模型参数带入到初始神经网络模型中,得到训练好的神经网络模型。
33.在实际操作中,对所述历史新闻数据进行预处理可以为对历史新闻数据中的历史
新闻文本进行分词处理和停用词过滤,这样可以确定其中有用词信息,具体地,利用分词组件(比如jieba工具)对每个历史新闻文本进行分词处理,得到有用词和停用词(比如是、的、了以及标点符号等),并对停用词进行过滤形成只包含有用词的词序列,该词序列就是训练输入数据,而目标输出数据实际上是词序列中的目标词,通过将所述词序列带入到神经网络模型中就可以得到针对所述目标词的预测词,然后根据所述目标词和所述预测词进行神经网络模型的训练更新,直到所述预测词和所述目标词的相似度(即距离)满足了指定的要求,即可以得到训练好的神经网络模型。
34.在本说明书实施例中,所述神经网络模型可以为自然语言处理模型,通过神经网络模型可以生成文本向量模型,进而通过文本向量实现文本相似度的计算,虽然现有技术中也有通过词袋模型实现文本相似度的计算,但是词袋模型丢失了文本中词的位置信息,因此处理的准确度不高,特别是新闻领域,很难保证时效性和可信度。本文通过文本向量,即向量模型可以快速准确的进行文本相似度的比较,向量模型包括word2vec模型、doc2vec模型以及深度学习模型bert。word2vec模型较简单,但只有词的向量,文本的向量可由词的向量累加后求均值,可见这种处理方式也丢失了文本中词的先后顺序,不能准确的表达出文中的含义;bert模型可以很好的表示文本向量,但存在长度限制(最长512个字符)以及cpu推理慢的缺点,不适用新闻领域对新闻本文长度不定以及新闻分发及时性的要求,因此作为优选地,在本说明书实施例中,采用doc2vec模型表示新闻文本向量。
35.进一步地,所述doc2vec模型的结构可以包括:输入层,用于接收文本的初始文本向量和输入词向量;聚合层,将所述初始文本向量和所述输入词向量进行聚合处理,形成聚合向量;隐藏层,用于对所述聚合向量进行隐藏处理,以生成针对预设词语的输出词向量;预测函数,用于根据所述输出词向量和所述预设词语,更新所述初始文本向量,以得到所述文本的文本向量。
36.可以理解为,输入层主要接收文本向量d(paragraph vector)和输入词向量(wv),在聚合层中通过向量相加后得到聚合向量neu1,隐藏层(synneg)是模型要学习的参数之一,当隐藏层中参数固定之后所述doc2vec模型也基本训练完成。预测函数主要用来衡量隐藏层的输出(即预测词)和待预测的词(即目标词)向量的相似度,相似则不用更新参数,不相似则需通过梯度下降法反向更新synneg向量、wv向量和d向量,直到得到了固定的synneg向量参数、wv向量参数,从得到训练完成的doc2vec模型,然后通过训练完成的doc2vec模型进行后续文本的推理,得到相应的文本向量d,作为后续新闻向量使用。
37.示例性地,如下是对所述doc2vec模型训练的详细过程:步骤1:数据预处理,收集大量历史新闻数据,为了提高训练的速度,可以选择新闻长度在100~500字之间的新闻,使用jieba工具对文本进行了分词,并对是、的、了以及标点符号等停用词进行了过滤。分词后,文本处理为词序列,以下简称词序列;步骤2:初始化mt19973随机数生成算法种子为0;步骤3:随机初始化256维向量,作为文本的初始文本向量paragraph vector;步骤4:随机初始化所有单词的词向量,记为wv;步骤5:初始化256维聚合层向量,设为0.0,记为neu1;步骤6:使用mt19973随机数算法初始化next_random。如下公式(1):
next_random=2^24*randint(0, 2^24)+randint(0, 2^24) (1) ;步骤7:遍历词序列,使用next_random>>16,和4227327进行比较,决定是否保留当前单词。并对next_random按照如下公式(2)更新:next_random=(next_random*25214903917+11)&281474976710655
ꢀꢀ
(2);步骤8:对于采样后的词序列,对每个单词生成一个小于5 的窗口。窗口大小计算公式(3)如下:window=next_random>>16%5
ꢀꢀꢀ
(3);并按照公式(2)对next_random进行更新;其中,窗口是指对于当前词语往前取几个词,往后取几个词。举个例子,分词后为[建设,人,与,自然,和谐,共生,美丽,中国],当前处理词语是“自然”。假设窗口大小为2,则采样得到的词语序列是[人,与,自然,和谐,共生]。如下表1所示:表1步骤9:对于采样后的每个单词,基于对应的窗口更新neu1。比如窗口大小为2,则neu1按照如下公式(4)计算:neu1=wv[i

2]+wv[i

1]+wv[i+1]+wv[i+2]
ꢀꢀ
(4);步骤10:将paragraph vector累加到neu1,如下公式(5)所示:neu1=neu1+paragraph vector
ꢀꢀ
(5);步骤11:从历史新闻文本的词序列中随机采样5个单词,作为负样本。计算负样本对应的词向量和neu1的点积,记为f。如果f≦

6或≧6,则跳过当前样本;否则按照如下公式(6)计算梯度:g=(y

exp(f)/(exp(f)+1))*alpha (6);步骤12:更新隐藏层参数synneg向量,如下公式(7)所示:synneg=synneg+g*neu1
ꢀꢀ
(7);步骤13:更新wv向量,如下公式(8)所示:wv=wv+g*synneg
ꢀꢀ
(8)步骤14:调整alpha(即学习速率),返回步骤6,重复训练40轮。
[0038]
步骤15:保存训练得到的wv向量和synneg向量,从而得到训练完成的doc2vec模型。
[0039]
通过上述步骤对收集到的历史新闻数据进行训练就能得到训练完成的神经网络模型(即doc2vec模型),从而通过该模型训练生成新闻文本向量,进而对历史新闻数据进行推理得到基于历史新闻数据的历史文本向量库。
[0040]
在本说明书实施例中,是通过文本向量比较来确定文本之间的相似度,作为可选地,如图4所示,所述根据所述待配图新闻的文本向量和历史文本向量库,确定多个历史候选文本向量,包括:s301:根据所述待配图新闻的文本向量和历史文本向量库,计算获得所述文本向量与每个历史文本向量之间的相似度;
s302:确定满足指定条件的相似度对应的多个历史文本向量,并将所述多个历史文本向量作为候选历史文本向量。
[0041]
可以理解为,本文是通过文本向量之间的相似度确定不同文本之间的相似性,从而确定与所述待配图新闻相似性较高的历史新闻,这样确定出的历史新闻中的配图很大概率也能适应所述待配图新闻,因此本文通过文本向量之间的比较可以实现历史相似新闻的快速确认,提高配图的效率。
[0042]
进一步实施例中,针对相似度的计算可以为两个文本之间向量距离,其中所述计算获得所述文本向量与每个历史文本向量之间的相似度,包括:确定所述文本向量和每个历史文本向量的向量长度;根据所述文本向量的向量长度和所述历史文本向量的向量长度,计算获得所述文本向量和每个历史文本向量的向量内积,并将所述向量内积作为所述文本向量与每个历史文本向量之间的相似度。
[0043]
示例性地,针对doc2vec模型可以获得所述待配图新闻的256维向量,相似度比较过程,待配图新闻的文本向量记为q,历史文本向量库中的向量记为d
i
, 0<=i<n,n表示历史文本向量库里的新闻个数,i表示第i篇新闻对应的向量。两个向量的相似度(similar_score)采用向量内积衡量,即向量的对应位置数值分别相乘再求和,计算公式如下公式(9)所示:, (9)其中,s为相似度, 为待配图新闻本文向量的256维向量中第j位置向量数据,为历史文本向量库中第i个向量中第j位置向量数据。
[0044]
通过上述公式(9)就能计算得到所述待配图新闻的文本向量与历史文本向量库中的历史文本向量之间的相似度,通过点积运算,两个向量越相似,则点积结果越大,因此通过比较相似度之间的大小,就能确定历史文本向量库中与所述待配图新闻相似度较高的历史文本,进而确定该历史文本(即历史新闻)中对应的历史图片。
[0045]
因此,在计算得到相似度的基础上,作为可选地,所述确定满足指定条件的相似度对应的多个历史文本向量,包括:将所述相似度按照大小排序,获得相似度序列;确定所述相似度序列中指定数量较大值的相似度作为多个历史文本向量。
[0046]
比如,可以按照从大到小进行排序,得到所述相似度的递减序列,所述指定数量可以为10、20、30等,不做限定,按序列从头进行选择指定数量的高相似度的历史文本向量,作为候选历史文本向量。在一些其他实施例中,也可以按照从小到大的顺序进行排序,并从序列的尾部到头部依次选择高相似度的历史文本向量,具体的排序方式在本说明书实施例中不做限定。
[0047]
在一些其他实施例中,可以取消排序步骤,直接设置候选历史文本向量选取门限值,当所述相似度超过所述选取门限值,则将该相似度对应的历史文本向量作为候选历史文本向量,通过设置选取门限值,可以在实时计算相似度时就确定候选历史文本向量,减少了计算相似度的步骤,提高了确定候选历史文本向量的效率,其中所述选取门限值根据实际情况设置,在本说明书实施例中不做限定。
[0048]
进一步地,还可以继续设置数量门限值,即当按照所述选取门限值确定的候选历
史文本向量数据达到了所述数量门限值时,则停止相似度的计算和后续候选历史文本向量的确定,其中所述数量门限值也可以根据实际情况设置,本说明书实施例不做限定。因此通过上述选取门限值和数量门限值的确定,可以进一步提高候选历史文本向量确定的速度和效率,在保证配图质量的基础上提高了整体配图的效率。
[0049]
由于新闻的更新速度很快,历史新闻数据量一般很大,在实际应用中,新闻一般包括社会、时政、财政、体育等多个领域,为了提高对新闻配图的效率和准确性,还可以在历史文本向量库生成过程中进行分类处理,作为可选地,如图5所示,所述历史文本向量库通过如下步骤建立:s401:获取历史新闻数据,所述历史新闻数据包括历史新闻文本及其对应的图片url地址;s402:对所述历史新闻数据进行分类,得到多个新闻数据集合;s403:将每个新闻数据集合中的每个历史新闻文本依次输入到训练好的神经网络模型中,得到针对不同新闻类型的历史新闻文本向量集合;s404:根据所述历史新闻文本向量集合和所述历史新闻文本对应的图片url地址,建立所述历史新闻文本向量和所述图片url地址的映射关系;s405:根据不同新闻类型的历史新闻文本向量集合、所述历史新闻文本对应的图片url地址和所述映射关系,建立所述历史文本向量库。
[0050]
可以理解为,所述历史新闻数据为有图历史新闻,而且为了避免采集的新闻数量异常庞大,增加了处理难度和存储难度,可以选择采集最近指定时间段(比如三个月、半年等)的有图新闻,获取的途径可以通过互联网爬虫技术从各大新闻网站中获取,作为可选地,可以包括中文网站,外文网站等,其中外文网站中的新闻文本可以通过翻译软件翻译成中文进行存储,以便进行本文向量的推理。
[0051]
在分类时可以按照新闻类型进行分类,比如社会新闻、财政新闻、财经新闻、体育新闻等,这样就可以形成不同新闻类型的历史新闻文本向量集合,即各个不同的历史新闻文本向量子库。在相似度计算之前,可以首先确定所述待配图新闻的类型,根据该类型确定相应的历史新闻文本向量子库,进而可以从而相同类型的历史新闻中确定图片,提高了图片匹配的准确性和可靠性。
[0052]
在采集到有图新闻时,可以提取所述有图新闻中的图片,进行图片的保存,进而根据图片确定每个图片的图片url地址,所述图片url地址可以为所述图片的源地址,进而根据该图片url地址快速提取相应的图片信息,进一步实施例中,若单个有图新闻中包括多个图片时,可随机选择一张图片作为该有图新闻的图片进行存储,也可以选择指定一张图片进行存储;当然也可以将全部的图片都进行存储,这样在提取时可以同时提取多个图片作为一组候选图片。
[0053]
示例性地,可以构建最近3个月社会、时政、财经、体育有图新闻作为素材库(历史新闻库),共58万有图新闻,为了提高新闻的相关性,引入了新闻分类作为过滤标签,因此该场景需要同时支持标签过滤和图片url地址的功能,同时又兼备相似度计算的功能,传统的搜索引擎elasticsearch对标签过滤和基于词袋模型的文本相关性检索支持较好,但不支持大规模向量检索,facebook的faiss库仅支持相似向量查询,没有标签过滤功能,且faiss是单节点,不支持分布式,因此需要使用一个支持字符串、向量存储及标签过滤、相似向量
检索的分布式引擎,vearch工具即符合该需求,因此本文实施例中通过vearch工具实现历史新闻数据的处理,下面介绍主要步骤。
[0054]
1)定义表的属性,包括分区数,副本个数,索引方式以及对应的索引参数和相似度计算模型。设置所需字段,如新闻分类、图片url地址数组、文本向量等。
[0055]
2)对素材库的每篇新闻,使用训练完成的doc2vec模型获取256维向量(即历史文本相应),将该文本向量和分类、图片url地址存储到表里,进而建立历史新闻文本向量库。
[0056]
3)根据用户输入的待配图新闻,结合训练完成的doc2vec模型获得所述配图新闻的文本向量,然后通过向量检索引擎进行相似度的计算,进而获得相似度高的候选历史文本向量,最后获得存储的图片。
[0057]
因此,在本说明书实施例中,所述确定与所述多个候选历史文本向量对应的多个候选历史图片,包括:根据所述多个候选历史文本向量和所述映射关系,确定每个候选历史文本向量对应的图片url地址;根据每个所述图片url地址,提取得到多个候选历史图片。
[0058]
通过上述步骤可以快速地获取所述待配图新闻的多个候选历史图片,然后对所述多个候选历史图片进一步筛选得到最终的目标图片。
[0059]
在本说明书实施例中,为了避免所述候选历史图片中表达信息和所述待配图新闻有明显不一致情况,可以对所述候选历史图片提前处理,剔除掉不一致的图片,作为可选地,所述根据每个所述图片url地址,提取得到多个候选历史图片之后还包括:根据所述待配图新闻,从所述多个候选历史图片中剔除满足预设条件的候选历史图片,以获得剔除后的多个候选历史图片。
[0060]
所述预设条件可以为所述待配图新闻中表达信息和所述候选历史图片的表达信息不一致,所述不一致可以理解为信息表达不一样,比如所述待配图新闻中表示的是a城市,但是候选历史图片中文字信息或图片信息均表示b城市,则表明二者不一致,可以剔除掉该候选历史图片。
[0061]
进一步地,如图6所示,所述根据所述待配图新闻,从所述多个候选历史图片中剔除满足预设条件的候选历史图片,以获得剔除后的多个候选历史图片,包括:s501:根据所述待配图新闻,确定所述待配图新闻的关键词信息,所述关键词信息包括以下要素中的至少一种:时间、地点、人物和事件;s502:识别每个候选历史图片中的关键词信息;s503:将所述待配图新闻的关键词信息和所述候选历史图片中的关键词信息进行匹配,确定关键词信息不一致的候选历史图片;s504:剔除关键词信息不一致的候选历史图片,获得更新后的多个候选历史图片,以从所述更新后的多个候选历史图片中确定目标图片。
[0062]
其中所述待配图新闻的关键词信息可以通过文字识别手段获得,所述候选历史图片中的关键词信息可以通过文字识别或图片识别获得,比如通过图像文字识别(ocr)技术获得图片中的文字信息,通过图形轮廓识别技术获得图片的图形的描述信息,得到相应的人物、风景、建筑物等信息,当出现不一致时,则表明该候选历史图片和所述待配图新闻出现表达意思相冲突的情况,可能会出现明显和待配图新闻不符合的图片,为了保证新闻的
时效性、准确性和可靠性,应剔除该候选历史图片。
[0063]
当所述待配图新闻中的关键词信息没有在所述候选历史图片中出现,且所述候选历史图片没有相应的其他关键词信息,则可以保留该候选历史图片。比如当所述待配图新闻中出现a城市这个关键词,但在候选历史图片中没有出现a城市关键词,也没有出现其他城市关键词,则可以保留该候选历史图片。
[0064]
进一步地,还可以通过识别所述候选历史图片中的文字,确定其中的文字信息是否包含敏感词(比如犯罪、色情、宗教、政治),若包含敏感词,也可以剔除相应的候选历史图片,以提高所述待配图新闻配图的质量。
[0065]
通过对多个候选历史图片的初步筛选,可以确保保留的候选历史图片的可靠性,因此可以进一步的确定目标图片,作为可选地,如图7所示,所述根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,包括:s601:依次确定每个所述候选历史图片的尺寸参数和质量参数;s602:根据所述尺寸参数和所述质量参数,计算得到所述候选历史图片的评分参数,所述评分参数包括图片整洁度、图片清晰度、图片尺寸比例以及图片像素比例;s603:根据所述评分参数,计算得到每个所述候选历史图片的评分值。
[0066]
可以理解为,通过上述步骤可以确定每个候选历史图片的质量,即评分值,通过选择质量高的图片可以提升整个待配图新闻的质量。比如,当图片中含有文字信息时,较大可能上会和无图新闻的内容出现矛盾或不相关,因此需要设计一个排序/打分机制,对选择的候选历史图片进行排序,将图片质量高的、相关性强的排在前面,质量低的、相关性弱的排在后面。衡量图片质量包含多个方面,如图像分辨率,图像宽高比,图像中文字数量等,因此需要综合多个维度计算图像得分。
[0067]
示例性地,首先使用ocr模型,识别图片中出现的文字个数,得到图片的整洁度(即ocr得分)。文字越多,得分越低,因此f_ocr= 1/(count+1),其中f_ocr为图片整洁度,count为图片中文字个数。
[0068]
其次使用图像质量模型,获取图片的清晰度评分:f_quality,作为可选地,可以通过谷歌图像质量模型nima获得。
[0069]
然后所述图片尺寸比例则为图片长边与短边的比例,实际应用中,正方形图片的会比较经常使用,在新闻倾向于使用正方形图片,因此该比例越高则表示图片的尺寸评分越低,因此可以设置尺寸评分和所述图片尺寸比例之间的对应关系,比如函数关系或映射关系,比例越大尺寸评分越低,作为可选地,f_size=1/p_size,其中f_size为尺寸评分,p_size为图片尺寸比例。在一些其他实施例中,也可以有其他的设置方式,具体的设置方式在本说明书实施例中不做限定。
[0070]
所述图片像素比例则是图片像素高与像素宽的乘积,结果越大表明图片的质量越好,相应的像素评分也会越高,因此也可以设置像素评分和所述图片像素比例之间的对应关系,比如函数关系或映射关系,比例越大像素评分越高,作为可选地,f_ratio= p_ratio/q_ratio,其中f_ratio为像素评分,p_ratio为当前候选历史图片的图片像素比例,q_ratio为全部候选历史图片的图片像素比例总和。在一些其他实施例中,也可以有其他的设置方式,具体的设置方式在本说明书实施例中不做限定。
[0071]
最后,综合评分公式如下公式(10):
score=f_ocr+f_quality+f_size+f_ratio,
ꢀꢀꢀ
(10)通过上述步骤,能过很好的将质量高的图片排到前面,质量低图片排到后面,方便审核人员快速审核,确定质量最高的图片。
[0072]
进一步的,为了提高图片质量排序过程中的针对性,还可以对不同的评分参数设置不同的评分权重,这样可以根据需要选择对应的图片,比如有些新闻文本(比如时政新闻等)对图片的整洁度要求较高,可以增加f_ocr的权重值,这样可以将整洁度较高的图片放在较高的排序位置,再比如有些新闻文本(比如体育新闻)对图片质量清晰度要求较高,可以增加f_quality和 f_ratio的权重值,从而可以获得较高质量清晰度的图片。通过对评分参数权重值的设置可以提高配图的便利性和快捷性。
[0073]
在确定目标图片之后,如果直接使用可能存在侵权的可能,从而会造成一些不必要的麻烦和损失,因此为了保证配图和正常用图,作为可选地,所述将评分值最高的候选历史图片作为所述待配图新闻的目标图片之后还包括:获取所述目标图片的使用授权信息,并根据所述使用授权信息和多个候选历史图片确定所述待配图新闻的匹配图片。
[0074]
可以理解为,通过获取所述目标图片的使用授权信息,从而进一步取得所述目标图片的合法性和使用权,因此通过该步骤可以真正的将所述目标图片确定为所述待配图新闻的匹配图片。
[0075]
作为可选地,如图8所示,所述获取所述目标图片的使用授权信息,并根据所述使用授权信息和多个候选历史图片确定所述待配图新闻的匹配图片,包括:s701:从目标图片中提取图片的版权信息,和/或从所述目标图片的图片url地址中确定图片的版权信息;s702:根据所述版权信息生成图片授权请求,并将所述图片授权请求发送至图片授权机构,以获得所述目标图片的使用授权信息;s703:接收所述图片授权机构发送的使用授权信息,并根据所述使用授权信息确定是否采用所述目标图片;s704:若采用,则将该目标图片作为所述待配图新闻的匹配图片;s705:若不采用,则按照所述评分值从高到低顺序更新所述目标图片,依次执行是否采用所述目标图片的步骤,直到确定所述待配图新闻的匹配图片。
[0076]
其中,所述版权信息可以为所述图片的著作者或版权方,可以通过ocr识别目标图片中的文字获得,或者直接通过图片url地址获得,所述图片url地址可以为所述目标图片的源地址,能直接确定版权方信息。
[0077]
所述图片授权机构可以为版权组织或著作者自身,用户将包含授权协议的图片授权请求发送给图片授权机构,图片授权机构根据所述授权协议,生成或签署相应的授权信息给用户,所述授权信息可以包括授权金额、时间、用途等等,当所述用户接收所述授权信息时,可以根据协议支付相应的成本以获得所述目标图片的使用权,当不接受所述授权信息时,可剔除该目标图片,根据上述确定的图片质量顺序,依次选择图片,并进行授权信息的确定,直到确定相应的图片作为所述待配图新闻的匹配图片。
[0078]
通过上述步骤可以合法合理的获得匹配图片的使用权,从而避免了后续不必要的麻烦,提高了配图的可靠性。
[0079]
另外,当不能直接获得所述目标图片的版权信息,或者所述目标图片为公共图片,不存在侵权的可能,可以直接将其作为所述待配图新闻的匹配图片。
[0080]
本说明书实施例提供的新闻配图方法,通过训练神经网络模型,可以快速准确计算新闻之间的相关性,进而快速对无图新闻推荐相关的图片,同时针对图片进行质量排序,提高了配图的质量,降低了配图和无图新闻产生差异的概率,最后通过对目标图片使用权的确定,保证了图片使用的合法合理,提高了配图的可靠性。
[0081]
基于同一发明构思,本说明书实施例还提供一种新闻配图装置,如图9所示,所述装置包括:文本向量获取模块100,用于将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;候选历史文本向量确定模块200,用于根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;候选历史图片确定模块300,用于确定与所述多个候选历史文本向量对应的多个候选历史图片;目标图片确定模块400,用于根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片。
[0082]
通过上述装置所取得的有益效果和上述方法所取得的有益效果一致,本说明书实施例不做限定。
[0083]
如图10所示,为本文实施例提供的一种计算机设备,本文中的新闻配图装置可以为本实施例中的计算机设备,执行上述本文的方法。所述计算机设备1002可以包括一个或多个处理器1004,诸如一个或多个中央处理单元(cpu),每个处理单元可以实现一个或多个硬件线程。计算机设备1002还可以包括任何存储器1006,其用于存储诸如代码、设置、数据等之类的任何种类的信息。非限制性的,比如,存储器1006可以包括以下任一项或多种组合:任何类型的ram,任何类型的rom,闪存设备,硬盘,光盘等。更一般地,任何存储器都可以使用任何技术来存储信息。进一步地,任何存储器可以提供信息的易失性或非易失性保留。进一步地,任何存储器可以表示计算机设备1002的固定或可移除部件。在一种情况下,当处理器1004执行被存储在任何存储器或存储器的组合中的相关联的指令时,计算机设备1002可以执行相关联指令的任一操作。计算机设备1002还包括用于与任何存储器交互的一个或多个驱动机构1008,诸如硬盘驱动机构、光盘驱动机构等。
[0084]
计算机设备1002还可以包括输入/输出模块1010(i/o),其用于接收各种输入(经由输入设备1012)和用于提供各种输出(经由输出设备1014))。一个具体输出机构可以包括呈现设备1016和相关联的图形用户接口(gui)1018。在其他实施例中,还可以不包括输入/输出模块1010(i/o)、输入设备1012以及输出设备1014,仅作为网络中的一台计算机设备。计算机设备1002还可以包括一个或多个网络接口1020,其用于经由一个或多个通信链路1022与其他设备交换数据。一个或多个通信总线1024将上文所描述的部件耦合在一起。
[0085]
通信链路1022可以以任何方式实现,例如,通过局域网、广域网(例如,因特网)、点对点连接等、或其任何组合。通信链路1022可以包括由任何协议或协议组合支配的硬连线
链路、无线链路、路由器、网关功能、名称服务器等的任何组合。
[0086]
对应于图2

图8中的方法,本文实施例还提供了一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述方法的步骤。
[0087]
本文实施例还提供一种计算机可读指令,其中当处理器执行所述指令时,其中的程序使得处理器执行如图2至图8所示的方法。
[0088]
应理解,在本文的各种实施例中,上述各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本文实施例的实施过程构成任何限定。
[0089]
还应理解,在本文实施例中,术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系。例如,a和/或b,可以表示:单独存在a,同时存在a和b,单独存在b这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0090]
本领域普通技术人员可以意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、计算机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本文的范围。
[0091]
所属领域的技术人员可以清楚地了解到,为了描述的方便和简洁,上述描述的系统、装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0092]
在本文所提供的几个实施例中,应该理解到,所揭露的系统、装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接,也可以是电的,机械的或其它的形式连接。
[0093]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本文实施例方案的目的。
[0094]
另外,在本文各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0095]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本文的技术方案本质上或者说对现有技术做出贡献的部分,或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本文各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read

only memory)、
随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0096]
本文中应用了具体实施例对本文的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本文的方法及其核心思想;同时,对于本领域的一般技术人员,依据本文的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本文的限制。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1