一种新闻配图方法、装置、设备及存储介质与流程

文档序号:26531487发布日期:2021-09-04 11:51阅读:来源:国知局

技术特征:
1.一种新闻配图方法,其特征在于,所述方法包括:将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;确定与所述多个候选历史文本向量对应的多个候选历史图片;根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片。2.根据权利要求1所述的方法,其特征在于,所述神经网络模型通过如下步骤训练得到:初始化训练模型参数,以获得初始神经网络模型;获取历史新闻数据,并对所述历史新闻数据进行预处理,得到待训练数据,所述待训练数据包括训练输入数据和目标输出数据;将所述训练输入数据输入到初始神经网络模型中进行训练,得到预测数据;根据所述预测数据和所述目标输出数据,按照训练规则对所述初始神经网络模型进行训练,以获得固定的训练模型参数;将所述固定的训练模型参数带入到初始神经网络模型中,得到训练好的神经网络模型。3.根据权利要求1所述的方法,其特征在于,所述训练好的神经网络模型包括:输入层,用于接收文本的初始文本向量和输入词向量;聚合层,将所述初始文本向量和所述输入词向量进行聚合处理,形成聚合向量;隐藏层,用于对所述聚合向量进行隐藏处理,以生成针对预设词语的输出词向量;预测函数,用于根据所述输出词向量和所述预设词语,更新所述初始文本向量,以得到所述文本的文本向量。4.根据权利要求1所述的方法,其特征在于,所述根据所述待配图新闻的文本向量和历史文本向量库,确定多个历史候选文本向量,包括:根据所述待配图新闻的文本向量和历史文本向量库,计算获得所述文本向量与每个历史文本向量之间的相似度;确定满足指定条件的相似度对应的多个历史文本向量,并将所述多个历史文本向量作为候选历史文本向量。5.根据权利要求4所述的方法,其特征在于,所述计算获得所述文本向量与每个历史文本向量之间的相似度,包括:确定所述文本向量和每个历史文本向量的向量长度;根据所述文本向量的向量长度和所述历史文本向量的向量长度,计算获得所述文本向量和每个历史文本向量的向量内积,并将所述向量内积作为所述文本向量与每个历史文本向量之间的相似度。6.根据权利要求4所述的方法,其特征在于,所述确定满足指定条件的相似度对应的多个历史文本向量,包括:将所述相似度按照大小排序,获得相似度序列;确定所述相似度序列中指定数量较大值的相似度作为多个历史文本向量。
7.根据权利要求1所述的方法,其特征在于,所述历史文本向量库通过如下步骤建立:获取历史新闻数据,所述历史新闻数据包括历史新闻文本及其对应的图片url地址;对所述历史新闻数据进行分类,得到多个新闻数据集合;将每个新闻数据集合中的每个历史新闻文本依次输入到训练好的神经网络模型中,得到针对不同新闻类型的历史新闻文本向量集合;根据所述历史新闻文本向量集合和所述历史新闻文本对应的图片url地址,建立所述历史新闻文本向量和所述图片url地址的映射关系;根据不同新闻类型的历史新闻文本向量集合、所述历史新闻文本对应的图片url地址和所述映射关系,建立所述历史文本向量库。8.根据权利要求7所述的方法,其特征在于,所述确定与所述多个候选历史文本向量对应的多个候选历史图片,包括:根据所述多个候选历史文本向量和所述映射关系,确定每个候选历史文本向量对应的图片url地址;根据每个所述图片url地址,提取得到多个候选历史图片。9.根据权利要求8所述的方法,其特征在于,所述根据每个所述图片url地址,提取得到多个候选历史图片之后还包括:根据所述待配图新闻,从所述多个候选历史图片中剔除满足预设条件的候选历史图片,以获得剔除后的多个候选历史图片。10.根据权利要求9所述的方法,其特征在于,所述根据所述待配图新闻,从所述多个候选历史图片中剔除满足预设条件的候选历史图片,以获得剔除后的多个候选历史图片,包括:根据所述待配图新闻,确定所述待配图新闻的关键词信息,所述关键词信息包括以下要素中的至少一种:时间、地点、人物和事件;识别每个候选历史图片中的关键词信息;将所述待配图新闻的关键词信息和所述候选历史图片中的关键词信息进行匹配,确定关键词信息不一致的候选历史图片;剔除关键词信息不一致的候选历史图片,获得更新后的多个候选历史图片,以从所述更新后的多个候选历史图片中确定目标图片。11.根据权利要求1所述的方法,其特征在于,所述根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,包括:依次确定每个所述候选历史图片的尺寸参数和质量参数;根据所述尺寸参数和所述质量参数,计算得到所述候选历史图片的评分参数,所述评分参数包括图片整洁度、图片清晰度、图片尺寸比例以及图片像素比例;根据所述评分参数,计算得到每个所述候选历史图片的评分值。12.根据权利要求1所述的方法,其特征在于,所述将评分值最高的候选历史图片作为所述待配图新闻的目标图片之后还包括:获取所述目标图片的使用授权信息,并根据所述使用授权信息和多个候选历史图片确定所述待配图新闻的匹配图片。13.根据权利要求12所述的方法,其特征在于,所述获取所述目标图片的使用授权信
息,并根据所述使用授权信息和多个候选历史图片确定所述待配图新闻的匹配图片,包括:从目标图片中提取图片的版权信息,和/或从所述目标图片的图片url地址中确定图片的版权信息;根据所述版权信息生成图片授权请求,并将所述图片授权请求发送至图片授权机构,以获得所述目标图片的使用授权信息;接收所述图片授权机构发送的使用授权信息,并根据所述使用授权信息确定是否采用所述目标图片;若采用,则将该目标图片作为所述待配图新闻的匹配图片;若不采用,则按照所述评分值从高到低顺序更新所述目标图片,依次执行是否采用所述目标图片的步骤,直到确定所述待配图新闻的匹配图片。14.一种新闻配图装置,其特征在于,所述装置包括:文本向量获取模块,用于将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;候选历史文本向量确定模块,用于根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;候选历史图片确定模块,用于确定与所述多个候选历史文本向量对应的多个候选历史图片;目标图片确定模块,用于根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片。15.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至13任一项所述的方法。16.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至13任一项所述的方法。

技术总结
本文提供了一种新闻配图方法、装置、设备及存储介质,所述方法包括:将待配图新闻输入到训练好的神经网络模型中,得到所述待配图新闻的文本向量;根据所述待配图新闻的文本向量和历史文本向量库,确定多个候选历史文本向量,所述历史文本向量库由已知有图新闻通过训练好的神经网络模型得到的文本向量集合;确定与所述多个候选历史文本向量对应的多个候选历史图片;根据所述多个候选历史图片和预设评分规则,确定每个候选历史图片的评分值,并将评分值最高的候选历史图片作为所述待配图新闻的目标图片,本文通过文本向量对比的方式可以提高对无图新闻配图的效率,同时提高配图的质量。质量。质量。


技术研发人员:张智跃 仉佃星 赵炳淏
受保护的技术使用者:人民网科技(北京)有限公司
技术研发日:2021.08.05
技术公布日:2021/9/3
当前第2页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1