多媒体内容标签处理方法、装置、设备、介质及产品与流程

文档序号:35915530发布日期:2023-10-30 07:03阅读:46来源:国知局
多媒体内容标签处理方法、装置、设备、介质及产品与流程

本技术涉及多媒体内容处理,具体而言,涉及一种多媒体内容标签处理方法、多媒体内容标签处理装置、电子设备、计算机可读存储介质及计算机程序产品。


背景技术:

1、目前,多媒体内容发布者在发布多媒体内容时,可以为其添加标签,但所添加的标签完全有发布者自定义设置,会存在所添加的标签与多媒体内容的主流主题之间存在不符的情况,进而观看者根据标签搜索多媒体内容时,存在标签与搜索的多媒体内容的主题之间存在主题漂移的情况。


技术实现思路

1、本技术的实施例提供了一种多媒体内容标签处理方法、多媒体内容标签处理装置、电子设备、计算机可读存储介质及计算机程序产品,可以准确地识别目标多媒体内容标签与目标多媒体内容的主题漂移情况。

2、本技术的其他特性和优点将通过下面的详细描述变得显然,或部分地通过本技术的实践而习得。

3、根据本技术实施例的一个方面,提供了一种多媒体内容标签处理方法,包括:获取目标多媒体内容的各个多媒体内容标签分别对应的主题多媒体内容标签集合,所述主题多媒体内容标签集合中包括至少两个主题多媒体内容标签;根据所述至少两个主题多媒体内容标签生成所述主题多媒体内容标签集合的主题标签向量;计算所述目标多媒体内容的目标多媒体内容标签与所述目标多媒体内容标签对应的主题标签向量之间的相似度;根据所述相似度确定所述目标多媒体内容标签与所述目标多媒体内容的主题漂移结果。

4、根据本技术实施例的一个方面,提供了一种多媒体内容标签处理装置,所述装置包括:获取模块,用于获取目标多媒体内容的各个多媒体内容标签分别对应的主题多媒体内容标签集合,所述主题多媒体内容标签集合中包括至少两个主题多媒体内容标签;生成模块,用于根据所述至少两个主题多媒体内容标签生成所述主题多媒体内容标签集合的主题标签向量;计算模块,用于计算所述目标多媒体内容的目标多媒体内容标签与所述目标多媒体内容标签对应的主题标签向量之间的相似度;确定模块,用于根据所述相似度确定所述目标多媒体内容标签与所述目标多媒体内容的主题漂移结果。

5、在本技术的一实施例中,所述获取模块进一步用于获取与所述多媒体内容标签共现的其他多媒体内容标签在各个指定多媒体内容中的总出现次数,所述指定多媒体内容为包含所述其他多媒体内容标签的多媒体内容;根据所述总出现次数和所述各个指定多媒体内容对应的总关注量,计算所述其他多媒体内容标签的关键度,以得到多个其他多媒体内容标签的关键度;根据所述关键度从多个其他多媒体内容标签中选取所述多媒体内容标签对应的主题多媒体内容标签集合,以得到各个多媒体内容标签分别对应的主题多媒体内容标签集合。

6、在本技术的一实施例中,所述获取模块进一步用于获取所述其他多媒体内容标签在指定多媒体内容的多个多媒体内容标签中的相对位置;根据所述相对位置确定所述其他多媒体内容标签在指定多媒体内容中的出现次数,所述相对位置和所述出现次数为负相关;根据所述其他多媒体内容标签在所述各个指定多媒体内容的出现次数得到所述总出现次数。

7、在本技术的一实施例中,所述获取模块进一步用于获取所述各个指定多媒体内容中属于认证多媒体内容的数量;根据所述总出现次数、各个指定多媒体内容对应的总关注量和属于认证多媒体内容的数量,计算所述其他多媒体内容标签的关键度。

8、在本技术的一实施例中,所述生成模块进一步用于对所述主题多媒体内容标签集合中的主题多媒体内容标签进行分词处理,得到所述主题多媒体内容标签对应的多个分词;根据多个分词分别对应的词向量生成所述主题多媒体内容标签的词向量,以得到各个主题多媒体内容标签的词向量;根据各个主题多媒体内容标签的词向量生成所述主题多媒体内容标签集合的主题标签向量。

9、在本技术的一实施例中,所述获取模块进一步用于获取所述各个多媒体内容标签分别在各个多媒体内容的出现频次;从所述目标多媒体内容的多个多媒体内容标签中,删除所述出现频次小于预设频率阈值的多媒体内容标签,得到更新后的多个多媒体内容标签;从更新后的多个多媒体内容标签中选取各个多媒体内容标签分别对应的至少两个主题多媒体内容标签,以得到对应的主题多媒体内容标签集合。

10、在本技术的一实施例中,所述获取模块进一步用于将所述目标多媒体内容的多个多媒体内容标签分别与预设标签库进行匹配;获取所述目标多媒体内容的各个多媒体内容标签的重要度;从所述目标多媒体内容的多个多媒体内容标签中,删除重要度低于预设重要度阈值和与所述预设标签库匹配的多媒体内容标签,得到更新后的多个多媒体内容标签;从更新后的多个多媒体内容标签中选取各个多媒体内容标签分别对应的至少两个主题多媒体内容标签,以得到对应的主题多媒体内容标签集合。

11、在本技术的一实施例中,所述计算模块进一步用于将目标多媒体内容标签和所述目标多媒体内容标签对应的目标主题标签向量输入至相似度检测模型中,所述相似度检测模型是基于样本多媒体内容中的多个样本对进行训练得到的,所述样本对包括样本多媒体内容标签和所述样本多媒体内容标签对应的样本主题标签向量,所述多个样本对中的正样本对是基于所述样本多媒体内容标签对应的主题标签向量确定的;获取所述相似度检测模型输出的所述目标多媒体内容标签和所述目标多媒体内容标签对应的主题标签向量的相似度。

12、在本技术的一实施例中,所述装置还包括训练模块,用于获取所述样本多媒体内容的多个样本多媒体内容标签和各个样本多媒体内容标签分别对应的样本主题标签向量,以得到多个样本对;根据所述多个样本多媒体内容标签生成所述样本多媒体内容的总多媒体内容标签向量;根据所述各个样本多媒体内容标签分别对应的样本主题标签向量和所述总多媒体内容标签向量,确定所述多个样本对中的正样本对和负样本对;根据所述多个样本对中的正样本对和负样本对对预训练模型进行训练,得到所述相似度检测模型。

13、在本技术的一实施例中,所述训练模块进一步用于计算所述总多媒体内容标签向量和所述样本多媒体内容标签对应的样本主题标签向量之间的相似度;若所述相似度大于相似度阈值,则确定包含所述样本多媒体内容标签和所述样本多媒体内容标签对应的样本主题标签向量的样本对为正样本对;若所述相似度小于或等于所述相似度阈值,则确定包含所述样本多媒体内容标签和所述样本多媒体内容标签对应的样本主题标签向量的样本对为负样本对。

14、在本技术的一实施例中,所述训练模块进一步用于将所述正样本对输入至带随机失活的双塔模型中,得到所述双塔模型输出的针对所述正样本对的两个不同的预测分布;将所述负样本对输入至带随机失活的双塔模型中,得到所述双塔模型输出的针对所述负样本对的两个不同的预测分布;根据针对所述正样本对的两个不同的预测分布和针对负样本对的两个不同的预测分布分别构建模型损失函数;根据构建的模型损失函数对所述带随机失活的双塔模型的参数进行调整,得到所述相似度检测模型。

15、在本技术的一实施例中,所述训练模块进一步用于根据针对所述正样本对的两个不同的预测分布和正样本对的期望分布构建针对所述正样本对的第一损失函数;根据针对所述正样本对的两个不同的预测分布的差异度构建针对所述正样本对的第二损失函数;通过所述第一损失函数和第二损失函数生成所述模型损失函数。

16、在本技术的一实施例中,所述训练模块进一步用于将所述正样本对两次输入至所述带随机失活的双塔模型中的依次连接的特征提取层、池化层和交互层,得到针对所述正样本对的两个不同样本表示,所述样本表示是根据正样本对中的样本多媒体内容标签的特征表示,以及所述正样本对中的样本主题标签向量的特征表示构建的;对针对所述正样本对所对应的两个不同样本表示分别进行二分类处理,得到针对所述正样本对的两个不同的预测分布。

17、根据本技术实施例的一个方面,本技术实施例提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个计算机程序,当所述一个或多个计算机程序被所述一个或多个处理器执行时,使得所述电子设备实现如上所述的多媒体内容标签处理方法。

18、根据本技术实施例的一个方面,本技术实施例提供了一种计算机可读存储介质,其上存储有计算机程序,当所述计算机程序被电子设备的处理器执行时,使电子设备执行如上所述的多媒体内容标签处理方法。

19、根据本技术实施例的一个方面,本技术实施例提供了一种计算机程序产品,包括计算机程序,所述计算机程序存储在计算机可读存储介质中,电子设备的处理器从所述计算机可读存储介质读取并执行所述计算机程序,使得所述电子设备执行如上所述的多媒体内容标签处理方法。

20、在本技术的实施例所提供的技术方案中,通过获取目标多媒体内容的各个多媒体内容标签分别对应的主题多媒体内容标签集合,主题多媒体内容标签集合中包括至少两个主题多媒体内容标签,通过主题多媒体内容标签集合来反映与主题相符合的标签;根据至少两个主题多媒体内容标签生成主题多媒体内容标签集合的主题标签向量;计算目标多媒体内容的目标多媒体内容标签与目标多媒体内容标签对应的主题标签向量之间的相似度;根据相似度可反映目标多媒体内容标签与对应的主题标签向量之间的匹配情况,进而准确地识别出目标多媒体内容标签与目标多媒体内容的主题漂移情况。

21、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1