一种标签扩展方法、装置、电子设备和存储介质与流程

文档序号:31466960发布日期:2022-09-09 21:45阅读:79来源:国知局
一种标签扩展方法、装置、电子设备和存储介质与流程

1.本发明涉及数据分析技术领域,特别是涉及一种标签扩展方法、装置、电子设备和存储介质。


背景技术:

2.反映视频、小说和图片等对象内容和/或属性信息的标签数据应用广泛在信息推荐和信息搜索等应用场景中,标签数据的丰富程度与准确性对这些应用场景起着重要作用。
3.现有的针对视频和小说等对象提取的标签数据所能够反映的信息不够丰富,因此,如何拓展对象的标签数据以丰富标签数据所能反映的对象信息成为了一个亟待解决的问题。


技术实现要素:

4.本发明实施例的目的在于提供一种标签扩展方法、装置、电子设备和存储介质,以实现丰富对象的标签数据。
5.在本发明实施的第一方面,首先提供了一种标签扩展方法,包括:
6.获取目标视频的视频标签;
7.将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体;其中,所述预设知识图谱数据库包括多个实体和各个实体之间的关联关系信息;
8.基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签。
9.可选的,所述将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体,包括:
10.从所述预设知识图谱数据库中,筛选出与所述视频标签存在关联关系的多个可选实体;
11.对每个所述可选实体与所述视频标签进行匹配;
12.选取匹配度最高的预设数量个可选实体作为目标实体。
13.可选的,所述获取目标视频的视频标签,包括:
14.获取目标视频的原始标签作为视频标签;和/或,
15.获取针对所述目标视频的描述文本信息,从所述描述文本信息提取关键词作为视频标签。
16.可选的,所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签,包括:
17.将所述预设知识图谱数据库中与所述目标实体之间的关系满足预设关系的实体,确定为所述目标视频的扩展标签;其中,所述预设关系包括:上位关系、同位关系和下位关
系中的至少一种。
18.可选的,在所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签之后,还包括:
19.从所述预设知识图谱数据库中获取所述扩展标签所对应存在的实体的属性信息,作为所述扩展标签的关联属性信息。
20.可选的,在所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签之后,还包括:
21.响应于客户端发送的检索请求指令,基于所述关联属性信息确定所述检索请求指令与所述目标视频是否匹配,当匹配通过时,将所述目标对象发送至所述客户端。
22.可选的,在所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签之后,还包括:
23.在接收到推荐指令时,基于所述关联属性信息确定是否对所述目标视频进行推荐。
24.在本发明实施的第二方面,还提供了一种标签扩展装置,包括:
25.标签获取模块,用于获取目标视频的视频标签;
26.标签匹配模块,用于将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体;其中,所述预设知识图谱数据库包括多个实体和各个实体之间的关联关系信息;
27.标签扩展模块,用于基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签。
28.可选的,所述标签匹配模块,具体用于从所述预设知识图谱数据库中,筛选出与所述视频标签存在关联关系的多个可选实体;对每个所述可选实体与所述视频标签进行匹配;选取匹配度最高的预设数量个可选实体作为目标实体。
29.可选的,所述标签获取模块,具体用于获取目标视频的原始标签作为视频标签;和/或,获取针对所述目标视频的描述文本信息,从所述描述文本信息提取关键词作为视频标签。
30.可选的,所述标签扩展模块,具体用于将所述预设知识图谱数据库中与所述目标实体之间的关系满足预设关系的实体,确定为所述目标视频的扩展标签;其中,所述预设关系包括:上位关系、同位关系和下位关系中的至少一种。
31.可选的,所述装置还包括:
32.属性信息确定模块,用于从所述预设知识图谱数据库中获取所述扩展标签所对应存在的实体的属性信息,作为所述扩展标签的关联属性信息。
33.可选的,所述装置还包括:
34.应用处理模块,用于响应于客户端发送的检索请求指令,基于所述关联属性信息确定所述检索请求指令与所述目标视频是否匹配,当匹配通过时,将所述目标对象发送至所述客户端。
35.可选的,所述装置还包括:
36.推荐模块,用于在接收到推荐指令时,基于所述关联属性信息确定是否对所述目标视频进行推荐。
37.在本发明实施的又一方面,还提供了一种电子设备,其特征在于,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
38.存储器,用于存放计算机程序;
39.处理器,用于执行存储器上所存放的程序时,实现上述任一所述的标签扩展方法。
40.在本发明实施的又一方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述任一所述的标签扩展方法。
41.在本发明实施的又一方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述任一所述的标签扩展方法。
42.采用本发明实施例提供的方法,通过获取目标视频的视频标签;将视频标签与预设知识图谱数据库中的实体进行匹配,得到与视频标签相匹配的目标实体;基于目标实体与其他实体之间的关联关系,确定出与目标实体相关联的实体,作为目标视频的扩展标签。即通过预设知识图谱数据库扩展了视频标签的数量,实现了丰富视频的标签数据。
附图说明
43.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。
44.图1为本发明实施例提供的标签扩展方法的一种流程图;
45.图2为本发明实施例提供的标签与实体匹配流程图;
46.图3为一种视频标签展示意图;
47.图4为本发明实施例提供的标签扩展装置的一种结构示意图;
48.图5为本发明实施例提供的标签扩展装置的另一种结构示意图;
49.图6为本发明实施例提供的电子设备的结构示意图。
具体实施方式
50.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行描述。
51.由于现有的针对视频和小说等对象提取的标签数据所能够反映的信息不够丰富,因此,为了拓展视频和小说等对象的标签数据以丰富标签数据所能反映的对象信息,本发明实施例提供了一种标签扩展方法、装置、电子设备和存储介质。
52.图1为本发明实施例提供的标签扩展方法的一种流程图,如图1所示,该方法包括:
53.步骤101,获取目标视频的视频标签。
54.对视频标注标签有很多方式,例如,视频制作方或视频平台等可以将视频所涉及的有名人物的姓名、视频内容涉及的领域名称和视频发型公司名称作为特定标签,人工为视频标注这些特定标签。视频制作方或视频平台等也可以利用关键信息提取算法,从视频内容中提取出关键信息,作为视频的标签。或者,视频发布者或视频观看者也可以根据该视频涉及的信息为视频添加标签。
55.在一种可能的实施方式中,可以采用如下步骤a1获取目标视频的视频标签:
56.步骤a1,获取目标视频的原始标签作为视频标签;和/或,获取针对目标视频的描
述文本信息,从所述描述文本信息提取关键词作为视频标签。
57.原始标签为未对目标视频进行标签扩展处理之前,目标视频所被标注的标签。即本发明实施例中,可以利用目标视频在未进行标签扩展处理之前的所被标注的标签进行标签扩展。
58.本发明实施例中,还可以提取目标视频的描述文本信息的关键词作为视频标签。描述文本信息包括但不限于视频标题和视频内容文本。具体的,可以对描述文本信息基于语义进行分词处理,得到多个关键词作为视频标签。
59.例如,若视频a的描述文本信息为视频标题“夏日大zz”,可以对“夏日大 zz”基于各个分词的语义进行分词处理,得到“夏日”、“zz”,可以将“夏日”、“zz”作为视频a的视频标签。
60.本发明实施例中,可以将目标视频的原始标签和/或描述文本信息提取的关键词作为目标视频的视频标签。
61.步骤102,将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体。
62.其中,所述预设知识图谱数据库包括多个实体和各个实体之间的关联关系信息。
63.步骤103,基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签。
64.采用本发明实施例提供的方法,通过获取目标视频的视频标签;将视频标签与预设知识图谱数据库中的实体进行匹配,得到与视频标签相匹配的目标实体;基于目标实体与其他实体之间的关联关系,确定出与目标实体相关联的实体,作为目标视频的扩展标签。即通过预设知识图谱数据库扩展了视频标签的数量,实现了丰富视频的标签数据。
65.在一种可能的实施方式中,图2为本发明实施例提供的标签与实体匹配流程图,如图2所示,所述将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体,包括:
66.步骤201,从所述预设知识图谱数据库中,筛选出与所述视频标签存在关联关系的多个可选实体。
67.预设知识图谱数据库包括多个实体和各个实体之间的关联关系信息。其中,实体类型包括但不限于地区、朝代、人物和影视作品题材等。
68.任意实体之间的关联关系信息包括但不限于:同位关系、上位关系和属于关系。例如,若实体a1为唐朝,实体b1为秦朝,唐朝和秦朝均属于实体类型“朝代”的实体,则a1与实体b1之间的关系为同位关系。若实体a2为人物a,实体 b2为人物b,则实体a2与实体b2之间的关系为同位关系。若实体a3为“中国”,实体b2为“北京”,则实体a2与实体b2之间的关系为:实体b2属于实体a2。
69.由于预设知识图谱数据库包含的实体类型较多,不同类型实体之间的关系更是多种多样。因此,为了更快更好地实现标签扩展,可以先从预设知识图谱数据库筛选出适合作为视频标签的实体类型,比如筛选出地区和朝代等实体类型。也可以从筛选出适合作为标签的实体,例如筛选出人物实体类型中有较高知名度或娱乐领域里的人物。还可以筛选出适合用于扩展视频标签的实体关系,例如筛选出同位关系、上位关系和属于关系等。
70.具体的可以通过人工选取的方法选取预设知识图谱数据库适合作为视频标签的
实体作为可选实体。或者,也可以利用目标视频的原始标签在预设知识图谱数据库对应的实体,确定出与该实体之间具有同位关系、上位关系和属于关系等关系的实体,作为可选实体。
71.步骤202,对每个所述可选实体与所述视频标签进行匹配。
72.本步骤中,可以计算可选实体与视频标签之间的文本关联度,作为可选实体与视频标签之间的匹配度。
73.步骤203,选取匹配度最高的预设数量个可选实体作为目标实体。
74.其中,预设数量可以设定为3个或5个等。
75.本发明实施例中,还可以采用结构化匹配方式与非结构化匹配方式,从可选实体中确定出目标实体。
76.具体的,结构化匹配方式包括:可以根据可选实体中的实体类型,对可选实体于目标视频的特定字段进行匹配。例如,对于语言类型的可选实体,需要考虑目标视频中的语言字段,对于媒体类型的可选实体,需要考虑目标视频中的媒体字段,目标视频上已有的标签字段可以匹配多种实体类型的可选实体。
77.非结构化匹配方式包括:可以对目标视频的标题和描述文本信息等进行分词与语义分析处理后得到多个类型的字段,然后可以根据可选实体中的实体类型,对可选实体于目标视频的特定字段进行匹配。
78.举例说明,图3为一种视频标签展示意图,如图3所示,目标视频为电视剧《芈y传》,电视剧《芈y传》已有标签“战国时期”,可以基于预设知识图谱数据库,确定出与多个目标实体:“孙l”、“刘t”、“古装”、“宫斗”、“ls视频”、“传记”、“暑期神剧”、“中国”和“tx视频”。其中,ls视频”与“tx视频”属于同一实体类型——视频发型公司;“孙l”和“刘t”都属于人物实体类型;“古装”、“宫斗”和“传记”属于同一实体类型——视频题材;“中国”属于视频发行地实体类型。
79.在一种可能的实施方式中,所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签,包括:将所述预设知识图谱数据库中与所述目标实体之间的关系满足预设关系的实体,确定为所述目标视频的扩展标签;其中,所述预设关系包括:上位关系、同位关系和下位关系中的至少一种。
80.具体的,可以针对每个目标实体,从预设知识图谱数据库中确定出与该目标实体之间的关联度大于预设关联阈值,且关联关系满足预设关系的实体,作为目标视频的扩展标签。其中,预设关联阈值可以基于实际应用场景灵活设定。
81.举例说明,仍以图3为例,电视剧《芈y传》上已有标签实体“战国时期”,该实体的实体类型为“朝代”、“时期”(一个实体可以属于多个实体类型)。可以确定出目标实体为“朝代”和“时期”。假设预设关系为属于关系,则可以利用目标实体“朝代”和“时期”,从预设知识图谱数据库筛选与“朝代”和“时期”存在属于关系的实体,例如,可以确定出“春秋战国”、“东周”和“先秦”等实体属于“朝代”,“古代”属于“时期”。然后可以将“春秋战国”、“东周”、“先秦”和“古代”作为扩展标签。
82.在得到扩展标签后,可以将扩展标签与目标视频进行关联,使扩展标签作为目标视频的标签。
83.采用本发明实施例提供的方法,可以通过对视频标签进行扩展,有效地丰富视频
上的标签。
84.在一种可能的实施方式中,在所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签之后,还可以包括步骤b1:
85.步骤b1,从所述预设知识图谱数据库中获取所述扩展标签所对应存在的实体的属性信息,作为所述扩展标签的关联属性信息。
86.本发明实施例中,在对目标视频的标签数量进行扩展的基础上,还可以预设知识图谱数据库中存储的实体的属性信息,扩展目标视频标签的属性信息。
87.例如,目标视频上的原始标签仅保存了该标签的文本信息。则针对目标视频的扩展标签,可以将该扩展标签在预设知识图谱数据库中对应的实体的类型、实体id、以及实体的一些属性值等信息的作为该扩展标签的关联属性信息。
88.扩展标签的关联属性信息可以作为视频特征的一部分,用于视频搜索场景、视频推荐场景。
89.在一种可能的实施方式中,在所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签之后,还包括步骤c1:
90.步骤c1,响应于客户端发送的检索请求指令,基于所述关联属性信息确定所述检索请求指令与所述目标视频是否匹配,当匹配通过时,将所述目标对象发送至所述客户端。
91.举例说明,目标视频的扩展标签的关联属性信息包括演员a的演艺作品信息,而目标视频的原始标签中并不包括演员a的演艺作品信息。客户端x可以向服务器发送检索请求指令,服务器接收该检索请求指令。当该检索请求指令中包括演员a的所参演的作品名称时,服务器可以将关联属性信息与检索请求指令进行匹配,得到检索请求指令与关联属性信息中的演员a的演艺作品信息相匹配,则可以将目标视频发送至客户端x。
92.在另一种可能的实施方式中,在所述基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签之后,还包括步骤c2:
93.步骤c2,在接收到推荐指令时,基于所述关联属性信息确定是否对所述目标视频进行推荐。
94.例如,目标视频的扩展标签的关联属性信息包括发行公司x的发行作品信息,而目标视频的原始标签中并不包括发行公司x的发行作品信息。当推荐请求信息中包括公司x发行的作品a时,可以将关联属性信息与推荐请求进行匹配,得到推荐请求与关联属性信息中的发行公司x的发行作品信息相匹配,则可以将目标视频展示给检索用户。
95.本发明实施例提供的方法,在视频的标签不够丰富的时候,可以利用预设知识图谱数据库扩展视频标签,实现了丰富视频的标签数据。并且,对视频进行标签扩展也可以使视频在检索、推荐等场景中可以被用于检索、推荐的特征更为丰富。
96.相应于上述标签扩展方法,本发明实施例还提供了一种标签扩展装置。下面对本发明实施例所提供的标签扩展装置进行介绍。如图4所示,一种标签扩展装置,所述装置包括:
97.标签获取模块401,用于获取目标视频的视频标签;
98.标签匹配模块402,用于将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体;其中,所述预设知识图谱数据库包括多个实体和各个实体之间的关联关系信息;
99.标签扩展模块403,用于基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签。
100.采用本发明实施例提供的装置,通过获取目标视频的视频标签;将视频标签与预设知识图谱数据库中的实体进行匹配,得到与视频标签相匹配的目标实体;基于目标实体与其他实体之间的关联关系,确定出与目标实体相关联的实体,作为目标视频的扩展标签。即通过预设知识图谱数据库扩展了视频标签的数量,实现了丰富视频的标签数据。
101.可选的,所述标签匹配模块402,具体用于从所述预设知识图谱数据库中,筛选出与所述视频标签存在关联关系的多个可选实体;对每个所述可选实体与所述视频标签进行匹配;选取匹配度最高的预设数量个可选实体作为目标实体。
102.可选的,所述标签获取模块401,具体用于获取目标视频的原始标签作为视频标签;和/或,获取针对所述目标视频的描述文本信息,从所述描述文本信息提取关键词作为视频标签。
103.可选的,所述标签扩展模块403,具体用于将所述预设知识图谱数据库中与所述目标实体之间的关系满足预设关系的实体,确定为所述目标视频的扩展标签;其中,所述预设关系包括:上位关系、同位关系和下位关系中的至少一种。
104.可选的,参见图5,所述装置还包括:
105.属性信息确定模块501,用于从所述预设知识图谱数据库中获取所述扩展标签所对应存在的实体的属性信息,作为所述扩展标签的关联属性信息。
106.可选的,参见图5,所述装置还包括:
107.应用处理模块502,用于响应于客户端发送的检索请求指令,基于所述关联属性信息确定所述检索请求指令与所述目标视频是否匹配,当匹配通过时,将所述目标对象发送至所述客户端。
108.可选的,参见图5,所述装置还包括:
109.推荐模块503,用于在接收到推荐指令时,基于所述关联属性信息确定是否对所述目标视频进行推荐。
110.采用本发明实施例提供的装置,在视频的标签不够丰富的时候,可以利用预设知识图谱数据库扩展视频标签,实现了丰富视频的标签数据。并且,对视频进行标签扩展也可以使视频在检索、推荐等场景中可以被用于检索、推荐的特征更为丰富。
111.本发明实施例还提供了一种电子设备,如图6所示,包括处理器601、通信接口602、存储器603和通信总线604,其中,处理器601,通信接口602,存储器603通过通信总线604完成相互间的通信,
112.存储器603,用于存放计算机程序;
113.处理器601,用于执行存储器603上所存放的程序时,实现如下步骤:
114.获取目标视频的视频标签;
115.将所述视频标签与预设知识图谱数据库中的实体进行匹配,得到与所述视频标签相匹配的目标实体;其中,所述预设知识图谱数据库包括多个实体和各个实体之间的关联
关系信息;
116.基于所述目标实体与其他实体之间的关联关系,确定出与所述目标实体相关联的实体,作为所述目标视频的扩展标签。
117.上述电子设备提到的通信总线可以是外设部件互连标准(peripheralcomponent interconnect,简称pci)总线或扩展工业标准结构(extended industrystandard architecture,简称eisa)总线等。该通信总线可以分为地址总线、数据总线、控制总线等。为便于表示,图中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
118.通信接口用于上述电子设备与其他设备之间的通信。
119.存储器可以包括随机存取存储器(random access memory,简称ram),也可以包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。可选的,存储器还可以是至少一个位于远离前述处理器的存储装置。
120.上述的处理器可以是通用处理器,包括中央处理器(central processingunit,简称cpu)、网络处理器(network processor,简称np)等;还可以是数字信号处理器(digital signal processor,简称dsp)、专用集成电路(applicationspecific integrated circuit,简称asic)、现场可编程门阵列(field-programmablegate array,简称fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。
121.在本发明提供的又一实施例中,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述实施例中任一所述的标签扩展方法。
122.在本发明提供的又一实施例中,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述实施例中任一所述的标签扩展方法。
123.在上述实施例中,可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时,可以全部或部分地以计算机程序产品的形式实现。所述计算机程序产品包括一个或多个计算机指令。在计算机上加载和执行所述计算机程序指令时,全部或部分地产生按照本发明实施例所述的流程或功能。所述计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一个计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算机、服务器或数据中心通过有线(例如同轴电缆、光纤、数字用户线(dsl))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机、服务器或数据中心进行传输。所述计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,dvd)、或者半导体介质(例如固态硬盘solidstate disk(ssd))等。
124.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在
包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
125.本说明书中的各个实施例均采用相关的方式描述,各个实施例之间相同相似的部分互相参见即可,每个实施例重点说明的都是与其他实施例的不同之处。尤其,对于对于装置、电子设备、计算机可读存储介质以及计算机程序产品实施例而言,由于其基本相似于方法实施例,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
126.以上所述仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内所作的任何修改、等同替换、改进等,均包含在本发明的保护范围内。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1