视频编目方法、装置、设备、系统及介质与流程

文档序号：28705776发布日期：2022-01-29 13:35阅读：438来源：国知局

1.本公开涉及智能媒体技术领域，尤其涉及一种视频编目方法、装置、设备、系统及介质。

背景技术：

2.随着融媒体技术的快速发展，视频内容的价值日益凸显。为了更好的将视频内容转化为未来长期可用的数字资产，使得用户可以方便快速的检索到所需要的视频内容，因此，需要对视频内容进行编目工作。
3.但是，传统的视频编目方法需要依赖专业人员对视频内容进行编目，如果面对全媒体时代的海量视频，不仅极大的增加了人力成本，而且时效性也难以保证。

技术实现要素：

4.为了解决上述技术问题或者至少部分地解决上述技术问题，本公开提供了一种视频编目方法、装置、设备、系统及介质。
5.第一方面，本公开提供了一种视频编目方法，该方法包括：
6.获取目标视频的视频特征；
7.基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段；
8.针对每个视频片段，基于视频片段对应的视频文本，确定视频片段对应的视频标签，视频文本包括第一音频文本片段和第一字幕文本片段，视频标签至少包括语义标签；
9.利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。
10.第二方面，本公开提供了一种视频编目装置，该装置包括：
11.视频特征获取模块，用于获取目标视频的视频特征；
12.目标视频切分模块，用于基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段；
13.视频标签提取模块，用于针对每个视频片段，基于视频片段对应的视频文本，确定视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，视频标签至少包括语义标签；
14.视频编目模块，用于利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。
15.第三方面，本公开提供了一种视频编目设备，包括：
16.处理器；
17.存储器，用于存储可执行指令；
18.其中，处理器用于从存储器中读取可执行指令，并执行可执行指令以实现第一方面所述的视频编目方法。
19.第四方面，本公开提供了一种视频编目系统，该系统包括：视频编目设备和显示设
备；
20.所述视频编目设备，用于获取目标视频的视频特征；
21.基于所述目标视频的视频特征，对所述目标视频进行切分，得到多个视频片段；
22.针对每个所述视频片段，基于所述视频片段对应的视频文本，确定所述视频片段对应的视频标签，所述视频文本包括第一音频文本和第一字幕文本，所述视频标签至少包括语义标签；
23.利用所述多个视频片段和每个所述视频片段对应的视频标签对所述目标视频进行编目，得到所述目标视频对应的编目结果；
24.所述显示设备，用于接收目标视频显示操作，所述目标视频显示操作携带目标编目标签；
25.响应于所述视频片段目标视频显示操作，从多个视频中筛选出与所述目标编目标签对应的目标视频。
26.第五方面，本公开提供了一种计算机可读存储介质，该存储介质存储有计算机程序，当计算机程序被处理器执行时，使得处理器实现第一方面所述的视频编目方法。
27.本公开实施例提供的技术方案与现有技术相比具有如下优点：
28.本公开实施例的一种视频编目方法、装置、设备、系统及介质，能够在获取到目标视频的视频特征之后，基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段，然后针对每个视频片段，基于视频片段对应的视频文本，提取视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，使得可以获取到多模态的视频信息，视频标签至少包括语义标签，进一步利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。由此，可以提供一种自动化的视频编目方法，提高了视频编目的效率，如果面对全媒体时代的海量视频，无需依赖专业人员对多媒体内容编目，因此，降低了大量的人力成本，也可以保证视频编目的时效性，并且，基于多模态的视频信息对应的视频标签，可以准确的对目标视频进行编目，因此提高了视频编目的准确性。
附图说明
29.结合附图并参考以下具体实施方式，本公开各实施例的上述和其他特征、优点及方面将变得更加明显。贯穿附图中，相同或相似的附图标记表示相同或相似的元素。应当理解附图是示意性的，原件和元素不一定按照比例绘制。
30.图1为本公开实施例提供的一种视频编目方法的流程示意图；
31.图2为本公开实施例提供的一种目标视频的切分方法的逻辑示意图；
32.图3为本公开实施例提供的一种视频编目方法的整体流程示意图；
33.图4为本公开实施例提供的另一种视频编目方法的整体逻辑示意图；
34.图5为本公开实施例提供的一种视频编目装置的结构示意图；
35.图6为本公开实施例提供的一种视频编目设备的结构示意图；
36.图7为本公开实施例提供的一种视频编目系统的结构示意图。
具体实施方式
37.下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。
38.应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。
39.随着融媒体技术的快速发展，视频内容的价值日益凸显。为了更好的将视频内容转化为未来长期可用的数字资产，使得用户可以方便快速的检索到所需要的视频内容，因此，需要对视频内容进行编目工作。
40.视频编目可以理解为对目标视频进行编制目录，它是建立在信息标引的基础上的。信息标引是指对信息资源的形式及内容特征进行分析、选择和记录，并赋予某种检索标识的过程，而将这些描述信息按照一定的规则有序化的组织起来的这个过程就是视频编目。由于视频编目是检索的基础，媒体资料编目系统是否完善直接关系到编导在查询节目时的准确性和方便性。
41.传统的编目方法是通过人工的方式，对目标视频进行切分，并对切分得到的视频片段进行标签描述和归类。由于人工编目方式对编目人员的要求较高，需要对编目人员进行编目工作的培训，编目结果的好坏取决于编目人员的经验知识，并且人工编目的准确性和效率也是难以保证的，因此，传统的编目方法需要依赖专业人员对视频内容进行编目，如果面对全媒体时代的海量视频，不仅极大的增加了人力成本，而且时效性也难以保证。因此，提供一种自动化的视频编目方法是亟待解决的问题。
42.目前的自动化的视频编目方法一般利用单一模态信息对目标视频进行编目。例如，利用计算机视觉中的视频镜头切分技术对目标视频进行镜头边缘检测，根据镜头边缘检测结果将目标视频切分成多个视频片段，但是这种方式对目标视频的切分力度过大，会提高后期对多个视频片段进行拼接的难度。由此可见，利用单一模态信息对目标视频进行编目的方式很难覆盖到编目工作所需要完成的完整流程，在一定程度上只能起到辅助人工编目的作用，无法实现自动化编目全流程。
43.为了解决上述问题，本公开实施例提供了一种自动化的视频编目方法、装置、设备、系统及存储介质。
44.下面，首先结合图1至图4对本公开实施例提供的视频编目方法进行说明。
45.图1示出了本公开实施例提供的一种视频编目方法的流程示意图。
46.在本公开一些实施例中，图1所示的视频编目方法可以由视频编目设备执行。视频编目设备可以是电子设备或服务器。该电子设备可以包括但不限于诸如智能手机、笔记本电脑、个人数字助理(pda)、平板电脑(pad)、便携式多媒体播放器(pmp)、车载终端(例如车载导航终端)、可穿戴设备等的移动终端，以及诸如数字tv、台式计算机、智能家居设备等的固定终端。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
47.如图1所示，该视频编目方法可以包括如下步骤。
48.s110、获取目标视频的视频特征。
49.在本公开实施例中，视频编目设备获取到目标视频之后，可以对目标视频进行特征识别，得到目标视频的视频特征。
50.在本公开实施例中，目标视频可以是任意的需要进行编目的视频。
51.可选的，目标视频可以是新闻视频、综艺视频、以及影音视频等，在此不做限制。
52.可选的，视频特征可以包括视频字幕文本和视频音频文本。
53.具体的，视频编目设备获取到目标视频之后，可以通过镜头边缘检测技术，从目标视频中提取视觉模态信息，将视觉模态信息作为镜头数据，且将镜头数据作为视频切分的最小单元，同时，对目标视频进行视频帧抽取，得到目标视频的视频数据，并对由镜头数据和镜头数据对应的视频数据构成的图像帧组中的非字幕出现的区域进行遮挡，以去除各组图像帧中与视频场景无关区域的信息，并进一步基于文字识别技术识别各组图像帧的中的视频字幕文本。
54.其中，镜头数据可以包括目标视频的所有镜头场景的视频特征。
55.其中，视频数据可以是从目标视频中提取的每个视频帧对应的图像数据。
56.其中，视频字幕文本可以包括目标视频的各组图像帧的字幕。
57.可选的，通过镜头边缘检测技术，从目标视频中提取视觉模态信息，可以通过如下方式实现：
58.sv＝detects(vid)
59.其中，sv为镜头数据，vid为目标视频，detects(*)。
60.可选的，去除各组图像帧中与视频场景无关区域的信息，可以通过如下方式实现：
61.img
ocr
＝mask(img)
62.其中，img为一组图像帧，img
ocr
为处理后的一组图像帧，一组图像帧中包括字幕数据，mask(*)为对各组图像帧中的非字幕出现的区域进行遮挡的过程。
63.可选的，文字识别技术可以是光学字符识别技术(optical character recognition，ocr)，在此不做限制。
64.可选的，通过ocr技术，识别各组图像帧的中的视频字幕文本，可以通过如下方式实现：
65.text
ocr
＝m
ocr
(img
ocr
)
66.其中，text
ocr
为视频字幕文本，m
ocr
(*)为基于ocr技术进行字幕识别的过程。
67.具体的，视频编目设备获取到目标视频之后，可以通过音视频转换技术，将目标视频转换为音频数据，并将音频数据输入至语音识别模型，得到每个视频文本中的视频音频文本。
68.其中，音频数据可以包括目标视频的所有音频帧的音频信息。
69.可选的，通过音视频转换技术，将目标视频转换为音频数据，可以通过如下方式实现：
70.aud＝trans(vid)
71.其中，aud为音频数据，trans(*)为音视频转换过程。
72.可选的，基于语音识别模型将音频数据转化为视频音频文本，可以通过如下方式实现：
73.text
asr
＝m
asr
(aud)
74.其中，text
asr
为视频文本中的视频音频文本，aud为音频数据，m
asr
(*)为语音识别模型转换过程。
75.由此，在本公开实施例中，可以获取到目标视频的视频字幕文本和视频音频文本，使得获取到多模态的视频特征。
76.s120、基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段。
77.在本公开实施例中，视频编目设备获取到视频特征之后，可以根据视频特征中的视频字幕文本和视频音频文本，对目标视频进行切分，得到多个视频片段。
78.在本公开实施例中，视频片段可以是基于视频音频文本、视频字幕文本对目标视频进行切分得到的一个视频帧或者连续多个视频帧。
79.具体的，针对视频音频文本，视频编目设备可以对视频音频文本所包含的音频内容进行识别，以识别出目标音频内容，根据目标音频内容切分目标视频的对应的视频音频文本，得到多个第一音频文本，针对视频字幕文本，视频编目设备可以按照时间顺序，对视频字幕文本中相同的字幕子数据进行聚类，使得相同字幕的字幕子数据合并到一起，并使得不同字幕的字幕子数据分离，以得到目标视频对应的多个第一字幕文本，进一步的，基于多个第一字幕文本对应的切分帧位置和第一音频文本对应的切分帧位置，切分目标视频，得到多个视频片段。
80.由此，在本公开实施例中，可以基于视频音频文本和视频字幕文本对目标视频进行切分，可以实现基于多模态的视频特征切分目标视频，以进一步提高目标视频的切分准确性。
81.s130、针对每个视频片段，基于视频片段对应的视频文本，提取视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，视频标签至少包括语义标签。
82.在本公开实施例中，视频编目设备得到多个视频片段之后，针对每个视频片段，可以将每个视频片段转化为视频文本，视频文本可以包括第一音频文本和第一字幕文本，并从第一音频文本和第一字幕文本中提取关键词，作为每个视频片段的语义标签，得到视频标签。
83.在本公开实施例中，视频文本可以是将视频片段进行视频内容识别后得到的文本。具体的，视频文本可以包括每个视频帧图像中的文本数据。
84.在本公开实施例中，第一音频文本可以是对视频片段中的音频数据进行语音识别后得到的文本。具体的，第一音频文本可以包括每个音频帧中的音频数据。
85.在本公开实施例中，第一字幕文本可以是对视频片段中的视频内容进行文字识别后得到的文本。具体的，第一字幕文本可以包括每个视频帧图像中的字幕数据。
86.在本公开实施例中，关键词可以用于表征视频片段的语义信息。
87.具体的，视频编目设备可以对第一音频文本和第一字幕文本进行关键词分析，以从第一音频文本和第一字幕文本中提取关键词，作为每个视频片段的语义标签，得到视频标签。
88.由此，在本公开实施例中，可以基于视频文本中的第一音频文本和第一字幕文本，提取每个视频片段的语义标签，使得基于多模态的视频信息，准确的提取视频标签。
89.s140、利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。
90.在本公开实施例中，视频编目设备确定每个视频片段对应的视频标签之后，可以将同一视频标签的视频片段进行合并，得到目标视频的编目结果。
91.在本公开实施例中，编目结果可以包括目标视频的所有视频片段和各视频片段对应的视频标签。
92.在本公开实施例中，可选的，s140可以包括：
93.将具有相同语义标签的视频片段进行合并，得到多个合并后的视频片段；
94.根据合并后的视频片段，确定目标视频的编目结果，编目结果至少包括：合并后的视频片段对应的视频标签、合并后的视频片段对应的起止帧。
95.具体的，视频编目设备可以基于视频标签中的语义标签，将具有相同语义标签的视频片段进行合并，并使得语义标签不一致的视频片段分离，得到多个合并后的视频片段，然后根据合并后的视频片段和各视频片段对应的语义标签，确定目标视频的编目结果，使得编目结果包括合并后的视频片段对应的视频标签和合并后的视频片段对应的起止帧，完成自动化的视频编目过程，可以实现基于视频标签对视频片段进行二次合并，避免目标视频被过渡切分。
96.其中，合并后的视频片段对应的起止帧可以是合并后的视频片段的起止时间戳。
97.在本公开实施例中，能够在获取到目标视频的视频特征之后，基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段，然后针对每个视频片段，基于视频片段对应的视频文本，提取视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，使得可以获取到多模态的视频信息，视频标签至少包括语义标签，进一步利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。由此，可以提供一种自动化的视频编目方法，提高了视频编目的效率，如果面对全媒体时代的海量视频，无需依赖专业人员对多媒体内容编目，因此，降低了大量的人力成本，也可以保证视频编目的时效性，并且，基于多模态的视频信息对应的视频标签，可以准确的对目标视频进行编目，因此提高了视频编目的准确性。
98.在本公开另一些实施方式中，可以分别从视频文本中提取高频关键词和摘要关键词，并基于高频关键词和摘要关键词确定视频标签中的语义标签。
99.在本公开实施例中，可选的，s130可以包括：
100.s1301、从视频文本中，提取视频片段对应的高频关键词和摘要关键词；
101.s1302、对高频关键词和摘要关键词进行融合，得到视频片段对应的视频关键词；
102.s1303、将满足预设的关键词提取条件的视频关键词作为视频片段对应的语义标签。
103.在本公开实施例中，视频编目设备获取到视频片段之后，可以从视频片段对应的视频文本中，提取视频片段对应的高频关键词和摘要关键词，并对高频关键词和摘要关键词进行融合，得到视频片段对应的视频关键词，然后将满足预设的关键词提取条件的视频关键词作为视频片段对应的语义标签。
104.其中，高频关键词可以是在第一音频文本和第一字幕文本出现的频率较高的关键词。
105.其中，摘要关键词可以是第一音频文本和第一字幕文本中的摘要。
106.其中，s1301提取高频关键词的具体步骤可以包括：
107.将第一音频文本和第一字幕文本分别输入预先训练好的关键词提取模型，得到第一音频文本和第一字幕文本中每个关键词的出现概率值；
108.将出现概率值大于第一概率阈值的关键词，作为第一音频文本和第一字幕文本的高频关键词。
109.具体的，视频编目设备可以将第一音频文本和第一字幕文本分别输入预先训练好的关键词提取模型，得到第一音频文本和第一字幕文本中每个关键词对应的出现概率值，若出现概率值大于第一概率阈值，则将该关键词作为第一音频文本和第一字幕文本的高频关键词，其中，高频关键词对应的概率值为高频出现概率值，否则，剔除该关键词。
110.其中，第一概率阈值可以是根据需要预先设定的用于判断是否将出现概率值对应的关键词作为高频关键词。
111.可选的，关键词提取模型可以是词频-逆文本频率指数(term frequency-inverse document frequency，tf-idf)模型。
112.可选的，基于关键词提取模型提取高频关键词，可以通过如下方式实现：
113.k
tf-ide
＝m
tf-idf
(t
asr
+t
ocr
)
114.其中，t
asr
为第一音频文本，t
ocr
为第一字幕文本，k
tf-ide
为摘要关键词，m
tf-idf
(*)为关键词提取模型的处理过程。
115.其中，基于s1301提取摘要关键词的具体步骤可以包括：
116.将第一音频文本和第一字幕文本分别输入预先训练好的摘要关键词提取模型，得到第一音频文本和第一字幕文本中每个关键词对应的摘要构成概率值；
117.将摘要构成概率值大于第二概率阈值的关键词，作为第一音频文本和第一字幕文本的摘要关键词。
118.具体的，视频编目设备可以将第一音频文本和第一字幕文本分别输入预先训练好的摘要关键词提取模型，得到第一音频文本和第一字幕文本中每个关键词对应的摘要构成概率值，若摘要构成概率值大于第二概率阈值，则将该关键词作为第一音频文本和第一字幕文本的摘要关键词提取模型，否则，剔除该关键词。
119.其中，第二概率阈值可以是根据需要预先设定的用于判断是否将摘要构成概率值对应的关键词作为摘要关键词。
120.可选的，摘要关键词提取模型可以是文本排序(textrank)模型。
121.可选的，基于摘要关键词提取模型提取摘要关键词，可以通过如下方式实现：
122.k
tr
＝m
textrank
(t
asr
+t
ocr
)
123.其中，k
tr
为摘要关键词，m
textrank
(*)为摘要关键词提取模型的处理过程。
124.其中，s1302可以的具体步骤可以包括：
125.s1、确定每个高频关键词在视频文本数据中对应的高频出现概率值和每个摘要关键词在视频文本数据中对应的摘要构成概率值；
126.s2、对高频出现概率值与摘要构成概率值进行加权平均计算，得到概率加权值；
127.s3、将每个概率加权值对应的高频出现概率值和摘要关键词，作为视频片段对应的视频关键词。
128.具体的，视频编目设备获取到高频关键词和摘要关键词之后，分别确定每个高频关键词对应的高频出现概率值和每个摘要关键词对应的摘要构成概率，然后对高频出现概
率值与第一权重相乘，得到第一乘积，并将摘要构成概率值与第二权重相乘，得到第二乘积，将第一乘积与第二乘积相加，得到概率加权值，然后将每个概率加权值对应的高频出现概率值和摘要关键词，作为视频片段对应的视频关键词。
129.可选的，对高频出现概率值与摘要构成概率值进行加权平均计算，可以通过如下方式实现：
130.k
word
＝αk
tf-ide
+βk
tr
131.其中，α为第一权重，β为第二权重，k
word
为概率加权值。
132.在本公开实施例中，预设的关键词提取条件可以用于判断是否将高频关键词和摘要关键词作为语义标签。
133.在一些实施例中，预设的关键词提取条件可以包括概率加权值和概率加权值阈值。
134.其中，s1303可以具体包括：如果概率加权值大于概率加权值阈值，则确定视频关键词满足预设的关键词提取条件，则将满足预设的关键词提取条件的视频关键词作为视频片段对应的语义标签，即将组成该概率加权值的高频出现概率值和摘要构成概率值分别对应的高频关键词和摘要关键词作为语义标签。
135.具体的，视频编目设备计算得到概率加权值之后，将概率加权值与概率加权值阈值比较，如果概率加权值大于概率加权值阈值，则将满足预设的关键词提取条件的视频关键词作为视频片段对应的语义标签，即将组成该概率加权值的高频出现概率值和摘要构成概率值分别对应的高频关键词和摘要关键词作为语义标签，否则，将组成该概率加权值的高频出现概率值和摘要构成概率值分别对应的高频关键词剔除。
136.在另一些实施例中，预设的关键词提取条件可以包括概率加权值和数值最大的预设数量的概率加权值。
137.其中，s3可以具体包括：按照从大到小的顺序，对组成该概率加权值的高频出现概率值和摘要构成概率值对应的多个概率加权值进行排序，确定数值最大的预设数量的概率加权值对应的高频出现目标概率值和摘要构成目标概率值，则确定高频出现目标概率值对应的高频关键词以及摘要构成目标概率值对应的摘要关键词满足预设的关键词提取条件，将高频出现目标概率值和摘要构成目标概率值分别对应的高频关键词和摘要关键词，作为语义标签。
138.其中，数值最大的预设数量可以是根据需要预先设定的数量。可选的，前预设数量可以是5、6、7等数量，在此不做限制。
139.具体的，以预设数是5为例，视频编目设备计算得到概率加权值之后，按照从大到小的顺序，对组成该概率加权值的高频出现目标概率值和摘要构成目标概率值对应的多个概率加权值进行排序，确定前5个的概率加权值对应的高频出现目标概率值和摘要构成目标概率值，则确定高频出现目标概率值对应的高频关键词以及摘要构成目标概率值对应的摘要关键词满足预设的关键词提取条件，将高频出现目标概率值和摘要构成目标概率值分别对应的高频关键词和摘要关键词，作为语义标签。
140.由此，在本公开实施例中，可以从视频文本中提取高频关键词和摘要关键词，并对高频关键词和摘要关键词进行融合，得到视频片段对应的视频关键词，然后将满足预设的关键词提取条件的视频关键词作为视频片段对应的语义标签，因此，可以根据多模态的音
频信息和字幕信息，确定语义标签，提高了语义标签确定的准确性。
141.在本公开又一些实施方式中，视频标签还包括分类标签，分类标签包括地域分类标签和领域分类标签中的至少一种。
142.在本公开实施例中，视频编目设备还可以基于每个视频片段对应的视频文本，提取每个视频片段的地域分类标签和领域分类标签中的至少一种，以基于地域分类标签和/或领域分类标签以及语义标签对目标视频进行编目，使得目标视频的编目结果携带更多的编目信息。
143.在本公开一些实施例中，视频标签还包括：分类标签，分类标签可以包括地域分类标签。
144.在本公开实施例中，地域分类标签可以用于表征目标视频中的地域信息。
145.可选的，地域信息可以包括国际信息、国内信息、省级信息以及市级信息、街道信息、组织结构以及名胜古迹等，在此不做限制。
146.在本公开实施例中，可选的，s130可以包括：
147.s1301、对视频文本进行语句切分，得到多个文本分句；
148.s1302、基于预先构建的地域实体知识库，对各个文本分句中的地域信息进行识别，得到各个文本分句对应的地域分类概率；
149.s1303、将各个文本分句对应的地域分类概率进行融合，得到视频片段的地域分类概率；
150.s1304、根据视频片段的地域分类概率，确定视频片段对应的地域分类标签。
151.具体的，视频编目设备可以分别对视频文本的语句末端的标点符号进行识别，基于标点符号的位置切分视频文本，得到多个文本分句，然后基于预先构建的地域实体知识库，对各个文本分句中的地域信息进行识别，得到各个文本分句对应的地域分类概率，然后将各个文本分句对应的地域分类概率进行融合，得到视频片段的地域分类概率，最后根据视频片段的地域分类概率，确定视频片段对应的地域分类标签。
152.其中，预先构建的地域实体知识库可以是预先生成的包含全国各地的地域信息的实体知识库。
153.可选的，对视频文本进行语句切分，得到多个文本分句，可以通过如下方式实现：
154.sent＝textsent(t
asr
)+textsent(t
ocr
)
155.＝{s1,s2,l,sj,l,sr}
156.其中，r为文本分句的数量，sj为第j个文本分句，sent为文本分句，textsent(*)为语句切分过程。
157.可选的，各个文本分句对应的地域分类概率，可以包括：
158.p＝(pi,pd,pc)＝rec(sj),j＝1,2,l,r
159.其中，p为文本分句sj的概率值，具体可以表示为(pi,pd,pc)，其中pi为所属国际的分类概率值，pd为所属国内的分类概率值，pc为所属本市的分类概率值。
160.其中，地域分类标签的维度可以根据需要预先设置。例如，如果地域分类标签包括国家、省、市，则地域分类标签的维度为3，则预设数量为3。
161.其中，s1303的具体步骤可以包括：按照预先设置的地域分类标签的维度，将各个文本分句对应的地域分类概率进行融合，得到视频片段的地域分类概率。
162.其中，s1304的具体步骤可以包括：针对各个融合后的地域分类结果，将地域分类概率最大的融合后的地域分类结果，作为视频片段对应的地域分类标签。
163.可选的，得到地域分类概率最大的融合后的地域分类结果，可以通过如下方式实现：
[0164][0165]
其中，sf为地域分类标签，为得到地域分类概率最大的融合后的地域分类结果的过程。
[0166]
由此，在本公开实施例中，可以对视频文本进行语句切分，得到多个文本分句，并根据文本分句确定每个视频片段的地域分类标签，以得到更多的标签信息。
[0167]
进一步的，得到地域分类标签之后，还可以基于地域分类标签和语义标签对目标视频进行编目，使得目标视频的编目结果携带更多的编目信息。
[0168]
在本公开实施例中，可选的，s140可以包括：
[0169]
将具有相同语义标签和地域分类标签的视频片段进行合并，得到多个合并后的视频片段；
[0170]
根据合并后的视频片段，确定目标视频的编目结果，编目结果至少包括：合并后的视频片段对应的视频标签、合并后的视频片段对应的起止帧。
[0171]
其中，该s140的原理与前述实施例相似，在此不做赘述。
[0172]
由此，在本公开实施例中，在得到地域分类标签之后，可以利用多个视频片段、语义标签以及地域分类标签，对目标视频进行编目，得到目标视频对应的编目结果，使得得到的编目结果携带更多的标签信息，有利于提高视频编目的准确性。
[0173]
在本公开一些实施例中，视频标签还包括：分类标签，所述分类标签包括领域分类标签。
[0174]
在本公开实施例中，领域分类标签可以用于表征目标视频中的领域信息。
[0175]
可选的，领域信息可以包括时政、经济、科技、体育、文娱、军事、自然、灾难事故、法律、房地产、工业、建设、交通、教育、历史、农业、医疗卫生、社会民生、趣闻等信息，在此不做限制。
[0176]
在本公开实施例中，可选的，s130可以包括：
[0177]
s1305、提取第一音频文本的音频文本摘要和第一字幕文本的字幕文本摘要；
[0178]
s1306、将音频文本摘要和字幕文本摘要融合，得到视频摘要；
[0179]
s1307、将视频摘要输入至预先训练好的领域分类模型，得到每个视频片段的领域分类标签。
[0180]
具体的，视频编目设备在得到第一音频文本和第一字幕文本之后，可以基于字幕文本摘要提取模型，分别提取第一音频文本的音频文本摘要和第一字幕文本的字幕文本摘要，然后将相同的音频文本摘要和字幕文本摘要合并，得到视频摘要，以进一步将视频摘要输入至预先训练好的领域分类模型，得到切分视频的领域分类标签。
[0181]
可选的，将音频文本摘要和字幕文本摘要融合，得到视频文本摘要，可以通过如下
方式实现：
[0182]
ta＝summ(t
asr
)+summ(t
ocr
)
[0183]
其中，summ(t
asr
)为音频文本摘要，summ(t
ocr
)为字幕文本摘要，ta为视频文本摘要。
[0184]
可选的，领域分类模型可以是博尔特(bert)模型。
[0185]
可选的，将视频文本摘要输入至预先训练好的领域分类模型，得到切分视频的领域分类标签，可以通过如下方式实现：
[0186]cf
＝bert(ta)
[0187]
其中，cf为领域分类标签。
[0188]
由此，在本公开实施例中，可以分别提取第一音频文本的音频文本摘要和第一字幕文本的字幕文本摘要，并根据音频文本摘要和字幕文本摘要，确定每个视频片段对应的地域分类标签，以得到更多的标签信息。
[0189]
进一步的，得到地域分类标签之后，还可以基于领域分类标签和语义标签对目标视频进行编目，使得目标视频的编目结果携带更多的编目信息。
[0190]
在本公开实施例中，可选的，s140可以包括：
[0191]
将具有相同语义标签和领域分类标签的视频片段进行合并，得到多个合并后的视频片段；
[0192]
根据合并后的视频片段，确定目标视频的编目结果，编目结果至少包括：合并后的视频片段对应的视频标签、合并后的视频片段对应的起止帧。
[0193]
在本公开实施例中，可选的，s140可以包括：
[0194]
将具有相同语义标签、地域分类标签和领域分类标签的视频片段进行合并，得到多个合并后的视频片段；
[0195]
根据合并后的视频片段，确定目标视频的编目结果，编目结果至少包括：合并后的视频片段对应的视频标签、合并后的视频片段对应的起止帧。
[0196]
其中，该s140的原理与前述实施例相似，在此不做赘述。
[0197]
由此，在本公开实施例中，在得到领域分类标签之后，可以利用多个视频片段、语义标签、领域分类标签和/或地域分类标签，对目标视频进行编目，得到目标视频对应的编目结果，使得得到的编目结果携带更多的标签信息，有利于提高视频编目的准确性。
[0198]
为了提高目标视频切分的准确性，可以对目标视频的视频字幕文本和视频语音文本进行纠错处理，以利用纠错处理之后的视频字幕文本和视频语音文本对目标视频进行切分，得到多个视频片段。
[0199]
可选的，对视频音频文本进行纠错处理，可以通过如下方式实现：
[0200]
t
asr
＝textcorr(t
asr
)
[0201]
其中，t
asr
为视频音频文本，t
asr
为纠错处理之后的视频音频文本，textcorr(*)为纠错处理过程。
[0202]
可选的，对视频字幕文本进行纠错处理，可以通过如下方式实现：
[0203]
t
ocr
＝textcorr(t
ocr
)
[0204]
其中，t
ocr
为视频字幕文本，t
ocr
为纠错处理之后的视频字幕文本，textcorr(*)。
[0205]
由此，在本公开实施例中，在得到视频字幕文本和视频语音文本之后，还可以对视
频字幕文本和视频语音文本进行纠错处理，以利用纠错处理之后的视频字幕文本和视频语音文本准确的对目标视频进行切分，得到多个视频片段。
[0206]
在本公开再一些实施方式中，视频特征包括视频字幕文本。
[0207]
在本公开实施例中，可选的，s110可以包括：
[0208]
s1101、对目标视频进行镜头边缘检测，得到多个转场图像帧；
[0209]
s1102、从目标视频中，提取每个转场图像帧对应的一组图像帧；
[0210]
s1103、对各组图像帧进行字幕识别，得到各组图像帧对应的第二字幕文本，多个第二字幕文本形成视频字幕文本。
[0211]
在本公开实施例中，视频编目设备获取到目标视频之后，可以对目标视频进行镜头边缘检测，得到多个转场图像帧，从目标视频中，提取每个转场图像帧对应的一组图像帧，然后对各组图像帧进行字幕识别，得到各组图像帧对应的第二字幕文本片段，使得多个第二字幕文本片段形成视频字幕文本。
[0212]
其中，转场图像帧可以包括目标视频的所有镜头场景的视频图像。
[0213]
其中，一组图像帧可以是基于每个转场图像帧和每个转场图像帧对应的视频帧生成的。
[0214]
具体的，s1102的具体步骤可以包括：
[0215]
获取各个转场图像帧；
[0216]
针对每个转场图像帧，基于转场图像帧，从目标视频中提取满足预设的视频帧提取条件的一组图像帧。
[0217]
其中，预设的视频帧提取条件可以是预先设置的用于生成一组图像帧的提取条件。
[0218]
可选的，预设的视频帧提取条件可以是转场图像帧的前后5帧图像。
[0219]
可选的，基于转场图像帧，从目标视频中提取满足预设的视频帧提取条件的一组图像帧，可以通过如下方式实现：
[0220][0221]
其中，img为一组图像帧，s
v(5
±
)
为转场图像帧的前后5帧图像，sm为视频帧。
[0222]
由此，在本公开实施例中，可以基于目标视频中的每个转场图像帧，生成满足预设的视频帧提取条件的一组图像帧，然后基于一组图像帧，准确的生成视频字幕文本，将得到的视频字幕文本作为视频特征。
[0223]
在本公开再一些实施方式中，视频特征包括视频字幕文本和视频音频文本，可以基于视频字幕文本和视频音频文本，对目标视频进行切分。
[0224]
在本公开实施例中，可选的，s140可以包括：
[0225]
s1401、对视频音频文本进行切分，得到多个第一切分位置；
[0226]
s1402、对视频字幕文本进行切分，得到多个第二切分位置；
[0227]
s1403、基于第一切分位置和第二切分位置，对目标视频进行切分，得到多个视频片段。
[0228]
在本公开实施例中，视频编目设备获取到视频音频文本和视频字幕文本之后，可以对视频音频文本进行切分，得到多个第一切分位置，对视频字幕文本进行切分，得到多个
第二切分位置，然后基基于第一切分位置和第二切分位置，对目标视频进行切分，得到多个视频片段。
[0229]
其中，s1401的具体步骤可以包括：
[0230]
将视频音频文本输入预先训练好的转场语句识别模型，得到转场语句识别模型输出的多个第一切分帧位置。
[0231]
具体的，视频编目设备可以将视频音频文本直接输入预先训练好的转场语句识别模型，识别视频音频文本中的转场语句和转场语句对应的第一切分帧位置，得到转场语句识别模型输出的多个第一切分帧位置。
[0232]
其中，转场语句识别模型可以是用于识别转场数据的模型。具体的，转场语句识别模型可以基于样本转场语句、样本非转场语句以及样本视频音频文本对初始模型训练得到。
[0233]
可选的，转场语句识别模型可以是基于卷积神经网络训练得到的二分类器，在此不做限制。
[0234]
其中，转场语句可以是目标视频中用于衔接不同讲述内容的转场语句对应的视频音频文本。
[0235]
可选的，利用转场语句识别模型，得到转场语句识别模型输出的转场语句，可以通过如下方式实现：
[0236]
ra＝textcnn(text
asr
)
[0237]
其中，text
asr
为视频音频文本，ra为转场语句，textcnn(*)为利用转场语句识别模型提取转场语句的过程。
[0238]
由此，在本公开实施例中，可以基于转场句对视频音频文本进行准确的切分。
[0239]
其中，s1402的具体步骤可以包括：
[0240]
利用时序文本聚类方法，对视频字幕文本进行分析，得到多个第二切分帧位置。
[0241]
在本公开实施例中，视频编目设备在获取到视频字幕文本之后，可以利用时序文本聚类方法，对视频字幕文本中的多个子数据进行聚类，使得相同的子数据进行合并，不相同的子数据分离，得到多个第二切分帧位置。
[0242]
可选的，利用时序文本聚类方法，对视频字幕文本进行分析，得到多个第二切分帧位置，可以通过如下方式实现：
[0243]ro
＝sp(text
ocr
)
[0244]
其中，ro为第二切分帧位置，text
ocr
为视频字幕文本，sp(*)为时序文本聚类方法。
[0245]
由此，在本公开实施例中，可以利用时序文本聚类方法对视频字幕文本进行准确的切分。
[0246]
其中，s1403的具体步骤可以包括：
[0247]
将多个第一切分帧位置与多个第二切分帧位置进行合并，得到目标视频的多个视频切分帧位置；
[0248]
基于多个视频切分帧位置，对目标视频进行切分，得到多个视频片段。
[0249]
在本公开实施例中，视频编目设备得到第一切分帧位置和第二切分帧位置之后，可以将第一切分帧位置和第二切分帧位置进行合并，得到目标视频的多个视频切分帧位置，并基于多个视频切分帧位置，对目标视频进行切分，得到多个视频片段。
[0250]
其中，将多个第一切分帧位置与多个第二切分帧位置进行合并，得到目标视频的多个视频切分帧位置，包括：
[0251]
按照时间顺序，将多个第一切分帧位置和多个第二切分帧位置两两分为一组；
[0252]
针对每组第一切分帧位置和第二切分帧位置，在第一切分帧位置与第二切分帧位置之间的时间差小于或等于预设时间差阈值的情况下，将第一切分帧位置作为视频切分帧位置；
[0253]
针对每组第一切分帧位置和第二切分帧位置，在第一切分帧位置与第二切分帧位置之间的时间差大于预设时间差阈值的情况下，将第一切分帧位置和第二切分帧位置分别作为视频切分帧位置。
[0254]
具体的，视频编目设备得到第一切分帧位置和第二切分帧位置之后，按照时间顺序，将多个第一切分帧位置和多个第二切分帧位置两两分为一组，然后针对每组第一切分帧位置和第二切分帧位置，计算第一切分帧位置和第二切分帧位置之间的时间差，如果第一切分帧位置和第二切分帧位置之间的时间差小于或等于预设时间差阈值，则认为第一切分时间戳与第二切分时间戳相同，因此，将第二切分时间戳合并到第一时间戳，即将第一切分帧位置作为视频切分帧位置，否则，将第一切分帧位置和第二切分帧位置分别作为视频切分帧位。
[0255]
其中，预设时间差阈值可以是根据需要预先设置的用于判断是否将第一切分帧位置作为视频切分帧位置的时间长度。
[0256]
可选的，将将第一切分帧位置作为视频切分帧位置，可以通过如下方式实现：
[0257]raj
＝(||r
oi-r
aj
||＜200)
[0258]
其中，r
aj
为第一切分帧位置r
oi
为第二切分帧位置，200为预设时间差阈值。
[0259]
进一步的，基于目标视频的视频切分帧位置对目标视频进行切分，得到多个视频片段，可以表示为：
[0260]
r＝[[f
1s
,f
1e
],[f
2s
,f
2e
],l,[f
ns
,f
ne
]]
[0261]
其中，第i条视频片段的起始帧是f
is
，结束帧是f
ie
，n为目标视频的切分数量。
[0262]
图2示出了本公开实施例提供的一种目标视频的切分方法的逻辑示意图。
[0263]
如图2所示，首先，获取视频字幕文本和视频语音文本；其次，识别视频语音文本中的转场语句，基于转场语句将视频语音文本切分为第一音频文本，并得到多个第一切分帧位置，并对视频字幕文本中的多个子数据进行时序聚类得到多个第一字幕文本，并得到多个第二切分帧位置；接着，基于第一切分帧位置和第二切分帧位置，对目标视频进行切分，得到多个视频片段。
[0264]
由此，在本公开实施例中，可以基于第一切分帧位置和第二切分帧位置，对目标视频进行切分，使得可以基于两种维度的视频特征确定的切分帧位置，提高目标视频的切分准确性。
[0265]
在本公开再一种实施方式中，对视频编目方法的整体流程进行具体的解释。
[0266]
图3示出了本公开实施例提供的一种视频编目方法的整体流程示意图。
[0267]
如图3所示，该视频编目方法可以包括如下步骤。
[0268]
s310、获取目标视频的视频特征。
[0269]
图4示出了本公开实施例提供的另一种视频编目方法的整体逻辑示意图。
[0270]
如图4所示，首先，采用镜头边缘检测技术从目标视频中提取转场图像帧，并基于转场图像帧和每个转场图像帧对应的视频帧，得到每个转场图像帧对应的一组图像帧，同时，将目标视频转换为音频数据，并对目标视频进行语音识别，得到语音数据的视频语音文本；接着，对各组图像帧进行字幕识别，得到目标视频的视频字幕文本。
[0271]
s320、基于视频特征中的视频字幕文本和视频语音文本，对目标视频进行切分，得到多个视频片段。
[0272]
继续参见图4，对视频音频文本进行切分，得到多个第一音频文本和多个第一切分帧位置，对视频字幕文本进行切分，得到多个第一字幕文本和多个第二切分帧位置，然后基于第一切分帧位置和第二切分帧位置，对目标视频进行切分，得到多个视频片段。
[0273]
s330、针对每个视频片段，基于视频片段对应的视频文本，提取视频片段对应的语义标签、地域分类标签和领域分类标签。
[0274]
继续参见图4，从视频片段对应的第一音频文本和第一字幕文本中，提取高频关键词和摘要关键词，并从视频关键词中提取满足预设的关键词提取条件的关键词，作为视频片段对应的语义标签；同时，对视频文本进行语句切分，得到多个文本分句，基于预先构建的地域实体知识库，对各个文本分句中的地域信息进行识别，得到各个文本分句对应的地域分类概率，以及将各个文本分句对应的地域分类概率进行融合，得到视频片段的地域分类概率，根据视频片段的地域分类概率，确定视频片段对应的地域分类标签；并且，提取第一音频文本的音频文本摘要和第一字幕文本的字幕文本摘要，将音频文本摘要和字幕文本摘要融合，得到视频摘要，将视频摘要输入至预先训练好的领域分类模型，得到每个视频片段对应的领域分类标签。
[0275]
s340、利用多个视频片段和视频标签对目标视频进行编目，得到目标视频对应的编目结果。
[0276]
继续参见图4，将具有相同语义标签的视频片段进行合并，得到多个合并后的视频片段，根据合并后的视频片段，确定目标视频的编目结果，编目结果至少包括：合并后的视频片段对应的视频标签、合并后的视频片段对应的起止帧，并将编目结果进行存储。
[0277]
本公开实施例还提供了一种用于实现上述的视频编目装置，下面结合图5进行说明。在本公开实施例中，该视频编目装置可以为视频编目设备。视频编目设备可以是电子设备或服务器。其中，电子设备可以包括移动终端、平板电脑、车载终端、可穿戴设备、虚拟现实(virtual reality，vr)一体机、智能家居设备等具有通信功能的设备。服务器可以是云服务器或者服务器集群等具有存储及计算功能的设备。
[0278]
图5示出了本公开实施例提供的一种视频切分装置的结构示意图。
[0279]
如图5所示，视频编目装置500可以包括：视频特征获取模块510、目标视频切分模块520、视频标签提取模块530和视频编目模块540。
[0280]
其中，视频特征获取模块510，用于获取目标视频的视频特征；
[0281]
目标视频切分模块520，用于基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段；
[0282]
视频标签提取模块530，用于针对每个视频片段，基于视频片段对应的视频文本，确定视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，视频标签至少包括语义标签；
[0283]
视频编目模块540，用于利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。
[0284]
在本公开实施例中，能够在获取到目标视频的视频特征之后，基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段，然后针对每个视频片段，基于视频片段对应的视频文本，提取视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，使得可以获取到多模态的视频信息，视频标签至少包括语义标签，进一步利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。由此，可以提供一种自动化的视频编目方法，提高了视频编目的效率，如果面对全媒体时代的海量视频，无需依赖专业人员对多媒体内容编目，因此，降低了大量的人力成本，也可以保证视频编目的时效性，并且，基于多模态的视频信息对应的视频标签，可以准确的对目标视频进行编目，因此提高了视频编目的准确性。
[0285]
可选的，视频标签提取模块530还用于从视频文本中，提取视频片段对应的高频关键词和摘要关键词；
[0286]
对高频关键词和摘要关键词进行融合，得到视频片段对应的视频关键词；
[0287]
将满足预设的关键词提取条件的视频关键词作为视频片段对应的语义标签。
[0288]
可选的，视频标签还包括分类标签，分类标签包括地域分类标签和领域分类标签中的至少一种。
[0289]
可选的，视频标签还包括：分类标签，分类标签包括地域分类标签；
[0290]
相应的，视频标签提取模块530还用于对视频文本进行语句切分，得到多个文本分句；
[0291]
基于预先构建的地域实体知识库，对各个文本分句中的地域信息进行识别，得到各个文本分句对应的地域分类概率；
[0292]
将各个文本分句对应的地域分类概率进行融合，得到视频片段的地域分类概率；
[0293]
根据视频片段的地域分类概率，确定视频片段对应的地域分类标签。
[0294]
可选的，视频标签还包括：分类标签，分类标签包括领域分类标签；
[0295]
相应的，视频标签提取模块530还用于提取第一音频文本的音频文本摘要和第一字幕文本的字幕文本摘要；
[0296]
将音频文本摘要和字幕文本摘要融合，得到视频摘要；
[0297]
将视频摘要输入至预先训练好的领域分类模型，得到每个视频片段对应的领域分类标签。
[0298]
可选的，视频特征数据包括：视频字幕文本；
[0299]
相应的，视频特征获取模块510还用于对目标视频进行镜头边缘检测，得到多个转场图像帧；
[0300]
从目标视频中，提取每个转场图像帧对应的一组图像帧；
[0301]
对各组图像帧进行字幕识别，得到各组图像帧对应的第二字幕文本，多个第二字幕文本形成视频字幕文本。
[0302]
可选的，视频特征数据获取模块510还用于获取各个转场图像帧；
[0303]
针对每个转场图像帧，基于转场图像帧，从目标视频中提取满足预设的视频帧提取条件的一组图像帧。
[0304]
可选的，视频特征数据包括视频音频文本和视频字幕文本；
[0305]
相应的，目标视频切分模块520还用于对视频音频文本进行切分，得到多个第一切分帧位置；
[0306]
对视频字幕文本进行切分，得到多个第二切分帧位置；
[0307]
基于第一切分帧位置和第二切分帧位置，对目标视频进行切分，得到所述多个视频片段。
[0308]
可选的，目标视频切分模块520还用于将视频音频文本输入预先训练好的转场语句识别模型，得到转场语句识别模型输出的多个第一切分帧位置。
[0309]
可选的，目标视频切分模块520还用于利用时序文本聚类方法，对视频字幕文本进行分析，得到多个第二切分帧位置。
[0310]
可选的，目标视频切分模块520还用于将多个第一切分帧位置与多个第二切分帧位置进行合并，得到目标视频的多个视频切分帧位置；
[0311]
基于多个视频切分帧位置，对目标视频进行切分，得到多个视频片段。
[0312]
可选的，目标视频切分模块520还用于按照时间顺序，将多个第一切分帧位置和多个第二切分帧位置两两分为一组；
[0313]
针对每组第一切分帧位置和第二切分帧位置，在第一切分帧位置与第二切分帧位置之间的时间差小于或等于预设时间差阈值的情况下，将第一切分帧位置作为视频切分帧位置；
[0314]
针对每组第一切分帧位置和第二切分帧位置，在第一切分帧位置与第二切分帧位置之间的时间差大于预设时间差阈值的情况下，将第一切分帧位置和第二切分帧位置分别作为视频切分帧位置。
[0315]
可选的，视频编目模块540还用于将具有相同语义标签的视频片段进行合并，得到多个合并后的视频片段；
[0316]
根据合并后的视频片段，确定目标视频的编目结果，编目结果至少包括：合并后的视频片段对应的视频标签、合并后的视频片段对应的起止帧。
[0317]
需要说明的是，图5所示的视频编目装置500可以执行图1至图4所示的方法实施例中的各个步骤，并且实现图1至图4所示的方法实施例中的各个过程和效果，在此不做赘述。
[0318]
图6示出了本公开实施例提供的一种视频编目设备的硬件电路结构示意图。
[0319]
如图6所示，该视频编目设备可以包括控制器601以及存储有计算机程序指令的存储器602。
[0320]
具体地，上述控制器601可以包括中央处理器(cpu)，或者特定集成电路(application specific integrated circuit，asic)，或者可以被配置成实施本技术实施例的一个或多个集成电路。
[0321]
存储器602可以包括用于信息或指令的大容量存储器。举例来说而非限制，存储器602可以包括硬盘驱动器(hard disk drive，hdd)、软盘驱动器、闪存、光盘、磁光盘、磁带或通用串行总线(universal serial bus，usb)驱动器或者两个及其以上这些的组合。在合适的情况下，存储器602可包括可移除或不可移除(或固定)的介质。在合适的情况下，存储器602可在综合网关设备的内部或外部。在特定实施例中，存储器602是非易失性固态存储器。在特定实施例中，存储器602包括只读存储器(read-only memory，rom)。在合适的情况下，
该rom可以是掩模编程的rom、可编程rom(programmable rom，prom)、可擦除prom(electrical programmable rom，eprom)、电可擦除prom(electrically erasable programmable rom，eeprom)、电可改写rom(electrically alterable rom，earom)或闪存，或者两个或及其以上这些的组合。
[0322]
控制器601通过读取并执行存储器602中存储的计算机程序指令，以执行本公开实施例所提供的视频编目方法的步骤。
[0323]
在一个示例中，该视频编目设备还可包括收发器603和总线604。其中，如图6所示，控制器601、存储器602和收发器603通过总线604连接并完成相互间的通信。
[0324]
总线604包括硬件、软件或两者。举例来说而非限制，总线可包括加速图形端口(accelerated graphics port，agp)或其他图形总线、增强工业标准架构(extended industry standard architecture，eisa)总线、前端总线(front side bus，fsb)、超传输(hyper transport，ht)互连、工业标准架构(industrial standard architecture，isa)总线、无限带宽互连、低引脚数(low pin count，lpc)总线、存储器总线、微信道架构(micro channel architecture，mca)总线、外围控件互连(peripheral component interconnect，pci)总线、pci-express(pci-x)总线、串行高级技术附件(serial advanced technology attachment，sata)总线、视频电子标准协会局部(video electronics standards association local bus，vlb)总线或其他合适的总线或者两个或更多个以上这些的组合。在合适的情况下，总线604可包括一个或多个总线。尽管本技术实施例描述和示出了特定的总线，但本技术考虑任何合适的总线或互连。
[0325]
以下是本公开实施例提供的视频编目系统的实施例，该视频编目系统与上述各实施例的视频编目方法属于同一个发明构思，在视频编目系统的实施例中未详尽描述的细节内容，可以参考上述视频编目方法的实施例。
[0326]
图7示出了本公开实施例提供的一种视频编目系统的结构示意图。
[0327]
如图7所示，该系统包括：视频编目设备710和显示设备720；
[0328]
视频编目设备710，用于获取目标视频的视频特征；
[0329]
基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段；
[0330]
针对每个视频片段，基于视频片段对应的视频文本，确定视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，视频标签至少包括语义标签；
[0331]
利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果；
[0332]
显示设备720，用于接收目标视频显示操作，目标视频显示操作携带目标编目标签；
[0333]
响应于视频片段目标视频显示操作，从多个视频中筛选出与目标编目标签对应的目标视频。
[0334]
以下是本公开实施例提供的计算机可读存储介质的实施例，该计算机可读存储介质与上述各实施例的视频编目方法属于同一个发明构思，在计算机可读存储介质的实施例中未详尽描述的细节内容，可以参考上述视频编目方法的实施例。
[0335]
本实施例提供一种包含计算机可执行指令的存储介质，计算机可执行指令在由计算机处理器执行时用于执行一种视频编目方法，该方法包括：
[0336]
获取目标视频的视频特征；
[0337]
基于目标视频的视频特征，对目标视频进行切分，得到多个视频片段；
[0338]
针对每个视频片段，基于视频片段对应的视频文本，确定视频片段对应的视频标签，视频文本包括第一音频文本和第一字幕文本，视频标签至少包括语义标签；
[0339]
利用多个视频片段和每个视频片段对应的视频标签对目标视频进行编目，得到目标视频对应的编目结果。
[0340]
当然，本公开实施例所提供的一种包含计算机可执行指令的存储介质，其计算机可执行指令不限于如上所述的方法操作，还可以执行本公开任意实施例所提供的视频编目方法中的相关操作。
[0341]
通过以上关于实施方式的描述，所属领域的技术人员可以清楚地了解到，本公开可借助软件及必需的通用硬件来实现，当然也可以通过硬件实现，但很多情况下前者是更佳的实施方式。基于这样的理解，本公开的技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如计算机的软盘、只读存储器(read-only memory,rom)、随机存取存储器(random access memory,ram)、闪存(flash)、硬盘或光盘等，包括若干指令用以使得一台计算机云平台(可以是个人计算机，服务器，或者网络云平台等)执行本公开各个实施例所提供的视频编目方法。
[0342]
需要说明的是，在本文中，诸如“第一”和“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。
[0343]
以上所述仅是本公开的具体实施方式，使本领域技术人员能够理解或实现本公开。对这些实施例的多种修改对本领域的技术人员来说将是显而易见的，本文中所定义的一般原理可以在不脱离本公开的精神或范围的情况下，在其它实施例中实现。因此，本公开将不会被限制于本文所述的这些实施例，而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：马先钦;刘宏宇;张佳旭;王璋盛;罗引;王磊
技术所有人：北京中科闻歌科技股份有限公司
我是此专利的发明人

上一篇：一种基于转轮传动的抛光装置的制作方法
上一篇：一种便于应用的农业物联网采集装置的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。