视频播放方法和视频播放装置与流程

文档序号:25311565发布日期:2021-06-04 15:46阅读:70来源:国知局
视频播放方法和视频播放装置与流程

1.本发明涉及多媒体领域,更具体地讲,涉及一种视频播放方法和视频播放装置。


背景技术:

2.随着智能终端的各种普及,视频已经成为一种越来越受用户喜爱的多媒体。
3.通常情况下,视频可以分为有语音的视频和无语音的视频。有语音的视频通常有助于用户更好的了解和/或学习视频。然而,有语音的视频中的语音通常需要提前录制或者后期制作好,这需要较大的成本;而无语音的视频对用户来说需要耗费较大的精力来了解和/或学习视频的内容。
4.因此,用户存在对如何获得一种有助于用户更好的了解和/或学习视频的方法的需求。


技术实现要素:

5.本发明的目的在于提供一种视频播放方法和视频播放装置。
6.本发明的一方面提供一种视频播放方法,所述视频播放方法包括:获取视频的多个图像帧;从所述多个图像帧识别感兴趣对象;确定与感兴趣对象对应的语音;在向用户播放视频的同时,播放与感兴趣对象对应的语音。
7.可选地,从所述多个图像帧识别感兴趣对象的步骤包括:将所述多个图像帧输入到图像识别模型,其中,图像识别模型被预先训练为响应于输入的多个训练图像帧而输出指示与输入的多个训练图像帧中的感兴趣对象对应的文本;基于图像识别模型,输出与感兴趣对象对应的文本。
8.可选地,确定与感兴趣对象对应的语音的步骤包括:通过人工语音合成来合成与输出的文本对应的语音,以获得与感兴趣对象对应的语音。
9.可选地,向用户播放视频的步骤包括:根据用户数据模型确定视频的初始播放速率,其中,用户数据模型是根据用户学习的速度、内容、年龄、性别中的至少一个而建立的模型;根据视频的初始播放速率向用户播放视频。
10.可选地,所述视频播放方法还包括:实时拍摄包括用户的动作的用户视频;从用户视频识别用户的动作,其中,向用户播放视频的步骤包括:确定识别的用户的动作与播放中的视频中的动作之间的相似度;基于相似度控制视频的播放速率。
11.可选地,基于相似度控制视频的播放速率的步骤包括:基于相似度确定用户的级别,其中,相似度越高,用户的级别越高;基于用户的级别控制视频的播放速率,其中,不同的级别对应于不同的播放速率。
12.可选地,从所述多个图像帧识别感兴趣对象的步骤包括:响应于感兴趣对象对应于多个候选对象,请求用户对所述多个候选对象进行选择;响应于用户选择所述多个候选对象中的一个候选对象,将所述一个候选对象的动作识别为感兴趣对象。
13.可选地,感兴趣对象包括人的动作和指示标志中的至少一个。
14.本发明的另一方面提供一种视频播放装置,所述视频播放装置包括:图像帧获取单元,被配置为获取视频的多个图像帧;感兴趣对象识别单元,被配置为从所述多个图像帧识别感兴趣对象;语音确定单元,被配置为确定与感兴趣对象对应的语音;播放单元,被配置为在向用户播放视频的同时,播放与感兴趣对象对应的语音。
15.本发明的另一方面提供一种存储有计算机程序的计算机可读存储介质,其中,当所述计算机程序被处理器执行时,实现如上所述的任一视频播放方法。
16.本发明的另一方面提供一种计算装置,包括:处理器;存储器,存储有计算机程序,当所述计算机程序被处理器执行时,实现如上所述的任一视频播放方法。
17.本发明的视频播放方法可以使用户在观看视频的画面的同时听到与视频中的与感兴趣对象对应的语音。因此,用户能更好地了解和/或学习视频的内容。
18.此外,本发明的视频播放方法可将视频的图像帧和与感兴趣对象对应的语音合成在一起而形成一个新的视频。因此,用户可以自动获得具有智能配音的新视频,而无需其他手动操作。
19.此外,本发明的视频播放方法可以在播放视频的时候根据用户的动作来自动调整视频的播放速率,所以用户无需进行手动调整视频播放速度,就可以使得自己可以看得懂或者跟的上视频的播放速度。
20.此外,本发明的视频播放方法可以在感兴趣对象对应于多个候选对象时为用户提供排除用户不感兴趣和/或不需要的一个或多个候选对象的功能,因此,能大大提高用户体验。此外,由于仅保留一个候选对象作为感兴趣对象,因此,可准确地确定与感兴趣对象对应的语音,从而使与用户感兴趣的感兴趣对象的语音能够准确地被播放。
附图说明
21.通过下面结合示例性地示出一例的附图进行的描述,本发明的上述和其他目的和特点将会变得更加清楚,其中:
22.图1示出根据本发明的实施例的视频播放方法;
23.图2示出根据本发明的实施例的图像识别模型;
24.图3示出根据本发明的实施例的控制视频的播放速率的方法;
25.图4示出根据本发明的当感兴趣对象对应于多个候选对象时的确定感兴趣对象的方法;
26.图5示出根据本发明的实施例的当感兴趣对象是人的动作时的视频播放方法的流程图;
27.图6示出根据本发明的实施例的用户运动场景下的示意图;
28.图7示出根据本发明的实施例的游戏类场景下的示意图;
29.图8示出根据本发明的实施例的视频解说场景下的示意图;
30.图9示出根据本发明的实施例的视频播放装置;
31.图10示出根据本发明的实施例的计算装置的框图。
具体实施方式
32.提供下面的具体实施方式以帮助读者获得对在此描述的方法、设备和/或系统的
全面了解。然而,在了解本申请的公开之后,在此描述的方法、设备和/或系统的各种改变、修改和等同物将是清楚的。例如,在此描述的操作的顺序仅是示例,并且不限于在此阐述的那些顺序,而是除了必须以特定的顺序发生的操作之外,可如在了解本申请的公开之后将是清楚的那样被改变。此外,为了更加清楚和简明,本领域已知的特征的描述可被省略。
33.在此描述的特征可以以不同的形式来实现,而不应被解释为限于在此描述的示例。相反,已提供在此描述的示例,以仅示出实现在此描述的方法、设备和/或系统的许多可行方式中的一些可行方式,所述许多可行方式在了解本申请的公开之后将是清楚的。
34.如在此使用的,术语“和/或”包括相关联的所列项中的任何一个以及任何两个或更多个的任何组合。
35.尽管在此可使用诸如“第一”、“第二”和“第三”的术语来描述各种构件、组件、区域、层或部分,但是这些构件、组件、区域、层或部分不应被这些术语所限制。相反,这些术语仅用于将一个构件、组件、区域、层或部分与另一构件、组件、区域、层或部分进行区分。因此,在不脱离示例的教导的情况下,在此描述的示例中所称的第一构件、第一组件、第一区域、第一层或第一部分也可被称为第二构件、第二组件、第二区域、第二层或第二部分。
36.在说明书中,当元件(诸如,层、区域或基底)被描述为“在”另一元件上、“连接到”或“结合到”另一元件时,该元件可直接“在”另一元件上、直接“连接到”或“结合到”另一元件,或者可存在介于其间的一个或多个其他元件。相反,当元件被描述为“直接在”另一元件上、“直接连接到”或“直接结合到”另一元件时,可不存在介于其间的其他元件。
37.在此使用的术语仅用于描述各种示例,并不将用于限制公开。除非上下文另外清楚地指示,否则单数形式也意在包括复数形式。术语“包含”、“包括”和“具有”说明存在叙述的特征、数量、操作、构件、元件和/或它们的组合,但不排除存在或添加一个或多个其他特征、数量、操作、构件、元件和/或它们的组合。
38.除非另有定义,否则在此使用的所有术语(包括技术术语和科学术语)具有与由本公开所属领域的普通技术人员在了解本公开之后通常了解的含义相同的含义。除非在此明确地如此定义,否则术语(诸如,在通用词典中定义的术语)应被解释为具有与它们在相关领域的上下文和本公开中的含义一致的含义,并且不应被理想化或过于形式化地解释。
39.此外,在示例的描述中,当认为公知的相关结构或功能的详细描述将引起对本公开的模糊解释时,将省略这样的详细描述。
40.在下文中,将参照附图详细描述实施例。然而,实施例可以以各种形式实现,并且不限于在此描述的实施例。
41.图1示出根据本发明的实施例的视频播放方法。
42.参照图1,在步骤s110中,可获取视频的多个图像帧。
43.这里,视频可以是包括各种各样内容的视频。在一个非限制性的示例中,视频可以是包括舞蹈内容(例如,爵士、拉丁等)的视频。在另一非限制性的示例中,视频可以是包括运动内容(例如,瑜伽、健身等)的视频。在又一非限制性的示例中,视频可以是包括游戏内容(例如,赛车类游戏、动作类游戏等)的视频。然而,上述示例仅是示例性的,本发明不对视频所包含的内容进行限制。
44.另外,可以以各种方式来获得视频的多个图像帧。例如,可以顺序获取视频的多个帧。又例如,可以以相同的间隔获取视频的多个图像帧。再例如,可以以不同的间隔获取视
频的多个图像帧。然而,上述示例仅是示例性的,本发明不对获取视频的多个图像帧的具体方式进行限制。此外,获取的视频的多个图像帧的数量可以是任意数量,而本发明不对此进行限制。
45.在步骤s120中,可从多个图像帧识别感兴趣对象。
46.这里,感兴趣对象可以是多个图像帧中的至少一个帧中存在的用户可能感兴趣的对象。在一个非限制性的示例中,感兴趣对象包括人的动作和指示标志中的至少一个。例如,当多个图像帧中的至少一个帧中存在人时,感兴趣对象可以是人的动作。又例如,当多个图像帧中的至少一个帧中存在指示标志(例如,转弯标志、加速标志等)时,感兴趣对象可以是指示标志。再例如,感兴趣对象可以同时是人的动作和指示标志。然而,上述示例仅是示例性的,本发明不对感兴趣对象进行限制。换言之,感兴趣对象可以是用户感兴趣的各种各样的对象。
47.在一个实施例中,可将多个图像帧输入到图像识别模型,并基于图像识别模型输出与感兴趣对象对应的文本。这里,图像识别模型可被预先训练为响应于输入的多个训练图像帧而输出指示与输入的多个训练图像帧中的感兴趣对象对应的文本。例如,可通过各种现有的训练方法(例如,有监督训练方法、无监督训练方法)等来训练图像识别模型。
48.在本发明中,图像识别模型可通过人工智能(ai)技术来实现。例如,图像识别模型可通过神经网络来实现。后面将结合图2对根据本发明的实施例的图像识别模型进行具体描述。
49.在步骤s130中,确定与感兴趣对象对应的语音。
50.这里,可通过人工语音合成来合成与感兴趣对象对应的语音。例如,通过人工语音合成来合成与在参照步骤s120描述的实施例中的输出的文本对应的语音,以获得与感兴趣对象对应的语音。
51.在一个示例性示例中,当感兴趣对象是人的动作时,如果识别的人的动作是抬手动作,则可根据预先通过ai训练而获得动作

语音库来确定与抬手动作对应的语音(例如,语音“请抬手”)。动作

语音库可包括动作和与动作对应的至少一个语音。在另一示例性示例中,当感兴趣对象是指示标志时,如果识别的指示标志是右转,则可确定与抬手动作对应的语音(例如,语音“请右转”)。然而,上述示例仅是示例性的,本发明不对与感兴趣对象对应的语音进行限制。
52.在步骤s140中,在向用户播放视频的同时,播放与感兴趣对象对应的语音。
53.也就是说,根据本发明的视频播放方法,用户可以在观看视频的画面的同时听到与视频中的与感兴趣对象对应的语音。因此,用户能更好地了解和/或学习视频的内容。
54.可选地,可根据用户数据模型确定视频的初始播放速率。用户数据模型可以是根据用户学习的速度、内容、年龄、性别中的至少一个而建立的模型。例如,用户数据模型可指示用户对视频的了解或熟悉的程度。然后,可根据视频的初始播放速率向用户播放视频。
55.此外,在一个优选的实施例中,还可在向用户播放视频的同时控制视频的播放速率。后面将结合图3对控制视频的播放速率的方法进行描述。
56.此外,可选地,与感兴趣对象对应的语音可与多个图像帧合成在一起而形成一个新的视频。因此,用户可以自动获得具有智能配音的新视频,而无需其他手动操作。
57.图2示出根据本发明的实施例的图像识别模型。
58.这里,图像识别模型可包括例如深度神经网络(dnn)(例如,全连接网络、深度卷积网络、循环神经网络等)。在一个实施例中,图像识别模型可包括基于3d的深度卷积神经网络,以自动提取视频中的多个帧的空间特征和/或时态特征,并基于提取的特征来进行分类和/或识别。然而,本发明不限于此,图像识别模型也可被实施为其他任何结构的神经网络。
59.参照图2,作为示例性示例,图像识别模型可包括输入层、卷积层、池化层、向量化层、全连接层和分类层以及文本收集单元。
60.图像识别模型的输入层可接收多个图像帧,并将接收的多个图像帧传递到下一层。
61.图像识别模型的卷积层可通过接收从上一层输出的图像数据并对图像数据执行相应的卷积操作来提取特征数据(例如,特征图)。例如,图像识别模型的卷积层可以是三维卷积层,从而可以同时考虑了空间和时间维度而提取三维特征数据。在图2中,仅作为示例性示例,图像识别模型可包括两个卷积层,两个卷积层的特征图的数量可以分别为32和128。然而,本发明不限于特征图的数量分别为32和128的两个卷积层。根据本发明的图像识别模型可包括任意数量的卷积层,并且每个卷积层可具有任意数量的特征图。
62.图像识别模型的每个卷积层后可以是池化层。池化层可通过使用池化(例如,最大池化、平均池化等)技术来执行池化操作。池化操作可以实现对提取特征的平移不变性。
63.图像识别模型的最后一个池化层可连接到向量化层。向量化层可将接收的特征数据进行向量化,并将向量化的特征数据输出到后续的全连接层。
64.在图2中,图像识别模型的全连接层的数量被示出为2个。2个全连接层的神经元的个数可分别为2056和512,并可采用传统的前馈式神经网络连接方式。然而,本发明不限于具有上述神经元的个数、数量为2和采用前馈式神经网络连接方式的全连接层。根据本发明的图像识别模型可包括任意数量的全连接层,并且每个全连接层可具有任意数量的神经元,全连接层的连接方式可以是任意的神经网络连接方式。
65.在图2中,图像识别模型的全连接层可与分类层相连。例如,分类层可采用softmax分类器来实现。在一个示例中,分类层可包括两部分分类层。一部分分类层可用于对视频的类型进行分类。例如,仅作为非限制性示例,通过一部分分类层,可将视频分类为舞蹈类、运动类和游戏类中的一个。另一部分分类层可用于对视频进行具体的二级分类。例如,通过该另一部分分类层,可将视频分类为舞蹈类中的爵士和拉丁等、运动类中的瑜伽和健身等以及游戏类中的赛车和动作类中的一个的至少一个感兴趣对象。上述分类仅是示例性的,本发明不限于上述具体的分类,视频可根据需要被划分为任意类别的视频。此时,图像识别模型的分类层可输出与接收的多个图像帧中的至少一个感兴趣对象对应的特征值(例如,特征向量)。另外,本发明的分类层不限于两个,也可以是一个或者更多个。
66.图像识别模型的文本收集单元可预先通过ai训练得到包括感兴趣对象和要领文本的数据集。这里,要领文本可以是用于描述多个帧中的识别的感兴趣对象的文本。例如,图像识别模型的文本收集单元可接收与多个图像帧中的至少一个感兴趣对象对应的特征值(例如,特征向量),并基于特征值和包括感兴趣对象和要领文本的数据集来确定与至少一个感兴趣对象对应的文本。
67.图3示出根据本发明的实施例的控制视频的播放速率的方法。
68.参照图3,在步骤s310中,可实时拍摄包括用户的动作的用户视频。
69.例如,可通过播放视频的电子装置的摄像头来拍摄包括用户的动作的用户视频。
70.在步骤s320中,可从用户视频识别用户的动作。
71.在一个实施例中,可通过用户动作识别模型来从用户视频识别用户的动作。例如,用户动作模型可具有与参照图2描述的图像识别模型类似的结构。上面已经参照图2描述了根据本发明的实施例的图像识别模型的结构,这里不再具体重复。这里,用户动作模型可通过输出与用户的动作对应的特征值(例如,特征向量)来从用户视频识别用户的动作。
72.在步骤s330中,可确定识别的用户的动作与播放中的视频中的动作之间的相似度。
73.这里,可使用各种现有技术来确定识别的用户的动作与播放中的视频中的动作之间的相似度。例如,可基于与识别的用户的动作对应的特征值和与播放中的视频中的动作对应的特征值之间的距离来确定相似度。与识别的用户的动作对应的特征值和与播放中的视频中的动作对应的特征值之间的距离越大,识别的用户的动作与播放中的视频中的动作之间的相似度越低。
74.在步骤s340中,可基于相似度控制视频的播放速率。
75.在一个实施例中,相似度可与用户的级别相关。例如,相似度越高,用户的级别越高。换言之,可基于相似度确定用户的级别。这里,不同的级别可对应于不同的播放速率,级别可以指示用户对视频的了解或熟悉的程度。因此,可基于用户的级别控制视频的播放速率。
76.由于可以在播放视频的时候根据用户的动作来自动调整视频的播放速率,所以用户无需进行手动调整视频播放速度,就可以使得自己可以看得懂或者跟的上视频的播放速度。
77.图4示出根据本发明的当感兴趣对象对应于多个候选对象时的确定感兴趣对象的方法。
78.参照图4,在步骤s410中,响应于感兴趣对象对应于多个候选对象,请求用户对多个候选对象进行选择。
79.这里,可通过语音播放和/或图像显示的方式来请求用户对多个候选对象进行选择。
80.在一个示例中,当感兴趣对象包括人的动作时,感兴趣对象对应于多个候选对象可表示视频中存在多个人。此时,可请求用户对视频中的多个人进行选择。
81.在另一个示例中,当感兴趣对象包括指示标志时,感兴趣对象对应于多个候选对象可表示视频中存在多个指示标志。此时,可请求用户对视频中的多个指示标志进行选择。
82.然而,上述示例仅是示例性的,本发明的感兴趣对象对应于多个候选对象的情况不限于上述示例。
83.在步骤s420中,可响应于用户选择多个候选对象中的一个候选对象,将一个候选对象识别为感兴趣对象。
84.这里,用户可通过语音、鼠标、遥控器和/或触摸等的方式来多个候选对象中的一个候选对象。
85.由于可以在感兴趣对象对应于多个候选对象时为用户提供排除用户不感兴趣和/或不需要的一个或多个候选对象的功能,因此,能大大提高用户体验。此外,由于仅保留一
个候选对象作为感兴趣对象,因此,可准确地确定与感兴趣对象对应的语音,从而使与用户感兴趣的感兴趣对象的语音能够准确地被播放。
86.图5示出根据本发明的实施例的当感兴趣对象是人的动作时的视频播放方法的流程图。
87.参照图5,可使用具有摄像头的智能装置播放视频。可对视频进行多人检测以确定视频中是否为单人。这里,可使用各种现有技术来从视频中检测人的存在。例如,可采用方向梯度直方图(hog)

支持向量机(svm)方法进行检测,在使用hog+svm进行行人检测时。hog特征的主要思想是通过对图像帧进行分析,局部目标的表象和形状可以被剃度或者边缘密度方向分布很好的描述。可对图像的各个像素点采集土堆或者边缘的方向直方图,根据直方图的信息就可以描述图片的特征,根据采集到的hog特征向量,供svm分类使用,最后得到视频中的人数,并进行编号。虽然上面描述hog

svm方法从视频中检测人的存在,但本发明不限于此,其他检测人的方法也是可行的。
88.换言之,当检测到视频中的人数不为单人,即,存在多个人时,可标记视频中出现的多个人。这里,例如,可以通过显示的方式将视频中出现的多个人中的一个人标记为1,将剩下的一个人标记2,以供用户对视频中的两个人进行选择。
89.智能装置可接收用户的对视频中的两个人进行选择的语音。例如,当用户发出语音“选择1”时,可将与标记1对应的人的区域确定为用户的感兴趣区域。此时,可通过图2描述的图像识别模型来识别用户的感兴趣区域中的感兴趣对象(在图5中,即,用户的动作)并输出与感兴趣对象对应的文本(例如,身体与地面平行,左腿抬起,双手呈180度)。
90.接下来,可通过人工语音合成来合成与输出的文本对应的语音。此时,用户在观看到视频的同时,还可以听到关于视频的解说和/或介绍的语音“身体与地面平行,左腿抬起,双手呈180度”,从而可以迅速了解视频的内容。
91.此外,在播放视频时,可如参照图3所描述的方法那样控制视频的播放速率。
92.具体地,可基于用户数据模型确定视频的初始播放速率,并根据视频的初始播放速率向用户播放视频。用户数据模型是根据用户学习的速度、内容、年龄、性别中的至少一个而建立的用于确定用户等级的模型。这里,用户等级可指示用户对视频中的舞蹈的了解和/或熟悉的程度。当用户等级高时,初始播放速率较快;当用户等级低时,初始播放速率较快。仅作为示例,下面表1示出了用户等级与初始播放速率v之间的对应关系。
93.表1
[0094][0095][0096]
在表1中,视频内的场景或内容可以一般分类为舞蹈类、运动类和游戏类。然而,上述分类仅是示例,其他分类也是可行的。
[0097]
这里,舞蹈类(例如,爵士、拉丁)可需要根据用户的练习状态进行播放速率调整。
例如,当用户等级分别被确定为1、2、3和4时,视频的播放速率可以分别对应于0.5
×
v、0.8
×
v、1.0
×
v和1.2
×
v。运动类(例如,瑜伽、健身等)因为比较慢,不需要进行速率调整,这在表1中用x表示。游戏类(例如,赛车、动作类等)需要根据用户玩的水平(即,等级)进行速率适当调整。例如,当用户等级分别被确定为1、2、3和4时,视频的播放速率可以分别对应于0.7
×
v、0.8
×
v、0.9
×
v和1.0
×
v。
[0098]
这里,表1中的示出的数据仅是为了示出用户等级与播放速率之间存在的对应关系的一个示例,本发明不对用户等级与播放速率之间存在的对应关系进行限制。
[0099]
另外,可在播放视频的同时,拍摄包括用户的动作的用户视频。可根据用户的动作与视频中的人的动作之间的相似度来判断用户等级。此时,可在播放视频的同时根据判断的用户等级来调整视频的播放速率。
[0100]
图6示出根据本发明的实施例的用户运动场景下的示意图。
[0101]
在图6的用户运动场景中,用户在图像帧中感兴趣的对象可以是视频中的人的动作。在这种情况下,可通过ai技术从视频的图像帧识别人的动作并与确定与人的动作对应的语音,从而可以在向用户播放视频的同时,播放与视频中的人的动作对应的语音。因此,用户在根据视频来进行运动时可根据播放的与视频中的人的动作对应的语音来更好地学习视频中的人的动作。
[0102]
图7示出根据本发明的实施例的游戏类场景下的示意图。
[0103]
在图7的游戏类(例如,赛车游戏“grid racer game”)场景中,用户在图像帧中感兴趣的对象可以是视频中的指示标志。这里,通过大数据中其他玩家玩后发布的视频经由预先的ai学习(例如,预先训练的图像识别模型)得到指示标志

提示文字库,并且经过合成后转为语音。当从播放的与游戏相关的视频的图像帧识别到指示标志,输出与指示标志对应的提示语音(例如,语音“立即向右转弯”)。
[0104]
此外,可根据用户数据模型确定用户的级别。这里,用户的级别可指示用户玩的水平。如果确定的用户的级别指示用户玩的不好,则可降低视频的播放速度,使得用户可以跟上视频的播放速度。如果确定的用户的级别指示用户玩的较好,则可不改变视频的播放速度。
[0105]
图8示出根据本发明的实施例的视频解说场景下的示意图。
[0106]
在图8的视频解说场景中,当用户在看一个跳水比赛视频时候,用户在图像帧中感兴趣的对象可以是视频中的人的动作。在这种情况下,可通过ai技术从视频的图像帧识别人的动作(例如,向前弯曲一圈半)并与确定与人的动作对应的语音,从而可以在向用户播放视频的同时,播放与视频中的人的动作对应的语音。因此,用户在观看时可根据播放的与视频中的人的动作对应的语音来更好地了解视频中的人的动作。
[0107]
图9示出根据本发明的实施例的视频播放装置。
[0108]
参照图9,视频播放装置900可包括图像帧获取单元910、感兴趣对象识别单元920、语音确定单元930和播放单元940。视频播放装置900可被配置为执行参照图1至8描述的任一方法。
[0109]
这里,图像帧获取单元910可被配置为获取视频的多个图像帧。感兴趣对象识别单元920可被配置为从多个图像帧识别感兴趣对象。语音确定单元930被配置为确定与感兴趣对象对应的语音。播放单元940可被配置为在向用户播放视频的同时,播放与感兴趣对象对
应的语音。
[0110]
上面已经结合图1至图8中的至少一个描述了由图像帧获取单元910执行的获取视频的多个图像帧的方法、由感兴趣对象识别单元920执行的从多个图像帧识别感兴趣对象的方法、由语音确定单元930执行的确定与感兴趣对象对应的语音的方法和由播放单元940执行的在向用户播放视频的同时播放与感兴趣对象对应的语音的方法。因此,为了简明和不必要的冗余描述,将省略对图像帧获取单元910、感兴趣对象识别单元920、语音确定单元930和播放单元940所执行的方法的具体描述。
[0111]
图10示出根据本发明的实施例的计算装置的框图。
[0112]
参照图10,根据本发明的实施例的计算装置1000可包括处理器1010和存储器1020。这里,存储器1020存储有计算机程序,其中,该计算机程序在被处理器1010执行时实现参照图1至图8描述的任意方法。为了简明,这里不再重复描述由处理器1010执行的参照图1至图8描述的任意方法。
[0113]
此外,根据本发明示例性实施例的方法可以被实现为计算机可读记录介质中的计算机程序。本领域技术人员可以根据对上述方法的描述来实现所述计算机程序。当所述计算机程序在计算机中被执行时实现本发明的任意视频播放方法。
[0114]
根据本发明的示例性实施例,可提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序在被处理器执行时使得处理器实现本申请中所公开的任一方法。例如,在所述计算机程序被处理器执行时使得处理器执行以下步骤:获取视频的多个图像帧;从多个图像帧识别感兴趣对象;确定与感兴趣对象对应的语音;在向用户播放视频的同时,播放与感兴趣对象对应的语音。
[0115]
此外,应该理解,根据本发明示例性实施例的设备中的各个单元可被实现硬件组件和/或软件组件。本领域技术人员根据限定的各个单元所执行的处理,可以例如使用现场可编程门阵列(fpga)或专用集成电路(asic)来实现各个单元。
[0116]
本发明的视频播放方法可以使用户在观看视频的画面的同时听到与视频中的与感兴趣对象对应的语音。因此,用户能更好地了解和/或学习视频的内容。
[0117]
此外,本发明的视频播放方法可将视频的图像帧和与感兴趣对象对应的语音合成在一起而形成一个新的视频。因此,用户可以自动获得具有智能配音的新视频,而无需其他手动操作。
[0118]
此外,本发明的视频播放方法可以在播放视频的时候根据用户的动作来自动调整视频的播放速率,所以用户无需进行手动调整视频播放速度,就可以使得自己可以看得懂或者跟的上视频的播放速度。
[0119]
此外,本发明的视频播放方法可以在感兴趣对象对应于多个候选对象时为用户提供排除用户不感兴趣和/或不需要的一个或多个候选对象的功能,因此,能大大提高用户体验。此外,由于仅保留一个候选对象作为感兴趣对象,因此,可准确地确定与感兴趣对象对应的语音,从而使与用户感兴趣的感兴趣对象的语音能够准确地被播放。
[0120]
虽然本公开包括特定的示例,但是对于本领域普通技术人员来说将清楚,在不脱离权利要求和它们的等同物的精神和范围的情况下,可在这些示例中进行形式和细节上的各种改变。在此描述的示例应仅被认为是描述性的,而不是出于限制的目的。每个示例中的特征或方面的描述应被认为可适用于其他示例中的类似特征或方面。如果描述的技术以不
同的顺序被执行,和/或如果描述的系统、架构、装置或电路中的组件以不同的方式被组合,和/或由其他组件或它们的等同物替换或补充,则可实现合适的结果。因此,公开的范围不是由具体实施方式限定,而是由权利要求及它们的等同物限定,并且在权利要求及它们的等同物的范围内的所有变化应被解释为包括在公开中。
当前第1页1 2 3 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1