本发明涉及视频处理相关技术领域,尤其是指基于场景的移动视频智能播放交互控制方法。
背景技术:
视频(Video)泛指将一系列静态影像以电信号的方式加以捕捉、纪录、处理、储存、传送与重现的各种技术。连续的图像变化每秒超过24帧(frame)画面以上时,根据视觉暂留原理,人眼无法辨别单幅的静态画面;看上去是平滑连续的视觉效果,这样连续的画面叫做视频。视频技术最早是为了电视系统而发展,但现在已经发展为各种不同的格式以利消费者将视频记录下来。网络技术的发达也促使视频的纪录片段以串流媒体的形式存在于因特网之上并可被电脑接收与播放。视频与电影属于不同的技术,后者是利用照相术将动态的影像捕捉为一系列的静态照片。
一直以来视频的播放是一个被动孤立的过程,视频界面和观看者之间毫无联系。视频本身无法感知观看者的存在,因此缺乏互动,无法让播放过程变得更加有趣。视频播放状态的每一次变化都必须由观看者手动触发,所谓的播放交互控制都是人为干预的结果。
技术实现要素:
本发明是为了克服现有技术中存在上述的不足,提供了一种能够实现视频与观看者之间交互的基于场景的移动视频智能播放交互控制方法。
为了实现上述目的,本发明采用以下技术方案:
基于场景的移动视频智能播放交互控制方法,采用智能移动设备通过预设场景结合对外部对象的识别及内部状态的感知,自动匹配并输出交互行为,实现对视频播放的智能控制,具体包括如下预设场景:
(1)用户连续观看视频超过一定时间,产生一次交互行为;
(2)视频播放过程中,手机设备检测到人脸消失,产生交互行为;
(3)视频播放中,用户未以正确的姿势观看视频,产生交互行为;
(4)视频播放中,在检测到人脸消失后,恢复检测到人脸,产生交互行为;
(5)通过对播放器状态的感知,针对不同的状态,产生不同的交互行为;
(6)通过对智能移动设备屏幕角度的识别,产生交互行为;
其中:所述的智能移动设备包括智能手机、平板电脑和笔记本电脑,所述的智能移动设备上设有摄像头。
本专利致力于寻求在视频播放和观看者之间建立起某种联系,并基于某些预设场景,自动形成对视频与观看者之间的交互及对视频播放过程的智能控制。本发明带来了一种更加有趣、人性化的播放体验,在不干扰用户观看视频的前提下,整个播放过程变得更加活泼不再枯燥,特别针对情节性较弱的视频(例如教学视频),提示了用户观看兴趣。同时,离开自动暂停、进入自动播放的能力及各种状态的友好提示,极大的提升了对用户的人文关怀,在播放的智能化、交互的多样化影响下,使得视频观看体验达到一种前所未有的高度。
作为优选,在预设场景(1)中,所述的智能移动设备内设有连续观看视频时长的时长阈值和用户头像各角度的角度阈值,首先,通过智能移动设备上的摄像头结合人脸识别技术,对用户头像识别结果的角度进行计算,根据计算结果可以得出侧脸、抬头及低头的角度,在设定的角度阈值内则认为是有效观看,精确判断用户观看视频的姿势是否处于有效观看状态,如果处于有效观看状态,则进行观看时长的记录与追踪;如果不处于有效观看状态,则继续通过人脸识别技术对用户观看视频的姿势进行判断;之后,通过对人脸的连续识别追踪,计算观看时长,如果连续有效的识别观看时长达到设定的时长阈值,则进行交互行为;如果没有连续处于有效观看状态,则继续通过人脸识别技术对用户观看视频的姿势进行判断。
作为优选,在预设场景(2)中,所述的智能移动设备内设有人脸识别的检测周期和用于限定检测周期次数的检测量X,首先,通过智能移动设备上的摄像头结合人脸识别技术,确定检测到用户的人脸;之后,在设定的检测周期内无法检测到人脸,并持续经历X个检测周期都无法检测到人脸,则认为无人在观看视频,进行交互行为,同时视频会被自动暂停。
作为优选,在预设场景(3)中,所述的智能移动设备内设有用户头像各角度的角度阈值和人脸面积与屏幕面积之比的比例上限阈值N和比例下限阈值M,通过智能移动设备上的摄像头结合人脸识别技术,对用户头像识别结果的角度进行计算,根据计算结果可以得出侧脸、抬头及低头的角度,大于设定的角度阈值则认为是无效观看行为,则进行交互行为;通过智能移动设备上的摄像头结合人脸识别技术,计算识别出的人脸面积与屏幕面积的比例,并与设定的比例上限阈值N和比例下限阈值M进行比对,如果人脸面积与屏幕面积的比例大于比例上限阈值N,则认定为距离屏幕太近;如果人脸面积与屏幕面积的比例小于比例下限阈值M,则认定为距离屏幕太远;并进行交互行为。
作为优选,在预设场景(4)中,所述的智能移动设备内设有人脸识别的检测周期,通过智能移动设备上的摄像头结合人脸识别技术,在一个检测周期内,正确识别出人脸,则认为用户返回,暂停的视频自动继续播放,并进行交互行为。
作为优选,在预设场景(5)中,所述的播放器状态包括视频开始播放、视频暂停播放、视频结束播放、视频缓冲中和视频播放异常。
作为优选,在预设场景(6)中,所述的智能移动设备内设有屏幕倾斜角度的倾斜度阈值,利用智能设备上陀螺仪的动态感应,检测到屏幕向下的倾斜角度,当倾斜角度小于设置的倾斜度阈值,则认定用户不适合以该角度进行观看,并进行交互行为。
作为优选,所述的智能移动设备内设有交互数据库,所述的交互数据库内设有交互类型、交互行为和响应数据,所述的交互类型与预设场景相对应,所述的交互行为与响应数据相对应,其中:每个交互类型内含有若干交互行为,每个交互类型中选择的交互行为是随机的。需要强调的是:该交互数据库可由使用本发明的某些App内部预置的,同时该交互数据可以通过云端进行更新,使得交互行为可以在线更新,从而更加多样化。
作为优选,所述的交互行为包括控制视频的开始播放、暂停播放、继续播放、结束播放及展示的动画、语音、图片、文字或震动中的一种或多种。
作为优选,所述的图片包括静态图片和gif图片。
本发明的有益效果是:自动形成对视频与观看者之间的交互及对视频播放过程的智能控制,极大的提升了对用户的人文关怀,在播放的智能化、交互的多样化影响下,能够带来更好的用户体验。
具体实施方式
下面结合具体实施方式对本发明做进一步的描述。
基于场景的移动视频智能播放交互控制方法,采用智能移动设备通过预设场景结合对外部对象的识别及内部状态的感知,自动匹配并输出交互行为,实现对视频播放的智能控制,具体包括如下预设场景:
(1)用户连续观看视频超过一定时间,产生一次交互行为;
(2)视频播放过程中,手机设备检测到人脸消失,产生交互行为;
(3)视频播放中,用户未以正确的姿势观看视频,产生交互行为;
(4)视频播放中,在检测到人脸消失后,恢复检测到人脸,产生交互行为;
(5)通过对播放器状态的感知,针对不同的状态,产生不同的交互行为;
(6)通过对智能移动设备屏幕角度的识别,产生交互行为。
其中:智能移动设备包括智能手机、平板电脑和笔记本电脑,智能移动设备上设有摄像头。智能移动设备内设有交互数据库,交互数据库内设有交互类型、交互行为和响应数据,交互类型与预设场景相对应,交互行为与响应数据相对应,其中:每个交互类型内含有若干交互行为,每个交互类型中选择的交互行为是随机的。交互行为包括控制视频的开始播放、暂停播放、继续播放、结束播放及展示的动画、语音、图片、文字或震动中的一种或多种。图片包括静态图片和gif图片。需要强调的是:该交互数据库可由使用本专利的某些App内部预置的,同时该交互数据可以通过云端进行更新,使得交互行为可以在线更新,从而更加多样化。
在预设场景(1)中,智能移动设备内设有连续观看视频时长的时长阈值和用户头像各角度的角度阈值,首先,通过智能移动设备上的摄像头结合人脸识别技术,对用户头像识别结果的角度进行计算,根据计算结果可以得出侧脸、抬头及低头的角度,在设定的角度阈值内则认为是有效观看,精确判断用户观看视频的姿势是否处于有效观看状态,如果处于有效观看状态,则进行观看时长的记录与追踪;如果不处于有效观看状态,则继续通过人脸识别技术对用户观看视频的姿势进行判断;之后,通过对人脸的连续识别追踪,计算观看时长,如果连续有效的识别观看时长达到设定的时长阈值,则进行交互行为;如果没有连续处于有效观看状态,则继续通过人脸识别技术对用户观看视频的姿势进行判断。该场景提升了一些时间稍长但是又相对比较枯燥的视频观看体验。针对同一类场景,可以有多种交互行为定义,每次可以随机取一种,从用户角度来看每次的交互体验或感知都不一样。在本场景中的交互行为包括但不局限于提示文字、显示图片、显示动画及播放语音中的一个或者多个组合(图片包括静态图片、gif图片)。例如连续观看教学视频超过3分钟,提示用户“你很认真哦!”,并伴随动画或语音。
在预设场景(2)中,智能移动设备内设有人脸识别的检测周期和用于限定检测周期次数的检测量X,首先,通过智能移动设备上的摄像头结合人脸识别技术,确定检测到用户的人脸;之后,在设定的检测周期内无法检测到人脸,并持续经历X个检测周期都无法检测到人脸,则认为无人在观看视频,进行交互行为,同时视频会被自动暂停。本场景需要精确检测从有到无的过程,合理控制检测周期,当设定的多个检测周期都未能检测到人脸,则认定用户已经离开,同时匹配并输出交互行为。例如:做出“咦,你去哪啦?”或“亲,你还在吗?”等类似的提示,同时视频会被自动暂停,以免错过精彩片段。这样就解决了用户由于突发事件(例如接电话)需要离开,错过了精彩片段的情况。本场景中语音提示结合自动暂停视频能带来更好的用户体验。
在预设场景(3)中,智能移动设备内设有用户头像各角度的角度阈值和人脸面积与屏幕面积之比的比例上限阈值N和比例下限阈值M,通过智能移动设备上的摄像头结合人脸识别技术,对用户头像识别结果的角度进行计算,根据计算结果可以得出侧脸、抬头及低头的角度,大于设定的角度阈值则认为是无效观看行为,则进行交互行为;通过智能移动设备上的摄像头结合人脸识别技术,计算识别出的人脸面积与屏幕面积的比例,并与设定的比例上限阈值N和比例下限阈值M进行比对,如果人脸面积与屏幕面积的比例大于比例上限阈值N,则认定为距离屏幕太近;如果人脸面积与屏幕面积的比例小于比例下限阈值M,则认定为距离屏幕太远;并进行交互行为。可以看出正常观看的人脸识别结果,采集到的“眼睛”部位特征关键点几乎是在一条水平线上的,但是侧脸的图谱中采集到的特征关键点存在一定的角度,通过对这个角度的计算及与角度阈值的比较才可以判断出是否处于有效观看状态。例如:做出“看哪呢?”等类似的提示。
在预设场景(4)中,智能移动设备内设有人脸识别的检测周期,通过智能移动设备上的摄像头结合人脸识别技术,在一个检测周期内,正确识别出人脸,则认为用户返回,暂停的视频自动继续播放,并进行交互行为。例如:提示文字“小主人,我想死你了!”等类似的提示。
在预设场景(5)中,播放器状态包括视频开始播放、视频暂停播放、视频结束播放、视频缓冲中和视频播放异常。例如:提示文字“缓冲中”等类似的提示。
在预设场景(6)中,智能移动设备内设有屏幕倾斜角度的倾斜度阈值,利用智能设备上陀螺仪的动态感应,检测到屏幕向下的倾斜角度,当倾斜角度小于设置的倾斜度阈值,则认定用户不适合以该角度进行观看,并进行交互行为。本场景的交互行为包括但不限于手机震动、动画、文字、语音提示等。例如:提示文字“你躺着看的吗?”等类似的提示。
本文中提到的人脸识别技术,采用了特征脸方法,其基本思想是:寻找人脸图像分布的基本元素,即人脸图像样本集协方差矩阵的特征向量,以此近似地表征人脸图像,这些特征向量称为特征脸。实际上,特征脸反映了隐含在人脸样本集合内部的信息和人脸的结构关系。将眼睛、面颊、下颌的样本集协方差矩阵的特征向量称为特征眼、特征颌和特征唇,统称特征子脸。特征子脸在相应的图像空间中生成子空间,称为子脸空间。计算出测试图像窗口在子脸空间的投影距离,若窗口图像满足阈值比较条件,则判断其为人脸。
特征脸的方法,是先确定眼虹膜、鼻翼、嘴角等面像五官轮廓的大小、位置、距离等属性,然后再计算出它们的几何特征量,而这些特征量形成一描述该面像的特征向量。其技术的核心实际为“局部人体特征分析”,最终它根据一组人脸训练图像构造主元子空间,由于主元具有脸的形状,也称为特征脸,识别时将测试图像投影到主元子空间上,得到一组投影系数,和各个已知人的人脸图像比较进行识别。据统计:在200个人的3000幅图像中得到95%的正确识别率。本发明利用采集到的上千万张6-12岁年龄段孩子的不同特征脸,并依此进行训模,极大的增加了特征脸的数据库整体基数,使得在这个年龄段的识别率达到了99.9%。
本发明带来了一种更加有趣、人性化的播放体验,在不干扰用户观看视频的前提下,整个播放过程变得更加活泼不再枯燥,特别针对情节性较弱的视频(例如教学视频),提示了用户观看兴趣。同时,离开自动暂停、进入自动播放的能力及各种状态的友好提示,极大的提升了对用户的人文关怀,在播放的智能化、交互的多样化影响下,使得视频观看体验达到一种前所未有的高度。