一种视频画面的定位方法、相关装置、设备及存储介质与流程

文档序号：27238418发布日期：2021-11-03 18:47阅读：222来源：国知局

1.本技术涉及人工智能领域，尤其涉及一种视频画面的定位方法、相关装置、设备及存储介质。

背景技术：

2.随着社会的发展进步和科技创新，多媒体技术也呈现出突飞猛进的发展。集计算机技术、通信技术以及电视技术为一体的多媒体技术已经与人们的日常生活密不可分。其中，视频作为常见的多媒体形式，具有很好的娱乐性和传播性。
3.当用户需要查看视频中的某个片段时，可以在视频播放器提供的进度条上进行拖动操作，并且显示播放位置对应的视频画面缩略图。基于此，通过视频画面缩略图帮助用户快速定位到某个一时间点位置。
4.然而，通过视频画面缩略图进行定位的方式较为繁琐，而且容易错过用户想要的视频画面缩略图，导致定位准确度较低。此外，如果视频是演讲视频或者会议视频等画面内容差异不大的视频，那么很难通过视频画面缩略图定位到准确的时间点。

技术实现要素：

5.本技术实施例提供了一种视频画面的定位方法、相关装置、设备及存储介质，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
6.有鉴于此，本技术一方面提供一种视频画面的定位方法，包括：
7.接收终端设备发送的搜索信息，其中，搜索信息为搜索文本或搜索语音；
8.将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
9.若匹配分值满足匹配条件，则确定目标关联文本所对应的时间信息；
10.向终端设备发送目标关联文本所对应的时间信息以及目标关联文本，以使终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
11.本技术另一方面提供一种视频画面的定位方法，包括：
12.获取搜索信息，其中，搜索信息为搜索文本或搜索语音；
13.向服务器发送搜索信息，以使服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
14.若匹配分值满足匹配条件，则接收服务器发送的目标关联文本所对应的时间信息以及目标关联文本；
15.根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
16.本技术另一方面提供一种视频画面定位装置，包括：
17.获取模块，用于接收终端设备发送的搜索信息，其中，搜索信息为搜索文本或搜索语音；
18.匹配模块，用于将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
19.确定模块，用于若匹配分值满足匹配条件，则确定目标关联文本所对应的时间信息；
20.发送模块，用于向终端设备发送目标关联文本所对应的时间信息以及目标关联文本，以使终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
21.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，视频画面定位装置还包括识别模块以及存储模块；
22.识别模块，用于在匹配模块将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，针对于目标视频，若目标视频包括字幕信息，则对目标视频中的字幕信息进行光学字符识别ocr处理，得到关联文本；
23.获取模块，还用于获取关联文本所对应的时间信息；
24.存储模块，用于将关联文本以及关联文本所对应的时间信息存储于索引库。
25.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，
26.匹配模块，具体用于根据搜索信息生成第一文本序列，其中，第一文本序列包括m个字符，m为大于或等于1的整数；
27.根据目标视频的目标关联文本生成第二文本序列，其中，第二文本序列包括n个字符，n为大于或等于1的整数；
28.根据第一文本序列以及第二文本序列，构建字符矩阵；
29.从字符矩阵中确定最大路径所对应的累计操作数；
30.将累计操作数与m之间的比值作为匹配分值。
31.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，
32.匹配模块，具体用于根据搜索信息生成第一文本序列，其中，第一文本序列包括r个词语，r为大于或等于1的整数；
33.根据目标视频的目标关联文本生成第二文本序列，其中，第二文本序列包括t个词语，t为大于或等于1的整数；
34.根据第一文本序列以及第二文本序列，确定词语集合，其中，词语集合为r个词语与t个词语的并集；
35.根据词语集合以及第一文本序列，确定第一词频向量；
36.根据词语集合以及第二文本序列，确定第二词频向量；
37.将第一词频向量与第二词频向量之间的余弦相似度作为匹配分值。
38.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，视频画
面定位装置还包括识别模块以及存储模块；
39.识别模块，用于在匹配模块将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，针对于目标视频，若目标视频包括语音信息，则对目标视频中的语音信息进行自动语音识别asr处理，得到关联文本；
40.获取模块，还用于获取关联文本所对应的时间信息；
41.存储模块，用于将关联文本以及关联文本所对应的时间信息存储于索引库。
42.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，
43.匹配模块，具体用于根据搜索信息生成第一音素序列，其中，第一音素序列包括p个音素，p为大于或等于1的整数；
44.根据目标视频的目标关联文本生成第二音素序列，其中，第二音素序列包括q个音素，q为大于或等于1的整数；
45.根据第一音素序列以及第二音素序列，构建音素矩阵；
46.从音素矩阵中确定最大路径所对应的累计操作数；
47.将累计操作数与p之间的比值作为匹配分值。
48.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，视频画面定位装置还包括识别模块以及存储模块；
49.识别模块，用于在匹配模块将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，针对于目标视频，对目标视频中的视频帧进行图像识别处理，得到关联文本；
50.获取模块，还用于获取关联文本所对应的时间信息；
51.存储模块，用于将关联文本以及关联文本所对应的时间信息存储于索引库。
52.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，
53.匹配模块，具体用于基于搜索信息，通过语义匹配模型所包括的输入层，获取第一词向量；
54.基于目标视频的目标关联文本，通过语义匹配模型所包括的输入层，获取第二词向量；
55.基于第一词向量，通过语义匹配模型所包括的表示层，获取第一语义向量；
56.基于第二词向量，通过语义匹配模型所包括的表示层，获取第二语义向量；
57.基于第一语义向量以及第二语义向量，通过语义匹配模型所包括的匹配层，获取余弦距离，并将余弦距离作为匹配分值。
58.本技术另一方面提供一种视频画面定位装置，包括：
59.获取模块，用于获取搜索信息，其中，搜索信息为搜索文本或搜索语音；
60.发送模块，用于向服务器发送搜索信息，以使服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
61.获取模块，还用于若匹配分值满足匹配条件，则接收服务器发送的目标关联文本所对应的时间信息以及目标关联文本；
62.展示模块，用于根据目标关联文本所对应的时间信息以及目标关联文本，展示目
标视频的画面定位结果。
63.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，
64.获取模块，具体用于提供文本输入区域；
65.通过文本输入区域接收针对于目标视频的搜索文本；
66.或，
67.启动语音采集设备；
68.通过语音采集设备接收针对于目标视频的搜索语音。
69.在一种可能的设计中，在本技术实施例的另一方面的另一种实现方式中，
70.展示模块，用于提供播放进度条；
71.根据目标关联文本所对应的时间信息，在播放进度条上显示时间点标识，其中，时间点标识属于画面定位结果；
72.在时间点标识所对应的文本展示区域内，突出显示目标关联文本，其中，目标关联文本属于画面定位结果。
73.本技术另一方面提供一种计算机设备，包括：存储器、处理器以及总线系统；
74.其中，存储器用于存储程序；
75.处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；
76.总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。
77.本技术另一方面提供一种服务器，包括：存储器、处理器以及总线系统；
78.其中，存储器用于存储程序；
79.处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；
80.总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。
81.本技术另一方面提供一种终端设备，包括：存储器、处理器以及总线系统；
82.其中，存储器用于存储程序；
83.处理器用于执行存储器中的程序，处理器用于根据程序代码中的指令执行上述各方面的方法；
84.总线系统用于连接存储器以及处理器，以使存储器以及处理器进行通信。
85.本技术的另一方面提供了一种计算机可读存储介质，计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述各方面的方法。
86.本技术的另一个方面，提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行上述各方面所提供的方法。
87.从以上技术方案可以看出，本技术实施例具有以下优点：
88.本技术实施例中，提供了一种视频画面的定位方法，首先接收终端设备发送的搜索信息，然后将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，如果匹配分值满足匹配条件，则确定目标关联文本所对应的时间信息，
最后向终端设备发送目标关联文本所对应的时间信息以及目标关联文本，由终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。通过上述方式，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以搜索出目标关联文本的出现时间和出现位置等，便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
附图说明
89.图1为本技术实施例中视频画面定位系统的一个架构示意图；
90.图2为本技术实施例中视频画面定位方法的一个流程示意图；
91.图3为本技术实施例中视频画面的定位方法的一个实施例示意图；
92.图4为本技术实施例中语义匹配模型的一个结构示意图；
93.图5为本技术实施例中视频画面的定位方法的另一个实施例示意图
94.图6为本技术实施例中展示文本输入区域的一个界面示意图；
95.图7为本技术实施例中展示语音输入提示的一个界面示意图；
96.图8为本技术实施例中展示画面定位结果的一个界面示意图；
97.图9为本技术实施例中跳转至时间点标识对应视频画面的一个界面示意图；
98.图10为本技术实施例中视频画面定位装置的一个示意图；
99.图11为本技术实施例中视频画面定位装置的另一个示意图；
100.图12为本技术实施例中服务器的一个结构示意图；
101.图13为本技术实施例中终端设备的一个结果示意图。
具体实施方式
102.本技术实施例提供了一种视频画面的定位方法、相关装置、设备及存储介质，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
103.本技术的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本技术的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“对应于”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
104.互联网上的多媒体数据包括视频、音乐以及文字等，由于数据不断增长而成为持续热门研究的对象。其中，尤其以视频的飞速增长作为明显，如何高效地浏览视频内容，对于发现潜在可利用价值而言至关重要。视频泛指将一系列静态影像以电信号的方式加以捕捉、记录、处理、储存、传送与重现的各种技术。常见的视频内容包含但不仅限于电视剧、电影、综艺、体育赛事、动漫、纪录片、新闻以及音乐影片等，用户在观看视频的过程中，可以通
过快进或者拖动进度条的方式查看视频中某个时间点所对应的视频画面，即继续从该时间点开始继续播放视频内容。
105.为了提升视频画面定位的准确性以及提升搜索的效率，本技术提出了一种视频画面的定位方法，该方法应用于图1所示的视频画面定位系统，如图所示，视频画面定位系统包括服务器和终端设备，且客户端部署于终端设备上，该客户端具体可以是播放器，包含但不仅限于网页端播放器、移动端播放器、电视端播放器以及电脑端播放器等。本技术涉及的服务器可以是独立的物理服务器，也可以是多个物理服务器构成的服务器集群或者分布式系统，还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(content delivery network，cdn)、以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备可以是智能手机、平板电脑、笔记本电脑、掌上电脑、个人电脑、智能电视、智能手表等，但并不局限于此。终端设备以及服务器可以通过有线或无线通信方式进行直接或间接地连接，本技术在此不做限制。服务器和终端设备的数量也不做限制。
106.可以理解的是，本技术提供的视频画面定位方法可采用基于人工智能(artificial intelligence，ai)的计算机视觉技术(computer vision，cv)、语音技术(speech technology)以及自然语言处理(nature language processing，nlp)。其中，人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说，人工智能是计算机科学的一个综合技术，它企图了解智能的实质，并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法，使机器具有感知、推理与决策的功能。
107.人工智能技术是一门综合学科，涉及领域广泛，既有硬件层面的技术也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
108.计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取信息的人工智能系统。计算机视觉技术通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别(optical character recognition，ocr)、视频处理、视频语义理解、视频内容/行为识别、三维物体重建、3d技术、虚拟现实、增强现实、同步定位与地图构建等技术，还包括常见的人脸识别、指纹识别等生物特征识别技术。
109.语音技术的关键技术有自动语音识别技术(automatic speech recognition，asr)、语音合成技术(text to speech，tts)以及声纹识别技术。让计算机能听、能看、能说、能感觉，是未来人机交互的发展方向，其中语音成为未来最被看好的人机交互方式之一。
110.自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此，这一领域的研究将涉及自然语言，即人们日常
使用的语言，所以它与语言学的研究有着密切的联系。自然语言处理技术通常包括文本处理、语义理解、机器翻译、机器人问答、知识图谱等技术。
111.基于上述介绍以及图1对应的视频画面定位系统，请参阅图2，图2为本技术实施例中视频画面定位方法的一个流程示意图，如图所示，具体地：
112.在步骤s1中，针对于有字幕的视频而言，服务器可以采用ocr技术对视频中的字幕文本进行匹配，并且确定对应的画面时间点。
113.在步骤s2中，针对于有字幕的视频而言，服务器可以采用asr技术将视频中的语音内容转化为文字，然后对该文字进行匹配，并且确定对应的画面时间点。需要说明的是，步骤s1与步骤s2为可选的两种处理方式，此处不做限定。
114.在步骤s3中，针对于无字幕的视频而言，服务器可以采用asr技术将视频中的语音内容转化为文字，然后对该文字进行匹配，并且确定对应的画面时间点。
115.在步骤s4中，服务器分离出字幕文本，该文本带时间轴信息。
116.在步骤s5中，在已完成识别文本的视频中，通过在终端设备部署的客户端中嵌入搜索组件，可基于搜索组件进行文本输入与搜索。
117.在步骤s6中，用户输入搜索信息，当服务器在接收到这该搜索信息时，在储存的关联文本中进行搜索，查找到该视频中与搜索信息相关的词条或句子，以及关联的时间信息，服务器将这些信息发送给终端设备。
118.在步骤s7中，终端设备通过播放器，在进度条上展示检索的字幕文本。
119.在步骤s8中，终端设备基于关联文本对应的时间信息，在进度条显示关联文本对应的时间节点。
120.在步骤s9中，用户通过终端设备上的播放器，点击进度条可跳转关联文本所在时间点，其中，关联文本具体可以是字幕或者是语音。
121.结合上述介绍，下面将对本技术中视频画面的定位方法进行介绍，请参阅图3，本技术实施例中视频画面定位方法的一个实施例包括：
122.101、服务器接收终端设备发送的搜索信息，其中，搜索信息为搜索文本或搜索语音；
123.本实施例中，终端设备获取的搜索信息，该搜索信息可以是搜索文本，或者是搜索语音。由终端设备向服务器发送搜索信息。具体地，在一个示例中，当终端设备播放目标视频时，用户可直接在终端设备上输入搜索信息。在另一个示例中，用户可以在列表中选择一个视频作为目标视频，选中目标视频之后，在终端设备上输入搜索信息。在另一示例中，用户可以输入搜索信息，服务器从视频数据库中选择任意一个视频作为目标视频，并将搜索信息与目标视频进行匹配。
124.102、服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
125.本实施例中，服务器存储一个索引库，索引库中存储有k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，其中，关联文本可以是采用ocr技术识别得到的字幕文本，或者是经过asr技术识别得到的字幕文本，又或者是采用图像识别技术识别得到的文本。服务器可以将搜索信息与索引库中目标视频所对应的每个关联文本进行匹
配，分别得到搜索信息与每个关联文本之间的匹配分值，为了便于说明，本技术以多个关联文本中的目标关联文本为例进行介绍，在实际情况下，目标关联文本可以是任意一个关联文本，也可以是与搜索信息匹配程度最高的一个关联文本，此处不做限定。
126.可以理解的是，索引库即为一种数据库(database)，数据库简而言之可视为电子化的文件柜——存储电子文件的处所，用户可以对文件中的数据进行新增、查询、更新、删除等操作。所谓“数据库”是以一定方式储存在一起、能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合。数据库管理系统(database management system，dbms)是为管理数据库而设计的电脑软件系统，一般具有存储、截取、安全保障、备份等基础功能。数据库管理系统可以依据它所支持的数据库模型来作分类，例如关系式、xml(extensible markup language,即可扩展标记语言)；或依据所支持的计算机类型来作分类，例如服务器群集、移动电话；或依据所用查询语言来作分类，例如结构化查询语言(structured query language，sql)、xquery；或依据性能冲量重点来作分类，例如最大规模、最高运行速度；亦或其他的分类方式。不论使用哪种分类方式，一些dbms能够跨类别，例如，同时支持多种查询语言。
127.需要说明的是，由于视频数量较多，且每个视频往往包含大量关联文本，因此，可基于云技术(cloud technology)将每个视频中关联文本及其对应时间信息都存储至云端，实现云存储(cloud storage)。其中，云技术是指在广域网或局域网内将硬件、软件、网络等系列资源统一起来，实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称，可以组成资源池，按需所用，灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源，如视频网站、图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用，将来每个物品都有可能存在自己的识别标志，都需要传输到后台系统进行逻辑处理，不同程度级别的数据将会分开处理，各类行业数据皆需要强大的系统后盾支撑，只能通过云计算来实现。
128.云存储(cloud storage)是在云计算概念上延伸和发展出来的一个新的概念，分布式云存储系统(以下简称存储系统)是指通过集群应用、网格技术以及分布存储文件系统等功能，将网络中大量各种不同类型的存储设备(存储设备也称之为存储节点)通过应用软件或应用接口集合起来协同工作，共同对外提供数据存储和业务访问功能的一个存储系统。目前，存储系统的存储方法为：创建逻辑卷，在创建逻辑卷时，就为每个逻辑卷分配物理存储空间，该物理存储空间可能是某个存储设备或者某几个存储设备的磁盘组成。客户端在某一逻辑卷上存储数据，也就是将数据存储在文件系统上，文件系统将数据分成许多部分，每一部分是一个对象，对象不仅包含数据而且还包含数据标识(id entity，id)等额外的信息，文件系统将每个对象分别写入该逻辑卷的物理存储空间，且文件系统会记录每个对象的存储位置信息，从而当客户端请求访问数据时，文件系统能够根据每个对象的存储位置信息让客户端对数据进行访问。
129.存储系统为逻辑卷分配物理存储空间的过程，具体为：按照对存储于逻辑卷的对象的容量估量(该估量往往相对于实际要存储的对象的容量有很大余量)和独立冗余磁盘阵列(redundant array of independent disk，raid)的组别，预先将物理存储空间划分成分条，一个逻辑卷可以理解为一个分条，从而为逻辑卷分配了物理存储空间。
130.103、若匹配分值满足匹配条件，则服务器确定目标关联文本所对应的时间信息；
131.本实施例中，服务器将搜索信息与索引库中目标关联文本进行匹配，从而得到匹配分值，其中，匹配分值可以是0至1的分数，也可以采用其他的表示方式，此处不做限定。假设匹配分值为余弦距离或者莱文斯坦(levenshtein)，则匹配分值越小，表示匹配程度越高，此时，如果匹配分值小于或等于匹配阈值，则匹配分值满足匹配条件。假设匹配分值为余弦相似度，则匹配分值越大，表示匹配程度越高，此时，如果匹配分值大于或等于匹配阈值，则匹配分值满足匹配条件。
132.具体地，当匹配分值满足匹配条件时，确定该目标关联文本与搜索信息匹配成功。于是，服务器基于索引库获取目标关联文本在目标视频中的出现时间，该出现时间即为目标关联文本所对应的时间信息，例如，目标关联文本的时间信息可表示为“15分09秒”，又例如，将目标视频中的每帧画面按顺序进行编号，目标关联文本所对应的时间信息可表示为“25691”，即目标视频中的第25691帧。
133.104、服务器向终端设备发送目标关联文本所对应的时间信息以及目标关联文本，以使终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
134.本实施例中，服务器向终端设备发送针对于目标视频的画面定位结果，其中，画面定位结果包括目标关联文本及其对应的时间信息，由此，终端设备可通过客户端(或播放器)展示目标关联文本及其对应的时间信息。用户在客户端上能够直接查看与搜索信息相关的画面定位结果。
135.具体地，为了便于理解，下面将以一个示例进行说明，假设用户在观看目标视频(例如，纪录片a)时，通过终端设备输入的搜索信息为一个搜索文本，该搜索文本为“转笔”，将搜索文本与索引库中目标视频的每个关联文本进行匹配，以目标关联文本为“跟转笔一样”为例，此时，搜索文本与目标关联文本匹配成功，于是，服务器将目标关联文本所对应的时间信息以及目标关联文本发送至终端设备，终端设备通过播放器展示目标关联文本以及时间信息。
136.本技术实施例中，提供了一种视频画面的定位方法，通过上述方式，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以搜索出目标关联文本的出现时间和出现位置等，便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
137.可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，还可以包括：
138.针对于目标视频，若目标视频包括字幕信息，则服务器对目标视频中的字幕信息进行光学字符识别ocr处理，得到关联文本；
139.服务器获取关联文本所对应的时间信息；
140.服务器将关联文本以及关联文本所对应的时间信息存储于索引库。
141.本实施例中，介绍了一种采用ocr识别技术对目标视频中字幕信息进行识别的方式。为了便于说明，以目标视频为例进行介绍，如果目标视频包括字幕信息，则服务器采用
ocr技术对字幕信息进行识别，从而得到关联文本。ocr主要由以下几个部分组成。
142.一、图像输入和预处理；
143.对于不同的图像格式，有着不同的存储格式，不同的压缩方式。预处理：主要包括二值化和噪声去除等。其中，对摄像头拍摄的图片大多数是彩色图像，彩色图像所含信息量巨大，对于图片的内容，可以简单的分为前景与背景，为了让计算机更快更好的识别文字，需要先对彩色图进行处理，使图片只前景信息与背景信息，将前景信息设置为黑色，将背景信息设置为白色，得到二值化图。其中，根据噪声的特征进行去噪，就叫做噪声去除。
144.二、版面分析；
145.将文档图片分段落，分行的过程就叫做版面分析。
146.三、字符切割；
147.由于拍照条件的限制，经常造成字符粘连或断笔，因此，极大限制了识别系统的性能，需要具备字符切割功能。
148.四、字符识别；
149.可采用模板匹配，或者以特征提取为主，由于文字的位移，笔画的粗细、断笔、粘连以及旋转等因素的影响，极大影响特征的提取的难度。
150.五、后处理和校对；
151.根据特定的语言上下文的关系，对识别结果进行较正。
152.具体地，假设目标视频包括200句字幕信息，分别对每句字幕信息进行识别，即得到200个关联文本，其中，200个关联文本中包括目标关联文本，且该目标关联文本可以是200个关联文本中的任意一个关联文本，即后续与搜索信息进行匹配的一个关联文本。接下来，服务器还需要分别获取每个关联文本所对应的时间信息，从而将关联文本以及关联文本所对应的时间信息存储于索引库。
153.为了便于理解，请参阅表1，表1为索引库中关联文本及其时间信息之间的一个示意。
154.表1
155.关联文本时间信息十年一度的海洋运动会又开始了12683这是海洋动物祖先遗留下来的一个传统“习俗”12793让我们先把镜头聚焦在这只可爱的蓝鲸身上13232它正要去参加海洋运动会中巨型鲸组的速游比赛13555蓝鲸是海洋中的几种大型动物之一14000别看它个头大，可性格温顺呢14385它捕食的时候，先猛吸一口，吸进很多水15675
156.由表1可知，每个关联文本对应一个时间信息，表1中的时间信息表示该关联文本出现在目标视频中的时间点，例如，关联文本为“十年一度的海洋运动会又开始了”出现在目标视频的第12683帧，这句话可以持续50帧，需要说明的是，本技术关注的是关联文本出现的第一帧。
157.其次，本技术实施例中，提供了一种采用ocr识别技术对目标视频中字幕信息进行识别的方式，通过上述方式，对于有字幕文本的视频而言，可优先识别出字幕文本的内容，
将该内容作为关联文本以进行后续的匹配处理，从而提升匹配的准确度。
158.可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，具体可以包括：
159.服务器根据搜索信息生成第一文本序列，其中，第一文本序列包括m个字符，m为大于或等于1的整数；
160.服务器根据目标视频的目标关联文本生成第二文本序列，其中，第二文本序列包括n个字符，n为大于或等于1的整数；
161.服务器根据第一文本序列以及第二文本序列，构建字符矩阵；
162.服务器从字符矩阵中确定最大路径所对应的累计操作数；
163.服务器将累计操作数与m之间的比值作为匹配分值。
164.本实施例中，介绍了一种基于ocr识别采用莱文斯坦距离进行匹配的方式。考虑到ocr可能存在一定的错误率，因此，在字幕检索时，可以将搜索信息转换为第一文本序列，再与关联文本所对应的第二文本序列进行对齐，在允许一定的误差情况下进行模糊匹配之后，向终端设备返回对应的目标关联文本及其时间信息。
165.可采用莱文斯坦距离量化两个字符串之间的相似性，也就是将一个字符串通过插入(insertion)、删除(deletion)以及替换(substitution)字符，转化成另一个字符串需要的最少编辑次数，本技术定义将插入、删除和替换的三种操作代价都定为数值1。编辑距离越小，说明两个字符串越相似。其中，莱文斯坦距离允许插入、删除和替换操作，表示两个字符串差异的大小。为了便于理解，请参阅如下的莱文斯坦距离计算公式：
[0166][0167]
其中，a表示第一文本序列，b表示第二文本序列，i表示lev
a,b(i,j)
表示第一文本序列中的前i个字符和第二文本序列中的前j个字符之间的距离，表示当a
i
≠b
j
时值为1，否则表示值为0的示性函数。
[0168]
具体地，第一文本序列包括m个字符，第二文本序列包括n个字符，算法核心在于对齐第一文本序列中每个字符与第二文本序列中的每个字符。假设搜索信息为“各位同事大家好”，目标关联文本为“各位同学大家好啊”，基于此，采用上述公式(1)进行计算后，得到如表2所示的字符矩阵。
[0169]
表2
[0170][0171]
这个字符矩阵的目的在于寻找“如何通过最少的操作次数，从第二文本序列变换到第一文本序列”，操作次数越少，则表示搜索信息与目标关联文本越相似，字符矩阵中的数字代表操作次数(插入、删除和替换都算1次操作)，比如，第2行第6列的“2”，表示从“各位同学大”到“各位同事”需要2次操作，第一次操作是替换“学”字，第二次操作为插入“大”字。
[0172]
需要说明的是，对应第一文本序列a和第二文本序列b而言，当a[i]＝＝b[j]时，继续考察a[i+1]＝b[j+1]。在计算第一文本序列与第二文本序列之间莱文斯坦距离的过程中，存在如下四种操作方式：
[0173]
一、不操作；
[0174]
假设第一文本序列中包括的字符为“小狗”，第二文本序列中包括的字符为“爱小狗”，对于两个字符串的最后一个字符“狗”，可以选择不进行操作，也就是说，“小狗”和“爱小狗”之间的莱文斯坦距离等于“小”和“爱小”之间的莱文斯坦距离。
[0175]
二、替换操作；
[0176]
假设第一文本序列中包括的字符为“爱小猫”，第二文本序列中包括的字符为“爱小狗”，对于两个字符串的最后一个字符“猫”和“狗”，可以选择对最后一个字符进行替换操作，也就是说，“爱小猫”和“爱小狗”之间的莱文斯坦距离等于“爱小”和“爱小”之间的莱文斯坦距离加上1。
[0177]
三、插入操作；
[0178]
假设第一文本序列中包括的字符为“爱小猫”，第二文本序列中包括的字符为“爱小”，对于两个字符串的最后一个字符“猫”和“小”，可以选择在“小”后面进行插入操作，也就是说，“爱小猫”和“爱小”之间的莱文斯坦距离等于“爱小”和“爱小”之间的莱文斯坦距离加上1。
[0179]
四、删除操作；
[0180]
假设第一文本序列中包括的字符为“爱小猫”，第二文本序列中包括的字符为“爱小猫咪”，对于两个字符串的最后一个字符“猫”和“咪”，可以选择在“咪”后面进行删除操作，也就是说，“爱小猫”和“爱小猫咪”之间的莱文斯坦距离等于“爱小猫”和“爱小猫”之间的莱文斯坦距离加上1。
[0181]
基于上述介绍，在字符矩阵中，从右下角开始，向左上角找到梯度最大的路径，即得到最大路径。以表2为例，最大路径经过的位置包括第一文本序列中“各”与第二文本序列
中“各”相交的格子，第一文本序列中“位”与第二文本序列中“位”相交的格子，第一文本序列中“同”与第二文本序列中“同”相交的格子，第一文本序列中“事”与第二文本序列中“学”相交的格子，第一文本序列中“大”与第二文本序列中“大”相交的格子，第一文本序列中“家”与第二文本序列中“家”相交的格子，第一文本序列中“好”与第二文本序列中“好”相交的格子，第一文本序列中“好”与第二文本序列中“啊”相交的格子。其中，该最大路径上的累计操作数为第一文本序列中“好”与第二文本序列中“啊”相交格子上的数值“2”。
[0182]
基于此，第一文本序列包括m个字符，继续以表2为例，m为7，其中包括一个空格符“0”，空格符可用于对齐第一文本序列和第二文本序列。服务器将累计操作数与m之间的比值作为匹配分值，根据前述讨论可知，基于表2所示的字符矩阵得到的累计操作数为2，m为7，因此，匹配分值为2/7＝0.28。假设匹配阈值为0.3，则匹配分值小于匹配阈值，此时认为匹配分值满足匹配条件。
[0183]
再次，本技术实施例中，提供了一种基于ocr识别采用莱文斯坦距离进行匹配的方式，通过上述方式，对于有字幕文本的视频而言，可优先识别出字幕文本的内容，将该内容作为关联文本以进行后续的匹配处理，并基于莱文斯坦距离对搜索信息与关联文本进行匹配，采用莱文斯坦距离计算文本之间相似度具有准确率高的优势，如果莱文斯坦距离较小，则表示文本相似度较高，从而提升方案的可行性。
[0184]
可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，具体可以包括：
[0185]
服务器根据搜索信息生成第一文本序列，其中，第一文本序列包括r个词语，r为大于或等于1的整数；
[0186]
服务器根据目标视频的目标关联文本生成第二文本序列，其中，第二文本序列包括t个词语，t为大于或等于1的整数；
[0187]
服务器根据第一文本序列以及第二文本序列，确定词语集合，其中，词语集合为r个词语与t个词语的并集；
[0188]
服务器根据词语集合以及第一文本序列，确定第一词频向量；
[0189]
服务器根据词语集合以及第二文本序列，确定第二词频向量；
[0190]
服务器将第一词频向量与第二词频向量之间的余弦相似度作为匹配分值。
[0191]
本实施例中，介绍了一种确定文本相似度进行匹配的方式。在字幕检索时，可以将搜索信息转换为第一文本序列，将目标关联文本转换为第二文本序列，在允许一定的误差情况下进行模糊匹配之后，可向终端设备返回对应的目标关联文本及其时间信息。
[0192]
具体地，第一文本序列包括r个词语，第二文本序列包括t个词语。假设搜索信息为“这件衣服号码大了，那个号码合适”，目标关联文本为“这件衣服号码不小，那个更合适”，分别进行中文分词，得到第一文本序列为“这件/衣服/号码/大了/，那个/号码/合适”，第二文本序列为“这件/衣服/号码/不/小，那个/更/合适”。基于此，根据第一文本序列以及第二文本序列，列出所有词语，构成词语集合，该词语集合为{这件，衣服，号码，大了，那个，更，合适，不，小}。根据词语集合分别计算第一文本序列的词频和第二文本序列的词频。
[0193]
第一文本序列的词频为：
[0194]
这件(1次)，衣服(1次)，号码(2次)，大了(1次)，那个(1次)，更(0次)，合适(1次)，
不(0次)，小(0次)。
[0195]
由此，得到第一词频向量为(1,1,2,1,1,0,1,0,0)。
[0196]
第二文本序列的词频为：
[0197]
这件(1次)，衣服(1次)，号码(1次)，大了(0次)，那个(1次)，更(1次)，合适(1次)，不(1次)，小(1次)。
[0198]
由此，得到第二词频向量为(1,1,1,0,1,1,1,1,1)。
[0199]
服务器根据第一词频向量与第二词频向量，采用如下方式计算余弦相似度：
[0200][0201]
其中，余弦相似度cos(θ)即为匹配分值。因此，匹配分值为0.71。假设匹配阈值为0.7，则匹配分值大于匹配阈值，此时认为匹配分值满足匹配条件。
[0202]
再次，本技术实施例中，提供了一种确定文本相似度进行匹配的方式，通过上述方式，对于搜索文本而言，可计算出搜索文本与关联文本之间的文本相似度，对于搜索语音而言，可先将搜索语音转换为文本形式，然后计算出文本与关联文本之间的文本相似度。由此，为方案的实现提供了可行的方式，从而提升方案的可行性和可操作性。
[0203]
可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，还可以包括：
[0204]
针对于目标视频，若目标视频包括语音信息，则服务器对目标视频中的语音信息进行自动语音识别asr处理，得到关联文本；
[0205]
服务器获取关联文本所对应的时间信息；
[0206]
服务器将关联文本以及关联文本所对应的时间信息存储于索引库。
[0207]
本实施例中，介绍了一种采用asr技术对目标视频中字幕信息进行识别的方式。为了便于说明，以目标视频为例进行介绍，无论目标视频是否包括字幕信息，只要具有语音信息，那么服务器可采用asr技术对语音信息进行识别，从而得到关联文本。asr主要由以下几个部分组成。
[0208]
一、声学特征提取；
[0209]
模拟的语音信号进行采样得到波形数据之后，首先要输入到特征提取模块，提取出合适的声学特征参数供后续声学模型训练使用。声学特征应当考虑以下三个方面的因素。首先应当具有比较优秀的区分特性，以使声学模型不同的建模单元可以方便准确的建模。其次，特征提取也可以认为是语音信息的压缩编码过程，既需要将信道和说话人的因素消除，保留与内容相关的信息，又需要在不损失过多有用信息的情况下使用尽量低的参数维度，便于高效准确的进行模型的训练。最后，需要考虑鲁棒性，即对环境噪声的抗干扰能力。
[0210]
二、声学模型；
[0211]
如今主流语音识别系统都采用隐马尔科夫模型(hidden markov model，hmm)作为声学模型，hmm模型的状态跳转模型很适合人类语音的短时平稳特性，可以对不断产生的语音信号进行方便的统计建模。hmm模型的应用范围广泛，只要选择不同的生成概率密度，离
散分布或者连续分布，都可以使用hnm进行建模。
[0212]
三、语言模型与语言处理；
[0213]
语言模型包括由识别语音命令构成的语法网络或由统计方法构成的语言模型，语言处理可以进行语法和语义分析。
[0214]
具体地，假设目标视频包括200句对话，分别对每句对话进行识别，即得到200个关联文本，其中，200个关联文本中包括目标关联文本，且该目标关联文本可以是200个关联文本中的任意一个关联文本，即后续与搜索信息进行匹配的一个关联文本。接下来，服务器还需要分别获取每个关联文本所对应的时间信息，从而将关联文本以及关联文本所对应的时间信息存储于索引库。
[0215]
其次，本技术实施例中，提供了一种采用asr技术对目标视频中语音进行识别的方式，通过上述方式，对于有字幕文本或者没有字幕文本的视频而言，都可以识别出语音的内容，将该内容转换为关联文本以进行后续的匹配处理，从而提升匹配的准确度。
[0216]
可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，具体可以包括：
[0217]
服务器根据搜索信息生成第一音素序列，其中，第一音素序列包括p个音素，p为大于或等于1的整数；
[0218]
服务器根据目标视频的目标关联文本生成第二音素序列，其中，第二音素序列包括q个音素，q为大于或等于1的整数；
[0219]
服务器根据第一音素序列以及第二音素序列，构建音素矩阵；
[0220]
服务器从音素矩阵中确定最大路径所对应的累计操作数；
[0221]
服务器将累计操作数与p之间的比值作为匹配分值。
[0222]
本实施例中，介绍了一种基于asr识别采用莱文斯坦距离进行匹配的方式。考虑到asr可能存在一定的错误率，因此，在字幕检索时，不进行单纯的文本匹配，而是将搜索信息转换为语音识别中的音素(即声母韵母)，再与关联文本对应的音素进行对齐。即先将搜索信息转换为第一音素序列，再与关联文本所对应的第二音素序列进行对齐，在允许一定的误差情况下进行模糊匹配之后，向终端设备返回对应的目标关联文本及其时间信息。
[0223]
可采用莱文斯坦距离量化两个音素串之间的相似性，也就是将一个音素串通过插入、删除以及替换音素，转化成另一个音素串需要的最少编辑次数，本技术定义将插入、删除和替换的三种操作代价都定为数值1。编辑距离越小，说明两个音素串越相似。其中，莱文斯坦距离允许插入、删除和替换操作，表示两个音素串差异的大小。为了便于理解，请参阅如下的莱文斯坦距离计算公式：
[0224][0225]
其中，a表示第一音素序列，b表示第二音素序列，i表示lev
a,b(i,j)
表示第一音素序列中的前i个音素和第二音素序列中的前j个音素之间的距离，1
(ai≠bj
)表示当a
i
≠b
j
时值为
1，否则表示值为0的示性函数。
[0226]
具体地，第一音素序列包括p个音素，第二音素序列包括q个音素，算法核心在于对齐第一音素序列中每个音素与第二音素序列中的每个音素。假设搜索信息为“就跟转笔一样”，目标关联文本为“就跟撞壁一样”，经过转换后得到第一音素序列为“j iu g en zh u an b i y i y ang”，第二音素序列为“j iu g en zh u ang b i y i y ang”。基于此，采用上述公式(3)进行计算后，得到如表3所示的音素矩阵。
[0227]
表3
[0228][0229]
这个音素矩阵的目的在于寻找“如何通过最少的操作次数，从第二音素序列变换到第一音素序列”，操作次数越少，则表示搜索信息与目标关联文本越相似，音素矩阵中的数字代表操作次数(插入、删除和替换都算1次操作)。
[0230]
需要说明的是，对应第一音素序列a和第二音素序列b而言，当a[i]＝＝b[j]时，继续考察a[i+1]＝b[j+1]。在计算第一音素序列与第二音素序列之间莱文斯坦距离的过程中，存在如下四种操作方式：
[0231]
一、不操作；
[0232]
假设第一音素序列中包括的音素为“j iu”，第二音素序列中包括的音素为“en j iu”，对于两个音素串的最后一个音素“iu”，可以选择不进行操作，也就是说，“j iu”和“en j iu”之间的莱文斯坦距离等于“j”和“en j”之间的莱文斯坦距离。
[0233]
二、替换操作；
[0234]
假设第一音素序列中包括的音素为“j iu a”，第二音素序列中包括的音素为“j iu e”，对于两个音素串的最后一个音素“a”和“e”，可以选择对最后一个音素进行替换操作，也就是说，“j iu a”和“j iu e”之间的莱文斯坦距离等于“j iu”和“j iu小”之间的莱文斯坦距离加上1。
[0235]
三、插入操作；
[0236]
假设第一音素序列中包括的音素为“j iu a”，第二音素序列中包括的音素为“j iu”，对于两个音素串的最后一个音素“a”和“iu”，可以选择在“iu”后面进行插入操作，也就是说，“j iu a”和“j iu”之间的莱文斯坦距离等于“j iu”和“j iu”之间的莱文斯坦距离加
上1。
[0237]
四、删除操作；
[0238]
假设第一音素序列中包括的音素为“j iu sh”，第二音素序列中包括的音素为“j iu sh i”，对于两个音素串的最后一个音素“sh”和“i”，可以选择在“i”后面进行删除操作，也就是说，“j iu sh”和“j iu sh i”之间的莱文斯坦距离等于“j iu sh”和“j iu sh”之间的莱文斯坦距离加上1。
[0239]
基于上述介绍，在音素矩阵中，从右下角开始，向左上角找到梯度最大的路径，即得到最大路径。以表3为例，最大路径经过的位置包括第一音素序列中“j”与第二音素序列中“j”相交的格子，第一音素序列中“iu”与第二音素序列中“iu”相交的格子，第一音素序列中“g”与第二音素序列中“g”相交的格子，第一音素序列中“en”与第二音素序列中“en”相交的格子，第一音素序列中“zh”与第二音素序列中“zh”相交的格子，第一音素序列中“u”与第二音素序列中“u”相交的格子，第一音素序列中“an”与第二音素序列中“ang”相交的格子，第一音素序列中“b”与第二音素序列中“b”相交的格子，第一音素序列中“i”与第二音素序列中“i”相交的格子，第一音素序列中“y”与第二音素序列中“y”相交的格子，第一音素序列中“i”与第二音素序列中“i”相交的格子，第一音素序列中“y”与第二音素序列中“y”相交的格子，第一音素序列中“ang”与第二音素序列中“ang”相交的格子。其中，该最大路径上的累计操作数为第一音素序列中“ang”与第二音素序列中“ang”相交格子上的数值“1”。
[0240]
基于此，第一音素序列包括m个音素，继续以表3为例，m为13。服务器将累计操作数与m之间的比值作为匹配分值，根据前述讨论可知，基于表3所示的音素矩阵得到的累计操作数为1，m为13，因此，匹配分值为1/13＝0.08。假设匹配阈值为0.3，则匹配分值小于匹配阈值，此时认为匹配分值满足匹配条件。
[0241]
再次，本技术实施例中，提供了一种基于asr识别采用莱文斯坦距离进行匹配的方式，通过上述方式，无论视频是否存在字幕文本，可采用asr识别出语音的内容，将该内容作为关联文本以进行后续的匹配处理，并基于莱文斯坦距离对搜索信息与关联文本进行匹配，采用莱文斯坦距离计算文本之间相似度具有准确率高的优势，如果莱文斯坦距离较小，则表示文本相似度较高，从而提升方案的可行性。
[0242]
可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，还可以包括：
[0243]
针对于目标视频，服务器对目标视频中的视频帧进行图像识别处理，得到关联文本；
[0244]
服务器获取关联文本所对应的时间信息；
[0245]
服务器将关联文本以及关联文本所对应的时间信息存储于索引库。
[0246]
本实施例中，介绍了一种采用图像识别技术对目标视频中视频帧进行识别的方式。为了便于说明，以目标视频为例进行介绍，无论目标视频是否包括字幕信息，只要具有画面，那么服务器可采用asr技术对画面内容进行识别，从而得到关联文本。图像识别主要由以下几个部分组成。
[0247]
一、获取图像；
[0248]
捕捉视频中二维的图像。
[0249]
二、图像预处理；
[0250]
包括图像二值化，图像的平滑、变换、增强、恢复以及滤波等，主要指对图像的处理。
[0251]
三、特征抽取和选择；
[0252]
需要进行特征的抽取和选择，例如，一幅64*64的图像可以得到4096个数据，这种在测量空间的原始数据通过变换获得在特征空间最能反映分类本质的特征。
[0253]
四、分类器设计；
[0254]
分类器设计的主要功能是通过训练确定判决规则，使按此类判决规则分类时，错误率最低。
[0255]
五、分类决策；
[0256]
在特征空间中对被识别对象进行分类。
[0257]
具体地，假设目标视频包括100000个视频帧，分别对每个视频帧进行识别，即得到至少一个关联文本，其中，至少一个关联文本中包括目标关联文本，且该目标关联文本可以是至少一个关联文本中的任意一个关联文本，即后续与搜索信息进行匹配的一个关联文本。接下来，服务器还需要分别获取每个关联文本所对应的时间信息，从而将关联文本以及关联文本所对应的时间信息存储于索引库。
[0258]
为了便于理解，请参阅表4，表4为索引库中关联文本及其时间信息之间的一个示意。
[0259]
表4
[0260]
关联文本时间信息笔11212笔和架子鼓25568和33050人物、笔和架子鼓44661电视73216和88000电脑99532
[0261]
由表4可知，每个关联文本对应一个时间信息，表4中的时间信息表示该关联文本出现在目标视频中的时间点，例如，关联文本为“笔和架子鼓”出现在目标视频的第25568帧和33050帧，这句话可以持续至少一帧，需要说明的是，本技术关注的是关联文本出现的第一帧。
[0262]
其次，本技术实施例中，提供了一种采用图像识别技术对目标视频中视频帧进行识别的方式，通过上述方式，对于有字幕文本或者没有字幕文本的视频而言，都可以识别出视频帧的内容，将该内容转换为关联文本以进行后续的匹配处理，从而提升匹配的准确度。
[0263]
可选地，在上述图3对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，具体可以包括：
[0264]
基于搜索信息，服务器通过语义匹配模型所包括的输入层，获取第一词向量；
[0265]
基于目标视频的目标关联文本，服务器通过语义匹配模型所包括的输入层，获取第二词向量；
[0266]
基于第一词向量，服务器通过语义匹配模型所包括的表示层，获取第一语义向量；
[0267]
基于第二词向量，服务器通过语义匹配模型所包括的表示层，获取第二语义向量；
[0268]
基于第一语义向量以及第二语义向量，服务器通过语义匹配模型所包括的匹配层，获取余弦距离，并将余弦距离作为匹配分值。
[0269]
本实施例中，介绍了一种基于图像识别技术进行关键词匹配的方式。服务器可采用语义匹配模型输出匹配分值，其中，语义匹配模型可以是深层语义模型(deep structured semantic models，dssm)或者其他类型的模型。
[0270]
具体地，为了便于理解，请参阅图4，图4为本技术实施例中语义匹配模型的一个结构示意图，如图所示，分别将搜索信息(搜索文本或者经过asr转换后的搜索语音)和目标关联文本(任意一个关联文本)输入至语义匹配模型的输入层，输入层是把句子映射到一个向量空间里并输入到深度神经网络(deep neural networks，dnn)中，由此，得到搜索信息所对应的第一词向量，以及目标关联文本所对应的第二词向量。分别将第一词向量和第二词向量输入至表示层，表示层采用词袋方式进行处理，分别得到第一语义向量和第二语义向量。最后，将第一语义向量以及第二语义向量输入至匹配层，匹配层输出的余弦距离即可作为匹配分值。
[0271]
再次，本技术实施例中，提供了一种基于图像识别技术进行关键词匹配的方式，通过上述方式，采用神经网络模型能够挖掘出搜索信息与目标关联文本的相关性，即使用户在输入搜索信息的时候没有输入一模一样的内容，也可以通过dssm找到用户可能想要搜索的内容，从而提升视频搜索的多样性和灵活性。
[0272]
结合上述介绍，下面将对本技术中视频画面的定位方法进行介绍，请参阅图5，本技术实施例中视频画面定位方法的另一个实施例包括：
[0273]
201、终端设备获取搜索信息，其中，搜索信息为搜索文本或搜索语音；
[0274]
本实施例中，终端设备获取搜索信息，该搜索信息可以是搜索文本，或者是搜索语音。具体地，在一个示例中，当终端设备播放目标视频时，用户可直接在终端设备上输入搜索信息。在另一个示例中，用户可以在列表中选择一个视频作为目标视频，选中目标视频之后，在终端设备上输入搜索信息。在另一示例中，用户可以输入搜索信息，服务器从视频数据库中选择任意一个视频作为目标视频，并将搜索信息与目标视频进行匹配。
[0275]
202、终端设备向服务器发送搜索信息，以使服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
[0276]
本实施例中，由终端设备向服务器发送搜索信息，服务器存储一个索引库，索引库中存储有k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，其中，关联文本可以是采用ocr技术识别得到的字幕文本，或者是经过asr技术识别得到的字幕文本，又或者是采用图像识别技术识别得到的文本。服务器可以将搜索信息与索引库中目标视频所对应的每个关联文本进行匹配，分别得到搜索信息与每个关联文本之间的匹配分值，为了便于说明，本技术以多个关联文本中的目标关联文本为例进行介绍，在实际情况下，目标关联文本可以是任意一个关联文本，也可以是与搜索信息匹配程度最高的一个关联文本，此处不做限定。
[0277]
203、若匹配分值满足匹配条件，则终端设备接收服务器发送的目标关联文本所对
应的时间信息以及目标关联文本；
[0278]
本实施例中，服务器将搜索信息与索引库中目标关联文本进行匹配，从而得到匹配分值，其中，匹配分值可以是0至1的分数，也可以采用其他的表示方式，此处不做限定。假设匹配分值为余弦距离或者莱文斯坦，则匹配分值越小，表示匹配程度越高，此时，如果匹配分值小于或等于匹配阈值，则匹配分值满足匹配条件。假设匹配分值为余弦相似度，则匹配分值越大，表示匹配程度越高，此时，如果匹配分值大于或等于匹配阈值，则匹配分值满足匹配条件。
[0279]
具体地，当匹配分值满足匹配条件时，确定该目标关联文本与搜索信息匹配成功。于是，服务器基于索引库获取目标关联文本在目标视频中的出现时间，该出现时间即为目标关联文本所对应的时间信息。然后服务器向终端设备发送目标关联文本所对应的时间信息以及目标关联文本。
[0280]
204、终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
[0281]
本实施例中，服务器向终端设备发送针对于目标视频的画面定位结果，其中，画面定位结果包括目标关联文本及其对应的时间信息，由此，终端设备可通过客户端(或播放器)展示目标关联文本及其对应的时间信息。用户在客户端上能够直接查看与搜索信息相关的画面定位结果。
[0282]
本技术实施例中，提供了一种视频画面的定位方法，通过上述方式，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以搜索出目标关联文本的出现时间和出现位置等，便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
[0283]
可选地，在上述图5对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，终端设备获取搜索信息，具体可以包括：
[0284]
终端设备提供文本输入区域；
[0285]
终端设备通过文本输入区域接收针对于目标视频的搜索文本；
[0286]
或，
[0287]
终端设备启动语音采集设备；
[0288]
终端设备通过语音采集设备接收针对于目标视频的搜索语音。
[0289]
本实施例中，介绍了两种获取搜索信息的方式。第一种方式为，用户直接输入文本内容，该文本内容即为搜索文本。第二种方式为，用户开启语音采集设备，并通过语音采集设备采集用户输入的语音，该语音即为搜索语音。
[0290]
具体地，下面将结合图6和图7，对获取搜索信息的方式进行介绍。为了便于理解，请参阅图6，图6为本技术实施例中展示文本输入区域的一个界面示意图，如图所示，a1所指示的为文本输入区域，可在终端设备提供的播放器内部组件或外部组件中增加一个文本输入区域，用户通过文本输入区域输入搜索文本。需要说明的是，图6示出的为当终端设备播放目标视频时，用户可输入搜索文本，可选地，当终端设备未播放视频时，用户也可用输入搜索文本，此时，终端设备将搜索文本发送至服务器，由服务器从视频数据库中选择一个视频作为目标视频，并基于该目标视频对搜索文本进行匹配处理，匹配方式如前述实施例所
描述的内容，此处不做赘述。
[0291]
为了便于理解，请参阅图7，图7为本技术实施例中展示语音输入提示的一个界面示意图，如图所示，b1所指示的为语音触发模块，在终端设备提供的播放器内部组件或外部组件中增加一个语音触发模块，终端设备启动语音采集设备(例如，麦克风)之后，用户通过语音采集设备输入语音，该语音即为搜索语音。需要说明的是，图7示出的为当终端设备播放目标视频时，用户可输入搜索语音，可选地，当终端设备未播放视频时，用户也可用输入搜索语音，此时，终端设备将搜索语音发送至服务器，由服务器从视频数据库中选择一个视频作为目标视频，并基于该目标视频对搜索语音进行匹配处理，匹配方式如前述实施例所描述的内容，此处不做赘述。
[0292]
其次，本技术实施例中，提供了两种获取搜索信息的方式，通过上述方式，用户既可以直接输入文本内容作为搜索信息，也可以选择语音输入的方式说出搜索信息，两种方式均可实现，从而提升方案的灵活性。
[0293]
可选地，在上述图5对应的实施例的基础上，本技术实施例提供的另一个可选实施例中，终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果，具体可以包括：
[0294]
终端设备提供播放进度条；
[0295]
终端设备根据目标关联文本所对应的时间信息，在播放进度条上显示时间点标识，其中，时间点标识属于画面定位结果；
[0296]
在时间点标识所对应的文本展示区域内，终端设备突出显示目标关联文本，其中，目标关联文本属于画面定位结果。
[0297]
本实施例中，介绍了一种显示画面定位结果的方式。终端设备可通过播放器界面提供播放进度条，然后基于目标关联文本所对应的时间信息，在播放进度条上显示时间点标识，此外，还可以突出展示目标关联文本。
[0298]
具体地，为了便于理解，请参阅图8，图8为本技术实施例中展示画面定位结果的一个界面示意图，如图所示，假设搜索信息为“转笔”，经过匹配后获取三个与该搜索信息匹配成功的目标关联文本。基于此，终端设备在播放进度条上显示时间点标识，即如图8所示的播放进度条上显示有三个时间点标识，每个时间点标识对应于一个目标关联文本，这里的三个目标关联文本显示在时间点标识所对应的文本展示区域内，例如，在从左到右的第一个文本展示区域内展示的目标关联文本为“我不会转笔”，第二个文本展示区域内展示的目标关联文本为“转笔真的好难”，第三个文本展示区域内展示的目标关联文本为“就跟转笔一样”，且进一步地，还可以突出展示“转笔”这两个字。
[0299]
进一步地，请参阅图9，图9为本技术实施例中跳转至时间点标识对应视频画面的一个界面示意图，如图所示，用户还可以点击“上图标”、“下图标”或者直接点击时间点标识，快速进入至对应的视频画面。
[0300]
其次，本技术实施例中，提供了一种显示画面定位结果的方式，通过上述方式，第一，长视频场景中，用户能够对视频中的相关内容进行快速检索，快速定位到目标视频画面。第二，在纯音频无字幕的视频中，用户可通过文本搜索的方式快速定位到目标视频画面。第三，在视频平台中，能够通过文本检索，检索到一系列台词或字幕相关的视频信息，有助于更好的搜集相关资料。第四，对一个视频文件，能够快速整合类似内容信息，并能够快
速定位该视频中重要信息的提及频率以及时间点。
[0301]
下面对本技术中的视频画面定位装置进行详细描述，请参阅图10，图10为本技术实施例中视频画面定位装置的一个实施例示意图，视频画面定位装置30包括：
[0302]
获取模块301，用于接收终端设备发送的搜索信息，其中，搜索信息为搜索文本或搜索语音；
[0303]
匹配模块302，用于将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
[0304]
确定模块303，用于若匹配分值满足匹配条件，则确定目标关联文本所对应的时间信息；
[0305]
发送模块304，用于向终端设备发送目标关联文本所对应的时间信息以及目标关联文本，以使终端设备根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
[0306]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，采用文本搜索或语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以搜索出目标关联文本的出现时间和出现位置等，便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
[0307]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，视频画面定位装置30还包括识别模块305以及存储模块306；
[0308]
识别模块305，用于在匹配模块302将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，针对于目标视频，若目标视频包括字幕信息，则对目标视频中的字幕信息进行光学字符识别ocr处理，得到关联文本；
[0309]
获取模块301，还用于获取关联文本所对应的时间信息；
[0310]
存储模块306，用于将关联文本以及关联文本所对应的时间信息存储于索引库。
[0311]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，对于有字幕文本的视频而言，可优先识别出字幕文本的内容，将该内容作为关联文本以进行后续的匹配处理，从而提升匹配的准确度。
[0312]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，
[0313]
匹配模块302，具体用于根据搜索信息生成第一文本序列，其中，第一文本序列包括m个字符，m为大于或等于1的整数；
[0314]
根据目标视频的目标关联文本生成第二文本序列，其中，第二文本序列包括n个字符，n为大于或等于1的整数；
[0315]
根据第一文本序列以及第二文本序列，构建字符矩阵；
[0316]
从字符矩阵中确定最大路径所对应的累计操作数；
[0317]
将累计操作数与m之间的比值作为匹配分值。
[0318]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，对于有字幕文本的视频而言，可优先识别出字幕文本的内容，将该内容作为关联文本以进行后续的匹配处
理，并基于莱文斯坦距离对搜索信息与关联文本进行匹配，采用莱文斯坦距离计算文本之间相似度具有准确率高的优势，如果莱文斯坦距离较小，则表示文本相似度较高，从而提升方案的可行性。
[0319]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，
[0320]
匹配模块302，具体用于根据搜索信息生成第一文本序列，其中，第一文本序列包括r个词语，r为大于或等于1的整数；
[0321]
根据目标视频的目标关联文本生成第二文本序列，其中，第二文本序列包括t个词语，t为大于或等于1的整数；
[0322]
根据第一文本序列以及第二文本序列，确定词语集合，其中，词语集合为r个词语与t个词语的并集；
[0323]
根据词语集合以及第一文本序列，确定第一词频向量；
[0324]
根据词语集合以及第二文本序列，确定第二词频向量；
[0325]
将第一词频向量与第二词频向量之间的余弦相似度作为匹配分值。
[0326]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，对于搜索文本而言，可计算出搜索文本与关联文本之间的文本相似度，对于搜索语音而言，可先将搜索语音转换为文本形式，然后计算出文本与关联文本之间的文本相似度。由此，为方案的实现提供了可行的方式，从而提升方案的可行性和可操作性。
[0327]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，视频画面定位装置30还包括识别模块305以及存储模块306；
[0328]
识别模块305，用于在匹配模块302将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，针对于目标视频，若目标视频包括语音信息，则对目标视频中的语音信息进行自动语音识别asr处理，得到关联文本；
[0329]
获取模块301，还用于获取关联文本所对应的时间信息；
[0330]
存储模块306，用于将关联文本以及关联文本所对应的时间信息存储于索引库。
[0331]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，对于有字幕文本或者没有字幕文本的视频而言，都可以识别出语音的内容，将该内容转换为关联文本以进行后续的匹配处理，从而提升匹配的准确度。
[0332]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，
[0333]
匹配模块302，具体用于根据搜索信息生成第一音素序列，其中，第一音素序列包括p个音素，p为大于或等于1的整数；
[0334]
根据目标视频的目标关联文本生成第二音素序列，其中，第二音素序列包括q个音素，q为大于或等于1的整数；
[0335]
根据第一音素序列以及第二音素序列，构建音素矩阵；
[0336]
从音素矩阵中确定最大路径所对应的累计操作数；
[0337]
将累计操作数与p之间的比值作为匹配分值。
[0338]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，无论视频是否存在字幕文本，可采用asr识别出语音的内容，将该内容作为关联文本以进行后续的匹配处
理，并基于莱文斯坦距离对搜索信息与关联文本进行匹配，采用莱文斯坦距离计算文本之间相似度具有准确率高的优势，如果莱文斯坦距离较小，则表示文本相似度较高，从而提升方案的可行性。
[0339]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，视频画面定位装置30还包括识别模块305以及存储模块306；
[0340]
识别模块305，用于在匹配模块302将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值之前，针对于目标视频，对目标视频中的视频帧进行图像识别处理，得到关联文本；
[0341]
获取模块301，还用于获取关联文本所对应的时间信息；
[0342]
存储模块306，用于将关联文本以及关联文本所对应的时间信息存储于索引库。
[0343]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，对于有字幕文本或者没有字幕文本的视频而言，都可以识别出视频帧的内容，将该内容转换为关联文本以进行后续的匹配处理，从而提升匹配的准确度。
[0344]
可选地，在上述图10所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，
[0345]
匹配模块302，具体用于基于搜索信息，通过语义匹配模型所包括的输入层，获取第一词向量；
[0346]
基于目标视频的目标关联文本，通过语义匹配模型所包括的输入层，获取第二词向量；
[0347]
基于第一词向量，通过语义匹配模型所包括的表示层，获取第一语义向量；
[0348]
基于第二词向量，通过语义匹配模型所包括的表示层，获取第二语义向量；
[0349]
基于第一语义向量以及第二语义向量，通过语义匹配模型所包括的匹配层，获取余弦距离，并将余弦距离作为匹配分值。
[0350]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，采用神经网络模型能够挖掘出搜索信息与目标关联文本的相关性，即使用户在输入搜索信息的时候没有输入一模一样的内容，也可以通过dssm找到用户可能想要搜索的内容，从而提升视频搜索的多样性和灵活性。
[0351]
下面对本技术中的视频画面定位装置进行详细描述，请参阅图11，图11为本技术实施例中视频画面定位装置的另一个实施例示意图，视频画面定位装置40包括：
[0352]
获取模块401，用于获取搜索信息，其中，搜索信息为搜索文本或搜索语音；
[0353]
发送模块402，用于向服务器发送搜索信息，以使服务器将搜索信息与索引库中目标视频的目标关联文本进行匹配，得到匹配分值，其中，索引库包括k个视频中每个视频的关联文本以及每个视频的关联文本所对应的时间信息，k个视频包括目标视频，k为大于或等于1的整数；
[0354]
获取模块401，还用于若匹配分值满足匹配条件，则接收服务器发送的目标关联文本所对应的时间信息以及目标关联文本；
[0355]
展示模块403，用于根据目标关联文本所对应的时间信息以及目标关联文本，展示目标视频的画面定位结果。
[0356]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，采用文本搜索或
语音搜索能够快速找到相关内容出现的场景，基于单个视频的搜索可节省其他相似视频画面缩略图的干扰，提升视频画面定位的准确性。此外，还可以搜索出目标关联文本的出现时间和出现位置等，便于用户更直观地查看目标视频内所有与搜索内容相关的视频画面，从而提升搜索的效率。
[0357]
可选地，在上述图11所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，
[0358]
获取模块401，具体用于提供文本输入区域；
[0359]
通过文本输入区域接收针对于目标视频的搜索文本；
[0360]
或，
[0361]
启动语音采集设备；
[0362]
通过语音采集设备接收针对于目标视频的搜索语音。
[0363]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，用户既可以直接输入文本内容作为搜索信息，也可以选择语音输入的方式说出搜索信息，两种方式均可实现，从而提升方案的灵活性。
[0364]
可选地，在上述图11所对应的实施例的基础上，本技术实施例提供的视频画面定位装置30的另一实施例中，
[0365]
展示模块403，用于提供播放进度条；
[0366]
根据目标关联文本所对应的时间信息，在播放进度条上显示时间点标识，其中，时间点标识属于画面定位结果；
[0367]
在时间点标识所对应的文本展示区域内，突出显示目标关联文本，其中，目标关联文本属于画面定位结果。
[0368]
本技术实施例中，提供了一种视频画面定位装置，采用上述装置，第一，长视频场景中，用户能够对视频中的相关内容进行快速检索，快速定位到目标视频画面。第二，在纯音频无字幕的视频中，用户可通过文本搜索的方式快速定位到目标视频画面。第三，在视频平台中，能够通过文本检索，检索到一系列台词或字幕相关的视频信息，有助于更好的搜集相关资料。第四，对一个视频文件，能够快速整合类似内容信息，并能够快速定位该视频中重要信息的提及频率以及时间点。
[0369]
本技术实施例还提供了另一种视频画面定位装置，视频画面定位装置部署于服务器。图12是本技术实施例提供的一种服务器结构示意图，该服务器500可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上中央处理器(central processing units，cpu)522(例如，一个或一个以上处理器)和存储器532，一个或一个以上存储应用程序542或数据544的存储介质530(例如一个或一个以上海量存储设备)。其中，存储器532和存储介质530可以是短暂存储或持久存储。存储在存储介质530的程序可以包括一个或一个以上模块(图示没标出)，每个模块可以包括对服务器中的一系列指令操作。更进一步地，中央处理器522可以设置为与存储介质530通信，在服务器500上执行存储介质530中的一系列指令操作。
[0370]
服务器500还可以包括一个或一个以上电源526，一个或一个以上有线或无线网络接口550，一个或一个以上输入输出接口558，和/或，一个或一个以上操作系统541，例如windows server
tm
，mac os x
tm
，unix
tm
,linux
tm
，freebsd
tm
等等。
[0371]
上述实施例中由服务器所执行的步骤可以基于该图12所示的服务器结构。
[0372]
本技术实施例还提供了另一种视频画面定位装置，视频画面定位装置部署于终端设备。如图13所示，为了便于说明，仅示出了与本技术实施例相关的部分，具体技术细节未揭示的，请参照本技术实施例方法部分。该终端设备可以为包括手机、平板电脑、个人数字助理(personal digital assistant，pda)、销售终端设备(point of sales，pos)、车载电脑等任意终端设备，以终端设备为手机为例：
[0373]
图13示出的是与本技术实施例提供的终端设备相关的手机的部分结构的框图。参考图13，手机包括：射频(radio frequency，rf)电路610、存储器620、输入单元630、显示单元640、传感器650、音频电路660、无线保真(wireless fidelity，wifi)模块670、处理器680、以及电源690等部件。本领域技术人员可以理解，图6中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。
[0374]
下面结合图13对手机的各个构成部件进行具体的介绍：
[0375]
rf电路610可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器680处理；另外，将设计上行的数据发送给基站。通常，rf电路610包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，lna)、双工器等。此外，rf电路610还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，gsm)、通用分组无线服务(general packet radio service，gprs)、码分多址(code division multiple access，cdma)、宽带码分多址(wideband code division multiple access,wcdma)、长期演进(long term evolution，lte)、电子邮件、短消息服务(short messaging service，sms)等。
[0376]
存储器620可用于存储软件程序以及模块，处理器680通过运行存储在存储器620的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器620可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器620可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0377]
输入单元630可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元630可包括触控面板631以及其他输入设备632。触控面板631，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板631上或在触控面板631附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板631可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器680，并能接收处理器680发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板631。除了触控面板631，输入单元630还可以包括其他输入设备632。具体地，其他输入设备632可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。
[0378]
显示单元640可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元640可包括显示面板641，可选的，可以采用液晶显示器(liquid crystal display，lcd)、有机发光二极管(organic light
‑
emitting diode，oled)等形式来配置显示面板641。进一步的，触控面板631可覆盖显示面板641，当触控面板631检测到在其上或附近的触摸操作后，传送给处理器680以确定触摸事件的类型，随后处理器680根据触摸事件的类型在显示面板641上提供相应的视觉输出。虽然在图13中，触控面板631与显示面板641是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板631与显示面板641集成而实现手机的输入和输出功能。
[0379]
手机还可包括至少一种传感器650，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板641的亮度，接近传感器可在手机移动到耳边时，关闭显示面板641和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。
[0380]
音频电路660、扬声器661，传声器662可提供用户与手机之间的音频接口。音频电路660可将接收到的音频数据转换后的电信号，传输到扬声器661，由扬声器661转换为声音信号输出；另一方面，传声器662将收集的声音信号转换为电信号，由音频电路660接收后转换为音频数据，再将音频数据输出处理器680处理后，经rf电路610以发送给比如另一手机，或者将音频数据输出至存储器620以便进一步处理。
[0381]
wifi属于短距离无线传输技术，手机通过wifi模块670可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图13示出了wifi模块670，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。
[0382]
处理器680是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器620内的软件程序和/或模块，以及调用存储在存储器620内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器680可包括一个或多个处理单元；可选的，处理器680可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器680中。
[0383]
手机还包括给各个部件供电的电源690(比如电池)，可选的，电源可以通过电源管理系统与处理器680逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0384]
尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。
[0385]
上述实施例中由终端设备所执行的步骤可以基于该图13所示的终端设备结构。
[0386]
本技术实施例中还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如前述各个实施例描述的方法。
[0387]
本技术实施例中还提供一种包括程序的计算机程序产品，当其在计算机上运行时，使得计算机执行前述各个实施例描述的方法。
[0388]
所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。
[0389]
在本技术所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0390]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0391]
另外，在本技术各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。
[0392]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本技术的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本技术各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read
‑
only memory，rom)、随机存取存储器(random access memory，ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0393]
以上所述，以上实施例仅用以说明本技术的技术方案，而非对其限制；尽管参照前述实施例对本技术进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：郭洋;朱明清
技术所有人：腾讯科技（深圳）有限公司
我是此专利的发明人

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。