一种视频内容标签的建立方法和系统的制作方法
【专利摘要】本公开公开了一种视频内容标签的建立方法和系统,所述方法包括:获取存储于云服务器中的视频的网络地址;根据所述视频的网络地址,获取当前视频的播放网页;从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;基于所述描述信息进行关键字提取,得到当前视频的内容标签。本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。
【专利说明】
一种视频内容标签的建立方法和系统
技术领域
[0001]本公开涉及云计算技术领域,尤其涉及种视频内容标签的建立方法和系统。
【背景技术】
[0002]云计算平台中每个视频的内容标签健全与否对于实现海量视频的管理、分析以及推荐即为重要。对于一些商业性的综合视频播放网站(例如乐视网、爱奇艺网、土豆优酷网)来说,很多视频由于上传时间过早等原因,其内容标签往往残缺不全,为了补全这些残缺的内容标签,这些商业性的综合视频播放网站通常采用人工方式对每个视频逐个确认其内容标签是否健全,如有残缺则补全该内容标签,这种视频内容标签的健全方式需要耗费大量的人力、物力、财力,尤其是在云计算中对海量视频的内容标签进行确认、补全时,其工作量太过庞大而无法进行。
[0003]另外,对于一些专业性的类别视频播放网站(例如播放教学视频的教育平台),具有自己的一套视频管理系统,但由于自身能力有限,不具备长程转码能力,当其想上传一个视频时,需要利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台上,当其需要播放该视频时,只需要从视频服务提供商的CDN平台上取到该视频的网络地址即可实现播放。由于ID—般由一串无意义的字母、数字构成(每个视频的ID是唯一的),因此对于视频服务提供商来讲,存储于其云平台中的该视频的内容标签仅仅为一串无意义的字母、数字。因此,若视频服务提供商想对这种类型的视频补全其内容标签无疑是难上加难。
【发明内容】
[0004]本公开的目的是提供一种使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。
[0005]根据本公开的一个方面,提供了一种视频内容标签的建立方法,包括以下步骤:
[0006]获取存储于云服务器中的视频的网络地址;
[0007]根据所述视频的网络地址,获取当前视频的播放网页;
[0008]从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;
[0009]基于所述描述信息进行关键字提取,得到当前视频的内容标签。
[0010]进一步,所述的视频内容标签的建立方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。
[0011]进一步,所述的视频内容标签的建立方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签的步骤包括:
[0012]根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;
[0013]根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
[0014]进一步,所述的视频内容标签的建立方法,其中,在所述得到二级关键词集合的步骤之后,还包括以下步骤:
[0015]根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重;
[0016]根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
[0017]进一步,所述的视频内容标签的建立方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤的步骤之前,还包括以下步骤:
[0018]将分词词性表存储于云服务器中,并更新所述分词词性表;
[0019]将停用词表存储于云服务器中,并更新所述停用词表。
[0020]根据本公开的另一个方面,提供了一种视频内容标签的建立系统,包括以下模块:
[0021]网络地址获取模块,用于获取存储于云服务器中的视频的网络地址;
[0022]播放网页获取模块:用于根据所述视频的网络地址,获取当前视频的播放网页;
[0023]描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;
[0024]视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。
[0025]进一步,所述的视频内容标签的建立系统,其中,所述描述信息包括视频的标题和/或视频的内容简介。
[0026]进一步,所述的视频内容标签的建立系统,其中,
[0027]所述视频内容标签提取模块包括:分词模块和停用词过滤模块;
[0028]所属分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合;
[0029]停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。
[0030]进一步,所述的视频内容标签的建立系统,其中,所述视频内容标签提取模块,还包括常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。
[0031]进一步,所述的视频内容标签的建立系统,还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块;
[0032]所述分词词性表更新模块,用于更新所述分词词性表;
[0033]所述停用词表更新模块,用于更新所述停用词表。
[0034]本公开使得视频服务提供商能够根据存储于其云平台中视频的网络地址,通过网页爬取的方式获得该视频所在的播放网页,进而从播放网页中提取视频的内容标签,从而实现健全云平台中海量视频的内容标签。
【附图说明】
[0035]图1是本公开视频内容标签的建立方法的步骤流程图;
[0036]图2是本公开视频内容标签的建立方法中基于所述描述信息进行关键字提取的步骤流程图;
[0037]图3是本公开视频内容标签的建立系统的模块关系示意图;
[0038]图4是本公开视频内容标签的建立系统中视频内容标签提取模块的模块关系示意图。
【具体实施方式】
[0039]为使本公开的目的、技术方案和优点更加清楚明了,下面结合【具体实施方式】并参照附图,对本公开进一步详细说明。应当前理解,这些描述只是示例性的,而并非要限制本公开的范围。此外,在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。
[0040]在对本公开的【具体实施方式】介绍之前,首先介绍本公开所基于的前题条件。本公开中所述的云服务器为具有长程视频转码能力的视频服务提供商(例如乐视云平台)所搭建的云平台服务器群集中的一台或多台。一些使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站(例如播放教学视频的教育平台),其网站上具有其上传至云平台服务器群集中的视频的播放网页,且该视频播放网站在所述视频的播放网页中以自然语言为该视频编辑了标题、内容介绍等描述信息。
[0041 ]图1是本公开视频内容标签的建立方法的步骤流程图。
[0042]如图1所示,视频内容标签的建立方法包括以下步骤。
[0043]步骤SI,获取存储于云服务器中的视频的网络地址。
[0044]在步骤SI之前,使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站,将其网站上的视频利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台中的一台或多台服务器(SP云服务器),所述云服务器对所述视频进行存储。需要说明的是,由于视频服务提供商通常为大量的视频播放网站提供长程转码的服务,因此视频服务提供商的云服务器中存储有海量的视频、每个视频的ID以及每个视频的网络地址。因此,在步骤SI中,仅仅需要将所述视频的网络地址获取到即可。
[0045]步骤S2,根据所述视频的网络地址,获取当前视频的播放网页。
[0046]获取当前视频的播放网页是通过网页爬取算法获取。所是述网页爬取算法,指的基于现有技术中的网络爬虫的算法,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
[0047]步骤S3,从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息。
[0048]所述描述信息包括当前视频的标题和/或视频的内容简介。在视频播放网站的播放网页中,以自然语言为视频编辑了标题、内容介绍等描述信息。
[0049]步骤S4,基于所述描述信息进行关键字提取,得到当前视频的内容标签。
[0050]由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,因此,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。
[0051]图2是本公开视频内容标签的建立方法中基于所述描述信息进行关键字提取的步骤流程图。
[0052]如图2所示,基于所述描述信息进行关键字提取的步骤包括以下步骤:
[0053]步骤S401,根据分词词性表,对所述描述信息进行分词,得到一级关键词集合。其中,所述一级关键词集合中包含多个一级关键词。
[0054]在上文中以介绍过,由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。在本步骤中,仅仅是根据分词词性表中词语的词性对所述描述信息进行分词,一方面将词语分割,另一方面过滤掉一些结构词、语气词等词语,如的、呢、啊。另外,在本步骤之前,还包括将分词词性表存储于云服务器中,并更新所述分词词性表。
[0055]步骤S402,根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集入口 ο
[0056]其中,所述二级关键词集合中包含多个二级关键词。在本步骤之前,还包括将停用词表存储于云服务器中,并更新所述停用词表。其中,停用词表采用现有技术中的停用词表。对所述一级关键词集合进行过滤指的是将一级关键词集合中的停用词过滤掉。若一级关键词集合没有出现在所述停用词表上的停用词,则无需过滤,此时所述一级关键词集合即为二级关键词集合。
[0057]步骤S403,根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重。
[0058]该权重指的是TF-1DF权值。所述词频-逆向文件频率算法,S卩TFIDF算法(termfrequency-1nverse document frequency)。其中,词频指的是某一个给定的词语在该文件中出现的频率;逆向文件频率指的是一个词语普遍重要性的度量。
[0059]步骤S404,根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集入口 ο
[0060]所述标签关键词集合中所包含的所有的标签关键词即为该视频的内容标签。TFIDF算法通过计算一个字词的TF-1DF权值,以评估该词对于一个文件集或一个语料库中的其中一份文件的重要程度。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-1DF。因此,TFIDF算法倾向于过滤掉常见的词语,保留重要的词语。
[0061]在此需要说明的是,本公开基于所述描述信息进行关键字提取提供了两种实施方式,其中,第一实施方式包括步骤S401和步骤S402也可以实现视频的内容标签的提取。优选的,第二实施方式在第一实施方式的基础上,在步骤S402之后还包括步骤S403和步骤S404。
[0062]图3是本公开视频内容标签的建立系统的模块关系示意图。
[0063]如图3所示,一种视频内容标签的建立系统,包括以下模块:网络地址获取模块、播放网页获取模块、描述信息提取模块和视频内容标签提取模块。
[0064]网络地址获取模块,用于获取存储于云服务器中的视频的网络地址。在获取存储于云服务器中的视频的网络地址之前,使用云平台服务器群集所提供的长程转码服务的专业性的类别视频播放网站,将其网站上的视频利用视频服务提供商(例如乐视云平台)提供的长程转码功能生成该视频的ID,再将该ID分发至视频服务提供商的CDN平台中的一台或多台服务器(即云服务器),所述云服务器对所述视频进行存储。需要说明的是,由于视频服务提供商通常为大量的视频播放网站提供长程转码的服务,因此视频服务提供商的云服务器中存储有海量的视频、每个视频的ID以及每个视频的网络地址。因此,网络地址获取模块仅仅需要将所述视频的网络地址获取到即可。
[0065]播放网页获取模块:用于根据所述视频的网络地址,通过网页爬取算法获取当前视频的播放网页。所是述网页爬取算法,指的基于现有技术中的网络爬虫的算法,网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
[0066]描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息;其中,所述描述信息包括视频的标题和/或视频的内容简介。所述描述信息包括当前视频的标题和/或视频的内容简介。在视频播放网站的播放网页中,以自然语言为视频编辑了标题、内容介绍等描述信息。
[0067]视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,因此,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。
[0068]图4是本公开视频内容标签的建立系统中视频内容标签提取模块的模块关系示意图。
[0069]如图4所示,所述视频内容标签提取模块包括:分词模块、停用词过滤模块和常用词过滤模块。
[0070]所述分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合。其中,所述一级关键词集合中包含多个一级关键词。
[0071]在上文中以介绍过,由于描述信息是以自然语言进行描述的,包括很多词语,其中有些词语可能是不需要的一些词语,需要对描述信息采用预定的算法进行关键字提取,以过滤掉一些不需要的词语。在本步骤中,仅仅是根据分词词性表中词语的词性对所述描述信息进行分词,一方面将词语分割,另一方面过滤掉一些结构词、语气词等词语,如的、呢、啊。另外,在本步骤之前,还包括将分词词性表存储于云服务器中,并更新所述分词词性表。
[0072]所述停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。其中,所述二级关键词集合中包含多个二级关键词。在本步骤之前,还包括将停用词表存储于云服务器中,并更新所述停用词表。其中,停用词表采用现有技术中的停用词表。对所述一级关键词集合进行过滤指的是将一级关键词集合中的停用词过滤掉。若一级关键词集合没有出现在所述停用词表上的停用词,则无需过滤,此时所述一级关键词集合即为二级关键词集合。
[0073]所述常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。该权重指的是TF-1DF权值。所述词频-逆向文件频率算法,即TFIDF算法(term frequency-1nverse document frequency)。其中,词频指的是某一个给定的词语在该文件中出现的频率;逆向文件频率指的是一个词语普遍重要性的度量。所述标签关键词集合中所包含的所有的标签关键词即为该视频的内容标签。TFIDF算法通过计算一个字词的TF-1DF权值,以评估该词对于一个文件集或一个语料库中的其中一份文件的重要程度。某一特定文件内的高词语频率,以及该词语在整个文件集合中的低文件频率,可以产生出高权重的TF-1DF。因此,TFIDF算法倾向于过滤掉常见的词语,保留重要的词语。
[0074]优选的,本公开视频内容标签的建立系统还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块;所述分词词性表更新模块,用于更新所述分词词性表;所述停用词表更新模块,用于更新所述停用词表。
[0075]应当理解的是,本公开的上述【具体实施方式】仅仅用于示例性说明或解释本公开的原理,而不构成对本公开的限制。因此,在不偏离本公开的精神和范围的情况下所做的任何修改、等同替换、改进等,均应包含在本公开的保护范围之内。此外,本公开所附权利要求旨在涵盖落入所附权利要求范围和边界、或者这种范围和边界的等同形式内的全部变化和修改例。
【主权项】
1.一种视频内容标签的建立方法,包括: 获取存储于云服务器中的视频的网络地址; 根据所述视频的网络地址,获取当前视频的播放网页; 从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息; 基于所述描述信息进行关键字提取,得到当前视频的内容标签。2.根据权利要求1所述的方法,其中,所述描述信息包括当前视频的标题和/或视频的内容简介。3.根据权利要求1或2所述的方法,其中,所述基于所述描述信息进行关键字提取,得到当前视频的内容标签包括: 根据分词词性表,对所述描述信息进行分词,得到一级关键词集合; 根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。4.根据权利要求3所述的方法,其中,在所述得到二级关键词集合之后,还包括: 根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重; 根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。5.根据权利要求3所述的方法,其中,在所述根据停用词表,对所述一级关键词集合进行过滤之前,还包括: 将分词词性表存储于云服务器中,并更新所述分词词性表; 将停用词表存储于云服务器中,并更新所述停用词表。6.一种视频内容标签的建立系统,其特征在于,包括以下模块: 网络地址获取模块,用于获取存储于云服务器中的视频的网络地址; 播放网页获取模块:用于根据所述视频的网络地址,获取当前视频的播放网页; 描述信息提取模块,用于从所述播放页网中提取对当前视频所涉及的内容进行描述的描述信息; 视频内容标签提取模块,用于基于所述描述信息进行关键字提取,得到当前视频的内容标签。7.根据权利要求6所述的系统,其中,所述描述信息包括视频的标题和/或视频的内容简介。8.根据权利要求6或7所述的系统,其中, 所述视频内容标签提取模块包括:分词模块和停用词过滤模块; 所述分词模块,用于根据分词词性表,对所述描述信息进行分词,得到一级关键词集合; 所述停用词过滤模块,用于根据停用词表,对所述一级关键词集合进行过滤,得到二级关键词集合。9.根据权利要求8所述的系统,其中,所述视频内容标签提取模块,还包括常用词过滤模块:用于根据词频逆向文件频率算法,计算所述二级关键词集合中的每个二级关键词在所述描述信息中的权重,并根据预设权重值对所述二级关键词集合进行过滤,得到标签关键词集合。10.根据权利要求8所述的系统,还包括存储于云服务器中的分词词性表和停用词表,以及分词词性表更新模块和停用词表更新模块; 所述分词词性表更新模块,用于更新所述分词词性表; 所述停用词表更新模块,用于更新所述停用词表。
【文档编号】G06F17/30GK105893571SQ201610202499
【公开日】2016年8月24日
【申请日】2016年3月31日
【发明人】张立宁, 余婧
【申请人】乐视控股(北京)有限公司, 乐视云计算有限公司