专利名称:视频文本标签的推荐方法及系统的制作方法
技术领域:
本发明涉及一种视频文本标签的推荐方法及系统。
背景技术:
随着互联网进入Web2.0时代,由用户产生的内容如文本、图片、视频、音乐等,逐渐占据了互联网成为互联网上内容的主体,而且,用户产生的内容形式上趋于多样化,数量上也呈爆炸性的增长。另外,因为摄影摄像设备的普及,用户录制视频的方式也更为便捷,所以一些视频站点迅速崛起,如何对海量的视频进行描述、组织和查找是一个十分重要的需求。文本标签是对用户所发表内容的最精准、概括的描述,每个标签由一个词或短语组成。传统视频网站或者会提示用户自己输入,或者由编辑进行人工标记,但是,这些输入编辑方式都过于费时费力,因为,首先大部分用户不愿意主动进行标签录入;其次,因为用户手工输入的标签质量参差不齐,存在大量语义重叠,例如个人所得税法上调相关的视频,用户输入的文本标签(tag)五花八门、各不相同,如“个税”、“所得税”、“收税”、“个税起征点”等等,这样会对视频的搜索和推荐带来很多困难;再次,依赖网站编辑对内容进行标记的方法,费事费力,而且录入的标签可能会有很多遗漏。
发明内容
本发明的目的在于提供一种视频文本标签的推荐方法及系统,该方法及系统能够对视频的内容进行准确地概括,有助于视频的检索和相关视频的挖掘等应用。为解决上述问题,本发明提供一种视频文本标签的推荐方法,包括:定期从网上获取领域词补充到一领域词典中;根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词;对每个候选关键词的属性种类进行标注;根据每个候选关键词的属性种类获取该候选关键词的综合权值;对所有候选关键词的权值由大到小排序,选取综合权值靠前的若干个候选关键词作为视频文本标签。进一步的,在上述方法中,所述文本信息包括视频的标题、描述或用户标签中的一项以及多项信息。进一步的,在上述方法中,采用CRF方法对每个视频的文本信息进行分词和对候选关键词的属性种类进行标注。进一步的,在上述方法中,所述领域词包括影视剧名称、明星名字以及热门词中的一种或多种。进一步的,在上述方法中,所述领域词典包括影视剧名称词典、明星名字词典以及热门词典中的一种或多种。
进一步的,在上述方法中,所述候选关键词的属性种类包括候选关键词的词性种类、出现位置、出现频率、是否为命名实体以及是否为领域词中的一种或多种。进一步的,在上述方法中,对所有候选关键词的综合权值由大到小进行排序之前,还包括调整有词汇直接嵌套关系或词汇类别关系的候选关键词的综合权值。进一步的,在上述方法中,当候选关键词之间为词汇直接嵌套关系,则将有词汇直接嵌套关系的大粒度的候选关键词的综合权值增大,相应地将有词汇直接嵌套关系的小粒度的候选关键词的综合权值减小。进一步的,在上述方法中,当候选关键词之间为词汇类别关系,则将有词汇类别关系的大类别的候选关键词的综合权值增大,相应地将有词汇类别关系的小类别的候选关键词的综合权值减小。进一步的,在上述方法中,所述根据每个候选关键词在对应的文本信息中出现次数及出现位置、该候选关键词的长度及属性种类获取该候选关键词的综合权值的步骤包括:根据每个候选关键词的长度设置长度因子,其中,候选关键词长度越长,长度因子越小;根据每个候选关键词在对应的文本信息中出现次数及出现位置及其长度因子获取该候选关键词的频率权值;根据每个候选关键词的属性种类获取该候选关键词的属性权值;将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值。进一步的,在上述方法中,将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值步骤之前,还包括根据每个候选关键词的长度调整该候选关键词的属性权值。进一步的,在上述方法中,将每个候选关键词频率权值乘以属性权值得到该候选关键词的权值步骤之前,还包括调整为垃圾词的候选关键词的属性权值。进一步的,在上述方法中,将每个候选关键词频率权值乘以属性权值得到该候选关键词的权值步骤之前,还包括调整在书名号中出现的候选关键词的属性权值。根据本发明的另一面,提供一种视频文本标签的推荐系统,包括:领域词典模块,用于定期从网上获取领域词补充到一领域词典中;候选关键词模块,用于根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词;属性标注模块,用于对每个候选关键词进行属性种类标注;权值获取模块,用于根据每个候选关键词属性种类获取该候选关键词的综合权值;文本标签模块,用于对所有候选关键词的权值由大到小排序,选取权值靠前的若干个候选关键词作为视频文本标签。进一步的,在上述系统中,还包括一相关关系模块,用于调整有词汇直接嵌套关系或词汇类别关系的候选关键词的综合权值。进一步的,在上述系统中,所述权值获取模块包括:长度因子单元,用于根据每个候选关键词的长度设置长度因子;
频率权值单元,用于根据每个候选关键词在对应的文本信息中出现次数、出现位置及其长度因子获取该候选关键词的频率权值;属性权值单元,用于根据每个候选关键词的属性种类获取该候选关键词的属性权值;综合权值单元,用于将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值。进一步的,在上述系统中,所述权值获取模块还包括一依长度调整单元,用于根据每个候选关键词的长度调整该候选关键词的属性权值。进一步的,在上述系统中,所述权值获取模块还包括一依垃圾词调整单元,用于调整为垃圾词的候选关键词的属性权值。进一步的,在上述系统中,所述权值获取模块还包括一依书名号调整单元,用于调整在书名号中出现的候选关键词的属性权值。与现有技术相比,本发明通过定期从网上获取领域词补充到一领域词典中,再根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词,并对每个候选关键词进行属性种类标注,再根据每个候选关键词在对应的文本信息中出现次数及出现位置、该候选关键词的长度及属性获取该候选关键词的综合权值,最后对所有候选关键词的权值由大到小进行排序,选取综合权值靠前的若干个候选关键词作为视频文本标签,自动地生成视频文本标签表,对视频的内容进行准确概括,有助于视频的检索和相关视频的挖掘等应用。另外,本发明通过对视频的标题、描述或用户标签中的文本信息进行分词并生成候选关键词,保证候选关键词的来源足够充分,即使标题、描述或用户标签中的文本信息有任一项有所缺失,仍然会有比较准确的视频文本标签的推荐结果。此外,本发明细分了各种候选关键词属性种类,如对命名实体识别(可以识别人名、地名、机构名等)、视频描述中出现频率很高的影视剧名称、实词、惯用语、形容词、略语、动词、时间词、量词或其它词性,从而可以在文本标签的提取过程中考虑大量的候选关键词的属性种类并赋予不同的权值,以保证自动标签提取的准确性。
图1是本发明实施例一的视频文本标签的推荐方法的流程图;图2是图1中步骤S4和步骤S5的详细流程图;图3是图2中步骤S42和步骤S43的详细流程图;图4是本发明实施例二的视频文本标签的推荐系统的模块示意图。
具体实施例方式为使本发明的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式
对本发明作进一步详细的说明。实施例一如图1所示,本发明提供一种视频文本标签的推荐方法,包括:步骤SI,定期从网上获取领域词补充到一领域词典中;
步骤S2,根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词;步骤S3,对每个候选关键词进行属性种类标注,具体的,可细分各种候选关键词属性种类,如候选关键词的词性种类、出现位置(是否在标题出现,以及是否在用户标签中出现)、候选关键词的出现频率、候选关键词是否为命名实体、是否为领域词等等,所述词性种类可心包括人名、地名、机构名、实词、惯用语、形容词、略语、动词、时间词、量词或其它词性,这些属性种类信息对后续的综合权值计分非常重要,因此需要在这一步处理,例如,所述候选关键词的词性种类包括影视剧名称、命名实体、实词、惯用语、形容词、略语、动词、时间词、量词或其它词性中的一种或多种,对候选关键词进行命名实体识别、影视剧名称识另O,以及词性识别,并输出每个关键词对应的属性种类信息,从而可以在文本标签的提取过程中考虑大量的候选关键词的属性种类并赋予不同的权值,以保证自动标签提取的准确性;步骤S4,根据每个候选关键词的属性种类获取该候选关键词的综合权值,具体的,可综合考虑候选关键词的出现的位置、出现频率、是否为影视剧名称等因素对候选关键词进行综合权值打分,以确定最终的视频文本标签;步骤S6,对所有候选关键词的权值由大到小进行排序,选取综合权值靠前的若干个候选关键词作为视频文本标签。具体的,在步骤SI中,所述领域词包括影视剧名称、明星名字以及热门词中的一种或多种,相应的,所述领域词典包括影视剧名称词典、明星名字词典以及热门词典中的一种或多种,其中,用户上传的视频,大多是跟电影或电视剧相关的,例如电影的片花、电视剧中高效片段集锦等,需要能够识别视频中电影或者电视剧的名称可以定期(如每周)去一些提供影视剧名称的站点抓取相关内容,补充到一个影视剧名称词典之中,如果视频的文本信息中出现了领域词典中短语的情况,例如“我们约会吧”,则直接标记为一个候选关键词,这种候选关键词会被赋予一个相对较高的初始权重。在步骤S2中,所述文本信息包括视频的标题、描述以及用户标签中的一项或多项信息,具体的,通过对视频的标题、描述或用户标签中的文本信息进行分词并生成候选关键词,可以保证候选关键词的来源足够充分,即使标题、描述或用户标签中的文本信息有任一项有所缺失,仍然会有比较准确的视频文本标签的推荐结果,可以采用CRF(条件随即场)方法对每个视频的文本信息进行分词,CRF方法是一种基于机器学习技术的分词方法,其基本思路是分词时,不仅考虑了词语出现的频率信息,同时考虑词语的上下文语境,CRF方法具备较好的学习能力,因此其对歧义词和未登录词的识别都具有良好的效果分词算法,与分词词典的机械切分(FMM/BMM)方法相比具有不依赖于分词词典、自适应性强的特点,分词的过程中会用到生成好的领域词典,CRF方法在分词时可以对领域词典中的短语进行识另O,另外,分词过程中同时还需要对视频的文本信息进行命名实体识别,命名实体的特点是会作为一个整体在文本中多次出现,命名实体识别的目的在于识别诸如人名、地名、机构名等相关短语,这些短语如果使用分词算法来识别,可能会被切散。在步骤S3中,也可以采用CRF方法对每个候选关键词的属性种类进行标注。如图2和图3所示所示,步骤S4中,根据每个候选关键词的属性种类获取该候选关键词的综合权值即TF*IDF,这一步根据候选关键词属性种类进行权值的计分累加,关键词权值计分思想跟信息检索中的tf*idf模型类似,但又有很大不同,信息检索中tf指的是关键词出现的频率,idf指的是关键词是否在很少的文档中出现,在越少的文档中出现表示关键词越重要,本实施例中,TF是一种按特征加权的频率获取,IDF的获取也不是以在多少文档中出现为依据,而是根据关键词和视频相关文本的属性信息获取,详细的获取步骤如下:步骤S41,根据每个候选关键词的长度设置长度因子,其中,标题、描述、用户标签的文本越长,则对应的标题、描述、用户标签长度因子的值越小;步骤S42,根据每个候选关键词在对应的文本信息中出现次数及出现位置及其长度因子及其长度因子获取该候选关键词的频率权值,包括:步骤S421,设置初始时TF为1,根据候选关键词出现次数以及在标题、描述、用户标签中的出现位置获取TF的值:如果候选关键词在标题中出现,则TF = I*候选关键词在标题中出现次数*标题长度因子*3 ;如果候选关键词在用户标签中出现,则TF = I*候选关键词在用户标签中出现次数*用户标签长度因子*1 ;如果候选关键词在描述中出现,则TF = I*候选关键词在描述中出现次数*描述长度因子*0.3。步骤S422,在步骤S421获取的TF的值的基础上继续根据该候选关键是否同时在标题和描述中出现获取最终的TF的值:如果候选关键词在标题中和描述中同时出现,则最终的TF =步骤S421的TF的值*5 ;如图2和图3所示步骤43,根据每个候选关键词的属性种类、候选关键词长度、是否是垃圾词、是否包含在书名号获取该候选关键词的属性权值,包括:步骤S431,根据每个候选关键词的属性种类获取该候选关键词的属性权值,设置初始时IDF的值为1,根据候选关键词的属性种类、是否识别为影视剧名称或命名实体等得到新的IDF值,所述词性种类包括实词、人名、机构名、地名、惯用语、形容词、略语、动词、时间词、量词及其它词性:如果被识别为影视剧名称,则IDF值乘以10得到新的IDF值;如果被识别为为命名实体,则IDF值乘以2得到新的IDF值;如果词性为实词,则IDF值乘以4.5得到新的IDF值;如果词性为人名、机构名,则IDF值乘以2.5得到新的IDF值;如果词性为地名,则IDF值乘以0.5得到新的IDF值;如果词性为惯用语、形容词、略语,则IDF值乘以1.5得到新的IDF值;如果词性为动词、时间词、量词,则IDF值乘以0.5得到新的IDF值;其它词性,则IDF值乘以0.1得到新的IDF值。步骤S432,在步骤S431获取的IDF的值的基础上继续根据候选关键词长度获取新IDF的值,关键词长度指中文文本长度,英文或数字文本按字母数除以3以,折算为中文文本长度:如果关键词长度小于I (中文最短为I,指英文或数字折算过来可能小于I),则IDF值乘以O得到新的IDF值;
如果关键词长度为1,则IDF值乘以0.2得到新的IDF值;如果长度为2,则IDF值乘以I得到新的IDF值;如果长度大于2,小于等于5,则IDF值乘以3得到新的IDF值;如果为大于5,小于等于10,则IDF值乘以I得到新的IDF值;如果大于10,小于等于20,则IDF值乘以0.2得到新的IDF值;如果大于20,则IDF值乘以0.01得到新的IDF值。步骤S433,在步骤S432获取的IDF的值的基础上继续根据候选关键词是否是应该过滤的垃圾词继续获取新的IDF的值:如果候选关键词在提前定义的垃圾词词典,或者黄反词典中,则IDF = O。步骤S434,在步骤S433获取的IDF的值的基础上继续根据候选关键词是否包含在书名号《》中获新的IDF的值:如果关键词在《》中出现,则IDF值乘以10得到新的IDF值。如图2所示,步骤S6之前还包括步骤S5,调整有词汇直接嵌套关系或词汇类别关系的候选关键词的综合权值,本步骤的目的是继续获取关键词之间的相关关系,对候选关键词作后处理,考虑处理的相关关系包括两类:步骤S51,当候选关键词之间为词汇直接嵌套关系时,将有词汇直接嵌套关系的大粒度的候选关键词的综合权值增大,相应地将有词汇直接嵌套关系的小粒度的候选关键词的综合权值减小,例如“上海车展”和“车展”,如出现嵌套关系,则将大粒度候选关键词的权值加上一部分小粒度候选关键词的权值以增大大粒度关键词的权值,相应的减少小粒度候选关键词的权值,具体计算公式如下:新的“上海车展”权值=“上海车展”权值+ “车展”权值* “车展”长度/ “上海车展”长度*0.5 ;新的“车展”权值=“车展”权值-“车展”权值* “车展”长度/ “上海车展”长度*0.5 ;步骤S52,当候选关键词之间为词汇类别关系时,将有词汇类别关系的大类别的候选关键词的综合权值增大,相应地将有词汇类别关系的小类别的候选关键词的综合权值减小,例如构建了一个三层的词汇关系表(总类名称->子类名称->实体名称),具体候选关键词分别为“电脑数码>“软件>“卡巴斯基”组成一个三层词汇关系,如果候选关键词中同时出现“软件”和“卡巴斯基”,则将“软件”的权值加上一部分“卡巴斯基”的权值以增大“软件”的权值,相应地减小“卡巴斯基”的权值,具体计算公式如下:新的“软件”权值=“软件”权值+ “卡巴斯基”权值*0.3 ;新的“卡巴斯基”权值=“卡巴斯基”权值-卡巴斯基”权值*0.3。根据上述描述可知,本发明能够智能地对互联网的视频的文本信处进行挖掘和学习,根据视频的文本信息如标题、描述、用户标签,利用了中文分词、命名实体识别、影视剧名称识别等技术,同时兼顾了用户输入的标签,以生成候选的关键词,而且从候选关键词到生成最终视频文本标签的过程中,综合考虑关键词的重要程度、出现频率、出现位置、词性种类等多个因素,自动地自动生成最优的文本标签的系统,视频文本标签可以作为很多有价值的应用的基础,例如视频检索系统、相关视频推荐服务、个性化视频推荐服务等,本方法具有很高的准确性和鲁棒性,并且能够很好的支持视频搜索、个性化视频推荐等应用。实施例二
如图4所示,本发明还提供一种视频文本标签的推荐系统,包括领域词典模块1、候选关键词模块2、属性标注模块3、权值获取模块4、文本标签模块5和相关关系模块6。领域词典模块I用于定期从网上获取领域词补充到一领域词典中。候选关键词模块2用于根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词,具体可以通过对视频的标题、描述或用户标签中的文本信息进行分词并生成候选关键词,保证候选关键词的来源足够充分,即使标题、描述或用户标签中的文本信息有任一项有所缺失,仍然会有比较准确的视频文本标签的推荐结果。属性标注模块3用于对每个候选关键词进行属性种类标注,具体可以细分各种候选关键词属性种类,如对命名实体识别(可以识别人名、地名、机构名等)、视频描述中出现频率很高的影视剧名称、实词、惯用语、形容词、略语、动词、时间词、量词或其它词性,从而可以在文本标签的提取过程中考虑大量的候选关键词的属性种类并赋予不同的权值,以保证自动标签提取的准确性。权值获取模块4用于根据每个候选关键词属性种类获取该候选关键词的综合权值。文本标签模块5用于对所有候选关键词的权值由大到小进行排序,选取权值靠前的若干个候选关键词作为视频文本标签,这样便能自动地生成视频文本标签表,对视频的内容进行准确概括,有助于视频的检索和相关视频的挖掘等应用。相关关系模块6用于调整有词汇直接嵌套关系或词汇类别关系的候选关键词的综合权值。其中,所述权值获取模块4包括长度因子单元41、频率权值单元42、属性权值单元43、综合权值单元44、依长度调整单元45、依垃圾词调整单元46及依书名号调整模块47。长度因子单元41用于根据每个候选关键词的长度设置长度因子。频率权值单元42用于根据每个候选关键词在对应的文本信息中出现次数、出现位置及其长度因子获取该候选关键词的频率权值。属性权值单元43用于根据每个候选关键词的属性的类别获取该候选关键词的属性权值。综合权值单元44用于将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值。依长度调整单元45用于根据每个候选关键词的长度调整该候选关键词的属性权值。依垃圾词调整单元46用于调整为垃圾词的候选关键词的属性权值。依书名号调整模块47用于调整在书名号中出现的候选关键词的属性权值。本发明通过先定期从网上获取领域词补充到一领域词典中,再根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词,并对每个候选关键词进行属性种类标注,再根据每个候选关键词在对应的文本信息中出现次数及出现位置、该候选关键词的长度及属性获取该候选关键词的综合权值,最后对所有候选关键词的权值由大到小进行排序,选取综合权值靠前的若干个候选关键词作为视频文本标签,能够自动地生成视频文本标签表,对视频的内容进行准确概括,有助于视频的检索和相关视频的挖掘等应用。另外,本发明通过对视频的标题、描述或用户标签中的文本信息进行分词并生成候选关键词,保证候选关键词的来源足够充分,即使标题、描述或用户标签中的文本信息有任一项有所缺失,仍然会有比较准确的视频文本标签的推荐结果。此外,本发明细分了各种候选关键词属性种类,如对命名实体识别(可以识别人名、地名、机构名等)、视频描述中出现频率很高的影视剧名称、实词、惯用语、形容词、略语、动词、时间词、量词或其它词性,从而可以在文本标签的提取过程中考虑大量的候选关键词的属性种类并赋予不同的权值,以保证自动标签提取的准确性。专业人员还可以进一步意识到,结合本文中所公开的实施例描述的各示例的单元及算法步骤,能够以电子硬件、获取机软件或者二者的结合来实现,为了清楚地说明硬件和软件的可互换性,在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行,取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超出本发明的范围。显然,本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包括这些改动和变型在内。
权利要求
1.一种视频文本标签的推荐方法,其特征在于,包括: 定期从网上获取领域词补充到一领域词典中; 根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词; 对每个候选关键词的属性种类进行标注; 根据每个候选关键词的属性种类获取该候选关键词的综合权值; 对所有候选关键词的权值由大到小排序,选取综合权值靠前的若干个候选关键词作为视频文本标签。
2.如权利要求1所述的视频文本标签的推荐方法,其特征在于,所述文本信息包括视频的标题、描述以及用户标签中的一项或多项信息。
3.如权利要求1所述的视频文本标签的推荐方法,其特征在于,采用CRF方法对每个视频的文本信息进行分词和对候选关键词的属性种类进行标注。
4.如权利要求1所述的视频文本标签的推荐方法,其特征在于,所述领域词包括影视剧名称、明星名字以及热门词中的一种或多种。
5.如权利要求4所述的视频文本标签的推荐方法,其特征在于,所述领域词典包括影视剧名称词典、明星名字词典或热门词典中的一种以及多种。
6.如权利要求1所述的视频文本标签的推荐方法,其特征在于,所述候选关键词的属性种类包括候选关键词的 词性种类、出现位置、出现频率、是否为命名实体以及是否为领域词中的一种或多种。
7.如权利要求1所述的视频文本标签的推荐方法,其特征在于,对所有候选关键词的综合权值由大到小进行排序之前,还包括调整有词汇直接嵌套关系或词汇类别关系的候选关键词的综合权值。
8.如权利要求7所述的视频文本标签的推荐方法,其特征在于,当候选关键词之间为词汇直接嵌套关系时,将有词汇直接嵌套关系的大粒度的候选关键词的综合权值增大,相应地将有词汇直接嵌套关系的小粒度的候选关键词的综合权值减小。
9.如权利要求7所述的视频文本标签的推荐方法,其特征在于,当候选关键词之间为词汇类别关系时,将有词汇类别关系的大类别的候选关键词的综合权值增大,相应地将有词汇类别关系的小类别的候选关键词的综合权值减小。
10.如权利要求2所述的视频文本标签的推荐方法,其特征在于,所述根据每个候选关键词在对应的文本信息中出现次数及出现位置、该候选关键词的长度及属性种类获取该候选关键词的综合权值的步骤包括: 根据每个候选关键词的长度设置长度因子,其中,候选关键词长度越长,长度因子越小; 根据每个候选关键词在对应的文本信息中出现次数及出现位置及其长度因子获取该候选关键词的频率权值; 根据每个候选关键词的属性种类获取该候选关键词的属性权值; 将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值。
11.如权利要求10所述的视频文本标签的推荐方法,其特征在于,将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值步骤之前,还包括根据每个候选关键词的长度调整该候选关键词的属性权值。
12.如权利要求10所述的视频文本标签的推荐方法,其特征在于,将每个候选关键词频率权值乘以属性权值得到该候选关键词的权值步骤之前,还包括调整为垃圾词的候选关键词的属性权值。
13.如权利要求10所述的视频文本标签的推荐方法,其特征在于,将每个候选关键词频率权值乘以属性权值得到该候选关键词的权值步骤之前,还包括调整在书名号中出现的候选关键词的属性权值。
14.一种视频文本标签的推荐系统,其特征在于,包括: 领域词典模块,用于定期从网上获取领域词补充到一领域词典中; 候选关键词模块,用于根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词; 属性标注模块,用于对每个候选关键词进行属性种类标注; 权值获取模块,用于根据每个候选关键词属性种类获取该候选关键词的综合权值;文本标签模块,用于对所有候选关键词的权值由大到小排序,选取权值靠前的若干个候选关键词作为视频文本标签。
15.如权利要求14所述的视频文本标签的推荐系统,其特征在于,还包括一相关关系模块,用于调整有词汇直接嵌套关系或词汇类别关系的候选关键词的综合权值。
16.如权利要求14所述的视频文本标签的推荐系统,其特征在于,所述权值获取模块包括: 长度因子单元,用于根据每个候选关键词的长度设置长度因子; 频率权值单元,用于根据每个候选关键词在对应的文本信息中出现次数、出现位置及其长度因子获取该候选关键词的频率权值; 属性权值单元,用于根据每个候选关键词的属性种类获取该候选关键词的属性权值;综合权值单元,用于将每个候选关键词频率权值乘以属性权值得到该候选关键词的综合权值。
17.如权利要求16所述的视频文本标签的推荐系统,其特征在于,所述权值获取模块还包括一依长度调整单元,用于根据每个候选关键词的长度调整该候选关键词的属性权值。
18.如权利要求16所述的视频文本标签的推荐系统,其特征在于,所述权值获取模块还包括一依垃圾词调整单元,用于调整为垃圾词的候选关键词的属性权值。
19.如权利要求16所述的视频文本标签的推荐系统,其特征在于,所述权值获取模块还包括一依书名号调整单元,用于调整在书名号中出现的候选关键词的属性权值。
全文摘要
本发明涉及一种视频文本标签的推荐方法及系统,所述方法包括定期从网上获取领域词补充到一领域词典中;根据所述领域词典中的领域词对每个视频的文本信息进行分词生成若干候选关键词;对每个候选关键词的属性种类进行标注;根据每个候选关键词的属性种类获取该候选关键词的综合权值;对所有候选关键词的权值由大到小排序,选取综合权值靠前的若干个候选关键词作为视频文本标签。本发明能够自动地生成视频文本标签表,对视频的内容进行准确概括,有助于视频的检索和相关视频的挖掘等应用。
文档编号G06F17/27GK103164471SQ20111042257
公开日2013年6月19日 申请日期2011年12月15日 优先权日2011年12月15日
发明者宋海涛, 陈运文, 刘作涛, 纪达麒 申请人:盛乐信息技术(上海)有限公司