本发明涉及电视网络技术领域,尤其是涉及一种文本内容标签标记方法以及装置。
背景技术:
部署于广播电视网络环境下的CMS(Content Management System,内容管理系统),使用J2EE技术体系进行开发,能够实现内容的分类分发,以使用户能够快速的查寻或者检索到自己想要的内容,为用户的搜索提供便利。
然而,随着网络应用的发展以及产品运营需求的不断扩大,现有的内容管理系统不能迅速跟进大量衍生内容信息,往往需要专业人员针对大量不同的新的内容进行人工分类,在分类之前,通常需要专业人员亲自访问网站,建立栏目,然后选择合适的文本内容放入相应的栏目下,最后还要检查网站文本内容以及质量,以确保文本内容收录在合适的分类下,通过这种完全人工操作的方式实现分类管理的过程,需要花费大量时间、人力和物力,而且对同一内容的分类往往比较单一,无法满足各种分类聚合需求,不利于用户快速、精确地搜索到自己想要的内容。
技术实现要素:
有鉴于此,本发明的目的在于提供一种文本内容标签标记方法以及装置,能够利用互联网上已经完成内容分拣的文本内容,对目标文本内容进行自动化分拣,并不断优化分拣方式,实现标签与内容的多对多关系,从而使用户能够快速、精确地搜索到自己想要的内容。
第一方面,本发明实施例提供了一种文本内容标签标记方法,该方法包括:
获取与目标文本内容相匹配的已经分类过的文本内容的多个特征标签;
计算每一个特征标签与目标文本内容的分词片段的相似度;
使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记。
结合第一方面,本发明实施例提供了第一方面的第一种可能的实施方式,其中,获取与目标文本内容相匹配的已经分类过的文本内容的多个特征标签,具体包括:
获取与目标文本内容相匹配的已经分类过的文本内容的多个特征信息;
计算每一个特征信息的权重;
根据权重以及预设权重阈值进行判断,将达到预设权重阈值的特征信息确定为特征标签。
结合第一方面的第一种可能的实施方式,本发明实施例提供了第一方面的第二种可能的实施方式,其中,获取与目标文本内容相匹配的已经分类过的文本内容的多个特征信息,具体包括:
通过抓取适配器抓取与目标文本内容相匹配的已经分类过的文本内容;
将文本内容进行分词处理,获得多个分词片段;
根据预设的干扰词汇模板,过滤多个分词片段中的干扰词汇;
将过滤了干扰词汇的多个分词片段作为多个特征信息。
结合第一方面的第二种可能的实施方式,本发明实施例提供了第一方面的第三种可能的实施方式,其中,预设的干扰词汇模板包括:黑名单词汇以及无语义词汇;其中,无语义词汇包括:标点符号以及汉语高频词汇。
结合第一方面,本发明实施例提供了第一方面的第四种可能的实施方式,其中,在计算每一个特征标签与目标文本内容的分词片段的的相似度之前,还包括:
将目标文本内容进行分词处理,获得多个分词片段;
根据预设的干扰词汇模板,过滤多个分词片段中的干扰词汇。
结合第一方面以及第一方面的前四种可能的实施方式,本发明实施例提供了第一方面的第五种可能的实施方式,其中,在使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记之后,还包括:
根据给目标文本内容标记的不同的标签,将目标文本内容分为不同的类别。
结合第一方面以及第一方面的前四种可能的实施方式,本发明实施例提供了第一方面的第六种可能的实施方式,其中,在使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记之后,还包括:
根据给目标文本内容标记的不同的标签,自动生成目标文本内容的主题。
第二方面,本发明实施例提供了一种文本内容标签标记装置,该装置包括:
标签获取单元,用于获取与目标文本内容相匹配的已经分类过的文本内容的多个特征标签;
相似度计算单元,用于计算每一个特征标签与目标文本内容的分词片段的相似度;
标签标记单元,用于使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记。
结合第二方面,本发明实施例提供了第二方面的第一种可能的实施方式,其中,标签获取单元包括:
信息获取模块,用于获取与目标文本内容相匹配的已经分类过的文本内容的多个特征信息;
权重计算模块,用于计算每一个特征信息的权重;
特征标签判定模块,用于根据权重以及预设权重阈值进行判断,将达到预设权重阈值的特征信息确定为特征标签。
结合第二方面的第一种可能的实施方式,本发明实施例提供了第二方面的第二种可能的实施方式,其中,信息获取模块包括:
内容抓取模块,用于通过抓取适配器抓取与目标文本内容相匹配的已经分类过的文本内容;
分词模块,用于将文本内容进行分词处理,获得多个分词片段;
过滤模块,用于根据预设的干扰词汇模板,过滤多个分词片段中的干扰词汇;将过滤了干扰词汇的多个分词片段作为多个特征信息。
本发明实施例提供了一种文本内容标签标记方法以及装置,根据网上已经分类过的文本内容,获取与目标文本内容相匹配的文本内容的多个特征标签;计算每一个上述特征标签与目标文本内容的分词片段的相似度;将该相似度与预设的相似度阈值进行比对,使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记。通常相似度大于预设相似度阈值的特征标签会有多个,从而可以对同一个文本内容进行不同标签的标记,进而可以根据这些不同的标签,将该文本内容归为不同的类别。通过该文本内容标签标记方法,可以实现内容分拣自动化,同时实现内容与标签多对多关系,满足各种分类、聚合需要,并且分拣过程可以迭代更新(自我优化),从而快速适应热门、潮流内容的分拣,使用户能够更加快速、精确的搜索到自己想要的内容。
本发明的其他特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点在说明书、权利要求书以及附图中所特别指出的结构来实现和获得。
为使本发明的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
附图说明
为了更清楚地说明本发明具体实施方式或现有技术中的技术方案,下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施方式,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本发明实施例提供的一种文本内容标签标记方法的流程图;
图2为本发明实施例提供的另一种文本内容标签标记方法的流程图;
图3为本发明实施例提供的另一种文本内容标签标记方法的流程图;
图4为本发明实施例提供的一种文本内容标签标记装置的结构框图。
图标:10-文本内容标签标记装置;101-标签获取单元;102-相似度计算单元;103-标签标记单元;1011-信息获取模块;1012-权重计算模块;1013-特征标签判定模块;10111-内容抓取模块;10112-分词模块;10113-过滤模块。
具体实施方式
为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合附图对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
考虑到目前内容管理通过人工分类的方式,使同一内容的分类比较单一,无法满足各种分类、聚合的需求,且耗时耗力。基于此,本发明实施例提供的一种文本内容标签标记方法以及装置,可以利用互联网上已经分类过的文本内容,对目标文本内容进行自动化分拣,同时实现内容与标签多对多关系,满足各种分类、聚合需要,从而使用户能够更加快速、精确的搜索到自己想要的内容。
为便于对本实施例进行理解,首先对本发明实施例所公开的一种文本内容标签标记方法进行详细介绍。
参见图1所示,本发明实施例提供了一种文本内容标签标记方法,该方法包括:
S101:获取与目标文本内容相匹配的已经分类过的文本内容的多个特征标签。
在具体实现的时候,首先从互联网上已经进行过内容分拣的文本内容中,提取出与目标文本内容相匹配的文本内容的多个特征标签,比如针对音乐类的目标文本内容,获取到的特征标签可能是民谣、电子乐、舞曲以及流行音乐等与音乐相关程度较高的词汇中的多个。这个获取特征标签的过程是随着互联网上的内容的变化而不断更新的,可以实现自我优化,因此获取的特征标签可以满足潮流、热点的目标文本内容的标签标记需要。
为了清楚地解释获取特征标签的过程,参见图2所示,本发明实施例提供了另一种文本内容标签标记方法,该方法包括:
S201:获取与目标文本内容相匹配的已经分类过的文本内容的多个特征信息;
在具体实现的时候,首先要从网上已经分类过的文本内容里提取出与目标文本内容相匹配的文本内容的多个特征信息,该特征信息包括中文的、英文的或者数字的一些文字片段。
具体的,参见图3所示,本发明实施例提供了另一种文本内容标签标记方法,该方法包括:
S301:通过抓取适配器抓取与目标文本相匹配的已经分类过的文本内容。
为了获取特征信息,首先要通过抓取适配器抓取指定网站上的已经分类过的文本内容,抓取适配器可以屏蔽不同网站之间的差异性,使后续的操作流程统一起来,满足在不同网站上抓取文本内容的需求。这个抓取的过程可以通过多种工具来实现,比如:网络爬虫工具、火车采集器以及熊猫采集软件等,通过设置,这些工具都可以在短时间内抓取大量的满足要求的内容。
S302:将文本内容进行分词处理,获得多个分词片段。
抓取到某一类文本内容后,会通过分词工具将该文本内容进行分词处理,从而获得多个分词片段。分词处理是指将一个文本内容分割为一个个独立的分词片段的过程。文本内容可以是英文的也可以是中文的,英文文本内容可以直接按照英文单词以及英文短语进行分词处理。中文文本内容可以采用多种已有的分词方式进行分词处理,可以采用字符串匹配的分词方法进行分词处理,比如正向最大匹配法、反向最大匹配法、最短路径分词法以及双向最大匹配法等。其中正向最大匹配法就是从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个分词片段。
S303:根据预设的干扰词汇模板,过滤多个分词片段中的干扰词汇。
在具体实现的时候,系统内预设有干扰词汇模板,预设的干扰词汇模板包括:黑名单词汇以及无语义词汇;其中,无语义词汇包括:标点符号以及汉语高频词汇,黑名单词汇包括比较反动的、涉及不正确政治倾向的词汇。首先根据黑名单,将多个分词片段中的黑名单词汇去除掉,然后根据无语义词汇模板,将多个分词片段中的标点符号以及“的”、“是”、“你”等无语义词汇去掉。
S304:将过滤了干扰词汇的多个分词片段作为多个特征信息。
将分词片段去掉了干扰词汇之后,就可以将其作为已经分类过的文本内容的特征信息。特征信息包括字、词、词组、短语等内容。
S202:计算每一个特征信息的权重。
获得了多个特征信息之后,需要对这些特征信息进行权重的计算。权重表征了特征信息对于整个文本内容的重要程度,权重越大,对于整个文本内容越重要。特征信息的权重可以通过公式进行计算,比如地域特征信息的权重:
权重=log(全局词频/区域词频)*系数;
其中,全局词频表示该特征信息在整个地域文本内容中出现的频率,区域词频表示该特征信息在局部地域文本内容中出现的频率。
针对不同的内容,系数可以进行不同的设置。
S203:根据权重以及预设权重阈值进行判断,将达到预设权重阈值的特征信息确定为特征标签。
在具体实现的时候,系统内会预先设置一个权重阈值,用来和实际计算出来的权重值进行比较,当实际计算出来的权重大于预设的权重阈值时,将此时的特征信息确定为特征标签。
S102:计算每一个特征标签与目标文本内容的分词片段的相似度。
在获取到已经分类过的文本内容的特征标签后,会进行每一个特征标签与目标文本内容的分词片段的相似度的计算,这个计算的过程可以采用不同的方法,比如采用余弦相似度算法进行计算。相似度用来表征目标文本内容和已经分类过的文本内容之间的相关程度,相似度越高,相关程度越高,两个文本内容越相近。
在计算每一个特征标签与目标文本内容的分词片段的的相似度之前,还包括:
将目标文本内容进行分词处理,获得多个分词片段;
根据预设的干扰词汇模板,过滤多个分词片段中的干扰词汇。
对目标文本内容进行分词处理以及过滤干扰词汇的过程与上述对分类过的文本内容进行处理的过程类似,在此不再赘述。
S103:使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记。
在进行标签标记之前,系统内会预先设置一个相似度的阈值,用来和实际计算出来的相似度值进行比较,当实际计算出来的相似度大于预设的相似度阈值时,就会使用此时的特征标签对该文本内容进行标记,通常大于预设相似度阈值的特征标签会有多个,这样,就会对同一个文本内容进行不同特征标签的标记,从而可以使该文本内容被划分到不同的类别。经过此方法分类的文本内容,可以使用户快速、精确地搜索到,提高用户体验。
在使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记之后,还包括:
根据给目标文本内容标记的不同的标签,将文本内容分为不同的类别。
根据给目标文本内容标记的不同的标签,自动生成文本内容的主题。
在具体实现的时候,由于对于同一个文本内容,可以标记不同的多个标签,因此,根据这些不同的标签,每一个文本内容可以被归入不同的类别,这样,用户就可以通过不同的检索词搜索到这篇文本内容,从而提高该文本内容被检索到的概率,满足多种分类、聚合的需求。
此外,还可以根据给目标文本内容标记的不同的标签,将相关语义的标签聚合在一起,自动生成该目标文本内容的主题。
下面通过一个完整的实施例对文本内容标签标记方法进行详细说明,以与“新闻”相关的文本内容为例,具体方法流程如下:
使用网络爬虫工具,抓取各个省市的本地新闻文本内容;比如:天津、北京、上海等城市的当地新闻文本内容。
通过分词工具将上述文本内容进行分词处理,得到多个分词片段;比如:天津、的、女性、项目、北京、集市、你、爆炸、启动、上海、新能源车、红桥、创意等分词片段。
根据已有的预设的干扰词汇模板,将上述多个分词片段中的黑名单词汇、标点符号以及高频词汇进行过滤,得到多个特征信息;比如将上述分词片段进行干扰词汇过滤后,得到天津、女性、项目、北京、集市、爆炸、启动、上海、新能源车、红桥、创意等分词片段。
根据权重计算公式计算每一个特征信息的权重;例如:通过计算,天津、女性、项目、北京、集市、爆炸、上海、启动、新能源车、红桥、创意这些分词片段的权重分别为0.3240、0.0281、0.3240、0.0281、0.0149、0.1490、0.0179、0.0529、0.0792、0.0064、0.0036。
将权重大于预设权重阈值的特征信息作为特征标签;比如预设权重阈值为0.05,那么特征标签为天津、项目、爆炸、启动、新能源车。
然后将系统中新的文本内容进行同样的分词处理,得到分词片段;
同样去除分词片段中的干扰词汇;
利用余弦相似度算法计算新文本内容的分词片段与上述特征标签之间的相似度;比如,新文本内容的分词片段与天津、爆炸、新能源车、项目、启动这些特征标签的相似度分别为88%、25%、76%、64%、85%。
根据相似度大于预设相似度阈值的特征标签,对新文本内容进行标记。比如:预设相似度阈值为60%,则可以将天津、启动、新能源车、项目这几个标签对该文本内容进行标记,因此,同一个文本内容可以对应多个不同的标签,实现同一文本内容的多种分类,从而增加该文本内容被用户检索到的概率,有利于用户快速获取到自己需要的文本内容。此外,还可以根据这些特征标签的语义快速形成文本内容的主题,比如:这个实施例中可以生成主题:天津新能源车项目启动。
本发明实施例所提供的文本内容标签标记方法,根据网上已经分类过的文本内容,获取与目标文本内容相匹配的文本内容的多个特征标签;计算每一个上述特征标签与目标文本内容的分词片段的相似度;将该相似度与预设的相似度阈值进行比对,使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记。通常相似度大于预设相似度阈值的特征标签会有多个,从而可以对同一个文本内容进行不同标签的标记,进而可以根据这些不同的标签,将该文本内容归为不同的类别。通过该文本内容标签标记方法,可以利用网上已经分类过的文本内容,对目标文本内容进行自动化分拣,并且可以随着网上内容的变化而自动更新分拣过程,实现内容与标签多对多关系,满足各种分类、聚合需要,快速适应热门、潮流内容的分拣,从而使用户能够更加快速、精确的搜索到自己想要的内容。
本发明实施例还提供了一种文本内容标签标记装置10,参见图4所示,该装置包括:
标签获取单元101,用于获取与目标文本内容相匹配的已经分类过的文本内容的多个特征标签;
相似度计算单元102,用于计算每一个特征标签与目标文本内容的分词片段的相似度;
标签标记单元103,用于使用相似度大于预设相似度阈值的特征标签对目标文本内容进行标记。
其中,标签获取单元101包括:
信息获取模块1011,用于获取与目标文本内容相匹配的已经分类过的文本内容的多个特征信息;
权重计算模块1012,用于计算每一个特征信息的权重;
特征标签判定模块1013,用于根据权重以及预设权重阈值进行判断,将达到预设权重阈值的特征信息确定为特征标签。
其中,信息获取模块1011包括:
内容抓取模块10111,用于通过抓取适配器抓取与目标文本内容相匹配的已经分类过的文本内容;
分词模块10112,用于将文本内容进行分词处理,获得多个分词片段;
过滤模块10113,用于根据预设的干扰词汇模板,过滤多个分词片段中的干扰词汇;将过滤了干扰词汇的多个分词片段作为多个特征信息。
本发明实施例所提供的文本内容标签标记装置10,根据已经分类过的文本内容,通过标签获取单元101获取到多个特征标签;通过相似度计算单元102计算每一个上述特征标签与新的文本内容的分词片段的相似度;通过标签标记单元103将该相似度与预设的相似度阈值进行比对,使用相似度大于预设相似度阈值的特征标签对文本内容进行标记。通常相似度大于预设相似度阈值的特征标签会有多个,从而可以对同一个文本内容进行不同标签的标记,进而可以根据这些不同的标签,将该文本内容归为不同的类别。通过该文本内容标签标记方法,可以实现内容分拣自动化,同时实现内容与标签多对多关系,满足各种分类、聚合需要,从而使用户能够更加快速、精确的搜索到自己想要的内容。
本发明实施例提供的文本内容标签标记装置,与上述实施例提供的文本内容标签标记方法具有相同的技术特征,所以也能解决相同的技术问题,达到相同的技术效果。
本发明实施例所提供的文本内容标签标记方法以及装置的计算机程序产品,包括存储了程序代码的计算机可读存储介质,所述程序代码包括的指令可用于执行前面方法实施例中所述的方法,具体实现可参见方法实施例,在此不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统和装置的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
另外,在本发明实施例的描述中,除非另有明确的规定和限定,术语“安装”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个元件内部的连通。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only
Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。
在本发明的描述中,需要说明的是,术语“中心”、“上”、“下”、“左”、“右”、“竖直”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本发明的限制。此外,术语“第一”、“第二”、“第三”仅用于描述目的,而不能理解为指示或暗示相对重要性。
最后应说明的是:以上所述实施例,仅为本发明的具体实施方式,用以说明本发明的技术方案,而非对其限制,本发明的保护范围并不局限于此,尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,其依然可以对前述实施例所记载的技术方案进行修改或可轻易想到变化,或者对其中部分技术特征进行等同替换;而这些修改、变化或者替换,并不使相应技术方案的本质脱离本发明实施例技术方案的精神和范围,都应涵盖在本发明的保护范围之内。因此,本发明的保护范围应所述以权利要求的保护范围为准。