一种节目关键词的提取与统计方法及装置的制造方法
【专利摘要】本发明公开了一种节目关键词的提取与统计方法及装置,用于自节目相关信息中精确提取节目的关键词。所述方法包括:获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;从所述节目的相关信息中,每隔一个预设时长提取一组关键词;根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。该方案可以自节目相关信息中精确提取节目的关键词,从而使得广告主可以在自主选择的情况下,通过该节目的关键词投放广告,其操作过程简便,提升了用户体验。
【专利说明】
一种节目关键词的提取与统计方法及装置
技术领域
[0001]本发明涉及节目关键词领域,特别涉及一种节目关键词的提取与统计方法及装置。
【背景技术】
[0002]随着科学技术的发展及人民生活水平的提高,观赏各种类型的节目已经成为人们工作、学习、社交以及休闲娱乐不可替代的重要方式。随着用户使用频率的增多以及用户要求的提高,为各类用户提供的节目信息和内容也越来越广泛,服务商针对不同的频道的节目会提供不同的关键词以供用户进行参考,比如,令想要在节目中投放广告的广告主根据该关键词进行广告投放。但在目前尚缺少一种简单快捷且准确的关键词提取方法。
【发明内容】
[0003]本发明提供一种节目关键词的提取与统计方法及装置,可以自节目相关信息中精确提取节目的关键词,从而使得广告主可以在自主选择的情况下,通过该节目的关键词投放广告,其操作过程简便,提升了用户体验。
[0004]根据本发明实施例的第一方面,提供一种节目关键词的提取与统计方法,包括:
[0005]获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;
[0006]从所述节目的相关信息中,每隔一个预设时长提取一组关键词;
[0007]根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。
[0008]在一个实施例中,所述根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词,包括:
[0009]统计所述节目的节目时长之内的多组关键词中,每个关键词重复出现的总次数;
[0010]统计每个关键词与其他关键词同时出现的次数;
[0011]将每个关键词重复出现的总次数与每个关键词与其他关键词同时出现的次数进行加权求和并进行排序;
[0012]获取排序后名次在预设名次之内的关键词,并将其记录为所述节目的关键词。
[0013]在一个实施例中,所述节目标签包括节目名称、节目简介、节目类型和节目相关人员。
[0014]在一个实施例中,所述根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词之后,包括:
[0015]根据提取的所述关键词的特征对所述关键词进行分类之后将其存储;其中,所述关键词的特征包括文本特征、语言特征、统计特征、标注特征中的至少一个。
[0016]在一个实施例中,所述从所述节目的相关信息中,每隔一个预设时长提取一组关键词,包括:
[0017]每隔一个预设时长,采用Tf-1df算法从所述节目的相关信息中筛选出一组所述预设时长之内的关键词。
[0018]根据本发明实施例的第二方面,还提供一种节目关键词的提取与统计装置,包括:
[0019]获取模块,用于获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;
[0020]提取模块,用于从所述节目的相关信息中,每隔一个预设时长提取一组关键词;[0021 ]统计模块,用于根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。
[0022]在一个实施例中,所述统计模块包括:
[0023]第一统计子模块,用于统计所述节目的节目时长之内的多组关键词中,每个关键词重复出现的总次数;
[0024]第二统计子模块,用于统计每个关键词与其他关键词同时出现的次数;
[0025]排序子模块,用于将每个关键词重复出现的总次数与每个关键词与其他关键词同时出现的次数进行加权求和并进行排序;
[0026]关键词获取子模块,用于获取排序后名次在预设名次之内的关键词,并将其记录为所述节目的关键词。
[0027]在一个实施例中,所述节目标签包括节目名称、节目简介、节目类型和节目相关人员。
[0028]在一个实施例中,所述装置还包括:
[0029]分类模块,用于根据提取的所述关键词的特征对所述关键词进行分类之后将其存储;其中,所述关键词的特征包括文本特征、语言特征、统计特征、标注特征中的至少一个。
[0030]在一个实施例中,所述提取模块包括:
[0031]筛选子模块,用于每隔一个预设时长,采用Tf-1df算法从所述节目的相关信息中筛选出一组所述预设时长之内的关键词。
[0032]本发明实施例提供的技术方案可产生以下有益效果:获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;从所述节目的相关信息中,每隔一个预设时长提取一组关键词;根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。该方案可以自节目相关信息中精确提取节目的关键词,从而使得广告主可以在自主选择的情况下,通过该节目的关键词投放广告,其操作过程简便,提升了用户体验。
[0033]本发明的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。
[0034]下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
【附图说明】
[0035]附图用来提供对本发明的进一步理解,并且构成说明书的一部分,与本发明的实施例一起用于解释本发明,并不构成对本发明的限制。
[0036]在附图中:
[0037]图1为本发明根据一示例性实施例示出的一种节目关键词的提取与统计方法的流程图。
[0038]图2为本发明根据一示例性实施例示出的一种节目关键词的提取与统计方法的步骤S30的流程图。
[0039]图3为本发明根据一示例性实施例示出的另一种节目关键词的提取与统计方法的流程图。
[0040]图4为本发明根据一示例性实施例示出的一种节目关键词的提取与统计装置的框图。
[0041]图5为本发明根据一示例性实施例示出的一种节目关键词的提取与统计装置的统计模块63的框图。
[0042]图6为本发明根据一示例性实施例示出的一种节目关键词的提取与统计装置的框图。
[0043]图7为本发明根据一示例性实施例示出的一种节目关键词的提取与统计装置中提取模块62的框图。
【具体实施方式】
[0044]以下结合附图对本发明的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本发明,并不用于限定本发明。
[0045]本公开实施例提供了一种节目关键词的提取与统计方法,用于自节目相关信息中精确提取节目的关键词,从而使得广告主可以在自主选择的情况下,通过该节目的关键词投放广告,其操作过程简便,提升了用户体验。如图1所示,该方法包括步骤S10-S30:
[0046]在步骤SlO中,获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;可理解的,所述节目的相关信息还可以包括节目中人物的配饰、穿戴等物品或者节目中出现的其他物品和观众关注的名词等相关信息,只要与广告主想要投放的广告相关即可。
[0047]在一个实施例中,所述节目标签包括节目名称、节目简介、节目类型和节目相关人员。可理解的,所述节目标签还可以根据用户需要进行设定。
[0048]在一个实施例中,所述获取各节目的节目相关信息,包括:获取已经转换为文字的节目语音信息。也即,获取节目的相关信息时,所述节目相关信息中的节目语音信息需要先转换为文字,之后再在后续步骤中进行关键词的提取,可理解的,可以先获取该节目语音信息之后再将其转换为文字,也可以等待该节目语音信息转换为文字之后再进行获取。
[0049]在步骤S20中,从所述节目的相关信息中,每隔一个预设时长提取一组关键词;其中,所述预设时长可以根据用户需要进行设定,比如,设定为一分钟,此时,每隔一分钟就会从所述节目的相关信息中获取一组关键词,以便于后续进行统计。且一组关键词中关键词最后保留的数量也可以根据用户需求进行设定,也可以根据预设的条件获取所有的关键
Τ.κ| ο
[0050]在一个实施例中,所述从步骤S20包括:每隔一个预设时长,采用Tf-1df算法(一种用于信息检索与数据挖掘的加权统计方法)从所述节目的相关信息中筛选出一组所述预设时长之内的关键词。当然,可理解的,所述Tf-1df算法也可以用其他适用的算法来进行替换,只要能达到提取关键词的需求即可。其中,所述预设时长可以根据用户需要进行设定,比如,设定为一分钟,此时,每隔一分钟就会采用Tf-1df算法从所述节目的相关信息中获取一组关键词,以便于后续进行统计。
[0051 ]在步骤S30中,根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。可理解的,当所述节目的节目时长比所述预设时长还短时,所述关键词可能只有一组。所述预设的统计规则可以根据用户需求进行设定。
[0052]在一个实施例中,如图2所示,所述步骤S30包括:
[0053]步骤S301、统计所述节目的节目时长之内的多组关键词中,每个关键词重复出现的总次数;可理解的,当所述节目的节目时长比所述预设时长还短时,所述关键词可能只有一组。在该步骤中,会统计多组关键词中每个关键词重复出现的总次数,出现的次数越多,说明该关键词的越受观众关注,对于广告主来说该关键词价值越高。
[0054]步骤S302、统计每个关键词与其他关键词同时出现的次数;在该步骤中,会统计每个关键词与其他关键词同时出现的次数,同时出现的次数越多,说明该关键词与其他关键词的联系越紧密。
[0055]步骤S303、将每个关键词重复出现的总次数与每个关键词与其他关键词同时出现的次数进行加权求和并进行排序;可理解的,两者加权的权值可以根据需要进行定义。
[0056]步骤S304、获取排序后名次在预设名次之内的关键词,并将其记录为所述节目的关键词。其中,所述预设名次可以根据需要进行设定,比如设定预设名次为前十,那么,排序在前十的关键词为该节目的关键词。
[0057]在一个实施例中,如图3所示,所述步骤S30之后还包括步骤S40:根据提取的所述关键词的特征对所述关键词进行分类之后将其存储;其中,所述关键词的特征包括文本特征、语言特征、统计特征、标注特征中的至少一个。其中,所述文本特征是指所述关键词本身和/或所述关键词提取的来源,比如,所述关键词是从节目相关信息中的字段信息和/或位置信息,其来源于字幕、节目标签还是来源于转换为文字之后的语音信息等。所述语言特征是指所述关键词自身的语言特性。例如,词性(例如,名词、动词、形容词)、是否是专有名词(例如,商品名、品牌名、地名、人名)、被自然语言处理后的各种语言特征信息(例如,是否是主成分、是否是主干信息、主干信息分析的具体属性信息等)等中的至少一个。所述统计特征是指所述关键词的统计特性。例如,所述关键词在所述节目相关信息中出现的次数等。可理解的,所述关键词的特征并不限定于为上述特征,也可以是其他可以对其进行分类的特征,对以上关键词提取并进行分类之后,可以将其存储在关键词列表中,且将所述关键词与分类特征进行关联,在广告主想要进行广告投放时,也可以直接点击节目播放的屏幕上的特定按钮,进而单独显示所述关键词的分类之后再进行进一步选择所述关键词,或同时显示所述关键词的分类以及所述关键词,以方便广告主通过点击所述关键词进行广告投放。
[0058]本发明实施例提供的上述方法,获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;从所述节目的相关信息中,每隔一个预设时长提取一组关键词;根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。该方案可以自节目相关信息中精确提取节目的关键词,从而使得广告主可以在自主选择的情况下,通过该节目的关键词投放广告,其操作过程简便,提升了用户体验。
[0059]对应本发明实施例提供的节目关键词的提取与统计方法,本发明还提供节目关键词的提取与统计装置,如图4所示,该装置可包括:
[0060]获取模块61,用于获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息;可理解的,所述节目的相关信息还可以包括节目中人物的配饰、穿戴等物品或者节目中出现的其他物品和观众关注的名词等相关信息,只要与广告主想要投放的广告相关即可。所述获取模块61包括:语音获取子模块(图未示),用于获取已经转换为文字的节目语音信息。也即,获取节目的相关信息时,所述节目相关信息中的节目语音信息需要先转换为文字,之后再在后续步骤中进行关键词的提取,可理解的,可以先获取该节目语音信息之后再将其转换为文字,也可以等待该节目语音信息转换为文字之后再进行获取。
[0061 ]提取模块62,用于从所述节目的相关信息中,每隔一个预设时长提取一组关键词;其中,所述预设时长可以根据用户需要进行设定,比如,设定为一分钟,此时,每隔一分钟就会从所述节目的相关信息中获取一组关键词,以便于后续进行统计。且一组关键词中关键词最后保留的数量也可以根据用户需求进行设定,也可以根据预设的条件获取所有的关键
Τ.κ| ο
[0062]统计模块63,用于根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。可理解的,当所述节目的节目时长比所述预设时长还短时,所述关键词可能只有一组。所述预设的统计规则可以根据用户需求进行设定。
[0063]在一个实施例中,如图5所示,所述统计模块63包括:
[0064]第一统计子模块631,用于统计所述节目的节目时长之内的多组关键词中,每个关键词重复出现的总次数;可理解的,当所述节目的节目时长比所述预设时长还短时,所述关键词可能只有一组。也即,多组关键词中每个关键词重复出现的总次数出现的次数越多,说明该关键词的越受观众关注,对于广告主来说该关键词价值越高。
[0065]第二统计子模块632,用于统计每个关键词与其他关键词同时出现的次数;也即,每个关键词与其他关键词同时出现的次数同时出现的次数越多,说明该关键词与其他关键词的联系越紧密。
[0066]排序子模块633,用于将每个关键词重复出现的总次数与每个关键词与其他关键词同时出现的次数进行加权求和并进行排序;可理解的,两者加权的权值可以根据需要进行定义。
[0067]关键词获取子模块634,用于获取排序后名次在预设名次之内的关键词,并将其记录为所述节目的关键词。其中,所述预设名次可以根据需要进行设定,比如设定预设名次为前十,那么,排序在前十的关键词为该节目的关键词。
[0068]在一个实施例中,所述节目标签包括节目名称、节目简介、节目类型和节目相关人员。可理解的,所述节目标签还可以根据用户需要进行设定。
[0069]在一个实施例中,如图6所示,所述装置还包括:
[0070]分类模块64,用于根据提取的所述关键词的特征对所述关键词进行分类之后将其存储;其中,所述关键词的特征包括文本特征、语言特征、统计特征、标注特征中的至少一个。其中,所述文本特征是指所述关键词本身和/或所述关键词提取的来源,比如,所述关键词是从节目相关信息中的字段信息和/或位置信息,其来源于字幕、节目标签还是来源于转换为文字之后的语音信息等。所述语言特征是指所述关键词自身的语言特性。例如,词性(例如,名词、动词、形容词)、是否是专有名词(例如,商品名、品牌名、地名、人名)、被自然语言处理后的各种语言特征信息(例如,是否是主成分、是否是主干信息、主干信息分析的具体属性信息等)等中的至少一个。所述统计特征是指所述关键词的统计特性。例如,所述关键词在所述节目相关信息中出现的次数等。可理解的,所述关键词的特征并不限定于为上述特征,也可以是其他可以对其进行分类的特征,对以上关键词提取并进行分类之后,可以将其存储在关键词列表中,且将所述关键词与分类特征进行关联,在广告主想要进行广告投放时,也可以直接点击节目播放的屏幕上的特定按钮,进而单独显示所述关键词的分类之后再进行进一步选择所述关键词,或同时显示所述关键词的分类以及所述关键词,以方便广告主通过点击所述关键词进行广告投放。
[0071]在一个实施例中,如图7所示,所述提取模块62包括:
[0072]筛选子模块621,用于每隔一个预设时长,采用Tf-1df算法从所述节目的相关信息中筛选出一组所述预设时长之内的关键词。可理解的,所述Tf-1df算法也可以用其他适用的算法来进行替换,只要能达到提取关键词的需求即可。其中,所述预设时长可以根据用户需要进行设定,比如,设定为一分钟,此时,每隔一分钟就会采用Tf-1df算法从所述节目的相关信息中获取一组关键词,以便于后续进行统计。
[0073]本发明实施例提供的上述装置,可以自节目相关信息中精确提取节目的关键词,从而使得广告主可以在自主选择的情况下,通过该节目的关键词投放广告,其操作过程简便,提升了用户体验。
[0074]本领域内的技术人员应明白,本发明的实施例可提供为方法、系统、或计算机程序产品。因此,本发明可采用完全硬件实施例、完全软件实施例、或结合软件和硬件方面的实施例的形式。而且,本发明可采用在一个或多个其中包含有计算机可用程序代码的计算机可用存储介质(包括但不限于磁盘存储器和光学存储器等)上实施的计算机程序产品的形式。
[0075]本发明是参照根据本发明实施例的方法、设备(系统)、和计算机程序产品的流程图和/或方框图来描述的。应理解可由计算机程序请求实现流程图和/或方框图中的每一流程和/或方框、以及流程图和/或方框图中的流程和/或方框的结合。可提供这些计算机程序请求到通用计算机、专用计算机、嵌入式处理机或其他可编程信息处理设备的处理器以产生一个机器,使得通过计算机或其他可编程信息处理设备的处理器执行的请求产生用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的装置。
[0076]这些计算机程序请求也可存储在能引导计算机或其他可编程信息处理设备以特定方式工作的计算机可读存储器中,使得存储在该计算机可读存储器中的请求产生包括请求装置的制造品,该请求装置实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能。
[0077]这些计算机程序请求也可装载到计算机或其他可编程信息处理设备上,使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的处理,从而在计算机或其他可编程设备上执行的请求提供用于实现在流程图一个流程或多个流程和/或方框图一个方框或多个方框中指定的功能的步骤。
[0078]显然,本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样,倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内,则本发明也意图包含这些改动和变型在内。
【主权项】
1.一种节目关键词的提取与统计方法,其特征在于,包括: 获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息; 从所述节目的相关信息中,每隔一个预设时长提取一组关键词; 根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键Τ.κ| ο2.如权利要求1所述的方法,其特征在于,所述根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词,包括: 统计所述节目的节目时长之内的多组关键词中,每个关键词重复出现的总次数; 统计每个关键词与其他关键词同时出现的次数; 将每个关键词重复出现的总次数与每个关键词与其他关键词同时出现的次数进行加权求和并进行排序; 获取排序后名次在预设名次之内的关键词,并将其记录为所述节目的关键词。3.如权利要求1或2所述的方法,其特征在于,所述节目标签包括节目名称、节目简介、节目类型和节目相关人员。4.如权利要求1或2所述的方法,其特征在于,所述根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词之后,包括: 根据提取的所述关键词的特征对所述关键词进行分类之后将其存储;其中,所述关键词的特征包括文本特征、语言特征、统计特征、标注特征中的至少一个。5.如权利要求1或2所述的方法,其特征在于,所述从所述节目的相关信息中,每隔一个预设时长提取一组关键词,包括: 每隔一个预设时长,采用Tf-1df算法从所述节目的相关信息中筛选出一组所述预设时长之内的关键词。6.一种节目关键词的提取与统计装置,其特征在于,包括: 获取模块,用于获取各节目的节目相关信息,所述节目相关信息包括节目字幕、节目标签和节目语音信息; 提取模块,用于从所述节目的相关信息中,每隔一个预设时长提取一组关键词; 统计模块,用于根据预设统计规则,自所述节目的节目时长之内的多组关键词中提取所述节目的关键词。7.如权利要求6所述的装置,其特征在于,所述统计模块包括: 第一统计子模块,用于统计所述节目的节目时长之内的多组关键词中,每个关键词重复出现的总次数; 第二统计子模块,用于统计每个关键词与其他关键词同时出现的次数; 排序子模块,用于将每个关键词重复出现的总次数与每个关键词与其他关键词同时出现的次数进行加权求和并进行排序; 关键词获取子模块,用于获取排序后名次在预设名次之内的关键词,并将其记录为所述节目的关键词。8.如权利要求6所述的装置,其特征在于,所述节目标签包括节目名称、节目简介、节目类型和节目相关人员。9.如权利要求7或8所述的装置,其特征在于,所述装置还包括: 分类模块,用于根据提取的所述关键词的特征对所述关键词进行分类之后将其存储;其中,所述关键词的特征包括文本特征、语言特征、统计特征、标注特征中的至少一个。10.如权利要求6所述的装置,其特征在于,所述提取模块包括: 筛选子模块,用于每隔一个预设时长,采用Tf-1df算法从所述节目的相关信息中筛选出一组所述预设时长之内的关键词。
【文档编号】H04N21/435GK105979287SQ201610378332
【公开日】2016年9月28日
【申请日】2016年5月31日
【发明人】章杰
【申请人】无锡天脉聚源传媒科技有限公司