广播电视节目中违规广告的监测方法和系统的制作方法
【专利摘要】本发明公开广播电视中违规广告的监测方法,该方法包括:S1.获取并存储广播电视数据;S2.建立所述存储数据的音频内容索引;S3.根据预设的违规关键词,从所述音频内容索引中检索违规广告;S4.根据所述违规广告,建立违规广告模板;S5.根据违规广告模板进行广播电视中广告的监测。
【专利说明】广播电视节目中违规广告的监测方法和系统
【技术领域】
[0001]本发明涉及视音频智能分析【技术领域】,尤其涉及一种广播电视中违规广告的监测方法和系统。
【背景技术】
[0002]广播电视作为广告的一种主要传播媒体,近年来颇受广告商的青睐,广播电视的广告投入量多年来一直保持较高的水平。但是,一些广告商为了追求利益,通过多种方式在广播电视中发布各种违规广告。
[0003]现有的广播电视中违规广告的监测方法是:首先把节目打包录制成一个一个的文件,然后采用人工值守,逐个把节目文件使用播放器打开,控制播放进度进行回听回看,从而完成对违规广告内容的排查或抽查。
[0004]现有的广播电视中违规广告的监测方法存在的问题是:对海量广播电视节目进行监测,不仅效率低下,而且需要配置大量的人力和物力,此外,人工在监测过程中,存在疲劳、惯性等主观性因素,也会造成监测偏差。
【发明内容】
[0005]本发明所要解决的技术问题是现有技术对海量广播电视节目进行监测,不仅效率低下,而且需要配置大量的人力和物力,此外,人工在监测过程中,存在疲劳、惯性等主观性因素,也会造成监测偏差的问题。
[0006]为此目的,本发明提出广播电视中违规广告的监测方法,该方法包括:
[0007]S1.获取并存储广播电视数据;
[0008]S2.建立所述存储数据的音频内容索引;
[0009]S3.根据预设的违规关键词,从所述音频内容索引中检索违规广告;
[0010]S4.根据所述违规广告,建立违规广告模板;
[0011]S5.根据违规广告模板进行广播电视中广告的监测。
[0012]其中,所述步骤S2包括:
[0013]S21.读取所述存储数据中的音频,对所述音频进行连续语音识别,得到音频的词图;
[0014]S22.根据所述连续语音识别过程的时间边界信息,将所述词图拆分成音素并生成音素网格;
[0015]S23.对所述音素网格进行节点合并、时间点量化和低概率路径裁剪,得到优化后的音素网格;
[0016]S24.根据所述优化后的音素网格,建立音频内容索引。
[0017]其中,所述步骤S3包括:
[0018]S31.根据预设的违规关键词,从所述音频内容索引中检索包含所述违规关键词的广告并记录违规关键词在音频中出现的位置;[0019]S32.根据所述违规关键词在音频中出现的位置,判断所述检索到的广告是否为违规广告,如果是违规广告,则确认违规广告的开始时间和结束时间。
[0020]其中,所述步骤S4包括:
[0021]S41.标注违规广告的模板属性,所述模板属性包括:厂商、行业、品牌、类别及违规内容;
[0022]S42.确定所述违规广告的类型,所述类型包括电视广告及广播广告;
[0023]S43.根据所述违规广告的类型,提取所述违规广告的特征信息,所述特征信息包括:视频灰度特征及音频子带能量特征;
[0024]S44.将所述特征信息进行归一化处理,得到特征序列;
[0025]S45.根据所述特征序列,建立全局索引,得到违规广告模板,所述违规广告模板包括电视违规广告模板及广播违规广告模板。
[0026]其中,所述步骤S5包括:
[0027]S51.提取待监测广播电视数据中的特征信息,所述特征信息包括:视频灰度特征和音频子带能量特征;
[0028]S52.将所述特征信息进行归一化处理,得到待匹配的视音频特征序列;
[0029]S53.将待匹配的视音频特征序列与违规广告模板的特征序列进行匹配,计算匹配相似度;
[0030]S54.比较所述匹配相似度与预设门限的大小,如果匹配相似度大于预设门限,则待监测广播电视数据为违规广告,否则,待监测广播电视数据不是违规广告。
[0031]本发明还提出广播电视中违规广告的监测系统,该系统包括:
[0032]数据获取与存储模块,用于获取并存储广播电视数据;
[0033]音频内容索引建立模块,用于建立所述存储数据的音频内容索引;
[0034]违规关键词检索模块,用于根据预设的违规关键词,从所述音频内容索引中检索违规广告;
[0035]违规广告模板建立模块,用于根据违规关键词检索模块检索到的违规广告,建立违规广告模板;
[0036]违规广告模板检索模块,用于根据违规广告模板进行广播电视中广告的监测。
[0037]其中,所述音频内容索引建立模块包括:
[0038]词图单元,用于读取所述存储数据中的音频,对所述音频进行连续语音识别,得到首频的词图;
[0039]音素网格生成单元,用于根据所述连续语音识别过程的时间边界信息,将所述词图拆分成音素并生成音素网格;
[0040]音素网格优化单元,用于对所述音素网格进行节点合并、时间点量化和低概率路径裁剪,得到优化后的音素网格。
[0041]其中,所述违规关键词检索模块包括:
[0042]检索单元,用于根据预设的违规关键词,从所述音频内容索引中检索包含所述违规关键词的广告并记录违规关键词在音频中出现的位置;
[0043]判断单元1,用于根据所述违规关键词在音频中出现的位置,判断所述检索到的广告是否为违规广告,如果是违规广告,则确认违规广告的开始时间和结束时间。[0044]其中,所述违规广告模板建立模块包括:
[0045]标注单元,用于标注违规广告的模板属性,所述模板属性包括:厂商、行业、品牌、类别及违规内容;
[0046]类型确定单元,用于确定所述违规广告的类型,所述类型包括电视广告及广播广
生P=I ;
[0047]特征信息提取单元I,用于根据所述违规广告的类型,提取所述违规广告的特征信息,所述特征信息包括:视频灰度特征及音频子带能量特征;
[0048]归一化处理单元1,用于将所述特征信息进行归一化处理,得到特征序列;
[0049]违规广告模板生成单元,根据所述特征序列,建立全局索引,得到违规广告模板,所述违规广告模板包括电视违规广告模板及广播违规广告模板。
[0050]其中,所述违规广告模板检索模块包括:
[0051]特征信息提取单元2,用于提取待监测广播电视数据中的特征信息,所述特征信息包括:视频灰度特征和音频子带能量特征;
[0052]归一化处理单元2,用于将所述特征信息进行归一化处理,得到待匹配的视音频特征序列;
[0053]匹配单元,用于将待匹配的视音频特征序列与违规广告模板的特征序列进行匹配,计算匹配相似度;
[0054]判断单元2,用于比较所述匹配相似度与预设门限的大小,如果匹配相似度大于预设门限,则待监测广播电视数据为违规广告,否则,待监测广播电视数据不是违规广告。
[0055]相比于现有技术,本发明提供的方法的有益效果是:可以对海量广播电视节目进行更全面、更快速、更准确地监测。
【专利附图】
【附图说明】
[0056]为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0057]图1示出了广播电视中违规广告的监测方法流程图;
[0058]图2示出了广播电视中违规广告的监测系统结构图。
【具体实施方式】
[0059]为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0060]实施例1:
[0061]本实施例公开一种广播电视中违规广告的监测方法,如图1所示,该方法包括:
[0062]S1.获取并存储广播电视数据;
[0063]本实施例中,将广播电视数据存储到文件数据库中的方式有两种,其一,根据预设的时间,周期性扫描硬盘上缓存的广播电视数据并存储到文件数据库中,为了有效管理数据文件,扫描到广播电视数据时,自动获得文件属性;其二,用户选择广播电视节目数据,上传到文件数据库中,上传时输入文件属性,所述文件属性包括:文件名称、文件路径、所属频道、开始时间和结束时间。
[0064]S2.建立所述存储数据的音频内容索引;
[0065]S3.根据预设的违规关键词,从所述音频内容索引中检索违规广告;
[0066]S4.根据所述违规广告,建立违规广告模板;
[0067]S5.根据违规广告模板进行广播电视中广告的监测。
[0068]其中,所述步骤S2包括:
[0069]S21.读取所述存储数据中的音频,对所述音频进行连续语音识别,得到音频的词图;所谓词图(Word Graph),就是一个有向无环的加权图,其中,词图的横坐标为时间轴,词图上每个节点表示一个在特定时间结束的词,到达该节点的边表示该词的持续时间,边上的权值为其对应的声学模型得分;
[0070]S22.根据所述连续语音识别过程的时间边界信息,将所述词图拆分成音素并生成音素网格;所谓时间边界信息,就是词图上每个词所持续的开始时间和结束时间;
[0071]S23.对所述音素网格进行节点合并、时间点量化和低概率路径裁剪,得到优化后的音素网格;
[0072]S24.根据所述优化后的音素网格,建立音频内容索引。
[0073]其中,所述步骤S3包括:
[0074]S31.根据预设的违规关键词,从所述音频内容索引中检索包含所述违规关键词的广告并记录违规关键词在音频中出现的位置;
[0075]S32.根据所述违规关键词在音频中出现的位置,判断所述检索到的广告是否为违规广告,如果是违规广告,则确认违规广告的开始时间和结束时间。
[0076]其中,所述步骤S4包括:
[0077]S41.标注违规广告的模板属性,所述模板属性包括:厂商、行业、品牌、类别及违规内容;
[0078]S42.确定所述违规广告的类型,所述类型包括电视广告及广播广告;
[0079]S43.根据所述违规广告的类型,提取所述违规广告的特征信息,所述特征信息包括:视频灰度特征及音频子带能量特征;
[0080]S44.将所述特征信息进行归一化处理,得到特征序列;
[0081]S45.根据所述特征序列,建立全局索引,得到违规广告模板,所述违规广告模板包括电视违规广告模板及广播违规广告模板。
[0082]其中,所述步骤S5包括:
[0083]S51.提取待监测广播电视数据中的特征信息,所述特征信息包括:视频灰度特征和音频子带能量特征;
[0084]S52.将所述特征信息进行归一化处理,得到待匹配的视音频特征序列;
[0085]S53.将待匹配的视音频特征序列与违规广告模板的特征序列进行匹配,计算匹配相似度;
[0086]S54.比较所述匹配相似度与预设门限的大小,如果匹配相似度大于预设门限,则待监测广播电视数据为违规广告,否则,待监测广播电视数据不是违规广告。
[0087]较佳的,自动把违规广告从节目数据中截取出来,转码成av1、flv、ts、mp3等格式,并长久保存到存储服务器或磁盘阵列等存储设备中。
[0088]自动从违规广告中提取某一图像关键帧作为取证图片。
[0089]根据频道、时间、行业、厂商、品牌、类别、违规内容等进行统计,生成统计报表输出。
[0090]实施例2:
[0091]本实施例公开一种广播电视中违规广告的监测系统,如图2所示,该系统包括:
[0092]数据获取与存储模块,用于获取并存储广播电视数据;
[0093]音频内容索引建立模块,用于建立所述存储数据的音频内容索引;
[0094]违规关键词检索模块,用于根据预设的违规关键词,从所述音频内容索引中检索违规广告;
[0095]违规广告模板建立模块,用于根据违规关键词检索模块检索到的违规广告,建立违规广告模板;
[0096]违规广告模板检索模块,用于根据违规广告模板进行广播电视中广告的监测。
[0097]其中,所述音频内容索引建立模块包括:
[0098]词图单元,用于读取所述存储数据中的音频,对所述音频进行连续语音识别,得到首频的词图;
[0099]音素网格生成单元,用于根据所述连续语音识别过程的时间边界信息,将所述词图拆分成音素并生成音素网格;
[0100]音素网格优化单元,用于对所述音素网格进行节点合并、时间点量化和低概率路径裁剪,得到优化后的音素网格。
[0101]其中,所述违规关键词检索模块提供web界面,违规关键词检索模块包括:
[0102]检索单元,用于根据预设的违规关键词,从所述音频内容索引中检索包含所述违规关键词的广告并记录违规关键词在音频中出现的位置;本实施例中,人工在web界面中首先选择某个或某些频道,并选定起止日期时间段,然后输入违规广告可能含有的任意违规关键词,检索单元会根据这些违规关键词进行检索,检索时,多个关键词以“与”、“或”逻辑关系进行检索,检索单元支持在结果中二次检索;为了提高检出率,检索单元支持模糊匹配检索,同时为了提高检索效率,检索单元支持在音频内容索引建立模块的缓存中检索。
[0103]判断单元1,用于根据所述违规关键词在音频中出现的位置,判断所述检索到的广告是否为违规广告,如果是违规广告,则确认违规广告的开始时间和结束时间。
[0104]本实施例中,检索关键词结果按置信度大小排序并分页显示在web界面上,显示的信息包括关键词、节目数据文件、频道、时间点、置信度。置信度的确定,就是声学模型得分的加权值。
[0105]其中,所述违规广告模板建立模块包括:
[0106]标注单元,用于标注违规广告的模板属性,所述模板属性包括:厂商、行业、品牌、类别及违规内容;
[0107]类型确定单元,用于确定所述违规广告的类型,所述类型包括电视广告及广播广
生P=I ;[0108]特征信息提取单元I,用于根据所述违规广告的类型,提取所述违规广告的特征信息,所述特征信息包括:视频灰度特征及音频子带能量特征;
[0109]归一化处理单元1,用于将所述特征信息进行归一化处理,得到特征序列;
[0110]违规广告模板生成单元,根据所述特征序列,建立全局索引,得到违规广告模板,所述违规广告模板包括电视违规广告模板及广播违规广告模板。
[0111]其中,所述违规广告模板检索模块包括:
[0112]特征信息提取单元2,用于提取待监测广播电视数据中的特征信息,所述特征信息包括:视频灰度特征和音频子带能量特征;
[0113]归一化处理单元2,用于将所述特征信息进行归一化处理,得到待匹配的视音频特征序列;
[0114]匹配单元,用于将待匹配的视音频特征序列与违规广告模板的特征序列进行匹配,计算匹配相似度;
[0115]判断单元2,用于比较所述匹配相似度与预设门限的大小,如果匹配相似度大于预设门限,所述门限根据先验知识确定的则待监测广播电视数据为违规广告,否则,待监测广播电视数据不是违规广告。
[0116]较佳的,该系统包括检索结果显示模块,检索结果显示模块用于显示检索结果,SP在web界面中显示违规广告的检索结果,显示信息包含频道、起止时间、时长、属性等;
[0117]人工选择一条或多条违规广告进行下载取证时,检索结果显示模块自动从节目数据中把违规广告截取出来,转码成av1、flv、ts等格式,并长久保存到存储服务器或磁盘阵列等存储设备中,自动从违规广告中提取某一图像关键帧作为取证图片保存;
[0118]人工在web界面中根据频道、时间、行业、厂商、品牌、类别、违规内容等进行违规广告统计,生成word或excel格式的统计报表输出。
[0119]本实施例公开的系统可实现7X24小时不间断的监测处理,语音内容索引速度大于5倍实时,索引速度约15MB/秒,对置信度高于90的违规关键词检索,准确率达到95%以上,检索速度为秒级。违规广告模板建立后,基于模板的违规广告检索的准确率超过99%,检索速度超过100倍实时,即从一天的节目检索某个违规广告,仅需要15分钟。
[0120]虽然结合附图描述了本发明的实施方式,但是本领域技术人员可以在不脱离本发明的精神和范围的情况下做出各种修改和变型,这样的修改和变型均落入由所附权利要求所限定的范围之内。
【权利要求】
1.广播电视中违规广告的监测方法,其特征在于,该方法包括: 51.获取并存储广播电视数据; 52.建立所述存储数据的音频内容索引; 53.根据预设的违规关键词,从所述音频内容索引中检索违规广告; 54.根据所述违规广告,建立违规广告模板; 55.根据违规广告模板进行广播电视中广告的监测。
2.根据权利要求1所述的方法,其特征在于,所述步骤S2包括: 521.读取所述存储数据中的音频,对所述音频进行连续语音识别,得到音频的词图; 522.根据所述连续语 音识别过程的时间边界信息,将所述词图拆分成音素并生成音素网格; 523.对所述音素网格进行节点合并、时间点量化和低概率路径裁剪,得到优化后的音素网格; 524.根据所述优化后的音素网格,建立音频内容索引。
3.根据权利要求1所述的方法,其特征在于,所述步骤S3包括: 531.根据预设的违规关键词,从所述音频内容索引中检索包含所述违规关键词的广告并记录违规关键词在音频中出现的位置; 532.根据所述违规关键词在音频中出现的位置,判断所述检索到的广告是否为违规广告,如果是违规广告,则确认违规广告的开始时间和结束时间。
4.根据权利要求3所述的方法,其特征在于,所述步骤S4包括: 541.标注违规广告的模板属性,所述模板属性包括:厂商、行业、品牌、类别及违规内容; 542.确定所述违规广告的类型,所述类型包括电视广告及广播广告; 543.根据所述违规广告的类型,提取所述违规广告的特征信息,所述特征信息包括:视频灰度特征及音频子带能量特征; 544.将所述特征信息进行归一化处理,得到特征序列; 545.根据所述特征序列,建立全局索引,得到违规广告模板,所述违规广告模板包括电视违规广告模板及广播违规广告模板。
5.根据权利要求1所述的方法,其特征在于,所述步骤S5包括: 551.提取待监测广播电视数据中的特征信息,所述特征信息包括:视频灰度特征和音频子带能量特征; 552.将所述特征信息进行归一化处理,得到待匹配的视音频特征序列; 553.将待匹配的视音频特征序列与违规广告模板的特征序列进行匹配,计算匹配相似度; 554.比较所述匹配相似度与预设门限的大小,如果匹配相似度大于预设门限,则待监测广播电视数据为违规广告,否则,待监测广播电视数据不是违规广告。
6.广播电视中违规广告的监测系统,其特征在于,所述系统包括: 数据获取与存储模块,用于获取并存储广播电视数据; 音频内容索引建立模块,用于建立所述存储数据的音频内容索引; 违规关键词检索模块,用于根据预设的违规关键词,从所述音频内容索引中检索违规广告; 违规广告模板建立模块,用于根据违规关键词检索模块检索到的违规广告,建立违规广告模板; 违规广告模板检索模块,用于根据违规广告模板进行广播电视中广告的监测。
7.根据权利要求6所述的系统,其特征在于,所述音频内容索引建立模块包括: 词图单元,用于读取所述存储数据中的音频,对所述音频进行连续语音识别,得到音频的词图; 音素网格生成单元,用于根据所述连续语音识别过程的时间边界信息,将所述词图拆分成音素并生成音素网格; 音素网格优化单元,用于对所述音素网格进行节点合并、时间点量化和低概率路径裁剪,得到优化后的音素网格。
8.根据权利要求6所述的系统,其特征在于,所述违规关键词检索模块包括: 检索单元,用于根据预设的违规关键词,从所述音频内容索引中检索包含所述违规关键词的广告并记录违规关键词在音频中出现的位置; 判断单元1,用于根据所述违规关键词在音频中出现的位置,判断所述检索到的广告是否为违规广告,如果是违规广告,则确认违规广告的开始时间和结束时间。
9.根据权利要求6所述的系统,其特征在于,所述违规广告模板建立模块包括: 标注单元,用于标注违规广告的模板属性,所述模板属性包括:厂商、行业、品牌、类别及违规内容; 类型确定单元,用于确定所述违规广告的类型,所述类型包括电视广告及广播广告;特征信息提取单元1,用于根据所述违规广告的类型,提取所述违规广告的特征信息,所述特征信息包括:视频灰度特征及音频子带能量特征; 归一化处理单元1,用于将所述特征信息进行归一化处理,得到特征序列; 违规广告模板生成单元,根据所述特征序列,建立全局索引,得到违规广告模板,所述违规广告模板包括电视违规广告模板及广播违规广告模板。
10.根据权利要求6所述的系统,其特征在于,所述违规广告模板检索模块包括: 特征信息提取单元2,用于提取待监测广播电视数据中的特征信息,所述特征信息包括:视频灰度特征和音频子带能量特征; 归一化处理单元2,用于将所述特征信息进行归一化处理,得到待匹配的视音频特征序列; 匹配单元,用于将待匹配的视音频特征序列与违规广告模板的特征序列进行匹配,计算匹配相似度; 判断单元2,用于比较所述匹配相似度与预设门限的大小,如果匹配相似度大于预设门限,则待监测广播电视数据为违规广告,否则,待监测广播电视数据不是违规广告。
【文档编号】G06F17/30GK103914530SQ201410126252
【公开日】2014年7月9日 申请日期:2014年3月31日 优先权日:2014年3月31日
【发明者】姜洪臣 申请人:北京中科模识科技有限公司