一种音频内容过滤系统及方法与流程

文档序号：13287447阅读：451来源：国知局

本发明涉及智能播放技术领域，尤其涉及一种音频内容过滤系统及方法。

背景技术：

许多人热衷于观看恐怖片，恐怖片不仅会有吓人的片段，还会有吓人的声音。在播放到最吓人的片段或者吓人的声音时，可能还会出现缺乏勇气观看的情况。但是，直接关闭上述视频，显然是不符合观看者的意图的，但是如何准确的跳过这些发出吓人声音的视频片段，成为了难以解决的问题。

另外，尤其是儿童在观看视频的时候，在某些非恐怖片类型的视频中可能也存在一些比较吓人或者令他们害怕的声音。而由于儿童无法很好的表达，也不能很好的操作视频播放设备，所以不能自主的去筛选音频内容。

申请公布号cn106454490a，授权公布日2017年2月22日的发明专利申请公开了一种智能播放视频的方法及装置。所述智能播放视频的方法，包括：实施监测用户的图像；根据用户的图像通过预设的人体图像算法，分析出用户的身体部位，所述用户的身体部位包括头部、眼部和手部中任一者或者多者；判断所述手部是否遮盖住所述眼部；当所述手部遮盖住所述眼部是，快进正在播放的视频；当满足预设的回复正常播放功能的条件时，中止快进视频的状态，回复正常的播放状态播放所述视频。实现了在用户观看特殊类型的视频时，准确理解用户的意图，自动的、智能的播放视频的功能，从而提升用户的观看体验。

但是该技术方案具有下述不足：

1.该技术方案中，根据用户是否发生遮盖眼睛的动作来判断是否需要快进正在播放的视频。既然用户已经用手捂住眼睛了，那么当前的播放内容是否快进对用户来讲意义不大。

2.不同的用户对于引起其不适的视频的反应是不同的，比如有的用户会发出尖叫、有的用户用手捂住眼睛、还有的用户可能仅仅是面部表情的表面。仅仅通过用户遮盖眼睛的动作来触发快进当前播放视频的操作，会导致该技术方案的方法或者装置对发生其他类型的反应用户无效。

3.总是要等到用户观看到引起不适的视频，导致用户发生了用手遮盖眼睛的动作以后才会触发快进的操作，无法预先估计哪些音频内容会引起用户的不适。

技术实现要素：

本发明为了解决上述技术问题，提出一种音频内容过滤系统，其特征在于，包括：音频帧数据库、播放模块、情绪监测模块；

所述音频帧数据库，用于对待播放的目标音频内容进行聚类分析，得到音频帧类，并存储每一个音频帧及其对应的音频帧类；

所述情绪监测模块，用于在播放所述目标音频内容时实时监测观众情绪，并且在所述观众情绪为目标情绪时获取疑似音频内容；根据所述疑似音频内容更新疑似音频内容信息，所述疑似音频内容信息包括所述疑似音频内容的声音特征和触发次数；

所述播放模块，用于当所述疑似音频内容信息的触发次数大于预设的观察次数时，过滤所述目标音频内容中所述疑似音频内容信息的声音特征对应的音频帧类。

上述技术方案中，通过情绪监测模块实时监测观众的情绪，主动的学习引起观众不适的音频内容的声音特征，动态的更新疑似音频内容信息，使得可能引起观众不适的音频内容没有被播放就被跳过。实现的真正的智能过滤音频内容。

作为优选，所述情绪监测模块包括采集观众的面部特征和声音特征的特征采集单元，所述情绪监测模块根据所述面部特征和所述声音特征监测所述观众情绪。

作为优选，所述目标情绪是指面部特征和/或声音特征满足情绪要求的所述观众情绪。

作为优选，所述疑似音频内容的声音特征是指所述疑似音频内容的每一个音频帧的声音特征的平均值；所述疑似音频内容的声音特征满足音调、音响在预设的音调范围、音响范围内。

作为优选，所述疑似音频内容是指检测到所述目标情绪之前的某一时刻到检测到所述目标情绪的之后的某一时刻之间的时间段内所述播放模块播放的一个或多个音频帧。

本发明还提供一种音频内容过滤方法，其特征在于，包括：

步骤s-1，对待播放的目标音频内容进行聚类分析，得到音频帧类，并将每一个音频帧及其对应的音频帧类存储于音频数据库；

步骤s-2，播放所述目标音频内容时实时监测观众情绪，并且在所述观众情绪为目标情绪时获取疑似音频内容；

步骤s-3，根据所述疑似音频内容更新疑似音频内容信息，所述疑似音频内容信息包括所述疑似音频内容的声音特征和触发次数；

步骤s-4，当所述疑似音频内容信息的触发次数大于预设的观察次数时，过滤所述目标音频内容中所述疑似音频内容信息的声音特征对应的音频帧类。

作为优选，根据采集到的观众的面部特征和声音数据监测所述观众情绪。

作为优选，所述目标情绪是指面部特征和/或声音特征满足情绪要求的所述观众情绪。

附图说明

图1是本发明实施例的系统结构图；

图2是本发明实施例的方法流程图。

具体实施方式

以下具体实施例仅仅是对本发明的解释，其并不是对本发明的限制，本领域技术人员在阅读完本说明书后可以根据需要对本实施例做出没有创造性贡献的修改，但只要在本发明的权利要求范围内都受到专利法的保护。

实施例一

如图1，一种音频内容过滤系统，包括：音频帧数据库、过滤数据库、播放模块、情绪监测模块。情绪监测模块在目标音频内容播放的实时监测观众观看该音频内容(具有吓人的声音的音频内容)时的情绪(观众情绪)，在监测到表示观众产生了不适的情绪(即目标情绪，例如害怕情绪、惊吓情绪等)时，对触发观众产生目标情绪的音频内容进行主动学习，提取该音频内容的特征，根据提取到的音频内容更新疑似音频内容信息。播放模块在疑似音频内容信息的触发次数大于预设的观察次数时，过滤目标音频内容中所述疑似音频内容信息的声音特征对应的音频帧类。具体的，在疑似音频内容信息的触发次数大于预设的观察次数时，将该疑似音频内容信息的声音特征存储至过滤数据库中。播放模块可以为音频播放设备或者具有音频播放功能的视频播放设备或者视频设备。播放模块在播放目标音频内容时，根据过滤数据库中记载的声音特征判断需要跳过的特定音频内容，并且执行跳过该特定音频内容的操作。通过情绪监测模块实时监测观众的情绪，主动的学习引起观众不适的音频内容的声音特征，动态的更新过滤数据库，使得符合过滤数据库中特征的音频内容能够在没有被播放时，未引起观众不适之前就被视频模块跳过。实现的真正的智能过滤音频内容。

具体的，本实施例中根据音频内容的声音特征来标记特定目标音频内容。声音有三个特征：音调、响度(即音量)、音色(即节奏)。音调和声音的频率有关，声音的频率越大，音调就越高，频率的单位为hz(赫兹)。响度和声音的振幅有关，声音的振幅越大，响度就越大，响度的单位为db(分贝)。而音色和发声的材质有关，主要是声音波形的不同导致音色的不同。可以选择声音的音调特征、响度特征和音色特征中的一个或者多个来标记不同的声音。而本实施例中，采用声音的音调特征和响度特征来标记发出吓人声音的音频内容。

本实施例中的音频帧数据库存储目标音频内容的每一帧音频数据(即音频帧)的关键特征：音调特征和响度特征。并且分别建立索引表：每一帧音频数据中的音调特征和响度特征的值分别保存下来。比如第n帧音频数据对应的是[音调n，响度n]。将创建好的全部索引，按目标音频内容的播放顺序存入音频帧数据库。以音频帧数据库中的第n条数据为例，内容是第n帧视频，[音调n，响度n]。并且对该音频帧数据库中的音频帧进行聚类分析，得到该音频帧对应的音频帧类。

情绪监测模块包含：特征采集单元、音频分析单元、观察数据库。

特征采集单元，用于在目标音频内容播放时，实时采集观众的面部特征和声音特征。具体的，包括用于实时采集观众的面部特征的图像记录设备和用于实时采集观众的声音特征的声音记录设备，图像记录设备和声音记录设备可以为相互独立的设备，也可以为集图像记录和声音记录功能一体的多功能设备。情绪监测模块根据特征采集单元采集的面部特征和声音特征监测观众情绪，并且在观众情绪为目标情绪时使能音频分析单元分析触发目标情绪的疑似音频内容。情绪监测模块包括脸部特征、声音特征和目标情绪(本实施例中为害怕情绪)对应的数据库。比如害怕情绪对应的某一组脸部特征，害怕情绪对应的某一组声音特征。情绪监测模块将采集到的面部特征和声音特征与目标情绪对应的数据库进行检索比对，判断观众的当前情绪是否为目标情绪(即是否为害怕情绪)。具体的，本实施例中以判断观众情绪是否为害怕情绪为例。如果情绪分析单元判断观众的面部特征满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为1级；如果情绪分析单元判断观众的声音特征满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为2级；如果情绪分析单元判断观众的面部特征和声音特征同时满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为3级；如果情绪分析单元判断观众的面部特征和声音特征均不满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为0级。如果观众当前的害怕情绪不是0级，则表明监测到了观众的害怕情绪。如果情绪监测模块判断观众情绪不是害怕情绪，则表明目前播放模块播放的音频内容并没有引起观众的不适，当前播放的音频内容是合适的；如果情绪监测模块判断观众情绪是害怕情绪，则表明目前播放模块播放的音频内容可能引起了观众的不适，触发了观众的目标情绪(即使观众害怕)，当前播放的音频内容可能不合适，可能需要被禁止播放(即在播放时被跳过)。

为了保证观众的观影效果和观影体验，降低系统的误判率。本实施例中，采用了一个校验机制。将这部分音频内容作为疑似音频内容进行观察学习。例如，采用一个观察数据库存储疑似音频内容信息。疑似音频内容的声音特征满足音调、音响在预设的音调范围、音响范围内。疑似音频内容的声音特征是指所述疑似音频内容的每一个音频帧的声音特征的平均值。疑似音频内容信息包括疑似音频内容的声音特征和触发次数；其中，触发次数是指疑似音频内容触发目标情绪的次数。

情绪监测模块在监测到当前播放的音频内容触发了观众的目标情绪以后，使能音频分析单元首先提取疑似音频内容。疑似音频内容的提取考虑到观众在音频内容中的声音播出，到观众形成相应的情绪反馈是有一段时间延迟的，音频分析单元将采集当前正在播放时间(即检测到目标情绪时对应的播放时间)之前的某一时刻(例如当前时间前2秒)到检测到目标情绪的之后的某一时刻(例如当前时间后2秒)之间的时间段内播放模块播放的音频内容的一个或多个音频帧。音频分析单元分析提取的疑似音频内容，具体地，音频分析单元建立采集到的疑似音频内容的每一个音频帧对应的索引数组，假设5秒为一帧，则4秒的疑似音频内容包含20个音频帧。考虑到声音是具有延续性的，出现突兀变化的概率比较小。音频分析单元分别计算采集到的每一个音频帧的音调和响度，然后将20个音频帧的音调和响度分别取平均值以后等到该疑似音频内容的音频数据的音调平均值和响度平均值。音频分析单元随后根据获取到的疑似音频内容的音调平均值和响度平均值作为疑似音频内容的声音特征，并且更新观察数据库：如果观察数据库中已经存在具有相同声音特征的疑似音频内容信息了，则将这个疑似音频内容信息的触发次数加1；如果观察数据库中并不存在具有相同声音特征的疑似音频内容信息，则在观察数据库中添加新的疑似音频内容信息，将新的疑似音频内容信息的声音特征设置为该疑似音频内容的声音特征，并且将新的疑似音频内容信息的触发次数设置1。当观察数据库中疑似音频内容信息的触发次数大于预设的观察次数(本实施例中的观察次数为三次)时，将疑似音频内容信息对应的疑似音频内容正是确定的过滤目标，将该疑似音频内容信息的声音特征对应的过滤声音特征范围添加至过滤数据库中：假设疑似音频内容信息的声音特征为音调a和音响b，确定音调的误差范围为c，音响的误差范围为d，则该疑似音频内容信息对应的音频帧类为声音特征在：音调范围(音调a-c，音调a+c)，音响范围(音响b-d，音响b+d)内的音频帧。

播放模块在播放音频内容时，将会自动跳过该疑似音频内容信息对应的音频帧类。

本实施例的音频内容过滤系统，通过情绪监测模块实时监测观众的情绪，主动的学习引起观众不适的音频内容的声音特征，动态的更新疑似音频内容信息，使得可能引起观众不适的音频内容在没有被播放时就被跳过。实现的真正的智能过滤音频内容。

实施例二

一种音频内容过滤系统的音频内容过滤方法，如图2，包括：

步骤s-1，建立音频帧数据库，音频帧数据库存储音频内容的每一个音频帧的音调特征和响度特征。分别建立索引表：每一帧音频数据中的音调特征和响度特征的值分别保存下来。比如第n帧音频数据对应的是[音调n，响度n]。将创建好的全部索引，按音频内容的播放顺序存入音频帧数据库。以音频帧数据库中的第n条数据为例，内容是第n帧视频，[音调n，响度n]。并且对该音频帧数据库中的各音频帧进行聚类分析，得到该音频帧对应的音频帧类。

步骤s-2，播放模块播放目标音频内容时，情绪监测模块实时监测观众情绪，并且在所述观众情绪为目标情绪时获取疑似音频内容。情绪监测模块在播放目标音频内容时采集观众的面部特征和声音特征，根据面部特征和声音特征分析观众情绪，并且在观众情绪为目标情绪时获取疑似音频内容。

情绪监测模块根据特征采集单元实时采集的面部特征和声音特征分析观众情绪，并且在观众情绪为目标情绪时使能音频分析单元分析触发目标情绪的疑似音频内容。情绪监测模块将采集到的面部特征和声音特征与目标情绪对应的数据库进行检索比对，判断观众的当前情绪是否为目标情绪(即是否为害怕情绪)。具体的，本实施例中以判断观众情绪是否为害怕情绪为例。如果情绪监测模块判断观众的面部特征满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为1级；如果情绪监测模块判断观众的声音特征满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为2级；如果情绪监测模块判断观众的面部特征和声音特征同时满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为3级；如果情绪监测模块判断观众的面部特征和声音特征均不满足害怕情绪要求(即符合害怕情绪对应的数据库)，则标记观众的害怕情绪为0级。如果观众当前的害怕情绪不是0级，则表明监测到了观众的害怕情绪。如果情绪监测模块判断观众情绪不是害怕情绪，则表明目前播放模块播放的音频内容并没有引起观众的不适，当前播放的音频内容是合适的；如果情绪监测模块判断观众情绪是害怕情绪，则表明目前播放模块播放的音频内容可能引起了观众的不适，触发了观众的目标情绪(即使观众害怕)，当前播放的音频内容可能不合适，可能需要被禁止播放(即在播放时被跳过)。

步骤s-3，情绪监测模块根据所述疑似音频内容更新观察数据库中的疑似音频内容信息，所述疑似音频内容信息包括所述疑似音频内容的声音特征和触发次数。情绪监测模块的音频分析单元根据疑似音频内容更新观察数据，观察数据库存储疑似音频内容信息，疑似音频内容信息包括疑似音频内容的声音特征和触发次数。音频分析单元首先提取疑似音频内容。疑似音频内容的提取考虑到观众在音频内容中的声音播出，到观众形成相应的情绪反馈是有一段时间延迟的，音频分析单元将采集当前正在播放时间(即检测到目标情绪时对应的播放时间)之前的某一时刻(例如当前时间前2秒)到检测到目标情绪的之后的某一时刻(例如当前时间后2秒)之间的时间段内播放模块播放的音频内容的一个或多个音频帧。音频分析单元对分析提取的疑似音频内容，具体地，音频分析单元建立采集到的疑似音频内容的每一个音频帧对应的索引数组，假设5秒为一帧，则4秒的疑似音频内容包含20个音频帧。考虑到声音是具有延续性的，出现突兀变化的概率比较小。音频分析单元分别计算采集到的每一个音频帧的音调和响度，然后将20个音频帧的音调和响度分别取平均值以后等到该疑似音频内容的音频数据的音调平均值和响度平均值。音频分析单元随后根据获取到的疑似音频内容的音调平均值和响度平均值作为疑似音频内容的声音特征，并且更新观察数据库：如果观察数据库中已经存在具有相同声音特征的疑似音频内容信息了，则将这个疑似音频内容信息的触发次数加1；如果观察数据库中并不存在具有相同声音特征的疑似音频内容信息，则在观察数据库中添加新的疑似音频内容信息，将新的疑似音频内容信息的声音特征设置为该疑似音频内容的声音特征，并且将新的疑似音频内容信息的触发次数设置1。

步骤s-4，播放模块在当所述更新观察数据库中的疑似音频内容信息的触发次数大于预设的观察次数时，过滤目标音频内容中疑似音频内容信息的声音特征对应的音频帧类；该音频帧类是指声音特征与所述疑似音频内容信息的声音特征匹配的音频数据。例如，当观察数据库中的疑似音频内容信息的触发次数大于预设的观察次数时，将疑似音频内容信息的声音特征对应的过滤声音特征范围添加至过滤数据库中；触发次数是指疑似音频内容触发目标情绪的次数。当观察数据库中疑似音频内容信息的触发次数大于预设的观察次数(本实施例中的观察次数为三次)时，疑似音频内容信息对应的疑似音频内容正是确定的过滤目标，将该疑似音频内容信息的声音特征对应的过滤声音特征范围添加至过滤数据库中：假设疑似音频内容信息的声音特征为音调a和音响b，确定音调的误差范围为c，音响的误差范围为d。则该疑似音频内容信息对应的音频帧类为声音特征在：音调范围(音调a-c，音调a+c)，音响范围(音响b-d，音响b+d)内的音频帧。那么，视频模块在播放音频内容时，将会自动跳过该疑似音频内容信息对应的音频帧类。

本实施例的音频内容过滤方法，可以采用实施例一中的音频内容过滤系统来实现。本实施的音频内容过滤方法通过实时监测观众的情绪，主动的学习引起观众不适的音频内容的声音特征，动态的更新疑似音频内容信息，使得可能引起观众不适的音频内容在没有被播放时就被跳过。实现的真正的智能过滤音频内容。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：王恒生
技术所有人：上海斐讯数据通信技术有限公司
我是此专利的发明人

上一篇：播放音频的方法、装置和系统与流程
上一篇：一种多媒体文件处理方法、处理装置及系统与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、王老师：1.数字信号处理 2.传感器技术及应用 3.机电一体化产品开发 4.机械工程测试技术 5.逆向工程技术研究
2、王老师：1.机器人 2.嵌入式控制系统开发
3、孙老师：1.振动信号时频分析理论与测试系统设计 2.汽车检测系统设计 3.汽车电子控制系统设计
4、毕老师：机构动力学与控制
5、袁老师：1.计算机视觉 2.无线网络及物联网
如您是高校老师，可以点此联系我们加入专家库。