一种基于情感数据场的连续语音情感预测算法

文档序号:2827581阅读:662来源:国知局
一种基于情感数据场的连续语音情感预测算法
【专利摘要】本发明公开了一种基于情感数据场的连续语音情感预测算法,首先根据数据场理论,利用情感数据场中势函数建立不同语音情感特征向量之间的联系;其次,在短时间上选取多个语音情感特征向量,用群体智能算法在情感数据场中研究各语音情感特征向量的变化趋势,将这种变化趋势作为语音情感的识别结果。实验表明,本发明的方法可以有效的解决语音情感识别中存在的情感跟踪延迟问题并有效预测说话人情感的变化。
【专利说明】一种基于情感数据场的连续语音情感预测算法

【技术领域】
[0001] 本发明涉及一种语音情感预测方法,特别涉及一种对情感变化连续语音的基于情 感数据场的情感预测算法。

【背景技术】
[0002] 语音情感识别是人机智能化交互的一个重要研究领域,已有许多研究机构致力于 该领域的研究。然而目前语音情感识别处理的对象往往局限于语料库中已分割好的短句, 例如丹麦情感语音数据库(DES)、柏林情感语音数据库等,并且对语料库的语音情感识别已 经能够获得比较高的识别率。但是在现实生活中,人们的情感表达和状态是一个连续变化 的过程。实用语音情感识别系统要求处理的对象应该是未分割成短句的实时采集的连续情 感语音。例如在电话服务中心,实用语音情感识别系统要能够预测和识别服务人员的情绪 变化,预防对客户的不友好态度;航天、航空等特殊领域需要实时识别操作人员情感状态的 变化,避免不必要的事故发生等。目前传统的语音情感识别方法都是孤立地考虑统计特征 的情感特征向量,存在情感跟踪延迟或者不能及时识别情感的变化的问题,故无法实现对 连续语音的情感预测。


【发明内容】

[0003] 要解决的技术问题:针对现有技术的不足,本发明提出一种基于情感数据场的连 续语音情感预测算法,解决现有技术的语音情感识别方法对连续语音的情感预测存跟踪延 迟,无法实现对连续语音进行情感预测。
[0004] 技术方案:为解决上述技术问题,本发明采用以下技术方案:
[0005] -种基于情感数据场的连续语音情感预测算法,获取训练样本的语音情感特征 向量,利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空间,情感数 据场中的势函数建立起不同语音情感特征向量之间的联系;在进行情感预测时,等间隔的 对测试样本采集语音情感特征向量,判断语音情感是否发生变化,若未发生变化则返回重 新获取下一时刻的语音情感特征向量并判断,若语音情感发生变化则等间隔的选取语音情 感特征向量,利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个语音情感 特征向量,利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类型,在情 感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势值大小, 选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感类型。
[0006] 具体的,在本发明中,包括顺序执行的以下步骤:
[0007] (1)、建立情感数据场
[0008] 首先求取训练样本中类属于各种情感类别的语音情感特征向量,将这些语音情感 特征向量进行特征规范化后作为数据点构成情感数据场,其中类属于不同情感类别的数据 点分布在情感数据场中不同的区域,然后建立情感数据场中的势函数,则情感数据场中任 一语音情感特征向量X的位势即势函数值如下
[0009]

【权利要求】
1. 一种基于情感数据场的连续语音情感预测算法,其特征在于:获取训练样本的语 音情感特征向量,利用语音情感特征向量作为数据构成情感数据场以形成语音情感特征空 间,情感数据场中的势函数建立起不同语音情感特征向量之间的联系;在进行情感预测时, 等间隔的对测试样本采集语音情感特征向量,判断语音情感是否发生变化,若未发生变化 则返回重新获取下一时刻的语音情感特征向量并判断,若语音情感发生变化则等间隔的选 取语音情感特征向量,利用TSP蚁群算法中的多个蚂蚁分别一一对应模拟选取出来的多个 语音情感特征向量,利用TSP蚁群算法中的多个城市分别一一对应模拟多个语音情感的类 型,在情感数据场中计算每种语音情感的类型在选取出来的多个情感特征向量处产生的势 值大小,选择势值中最大的一个所对应的语音情感的类型即为预测语音情感变化后的情感 类型。
2. 根据权利要求1所述的一种基于情感数据场的连续语音情感预测算法,其特征在 于:包括顺序执行的以下步骤: (1) 、建立情感数据场 首先求取训练样本中属于各种情感类别的语音情感特征向量,将这些语音情感特征向 量进行特征规范化后作为数据点构成情感数据场,其中属于不同情感类别的数据点分布在 情感数据场中不同的区域,然后建立情感数据场中的势函数,则情感数据场中任一语音情 感特征向量X的位势即势函数值如下
式中D表示同类情感训练样本的语音情感特征向量的集合; f (x, Xi) = exp {- (x-Xi)τ Σ(x-x^ } 其中: Σ表示训练样本的语音情感特征向量组成的协方差矩阵,Σ =E[X-E(X)][X-E(X)T]; T表示转置矩阵; X表示待求位势的样本的语音情感特征向量; Xi表示训练样本i的语音情感特征向量; (2) 、利用情感数据场对情感变化的语音进行预测和识别 步骤2-1、进行预测和识别时,依据已建立的情感数据场判别当前时刻的语音情感类 型,将判断结果作为基本情感,基本情感的中心为; 步骤2-2、确定对测试样本的分析间隔,然后在预测和识别情感的时刻开始之前的Is 或者2s内等间隔采集语音情感特征向量; 步骤2-3、利用情感数据场判别语音情感是否发生变化,具体方法如下:当预测和识别 情感的时刻,属于第i类情感的语音情感特征向量X满足X > R( ω i,DO,则判断预测和识 别情感的时刻的语音情感相对于基本情感发生语音情感变化, 其中,
上述不等式中,表达式
>表示第i类情感的样本Di中位势值最小的样 本点,表达式,表示第i类情感的样本Di中距离基本情感的中心%最远样 本点; 步骤2-4、若判定为连续的语音情感,则返回步骤2-1 ; 若判定为语音情感发生变化,则进入步骤2-5 ; 步骤2-5、预测变化后的语音情感 利用TSP蚁群算法中的蚂蚁模拟步骤2-2中采集到的语音情感特征向量,利用TSP蚁 群算法中的城市模拟语音情感的类型,在情感数据场中根据式:
计算每种 语音情感的类型在选取出来的语音情感特征向量处产生的势值大小,选择势值中最大的一 个所对应的语音情感的类型即为预测语音情感变化后的情感类型。
3. 根据权利要求2所述的一种基于情感数据场的连续语音情感预测算法,其特征在 于:语音情感特征向量的求取过程包括以下步骤: 首先提取基频、均方根短时能量、过零率、谐波信噪比以及1-12维LFPC系数共16个短 时特征; 然后求取这16个短时特征的一阶倒数; 最后求取16个短时特征及其一阶倒数的统计量,所述统计量包括均值、最大值、最小 值、方差、偏斜度、峭度、波动范围、线性回归系数的斜率、偏置及均方误差共10类,共得到 320个语音情感特征向量。
4. 根据权利要求3所述的一种基于情感数据场的连续语音情感预测算法,其特征在 于:对320个语音情感特征向量的性能根据最大相关最小冗余算法进行等级排列,选择前 10个语音情感特征向量并进行特征规范化后作为数据点构成情感数据场。
【文档编号】G10L25/63GK104050963SQ201410283309
【公开日】2014年9月17日 申请日期:2014年6月23日 优先权日:2014年6月23日
【发明者】查诚, 黄程韦, 赵力 申请人:东南大学
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1