一种中国学生英语朗读质量分析方法与流程

文档序号：22166972发布日期：2020-09-11 20:39阅读：455来源：国知局

本发明涉及语音识别、信号处理和机器学习技术，具体是一种中国学生英语朗读质量分析方法。

背景技术：

英语朗读质量分析是让计算机模拟英语教师对学生英语发音进行分析的过程，主要包括英语发音错误检测和英语发音质量评测两方面。其中，英语发音错误检测是检查出学生英语发音中的错误，并就错误反馈纠错建议；英语发音质量评测是以评分方式来评估学生英语发音是否标准。现有的英语朗读质量分析方法主要建立在统计语音识别框架基础上，利用提取出的对数后验概率特征进行英语朗读质量分析。但是，这种英语朗读质量分析方法对度量特征性能的依赖性较大，当度量特征覆盖的维度较少时难以全面分析学生的英语朗读发音质量。针对上述问题，本发明提出了一种中国学生英语朗读质量分析方法，解决了现有的英语朗读质量分析方法的上述问题。

技术实现要素：

本发明的一种中国学生英语朗读质量分析方法的总体处理流程如图1所示，其中包括英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块和英语朗读发音质量输出模块。

其中的英语朗读发音预处理模块的处理流程是：第一，输入英语朗读语音，对英语朗读语音进行预加重、分帧、加窗处理；第二，对预加重、分帧、加窗处理后的英语朗读语音进行快速傅里叶变换、梅尔滤波、取对数、离散余弦变换，得到英语朗读语音的梅尔频率倒谱系数；第三，对英语朗读语音的梅尔频率倒谱系数进行一阶和二阶时域差分，得到一阶和二阶差分系数，并将梅尔频率倒谱系数及其一阶和二阶差分系数拼接，得到英语朗读语音的声学特征，并输出英语朗读语音的声学特征。

其中的英语朗读发音错误检测模块的处理流程是：第一，输入英语朗读语音的声学特征和英语朗读文本；第二，根据英语朗读文本搭建搜索网络，并使用识别器在搭建好的搜索网络中将英语朗读语音的声学特征和英语朗读文本进行自动对齐切分，得到英语朗读语音的音素边界信息；第三，使用英语朗读语音的音素边界信息，根据公式计算英语朗读语音单词发音标准度，并和单词预设阀值进行比较，标记发音错误单词；第四，根据公式计算英语朗读语音音素发音标准度，遍历发音错误单词中的所有音素，并和音素预设阀值进行比较，标记发音错误单词中的发音错误音素；第五，将英语朗读语音中的发音错误单词及其对应的发音错误音素拼接，得到英语朗读发音错误检测结果，并输出英语朗读发音错误检测结果。

其中的英语朗读发音质量分析模块的处理流程是：第一，输入英语朗读语音音素发音标准度和标准英语朗读语音，基于自动对齐切分得到的英语朗读语音音素边界信息，根据公式计算英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值；第二，将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中，输出英语朗读发音质量得分，并输出英语朗读发音质量分析结果。

其中的英语朗读发音质量输出模块的处理流程是：第一，输入英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果；第二，根据英语朗读发音错误检测模块的结果、英语朗读发音质量分析模块的结果生成英语朗读发音质量评语。

本发明的计算公式定义如下：

1.英语语音帧观测矢量与音素似然度计算公式

英语语音帧观测矢量与音素似然度是指英语语音帧观测矢量对应的声学特征与音素对应的声学模型之间的相似程度，它的计算公式如下：

英语语音帧观测矢量与音素似然度＝状态转移概率×观测概率(1)

在计算公式(1)中，状态转移概率是指音素对应的声学模型中不同状态之间相互转移的概率；观测概率是指音素对应的声学模型处于某一状态时生成语音帧观测矢量的概率。

2.英语朗读语音音素发音标准度计算公式

英语朗读语音音素发音标准度是指英语朗读语音中当前音素发音的标准程度，它的计算公式如下：

在计算公式(2)中，s＝1，2，…，m，s是英语朗读语音中的第s个音素，m是声学模型中的音素总数；t＝t0，…，t1，t是英语朗读语音中第s个音素所处的时刻，t0是英语朗读语音中第s个音素的起始时刻，t1是英语朗读语音中第s个音素的结束时刻；英语语音帧观测矢量t是指英语朗读语音中第s个音素在时刻t对应的观测矢量；英语语音帧观测矢量t与音素s似然度由计算公式(1)计算得出。

3.英语朗读语音单词发音标准度计算公式

英语朗读语音单词发音标准度是指英语朗读语音中当前单词发音的标准程度，它的计算公式如下：

在计算公式(3)中，i＝1，2，…，m，i是英语朗读语音当前单词中每个音素对应的序号，m是英语朗读语音中当前单词包括的音素总数；英语朗读语音音素i发音标准度由计算公式(2)计算得出。

4.英语朗读语音整体发音标准度计算公式

英语朗读语音整体发音标准度是指英语朗读语音中所有音素发音标准度的平均值，它的计算公式如下：

在计算公式(4)中，j＝1，2，…，n，j是英语朗读语音中每个音素对应的序号，n是英语朗读语音中的音素总数；英语朗读语音音素j发音标准度由计算公式(2)计算得出。

5.英语朗读语速计算公式

英语朗读语速是指英语朗读语音中音素总数和英语朗读语音总时长的比值，它的计算公式如下：

6.英语朗读发音速度计算公式

英语朗读发音速度是指英语朗读语音中音素总数和不包括停顿总时长在内的英语朗读语音总时长的比值，它的计算公式如下：

7.英语朗读发音时长比值计算公式

英语朗读发音时长比值是指不包括停顿总时长在内的英语朗读语音总时长和英语朗读语音总时长的比值，它的计算公式如下：

8.英语朗读平均语流时长计算公式

英语朗读平均语流时长是指英语朗读语音中音素总数和英语朗读语音中停顿总次数的比值，它的计算公式如下：

9.英语朗读平均停顿时长计算公式

英语朗读平均停顿时长是指英语朗读语音中停顿总时长和英语朗读语音中停顿总次数的比值，它的计算公式如下：

10.英语音素标准发音时长均值计算公式

英语音素标准发音时长均值是指标准英语朗读语音中所有音素样本的平均发音时长，它的计算公式如下：

在计算公式(10)中，k＝1，2，…，p，k是标准英语朗读语音中每个音素样本对应的序号，p是标准英语朗读语音中的音素样本总数；英语音素k标准发音时长是指标准英语朗读语音中第k个音素样本的发音时长。

11.英语单词标准发音时长计算公式

英语单词标准发音时长是指标准英语朗读语音中单词对应的发音时长，它的计算公式如下：

在计算公式(11)中，q＝1，2，…，c，q是标准英语朗读语音中当前单词的每个音素对应的序号，c是标准英语朗读语音中当前单词包括的音素总数；英语音素q标准发音时长均值由计算公式(10)计算得出。

12.英语朗读单词发音时长比值计算公式

英语朗读单词发音时长比值衡量了英语朗读语音中所有单词的发音时长与标准英语朗读语音中单词发音时长之间的偏离程度，它的计算公式如下：

在计算公式(12)中，w＝1，2，…，d，w是英语朗读语音中每个单词对应的序号，d是英语朗读语音中的单词总数；e是指自然对数的底数；英语单词w发音时长是指英语朗读语音中第w个英语单词的发音时长；英语单词w标准发音时长由计算公式(11)计算得出。

本发明方法的英语朗读发音预处理模块、英语朗读发音错误检测模块、英语朗读发音质量分析模块和英语朗读发音质量输出模块的处理流程图如下所述。

如图2所示，所述的英语朗读发音预处理模块处理流程如下：

p201开始；

p202读入英语朗读语音；

p203对英语朗读语音进行预加重；

p204对预加重后的英语朗读语音进行分帧；

p205使用汉明窗对分帧后的英语朗读语音进行加窗；

p206对加窗后的每帧英语朗读语音进行快速傅里叶变换，转换到线性频域并计算得到每帧英语朗读语音的功率谱；

p207将每帧英语朗读语音的功率谱通过由一系列三角带通滤波器构成的梅尔滤波器组，得到梅尔频域的功率谱；

p208对梅尔频域的功率谱取对数；

p209对取对数后的梅尔频域的功率谱进行离散余弦变换，得到梅尔频率倒谱系数；

p210对梅尔频率倒谱系数进行一阶和二阶时域差分，得到一阶和二阶差分系数；

p211将梅尔频率倒谱系数及其一阶和二阶差分系数拼接，得到每帧英语朗读语音的声学特征；

p212输出英语朗读语音的声学特征；

p213结束。

如图3所示，所述的英语朗读发音错误检测模块处理流程如下：

p301开始；

p302读入英语朗读语音的声学特征；

p303读入英语朗读文本；

p304加载识别器的声学模型、语言模型和发音词典，并根据英语朗读文本搭建搜索网络；

p305利用识别器在搭建好的搜索网络中对英语朗读语音的声学特征和英语朗读文本进行自动对齐切分，得到英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合；

p306将英语朗读语音的单词集合和英语朗读语音的音素集合进行匹配对齐，使得英语朗读语音的单词集合中的每一个单词在英语朗读语音的音素集合中都有与之对应的音素序列；

p307使用英语朗读语音的音素边界信息和英语朗读语音的音素集合，根据公式(1)与公式(2)计算出英语朗读语音音素发音标准度并输出；

p308使用英语朗读语音的音素边界信息和英语朗读语音的单词集合，根据公式(3)计算出英语朗读语音单词发音标准度；

p309遍历英语朗读语音的单词集合中的所有单词；

p310判断英语朗读语音当前单词发音标准度是否小于单词预设阀值，如果是则转p311，否则转p309；

p311将当前单词标记为发音错误；

p312遍历当前发音错误单词在英语朗读语音的音素集合中对应的音素序列中的所有音素；

p313判断英语朗读语音当前音素发音标准度是否小于音素预设阀值，如果是则转p314，否则转p312；

p314将当前音素标记为发音错误；

p315判断当前发音错误单词中的所有音素是否已经遍历完成，如果是则转p316，否则转p312；

p316判断英语朗读语音的单词集合中的所有单词是否已经遍历完成，如果是则转p317，否则转p309；

p317将英语朗读语音中标记为发音错误的单词及发音错误单词中标记为发音错误的音素拼接，得到英语朗读发音错误检测结果；

p318输出英语朗读发音错误检测结果；

p319结束。

如图4所示，所述的英语朗读发音质量分析模块处理流程如下：

p401开始；

p402读入标准英语朗读语音；

p403读入英语朗读语音音素发音标准度；

p404将英语朗读语音音素发音标准度代入英语朗读语音整体发音标准度计算公式(4)计算英语朗读语音整体发音标准度；

p405根据公式(5)计算出英语朗读语速；

p406根据公式(6)计算出英语朗读发音速度；

p407根据公式(7)计算出英语朗读发音时长比值；

p408根据公式(8)计算出英语朗读平均语流时长；

p409根据公式(9)计算出英语朗读平均停顿时长；

p410使用标准英语朗读语音，根据公式(10)计算出英语音素标准发音时长均值；

p411将英语音素标准发音时长均值代入公式(11)计算出英语单词标准发音时长；

p412根据公式(12)计算出英语朗读单词发音时长比值；

p413将计算得到的英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值输入到预先训练好的支持向量回归评分模型中，输出英语朗读发音质量得分；

p414将英语朗读发音质量得分作为英语朗读发音质量分析结果并输出；

p415结束。

如图5所示，所述的英语朗读发音质量输出模块处理流程如下：

p501开始；

p502读入英语朗读发音错误检测模块的结果；

p503读入英语朗读发音质量分析模块的结果；

p504根据英语朗读发音错误检测模块的结果和英语朗读发音质量分析模块的结果，生成英语朗读发音质量评语；

p505结束。

附图说明

图1是本发明方法的总体处理流程图；

图2是本发明方法的英语朗读发音预处理模块处理流程图；

图3是本发明方法的英语朗读发音错误检测模块处理流程图；

图4是本发明方法的英语朗读发音质量分析模块处理流程图；

图5是本发明方法的英语朗读发音质量输出模块处理流程图。

具体实施方式

本发明的一种中国学生英语朗读质量分析方法的具体实施方式分为如下四个步骤。

第一步骤：执行“英语朗读发音预处理模块”

本发明实施方式中的英语朗读文本取材于“thenorthwindandthesun”。

英语朗读文本如下：

thenorthwindandthesunweredisputingwhichwasthestrongerwhenatravellercamealongwrappedinawarmcloak.theyagreedthattheonewhofirstsucceededinmakingthetravellertakehiscloakoffshouldbeconsideredstrongerthantheother.thenthenorthwindblewashardashecould,butthemoreheblewthemorecloselydidthetravellerfoldhiscloakaroundhim；andatlastthenorthwindgaveuptheattempt.thenthesunshoneoutwarmly,andimmediatelythetravellertookoffhiscloak.andsothenorthwindwasobligedtoconfessthatthesunwasthestrongerofthetwo.

中国学生按照英语朗读文本进行朗读，保存为英语朗读语音，英语朗读发音预处理模块是对英语朗读语音进行预处理，输出英语朗读语音对应的声学特征，由于英语朗读语音的声学特征是以语音帧为最小单位输出的，而英语朗读语音对应的语音帧较多，这里只展示部分语音帧的声学特征如下：

第一帧英语朗读语音的声学特征：

-4.5306187-0.0333465080.13914044-0.240610180.06609621-0.10716413-0.35173824-0.12383762-0.14573036-0.0349030530.038313203-0.00529749370.229976680.85873421.56239650.65440590.748326840.33850008-0.2988346-0.0023785469-0.29794854-0.311300280.1022066850.17450549-0.049738947-0.107123571.38612650.869692740.395327420.6267833-0.15680586-0.1132751260.217953-0.20184806-0.601308050.04850387-0.0383445550.5238987-0.0457931

第二帧英语朗读语音的声学特征：

-4.5674390.52474530.431330620.134871860.32320720.034722246-0.25652137-0.16921622-0.19932735-0.20539238-0.07424929-0.339888420.081427550.824074451.51681110.53452550.97411010.369235040.020419080.23964916-0.21374424-0.53243697-0.0108083640.075907040.16992806-0.09859829-0.17426863-0.27886432-0.115603840.008854469-0.381081640.080174270.407277440.35329565-0.26864046-0.22678539-0.26454714-0.023738984-0.18800043

……

最后一帧英语朗读语音的声学特征：

-0.9583953-0.0664143860.83867990.137677920.423598830.04095115-0.20584118-0.26350206-0.0282717240.00405846350.0912805-0.255382570.011318008-2.7647226-0.884806750.87608975-0.347986430.51126593-0.030278053-0.127103340.14511230.151865940.18029599-0.0146404350.22890307-0.071808621.27326490.5122964-0.656124060.16422561-0.54373795-0.059958560.035951715-0.1848074-0.06839472-0.005729480.20084415-0.065023740.10896335

第二步骤：执行“英语朗读发音错误检测模块”

英语朗读发音错误检测模块利用第一步骤生成的英语朗读语音的声学特征,在根据英语朗读文本搭建好的搜索网络中对英语朗读语音的声学特征和英语朗读文本进行自动对齐切分，得到英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合，在自动对齐切分结果中将英语朗读语音的单词集合和英语朗读语音的音素集合匹配对齐的结果如下：

the[dh,ah]north[n,ao,r,th]wind[w,ay,n,d]and[ah,n,d]the[dh,ah]sun[s,ah,n]were[w,er]disputing[d,ih,s,p,y,uw,t,ih,ng]which[w,ih,ch]was[w,aa,z]the[dh,ah]stronger[s,t,r,ao,ng,g,er]when[hh,w,eh,n]a[ah]traveller[t,r,ae,v,ah,l,er]came[k,ey,m]along[ah,l,ao,ng]wrapped[r,ae,p,t]in[ih,n]a[ey]warm[w,ao,r,m]cloak[k,l,ow,k]agreed[ah,g,r,iy,d]that[dh,ae,t]the[dh,ah]one[w,ah,n]who[hh,uw]first[f,er,s,t]succeeded[s,ah,k,s,iy,d,ih,d]in[ih,n]making[m,ey,k,ih,ng]the[dh,ah]traveller[t,r,ae,v,ah,l,er]take[t,ey,k]his[hh,ih,z]cloak[k,l,ow,k]off[ao,f]should[sh,uh,d]be[b,iy]considered[k,ah,n,s,ih,d,er,d]stronger[s,t,r,ao,ng,g,er]than[dh,ae,n]the[dh,ah]other[ah,dh,er]then[dh,eh,n]the[dh,iy]north[n,ao,r,th]wind[w,ay,n,d]blew[b,l,uw]as[ae,z]hard[hh,aa,r,d]as[ae,z]he[hh,iy]could[k,uh,d]but[b,ah,t]the[dh,ah]more[m,ao,r]he[hh,iy]blew[b,l,uw]the[dh,ah]more[m,ao,r]closely[k,l,ow,s,l,iy]did[d,ih,d]the[dh,ah]traveller[t,r,ae,v,ah,l,er]fold[f,ow,l,d]his[hh,ih,z]cloak[k,l,ow,k]around[er,aw,n,d]him[hh,ih,m]and[ae,n,d]at[ae,t]last[l,ae,s,t]the[dh,ah]north[n,ao,r,th]wind[w,ay,n,d]gave[g,ey,v]up[ah,p]the[dh,ah]attempt[ah,t,eh,m,p,t]then[dh,eh,n]the[dh,ah]sun[s,ah,n]shone[sh,ow,n]shone[sh,ow,n]out[aw,t]warmly[w,ao,r,m,l,iy]and[ae,n,d]immediately[ih,m,iy,d,iy,ah,t,l,iy]the[dh,ah]traveller[t,r,ae,v,ah,l,er]took[t,uh,k]off[ao,f]his[hh,ih,z]cloak[k,l,ow,k]and[ae,n,d]so[s,ow]the[dh,ah]north[n,ao,r,th]wind[w,ay,n,d]was[w,aa,z]obliged[ah,b,l,ay,jh,d]to[t,uw]confess[k,ah,n,f,eh,s]that[dh,ae,t]the[dh,ah]sun[s,ah,n]was[w,aa,z]the[dh,ah]stronger[s,t,r,ao,ng,g,er]of[ah,v]the[dh,ah]two[t,uw]

使用英语朗读语音的音素边界信息、英语朗读语音的单词集合和英语朗读语音的音素集合，根据公式(1)、公式(2)计算得到英语朗读语音音素发音标准度，根据公式(3)进一步计算得到英语朗读语音单词发音标准度，之后遍历英语朗读语音的单词集合中的所有单词，标记发音错误单词，并遍历发音错误单词中的所有音素，标记发音错误单词中的发音错误音素，最后英语朗读发音错误检测模块的结果如下：

thenorthwindandthesunweredisputingwhichwasthestrongerwhenatravellercamealongwrappedinawarmcloak.

发音错误单词：northsun

theyagreedthattheonewhofirstsucceededinmakingthetravellertakehiscloakoffshouldbeconsideredstrongerthantheother.

发音错误单词：thatthetravellerthan

thenthenorthwindblewashardashecould,butthemoreheblewthemorecloselydidthetravellerfoldhiscloakaroundhim；andatlastthenorthwindgaveuptheattempt.

发音错误单词：thenorthmorethetheatnorthgaveup

thenthesunshoneoutwarmly,andimmediatelythetravellertookoffhiscloak.

发音错误单词：theoutimmediatelytraveller

andsothenorthwindwasobligedtoconfessthatthesunwasthestrongerofthetwo.

发音错误单词：norththe

第三步骤：执行“英语朗读发音质量分析模块”

英语朗读发音质量分析模块利用第二步骤生成的英语朗读语音的音素边界信息，根据公式计算得到各评分特征，包括英语朗读语音整体发音标准度、英语朗读语速、英语朗读发音速度、英语朗读发音时长比值、英语朗读平均语流时长、英语朗读平均停顿时长、英语朗读单词发音时长比值，结果如下：

英语朗读语音整体发音标准度：-19525.668

英语朗读语速：9.18

英语朗读发音速度：10.568

英语朗读发音时长比值：0.869

英语朗读平均语流时长：42.778

英语朗读平均停顿时长：0.36

英语朗读单词发音时长比值：-0.023

将上述评分特征输入到支持向量回归评分模型中，得到英语朗读发音质量评分，最后英语朗读发音质量分析模块的结果如下：

英语朗读发音质量评分：64.8。

第四步骤：执行“英语朗读发音质量输出模块”

英语朗读发音质量输出模块是根据第二步骤输出的英语朗读发音错误检测模块的结果、第三步骤输出的英语朗读发音质量分析模块的结果生成英语朗读发音质量评语。本实施方式的英语朗读质量分析结果生成格式如下所示：

英语朗读发音质量评语：发音基本标准，发音错误单词较少，朗读时偶尔出现停顿，朗读内容较为完整。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：黄桂敏;朱洪涛;李俊;周娅
技术所有人：桂林电子科技大学
我是此专利的发明人

上一篇：一种全自动纸巾中袋包装机的制作方法
上一篇：一种智能装箱机的制作方法