一种音频质量评估方法及装置与流程

文档序号:24562135发布日期:2021-04-06 12:11阅读:98来源:国知局
一种音频质量评估方法及装置与流程
本申请涉及互联网
技术领域
,特别涉及一种音频质量评估方法及装置、计算设备和计算机可读存储介质。
背景技术
:近年来,随着网络的飞速发展,各类音频处理技术和音频传输技术层出不穷,由于通信使用者和消费者对于音频的主观感受最终取决于音频质量,因此,音频质量的评价成为一项重要的研究课题。目前采用最广泛的客观语音评测方法之一为客观语音质量评估方法(perceptualevaluationofspeechquality,pesq),这种评测方法会给出-0.5至4.5的评分,表征测试音频和对照音频的客观mos距离,但是在不同的应用场景中,音频的质量的实际评估值是有所不同的,而且在对测试音频进行预处理时,也会有可能对有效的音频特征部分有误消除的可能,上述的pesq方法则对这种场景下的音频质量评估的效果就比较差,无法给出较为准确的评分。因此,如何解决上述技术问题,就成为技术人员亟待解决的问题。技术实现要素:有鉴于此,本申请实施例提供了一种音频质量评估方法及装置、计算设备和计算机可读存储介质,以解决现有技术中存在的技术缺陷。根据本申请实施例的第一方面,提供了一种音频质量评估方法,包括:获取待评估音频和参考音频;提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分。可选的,提取所述待评估音频对应的待评估音素-时间序列,包括:根据预设的语音识别法提取所述待评估音频对应的待评估音素序列和每个待评估音素对应的时间;根据所述待评估音素序列和每个所述待评估音素对应的时间生成待评估音素-时间序列。可选的,提取所述参考音频对应的参考音素-时间序列,包括:根据预设的语音识别法提取所述参考音频对应的参考音素序列和每个参考音素对应的时间;根据所述参考音素序列和每个所述参考音素对应的时间生成参考音素-时间序列。可选的,根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列,包括:根据预设的评估策略和音素类型确定每个音素类型的权重值;根据每个音素类型的权重值为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列。可选的,计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,包括:将所述待评估音素-时间序列与所述参考音素-时间序列进行音素对齐;通过客观语音质量评估方法计算音素对齐后的所述待评估音素-时间序列和所述参考音素-时间序列中相应音素对应音频片段之间的音素距离。可选的,根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,包括:根据所述参考音素-时间-权重序列和所述音素距离-时间序列每个目标时间点对应的音素权重和音素距离确定所述目标时间点对应的音素分值;根据每个目标时间点对应的音素分值确定所述待评估音频的质量评估得分。可选的,在提取所述待评估音频对应的待评估音素-时间序列之前,还包括:对所述待评估音频进行预处理,获得预处理后的待评估音频。可选的,对所述待评估音频进行预处理,包括:对所述待评估音频进行降噪处理和/或语音增强处理。根据本申请实施例的第二方面,提供了一种音频质量评估装置,包括:获取模块,被配置为获取待评估音频和参考音频;提取模块,被配置为提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;设置模块,被配置为根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算模块,被配置为计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;确定模块,被配置为根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分。根据本申请实施例的第三方面,提供了一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述音频质量评估方法的步骤。根据本申请实施例的第四方面,提供了一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现所述音频质量评估方法的步骤。本申请实施例提供的音频质量评估方法,通过获取待评估音频和参考音频;提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,通过本申请提供的音频质量评估方法,步骤精简,使用方便,仅对待评估音频做音素级别的标定,根据预设的评估策略将音素作为考察权重,对质量评估得分进行修正,可以根据应用场景更准确的表征待评估音频的质量。附图说明图1是本申请实施例提供的计算设备的结构框图;图2是本申请实施例提供的音频质量评估方法的流程图;图3是本申请实施例提供的音频质量评估方法的示意图;图4是本申请实施例提供的应用于口语评测场景的音频质量评估方法的流程图;图5是本申请实施例提供的音频质量评估装置的结构示意图。具体实施方式在下面的描述中阐述了很多具体细节以便于充分理解本申请。但是本申请能够以很多不同于在此描述的其它方式来实施,本领域技术人员可以在不违背本申请内涵的情况下做类似推广,因此本申请不受下面公开的具体实施的限制。在本申请一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本申请一个或多个实施例。在本申请一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本申请一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。应当理解,尽管在本申请一个或多个实施例中可能采用术语第一、第二等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本申请一个或多个实施例范围的情况下,第一也可以被称为第二,类似地,第二也可以被称为第一。取决于语境,如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。首先,对本发明一个或多个实施例涉及的名词术语进行解释。自动语音识别技术:(automaticspeechrecognition,asr),是一种将人的语音转换为文本的技术。客观语音质量评估方法:(perceptualevaluationofspeechquality,pesq),一种提供客观mos值评价方法。平均主观意见分:(meanopinionscores,mos)在国际标准中,统一使用mos值来评价话音质量。音素:是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节ā(啊)只有一个音素,pài(派)有两个音素。在本申请中,提供了一种音频质量评估方法及装置、计算设备和计算机可读存储介质,在下面的实施例中逐一进行详细说明。图1示出了根据本申请一实施例的计算设备100的结构框图。该计算设备100的部件包括但不限于存储器110和处理器120。处理器120与存储器110通过总线130相连接,数据库150用于保存数据。计算设备100还包括接入设备140,接入设备140使得计算设备100能够经由一个或多个网络160通信。这些网络的示例包括公用交换电话网(pstn)、局域网(lan)、广域网(wan)、个域网(pan)或诸如因特网的通信网络的组合。接入设备140可以包括有线或无线的任何类型的网络接口(例如,网络接口卡(nic))中的一个或多个,诸如ieee802.11无线局域网(wlan)无线接口、全球微波互联接入(wi-max)接口、以太网接口、通用串行总线(usb)接口、蜂窝网络接口、蓝牙接口、近场通信(nfc)接口,等等。在本申请的一个实施例中,计算设备100的上述部件以及图1中未示出的其他部件也可以彼此相连接,例如通过总线。应当理解,图1所示的计算设备结构框图仅仅是出于示例的目的,而不是对本申请范围的限制。本领域技术人员可以根据需要,增添或替换其他部件。计算设备100可以是任何类型的静止或移动计算设备,包括移动计算机或移动计算设备(例如,平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如,智能手机)、可佩戴的计算设备(例如,智能手表、智能眼镜等)或其他类型的移动设备,或者诸如台式计算机或pc的静止计算设备。计算设备100还可以是移动式或静止式的服务器。其中,处理器120可以执行图2所示音频质量评估方法中的步骤。图2示出了根据本申请一实施例的音频质量评估方法的流程图,包括步骤202至步骤210。步骤202:获取待评估音频和参考音频。本申请提供的音频质量评估方法,应用的场景有很多,如口语测试、音频匹配等等,在本申请中对音频质量评估方法的具体应用场景不做限制。待评估音频为需要进行评估的音频,如口语测试中进行口语测试人员说的话,在音频匹配中,需要进行匹配的音频等等,待评估音频的获取方式有很多,如手机录音、录音笔录音、麦克风录音等等。相应的,参考音频为标准音频,在实际应用中,若待评估音频与参考音频的分值越高,则说明待评估音频的质量越高,在口语测试中,参考音频即可以是测试中的用于评分的音频,在音频匹配中,参考音频即为被匹配的音频。在本申请提供的一具体实施方式中,以音频匹配场景为例,获得的待评估音频为一段手机的录音“小白吃早饭”,参考音频为标准的音频“小白吃早饭”。步骤204:提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列。可选的,在提取所述待评估音频对应的待评估音素-时间序列之前,所述方法还包括:对所述待评估音频进行预处理,获得预处理后的待评估音频。具体的,对所述待评估音频进行预处理,包括:对所述待评估音频进行降噪处理和/或语音增强处理。在实际应用中,通常获取的待评估音频并不是纯粹的音频,通常会有杂音、噪声等会对音频质量造成干扰的杂音,因此,需要对待评估音频进行预处理,预处理的方法有很多,比如降噪处理、语音增强处理等等,可以任选至少一个处理方法对待处理音频进行相应的预处理操作。在对待评估音频进行预处理时,可以使用传统的音频处理方法,如网页即时通信(webreal-timecommunication,webrtc)的降噪模块,也可以是一种基于深度神经网络模型的音频处理模型,在本申请中,对待处理音频进行预处理的方法不做限制,以实际应用为准。在本申请提供的一具体实施方式中,沿用上例,待评估音频为一段手机的录音“小白吃早饭”,其中,用户在用手机进行录音时,同时录下了汽车的鸣笛声,需要对待评估音频进行降噪处理,去除待评估音频中的汽车鸣笛的噪音,同时对“小白吃早饭”的音频进行语音增强。具体的,提取所述待评估音频对应的待评估音素-时间序列,包括:根据预设的语音识别法提取所述待评估音频对应的待评估音素序列和每个待评估音素对应的时间;根据所述待评估音素序列和每个所述待评估音素对应的时间生成待评估音素-时间序列。在实际应用中,在获得待评估音频后,可以通过预设的语音识别技术对所述待评估音频进行语音识别,自动语音识别技术可以将语音转换为文本,文本的类型有很多,如可以为二进制编码、字符序列、音素序列等等。音素是根据语音的自然属性划分出来的最小语音单位,依据音节里的发音动作来分析,一个动作构成一个音素。音素分为元音与辅音两大类。如汉语音节ā(啊)只有一个音素,pài(派)有两个音素。将待评估音频经过语音识别技术处理后,可以提取所述待评估音频对应的待评估音频序列,如将待评估音频“今天天气不错”,可以提取到音素序列为“j,in1,t,i,an1,t,i,an1,q,i4,b,u2,c,uo4”,其中,音素“in1”中的数字1表示音调。在实际应用中,待评估音频经过降噪或语音增强处理后,有可能在处理过程中受到损伤,导致音素识别结果相对与真实情况可能存在误差,如音素丢失、音素替换等情况,如真实音素为“j,in1,t,i,an1”可能会识别为“j,in1,t,i,ao1”。语音识别技术还可以实现将音素与音频时间的对齐,比如对于音素“j”对应待评估音频中的时间为第10毫秒-第12毫秒,对于音素“in1”对应待评估音频中的时间为第13毫秒至第16毫秒,在实际应用中,音素与时间的对齐方式还可以表现为根据时间进行划分,比如每隔将时间按照1毫秒进行划分,则第10-16毫秒对应的音素为“j,j,j,in1,in1,in1,in1”,具体的待评估音素-时间序列的形式在本申请中不做具体限定,以实际应用为准。在本申请提供的一具体实施方式中,沿用上例,待评估音频为“小白吃早饭”,通过语音识别技术可以确定待评估音频的音素为“x,i,ao3,b,ao2,ch,i1,z,ao3,f,an4”,生成的待评估音素-时间序列为了便于解释说明,参见下述表1。表1待评估音素时间(毫秒)x5-200i201-320ao3321-500b501-600ao2601-740ch741-889i1890-1200z1201-1396ao31397-1525f1526-1650an41651-1950具体的,提取所述参考音频对应的参考音素-时间序列,包括:根据预设的语音识别法提取所述参考音频对应的参考音素序列和每个参考音素对应的时间;根据所述参考音素序列和每个所述参考音素对应的时间生成参考音素-时间序列。提取参考音频对应的参考音素-时间序列的方法与上述提取待评估音素-时间序列的方法相同,因此,提取参考音素-时间序列的具体方法,参见上述提取待评估音素-时间序列的描述,在此不再赘述。在本申请提供的一具体实施方式中,沿用上例,参考音频为“小白吃早饭”,通过语音识别技术可以确定,参考音频的音素为“x,i,ao3,b,ai2,ch,i1,z,ao3,f,an4”,生成的参考音素-时间序列参见下述表2。表2参考音素时间(毫秒)x7-202i203-334ao3335-514b515-620ai2621-760ch761-909i1910-1211z1212-1407ao31407-1540f1541-1669an41670-1987步骤206:根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列。预设的评估策略为根据具体的评测任务确定的评估策略,为了适应不同的评测任务,则需要为每个参考音素设置不同的权重值,生成对应的参考音素-时间-权重序列,所述参考音素-时间-权重序列中包括了每个参考音素对应的发音时间和权重值。具体的,根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列,包括:根据预设的评估策略和音素类型确定每个音素类型的权重值;根据每个音素类型的权重值为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列。在实际应用的某些评测任务中,更关注声母的发声,则需要设置音素序列中声母的权重值高于韵母的权重值,若更关注韵母的发声,则需要设置音素序列中韵母的权重值高于声母的权重值,并在参考音素-时间序列中设置为每个参考音素设置对应的权重值,在确定每种音素类型的权重值后,即可为参考音素-时间序列中的每个参考音素设置对应的权重值,比如,在更关注声母发声的评测任务中,可以将声母的权重值设为1.5,将韵母的权重值设置为0.7,再更关注韵母发声的评测任务中,可以将声母的权重值设置为0.8,将韵母的权重值设置为1.3等等。在本申请提供的一具体实施方式中,沿用上例,根据评测任务对应的评估策略将声母的权重值设置为1.3,将韵母的权重值设置为0.6,对参考音素-时间序列中的音素进行设置,生成的参考音素-时间-权重序列如下表3所示。表3步骤208:计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列。客观语音质量评估(perceptualevaluationofspeechquality,pesq),是itu-tp.862建议书提供的客观平均主观意见分(meanopinionscores,mos)值评价方法。是目前最广泛的客观语音评测方法之一,这种评测方法会给出-0.5至4.5的得分,表征待评估音频与参考音频的客观mos距离。在本申请中,根据所述待评估音素-时间序列和所述参考音素-时间序列计算每个音素对应的mos距离。具体的,计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,包括:将所述待评估音素-时间序列与所述参考音素-时间序列进行音素对齐;通过客观语音质量评估方法计算音素对齐后的所述待评估音素-时间序列和所述参考音素-时间序列中相应音素对应音频片段之间的音素距离。在实际应用中,由于待评估音频在提取音素时,待评估音频经过降噪或语音增强处理后,有可能在处理过程中受到损伤,导致音素识别结果相对与真实情况可能存在误差,因此需要对待评估音素-时间序列与参考音素-时间序列进行音素对齐。音素对齐的具体实现算法有很多种可能,比如当待评估音频中的音素序列与参考音频中的音素序列一致时,直接计算距离即可;若待评估音频中的音素序列有部分缺失、错误,但错误或缺失的比例小于阈值,则可以通过编辑距离的方式对对齐结果进行修正;若待评估音频中的音素序列与参考音频的音素序列差别大于预设阈值,则根据音频的相似性,确定时间上的对应关系,进而将待评估音素-时间序列与参考音素-时间序列进行对齐。在音素对齐之后,即可通过pesq对待评估音素-时间序列与所述参考音素-时间序列中相应音素对应音频片段之间的音素距离,从而获得音素距离-时间序列。在本申请提供的一具体实施方式中,沿用上例,将表1所示的待评估音素-时间序列与表2所示的参考音素-时间序列进行音素对齐,并通过pesq计算获得待评估音素-时间序列与所述参考音素-时间序列中每个音素的距离,获得的音素距离-时间序列为(“x-d,i-d,ao3-d,b-d,ai2-d,ch-d,i1-d,z-d,ao3-d,f-d,an4-d”),其中“x-d”表示待评估音素x与参考音素x之间的音素距离。步骤210:根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分。在确定每个参考音素对应的权重信息和音素距离-时间序列后,即可根据每个参考音素对应的权重信息和音素距离-时间序列计算所述待评估音频的质量评估得分。具体的,根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,包括:根据所述参考音素-时间-权重序列和所述音素距离-时间序列每个目标时间点对应的音素权重和音素距离确定所述目标时间点对应的音素分值;根据每个目标时间点对应的音素分值确定所述待评估音频的质量评估得分。在实际应用中,参考音素-时间-权重序列和音素距离-时间序列中对应的音素的因素距离和音素权重相乘即可作为当前音素对应的音素分值,再根据每个音素对应的音素分值即可确定所述待评估音频的质量评估得分。在本申请提供的一具体实施例中,沿用上例,音素x对应的权重值为1.3,对应的音素距离为x-d,则音素x对应的音素分值为1.3*(x-d),依次类推,最后将所有的音素分值相加,即可确定所述待评估音频的质量评估得分。本申请实施例提供的音频质量评估方法,通过获取待评估音频和参考音频;提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,通过本申请提供的音频质量评估方法,步骤精简,使用方便,仅对待评估音频做音素级别的标定,根据预设的评估策略将音素作为考察权重,对质量评估得分进行修正,可以根据应用场景更准确的表征待评估音频的质量。下面结合图3和图4对本申请一实施例提供的音频质量评估方法做进一步解释说明,图3示出了本申请一实施例提供的音频质量评估方法的示意图,如图3所示,获得参考音频x和待评估音频y,对参考音频x进行语音识别,获得参考音素-时间序列,对待评估音频y进行语音识别,获得待评估音素-时间序列,根据参考音素-时间序列和待评估音素-时间序列计算音素距离-时间序列d(t),根据评测任务确定参考音素-时间序列中的音素对应的权重w(t),根据音素距离-时间序列d(t)和音素对应的权重w(t)计算确定待评估音频的质量评估得分mos,进而确定待评估音频的质量。图4示出了本申请一实施例的应用于口语评测场景的音频质量评估方法的流程图,该音频质量评估方法以对口语评测为例进行描述,包括步骤402至步骤416。步骤402:获取待评估音频和参考音频。在本申请提供的具体实施例中,获取待评估音频为通过手机收录的录音“吃葡萄不吐葡萄皮”,参考音频为测评标准音频“吃葡萄不吐葡萄皮”。步骤404:对所述待评估音频进行降噪处理,获得降噪后的待评估音频。在本申请提供的具体实施例中,对手机收录的录音“吃葡萄不吐葡萄皮”进行降噪处理,去除手机录音中的杂音和噪音,提高待评估音频的质量。步骤406:根据预设的语音识别法分别提取所述待评估音频和所述参考音频的音素序列和每个音素对应的时间,生成待评估音素-时间序列和参考音素-时间序列。在本申请提供的具体实施例中,根据语音识别技术分别提取待评估音频的待评估音素-时间序列和参考音频的参考音素-时间序列。步骤408:根据预设的评估策略和音素类型确定每个音素类型的权重值。在本申请提供的具体实施例中,对口语评测的重点在于声母,因此将声母的权重值设置为1.6,将韵母的权重值设置为0.8。步骤410:根据每个音素类型的权重值为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列。在本申请提供的具体实施例中,根据每个音素对应的权重值w(对应上述步骤中的声母权重值为1.6,韵母权重值为0.8),可以获得每个音素的发音时间t与权重值w的对应关系w(t)。步骤412:将所述待评估音素-时间序列与所述参考音素-时间序列进行音素对齐,并计算音素对齐后的所述待评估音素-时间序列和所述参考音素-时间序列中相应音素对应音频片段之间的音素距离,获得音素距离-时间序列。在本申请提供的具体实施例中,首先将待评估音素-时间序列与参考音素-时间序列进行时间对齐,然后根据pesq算法计算待评估音素-时间序列和参考音素-时间序列中对应的音素距离d,基于每个音素与时间t的对应关系,相应的,每个音素距离d与时间t同样存在对应关系d(t)。步骤414:根据所述参考音素-时间-权重序列和所述音素距离-时间序列每个目标时间点对应的音素权重和音素距离确定所述目标时间点对应的音素分值。在本申请提供的具体实施例中,根据每个音素的时间t与权重值w的对应关系w(t)和音素距离d与时间t的对应关系d(t),即可确定每个音素对应的音素分值为w(t)*d(t)。步骤416:根据每个目标时间点对应的音素分值确定所述待评估音频的质量评估得分。在本申请提供的具体实施例中,根据每个音素对应的w(t)*d(t)确定所述待评估音频的质量评估得分,最终获得的质量评估得分的分值越高,则待评估音频的质量越好。本申请实施例提供的音频质量评估方法,通过获取待评估音频和参考音频;提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,通过本申请提供的音频质量评估方法,步骤精简,使用方便,仅对待评估音频做音素级别的标定,根据预设的评估策略将音素作为考察权重,对质量评估得分进行修正,可以根据应用场景更准确的表征待评估音频的质量。与上述方法实施例相对应,本申请还提供了音频质量评估装置实施例,图5示出了本申请一个实施例的音频质量评估装置的结构示意图。如图5所示,该装置包括:获取模块502,被配置为获取待评估音频和参考音频;提取模块504,被配置为提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;设置模块506,被配置为根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算模块508,被配置为计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;确定模块510,被配置为根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分。可选的,所述提取模块504,进一步被配置为:根据预设的语音识别法提取所述待评估音频对应的待评估音素序列和每个待评估音素对应的时间;根据所述待评估音素序列和每个所述待评估音素对应的时间生成待评估音素-时间序列。可选的,所述提取模块504,进一步被配置为:根据预设的语音识别法提取所述参考音频对应的参考音素序列和每个参考音素对应的时间;根据所述参考音素序列和每个所述参考音素对应的时间生成参考音素-时间序列。可选的,所述设置模块506,进一步被配置为:根据预设的评估策略和音素类型确定每个音素类型的权重值;根据每个音素类型的权重值为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列。可选的,所述计算模块508,进一步被配置为:将所述待评估音素-时间序列与所述参考音素-时间序列进行音素对齐;通过客观语音质量评估方法计算音素对齐后的所述待评估音素-时间序列和所述参考音素-时间序列中相应音素对应音频片段之间的音素距离。可选的,所述确定模块510,进一步被配置为:根据所述参考音素-时间-权重序列和所述音素距离-时间序列每个目标时间点对应的音素权重和音素距离确定所述目标时间点对应的音素分值;根据每个目标时间点对应的音素分值确定所述待评估音频的质量评估得分。可选的,所述装置还包括:预处理模块,被配置为对所述待评估音频进行预处理,获得预处理后的待评估音频。可选的,所述预处理模块,进一步被配置为对所述待评估音频进行降噪处理和/或语音增强处理。本申请实施例提供的音频质量评估装置,通过获取待评估音频和参考音频;提取所述待评估音频对应的待评估音素-时间序列,提取所述参考音频对应的参考音素-时间序列;根据预设的评估策略为所述参考音素-时间序列中每个参考音素设置对应的权重值,生成参考音素-时间-权重序列;计算所述待评估音素-时间序列与所述参考音素-时间序列中对应音素的音素距离,获得音素距离-时间序列;根据所述参考音素-时间-权重序列和所述音素距离-时间序列确定所述待评估音频的质量评估得分,通过本申请提供的音频质量评估装置,步骤精简,使用方便,仅对待评估音频做音素级别的标定,根据预设的评估策略将音素作为考察权重,对质量评估得分进行修正,可以根据应用场景更准确的表征待评估音频的质量。上述为本实施例的一种音频质量评估装置的示意性方案。需要说明的是,该音频质量评估装置的技术方案与上述的音频质量评估方法的技术方案属于同一构思,音频质量评估装置的技术方案未详细描述的细节内容,均可以参见上述音频质量评估方法的技术方案的描述。需要说明的是,装置权利要求中的各组成部分应当理解为实现该程序流程各步骤或该方法各步骤所必须建立的功能模块,各个功能模块并非实际的功能分割或者分离限定。由这样一组功能模块限定的装置权利要求应当理解为主要通过说明书记载的计算机程序实现该解决方案的功能模块构架,而不应当理解为主要通过硬件方式实现该解决方案的实体装置。本申请一实施例中还提供一种计算设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机指令,所述处理器执行所述指令时实现所述的音频质量评估方法的步骤。上述为本实施例的一种计算设备的示意性方案。需要说明的是,该计算设备的技术方案与上述的音频质量评估方法的技术方案属于同一构思,计算设备的技术方案未详细描述的细节内容,均可以参见上述音频质量评估方法的技术方案的描述。本申请一实施例还提供一种计算机可读存储介质,其存储有计算机指令,该指令被处理器执行时实现如前所述音频质量评估方法的步骤。上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是,该存储介质的技术方案与上述的音频质量评估方法的技术方案属于同一构思,存储介质的技术方案未详细描述的细节内容,均可以参见上述音频质量评估方法的技术方案的描述。上述对本申请特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下,在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外,在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中,多任务处理和并行处理也是可以的或者可能是有利的。所述计算机指令包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-onlymemory)、随机存取存储器(ram,randomaccessmemory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。需要说明的是,对于前述的各方法实施例,为了简便描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本申请并不受所描述的动作顺序的限制,因为依据本申请,某些步骤可以采用其它顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作和模块并不一定都是本申请所必须的。在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其它实施例的相关描述。以上公开的本申请优选实施例只是用于帮助阐述本申请。可选实施例并没有详尽叙述所有的细节,也不限制该发明仅为所述的具体实施方式。显然,根据本申请的内容,可作很多的修改和变化。本申请选取并具体描述这些实施例,是为了更好地解释本申请的原理和实际应用,从而使所属
技术领域
技术人员能很好地理解和利用本申请。本申请仅受权利要求书及其全部范围和等效物的限制。当前第1页12
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1