专利名称:一种音频检索中构建索引的方法及系统的制作方法
一种音频检索中构建索引的方法及系统方法
技术领域:
本发明涉及多媒体信息处理技术领域,特别涉及一种音频检索中构建索引的方法及系统。背景技术:
音频是一种重要的信息载体,音频检索主要是通过关键词,对大量音频信息文件进行搜索,获得相关结果的一种技术。其中关键词可以是文本,可以是音频片断。在基于内容音频检索方式中,需要提取音频文件的特征参数,并生成和语音对应索引,这是一种非常消耗计算资源的操作。
传统技术中的音频检索方法预先在集中式的服务器上建立音频资源库。查询检索客户端获取输入的音频片段或者文本关键词,然后将音频片或者文本关键词段发送到服务器,服务器接收后,根据语音识别算法计算该音频片段的特征码,或者使用文本关键词,在音频样本库中查找与该音频片段的特征码匹配的音频资源,并发送给检索客户端。
然而,虽然可以使用若干台服务器进行共同承担运算任务,传统技术中的音频检索构建索引时主要采用服务器进行集中式处理,主要表现在需要较多的服务器在接收到音频数据后再构建索引。当音频数据较多时,特别是类似呼叫中心每天都产生大量的语音数据环境,构建索引需要耗费大量的服务器计算资源,在业务扩展时,就必须增加服务器,从而增加了扩容时的附加硬件成本,不易于扩容。
发明内容
基于此,有必要提供一种用于音频检索,能够易于扩容的构建索引的方法。
一种音频检索中构建索引的方法,包括以下步骤:
音频采集装置获取音频数据;
音频采集装置计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器;
服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。
优选的,所述索引包括与所述音频数据对应的全局标识。
优选的,所述音频采集装置有多个;
所述服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引的步骤具体为:
服务器先过滤掉索引值相同的音频资源,然后根据过滤后的所述音频数据和所述音频数据的索引值构建索引,并将`所述音频数据存储到音频资源库中。
优选的,所述音频采集装置计算所述音频数据的索引值的步骤具体为:
音频采集装置对所述音频数据进行预处理,提取声学特征参数;
音频采集装置对所述音频数据进行说话人分割和语音分段;
音频采集装置根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值。优选的,所述音频采集装置对所述音频数据进行说话人分割和语音分段的步骤还包括:对所述音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。优选的,所述音频采集装置根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值的步骤具体为:根据所述分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格;根据所述拼音网格、基于词的语言模型、第二发音字典生成词网格;根据所述词网格生成所述分段后的音频数据的索引值。优选的,所述方法还包括:检索客户端获取检索请求;检索客户端判断所述检索请求是否包含音频片段,若是,则从所述检索请求中提取出音频片段并计算该音频片段的索引值,然后发送给服务器;服务器根据索引值在索引中查找与所述索引值对应的音频数据,并下发给检索客户端。 此外,还有必要提供一种用于音频检索,能够易于扩容的构建索引的系统。一种音频检索中构建索引的系统,包括音频采集装置和服务器,所述音频采集装置包括:音频获取模块,用于获取音频数据;索引值计算模块,用于计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器;所述服务器包括:索引构建模块,用于服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。优选的,所述索引包括与所述音频数据对应的全局标识。优选的,所述音频采集装置有多个;所述索引构建模块还用于过滤掉索引值相同的音频资源,根据过滤后的所述音频数据和所述音频数据的索引值构建索引,并将所述音频数据存储到音频资源库中。优选的,所述索引值计算模块还用于对所述音频数据进行预处理,提取声学特征参数;对所述音频数据进行说话人分割和语音分段;根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值。优选的,所述索引值计算模块还用于对所述音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。优选的,所述索引值计算模块还用于根据所述分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格;根据所述拼音网格、基于词的语言模型、第二发音字典生成词网格;根据所述词网格生成所述分段后的音频数据的索引值。
优选的,还包括检索客户端,用于获取检索请求,判断所述检索请求是否包含音频片段,若是,则从所述检索请求中提取出音频片段并计算所述音频片段的索引值,然后发送给服务器;
所述服务器还包括音频检索模块,用于根据索引值在索引中查找与所述索引值对应的音频数据,并下发给检索客户端。
上述音频检索中构建索引方法和系统,由音频采集装置获取音频数据,然后再由音频采集装置计算音频片段的索引值,并将索引值和音频数据上传到服务器。服务器再根据索引值和音频数据构建索引。使得服务器将计算音频数据的索引值的工作转移到了音频采集装置上。例如,在呼叫中心中,音频采集装置可以为客服人员的终端PC。每个终端PC当天可以处理完其当天采集的音频数据。当呼叫中心系统容量扩大时,可通过增加终端PC的数量进行扩容,而不需要额外添加服务器,从而没有增加额外的开销。因此,上述音频检索中构建索弓I方法降低了音频检索系统在扩容时的附加硬件成本,从而更加易于扩容。
图1为一个实施例中音频检索中构建索引的方法的流程图2为一个实施例中音频采集装置计算音频数据的索引值的步骤的流程图3为一个实施例中音频采集装置根据声学特征参数、预设的声学模型、语言模型以及发音字典计算分段后的音频数据的索引值的步骤的流程图4为一个实施例中音频检索的步骤的流程图5为一个实施例中音频检索中构建索引的系统的结构示意图6为另一个实施例中音频检索中构建索引的系统的结构示意图。
具体实施方式
如图1所示,在一个实施例中,一种音频检索中构建索引的方法,包括以下步骤:
步骤S102,音频采集装置获取音频数据。
音频数据可以是语音,音乐等。音频采集装置可通过麦克风等音频输入设备或者声卡输出缓存等采集用户的语音来获取音频数据,也可以通过获取音频文件来获取音频数据。
步骤S104,音频采集装置计算音频数据的索引值,并将音频数据和音频数据的索引值发送给服务器。
在一个实施例·,音频采集装置可以是具有一定运算能力的终端设备,其不仅可以采集语音,还可以对音频进行运算处理。例如,呼叫中心机房里的话务员的检索客户端终端PC,移动网络中用户的智能手机等检索客户端。
音频采集装置通过分析音频数据的特征,生成与音频数据对应的索引值,然后将索引值和音频数据一起发送给服务器。在一个实施例中,音频采集装置将索引值和音频数据发送给服务器的方式为延迟发送。当音频采集装置检测到服务器繁忙时,先将获取到的音频数据和生成的与该音频数据对应的索引值以局部索引的形式缓存在音频采集装置中,然后等到服务器负载较小时,再将该局部索引上传。
步骤S106,服务器根据接收到的音频数据和音频数据的索引值构建索引。
服务器接收到音频采集装置上传的音频数据和与音频数据对应的索引值之后,可预先为音频数据分配与该音频数据对应的全局标识,然后在构建的索引中,该索引可包括该与音频数据对应的全局标识。索引值可通过键值对与该全局标识对应。全部的索引信息构成“全局索引”。在一个实施例中,音频采集装置可以有多个,服务器可先过滤掉索引值相同的音频资源,然后根据过滤后的音频数据和音频数据的索引值构建索引,并将音频数据存储到音频资源库中。在一个实施例中,音频采集装置采用延迟发送的方式将索引值和音频数据发送给服务器。音频采集装置将缓存的索引值和音频数据存储为局部索引,服务器上存储的索引为全局索引。服务器接收到音频采集装置延迟发送的局部索引后,过滤掉局部索引与全局索引重复的部分,然后将过滤后的局部索引添加在全局索引中。过滤掉重复的索引可以减小服务器的存储压力。上述音频检索中构建索引方法,由音频采集装置获取音频数据,然后再由音频采集装置计算音频片段的索引值,并将索引值和音频数据上传到服务器。服务器再根据索引值和音频数据构建索引。使得服务器将计算音频数据的索引值的工作转移到了音频采集装置上。例如,在呼叫中心中,音频采集装置可以为客服人员的终端PC。每个终端PC当天可以处理完其当天采集的音频数据。当呼叫中心系统容量扩大时,可通过增加终端PC的数量进行扩容,而不需要额外添加服务器,从而没有增加额外的开销。因此,上述音频检索中构建索引方法降低了音频检索系统在扩容时的附加硬件成本,从而更加易于扩容。在一个实施例中,如图2所示,音频采集装置计算音频数据的索引值的步骤可具体为:步骤S202,音频采集装置对音频数据进行预处理,提取声学特征参数。步骤S204,音频采集装置对音频数据进行说话人分割和语音分段。步骤S206,音频采集装置根据声学特征参数、预设的声学模型、语言模型以及发音字典计算分段后的音频数据的索引值。步骤S202中,音频采集装置对音频数据进行预处理时,可通过对音频数据进行滤波、预加重、分帧、加窗、补零中的至少一种操作进行预处理。在将音频数据经过预处理后,可以通过编码转换、分割、简单标记把语音对应的客户和客服信息关联起来,存入音频采集装置端数据库保存。在提取音频数据的特征参数时,可通过对分帧的语音进行特征提取获取特征参数。例如,可通过传统技术中的提取MFCC(Mel频率倒谱系数)、的方法提取音频数据的声学特征参数。步骤S204中,音频采集装置可通过对音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。静默时间即连续音频信号中出现的幅值小于阈值的时间段。可通过预设静默时间来对音频数据进行静默检测。通过静默检测可将长段语音按语句划分为多段。例如,在呼叫中心中,音频采集装置先将客户的语音按照说话人类别进行分类。可使用GMM模型(Gaussian Mixture Model,高斯混合模型),根据已有的模型库中若干个说话人的模型进行分类,可根据男声、女生、中性声进行分类,用于区分;还可以预先对用户进行编号,并采用用户编号进行区分。
步骤S206中,如图3所示,音频采集装置根据声学特征参数、预设的声学模型、语言模型以及发音字典计算分段后的音频数据的索引值的步骤具体为:
步骤S302,根据分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格(lattice)。
可根据分段后的音频数据对应的说话人类别,从拼音语言模型库和声学模型库中,选择与说话人类别对应的拼音模型和声学模型。例如,若客户语音为男声,则选择男声对应的拼音语言模型和声学模型。
第一发音字典表示拼音语言模型中每个单元(音节)和声学模型中声韵母的关系O
拼音语言模型为以拼音音节为单位的统计语言模型。第一发音字典表示拼音语言模型中每个单元(音节)和声学模型中声韵母的关系。基本声学单元可包括声韵、音素和音节,为声学模型的基本建模单元。优选的,声学模型可以是HMM(隐马尔科夫模型),可通过Viterbi (维特比)算法通过生成拼音网格进行语音识别解码。拼音网格中每个节点表示一个拼音音节,节点中标记有该音节的其起始或者结束时间,节点之间的连接上标记音节的声学概率和语言学概率。
步骤S304,根据拼音网格、基于词的语言模型、第二发音字典生成词网格。
第二发音字典表示基于词的语言模型中每个单元(汉语词)和拼音语言模型中的音节(采用Viterbi (维特比)算法解码时生成的拼音网格中的节点)的关系。生成的词网格中每个节点表示一个汉语词,且节点中标记了该汉语词的起始或者结束时间,节点之间的连接上标记汉语词的声学概率和语言学概率。对于多音词还需要在节点中标记该汉语词的发音类型序号。
进一步的,可计算词网格中的每个词的置信度。置信度为词网格中每个词的得分,可根据声学模型概率、拼音音节概率、词语的概率、词语时间长度、词网格中候选数量信息等信息计算获得。置信度可用于判断语音识别的预估准确程度。例如,一段含糊不清或者具有多音字的语音易被识别成多种汉语词,置信度可用于表示预估的识别后的汉语词的准确度,置信度越高,表示识别时受干扰小,识别后的汉语词较可靠。
步骤S306,根据词网格生成分段后的音频数据的索引值。
可直接采用词网格作为音频数据的索引值,也可以通过预设的哈希函数计算基于词的lattice的哈希值作为音频数据的索引值。
在一个实施例中,服务器根据接收到的音频数据和音频数据的索引值构建索引之后,还可对音频数据和索引进行压缩,从而节省服务器的存储空间。
在一个实施例中,服务器根据接收到的音频数据和音频数据的索引值构建索引之后,服务器还可通过反向索引存储将该索弓I存储。
在一个实施例中,如图4所示,音频检索中构建索引的方法还包括音频检索的步骤:
步骤S402,检索客户端获取检索请求。
步骤S404,检索客户端判断检索请求是否包含音频片段,若是,则从该检索请求中提取出音频片段并计算该音频片段的索引值,然后发送给服务器。
步骤S406,服务器根据索引值在索引中查找与索引值对应的音频数据,并下发给检索客户端。其中,检索客户端获取音频片段并计算音频片段的索引值的方法与音频采集装置获取音频数据并计算音频数据的索引值的方法相同。可确保相同的音频数据在检索客户端和音频采集装置中计算得到的索引值相同。在一个实施例中,服务器在接收到检索客户端上传的索引值后,在索引中进行检索,获取索引值对应的音频数据的全局标识,然后根据该全局标识在音频资源库中获取与该全局标识对应的音频数据,并下发给检索客户端。在一个实施例中,服务器还定期同步音频采集装置和检索客户端中的拼音语言模型、声学模型、基于词的语言模型、发音词典。同步后,音频采集装置和检索客户端在计算音频数据的索引值时,可采用相同的算法以及参数,确保了相同的音频数据在检索客户端和音频采集装置中计算得到的索引值相同。如图5所示,在一个实施例中,一种音频检索中构建索引的系统,包括音频采集装置100和服务器200,其中,音频采集装置100包括:音频获取模块102,用于获取音频数据。音频数据可以是语音,音乐等。音频获取模块102可通过麦克风等音频输入设备或者声卡输出缓存等采集用户的语音来获取音频数据,也可以通过获取音频文件来获取音频数据。索引值计算模块104,用于计算音频数据的索引值,并将音频数据和音频数据的索引值发送给服务器200。在一个实施例,音频采集 装置100可以是具有一定运算能力的终端设备,其不仅可以通过音频获取模块102采集语音,还可以通过索引值计算模块104对音频进行运算处理。例如,呼叫中心机房里的话务员的检索客户端终端PC,移动网络中用户的智能手机等检索客户端。索引值计算模块104通过分析音频数据的特征,生成与音频数据对应的索引值,然后将索引值和音频数据一起发送给服务器200。在一个实施例中,索引值计算模块104将索引值和音频数据发送给服务器200的方式为延迟发送。当索引值计算模块104检测到服务器200繁忙时,先将获取到的音频数据和生成的与该音频数据对应的索引值以局部索引的形式缓存在音频采集装置100中,然后等到服务器200负载较小时,再将该局部索引上传。服务器200包括:索引构建模块202,用于根据接收到的音频数据和音频数据的索引值构建索引。服务器200接收到索引值计算模块104上传的音频数据和与音频数据对应的索引值之后,可预先为音频数据分配与该音频数据对应的全局标识,然后在构建的索引中,该索引可包括该与音频数据对应的全局标识。索引值可通过键值对与该全局标识对应。在一个实施例中,音频采集装置100可以有多个。索引构建模块202还可用于过滤掉索引值相同的音频资源,根据过滤后的音频数据和音频数据的索引值构建索引,并将音频数据存储到音频资源库中。在一个实施例中,音频采集装置采用延迟发送的方式将索引值和音频数据发送给服务器。音频采集装置将缓存的索引值和音频数据存储为局部索引,服务器上存储的索引为全局索引。服务器接收到音频采集装置延迟发送的局部索引后,过滤掉局部索引与全局索引重复的部分,然后将过滤后的局部索引添加在全局索引中。过滤掉重复的索引可以减小服务器的存储压力。
上述音频检索中构建索引的系统,由音频采集装置获取音频数据,然后再由音频采集装置计算音频片段的索引值,并将索引值和音频数据上传到服务器。服务器再根据索引值和音频数据构建索引。使得服务器将计算音频数据的索引值的工作转移到了音频采集装置上。例如,在呼叫中心中,音频采集装置可以为客服人员的终端PC。每个终端PC当天可以处理完其当天采集的音频数据。当呼叫中心系统容量扩大时,可通过增加终端PC的数量进行扩容,而不需要额外添加服务器,从而没有增加额外的开销。因此,上述音频检索中构建索引方法降低了音频检索系统在扩容时的附加硬件成本,从而更加易于扩容。
在一个实施例中,索引值计算模块104还可用于对音频数据进行预处理,提取声学特征参数;对音频数据进行说话人分割和语音分段;根据声学特征参数、预设的声学模型、语言模型以及发音字典计算分段后的音频数据的索引值。
索引值计算模块104还可用于通过对音频数据进行滤波、预加重、分帧、加窗、补零中的至少一种操作进行预处理。在将音频数据经过预处理后,可以通过编码转换、分割、简单标记把语音对应的客户和客服信息关联起来,存入音频采集装置端数据库保存。
索引值计算模块104还可用于通过对分帧的语音进行特征提取获取特征参数。例如,可通过传统技术中的提取MFCC(Mel频率倒谱系数)、的方法提取音频数据的声学特征参数。
索引值计算模块104还可用于通过对音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。
静默时间即连续音频信号中出现的幅值小于阈值的时间段。可通过预设静默时间来对音频数据进行静默检测。通过静默检测可将长段语音按语句划分为多段。例如,在呼叫中心中,音频采集装置先将客户的语音按照说话人类别进行分类。可使用GMM模型(Gaussian Mixture Model,高斯混合模型),根据已有的模型库中若干个说话人的模型进行分类,可根据男声、女生、中性声进行分类,用于区分;还可以预先对用户进行编号,并采用用户编号进行区分。
进一 步的,索引值计算模块104还可用于根据分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格;根据拼音网格、基于词的语言模型、第二发音字典生成词网格;根据词网格生成分段后的音频数据的索引值。
可根据分段后的音频数据对应的说话人类别,从拼音语言模型库和声学模型库中,选择与说话人类别对应的拼音模型和声学模型。例如,若客户语音为男声,则选择男声对应的拼音语言模型和声学模型。
第一发音字典表示拼音语言模型中每个单元(音节)和声学模型中声韵母的关系O
拼音语言模型为以拼音音节为单位的统计语言模型。第一发音字典表示拼音语言模型中每个单元(音节)和声学模型中声韵母的关系。基本声学单元可包括声韵、音素和音节,为声学模型的基本建模单元。优选的,声学模型可以是HMM(隐马尔科夫模型),可通过Viterbi (维特比)算法通过生成拼音网格进行语音识别解码。拼音网格中每个节点表示一个拼音音节,节点中标记有该音节的其起始或者结束时间,节点之间的连接上标记音节的声学概率和语言学概率。第二发音字典表示基于词的语言模型中每个单元(汉语词)和拼音语言模型中的音节(采用Viterbi (维特比)算法解码时生成的拼音网格中的节点)的关系。生成的词网格中每个节点表示一个汉语词,且节点中标记了该汉语词的起始或者结束时间,节点之间的连接上标记汉语词的声学概率和语言学概率。对于多音词还需要在节点中标记该汉语词的发音类型序号。进一步的,可计算词网格中的每个词的置信度。置信度为词网格中每个词的得分,可根据声学模型概率、拼音音节概率、词语的概率、词语时间长度、词网格中候选数量信息等信息计算获得。置信度可用于判断语音识别的预估准确程度。例如,一段含糊不清或者具有多音字的语音易被识别成多种汉语词,置信度可用于表示预估的识别后的汉语词的准确度,置信度越高,表示识别时受干扰小,识别后的汉语词较可靠。在一个实施例中,索引构建模块202还可对音频数据和索引进行压缩,从而节省服务器200的存储空间。在一个实施例中,索引构建模块202还可用于通过反向索引存储将构建的索引存储。在一个实施例中,如图6所示,音频检索中构建索引的系统还包括检索客户端300,用于获取检索请求,检索客户端判断检索请求是否包含音频片段,若是,则从该检索请求中提取出音频片段并计算该音频片段的索引值,然后发送给服务器200。服务器200还包·括:音频检索模块204,用于根据索引值在索引中查找与索引值对应的音频数据,并下发给检索客户端300。其中,检索客户端300获取音频片段并计算音频片段的索引值的方法与索引计算模块102获取音频数据并计算音频数据的索引值的方法相同。可确保相同的音频数据在检索客户端300和索引计算模块102中计算得到的索引值相同。在Iv实施例中,服务器200在接收到检索客户端300上传的索引值后,在索引中进行检索,获取索引值对应的音频数据的全局标识,然后根据该全局标识在音频资源库中获取与该全局标识对应的音频数据,并下发给检索客户端300。在一个实施例中,服务器200还定期同步音频采集装置100和检索客户端300中的拼音语言模型、声学模型、基于词的语言模型、发音词典。同步后,音频采集装置100和检索客户端300在计算音频数据的索引值时,可采用相同的算法以及参数,确保了相同的音频数据在检索客户端300和音频采集装置100中计算得到的索引值相同。以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对本发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。
权利要求
1.一种音频检索中构建索引的方法,包括以下步骤: 音频采集装置获取音频数据; 音频采集装置计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器; 服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。
2.根据权利要求1所述的音频检索中构建索引的方法,其特征在于,所述索引包括与所述音频数据对应的全局标识。
3.根据权利要求1所述的音频检索中构建索引的方法,其特征在于,所述音频采集装置有多个; 所述服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引的步骤具体为: 服务器先过滤掉索引值相同的音频资源,然后根据过滤后的所述音频数据和所述音频数据的索引值构建索引,并将所述音频数据存储到音频资源库中。
4.根据权利要求1所述的音频检索中构建索引的方法,其特征在于,所述音频采集装置计算所述音频数据的索引值的步骤具体为: 音频采集装置对所述音频数据进行预处理,提取声学特征参数; 音频采集装置对所述音频数据进行说话人分割和语音分段; 音频采集装置根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值。
5.根据权利要求4中任意一项所述的音频检索中构建索引的方法,其特征在于,所述音频采集装置对所述音频数据进行说话人分割和语音分段的步骤还包括: 对所述音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。
6.根据权利要求4所述的音频检索中构建索引的方法,其特征在于,所述音频采集装置根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值的步骤具体为: 根据所述分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格; 根据所述拼音网格、基于词的语言模型、第二发音字典生成词网格; 根据所述词网格生成所述分段后的音频数据的索引值。
7.根据权利要求1至6任一项所述的音频检索中构建索引的方法,其特征在于,所述方法还包括: 检索客户端获取检索请求; 检索客户端判断所述检索请求是否包含音频片段,若是,则从所述检索请求中提取出音频片段并计算该音频片段的索引值,然后发送给服务器; 服务器根据索引值在索引中查找与所述索引值对应的音频数据,并下发给检索客户端。
8.一种音频检索中构建索引的系统,其特征在于,包括音频采集装置和服务器,所述音频采集装置包括:音频获取模块,用于获取音频数据; 索引值计算模块,用于计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器; 所述服务器包括: 索引构建模块,用于服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。
9.根据权利要求8所述的音频检索中构建索引的系统,其特征在于,所述索引包括与所述音频数据对应的全局标识。
10.根据权利要求8所述的音频检索中构建索引的系统,其特征在于,所述音频采集装置有多个; 所述索引构建模块还用于过滤掉索引值相同的音频资源,根据过滤后的所述音频数据和所述音频数据的索引值构建索引,并将所述音频数据存储到音频资源库中。
11.根据权利要求8所述的音频检索中构建索引的系统,其特征在于,所述索引值计算模块还用于对所述音频数据进行预处理,提取声学特征参数;对所述音频数据进行说话人分割和语音分段;根据所述声学特征参数、预设的声学模型、语言模型以及发音字典计算所述分段后的音频数据的索引值。
12.根据权利要求11中所述的音频检索中构建索引的系统,其特征在于,所述索引值计算模块还用于对所述音频数据中的静默进行检测,将音频分段,并将分段后的音频数据按照说话人类别进行分类。
13.根据权利要求11所述的音频检索中构建索引的系统,其特征在于,所述索引值计算模块还用于根据所述分段后的音频数据的语音特征参数、拼音语言模型、声学模型和第一发音字典,通过语音识别解码生成拼音网格;根据所述拼音网格、基于词的语言模型、第二发音字典生成词网格;根据所述词网格生成所述分段后的音频数据的索引值。
14.根据权利要求8至13任意一项所述的音频检索中构建索引的系统,其特征在于,还包括检索客户端,用于获取检索请求,判断所述检索请求是否包含音频片段,若是,则从所述检索请求中提取出音频片段并计算所述音频片段的索引值,然后发送给服务器; 所述服务器还包括音频检索模块,用于根据索引值在索引中查找与所述索引值对应的音频数据,并下发给 检索客户端。
全文摘要
一种音频检索中构建索引的方法,包括以下步骤音频采集装置获取音频数据;音频采集装置计算所述音频数据的索引值,并将所述音频数据和所述音频数据的索引值发送给服务器;服务器根据接收到的所述音频数据和所述音频数据的索引值构建索引。此外,还提供了一种音频检索中构建索引的系统。上述音频检索中构建索引的方法和系统可以降低音频检索系统在扩容时的附加硬件成本。
文档编号G11B27/10GK103247316SQ20121003153
公开日2013年8月14日 申请日期2012年2月13日 优先权日2012年2月13日
发明者黄石磊, 刘轶, 程刚, 曹文晓 申请人:深圳市北科瑞声科技有限公司, 深港产学研基地产业发展中心, 北京大学香港科技大学深圳研修院