声音识别服务器、电话机、声音识别系统以及声音识别方法

文档序号:2823337阅读:268来源:国知局
专利名称:声音识别服务器、电话机、声音识别系统以及声音识别方法
技术领域
本发明涉及声音识别服务器、电话机、声音识别系统以及声音识别方法。
背景技术
以往,例如专利文献1所公开的那样公知有如下的技术在对用户发出的声音进 行声音识别的情况下,根据电话号码来切换声音识别用的词典。另外,例如非专利文献1 所公开的那样,开展了可以在一台终端利用多个电话号码及邮件地址的服务(所谓二合一 (2inl)服务)。专利文献1日本特开2000-10590号公报非专利文献12inl寸一 m co -〉《于厶開発(二合一服务的系统开发),ntt DoCoMo于夕二力;l 夕Y — f ;、 vol. 15No. 3, PI 1—19 在采用了上述现有技术的服务中,当在相同的终端使用多个号码、并针对各个号 码准备不同的语言模型及声学模型时,存在以下问题。即,尽管来自相同终端的发声通常是 同一用户的声音,但是针对各个不同号码按照不同的模型来进行声音识别,并且对各个不 同的模型单独地进行更新,从而有可能使模型的精度变低,声音识别的性能降低。

发明内容
因此,本发明是鉴于上述问题而完成的,其目的在于,提供声音识别服务器、电话 机、声音识别系统以及声音识别方法,它们能在一台终端中利用多个电话号码的服务中可 提高模型的精度、提高声音识别性能。 为了解决上述课题,本发明的声音识别服务器与能在一台终端中利用多个电话号
码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别服务器具备声音接
收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所
接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,
其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除
上述当前呼出号码以外的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码
以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,
选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所
选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。 另外,本发明的电话机与将声音转换为字符的声音识别服务器连接,且能在一台
终端中利用多个电话号码,该电话机具备声音发送单元,其将来自用户的声音发送至上述
声音识别服务器;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、
以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;和号码通知
单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器。 另外,本发明的声音识别系统具有能在一台终端中利用多个电话号码的电话机、
以及将来自上述电话机的声音转换为字符的声音识别服务器,其中,上述电话机具备声音发送单元,其将来自用户的声音发送至上述声音识别服务器;号码检知单元,其检知该电话 机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号 码以外的电话号码即其它号码;和号码通知单元,其将上述当前呼出号码以及上述其它号 码通知给上述声音识别服务器,上述声音识别服务器具备声音接收单元,其接收来自上述 电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符 的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其判定上述电话机的当 前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外 的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择 上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元 中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语 言模型,将上述声音接收单元所接收的声音转换为字符。 另外,本发明的声音识别方法应用于声音识别服务器中,该声音识别服务器与能
在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,
该声音识别方法的特征在于,具有以下步骤模型存储步骤,上述声音识别服务器的模型存
储单元存储用于将来自上述电话机的声音转换为字符的一个以上的声学模型以及一个以
上的语言模型;声音接收步骤,上述声音识别服务器的声音接收单元接收来自上述电话机 的声音;号码判定步骤,上述声音识别服务器的号码判定单元判定上述电话机的当前的呼
出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话 号码即其它号码;模型选择步骤,上述声音识别服务器的模型选择单元根据上述当前呼出 号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出 号码来选择上述模型存储单元中存储的语言模型;和声音识别步骤,上述声音识别服务器 的声音识别单元根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收 单元所接收的声音转换为字符。 此时,在本发明的声音识别服务器中优选,上述模型存储单元存储对于一个电话 机所能利用的全部电话号码通用的声学模型,上述模型选择单元也根据上述一个电话机中 任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。
根据本发明的声音识别服务器、电话机、声音识别系统以及声音识别方法,声音识 别服务器的模型选择单元根据当前呼出号码以及其它号码双方来选择声学模型。即,选择 对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本发明以一个用户在一台 终端中利用多个电话号码的电话机中的声音识别为前提。即,虽然电话号码不同但用户是 同一个,因此可以通过采用通用的声学模型来提高声音识别的性能。采用通用的声学模型, 尤其在对来自同一终端的新号码的声音进行声音识别时起到良好的效果。即,在现有技术 中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导致对新号码 的声音识别性能必然变低,但在本发明中,可以对来自新号码的声音使用与现有号码对应 的声学模型,所以提高了对来自新号码的声音的识别精度。另外,通过采用通用的声学模 型,可以减少要存储在声音识别服务器的模型存储单元中的声学模型的数量,由此可以减 少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户,但有可能每 个电话号码的话题不同,因此本发明的声音识别服务器的模型选择单元仅根据当前呼出号 码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。
6
另外,本发明的声音识别服务器优选还具有声学模型更新单元,其利用来自上述 一个电话机的全部声音来更新上述通用的声学模型。 利用来自一个电话机的全部声音来更新通用的声学模型,由此能够高精度地进行 声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新 的学习量。 另外,本发明的声音识别服务器优选还具有语言模型更新单元,其利用对来自上 述一个电话机的全部声音中的、针对每个上述电话号码的声音的识别结果,更新每个相应 电话号码的语言模型。 利用针对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此
在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。 另外,本发明的声音识别服务器还具有数据存储单元,其将上述一个电话机可利
用的上述多个电话号码、与该电话机的用户识别信息相关联地存储,上述模型选择单元可
根据上述当前呼出号码以及上述其它号码来选择上述数据存储单元所存储的用户识别信
息,且根据该选择的用户识别信息来选择上述模型存储单元所存储的声学模型。 在此情况下,模型选择单元可针对每个用户选择不同的声学模型。 另外,本发明的声音识别服务器还具有对应关系控制单元,其在上述数据存储单
元所存储的上述多个电话号码与上述用户识别信息之间的对应关系中进行追加、变更或删
除的处理。 在此情况下,可以控制电话号码与用户之间的对应关系。 另外,在本发明的声音识别服务器中,上述声音接收单元还接收为了上述模型选
择单元选择上述声学模型以及上述语言模型而参照的模式识别信息,上述模型选择单元可
根据上述模式识别信息来选择上述声学模型以及上述语言模型。 在此情况下,模型选择单元可选择与模式相符的声学模型以及语言模型。 另外,在本发明的声音识别服务器中,在上述声音接收单元接收了多个上述模式
识别信息的情况下,上述模型选择单元可根据优先级高的模式识别信息来选择上述声学模
型以及上述语言模型。 在此情况下,模型选择单元可以进一步考虑模式的优先级来选择与模式相符的声 学模型以及语言模型。 另外,在本发明的声音识别服务器中,上述声音接收单元还接收上述电话机的用 户属性信息,上述模型选择单元可进一步参照上述属性信息来选择上述声学模型以及上述 语言模型。 在此情况下,模型选择单元可以进一步参照用户属性信息来选择与用户属性信息 相符的声学模型以及语言模型。 另外,本发明的电话机能在一台终端中利用多个电话号码,该电话机具备声音输 入单元,其输入来自用户的声音;号码检知单元,其检知该电话机的当前的呼出电话号码即 当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号 码;模型存储单元,其存储用于将上述声音输入单元所输入的声音转换为字符的声学模型 以及语言模型;模型选择单元,其根据上述当前呼出号码以及上述其它号码来选择上述模 型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型, 将上述声音输入单元所输入的声音转换为字符。 此时,在本发明的电话机中优选,上述模型存储单元存储对于该电话机可利用的 全部电话号码通用的声学模型,上述模型选择单元也根据该电话机中任意的上述当前呼出 号码以及上述其它号码来选择上述通用的声学模型。 在本发明的电话机中,电话机的模型选择单元根据当前呼出号码以及其它号码双
方来选择声学模型。即,选择对当前呼出号码以及其它号码双方通用的声学模型。这是因
为本发明以一个用户在一台终端中利用多个电话号码的电话机中的声音识别为前提。艮卩,
虽然电话号码不同但用户是同一个,所以可以通过采用通用的声学模型来提高声音识别的
性能。采用通用的声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到
良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型
进行更新,因而导致对新号码的声音识别性能必然降低,但在本发明中,对来自新号码的声
音使用与现有号码对应的声学模型,所以可以提高对来自新号码的声音的识别精度。另外,
通过采用通用的声学模型,可以减少要存储在声音识别服务器的模型存储单元中的声学模
型的数量,由此可以减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为
一个用户,但有可能每个电话号码的话题不同,所以本发明的电话机的模型选择部仅根据
当前呼出号码来选择语言模型。即,选择专门针对当前呼出号码的语言模型。 另外,本发明的电话机优选还具有声学模型更新单元,其利用来自上述用户的全
部声音来更新上述通用的声学模型。 利用来自用户的全部声音来更新通用的声学模型,由此能够高精度地进行声学模 型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习 另外,本发明的电话机优选还具有语言模型更新单元,其利用对来自上述用户的 全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话号码的语言模 型。 利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在
每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。 根据本发明,可以提供声音识别服务器、电话机、声音识别系统以及声音识别方
法,它们能够在可在一台终端中利用多个电话号码的服务中提高模型精度、提高声音识别性能。


图1是第1实施方式的声音识别系统1的结构概要图。 图2是第1实施方式的声音识别系统1的结构概要图。 图3是电话机100以及声音识别服务器200的硬件结构图。 图4是示出电话机100的功能结构的结构概要图。 图5是示出声音识别服务器200的功能结构的结构概要图。 图6是示出声音识别系统1所进行的动作的流程图。 图7是用于详细说明图6的步骤S 104中的声学模型选择处理的图。
8
图8是用于详细说明图6的步骤S105中的语言模型选择处理的图。
图9是第2实施方式的声音识别服务器250的结构概要图。 图10中图10(A)是示出在号码转换数据存储部214中将电话号码与用户ID关联 存储的一例的图。图10(B)是示出在模型存储部208中将用户ID与声学模型关联存储的 一例的图。 图11是用于详细说明号码控制部218所进行的各个处理的流程图。
图12是示出号码控制部218所进行的新追加处理前后的状态的图。
图13是示出号码控制部218所进行的删除处理前后的状态的图。
图14是示出号码控制部218所进行的变更处理前后的状态的图。
图15是第3实施方式的声音识别服务器260的结构概要图。
图16是第4实施方式的声音识别系统2以及电话机150的结构概要图。
符号说明 1,2-声音识别系统,100, 150-电话机,102-声音输入部,104-声音发送部,106-号 码检知部,108-号码通知部,110-模型选择部,112-模型存储部,114-声音识别部,116-模 型更新部,200, 250, 260-声音识别服务器,202-声音接收部,204-号码判定部,206-模型选 择部,208-模型存储部,210声音识别部,212模型更新部,214-号码转换数据存储部,216号 码转换部,218-号码控制部,220-模式识别信息接收部,300-通信网络,400-订户信息控制 装置。
具体实施例方式
以下,参照附图对本发明的声音识别服务器、电话机、声音识别系统以及声音识别 方法的优选实施方式进行详细说明。此外,在

中对同一要素标注同一符号,并省略 重复的说明。〈第1实施方式>(声音识别系统1的总体结构) 首先,参照图1以及图2说明本发明第1实施方式的声音识别系统1的总体结构。 图1以及图2是声音识别系统1的结构概要图。如图1所示,声音识别系统1由电话机100 和声音识别服务器200构成,电话机100和声音识别服务器200通过通信网络300相互连 接。电话机100是可在一台终端中利用多个电话号码及邮件地址(在日本称为"二合一服 务")的移动电话机。声音识别服务器200是将来自电话机100的声音转换为字符、并将结 果发送至电话机100的服务器装置。另外,如图2所示,声音识别系统1可构成为还具有订 户信息控制装置400。订户信息控制装置400对所谓的"二合一服务"中的订户信息进行控 制以及管理。(电话机100的结构) 对电话机100进行详细说明。图3是电话机100的硬件结构图。如图3所示,电 话机100物理上构成为具备CPU 11、作为主存储装置的R0M 12以及RAM 13、操作按钮等 输入设备14、LCD或有机EL显示器等输出设备15、与声音识别服务器200之间进行数据收 发的通信模块16以及存储设备等辅助存储装置17。后述的电话机100的各个功能通过如 下的方式来实现通过在CPU 11、R0M 12、RAM 13等硬件上读入规定的软件,基于CPU 11的控制使输入设备14、输出设备15、通信模块16进行工作,并且对主存储装置12、 13或辅助 存储装置17中的数据进行读出以及写入。 图4是示出电话机100的功能结构的结构概要图。如图4所示,电话机100构成为 在功能上具备声音输入部102、声音发送部104(相当于权利要求中的"声音发送单元")、 号码检知部106(相当于权利要求中的"号码检知单元")以及号码通知部108(相当于权利 要求中的"号码通知单元")。 声音输入部102输入用户发出的声音。声音发送部104将声音输入部102所输入 的声音发送至声音识别服务器200。虽未图示,但还设置有从声音输入部102所输入的声音 中提取声音特征量的单元,声音发送部104可将该声音特征量数据发送至声音识别服务器 200。声音发送部104例如可由图3所示的通信模块16构成。 号码检知部106检知当前呼出号码以及其它号码。当前呼出号码是电话机100的
当前的呼出电话号码。其它号码是在电话机ioo可利用的多个电话号码中的、除当前呼出
号码以外的电话号码。号码通知部108将号码检知部106所检知的当前呼出号码以及其它 号码通知给声音识别服务器200。号码通知部108可由例如图3所示的通信模块16构成。
如图1以及图4所示,电话机100可构成为将声音(声音特征量数据)以及号码 信息直接发送至声音识别服务器200,如图2所示,电话机100可构成为将声音(声音特征 量数据)以及号码信息经由订户信息控制装置400发送给声音识别服务器200。在后者的 情况下,虽未图示,但可以在订户信息控制装置400中设置与号码检知部106以及号码通知 部108相当的单元。(声音识别服务器200的结构) 接着,对声音识别服务器200进行详细说明。图3是声音识别服务器200的硬件 结构图。如图3所示,声音识别服务器200物理上构成为包含如下单元的通常计算机系统 CPU 21、R0M 22和RAM 23等主存储装置;键盘以及鼠标等输入设备24 ;显示器等输出设备 25 ;与电话机100之间进行数据收发的通信模块26 ;以及硬盘等辅助存储装置27等。后述 的声音识别服务器200的各个功能通过以下方式来实现通过在CPU21、R0M 22、RAM 23等 硬件上读入预定的计算机软件,基于CPU 21的控制,使输入设备24、输出设备25、通信模块 26进行工作,并且对主存储装置22、23及辅助存储装置27中的数据进行读出以及写入。
图5是示出声音识别服务器200的功能结构的结构概要图。如图5所示,声音识别 服务器200构成为在功能上具备声音接收部202(相当于权利要求中的"声音接收单元")、 号码判定部204(相当于权利要求中的"号码判定单元")、模型选择部206(相当于权利要 求中的"模型选择单元")、模型存储部208 (相当于权利要求中的"模型存储单元")、声音 识别部210(相当于权利要求中的"声音识别单元")以及模型更新部212(相当于权利要求 中的"声学模型更新单元"以及"语言模型更新单元")。 声音接收部202从电话机100接收电话机100的用户所发出的声音或其特征量数 据。或者,在如图2所示将声音识别系统1构成为包含订户信息控制装置400的情况下,声 音接收部202可经由订户信息控制装置400接收来自电话机100的声音或其特征量数据。 声音接收部202可由例如图3所示的通信模块26构成。声音接收部202将所接收的声音 或其特征量数据输出至声音识别部210以及模型更新部212。 号码判定部204根据来自电话机100的号码通知部108的通知,判定电话机100的当前呼出号码以及其它号码。或者,在如图2所示将声音识别系统1构成为包含订户信 息控制装置400的情况下,图5虽未图示,但也可以是,号码判定部204从订户信息控制装 置400接收对当前呼出号码以及其它号码的通知,并根据该通知来判定电话机100的当前 呼出号码以及其它号码。号码判定部204将已判定的当前呼出号码以及其它号码输出至模 型选择部206。 模型选择部206根据号码判定部204所判定的当前呼出号码以及其它号码来选择 存储在模型存储部208中的声学模型,且根据当前呼出号码来选择存储在模型存储部208 中的语言模型。模型存储部208存储有用于将声音接收部202接收到的声音转换为字符的 一个以上声学模型以及一个以上语言模型。模型存储部208存储对于一个电话机可利用的 全部电话号码通用的声学模型,模型选择部206也根据一个电话机中任意的当前呼出号码 以及其它号码来选择上述通用的声学模型。此外,在后述的"声音识别系统l的动作"中参 照图7以及图8来详细说明与模型选择部206以及模型存储部208相关联的处理。模型选 择部206将所选择的声学模型以及语言模型输出至声音识别部210。 声音识别部210根据模型选择部206所选择的声学模型以及语言模型,将声音接 收部202所接收的声音转换为字符。声音识别的方法本身是例如下述参考文献1所公开的 公知技术,所以这里省略说明。声音识别部210将进行了声音识别处理的结果向电话机100 发送。电话机100接收该结果并向用户显示。另外,声音识别部210将声音识别结果输出 至模型更新部212。 参考文献1 :音声認識-〉^于厶(声音识别系统),ISBN/ASIN :4274132285,武田 一哉,欧姆公司(才一A社) 模型更新部212利用声音接收部202所接收的来自电话机100的声音、以及从声 音识别部210输入的声音识别结果作为学习对象,更新存储在模型存储部208中的声学模 型以及语言模型。模型更新部212利用来自电话机100的全部声音以及来自声音识别部 210的全部声音识别结果作为学习对象,更新一个电话机中通用的声学模型。S卩,例如电话 机100可利用的电话号码是A以及B的情况下,模型更新部212利用在电话号码A以及B 下发出的全部声音以及该声音的全部识别结果作为学习对象,更新电话机100中的电话号 码A以及B通用的声学模型。 另一方面,模型更新部212利用来自声音识别部210的全部声音识别结果中的、依 据每个电话号码而区分的声音识别结果,来更新每个相应电话号码的语言模型。即,例如电 话机IOO可利用的电话号码是A以及B的情况下,模型更新部212利用针对电话号码A下 发出的声音的识别结果(即,字符)作为学习对象,更新用于电话机100的电话号码A的语 言模型。另外,在此情况下,模型更新部212利用针对电话号码B下发出的声音的识别结果 为学习对象,更新用于电话机100的电话号码B的语言模型。 作为模型更新方法、即声学模型以及语言模型中的各参数更新方法,举出了例如
基于下式(1)的更新方法。
U = U 。w+(l-w)X . (1) 在上述式(1)中,i!是更新后的参数,P。是更新前的参数,w是更新中的预定权 重,X是输入声音的平均值。此外,模型更新的方法本身例如是下述参考文献2所公开的公 知技术,所以这里省略说明。
参考文献2 :確率壬7 & (二 J: 3音声認識O t & 0話者適応化技術、電字子情報 通信学会論文誌D-II (用于概率模型的声音识别的说话者适应化技术,电子信息通信学会 论文集D-II) vol. J87-D-II, no. 2, pp. 371-386(2004-2) [OO77](声音识别系统1的动作) 接着,参照图6来说明声音识别系统1所进行的动作(权利要求中的"声音识别 方法")。图6是示出声音识别系统1所进行的动作的流程图。此外,在以下的说明中为了 便于说明而假定以下的事项。即,在电话机100中可以利用电话号码A以及B的多个电话 号码,其中,当前呼出号码是电话号码A,其它号码是电话号码B。另外,不用说声音识别服 务器200的模型存储部208存储用于将来自电话机100的声音转换为字符的声学模型以及 语言模型,另外还存储用于对来自声音识别系统1内存在的电话机100以外的其它电话机 (未图示)的声音进行识别的声学模型以及语言模型。 首先,声音识别服务器200的声音接收部202从电话机100直接或经由订户信息 控制装置400,接收电话机100的用户所发出的声音或其特征量数据。另外,声音识别服务 器200的号码判定部204从电话机100或订户信息控制装置400接收对当前呼出号码以及 其它号码的通知(步骤S101,相当于权利要求中的"声音接收步骤")。
接着,声音识别服务器200的号码判定部204根据步骤S101的号码通知来判定电 话机100的当前呼出号码以及其它号码。根据上述假定,号码判定部204判定当前呼出号 码是A、其它号码是B (步骤S102以及步骤S103,相当于权利要求中的"号码判定步骤")。
接着,声音识别服务器200的模型选择部206根据在步骤S102以及步骤S103中判 定的当前呼出号码以及其它号码,选择模型存储部208所存储的、用于识别来自电话机100 的声音的声学模型。另外,模型选择部206根据当前呼出号码,选择模型存储部208中存储 的、用于识别来自电话机100的声音的语言模型(步骤S104以及步骤S105,相当于权利要 求中的"模型选择步骤")。 进一步参照图7来说明步骤S104的声学模型选择处理。模型存储部208存储如 图7所示的表。图7中,将包含电话机100的声音识别系统1内的全部电话机可利用的电话 号码(A、B、C、D、E等)、和用于将各个电话号码中发出的声音转换为字符的声学模型(MAB、 Mc、M皿等)相关联地进行存储。即,可以采用声学模型M^对电话号码A中发出的声音进行 声音识别,可以采用声学模型Mc对电话号码C中发出的声音进行声音识别。另外,图7中, 在一个框内记载的电话号码表示一台电话机可利用的电话号码。即,电话号码A和B是电 话机IOO可利用的号码,电话号码C是电话机IOO以外的另一个电话机(未图示)可利用 的号码,电话号码D和E是电话机IOO以外的再一个电话机(未图示)可利用的号码。模 型选择部206参照这样的表来选择声学模型。即,模型选择部206从图7的表的左列检索 与电话机100的当前呼出号码以及其它号码相当的电话号码A以及B,并选择与电话号码A 以及B相关联地存储的声学模型M^。另外,此例为当前呼出号码是A、其它号码是B时的例 子,相反,在当前呼出号码是B、其它号码是A时也可进行同样的选择。S卩,模型存储部208 存储对于一个电话机可利用的全部电话号码通用的声学模型,模型选择部206也根据该一 个电话机中任意的当前呼出号码以及其它号码选择上述通用的声学模型。
进一步参照图8来说明步骤S105的语言模型选择处理。模型存储部208存储如图 8所示的表。图8中,将包含电话机100的声音识别系统1内的全部电话机可利用的电话号
12码(A、B、C、D、E等)、与用于将各个电话号码中发出的声音转换为字符的语言模型(LA、LB、 Lc、L。、l^等)相关联地进行存储。S卩,可采用语言模型U对电话号码A中发出的声音进行 声音识别,可采用语言模型Lc对电话号码C中发出的声音进行声音识别。模型选择部206 参照这样的表来选择语言模型。即,模型选择部206从图8中表的左列检索与电话机100 的当前呼出号码相当的电话号码A,选择与电话号码A相关联地存储的语言模型U。另外, 此例为当前呼出号码是A、其它号码是B时的例子,相反,在当前呼出号码是B、其它号码是A 时,模型选择部206从图8中表的左列检索与电话机100的当前呼出号码相当的电话号码 B,选择与电话号码B相关联地存储的语言模型LB。 S卩,模型存储部208针对一个电话机可 利用的全部电话号码分别存储不同的语言模型,模型选择部206针对每个电话号码来选择 不同的语言模型。 返回图6的流程图,继步骤S104以及步骤S105的模型选择步骤之后,声音识别服 务器200的声音识别部210根据模型选择部206所选择的声学模型以及语言模型,将声音 接收部202所接收的声音转换为字符。根据上述假定,声音识别部210基于声学模型M^以 及语言模型LA对来自电话机100的声音进行识别处理(步骤S106,相当于权利要求中的 "声音识别步骤")。 接着,声音识别服务器200的模型更新部212利用声音接收部202所接收的来自 电话机100的声音、以及从声音识别部210输入的声音识别结果作为学习对象,更新模型存 储部208所存储的声学模型以及语言模型。根据上述假定,模型更新部212利用电话号码A 以及B发出的全部声音以及该声音的全部识别结果作为学习对象,更新电话机100中的电 话号码A以及B通用的声学模型M^。此外,因为在上述假定中当前呼出号码是A,所以利用 在该电话号码A中发出的声音以及该声音的识别结果作为学习对象,来更新通用的声学模 型M^但与其不同,在当前呼出号码是B的情况下,利用在该电话号码B中发出的声音以及 该声音的识别结果作为学习对象,来更新通用的声学模型M^。总之,根据呼出号码A中的发 声以及呼出号码B中的发声双方来更新通用的声学模型M^。另一方面,模型更新部212利 用针对来自电话机100的全部声音中的、依据每个电话号码而区分的声音的识别结果(即, 字符)作为学习对象,更新该每个电话号码的语言模型。根据上述假定,模型更新部212利 用针对作为当前呼出号码的电话号码A中发出的声音的识别结果作为学习对象,更新用于 电话机100的电话号码A的语言模型LA。总之,语言模型针对每个呼出号码来进行更新(步 骤S107)。 最后,在电话机100侧接收步骤S106中的声音识别结果,然后显示给用户(步骤 S108)。(第1实施方式的作用以及效果等) 接着,对第1实施方式的作用以及效果进行说明。根据第1实施方式,声音识别服 务器200的模型选择部206根据当前呼出号码以及其它号码双方来选择声学模型。即,选择 对于当前呼出号码以及其它号码双方通用的声学模型。这是因为本实施方式以一个用户在 一台终端中利用多个电话号码的电话机100中的声音识别为前提。即,虽然电话号码不同 但用户是同一个,因此,可以通过采用通用的声学模型来提高声音识别的性能。采用通用的 声学模型,尤其在对来自同一终端的新号码的声音进行声音识别时起到了良好的效果。艮卩, 在现有技术中,如果是新号码,则很可能没有充分地对可利用的声学模型进行更新,因此导
13致对新号码的声音识别性能必然降低,但在本实施方式中,可对新号码的声音使用与现有 号码对应的声学模型,所以提高了对来自新号码的声音的识别精度。另外,通过使用通用的 声学模型,可以减少要存储在声音识别服务器200的模型存储部208中的声学模型的数量, 由此能够减少用于存储声学模型的容量。另一方面,对于语言模型,虽然假定为一个用户, 但有可能每个电话号码的话题不同,所以本实施方式的声音识别服务器200的模型选择部 206仅根据当前呼出号码来选择语言模型。S卩,选择专门针对当前呼出号码的语言模型。
另外,通过利用来自一个电话机100的全部声音来更新通用的声学模型,可以高 精度地进行声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加 了用于更新的学习量。 另外,通过利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模
型,可以在每个电话号码的话题不同的情况下,专门针对该话题来更新语言模型。〈第2实施方式〉 接着,对本发明的第2实施方式进行说明。此外,省略与上述已说明的第1实施方 式重复部分的说明,并以与第1实施方式的不同点为中心进行说明。 图9是第2实施方式的声音识别服务器250的结构概要图。与第1实施方式中的 声音识别服务器200相比,声音识别服务器250还具备号码转换数据存储部214(相当于 权利要求中的"数据存储单元")、号码转换部216 (相当于权利要求中的"模型选择单元") 以及号码控制部218 (相当于权利要求中的"对应关系控制单元")。 号码转换数据存储部214将一个电话机可利用的多个电话号码与该电话机的用 户识别信息相关联地存储。具体地说,号码转换数据存储部214存储如图10(A)所示的表。 在图10(A)中,包含电话机100的声音识别系统1内的全部电话机可利用的电话号码(A、B、 C、D、E等)、与作为利用各个电话号码的用户的识别信息的用户ID被相关联地存储。艮卩, 如图10(A)所示,电话号码A、B被用户ID为AB的用户所利用,电话号码C被用户ID为CC 的用户所利用,电话号码D、E被用户ID为DE的用户所利用。 返回图9,号码判定部204根据来自电话机100或订户信息控制装置400的号码通 知来判定电话机100的当前呼出号码以及其它号码,将该结果输出至号码转换部216。
号码转换部216根据号码判定部204所判定的当前呼出号码以及其它号码,选择 存储在号码转换数据存储部214中的用户ID。例如在电话机100可利用的电话号码是A以 及B的情况下,号码转换部216参照号码转换数据存储部214,选择AB的用户ID。号码转 换部216将所选择的用户ID通知给模型选择部206。 模型选择部206根据号码转换部216所选择的用户ID来选择模型存储部208中存 储的声学模型。模型存储部208存储有如图10(B)所示的表。在图10(B)中,相关联地存 储有包含电话机100的声音识别系统1内的全部电话机的用户识别信息即用户ID(AB、CC、 DE等)、和在与各个用户ID关联地进行声音识别时采用的声学模型(MAB、 Mc、 MDE等)。艮卩, 在用户ID为AB的情况下可采用声学模型M^进行声音识别,在用户ID为CC的情况下可采 用声学模型I进行声音识别,在用户ID为DE的情况下可采用声学模型MDE进行声音识别。 模型选择部206参照这样的表来选择声学模型。即,模型选择部206在号码转换部216所 选择的用户ID为AB的情况下选择声学模型M^,在号码转换部216所选择的用户ID为CC 的情况下选择声学模型Mc,在号码转换部216所选择的用户ID为DE的情况下选择声学模型M。e。 S卩,模型存储部208针对每个用户存储不同的声学模型,模式选释部206与当前呼 出号码以及其它号码无关地,以用户为基准来选择声学模型。以上,说明了声学模型的选择 处理,但关于语言模型,也可以与用户ID无关、如第l实施方式所说明的那样,以电话号码 为基准进行选择。 返回图9,号码控制部218在号码转换数据存储部214所存储的电话号码与用户 ID之间的对应关系(参照图10(A))中,进行追加、变更或删除的各种处理。图ll是示出其 处理步骤的流程图。如图11所示,号码控制部218首先接收控制信号、号码数据以及用户 ID数据(步骤S201),接着判定该接收的控制信号的种类(步骤S202)。此外,步骤S201中 的控制信号、号码数据以及用户ID数据可以从订户信息控制装置400接收,或者从电话机 100或未图示的其它装置接收。 在步骤S202的判定结果是新追加的情况下(步骤S202 :是)进行新追加处理(步 骤S203)。图12(A)示出现有的表,图12(B)示出进行了新追加处理后的表。如图12所示, 新追加了电话号码F、和与其对应的用户ID即FF。 另一方面,在步骤S202的判定结果不是新追加的情况下(步骤S202 :否),首先,
在掌握了处理对象之后、即掌握了从现有的表中对哪个号码数据进行删除或变更处理之后
(步骤S204),再次判定在步骤S201中接收的控制信号的种类(步骤S205)。在步骤S205的判定结果是删除的情况下(步骤S205 :是),进行删除处理(步骤
S206)。图13(A)示出现有的表,图13(B)示出进行了删除处理之后的表。如图13所示,删
除了电话号码D和E、以及与它们相对应的用户ID即DE。 另一方面,在步骤S205的判定结果是不删除的情况下(步骤S202 :否),判定步骤 S201中接收到的控制信号是否表示变更(步骤S207)。 在步骤S207的判定结果是变更的情况下(步骤S207 :是)进行变更处理(步骤 S208)。图14(A)示出现有的表,图14(B)示出进行了变更处理之后的表。如图14所示,与 电话号码C对应的用户ID在变更前是CC,但在变更后成为FF。 另一方面,在步骤S207的判定结果不是变更的情况下(步骤S207 :否),直接结束 处理。 根据以上所说明的第2实施方式,模型选择部206可以针对每个用户选择不同的 声学模型。另外,还可以控制电话号码与用户之间的对应关系。
〈第3实施方式〉 接着,对本发明的第3实施方式进行说明。此外,省略与上述已说明的第1实施方 式重复部分的说明,并重点说明与第1实施方式的不同点。 图15是第3实施方式的声音识别服务器260的结构概要图。与第1实施方式中 的声音识别服务器200相比,声音识别服务器260还具有模式识别信息接收部220 (相当于 权利要求中的"声音接收单元")。模式识别信息接收部220接收模式识别信息。模式识别 信息是模型选择部206为了选择声学模型以及语言模型而参照的信息。模式识别信息所表 示的模式例如有确定电话机100可利用的电话号码的情况。作为其一例,在电话机100可 利用的电话号码是A以及B的情况下,第1模式表示电话号码A,第2模式表示电话号码B。 另外,第3模式表示电话号码A以及B双方。并且模式识别信息表示任意的模式,模式识 别信息接收部220从电话机100接收这样的模式识别信息,并向模型选择部206输出。此外,图15示出了模式识别信息接收部220从电话机100接收模式识别信息的例子,但不限 于此,也可以是,还存在存储模式识别信息的其它装置(未图示),模式识别信息接收部220 从该装置接收模式识别信息。 模型选择部206根据从模式识别信息接收部220输入的模式识别信息,选择模型 存储部208所存储的声学模型以及语言模型。例如,在模式识别信息表示上述第3模式的 情况下,模型选择部206从模型存储部208中选择对于电话号码A以及B通用的声学模型 以及语言模型。此外,在模型存储部208中预先存储有对于电话号码A以及B通用的声学 模型以及语言模型。另外,所谓对于电话号码A以及B通用的声学模型以及语言模型,是指 在对电话号码A的发声进行声音识别、以及对电话号码B的发声进行声音识别中都能够使 用的声学模型以及语言模型,或者将电话号码A中的发声、电话号码B中的发声、以及它们 的声音识别结果用作学习对象进行更新的声学模型以及语言模型。另外,在例如模式识别 信息表示上述第1模式的情况下,模型选择部206从模型存储部208中选择专门针对电话 号码A的声学模型以及语言模型。 以上,对第3实施方式的模式识别信息接收部220以及模型选择部206的基本功 能进行了说明,但本发明的第3实施方式不限于此。例如,还可以构成为,在模式识别信息 接收部220接收到了多个模式识别信息的情况下,模型选择部206基于优先级高的模式识 别信息来选择声学模型以及语言模型。在此情况下,模式识别信息接收部220还可以接收 表示优先级的信息。另外,还可以构成为,模式识别信息接收部220除了接收模式识别信息 之外,还接收电话机100的用户的属性信息,模型选择部206进一步参照该属性信息来选择 声学模型以及语言模型。所谓用户的属性信息是指与用户有关的信息,例如表示年龄、性 别,兴趣、职业等的信息。根据以上所说明的第3实施方式,模型选择部206可以选择与模式相符的声学模 型以及语言模型。另外,模型选择部206可以在进一步考虑了模式的优先级之后,选择与模 式相符的声学模型以及语言模型。另外,模型选择部206可进一步参照用户属性信息来选 择与用户属性信息相符的声学模型以及语言模型。
〈第4实施方式〉 接着,对本发明的第4实施方式进行说明。此外,省略与上述所说明的第1实施方 式重复部分的说明,重点说明与第1实施方式的不同点。 图16是第4实施方式的声音识别系统2以及电话机150的结构概要图。与第1 实施方式中的声音识别系统1相比,在声音识别系统2中不存在声音识别服务器,取而代之 由电话机150来进行声音识别处理。 如图16所示,在电话机150中,作为功能结构要素具备声音输入部102(相当于 权利要求中的"声音输入单元")、号码检知部106(相当于权利要求中的"号码检知单元")、 模型选择部110(相当于权利要求中的"模型选择单元")、模型存储部112(相当于权利要 求中的"模型存储单元")、声音识别部114(相当于权利要求中的"声音识别单元")以及模 型更新部116 (相当于权利要求中的"声学模型更新单元"以及"语言模型更新单元")。
用户所发出的声音被输入声音输入部102,并被输出至声音识别部114以及模型 更新部116。虽未图示,但可以进一步设置从输入至声音输入部102的声音中提取声音特征 量的单元,并将该声音特征量数据输出至声音识别部114以及模型更新部116。
16
号码检知部106检知当前呼出号码以及其它号码,并输出至模型选择部110。
模型选择部IIO根据号码检知部106所检知的当前呼出号码以及其它号码来选择 存储在模型存储部112中的声学模型,且根据当前呼出号码来选择存储在模型存储部112 中的语言模型。模型存储部112存储用于将声音输入部102所接收的声音转换为字符的声 学模型以及语言模型。模型存储部112存储对于该电话机150可利用的全部电话号码通用 的声学模型,模型选择部110也根据该电话机150中任意的当前呼出号码以及其它号码来
选择上述通用的声学模型。模型选择部iio将所选择的声学模型以及语言模型输出至声音 识别部114。 声音识别部114根据模型选择部IIO所选择的声学模型以及语言模型,将来自声 音输入部102的声音转换为字符。声音识别部114向用户显示进行过声音识别处理后的结 果,并且输出至模型更新部116。 模型更新部116利用来自声音输入部102的声音、以及从声音识别部114输入的 声音识别结果作为学习对象,更新模型存储部112所存储的声学模型以及语言模型。模型 更新部116利用来自声音输入部102的全部声音、以及来自声音识别部114的全部声音识 别结果作为学习对象,更新电话机150中的通用声学模型。即,例如在电话机150可利用的 电话号码是A以及B的情况下,模型更新部116利用电话号码A以及B下发出的全部声音 以及该声音的识别结果作为学习对象,更新对于电话机150中的电话号码A以及B通用的 声学模型。 另一方面,模型更新部116利用来自声音识别部114的全部声音识别结果中的、依 据每个电话号码而区分的声音识别结果,来更新每个相应电话号码的语言模型。即,例如在 电话机150可利用的电话号码是A以及B的情况下,模型更新部116利用针对电话号码A 下发出的声音的识别结果(即,字符)作为学习对象,更新用于电话机150的电话号码A的 语言模型。另外,在此情况下,模型更新部116利用针对电话号码B下发出的声音的识别结 果作为学习对象,更新用于电话机150的电话号码B的语言模型。 根据以上所说明的第4实施方式,电话机150的模型选择部110根据当前呼出号 码以及其它号码双方来选择声学模型。即,选择对于当前呼出号码以及其它号码双方通用 的声学模型。这是因为本发明以一个用户在一台终端中利用多个电话号码的电话机150中 的声音识别为前提。即,虽然电话号码不同但用户是同一个,因此可以通过采用通用的声学 模型来提高声音识别的性能。采用通用的声学模型,尤其在对同一终端的新号码的声音进 行声音识别时起到良好的效果。即,在现有技术中,如果是新号码,则很可能没有充分地对 可利用的声学模型进行更新,因此导致对新号码的声音识别性能必然将低,但在本发明中, 对来自新号码的声音使用与现有号码对应的声学模型,因此可以提高对来自新号码的声音 的识别精度。另外,通过采用通用的声学模型,可以减少要存储在声音识别服务器200的模 型存储部112内的声学模型的数量,由此可以减少用于存储声学模型的容量。另一方面,对 于语言模型,虽然假定为一个用户,但有可能每个电话号码的话题不同,所以本发明的电话 机150的模型选择部IIO仅根据当前呼出号码来选择语言模型。S卩,选择专门针对当前呼 出号码的语言模型。 另外,利用来自用户的全部声音来更新通用的声学模型,由此能够高精度地进行 声学模型的更新。这是因为与按照每个号码来更新声学模型的情况相比,增加了用于更新的学习量。 另外,利用对每个电话号码的声音的识别结果来更新每个电话号码的语言模型,由此在每个电话号码的话题不同的情况下,能够专门针对该话题来更新语言模型。
以上,对本发明的优选实施方式进行了说明,但不言而喻,本发明不限于上述实施方式。 例如,可采用SM卡(Subscriber Identity Module Card :用户识别模i央卡)中的IMSI (International Mobile Subscriber Identity :国际移动用户识别)码,来取代上述实施方式中的电话号码。
权利要求
一种声音识别服务器,其与能在一台终端中利用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,其特征在于,上述声音识别服务器具备声音接收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
2. 根据权利要求1所述的声音识别服务器,其特征在于,上述模型存储单元存储对于一个电话机所能利用的全部电话号码通用的声学模型, 上述模型选择单元也根据上述一个电话机中任意的上述当前呼出号码以及上述其它 号码来选择上述通用的声学模型。
3. 根据权利要求2所述的声音识别服务器,其特征在于,该声音识别服务器还具有声学模型更新单元,该声学模型更新单元利用来自上述一个 电话机的全部声音来更新上述通用的声学模型。
4. 根据权利要求1所述的声音识别服务器,其特征在于,该声音识别服务器还具有语言模型更新单元,该语言模型更新单元利用针对来自上述 一个电话机的全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话 号码的语言模型。
5. 根据权利要求1 4中任意一项所述的声音识别服务器,其特征在于, 该声音识别服务器还具有数据存储单元,该数据存储单元将上述一个电话机所能利用的上述多个电话号码、与该电话机的用户识别信息相关联地存储,上述模型选择单元根据上述当前呼出号码以及上述其它号码来选择上述数据存储单 元中存储的用户识别信息,且根据该选择的用户识别信息来选择上述模型存储单元中存储 的声学模型。
6. 根据权利要求5所述的声音识别服务器,其特征在于,该声音识别服务器还具有对应关系控制单元,该对应关系控制单元在上述数据存储单 元所存储的上述多个电话号码与上述用户识别信息之间的对应关系中进行追加、变更或删 除的处理。
7. 根据权利要求1 6中任意一项所述的声音识别服务器,其特征在于, 上述声音接收单元还接收为了上述模型选择单元选择上述声学模型以及上述语言模型而参照的模式识别信息,上述模型选择单元根据上述模式识别信息来选择上述声学模型以及上述语言模型。
8. 根据权利要求7所述的声音识别服务器,其特征在于,在上述声音接收单元接收到多个上述模式识别信息的情况下,上述模型选择单元根据优先级高的模式识别信息来选择上述声学模型以及上述语言模型。
9. 根据权利要求1 6中任意一项所述的声音识别服务器,其特征在于, 上述声音接收单元还接收上述电话机的用户的属性信息,上述模型选择单元还参照上述属性信息,来选择上述声学模型以及上述语言模型。
10. —种电话机,其与将声音转换为字符的声音识别服务器连接,且能在一台终端中利用多个电话号码,其特征在于,上述电话机具备声音发送单元,其将来自用户的声音发送至上述声音识别服务器;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多 个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;禾口号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器。
11. 一种声音识别系统,其具有能在一台终端中利用多个电话号码的电话机、以及将 来自上述电话机的声音转换为字符的声音识别服务器,其特征在于,上述电话机具备声音发送单元,其将来自用户的声音发送至上述声音识别服务器; 号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多 个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;禾口号码通知单元,其将上述当前呼出号码以及上述其它号码通知给上述声音识别服务器,上述声音识别服务器具备 声音接收单元,其接收来自上述电话机的声音;模型存储单元,其存储用于将上述声音接收单元所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定单元,其根据来自上述电话机的上述号码通知单元的通知,判定上述当前呼 出号码以及上述其它号码;模型选择单元,其根据上述当前呼出号码以及上述其它号码,选择上述模型存储单元 中存储的声学模型,且根据上述当前呼出号码,选择上述模型存储单元中存储的语言模型; 禾口声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声 音接收单元所接收的声音转换为字符。
12. —种声音识别服务器中的声音识别方法,该声音识别服务器与能在一台终端中利 用多个电话号码的电话机连接,且将来自上述电话机的声音转换为字符,该声音识别方法 的特征在于,具有以下步骤模型存储步骤,上述声音识别服务器的模型存储单元存储用于将来自上述电话机的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;声音接收步骤,上述声音识别服务器的声音接收单元接收来自上述电话机的声音; 号码判定步骤,上述声音识别服务器的号码判定单元判定上述电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型选择步骤,上述声音识别服务器的模型选择单元根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;禾口声音识别步骤,上述声音识别服务器的声音识别单元根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音接收单元所接收的声音转换为字符。
13. —种电话机,其能在一台终端中利用多个电话号码,其特征在于,上述电话机具备声音输入单元,其输入来自用户的声音;号码检知单元,其检知该电话机的当前的呼出电话号码即当前呼出号码、以及上述多个电话号码中的除上述当前呼出号码以外的电话号码即其它号码;模型存储单元,其存储用于将上述声音输入单元所输入的声音转换为字符的声学模型以及语言模型;模型选择单元,其根据上述当前呼出号码以及上述其它号码来选择上述模型存储单元中存储的声学模型,且根据上述当前呼出号码来选择上述模型存储单元中存储的语言模型;和声音识别单元,其根据上述模型选择单元所选择的声学模型以及语言模型,将上述声音输入单元所输入的声音转换为字符。
14. 根据权利要求13所述的电话机,其特征在于,上述模型存储单元存储对于该电话机所能利用的全部电话号码通用的声学模型,上述模型选择单元也根据该电话机中任意的上述当前呼出号码以及上述其它号码来选择上述通用的声学模型。
15. 根据权利要求14所述的电话机,其特征在于,还具有声学模型更新单元,其利用来自上述用户的全部声音来更新上述通用的声学模型。
16. 根据权利要求13所述的电话机,其特征在于,还具有语言模型更新单元,其利用对来自上述用户的全部声音中的、每个上述电话号码的声音的识别结果,来更新每个相应电话号码的语言模型。
全文摘要
本发明提供声音识别服务器、电话机、声音识别系统以及声音识别方法。声音识别服务器(200)具备声音接收部(202),其接收来自电话机(100)的声音;模型存储部(208),其存储用于将声音接收部(202)所接收的声音转换为字符的一个以上的声学模型以及一个以上的语言模型;号码判定部(204),其判定电话机(100)的当前呼出号码以及其它号码;模型选择部(206),其根据当前呼出号码以及其它号码选择模型存储部(208)中存储的声学模型,且根据当前呼出号码选择模型存储部(208)中存储的语言模型;和声音识别部(210),其根据模型选择部(206)所选择的声学模型以及语言模型,将声音接收部(202)所接收的声音转换为字符。
文档编号G10L15/28GK101794577SQ20101010853
公开日2010年8月4日 申请日期2010年1月29日 优先权日2009年1月30日
发明者古川博崇, 张志鹏 申请人:株式会社Ntt都科摩
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1