员所使用的用户的终端(下文称为“用户终端”)。用户60能够接收由记录者50经由用户终端300所提供的记笔记服务。
[0047]而且,在本实施例中,信息递送设备100、记录者终端200和用户终端300经由诸如互联网的网络410连接并且彼此交换信息。注意:尽管在图1中的示例中,存在两个记录者终端200和一个用户设备300,这些终端的数目并无特殊限制。
[0048]如图1中所示,信息递送设备100被提供有呼吸检测单元104、数据处理单元105和数据发射单元106。当然,呼吸检测单元104从发声的语音中提取静音部分,指定所提取的静音部分中的满足设置条件的静音部分作为讲话者40的呼吸部分。
[0049]数据处理单元105首先确定在分配给每个记录者50的每个时间段(下文称为“分配时间段”)中,在基于分配时间段之一的开始点的范围中是否存在呼吸部分。在图1的示例中,存在两个记录者50,因此各个记录者50执行记笔记的分配时间段被可替换地分配给每个记录者50。
[0050]然后,在确定在范围中存在呼吸部分的情况下,数据处理单元105从对应分配时间段的开始点生成发声的语音数据直到呼吸部分。另一方面,在确定在范围内不存在呼吸部分时,数据处理单元105从开始点生成发声的语音数据直到分配时间段的结束点。
[0051]数据发射单元106发射由数据处理单元105生成的语音数据(下文称为“用于记笔记的语音数据”)到分配时间段所分配到的记录者50的记录者终端200。
[0052]而且,如图1中所示,记录者终端200被提供有数据接收单元201、输入单元203和数据发射单元207。当然,数据接收单元201接收用于从信息递送设备100发射的记笔记的语音数据。
[0053]输入单元203接受对应于接收到的用于记笔记的语音数据而输入的文本数据的输入。数据发射单元207发射输入被接受的文本数据到用户终端300。
[0054]在本实施例中,如上所述,与分配时间段相匹配的语音数据发射到每个记录者50,临时使得短语音数据在记录者具有很少经验的情况中被发射。而且,该数据被根据讲话者的呼吸的定时而分割。因此,即使在记录者具有很少经验且因此发现难以短时间内创建总结的情况下,将创建作为用户的听力损伤人员所易于理解的总结。
[0055]尤其在分配时间段被设置为小于30秒的段时间段的情况下,记录者50只需要直接按原文记录他或她听到的讲话,由此使得能够提供对听力损伤人员的支持,即使记录者50没有接收到完全专家训练。而且,假设记录者终端200只需要经由网络410连接到信息递送设备100和用户终端300,记录者50可以甚至从远程位置执行记笔记。出于以上原因,本实施例使得能够通过记笔记而接收支持的听力损伤人员在数量上增加,因为能够降低参与记笔记的壁皇。
[0056]接下来,将更具体使用图2和3来描述记笔记辅助系统400、信息递送设备100、记录者终端200和用户终端300的配置。图2是具体示出本发明的实施例中记笔记辅助系统的配置的框图。而且,在下面的示例中,假设记笔记辅助系统400用于例如在学校进行的演讲、演讲等。
[0057]系统配置:信息递送设备
[0058]如图2中所示,视频输入设备10和语音输入设备20连接到信息递送设备100。视频输入设备10是捕捉演讲等的视图的相机,用来输出视频数据到信息递送设备100。语音输入设备20是麦克风,用来将包括演讲在内的讲话者的发声语音转换成语音数据且输出得到的语音数据到信息递送设备100。
[0059]而且,如图2中所示,除了呼吸检测单元104、数据处理单元105和数据发射单元106之外,信息递送设备100被提供有视频输入单元101、语音输入单元102和语音识别单元 103。
[0060]视频输入单元101接收从视频数据设备10输出的视频数据,并将该视频数据输入到数据处理单元105。在此情况下,数据处理单元105根据分配时间段划分输入视频数据,并且输出划分后的视频数据到数据发射单元106。此后,数据发射单元106发射划分的的视频数据到分配时间段与用于记笔记的语音数据一起被分配到的记录者50的记录者终端200。
[0061]语音输入单元102接收从语音输入设备20输出的语音数据,并且将该语音数据输出到语音识别单元103。语音识别单元103将该语音数据分开为其中当前状态是被认为静音的状态且声音水平为设置值或更低的部分(静音部分)和其中当前状态并非如上状态的部分(语音部分)。在本实施例中,呼吸检测单元104指定来自语音识别单元103的处理结果的静音部分,且在指定静音部分的长度小于或等于阈值的情况下,指定所提取的静音部分为讲话者40的呼吸部分。
[0062]这里,将使用图3来描述由语音识别单元103、呼吸检测单元104和数据处理单元105执行的处理。图3是示出图2中所示的语音识别单元、呼吸检测单元和数据处理单元的处理的示意图。
[0063]如图3中所示,语音识别单元103在发声语音21的语音数据从语音输入单元102输入之后将该语音数据分开为语音部分22-1到22-3和静音部分23-1到23_4。在本实施例中,语音部分和静音部分的分开可以通过使用现有语音识别引擎来执行。语音识别单元103随后输出指定分开的静音部分23-1到23-4的位置的信息到呼吸检测单元104。
[0064]呼吸检测单元104给予来自语音识别单元103的信息而指定静音部分23_1到23-4,并且对于每个静音部分确定静音部分的长度是否小于或等于阈值。呼吸检测单元104确定长度小于或等于阈值的静音部分为呼吸,且确定并非上述情况的静音部分为静音。在图3中的示例中,静音部分23-2到23-4分别被确定为呼吸部分24_1到24_3。注意:该情况下的阈值只需要由信息递送设备的管理员根据情况等按需要设置。
[0065]接下来,数据处理单元105比较由呼吸检测单元104确定为呼吸的呼吸部分24_1到24-3与分配给记录者50的分配时间段25。数据处理单元105随后对于每个呼吸部分确定在基于分配时间段25的结束点25b的范围中是否存在呼吸部分。具体地,数据处理单元105对于每个呼吸部分确定在合并在结束点25b之前设置的指定前部分26和在结束点25b之后设置的指定后部分27的部分中是否存在呼吸部分。
[0066]在图3中的示例中,在合并指定前部分26和指定后部分27的部分中存在呼吸部分24-2,因此数据处理单元105从分配时间段25的开始点25a生成发声的语音数据(用于记笔记的语音数据)28直到呼吸部分。也就是,在此情况下,数据处理单元105改变分配时间段25的结束点25b到呼吸部分24-2的开始点,并且生成用于记笔记的语音数据28。注意:分配时间段25的结束点25b只需要存在于呼吸部分24-3中,且例如可能被改变到开始点以外的点,诸如中间点或结束点。
[0067]另一方面,与图3中示例不同,在合并指定前部分26和制定后部分27的部分中不存在呼吸部分的情况下,数据处理单元105从开始点25a生成发声的语音数据(通过虚线来显示)直到分配时间段25的结束点25b。
[0068]而且,在基于分配时间段的结束点的范围中存在呼吸部分的情况下,数据处理单元105改变分配时间段的结束点为该呼吸部分的结束点,并且根据这个改变来改变下一分配时间段的开始点。而且,在改变分配时间段的结束点的情况下,数据处理单元105基于改变之后的分配时间段来划分上述视频数据。
[0069]而且,在本实施例中,分配给每个记录者50的分配时间段的长度是根据记录者50的记笔记能力来设置的。例如,在记录者50具有很少经验的情况下,设置30秒或更短,由此在听取语音数据的同时进行文本输入就不是个问题了。而且,因为用户60在分配时间段太短时有困难,分配时间段的长度优选例如设置为15秒或更长。
[0070]系统配置:记录者终端
[0071]如图2中所不,语首输出设备30、显不设备31和输入设备32连接到记录者终立而200。语音输出设备30是音频扬声器等,例如在记录者终端200中提供。显示设备31是液晶显示器等,例如在记录者终端200中提供。输入设备32是诸如鼠标、键盘和触摸面板的输入设备,连接到输入单元203。
[0072]而且,如图2中所示,除了数据接收单元201、输入单元203和数据发射单元207以夕卜,记录者终端200被提供有数据再生单元202、图像处理单元204、显示单元205和数据处理单元206。
[0073]数据再生单元202在用于记笔记的语音数据和视频数据被护具接收单元201接收之后获取该数据。数据再生单元202随后输出用于记笔记的语音数据到语音输出设备30以被再生。而且,数据再生单元202输出视频数据到显示单元205。显示单元205在显示设备31的屏幕上显示视频数据。
[0074]图像处理单元204根据从输入设备32经由输入单元203输入的来自记录者的指令从视频数据中提取静止图像,并且输出所提取的静止图像的图像数据到数据处理单元206。数据处理单元206取得由记录者50输入的文本数据,也就是,总结的内容,以及从图像处理单元204输出的静止图像的图像数据,作为一个数据集,并且输出该数据集到数据发射单元207。
[0075]数据发射单元207在从数据处理单元206接收到数据集之后发射该数据集到用户终端300。
[0076]系统配置:用户终端
[0077]如图2中所示,用户终端300被提供有数据接收单元301、数据再生单元302和显示单元303。当然,数据接收单元301接收从记录者终端200发射的数据集,并且输入该数据集到数据再生单元302。
[0078]数据再生单元302将数据集分解为在其中包括的文本数据和静止图像的图像数据,并且将各个数据输入到显示单元303。显示单元303在接收到文本数据和图像数据之后在显示设备33的屏幕上的预定区域中显示各个数据。显示设备33是液晶显示器等,例如提供在用户终端300中,类似于记录者终端200的显示设备31。
[0079]而且,上面所述的信息递送设备100、记录者终端200和用户终端300可以通过使得计算机执行计算机程序而被构建,所述计算机程序执行稍后将讨论的处理。在此情况下,示例计算机包括个人计算机和服务器计算机一级智能电话和平板。
[0080]系统操作
[0081]接下来,将使用图4到6来描述本发明的实施例中的记笔记辅助系统400的操作。在下面的描述中,将适当参考图1到3。而且,在本实施例中,记录者辅助方法是通过操作记笔记辅助系统400来实现的。因此,下面的对记笔记辅助系统400的操作的描述将替代对本实施例的记笔记辅助方法的描述而给出。
[0082]系统操作:信息递送设备
[0083]首先,将使用图4来描述信息递送设备100中的操作。图4是示出本发明的实施例中的信息递送设备的操作的流程图。
[0084]最初,如图4中所示,信息递送设备100执行对记录者终端200和用户终端300之间的网络通信的连接确认(步骤A1)。具体地,在信息递送设备100上的计算机程序、记录者终端200上的计算机程序和用户终端300上的计算机程序之间执行用于建立连接的数据通信。
[0085]随后开始课程,包括演讲者的讲话者开始讲话。视频数据随后从视频输入设备10输入到信息递送设备100,且视频输入单元101开始视频数据的获取(步骤A2)。而且,视频输入单元101输入获取的视频数据到数据处理单元105。
[0086]同时,语音数据从语音输入设备20输入到信息递送设备100,且语音输入单元102开始语音数据的获取(步骤A3)。而且,语音输入单元102输入获取的语音数据到语音识别单元103。
[0087]在本实施例中,示例视频数据包括以注入MPEG-4格式生成的运动图像数据。而且,示例语音数据包括以诸如PCM格式生成的声音数据。
[0088]接下来,语音识别单元103在语音数据从语音输入单元102输入之后将该语音数据分开为语音部分和静音部分(参看图3)(步骤A4)。语音识别单元103随后输出指定分开的静音部分的位置的信息到