用于分布式故事阅读的语音修改的制作方法_2

文档序号：9240009阅读：来源：国知局

所述模块、功能性或逻辑表示当在处理器(例如一个或多个CPU)上执行或者被处理器执行时执行所指定的任务的程序代码。该程序代码可W存储在一个或多个计算机可读存储器设备中。下文中描述的特征是平台独立的，该意味着所述技术可W在具有各种各样的处理器的各种各样的商业计算平台上实现。
[0046] 描述了其中可W利用各种实施例的示例操作环境之后，现在考虑依照一个或多个实施例的示例增强效果模块的讨论。
[0047] 示例增强效果模块图3图示出依照一个或多个实施例的示例增强效果模块112。在该特定示例中，增强效果模块112包括音频增强模块300、视频增强模块302和增强暗示模块304。
[0048] 在一个或多个实施例中，音频增强模块300被配置成使得能够将音频效果应用到被读的故事的读者的话音或者其他音频方面，例如背景声音效果。举例而言且非限制性地，该样的效果可W包括阅读故事时的话音变形和/或阅读故事时增强音频故事内容。
[0049] 在一个或多个实施例中，视频增强模块302被配置成使得能够操纵与故事关联的视频。特别地，故事可WW具有其自身关联内容的电子书的形式驻留。当阅读故事时，可W 将各种增强效果应用到故事的内容。例如，可W利用脸部识别技术捕获读者的脸部图像，并且将捕获的脸部图像叠加到故事中的角色上。可替换地或者附加地，如下文中更详细地描述的，可W对捕获的图像变形和/或转描（rotoscope)。音频增强模块300和视频增强模块 302可W单独地或者一起使用。当一起使用时，电子故事可W同时让其音频和视频（即视觉内容）增强。
[0050] 在一个或多个实施例中，增强暗示模块304被配置成使得能够在阅读故事时给予增强效果的暗示。增强暗示模块304可WW各种各样的不同方式执行其功能。例如，增强暗示模块304可W使用在被读的特定故事内查明读者的位置的各种手段。通过知晓读者的位置，可W在适当的时间触发各种增强效果。举例而言且非限制性地，查明读者的位置的各种手段可W包括语音识别和跟踪、诸如读者使用其手指或者触笔沿着被读的文字进行跟随之类的触摸输入、出现在故事内的触发和/或允许选取各种增强效果的用户界面元素、诸如由读者提供W触发增强效果的各种姿态之类的自然用户界面（NUI)输入、诸如应用与特定故事内出现的标点符号关联的增强效果之类的内容驱动的机制、在故事内触发某些增强效果的嵌入的标签或元数据、使用页码触发增强效果等等。
[0051] 考虑了依照一个或多个实施例的示例增强效果模块之后，现在考虑可W由音频增强模块300提供的语音修改的各种方面。
[0052] 用于分布式故事阅读的语音修改在图示和描述的实施例中，彼此远离的一个或多个读者可W阅读交互式故事(诸如出现在电子或数字图书中的故事)，并且可W在阅读故事时让他们的语音被修改或变形。在至少一些实施例中，参与远程阅读交互式故事的读者共享数字故事内容的共同视图。该共同视图可W且典型地在读者的计算设备的显示器上展现，读者的计算设备诸如上面所描述的计算设备中的一个或多个计算设备。在该些实例中，读者通过由视频摄像机提供的视频通信连接，该视频摄像机至少捕获每个读者的脸部，使得可W向其他读者显示该些脸部。此夕F，麦克风捕获每个读者位置处的音频，即读者的话音。因此，在每个读者的计算设备处感测的诸如视频、音频和/或与共享数字故事的交互之类的输入可W与其他参与读者共享。
[0053] 语音或音频变形指的是W各种方式操纵读者或者呼叫参与者的话音，W便故意听起来像别的某个人或者某个事物。在一个或多个实施例中，目的在于，该些操纵或变形应当 W各种方式引人发笑和令人愉悦。例如，在阅读电子故事期间，读者的话音可W变形W便听起来像花栗鼠、怪物或者故事中的某种其他类型的角色。可W利用任何适当类型的音频变形软件来实现预期的效果。一些音频变形软件被设计为操纵口头话音，而其他软件被设计为操纵人类歌唱的声音。还有其他软件可W应用宽范围的一般和/或特定音频效果。在至少一些实例中，音频变形可W包括利用仪器增强用户的话音或者甚至利用用于自动调整的音高校正来增强用户的话音。换言之，当参与者在歌唱时，音乐增强可W作为背景音乐而添加。此外，如果歌唱者跑调，那么可W采用音高校正。音乐增强可W被配置成自动地跟随歌唱者的话音，从而随着歌唱者加速和减速而加速和减速。在音高校正场景中，首先可W确定歌唱者的音高。该可W利用音高跟踪算法完成。接下来，可W修改音高W便匹配所查明的 "正确"音高。该可W使用各种不同的音高偏移算法完成。
[0054] 在一个或多个实施例中，变形软件可W作为独立的变形平台而操作。可替换地或者附加地，变形软件可W封装成插件，并且随后加载到适当配置的应用中。典型地，变形软件包括影响例如变形效果的严重性的各种控制参数。而其他变形软件可W通过诸如IP语音通信（VoIP)应用之类的适当配置的通信应用加载，使得呼叫参与者的音频可W在VoIP 呼叫期间被直接操纵。实现口头话音操纵的一些示例软件附件包括ClownFisKMo^hVox 和VoiceCandy。
[00巧]原则上，被利用来实现话音操纵或变形的根本信号处理技术是本领域技术人员公知且理解的。举例而言且非限制性地，该些处理技术可W包括重叠-相加合成、音高同步重叠-相加、相位声码器(及其变型)、时域滤波、频域滤波、递归延迟线处理、振幅(环形)调制、传统(时域模拟模型）声码器技术、交叉合成、线性预测编码等等。
[0056] 如上面所指出的，本上下文中的话音操纵或变形的特定使用预期用于在读者向远程的某人读共享故事时操纵该读者的话音。使用的根本音频信号处理算法取决于希望的特定效果。例如，为了对读者的话音变形，使得它听起来像花栗鼠，音高偏移算法（SOLA)将是一个适当的算法选择，其中供应给该算法的控制参数将使其显著地向上偏移读者话音的音高。类似地，但是在向下方向上，可W利用控制参数实现读者话音的低得多的音高，诸如仿效诸如DarthVader之类的公知角色或者怪物的音高。
[0057] 在本上下文中可W应用的其他效果示例包括男性到女性的变形、女性到男性的变形、夸大音高轮廓(歇斯底里效果、颤音效果、老妇人效果等等)、移除音高轮廓(机器人效果)、耳语(其中音高信息被噪声源替代）W及其中将某个人的话音修改为听起来像特定的其他人的所谓的话音转换。
[005引如上面所指出的，诸如音频或话音变形之类的增强可W发生在不同的位置。例如，增强可W发生在发送者或者读者的计算设备处、诸如服务器之类的中间计算设备处(例如，基于云的方法）和/或接收者的计算设备处。
[0059] 关于发生在发送者或读者的计算设备处的增强，考虑W下所述。当捕获读者的话音时，增强效果模块112处理接收自关联麦克风的音频数据W便给予它某种类型的不同特性，其示例在上文中提供。然后，对增强的音频数据编码和压缩，并且然后传输至服务器W 便继续转发至一个或多个其他参与者，或者直接传输至一个或多个其他客户端设备，诸如对等网络中的那些设备。通过在读者的计算设备上执行增强，可WW最少量的延迟向读者提供关于其话音听起来如何的反馈。在该实例中，读者的体验可W通过使用可W降低声反馈的耳机或者其他音频反馈控制机制而改进。
[0060] 关于基于云的方法，考虑W下所述。基于云的/服务器的方法允许W下的可得到性，即；独立于读者设备或者听者设备的约束的更多处理能力。在该方法中，可W将由读者的计算设备产生的音频数据发送至适当配置的服务器W便进一步处理。在该实例中，服务器包括如上所述的用于处理音频数据的增强效果模块112。在该场景中，在将音频数据发送至服务器之前，可W压缩或者不压缩所述音频数据。如果在发送至服务器之前压缩音频数据，那么服务器可W解压缩所述音频数据，使用增强效果模块112处理它，对增强的音频数据编码和压缩并且将其分发至其他参与者。如果W非压缩格式将音频数据发送至服务器，那么服务器可W使用增强效果模块112处理它，对增强的音频数据编码和压缩W便分发至其他参与者。
[0061] 关于发生在接收者的计算设备处的增强，考虑W下所述。在该实例中，将读者的音频数据分发至其他参与者。当其他参与者的计算设备接收到音频数据时，不管其是压缩的或是未压缩的，参与者的计算设备上的增强效果模块112都如上面所描述的处理音频数据巧曰果需要的话，首先解压缩）W便提供增强。该方法可W向读者提供对于如何修改他们的话音的较少控制。相应地，每个参与者具有W由他们选择的方式修改读者的话音的潜力。
[0062] 图4图示出描述依照一个或多个实施例的方法中的步骤的流程图。该方法可W结合任何适当的硬件、软件、固件或者其组合实现。在至少一些实施例中，该方法的方面可W 通过适当配置的软件模块(诸如图1-3的增强效果模块112)实现。
[0063] 步骤400建立多个参与者之间的通信连接。建立该通信连接被建立W便使得允许参与者能够共享在参与者之中共享电子故事的交互式阅读体验。可W建立任何适当类型的通信连接，其示例在上文中提供。
[0064] 步骤402接收与电子故事的读者关联的音频数据，该电子故事与一个或多个其他远程参与者共享。该步骤可WW任何适当的方式执行。例如，当读者将电子故事读入麦克风时，可W将关联的音频转换成音频数据W便进一步处理。
[0065] 步骤404增强音频数据。该音频数据可WW任何适当的方式增强，其示例在上文和下文中提供。此外，该步骤可W在任何适当的位置执行。例如，在至少一些实施例中，该步骤可W在读者的计算设备处或者由读者的计算设备执行。可替换地或者附加地，该步骤可 W由步骤402的接收音频数据的服务器执行。可替换地或者附加地，该步骤可W由与远程参与者的每个远程参与者关联的计算设备执行。上文中提供了该可W被如何完成的示例。
[0066] 步骤406使得远程参与者能够消费增强的音频数据。该步骤可WW任何适当的方式执行。例如，在其中在读者的计算设备上增强音频数据的实施例中，步骤406可W通过向与远程参与者的每个参与者关联的计算设备传输或者W其他方式传达增强的音频数据而执行。在其中音频数据由服务器增强的实施例中，该步骤可W通过服务器将增强的音频数据分发至与远程参与者的每个参与者关联的计算设备而执行。在其中音频数据由与远程参与者关联的计算设备增强的实施例中，该步骤可W通过使得该远程参与者能够经由适当配置的应用消费增强的音频数据而执行。
[0067] 考虑了可W在共享故事场景中增强语音的各种方式之后，现在考虑可W对决定何时执行语音增强做出确定的各种方式的讨论。
[0068] 使用暗示决定何时增强语音如上面所指出的，增强暗示模块304 (图3)被配置成使得在阅读故事时能够给予增强效果的暗示。增强暗示模块304可WW各种各样的不同方式执行其功能。例如，增强暗示模块304可W使用在被读的特定故事内查明读者的位置的各种手段。通过知晓读者的位置，可W在适当的时间触发各种增强效果。可W在不脱离要求保护的主题的精神和范围的情况下利用在特定故事内查明读者的位置的任何适当的手段。下面就提供该可W被怎样完成的各种非限制性示例。
[006引语音识别在一个或多个实施例中，可W利用自动语音识别来识别在特定叙述中读者正在阅读何处并且在适当的时间使用该信息触发各种增强效果。在该些实例中，增强暗示模块304包括语音识别部件，该部件通过由适当配置的麦克风捕获的音频信号数据的分析来跟踪读者正在阅读故事中的何处。然后，增强暗示模块304可W酌情触发增强事件。例如，假定参与者在共享关于Elmo的故事。当读者到达由Elmo说出的词语时，可W将读者的话音变形为听起来像Elmo。当Elmo的短语结束时，读者的话音可W返回到其正常声音。可替换地或者附加地，可W针对由读者阅读的特定词语应用增强效果。例如，当读者阅读诸如"风"、"雷"、 "雨"等等之类的词语时，可W触发背景声音或效果。
[0070] 在一个或多个实施例中，可W使用语音识别W便使得能够实现其他形式的增强效果。例如，如果特定参与者说出与电子页面上出现的图像或对象相应的词语，那么可W应用增强效果。例如，假定参与者之一是小孩并且该小孩响应于出现在电子页面上的卡车的图像而说出词语"卡车"。结果，可W发起卡车的简短动画，诸如例如让卡车的车轮转动和/或播放卡车引擎的音频剪辑。在该些实例中，该些有趣的动画和声音可W强化该小孩学习与页面上的对象相应的词语的积极性。
[0071] 任何适当类型的语音识别技术可W用来实现所描述的实施例。例如，一些方法可 W利用某种形式的自动语音识别（ASR)。ASR具有多种多样的用途，其包括在电话、计算机游戏和仿真等等领域内。可W利用与该些和其他领域中利用的那些技术相同或相似的技术来识别语音，如上面所描述的。一种该样的技术称为全连续ASR。
[0072] 全连续ASR获取与读者的语音相应的音频数据，并且输出与所说的(在该种情况下为被阅读的特定故事的文本）相应的词语序列。可W通过在从ASR输出的词语序列与被阅读的文本中的词语之间执行简单匹配操作而实现定位的确定。如技术人员将领会的，该可W使用诸如用于每个页面的散列表或者多映射（multi-map)之类的标准容器实现。在该些实例中，利用所识别的词语作为关键词，并且关联的映射返回该词语在页面上的定位。在一个或多个实施例中，可W在其中读者可能跳过一个或多个词语的情况下利用前视（look 址ead)的方案，和/或在其中读者可能重复某些词语的情况下利用后视（lookback)的方案。该可W增加语音识别算法的鲁椿性。当确定了定位时，增强暗示模块304可W如下面所描述的使用该定位作为效果或增强表的索引。
[0073] 也可W利用其他语音识别方法。例如，可W利用具有降低的计算成本的方法，其采用简化形式的ASR，该种简化形式的ASR常被称为有限词汇语音识别。在该里，对于可能的词语的捜索空间限于最后的已知定位(最初为0,如果读者从头开始阅读的话）的邻域中的词语。在任何给定时间，该算法只需在也许5-10个词语之间进行区分，从而大大地简化了识别问题。如果存在给定词语的多个实例，例如多映射返回超过一个索引，那么可W降低范围，直到不存在重复为止。可替换地或者附加地，可W保持计数，使得第一次检测到重复词语时，将所述定位取为第一次出现的定位，并且第二次检测到重复词语时，将所述定位取为第二次出现的定

完整全部详细技术资料下载

当前第2页1 2 3 4 5 6