音频数据的处理的制作方法

文档序号：9621050阅读：649来源：国知局

音频数据的处理的制作方法
【专利说明】
【背景技术】
[0001]全世界的广播媒体内容量日益增加。例如，越来越多的数字化广播变得可用于公用和私用方。这些广播包括电视和无线电节目、演讲和语音。在某些情况下，经常存在以隐藏字幕(closed-capt1n)准确标记这样的广播的需要。例如，为了满足可访问性需要，隐藏字幕文本需要伴随广播，例如与音频和/或视频内容同时显示。这在某些管辖范围中正成为法律要件。在研究和产品开发团队中，也期望将文本数据与相关联的音频数据对准，使得可以在信息检索和机器智能应用中使用这两种媒体。
【附图说明】
[0002]本发明的各种特征和优点根据以下结合附图所采取的【具体实施方式】将是明显的，所述【具体实施方式】和附图仅以示例的方式一起说明了本公开的特征，并且其中:
图1是根据示例的系统的示意图；
图2A是示出了根据示例的音频数据的至少部分的示意图；
图2B是示出了根据示例的文本数据的至少部分的示意图；
图3是示出了根据示例的处理音频数据的方法的流程图；
图4A是根据示例的用于对准音频和文本数据的系统的示意图；
图4B是示出了根据示例的具有附加的定时信息的文本数据的至少部分的示意图；
图4C是根据示例的用于对准音频和文本数据的系统的示意图；
图5是示出了根据示例的音频处理的方法的流程图；
图6是示出了根据示例的确定音频数据的至少部分的关联的方法的流程图；
图7是示出了根据示例的用于处理音频数据的至少部分的系统的示意图；
图8是示出了根据示例的确定音频数据的至少部分的关联的方法的流程图；以及图9是根据示例的计算设备的示意图。
【具体实施方式】
[0003]本文描述的某些示例涉及处理音频数据。特别地，它们涉及基于根据相关联的文本数据所生成的语言模型来处理音频数据。该文本数据可以是与音频数据相关联的抄本(transcript)。在一个示例中，音频数据被转换为文本等同物，所述文本等同物是来自音频处理的输出。在该情况下，音频处理的进一步的输出是涉及音频数据内的诸如所说的(spoken)词之类的特定音频部分的时间位置的定时信息。可以通过将原始文本数据与通过音频处理输出的文本等同物相比较来将定时信息附加到原始文本数据。在另一示例中，从将音频数据转换为文本等同物的过程输出诸如置信度值之类的概率变量。例如，置信度值可以与在文本等同物中的词相关联。然后，这些概率变量可以被用于将文本数据与音频数据匹配和/或确定用于未标记的音频数据的语言。
[0004]为了更好地理解本文描述的数个示例，现在将利用用于音频和文本数据的处理的数个替代技术进行比较。在某些当前描述的示例的上下文中讨论这些替代技术。
[0005]传统上，人工地执行将广播媒体与准确的抄本对准的任务。例如，可以人工地检查和匹配它们。这经常是慢速并且昂贵的过程。也易出现人工误差。例如，可能需要一个或多个人来物理地听和/或观看广播，并且人工地记录词在抄本中出现的时间。
[0006]已经做出尝试以克服人工对准的限制。一种尝试涉及使用被称为强制对准(force-alignment)的技术。该技术对音频文件和相关联的抄本文件进行操作。其确定抄本文件中的词序列和音频文件中的音频数据之间的最佳匹配。例如，这可以涉及从抄录文件中的确切的词序列生成隐式马尔科夫模型。然后可以例如通过选择使似然值最大化的匹配来概率地确定隐式马尔科夫模型和音频数据之间的最可能的匹配。
[0007]虽然强制对准可以提供传统人工过程上的改善，但其在各种情况下可能不提供准确的对准。例如，该过程可能易受抄本中的不准确的影响。存在于音频数据中但从抄本遗漏的所说的词和/或存在于抄本中但从音频数据遗漏的书写的(written)词可能导致未对准和/或生成匹配的问题。因为强制对准基于抄本文件中的确切的词序列建立概率网络，所以遗漏和/或额外的词可能导致概率网络和音频数据之间的不匹配。例如，被省略的上下文周围的至少数个词可能被不准确地时间对准。作为另一示例，该过程可能易受音频数据中的噪声的影响。例如，当在音频数据中存在音乐和/或音效时，该过程可能经受准确度损失。
[0008]克服人工对准的限制的另一尝试涉及使用语音识别系统。例如，可以通过语音识别系统处理广播来自动地生成抄本。该技术可以涉及公知为无约束语音识别的过程。在无约束语音识别中，系统被训练以识别语言的特定词，例如常用词典中的词的集合。然后向系统提交连续的音频流，并且做出尝试以识别音频流内的语言的词。因为音频流的内容可以包括语言中的任何词以及不在词典中的新词，所以使用术语“无约束”。当在音频流中检测到新词时，所述新词可以被添加到词典。作为识别过程的一部分，语音识别系统可以将已识别的词与该已识别的词出现在音频流内的时间段相关联。这样的系统可以被应用于上传到在线服务器的视频文件，其中做出尝试以抄录在视频中所说的任何词。
[0009]虽然无约束语音识别系统提供潜在灵活的解决方案，但是它们也可以是相对慢速且易出错的。例如，具有不可预测、无约束和/或不合作(uncooperative)性质的音频流的语音识别既不足够快也不准确到广播媒体的观众可接受的程度。
[0010]当与上文的替代技术进行比较时，本文描述的某些示例可以提供某些优点。现在将参考附图描述数个示例。
[0011]图1是示出了用于处理音频和文本数据的系统100的示意图。该系统取得音频数据110和文本数据120作为输入。音频数据可以包括用于视频的音轨的至少部分。除其他之外，音频数据尤其可以与诸如电视或无线电节目之类的广播媒体或者语音或演讲的记录相关联。文本数据120可以包括与音频数据相关联的抄本的至少部分，例如音频数据内的多个词的书写表示。
[0012]系统100包括第一组件130和第二组件150。第一组件130至少使用文本数据120作为输入来指令语言模型140的生成和/或配置。基于文本数据120的内容来配置语言模型140。例如，如果语言模型140包括书写语言内的模式的统计表示，则语言可以限于存在于文本数据120中的语言元素。第二组件150至少基于语言模型140来指令音频数据110的处理。第二组件150输出处理数据160。音频数据110的处理可以包括将音频数据110转换为文本等同物，例如对音频数据110内的所说的词的自动抄录。可以输出文本等同物作为处理数据160。替代地，或者不仅涉及音频数据110的文本等同物的数据，处理数据160还可以包括被生成作为转换的结果的数据。这可以包括来自转换过程的一个或多个度量，诸如针对在音频数据110中检测到的每个语言元素的概率值。处理数据160还可以包括定时信息。该定时信息可以指示所检测的语言元素出现的音频数据内的时间位置。
[0013]图1的系统100的优点是基于由所附文本数据120的内容约束的语言模型140来执行音频数据110的处理。因为假设文本数据120对应于音频数据110，所以语言模型140相应地偏向音频数据110的处理。这可以与基于一般语言模型的处理相比较，所述一般语言模型表示可能存在于无约束的语音中的很大部分词。基于一般语言模型的处理更可能对音频数据的部分进行错误分类，因为存在候选分类的广泛得多的集合。比较地，可以利用受约束的语言模型来避免常见的错误分类，因为例如替代分类可能不存在于文本数据中。
[0014]图2A和2B提供了音频数据110和文本数据120的各自示例。如在图2A中示出的那样，在某些实现中，音频数据可以包括由一个或多个麦克风记录的声音的数字表示200。音频数据可以包括在时间段230之上延伸的数个数字样本210，其中每个样本由p位或p字节数据值220表示。例如，在简单的情况下，压缩盘数字音频包括16位数据值，其中每秒具有44，100个样本(即44.1 kHz的采样率)。每个样本可以表示跟在模数转换之后的、来自记录设备的模拟电压信号。音频数据可以包括多声道记录的一个或多个声道(例如，针对立体声记录，可以存在两个声道)。例如可以使用诸如由运动图像专家组开发的那些标准之类的已知标准压缩音频数据。在这些情况下，音频数据的处理可以包括适当的预处理操作，除其他之外尤其诸如规范化、重采样、量化、声道选择和/或解压缩。
[0015]图2B示出了文本数据120的一个实现。在该情况下，文本数据包括

完整全部详细技术资料下载

当前第1页1 2 3 4 5

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：M.卡迪卡曼内森;D.普耶;T.B.罗斯彻尔;
技术所有人：朗桑有限公司;
我是此专利的发明人