至少一个实施例涉及使用诸如语音识别任务的持续时间的处理。例如,至少一个实施例涉及用于使用一个或更多个神经网络至少部分地基于一个或更多个预测的符号和持续时间来生成文本的处理器或计算设备。在至少一个实施例中,一种处理器包括一个或更多个电路,该一个或更多个电路用于使用一个或更多个神经网络以至少部分地基于包含音频信息的仅音频帧来生成文本。
背景技术:
1、使用神经网络来处理音频信号的每个帧会使用大量的存储器、时间或计算资源。例如,神经网络可以接收5秒的音频记录并使用10毫秒的帧速率,结果是500个帧作为神经网络的输入,其中这500个帧用于推理文本。作为另一示例,神经网络可接收5秒的音频记录并使用1毫秒的帧速率,结果是5000个帧作为神经网络的输入,其中这5000个帧用于推理文本。因为神经网络在处理音频信号时会使用音频信号的每个帧,所以处理时间、存储器和计算资源可能是大量的。因此,可以改善用于利用神经网络处理音频信号的存储器、时间或计算资源的量。
技术实现思路
1.一种处理器,包括:
2.如权利要求1所述的处理器,其中所述音频信息包括一个或更多个符号以及所述一个或更多个符号的持续时间。
3.如权利要求1所述的处理器,其中所述音频信息包括一个或更多个符号,并且所述一个或更多个符号是空白的或者不是空白的。
4.如权利要求1所述的处理器,其中所述一个或更多个神经网络用于使用用于预测在推理时要跳过的一个或更多个帧的预测的持续时间和先前预测的文本来生成文本。
5.如权利要求1所述的处理器,其中所述一个或更多个神经网络包括变换器神经网络,所述变换器神经网络用于预测在推理时要跳过的帧的数量。
6.如权利要求1所述的处理器,其中所述一个或更多个神经网络包括变换器神经网络,所述变换器神经网络用于生成从一个或更多个音频帧生成具有持续时间的词元的联合概率。
7.如权利要求1所述的处理器,其中所述一个或更多个神经网络包括一个或更多个解码器、编码器和用于生成预测的持续时间的联合网络层。
8.一种系统,包括:
9.如权利要求8所述的系统,其中所述音频信息包括一个或更多个符号以及所述一个或更多个符号的持续时间。
10.如权利要求8所述的系统,其中所述音频信息包括一个或更多个符号,并且所述一个或更多个符号是空白的或者不是空白的。
11.如权利要求8所述的系统,其中所述一个或更多个神经网络用于使用用于预测在推理时要跳过的一个或更多个帧的预测的持续时间和先前预测的文本来生成文本。
12.如权利要求8所述的系统,其中所述一个或更多个神经网络包括变换器神经网络,所述变换器神经网络用于预测在推理时要跳过的帧的数量。
13.如权利要求8所述的系统,其中所述一个或更多个神经网络包括变换器神经网络,所述变换器神经网络用于生成从一个或更多个音频帧生成具有持续时间的词元的联合概率。
14.如权利要求8所述的系统,其中所述一个或更多个神经网络包括一个或更多个解码器、编码器和用于生成预测的持续时间的联合网络层。
15.一种方法,包括:
16.如权利要求15所述的方法,其中所述音频信息包括一个或更多个符号以及所述一个或更多个符号的持续时间。
17.如权利要求15所述的方法,其中所述音频信息包括一个或更多个符号,并且所述一个或更多个符号是空白的或者不是空白的。
18.如权利要求15所述的方法,进一步包括:使用用于预测在推理时要跳过的一个或更多个帧的预测的持续时间和先前预测的文本来生成文本。
19.如权利要求15所述的方法,其中所述一个或更多个神经网络包括变换器神经网络,所述变换器神经网络用于预测在推理时要跳过的帧的数量。
20.如权利要求15所述的方法,其中所述一个或更多个神经网络包括一个或更多个解码器、编码器和用于生成预测的持续时间的联合网络层。