基于能量的语言模型的制作方法

文档序号：27490330发布日期：2021-11-22 14:15阅读：来源：国知局

技术特征：
1.一种用于训练机器学习语言模型的计算机实现的方法，所述方法包括：对于一个或多个训练迭代中的每一个：由包括一个或多个计算设备的计算系统获得包括多个正符号的原始语言输入；由所述计算系统生成一个或多个噪声符号；由所述计算系统分别将所述原始语言输入中的所述多个正符号中的一个或多个替换为所述一个或多个噪声符号，以形成包括多个更新的输入符号的含噪声的语言输入；由所述计算系统利用所述机器学习语言模型处理所述含噪声的语言输入以分别为所述多个更新的输入符号产生多个分值，其中，用于每个更新的输入符号的所述分值指示所述更新的输入符号在所述含噪声的语言输入中给定其他更新的输入符号时的似然性；由所述计算系统至少部分地基于所述多个分值分别为所述多个更新的输入符号生成多个预测，其中，由所述机器学习语言模型为每个更新的输入符号产生的所述预测预测所述更新的输入符号是正符号还是噪声符号；以及由所述计算系统至少部分地基于评估所述多个预测的损失函数来训练所述机器学习语言模型。2.根据权利要求1所述的计算机实现的方法，其中：所述机器学习语言模型包括基于能量的完形填空语言模型；以及分别用于所述多个更新的输入符号的所述多个分值包括分别用于所述多个更新的输入符号的多个标量能量分值。3.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统使用机器学习语言生成器模型来生成所述一个或多个噪声符号。4.根据权利要求3所述的计算机实现的方法，其中，所述机器学习语言生成器模型包括双塔完形填空语言模型，所述双塔完形填空语言模型包括两个变换器模型。5.根据权利要求3所述的计算机实现的方法，进一步包括：由所述计算系统至少部分地基于评估所述一个或多个噪声符号在噪声分布内的存在的第二损失函数来训练所述机器学习语言生成器模型。6.根据权利要求5所述的计算机实现的方法，其中，所述第二损失函数包括最大似然估计函数。7.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统从噪声分布采样所述一个或多个噪声符号。8.根据权利要求1所述的计算机实现的方法，其中，由所述计算系统获得包括所述多个正符号的所述原始语言输入包括由所述计算系统从正分布中采样所述多个正符号。9.根据权利要求1所述的计算机实现的方法，其中，所述损失函数包括条件噪声对比度估计损失函数。10.根据权利要求1所述的计算机实现的方法，其中，所述机器学习语言模型包括变换器网络文本编码器。11.根据权利要求1所述的计算机实现的方法，其中，当所述一个或多个噪声符号中的一个噪声符号等于其替换的正符号时，所述损失函数如同所述噪声符号被包括在所述多个正符号中一样来评估所述噪声符号。
12.根据权利要求1所述的计算机实现的方法，其中：由所述计算系统获得包括所述多个正符号的所述原始语言输入包括由所述计算系统从正分布获得预定义的正符号的序列；由所述计算系统生成所述一个或多个噪声符号包括由所述计算系统生成多个噪声符号；以及由所述计算系统分别将所述原始语言输入中的所述多个正符号中的所述一个或多个替换为所述一个或多个噪声符号包括：由所述计算系统分别将所述预定义的正符号序列中的多个符号替换为所述多个噪声符号。13.根据权利要求1所述的计算机实现的方法，其中：所述一个或多个训练迭代包括一个或多个预训练迭代；以及所述方法进一步包括，在所述一个或多个预训练迭代之后：执行一个或多个微调训练迭代，其中，所述机器学习语言模型被训练以执行语言任务。14.根据权利要求1所述的计算机实现的方法，其中，所述多个正符号包括多个原始词。15.一种计算系统，包括：一个或多个处理器；以及存储指令的一个或多个非暂时性计算机可读介质，所述指令在被执行时使所述计算系统执行操作，所述操作包括：对于一个或多个训练迭代中的每一个：获得包括多个正符号的原始语言输入；生成一个或多个噪声符号；分别将所述原始语言输入中的所述多个正符号中的一个或多个替换为所述一个或多个噪声符号，以形成包括多个更新的输入符号的含噪声的语言输入；利用所述机器学习语言模型处理所述含噪声的语言输入以分别为所述多个更新的输入符号产生多个分值，其中，用于每个更新的输入符号的所述分值指示所述更新的输入符号在所述含噪声的语言输入中给定其他更新的输入符号时的似然性；至少部分地基于所述多个分值分别为所述多个更新的输入符号生成多个预测，其中，由所述机器学习语言模型为每个更新的输入符号产生的所述预测预测所述更新的输入符号是正符号还是噪声符号；以及至少部分地基于评估所述多个预测的损失函数来训练所述机器学习语言模型。16.根据权利要求15所述的计算系统，其中，所述一个或多个非暂时性计算机可读介质进一步存储所述机器学习语言模型。17.根据权利要求15或16所述的计算系统，其中，所述一个或多个非暂时性计算机可读介质进一步存储机器学习语言生成器模型，其中所述一个或多个噪声符号是使用所述机器学习语言生成器模型来生成的。18.一个或多个非暂时性计算机可读介质，其存储机器学习语言模型和指令，所述指令在由计算系统的一个或多个处理器执行时使得所述计算系统执行操作，所述操作包括：对于一个或多个训练迭代中的每一个：获得包括多个正符号的原始语言输入；生成一个或多个噪声符号；
分别将所述原始语言输入中的所述多个正符号中的一个或多个替换为所述一个或多个噪声符号，以形成包括多个更新的输入符号的含噪声的语言输入；利用所述机器学习语言模型处理所述含噪声的语言输入以分别为所述多个更新的输入符号产生多个分值，其中，用于每个更新的输入符号的所述分值指示所述更新的输入符号在所述含噪声的语言输入中给定其他更新的输入符号时的似然性；至少部分地基于所述多个分值分别为所述多个更新的输入符号生成多个预测，其中，由所述机器学习语言模型为每个更新的输入符号产生的所述预测预测所述更新的输入符号是正符号还是噪声符号；以及至少部分地基于评估所述多个预测的损失函数来训练所述机器学习语言模型。19.根据权利要求18所述的一个或多个非暂时性计算机可读介质，其中：所述机器学习语言模型包括基于能量的完形填空语言模型；以及分别用于所述多个更新的输入符号的所述多个分值包括分别用于所述多个更新的输入符号的多个标量能量分值。20.根据权利要求18所述的一个或多个非暂时性计算机可读介质，其中，生成所述一个或多个噪声符号包括使用机器学习语言生成机模型来生成所述一个或多个噪声符号。

技术总结
提供用于训练和使用诸如完形填空语言模型等的基于能量的语言模型的系统和方法。特别地，本公开的一个方面涉及用于在文本上进行表示学习的基于能量的完形填空语言模型。在一些情况下，本文中提供的模型能够被称为“Electric”模型。类似于BERT模型，本文中提出的示例模型能够是给定其上下文的符号的条件生成模型。然而，本文中提出的示例模型不掩蔽文本或输出在可能在上下文中出现的符号上的完整分布。相反，示例提出的模型将标量能量分值分配到每个输入符号。本公开的另一方面提供用于训练提出的模型以使用基于噪声对比度估计的算法来将低能量分配到数据符号并且将高能量分配到其他数据符号的技术。能量分配到其他数据符号的技术。能量分配到其他数据符号的技术。

技术研发人员：唐
受保护的技术使用者：谷歌有限责任公司
技术研发日：2021.08.27
技术公布日：2021/11/21

完整全部详细技术资料下载

当前第2页1 2