语义相似度模型的训练方法、装置、电子设备及存储介质与流程

文档序号:21849939发布日期:2020-08-14 17:27阅读:206来源:国知局
语义相似度模型的训练方法、装置、电子设备及存储介质与流程

本申请涉及计算机技术,尤其涉及人工智能技术,具体涉及一种语义相似度模型的训练方法、装置、电子设备及存储介质。



背景技术:

现有技术中,使用大量的无监督文本进行语言模型的自监督的预训练学习(pre-training),接着采用有监督的任务数据对语言模型进行参数精调(fine-tuning),是当前自然语言处理(naturallanguageprocessing;nlp)领域中先进的模型训练技术。

例如,nlp领域中的语义匹配任务,目的是判断两段文本在语义上是否相似。目前公开的文本匹配的标注数据较少,且领域也存在较大差异,在fine-tuning阶段,需要更好地利用现有的高质量的标注数据,对预训练的训练语义相似度模型进行精调,来挖掘模型的潜力,提升模型效果。现有技术常用的高质量的标注数据集有lcqmc、bq_corpus等,为了提高训练效果,现有技术中,将多种数据集融合在一起,对语义相似度模型进行fine-tuning阶段的训练。

但是,现有技术中的简单地把多种数据集融合在一起对语义相似度模型进行fine-tuning阶段的训练,导致训练的语义相似度模型偏激,准确性较差。



技术实现要素:

为了解决上述技术问题,本申请提供了一种语义相似度模型的训练方法、装置、电子设备及存储介质。

根据第一方面,提供了一种语义相似度模型的训练方法,包括:

获取待训练语义相似度模型要使用的目标领域;

计算所述目标领域与已知的多个训练数据集中各所述训练数据集对应的应用领域的相关度;

根据目标领域与各所述训练数据集对应的应用领域的相关度,依次采用各所述训练数据集对所述语义相似度模型进行训练。

根据第二方面,提供了一种语义相似度模型的训练装置,包括:

获取模块,用于获取待训练语义相似度模型要使用的目标领域;

计算模块,用于计算所述目标领域与已知的多个训练数据集中各所述训练数据集对应的应用领域的相关度;

训练模块,用于根据目标领域与各所述训练数据集对应的应用领域的相关度,依次采用各所述训练数据集对所述语义相似度模型进行训练。

根据第三方面,提供了一种电子设备,包括:

至少一个处理器;以及

与所述至少一个处理器通信连接的存储器;其中,

所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如上所述的方法。

根据第四方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行如上所述的方法。

根据本申请的技术,解决了现有技术中将多种训练数据集一起融合对语义相似度模型导致模型偏激的问题,可以在fine-tuning阶段,参考目标领域与各训练数据集对应的应用领域的相关度,更有针对性地采用各训练数据集对语义相似度模型进行训练,有效地提高语义相似度模型的学习能力,进而有效地提高训练的语义相似度模型的准确性。

应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

附图说明

附图用于更好地理解本方案,不构成对本申请的限定。其中:

图1是根据本申请第一实施例的示意图;

图2是根据本申请第二实施例的示意图;

图3是根据本申请第三实施例的示意图;

图4是根据本申请第四实施例的示意图;

图5是用来实现本申请实施例的语义相似度模型的训练方法的电子设备的框图。

具体实施方式

以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。

图1是根据本申请第一实施例的示意图;如图1所示,本实施例提供一种语义相似度模型的训练方法,具体可以包括如下步骤:

s101、获取待训练语义相似度模型要使用的目标领域;

s102、计算所述目标领域与已知的多个训练数据集中各训练数据集对应的应用领域的相关度;

s103、根据目标领域与各训练数据集对应的应用领域的相关度,依次采用各训练数据集对所述语义相似度模型进行训练。

本实施例的语义相似度模型的训练方法的执行主体为语义相似度模型的训练装置,该装置可以为类似于计算机的电子实体,也可以为采用软件集成的应用,使用时运行在计算机设备上,以对语义相似度模型进行训练。

本实施例的语义相似度模型的训练方法,应用在参数精调即fine-tuning阶段的训练中。在nlp领域的语义匹配任务中,在预训练阶段即pre-training阶段,已经可以得到该语义相似度模型的初步结构。然后,在fine-tuning阶段,可以采用相应的高质量的任务数据集对预训练得到的语义相似度模型进行参数精调。但是,现有的fine-tuning阶段的训练数据集相对较少,如包括有百度知道领域的相似度数据构成的lcqmc数据集,银行金融领域的相似度数据构成的bq_corpus数据集等等,同理还可以挖掘到其他领域如电商、医疗、教育、财经、体育、音乐等等各种领域的相似度数据构成的数据集。但是,现有技术的方案,直接将这些数据集融合在一起,对预选了得到的语义相似度模型进行训练,导致训练后的语义相似度模型准确性较差。

本实施例中,为了提高语义相似度模型的准确性,需要参考该语义相似度模型要使用的目标领域来进行fine-tuning阶段的精调。具体地,先获取该待训练语义相似度模型要使用的目标领域。本实施例中可以预先设置语义相似度模型可以对应的各个领域,根据实际需求,可以设置多个领域。另外,本实施例中,还需要获取已知的各训练数据集及各训练数据集对应的应用领域,如百度知道领域的lcqmc数据集作为一种训练数据集,银行金融领域的bq_corpus数据集也可以作为一种训练数据集,等等。然后计算按目标领域与已知的各训练数据集对应的应用领域的相关度。

需要说明的是,此处的相关度的计算,可以基于目标领域与各训练数据集对应的应用领域的语义相似度来计算。例如,具体可以采用训练好的词向量模型获取目标领域的词向量以及各训练数据集对应的应用领域的词向量,然后通过计算词向量之间的相似度,得到目标领域与各训练数据集对应的应用领域的相关度。例如,这里的词向量模型可以采用训练好的word2vec模型来实现。

最后,参考目标领域与多个训练数据集中各训练数据集对应的应用领域的相关度,依次采用各训练数据集对语义相似度模型进行训练,以提高语义相似度模型的准确性。

本实施例的语义相似度模型的训练方法,通过获取待训练语义相似度模型要使用的目标领域;计算所述目标领域与已知的多个训练数据集中各训练数据集对应的应用领域的相关度;根据目标领域与各训练数据集对应的应用领域的相关度,依次采用各训练数据集对所述语义相似度模型进行训练。本实施例的技术方案,可以在fine-tuning阶段,参考目标领域与各训练数据集对应的应用领域的相关度,更有针对性地采用各训练数据集对语义相似度模型进行训练,能够克服现有技术中将多种训练数据集一起融合对语义相似度模型导致模型偏激的问题,有效地提高语义相似度模型的学习能力,进而有效地提高训练的语义相似度模型的准确性。

图2是根据本申请第二实施例的示意图;如图2所示,本实施例的语义相似度模型的训练方法,在上述图1所示实施例的技术方案的基础上,进一步更加详细地描述本申请的技术方案。如图2所示,本实施例的语义相似度模型的训练方法,具体可以包括如下步骤:

s201、获取待训练语义相似度模型要使用的目标领域;

s202、计算目标领域与各训练数据集对应的应用领域的相关度;

该步骤s201和s202分别与上述图1所示实施例的步骤s101和s102相同,详细可以参考上述图1所示实施例的相关记载,在此不再赘述。

s202、根据目标领域与各训练数据集对应的应用领域的相关度,将多个训练数据集划分为高相关度训练数据集的集合和低相关度训练数据集的集合;

本书实例中,以将多个训练数据集划分为高相关度训练数据集的集合和低相关度训练数据集的集合为例。例如,划分时,可以将与目标领域的相关度最高的n个应用领域的训练数据集划分至高相关度训练数据集的集合;可以将其他的训练数据集划分至低相关度训练数据集的集合。其中n可以根据实际经验来取,例如n可以取1,此时,高相关度训练数据集的集合中仅包括一个训练数据集,即多个训练数据集中、与目标领域相关度最高的应用领域对应的训练数据集。多个训练数据集中的其他训练数据集都被划分至低相关度训练数据集中。根据实际经验,n还可以取其他数值如2或者3或者其他数值。

可选地,上述划分是将多个训练数据集划分成两个训练数据集的集合为例,实际应用中,若训练数据集较多时,也可以根据实际需求,将多个训练数据集划分成3个或者3个以上的训练数据集的集合,每个训练数据集的集合中的各训练数据集的应用领域与目标领域相关度接近。例如,以划分成3个训练数据集为例,可以设置两个相关度阈值,第一相关度阈值和第二相关度阈值,第一相关度阈值大于第二相关度阈值。划分时,可以将与目标领域的相关度大于或者等于第一相关度阈值的应用领域对应的各训练数据集划分至第一档的训练数据集集合中;将与目标领域的相关度大于或者等于第二相关度阈值、且小于第一相关度阈值的应用领域对应的各训练数据集划分至第二档的训练数据集集合中;将与目标领域的相关度小于第二相关度阈值的应用领域对应的各训练数据集划分至第三档的训练数据集集合中。同理,也可以根据实际需求设置多档的训练数据集集合,在此不再赘述。

s204、采用低相关度训练数据集的集合中的各训练数据集,对语义相似度模型进行训练;

可选地,该步骤在实施时,可以采用如下任一方式来实现:

(1)根据目标领域与低相关度训练数据集的集合中的各训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练;或者

(2)对低相关度训练数据集的集合中的各训练数据集进行随机排序;按照随机排序的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练。

对于低相关度训练数据集的集合中各训练数据集,可以采用上述任一方式对语义相似度模型进行训练。由于低相关度训练数据集的集合在高相关度训练数据集的集合之前,对语义相似度模型进行训练,且低相关度训练数据集的集合中各训练数据集对语义相似度模型的影响不大,所以可以采用上述方式(2),随机对低相关度训练数据集的集合中的各训练数据集进行随机排序,按照随机排序的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练。

但是优选地,即使在低相关度训练数据集的集合中,其中包括的各训练数据集的对应的应用领域与目标领域的相关度也存在高低之分,为了提高后续对目标领域的语义相似度模型的训练效果,也可以按照上述方式(1),根据目标领域与低相关度训练数据集的集合中的各训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练,使得该语义相似度模型逐步学习与目标领域更相关的应用领域的训练数据集中的信息,从而使其在目标领域中的表达更为准确。

s205、采用高相关度训练数据集的集合中的各训练数据集,对语义相似度模型进行训练。

可选地,如果上述划分高相关度训练数据集的集合时n=1,直接高相关度训练数据集的集合中的训练数据集,对语义相似度模型进行训练即可。而若n>1,此时根据目标领域与高相关度训练数据集的集合中的各训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练,使得该语义相似度模型逐步学习与目标领域更相关的应用领域的训练数据集中的信息,从而使其在目标领域中的表达更为准确。

本实施例的上述技术方案,通过实现低相关度训练数据集的集合和高相关度训练数据集的集合的划分,先采用低相关度训练数据集的集合中的各训练数据集,对语义相似度模型进行训练,再采用高相关度训练数据集的集合中的各训练数据集,对语义相似度模型进行训练,可以使得语义相似度模型先学习相关度低的训练数据集的信息,再逐步学习相关度高的训练数据集中的信息,从而可以使得语义相似度模型在目标领域的准确性更高。

另外,可选地,按照上述记载的方式,若相关度训练数据集的集合分为多档时,可以依次按照各档的相关度训练数据集的集合的训练数据集与目标领域的相关度高低顺序,先采用相关度低的训练数据集的集合的各训练数据集,对语义相似度模型进行训练,再采用相关度高的训练数据集的集合中的各训练数据集,对语义相似度模型进行训练,使得在训练目标领域的语义相似度模型的时候,按照相关度从低到高的逐步学习的过程,这是一个更为良好的学习过程,可以使得语义相似度模型的学习效果更好,学习得到的目标领域的语义相似度模型的表达更为准确。

本实施例的语义相似度模型的训练方法,通过上述技术方案,可以将多个训练数据集划分成高相关度训练数据集的集合和低相关度训练数据集的集合,并依次采用低相关度训练数据集的集合和高相关度训练数据集的集合中的各训练数据集,对语义相似度模型进行训练,使得语义相似度模型逐步学习与目标领域相关度更高的训练数据集中的信息,从而可以使得语义相似度模型在目标领域的准确性更高,因此,本实施例的技术方案,能够有效地提高训练的语义相似度模型的准确性。

图3是根据本申请第三实施例的示意图;如图3所示,本实施例提供一种语义相似度模型的训练装置300,包括:

获取模块301,用于获取待训练语义相似度模型要使用的目标领域;

计算模块302,用于计算目标领域与已知的多个训练数据集中各训练数据集对应的应用领域的相关度;

训练模块303,用于根据目标领域与各训练数据集对应的应用领域的相关度,依次采用各训练数据集对语义相似度模型进行训练。

本实施例的语义相似度模型的训练装置300,通过采用上述模块实现语义相似度模型的训练的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

图4是根据本申请第四实施例的示意图;如图4所示,本实施例的语义相似度模型的训练装置300,在上述图3所示实施例的技术方案的基础上,进一步更加详细地描述本申请的技术方案。

如图4所示,本实施例的语义相似度模型的训练装置300中,训练模块303,包括:

划分单元3031,用于根据目标领域与各训练数据集对应的应用领域的相关度,将多个训练数据集划分为高相关度训练数据集的集合和低相关度训练数据集的集合;

第一训练单元3032,用于采用低相关度训练数据集的集合中的各训练数据集,依次对语义相似度模型进行训练;

第二训练单元3033,用于采用高相关度训练数据集的集合中的各训练数据集,依次对语义相似度模型进行训练。

进一步可选地,第一训练单元3032,用于:

根据目标领域与低相关度训练数据集的集合中的各训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练;或者

对低相关度训练数据集的集合中的各训练数据集进行随机排序;按照随机排序的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练。

进一步可选地,划分单元3031,用于:

将与目标领域的相关度最高的n个应用领域的训练数据集划分至高相关度训练数据集的集合;

将其他的训练数据集划分至低相关度训练数据集的集合。

进一步可选地,第二训练单元3033,用于:

若n大于1,根据目标领域与高相关度训练数据集的集合中的各训练数据集的对应的应用领域的相关度由低到高的顺序,依次采用对应的训练数据集,分别对语义相似度模型进行训练。…

本实施例的语义相似度模型的训练装置300,通过采用上述模块实现语义相似度模型的训练的实现原理以及技术效果,与上述相关方法实施例的实现相同,详细可以参考上述相关方法实施例的记载,在此不再赘述。

根据本申请的实施例,本申请还提供了一种电子设备和一种可读存储介质。

如图5所示,是根据本申请实施例的实现语义相似度模型的训练方法的电子设备的框图。电子设备旨在表示各种形式的数字计算机,诸如,膝上型计算机、台式计算机、工作台、个人数字助理、服务器、刀片式服务器、大型计算机、和其它适合的计算机。电子设备还可以表示各种形式的移动装置,诸如,个人数字处理、蜂窝电话、智能电话、可穿戴设备和其它类似的计算装置。本文所示的部件、它们的连接和关系、以及它们的功能仅仅作为示例,并且不意在限制本文中描述的和/或者要求的本申请的实现。

如图5所示,该电子设备包括:一个或多个处理器501、存储器502,以及用于连接各部件的接口,包括高速接口和低速接口。各个部件利用不同的总线互相连接,并且可以被安装在公共主板上或者根据需要以其它方式安装。处理器可以对在电子设备内执行的指令进行处理,包括存储在存储器中或者存储器上以在外部输入/输出装置(诸如,耦合至接口的显示设备)上显示gui的图形信息的指令。在其它实施方式中,若需要,可以将多个处理器和/或多条总线与多个存储器和多个存储器一起使用。同样,可以连接多个电子设备,各个设备提供部分必要的操作(例如,作为服务器阵列、一组刀片式服务器、或者多处理器系统)。图5中以一个处理器501为例。

存储器502即为本申请所提供的非瞬时计算机可读存储介质。其中,所述存储器存储有可由至少一个处理器执行的指令,以使所述至少一个处理器执行本申请所提供的语义相似度模型的训练方法。本申请的非瞬时计算机可读存储介质存储计算机指令,该计算机指令用于使计算机执行本申请所提供的语义相似度模型的训练方法。

存储器502作为一种非瞬时计算机可读存储介质,可用于存储非瞬时软件程序、非瞬时计算机可执行程序以及模块,如本申请实施例中的语义相似度模型的训练方法对应的程序指令/模块(例如,附图3和附图4所示的相关模块)。处理器501通过运行存储在存储器502中的非瞬时软件程序、指令以及模块,从而执行服务器的各种功能应用以及数据处理,即实现上述方法实施例中的语义相似度模型的训练方法。

存储器502可以包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需要的应用程序;存储数据区可存储实现语义相似度模型的训练方法的电子设备的使用所创建的数据等。此外,存储器502可以包括高速随机存取存储器,还可以包括非瞬时存储器,例如至少一个磁盘存储器件、闪存器件、或其他非瞬时固态存储器件。在一些实施例中,存储器502可选包括相对于处理器501远程设置的存储器,这些远程存储器可以通过网络连接至实现语义相似度模型的训练方法的电子设备。上述网络的实例包括但不限于互联网、企业内部网、局域网、移动通信网及其组合。

实现语义相似度模型的训练方法的电子设备还可以包括:输入装置503和输出装置504。处理器501、存储器502、输入装置503和输出装置504可以通过总线或者其他方式连接,图5中以通过总线连接为例。

输入装置503可接收输入的数字或字符信息,以及产生与实现语义相似度模型的训练方法的电子设备的用户设置以及功能控制有关的键信号输入,例如触摸屏、小键盘、鼠标、轨迹板、触摸板、指示杆、一个或者多个鼠标按钮、轨迹球、操纵杆等输入装置。输出装置504可以包括显示设备、辅助照明装置(例如,led)和触觉反馈装置(例如,振动电机)等。该显示设备可以包括但不限于,液晶显示器(lcd)、发光二极管(led)显示器和等离子体显示器。在一些实施方式中,显示设备可以是触摸屏。

此处描述的系统和技术的各种实施方式可以在数字电子电路系统、集成电路系统、专用asic(专用集成电路)、计算机硬件、固件、软件、和/或它们的组合中实现。这些各种实施方式可以包括:实施在一个或者多个计算机程序中,该一个或者多个计算机程序可在包括至少一个可编程处理器的可编程系统上执行和/或解释,该可编程处理器可以是专用或者通用可编程处理器,可以从存储系统、至少一个输入装置、和至少一个输出装置接收数据和指令,并且将数据和指令传输至该存储系统、该至少一个输入装置、和该至少一个输出装置。

这些计算程序(也称作程序、软件、软件应用、或者代码)包括可编程处理器的机器指令,并且可以利用高级过程和/或面向对象的编程语言、和/或汇编/机器语言来实施这些计算程序。如本文使用的,术语“机器可读介质”和“计算机可读介质”指的是用于将机器指令和/或数据提供给可编程处理器的任何计算机程序产品、设备、和/或装置(例如,磁盘、光盘、存储器、可编程逻辑装置(pld)),包括,接收作为机器可读信号的机器指令的机器可读介质。术语“机器可读信号”指的是用于将机器指令和/或数据提供给可编程处理器的任何信号。

为了提供与用户的交互,可以在计算机上实施此处描述的系统和技术,该计算机具有:用于向用户显示信息的显示装置(例如,crt(阴极射线管)或者lcd(液晶显示器)监视器);以及键盘和指向装置(例如,鼠标或者轨迹球),用户可以通过该键盘和该指向装置来将输入提供给计算机。其它种类的装置还可以用于提供与用户的交互;例如,提供给用户的反馈可以是任何形式的传感反馈(例如,视觉反馈、听觉反馈、或者触觉反馈);并且可以用任何形式(包括声输入、语音输入或者、触觉输入)来接收来自用户的输入。

可以将此处描述的系统和技术实施在包括后台部件的计算系统(例如,作为数据服务器)、或者包括中间件部件的计算系统(例如,应用服务器)、或者包括前端部件的计算系统(例如,具有图形用户界面或者网络浏览器的用户计算机,用户可以通过该图形用户界面或者该网络浏览器来与此处描述的系统和技术的实施方式交互)、或者包括这种后台部件、中间件部件、或者前端部件的任何组合的计算系统中。可以通过任何形式或者介质的数字数据通信(例如,通信网络)来将系统的部件相互连接。通信网络的示例包括:局域网(lan)、广域网(wan)和互联网。

计算机系统可以包括客户端和服务器。客户端和服务器一般远离彼此并且通常通过通信网络进行交互。通过在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序来产生客户端和服务器的关系。

根据本申请实施例的技术方案,通过获取待训练语义相似度模型要使用的目标领域;计算所述目标领域与已知的多个训练数据集中各训练数据集对应的应用领域的相关度;根据目标领域与各训练数据集对应的应用领域的相关度,依次采用各训练数据集对所述语义相似度模型进行训练。本申请实施例的技术方案,可以在fine-tuning阶段,参考目标领域与各训练数据集对应的应用领域的相关度,更有针对性地采用各训练数据集对语义相似度模型进行训练,能够克服现有技术中将多种训练数据集一起融合对语义相似度模型导致模型偏激的问题,有效地提高训练的语义相似度模型的准确性。

根据本申请实施例的技术方案,可以将多个训练数据集划分成高相关度训练数据集的集合和低相关度训练数据集的集合,并依次采用低相关度训练数据集的集合和高相关度训练数据集的集合中的各训练数据集,对语义相似度模型进行训练,使得语义相似度模型逐步学习与目标领域相关度更高的训练数据集中的信息,从而可以使得语义相似度模型在目标领域的准确性更高,因此,本申请实施例的技术方案,能够有效地提高训练的语义相似度模型的准确性。

应该理解,可以使用上面所示的各种形式的流程,重新排序、增加或删除步骤。例如,本申请中记载的各步骤可以并行地执行也可以顺序地执行也可以不同的次序执行,只要能够实现本申请公开的技术方案所期望的结果,本文在此不进行限制。

上述具体实施方式,并不构成对本申请保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本申请的精神和原则之内所作的修改、等同替换和改进等,均应包含在本申请保护范围之内。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1