本公开的实施方式涉及数据处理,更具体地,本公开的实施方式涉及模型训练方法、多轮对话中的话题分割方法、介质及装置。
背景技术:
1、本部分旨在为权利要求书中陈述的本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、相关技术中,为了得到对语言更深层次的理解,语言处理领域的研究重点逐渐从字、词、句子级别转移到了段落、篇章等颗粒度更大的语义单元,话题分割在语言处理领域得到了前所未有的发展,成为最为活跃的研究方向之一。
3、现实生活中,以客服场景中,坐席和访客之间关于某个物品产生的多轮对话语言为例,如坐席和访客之间的多轮对话涉及欢迎语、咨询库存,确认尺码,下单,确认邮费,结束语等话题。假设在没有话题分割的情况下,对上述对话进行访客情绪识别,可能只能得到一部分信息,如得到在上述确认邮费时访客对邮费有意见。但实际上访客在上述确认尺码时对物品款式和尺码都很满意。因此,如何对会话进行话题分割,以得到对话中更加细粒度的信息,成为一个急需解决的问题。
技术实现思路
1、本公开提供一种模型训练方法、多轮对话中的话题分割方法、介质及装置,对会话进行话题分割,以得到对话中更加细粒度的信息。
2、在本公开实施方式的第一方面中,提供了一种模型训练方法,包括:从历史会话集中筛选出候选会话集,其中,候选会话集中每两个候选会话之间的语义相似度小于预设阈值;生成针对候选会话的话题标签,并基于话题标签拼接候选会话集以构成训练数据;基于训练数据对目标模型进行训练,目标模型用于对多轮会话的会话内容进行话题分割。
3、在本公开实施方式的第二方面中,提供了一种多轮对话中的话题分割方法,包括:将多轮对话中的会话内容输入至目标模型,由目标模型进行处理以获得会话内容对应的话题分割结果,其中,目标模型是根据如第一方面提供的模型训练方法训练得到的。
4、在本公开实施方式的第三方面,提供了一种计算机可读存储介质,计算机可读存储介质中存储有计算机执行指令,当处理器执行计算机执行指令时,实现如第一方面提供的模型训练方法,和/或,实现如第二方面提供的多轮对话中的话题分割方法。
5、在本公开实施方式的第四方面中,提供了一种模型训练装置,包括:筛选模块,用于从历史会话集中筛选出候选会话集,其中,候选会话集中每两个候选会话之间的语义相似度小于预设阈值;生成模块,用于生成针对候选会话的话题标签,并基于话题标签拼接候选会话集以构成训练数据;训练模块,用于基于训练数据对目标模型进行训练,目标模型用于对多轮会话的会话内容进行话题分割。
6、在本公开实施方式的第五方面中,提供了一种多轮对话中的话题分割装置,包括:分割模块,用于将多轮对话中的会话内容输入至目标模型,由目标模型进行处理以获得会话内容对应的话题分割结果,其中,目标模型是根据如第一方面提供的模型训练方法训练得到的。
7、在本公开实施方式的第六方面中,提供了一种计算设备,包括:至少一个处理器和存储器;存储器存储计算机执行指令;至少一个处理器执行存储器存储的计算机执行指令,使得至少一个处理器执行如第一方面提供的模型训练方法,和/或,使得至少一个处理器执行如第二方面提供的多轮对话中的话题分割方法。
8、在本公开实施方式中,从历史会话集中筛选出候选会话集,其中,候选会话集中每两个候选会话之间的语义相似度小于预设阈值,进而,生成针对上述候选会话的话题标签,并基于该话题标签拼接上述候选会话集以构成训练数据,基于该训练数据对目标模型进行训练,该目标模型用于对多轮会话的会话内容进行话题分割。这里,本公开实施例利用模型训练的思想,提供了一种对多轮会话的会话内容进行话题分割的方式,不仅能够对会话进行话题分割,得到对话中更加细粒度的信息,如得到会话中涉及的一个或多个话题,从而,根据得到的一个或多个话题更精确地了解用户的需求,基于这些需求为用户提供更准确的数据推荐,提高用户体验。而且本实施例采用语义相似度来区分不同对话以构造候选会话,节省了人工构造数据的成本。
1.一种模型训练方法,其特征在于,包括:
2.根据权利要求1所述的模型训练方法,其特征在于,所述历史会话集包括多个历史会话,每一历史会话是基于单个物品的问题,以及与所述问题对应的答复形成的会话。
3.根据权利要求2所述的模型训练方法,其特征在于,在所述从历史会话集中筛选出候选会话集之前,还包括:
4.根据权利要求1至3中任一项所述的模型训练方法,其特征在于,所述从历史会话集中筛选出候选会话集,包括:
5.根据权利要求4所述的模型训练方法,其特征在于,所述根据所述历史会话集中历史会话之间的语义相似度,从所述历史会话集中筛选出候选会话集,包括:
6.一种多轮对话中的话题分割方法,其特征在于,包括:
7.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有计算机执行指令,当处理器执行所述计算机执行指令时,实现如权利要求1至5任一项所述的模型训练方法,和/或,实现如权利要求6所述的多轮对话中的话题分割方法。
8.一种模型训练装置,其特征在于,包括:
9.一种多轮对话中的话题分割装置,其特征在于,包括:
10.一种计算设备,包括:至少一个处理器和存储器;