机器高阶认知的预训练语言模型幽默回复能力增强方法

文档序号:37419906发布日期:2024-03-25 19:07阅读:19来源:国知局
机器高阶认知的预训练语言模型幽默回复能力增强方法

本发明属于机器高阶认知,具体涉及一种机器高阶认知的预训练语言模型幽默回复能力增强方法。


背景技术:

1、幽默是人类互动中的一项重要技能。拥有幽默感需要对外部知识的全面深入理解,包括语义和文化背景等。因此,对机器来说,要弄清什么是“有趣的”,并使其具备幽默感是一个巨大的挑战。让机器具备幽默感,以更好地理解人类语言,并以更自然、更具同情心的方式进行人机交互,已成为自然语言处理中一个越来越重要的研究问题,尤其是在问答系统、对话系统和机器翻译中。

2、现有的自然语言处理对幽默的研究主要集中在幽默识别和幽默改写。幽默识别旨在从人类的角度确定句子是否幽默,幽默改写旨在将常规文本改写为幽默文本。相比之下,幽默回复是一项更具挑战性的任务,它旨在在对话中生成幽默文本对上文内容做出回应。尽管现有的预训练语言模型可以在人机对话中实现优越的性能,他们产生幽默回复的能力仍然很差。

3、幽默回复属于幽默生成的一个子方向,现有的方法主要包括基于模板和基于神经网络。基于模板的方法包括采用词汇替换,例如使用同义词、同音词、俚语进行替换等。例如一些研究采用本体论进行变量选择,其他研究则采用n元词汇同现作为变量选择的量化指标。基于神经网络的方法采用深度模型,如序列到序列模型、预训练语言模型以生成幽默文本。

4、然而,基于模板生成的幽默文本缺乏创造性,不符合人类直觉。基于神经网络生成的幽默文本尽管可以是高质量的流畅文本,但从人类评价的角度来看,生成的文本可能不是一个幽默文本。有两个基本原因导致神经网络模型,尤其是在其他任务上表现出色的预训练语言模型在幽默回复时表现不佳。一方面,现有的幽默语料库和数据集极为有限且质量较低,另一方面,幽默回复的生成是一个高层次的认知过程,需要丰富的知识和常识。然而,现有的知识库和常识库缺乏此类幽默知识。

5、有助于理解本发明术语的技术资料:

6、幽默计算:

7、http://www.cnki.com.cn/article/cjfdtotal-sddx201607001.htm。

8、幽默回复:

9、https://baijiahao.baidu.com/s?id=1687614865971756971&wfr=spider&for=pc。


技术实现思路

1、本发明的目的在于提供一种机器高阶认知的预训练语言模型幽默回复能力增强的方法。

2、本发明提供的机器高阶认知的预训练语言模型幽默回复能力增强的方法,具体步骤为:

3、(一)建立常规文本和幽默文本之间的联系;包括构建一个由上文-幽默回复组成的可解释数据集,其中,每一个上文-幽默回复对都有一个幽默链和幽默思维导图,展示生成幽默回复需要的知识和逻辑推理过程;

4、(二)评估和提高预训练语言模型的幽默回复能力;包括设计一个幽默情感风格分类任务和幽默改写任务,可以以多任务训练的方式辅助幽默回复;另外,设计一个编码器-解码器框架,将幽默链和幽默思维导图注入预训练语言模型中,并基于多任务学习的方式利用两个辅助任务增强预训练语言模型的幽默回复能力。

5、本发明中,构建的全新的中文可解释的幽默回复数据集,可用于全面评估和提高预训练语言模型的幽默回复能力;每个上文-幽默回复对包括相应的幽默链和幽默思维导图,进一步设计幽默相关的辅助任务,包括幽默情感风格分类任务和幽默改写任务,并配套相应的数据集支撑,以进一步增强预训练语言模型的幽默回复能力。

6、本发明中,提高预训练语言模型的幽默回复能力,主要包括以下四个重要元素,如图1所示,具体包括:

7、(1)上文-幽默回复对

8、步骤(一)中,从互联网平台抓取长度小于30个词的被标记为幽默或者点赞数最多的上文-回复对,其中包括但不限于小红书、抖音、知乎等;收集之后,进一步地对上文-回复对进行人工评估,并丢弃具有争议性的上文-回复对,得到最终的上文一幽默回复对。

9、(2)幽默链

10、步骤(一)中,基于四个步骤为每个上文-幽默回复对标记幽默链;幽默链是一段解释了幽默回复是如何通过潜在的思维过程而生成的文本;四个步骤为:重述上文,即将一个交互式的上文转换为一个陈述性句子;生成常规回复,即人工创建或通过搜索引擎检索一个对上文的常规回复;标记幽默锚点,即找出常规回复和幽默回复之间的转折点,如修辞手法、反转关键词、谐音、对立等;生成幽默回复,即根据转折点创建幽默回复;

11、为了加速和统一标记幽默链的过程,本发明建立了一些幽默链的常用范式,如对立统一、属性转换等;

12、对立统一范式:假设一个事件x具有一个属性x1,该属性也可以解释为另一个一般属性y1,进而解释为不常规的属性z1;如果事件z具备属性z1,则可以根据事件x推断出事件z;该模式也可以形式表示为:{x1,...,xn}∈x;x1→y1→z1;z1∈z;∴x→z;

13、属性转换范式:假设一个事件x有两个属性,即x1和y1;在另一个事件y中,对话焦点从x1转移到y1;该模式也可以形式表示为:x={x1,y1};y1∈y。

14、(3)幽默思维导图

15、为了帮助预训练语言模型捕获幽默推理中包含的显性和隐性语义知识以及潜在的逻辑主干,本发明步骤(一)中,基于每个幽默链构建一个幽默思维导图,如图2所示;首先在幽默链中人工标注幽默相关实体{hi,ti},幽默相关实体是一个单词或短语,它是幽默回复推理路径的组成部分,它可以是一个事件,一种状态或描述等;接着使用预定义的关系类型在每个实体对之间建立关系构成幽默三元组{hi,ri,ti},预定义的关系分为一般关系和与幽默相关关系;一般关系包括原因/结果、定义、方式、包含/被包含、属性等,与幽默相关的关系包括隐喻、拟人、类比、同音、对立等;最后,将幽默三元组连接成幽默思维导图。

16、(4)幽默辅助任务

17、步骤(二)中,幽默辅助任务包括幽默情感风格分类和幽默文本改写;

18、幽默情感风格分类任务的设计基于如下假设:预训练语言模型在更好地理解上文-回复的情感风格下可以产生更合理的幽默回复;因此,本发明在可解释幽默回复数据集中进一步标注上文-幽默回复对的情感和风格;情感包括积极和消极两类,风格包括亲和型、自我增强型、攻击型、自我挫败型;该任务是给定一个基于规则和人工核验后的上文-幽默回复对连接成的完整句子,输出其对应的情感和风格;

19、幽默改写任务的设计基于如下假设:预训练语言模型倾向于生成常规回复,而不是幽默回复,因此幽默改写可以控制模型生成常规回复;因此,本发明构建了常规-幽默文本对,以帮助预训练语言模型学习常规表达和幽默表达之间的潜在不一致;本发明首先将可解释数据集中的上文输入到搜索引擎或人工编写得到常规回复;接下来,基于语法规则,构建常规文本和对应的幽默文本;该任务是给定一个常规文本,生成幽默文本。

20、基于以上的幽默回复的重要元素,评估和提高预训练语言模型的幽默回复能力框架如图3所示,具体步骤为:

21、(1)评估预训练语言模型的幽默回复能力

22、首先选择了几个有代表性的预训练语言模型,如t5、bart和cpt,进行评估,模型的输入为可解释数据集中的上文,输出为幽默回复。用上文-幽默回复对对预训练语言模型进行微调,通过将测试集中的标注好的幽默回复与模型输出的幽默回复进行比较,来评估预训练语言模型的幽默回复能力。

23、(2)评估预训练语言模型在标注增强下的幽默回复能力

24、接着,除了上文,本发明将幽默链和幽默思维导图也作为模型输入的部分,输出幽默回复。用上文-幽默回复对、幽默链和幽默思维导图对预训练语言模型进行微调,通过将测试集中的真实幽默回复与模型输出的幽默回复进行比较,来评估预训练语言模型在标注增强下的的幽默回复能力。具体来说,本发明用预训练语言模型的相应编码器对每种类型的输入分别进行编码,然后将它们的输出连接起来输入到解码器中,过程如下公式所示:

25、hq=enc(q),hm=enc(m),rannotate=dec([hq;hc;hm]),

26、其中,q和m分别表示上文和幽默思维导图,rannotate表示标注增强下模型生成的幽默回复,enc和dec表示预训练语言模型的编码器和解码器。通过比较模型在有无标注下生成的幽默回复质量,来评估标注的作用和评估标注增强下的幽默回复能力。

27、(3)评估预训练语言模型在多任务增强下的幽默回复能力

28、本发明设计了两个幽默辅助任务:幽默情感风格分类和幽默改写任务,以评估预训练语言模型在多任务增强下的幽默回复能力。幽默情感风格分类任务使用cpt模型作为框架,输入为上文-幽默回复对连接成的完整句子,微调模型后输出其对应的情感和风格。幽默改写任务使用t5模型作为框架,输入为常规文本,微调模型后输出其对应的语义不变的幽默文本。本发明利用多任务学习的方式借助辅助任务让预训练语言模型学习幽默回复,评估预训练语言模型在多任务增强下的幽默回复能力。具体来说,本发明最小化了多个任务的损失函数的加权和,其中权重是基于实验调整的超参数。通过比较预训练语言模型在多任务增强下和在标注增强下的幽默回复效果,可以评估辅助任务的有效程度。

29、本发明的技术特点和优势主要有:

30、(1)构建一个大规模中文可解释的幽默回复数据集,包括上文-幽默回复对,幽默链,幽默思维导图,上文-幽默回复对的情感风格,常规文本-幽默文本对;其中幽默链,幽默思维导图体现了上文到幽默回复的逻辑推理过程;上文-幽默回复对的情感风格,常规文本-幽默文本对分别作为辅助任务,即幽默情感风格分类任务和幽默改写任务的支撑数据集;本发明部分解决了幽默回复领域数据和知识缺失的问题;

31、(2)设计三步走的预训练语言模型幽默回复能力的评估框架,包括预训练语言模型是否能够在微调之后给出幽默回复,标注知识是否有助于提高预训练语言模型的幽默回复能力,辅助任务是否有助于提高预训练语言模型的幽默回复能力;

32、(3)设计全新的编码器-解码器框架,用预训练语言模型的相应编码器对每种类型的输入分别进行编码,然后将它们的输出连接起来输入到解码器中;并且借助多任务学习的方式,有效地将各个输入的效果充分发挥,以增强预训练语言模型的幽默回复能力。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1