一种基于标签平滑的多跳回答问题框架

文档序号：37722917发布日期：2024-04-23 12:00阅读：32来源：国知局

本发明涉及一种基于标签平滑的多跳回答问题框架，属于自然语言理解。

背景技术：

1、现代社会正在进入ai时代，各大互联网公司开发了大型与训练模型希望机器能理解自然语言，其中一个重要的应用场景就是考察机器的阅读理解能力，要求机器检索出相关文档来回答相应问题。

2、多跳问答任务不同于简单问答任务，在回答问题的逻辑链条中存在多个“跳点”，每一个“跳点”都对模型能得出正确的答案有重要的影响。

3、现有的多跳回答问题的方法，一般分为两个阶段，第一阶段利用检索模型从几篇候选文章中选取出与问题有关的文章；第二阶段利用机器阅读理解模型从抽取出的两篇文章中推理得到最后的答案。在第一阶段，现有方法通常会考虑不同候选文章的相互作用关系。在第二阶段，现有方法利用了图神经网络，也有的方法利用了预训练模型的强大能力，同时，这些方法都没有考虑到模型的校正问题，在神经网络中，模型会倾向过过分自信它的判断结果，导致更高的错误率，更高的错误率对这类二阶段模型会有错误累积问题，使第二阶段的错误率更高，并且，在第二阶段的答案抽取中，由于答案的边界通常不清晰，比如“35”与“35人”均可以作为“有多少人”这个问题的回答，但是这一现象并没有显式地让模型进行学习。

技术实现思路

1、本发明是为了解决上述问题而进行的，目的在于提供一种基于标签平滑的多跳回答问题框架，用于缓解模型的过分自信以及答案边界的不确定问题。为此，本发明提供以下技术方案：

2、本发明提供了一种基于标签平滑的多跳回答问题框架，具有这样的特征，包括：步骤s1，输入问题和候选文章列表粗筛得到3篇待选文章；步骤s2，通过对3篇待选文章两两分组的方式组成3个配对，再一次通过细筛的方式选择最优配对；步骤s3，将选出的最优配对的两篇文章以及问题一起输入模型，通过预训练语言模型回答问题。

3、在本发明提供的一种基于标签平滑的多跳回答问题框架中，还可以具有这样的特征：其中，所述步骤s1中的经验风险损失的函数为：

4、

5、式中，e表示对所有样本取期望，m表示单个样本对应的候选文章数量，li表示第i个候选文章是否筛选的损失函数，具体表示为：

6、

7、式中，表示第i个文章是否是正确的候选文章之一，如果是，则为1，如果不是则为0，表示模型预测第i个文章是正确的候选文章之一的概率，log表示自然对数，其中，可以通过标签平滑手段对进行平滑化处理，即表示为当第i个文章是正确的候选文章之一时为0.9，若不是，则为0.1。

8、在本发明提供的一种基于标签平滑的多跳回答问题框架中，还可以具有这样的特征：其中，步骤s1中的经验风险损失的函数可以重调整系数为如下表示：

9、

10、式中，wi表示对单个样本中第i个候选文章损失函数的权重，如果该文章包含最终的答案，那么为2，剩下的权重为1。

11、在本发明提供的一种基于标签平滑的多跳回答问题框架中，还可以具有这样的特征：其中，步骤s2包括以下子步骤：步骤s2-1,构建候选文章配对，将所述步骤s1中选到的概率前三的候选文章两两配对产生3组文章配对；步骤s2-2，将问题与文章配对同时输入模型选出最佳配对，其中，所述步骤s2的经验风险损失的函数为：

12、

13、式中，ci表示为某一样本中的第i组文章配对，表示第i组文章配对是否是最优配对，如果是则为1，不是则为0，表示模型预测第i组文章配对是最优配对的概率。对于通过标签平滑方法进行平滑处理，使其当配对是最优配对时为0.9，否则为0.05。

14、在本发明提供的一种基于标签平滑的多跳回答问题框架中，还可以具有这样的特征：其中，所述步骤s1与所述步骤s2同时训练优化，最终目标为：

15、lretrieval＝φ1lcoarse+φ2lfine

16、式中，φ1与φ2均为固定的系数，φ1为2，φ2为1。

17、在本发明提供的一种基于标签平滑的多跳回答问题框架中，还可以具有这样的特征：其中，步骤3包括以下子步骤：步骤s3-1，将输入的两篇文章拼接后进行序列化；步骤s3-2，将处理好的序列输入预训练模型进行特征提取；步骤s3-3，采用阅读理解模型提取答案的开始位置和结束位置；步骤s3-4，根据获取到的开始位置和结束位置，根据原始文本还原成答案进行输出，

18、其中，所述步骤s3训练时采用的经验风险损失的函数为：

19、

20、

21、

22、式中，表示开始位置模型预测的概率分布，表示结束位置模型预测的概率分布，表示正确的开始位置的分布，即只有正确的开始位置为1，其余位置为0，表示正确的结束位置的分布，即只有正确的结束位置为1，其余位置为0。

23、在本发明提供的一种基于标签平滑的多跳回答问题框架中，还可以具有这样的特征：其中，步骤s3中，为更好的避免模型过分自信的问题，我们采用f1 smoothing的方式修正和修正公式为：

24、

25、

26、式中，qs(i)表示修正后的开始位置概率分布，qe(i)表示修正后的结束位置概率分布，f1表示f1分数，agold表示正确的答案。

27、发明的作用与效果

28、根据本发明所涉及的基于标签平滑的多跳回答问题框架，根据本发明的基于标签平滑的多跳回答问题框架，首先根据输入问题和候选文章列表粗筛得到3篇待选文章，之后通过对3篇待选文章两两分组的方式组成3个配对，再一次通过细筛的方式选择最优配对，通过粗筛到精挑的方式大幅提高了模型的检索的准确率。最后将选出的最优的两篇文章以及问题一起输入模型，通过预训练语言模型回答问题。

29、本发明的基于标签平滑的多跳回答问题框架在著名阅读理解数据集上取得了优异的性能，设计简单且具备广泛的应用场景，解决了现有多跳问答框架性能有待提高的问题。

技术特征：

1.一种基于标签平滑的多跳回答问题框架，用于缓解模型的过分自信以及答案边界不确定的问题，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于标签平滑的多跳回答问题框架，其特征在于：

3.根据权利要求1所述的基于标签平滑的多跳回答问题框架，其特征在于：

4.根据权利要求1所述的基于标签平滑的多跳回答问题框架，其特征在于：

5.根据权利要求4所述的基于标签平滑的多跳回答问题框架，其特征在于：

6.根据权利要求1所述的基于标签平滑的多跳回答问题框架，其特征在于：

7.根据权利要求5所述的基于标签平滑的多跳回答问题框架，其特征在于：

技术总结
本发明目的在于提供一种基于标签平滑的多跳回答问题框架，用于缓解模型的过分自信以及答案边界的不确定问题。本发明提供了一种基于标签平滑的多跳回答问题框架，包括：步骤S1，输入问题和候选文章列表粗筛得到3篇待选文章；步骤S2，通过对3篇待选文章两两分组的方式组成3个配对，再一次通过细筛的方式选择最优配对；步骤S3，将选出的最优配对的两篇文章以及问题一起输入模型，通过预训练语言模型回答问题。

技术研发人员：邱锡鹏,汪燠欣,印张悦,吴驿光
受保护的技术使用者：复旦大学
技术研发日：
技术公布日：2024/4/22

完整全部详细技术资料下载

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：邱锡鹏,汪燠欣,印张悦,吴驿光
技术所有人：复旦大学
我是此专利的发明人

上一篇：一种用于极端环境的电子皮肤及其制备方法和应用
上一篇：杆料旋转定向装置及钢珠压装设备的制作方法

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、李老师：1.计算力学 2.无损检测
2、毕老师：机构动力学与控制
3、袁老师：1.计算机视觉 2.无线网络及物联网
4、王老师：1.计算机网络安全 2.计算机仿真技术
5、王老师：1.网络安全；物联网安全、大数据安全 2.安全态势感知、舆情分析和控制 3.区块链及应用
如您是高校老师，可以点此联系我们加入专家库。