基于盯梢反馈的机器人数据标注方法、装置、设备及介质与流程

文档序号:35421862发布日期:2023-09-13 09:07阅读:35来源:国知局
基于盯梢反馈的机器人数据标注方法、装置、设备及介质与流程

本发明涉及金融领域,特别涉及一种基于盯梢反馈的机器人数据标注方法、装置、设备及介质。


背景技术:

1、随着当前社会的金融和计算机发展,银行涉及面向众多用户提供服务。用户可以通过银行的机器人在线问答(frequently asked questions)系统提出某些业务办理的相关问题,而后机器人在线问答系统根据用户提出的问题利用预先形成的答案进行回复。预先形成的答案是人工根据存储的众多原始文档的内容形成的。也就是说,当前向用户回复的答案是经过人工对原始文档的内容进行标记形成的。

2、但是受限于人工标注答案效率较低,从而导致机器人在线问答系统的问答体验较差。


技术实现思路

1、有鉴于此,本申请的目的在于提供一种基于盯梢反馈的机器人数据标注方法、装置、设备和介质,能够在实现自动确定问题的答案,并且对答案的准确率进行控制,实现高效且准确的确定问题的答案。

2、本申请实施例提供了一种基于盯梢反馈的机器人数据标注方法,所述方法包括:

3、获取用户的问题,计算所述问题和多个原始文档的文本相似度,建立目标机器人训练模型、机器人在线问答系统和关联文档之间的关联关系,所述关联文档为和所述问题文本相似度最高的原始文档;

4、将所述关联文档、冷门文档以及准确文档加入盯梢队列形成目标文档,所述冷门文档为对多个所述原始文档按照应用频次分类得到,所述准确文档为历史问题的正确答案对应的原始文档;

5、将所述盯梢队列中的所述目标文档拆分为多个片段,计算每个所述片段和所述问题的文本相似度,将和所述问题文本相似度大于相似阈值的片段作为备选答案;

6、根据所述关联关系将所述备选答案输入至所述目标机器人训练模型进行训练,所述目标机器人训练模型的输出结果作为所述机器人在线问答系统的标准答案。

7、可选地,多个所述片段包括目标片段;

8、所述将所述盯梢队列中的所述目标文档拆分为多个片段,计算每个所述片段和所述问题的文本相似度,将和所述问题文本相似度大于相似阈值的片段作为备选答案包括:

9、将所述盯梢队列中的所述目标文档拆分为多个片段,计算每个所述片段和所述问题的文本相似度,当所述目标片段和所述问题的文本相似度大于相似阈值时,获取语义相关文档,将所述目标片段和所述语义相关文档中和所述问题文本相似度最高的片段作为备选答案,所述语义相关文档为和所述目标片段具有语义关联的原始文档。

10、可选地,在计算每个所述片段和所述问题的文本相似度之前,所述方法还包括:

11、获取所述问题的已回复答案,计算所述已回复答案和多个所述片段的文本相似度;

12、将和所述已回复答案文本相似度大于重复阈值的所述片段删除。

13、可选地,所述备选答案包括第一备选答案和第二备选答案;

14、所述将和所述问题文本相似度大于相似阈值的片段作为备选答案包括:

15、将和所述问题文本相似度大于相似阈值的片段作为所述第一备选答案,对基础答案根据置信度区间进行文本扩充或文本缩减得到所述第二备选答案,所述基础答案为和所述问题文本相似度最高的片段。

16、可选地,所述冷门文档为应用频次小于应用阈值的所述原始文档。

17、可选地,所述方法还包括:

18、接收所述标准答案的审核结果,计算所述审核结果和所述标准答案的差异值,若所述差异值小于差异阈值,则将所述标准答案确定为所述机器人在线问答系统的正式答案。

19、本申请实施例提供了一种基于盯梢反馈的机器人数据标注装置,所述装置包括:

20、计算单元,用于获取用户的问题,计算所述问题和多个原始文档的文本相似度,建立目标机器人训练模型、机器人在线问答系统和关联文档之间的关联关系,所述关联文档为和所述问题文本相似度最高的原始文档;

21、加入单元,用于将所述关联文档、冷门文档以及准确文档加入盯梢队列形成目标文档,所述冷门文档为对多个所述原始文档按照应用频次分类得到,所述准确文档为历史问题的正确答案对应的原始文档;

22、拆分单元,用于将所述盯梢队列中的所述目标文档拆分为多个片段,计算每个所述片段和所述问题的文本相似度,将和所述问题文本相似度大于相似阈值的片段作为备选答案;

23、训练单元,用于根据所述关联关系将所述备选答案输入至所述目标机器人训练模型进行训练,所述目标机器人训练模型的输出结果作为所述机器人在线问答系统的标准答案。

24、可选地,所述装置还包括删除单元,所述删除单元,用于:

25、获取所述问题的已回复答案,计算所述已回复答案和多个所述片段的文本相似度;

26、将和所述已回复答案文本相似度大于重复阈值的所述片段删除。

27、本申请实施例提供了一种基于盯梢反馈的机器人数据标注设备,所述设备包括:处理器和存储器;

28、所述存储器,用于存储指令;

29、所述处理器,用于执行所述存储器中的所述指令,执行如上述实施例中任一项所述的方法。

30、本申请实施例提供了一种计算机可读存储介质,包括指令,当其在计算机上运行时,使得计算机执行如上述实施例任意一项所述的方法。

31、本申请实施例提供了一种基于盯梢反馈的机器人数据标注方法,方法包括:获取用户的问题,计算问题和多个原始文档的文本相似度,建立目标机器人训练模型、机器人在线问答系统和关联文档之间的关联关系,关联文档为和问题文本相似度最高的原始文档,也就是说,为获取和问题最相关的关联文档,可以计算问题和多个原始文档的文本相似度,而后建立该关联文档和目标机器人训练模型以及机器人在线问答系统的关联关系,以便后续对该关联文档进行处理后能够确定对应的机器人训练模型以及机器人在线问答系统。将关联文档、冷门文档以及准确文档加入盯梢队列形成目标文档,冷门文档为对多个原始文档按照应用频次分类得到,准确文档为历史问题的正确答案对应的原始文档,通过将冷门文档和准确文档也加入盯梢队列能够提高对文档内容的获取率,提高最终确定答案的准确率。将盯梢队列中的目标文档拆分为多个片段,计算每个片段和问题的文本相似度,将和问题文本相似度大于相似阈值的片段作为备选答案,也就是说,需要对盯梢队列中的多个片段进行文本相似度的筛选,进一步提高答案的准确率。根据关联关系将备选答案输入至目标机器人训练模型进行训练,目标机器人训练模型的输出结果作为机器人在线问答系统的标准答案。也就是说,通过盯梢队列进行确定的备选答案需要进行进一步的训练,以实现答案的较高准确率。由此可见,通过利用盯梢队列确定和问题相关的片段,而后利用目标机器人训练模型对该片段进行进一步训练得到标准答案,实现自动进行机器人数据标注,相较于人工标注答案,本申请大大提高了数据标注的效率,实现高效且准确的确定问题的答案。



技术特征:

1.一种基于盯梢反馈的机器人数据标注方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,多个所述片段包括目标片段;

3.根据权利要求1所述的方法,其特征在于,在计算每个所述片段和所述问题的文本相似度之前,所述方法还包括:

4.根据权利要求1所述的方法,其特征在于,所述备选答案包括第一备选答案和第二备选答案;

5.根据权利要求1所述的方法,其特征在于,所述冷门文档为应用频次小于应用阈值的所述原始文档。

6.根据权利要求1-5任意一项所述的方法,其特征在于,所述方法还包括:

7.一种基于盯梢反馈的机器人数据标注装置,其特征在于,所述装置包括:

8.根据权利要求7所述的装置,其特征在于,所述装置还包括删除单元,所述删除单元,用于:

9.一种基于盯梢反馈的机器人数据标注设备,其特征在于,所述设备包括:处理器和存储器;

10.一种计算机可读存储介质,其特征在于,包括指令,当其在计算机上运行时,使得计算机执行如权利要求1-6任意一项所述的方法。


技术总结
本申请提供一种基于盯梢反馈的机器人数据标注方法、装置、设备及介质,应用于金融领域或其他领域,方法包括:为获取和问题最相关的关联文档,计算问题和多个原始文档的文本相似度,建立该关联文档和目标机器人训练模型以及机器人在线问答系统的关联关系,通过将冷门文档和准确文档也加入盯梢队列能够提高对文档内容的获取率,提高最终确定答案的准确率。对盯梢队列中的多个片段进行文本相似度的筛选,根据关联关系将备选答案输入至目标机器人训练模型进行训练,目标机器人训练模型的输出结果作为机器人在线问答系统的标准答案,实现高效且准确的确定问题的答案。

技术研发人员:刘烨敏,申亚坤
受保护的技术使用者:中国银行股份有限公司
技术研发日:
技术公布日:2024/1/15
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1