一种具有可解释性理由的诊断对话数据集的生成方法

文档序号:40512691发布日期:2024-12-31 13:21阅读:15来源:国知局
一种具有可解释性理由的诊断对话数据集的生成方法

本发明涉及自然语言处理,具体来说涉及数据集构建领域,更具体地说,涉及提供了一种具有可解释性理由的诊断对话数据集生成方法。


背景技术:

1、随着人工智能技术在医疗领域的应用,对话式智能疾病诊断方法、医疗咨询系统等成为目前研究的一个热点。这些系统可以为患者提供及时准确的医疗信息,同时也可以帮助医疗机构缓解医疗资源的压力。在这些系统中,由于大量的对话数据,即训练语料,是研究各种对话模型的基础,因此,诊断对话数据集对于自动诊断具有重要价值。

2、然而,目前缺少大规模高质量的医疗诊断对话的数据集。其主要的原因是医患的问诊过程大多数是采用面对面的交流方式,没有以文字的形式记录下来。现有的语音识别技术在真实的临床诊疗环境中效果较差,无法将问诊过程的语音转换为准确的文字。为了解决这个问题,现有技术通常采用爬虫技术爬取线上的问诊网站的诊断对话或者利用人工整理的方式获取临床的诊断对话数据集。网络爬取技术方式获取的对话数据集存在语料格式不规范、数据集质量较低的问题。而人工整理的诊断对话数据集通常只能针对某个专病,且需要的大量的人力资源。此外,无论是临床获取的对话集还是网络爬取的数据集,都无法解释医生提问的原因。这就意味着,对话模型也无法生成具有可解释的回复。

3、总之,现有技术无法解决自动生成具有可解释性理由的诊断对话数据集的问题。


技术实现思路

1、本发明的目的是提供一种具有可解释性理由的诊断对话数据集的生成方法,自动构造大规模高质量且带可解释性理由的对话数据集。

2、为了实现上述目的,本发明提供如下方案:

3、一种具有可解释性理由的诊断对话数据集的生成方法,包括:

4、s1:获取原始决策树信息,获取文献中的诊断流程图,抽取出流程图中的每个节点和节点之间的边,将节点分为动作节点和条件节点两类,其中,动作节点为鉴别诊断的内容,用于表示最终的诊断结果,条件节点为诊断依据,用于表示在已确认症状基础上进一步鉴别诊断的条件,节点与节点之间边表示为节点之间的判断条件关系;

5、s2:利用所述条件节点和动作节点构造决策树;

6、s3:根据所构造的决策树生成用自然语言描述的诊断路径文本集;

7、s4:基于chatgpt模型生成具有可解释性理由的对话集,根据构造的prompt以zeroshot的方式调用chatgpt生成对话数据,调用chatgpt模型提供的接口生成患者与医生的问诊对话集,其中,构造的prompt包括:任务描述和诊断路径两部分组成,任务描述用于帮助chatgpt更好地理解需求,诊断路径是生成的诊断路径文本;

8、s5:构造有可解释性对话的上下文示例,用于在chatgpt生成的患者与医生的问诊对话中加入可解释性,即在医生的回复后加入医生回复的理由;

9、s6:以few shot learning的方式生成最终的有可解释性的对话数据。

10、其中,s2利用所述条件节点和动作节点构造决策树步骤,具体包括:

11、s21:定义决策树,决策树包括两个类:conditionnode和actionnode,决策树为一颗多叉树,其中,

12、条件节点conditionnode类的结构为:{"id":节点id,"parent_id":父节点id,"nodename":"医学术语描述词","conditions":"自然语言形式的条件语句"};

13、动作节点actionnode类的结构为:{"id":节点id,"parent_id":父节点id,"action":"鉴别诊断的疾病"};

14、s22:构造决策树,根据s21定义的决策树定义,将所述条件节点和动作节点将抽取出的节点信息输入到配置文件中,然后采用广度优先搜索的思路,构建以主诉症状作为根节点,然后从配置文件中获取父节点id为0的节点,将这些节点添加为根节点的子节点,接着再逐个构造子节点,重复该过程,直到叶子节点全部为表示为诊断出的疾病名称的动作节点为止。

15、s3步骤,根据构造的决策树生成用自然语言描述的诊断路径文本集,具体包括:

16、s31:从构造的决策树的根节点出发,设置初始的诊断路径文本为:“根据全科医生鉴别诊断医书”+主诉症状+“的鉴别诊断依赖于”;

17、s32:从根节点出发按深度优先遍历决策树,若当前节点的子节点有未被访问的,则从中任选一个子节点进行访问,访问节点的过程中是用于向子节点传递已走路径的诊断过程文本加上当前节点的判断条件,当前节点的诊断路径文本拼接为:父节点的诊断路径文本+“如果满足条件:{当前节点的判断条件}”,不同子节点之间的诊断路径文本之间使用换行符“\n”分隔;

18、重复该过程,直到访问到叶节点为止,并且将诊断路径文本修改为:父节点的诊断路径文本+“最终诊断为:{叶节点的鉴别诊断的疾病}”,该鉴别诊断路径文本为一个完整的鉴别诊断路径文本,并将完整的鉴别诊断路径文本添加到诊断路径文本集中;

19、s33:利用s32的方法重复遍历决策树,得到该主诉症状的全部鉴别诊断路径文本集。

20、s5步骤,构造有可解释性对话的上下文示例,用于在chatgpt生成的患者与医生的问诊对话中加入可解释性,即在医生的回复后加入医生回复的理由,具体包括,

21、s51:挑选生成的对话集中部分高质量的数据,挑选过程由chatgpt选择和人工核验两部分组成,其中,chatgpt选择过程,使用语句“我需要你仔细阅读一段问诊对话和一条诊断路径,你的任务是判断这段对话是否完整地映射了诊断路径“作为prompt,调用chatgpt接口生成模型认可的路径;人工核验过程用于对于模型认可的路径,再经过人工核验,确保对话数据的质量。

22、s52:使用langchain为对话数据加入可解释性,prompt由所述对话数据、问诊路径和任务描述组成,其中,任务描述是”我需要你根据医学文献中的相关内容,在这段问诊对话中的医生回复后加入解释“,通过langchain将文献分片,将相关章节作为外接知识让模型生成医生问诊的解释,langchain将文献进行编码,与prompt进行相似度的计算,生成新的prompt并调用chatgpt得到回复,该回复是有解释的对话数据,可作为few shotlearning的上下文示例。

23、s6步骤,以few shot learning的方式生成最终的有可解释性的对话数据,具体来说,构造可解释性提示,可解释性提示由上下文学习示例、任务描述和诊断路径三部分组成,其中,上下文学习示例是s52中生成的有解释的对话数据,任务描述用于告知语言模型当前任务的背景并引导模型按照期望的方式生成对话数据,诊断路径是所述构造决策树后生成的结构化诊断路径,然后使用langchain将文献中的诊断知识与语言模型相连接,从而为模型生成解释提供知识来源。

24、从以上技术方案可以看出,本发明通过构建决策树将文献中的诊疗过程表达为用自然语言描述的结构化诊疗路径,再通过两次调用chatgpt生成包含医生回复解释理由的对话数据集。该方法所构造的具有可解释性理由的对话数据集的优点:(1)高质量,通过决策树构造的数据集遵循医疗的诊断路径,解决了网络爬取和真实数据集中存在部分无意义或错误的对话数据;(2)规模大,利用chatgpt可以构造基于不同病种的大规模数据集,解决了现有真实医疗对话数据集规模较小的问题。所构造的数据集可以用于基于大模型的各类对话任务中,帮忙模型对医患对话的理解,提高对话生成任务、推理任务的准确性。对话数据集可以作为评估大语言模型在医疗领域的一种指标,也可以用于语言模型在医疗领域的微调。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1