基于BERT和ChatGLM相似病例推荐方法与流程

文档序号：36959166发布日期：2024-02-07 13:02阅读：76来源：国知局

本发明涉及一种相似病例推荐方法。

背景技术：

1、为了更有效地利用有限的医疗资源，缩小医疗服务的不平衡现象，减少患者等待治疗的时间，以及降低患者因等待而产生的身体和心理痛苦，相似病例的推荐技术在医疗领域具有重要的应用前景。

2、相似病例推荐技术利用先进的人工智能和数据挖掘方法，通过分析大量的临床数据、医疗记录和患者信息，寻找患者之间的相似性。这种相似性不仅可以基于疾病诊断和症状表现，还可以考虑到患者的年龄、性别、病史等因素。一旦找到相似病例，医疗系统可以根据这些病例中的治疗方案和效果，为当前患者提供更加个性化和有效的医疗建议。

3、通过相似病例推荐技术，医生可以更快速地制定诊断方案，选择合适的治疗方法，并在不断积累的临床数据的指导下优化治疗策略。此外，患者也能够更早地得到治疗，减少等待时间和焦虑感，从而提高整体的医疗体验。

4、现有的相似病例推荐技术大致可以分为两类。一类方法着重利用结构化数据来建立相似性病例，例如考虑年龄、性别、诊断结果、实验室指标等因素，通过计算这些不同类别的相似性，然后根据一定的加权合成方法来生成综合相似性分数。另一类方法则更加综合地利用结构化数据和文本数据，以更全面的方式描述患者情况。对于结构化数据，例如体温、脉搏、呼吸率、血压高压和低压、性别、年龄等信息，被转化为数字特征，构建成一个多维向量。同时，对于患者的文本数据特征，例如病历记录，利用自编码器等技术进行学习，提取出其压缩的语义向量表示。这些结构化数据和文本数据的向量表示进一步合并，生成患者的综合表征向量。在这一基础上，可以采用无监督学习或监督学习的方法，寻找与目标患者表征向量相似的病例。

技术实现思路

1、本发明要解决的技术问题是：一方面，针对结构化数据的特征选择和加权合成方法需要进一步完善，以更准确地捕捉不同特征之间的关联性。此外，在非结构化数据如文本中，仍有较多潜在信息可供利用，以进一步提高相似病例推荐的精确性。另一方面，虽然融合文本数据可以丰富患者信息，但在处理和编码文本数据时，仍受制于语义表示的准确性和高维特征的挖掘，例如，“双下肢不肿”与“双下肢肿”虽然在编码上相似，但在语义上完全相反。

2、为了解决上述技术问题，本发明的技术方案是提供了一种基于bert和chatglm相似病例推荐方法，其特征在于，包括以下步骤：

3、步骤1、在相关的诊断案例中或在全局范围内，计算当前医疗记录数据与各历史医疗记录数据中半结构化数据部分、结构化数据部分中的基本属性数据部分、结构化数据部分中的检测异常数据部分以及文本数据部分的相似性分数，其中：

4、计算半结构化数据部分的相似性分数包括以下步骤：

5、步骤1a01、归一化处理：

6、对于未对齐到预设的国际疾病分类标准的半结构化数据，使用开源数据集chip-cdn练一个基于chinese-bert-wwm-ext的模型，利用该模型对医疗记录数据中的半结构化数据进行处理并最终对齐到预设的国际疾病分类标准；对于已经对齐到预设的国际疾病分类标准的半结构化数据，则使用最长字符串的对齐方式进行处理；

7、步骤1a02、计算归一化处理后的数据的相似性分数；

8、计算结构化数据部分中的基本属性数据部分的相似性分数包括以下步骤：

9、步骤1b01、对于基本属性数据部分中的连续数据类型，根据记录的分布情况，进行分箱操作，转化为类别数据；

10、对于基本属性数据部分中的类别数据，则直接使用其类别；

11、步骤1b02、对经过步骤1b01处理的连续数据类型以及类别数据进行组合拼接形成新特征数据，以空格为分隔符分隔不同数据；

12、步骤1b03、对新特征数据进行tf-idf计算，将其转换为向量；

13、步骤1b04、计算步骤1b03获得的向量的余弦相似性作为相似性分数；

14、计算结构化数据部分中的检测异常数据部分的相似性分数包括以下步骤：

15、对检测异常数据部分进行tf-idf计算，将其转换为向量，随后计算所获得向量的余弦相似性作为相似性分数；

16、计算文本数据部分的相似性分数包括以下步骤：

17、采用开源数据集chip-cdee对chatglm模型进行p-tuning v2微调，其中，其中对chip-cdee进行数据处理，构建chatglm微调的训练集；随后使用chatglm模型对文本数据部分进行临床事件抽取，从中提取有意义的结构化数据；再对提取到的结构化数据进行tf-idf计算，将其转换为向量后，计算向量的余弦相似性作为相似性分数；

18、步骤2、为步骤1计算得到的四个部分的相似性分数赋予不同的权重之后，采用加权融合计算方式获得当前医疗记录数据与各历史医疗记录数据的最终的相似性分数，从所有历史医疗记录数据中推荐相似分最高的topn份历史医疗记录数据。

19、优选地，所述半结构化数据为医疗记录数据中的文本类型诊断数据。

20、优选地，所述国际疾病分类标准为国际疾病分类icd-10北京临床版v601。

21、优选地，计算结构化数据部分中的检测异常数据部分的相似性分数具体包括以下步骤：

22、步骤1c01、获得医疗记录数据中的检测记录数据，包括检测记录数据中的检测异常数据；

23、步骤1c02、将检测异常数据与代表异常类别的预设数据进行组合，形成特征类别，其中，异常类别包括偏高、偏低；

24、步骤1c03、将步骤1c02获得的所有异常数据进行拼接形成新异常特征数据；

25、步骤1c04、对新异常特征数据进行tf-idf计算，将其转换为向量后，计算向量的余弦相似性作为相似性分数。

26、优选地，步骤2中，对于4种基本成分包括基本属性、诊断、检测异常指标和临床事件，分别赋予权重为0.2、0.4、0.2、0.2。

27、本发明中，首先，利用结构化数据，如性别、年龄、住院天数、手术史、疾病史、家族史等，进行相似性计算，将其作为综合分数的一个组成部分。其次，对于检测的异常指标计算相似分数。第三，对于半结构化数据，例如诊断，进行规范化处理，可能通过案例库的召回操作来实现。第四，针对文本数据，如入院症状描述，应用大语言模型进行事件抽取，如文本描述“双下肢不肿”经抽取后得到：“双下肢*肿*程度未描述*否定”。即使在少样本情况下，也能取得不错的抽取效果，将文本数据转化为结构化数据，从而避免语义上的歧义。最终，将这四部分的相似分数综合，权衡不同诊断的重要性，后续可以通过德尔菲法进行权重调整。

28、通过这些优化，本发明能够提升相似病例推荐技术的质量。更精细地处理结构化数据的特征选择和加权合成，充分利用半结构化数据的信息，以及通过先进的自然语言处理技术将文本数据转化为结构化数据。为相似病例推荐的准确性和实用性带来明显提升，从而为医疗资源的优化利用和患者诊疗体验的改善提供更有效的支持。

29、与现有技术方案相比，本发明具有如下优点：

30、tf-idf和余弦相似性推荐结果可解释性强："tf-idf和余弦相似性的可解释性强"指的是使用tf-idf和余弦相似性进行相似病例推荐时，可以通过分析词频、文档频率等信息，深入理解推荐结果的生成过程。tf-idf的计算方式可以展示词语在文本中的重要性，而余弦相似性的计算可以帮助理解不同向量之间的夹角，从而揭示相似性的度量。这种解释性强的特点有助于医生和决策者更好地理解推荐结果的依据，从而更加信任和有效地应用这些推荐结果来支持医疗决策。

31、结构化与非结构化数据综合利用：本发明充分考虑了患者信息的多个维度，包括结构化数据和非结构化数据。通过对结构化数据如性别、年龄等进行综合相似性计算，以及对非结构化数据如诊断进行归一化处理，综合起来，得出的相似病例更加可靠准确。

32、基于事件抽取的文本数据处理：通过采用大型语言模型chatglm进行文本数据的事件抽取，本发明在微调样本较少的情况下也能获得出色的模型性能。例如，将描述文本“双下肢不肿”转化为“双下肢*肿*程度未描述*否定”，从而消除了语义上的歧义，进一步提升了相似性匹配的可靠性。

33、通过这些优化，本发明在相似病例推荐领域具备显著的优势。不仅可以为医疗资源的优化利用提供更准确的指导，还可以为医生和患者提供更加智能和可靠的医疗决策支持，从而改善患者的诊疗体验并提高整体医疗服务的质量。

完整全部详细技术资料下载

当前第1页1 2

该技术已申请专利。仅供学习研究，如用于商业用途，请联系技术所有人。
技术研发人员：杨秋芬,沈欢,余海东,谢志宇,汤士伟,严岚,杨凯雷,黄锦松,毛志军,徐奎东,潘宁,张丽
技术所有人：万达信息股份有限公司
我是此专利的发明人

上一篇：业务处理方法、装置、电子设备和存储介质与流程
上一篇：充电场站的噪声预测方法、噪声预测装置与流程

该领域下的技术专家
如您需求助技术专家，请点此查看客服电话进行咨询。
1、司老师：1.制浆造纸 2.植物资源精细化工与化学 3.生物质精炼 4.天然产物化学
2、薛老师：1.CRISPR-Cas系统 2.基因编辑 3.基因修复 4.天然产物合成 5.单分子技术开发与应用
3、戴老师：1.天然药物（中药）合成生物学研究 2.酵母生物学与工程化研究
4、孟老师：1. 基于糖类的抗肿瘤药物的合成和活性评价及糖类疫苗的研制 2.功能糖类的化学酶法合成及构效关系研究 3.多糖及仿生材料功能的开发及应用
5、满老师：1.天然产品的提取分离与活性研究 2.天然产物活性与安全性评价 3.中药组方配伍机制研究
如您是高校老师，可以点此联系我们加入专家库。