基于结构熵层次知识树的检索增强方法及其系统

文档序号:40852667发布日期:2025-02-06 17:29阅读:2来源:国知局
基于结构熵层次知识树的检索增强方法及其系统

本申请实施例涉及电数据处理,尤其涉及基于结构熵层次知识树的检索增强方法及其系统。


背景技术:

1、在现代医学技术领域中,医学图像处理技术能够帮助医生更了解患者的生理状态,有助于及时发现和诊断各种疾病,有着重要的临床价值和实际意义。尤其是癌症的早期诊断与患者咨询方面,这一问题尤为突出。医生和患者常常面临无法准确判断癌症发展阶段和病情,这可能导致错过最佳治疗时机,严重危及患者的生命健康安全。因此,提升医学信息的提取和生成质量显得尤为重要。

2、目前,检索增强生成(retrieval-augmented generation,rag)方法通过结合信息检索和自然语言生成,能够从大规模文档集中提取信息并生成答案,能够快速提取病症相关的医学信息,以帮助医生和患者准确判断病情。

3、然而,当面对跨主题的全局性问题时,传统rag方法具有明显的局限性,。尤其是在需要对多个文档和不同领域进行跨越性总结时,现有方法难以有效生成高质量的答案,导致信息整合和知识提取的效率低下。


技术实现思路

1、为了克服上述技术缺陷,本申请实施例中提供了基于结构熵层次知识树的检索增强方法及其系统。

2、第一方面,本申请实施例中提供了一种基于结构熵层次知识树的检索增强方法,包括以下步骤:

3、s1、数据采集及其预处理:

4、以食道癌为数据收集的方向,采集与食道癌相关的原始文本数据和原始医学影像数据,并对采集到的数据进行预处理得到文本数据集和图像数据集;

5、s2、层次知识树构建:

6、利用大语言模型llm对文本数据集和图像数据集进行图构建分别得到相应的图结构,并使用基于结构熵的层次化聚类hcse算法将得到的图结构直接生成多层次的社区结构并构建层次知识树;

7、s3、社区总结生成:

8、利用大语言模型llm对层次知识树中每一个社区的节点度数和社区密度进行分析生成相应的社区总结并按照信息优先级排序,以便快速获取重要数据;

9、s4、查询处理与答案生成:

10、当收到有关食管癌诊断的查询请求时,结合层次知识树中的社区总结,按照顶层社区-中间层社区-底层社区的顺序进行层次化检索生成局部答案,通过map-reduce方式对所有的局部答案进行整合生成最终答案。

11、可选的,在第一方面的一种可能的实现方式中,

12、使用文本数据集构建的图结构可以是文档图,在文档图中以提取到的实体作为节点,以实体之间的关系作为边,以与食道癌诊断相关的协变量作为实体的节点信息;

13、其中实体包括症状、患者特征和临床试验信息;协变量包括声明、属性和时间跨度,声明用于描述与实体相关的具体陈述或观点,属性用于表示实体的具体特征,时间跨度用于表示患者接受治疗或疾病进展的时间。

14、可选的,在第一方面的一种可能的实现方式中,

15、使用图像数据构建的图结构可以是交互图,交互图是通过联合最大化结构熵和最小化生成权重与原始权重分布之间的相对熵构建,生成权重是从图像的完全图生成交互图的权重,原始权重是在实际中使用的交互图的权重。

16、可选的,在第一方面的一种可能的实现方式中,

17、多层次的社区结构中包括顶层社区、中间层社区和底层社区,中间层社区的层数为至少两层;

18、其中顶层社区为食道癌领域的主要主题,生成文档级颗粒度的社区;中间层社区为通过hcse算法对顶层社区进行细化、逐层递归划分后生成的实体级颗粒度的子社区;底层社区为通过hcse算法对中间层社区生成特征级颗粒度的子社区。

19、可选的,在第一方面的一种可能的实现方式中,

20、层次知识树中包括根节点、中间节点和叶子节点;

21、其中根节点代表整个医学文档集合,象征着食管癌的整体研究领域,包含所有相关文档和信息;中间节点是对根节点下的主题进行细分,划分出各个重要主题和子主题;叶子节点对应底层社区中的具体文档、病例或相关研究,提供详细的信息和数据。

22、可选的,在第一方面的一种可能的实现方式中,

23、社区总结是对每一个社区中包含的食道癌诊断相关信息的总体概括,节点度数为与节点相连的边的数量,社区密度是实体之间的关系强度大小,信息优先级与节点度数和社区密度之间成正相关关系。

24、可选的,在第一方面的一种可能的实现方式中,

25、map-reduce方式包括map和reduce两个阶段;

26、通过map-reduce方式对所有的局部答案进行整合包括:

27、在map阶段,对每个局部答案进行相关度评分和帮助度评分,最终得到综合评分,其中相关度评分用于评估局部答案中关键词与查询关键词的重叠度,帮助度评分用于评价解决用户问题或提供有用信息方面的有效性;

28、在reduce阶段,根据综合评分筛选出最优局部答案作为最终答案。

29、可选的,在第一方面的一种可能的实现方式中,

30、原始文本数据包括:电子病历emr、实验室检验结果、医学文献、病理报告、患者的临床症状和治疗记录;

31、原始医学影像数据包括ct图像、mri图像和内镜图像。

32、可选的,在第一方面的一种可能的实现方式中,

33、数据预处理包括对原始文本数据和原始图像数据的处理;

34、对原始文本数据的处理具体包括:对原始文本数据进行清洗,并对清洗后的数据进行标准化和归一化处理得到标准化和归一化的文本数据集;

35、对原始图像数据的处理具体包括:通过对原始图像数据进行尺寸、方向、亮度和对比度的调整和添加噪声以增强图像数据的多样性,并使用相关系数进行特征选择,使用选取后的特征进行特征组合得到新特征,从而形成图像数据集;

36、其中相关系数具体为表征患者的生理特征与食道癌发生率之间的相关性的系数;特征组合得到的新特征为与选取后的特征相比可以更好反映患者整体健康状况的特征。

37、第二方面,本申请实施例中提供了一种基于结构熵层次知识树的检索增强系统,其特征在于,检索增强系统用于执行如上第一方面及其实现方式的任一项中所述的检索增强方法。

38、本申请实施例中采用上述技术方案可以实现以下技术效果:基于大语言模型llm结合层次化聚类hcse算法和map-reduce式答案生成,有效处理大规模数据集合中的全局性和局部性查询;通过层次知识树,能够快速定位相关主题,并从中提取关键信息,能够清晰地组织和展示信息,使得用户能够在复杂的信息环境中迅速找到所需的答案,同时,在查询时使得用户在查询不同层次的信息时,不论是广泛的领域概述还是具体的细节数据,都能获得高质量的自然语言回答,层次知识树的设计使得信息的组织和检索变得更加高效,提升了用户体验。通过对医学文献和临床案例的有效整合,系统能够为医生和研究人员提供及时、准确的支持。



技术特征:

1.一种基于结构熵层次知识树的检索增强方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的检索增强方法,其特征在于,

3.根据权利要求1或2所述的检索增强方法,其特征在于,

4.根据权利要求1所述的检索增强方法,其特征在于,

5.根据权利要求1或4所述的检索增强方法,其特征在于,

6.根据权利要求2所述的检索增强方法,其特征在于,

7.根据权利要求1所述的检索增强方法,其特征在于,

8.根据权利要求1所述的检索增强方法,其特征在于,

9.根据权利要求1或8所述的检索增强方法,其特征在于,

10.一种基于结构熵层次知识树的检索增强系统,其特征在于,检索增强系统用于执行如上权利要求1-9任一项中所述的检索增强方法。


技术总结
本申请公开了基于结构熵层次知识树的检索增强方法及其系统,通过将层次化聚类HCSE算法与RAG结合,构建多层次逐层细化信息的社区结构,提升答案的准确性和生成效率。该方法具体包括:利用大语言模型LLM对文本数据集和图像数据集进行图构建分别得到相应的图结构,并使用基于结构熵的层次化聚类HCSE算法将得到的图结构直接生成多层次的社区结构并构建层次知识树;利用大语言模型LLM对层次知识树中每一个社区的节点度数和社区密度进行分析生成相应的社区总结并按照信息优先级排序;结合层次知识树中的社区总结,按照顶层社区‑中间层社区‑底层社区的顺序进行层次化检索生成局部答案,通过Map‑Reduce方式对所有的局部答案进行整合生成最终答案。

技术研发人员:彭浩,王杰聪,苏丁力,解勤思,祁雪,殷飞
受保护的技术使用者:北京航空航天大学
技术研发日:
技术公布日:2025/2/5
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1