一种基于决策树的乳腺肿瘤预测方法及系统与流程

文档序号:31860248发布日期:2022-10-19 04:35阅读:134来源:国知局
一种基于决策树的乳腺肿瘤预测方法及系统与流程

1.本技术涉及数据处理领域,尤其涉及一种基于决策树的乳腺肿瘤预测方法及系统。


背景技术:

2.随着生活水平的提高,人们对于健康问题越来越重视。据统计,全球乳腺癌患病率呈现出逐年上升的趋势,复合年增长率为3.1%,预计在2025年达到247万人,并保持稳定增长。乳腺癌通常发生在乳房腺上皮组织,早期表现是在患处出现单发的、无痛性并呈进行性生长的小肿块,发展至晚期,表面皮肤受侵犯,出现皮肤硬结,甚至皮肤破溃形成溃疡。
3.目前,通过技术手段对乳腺肿瘤进行早期发现、早期治疗来有效提高乳腺癌患者的生存率。通过传统屏胶摄影技术,将x线转变为光信号进而获得乳腺图像,通过对图像进行分析得到乳腺肿瘤的情况,从而进行针对性治疗。
4.然而,相较于其他恶性肿瘤而言,乳腺肿瘤的发展非常缓慢,潜伏期较长,一般在5-10年,无法及时发现,从而导致延误治疗时间,造成患者病情加重,同时,正常乳腺细胞演变为肿瘤细胞受到多种因素影响,也对乳腺肿瘤的预测造成了困难。现有技术中存在无法智能化预测乳腺肿瘤,预测准确度低的技术问题。


技术实现要素:

5.本技术的目的是提供一种基于决策树的乳腺肿瘤预测方法及系统,用以解决现有技术中存在无法智能化预测乳腺肿瘤,预测准确度低的技术问题。
6.鉴于上述问题,本技术提供了一种基于决策树的乳腺肿瘤预测方法及系统。
7.第一方面,本技术提供了一种基于决策树的乳腺肿瘤预测方法,其中,所述方法包括:基于大数据获取患者信息数据库,其中,所述患者信息数据库中包括数字化影像集合和患者病历信息集合;对所述数字化影像集合进行预处理,得到乳腺密度信息集合;对所述患者病历信息集合按照变量属性进行标记,得到患者标记变量集合;将所述乳腺密度信息集合输入密度决策树中,得到关联密度信息集合;将所述患者标记变量集合输入关联决策树中进行筛选,得到关联变量集合;将所述关联密度信息集合和所述关联变量集合作为训练数据,训练初步危险度评分模型,得到危险度评分模型;将目标患者信息输入所述危险度评分模型中,得到危险概率值。
8.另一方面,本技术还提供了一种基于决策树的乳腺肿瘤预测系统,其中,所述系统包括:信息获得模块,所述信息获取模块用于基于大数据获取患者信息数据库,其中,所述患者信息数据库中包括数字化影像集合和患者病历信息集合;预处理模块,所述预处理模块用于对所述数字化影像集合进行预处理,得到乳腺密度信息集合;标记模块,所述标记模块用于对所述患者病历信息集合按照变量属性进行标记,得到患者标记变量集合;关联密度模块,所述关联密度模块用于将所述乳腺密度信息集合输入密度决策树中,得到关联密度信息集合;筛选模块,所述筛选模块用于将所述患者标记变量集合输入关联决策树中进
行筛选,得到关联变量集合;模型训练模块,所述模型训练模块用于将所述关联密度信息集合和所述关联变量集合作为训练数据,训练初步危险度评分模型,得到危险度评分模型;危险概率值获得模块,所述危险概率值获得模块用于将目标患者信息输入所述危险度评分模型中,得到危险概率值。
9.本技术中提供的一个或多个技术方案,至少具有如下技术效果或优点:本技术通过根据大数据得到患者信息数据库,其中,患者信息数据库中包括数字化影像集合和患者病历信息集合,然后对数字化影像集合进行预处理,得到乳腺密度信息集合,进而对患者病历信息集合按照变量属性进行标记,得到患者标记变量集合,将乳腺密度信息集合输入密度决策树中,得到关联密度信息集合,将患者标记变量集合输入关联决策树中进行筛选,得到关联变量集合,然后通过将关联密度信息集合和关联变量集合作为训练数据,训练初步危险度评分模型,得到危险度评分模型,然后将目标患者信息输入危险度评分模型中,得到危险概率值。达到了提高乳腺肿瘤预测的智能化程度,提高预测的准确度的技术效果。
附图说明
10.为了更清楚地说明本技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是示例性的,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
11.图1为本技术实施例提供的一种基于决策树的乳腺肿瘤预测方法的流程示意图;图2为本技术实施例提供的一种基于决策树的乳腺肿瘤预测方法中对所述数字化影像集合进行预处理的流程示意图;图3为本技术实施例提供的一种基于决策树的乳腺肿瘤预测方法中将所述患者标记变量集合输入关联决策树中进行筛选的流程示意图;图4为本技术一种基于决策树的乳腺肿瘤预测系统的结构示意图;附图标记说明:信息获得模块11,预处理模块12,标记模块13,关联密度模块14,筛选模块15,模型训练模块16,危险概率值获得模块17。
具体实施方式
12.本技术通过提供一种基于决策树的乳腺肿瘤预测方法及系统,解决了现有技术中存在无法智能化预测乳腺肿瘤,预测准确度低的技术问题。达到了提高乳腺肿瘤预测的智能化程度和准确度的技术效果。
13.本技术技术方案中对数据的获取、存储、使用、处理等均符合国家法律法规的相关规定。
14.下面,将参考附图对本技术中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本技术的一部分实施例,而不是本技术的全部实施例,应理解,本技术不受这里描述的示例实施例的限制。基于本技术的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。另外还需要说明的是,为了便于描述,附图中仅示出了与本技术相关的部分而非全部。
15.实施例一如图1所示,本技术提供了一种基于决策树的乳腺肿瘤预测方法,其中,所述方法包括:步骤s100:基于大数据获取患者信息数据库,其中,所述患者信息数据库中包括数字化影像集合和患者病历信息集合;具体而言,所述患者信息数据库是基于大数据进行查找收集得到的患有乳腺肿瘤的患者的相关信息库。所述数字化影像集合是指对所述患者进行影像诊断时产生的图像集合。可选的,影像诊断方法包括:数字化x线乳腺摄影,ct,超声,热层析成像技术及mri等。所述患者病历信息集合是患者的基本信息和患者在医院诊断治疗全过程的原始记录。由此,实现了对患者信息的全方位收集的目标,达到了为后续进行肿瘤预测提供基础数据的技术效果。
16.步骤s200:对所述数字化影像集合进行预处理,得到乳腺密度信息集合;进一步的,如图2所示,所述对所述数字化影像集合进行预处理,本技术实施例步骤s200还包括:步骤s210:通过提取所述数字化影像集合中的组织厚度,获得组织厚度信息集合;步骤s220:按照预设厚度阈值对所述组织厚度信息集合进行筛选,得到筛选厚度集合;步骤s230:根据所述筛选厚度集合,得到所述乳腺密度信息集合。
17.具体而言,通过对所述数字化影像集合中的检测到的乳腺组织进行厚度的提取,得到乳腺组织厚度数据的汇总结果,即所述组织厚度信息集合。女性乳房内脂肪、结缔组织和上皮组织的含量不同,对应的乳腺密度也不相同。通过获得不同组织的厚度,来确定组织分布情况,从而可以得到乳腺密度情况。所述预设厚度阈值是预先设置的厚度分布情况的最大值,满足所述预设厚度阈值的情况,表明属于致密型乳腺。因此通过所述预设厚度阈值对所述组织厚度信息集合进行筛选,将不同的组织厚度信息进行归类汇总,即所述筛选厚度集合。进而,根据所述筛选厚度集合,可以得到乳腺密度信息集合。由此,达到了通过获得乳腺密度信息,为根据乳腺密度信息进行乳腺肿瘤预测提供了分析数据的技术效果。
18.步骤s300:对所述患者病历信息集合按照变量属性进行标记,得到患者标记变量集合;具体而言,所述患者病历信息集合包含了患者针对病因进行检测后得到的信息数据,对于肿瘤的生成产生影响因素有很多种,影响程度也不同。通过对所述患者病历信息集合中与肿瘤相关的变量,按照变量的属性进行标记,便于后续进行关联程度判断。其中,所述变量属性包括:连续型变量和分类变量。由此,得到所述患者标记变量集合。为后续进行变量处理提供分类依据,从而达到提高变量处理的准确度的技术效果。
19.步骤s400:将所述乳腺密度信息集合输入密度决策树中,得到关联密度信息集合;具体而言,所述密度决策树是用来对所述乳腺密度进行分类的功能模型,通过按照不同的密度将所述乳腺密度信息分为:致密型乳腺,低密型乳腺和脂肪型乳腺。乳房密度对于乳腺肿瘤的检测效果相关联,密度越高,对于乳腺诊断的敏感度越低,因此,致密型乳腺对于乳腺肿瘤的预测有着十分重要的影响。通过所述密度决策树筛选出致密型乳腺,将其对应的信息进行汇总,得到所述关联密度信息集合。由此,实现了对乳腺密度进行分析的
目标,为后续进一步确定乳腺密度对肿瘤的影响程度提供了数据。
20.步骤s500:将所述患者标记变量集合输入关联决策树中进行筛选,得到关联变量集合;进一步的,如图3所示,将所述患者标记变量集合输入关联决策树中进行筛选,本技术实施例步骤s500还包括:步骤s510:根据所述患者病历信息集合,得到患者一级亲属是否患有乳腺恶性肿瘤信息,并作为上层区分特征;步骤s520:提取所述患者病历信息集合中的患者年龄数据,得到患者年龄数据集,并作为中层区分特征;步骤s530:提取所述患者病历信息集合中所述患者生活习惯数据,得到患者生活习惯数据集,并作为下层区分特征;步骤s540:将所述上层区分特征作为决策树的第一区分特征信息;步骤s550:基于所述第一区分特征信息和所述患者病历信息集合的递归算法,构建所述关联决策树。
21.具体而言,根据所述患者一级亲属是否患有乳腺恶性肿瘤,可以对所述患者病历信息集合进行分类,得到上层区分特征,根据患者年龄数据集对所述患者病历信息集合进行分类,得到中层区分特征;根据所述患者生活习惯数据集,对所述患者病历信息集合进行分类,得到下层区分特征。其中,所述患者生活习惯数据集包括:bmi数据,长期不良情绪,吸烟指数和睡眠质量。
22.具体的,通过应用“艾森克情绪性测评量表”对情绪进行评价,如果长期存在自卑感,抑郁性,焦虑,强迫,自主性,疑病症,自罪感七项得分均位于中间平均水平或界限右侧,表示情绪平稳;长期存在≥1项且得分位于界线左侧者,即为情绪不良者。吸烟指数为每天吸烟支数与吸烟年数乘积。睡眠质量差的评价方法为利用《匹兹堡睡眠质量评分》中评分大于6分者。
23.具体的,将所述上层区分特征作为决策树的第一区分特征信息,通过对第一区分特征进行优先分类,继而按照中层区分特征,下层区分特征的顺序,以此对各特征进行递归算法的分类,最终构建所述关联决策树的构建。通过所述关联决策树对所述患者病历信息集合进行分类学习,使得快速的对其进行准确分类。
24.进一步的,所述构建所述关联决策树,本技术实施例步骤s550还包括:步骤s551:遍历所述患者病历信息集合,将患者病历信息输入所述关联决策树中,获得第一分类结果;步骤s552:根据所述患者病历信息集合获取高风险患者信息,得到高风险患者数据集;步骤s553:对所述高风险患者数据集和所述第一分类结果进行匹配,得到高风险匹配结果;步骤s554:根据所述高风险匹配结果提取所述关联决策树中的分级特征,得到高风险分级特征集;步骤s555:匹配所述患者标记变量集合和所述高风险分级特征集,得到所述关联变量集合。
25.具体而言,通过将所述患者病历信息集合中的每个患者病历信息输入所述关联决策树中,得到按照不同的分级特征将所述患者病历信息集合划分为更细的集合,即所述第一分类结果。然后对所述患者病历信息集合中肿瘤发展程度较高的患者信息进行提取,得到所述高风险患者数据集。通过匹配所述高风险患者数据集与所述第一分类结果中的患者信息,得到所述高风险匹配结果,然后逆向提取分级特征,得到所述高风险分级特征集。所述高风险分级特征集是根据高风险分级特征可以得到高风险患者的特征集合。通过将所述高风险分级特征集与所述患者标记变量集合进行匹配,可以得到所述关联变量集合。由此,实现了筛选出与肿瘤发展高度相关的变量的目标,达到了提高分析效率,提高肿瘤预测的准确度的技术效果。
26.步骤s600:将所述关联密度信息集合和所述关联变量集合作为训练数据,训练初步危险度评分模型,得到危险度评分模型;进一步的,将所述关联密度信息集合和所述关联变量集合作为训练数据,训练初步危险度评分模型,本技术实施例步骤s600还包括:步骤s610:将关联密度信息和关联变量作为自变量,是否患乳腺癌为因变量,进行多元逻辑回归分析,得到所述初步危险度评分模型;步骤s620通过将所述关联密度信息集合和所述关联集合输入所述初步危险度评分模型中进行训练,得到所述危险度评分模型。
27.具体而言,所述多元逻辑回归分析是用来在因变量为多种情况时,将各种自变量进行比较分析,估计影响程度。所述初步危险度评分模型是初步确定各个自变量对肿瘤生成的影响程度的模型。进而,通过将所述关联密度信息集合和所述关联集合输入所述初步危险度评分模型中,对具体的参数进行确定。当所述模型趋于收敛状态时,获取参数,确定所述危险度评分模型。由此,实现了对乳腺肿瘤进行预测目标,达到了提高预测准确度和智能化程度的技术效果。
28.进一步的,所述危险度评分模型为:其中,。
29.具体而言,bmi是身体质量指数,当时,在公式中代入数值1。所述一级亲属患乳腺恶性肿瘤时,在公式中代入数值1,否则代入数值0。年龄是患者的年纪,直接在公式中代入具体的年纪数值。其中,致密型乳腺,长期不良情绪,,睡眠质量差等出现时,在公式中代入数值1,否则代入数值0。
30.步骤s700:将目标患者信息输入所述危险度评分模型中,得到危险概率值。
31.具体而言,所述目标患者是要进行乳腺肿瘤预测的任意一位患者。通过将所述目标患者信息输入到所述危险度评分模型中,通过模型的计算,可以得到所述目标患者患有乳腺肿瘤的概率值。由此,实现了对乳腺肿瘤进行预测的目标,达到了提高肿瘤预测的智能
化程度和效率的技术效果。
32.综上所述,本技术所提供的一种基于决策树的乳腺肿瘤预测方法具有如下技术效果:1.本技术通过根据大数据来构建患者信息数据库,对患者信息数据库中的数字化影像集合进行预处理,得到乳腺密度信息集合,然后对患者病历信息集合按照变量属性进行标记,得到患者标记变量集合,将乳腺密度信息集合输入密度决策树中,得到关联密度信息集合,然后将患者标记变量集合输入关联决策树中进行筛选,得到关联变量集合,进而将关联密度信息集合和关联变量集合作为训练数据,训练初步危险度评分模型,得到危险度评分模型,然后将目标患者信息输入所述危险度评分模型中,得到危险概率值。达到了构建智能预测乳腺肿瘤的模型,提高肿瘤预测的效率和准确度的技术效果。
33.2.本技术通过提取数字化影像集合中的组织厚度,得到组织厚度信息集合,按照预设厚度阈值对组织厚度信息集合进行筛选,得到筛选厚度集合,然后根据筛选厚度集合,得到乳腺密度信息集合。达到了通过获得乳腺密度信息,为根据乳腺密度信息进行乳腺肿瘤预测提供了分析数据的技术效果。
34.实施例二基于与前述实施例中一种基于决策树的乳腺肿瘤预测方法同样的发明构思,如图4所示,本技术还提供了一种基于决策树的乳腺肿瘤预测系统,其中,所述系统包括:信息获得模块11,所述信息获取模块11用于基于大数据获取患者信息数据库,其中,所述患者信息数据库中包括数字化影像集合和患者病历信息集合;预处理模块12,所述预处理模块12用于对所述数字化影像集合进行预处理,得到乳腺密度信息集合;标记模块13,所述标记模块13用于对所述患者病历信息集合按照变量属性进行标记,得到患者标记变量集合;关联密度模块14,所述关联密度模块14用于将所述乳腺密度信息集合输入密度决策树中,得到关联密度信息集合;筛选模块15,所述筛选模块15用于将所述患者标记变量集合输入关联决策树中进行筛选,得到关联变量集合;模型训练模块16,所述模型训练模块16用于将所述关联密度信息集合和所述关联变量集合作为训练数据,训练初步危险度评分模型,得到危险度评分模型;危险概率值获得模块17,所述危险概率值获得模块17用于将目标患者信息输入所述危险度评分模型中,得到危险概率值。
35.进一步的,所述系统还包括:组织厚度信息获得单元,所述组织厚度信息获得单元用于通过提取所述数字化影像集合中的组织厚度,获得组织厚度信息集合;厚度筛选单元,所述厚度筛选单元用于按照预设厚度阈值对所述组织厚度信息集合进行筛选,得到筛选厚度集合;乳腺密度获得单元,所述乳腺密度获得单元用于根据所述筛选厚度集合,得到所述乳腺密度信息集合。
36.进一步的,所述系统还包括:
上层区分单元,所述上层区分单元用于根据所述患者病历信息集合,得到患者一级亲属是否患有乳腺恶性肿瘤信息,并作为上层区分特征;中层区分单元,所述中层区分单元用于提取所述患者病历信息集合中的患者年龄数据,得到患者年龄数据集,并作为中层区分特征;下层区分单元,所述下层区分单元用于提取所述患者病历信息集合中所述患者生活习惯数据,得到患者生活习惯数据集,并作为下层区分特征;第一区分特征信息获得单元,所述第一区分特征信息获得单元用于将所述上层区分特征作为决策树的第一区分特征信息;关联决策树构建单元,所述关联决策树构建单元用于基于所述第一区分特征信息和所述患者病历信息集合的递归算法,构建所述关联决策树。
37.进一步的,所述系统还包括:第一分类单元,所述第一分类单元用于遍历所述患者病历信息集合,将患者病历信息输入所述关联决策树中,获得第一分类结果;高风险信息获得单元,所述高风险信息获得单元用于根据所述患者病历信息集合获取高风险患者信息,得到高风险患者数据集;匹配单元,所述匹配单元用于对所述高风险患者数据集和所述第一分类结果进行匹配,得到高风险匹配结果;分级特征提取单元,所述分级特征提取单元用于根据所述高风险匹配结果提取所述关联决策树中的分级特征,得到高风险分级特征集;关联变量获得单元,所述关联变量获得单元用于匹配所述患者标记变量集合和所述高风险分级特征集,得到所述关联变量集合。
38.进一步的,所述系统还包括:初步评分模型获得单元,所述初步评分模型获得单元用于将关联密度信息和关联变量作为自变量,是否患乳腺癌为因变量,进行多元逻辑回归分析,得到所述初步危险度评分模型;初步模型训练单元,所述初步模型训练单元用于通过将所述关联密度信息集合和所述关联集合输入所述初步危险度评分模型中进行训练,得到所述危险度评分模型。
39.进一步的,所述危险度评分模型为:其中,。
40.本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,前述图1实施例一中的一种基于决策树的乳腺肿瘤预测方法和具体实例同样适用于本实施例的一种基于决策树的乳腺肿瘤预测系统,通过前述对一种基于决策树的乳腺肿瘤预测方法的详细描述,本领域技术人员可以清楚的知道本实施例中一种基于决策树的乳腺肿瘤预测系统,所以为了说明书的简洁,在此不再详述。对于实施例公开的装
置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。
41.对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本技术。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本技术的精神或范围的情况下,在其它实施例中实现。因此,本技术将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1