1.本发明涉及医学辅助诊断系统领域,尤其涉及一种基于超声影像组学特征的乳腺癌中医证型预测模型的构建方法及其系统。
背景技术:2.乳腺癌是女性常见恶性肿瘤,中医药干预可有效改善乳腺癌患者的免疫状态、提高生活质量、降低复发转移率、延长无病生存期。辨证论治是中医治疗的核心,客观合理的辨证分型有利于指导临证遣方用药,提高治疗效果,发挥中医药优势。但是目前对于乳腺癌的辨证分型缺乏规范与客观标准,多依赖个人经验上,可操作性、可重复性较差,导致其疗效不确切,限制了中医药在乳腺癌治疗的应用。
技术实现要素:3.基于以上背景,本发明提供了一种基于超声影像组学特征的乳腺癌中医证型预测模型的构建方法及其系统,通过建立的模型可对患者所述中医证型进行判断,并且根据所判断证型给出对应的中药方剂建议。
4.本发明的技术方案为:
5.一种基于超声影像组学特征的乳腺癌中医证型预测模型的构建方法,所述乳腺癌中医证型划分为肝郁痰凝型、冲任失调型、正虚毒炽型;
6.其构建包括如下步骤:
7.s1:获取乳腺癌患者的基本信息,并进行编码数字化;
8.s2:获取对乳腺癌患者的乳腺病灶进行超声检查的灰阶超声图像;
9.s3:对灰阶超声图像进行分析,获取影像组特征;
10.s4:采用xgboost算法以影像组特征、数字化的患者基本信息为变量,以乳腺癌证型为标签构建 xgboost乳腺癌中医证型预测模型;
11.s5:另获取乳腺癌患者的基本信息、影像组特征输入xgboost乳腺癌中医证型模型中进行训练和测试,获得乳腺癌中医证型预测模型。
12.进一步地,将样本测试数据输入所述乳腺癌中医证型预测模型后,所述模型可通过predict_proba接口输出每个样本每个类别下的概率,即可分别预测三个证型的概率值,概率值最高对应的证型即是预测的证型。
13.进一步地,步骤s1中的乳腺癌患者的基本信息包括性别、年龄、职业、生活环境、有无家族史、饮食习惯、睡眠、症状、体征。
14.进一步地,步骤s3中对灰阶超声图像分析包括肿块分割、影像特征提取与筛选。
15.进一步地,所述肿块分割是采用itk-snap软件对病灶进行手动分割,沿着病灶的边界绘制病灶的感兴趣区域。
16.进一步地,所述影像特征提取与筛选的步骤包括:
17.1)采用pyradiomics对病灶的影像组特征进行提取;提取的影像组特征可分为四组:形态特征、密度特征、纹理特征、小波特征;
18.2)将编码数字化的患者的基本信息与提取的影像组学特征进行预处理,包括:手动删除提取出来的内容相同的字符串信息;对多维数组将其按列拆封为一维数据,以便后续建模;采用方差分析法,对方差为零的数据进行过滤;然后对剩余的数据进行标准化处理,并采用最小绝对收缩和选择算子(lasso)进行特征筛选,将筛选出来的特征作为影像组学标签进行建模。
19.进一步地,lasso共筛选出13个与乳腺癌证型相关影像组学特征,分别为:
20.original_glszm_largeareahighgraylevelemphasis
21.wavelet-lh_glszm_largearealowgraylevelemphasis
22.wavelet-hl_glrlm_shortrunlowgraylevelemphasis
23.wavelet-hl_gldm_lowgraylevelemphasis
24.square_glcm_idmn
25.square_glrlm_shortrunemphasis
26.logarithm_firstorder_median
27.logarithm_gldm_dependencevariance
28.logarithm_ngtdm_busyness
29.gradient_ngtdm_busyness
30.gradient_ngtdm_complexity
31.lbp-2d_glszm_smallareaemphasis
32.diagnostics_mask-interpolated_boundingbox2。
33.本发明还提供了一种基于超声影像组学特征的乳腺癌中医证型预测系统,其包括信息采集模块、证型预测模块、输出模块;
34.所述信息采集模块获取乳腺癌患者的基本信息;
35.所述证型预测模块包括基本信息模块和超声影像组学模块:所述基本信息模块将患者的基本信息进行编码数字化;所述超声影像组学模块包括对患者灰阶超声图像进行影像组特征提取,并将提取出的影像组特征和数字化的患者基本信息输入上述所述乳腺癌中医证型预测模型;
36.所述输出模块包括对经过乳腺癌中医证型预测模型预测的证型结果和对应的中药方剂建议。
37.进一步地,所述基本信息包括性别、年龄、职业、生活环境、有无家族史、饮食习惯、睡眠、症状、体征。
38.采用上述技术方案,具有的有益效果如下:
39.本发明将超声影像技术与中医的辨证分型相结合,根据乳腺癌影像组学特征反馈的肿瘤的形态、边界、内部回声、血流等信息与中医分型相关性,构建了可以对乳腺癌证型进行预测的模型,根据输入的患者的基本信息及其灰阶超声图像即可输出证型预测结果,并且可给出对应的中药方剂建议,为中医药在乳腺癌治疗的应用提供了理论辅助诊断依据,可操作性、重复性强。
附图说明
40.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
41.图1为本发明实施例中采用的xgboost算法流程图;
42.图2为本发明实施例的系统框架示意图。
具体实施方式
43.下面通过具体实施方式对本发明作进一步详细的说明:
44.实施例1:一种基于超声影像组学特征的乳腺癌中医证型预测系统,如图1所示,包括信息采集模块、证型预测模块、输出模块;
45.所述信息采集模块获取乳腺癌患者的基本信息;所述基本信息包括性别、年龄、职业、生活环境、气候条件,有无家族史、饮食习惯、睡眠、症状、体征。
46.所述证型预测模块包括基本信息模块和超声影像组学模块:所述基本信息模块将患者的基本信息进行编码数字化;所述超声影像组学模块包括对患者灰阶超声图像进行影像组特征提取,并将提取出的影像组特征和数字化的患者基本信息输入所述乳腺癌中医证型预测模型;
47.所述输出模块包括对经过乳腺癌中医证型预测模型预测的证型结果和对应的中药方剂建议。
48.具体实施时,本发明的系统可以通过特定接口与医院的pacs相连,从pacs系统中直接获取患者的乳腺超声图像。
49.本实施例的乳腺癌中医证型预测模型的构建步骤如下:
50.所述乳腺癌中医证型划分为肝郁痰凝型、冲任失调型、正虚毒炽型;本发明中对乳腺癌中医证型划分根据国家中医药管理局制定的《中医病症诊断疗效标准》中有关乳腺癌的划分标准来进行。
51.其构建包括如下步骤:
52.s1:获取乳腺癌患者的基本信息,并进行编码数字化;
53.s2:获取对乳腺癌患者的乳腺病灶进行超声检查的灰阶超声图像;
54.s3:对灰阶超声图像进行分析,获取影像组特征;
55.本步骤中对灰阶超声图像分析包括肿块分割、影像特征提取与筛选,所述肿块分割是采用itk-snap 软件对病灶进行手动分割,沿着病灶的边界绘制病灶的感兴趣区域。
56.所述影像特征提取与筛选的步骤包括:
57.1)采用pyradiomics对病灶的影像组特征进行提取;提取的影像组特征可分为四组:形态特征、密度特征、纹理特征、小波特征;此可反映出肿块的形态、大小、内部回声、纹理等组织结构方面的信息。
58.2)将编码数字化的患者的基本信息与提取的影像组学特征进行预处理,包括:手动删除提取出来的内容相同的字符串信息;对多维数组将其按列拆封为一维数据,以便后续建模;采用方差分析法,对方差为零的数据进行过滤;然后对剩余的数据进行标准化处
理,并采用最小绝对收缩和选择算子(lasso)进行特征筛选,将筛选出来的特征作为影像组学标签进行建模。
59.本步骤中筛选出的有乳腺癌证型相关影像组学特征有13个,分别为:
60.original_glszm_largeareahighgraylevelemphasis
61.wavelet-lh_glszm_largearealowgraylevelemphasis
62.wavelet-hl_glrlm_shortrunlowgraylevelemphasis
63.wavelet-hl_gldm_lowgraylevelemphasis
64.square_glcm_idmn
65.square_glrlm_shortrunemphasis
66.logarithm_firstorder_median
67.logarithm_gldm_dependencevariance
68.logarithm_ngtdm_busyness
69.gradient_ngtdm_busyness
70.gradient_ngtdm_complexity
71.lbp-2d_glszm_smallareaemphasis
72.diagnostics_mask-interpolated_boundingbox2。
73.s4:采用xgboost算法以影像组特征、数字化的患者基本信息为变量,以乳腺癌证型为标签构建 xgboost乳腺癌中医证型预测模型;
74.本步骤中采用的xgboost算法流程图见图1,xgboost算法是一类合成提升算法,算法的底层是由一些列弱分类器组成,本发明选择cart树(gbtree)作为弱分类器,设置评估指标为"mlogloss"(多分类交叉熵损失),目标函数为"multi:softprob",进行模型训练,使xgboost向着目标函数最小化的方向进行迭代,采用tpe(tree-structuredparzen estimatorapproach)进行参数优化,筛选性能最优的参数用于优化模型。
75.s5:另获取训练数据(乳腺癌患者的基本信息、影像组特征)输入xgboost乳腺癌中医证型模型中进行训练和测试,获得乳腺癌中医证型预测模型。
76.具体的将另获取的训练数据输入xgboost乳腺癌中医证型预测模型,不断优化模型性能及泛化能力,提高模型准确率,即可获得准确定更好的乳腺癌中医证型预测模型。
77.具体地,本实施例中针对所预测的不同的证型可输入对应的中药方剂建议,如预测为肝郁痰凝,可建议采用神效瓜蒌散合开郁散加减,如为冲任失调型,可建议采用二仙汤合开郁散加减;如为正虚毒炽型,可建议为八仙汤加减。
78.本发明采用乳腺癌中医证型预测模型对患者进行证型进行预测预时,将患者的基本信息及其影像组学输入模型后,分别输出针对三个证型的概率值,概率值最高对应的证型即是预测的证型,所输出的概率值越接近100%,则预测准确的把握越大(范围从33.34%~100%)。
79.例如临床应用实践例之一:
80.陈某,将其基本信息及其超声图像图像输入系统后,系统的超声影像组学模块自动提取出相关超声影像组学特征,提取的具体的特征如下:
81.original_glszm_largeareahighgraylevelemphasis:1267.69696969697
82.wavelet-lh_glszm_largearealowgraylevelemphasis:1.32909710006531
83.wavelet-hl_glrlm_shortrunlowgraylevelemphasis:0.0158492903789278
84.wavelet-hl_gldm_lowgraylevelemphasis:0.0149980453704391
85.square_glcm_idmn:0.992996469322629
86.square_glrlm_shortrunemphasis:0.395782919470912
87.logarithm_firstorder_median:-285.195120009583
88.logarithm_gldm_dependencevariance:8.44044238030004
89.logarithm_ngtdm_busyness:0.668104000324874
90.gradient_ngtdm_busyness:2.65582869511441
91.gradient_ngtdm_complexity:0.383841768438097
92.lbp-2d_glszm_smallareaemphasis:0.0000334124093688396
93.diagnostics_mask-interpolated_boundingbox2:10;
94.将患者的基本信息和提取的影像组学特征经模型计算,输出模块中得到证型预测概率值为[0.13034830.6452024 0.2244493],表明预测为肝郁痰凝型、冲任失调型、正虚毒炽型的概率值分别为13.03483%, 64.52024%,22.44493%,因冲任失调型概率最高,故可以预测出此患者的乳腺癌中医证型为冲任失调型,系统输出模块输出对应的中药方剂建议采用二仙汤合开郁散加减。而此患者后经专家组会诊辨证确认为冲任失调型。
[0095]
实施例2:选取113名来院进行治疗的乳腺癌患者,将其通过本发明进行辨证的结果与专家会诊辨证结果进行比较,结果见表1:
[0096]
表1乳腺癌中医辨证分型多分类模型的验证结果
[0097][0098]
以上所述仅是本发明的优选实施方式,应当指出:对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本发明的保护范围。