一种瘦型nafld患者5年内肝外不良结局发生风险的预测方法
技术领域
1.本发明涉及人工智能与医疗应用领域,具体涉及一种瘦型nafld患者5年内肝外不良结局发生风险的预测方法。
背景技术:2.非酒精性脂肪肝(nafld)是一种包括非酒精性脂肪肝(nafl)、非酒精性脂肪性肝炎(nash)、进行性肝纤维化和肝硬化的肝脏疾病谱。虽然nafld在肥胖症患者中尤其常见,但越来越多的研究结果表明nafld存在于相当大比例的瘦型(lean)个体中。lean nafld患者一般无症状,通常是偶然成像发现。与非瘦型(non-lean)nafld患者相比,lean nafld有相对较低的体重和腰围。lean nafld患者拥有更为复杂的代谢谱,其倾向于年轻男性,血红蛋白水平较高,血压较低,空腹血糖和糖化血红蛋白(hba1c)水平较低的个体。另外,观察性数据也将nafld与肝外并发症的发生发展联系起来,与non-lean nafld患者相比,lean nafld病人发生心脑血管疾病、2型糖尿病等非肝内不良结局的风险持平甚至更高。鉴于nafld目前对人群健康的严重影响和不同肥胖等级的nafld发生肝外并发症的差异,对非瘦型和瘦型nafld患者发生肝外不良结局的风险评估变得尤为重要。
3.关于与lean nafld相关的肝外并发症风险的精确程度的中国人群数据仍然有限,并且对于发生lean nafld的患者采取有针对性的干预措施来预防肝外并发症仍然存在争议。虽然最近有研究表明nafld患者发生肝外并发症的风险升高,但未按肥胖等级分类(lean and non-lean)进行分层讨论,这可能导致无法精确地区分lean nafld发生肝外并发症的危险因素。同时,目前也没有预测模型型针对lean nafld患者,用于评估其进入肝外不良结局的风险。因此建立一种量化中国leannafld患者5年内发生肝外并发症风险的方法来提供更进一步的临床指导很有必要。
技术实现要素:4.本发明针对现有技术存在的问题,提供了一种瘦型nafld患者5年内肝外不良结局发生风险的预测方法,方便为更多的瘦型nafld患者提供进一步的临床预测及指导。
5.本发明中涉及到的英文简介缩写如下所示:
6.年龄,age
7.性别,sex
8.体重指数,bmi(body mass index)
9.当前吸烟,current smoking
10.收缩压,sbp(systolic blood pressure)
11.舒张压,dbp(diastolic blood pressure)
12.白细胞计数,wbc(white blood cell)
13.谷丙转氨酶,gpt(glutamic-pyruvic transaminase)
14.高密度脂蛋白,hdl(high-density lipoprotein)
15.低密度脂蛋白胆固醇,ldl-c(low-density lipoprotein)
16.总胆固醇,tc(total cholesterol)
17.甘油三酯,tg(triglyceride)
18.血清尿素氮,bun(blood urea nitrogen)
19.血红蛋白,hb(hemoglobin)
20.空腹血糖,fbg(fasting blood-glucose)
21.婚姻状态,marriage
22.锻炼状况,pa(physical activity)
23.教育水平,education
24.是否吸烟,smoking
25.饮食偏好,dietary preference
26.家族史,family history
27.为实现上述目的,本发明采用的技术方案如下:
28.本发明提供了一种瘦型nafld患者5年内肝外不良结局发生风险的预测方法,包括以下步骤:
29.(1)收集瘦型非酒精性脂肪肝患者未发生肝外不良结局时的临床基线资料、并跟踪随访其5年内是否发生肝外不良结局;
30.(2)将收集到的数据集分为训练集和测试集,通过在训练集研究结果中“是否发生肝外不良结局”对收集的数据进行lasso回归,设置随机种子数并定义10折交叉验证模型并绘制变异系数的变化图,根据变异系数大小选取lambda.1se时对应的模型,获取对应的协变量b系数值,最终筛选出显著影响结果事件的风险因素;
31.(3)将筛选出的显著影响结果事件的风险因素以及临床上考虑可能有意义的变量纳入初始多因素cox回归模型,并使用逐步回归法针对初始模型筛选掉混杂因素,得到包含有关风险因素的预测模型;
32.(4)利用测试集的数据验证步骤(3)中的cox回归模型,若c-index》0.5即认为该模型对预后的预测具有统计学意义;对模型中的各个风险因素赋值,画出对应列线图;
33.(5)根据列线图计算总风险分值,得出患者5年内肝外不良结局发生的预测风险。
34.进一步地,步骤(1)中所述训练集占总数据集的70%,所述测试集占总数据集的30%。
35.进一步地,步骤(2)中所述显著影响结果事件的风险因素包括年龄、性别、体重指数、收缩压、舒张压、白细胞、高密度脂蛋白、总胆固醇、甘油三酯、血肌酐、血红蛋白、锻炼状况、是否吸烟。
36.进一步地,步骤(2)中所述随机种子数为123。
37.进一步地,步骤(3)中所述有关风险因素包括患者白细胞计数、甘油三酯、高密度脂蛋白胆固醇、血红蛋白和性别。
38.进一步地,其特征在于:步骤(3)中所述预测模型的预测风险等式为:
39.h(t)=h0(t)
×
exp(b1×
x1+b2×
x2+
…
+b
p
×
x
p
)
40.其中,h(t)为肝外不良结局风险预测值,随时间t变化。h0(t)为基准风险,(x1,x2,
…
,x
p
)是纳入到方程式的协变量,(b1,b2,
…
,bp)是量化协变量影响的系数。
41.进一步地,步骤(4)中所述cox回归模型的多项式如下:
42.y=0.159930*xa+0.163045*xb+(-0.616565*xc)+(-0.012985*xd)+0.465972*xe
43.其中,y代表发生肝外不良事件情况,xa代表白细胞计数,xb代表甘油三酯,xc代表高密度脂蛋白胆固醇,xd代表血红蛋白,xe代表性别。
44.进一步地,步骤(4)中所述列线图的建立具体包括以下过程:应用r语言rms包、survival包、foreign包、performance包、pec包、aod包和/或nomogramformula包,将所得到的cox回归模型转化为可视化的瘦型nafld发生肝外不良事件的概率列线图。
45.进一步地,步骤(4)中所述列线图的建立过程,具体命令如下:
46.*建立cox回归模型*
47.coxm《-48.cph(surv(survivaltime,diseasestatus)~wbc+tg+hdl+hgb+sex,data=trainset,x=t,y=t,surv=t)
49.dd《-datadist(train set)
50.option《-options(datadist="dd")
51.*绘制列线图*
52.plot(nomogram(coxm,fun=list(surv1,surv2),lp=f,funlabel=c('3-year survival','5-yearsurvival'),
53.maxscale=100,fun.at=c('0.9','0.70','0.5','0.2','0.1')),xfrac=0.45)。
54.进一步地,步骤(4)中的c-index代表模型最终预测正确的概率,本发明中等同于受试者工作曲线下面积(auc),c-index越大越好.
55.进一步地,步骤(5)中所述总风险分值为患者白细胞计数、甘油三酯、高密度脂蛋白胆固醇、血红蛋白和性别在列线图上对应分值的累加和。
56.进一步地,本发明提供了一种基于上述预测方法的系统,其特征在于:包括:数据获取模块、模型获取模块以及预测模块。
57.本发明所取得的技术效果是:
58.本发明提出的一种对瘦型nafld患者5年内的肝外不良结局发生风险的预测方法,有助于筛选出瘦型nafld患者中的高危人群,予以早期干预,减轻社会及个人负担。
附图说明
59.图1为本发明对瘦型nafld患者5年内的肝外不良结局发生风险预测方法的流程图;
60.图2为瘦型nafld患者5年内的肝外不良结局发生概率的预测值的计算流程示意图;
61.图3为本发明的预测瘦型nafld患者发生肝外不良结局风险的列线图。
具体实施方式
62.以下通过特定的具体实例说明本发明的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本发明的其他优点与功效。本发明还可以通过另外不同的具体实
施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本发明的精神下进行各种修饰或改变。
63.在进一步描述本发明具体实施方式之前,应理解,本发明的保护范围不局限于下述特定的具体实施方案;还应当理解,本发明实施例中使用的术语是为了描述特定的具体实施方案,而不是为了限制本发明的保护范围。
64.当实施例给出数值范围时,应理解,除非本发明另有说明,每个数值范围的两个端点以及两个端点之间任何一个数值均可选用。除非另外定义,本文中使用的所有技术和科学术语具有与本发明所属技术领域的普通技术人员通常理解的相同意义。
65.实施例1
66.一种对瘦型非酒精性脂肪肝患者5年内肝外不良结局(包括心脑血管疾病、2型糖尿病)发生风险的预测方法,包括以下内容:(1)收集瘦型非酒精性脂肪肝患者未发生肝外不良结局时的临床基线资料、并跟踪随访其5年内是否发生肝外不良结局;(2)将收集到的数据集分为训练集(70%)和测试集(30%),通过在训练集研究结果中“是否发生肝外不良结局”对收集的数据进行lasso回归,设置随机种子数123并定义10折交叉验证模型并绘制变异系数的变化图,根据变异系数大小选取lambda.1se时对应的模型,获取对应的协变量b系数值,最终筛选出显著影响结果事件的风险因素;(3)将单因素分析筛选出的变量以及临床上考虑可能有意义的变量纳入初始多因素cox回归模型,并使用逐步回归法针对初始模型筛选掉混杂因素,得到包含有关风险因素的预测模型;(4)利用测试集的数据验证上述cox预测模型,通常认为c-index》0.5即认为该模型对预后的预测具有统计学意义。此处的c-index代表模型最终预测正确的概率,本发明中等同于受试者工作曲线下面积(auc),c-index越大越好。并对模型中的各个风险因素赋值,画出对应列线图;(5)将列线图转化为应用程序,输入不同患者的风险因素数据,得出肝外不良结局发生的预测风险。
67.cox模型以生存结局和生存时间为因变量,可同时分析协变量对生存结局的影响,能分析带有截尾生存时间的资料,且不要求估计资料的生存分布类型。根据上述所述的对瘦型nafld患者5年内发生肝外不良结局风险预测的方法,模型的预测风险等式为:
68.h(t)=h0(t)
×
exp(b1×
x1+b2×
x2+
…
+b
p
×
x
p
)
69.其中,h(t)为肝外不良结局风险预测值,随时间t变化。h0(t)为基准风险,(x1,x2,
…
,x
p
)是纳入到方程式的协变量,(b1,b2,
…
,bp)是量化协变量影响的系数。
70.根据上述的对瘦型nafld患者5年内发生肝外不良结局风险预测的方法,研究步骤(1)中收集到的来自中南大学湘雅三医院健康管理中心的瘦型nafld患者为627例。本研究共纳入24个研究变量,其中包括15个连续变量(年龄、体重指数、收缩压、舒张压、白细胞、谷丙转氨酶、高密度脂蛋白、低密度脂蛋白、总胆固醇、甘油三酯、血清尿素氮、血肌酐、血红蛋白、空腹血糖、总胆红素)和9个分类变量(性别(男=1,女=0)、婚姻状态(已婚=1,其他=0)、锻炼状况(锻炼=1,不锻炼=0)、教育水平(大学及以上=1,其他=0)、吸烟状况(当前吸烟=1,不吸烟=0)、饮食偏好(清淡=1,其他=0)、糖尿病(有糖尿病=1,无糖尿病=0)、高血压(有高血压=1,无高血压=0)、心血管疾病(有心血管疾病=1,无心血管疾病=0)),结局指标定义为基线后5年内发生肝外不良结局。生存时间即体检时间至发生肝外不良结局的时间。结局事件通过身份信息关联中南大学湘雅三医院健康管理中心的数据,获取发生结局事件的时间和icd-10代码。
71.在步骤(1)中,随机将人群分为训练集(424人,60%)和测试集(203人,40%)。借以训练集建立预测模型,利用测试集对模型进行内部验证。训练集和测试集人群特征如表1。
72.表1
[0073][0074]
在步骤(2)中,如图2显示。以5年内发生肝外不良事件作为临床结局,利用表一所列变量,对训练集数据进行分析。应用根据lasso回归分析筛选与瘦型nafld发生肝外不良事件相关临床基线数据,利用r语言中cv.glment函数实现lasso回归,设置随机种子数123并定义10折交叉验证模型,并绘制变异系数(coefficient variable,cv)的变化图,根据cv大小选取lambda.1se时对应的模型,获取对应的自变量系数值,最终非0系数对应的特征即为最终筛选出的变量。筛选出的变量包括:年龄、性别、体重指数、收缩压、舒张压、白细胞、高密度脂蛋白、总胆固醇、甘油三酯、血肌酐、血红蛋白、锻炼状况、是否吸烟。lasso回归系数如表2。
[0075]
表2
[0076][0077]
在步骤(3)中,利用逐步回归法判断上述24个变量是否为瘦型nafld发生肝外不良事件的独立危险因素,将系数p《0.05的变量纳入,最终筛选出5变量均与瘦型nafld发生肝外不良事件风险增加有关。对上述5个变量建立cox回归模型,结果如表3。
[0078]
表3
[0079][0080]
上述5个变量的cox回归模型的多项式如下:
[0081]
y=0.159930*xa+0.163045*xb+(-0.616565*xc)+(-0.012985*xd)+0.465972*xe
[0082]
y代表发生肝外不良事件情况,xa代表白细胞计数,xb代表甘油三酯,xc代表高密度脂蛋白胆固醇,xd代表血红蛋白,xe代表性别。
[0083]
根据瘦型nafld发生肝外不良事件的cox回归模型建立相应的如图3所示的风险发生概率列线图,具体过程为应用r语言rms包、survival包、foreign包、performance包、pec包、aod包、nomogramformula包,将所得到的cox回归模型转化为可视化的瘦型nafld发生肝外不良事件的概率列线图。其中,具体命令如下:
[0084]
*建立cox回归模型*
[0085]
coxm《-[0086]
cph(surv(survivaltime,diseasestatus)~wbc+tg+hdl+hgb+sex,data=trainset,x=t,y=t,surv=t)
[0087]
dd《-datadist(train set)
[0088]
option《-options(datadist="dd")
[0089]
*绘制列线图*
[0090]
plot(nomogram(coxm,fun=list(surv1,surv2),lp=f,funlabel=c('3-year survival','5-year survival'),
[0091]
maxscale=100,fun.at=c('0.9','0.70','0.5','0.2','0.1')),xfrac=0.45)
[0092]
经过以上步骤可以得到如图3为本发明的预测瘦型nafld患者发生肝外不良结局风险的列线图,用患者白细胞计数,甘油三酯,高密度脂蛋白胆固醇,血红蛋白和性别,以此来计算总风险分值,所述总风险分值为患者白细胞计数,甘油三酯,高密度脂蛋白胆固醇,血红蛋白和性别的累加和。
[0093]
使用患者白细胞计数,甘油三酯,高密度脂蛋白胆固醇,血红蛋白和性别5个因素构建的cox模型,c-index为0.786(95%ci:0.768-0.805)。
[0094]
在步骤(4)中,利用测试集的数据验证上述cox模型,验证得到的auc为0.758(95%ci:0.722-0.793)。一般认为auc大于0.5即认为该模型对预后的预测具有统计学意义。
[0095]
实施例2
[0096]
图1为本发明对瘦型nafld患者5年内的肝外不良结局发生风险预测方法的流程图;
[0097]
步骤s101,获取瘦型nafld患者的临床基线数据和结局等临床数据;
[0098]
步骤s102,据所述临床数据建立发生肝外结局概率的列线图并计算总风险分值;
[0099]
步骤s103,根据所述总风险分值计算瘦型nafld患者5年内发生肝外结局概率的预测值;
[0100]
步骤s104,输出根据所述总风险分值计算肝外结局发生概率的预测值。
[0101]
最后应当说明的是,以上内容仅用以说明本发明的技术方案,而非对本发明保护范围的限制,本领域的普通技术人员对本发明的技术方案进行的简单修改或者等同替换,均不脱离本发明技术方案的实质和范围。