基于常规体检指标的成人脂肪肝风险判别模型及判别方法

文档序号:29212921发布日期:2022-03-12 10:07阅读:207来源:国知局
基于常规体检指标的成人脂肪肝风险判别模型及判别方法

1.本发明涉及医学领域,特别涉及一种基于常规体检指标的成人脂肪肝风险判别模型及判别方法。


背景技术:

2.脂肪性肝病(fld)是世界范围内最常见的肝病病因,影响着全球超过10亿人口,它是指肝内脂肪储存超过肝脏重量的5%,分为非酒精性脂肪肝(nafld)和酒精性脂肪肝(afld)两类。该病是发达国家最常见的慢性肝病,在发展中国家发病率也急剧上升,在中国仅nafld的患病率就达到了29.81%。fld可伴随或导致广泛的并发症,从单纯的脂肪变性到肝硬化和肝细胞癌,是目前世界范围内第三大常见的癌症相关死亡原因,并伴有很高的糖尿病和心血管疾病 (cvd)发病率,严重影响着居民的健康和生活。
3.目前,判断人是否患有脂肪肝,主要通过超声、ct等影像学检查,但影像学检查不及血液实验室检查应用广泛,使用频率高;另外,脂肪肝早期患者未出现明显的临床症状,因此很多患者并未自主地进行脂肪肝影像学检查, 进而不利于脂肪肝的尽早发现和治疗。如果能通过实验室检查结果构建脂肪肝判别模型进行风险提示,有利于实现脂肪肝的早发现、早治疗,提高人们的生活质量。


技术实现要素:

4.为实现上述目的,
5.本发明一方面提供如下技术方案:基于常规体检指标的成人脂肪肝风险判别模型,其特征在于,主要步骤包含:
6.s1:获取体检人群的临床及实验室数据前,需对人群进行筛选主要包含:对人群中缺乏体检报告的诊断结果,没有进行腹部超声检查以及年龄小于18 周岁的人群进行筛除;
7.s2:获取满足条件人群的临床及实验室数据并对数据进行录入,其中,体检人群的临床及实验室数据包含:年龄、性别、bmi、腰围、身高、体重、 sbp、dbp、fpg、tc、tg、hdl-c、ldl-c、alp、ggt、alt、ast、tp、alb、tbil、bun、cr、ua;
8.s3:对录入的临床及实验室数据进行排查,删除异常离群值包含:异常离群值包含人为录入数据过程中出现的错误,以使录入的数值与真实数据不同;且符合提取的所有指标缺失度均小于15%,年龄、bmi、腰围、收缩压、舒张压、空腹血糖等连续指标根据数据分布情况用平均数、中位数进行填充;
9.s4:对人群进行分组,标为脂肪肝组与非脂肪肝组,对脂肪肝组与非脂肪肝组的临床及实验室数据进行比对,获取脂肪肝组与非脂肪肝组特征差异;
10.s5:将处理后的数据按照7:3的比例分为训练集和验证集,通过特征选择和训练,建立基于logistic回归的12指标全指标模型,包括指标集合: alb,年龄,ldl-c,alp,dbp,fpg,hdl-c,ua,alt,tg,bmi和腰围,以及logistic回归系数(ω0,ω1,...ω
12
);
11.s6:通过单指标roc分析,简化模型,建立基于logistic回归的7指标简化模型,包
括指标集合:腰围,bmi,tg,alt,ua,hdl-c和性别,以及 logistic回归系数(ω
′0,ω
′1,...ω
′7)
12.s7:通过单指标roc分析,用rlp-c代替tg,并纳入ggt,建立不包括 tg的基于logistic回归的8指标rlp-c模型,包括指标集合:腰围,bmi, ggt,rlp-c,alt,ua,hdl-c和性别,以及logistic回归系数(ω
″0,ω
″1,...ω
″8);
13.在同一实施例中,rlp-c可以由如下公式计算:
14.rlp-c=tc-(hdl-c+ldl-c)。
15.本发明另一方面提供如下技术方案:基于常规体检指标的成人脂肪肝判别方法。该方法,包含,
16.s1:获取受试者的体检数据,根据受试者tg检验结果的可信度以及其他实际条件(如是否具有相关模型需要的检验结果),从12指标全指标模型、7 指标简化模型和8指标rlp-c模型中选择合适的脂肪肝风险判别模型;
17.s2:将受试者体检数据通过选择的脂肪肝风险判别模型中的logistic回归运算,计算得到脂肪肝风险概率。
18.在同一实施例中,12指标全指标模型中logistic回归运算公式如下:
[0019][0020][0021]
其中,y
12
为12指标全指标模型的脂肪肝风险概率,(ω0,ω1,...ω
12
)为12 指标全指标模型的logistic回归系数。
[0022]
在同一实施例中,7指标简化模型中logistic回归运算公式如下:
[0023][0024]
x

=ω
′0+ω
′1x
waist

′2x
bmi

′3x
tg

′4x
alt

′5x
ua

′6x
hdl-c
+ ω
′7x
sex

[0025]
其中,y7为7指标简化模型的脂肪肝风险概率,(ω
′0,ω
′1,...ω
′7)为7指标简化模型的logistic回归系数。
[0026]
在同一实施例中,8指标rlp-c模型中logistic回归运算公式如下:
[0027][0028]
x

=ω
″0+ω
″1x
waist

″2x
bmi

″3x
ggt

″4x
rlp-c

″5x
alt

″6x
ua
+ ω
″7x
hdl-c

″8x
sex

[0029]
其中,y8为8指标rlp-c模型的脂肪肝风险概率,(ω
″0,ω
′1,...ω
″8)为8指标 rlp-c模型的logistic回归系数。
[0030]
发明的有益效果是:
[0031]
由于基于常规体检指标的成人脂肪肝风险判别模型及判别方法包含:筛选体检人群;获取满足条件人群的临床及实验室数据并对数据进行录入,对录入的数据进行排查,删除异常离群值并进行缺失值填充;对人群进行分组,标为脂肪肝组与非脂肪肝组,获取脂肪肝组与非脂肪肝组临床及实验室数据;通过对脂肪肝组与非脂肪肝组的数据进行对比,得到残余脂蛋白胆固醇 (rlp-c)的数值与人患有脂肪肝关系密切;通过构建3种脂肪肝风险
预测模型,可以应对受试者存在的多种情况。提示受试者患有脂肪肝的风险概率,是否属于高风险人群。整个方法具有操作简单,可以快速判别检测者是否患有脂肪肝,并且方便检测,受饮食和禁食时间的影响小,提高工作效率,降低检测者的检测成本等优点。
附图说明
[0032]
图1为本发明建立基于常规体检指标的成人脂肪肝判别模型的流程图。
[0033]
图2为本发明基于常规体检指标的成人脂肪肝判别方法的流程图。
具体实施方式
[0034]
为使本发明实施例的目的、技术方案和优点更加清楚明白,下面将以附图及详细叙述清楚说明本发明所揭示内容的精神,任何所属技术领域技术人员在了解本发明内容的实施例后,当可由本发明内容所教示的技术,加以改变及修饰,其并不脱离本发明内容的精神与范围。
[0035]
本发明的示意性实施例及其说明用于解释本发明,但并不作为对本发明的限定。另外,在附图及实施方式中所使用相同或类似标号的元件/构件是用来代表相同或类似部分。
[0036]
关于本文中所使用的“第一”、“第二”、

等,并非特别指称次序或顺位的意思,也非用以限定本发明,其仅为了区别以相同技术用语描述的元件或操作。
[0037]
关于本文中所使用的方向用语,例如:上、下、左、右、前或后等,仅是参考附图的方向。因此,使用的方向用语是用来说明并非用来限制本创作。
[0038]
关于本文中所使用的“包含”、“包括”、“具有”、“含有”等等,均为开放性的用语,即意指包含但不限于。
[0039]
关于本文中所使用的“及/或”,包括所述事物的任一或全部组合。
[0040]
关于本文中所使用的用语“大致”、“约”等,用以修饰任何可以微变化的数量或误差,但这些微变化或误差并不会改变其本质。一般而言,此类用语所修饰的微变化或误差的范围在部分实施例中可为20%,在部分实施例中可为10%,在部分实施例中可为5%或是其他数值。本领域技术人员应当了解,前述提及的数值可依实际需求而调整,并不以此为限。
[0041]
某些用以描述本技术的用词将于下或在此说明书的别处讨论,以提供本领域技术人员在有关本技术的描述上额外的引导。
[0042]
本发明的实施例提供了基于常规体检指标的成人脂肪肝风险判别模型。如图1所示,该模型,包含,
[0043]
s1:获取体检人群的临床及实验室数据前,需对人群进行筛选主要包含:对人群中缺乏体检报告的诊断结果,没有进行腹部超声检查以及年龄小于18 周岁的人群进行筛除;
[0044]
s2:获取满足条件人群的临床及实验室数据并对数据进行录入,其中,体检人群的临床及实验室数据包含:年龄、性别、bmi、腰围、身高、体重、 sbp、dbp、fpg、tc、tg、hdl-c、ldl-c、alp、ggt、alt、ast、tp、alb、 tbil、bun、cr、ua;
[0045]
s3:对录入的临床及实验室数据进行排查,删除异常离群值包含:异常离群值包含人为录入数据过程中出现的错误,以使录入的数值与真实数据不同;且符合提取的所有指标缺失度均小于15%,年龄、bmi、腰围、收缩压、舒张压、空腹血糖等连续指标根据数据分布
情况用平均数、中位数进行填充;
[0046]
s4:对人群进行分组,标为脂肪肝组与非脂肪肝组,对脂肪肝组与非脂肪肝组的临床及实验室数据进行比对,获取脂肪肝组与非脂肪肝组特征差异;
[0047]
s5:将处理后的数据按照7∶3的比例分为训练集和验证集,通过特征选择和训练,建立基于logistic回归的12指标全指标模型,包括指标集合: alb,年龄,ldl-c,alp,dbp,fpg,hdl-c,ua,alt,tg,bmi和腰围,以及logistic回归系数(ω0,ω1,...ω
12
);
[0048]
s6:通过单指标rog分析,简化模型,建立基于logistic回归的7指标简化模型,包括指标集合:腰围,bmi,tg,alt,ua,hdl-c和性别,以及 logistic回归系数(ω
′0,ω
′1,...ω
′7)
[0049]
s7:通过单指标rog分析,用rlp-c代替tg,并纳入ggt,建立不包括 tg的基于logistic回归的8指标rlp-c模型,包括指标集合:腰围,bmi, ggt,rlp-c,alt,ua,hdl-c和性别,以及logistic回归系数(ω
″0,ω
″1,...ω
″8);
[0050]
具体的说,该基于常规体检指标的成人脂肪肝判别模型包含:筛选体检人群;获取满足条件人群的临床及实验室数据并对临床及实验室数据进行录入;对录入的临床及实验室数据进行排查,删除异常离群值并进行缺失值填充;对人群进行分组,标为脂肪肝组与非脂肪肝组,对脂肪肝组与非脂肪肝组的临床及实验室数据进行比对,获取脂肪肝组与非脂肪肝组数据的差异;通过对脂肪肝组与非脂肪肝组的特征进行对比,得到rlp-c的数值与人患有脂肪肝关系密切;利用rlp-c代替tg与其他体检指标(年龄、性别、bmi、腰围、身高、体重、sbp、dbp、fpg、tc、hdl-c、ldl-c、alp、ggt、alt、ast、 tp、alb、tbil、bun、cr、ua)建立新的脂肪肝判别模型,提示受试者患有脂肪肝的风险概率,是否属于高风险人群。整个模型具有操作简单,可以快速判别检测者是否患有脂肪肝,并且方便检测,受饮食和禁食时间的影响小,提高工作效率,降低检测者的检测成本等优点。
[0051]
需要说明的是,通过对脂肪肝组与非脂肪肝组的临床及实验室数据进行对比发现rlp-c的数值与人患有脂肪肝关系密切。具体为:将受试者分为脂肪肝与非脂肪肝组,符合正态分布的连续指标以平均值
±
标准差(sd)表示,非正态分布数据的中位数和四分位数范围(iqr)表示,分类指标以频率(%)表示. 连续指标采用独立t检验、mann-whitney u检验,分类指标采用卡方检验评价脂肪肝组与非脂肪肝组的差异。结果如表1所示,说明了两组人群各项指标的水平和差异,其中脂肪肝组rlp-c的水平明显高于非脂肪肝组,p《0.001,差异有统计学意义。
[0052]
表1脂肪肝阴性与阳性人群体检特征比较
[0053]
[0054][0055]
需要说明的是,血脂异常定义为含有以下一种或多种情况:tc≥6.2;tg ≥2.3;ldl-c≥4.1;hdl-c《1.0(mmol/l)。a独立t检验分析;bχ2检验分析;cmann-whitney u检验分析,为是三种检验算法。
[0056]
需要注意的是,为了保证测量的准确性,提高数据利用率,例如,获取体检人群的临床及实验室数据前,需对体检人群进行筛选主要包含:对体检人群中缺乏体检报告的诊
断结果,没有进行腹部超声检查以及年龄小于18周岁的体检人群进行筛除。
[0057]
需要注意的是,为了方便记录临床及实验室数据,同时保证数据的准确,例如,对录入的临床及实验室数据进行排查,删除异常离群值包含:异常离群值包含人为录入临床及实验室数据过程中出现的错误,以使录入的数据与原始数据的数据不同;且符合提取的所有指标缺失度均小于15%(指标缺失度指指标在研究人群中缺失的百分比;医学数据的指标缺失往往是由于参与者没有进行某项检查造成的,参与者就诊的需求不同检测项目会有差异),年龄、 bmi、腰围、收缩压、舒张压、空腹血糖等连续指标根据数据分布情况用平均数、中位数进行填充。
[0058]
需要注意的是,根据公式可以计算非高密度脂蛋白胆固醇(non-hdl-c)与 rlp-c的数值,其中,non-hdl-c=tc-hdl-c;rlp-c=tc-(hdl-c+ldl-c)。另外,根据前临床及实验室数据与脂肪肝相关性分析的结果,完成rlp-c、tg、 tc、hdl-c、ldl-c和non-hdl-c与脂肪肝的相关性进行比较,获得rlp-c与脂肪肝的相关性强于tc,hdl-c,ldl-c和non-hdl-c。即利用公式法获得了受试者血清中rlp-c的含量,并将rlp-c、tg、tc、hdl-c、ldl-c、non-hdl-c 与脂肪肝的相关性进行比较,证明了rlp-c与脂肪肝的相关性强于hdl-c、 ldl-c、non-hdl-c,低于tg。其中rlp-c、tg、tc、ldl-c、non-hdl-c水平与脂肪肝呈正相关,hdl-c与脂肪肝呈负相关。结果见表2。由表2可以推断,可以用rlp-c代替其他正向作用的血清胆固醇即tc、ldl-c、non-hdl-c,与其他常规体检指标(年龄、性别、bmi、腰围、身高、体重、sbp、dbp、fpg、 hdl-c、alp、ggt、alt、ast、tp、alb、tbil、bun、cr、ua)共同建立模型进行脂肪肝的判别,rlp-c具有较高的判别能力。虽然rlp-c与脂肪肝的相关性低于tg,但经过以往研究发现,通过rlp-c代替tg脂肪肝时,可以降低饮食和禁食时间的影响。表3为用于调整的其他指标的单因素分析的结果。
[0059]
表2脂肪肝相关因素logistic回归分析:n=38885
[0060][0061][0062]
or:比值比;ci:置信区间;aor:调整后的比值比;
[0063]
上述6个血脂指标分别用年龄、性别、bmi、腰围、dbp、fpg、alp、ggt、 alt、alb、ua进行调整。
[0064]
其中,多因素分析中的每标准差系数,绝对值越大,即说明指标与脂肪肝关系越密切。
[0065]
表3脂肪肝相关调整因素单因素logistic回归分析:n=38885
[0066][0067][0068]
需要注意的是,为了验证模型的准确性,例如,划分数据集进行模型的建立:将原数据集(38885人)运用随机数法按7:3(建模常用的数据集划分比例,保证足够的数据用于训练模型,同时保证验证集判别结果可信)的比例划分训练集(27219人)、验证集(11666人),训练集用于模型的构建,验证集用于模型性能的验证。
[0069]
进行以是否患有脂肪肝为因变量,以rlp-c为自变量进行roc曲线分析,通过受试者工作特征曲线下面积(auc)评估rlp-c的诊断性能,选择最优的截断值(使敏感性和特异
性的总和最大的约登指数所对应的rlp-c的浓度),在训练集上rlp-c的截断值为0.45mmol/l,此时auc为0.79(0.78,0.79),灵敏度为0.70,特异度为0.73;在验证集上进行验证,auc为0.79(0.78, 0.80),灵敏度为0.70,特异度为0.73,证明rlp-c具有较高的脂肪肝判别能力结果见表4。
[0070]
如表4和表5所示,通过构建12指标全指标模型:以是否患有脂肪肝为因变量,在训练集上对年龄,性别,bmi,腰围, sbp,dbp,fpg,rlp-c,tc,tg,hdl-c,ldl-c,non-hdl-c,alp,ggt,alt,ast,tp, alb,tbil,bun,cr和ua进行单因素和多因素的二元logistic回归分析,排除具有多重共线性的指标,采用向前:似然比法建立模型。模型最终纳入了 alb,年龄,ldl-c,alp,dbp,fpg,hdl-c,ua,alt,tg,bmi和腰围12个指标,此时roc曲线下面积(auc)为0.90(0.90,0.90),敏感度为0.80,特异度为0.83。敏感度=真阳性人数/(真阳性人数+假阴性人数),代表真阳性率;特异度=真阴性人数/(真阴性人数+假阳性人数),代表真阴性率,二者均为0到1之间,数值越大表明判别准确度越高。
[0071]
对上述每个指标单独进行roc分析,在训练集中腰围,bmi,tg,ggt,rlp-c,alt,ua,hdl-c,性别和non-hdl-c单指标的auc较高, 均》0.7,而在本研究的血脂指标与脂肪肝相关性分析中,tg和rlp-c与脂肪肝的相关性最强,但是二者具有一定的共线性,因此为了简化模型,分别用tg、 rlp-c代替ldl-c、tc、non-hdl-c的作用,与其他auc》0.70的指标共同进行二元logistic回归分析,并采用向前:似然比法排除其他不太显著的指标, 最终得到了包括腰围,bmi,tg,alt,ua,hdl-c和性别的7指标模型和包括腰围,bmi,ggt,rlp-c,alt,ua,hdl-c和性别的8指标模型。结果如表4、5 所示。比较12指标和8指标模型训练集的auc(0.90vs 0.89),7指标和8 指标模型训练集的auc(0.90vs 0.89),二者均无明显差异。
[0072]
即tg,rlp-c与脂肪肝的正向相关性强于tc,ldl-c和non-hdl-c,并且 tg与rlp-c来源于相同的脂蛋白,具有一定的共线性,而二者与脂肪肝的相关性也相似(tg的每标准差回归系数为0.987,rlp-c的每标准差回归系数为 0.847),可以在血脂指标中分别只选用tg或rlp-c,与其他auc》0.70的指标 (腰围,bmi,ggt,alt,ua,hdl-c,性别)共同进行模型的构建并对性能进行比较。
[0073]
分别验证12、7、8指标模型的判别性能:在验证集上对12、7、8指标模型的判别性能进行了验证,12指标模型的auc为0.90(95%ci,0.89-0.91),敏感度为0.80,特异度为0.83;7指标模型的auc为0.90(95%ci,0.89-0.90),敏感度为0.81,特异度为0.82;8指标模型的auc为0.89(95%ci,0.89-0.90),敏感度为0.80,特异度为0.82。结果证明12、7、8指标模型均具有较高的判别性能,且两个模型的判别能力无明显差异。
[0074]
因此rlp-c可以代替tg,tc,ldl-c和non-hdl-c用于脂肪肝的判别,具有方便检测,受饮食和禁食时间的影响小,判别准确度高,无需额外检测成本等优点。95%ci表示:95%置信区间,统计学概念,95%置信区间是指某个总体参数的真实值落在测量结果区间内的概率是95%。
[0075]
表4不同指标和模型判别fld的roc曲线下面积
[0076]
[0077][0078]
auc:roc曲线下的面积,是衡量分类器优劣的一种性能指标,取值范围在0.5和1之间。auc越接近1.0,检测方法真实性越高。
[0079]
[0080]
表5.12指标、7指标、8指标模型的二元logistic多因素分析
[0081]
本发明还提供一种基于常规体检指标的成人脂肪肝判别方法,如图2所示,该方法,包含,
[0082]
s1:获取受试者的体检数据,根据受试者tg检验结果的可信度以及其他实际条件(如是否具有相关模型需要的检验结果),从12指标全指标模型、7 指标简化模型和8指标rlp-c模型中选择合适的脂肪肝风险判别模型;
[0083]
s2:将受试者体检数据通过选择的脂肪肝风险判别模型中的logistic回归运算,计算得到脂肪肝风险概率。
[0084]
具体来说,通过受试者tg检验结果的可信度以及其他实际条件的判断的具体过程为如下伪码表示:
[0085]
if tg的检验结果可信
[0086]
if满足12指标模型条件
[0087]
选择12指标模型
[0088]
else if满足7指标模型条件
[0089]
选择7指标模型
[0090]
else if满足8指标模型条件
[0091]
选择8指标模型
[0092]
需要说明的是,12指标模型中logistic回归运算公式如下:
[0093][0094][0095]
其中,y
12
为12指标全指标模型的脂肪肝风险概率,(ω0,ω1,...ω
12
)为12 指标模型的logistic回归系数。
[0096]
需要说明的是,7指标简化模型中logistic回归运算公式如下:
[0097][0098]
x

=ω
′0+ω
′1x
waist

′2x
bmi

′3x
tg

′4x
alt

′5x
ua

′6x
hdl-c
+ ω
′7x
sex

[0099]
其中,y7为7指标简化模型的脂肪肝风险概率,(ω
′0,ω
′1,...ω
′7)为7指标简化模型的logistic回归系数。
[0100]
需要说明的是,8指标rlp-c模型中logistic回归运算公式如下:
[0101][0102]
x

=ω
″0+ω
″1x
waist

″2x
bmi

″3x
ggt

″4x
rlp-c

″5x
alt

″6x
ua
+ ω
″7x
hdl-c

″8x
sex

[0103]
其中,y8为8指标rlp-c模型的脂肪肝风险概率,(ω
″0,ω
″1,...ω
″8)为8指标 rlp-c模型的logistic回归系数。
[0104]
以上所述仅为本发明示意性的具体实施方式,在不脱离本发明的构思和原则的前提下,任何本领域的技术人员所做出的等同变化与修改,均应属于本发明保护的范围。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1