本发明涉及一种基于机器学习和血浆代谢标志物的帕金森病早筛方法,属于疾病预测。
背景技术:
1、帕金森病是一种常见的神经退行性疾病,高发于中老年人群,全球约有850万人受其影响。帕金森病的典型特征是黑质内多巴胺能神经元的进行性退化,这将导致患者出现静止性震颤、肌强直、动作缓慢和姿势平衡障碍等症状,并可能进一步发展为抑郁、焦虑和进行性痴呆。帕金森病pd的早期诊断十分困难,确诊时往往已经出现运动症状,此时黑质神经元的变性脱失高达50%,严重影响了后续治疗。寻找前驱帕金森病ppd阶段可靠的生物标志物是解决早期诊断困难的关键,然而大多数生物标志物存在诊断敏感性和特异性有限的问题。
2、代谢组学分析在帕金森病的研究和临床实践中显示出良好的结果。许多研究已经使用各种代谢组学技术来探索帕金森病的潜在发病机制,确定诊断生物标志物,及发现新的治疗靶点。然而传统的统计学分析方法在处理大规模代谢组数据时效率较低,对于化合物间内在关系的探索也十分有限,无法发掘出更深层次的病理信息。
3、基于机器学习技术的代谢组数据分析为帕金森病的早期筛查和病理分析带来了更多可能性。目前,有一些研究利用svm、xgb和random forest等分类器对脑脊液代谢数据进行分析,发现了与帕金森病相关性较高的元素及化合物。然而脑脊液样本的收集较为复杂和危险,且诊断准确性不理想,无法广泛应用于临床筛查。研究显示,帕金森病与人体血清糖基化的程度相关,同时血浆样本的采集具有操作简单、危险性低的特点。因此,我们提出了一个基于机器学习技术和血浆代谢组分析的帕金森病早筛诊断方法,以满足临床诊断和辅助治疗的需求。
技术实现思路
1、本方法的目的是针对现有帕金森病诊断方法存在的不足和缺陷,利用机器学习的数据挖掘优势,和血浆代谢物的高可靠性与易采集性,创造性地提出一种基于机器学习和血浆代谢标志物的帕金森病早筛方法。
2、本发明的创新点在于:利用gbm-rfe算法对血浆代谢数据进行分析,建立了一种新型的前驱帕金森病代谢物的检测面板,从而作为帕金森病的早筛的生物标志物。利用gbm-rfe算法对面板进行帕金森病严重程度的预测,构建高可靠性的帕金森病早筛预测模型。相较于传统诊断方法,该方法能够在前驱帕金森病阶段实现精确的早筛诊断,有助于更加及时有效的临床治疗。
3、本发明采用以下技术方案实现。
4、一种基于机器学习和血浆代谢标志物的帕金森病早筛方法,包括如下步骤:
5、步骤1:血浆代谢组数据预处理。
6、具体地,步骤1包括以下步骤:
7、步骤1.1:补全血浆代谢组数据缺失值。
8、为了处理代谢物信号响应低于仪器检出限的情况,将缺失值用最小值填充。
9、步骤1.2:对血浆代谢组数据进行log2对数变换。
10、对已补全缺失值的数据进行log2对数变换,以平衡训练数据特征的权重,避免过拟合。给定血浆代谢化合物初始值x,对数变换值x′由式(1)给出:
11、x′=log2(x) (1)
12、步骤1.3:对血浆代谢组数据进行z-score标准化。
13、对已经过log2对数变换处理的数据进行z-score标准化,系统地消除样本特征过大或过小对预测结果的影响。结合式(1),标准化值x由式(2)给出:
14、
15、其中μ为样本数据的平均值,σ为样本数据的标准差。
16、步骤2:利用步骤1预处理后的血浆代谢组数据,基于gbm-rfe进行特征筛选和模型训练。
17、根据血浆代谢组数据集的大小、规模以及特征形式,采用gbm-rfe模型对血浆代谢组数据进行训练。
18、gbm算法是一种高性能的提升算法,串行生成多个弱学习器,每个弱学习器根据累积模型的损失函数的负梯度进行拟合,使加上该弱学习器后的累积模型损失函数向负梯度的方向下降,从而降低了损失。同时,它可以利用不同权重将基学习器进行线性组合,使表现好的学习器得到重用,从而提高模型的拟合效果。
19、为使模型性能最大化,将gbm算法与rfe算法相结合。rfe算法是一种递归特征消除算法,它从学习器中获得各个特征的重要程度,然后从当前特征集合中剔除最不重要的特征,再基于新数据集对模型进行训练。在特征集合上不断的重复递归这个步骤,直至获得特征变量的最优组合或达到所设置的最小特征数量为止,并通过十折交叉验证评估特征选择过程中的性能波动。
20、具体地,gbm-rfe算法过程包括以下步骤:
21、步骤2.1:对于训练样本{xi,yi},i=1,2,…,n,构建初始gbm模型,并使用所有特征变量训练模型。gbm的弱学习器数设置为200,初始学习率设置为0.1,树的最大深度设置为10。
22、具体地,构建及训练模型的过程如下:
23、步骤2.1.1:初始化累积模型函数f0(x):
24、
25、其中γ为初始学习率。
26、步骤2.1.2:拟合每个弱学习器并迭代更新累积模型。
27、具体地,累积模型的更新过程如下:
28、步骤2.1.2.1:对于所有样本i=1,2,…,n,每一次迭代更新m=1,2,…,m,计算累积模型损失函数的负梯度rim:
29、
30、其中fm-1(x)为第m-1次迭代的累积模型函数。
31、步骤2.1.2.2:拟合弱学习器hm(x),使伪残差—弱学习器差平方和达到最小,其中:
32、
33、步骤2.1.2.3:计算学习率γm:
34、
35、步骤2.1.2.4:更新累积模型函数fm(x):
36、fm(x)=fm-1(x)+γmhm(x) (7)
37、步骤2.2:从初始gbm模型中获得各个特征变量的重要性并进行排序。
38、步骤2.3:进行重采样并迭代更新gbm-rfe模型。rfe算法的最小保留特征数量设置为2,过度拟合检测和最佳模型选择的指标设置为“accuracy”。
39、具体地,gbm-rfe模型的更新过程如下:
40、步骤2.3.1:对每一个变量子集si,i=1…s,提取前ni个最重要的特征变量,构建新数据集。
41、步骤2.3.2:将新数据集随机分为10个子集,其中一个子集作为验证集,其余九个作为训练集。
42、步骤2.3.3:分别使用这九个训练集的所有特征训练模型,利用验证集评估模型,找出此轮次训练的最佳参数和模型。
43、步骤2.3.4:从最佳模型中获得各个特征变量的重要性并进行排序。
44、步骤2.4:计算比较每次迭代获得的模型的效果,确定最优的特征变量集合,集合中的特征变量所对应化合物构成前驱帕金森病代谢物的检测面板。
45、步骤2.5:选择最优变量集合的模型为最终模型。
46、步骤3:利用训练好的gbm-rfe模型,对血浆代谢组数据进行处理,实现帕金森病的早期筛查和疾病阶段性预测。
47、有益效果
48、本发明方法,与现有技术相比,具有如下优点:
49、1.所述方法,通过采用血浆代谢数据,有效解决了帕金森病诊断过程中脑脊液提取操作复杂和危险性高的问题,血浆的提取及血浆代谢数据的采集相对简单无创。
50、2.所述方法,开发了一个基于gbm-rfe算法特征筛选的血浆代谢物面板,确定了7种血浆代谢物的组合,这些代谢物是前驱帕金森病的生物标志物,为帕金森病早期诊断的临床实践提供了新思路。
51、3.所述方法,在特征筛选和模型训练的过程中综合了递归特征消除算法和交叉验证的思路,可以平稳有效地寻找特征变量的最优组合,并解决了因特征过多产生的冗余数据影响模型性能的问题。