本发明属于眼科疾病机器学习诊断,具体涉及一种基于随机森林模型的amd预测系统。
背景技术:
1、随着全球老龄化的发展,年龄相关性黄斑变性(age related maculardegeneration,amd)已经成为导致老年人视力下降或丧失的主要病因之一,表现为中心视力进行性、不可逆性丧失,主要累及黄斑、视网膜色素上皮、脉络膜等。amd可分为“干性(萎缩型)”和“湿性(渗出型)”两种类型。早期诊断和治疗有利于减缓amd的进展和随之产生的视力下降。
2、传统上amd的诊断是基于临床检查或彩色眼底照片,如眼底自身荧光、光学相干断层扫描、荧光素血管造影术和吲哚菁绿血管造影术。眼底自身荧光是一种能够反映与脂褐素代谢相关的形态学变化的成像方式。光学相干层析成像在amd发展的任何阶段都是有用的辅助检查。高清晰度b超扫描有助于评估干性amd患者的drusen结构和可能因疾病发生的相邻视网膜层受损,也可以识别amd的一些湿性特征。荧光素血管造影是检测脉络膜新生血管位置及活性的有效方法。吲哚菁绿血管造影术有助于识别隐匿的或不明确的脉络膜新生血管、与出血液体或渗出物相关的脉络膜新生血管,在干性amd患者中,可识别无症状脉络膜新生血管的斑块。
3、机器学习作为人工智能的主要技术方向,与以往计算机程序的不同在于人工智能可以在大数据量的情况下进行自我优化,可以揭示个体信息和疾病间的隐藏关系,因此被应用于生命科学领域。特别是在对影像学依赖性强的眼科学,大量的影像学资源为机器学习提供数据资源,这些资源利于机器学习在眼科疾病的预测和诊断方面发挥巨大作用。中国发明专利申请“cn109585017a一种年龄相关性黄斑变性的风险预测算法模型和装置”尝试了利用基因位点的检测结合机器学习模型,实现对amd风险的预测。然而,这种方法只是针对基因的风险预测,无法实现临床诊断。目前现有技术中尚缺乏如何利用各种生化指标构建amd诊断相关机器学习模型的研究,因此,提出适用于amd诊断的机器学习模型的相关诊断指标仍然是本领域亟需解决的问题。
技术实现思路
1、针对现有技术的问题,本发明提供一种amd预测系统,目的在于优选合适的生化指标,构建用于amd诊断的机器学习模型。
2、一种amd预测系统,包括:
3、输入模块,用于输入受试者的检测信息;
4、预测模块,用于将所述检测信息作为特征输入机器学习模型,预测受试者患有amd的风险;
5、输出模块,用于输出预测模块的计算结果;
6、其中,所述检测信息包括性别和血液中的如下指标中的至少一种:酮体、淋巴细胞率、白细胞、促甲状腺激素、中性粒细胞率、红细胞数、嗜碱性粒细胞率、单核细胞率、肌酐、血红蛋白、尿微量白蛋白、胆红素、红细胞压积和嗜酸性粒细胞率。
7、优选的,所述检测信息包括血液中的如下指标中的至少一种:酮体、淋巴细胞率、白细胞、促甲状腺激素和中性粒细胞率。
8、优选的,所述机器学习模型的算法为随机森林、核支持向量机或梯度提升机。
9、优选的,所述机器学习模型的算法为随机森林。
10、优选的,建立所述机器学习模型时,利用欠抽样的方法时数据集平衡。
11、优选的,建立所述机器学习模型时,利用selectpercentile函数进行特征提取,提取对预测贡献最大的前15%的特征,最后构建带有5折交叉验证的随机森林模型。
12、本发明还提供一种计算机可读存储介质,其上存储有用于实现上述预测系统的计算机程序。
13、本发明通过优化输入模型的生化指标,构建了能够准确预测amd的机器学习模型。本发明构建的随机森林模型f1-score为0.97,精度为0.97,特异性为0.98,灵敏度为0.97,auc面积为1.00,模型性能优异,具有很好的应用前景。
14、显然,根据本发明的上述内容,按照本领域的普通技术知识和惯用手段,在不脱离本发明上述基本技术思想前提下,还可以做出其它多种形式的修改、替换或变更。
15、以下通过实施例形式的具体实施方式,对本发明的上述内容再作进一步的详细说明。但不应将此理解为本发明上述主题的范围仅限于以下的实例。凡基于本发明上述内容所实现的技术均属于本发明的范围。
1.一种amd预测系统,其特征在于,包括:
2.按照权利要求1所述的预测系统,其特征在于:所述检测信息包括血液中的如下指标中的至少一种:酮体、淋巴细胞率、白细胞、促甲状腺激素和中性粒细胞率。
3.按照权利要求1所述的预测系统,其特征在于:所述机器学习模型的算法为随机森林、核支持向量机或梯度提升机。
4.按照权利要求3所述的预测系统,其特征在于:所述机器学习模型的算法为随机森林。
5.按照权利要求4所述的预测系统,其特征在于:建立所述机器学习模型时,利用欠抽样的方法时数据集平衡。
6.按照权利要求4所述的预测系统,其特征在于:建立所述机器学习模型时,利用selectpercentile函数进行特征提取,提取对预测贡献最大的前15%的特征,最后构建带有5折交叉验证的随机森林模型。
7.一种计算机可读存储介质,其特征在于:其上存储有用于实现权利要求1-6任一项所述的预测系统的计算机程序。