流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用

文档序号:34648381发布日期:2023-06-29 18:50阅读:61来源:国知局
流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用

本发明属于分子生物学领域,具体涉及流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用。


背景技术:

1、流感病毒在人类和动物中定期引起季节性流行病,偶尔还会引起严重的流行病。全球每年约有300万至500万例严重病例,约有29万至65万人死于季节性流感引起的呼吸系统疾病,在全世界范围造成严重的公共卫生问题,亟需开发更有效的药物、疫苗及相关的防护措施来遏制流感病毒的传播、流行与爆发。因此,开发设计更有效、更具针对性的药物、疫苗及相关的防护措施是当前流感病毒研究的重中之重。

2、流感病毒的感染范围广,可感染任何年龄段的人。但是暴露在同一流感病毒环境的人往往会出现不同的结局,例如有的人症状轻微,有的人症状危重,但有的人无症状。这表明个体对流感的易感性存在差异。流感易感性的差异导致人群患病风险不同。精准识别高风险人群,对流感的精准预防和治疗以及新药和疫苗的研发至关重要,将有助于减轻人类流感的疾病负担。

3、相关技术中,发现造成宿主对流感易感性差异的原因是非常复杂的,有包括来自病毒、宿主和环境等多方面因素牵涉其中,例如接触史、遗传因素、年龄、营养等等。但目前在转录水平进行流感易感性的研究还比较少。相关技术中,主要关注的是易感与不易感人群在感染后的转录特征差异,并且分类模型大多依赖感染后的特征,而缺乏对于感染前高风险人群的识别。高风险人群的识别更具意义和实际应用价值的地方是在于在病毒感染前捕捉到机体的特点,也就是关注基线水平易感与不易感人的异同。此外,目前的研究大多数集中在老年人、儿童、孕妇等特殊人群的易感研究上,针对健康成年人的易感性研究还非常少。然而健康成年人在总人口中占相当大的比例,并且其流动性高、活动范围广泛。不仅如此,健康成年人在家庭、工作及社会中扮演着重要的支柱角色,是社会生产的主要劳动力。这些原因使得健康成年人一旦患上流感,则传播风险更高,危害更大。

4、因此,本发明将重点关注健康成年人的流感易感性,并致力于在基线转录水平寻找与易感性相关的基因,并且利用这些基因构建能够面向健康人群进行早期风险筛查的预测模型,以克服现有技术中对于该方面的研究空白。


技术实现思路

1、本发明旨在至少解决上述现有技术中存在的技术问题之一。为此,本发明提出一组流感易感标志物和基于该标志物的流感高危人群预测模型的构建方法与应用。本发明通过从流感患者基因基线数据中筛分出有症状和无症状受试者数据,分别进行差异表达分析和共表达网络分析,结合随机森林模型成功构建得到了一种能够准确分析流感高危人群的预测模型,其auc可达到0.94,准确率高,从而能够在极早期的发现流感高危人群,有效实施干预措施或治疗手段,精准控制流感的发生和传播,降低其对于人群健康的危害。

2、本发明的第一个方面,提供一组流感易感标志物,所述流感易感标志物为“amfr”、“hbq1”、“dhrs9”、“slc35e2a”、“bank1”、“cd79a”、“txndc5”、“h2bc5”和“prky”。

3、在本发明的一些实施方式中,所述流感包括h3n2。

4、在本发明的一些实施方式中,所述流感为h3n2。

5、本发明的第二个方面,提供一种流感高危人群预测模型的构建方法,包括如下步骤:

6、(1)采集受试者样本中的基因数据,筛选出流感相关的基线数据进行使用;

7、(2)从基线数据中筛分出有症状和无症状受试者数据,分别进行差异表达分析和共表达网络分析,选取差异表达分析和共表达网络分析后的交集基因作为候选基因;

8、(3)基于候选基因,采用随机森林构建得到流感高危人群预测模型。

9、其中,所述候选基因包括本发明第一个方面所述的流感易感标志物,具体为“amfr”、“hbq1”、“dhrs9”、“slc35e2a”、“bank1”、“cd79a”、“txndc5”、“h2bc5”和“prky”的组合。

10、在本发明的一些实施方式中,所述差异表达分析中设置参数pfp≤0.05。

11、在本发明的一些实施方式中,所述共表达网络分析的步骤包括:

12、(1)采用r中的hclust函数分层聚类方法对样本进行聚类;

13、(2)利用wgcnar包中的函数选择软阈值计算软阈值功率β,计算皮尔逊相关性,并使用皮尔逊相关性结果构造具有软阈值功率β的加权邻接矩阵;

14、(3)将加权邻接矩阵转化为拓扑重叠测度,根据拓扑重叠测度的差异度量进行平均连锁层次聚类,从而将表达模式相似的基因划分在同一模块中,即可。

15、在本发明的一些实施方式中,所述阈值β设置为6~8。

16、在本发明的一些实施方式中,所述阈值β设置为6,r2可达0.9。

17、在本发明中,经过测试,发现阈值β设置为6时,平均连通性相对较高。

18、在本发明的一些实施方式中,所述拓扑重叠测度(tom)用于估计其中基因的网络连通性。

19、在本发明的一些实施方式中,所述平均连锁层次聚类的相关参数设置为:tomtype=“unsigned”,min module size=15,reassign threshold=0,merge cut height=0.25,deepsplit=2。

20、在本发明中,经过测试,共得到18个模块,其中5个与易感和非易感密切相关的模块,具体为:"mecyan"、"memidnightblue"、"meblue"、"megreenyellow"、"megrey60",共计466个基因。

21、在本发明的一些实施方式中,所述差异表达分析(degs)是基于rankprod(版本3.18.0)的方法确定无症状和有症状宿主之间的差异表达基因(degs)。在本发明中,共从8478个基因中筛选出223个差异表达基因。

22、在本发明中,术语“差异表达基因(degs)”是指在rna水平处在不同状态或条件下,表达有显著性差异的基因。

23、在本发明的一些实施方式中,共表达网络分析是利用r包wgcna使用8478个基因中的前20%的变异基因(1696个基因)构建共表达网络。

24、在本发明的一些实施方式中,选取差异表达分析和共表达网络分析后的交集基因作为候选基因的具体操作为:使用模块筛选为基础进行代表性基因(候选基因)的筛选,模块筛选具体为在一个模块中随机挑选两个基因,利用挑选出的2个基因和其他2个模块中的所有基因的表达谱构建随机森林模型,利用五折交叉验证评价该模型的准确性。测试该模块中所有2个基因与其他2个模块基因构成的随机森林模型情况,比较其准确性,选择该模块中准确性最高的模型,组成该模型的2个基因即为从该模块中挑选出的与流感易感性相关程度最高的2个基因。

25、在本发明的一些实施方式中,还可以借助机器学习中如方差阈值、selectkbest、递归特征消除、selectfrommodel特征选择、顺序特征选择等方法进行候选基因。

26、在本发明的一些实施方式中,所述流感高危人群预测模型的构建方法还包括后续对模型的进一步手动调参、网格调参等方式对模型的参数进行调试,以优化预测模型。

27、在本发明的一些实施方式中,所述流感包括h3n2。

28、在本发明的一些实施方式中,所述流感为h3n2。

29、在本发明的一些实施方式中,所述流感高危人群预测模型的构建方法具体为:

30、(1)从基因表达综合数据库(geo)收集基于流感挑战实验的与a/h3n2流感相关的微阵列数据,提取数据集在基线(第0天)的微阵列数据,其中,总共包含30个有症状的宿主和19个无症状的宿主,并通过数据整合和预处理,最终得到包含8478个基因的在49个样本(其30个有症状宿主,19个无症状宿主)中的表达谱;

31、(2)利用生物学分析方法对包含8478个基因的表达谱进行初步筛选,其中,通过差异表达分析筛选出在有症状和无症状宿主之间存在表达差异的基因,通过共表达网络分析得到与季节性流感a/h3n2易感性相关的共表达模块中的基因,根据综合差异表达基因和共表达模块的基因分析结果,提取出既在感染季节性流感a/h3n2后有、无症状宿主间存在差异表达,同时又属于季节性流感a/h3n2易感性相关共表达模块的基因作为初步筛选的结果;

32、(3)使用基于共表达模块的筛选方法进一步筛选出候选基因:分别在每一个共表达模块中,利用随机森林模型进一步筛选每个共表达模块与流感易感性最相关的两个基因,综合每个模块的结果,可以筛选出与流感易感性相关程度最高的候选基因。

33、(4)基于得到的候选基因表达谱数据,使用随机森林的方法构建分类模型,来预测个体是否易感。

34、在本发明中,所述预测模型是基于健康人群基线血液转录组,通过筛选流感易感性相关基因,从而构建得到的基于靶向基因的面向普通人群流感易感性预测模型,与现有技术中流感风险评估模型的数据基础和判定标准完全不同,是唯一一种面向普通人群流感易感性的预测模型。

35、早期筛查对于流感的控制具有极为重要的意义,对于具有高发病风险的个体,可以针对感染甲型流感的高危因素,尤其是环境因素等方面,采取针对性的措施,进行更为精准的预防干预。针对高危人群的重点预防策略更符合成本效益原则,可以使有限的医疗资源发挥其最大的效益,在很大程度上减少医疗资源和社会经济的浪费。同时,通过阻断对甲型流感高度易感的个体感染,切断了流感的多条传播链,保护其他可能感染流感的个体。能达到进一步降低甲型流感h3n2在人群中的发病风险、减轻流感的疾病负担、保护人群健康的效果。

36、在本发明中,术语“易感性”是指指个体患病的风险。即在相同环境下,不同个体患病的风险,可能与遗传,环境等多方面因素相关。

37、本发明的第三个方面,提供定量检测本发明第一个方面所述流感易感标志物的产品在制备流感高危人群预测产品中的应用。

38、在本发明的一些实施方式中,所述流感高危人群预测产品包括检测试剂、检测试剂盒、检测芯片、风险预测系统。

39、在本发明的一些实施方式中,所述风险预测系统中,定量检测本发明第一个方面所述流感易感标志物的产品作为检测端,通过检测端得到的数据将传输至载有本发明中的流感高危人群预测模型的分析端进行分析,从而得到预测结果,借由预测结果直接输出人群判定结果。

40、在本发明的一些实施方式中,所述流感包括h3n2。

41、在本发明的一些实施方式中,所述流感为h3n2。

42、在本发明的一些实施方式中,所述流感高危人群预测产品的使用方法包括如下步骤:定量待测样品中的流感易感标志物含量,将其带入预测模型中,根据预测模型得到的结果判定是否属于流感高危人群。

43、在本发明的一些实施方式中,所述预测模型为由基因“amfr”、“hbq1”、“dhrs9”、“slc35e2a”、“bank1”、“cd79a”、“txndc5”、“h2bc5”和“prky”为特征组成的随机森林分类模型,只需带入患者的这些基因在血液中的表达量,模型就可以判断该患者是否为流感高危人群。

44、在本发明的一些实施方式中,流感高危人群的判定标准为:若模型输出为1,则判定为流感高危人群;若模型输出为0,则判定为流感低风险或无风险人群。

45、在本发明中,本发明旨在提供一组与流感易感性相关的基因,使得能够在基线水平基于这几个基因的血液转录组筛查就能够通过模型预测健康成年人对季节性流感a/h3n2患病风险高低。

46、本发明的有益效果是:

47、1.本发明只基于健康成年人基线水平转录组的数据,发现了与流感易感性相关的标志物组合:“amfr”、“hbq1”、“dhrs9”、“slc35e2a”、“bank1”、“cd79a”、“txndc5”、“h2bc5”和“prky”,并基于该标志物构建了随机森林分类模型,用于筛选健康成年人中甲型流感h3n2易感个体,并且具有较好的准确度;而且在该标志物筛选中,充分考虑了其生物学意义,也考虑到同一个模块中的基因有相似的表达模式且目前输入特征较多会容易导致输入数据太多造成过度拟合的问题,实现了有效的最优化。

48、2.本发明中的构建方法是基于基线转录信息,筛选流感易感性相关的基因,并构建随机森林模型,预测健康成人对季节性流感a/h3n2的易感性,该方法简单方便、得到的模型具有较高灵敏度;而且,该方法中重点关注了差异表达基因和共表达模块中的差异性,得到的模型能根据实际情况进行调整优化,可通过其他原则进行或者不进行初步筛选,具有较高的灵活性。

49、3.本发明中的模型是基于健康成年人转录组基线水平的基因表达,预测个体针对甲型流感病毒h3n2的易感性,可以面向社会广泛适用于人群对甲型流感易感性的筛查,不具有人群限定性,且该模型的auc为0.94、准确度为0.91、精确度为1、召回率为0.75、f1评分为0.86,表明其具有良好的预测效果。

50、4.本发明中的模型利用的是外周血转录组数据对健康成年人中流感易感性个体进行预测,获取外周血组织是相对无创的医学检查手段,群众接受程度高,可行性程度高,而且可以及时发现并筛选出健康人群中对流感高度易感的人群,从而在个体因素方面确定甲型流感的高危人群。

当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1