基于机器学习的2019-nCov病例分类和临床结果预测方法与流程

文档序号:40712284发布日期:2025-01-17 12:40阅读:23来源:国知局
基于机器学习的2019-nCov病例分类和临床结果预测方法与流程

本发明涉及生物,更具体的公开了基于机器学习的2019-ncov病例分类和临床结果预测方法。


背景技术:

1、针对2019-ncov的治疗、预防和监测,这不仅需要对病例进行快速而准确地诊断分类,还要能对2019-ncov临床发展结果进行准确地预测。目前,使用核酸检测作为新型冠状病毒的检测结果,核酸检测也被看作是此病症检测的金标准,但核酸检测耗时长且有一定假阴性,通常需要进行多次检测才能保证检测结果无误。除此之外,核酸检测对于早期感染和无症状感染患者无法准确检测,且不能对患者的病情发展做出预测。


技术实现思路

1、本发明主要解决的技术问题是提供基于机器学习的2019-ncov病例分类和临床结果预测方法,能够解决核酸检测耗时长且有一定假阴性,通常需要进行多次检测才能保证检测结果无误。除此之外,核酸检测对于早期感染和无症状感染患者无法准确检测,且不能对患者的病情发展做出预测的问题。

2、为解决上述技术问题,根据本发明的一个方面,更具体的说是基于机器学习的2019-ncov病例分类和临床结果预测方法,包括以下步骤:

3、s1、获得194份2019-ncov恢复者、急性患者和健康者pbmc的rna-seq数据,使用fastp清洁rna-seq原始数据,然后使用hi sat38映射到人类基因组(grch38);

4、s2、采用subread包的featurecounts工具用于计算与基因对齐的读取次数;

5、s3、然后使用pydeseq2包对差异表达基因进行分析;根据以下标准划分差异表达基因:表达上调的基因按照调整p值(padj)<0.05和log2foldchange≥1的标准进行划分,表达下调的基因按照调整p值(padj)<0.05和log2foldchange≤-1的标准进行划分;基因计数通过pydeseq2进行归一化,并转换为log2(归一化计数+1)格式,然后通过limma r包去除批量效应,结果为归一化基因表达水平;

6、s4、使用mixcr提取bcr和tcr,igh、igl、igk、tra、trb共5条链的克隆型,然后分析igh,igl,igk,tra,trb每条链的克隆种数(richness)、多样性(diversity)、克隆性(clonality);

7、s5、采用集成了经典机器学习算法的python模块sklearn用于实现上述模型;为了评估每种特征组合所实现的性能,进行了三重交叉验证;将样本随机平均分成三组,每组称为折叠;对于每个折叠,将其中一个作为测试集,其余两个折叠被视为训练集;然后,重复这一过程,直到所有折叠都作为测试集;模型的性能用三个折叠测试集预测结果的平均精度和平均auc进行评估,按照auc值从大到小排序,取前500个组合,从auc靠前的组合中选取绝大部分出现的参数,综合这些个参数作为模型的输入组合进行训练,验证,预测,得到最终模型和结果;最后为了确定这些生物标志物的可靠性,建立混淆矩阵,以表明使用这些生物标志物可以以理想的准确性区分这些样品的各个病程。

8、更进一步的,所述克隆种数(richness)用于表示每个样品的独特克隆型数量用于指示丰富度;独特的克隆型是通过受体核苷酸序列(cdr3序列、v/j片段和超突变)的精确匹配来严格定义的。

9、更进一步的,所述多样性(diversity)使用香农指数表示:

10、

11、其中,n代表样品x中的克隆型总数,pxi是指克隆型i的频率,一般来说,更独特的克隆型和更均匀的克隆型分布将增加给定库的多样性;

12、均匀度:

13、e=h/hmax

14、其中,h为香农指数,hmax为当每一个clone出现的概率相同时的h;为标准化后的香农指数,均匀度越大,多样性越好。

15、更进一步的,所述克隆性(clonality):

16、clonality=1-e

17、将上述得到的差异表达基因与免疫组库指标数据进行合并,选取了差异表达靠前的基因与igh、igl、igk、tra、trb共5条链的richness、diversity、clonality的15个免疫组库指标数据作为候选标志物,将这些标志物进行随机组合,得到数据集;

18、使用逻辑回归模型作为分类器,逻辑回归函数表示如下:

19、logit=b0+b1f1+b2f2+...+bnfn

20、其中,f1自fn表示不同的要素;b0表示偏置,b1自bn表示这些功能的权重;应用sigmoid函数将logit转换为0到1之间的得分,sigmoid函数表示如下:

21、score=1/(1+e-logit)。

22、更进一步的,所述s5中,对于该步骤中的模型训练,执行多元逻辑回归(lr)。

23、本发明基于机器学习的2019-ncov病例分类和临床结果预测方法的有益效果为:本发明创新性地将免疫组库特征和rna-seq结合起来,利用机器学习的方法筛选到一组生物标志物,通过这些标志物可以预测2019-ncov感染人群以及区分急性期患者、恢复期患者和未暴露的健康者。本发明具有较高的准确性,在这个模型中,急性期、恢复者和健康人群的auc值均达到了0.99,可以准确区分2019-ncov感染人群。本发明可以预测早期感染人群,其他的检测技术通常需要在感染后数天才能检测到新型冠状病毒,因此无法检测早期感染的人群。与此同时,新型冠状病毒检测金标准——荧光定量pcr,无法区分新型冠状病毒感后的不同疾病状态(急性期、恢复期与健康者),因为恢复期患者体内的病毒含量极低,其基因难以被有效检测。本发明将免疫组库特征和rna-seq结合起来,不仅能检测当前感染状态,还能判断是否曾经感染过新型冠状病毒或是否具有针对新型冠状病毒的免疫力,特别地,即使是对于变异毒株也同样有很高的准确度。通过上述这些优点,本发明不仅可以提高检测的准确性和灵敏度,减少误报率和漏报率,还可为患者的治疗及监测工作提供科学依据。



技术特征:

1.基于机器学习的2019-ncov病例分类和临床结果预测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于机器学习的2019-ncov病例分类和临床结果预测方法,其特征在于:所述克隆种数(richness)用于表示每个样品的独特克隆型数量用于指示丰富度;独特的克隆型是通过受体核苷酸序列(cdr3序列、v/j片段和超突变)的精确匹配来严格定义的。

3.根据权利要求1所述的基于机器学习的2019-ncov病例分类和临床结果预测方法,其特征在于:所述多样性(diversity)使用香农指数表示:

4.根据权利要求1所述的基于机器学习的2019-ncov病例分类和临床结果预测方法,其特征在于:所述克隆性(clonality):

5.根据权利要求1所述的基于机器学习的2019-ncov病例分类和临床结果预测方法,其特征在于:所述s5中,对于该步骤中的模型训练,执行多元逻辑回归(lr)。


技术总结
本发明涉及生物技术领域,且公开了基于机器学习的2019‑nCov病例分类和临床结果预测方法,包括以下步骤:S1、获得194份2019‑nCov恢复者、急性患者和健康者PBMC的RNA‑seq数据,使用Fastp清洁RNA‑seq原始数据,然后使用HISAT38映射到人类基因组(GRCh38);S2、采用Subread包的FeatureCounts工具用于计算与基因对齐的读取次数。本发明创新性地将免疫组库特征和RNA‑seq结合起来,利用机器学习的方法筛选到一组生物标志物,通过这些标志物可以预测2019‑nCov感染人群以及区分急性期患者、恢复期患者和未暴露的健康者。本发明具有较高的准确性,在这个模型中,急性期、恢复者和健康人群的AUC值均达到了0.99,可以准确区分2019‑nCov感染人群。

技术研发人员:舒涛,徐子静,龚建福,叶晓飞,孙勇,龚丹丹,余蓓,梁靓
受保护的技术使用者:武汉康圣贝泰生物科技有限公司
技术研发日:
技术公布日:2025/1/16
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1