本发明涉及计算机领域,尤其涉及一种基于机器学习的测序结果自动判读方法、系统以及设备。
背景技术:
1、现代生物技术中,尤其是在基因组学、转录组学及个体化医学等领域,对测序数据的分析需求越来越高。尽管生物信息学工具和软件的不断研发,在数据分析方面提供了众多解决方案,但传统的手动判读方法仍然普遍依赖于人工对数据的经验判断。
2、这些手动分析方法不仅耗时耗力,而且容易受到主观因素的影响,可能导致结果的不一致性和偏差。因此,如何减少对人工经验的依赖并确保分析结果的一致性等问题,亟待解决。
技术实现思路
1、本发明的目的之一在于提供一种基于机器学习的测序结果自动判读方法、系统以及设备,能够通过构建机器学习模型,实现对测序结果的高效自动化判读,大幅度提高测序结果判读的速度和准确性。
2、本发明的目的之一在于提供一种基于机器学习的测序结果自动判读方法、系统以及设备,能够提供测序结果自动判读模型,自动从测序数据中学习,获得并分析潜在的规律和关系,提供破解复杂生物数据分析。
3、本发明的目的之一在于提供一种基于机器学习的测序结果自动判读方法、系统以及设备,能够采用机器学习算法自动学习数据的模式和规律,从而快速处理和分析海量的测序数据,提高了数据分析的效率。
4、本发明的目的之一在于提供一种基于机器学习的测序结果自动判读方法、系统以及设备,能够通过算法自动化处理,避免了人为因素可能导致的误差和偏见,提高了结果的准确性和可靠性。
5、本发明的目的之一在于提供一种基于机器学习的测序结果自动判读方法、系统以及设备,能够提供测序结果自动判读模型,减少对人工的依赖,降低人力成本。
6、为了实现本发明的至少一个发明目的,本发明提供了一种基于机器学习的测序结果自动判读方法,包括以下步骤:
7、收集不同类型的测序结果,作为数据源数据库中的数据源
8、获取数据源数据库中的不同类型的测序结果,对原始数据执行去除重复、无关或噪声数据;
9、读取.ab1文件的测序结果相关信息,提取特征;
10、将特征与相应的标签执行合并,生成一个结构化的数据表;
11、根据任务选择构建对应的机器学习模型;使用训练集对模型进行训练,调整超参数以优化模型性能;
12、调取评估标准评估模型的表现;以及
13、封装调用模型,自动判读测序结果。
14、在一些实施例中,其中所述基于机器学习的测序结果自动判读方法还包括步骤:将提取的特征数据进行处理后与相应的标签合并成一个结构化的dataframe数据表,并将构建好的数据集导出为csv格式,以便于构建的对应机器学习模型学习处理。
15、在一些实施例中,其中所述基于机器学习的测序结果自动判读方法还包括步骤:调用predict方法在测试集上生成预测,并计算准确率、查准率、召回率、f1分值作为评估指标。
16、在一些实施例中,其中所述基于机器学习的测序结果自动判读方法还包括步骤:使用网格搜索算法来寻找最优的参数值。
17、在一些实施例中,其中所述基于机器学习的测序结果自动判读方法还包括步骤:调整参数继续训练模型,直到模型评估指标达到要求。
18、在一些实施例中,其中所述基于机器学习的测序结果自动判读方法还包括步骤:调用joblib库中的dump()函数,对训练好的模型进行保存;将保存好的模型封装成可调用的接口,外部请求接口即可获取测序结果。
19、根据本发明的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时执行所述的基于机器学习的测序结果自动判读方法的步骤。
20、根据本发明的另一方面,还提供了一种基于机器学习的测序结果自动判读设备,包括:
21、存储器,用于存储软件应用程序,
22、处理器,用于执行所述软件应用程序,所述软件应用程序的各程序相对应地执行所述的基于机器学习的测序结果自动判读方法的各步骤。
23、根据本发明的另一方面,还提供了一种基于机器学习的测序结果自动判读系统,包括数据收集单元、数据预处理单元、特征提取单元、数据集构建单元、模型训练单元、模型评估单元以及判读结果单元;所述数据收集单元收集测序结果文件作为数据源;所述数据预处理单元对数据进行预处理;所述特征提取单元读取.ab1文件的测序结果相关信息,提取特征;所述数据集构建单元将特征与相应的标签合并成一个结构化的数据表,所述模型训练单元根据任务构建对应的机器学习模型,使用训练集对模型进行训练,调整超参数以优化模型性能;所述模型评估单元应用评估标准来评估模型的表现;所述判读结果单元封装调用模型,自动判读测序结果。
24、在一些实施例中,其中所述判读结果单元包括训练完毕模型保存模块、模型封装模块以及测序结果自动判读模块;所述训练完毕模型保存模块被配置为执行:调用joblib库中的dump()函数,对训练好的模型进行保存;所述模型封装模块将保存好的模型封装成可调用的接口;所述测序结果自动判读模块响应于外部请求接口的判读请求,自动判读测序结果。
1.一种基于机器学习的测序结果自动判读方法,其特征在于,所述基于机器学习的测序结果自动判读方法包括以下步骤:
2.如权利要求1所述的基于机器学习的测序结果自动判读方法,其中所述基于机器学习的测序结果自动判读方法还包括步骤:将提取的特征数据进行处理后与相应的标签合并成一个结构化的dataframe数据表,并将构建好的数据集导出为csv格式,以便于构建的对应机器学习模型学习处理。
3.如权利要求1所述的基于机器学习的测序结果自动判读方法,其中所述基于机器学习的测序结果自动判读方法还包括步骤:调用predict方法在测试集上生成预测,并计算准确率、查准率、召回率、f1分值作为评估指标。
4.如权利要求3所述的基于机器学习的测序结果自动判读方法,其中所述基于机器学习的测序结果自动判读方法还包括步骤:使用网格搜索算法来寻找最优的参数值。
5.如权利要求4所述的基于机器学习的测序结果自动判读方法,其中所述基于机器学习的测序结果自动判读方法还包括步骤:调整参数继续训练模型,直到模型评估指标达到要求。
6.如权利要求5所述的基于机器学习的测序结果自动判读方法,其中所述基于机器学习的测序结果自动判读方法还包括步骤:调用joblib库中的dump()函数,对训练好的模型进行保存;将保存好的模型封装成可调用的接口,外部请求接口即可获取测序结果。
7.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该计算机程序被处理器执行时执行权利要求1至6中任一所述的基于机器学习的测序结果自动判读方法的步骤。
8.一种基于机器学习的测序结果自动判读设备,其特征在于,包括:
9.一种基于机器学习的测序结果自动判读系统,其特征在于,所述基于机器学习的测序结果自动判读系统包括数据收集单元、数据预处理单元、特征提取单元、数据集构建单元、模型训练单元、模型评估单元以及判读结果单元;所述数据收集单元收集测序结果文件作为数据源;所述数据预处理单元对数据进行预处理;所述特征提取单元读取.ab1文件的测序结果相关信息,提取特征;所述数据集构建单元将特征与相应的标签合并成一个结构化的数据表,所述模型训练单元根据任务构建对应的机器学习模型,使用训练集对模型进行训练,调整超参数以优化模型性能;所述模型评估单元应用评估标准来评估模型的表现;所述判读结果单元封装调用模型,自动判读测序结果。
10.如权利要求9所述的基于机器学习的测序结果自动判读系统,其中所述判读结果单元包括训练完毕模型保存模块、模型封装模块以及测序结果自动判读模块;所述训练完毕模型保存模块被配置为执行:调用joblib库中的dump()函数,对训练好的模型进行保存;所述模型封装模块将保存好的模型封装成可调用的接口;所述测序结果自动判读模块响应于外部请求接口的判读请求,自动判读测序结果。