医学人工智能封闭式测试集安全计算平台的制作方法

文档序号:31408960发布日期:2022-09-03 08:14阅读:69来源:国知局
医学人工智能封闭式测试集安全计算平台的制作方法

1.本发明涉及智能医学技术领域,具体为医学人工智能封闭式测试集安全计算平台。


背景技术:

2.在智能医学领域中,主要集中于云计算、大数据、数据挖掘方向,拟通过专业的研发技术,打造医学人工智能第三方检测平台,通过整合算法资源、数据资源和标注资源,供ai公司进行数据安全检测、形式化验证等,并推动各方资料的多方共享,服务智能医疗创新创业公司,促进智能医疗业态布局多元化,加快技术型服务产业基地建设。
3.然而,现有技术中,在医学人工智能测试集安全计算平台方面依旧存在一些问题,如,我们通过数据集建立训练模型,其目的是将训练好的模型部署到真实的环境中,希望训练好的模型能够在真实的数据上得到好的预测效果,换句话说就是希望模型在真实数据上预测的结果误差越小越好,我们把模型在真实环境中的误差叫做泛化误差,而我们训练模型的最终目的就是希望模型的泛化误差最低,当然可以使用泛化误差本身来作为检测信号,如果泛化误差小的话还可以接受,但是通常情况下没有那么幸运,泛化误差可能很大,这个时候你肯定会将部署的模型撤回,重新训练,你可能需要部署和训练之间往复很多次,这种方式虽然能够更好的指导我们的模型,但是成本和效率非常的差,为此提出了医学人工智能封闭式测试集安全计算平台。


技术实现要素:

4.针对现有技术的不足,本发明提供了医学人工智能封闭式测试集安全计算平台,具备高效率,低成本等优点,解决了现有技术中泛化误差可能很大,故而需要部署和训练之间往复很多次,导致成本高和效率非常差的问题。
5.为实现上述高效率,低成本的目的,本发明提供如下技术方案:医学人工智能封闭式测试集安全计算平台,包括数据建立,所述数据建立数据包含有数据库、数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块,所述数据建立数据连接有训练模型和模型测试,所述训练模型和模型测试数据连接有模型验证,所述训练模型包含有密钥转换模块、密钥传输模块、密钥引用模块和密钥验证模块,所述模型测试包含有密钥解密模块、密钥传输模块、密钥引用模块和密钥验证模块。
6.进一步,所述数据库采用sqlserve、orac l e以及mysql中的任意一种。
7.进一步,所述数据采集模块用于采集需要清洗的数据和数据清洗的项目,数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内。
8.进一步,所述数据分析模块用于将数据中破损、残缺的数据进行标记,并删除。
9.进一步,所述数据分层模块通过sklearn库中的stratifiedshufflesplit函数将数据划分成初始训练集和初始测试集
10.进一步,所述数据清洗模块用以检查数据一致性,处理无效值和缺失值,通过单线
性回归的方式进行数据清洗。
11.进一步,所述数据抽样模块用于对初始训练集和初始测试集进出分层抽样,然后通过数据合成模块将数据整合成训练集和测试集,训练集占总数据量的80%,测试集占总数据量的20%,并对测试集进行测试集加密,防止数据泄漏。
12.进一步,所述训练模型和模型验证的内部程序相同,训练模型通过训练集得出第一泛化误差,模型测试通过测试集得出第二泛化误差,通过反复抽取一部分数据投入模型验证中进行验证,而这个抽出的数据作为验证集。
13.进一步,所述第一泛化误差需要和第二泛化误差进行比对,随后通过模型验证不断调整参数,从而得出第三泛化误差,以此来防止测试集泄漏,训练集、验证集、测试集比例调整为98:1:1。
14.与现有技术相比,本发明提供了医学人工智能封闭式测试集安全计算平台,具备以下有益效果:
15.该医学人工智能封闭式测试集安全计算平台,通过搭建封闭式环境,进行数据集组装,而在数据集组装过程中,通过数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块对数据进行精致的整理,利用分层清洗的方式对数据进行精良化,确保数据的唯一性和有效性,随后通过分类抽取,形成训练集和测试集,然后将训练集和测试集分别带入到训练模型和模型验证中,在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似,以此来尽可能的降低误差,通过验证集来作为调整模型的依据,这样不至于将测试集中的信息泄露,而在训练模型和模型验证以及模型验证中的数据采用加密方式,对数据进行加密,可进一步降低数据泄漏的风险,最在部署到现实场景,建立引用,直至最后的发布和共享,通过上述操作可大幅度减少部署和训练之间次数,从而有效的降低成本,进而提升了效率。
附图说明
16.图1为本发明系统示意图。
具体实施方式
17.下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
18.请参阅图1,医学人工智能封闭式测试集安全计算平台,包括数据建立,数据建立数据包含有数据库、数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块。
19.其中,数据库采用sqlserve、oracle以及mysql中的任意一种。
20.其次,数据采集模块用于采集需要清洗的数据和数据清洗的项目,数据保存模块用于将需要清洗的数据和数据清洗的项目保存至清洗数据库内。
21.另外,数据分析模块用于将数据中破损、残缺的数据进行标记,并删除,以此来确
保每个数据的真实性和完整性。
22.而数据分层模块通过sklearn库中的stratifiedshufflesplit函数将数据划分成初始训练集和初始测试集,数据清洗模块用以检查数据一致性,处理无效值和缺失值,通过单线性回归的方式进行数据清洗。
23.数据建立数据连接有训练模型和模型测试,训练模型和模型测试数据连接有模型验证。
24.其中,训练模型包含有密钥转换模块、密钥传输模块、密钥引用模块和密钥验证模块,模型测试包含有密钥解密模块、密钥传输模块、密钥引用模块和密钥验证模块。
25.数据抽样模块用于对初始训练集和初始测试集进出分层抽样,然后通过数据合成模块将数据整合成训练集和测试集,训练集占总数据量的80%,测试集占总数据量的20%,并对测试集进行测试集加密,防止数据泄漏。
26.训练模型和模型验证的内部程序相同,训练模型通过训练集得出第一泛化误差,模型测试通过测试集得出第二泛化误差,通过反复抽取一部分数据投入模型验证中进行验证,而这个抽出的数据作为验证集。
27.将训练集投入训练模型,得出第一泛化误差值,而后在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次。
28.最后,在得到第一泛化误差后,需要和第二泛化误差进行比对,随后通过模型验证不断调整参数,从而得出第三泛化误差,以此来防止测试集泄漏,训练集、验证集、测试集比例调整为98:1:1。
29.本实施例在使用时,通过搭建封闭式环境,进行数据集组装,而在数据集组装过程中,通过数据采集模块、数据保存模块、数据分析模块、数据分层模块、数据清洗模块、数据抽样模块和数据合成模块对数据进行精致的整理,利用分层清洗的方式对数据进行精良化,确保数据的唯一性和有效性,随后通过分类抽取,形成训练集和测试集,然后将训练集和测试集分别带入到训练模型和模型验证中,在训练集上训练模型,在验证集上评估模型,一旦找到的最佳的参数,就在测试集上最后测试一次,测试集上的误差作为泛化误差的近似,通过验证集来作为调整模型的依据,这样不至于将测试集中的信息泄露。
30.文中出现的电器元件均与主控器及电源电连接,主控器可为计算机等起到控制的常规已知设备,且现有公开的电力连接技术,不在文中赘述。
31.需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。
32.尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。
当前第1页1 2 
网友询问留言 已有0条留言
  • 还没有人留言评论。精彩留言会获得点赞!
1