本申请涉及人工智能,特别是涉及一种基于深度学习的数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
背景技术:
1、随着人工智能技术的发展,深度学习算法已得到越来越广泛的应用。如通过深度学习算法可从原始数据中自动提取语义信息,以实现更准确的分类与预测。目前,采用深度学习算法并基于大规模注释的数据集的方法已经达到了与领域专家相当甚至超越领域专家的性能水平。
2、通常,在医疗大健康领域,将检测设备采集的医疗健康数据转化为适用于后端应用的可操作信息是一项重大挑战。在医疗大健康领域,针对检测设备采集的医疗健康数据(如可穿戴设备采集的生理信号,例如ecg(心电图)信号或eeg(脑电波)信号)进行手动注释需要消耗大量的人力成本和时间成本,且通常需要大量的临床专业知识。这对扩大深度学习在医疗保健应用中的使用产生了极大的阻碍。由此,传统技术中常常通过使用sscl(self-supervised contrastive learning,自监督对比学习)方法来避免手动注释所产生的不便。
3、然而,传统的sscl方法往往会忽略医疗健康数据中的关键细微差别,对所有样本一视同仁,从而可能会遗漏共享类似医疗概念的数据点之间的重要关系,存在模型训练效果不佳的问题。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升模型训练效果的基于深度学习的数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本申请提供了一种基于深度学习的数据处理方法,包括:
3、获取医疗健康数据样本,并获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征;
4、通过待训练的模型提取各所述医疗健康数据样本的样本特征;
5、基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失;其中,所述正负对包括用于学习局部语义关系的第一正负对或用于学习全局语义关系的第二正负对中的至少一者,所述正负对中至少部分样例的特征基于所述样本特征获得;
6、通过所述对比损失对所述待训练的模型进行训练;完成训练后得到的模型用于提取医疗健康数据的特征。
7、第二方面,本申请还提供了一种基于深度学习的数据处理装置,包括:
8、获取模块,用于获取医疗健康数据样本,并获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征;
9、提取模块,用于通过待训练的模型提取各所述医疗健康数据样本的样本特征;
10、确定模块,用于基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失;其中,所述正负对包括用于学习局部语义关系的第一正负对或用于学习全局语义关系的第二正负对中的至少一者,所述正负对中至少部分样例的特征基于所述样本特征获得;
11、训练模型,用于通过所述对比损失对所述待训练的模型进行训练;完成训练后得到的模型用于提取医疗健康数据的特征。
12、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
13、获取医疗健康数据样本,并获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征;
14、通过待训练的模型提取各所述医疗健康数据样本的样本特征;
15、基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失;其中,所述正负对包括用于学习局部语义关系的第一正负对或用于学习全局语义关系的第二正负对中的至少一者,所述正负对中至少部分样例的特征基于所述样本特征获得;
16、通过所述对比损失对所述待训练的模型进行训练;完成训练后得到的模型用于提取医疗健康数据的特征。
17、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
18、获取医疗健康数据样本,并获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征;
19、通过待训练的模型提取各所述医疗健康数据样本的样本特征;
20、基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失;其中,所述正负对包括用于学习局部语义关系的第一正负对或用于学习全局语义关系的第二正负对中的至少一者,所述正负对中至少部分样例的特征基于所述样本特征获得;
21、通过所述对比损失对所述待训练的模型进行训练;完成训练后得到的模型用于提取医疗健康数据的特征。
22、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
23、获取医疗健康数据样本,并获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征;
24、通过待训练的模型提取各所述医疗健康数据样本的样本特征;
25、基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失;其中,所述正负对包括用于学习局部语义关系的第一正负对或用于学习全局语义关系的第二正负对中的至少一者,所述正负对中至少部分样例的特征基于所述样本特征获得;
26、通过所述对比损失对所述待训练的模型进行训练;完成训练后得到的模型用于提取医疗健康数据的特征。
27、上述基于深度学习的数据处理方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征,其中,领域特征基于长期以来指导数据解读和特征工程的临床见解的领域知识而来,利用领域特征来引导对比学习过程中正负对的选择,可以使得模型学习到样本间的局部语义关系和/或全局语义关系。其中,样本间的局部语义关系可以理解为个体与个体之间(即样本与样本之间)的语义关系,样本间的全局语义关系可以理解为个体与集群之间(即样本与样本簇之间)的语义关系。这样便提高了模型的训练效果,使得模型在提取医疗健康数据的特征时,能够在特征空间中很好的表示其中的语义信息,从而提取出高质量的特征。
1.一种基于深度学习的数据处理方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述正负对包括第一正负对的情况下,所述基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失,包括:
3.根据权利要求2所述的方法,其特征在于,所述根据所述医疗健康数据样本以及相应的语义相似样本确定第一正负对,包括:
4.根据权利要求3所述的方法,其特征在于,所述根据锚样本和至少所述锚样本的语义相似样本确定第一正对,包括:
5.根据权利要求1所述的方法,其特征在于,在所述正负对包括第二正负对的情况下,所述基于医疗健康数据样本所对应的领域特征确定正负对,根据所述正负对中各样例的特征确定对比损失,包括:
6.根据权利要求5所述的方法,其特征在于,所述确定当次迭代过程中每个簇的原型包括:
7.根据权利要求5所述的方法,其特征在于,所述根据所述医疗健康数据样本以及各簇的原型确定第二正负对,包括:
8.根据权利要求5所述的方法,其特征在于,所述根据所述第二正负对中各样例的特征确定原型级对比损失,包括:
9.根据权利要求1所述的方法,其特征在于,所述正负对包括第一正负对和第二正负对,所述根据所述正负对中各样例的特征确定对比损失,包括;
10.根据权利要求9所述的方法,其特征在于,所述结合所述实例级对比损失和所述原型级对比损失,得到对比损失,包括:
11.根据权利要求1至10中任一项所述的方法,其特征在于,所述获得每个医疗健康数据样本各自对应的用于反映语义信息的领域特征,包括:
12.一种基于深度学习的数据处理装置,其特征在于,所述装置包括:
13.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至11中任一项所述的方法的步骤。
14.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。
15.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至11中任一项所述的方法的步骤。