一种基于深度神经网络的数据处理方法及装置与流程

文档序号：22317519发布日期：2020-09-23 01:46阅读：来源：国知局

技术特征：

1.一种基于深度神经网络的数据处理方法，其特征在于，包括：

获取至少2个训练样本，所述至少2个训练样本中的每个训练样本为四元组，所述四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量，所述锚点为质量合格的病历数据，所述正样本为与所述锚点类别相同且质量合格的病历数据，所述负样本为与所述锚点类别不相同且质量合格的病历数据，所述假样本为质量不合格的病历数据；

将所述至少2个训练样本依次输入构建好的深度神经网络dnn模型进行训练，使训练后所述dnn模型的损失函数减小至预设波动范围，所述dnn模型的损失函数为四元组损失函数，所述四元组损失函数由所述锚点的特征向量输入所述dnn模型得到的嵌入向量分别与所述正样本的特征向量、所述负样本的特征向量、所述假样本的特征向量输入所述dnn模型得到的嵌入向量之间的差异确定；

将待预测病历数据的特征向量输入训练好的dnn模型中处理，得到所述待预测病历数据对应的目标嵌入向量；

根据所述目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离，确定所述待预测病历数据的质量。

2.根据权利要求1所述的方法，其特征在于，所述四元组损失函数为：

l＝d(a,p)-d(a,n)-k*d(a,f)；

其中，所述l表示所述四元组损失函数，所述a表示所述锚点的特征向量输入所述dnn模型后得到的嵌入向量，所述p表示正样本的特征向量输入所述dnn模型后得到的嵌入向量，所述n表示负样本的特征向量输入所述dnn模型后得到的嵌入向量，所述f表示假样本的特征向量输入所述dnn模型后得到的嵌入向量，所述k为系数，所述d(a,p)表示所述a与所述p之间的距离，所述d(a,n)表示所述a与所述n之间的距离，所述d(a,f)表示所述a与所述f之间的距离。

3.根据权利要求1或2所述的方法，其特征在于，所述根据所述目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离，确定所述待预测病历数据的质量，包括：

若所述目标嵌入向量与质量嵌入向量之间的距离大于或等于预设的质量异常距离，则确定所述待预测病历数据的质量为不合格；

若所述目标嵌入向量与所述质量嵌入向量之间的距离小于所述质量异常距离，则确定所述待预测病历数据的质量为合格。

4.根据权利要求1所述的方法，其特征在于，所述根据所述目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离，确定所述待预测病历数据的质量之前，所述方法还包括：

将所述至少2个训练样本中所有假样本的特征向量依次输入训练好的dnn模型中处理，得到所述所有假样本对应的嵌入向量，其中一个假样本对应一个嵌入向量；

将所述所有假样本对应的嵌入向量之间的均值向量确定为质量嵌入向量。

5.根据权利要求3所述的方法，其特征在于，所述确定所述待预测病历数据的质量为合格之后，所述方法还包括：

根据所述目标嵌入向量与各个类别嵌入向量之间的距离、和所述各个类别嵌入向量对应的类别距离，确定所述待预测病历数据的类别。

6.根据权利要求5所述的方法，其特征在于，所述根据所述目标嵌入向量与各个类别嵌入向量之间的距离、和所述各个类别嵌入向量对应的类别距离，确定所述待预测病历数据的类别，包括：

若所述目标嵌入向量与各个类别嵌入向量中类别嵌入向量w之间的距离小于或等于所述类别嵌入向量w对应的类别距离，则确定所述待预测病历数据的类别为第一类别，所述第一类别为所述类别嵌入向量w对应的类别。

7.根据权利要求6所述的方法，其特征在于，所述方法还包括：

若所述目标嵌入向量与各个类别嵌入向量之间的距离均大于所述各个类别嵌入向量对应的类别距离，则确定所述待预测病历数据的类别为第二类别，所述第二类别与所述各个类别嵌入向量对应的类别均不相同。

8.一种数据处理装置，其特征在于，包括：

获取单元，用于获取至少2个训练样本，所述至少2个训练样本中的每个训练样本为四元组，所述四元组包括锚点的特征向量、正样本的特征向量、负样本的特征向量以及假样本的特征向量，所述锚点为质量合格的病历数据，所述正样本为与所述锚点类别相同且质量合格的病历数据，所述负样本为与所述锚点类别不相同且质量合格的病历数据，所述假样本为质量不合格的病历数据；

训练单元，用于将所述至少2个训练样本依次输入构建好的深度神经网络dnn模型进行训练，使训练后所述dnn模型的损失函数减小至预设波动范围，所述dnn模型的损失函数为四元组损失函数，所述四元组损失函数由所述锚点的特征向量输入所述dnn模型得到的嵌入向量分别与所述正样本的特征向量、所述负样本的特征向量、所述假样本的特征向量输入所述dnn模型得到的嵌入向量之间的差异确定；

处理单元，用于将待预测病历数据的特征向量输入训练好的dnn模型中处理，得到所述待预测病历数据对应的目标嵌入向量；

第一确定单元，用于根据所述目标嵌入向量与质量嵌入向量之间的距离、以及预设的质量异常距离，确定所述待预测病历数据的质量。

9.一种电子设备，其特征在于，包括处理器和存储器，所述处理器和存储器相互连接，其中，所述存储器用于存储计算机程序，所述计算机程序包括程序指令，所述处理器被配置用于调用所述程序指令，执行如权利要求1-7任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机存储介质存储有计算机程序，所述计算机程序包括程序指令，所述程序指令当被处理器执行时使所述处理器执行如权利要求1-7任一项所述的方法。

技术总结
本申请涉及人工智能技术领域，实施例公开了一种基于深度神经网络的数据处理方法及装置，其中方法包括：获取至少2个训练样本，将该至少2个训练样本依次输入构建好的深度神经网络DNN模型进行训练，使训练后该DNN模型的损失函数减小至预设波动范围，该DNN模型的损失函数为四元组损失函数，将待预测病历数据的特征向量输入训练好的DNN模型中处理，得到该待预测病历数据对应的目标嵌入向量，根据该目标嵌入向量与质量嵌入向量之间的距离和预设的质量异常距离，确定该待预测病历数据的质量。采用本申请实施例，可以从多方面/多角度筛查病历数据的质量，提高质量筛查的准确度。另外，本申请可应用于智慧医疗领域中，从而推动智慧城市的建设。

技术研发人员：李彦轩;唐蕊;孙行智
受保护的技术使用者：平安科技(深圳)有限公司
技术研发日：2020.05.15
技术公布日：2020.09.22

完整全部详细技术资料下载

当前第2页1 2